# 策展 · X (Twitter) 🔥

> 作者：Satya Nadella (@satyanadella) · 平台：X (Twitter) · 日期：2026-03-31

> 原始來源：https://x.com/satyanadella/status/2038604619795042716

## 中文摘要

Microsoft 365 Copilot 的深度研究 Agent「Researcher」推出了兩項多模型功能——Critique 和 Council——透過結合來自 Anthropic 和 OpenAI 等 Frontier 實驗室的多個模型，顯著提升複雜研究任務的準確度、深度和信度。

**Critique 的設計與運作**

Critique 將傳統單一模型的「規劃、檢索、合成、撰寫」流程重新分工，採用兩個 AI 夥伴協作：一個模型負責深度探索和結構化整合，另一個模型專注於驗證主張、改善呈現方式和強化報告結構。這種「生成與評估分離」的架構透過強調評估環節，形成強大的回饋迴圈，進而提升事實準確性、分析廣度和呈現品質。

Critique 將成為 Researcher 的預設體驗，當使用者在模型選擇器中選擇「Auto」時啟用。評估流程參考學術與專業研究的同儕審查機制，採用基於評分標準的結構化審查，著重於以下面向：

- **資訊來源可靠性評估**：評論者強調使用公信力強、具權威性且符合領域的資訊來源，優先採納可驗證且適合研究語境的證據

- **報告完整性**：評論者檢視報告是否全面回應使用者需求，並提供相關且獨特的見解

- **嚴格的證據立基執行**：評論者強制執行保守的立基標準，要求每個關鍵主張都應錨定於可靠來源並附註精確引用，以強化事實準確性與報告的可信度

**基準測試的優異表現**

Critique 在 DRACO（深度研究準確性、完整性與客觀性）基準上進行了評估，涵蓋 100 項複雜研究任務、跨越 10 個領域（包括醫學、技術、法律等）。評估使用 OpenAI 的 GPT-5.2 作為語言模型評判者，沿著事實準確性、分析廣度與深度、呈現品質和引用品質四個維度進行。

結果顯示，Critique 相比單一模型的 Researcher 實現了顯著進步：

- 分析廣度與深度提升 +3.33 分
- 呈現品質提升 +3.04 分
- 事實準確性提升 +2.58 分
- 引用品質也有改善

所有提升都達到統計顯著水準（配對 t 檢驗，p < 0.0001）。相比論文中報告的最佳系統 Perplexity Deep Research（Claude Opus 4.6 模型），Researcher with Critique 在綜合評分上達到 +13.88% 的優勢，絕對改進達 +7.0 分（標準誤 ±1.90）。在 10 個領域中有 8 個領域實現統計顯著的改進。

**Council 的比較視角**

Council 提供另一種方法，讓 Anthropic 和 OpenAI 的模型同時運行，各自生成完整的獨立報告。完成後，一個專門的評判模型對兩份報告進行評估，生成核心發現的精煉摘要，突出模型的共識點與分歧之處（包括強度、框架或詮釋的差異），並標註每個模型的獨特貢獻。

**立即可用**

Critique 和 Council 今日已在 Frontier 計畫中廣泛提供。

## 標籤

Agent, 功能更新, 產業趨勢, Copilot, Microsoft, Anthropic, OpenAI
