← 返回首頁
Satya Nadella
Satya Nadella
@satyanadella
3,551🔁 416
𝕏 (Twitter)🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

多模型深度研究的新進展

Microsoft 365 Copilot 的深度研究 Agent「Researcher」推出了兩項多模型功能——Critique 和 Council——透過結合來自 Anthropic 和 OpenAI 等 Frontier 實驗室的多個模型,顯著提升複雜研究任務的準確度、深度和信度。

Critique 的設計與運作

Critique 將傳統單一模型的「規劃、檢索、合成、撰寫」流程重新分工,採用兩個 AI 夥伴協作:一個模型負責深度探索和結構化整合,另一個模型專注於驗證主張、改善呈現方式和強化報告結構。這種「生成與評估分離」的架構透過強調評估環節,形成強大的回饋迴圈,進而提升事實準確性、分析廣度和呈現品質。

Critique 將成為 Researcher 的預設體驗,當使用者在模型選擇器中選擇「Auto」時啟用。評估流程參考學術與專業研究的同儕審查機制,採用基於評分標準的結構化審查,著重於以下面向:

  • 資訊來源可靠性評估:評論者強調使用公信力強、具權威性且符合領域的資訊來源,優先採納可驗證且適合研究語境的證據

  • 報告完整性:評論者檢視報告是否全面回應使用者需求,並提供相關且獨特的見解

  • 嚴格的證據立基執行:評論者強制執行保守的立基標準,要求每個關鍵主張都應錨定於可靠來源並附註精確引用,以強化事實準確性與報告的可信度

基準測試的優異表現

Critique 在 DRACO(深度研究準確性、完整性與客觀性)基準上進行了評估,涵蓋 100 項複雜研究任務、跨越 10 個領域(包括醫學、技術、法律等)。評估使用 OpenAI 的 GPT-5.2 作為語言模型評判者,沿著事實準確性、分析廣度與深度、呈現品質和引用品質四個維度進行。

結果顯示,Critique 相比單一模型的 Researcher 實現了顯著進步:

  • 分析廣度與深度提升 +3.33 分
  • 呈現品質提升 +3.04 分
  • 事實準確性提升 +2.58 分
  • 引用品質也有改善

所有提升都達到統計顯著水準(配對 t 檢驗,p < 0.0001)。相比論文中報告的最佳系統 Perplexity Deep Research(Claude Opus 4.6 模型),Researcher with Critique 在綜合評分上達到 +13.88% 的優勢,絕對改進達 +7.0 分(標準誤 ±1.90)。在 10 個領域中有 8 個領域實現統計顯著的改進。

Council 的比較視角

Council 提供另一種方法,讓 Anthropic 和 OpenAI 的模型同時運行,各自生成完整的獨立報告。完成後,一個專門的評判模型對兩份報告進行評估,生成核心發現的精煉摘要,突出模型的共識點與分歧之處(包括強度、框架或詮釋的差異),並標註每個模型的獨特貢獻。

立即可用

Critique 和 Council 今日已在 Frontier 計畫中廣泛提供。