# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Amit Shekhar (@amitiitbhu) · 平台：X (Twitter) · 日期：2026-06-24

> 原始來源：https://x.com/amitiitbhu/status/2069023290182758497

## 中文摘要

Sakana Fugu 透過模型協作實現效能超越。

Sakana AI 團隊發表的「Sakana Fugu 技術報告」提出了一種新的 AI 擴展維度：透過編排（Orchestration）讓現有的強大模型組成團隊，而非僅依賴單一大型模型的訓練。這種方法解決了單一模型在特定領域（如數學、程式開發、科學研究）表現不均的限制，並能靈活應對模型存取受限或效能波動的問題。

**核心架構與運作機制**
Sakana Fugu 包含兩種針對不同需求設計的變體：
- **Fugu**：專注於平衡速度與品質，針對每個輸入選擇單一最佳模型，適用於日常程式開發與對話。其核心在於「輕量級選擇頭（Lightweight Selection Head）」，直接讀取語言模型主幹的隱藏狀態（hidden state）並輸出各模型的評分，無需生成完整文字即可完成調度，大幅降低延遲。
- **Fugu-Ultra**：專注於極致品質，透過「Conductor」框架編排多個模型協作，適用於複雜的多步驟任務。它能產生包含子任務指令、工作者 ID 與存取清單的「Agentic 工作流」，並透過「GRPO（Group Relative Policy Optimization）」進行強化學習訓練，根據群體內部的相對獎勵進行優化。

**訓練策略與演化方法**
- **監督式微調（SFT）**：Fugu 透過將各模型的平均獎勵轉換為軟目標（Soft Target）機率分佈，並利用 KL 散度（KL divergence）進行訓練，使模型能精準判斷何時該呼叫哪位專家。
- **演化策略（Evolutionary Strategies）**：針對端到端任務，由於缺乏明確的梯度訊號，團隊採用 `sep-CMA-ES` 演算法。透過嘗試多種變體、保留表現最佳者並向其靠攏，讓 Fugu 在無梯度情況下持續進化。

**團隊協作與記憶管理**
為了防止 Agent 之間出現「編排崩潰（Orchestration Collapse）」或互相抄襲，系統採取了以下措施：
- **工作流內隔離（Intra-workflow isolation）**：在單一工作流中，Agent 僅能透過存取清單查看特定資訊，確保各成員保持獨立思考。
- **持久化共享記憶（Persistent shared memory）**：在跨工作流的對話中，Agent 共享過去的工具呼叫記錄與事實，避免重複執行相同任務。

**實際效能與湧現策略**
在 `SWE Bench Pro`、`Terminal Bench 2.1` 與 `GPQA Diamond` 等高難度基準測試中，Fugu-Ultra 的表現超越了其池中的所有單一模型（如 Claude Opus 4.8、GPT-5.5、Gemini 3.1）。此外，系統在訓練過程中自動湧現了幾種高效策略：
- **辯論與聚合（Debate and aggregation）**：讓多個模型獨立嘗試，再由聚合者篩選正確資訊。
- **建構與除錯（Build and debug）**：由 GPT 負責編寫程式碼，Opus 負責偵測安全漏洞與除錯。
- **引入專家（Bringing in a specialist）**：僅在特定技能需求時呼叫對應的專家模型。

這種編排模式證明了透過良好的管理與協作，AI 團隊的整體效能可以顯著高於任何單一成員，為 AI 系統的擴展提供了全新的路徑。

## 標籤

研究論文, Agent, LLM, Sakana AI
