# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Sakana AI (@SakanaAILabs) · 平台：X (Twitter) · 日期：2026-04-27

> 原始來源：https://x.com/SakanaAILabs/status/2048777689763639741

## 中文摘要

Sakana AI 推出「Conductor」模型，透過強化學習訓練 7B 規模 AI 作為經理人，動態協調多個前沿 LLM 超越單一模型，在 LiveCodeBench 達 83.9%、GPQA-Diamond 達 87.5%。

Sakana AI 發表 ICLR 2026 論文「Learning to Orchestrate Agents in Natural Language with the Conductor」，提出全新「Conductor」模型，不直接解決問題，而是如經理人般委派任務給多元 AI 團隊，透過純 End to End (端到端) 獎勵最大化，自動發掘協調策略，超越傳統人類設計的僵硬工作流程或簡單路由器。

**Conductor 的訓練與核心機制**

Conductor 採用強化學習訓練 7B 模型，針對前沿模型池（如 GPT-5、Gemini、Claude 及當時開放原始碼模型），輸出自然語言協作工作流程，而非執行程式碼。對於任意問題，Conductor 指定：
- 呼叫哪個 Agent
- 給予特定子任務（充當專家提示工程師）
- Agent 可見的前文訊息範圍（context window）

透過隨機 Agent 池訓練，Conductor 適應任意開放或封閉原始碼 Agent 組合，滿足使用者需求。論文強調，這是早期證明語言模型協調可透過強化學習解鎖，強大策略自然浮現。

**驚人行為與效能突破**

純 End to End 獎勵最大化下，Conductor 自適應任務難度：簡單事實問題一擊即中，複雜程式設計問題則自動建構 planner-executor-verifier 管道。7B Conductor 超越池中所有單一 worker 模型，在發表時於 LiveCodeBench 創 83.9%、GPQA-Diamond 創 87.5% 紀錄，遠勝昂貴多 Agent 基準如 Mixture-of-Agents，且成本僅其一小部分。

作者視其為頂尖 meta-prompt 工程師，動態 harness 集體智慧，證明人類團隊委派模式可移植至 AI。

**遞迴測試時擴展（Recursive Test-Time Scaling）**

最受青睞功能為遞迴測試時擴展：允許 Conductor 選自己為 worker，閱讀團隊先前輸出，察覺失敗即即時啟動修正工作流程。此開啟推理時動態擴展運算的新維度，產生遞迴拓撲，提升效能透過線上迭代適應。

**Sakana Fugu：商業多 Agent 系統**

此研究與稍早「TRINITY」論文（arxiv.org/abs/2512.04695）結合，驅動 Sakana AI 新多 Agent 系統「Sakana Fugu」（sakana.ai/fugu-beta），2026 年 4 月 24 日開放 beta 測試申請，為旗艦國際商業 AI 產品，以 API 形式提供，內部已成研究工程師關鍵工具。

Fugu 協調前沿基礎模型池，在程式設計、數學、科學推理等達頂尖效能。Sakana AI 核心信念：最強 AI 非單一巨型模型，而是專精 Agent 集合合作，此脈絡貫穿其作品如 evolutionary model merging（多元開源模型合併產生單一模型無之能力）、AI Scientist（Agent 自治執行科學研究全循環）、ShinkaEvolve（演化搜尋 LLM 生成程式，超越人類演算法）、AB-MCTS（多前沿模型樹狀搜尋合作，勝單一模型）。

**Fugu 解決傳統痛點**

傳統基礎模型使用需管理多 API 金鑰，各供應商模型專精不同領域，造成經濟低效；模型優勢常問題特定而非廣域，使用者難細粒度切換優化。Fugu 模型動態協調多元強大模型池，不依領域知識預設團隊組織、角色或工作流程，而是學習組裝 Agent 並透過非顯而易見的高效協作模式協調。

基於 ICLR 2026「Trinity」與「Conductor」論文，Fugu 大幅改善效能與使用者體驗，提供商業產品。Fugu 本身為小型語言模型，訓練中學會呼叫自身，實現測試時擴展；實際協調適應性強、複雜。

**基準效能對比**

Fugu 在既有基準展現優勢，以下為 beta 階段子集結果：

| 任務          | Gemini 3.1 (high) | GPT 5.4 (high) | Opus 4.6 (max) | fugu-mini 🐟 | fugu-ultra 🐡 |
|---------------|-------------------|----------------|----------------|--------------|---------------|
| GPQA-D       | 94.4             | 90.9          | 92.7          | 92.4        | **95.1**     |
| LCBv6        | 90.3             | 92.1          | 92.4          | 90.4        | **93.2**     |
| SWEPro       | 48.4             | 51.2          | 53.4          | 51.3        | **54.2**     |

fugu-ultra 在 GPQA-D 達 95.1%、LCBv6 達 93.2%、SWEPro 達 54.2%，勝過 Gemini 3.1、GPT 5.4、Opus 4.6 等。

**使用 Sakana Fugu**

Fugu 相容標準 OpenAI 格式端點，若已用 GPT、Gemini 或 Claude API，可最小變更整合既有工作流程；後端自動處理模型池協調、建立協作拓撲、指派角色、派遣子任務完成複雜任務。

兩變體：
- **Sakana Fugu Mini 🐟**：優化延遲，適合快速需求
- **Sakana Fugu Ultra 🐡**：全協調系統，優化高難任務效能

**Beta 測試招募**

Sakana AI 邀研究員與工程師跨領域加入早期測試，了解 Fugu 在未內測領域表現、不足之處，以及此類系統所需功能。適用於程式碼助理如 OpenCode、Codex，或工程、商業專案，檢視 Fugu 是否帶來效能或新穎優勢。

**論文與資源**

- 「TRINITY: An Evolved LLM Coordinator」（ICLR 2026）：arxiv.org/abs/2512.04695
- 「Learning to Orchestrate Agents in Natural Language with the Conductor」（ICLR 2026）：arxiv.org/abs/2512.04388；OpenReview：openreview.net/forum?id=U23A2BUKYt

此研究彰顯多 Agent 協調未來，Conductor 與 Fugu 挑戰單一模型霸權，強調集體智慧與動態適應，預示 AI 系統從孤立巨獸轉向靈活團隊。

## 標籤

Agent, 研究論文, 新產品, Benchmark, Sakana AI
