# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Boris (@BorisMeinardus) · 平台：X (Twitter) · 日期：2026-04-21

> 原始來源：https://x.com/borismeinardus/status/2045992266146210221

## 中文摘要

AC/DC透過共同演化小規模專家LLM群體，超越單一大型模型如GPT-4o。

**AC/DC核心概念**  
Assessment Coevolving w/ Diverse Capabilities (AC/DC) 是一種持續共同演化的方法，透過生成合成任務群體與小型LLM群體，追求開放式過程，發掘LLM群體中分歧的專業知識，並以日益新穎且具挑戰性的任務推動LLM超越GPT-4o。作者質疑為何單一大型LLM必須通曉一切，正如無單一人類能如此，卻能透過文明無盡創新實現突破；AC/DC模擬此集體智慧，培養多樣小專家LLM，集體表現優於GPT-4o。（ICLR 2026，與@SakanaAILabs合作）

**效能超越大型模型**  
AC/DC發掘多組7B/14B小型LLM任務小組，其測試時知識涵蓋度超越大型LLM家族對手如GPT-4o及其他多回應基準。更關鍵的是，這些任務小組的總參數遠少於大型模型，證明小規模專家組合能高效達成廣泛覆蓋，而非依賴龐大單體。

**開放式任務生成與演進**  
AC/DC採用無界限的合成任務生成過程（非benchmaxxing），不針對特定基準最佳化，卻能讓模型超越其初始血統，並持續改善演化LLM。透過獨特性OOD技能提取任務小組，任務逐漸變得更具趣味性，推動LLM突破能力邊界，並以LLM-as-a-judge推理細膩評估可觀察技能。例如，綠色方塊任務要求複雜類比，或淺藍色任務需迴避提及AI本質，展現爆發性創新。

**任務小組互補優勢**  
AC/DC任務共同演化產生互補專家LLM，其專業廣度明顯優於現成模型。蜘蛛圖顯示任務小組LLM在特定科目獨佔鰲頭，並整體涵蓋更多技能，凸顯集體演化如何填補單模型盲點，避免大型LLM的脆性與高成本。

**單一答案應用效能**  
許多情境需單一（best-of-N）最終答案，而非多回應。僅用3個14B模型的AC/DC任務小組，施加BoN技巧，即達GPT-4o效能的3.17%差距；擴至8模型小組，差距縮至1.02%，彰顯結合互補BoN策略的擴展潛力，預示未來可進一步逼近或超越邊緣LLM。

**人類智慧啟發與批判**  
邊緣LLM昂貴且易脆，正如人類智慧非源自單一天才，而是世界與文明的開放式共同演化；AC/DC實作此機制，產生眾多湧現專家LLM。作者諷刺單一巨型LLM的局限，強調集體演化更貼近自然創新路徑。

**基礎研究貢獻**  
AC/DC立足巨人肩上：Jonathan Brant與@kenneth0stanley的「Benchmarking open-endedness in minimal criterion coevolution」（2019，https://dl.acm.org/doi/10.1145/3321707.3321756）以最簡MCC展示開放性，引入新型迷宮編碼實現無限擴張複雜度，建立基準。  
「Paired Open-Ended Trailblazer (POET)」（Rui Wang等，2019，https://arxiv.org/abs/1901.01753）配對生成環境挑戰與代理優化，探索問題-解答空間，允許轉移解法催化創新，證明開放性對解決雄心挑戰至關重要。  
「OMNI-EPIC」（Maxence Faldor等，2024，https://arxiv.org/abs/2405.15568）擴充OMNI，運用基礎模型生成程式碼定義環境與獎勵，自主產生適合難度且有趣任務，爆發創造力推進自改善AI。  
「LLM-POET」（Fuma Aki等，2024，https://arxiv.org/abs/2406.04663）修改POET，用LLM生成與變異環境，比Enhanced-POET的CPPN提升34%共同演化效能，讓代理習得更多元技能。  
「Dominated Novelty Search (DNS)」（Ryan Bahlous-Boldi等，2025，https://arxiv.org/abs/2502.00593）重構本地競爭為動態適應度轉換，無需預設邊界，在高維與無監督空間大幅優於既有QD方法。  
「Automated Capability Discovery (ACD)」（Cong Lu等，2025，https://arxiv.org/abs/2502.07577）指定基礎模型為科學家，系統生成開放任務探測主體模型能力，自動揭露數千任務與數十能力區塊，驗證模型評分與人類高度一致。

**新興趨勢與未來展望**  
領域趨勢浮現：專家LLM可透過參數空間的意外發現（serendipity）發掘，如@yule_gan推文（https://x.com/yule_gan/status/2032482266773926281）。展望將AC/DC抽象應用遞迴自改善：LLM候選者間是否引發激烈競爭提出無盡挑戰，或專家群組形成部落合作？（參@jennyzhangzt推文，https://x.com/jennyzhangzt/status/2036099935083618487）此開放式競爭或合作，將重塑AI演化路徑。

## 標籤

LLM, 研究論文, 產業趨勢, Sakana AI, OpenAI, GPT
