「Group-Evolving Agents (GEA)」透過群體演化取代個體演化,實現 AI 代理的累積式自我優化
「Group-Evolving Agents (GEA)」透過群體演化取代個體演化,實現 AI 代理的累積式自我優化。
這項研究指出,現有 AI 代理的自我演化機制存在根本缺陷:過度模仿生物個體演化,導致演化路徑孤立,發現的創新無法累積。GEA 提出了一種新範式,將「群體」視為演化的基本單位,透過共享經驗與協作,讓探索成果得以累積並持續優化,而非在孤立的分支中消逝。
核心問題與限制
目前的 AI 自我演化系統多採用「選擇單一父代代理 -> 優化 -> 產生後代」的樹狀演化模式。這種模式雖能產生多樣性,卻存在致命缺陷:
- 演化分支彼此孤立,探索成果無法跨分支傳遞。
- 大多數變體壽命短暫,創新僅停留在局部,難以成為長期進步的基石。
- 進步受限於設計時的結構限制,缺乏真正的自我重組能力,導致過度依賴人類干預。
GEA 的運作機制
GEA 重新定義了演化邏輯,將一組代理視為一個共同演化的實體,其核心流程包含:
- 父代群體選擇:依據「效能與新穎性」標準,選擇具備強大表現與探索多樣性的群體作為父代。
- 經驗聚合:打破個體隔離,將所有成員的經驗匯入共享池。
- 群體繁殖:利用匯集的經驗,由父代群體共同產生子代群體。
這種機制確保了探索成果被整合,而非浪費,使進步具備累積效應。
顯著的效能表現
在程式撰寫基準測試中,GEA 展現了超越現有 SOTA(最先進技術)的實力:
- SWE-bench Verified:GEA 達到 71.0% 成功率,顯著優於過往自我演化方法(56.7%)。
- Polyglot:GEA 達到 88.3% 成功率,遠超同類方法(68.3%)。
- 對比人類專家:GEA 在 SWE-bench Verified 上已追平人類頂尖 AI 科學家多年設計的框架水準,並在 Polyglot 測試中大幅超越人類設計的成果。
技術優勢與穩健性
分析顯示,GEA 的成功並非偶然,而是源於其結構性的優勢:
- 創新整合:GEA 能系統性地將不同父代的創新工具整合至最終代理中,避免好點子在孤立分支中流失。
- 群體提升:GEA 不僅產生單一「超級代理」,而是透過合併多樣化的演化路徑,提升了整個群體的品質。
- 模型通用性:GEA 的改進主要集中在工作流程與工具使用(如控制邏輯、驗證與重試機制),而非特定模型的提示詞,因此改進成果可跨 GPT 與 Claude 系列模型轉移。
- 抗干擾能力:在框架層面遭受破壞時,GEA 展現了極高的韌性,平均僅需 1.4 次迭代即可修復錯誤,遠優於個體演化系統的 5.0 次。
這項研究證實,AI 代理的開放式進步並非受限於探索的難度,而是受限於發現成果的累積機制。GEA 透過群體演化,成功將探索轉化為可累積的技術資產。
Introducing 𝐆𝐫𝐨𝐮𝐩-𝐄𝐯𝐨𝐥𝐯𝐢𝐧𝐠 𝐀𝐠𝐞𝐧𝐭𝐬 (𝐆𝐄𝐀), a new paradigm for open-ended self-improvement in AI agents.
— Xin Eric Wang (@xwang_lk) February 5, 2026
The core shift is simple but radical:
👉 𝐭𝐡𝐞 𝐮𝐧𝐢𝐭 𝐨𝐟 𝐞𝐯𝐨𝐥𝐮𝐭𝐢𝐨𝐧 𝐢𝐬 𝐧𝐨 𝐥𝐨𝐧𝐠𝐞𝐫 𝐚 𝐬𝐢𝐧𝐠𝐥𝐞 𝐚𝐠𝐞𝐧𝐭, 𝐛𝐮𝐭 𝐚 𝐠𝐫𝐨𝐮𝐩… pic.twitter.com/M9MXOyrTL6
Please check out our paper for more details: https://t.co/kWmyqiQau6.
— Xin Eric Wang (@xwang_lk) February 5, 2026
Huge kudos to the amazing GEA team from UCSB NLP: @WengZhaoti39773 (leading author), @anton_iades, @deepaknathani11, @zhenzhangzz, @XiaoSophiaPu, @xwang_lk! 🙌
🧵1/N
— Xin Eric Wang (@xwang_lk) February 7, 2026
Finally got time to dig into the paper on a Friday night. Results are wildly promising.
(1) Group-Evolving Agents (GEA) vs. SOTA "Self"-Evolving Agents
- On SWE-bench Verified: GEA jumps 20.0% → 71.0%, beating self-evolving DGM (56.7%).
- On Polyglot: GEA surges 38.2%… pic.twitter.com/sTRu9N3LXn
🧵2/N
— Xin Eric Wang (@xwang_lk) February 7, 2026
Evolution Analysis #1: GEA doesn't let good ideas die on isolated branches
As shown in the Figure below, across 9 key tool-level upgrades (T1–T9):
- GEA integrated 8/9 into its best agent
- DGM integrated only 5/9
The missing DGM tools did appear (e.g., T4 at iter 9)—they… pic.twitter.com/jAJZCgrWzA
🧵3/N
— Xin Eric Wang (@xwang_lk) February 7, 2026
Another signal GEA is actually consolidating (not just finding lucky outliers): ancestor integration + population-wide robustness.
On SWE-bench Verified:
Ancestor Count (unique contributors to the final agent)
- GEA Top-1: 17 ancestors (28.3% of population)
- DGM Top-1: 9… pic.twitter.com/KuehvNOGSk
🧵4/N
— Xin Eric Wang (@xwang_lk) February 7, 2026
GEA transfers across models
To test generalization, we swapped the acting module’s coding model with different GPT-series and Claude-series backbones at eval time—then compared iteration-0 vs. the best GEA-evolved agent.
Result: the GEA agent consistently beats the… pic.twitter.com/IXc7fwnkmN
🧵5/N
— Xin Eric Wang (@xwang_lk) February 7, 2026
Robustness test: can agents fix themselves when the framework breaks?
We injected framework-level bugs into agents and let them evolve.
- GEA: bugged agent evolves with a healthy peer → 1.4 iterations to repair (avg)
- Self-evolving (DGM): bugged agent evolves alone →… pic.twitter.com/3GCetlj4wY
