Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境
Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。
卡內基美隆大學團隊推出的「Gym-Anything」框架,旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動化流程,將任何軟體轉化為可供 Agent 進行真實工作的環境,並結合「CUA-World」基準測試集,涵蓋了 200 多種具備經濟價值的專業軟體,為評估 Agent 在複雜、長週期任務中的表現提供了新標準。
核心痛點與解決方案
目前的 AI Agent 評測往往過於簡化,僅關注短時間任務或消費級應用,忽略了現實工作中專業軟體(如放射科工具、ERP 系統、地震監測軟體)的重要性。建立這些專業環境的人力成本極高,難以擴展。Gym-Anything 的核心洞察在於:建立環境本身就是一個可以由 Agent 完成的任務。該框架透過以下自動化管線解決了擴展性問題:
- GDP 導向選擇:根據美國 GDP 資料,識別出對經濟活動最具影響力的軟體,確保涵蓋所有 22 個主要職業類別。
- Agent 自動建置:利用程式撰寫 Agent 自動下載、安裝並配置軟體,同時由獨立的審核 Agent 進行品質檢查,確保環境符合生產標準。
- 規模化任務生成:透過 Agent 實際操作軟體產生種子任務,再利用大型語言模型(LLM)擴充至 1 萬多個經過驗證的任務。
CUA-World 基準測試集
作為 Gym-Anything 的應用成果,CUA-World 提供了極具挑戰性的評測環境:
- 多樣化覆蓋:包含 200 多種真實軟體(如 Blender、OpenRocket、GNU Health、NinjaTrader 等),支援 Linux、Windows 與 Android 平台。
- 長週期挑戰:推出「CUA-World-Long」基準,包含需要 500 個以上步驟的複雜任務,遠超現有基準測試的難度。
- 評估嚴謹性:每個任務均配備基於清單的驗證器,並利用特權資訊確保評估的可靠性。
技術影響與效能表現
研究顯示,在 CUA-World 上進行訓練能顯著提升 Agent 的能力。一個從 Agent 軌跡中蒸餾出的 2B 模型,其表現優於參數規模兩倍的基礎模型,且隨著軟體與任務數量的增加,效能呈現對數線性成長。然而,目前的模型表現仍有巨大進步空間,即使是擁有無限預算的 GPT-5.4,在 CUA-World-Long 上的成功率也僅達 27.5%,顯示出該領域仍面臨嚴峻挑戰。
模組化架構與開源
Gym-Anything 採用模組化設計,提供統一的 API,讓開發者能輕鬆整合不同的 Agent 與環境:
- Core:負責執行環境、發送動作、擷取觀察結果並執行驗證。
- Benchmarks:提供現成的環境與任務集合,支援 End to End (端到端) 的測試流程。
- Agents:支援多種主流 Agent 模型,並允許使用者自行接入。
該專案已將基礎設施、資料集與程式庫全面開源,旨在推動 AI Agent 在真實專業領域的實際應用研究。
What if computer-use agents could do real work?
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
We built Gym-Anything: a framework that turns any software into a computer-use agent environment.
We used it to create CUA-World: 200+ real software, 10,000+ tasks and environments, across all major occupation groups, from medical… pic.twitter.com/8fBNHzXVmG
🌐: https://t.co/LL52ZSGbuj
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
Current benchmarks test agents on short tasks over a few consumer apps. But real work happens in specialized professional software – radiology tools, ERP systems, seismology monitors. Scaling environments for these is tough!
2/9 pic.twitter.com/B3wm5AquzJ
Gym-Anything uses coding and computer-use agents themselves to construct new computer-use environments. A coding agent downloads, installs, and configures software with real data. An independent visual audit agent verifies that the setup is correct.
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
3/9 pic.twitter.com/7FXFW1QuyF
But which software to build for? We prioritize software applications that drive economic activity. We ground our selection on US GDP data, targeting software with high impact and high occupational coverage. For the first release, we selected 200 software applications across… pic.twitter.com/o4yFqEoBQu
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
The result is CUA-World:
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
🖥️ 200+ software applications (Blender, OpenRocket, GNU Health, NinjaTrader, KStars, Canvas...)
📋 10K+ tasks with train/test splits
💻 Linux, Windows, and Android
🏗️ All major occupation groups
⏱️ CUA-World-Long: 200 tasks requiring 500+ steps pic.twitter.com/F3FfSt980D
Does training on CUA-World help? Yes! A 2B model distilled from agent trajectories outperforms the 4B base model. Performance continues to scale log-linearly as more software and tasks are added. pic.twitter.com/drejCYEaR1
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
We also introduce CUA-World-Long, a very difficult long-horizon benchmark that contains one difficult task per software. Even GPT-5.4 with an unlimited budget reaches only 27.5%. pic.twitter.com/il5p11HwWy
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
Bonus: We also built a modular library to make running agents super simple. Single API regardless of software or platform. Works on laptops, SLURM clusters, and remote machines with parallelization and load balancing built in. pic.twitter.com/3vy7s3Mknt
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
We are open-sourcing everything: infra, data, the library, and the tech report!
— Pranjal Aggarwal (@PranjalAggarw16) April 8, 2026
Code: https://t.co/mEJe6pmNDg
Website: https://t.co/LL52ZSGbuj
Paper: https://t.co/MJIGPGj3Zh
w/ @wellecks @gneubig
