← 返回首頁

Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境

Pranjal Aggarwal
Pranjal Aggarwal
@PranjalAggarw16
304🔁 62
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。

卡內基美隆大學團隊推出的「Gym-Anything」框架,旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動化流程,將任何軟體轉化為可供 Agent 進行真實工作的環境,並結合「CUA-World」基準測試集,涵蓋了 200 多種具備經濟價值的專業軟體,為評估 Agent 在複雜、長週期任務中的表現提供了新標準。

核心痛點與解決方案
目前的 AI Agent 評測往往過於簡化,僅關注短時間任務或消費級應用,忽略了現實工作中專業軟體(如放射科工具、ERP 系統、地震監測軟體)的重要性。建立這些專業環境的人力成本極高,難以擴展。Gym-Anything 的核心洞察在於:建立環境本身就是一個可以由 Agent 完成的任務。該框架透過以下自動化管線解決了擴展性問題:

  • GDP 導向選擇:根據美國 GDP 資料,識別出對經濟活動最具影響力的軟體,確保涵蓋所有 22 個主要職業類別。
  • Agent 自動建置:利用程式撰寫 Agent 自動下載、安裝並配置軟體,同時由獨立的審核 Agent 進行品質檢查,確保環境符合生產標準。
  • 規模化任務生成:透過 Agent 實際操作軟體產生種子任務,再利用大型語言模型(LLM)擴充至 1 萬多個經過驗證的任務。

CUA-World 基準測試集
作為 Gym-Anything 的應用成果,CUA-World 提供了極具挑戰性的評測環境:

  • 多樣化覆蓋:包含 200 多種真實軟體(如 Blender、OpenRocket、GNU Health、NinjaTrader 等),支援 Linux、Windows 與 Android 平台。
  • 長週期挑戰:推出「CUA-World-Long」基準,包含需要 500 個以上步驟的複雜任務,遠超現有基準測試的難度。
  • 評估嚴謹性:每個任務均配備基於清單的驗證器,並利用特權資訊確保評估的可靠性。

技術影響與效能表現
研究顯示,在 CUA-World 上進行訓練能顯著提升 Agent 的能力。一個從 Agent 軌跡中蒸餾出的 2B 模型,其表現優於參數規模兩倍的基礎模型,且隨著軟體與任務數量的增加,效能呈現對數線性成長。然而,目前的模型表現仍有巨大進步空間,即使是擁有無限預算的 GPT-5.4,在 CUA-World-Long 上的成功率也僅達 27.5%,顯示出該領域仍面臨嚴峻挑戰。

模組化架構與開源
Gym-Anything 採用模組化設計,提供統一的 API,讓開發者能輕鬆整合不同的 Agent 與環境:

  • Core:負責執行環境、發送動作、擷取觀察結果並執行驗證。
  • Benchmarks:提供現成的環境與任務集合,支援 End to End (端到端) 的測試流程。
  • Agents:支援多種主流 Agent 模型,並允許使用者自行接入。
    該專案已將基礎設施、資料集與程式庫全面開源,旨在推動 AI Agent 在真實專業領域的實際應用研究。