# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Pranjal Aggarwal (@PranjalAggarw16) · 平台：X (Twitter) · 日期：2026-04-09

> 原始來源：https://x.com/PranjalAggarw16/status/2041881236528832517

## 中文摘要

Gym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。

卡內基美隆大學團隊推出的「Gym-Anything」框架，旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動化流程，將任何軟體轉化為可供 Agent 進行真實工作的環境，並結合「CUA-World」基準測試集，涵蓋了 200 多種具備經濟價值的專業軟體，為評估 Agent 在複雜、長週期任務中的表現提供了新標準。

**核心痛點與解決方案**
目前的 AI Agent 評測往往過於簡化，僅關注短時間任務或消費級應用，忽略了現實工作中專業軟體（如放射科工具、ERP 系統、地震監測軟體）的重要性。建立這些專業環境的人力成本極高，難以擴展。Gym-Anything 的核心洞察在於：建立環境本身就是一個可以由 Agent 完成的任務。該框架透過以下自動化管線解決了擴展性問題：
- **GDP 導向選擇**：根據美國 GDP 資料，識別出對經濟活動最具影響力的軟體，確保涵蓋所有 22 個主要職業類別。
- **Agent 自動建置**：利用程式撰寫 Agent 自動下載、安裝並配置軟體，同時由獨立的審核 Agent 進行品質檢查，確保環境符合生產標準。
- **規模化任務生成**：透過 Agent 實際操作軟體產生種子任務，再利用大型語言模型（LLM）擴充至 1 萬多個經過驗證的任務。

**CUA-World 基準測試集**
作為 Gym-Anything 的應用成果，CUA-World 提供了極具挑戰性的評測環境：
- **多樣化覆蓋**：包含 200 多種真實軟體（如 Blender、OpenRocket、GNU Health、NinjaTrader 等），支援 Linux、Windows 與 Android 平台。
- **長週期挑戰**：推出「CUA-World-Long」基準，包含需要 500 個以上步驟的複雜任務，遠超現有基準測試的難度。
- **評估嚴謹性**：每個任務均配備基於清單的驗證器，並利用特權資訊確保評估的可靠性。

**技術影響與效能表現**
研究顯示，在 CUA-World 上進行訓練能顯著提升 Agent 的能力。一個從 Agent 軌跡中蒸餾出的 2B 模型，其表現優於參數規模兩倍的基礎模型，且隨著軟體與任務數量的增加，效能呈現對數線性成長。然而，目前的模型表現仍有巨大進步空間，即使是擁有無限預算的 GPT-5.4，在 CUA-World-Long 上的成功率也僅達 27.5%，顯示出該領域仍面臨嚴峻挑戰。

**模組化架構與開源**
Gym-Anything 採用模組化設計，提供統一的 API，讓開發者能輕鬆整合不同的 Agent 與環境：
- **Core**：負責執行環境、發送動作、擷取觀察結果並執行驗證。
- **Benchmarks**：提供現成的環境與任務集合，支援 End to End (端到端) 的測試流程。
- **Agents**：支援多種主流 Agent 模型，並允許使用者自行接入。
該專案已將基礎設施、資料集與程式庫全面開源，旨在推動 AI Agent 在真實專業領域的實際應用研究。

## 標籤

Agent, 開源專案, Benchmark, Gym-Anything, 卡內基美隆大學
