OSGym 透過基礎架構優化,實現大規模電腦操作 Agent 訓練
OSGym 透過基礎架構優化,實現大規模電腦操作 Agent 訓練。
OSGym 是一套專為電腦操作 Agent 設計的可擴展基礎架構,透過系統級優化解決了大規模訓練時的資源瓶頸與穩定性問題。該系統讓研究人員能在有限的學術資源下,高效運行數千個作業系統沙盒,為通用電腦操作 Agent 的研究奠定了基礎。
訓練瓶頸與挑戰
訓練能像人類一樣操作電腦的 Agent 不僅是模型問題,更是嚴峻的基礎架構挑戰。現有方法在擴展時面臨以下困難:
- 每個任務都需要完整的作業系統環境(包含 GUI、應用程式、瀏覽器等),導致 CPU、記憶體與磁碟資源消耗巨大。
- 軟體環境複雜,容易產生隨機崩潰。
- 在缺乏優化管理的情況下,擴展至數千個實例會導致效能下降與連鎖故障,且雲端託管成本對學術研究而言過於昂貴。
核心設計策略
OSGym 透過四項關鍵策略實現了高效能與低成本的平衡:
- 去中心化狀態管理:每個 OS 副本擁有獨立的狀態管理器,負責監控健康狀況與故障恢復,避免單點故障導致系統崩潰。
- 硬體感知編排:將系統瓶頸從 CPU 轉移至記憶體(RAM),透過增加群組規模(K 值)來優化資源利用,使擴展性提升 10 倍。
- KVM 與寫入時複製 (Copy-on-Write):利用檔案系統層級的 reflink 技術,多個沙盒共享基礎磁碟映像,僅儲存修改過的區塊,使磁碟空間使用率降低 88%,磁碟配置速度提升 37 倍。
- 穩健的容器池:透過預熱的執行池與多層級故障恢復機制(包含步驟級重試與任務級重新分配),確保訓練流程不因單一實例故障而中斷。
實際效能與影響
OSGym 在學術資源限制下展現了極高的擴展性與經濟效益:
- 支援每分鐘產生 1,420 個多輪軌跡 (trajectories)。
- 將每個沙盒的每日成本降低至 0.2 至 0.3 美元,較標準部署成本減少 90%。
- 成功在有限資源下管理超過 1,000 個 OS 沙盒,支援包含網頁瀏覽、文件編輯、軟體工程與多應用工作流等廣泛任務。
- 透過統一的 End to End (端到端) 流程,將資料收集與訓練緊密結合。
How do you train AI agents that can use computers like humans?
— Zengyi Qin (@qinzytech) April 6, 2026
Introducing OSGym: Scalable OS Infrastructure for Computer Use Agents. It’s large-scale training made possible by extensive infra optimization:
• 1024 OS sandboxes running in parallel
• $0.23 / sandbox / day (90%… pic.twitter.com/9YrXMNeyRr
Training Computer Use agents is not just a modeling problem. It’s an infrastructure challenge:
— Zengyi Qin (@qinzytech) April 6, 2026
• Each task needs a full OS (GUI, apps, browser, etc.)
• Scaling → massive CPU / RAM / disk costs
• Random crashes from real software environments
• Thousands of parallel…
The key insight behind OSGym: Don’t scale like traditional systems.
— Zengyi Qin (@qinzytech) April 6, 2026
• Decentralize each OS replica (no global bottleneck)
• Shift from CPU-bound → RAM-bound scaling (10× more scalable)
• Use XFS reflink copy-on-write disks (37x faster disk provisioning)
The result:…
Might be of interest to people in the field: @xf1280 @pangolin @anmol01gulati @EdwardSun0909 @ren_hongyu @caseychu9 @jhyuxm @ehsanik @forwarddeploy @elonmusk
— Zengyi Qin (@qinzytech) April 6, 2026
