← 返回首頁

OSGym 透過基礎架構優化,實現大規模電腦操作 Agent 訓練

Zengyi Qin
Zengyi Qin
@qinzytech
356🔁 68
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

OSGym 透過基礎架構優化,實現大規模電腦操作 Agent 訓練。

OSGym 是一套專為電腦操作 Agent 設計的可擴展基礎架構,透過系統級優化解決了大規模訓練時的資源瓶頸與穩定性問題。該系統讓研究人員能在有限的學術資源下,高效運行數千個作業系統沙盒,為通用電腦操作 Agent 的研究奠定了基礎。

訓練瓶頸與挑戰
訓練能像人類一樣操作電腦的 Agent 不僅是模型問題,更是嚴峻的基礎架構挑戰。現有方法在擴展時面臨以下困難:

  • 每個任務都需要完整的作業系統環境(包含 GUI、應用程式、瀏覽器等),導致 CPU、記憶體與磁碟資源消耗巨大。
  • 軟體環境複雜,容易產生隨機崩潰。
  • 在缺乏優化管理的情況下,擴展至數千個實例會導致效能下降與連鎖故障,且雲端託管成本對學術研究而言過於昂貴。

核心設計策略
OSGym 透過四項關鍵策略實現了高效能與低成本的平衡:

  • 去中心化狀態管理:每個 OS 副本擁有獨立的狀態管理器,負責監控健康狀況與故障恢復,避免單點故障導致系統崩潰。
  • 硬體感知編排:將系統瓶頸從 CPU 轉移至記憶體(RAM),透過增加群組規模(K 值)來優化資源利用,使擴展性提升 10 倍。
  • KVM 與寫入時複製 (Copy-on-Write):利用檔案系統層級的 reflink 技術,多個沙盒共享基礎磁碟映像,僅儲存修改過的區塊,使磁碟空間使用率降低 88%,磁碟配置速度提升 37 倍。
  • 穩健的容器池:透過預熱的執行池與多層級故障恢復機制(包含步驟級重試與任務級重新分配),確保訓練流程不因單一實例故障而中斷。

實際效能與影響
OSGym 在學術資源限制下展現了極高的擴展性與經濟效益:

  • 支援每分鐘產生 1,420 個多輪軌跡 (trajectories)。
  • 將每個沙盒的每日成本降低至 0.2 至 0.3 美元,較標準部署成本減少 90%。
  • 成功在有限資源下管理超過 1,000 個 OS 沙盒,支援包含網頁瀏覽、文件編輯、軟體工程與多應用工作流等廣泛任務。
  • 透過統一的 End to End (端到端) 流程,將資料收集與訓練緊密結合。