# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Zengyi Qin (@qinzytech) · 平台：X (Twitter) · 日期：2026-04-07

> 原始來源：https://x.com/qinzytech/status/2041189692775776553

## 中文摘要

OSGym 透過基礎架構優化，實現大規模電腦操作 Agent 訓練。

OSGym 是一套專為電腦操作 Agent 設計的可擴展基礎架構，透過系統級優化解決了大規模訓練時的資源瓶頸與穩定性問題。該系統讓研究人員能在有限的學術資源下，高效運行數千個作業系統沙盒，為通用電腦操作 Agent 的研究奠定了基礎。

**訓練瓶頸與挑戰**
訓練能像人類一樣操作電腦的 Agent 不僅是模型問題，更是嚴峻的基礎架構挑戰。現有方法在擴展時面臨以下困難：
- 每個任務都需要完整的作業系統環境（包含 GUI、應用程式、瀏覽器等），導致 CPU、記憶與磁碟資源消耗巨大。
- 軟體環境複雜，容易產生隨機崩潰。
- 在缺乏優化管理的情況下，擴展至數千個實例會導致效能下降與連鎖故障，且雲端託管成本對學術研究而言過於昂貴。

**核心設計策略**
OSGym 透過四項關鍵策略實現了高效能與低成本的平衡：
- **去中心化狀態管理**：每個 OS 副本擁有獨立的狀態管理器，負責監控健康狀況與故障恢復，避免單點故障導致系統崩潰。
- **硬體感知編排**：將系統瓶頸從 CPU 轉移至記憶（RAM），透過增加群組規模（K 值）來優化資源利用，使擴展性提升 10 倍。
- **KVM 與寫入時複製 (Copy-on-Write)**：利用檔案系統層級的 reflink 技術，多個沙盒共享基礎磁碟映像，僅儲存修改過的區塊，使磁碟空間使用率降低 88%，磁碟配置速度提升 37 倍。
- **穩健的容器池**：透過預熱的執行池與多層級故障恢復機制（包含步驟級重試與任務級重新分配），確保訓練流程不因單一實例故障而中斷。

**實際效能與影響**
OSGym 在學術資源限制下展現了極高的擴展性與經濟效益：
- 支援每分鐘產生 1,420 個多輪軌跡 (trajectories)。
- 將每個沙盒的每日成本降低至 0.2 至 0.3 美元，較標準部署成本減少 90%。
- 成功在有限資源下管理超過 1,000 個 OS 沙盒，支援包含網頁瀏覽、文件編輯、軟體工程與多應用工作流等廣泛任務。
- 透過統一的 End to End (端到端) 流程，將資料收集與訓練緊密結合。

## 標籤

Agent, 開源專案, 研究論文, OSGym
