Sandboxes 是 Harness 時代的伺服器
Sandboxes 是 Harness 時代的伺服器
Harness 就是應用程式,而 Sandbox 就是伺服器。

應用程式運行在伺服器上:它使用運算資源、寫入檔案系統,並在重啟後維持狀態。Harness 與 Sandbox 之間也是同樣的關係。Harness 負責推理並呼叫工具,而 Sandbox 則提供隔離的執行環境。你可以獨立替換其中任何一個,系統依然能正常運作。
起源:Evals (評測)
Sandbox 最初是作為一次性的測試環境。整個評測公司產業鏈向 Anthropic 和 OpenAI 等實驗室販售基準測試,而證明一個評測有效的首要步驟,就是證明程式撰寫 Agent 在面對它時會感到棘手。隔離性至關重要:程式撰寫 Agent 可能會利用網際網路作弊,而 Sandbox 提供了這種物理隔離 (air gap)。

一個評測、一個測試環境,以及執行它的工具。這就是基本的 Sandbox 模式。大學、新創公司以及那些正在對自家 Agent 進行基準測試的團隊,透過 Daytona 和 E2B 等供應商,將數百或數千次的執行規模化。
隨用隨丟、短暫存在,啟動後即銷毀。
未來趨勢:長時間運行的 Harness
更有趣的使用案例是運行數小時的 Harness。例如修復軟體、在大型程式庫中撰寫程式碼、執行分析報告,或是持續運作業務的某些部分。大多數值得做的任務並非一次就能完成,它們需要時間、分析與迭代。

持續運行 Harness 是很困難的。Anthropic 最近關於 Managed Agents 的文章強調了核心問題:Sandbox 可能在任務中途崩潰、狀態需要從故障中恢復、執行環境必須足夠穩健以應付數小時的工作。Harness 不再是一次性的,它開始變成你所依賴的工作任務。
狀態的問題
是什麼讓 Harness 可以重啟?有兩件事。
軌跡 (Trajectory):關於詢問了什麼問題、呼叫了哪些工具、達成了什麼決策的完整記錄。Claude Code 和 Cursor 已經可以僅憑軌跡來重啟。這是 Harness 產出最有價值的 asset。
本地資料 (Local data):Harness 在 Sandbox 檔案系統中建立的一切。這包括下載的檔案、新編寫的技能、生成的分析結果以及修改後的程式碼。軌跡所操作的狀態有時也會存放在這裡。

這兩部分加起來,就是從任何時間點恢復工作所需的一切。Anthropic 將此描述為「將大腦與雙手解耦」。大腦是 Harness,雙手是 Sandbox,而工作階段日誌 (session log) 則存在於兩者之外。Sandbox 變成了像「牲畜」一樣可替換的資源。我們認為,軌跡與 Sandbox 檔案系統持久化的結合,才是真正的持久化 asset,其中軌跡又是最重要的。
誰控制狀態
如果軌跡資料是珍貴的 asset,那麼 Sandbox 供應商賣的不僅僅是運算資源,他們賣的是產生這些資料的環境。如今許多供應商在持久化檔案系統的同時,也會儲存這些狀態。
這個市場有一種版本是實驗室端到端地運行 Managed Harness。你的軌跡存在他們的 Session Log 中,由實驗室控制狀態。另一種版本則是企業不允許這種連線,因為 Managed Harness 存取生產環境基礎設施是絕對不被允許的。在這種情況下,Sandbox 運行在客戶的雲端環境中。狀態保留在客戶的基礎設施內,並使用 Daytona 和 E2B 等供應商,或是像 Stripe Minions 這種自建選項,在自己的基礎設施中運行 Sandbox。
無論 Sandbox 在哪裡運行:誰擁有軌跡?推理歷史記錄是讓 Harness 的工作可重現、可審計且可改進的關鍵。無論這些資料存在哪裡,誰控制了它,誰就在未來的 AI 市場中擁有巨大的槓桿優勢。
未來是 Swarms (群體)
Sandbox 市場的未來是長時間運行的 Harness Swarms。協調後的團隊在多個 Sandbox 中工作,每個 Sandbox 都有自己的軌跡與狀態。個別的 Harness 可能會失敗並重啟,Sandbox 可能會崩潰並重新配置,但整個 Swarm 依然持續運作。
我們已經在 Stripe 的 minions @stevekaliski 或 browserbase @kylejeong 的長時間運行 Agent 中看到了 Swarms 的未來。

Swarm 的控制層——負責路由工作、追蹤進度、重啟失敗的 Harness,並維護每個 Harness 正在做什麼的對應表——本身很可能就是一個 Harness。也就是由 Harness 來管理 Harness。問題與整個市場面臨的一樣:這個控制層是存在於客戶的基礎設施中,還是存在於實驗室內部?
對 Swarm 的控制權與對軌跡狀態的控制權,是未來的戰線。Sandbox 是基礎,但這個基礎是建立在 Sandbox 之上的基礎設施。話雖如此,誰掌握了 Swarm 管理層與軌跡資料,誰就能定義這個市場。
