# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Aparna Dhinakaran (@aparnadhinak) · 平台：X (Twitter) · 日期：2026-04-20

> 原始來源：https://x.com/aparnadhinak/status/2045925288908046570

## 中文摘要

# Sandboxes 是 Harness 時代的伺服器

Harness 就是應用程式，而 Sandbox 就是伺服器。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776645047287-iaHGSUooebgAAmiEnjpg.jpg)

應用程式運行在伺服器上：它使用運算資源、寫入檔案系統，並在重啟後維持狀態。Harness 與 Sandbox 之間也是同樣的關係。Harness 負責推理並呼叫工具，而 Sandbox 則提供隔離的執行環境。你可以獨立替換其中任何一個，系統依然能正常運作。

## 起源：Evals (評測)

Sandbox 最初是作為一次性的測試環境。整個評測公司產業鏈向 Anthropic 和 OpenAI 等實驗室販售基準測試，而證明一個評測有效的首要步驟，就是證明程式撰寫 Agent 在面對它時會感到棘手。隔離性至關重要：程式撰寫 Agent 可能會利用網際網路作弊，而 Sandbox 提供了這種物理隔離 (air gap)。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776645047401-iaHGSU7XAagAA5bwbjpg.jpg)

一個評測、一個測試環境，以及執行它的工具。這就是基本的 Sandbox 模式。大學、新創公司以及那些正在對自家 Agent 進行基準測試的團隊，透過 Daytona 和 E2B 等供應商，將數百或數千次的執行規模化。

隨用隨丟、短暫存在，啟動後即銷毀。

## 未來趨勢：長時間運行的 Harness

更有趣的使用案例是運行數小時的 Harness。例如修復軟體、在大型程式庫中撰寫程式碼、執行分析報告，或是持續運作業務的某些部分。大多數值得做的任務並非一次就能完成，它們需要時間、分析與迭代。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776645047520-iaHGSVFtNbEAAnIr4jpg.jpg)

持續運行 Harness 是很困難的。Anthropic 最近關於 Managed Agents 的文章強調了核心問題：Sandbox 可能在任務中途崩潰、狀態需要從故障中恢復、執行環境必須足夠穩健以應付數小時的工作。Harness 不再是一次性的，它開始變成你所依賴的工作任務。

## 狀態的問題

是什麼讓 Harness 可以重啟？有兩件事。

軌跡 (Trajectory)：關於詢問了什麼問題、呼叫了哪些工具、達成了什麼決策的完整記錄。Claude Code 和 Cursor 已經可以僅憑軌跡來重啟。這是 Harness 產出最有價值的 asset。

本地資料 (Local data)：Harness 在 Sandbox 檔案系統中建立的一切。這包括下載的檔案、新編寫的技能、生成的分析結果以及修改後的程式碼。軌跡所操作的狀態有時也會存放在這裡。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776645047279-iaHGSVXkNa0AAtuShjpg.jpg)

這兩部分加起來，就是從任何時間點恢復工作所需的一切。Anthropic 將此描述為「將大腦與雙手解耦」。大腦是 Harness，雙手是 Sandbox，而工作階段日誌 (session log) 則存在於兩者之外。Sandbox 變成了像「牲畜」一樣可替換的資源。我們認為，軌跡與 Sandbox 檔案系統持久化的結合，才是真正的持久化 asset，其中軌跡又是最重要的。

## 誰控制狀態

如果軌跡資料是珍貴的 asset，那麼 Sandbox 供應商賣的不僅僅是運算資源，他們賣的是產生這些資料的環境。如今許多供應商在持久化檔案系統的同時，也會儲存這些狀態。

這個市場有一種版本是實驗室端到端地運行 Managed Harness。你的軌跡存在他們的 Session Log 中，由實驗室控制狀態。另一種版本則是企業不允許這種連線，因為 Managed Harness 存取生產環境基礎設施是絕對不被允許的。在這種情況下，Sandbox 運行在客戶的雲端環境中。狀態保留在客戶的基礎設施內，並使用 Daytona 和 E2B 等供應商，或是像 Stripe Minions 這種自建選項，在自己的基礎設施中運行 Sandbox。

無論 Sandbox 在哪裡運行：誰擁有軌跡？推理歷史記錄是讓 Harness 的工作可重現、可審計且可改進的關鍵。無論這些資料存在哪裡，誰控制了它，誰就在未來的 AI 市場中擁有巨大的槓桿優勢。

## 未來是 Swarms (群體)

Sandbox 市場的未來是長時間運行的 Harness Swarms。協調後的團隊在多個 Sandbox 中工作，每個 Sandbox 都有自己的軌跡與狀態。個別的 Harness 可能會失敗並重啟，Sandbox 可能會崩潰並重新配置，但整個 Swarm 依然持續運作。

我們已經在 Stripe 的 minions @stevekaliski 或 browserbase @kylejeong 的長時間運行 Agent 中看到了 Swarms 的未來。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776645047135-diaHGSVdORbIAAJ8Zjpg.jpg)

Swarm 的控制層——負責路由工作、追蹤進度、重啟失敗的 Harness，並維護每個 Harness 正在做什麼的對應表——本身很可能就是一個 Harness。也就是由 Harness 來管理 Harness。問題與整個市場面臨的一樣：這個控制層是存在於客戶的基礎設施中，還是存在於實驗室內部？

對 Swarm 的控制權與對軌跡狀態的控制權，是未來的戰線。Sandbox 是基礎，但這個基礎是建立在 Sandbox 之上的基礎設施。話雖如此，誰掌握了 Swarm 管理層與軌跡資料，誰就能定義這個市場。

## 標籤

Agent, Deployment, Harness, Harness
