# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Kartik (@code_kartik) · 平台：X (Twitter) · 日期：2026-05-03

> 原始來源：https://x.com/code_kartik/status/2050631735529095575

## 中文摘要

LangChain團隊在2026年2月透過優化harness，將其開源程式開發Agent「deepagents-cli」在「Terminal-Bench 2.0」排行從30名以外躍升至前5名，得分從52.8%暴增13.7點至66.5%。底層模型始終是GPT-5.2-Codex未變，僅改進harness，此結果凸顯應用AI最大轉變：模型不再是產品，harness才是。

**harness定義與核心轉變**  
harness是包覆LLM的一切機制，將其從token產生器轉化為可運作Agent，包括工具調度、脈絡管理、沙盒隔離、規劃迴圈、子Agent協調、評估、觀測性，以及判斷工作「完成」的驗證邏輯。2026年3月「Claude Code」原始碼短暫外洩，顯示其TypeScript程式碼約513,000行，而實際模型API呼叫僅數行，其餘皆為harness。Mitchell Hashimoto於2026年初創造此詞，直言：Agent犯錯時，即工程化解決方案確保其永不再犯，此修復永存於harness。

**模型商品化與harness累積優勢**  
前沿模型正收斂：工具使用、長脈絡、推理、結構化輸出皆已成熟，價格崩跌，「Cursor」的「Composer 2」比「Opus 4.6」便宜10倍，基準測試相當。Karpathy於2026年2月公開廢棄「vibe coding」一詞，重命名為Agentic程式開發，因程式撰寫已非瓶頸。  
反之，harness具累積效應：每失敗皆轉為永久修復，如lint規則、hook、子Agent或脈絡模式，適用所有未來執行與模型。模型發布僅重置原始智慧基準，harness投資則持續增值。Stanford的「IRIS Lab」搭配「Claude Opus」與演進harness，在「Terminal-Bench」擊敗所有手工設計系統；「Factory.ai」的「Droid」以相同模型、不同harness達最先進水準；OpenAI「Frontier」團隊僅3至7名工程師，以百萬行生產程式碼、零手工程式碼，單Agent自主運行逾6小時，領先工程師總結：「人類導向，Agent執行。」難題從寫程式碼轉為設計環境。

**現成框架不足之處**  
「LangChain」、「CrewAI」、「AI SDK」僅為起點，每款嚴肅Agent產品皆疊加自訂harness，如「Claude Code」、「Cursor」、「Devin」、「Sourcegraph Amp」、「Factory Droid」、「Replit Agent」、「Vercel v0」、「Hermes Agent」、「OpenClaw」，皆具特定領域調校。具體原因包括：  
- 脈絡視窗需精細管理，「Cursor」團隊花數週調校各模型行為。  
- 工具須為LLM量身設計，非人類，「Replit」發現函數呼叫在參數複雜度遇天花板，改用限制Python DSL，達90%以上有效呼叫率。  
- 評估須綁定產品，非通用基準。  
- 大規模token成本關鍵，前沿實驗室在此有結構性衝突，因harness優化減少token損害其單位經濟。  
另有供應商鎖定風險：建基單一供應商runtime即為供應商選擇。

**生產harness架構概要**  
生產harness約分七層：  
- Agent迴圈（如ReAct、plan-execute、generate-test-repair）。  
- 專為LLM打造的工具層。  
- 具漸進揭露的脈絡與記憶管理。  
- 具權限閘道的沙盒執行。  
- 多Agent協調。  
- 評估與追蹤。  
- 提示與模型路由。  
所有成功harness共性：推理層信任LLM，工具邊界嚴格強制。

**建置harness時機建議**  
原型階段勿自建，使用「Claude Code」、「Cursor」或「Codex」直接出貨。轉生產單一領域時，透過擴展點自訂，如「AGENTS.md」、hook、MCP伺服器、子Agent定義，先建評估套件再寫自訂程式碼。  
自建門檻為數學嚴峻時：自訂評估顯示stock與custom間持續15+點差距、單任務經濟關鍵、需權限與審計追蹤（stock harness無提供）、或領域缺現成工具。

2025年眾隊競相建Agent，2026年贏家為投資周邊支架者。模型賦予智慧，harness造就產品，依此建置。

## 標籤

Agent, 開源專案, Benchmark, Harness, LLM, LangChain, OpenAI
