# 策展 · X (Twitter) 🔥

> 作者：Augment Code (@augmentcode) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/augmentcode/status/2050249781193429463

## 中文摘要

Augment Code 實驗顯示，Karpathy 風格程式撰寫規則未提升 Agent 程式碼品質，但顯著降低工具呼叫、時間與成本。

Augment Code 團隊在「AGENTS.md」檔案頂端加入受 Andrej Karpathy 啟發的程式撰寫規則，並對「OpenClaw」程式庫的 40 個中複雜度 PR（100–300 行程式碼，不含測試）進行測試，使用三款 Agent：Auggie（Opus 4.7）、Claude Code（Opus 4.7）和 Codex（GPT-5.4）。每個 PR 執行兩種變體（基準「AGENTS.md」約 18K 字元 vs. 「AGENTS-karpathy.md」約 20.5K 字元），每配置重複 6 次，總計每個 PR 18 次重複，由 LLM 評審依完整性、正確性、最佳實務、程式碼重用及未經請求的文件等指標評分。結果顯示程式碼品質基本不變，但 Agent 以更少工作量達成相同輸出：工具呼叫減少、時間與成本降低 3–10%。

**Karpathy 程式撰寫規則摘要**
這些規則類似團隊風格指南頂端的內容，強調精準、簡約執行：
- 程式撰寫前思考：陳述假設、揭露權衡、不明時詢問。
- 簡約優先：無推測性功能、無單次使用抽象、最少程式碼。
- 精準變更：勿碰觸鄰近程式碼、匹配既有風格、無順手重構。
- 目標導向執行：定義可驗證成功標準、循環至達成。
簡言之：解決任務、維持局部、不漫遊。

**測試配置細節**
- 精選 40 個「OpenClaw」PR，中複雜度（100–300 LOC，不含測試）。
- 三款 Agent 執行器：Auggie on Opus 4.7、Claude Code on Opus 4.7、Codex on GPT-5.4。
- 每個 PR 兩變體，每配置 6 次重複，總 18 次/PR。
- LLM 評審指標：完整性、正確性、最佳實務、程式碼重用、未經請求文件。
未測試項目包括簡單或高難度 PR，以及其他程式庫的「AGENTS.md」；另一程式庫測試因指示重疊，無統計顯著差異。

**程式碼品質結果**
品質基本不變：Auggie 和 Codex 維持穩定，Claude Code 下降 -0.07（類似 Opus 轉 Sonnet 的降幅），正確性降 0.07、完整性降 0.06。Claude Code 軌跡更保守，每任務觸碰檔案減少 ~5%。

Karpathy 規則並非通用於所有 Agent harness 和程式庫：
- Codex：增添有用結構，提升效率。
- Augment：基準提示已內含類似約束，邊際影響小。
- Claude Code：系統提示已高度約束，額外層疊限制探索，導致效能退化。
唯一全 Agent 一致改善為「未經請求文件」分數，因規則禁止超出需求的功能、註解或格式改善，Agent 聽從並減少多餘工作。

**效率提升數據**
所有執行器工具呼叫減少、完成更快，主要來自搜尋與檔案讀取次數降低，Agent 以更少查詢找到所需。工具呼叫失敗率維持 5–8%。輸出 token 減少幅度相似，30/40 PR 中 Karpathy 變體更快、更便宜，此模式跨三 Agent 一致。

每 PR 平均（跨執行器）：
- 成本與持續時間：30/40 PR Karpathy 更快、更便宜。
- 品質：20/20 PR 穩定，除 Claude Code 外。
3–10% 效率獲益非模型突破，但大規模運行程式撰寫 Agent 時，係真實金錢、延遲與容量節省。

**啟示與建議**
「AGENTS.md」是廉價控制層，類似針對特定程式庫的系統提示延伸，提供行為與領域約束。此實驗證明，此類指南一致帶來更快、更便宜執行與更少工具呼叫，但品質持平或下降，取決於 harness。

若大規模運行程式撰寫 Agent，加入 Karpathy 風格指南可獲「免費午餐」，但須依既有設定校準。完整報告見 Augment Code 部落格（2026 年 4 月 30 日，Slava Zhenylenko 撰）。

## 標籤

Agent, Benchmark, OpenClaw, Claude Code, Codex, Augment Code, Anthropic, OpenAI
