# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：程序员Left (@coder_left) · 平台：X (Twitter) · 日期：2026-06-15

> 原始來源：https://x.com/coder_left/status/2064951665061703878

## 中文摘要

# 什麼是 Loop Engineering？

單次呼叫 Agent 的效果已經到頂了。你是不是也厭倦了天天給 AI 當人肉搬運工，每天把問題複製過去、把結果複製回來？當大多數人還在卷 Harness Engineering 的時候，大廠和頂尖開發者已經悄悄換了新賽道。

就在前幾天，Chrome 團隊的 Addy Osmani 發了一篇推文，昭示著 Loop Engineering 的到來。

Left 幫你們把長文讀完了，直觀感受是，這套理念與 OpenAI 和 Anthropic 近期的密集動作高度吻合。它正在把人類從枯燥的介入循環中解放出來，讓 AI 的任務完成度直接上一個台階。

那麼 Loop Engineering 到底是什麼東西？結合 Left 自己的經驗，今天和大家徹底聊透。

## 一、為什麼 Harness Engineering 的效果已經到頂了？

因為在真實場景下，任務只要稍微複雜一點，目標可能模糊，解法可能跑偏，Agent 很難透過單次呼叫就產出完美的結果。

很多人正在做的 Harness Engineering，本質上都在試圖卷單次呼叫的完成度。在各種 Prompt 框架和工程加持下，單個 Agent 的任務得分確實可以從 60 分飆到 90 分。但想要再往上走，繼續死磕單次呼叫，收效甚微。這就像讓人去幹活一樣，任務複雜了誰都會出紕漏。

這時有人會說：那就讓它做完自己檢查一下行不行？答案是不行。

人如果既當球員又當裁判，在做裁判的時候就會本能地偏袒自己。人類身上這種自我檢查流於表面的毛病，在單個 Agent 身上完美重現了。Agent 寫完了程式碼後，會極其自信地告訴你：我已經為您搞定了，不管任務是否完成。

行業的解決方案是，引入裁判機制，讓裁判評判 Agent 的產出，實際使用下來比單個 Agent 自查效果更好。

![這張圖表透過三格漫畫形式，說明了「Harness Engineering」在單次調用時的局限性，並建議透過引入獨立裁判與多角色協作來獲得更優的結果。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/62749bc9e499d7c5.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖中包含三格漫畫，文字內容如下：
1. 第一格：
   - 對話框：「單次調用：Harness Engineering 讓得分從60升到90，但很難完美。」
   - 桌上標籤：「複雜任務」、「目標模糊」、「解法跑偏」。
   - 筆記本文字：「收效甚微」。
   - 圖表：顯示一個常態分佈曲線，頂點標示為「90」。
2. 第二格：
   - 思考框：「自我檢查？我完美搞定了！」
   - 對話框：「自我檢查流於表面，本能偏袒自己。」
3. 第三格：
   - 對話框：「解決之道：引入獨立裁判，多角色協作。」
   - 箭頭旁文字：「更優結果。」

畫面重點：該圖以擬人化的柴犬角色演示了軟體工程流程中的優化邏輯，指出單一模型的自我檢查容易產生偏差，建議透過多角色協作機制來提升任務執行品質。</div></details>

但是這樣又帶來新的問題，我們不得不被迫介入，把人機協同的過程變成了極其機械的人肉 SOP 循環：

派發任務 → Agent 執行 → 人類驗收結果 → 人類提交回饋 → Agent 重新執行 → 人類再次驗收 → 派發下一個任務

為了減少這種折騰，有些團隊嘗試把某些節點用 AI 替代，比如讓一個固定的 AI 扮演裁判來驗收結果。只要標準足夠明確，這確實能解決一小部分問題。

但這並沒有解決根本矛盾，整個流程的運轉依然卡在人機互動的環節上，人類成了那條把各個節點串聯起來的肉體協調器，每天的大量精力都被卡在枯燥的循環裡，極大拖慢了任務的效率。

既然單個 Agent 效果已經達到天花板，而人類的精力又被嚴重消耗在機械的節點跳轉中。如何讓一套系統接管這個 SOP 循環，把人類從人肉搬運中解放出來，成了當前最迫切的工程問題。

![這張圖表對比了傳統人工協調與全自動 AI Agent 系統在工作流程效率上的差異。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/7662e5d980ba8782.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片以手繪風格呈現了兩種工作模式的對比：
1. 左側為「枯燥的循環」，描述了傳統工作流程：派發任務 -&gt; Agent 執行 -&gt; 人類驗收結果 -&gt; 人類提交反饋 -&gt; Agent 重新執行 -&gt; 人類再次驗收 -&gt; 派發下一個任務。此過程標註為「人肉協調器」，並指出會「拖慢宏觀效率」。
2. 中間部分標註為「治標不治本」，展示了由「AI 裁判」與多個 Agent 組成的循環。
3. 右側為「全自動系統」，展示了多個 Agent 圍繞一個大腦核心進行協作，標註為「徹底接管 SOP 循環」，並指出能「解放人類」、「提升宏觀效率」，右下角有一隻柴犬正在悠閒喝茶。</div></details>

## 二、什麼是 Loop Engineering？

回到開頭的問題：到底什麼是 Loop Engineering？

過去，我們在工程上習慣了以人類為中心的互動模式。人類扮演了外部排程器的角色，手動去驅動每一個流程節點，效率天花板極其明顯。

為了讓系統徹底代替人類去接管、驅動、監督 Agent 的狀態流轉，直至達成最終目標——在這個演進過程中誕生的所有自動化閉環架構與工程解決方案，行業稱之為 Loop Engineering（循環工程）。

如果說 Harness Engineering 關注的是如何提升單個 Agent 的單次執行品質，那麼 Loop Engineering 關注的就是如何建構一套具備狀態感知與自我修正能力的閉環系統，在無需人類介入的前提下，透過多輪次迭代達到期望結果。

說白了，這只是應用層在架構設計上的自然演進。我們的關注點，從最初的怎麼優化單個 Prompt 的輸出，真正回到了如何去建構一個長生命週期的自治系統上。

![這張圖表比較了「舊模式」與「循環工程（Loop Engineering）」在系統運作與自動化程度上的差異。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/9e3eddee0020b88b.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖表分為三個部分：
1. **舊模式**：展示一名角色操作機器，標註「人工交互模式」、「人類調度」、「手動驅動節點」，並提到「低效率天花板！」以及角色感嘆「好累啊，效率太低了！」。
2. **循環工程 (Loop Engineering)**：展示一個自動化流程，包含「系統接管監督」、「狀態感知」、「自動閉環，徹底接管！」、「自我修正」、「多輪次迭代」、「無需人類介入」、「死磕到期望結果」及「達成目標」。
3. **對比與演進**：
   - **Harness Engineering**：對應「單個Agent單次執行」，圖示為角色使用放大鏡。
   - **Loop Engineering**：對應「長生命周期自治系統」，圖示為角色使用筆電，下方有齒輪循環圖。
   - 總結文字：「應用層架構的自然演進：從優化單個Prompt到構建自治系統」。</div></details>

## 三、行業內的四次嘗試

### 4.1 Anthropic 團隊：從命令到 /loop plugin

Anthropic 團隊的專案庫裡，每天都有幾十個 GitHub Issue 排隊等待處理。以前工程師得手動複製資訊、餵給 Claude Code 處理，處理完人類再測試、提交。天天幹這種機械的、手動複製的活，簡直是浪費生命。

於是他們開發了 /loop。

/loop 直接把 Agent 掛在定時任務上：每隔一小時自動去拉取最新 Issue，自己翻程式碼、改 Bug、跑測試，直到修好並自動提交 PR。如果努力 5 輪失敗，則自動貼出解題思路和日誌報告退出。

Claude Code 負責人 Boris Cherny 對 /loop 很滿意地說道： "我不再手動 prompt Claude 了，我的工作是寫 Loop。"

![這張圖表對比了「手動修復流程」與「/loop 自動修復」兩種工作模式，展示了如何透過自動化流程提升軟體開發效率。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/cf87036552b5ed7b.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片分為左右兩個區塊，對比了傳統手動與自動化修復流程：

左側「手動修復流程（手動複製）」：
- 顯示一隻柴犬在電腦前感到困擾，對話框寫著「天天複製報錯，浪費生命！」。
- 流程包含：GitHub Issue -&gt; 手動複製報錯 -&gt; Claude Code -&gt; 人類測試 -&gt; 手動提交 PR。

右側「/loop 自動修復」：
- 顯示一隻柴犬在電腦前從容工作，下方對話框寫著：「我不再手動 prompt Claude 了，我的工作是寫 Loop — Boris Cherny」。
- 流程包含：
    - 定時任務 /loop
    - 每小時拉取最新 Issue
    - Claude 自主翻代碼/改 Bug
    - 跑測試（成功 ✅）
    - 自動提交 PR
    - 若失敗 5 輪 ❌，則自動貼出思路和日誌報告。</div></details>

### 4.2 Andrej Karpathy：驗證者（Verifier）多輪試錯循環

傳統調模型或跑實驗時，工程師需要根據跑出來的結果，人肉分析參數，再手動改程式碼跑下一輪。人在其中充當了肉體協調器，效率極低。

Karpathy 在他的開源專案 AutoResearch 中引入了驗證者（Verifier）角色。在限定時間內自動化跑多輪循環，每一輪的任務效果都要經過驗證者的打分和回饋，並將這個回饋自動帶入到下一輪循環中。

Karpathy 個人測試中，自動化狂跑 2 天、700 次實驗，模型訓練效率直接提升 11%。AI 靠著極其高頻的 "試錯-回滾-再試" 循環，在很多任務上的調優能力已經超越了普通人類工程師。

![自動化模式（AutoResearch）相較於傳統手動分析與修改代碼的模式，能在2天內進行700次實驗，使模型訓練效率直接提升11%，實現高頻自動化循環並超越普通工程師。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/f39cd17490d5e36e.jpg)

<details class="chart-data"><summary>展開數據表（1）傳統模式</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>特徵1</td><td>人肉分析參數</td></tr><tr><td>特徵2</td><td>手動改代碼</td></tr><tr><td>效率</td><td>極低</td></tr></tbody></table></details><details class="chart-data"><summary>展開數據表（2）自動化模式</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>核心機制</td><td>AutoResearch (Karpathy)</td></tr><tr><td>運作流程</td><td>驗證者打分與反饋、下一輪循環</td></tr><tr><td>實驗規模</td><td>2天，700次實驗</td></tr><tr><td>效率提升</td><td>模型訓練效率直接提升 11%</td></tr><tr><td>優勢</td><td>AI高頻「試錯-回滾-再試」，超越普通工程師！</td></tr></tbody></table></details>

### 4.3 Codex 團隊：用 /goal plugin 消滅 "任務完成幻覺"

Codex 團隊在用 AI 寫程式碼時，經常被 AI 氣得發笑。很多時候 AI 只寫了一半，或者寫了一堆根本跑不通的垃圾程式碼，就極其自信地回覆一句： "已經為您寫好了！"，工程師過去一跑卻滿屏飄紅。

為了解決任務完成幻覺的現象，他們開發了 /goal plugin。引入了測試驅動開發（TDD）的自治循環模式：

```plaintext
人類下達任務與完成指標
↓ /goal 攔截請求，解析為 "自動化測試/判定標準"
↓ Agent 閉門寫程式碼 → 進入獨立沙盒（Docker MiniVM）執行測試
↓ [測試未全綠] → 提取真實報錯日誌重新餵給 Agent → 強制繼續修改
↓ [測試徹底全綠] → 終結自治循環，向人類交付程式碼
```

Codex 團隊用確定性的測試環境做強力約束，把 "球員" 和 "裁判" 剝離開來，徹底消滅 AI "任務完成幻覺" 的問題。

![這張圖表展示了透過「/goal 插件」引入測試驅動開發（TDD）流程，以解決 AI 程式碼生成中常見的「任務完成幻覺」問題。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d8163cb6c3cf2133.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片分為三個區塊，說明從問題到解決方案的流程：

1. **The Problem（問題）**：
   - AI 聲稱「已經為您寫好了！」但工程師執行後卻出現「滿屏飄紅」的錯誤，顯示 AI 產生了任務完成的幻覺。圖中有一隻穿著襯衫打領帶的柴犬正對著電腦螢幕感到憤怒，螢幕顯示著錯誤代碼。

2. ** /goal 插件（解決方案機制）**：
   - 核心概念：解決幻覺，引入測試驅動開發（TDD）。
   - 流程圖：
     - 人類下任務與指標 -&gt; /goal 解析為測試標準 -&gt; Agent 閉門寫代碼（獨立沙盒 MiniVM）。
     - 若測試未全綠，則提取真實報錯日誌並強制繼續修改。
     - 若測試徹底全綠，則終結循環，交付代碼。

3. **The Solution（解決方案）**：
   - 透過確定性測試環境強約束，將「球員」與「裁判」剝離，徹底消滅 AI 任務完成幻覺，實現完美交付。
   - 圖中柴犬展示著平板電腦，螢幕顯示「測試全綠！」與程式碼圖示，旁邊有一個機器人角色。</div></details>

### 4.4 解決通用任務的 Dynamic Workflow（動態工作流）

前面的三個嘗試雖然牛，但工程師們很快發現了一個致命瓶頸：它們的循環路線全都是程式設計師提前硬編碼寫死的。AI 只能在固定的流程執行，遇到複雜的、沒見過的多分支任務，硬編碼的循環立刻就沒用了。

於是，業界開始探索更高級的形態：Dynamic Workflow（動態工作流）。它不再用固定的程式碼去卡死流程，而是把決策權交給 AI。一個複雜的突發任務進來，AI 會根據當前的動態變化，自己從模式集裡抽調模式：

- 它覺得目標不明確，就自己切成 "賽馬模式" 讓幾個子 Agent 互卷。

- 它發現步驟太長，就自己動態路由切成 "分類-行動模式" 把任務剁碎。

- 它發現中間某一步翻車了，就自己臨時組裝一個 "驗證者" 去打回重跑。

整個工作流的下一步往哪走、怎麼循環、呼叫什麼能力，完全是系統在執行過程中根據即時回饋動態而來的。這直接把 Loop Engineering 從在固定流程中死循環，推向了 AI 自己看情況、調整動作的完全體形態。

![這張圖表以可愛的柴犬插畫說明了「動態工作流（Dynamic Workflow）」的概念，強調 AI 如何根據實時反饋動態調整流程。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/95d9642d78ddf07a.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖中包含以下文字內容：
- 標題：Dynamic Workflow（动态工作流）
- 說明文字：不再硬编码，AI 根据实时反馈动态调整流程，自己决定下一步动作。
- 三種模式說明：
    1. 賽馬模式
    2. 分類-行動模式
    3. 验证者打回

畫面重點：
圖表左側有一隻穿著襯衫領帶的柴犬正在思考，指向右側的三個筆記本頁面，分別代表三種不同的工作流模式。這些模式展示了 AI 系統如何透過動態調整來處理任務，而非依賴固定的程式碼邏輯。</div></details>

## 四、要把人解放出來，到底還差臨門哪幾腳？

想要徹底把我們人類從循環裡解放出來，建立一套完全自治的 Loop 系統。結合原文，我認為以下這七個維度是需要攻克的技術難點：

1. 自動觸發機制（Automations）：如何讓系統在沒有人類點下執行按鈕時，自己感知到任務的開始，比如透過定時任務、Webhooks 或者是特定事件來自動觸發。

2. 任務分發排程（Schedulers）：如何把一個龐大且複雜的宏觀任務，精準拆解成多個互不干擾、具備前後依賴關係的獨立子任務。

3. 子 Agent 排程（SubAgents）：在複雜的業務場景下，如何像使用者那樣，去按需調動不同的子 Agent 去執行這些被剁碎的子任務。

4. 並行任務隔離（Worktrees）：子 Agent 在改程式碼、跑編譯的時候，工作環境如何做到徹底隔離互不干擾，不至於把主任務搞得一團糟。

5. 生命週期管理（Verifiers / State）：如何保持長時執行任務的連貫性，系統必須能死死記住任務的當前進度、每個子 Agent 的完成情況以及失敗回饋日誌。

6. 跨系統連接器（Connectors）：如何讓系統真正擁有與外界環境順暢互動的能力，目前行業公認的最佳實踐是基於 MCP 和 plugin 去實現。

7. 行業領域能力（Skills）：如何讓特定的子 Agent 擁有對應的垂類能力，比如視覺審美能力或者是資料分析能力。

![這張圖表以可愛的柴犬插畫風格，詳細介紹了 AI 代理（Agent）系統的八大核心功能架構。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1eb89ee2b73b2976.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片展示了 AI 系統的八個關鍵組成部分，每個部分皆配有說明文字與插圖：
1. **自動觸發機制 (Automations)**：無需人類點擊，系統通過定時或事件自動開始任務。包含時鐘、齒輪、webhooks 與 events 圖示。
2. **任務分發調度 (Schedulers)**：將大任務拆解為多個獨立的子任務，安排順序。插圖為柴犬將蛋糕（宏觀任務）切分成多塊。
3. **子智能體調度 (SubAgents)**：像經理一樣，調動不同的小 Agent 去執行被拆解的任務。
4. **並行任務隔離 (Worktrees)**：將工作環境隔離，讓任務在獨立氣泡中進行，互不干擾。
5. **並行任務隔離 (Worktrees)**：重複項目，強調各自在獨立氣泡裡工作。
6. **生命週期管理 (Verifiers / State)**：記錄每個任務的進度與狀態，包含完成與失敗的標記。
7. **跨系統連接器 (Connectors)**：通過 MCP 和插件與外部世界順暢交互。圖示包含 MCP、API 與雲端圖示。
8. **行業領域能力 (Skills)**：讓子 Agent 擁有特定的專業技能，如審美或數據分析。插圖展示了畫家與數據分析師形象的柴犬。</div></details>

這七個方向，就是從仍需人類介入協同的 Harness Engineering，走向完全體自動化 Loop Engineering 的必經之路。

當然，不管是 Harness Engineering 也好，Loop Engineering 也罷，它管的僅僅是系統任務完成度的提升，任務的最終責任人依然是我們自己。完全放任不管容易把事情搞得一團糟，在關鍵節點上保留必要的人工驗收與干預，才是最穩妥的人機協同常態。

## 五、最後的話

很高興你能看到這裡，如果這篇文章對你來說有收穫，Left 在這裡跪求一個小小的讚。

我是程式設計師 Left，關注 AI Coding、Agent 與獨立開發，我們有緣再見！

Loop Engineering 的推文連結我放這裡了，感興趣的朋友可以看看。

## 標籤

Loop Engineering, Agent, 產業趨勢, Google, OpenAI, Anthropic
項目	數值
核心機制	AutoResearch (Karpathy)
運作流程	驗證者打分與反饋、下一輪循環
實驗規模	2天，700次實驗
效率提升	模型訓練效率直接提升 11%
優勢	AI高頻「試錯-回滾-再試」，超越普通工程師！