# 策展 · X (Twitter) 🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Aparna Dhinakaran (@aparnadhinak) · 平台：X (Twitter) · 日期：2026-07-05

> 原始來源：https://x.com/aparnadhinak/status/2073492320159510869

## 中文摘要

# 到底什麼是 loop？

這個月，AI 工程領域出現了一個新的熱門詞彙，而且它至少代表了四種不同的含義：loop（迴圈）。

我們目前正處於炒作週期的頂峰。6 月 7 日，Peter Steinberger 發文表示，你不應該再對 coding Agent 進行提示詞工程（prompting），而應該設計能對 Agent 進行提示的 loop。同一週，Anthropic 的 Boris Cherny 在台上表示，他不再對 Claude 進行提示：「我撰寫 loop，由 loop 來完成工作。」Addy Osmani 在 6 月 7 日發表了一篇名為《Loop Engineering》的文章，swyx 在 6 月 12 日發表了《Loopcraft: The Art of Stacking Loops》，而 LangChain 則在 6 月 16 日發表了《The Art of Loop Engineering》。接著是 AI Engineer World's Fair，這個詞在主舞台上佔據了主導地位。Swyx 的主題演講是關於 Loopcraft，整個議程中有一個專門討論軟體工廠（software factories）的軌道，講者們一個接一個地提到同一個詞，會議在 7 月 2 日以一場長達一小時的辯論結束，討論 loop 背後的炒作是否已經超越了實際可行的範疇。

問題在於，談論 loop 的人並非在討論同一件事。我算了一下，這個詞背後隱藏了至少四種截然不同的架構。因此，這篇文章試圖梳理出大家所指的究竟是什麼。

## 1. 執行 loop（Execution loop）：Agent 自身的「行動-觀察」循環

這就是大多數人在提到「Agent」時腦海中浮現的 loop：呼叫一個 tool，讀取結果，決定下一個動作，重複此過程直到沒有更多的 tool 可以呼叫。這就是 Addy 所說的內部執行 loop，是 Agent 現在可以在很大程度上自行運行的部分，也是你可以進行工程設計的最內層 loop（swyx 的堆疊中有一個 token loop，但沒有人會去設計 token loop，那只是模型的一部分）。

![這張圖表展示了「Loopcraft」的概念，將不同層級的運作迴圈（從 Token 到團隊目標）進行堆疊與結構化分析。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/3e2d4d01152de3f0.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片標題為「Loopcraft: The Art of Stacking Loops」。上方顯示一個流程鏈：「Tokens -&gt; Turns -&gt; Tasks -&gt; Teams」，並標註為「= "the agent loop"」。

下方以巢狀結構展示了五個層級的迴圈，由內而外分別為：
1. **1 · token loop**：動作為 sample, append, repeat，退出條件為 stop token，時間尺度約為 seconds。範例顯示「the」、「cat」、「sat」與游標。
2. **2 · agent turn**：動作為 call tool, feed result，退出條件為 no more tool calls，時間尺度約為 minutes。範例顯示「read_file()」產生「240 lines」，接著「run_tests()」產生「3 passed」。
3. **3 · /goal loop**：動作為 run, judge, retry，退出條件為 goal reached，時間尺度約為 hours。流程包含「agent result」進入「judge: off-goal ×」或「judge: goal met ✓」。
4. **4 · MetaLoop**：定義為「the loop that makes loops」，動作為 spawn, review, respawn，退出條件為 collaboration and competition，時間尺度約為 days。
5. **5 · ???? loop**：動作為 set goals, allocate, cull，退出條件為 none. open exploration，時間尺度為 ∞。</div></details>

執行 loop 在單一任務的步驟中進行迭代。它以環境回饋作為結束：測試輸出、API 回應、檔案內容。人類通常不會出現在 loop 中間，只會出現在邊界處，負責批准計畫或審查結果。當 Agent 認為任務完成時，無論它是否真的完成，這個 loop 也會結束。該領域發現的第一個解決方案，就是將這個 loop 包裝在另一個不會輕信 Agent 說詞的 loop 之中。

## 2. 任務 loop（Task loop）：不斷重啟 Agent 直到符合規格

這是第一個獲得命名的 loop，也就是 Geoffrey Huntley 的「Ralph Loop」。當 Keycard 的 Allie Howe 在介紹軟體工廠軌道時，引用了 Geoffrey 的文章《everything is a ralph loop》，Ralph Loop 便在 AI Engineer World's Fair 的主舞台上被點名。Ralph Loop 針對相同的規格不斷重啟 coding Agent，每次迭代都分配一個全新的 context window，並且每個 loop 只執行一個任務。這種看似浪費的行為正是重點所在：每次都重新輸入完整的規格，可以防止 context 腐化（context rot）以及長期運行會話中悄然發生的壓縮事件。

這個 loop 迭代的對象是一個單一的 artifact。結束這個 loop 的條件是符合規格並通過測試。人類負責撰寫規格並判斷是否完成；在 Geoffrey 的描述中，人類還有另一項工作，我稍後會再提到：觀察這個 loop，找出失敗模式，並進行修復，確保它們不再發生。在會議最後一天的閉幕辯論中，他將這個角色比作火車司機，其全部工作就是讓火車保持在軌道上。然而，如果從單一規格放大來看，一個更大的 loop 就會浮現：運行整個程式庫的 loop。

## 3. 產品 loop（Product loop）：軟體工廠

這是 AI Engineer World's Fair 上呼聲最高的版本。Factory 的 Tereza Tížková 將軟體工廠定義為「整個 loop，即自主開發軟體的整個生命週期」，而 Warp 的 Zach Lloyd 在接受 Latent Space 採訪時，具體說明了這個生命週期包含哪些內容：分類（triage）、規格、實作、審查、驗證、發布和監控。Zach 的觀點是，軟體工程將轉變為工廠工程，而你將會打造出那個「打造產品的系統」。Warp 正在親身實踐這一點：該公司將其開源儲存庫置於其工廠平台 Oz 的控制之下，Zach 描述其採用路徑是從低風險的儲存庫開始，並將自動 PR 合併率從 20% 逐步提高到 60%。Anthropic 似乎也在內部進行同樣的實驗：該公司表示，其產品團隊 65% 的程式碼現在是由內部的 Claude Tag 版本所建立，而 Mike Krieger 在 World's Fair 上描述他團隊的使用方式是「委派且主動的」：不是「修復這個 bug」，而是對程式庫的這部分負責，監控這個回饋管道，並自行領取任務。

任務 loop 和執行 loop 有明確的退出條件；產品 loop 則持續對程式庫及其待辦事項進行迭代，其結束訊號完全來自程式庫之外：新的 issue、生產環境日誌、使用者回饋、審查結果。人類的角色變得可以配置。在 Zach 的框架中，你可以選擇要自動化的生命週期部分，以及人類介入的時間點，組織對於諸如「高風險變更是否應保留人工審查」這類問題的看法各不相同。工廠改善的是產品，而下一個 loop 改善的則是工廠本身。

## 4. 系統 loop（System loop）：自動化研究（Autoresearch）

Introspection 的 Roland Gavrilescu 將此稱為自動化研究，他在 Latent Space 採訪中的框架最為清晰：內層 loop 是你處理使用者導向工作的核心系統，而外層 loop 則負責研究和維護這個核心系統。它在提示詞、harness、模型選擇以及評測（evals）本身進行迭代。他的一句話總結是：loop 就是產品。

這種模式現在在規模的兩端都有了實際的驗證案例。最小的案例是 Andrej Karpathy 於 2026 年 3 月進行的自動化研究，大約 630 行 Python 程式碼，在一夜之間於單一 GPU 上運行了 50 次「假設-編輯-評估」實驗。已發布的案例則是 Meta 於 6 月下旬宣布的 Brain2Qwerty v2，研究人員報告稱，Agent 透過迭代修改程式庫來發明更好的解碼架構，從而大幅改善了字詞錯誤率。Meta 的警示很有啟發性：最終的訓練配置仍然是手動選擇的。即使是旗艦級的系統 loop，最後一個檢查點依然保留了人類的參與。

結束這個 loop 的條件是四者中最嚴苛的訊號集：評測、裁判、過濾後的產品回饋，以及在 Roland 的設計中，還包含一個明確的「詢問人類」工具，Agent 透過該工具累積隱性知識，就像新進員工一樣。這就是堆疊的頂端。將這四者結合起來，整個系統的輪廓就清晰可見了。

## 四種 loop 並列比較

![這是一張歸納軟體開發與系統迭代循環層級的比較表格。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/7c2913c7ad00ee16.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">此表格將循環（Loop）分為四個層級，並詳細說明了各層級的迭代內容、結束訊號、人類角色、時間尺度及典型範例：

1. **Execution loop（執行循環）**：
   - What iterates：單一任務內的步驟。
   - Closing signal：工具結果、環境回饋。
   - Human role：在邊界處。
   - Timescale：分鐘。
   - Canonical example：任何代理（agent）會話。

2. **Task loop（任務循環）**：
   - What iterates：針對單一規格的一個產出物。
   - Closing signal：測試、規格符合度。
   - Human role：撰寫規格、判斷完成。
   - Timescale：小時。
   - Canonical example：Huntley's Ralph Loop。

3. **Product loop（產品循環）**：
   - What iterates：程式碼庫及其待辦事項。
   - Closing signal：問題、日誌、使用者回饋、審查結果。
   - Human role：可配置的檢查點。
   - Timescale：持續性。
   - Canonical example：Warp's Oz, Factory。

4. **System loop（系統循環）**：
   - What iterates：系統本身。
   - Closing signal：評估、判斷、過濾後的回饋。
   - Human role：隱性知識來源、升級點。
   - Timescale：數天至數週。
   - Canonical example：內省（Introspection）、Karpathy's autoresearch。</div></details>

## 那 Agentic MapReduce 呢？

同一週出現的一個著名模式被刻意排除在這個地圖之外。Cognition 的 Devin Security Swarm 將平行的受限 Agent 分散到儲存庫中並彙整其發現，這種形式被稱為 Agentic MapReduce，它也被稱為 loop。我不認為它是 loop。「分發、收集、驗證」是一個管線（pipeline）：沒有任何東西回饋到下一個週期，而沒有回饋的 loop 只是個 for 語句。Fan-out 是一種你可以部署在上述四種 loop 內部的拓撲結構，而不是一個獨立的 loop。

## 頂端那個未命名的 loop 是監督 loop（Oversight loop）

在 swyx 的 loop 圖表中，最外層的環，也就是「製造 loop 的 loop」之上的那一層，字面上標記為「???? loop」。它的動詞是設定目標、分配資源、剔除工作。它的退出條件被列為「無」。

我認為那個 loop 有名字。我稱之為監督 loop：這是設定目標、分配預算和剔除工作的地方，也是人類應該存在的唯一環節。Addy 在 AIEWF 的舞台上說：「內層 loop 是能力（capability）。外層 loop 是代理權（agency）。」代理權正是監督 loop 所掌握的核心。

![這是一張名為「THE LOOP STACK」的架構圖，展示了從執行層到監督層的五個嵌套循環及其對應的退出機制。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/54f44a1ef3774926.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">圖片呈現了一個層層嵌套的循環架構，由內而外分別為：
1. EXECUTION LOOP：completes an instruction（完成指令），退出條件為 exit: no more tool calls。
2. TASK LOOP：completes a spec（完成規格），退出條件為 exit: spec satisfied, tests pass。
3. PRODUCT LOOP：completes the product（完成產品），退出條件為 exit: none, by design。
4. SYSTEM LOOP：improves the whole system（改善整個系統），退出條件為 exit: evals and judges say better。
5. OVERSIGHT LOOP：you should live here（你應該居住於此），退出條件為 exit: yours to call。
圖表右下角註記：after swyx's Loopcraft stack, with the exits filled in。</div></details>

在 AIEWF 上，最激烈的爭論一旦翻譯過來，其實都是關於「誰來運行頂端那個環」的爭論。Zach 和 Roland 主張調高自動化程度：謹慎選擇檢查點，隨著信任的累積提高自主性，並且用 Roland 那個令人印象深刻的區別來說，先建立「管弦樂團」而非「工廠」，管弦樂團是一個保留了人類指揮的系統。另一派則認為自動化是有極限的。Notion 的 Geoffrey Litt 在 X 上稱工廠是一個令人沮喪的願景，並在他後來發表的一篇文章中主張，那些將理解力委派出去的人，最終會被 Agent 取代。Paul Bakaus 的說法非常直白：「沒有什麼自動化，未來也不會有。」他的論點不僅關於品質，更關於所有權。人們需要目標，並且希望在自己創造的事物中扮演一個角色。

Latent Space 的會議報導中涵蓋了閉幕辯論，將這兩種立場放在同一個舞台上。HumanLayer 的 Dex Horthy 費盡心思表示他並不反對 loop，並指出 Kubernetes 是建立在控制 loop 之上的，但那是確定性的，他擔心的是熱情已經超越了工程實踐。他的建議是降低抽象層級，而不是提高。Geoffrey 則站在另一邊，稱 loop 是不可避免的。而 Mike 提供了最誠實的數據點：即使在 Anthropic 內部，運行 Tag 的團隊也報告稱，審查工作以及人類概念化系統運作方式的能力已成為瓶頸。人類為自己保留的檢查點，現在成了限制因素。

自主性是一個存在於上述四個 loop 中每一個環節的調節旋鈕。你可以在一個受到嚴格監督的產品 loop 內部運行一個完全自主的執行 loop。你可以將系統 loop 交給 Agent，同時將目標設定完全保留給人類。有趣的工程問題不是哪一派會贏，而是你需要什麼資訊才能正確設定每個旋鈕。

上表是我試圖填補這些空白的嘗試。每個 loop，包括最頂層的那個，都有一個可命名的退出條件，而最頂層的那個條件就是你。但命名一個訊號並不等於將其接通。一個沒有訊號的 loop 不會收斂，它只會一直運行直到被外部因素停止。要在生產規模下了解你的 loop 是否真的在收斂，意味著要持續掃描追蹤（traces）並對失敗進行分群，而不是僅僅抽查轉錄內容，這正是 Arize AX 建立的目的。

## 你正在打造哪一個？

現在這些 loop 有了名字，這就是你要問的問題。Loop 這個詞這個月發揮了很大的作用，因為這個領域最喜歡的就是追逐下一個熱門事物。但真實的實踐是這四個 loop 的基礎，而且每個 loop 的實踐都是一樣的：人們正在提高他們的抽象層級，並將人類的判斷力推向堆疊的更高處。這才是 loop 的真正教訓。我們透過攀登堆疊來完成更多工作，現在你有了地圖，你就知道該往哪裡爬了。

共同作者：@seldo

## 標籤

Loop Engineering, Agent, 產業趨勢, Anthropic
