# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Movez (@0xMovez) · 平台：X (Twitter) · 日期：2026-06-19

> 原始來源：https://x.com/0xMovez/status/2067291911468044494

## 中文摘要

# 自我優化迴圈：在 Kimi K2.6 上運作 300 個 Agent 的群體，並由 Opus 4.8 進行驗證

一個免費的開源模型，能從單一 Prompt 出發，在 4,000 個協調步驟中同時運作 300 個 Agent，且在實際研究任務上的表現，優於那些價格貴上 5 倍的模型。

大多數人從未真正發掘它的潛力。

他們打開 Kimi，輸入問題，得到答案，然後關閉分頁。這就是「聊天框」模式。它確實有效，但這僅僅發揮了該產品約 10% 的功能。

> 以下是大多數人會忽略的關鍵：

這個群體（Swarm）不只是執行速度快。只要操作正確，它每次都能留下一些東西——一個可重複使用的 skill、一份更精確的規格書，或是能防止下一次執行重蹈覆轍的約束條件。

昨天執行你任務的群體，應該要比今天執行任務的群體更聰明。

這就是迴圈。Kimi 負責執行與學習，而 Opus 4.8 則坐鎮於唯一的關卡——「驗證閘道」（verify gate），它的唯一職責就是防止垃圾資訊被保存為 skill。引擎負責學習，把關者負責確保品質。

有些人選定一個模型就從一而終；有些人追逐頂尖的基準測試排名；還有些人花了一整個週末在 LangGraph 上除錯 DAG（有向無環圖）。

結果通常都一樣：第 50 次執行時的工作流程，和第 1 次執行時完全沒兩樣。

但這套方法完全不同。這是一套關於「複合式成長群體」的完整攻略。共 10 個步驟。每個 Prompt 都可以複製貼上。每個數據都經過驗證。

![這張圖表展示了一個包含五個步驟的 AI 運作架構，強調了 Kimi K2.6 模型在流程中的核心地位。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/01da82fbc5182fa0.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">這張圖表說明了一個名為「The Architecture in One Frame」的五步驟運作循環，內容如下：

標題：The loop has five beats. Four are pure Kimi.
說明文字：Forget "two equal partners." The engine is Kimi K2.6. It briefs, swarms, distills, and replays. Opus 4.8 touches exactly one beat — verify — and only because being wrong there poisons everything downstream.

五步驟流程：
1. BRIEF：You write a spec. Kimi self-decomposes it.
2. SWARM：Up to 300 agents, 4,000 steps, real files out.
3. VERIFY：Opus 4.8 hunts silent flaws before they're saved.
4. DISTILL：Kimi saves the run as a reusable Skill.
5. REPLAY：Next run starts from the skill. Faster. Sharper.

底部說明：Beats 1, 2, 4, 5 never leave Kimi. Beat 3 is the only place a second model earns its seat — and you can even run it as a Kimi verifier-agent if you want a pure-Kimi loop. More on that in step 6.</div></details>

---

第一部分 - 建立一次迴圈，永久運作。

## 01. 撰寫規格書，而非 Prompt

當大多數人聽到「300 個 Agent」時，他們會隨手發送一句話——「研究健身應用程式市場」——並期待奇蹟發生。這是最快燒光額度並得到垃圾結果的方法。

一句話的 Prompt 等於允許群體自行決定所有事情，而它通常會決定錯誤。

把群體當作承包商，而不是精靈。規格書定義了要收集什麼、什麼才算有效、允許使用哪些來源、確切的輸出格式，以及遇到衝突時該怎麼辦。這是大多數人會忽略的部分：Kimi 會自行決定拆解任務的方式。

你不需要像在 CrewAI 中那樣手動建立 Agent，不需要像 LangGraph 那樣繪製圖表，也不需要像 AutoGen 那樣定義結構。你只需要描述目標——群體會自動建立組織架構圖。

規格書是整個迴圈中槓桿效應最高的產物，因為在第 4 步中，它將成為你可重複使用 skill 的種子。

```python
# PROJECT: [專案名稱]
GOAL: [一句話描述 — 交付成果，而非主題]
SCOPE: [包含什麼，明確排除什麼]
RULES: [驗證規則 — 什麼才算是一筆經過驗證的資料列或發現]
SOURCES: [官方貼文、論文、僅限原始來源 — 不接受聚合網站]
OUTPUT: [檔案類型 / 數量 / 命名方式 / 格式細節]
ON CONFLICT: 標記該資料列，絕不默默解決
STOP CONDITION: [何時該停止並回報，而不是盲目猜測]
```

![這是一個名為 Kimi Work 的 AI 協作平台介面，使用者正在輸入關於金融數據分析的指令。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/5aed968021f9b2ac.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面為 Kimi Work 的應用程式介面，頂部標示「Kimi Work: 50% off quota, limited time」。中央顯示標題「Let's take something off your plate」以及「Beta Preview」標籤。下方對話框輸入了詳細的金融數據處理指令，內容如下：
「SOURCES: SSRN, Journal of Finance, Review of Financial Studies, AQR / Fama-French data library, primary author code repos.
No aggregators, no blog summaries, no factor-zoo wikis.
OUTPUT: 1 .xlsx, one row per factor — columns: name, source paper, in-sample Sharpe, OOS Sharpe, decay %, t-stat, capacity note.
+ 200-word brief naming the 3 factors with least decay.
Named: factor_decay_audit_q2_2026.xlsx
ON CONFLICT: flag the row, never resolve silently
STOP CONDITION: halt and report if any sub-agent stalls &gt; 10 min, or if fewer than 25 factors reach the 3-source bar.」

左側邊欄包含「Work」、「Chat」分頁，以及「New Task」、「Plugins」、「Scheduled Tasks」、「WebBridge」等功能選項。底部顯示使用者名稱「Moonwalk...」及狀態「Moderato」。對話框右下角選取了「Agent Swarm」模式。</div></details>

---

## 02. 在花費任何一毛錢之前，先閱讀拆解計畫

這是新手最常跳過的一步，也是跳過代價最高的一步。

在你提交規格書後，Kimi 會在執行前向你展示執行計畫——包含多少個子 Agent、每個 Agent 負責什麼、依賴順序以及步驟預算。

請務必閱讀。一個拆解錯誤的 200 個 Agent 群體會浪費真實的金錢與時間。檢查計畫本身不需要成本。你需要確認三件事：它是否理解範圍、Agent 數量對於任務規模是否合理、輸出計畫是否符合你的實際需求。

有一個細節值得注意：4,000 個步驟是整個群體的總協調預算，而不是每個 Agent 4,000 步。一個 300 個 Agent 的執行任務，平均每個 Agent 約 13 步——這屬於短小、專業的子任務。這能告訴你你的任務是否適合這種架構。

```python
執行前請先向我展示拆解計畫：
- 包含多少個子 Agent，以及每個 Agent 負責什麼
- 依賴順序（什麼會阻塞什麼）
- 預估步驟預算
- 最大的品質下降風險點在哪裡
請勿立即執行。等待我的確認。
```

![這是一個名為「Cross-Sectional Factor Decay Audit」的自動化研究任務介面，展示了五個代理程式（Agents）分工進行金融因子研究的階段性規劃。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/69610757e5c365dd.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面顯示一個研究任務管理介面，標題為「Cross-Sectional Factor Decay Audit」。
主要內容為「Phase 1: Parallel Factor Discovery (5 agents, ~80–100 total searches)」，說明五個代理程式的任務是針對學術分類進行因子搜尋，包含定位原始論文、提取 Sharpe ratio、尋找複製研究及統計來源數量。

表格內容如下：
- A1 | Classic_FF_AQR | HML, SMB, MKT-RF, UMD (12-1), QMJ, BAB, CMA, RMW
- A2 | Profitability_Investment | Gross Profitability, Operating Profitability, ROE, Asset Turnover, Accruals, Net Share Issuance, Asset Growth, Investment-to-Assets
- A3 | LowVol_Value_Yield | Low Volatility, Dividend Yield, Earnings-to-Price, Cash Flow-to-Price, Sales-to-Price, EBITDA-to-EV, Net Payout Yield, Piotroski F-Score
- A4 | Reversal_Momentum_Behavioral | Long-term Reversal, Short-term Reversal, PEAD, 52-Week High, Momentum, Industry Momentum, Idiosyncratic Volatility, Volume
- A5 | Additional_Anomalies | Liquidity, Distress, Beta, Share Repurchase, Tangibility, Earnings, Composite Issuance, Minimum Variance

右側進度欄（Progress）：
- 已完成：Read deep-research-swarm and xlsx skills
- 待執行：Create plan.md with staged research + assembly
- 待執行：Stage 1: Deploy parallel research agents to identify factors
- 待執行：Stage 2: Cross-validate and verify 3-source replication
- 待執行：Stage 3: Build Excel with factor rankings + 2010+ Sharpe
- 待執行：Final delivery and validation

下方對話框顯示工具名稱為「K2.6 Agent Swarm」。</div></details>

一句話的 Prompt 只是許願。而規格書是訂單。群體只執行訂單。

---

## 03. 允許浪費——這正是重點所在

現在開始執行。多達 300 個子 Agent 會以平行波次啟動。第一波處理完全獨立的子任務。

當結果產出後，協調器會啟動下一波依賴於這些結果的任務，直到依賴圖解析完畢。

每個子 Agent 都在其受限的 context window 中運作。這就是結構上的訣竅：單一 Agent 在處理長任務時會填滿視窗直到崩潰，並開始進行有損摘要，之後的每一步推理都會變差。

群體為每個子任務提供各自的 context，因此只有結構化的輸出會流回協調器。這就是為什麼它不會在那些會擊垮單一 Agent 的任務上崩潰。

由於 Kimi 的輸入價格為 $0.95/M，輸出為 $4.00/M（快取命中時僅 $0.16），你完全負擔得起放棄第一次嘗試並重新執行。低廉的成本改變了你願意嘗試的範圍。

```python
端到端執行規格書。
在計畫允許的地方進行平行處理。
每 30 步回報一次進度。
立即標記任何阻塞點 — 不要默默繞過它。
如果子 Agent 停滯超過 10 分鐘，請重新分配或回報。
將所有內容合併為規格書中定義的 OUTPUT。
```

![一個名為「K2.6 Agent Swarm」的 AI 代理系統正在執行跨領域因子衰減審計任務的介面。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/540223db80c30ee6.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">該畫面為一個 AI 代理系統的執行介面，標題為「Cross-Sectional Factor Decay Audit」。
系統狀態顯示：「Used 1 tools · ran 2 commands」、「Using subagents」、「Thinking completed」。
系統提示訊息：「BLOCKER: Background agents disabled. Re-dispatching in foreground mode. All 5 agents will run in parallel.」

下方列出 5 個正在執行（In progress）的子代理任務：
01 Research classic Fama-French + AQR factors
02 Research profitability + investment factors
03 Research low-vol, value, yield factors
04 Research reversal, momentum, behavioral factors
05 Research additional anomalies factors

右側欄位包含：
Progress（進度）：
- 已完成：Read deep-research-swarm and xlsx skills
- 已完成：Create plan.md with staged research + assem...
- 待執行：Stage 1: Deploy parallel research agents to id...
- 待執行：Stage 2: Cross-validate and verify 3-source re...
- 待執行：Stage 3: Build Excel with factor rankings + 20...
- 待執行：Final delivery and validation

Context（上下文）：
- SKILL.md
- SKILL.md
- SKILL.md

底部輸入框顯示工具名稱為「K2.6 Agent Swarm」，並設有「Full access」權限選項。</div></details>

---

## 04. 要求真實檔案，而非聊天視窗的答案

群體的輸出不應該只是視窗中的文字。它是可以直接進入你工作流程的結構化交付成果——這也是大多數文章忽略的部分。

一次執行就能產出 PDF、試算表、資料集、簡報檔和可運作的程式碼，因為 Kimi 原生支援這些格式。

> 所以，請務必在規格書開頭就定義輸出。

「一份綜合報告」給了 Agent 提前結束任務的藉口。「一份 40 頁的 PDF + 一份 20,000 列的 CSV + 14 張可直接匯出的 PNG 圖表」則給了它們明確的品質目標。

在輸出層級的具體要求，就是成敗的關鍵。

```python
OUTPUT: [檔案類型] / [數量] / [命名方式] / [格式細節]

# 強力範例：
OUTPUT: 1 個 .xlsx 檔，每個模型佔一行，+ 200 字簡報
OUTPUT: 30 個 HTML 檔，每個商店一個，以商家名稱命名
OUTPUT: 40 頁 PDF + 20,000 列 CSV + 14 張 PNG 圖表
```

![這是一個名為 K2.6 Agent Swarm 的 AI 代理系統介面，正在執行名為「Cross-Sectional Factor Decay Audit」的自動化研究與數據彙整任務。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/046059673efd2c4e.jpg)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面為一個 AI 代理系統的執行介面，主要內容如下：
- 標題：Cross-Sectional Factor Decay Audit
- 輸出規格說明：
  - OUTPUT: 30 HTML files, one per store, named by business
  - OUTPUT: 40-page PDF + 20,000-row CSV + 14 PNG charts
- 系統狀態：Thinking completed
- 輸出確認內容：
  - OUTPUT CONFIRMED: factor_decay_audit_q2_2026.xlsx — 1 file, 1 sheet with 40 rows, 7 columns (name, source paper, in-sample Sharpe, OOS Sharpe, decay %, t-stat, capacity note) + 200-word brief embedded in a cover sheet.
- 執行進度：
  - 正在執行：Launching the single research + assembly agent now.
  - 子代理狀態：Using subagents -&gt; 01 Full factor research + Excel build (In progress)
- 右側進度欄 (Progress)：
  - 已完成：Read deep-research-swarm and xlsx skills
  - 已完成：Create plan.md with staged research + assembly...
  - 待處理：Stage 1: Deploy parallel research agents to id...
  - 待處理：Stage 2: Cross-validate and verify 3-source re...
  - 待處理：Stage 3: Build Excel with factor rankings + 20...
  - 待處理：Final delivery and validation
- 右側上下文 (Context)：包含三個 SKILL.md 檔案。
- 底部輸入框：顯示「Follow up here...」，右下角標示「K2.6 Agent Swarm」。</div></details>

---

## 05. 將誠實的模型指向輸出並詢問哪裡出錯了

這是唯一不屬於 Kimi 的環節。群體有一個已知的缺陷：除非你明確要求驗證，否則它會產生充滿自信但引用不足的聲明，且獨立的子 Agent 有時會相互矛盾。「看起來完成了」和「正確無誤」是完全不同的兩回事。

Opus 4.8 正是為了這個閘道而生。Anthropic 報告指出，它比 4.7 版本在忽略自身程式碼缺陷的可能性上低了約 4 倍，且它是第一個在「無批判地報告錯誤結果」方面得分為 0% 的 Claude 模型。

它在這裡的唯一職責是反駁，而不是讚美。你不是在支付高昂的 token 來產生內容——你是在支付它們來在第 4 步將其永久保存為 skill 之前，抓出那些隱蔽的錯誤。

![Kimi K2.7 Code 在 Coding 與 Agents 領域的各項基準測試中，表現皆顯著優於前代 Kimi K2.6，並在 MCP Mark Verified 等部分測試中超越了 Opus 4.8 (xhigh)。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/0e55f47b9d0fb8e7.jpg)

<details class="chart-data"><summary>展開數據表（1）Coding</summary><table><thead><tr><th></th><th>Kimi K2.7 Code</th><th>Kimi K2.6</th><th>GPT-5.5 (xhigh)</th><th>Opus 4.8 (xhigh)</th></tr></thead><tbody><tr><td>Kimi Code Bench v2*</td><td class="rank-bar num bar-w-100"><span class="bar-val">62.0</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">50.9</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">69.0</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">67.4</span></td></tr><tr><td>Program Bench</td><td class="rank-bar num bar-w-90"><span class="bar-val">53.6</span></td><td class="rank-bar num bar-w-90"><span class="bar-val">48.3</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">69.1</span></td><td class="rank-bar num bar-w-90"><span class="bar-val">63.8</span></td></tr><tr><td>MLS Bench Lite</td><td class="rank-bar num bar-w-60"><span class="bar-val">35.1</span></td><td class="rank-bar num bar-w-50"><span class="bar-val">26.7</span></td><td class="rank-bar num bar-w-50"><span class="bar-val">35.5</span></td><td class="rank-bar num bar-w-60"><span class="bar-val">42.8</span></td></tr></tbody></table></details><details class="chart-data"><summary>展開數據表（2）Agents</summary><table><thead><tr><th></th><th>Kimi K2.7 Code</th><th>Kimi K2.6</th><th>GPT-5.5 (xhigh)</th><th>Opus 4.8 (xhigh)</th></tr></thead><tbody><tr><td>Kimi Claw 24/7 Bench*</td><td class="rank-bar num bar-w-60"><span class="bar-val">46.9</span></td><td class="rank-bar num bar-w-60"><span class="bar-val">42.9</span></td><td class="rank-bar num bar-w-60"><span class="bar-val">52.8</span></td><td class="rank-bar num bar-w-60"><span class="bar-val">50.4</span></td></tr><tr><td>MCP Atlas</td><td class="rank-bar num bar-w-90"><span class="bar-val">76.0</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">69.4</span></td><td class="rank-bar num bar-w-90"><span class="bar-val">79.4</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">81.3</span></td></tr><tr><td>MCP Mark Verified</td><td class="rank-bar num bar-w-100"><span class="bar-val">81.1</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">72.8</span></td><td class="rank-bar num bar-w-100"><span class="bar-val">92.9</span></td><td class="rank-bar num bar-w-90"><span class="bar-val">76.4</span></td></tr></tbody></table></details>

低廉的成本只有在有可靠的事物檢查工作時，才是一種超能力。請務必保留驗證閘道。

---

## 06. 將整個工作流程保存為 Skill

這就是讓迴圈自我優化的環節。在執行完一個你會重複進行的任務後，告訴 Kimi 將整個工作流程捕獲為一個可重複使用的 Skill——包含輸入格式、Agent 步驟、輸出格式。

第一次執行可能需要 20 分鐘。之後的每一次執行只需 30 秒。

這才是「自我學習」的真實版本。模型並不會在你每次執行之間重新訓練權重。

圍繞著它的系統正在變得更聰明——你的 skill 庫會隨著每個專案而成長，未來的每個群體都會自動應用這些 skill。

競爭對手無法在幾週內複製這個庫。它是你數個月真實執行經驗的結晶。

```python
將此整個工作流程保存為可重複使用的 Skill：「[名稱]」
捕獲：
- 輸入格式（它預期的檔案類型 / 規格書形狀）
- 有效的 Agent 步驟
- 輸出格式與命名慣例
- 規格書中的驗證規則
下次執行此任務時，我只需附加新檔案，就能得到相同的產出結構。
```

![此畫面展示了一個名為「Factor Decay Audit」的自動化工作流程工具介面，用於審核已發布的權益因子及其夏普比率衰減情況。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1651b01dcaf2926f.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面為一個軟體應用程式介面，左側為導覽列，包含「Work」、「Chat」、「New Task」、「Plugins」、「Scheduled Tasks」、「WebBridge」等選項。右側主視窗顯示「SKILL.md」檔案內容，詳細說明了「Factor Decay Audit」skill的用途與運作方式。

**文字轉錄：**
- 標題：Factor Decay Audit Skill
- 用途：透過發布後的夏普比率衰減來審核權益因子，包含映射來源論文、提取樣本內夏普比率、尋找獨立樣本外（OOS）複製研究、計算衰減百分比、排序並輸出 Excel 檔案。
- 輸入格式：要求提供名為 `PROJECT_SPEC.md` 的 Markdown 或文字檔，並包含 PROJECT、GOAL、SCOPE In/Out、RULES、SOURCES、OUTPUT、STOP CONDITION 等區段。
- 表格內容（What was captured）：
    - Input format: PROJECT_SPEC.md (含必要區段)
    - Agent steps: 5 個研究代理人 (每人 8 個因子) -&gt; 2 個順序驗證代理人 (衝突審計 + 來源驗證) -&gt; 1 個組裝代理人 (Excel + 簡報)。
    - Output format: .xlsx 檔案，包含封面、因子審計與來源工作表。
    - Validation rules: 3 來源標準、原始夏普比率驗證、2010 年後 OOS 要求、無聚合規則、衝突標記、停止條件。
    - Risk registry: OOS 夏普比率稀缺、計算夏普比率處理、定義漂移、代理人逾時。</div></details>

---

## 07. 將你自己的文件作為群體知識輸入

Skill 捕獲的是流程，而「文件轉 Skill」捕獲的是領域知識。上傳你最優秀的作品——一份成交的提案、一份精緻的報告、一份簡報——Kimi 會捕獲其結構與風格的指紋，作為未來每個群體自動應用的 skill。

這就是複合成長的地方：你餵入的每一份 PDF、逐字稿或試算表，都成為所有 300 個平行 Agent 可以參考的 context，而不是退而求其次使用一般的訓練資料。

你餵入的越多，後續每次執行的準確度就越高。報告不再讀起來像通用的 AI 產物，而開始讀起來像你的作品。

```python
將此文件捕獲為可重複使用的 skill。識別出使其成功的要素：
- 結構與章節順序
- 語氣與語音註冊
- 每個章節的分析深度
- 寫作節奏與格式決策
將其保存為「[名稱]」。然後使用捕獲的 skill 針對 [不同主題] 製作一份新文件 — 匹配品質標準，而非內容。
```

![使用者在對話介面中要求 AI 系統分析名為「SKILL.md」的文件，並將其轉化為可重複使用的skill模板。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/b5c691c523c85bac.png)

<details class="chart-data"><summary>展開畫面重點</summary><div class="me-note">畫面上顯示一個 AI 互動介面，包含一個名為「SKILL.md」（大小為 9.9 KB）的附件檔案。對話框中的指令要求 AI 執行以下任務：
1. 將該文件捕獲為可重複使用的skill。
2. 分析其運作機制，包括：結構與章節順序、語氣與語域、各章節的分析深度、寫作節奏與格式決策。
3. 將此skill儲存為指定名稱。
4. 使用該skill針對不同主題撰寫新文件，並確保品質水準與原文件一致。
介面右下角顯示「K2.6 Agent Swarm」字樣，並有一個向上箭頭的發送按鈕。</div></details>

---

## 08. 將驗證回饋轉化為永久規則

第 5 步抓出一次錯誤。第 8 步確保群體永遠不會再犯。拿著 Opus 的修正清單，不要只是修補輸出——將這些教訓寫入專案層級的約束檔案（constraints file），讓 Kimi 在每次會話開始時自動讀取。

這就是迴圈從自身失敗中學習的過程。Opus 在第 1 次執行時標記的偏差，在第 2 次執行時就會變成強制規則。

經過幾個專案後，你的約束檔案會變成會自我強化的動態文件——而驗證閘道需要抓出的錯誤也會越來越少。

```python
# CONSTRAINTS.md — 自動載入
- 每個聲稱的數字必須追溯至原始來源，否則必須標記
- 不允許默默解決衝突 — 必須浮現矛盾之處
- [從上次執行 Opus 回饋中提煉出的規則]
- [你永遠不想再犯的錯誤]
範圍鎖定：不要觸碰規格書 SCOPE 區塊以外的任何內容。
```

---

## 09. 在新輸入上重播 Skill — 觀察成本崩潰

現在是回報時刻。第 2 次執行不再從零開始。它從你第 6–8 步建立的 skill、群體知識和約束檔案開始。

同樣的工作流程，新的檔案，設定時間大幅縮減。

這就是「複合成長」不再只是行銷術語，而是真實反映在帳單上的時刻。第一次競爭對手監控任務需要完整的規格書和驗證過程。

第四次執行時，僅需針對已保存的 skill 進行 30 秒的 Prompt，且輸出結果更精確，因為它繼承了之前所有執行過程中的修正。

![圖表展示了該系統的效能指標，其中首次執行（Run #1）需時 20 分鐘，而後續重複執行（Run #N）僅需 30 秒，且快取命中成本僅為每百萬 tokens 0.16 美元，並保持 86.3% 的 BrowseComp 群體準確度。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ea837f312d038ba6.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Run #N — attach new files, replay skill</th><th>Cache-hit price per M tokens on repeat context</th><th>BrowseComp swarm accuracy, carried into every replay</th></tr></thead><tbody><tr><td>Run #1 — build the spec, verify, distill = 20 min</td><td>30 sec</td><td>$0.16</td><td>86.3%</td></tr></tbody></table></details>

```python
在這些新輸入上執行已保存的 skill「[名稱]」。
應用 CONSTRAINTS.md。使用捕獲的輸出格式。
[附加新檔案]
僅回報與 skill 預期結構的偏差。
```

第一次執行 20 分鐘。第五十次執行 30 秒。這個差距就是為什麼要建立迴圈而不是單純 Prompt 的全部原因。

---

## 10. 將迴圈升級為背景 Agent

最後一步：一旦迴圈穩定且有 skill 支援，你就不再需要手動啟動它。

將 Kimi 指向觸發條件——一個排程、一個新檔案上傳、一個競爭對手的定價頁面——讓它主動執行整個迴圈，只向你呈現交付成果與偏差。

> 競爭對手監控是一個很好的例子。

第 1 次執行時，你手動建立並驗證。等到它成為背景 Agent 時，它每週都會平行檢查所有競爭對手，並在你的收件匣中放入一份簡報，邊際時間成本為零。

迴圈中唯一剩下的人類，就是設定問題的你，以及對答案做出決策的你。

```python
按每週排程執行 skill「[名稱]」。
觸發條件：[排程 / 新檔案 / 監控的 URL]
每次執行時：執行群體，應用 CONSTRAINTS.md，
驗證，然後交付 OUTPUT + 與上次執行的差異對比。
僅在偏差超過 [閾值] 時通知我。
```

---

## 結論：

當封閉式實驗室還在一次次發布更聰明的聊天機器人時，一個開源模型正在平行運作 300 個 Agent——並且在你給它的每一次執行中，在系統層級變得更聰明。

我們已經見過這種模式一次了。開源發布重新定義了封閉式前沿模型以為自己擁有的東西，整個領域在一夜之間重新校準。DeepSeek 就是這樣發生的。

在開源權重模型上運作的自我學習群體，也具備同樣的特徵。

那些還在爭論哪個模型「贏了」的開發者，正在回答一個已經不再重要的問題。

現在的問題不是哪個模型最聰明。而是你能同時運作多少個，誰在檢查它們的工作，以及你的設定是否比昨天更精確。

大多數人讀完這篇文章後，仍會繼續把 Kimi 當作聊天框使用。但少數人會在這一週內建立起自己的迴圈。第一次執行需要 20 分鐘。之後的每一次執行，都是你擁有的槓桿。

建立它。驗證它。提煉它。然後看著它在你每次執行時，變得更便宜、更精確。

## 標籤

Agent, 開源專案, Skills, 自動化, Kimi, Anthropic
