# Patrick Jiang 發表 Harness-1 實現外置搜尋

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Patrick Jiang (@patpcj) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-06-06

> 原始來源：https://x.com/patpcj/status/2063298457398636570

## 中文摘要

Patrick Jiang 發表 Harness-1 實現外置搜尋。

**核心理念與設計動機**
Patrick Jiang 指出，傳統搜尋 Agent 的效能瓶頸在於「將所有簿記工作都塞進模型腦中」。在典型的搜尋流程中，模型不僅要負責搜尋、閱讀與決策，還必須同時擔任記憶系統、筆記員、驗證者與圖書館管理員的角色。這種將所有資訊堆疊在「僅能附加（append-only）」的長文本紀錄中的做法，不僅增加了模型的認知負擔，也讓強化學習（RL）難以釐清失敗的原因究竟是搜尋決策錯誤，還是模型單純遺忘了已讀資訊。 

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786276252-00l9kmel.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786277004-gaUUL3jmoR9ppQJiUjpg.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> Harness-1 透過將搜尋狀態與決策邏輯分離，以 200 億參數達成領先的搜尋效能。

**技術架構：狀態外置化**
Harness-1 的核心創新在於將「語義決策」與「環境狀態維護」分離。模型依然負責高階的語義決策（如：搜尋什麼、閱讀什麼、保留什麼、何時驗證、何時停止），但將繁瑣的狀態管理交由 `harness` 處理。這個 `harness` 框架維護了一個可恢復的「workspace」，包含以下關鍵資訊：
- 候選文件池（candidate docs）
- 經標記重要性的策展證據（curated evidence）
- 證據連結與驗證紀錄
- 搜尋歷史與去重壓縮後的觀察結果
- 預算感知（budget-aware）的上下文標記

透過這種方式，Agent 不再是單純對著搜尋框對話，而是在操作一個結構化的工作空間。Patrick Jiang 強調，這改變了強化學習的學習目標：模型不再是為了在龐大的文本紀錄中存活，而是學習如何有效使用這個結構化的搜尋介面。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786287430-3aMAAWWfCpngnameorig.png)
> 此圖表展示了具備外部記憶與檢索能力的 20B 搜尋代理（Search Agent）架構，說明其如何透過結構化動作與狀態管理來進行資訊檢索、篩選與驗證的運作流程。

**效能表現與訓練數據**
Harness-1 在 8 項涵蓋網路、金融、專利及多跳問答（multi-hop QA）的困難檢索基準測試中，達到了 0.730 的平均策展召回率。
- 效能優勢：在同類開源搜尋 Agent 中，召回率領先 11.4 個百分點，並在多項指標上與更大規模的 frontier-level 模型（如 Opus-4.6）競爭。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786277193-IaUAA9lmxpngnameorig.png)
> Harness-1 (20B) 作為開源輕量模型，在 8 個基準測試的平均搜尋表現中，展現出媲美 Opus-4.6 且超越 GPT-5.4 等前沿模型的長程搜尋能力。

- 遷移能力：最顯著的成果在於遷移學習，Harness-1 在未見過的測試集上，召回率提升幅度高達 17.0 個百分點，遠高於在原始領域的 7.9 個百分點，證明了將行為先驗（behavioral prior）植入 `harness` 的有效性。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786301486-WakAAmPKWpngnameorig.png)
> Harness-1 在留出轉移基準測試（held-out transfer benchmarks）上的平均召回率增益（+17.0 pts）顯著高於源家族基準測試（source-family benchmarks，平均 +7.9 pts），相較於 Context-1 展現出 2.2 倍的差距。

- 訓練規模：該模型並非依賴海量資料，僅使用了 899 筆經過篩選的 SFT 軌跡與 3,453 筆查詢進行強化學習。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786289527-jbwAAHaY7pngnameorig.png)
> 根據推文，Harness-1（圖中標示為 HarnessS-1）僅需極低的 4.4K 訓練數據量（SFT 0.9K 與 RL 3.5K），即可達到 Context-1 級別的成本與延遲，並在長程搜尋任務中媲美更大型的 frontier 模型。

**快速上手與部署**
Harness-1 已開源並提供檢查點（checkpoint），研究人員與開發者可透過以下步驟進行測試：

1. 環境準備（需 Linux、Python `3.11+`、`uv` 及 CUDA GPU）：
   ```bash
   uv sync --extra vllm
   export HARNESS1_HF_MODEL=pat-jj/harness-1
   ```
2. 執行基礎推論測試：
   ```bash
   uv run python inference/hf_inference.py \
     --model ${HARNESS1_HF_MODEL:-pat-jj/harness-1} \
     --prompt "Briefly describe Harness-1."
   ```
3. 若要進行完整的 `BrowseComp+` 基準測試，請參考 `docs/run_vllm_browsecompplus.md` 文件。

Patrick Jiang 總結認為，對於搜尋 Agent 而言，「模型」本身並非學習系統的全部，介面設計、記憶佈局、動作空間以及 `harness` 的架構設計同樣至關重要。若希望透過強化學習提升搜尋行為，應停止讓模型在腦中處理所有瑣碎的簿記工作。相關資源可參考 [Harness-1 GitHub 專案](https://github.com/pat-jj/harness-1) 與 [arXiv 論文](https://arxiv.org/abs/2606.02373)。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786310965-aagAAmtDGjpgnameorig.jpg)
> 消融實驗結果顯示，啟用完整機制（Full Harness-1）能提供穩健的檢索表現，而當停用所有 Harness-1 機制時，Recall 顯著下降了 12.2%。

## 媒體內容

**Harness-1 透過將搜尋狀態與決策邏輯分離，以 200 億參數達成領先的搜尋效能。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:22）觀察模型處理結構化狀態的過程，包含 Query、策展集、文檔池、證據圖、驗證結果及搜尋歷史。

**Harness-1 (20B) 作為開源輕量模型，在 8 個基準測試的平均搜尋表現中，展現出媲美 Opus-4.6 且超越 GPT-5.4 等前沿模型的長程搜尋能力。**

**數據表**

|   | Curated Set Recall | Trajectory Recall |
| --- | --- | --- |
| Harness-1 (20B) | 73.0 | 80.7 |
| Context-1 (20B) | 60.3 | 75.6 |
| Tongyi DR 30B | 61.6 | 67.3 |
| Search-R1 32B | 28.9 | 28.9 |
| GPT-OSS 20B | 26.2 | 59.0 |
| Qwen3 32B | 21.6 | 44.6 |
| Opus-4.6 | 76.4 | 79.4 |
| GPT-5.4 | 70.9 | 75.2 |
| Sonnet-4.6 | 68.8 | 72.5 |
| Kimi-K2.5 | 64.7 | 79.4 |
| GPT-OSS 120B | 49.6 | 76.9 |

**根據推文，Harness-1（圖中標示為 HarnessS-1）僅需極低的 4.4K 訓練數據量（SFT 0.9K 與 RL 3.5K），即可達到 Context-1 級別的成本與延遲，並在長程搜尋任務中媲美更大型的 frontier 模型。**

**數據表**

|   | SFT | RL | 總計 |
| --- | --- | --- | --- |
| HarnessS-1 | 0.9K | 3.5K | 4.4K |
| Context-1 | 8.0K | 9.2K | ≥ 17.2K |
| Search-R1 | 0 | 221.3K | 221.3K |

**Harness-1 在留出轉移基準測試（held-out transfer benchmarks）上的平均召回率增益（+17.0 pts）顯著高於源家族基準測試（source-family benchmarks，平均 +7.9 pts），相較於 Context-1 展現出 2.2 倍的差距。**

**數據表**

|   | Recall gain over Context-1 (pts) |
| --- | --- |
| BC+ | +6.2 |
| Web | +9.8 |
| Patents | +3.3 |
| SEC | +12.2 |
| LSeal | +32.8 |
| Seal0 | +18.4 |
| FRAMES | +7.2 |
| HotQA | +9.5 |
| Source-family mean | +7.9 |
| Held-out transfer mean | +17.0 |

**消融實驗結果顯示，啟用完整機制（Full Harness-1）能提供穩健的檢索表現，而當停用所有 Harness-1 機制時，Recall 顯著下降了 12.2%。**

**數據表**

|   | Recall | ΔRecall (%) | FA Recall | ΔFA (%) |
| --- | --- | --- | --- | --- |
| Full Harness-1 (all mechanisms enabled) | 0.584 | — | 0.667 | — |
| – Importance tags (binary curate, FIFO eviction) | 0.560 | -4.1 | 0.614 | -7.9 |
| – Sentence-BM25 compression (raw chunks) | 0.585 | +0.2 | 0.620 | -7.0 |
| – Auto-seed on first search | 0.582 | -0.3 | 0.624 | -6.4 |
| – Evidence graph hidden in observations | 0.569 | -2.6 | 0.631 | -5.4 |
| – verify returns "unavailable" | 0.566 | -3.1 | 0.641 | -3.9 |
| – review_docs returns "unavailable" | 0.598 | +2.4 | 0.641 | -3.9 |
| – Content-fingerprint dedup (chunk-ID dedup kept) | 0.611 | +4.6 | 0.678 | +1.6 |
| All Harness-1 harness mechanisms disabled | 0.513 | -12.2 | 0.624 | -6.4 |

## 標籤

Agent, 開源專案, 記憶系統, Harness-1