# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Patrick Jiang (@patpcj) · 平台：X (Twitter) · 日期：2026-06-06

> 原始來源：https://x.com/patpcj/status/2063298457398636570

## 中文摘要

Patrick Jiang 發表 Harness-1 實現外置搜尋。

**核心理念與設計動機**
Patrick Jiang 指出，傳統搜尋 Agent 的效能瓶頸在於「將所有簿記工作都塞進模型腦中」。在典型的搜尋流程中，模型不僅要負責搜尋、閱讀與決策，還必須同時擔任記憶系統、筆記員、驗證者與圖書館管理員的角色。這種將所有資訊堆疊在「僅能附加（append-only）」的長文本紀錄中的做法，不僅增加了模型的認知負擔，也讓強化學習（RL）難以釐清失敗的原因究竟是搜尋決策錯誤，還是模型單純遺忘了已讀資訊。 

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786276252-00l9kmel.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786277004-gaUUL3jmoR9ppQJiUjpg.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> Harness-1 透過將搜尋狀態與決策邏輯分離，以 200 億參數達成領先的搜尋效能。

**技術架構：狀態外置化**
Harness-1 的核心創新在於將「語義決策」與「環境狀態維護」分離。模型依然負責高階的語義決策（如：搜尋什麼、閱讀什麼、保留什麼、何時驗證、何時停止），但將繁瑣的狀態管理交由 `harness` 處理。這個 `harness` 框架維護了一個可恢復的「workspace」，包含以下關鍵資訊：
- 候選文件池（candidate docs）
- 經標記重要性的策展證據（curated evidence）
- 證據連結與驗證紀錄
- 搜尋歷史與去重壓縮後的觀察結果
- 預算感知（budget-aware）的上下文標記

透過這種方式，Agent 不再是單純對著搜尋框對話，而是在操作一個結構化的工作空間。Patrick Jiang 強調，這改變了強化學習的學習目標：模型不再是為了在龐大的文本紀錄中存活，而是學習如何有效使用這個結構化的搜尋介面。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786287430-3aMAAWWfCpngnameorig.png)
> 此圖表展示了具備外部記憶與檢索能力的 20B 搜尋代理（Search Agent）架構，說明其如何透過結構化動作與狀態管理來進行資訊檢索、篩選與驗證的運作流程。

**效能表現與訓練數據**
Harness-1 在 8 項涵蓋網路、金融、專利及多跳問答（multi-hop QA）的困難檢索基準測試中，達到了 0.730 的平均策展召回率。
- 效能優勢：在同類開源搜尋 Agent 中，召回率領先 11.4 個百分點，並在多項指標上與更大規模的 frontier-level 模型（如 Opus-4.6）競爭。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786277193-IaUAA9lmxpngnameorig.png)
> Harness-1 (20B) 作為開源輕量模型，在 8 個基準測試的平均搜尋表現中，展現出媲美 Opus-4.6 且超越 GPT-5.4 等前沿模型的長程搜尋能力。

- 遷移能力：最顯著的成果在於遷移學習，Harness-1 在未見過的測試集上，召回率提升幅度高達 17.0 個百分點，遠高於在原始領域的 7.9 個百分點，證明了將行為先驗（behavioral prior）植入 `harness` 的有效性。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786301486-WakAAmPKWpngnameorig.png)
> Harness-1 在留出轉移基準測試（held-out transfer benchmarks）上的平均召回率增益（+17.0 pts）顯著高於源家族基準測試（source-family benchmarks，平均 +7.9 pts），相較於 Context-1 展現出 2.2 倍的差距。

- 訓練規模：該模型並非依賴海量資料，僅使用了 899 筆經過篩選的 SFT 軌跡與 3,453 筆查詢進行強化學習。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786289527-jbwAAHaY7pngnameorig.png)
> 根據推文，Harness-1（圖中標示為 HarnessS-1）僅需極低的 4.4K 訓練數據量（SFT 0.9K 與 RL 3.5K），即可達到 Context-1 級別的成本與延遲，並在長程搜尋任務中媲美更大型的 frontier 模型。

**快速上手與部署**
Harness-1 已開源並提供檢查點（checkpoint），研究人員與開發者可透過以下步驟進行測試：

1. 環境準備（需 Linux、Python `3.11+`、`uv` 及 CUDA GPU）：
   ```bash
   uv sync --extra vllm
   export HARNESS1_HF_MODEL=pat-jj/harness-1
   ```
2. 執行基礎推論測試：
   ```bash
   uv run python inference/hf_inference.py \
     --model ${HARNESS1_HF_MODEL:-pat-jj/harness-1} \
     --prompt "Briefly describe Harness-1."
   ```
3. 若要進行完整的 `BrowseComp+` 基準測試，請參考 `docs/run_vllm_browsecompplus.md` 文件。

Patrick Jiang 總結認為，對於搜尋 Agent 而言，「模型」本身並非學習系統的全部，介面設計、記憶佈局、動作空間以及 `harness` 的架構設計同樣至關重要。若希望透過強化學習提升搜尋行為，應停止讓模型在腦中處理所有瑣碎的簿記工作。相關資源可參考 [Harness-1 GitHub 專案](https://github.com/pat-jj/harness-1) 與 [arXiv 論文](https://arxiv.org/abs/2606.02373)。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780786310965-aagAAmtDGjpgnameorig.jpg)
> 消融實驗結果顯示，啟用完整機制（Full Harness-1）能提供穩健的檢索表現，而當停用所有 Harness-1 機制時，Recall 顯著下降了 12.2%。

## 標籤

Agent, 開源專案, 記憶系統, Harness-1
