# 策展 · X (Twitter) 🔥

> 作者：Exa (@ExaAILabs) · 平台：X (Twitter) · 日期：2026-05-14

> 原始來源：https://x.com/ExaAILabs/status/2054616383313588308

## 中文摘要

Exa 搜尋後端讓 RL Agent 以更少資源達高效能。

Exa 在強化學習（RL）訓練搜尋 Agent 時，優於 Google SERP 基準，達成更高 pass@k 分數，同時大幅降低所需 token、回合與搜尋呼叫次數。Exa 團隊透過嚴格控制實驗變數，證實其搜尋後端不僅提升效能，更具運算效率優勢。

**實驗設計細節**  
作者 Sol Kim 和 Nitya Sridhar 使用 Qwen3-4B-Instruct-250712 模型，搭配 LoRA 適配器與 Tinker 框架訓練兩個版本：一個以 Exa 為搜尋後端，另一個以 SERP（Google 搜尋結果頁）為基準，所有其他變數完全固定。  
- 系統提示來自 Search-R 調整，避免提示差異影響行為。  
- 每次搜尋工具呼叫返回 5 個即時網路結果，每個片段截斷至最多 2,000 字元，以符合模型 context window 限制。  
- Agent 不察覺搜尋後端差異，聚焦純粹比較搜尋提供者。  
訓練資料來自 MuSiQue 和 HotpotQA 多跳 QA 資料集，使用 Dr. GRPO 優化器。回饋為單一二元訊號：初期用精確子字串比對，但發現 Agent 僅透過格式調整獲高分，故改用 [SimpleQA](https://simpleqa.github.io/) 的 LLM 評分器，並對超出 context 限制的軌跡施加 -0.25 懲罰。評估指標為 pass@k，涵蓋 MuSiQue、HotpotQA 測試集，以及 OOD 基準 2WikiMultihopQA、FRAMES、BrowseComp 和 SimpleQA；對照基準為未訓練的 Qwen3-235B-A22B-Instruct-250726，使用相同工具集。

**效能結果亮點**  
Exa 訓練的 Agent 在所有評估中全面超越 SERP 訓練版本，三項模式尤為突出：  
- post-RL Exa 模型在所有 k 值下的 pass@k 皆優於 post-RL SERP 模型。  
- Exa 訓練更具運算效率：相同效能下需更少 token、回合與搜尋呼叫，推論時 token 成本也更低。  
- Exa 訓練的 4B Agent 在每個基準皆勝過 SERP 訓練版本，常超越更大規模的未訓練 235B 模型。  
文章強調，先前 RL 搜尋 Agent 研究多固定檢索方法（如離線語料或 SERP），鮮少探討即時網路搜尋後端的影響；Exa 憑藉自有搜尋引擎與網路索引，能大規模檢驗此互動。

**token 效率分析**  
Exa 訓練需更少 token 達相同步驟，主要因每軌跡回合數較少：SERP Agent 在訓練中每軌跡搜尋呼叫更多。兩 Agent 從相同基底政策起步，初期回合與呼叫相似，但差距隨訓練擴大。此效率讓 Exa 以 70% 更少訓練運算，即達更高效能。

**訓練與推論分離效應**  
為拆解訓練時與推論時影響，團隊交叉評估：用 Exa RL 訓練的 Agent 不論推論用 Exa 或 SERP，皆優於 SERP 訓練版本；反之，用 SERP 訓練後推論切換 Exa，仍無法追平 Exa 訓練者。Exa 在推論時也獨立提升效能，不依賴訓練後端。  
假設根源在於 Exa 的樣本效率更高：其語意導向搜尋專為非關鍵字自然語言查詢設計，能以更少動作檢索含正確答案的結果。在多回合 Agentic RL 中，這降低每步成功率稀疏性，讓模型從更少軌跡學習。相較之下，SERP 基於傳統 SERP，易導致更多無效呼叫與稀疏回饋，拖累效率。

此研究於 2026 年 5 月 13 日發布於 [Exa 官方部落格](http://exa.ai/blog/rl-search-outcomes)，挑戰既有 RL 搜尋 Agent 依賴 Google 的慣性，證明 Exa 等專屬搜尋引擎能重塑訓練範式，提供更精準、節省的學習路徑。Exa 的語意搜尋優勢不僅加速收斂，還放大小模型潛力，暗示未來 Agent 開發可避開昂貴的通用 SERP，轉向優化後端以獲躍升。

## 標籤

Agent, 研究論文, Benchmark, Exa, Qwen
