# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Xiangming Gu (@gu_xiangming) · 平台：X (Twitter) · 日期：2026-04-11

> 原始來源：https://x.com/gu_xiangming/status/2042589755779776605

## 中文摘要

研究顯示平行採樣在大型推理模型中優於序列採樣。

Google DeepMind 的研究指出，在大型推理模型 (LRMs) 進行數學與程式撰寫任務時，平行採樣的表現通常優於序列採樣，且關鍵原因在於序列採樣缺乏足夠的探索性。

**研究背景與發現**
研究針對「Qwen3」、「DeepSeek-R1」蒸餾模型及「Gemini 2.5」進行測試。研究發現，在數學與程式撰寫任務中，平行採樣（Parallel Sampling）的效果普遍優於序列採樣（Sequential Sampling），儘管後者理論上應具備更強的表達能力。

**驗證假設與排除因素**
研究團隊提出了三個假設來解釋效能差距，並透過實驗進行驗證：
- 聚合運算（Aggregation）：假設平行採樣因使用了聚合運算而勝出。實驗顯示，即便為序列採樣加入相同的聚合機制，效能差距依然存在。
- 上下文長度（Context Length）：假設序列採樣因需處理更長的輸入上下文而受限。實驗在平行採樣中加入長度相當或更長的無關上下文，結果顯示這並未影響平行採樣的效能。

**效能差距的核心原因**
研究證實，序列採樣的主要問題在於「探索不足」。
- 序列採樣會導致模型對先前的解法過度自信，傾向於重複相同的路徑。
- 使用 Embedding 模型分析顯示，平行採樣產生的解法之間相似度較低，代表其探索範圍更廣。
- 機制可解釋性分析（Mechanistic Interpretability）發現，序列採樣的上下文中存在「歸納頭」（Induction Heads），導致模型傾向於複製先前的解法，進而抑制了對新解法的探索。

**實務建議與改善方向**
研究團隊針對提升序列採樣效能提出具體建議：
- 擴展環境回饋（Environment Feedbacks）：若能提供高品質的回饋（如利用隱藏測試案例來偵測執行錯誤），序列採樣的效能可追平平行採樣。
- 採用拒絕採樣（Reject Sampling）：透過主動探索新的替代方案來優化結果。

## 標籤

研究論文, LLM, Benchmark, Google, DeepMind, Gemini
