← 返回首頁

研究顯示平行採樣在大型推理模型中優於序列採樣

Xiangming Gu
Xiangming Gu
@gu_xiangming
136🔁 18
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

研究顯示平行採樣在大型推理模型中優於序列採樣。

Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。

研究背景與發現
研究針對「Qwen3」、「DeepSeek-R1」蒸餾模型及「Gemini 2.5」進行測試。研究發現,在數學與程式撰寫任務中,平行採樣(Parallel Sampling)的效果普遍優於序列採樣(Sequential Sampling),儘管後者理論上應具備更強的表達能力。

驗證假設與排除因素
研究團隊提出了三個假設來解釋效能差距,並透過實驗進行驗證:

  • 聚合運算(Aggregation):假設平行採樣因使用了聚合運算而勝出。實驗顯示,即便為序列採樣加入相同的聚合機制,效能差距依然存在。
  • 上下文長度(Context Length):假設序列採樣因需處理更長的輸入上下文而受限。實驗在平行採樣中加入長度相當或更長的無關上下文,結果顯示這並未影響平行採樣的效能。

效能差距的核心原因
研究證實,序列採樣的主要問題在於「探索不足」。

  • 序列採樣會導致模型對先前的解法過度自信,傾向於重複相同的路徑。
  • 使用 Embedding 模型分析顯示,平行採樣產生的解法之間相似度較低,代表其探索範圍更廣。
  • 機制可解釋性分析(Mechanistic Interpretability)發現,序列採樣的上下文中存在「歸納頭」(Induction Heads),導致模型傾向於複製先前的解法,進而抑制了對新解法的探索。

實務建議與改善方向
研究團隊針對提升序列採樣效能提出具體建議:

  • 擴展環境回饋(Environment Feedbacks):若能提供高品質的回饋(如利用隱藏測試案例來偵測執行錯誤),序列採樣的效能可追平平行採樣。
  • 採用拒絕採樣(Reject Sampling):透過主動探索新的替代方案來優化結果。