← 返回首頁

ThreadWeaver 透過自適應平行推理技術,在維持推理準確度的同時顯著降低大型語言模型的延遲

Long Lian
Long Lian
@LongTonyLian
80🔁 17
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成

ThreadWeaver 透過自適應平行推理技術,在維持推理準確度的同時顯著降低大型語言模型的延遲。

ThreadWeaver 是一個開源的平行推理框架,旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應的「spawn」與「join」操作,將推理過程拆解為多個並行執行緒,在六項數學推理基準測試中,不僅達到與主流序列模型相當的準確度(如 AIME24 達到 79.9%),更實現了最高 1.53 倍的平均速度提升。

核心機制與架構
ThreadWeaver 引入了一套結構化的推理軌跡格式,透過特殊的控制 token 來管理平行化流程,無需修改底層推理引擎(如 vLLM 或 SGLang):

  • 結構化軌跡:使用 <Parallel><Outlines><Thread> 等標籤定義平行區塊,讓模型能明確規劃並執行獨立的子任務。
  • 推論狀態機:透過五階段狀態機管理「spawn」與「join」操作,確保能直接調用標準 API,並繼承現有的服務優化技術(如 paged attention 與 prefix caching)。
  • Trie 結構訓練:在訓練階段將推理樹扁平化為單一序列,並採用「僅祖先」的注意力遮罩(ancestor-only attention mask),有效防止訓練過程中的執行緒間資訊洩漏。

訓練與優化策略
為了生成高品質的平行推理資料並優化效能,該專案採用了兩階段資料生成與特殊的強化學習框架:

  • 兩階段資料生成:先利用強大的 LLM 進行輕量級重寫,將序列推理軌跡轉化為平行結構,隨後透過模型自我訓練(Self-Training)將樣本數從 1k 擴展至 17k。
  • P-GRPO 強化學習:引入「平行化感知」的強化學習框架,將獎勵函數定義為「正確性 + 加速比」。
  • 訓練穩定性:針對標準 GRPO 在平行獎勵下容易失效的問題,採用「均值中心化歸一化」(mean-centered normalization),成功平衡了速度與準確度之間的權衡。

效能與限制分析
儘管 ThreadWeaver 在多項基準測試中展現了顯著的加速效果,但研究也指出其在實際應用中的潛在侷限:

  • 效能表現:在數學推理任務中,ThreadWeaver 平均速度提升達 1.22 倍,在特定任務(如 Minerva)中甚至達到 1.53 倍的加速。
  • 實際牆鐘時間:在 50 個 MATH500 問題的實測中,使用 4 個 GPU 進行平行推論,實際牆鐘時間(wall-clock time)獲得了 1.14 倍的加速。
  • 潛在缺陷:研究團隊坦承模型偶爾會出現「冗餘計算」的問題,例如在計算 42 的階乘時,模型可能會將任務拆解為重複驗證,導致無法有效加速主要任務,顯示在任務拆解的智慧化程度上仍有改進空間。