ThreadWeaver 透過自適應平行推理技術，在維持推理準確度的同時顯著降低大型語言模型的延遲

Long Lian

♥80🔁 17

𝕏 (Twitter)🔥🔥2026年4月9日

AI 中文摘要Claude 生成

ThreadWeaver 透過自適應平行推理技術，在維持推理準確度的同時顯著降低大型語言模型的延遲。

ThreadWeaver 是一個開源的平行推理框架，旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應的「spawn」與「join」操作，將推理過程拆解為多個並行執行緒，在六項數學推理基準測試中，不僅達到與主流序列模型相當的準確度（如 AIME24 達到 79.9%），更實現了最高 1.53 倍的平均速度提升。

核心機制與架構
ThreadWeaver 引入了一套結構化的推理軌跡格式，透過特殊的控制 token 來管理平行化流程，無需修改底層推理引擎（如 vLLM 或 SGLang）：

結構化軌跡：使用 <Parallel>、<Outlines> 與 <Thread> 等標籤定義平行區塊，讓模型能明確規劃並執行獨立的子任務。
推論狀態機：透過五階段狀態機管理「spawn」與「join」操作，確保能直接調用標準 API，並繼承現有的服務優化技術（如 paged attention 與 prefix caching）。
Trie 結構訓練：在訓練階段將推理樹扁平化為單一序列，並採用「僅祖先」的注意力遮罩（ancestor-only attention mask），有效防止訓練過程中的執行緒間資訊洩漏。

訓練與優化策略
為了生成高品質的平行推理資料並優化效能，該專案採用了兩階段資料生成與特殊的強化學習框架：

兩階段資料生成：先利用強大的 LLM 進行輕量級重寫，將序列推理軌跡轉化為平行結構，隨後透過模型自我訓練（Self-Training）將樣本數從 1k 擴展至 17k。
P-GRPO 強化學習：引入「平行化感知」的強化學習框架，將獎勵函數定義為「正確性 + 加速比」。
訓練穩定性：針對標準 GRPO 在平行獎勵下容易失效的問題，採用「均值中心化歸一化」（mean-centered normalization），成功平衡了速度與準確度之間的權衡。

效能與限制分析
儘管 ThreadWeaver 在多項基準測試中展現了顯著的加速效果，但研究也指出其在實際應用中的潛在侷限：

效能表現：在數學推理任務中，ThreadWeaver 平均速度提升達 1.22 倍，在特定任務（如 Minerva）中甚至達到 1.53 倍的加速。
實際牆鐘時間：在 50 個 MATH500 問題的實測中，使用 4 個 GPU 進行平行推論，實際牆鐘時間（wall-clock time）獲得了 1.14 倍的加速。
潛在缺陷：研究團隊坦承模型偶爾會出現「冗餘計算」的問題，例如在計算 42 的階乘時，模型可能會將任務拆解為重複驗證，導致無法有效加速主要任務，顯示在任務拆解的智慧化程度上仍有改進空間。

Our parallel reasoning project ThreadWeaver is now open-sourced 🎉!

Check out our Data Gen/SFT/RL recipe at https://t.co/R14RiSupnz

In case you don't know, ThreadWeaver 🧵⚡️ is the first parallel reasoning method to achieve comparable reasoning performance to widely-used… https://t.co/T5FlrflXnU
— Long Lian (@LongTonyLian) April 8, 2026

延伸閱讀

數學推理基準測試提升1.53倍

github.com