# 策展 · X (Twitter) 🔥🔥

> 作者：Keshav Ramji ✈️ ICLR'26 (@KeshavRamji) · 平台：X (Twitter) · 日期：2026-04-29

> 原始來源：https://x.com/keshavramji/status/2048743883580817620

## 中文摘要

語言模型透過「Abstract Chain-of-Thought」實現高效抽象推理，推理 token 數減少高達 11.6 倍，性能媲美傳統 CoT。

Keshav Ramji 團隊提出「Abstract Chain-of-Thought」（Abstract-CoT），讓語言模型使用短序列的保留「抽象」token 進行推理，取代冗長的自然語言 CoT，透過強化學習大幅提升推理時效率，成本僅為傳統方法的零頭。

**Abstract-CoT 核心概念**  
傳統長 CoT 在複雜任務上有效，但生成成本高昂，且常不忠實於底層推理過程。Abstract-CoT 引入一組可區分的保留 token（如 "<TOKEN_X>"，依字母順序），作為輔助抽象詞彙，讓模型學習這些未見 token 的有效初始化，並產生高品質回應序列，實現組合性（compositionality）。  
這避免了混合文字與潛在 CoT，或純粹嵌入空間推理的缺點，平衡性能與成本。

**訓練流程：warm-up 與 GRPO**  
訓練分為 warm-up 階段與後續優化：  
- **Bottlenecked SFT**：使用區塊結構注意力遮罩強制資訊瓶頸，抽象序列僅參考教師書寫的口語 CoT（如人類註解），但回應只能依賴抽象 CoT。  
- **Self-Distillation**：透過受限解碼（constrained decoding），讓模型 on-policy 生成抽象 CoT，捨棄口語指導，類似 Policy Iteration 迴圈交替進行。  
warm-up 後，使用 GRPO（warm-started reinforcement learning）優化抽象 token 序列生成，以最終自然語言回應品質作為獎勵。

**基準測試結果**  
在多樣基準上，warm-up + GRPO 性能接近或超越 SFT + RL 的口語 CoT。單獨執行任一階段（如 cold-start RL）明顯落後，凸顯 warm-up 階段價值，尤其在艱難任務如 AIME 和 GPQA-Diamond 上表現突出。  
擴大抽象詞彙規模時，冷啟動 RL 無法超越基準，增加 warm-up 迭代雖改善，但 warm-started RL 帶來更顯著提升。

**抽象詞彙特性與敏感性**  
抽象詞彙呈現冪律分佈（power law distribution），類似自然語言，顯示模型學習到自然 token 重用模式。  
Abstract-CoT 對推理鏈順序置換與長度截斷敏感，如同自然語言：部分 CoT 強制生成回應時性能下降，證明其具備結構化推理特性。

**論文與未來展望**  
論文《Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought》於 2026 年 4 月 24 日發布（v1），4 月 27 日修訂（v2），Keshav Ramji 與 Tahira Naseem、Ramón Fernandez Astudillo 合作。  
作者強調 Abstract-CoT 潛力，未來可改善新抽象 token 的樣本效率，讓語言模型學習全新思考方式，實現高效推理。  
在數學推理、指令遵循、多跳推理等任務上，Abstract-CoT 生成 token 僅傳統方法的 1/11.6，跨語言模型家族通用，突顯後訓練潛在推理機制的價值。

## 標籤

LLM, 研究論文, Abstract-CoT