# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Grigory Sapunov (@che_shr_cat) · 平台：X (Twitter) · 日期：2026-04-21

> 原始來源：https://x.com/che_shr_cat/status/2046221860409417972

## 中文摘要

循環Transformer區塊實現測試時運算擴展，證明其收斂至固定點，形成類似前饋模型的推理階段。

Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Language Models》，由Hugh Blayney、Álvaro Arroyo、Johan Obando-Ceron、Pablo Samuel Castro、Aaron Courville、Michael Bronstein、Xiaowen Dong於2026年4月13日發表（arxiv.org/abs/2604.11791），以及2026年4月19日的arxiviq.substack.com分析。研究透過理論證明與實證，揭示循環語言模型（looped language models）在重複應用相同Transformer區塊時，不產生混亂噪音，而是自組織成可預測的「推理階段」，脫離傳統依賴參數數量的前饋深度擴展。

**核心理論基礎**

研究以狀態收斂推導注意力模式收斂為核心，證明循環模型的隱藏狀態穩定後，注意力頭混合即鎖定恆定狀態。具體而言，對初始輸入序列矩陣X∈R^{T×D}，在循環步驟t與t-1間，注意力輸出S^ℓ的範數差異嚴格有界，確保結構化邏輯而非混亂。

**輸入注入的必要性**

單純循環隱藏狀態會導致表示崩潰，為避免此問題，必須在每次循環前將原始輸入X與當前隱藏狀態Z_{i-1}串接，並透過學習矩陣W_I∈R^{2D×D}投影，形成輸入注入（input injection）。此機制維持獨立運作階段，否則pre-norm網路每層皆崩潰至相同點，摧毀模型區隔能力。

**固定點與軌跡行為**

具輸入注入後，隱藏狀態不崩潰至單點，而是每個循環區塊內層收斂至獨立固定點，整區塊在隱藏空間描繪一致循環軌跡（cyclic orbit）。流程為：提示經「prelude」層產生初始狀態S'_k，進入l次循環迭代Z_i ← S'_k(X, Z_{i-1})，結束後交「coda」層預測token，如圖1與圖5視覺化所示。

**測量指標與自組織階段**

使用「ColSum Concentration」指標（注意力矩陣列和的正規化熵）量化資訊混合演進，高濃度表示注意力頭聚焦特定token而非廣泛混合。實證顯示（如圖8），循環網路自然自組織成「推理階段」，幾乎完美鏡射前饋模型，從早期上下文混合轉至晚期預測；圖2的Frobenius範數相似性證明注意力行為鎖定可預測重複節奏。

**訓練穩定性驗證**

為證明此為架構本質而非特定預訓練產物，研究檢視大規模預訓練模型與從頭訓練小規模網路，使用標準next-token交叉熵損失Loss=−∑_i y_i log(p_i)，僅評估最終隱藏狀態，在37億token上維持固定4次循環訓練。消融研究對比「pre-norm」（Retrofitted Llama）與「sandwich norm」（Huginn-0125），確認輸入注入為穩定固定點的嚴格必要條件。

**模型實例表現**

- Ouro 1.4B：從頭訓練，透過循環機制複製前饋演算法階段，無需參數爆炸。
- Retrofitted Llama：具數學穩定性，支持積極外推。
這些模型證明循環重用權重保留前饋式推理階段，為測試時運算擴展提供理論基礎。

**歷史脈絡定位**

延續Universal Transformers的循環深度奠基，以及近期機率停止機制框架，此研究聚焦內部動態，證明推理階段為Transformer區塊本質湧現，而非純深度人工產物。相較傳統前饋堆疊，此轉向測試時運算動態調整每個token的運算預算，避免固定深度瓶頸。

**外推限制與挑戰**

儘管穩健，循環外推至未見測試時迭代不一致：Retrofitted Llama維持穩定，但Ouro出現結構漂移與「overthinking」問題，若無限循環即惡化。研究限於單一循環區塊，不適用多區塊序列循環；軌跡如「orbits」或「sliders」偵測依賴啟發式演算法，需手動調超參數，呼籲更嚴謹自動方法。

**參數效率藍圖意義**

此分析提供結構藍圖，驗證測試時運算擴展產生真實演算法階段，而非噪音，為高效推理引擎鋪路。作者立場強調，此脫離原始參數計數，開啟積極稀疏化穩定混合階段、壓縮循環MLP中間表示等優化。Sapunov認為，此為產業轉向動態推理模型的關鍵，控制循環固定點確保長思考產生優質而非失效答案，優於純參數擴展。

**程式碼與深入資源**

程式碼開源於github.com/TrelisResearch/nanochat/tree/recursive；完整機械剖析、數學證明與訓練穩定性詳見arxiviq.substack.com/p/a-mechanistic-analysis-of-looped。Sapunov以漫畫輔助說明，強調圖勝千token，並邀討論測試時運算vs參數擴展觀點。

此趨勢凸顯循環模型從混沌疑慮轉向可控結構，預示參數高效推理新时代，但外推不穩仍是硬邊界，呼應論文對架構設計的實務指引。

## 標籤

研究論文, LLM, Transformer
