# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Nous Research (@NousResearch) · 平台：X (Twitter) · 日期：2026-05-14

> 原始來源：https://x.com/NousResearch/status/2054610062836892054

## 中文摘要

Nous Research 發布 TST 加速 LLM 預訓練。

Nous Research 團隊推出 Token Superposition Training (TST)，這是一種對標準 LLM 預訓練流程的簡單修改，在不改變模型架構、優化器、分詞器或訓練資料的情況下，提供 2-3 倍實時計時加速，同時在相同 FLOPs 下達到更低損失並優化下游任務表現。該方法由 @bloc97_、@gigant_theo 和 @theemozilla 主導開發，已在 270M、600M、3B 密集模型及 10B-A1B MoE 模型上驗證，論文發表於 [arXiv 2605.06546](https://arxiv.org/abs/2605.06546)，Hugging Face 頁面為 [HF 論文頁](https://huggingface.co/papers/2605.06546)，部落格詳見 [Nous Research 部落格](https://nousresearch.com/token-superposition)。

**TST 兩階段運作機制**

TST 分為兩個階段：第一階段（佔訓練 20-40%）為「疊加階段」，模型讀取連續 k 個 token 的「bags」，輸入端平均這些 token 的 embeddings，輸出端使用多熱交叉熵（multi-hot cross-entropy, MCE）預測下一個 bag；第二階段則回歸標準 next-token 預測。

- 輸入端變更僅為 reshape 和 embedding lookup 後的平均運算，讓 transformer 處理縮短序列（長度 l = L / s，其中 L 為原序列長，s 為 bag 大小），每單位工作處理 s 倍文字。
- 輸出端損失為 s 個標準交叉熵項的總和，等同於每個目標 token 權重 1/s 的 MCE，可重用既有 fused cross-entropy kernel，無需新 kernel、輔助頭或輸出投影變更。
- 轉換時損失曲線有 1-2 nats 尖峰，數千步後化解，並低於基線剩餘全程。
- 推論時模型與傳統預訓練完全相同，僅訓練迴圈改變。

**驗證規模與效能數據**

TST 在多個模型規模驗證，使用 TorchTitan 於 FSDP 架構，最多 64 張 B200 GPU；小模型用 DCLM 資料，大模型用 DCLM / FineWeb-Edu 50/50 混合，所有模型採用 AdamW 與 Warmup-Stable-Decay 排程，非 cherry-picked 標準超參數。

- **270M、600M、3B 密集模型**：一致模式，3B 模型下 TST 20k 步匹配基線 36k 步最終損失，實時計時相近，下游分數幾乎相同；基線推至 50k 步才超越，顯示 TST 前置固定加速，非無限複合。
- **10B-A1B MoE (Qwen3 家族)**：訓練至 2T tokens，TST 在 40% 實時計時內達基線最終損失更低；在 HellaSwag (+1.1 pts)、ARC-Easy (+0.4 pts)、ARC-Challenge (+1.0 pts)、MMLU (+1.6 pts) 皆優於基線，等損失設定下總預訓練時間減至 2.5 倍。
- 損失改善轉移至下游任務，優於單純損失降低（後者常無法轉移）。

**超參數敏感度與調整**

TST 有兩個旋鈕：bag 大小 k（或 s）和步驟比例 r（疊加階段佔比），論文圖 4-7 詳述敏感度曲線。

- **bag 大小 s**：固定 r 時呈 U 形曲線，小 s 過似標準訓練無加速益處，大 s 目標過損失導致階段 2 無法完全恢復；中間寬平盆地有效，且隨模型大小向上漂移（大模型適合更大 s）。
- **步驟比例 r**：0.2-0.4 皆近最佳，r=0 退化為基線，r≥0.5 階段 2 步數不足以修復輸出頭損傷，導致最終損失惡化。
- **bag 內權重優化**：簡單版等權重在大 s (≥8) 次優；改用 power-law 權重（第 i 位置貢獻 1/i）降低最終損失，小 s 無差異。
- 下游評估追蹤損失曲線，未出現轉移損傷。

**兩個獨立機制剖析**

TST 分輸入端平均與輸出端多熱目標兩部件，可獨立消融；單獨使用皆優於基線，合用時效果近似加成，證明非單一技巧而是兩個相容機制。

- **輸出端機制**：類多 token 預測（Gloeckle et al.），但位置共享權重；bag 目標捨棄內部順序，只問「哪些 token 出現」，而非精確位置，暗示 next-token 預測多數學習近未來 token 分佈而非嚴格順序，二者可部分分離。近未來輔助訊號提供比 one-hot 更豐富梯度。
- **輸入端機制**：平均連續 embeddings 產生 bag 中心點，讓模型在離散 token 外學習粗粒序列；可能解釋包括噪聲減低、embedding 矩陣幾何正規化，或廉價「pre-pretraining」——階段 1 如粗化同一語料庫的預備訓練，提升階段 2 自然語言學習準備（類似簡化分佈先訓後精煉趨勢）。

**與既有效率方法的解耦優勢**

TST 最有用處在訓練時效率與推論時架構完全解耦，不碰稀疏注意力、MoE 路由、替代分詞器或優化器變更，可疊加其他預訓練改進；多數效率干預（如稀疏注意力、MoE、替代分詞）同時改訓練產物，造成比較混淆、推論減速或能力抵銷。

- 動機源自兩觀察：(1) BPE 優勢多來自子詞序列較短（Gigant et al.、Minixhofer et al. 子詞蒸餾、Zheng et al. proxy 壓縮），讓相同 FLOPs 見更多自然語言，故效率部分為 throughput 問題，可獨立拉桿不依賴分詞器；(2) 訓練-推論效率可單獨擴展（如 chain-of-thought、ParScale、looped LM、speculative decoding），反向亦然，TST 堅持「僅改訓練迴圈、不碰推論模型」嚴格標準。
- 相對複雜高吞吐修改，TST 僅 reshape、mean 與 summed CE，極簡 drop-in。

**未來展望與參與邀請**

TST 是 Nous 預訓練小組未來兩週數個研究發布的首發，若想參與此類問題，加入 [Discord](https://discord.com/invite/nousresearch)（原文提及）。該方法證明簡單訓練迴圈調整即可大幅提升預訓練效率，預期影響後續 LLM 開發，尤其在大規模 MoE 模型。

**論文與資源連結**

- 完整論文：[Efficient Pre-Training with Token Superposition](https://arxiv.org/abs/2605.06546)，作者 Bowen Peng、Théo Gigant、Jeffrey Quesnelle，2026 年 5 月 7 日發表。
- Hugging Face 頁面：[HF 論文 2605.06546](https://huggingface.co/papers/2605.06546)。
- Nous Research 部落格：[token-superposition](https://nousresearch.com/token-superposition)，含 TL;DR 與詳細實驗圖表。

此摘要忠實保留 Nous Research 的興奮語調與實證立場，強調 TST 的簡潔、解耦與跨規模穩健性，批判既有方法常見的訓練-推論耦合問題，並突出具體數據如 10B-A1B 的 2.5 倍時間減縮與下游 +1.6 MMLU 提升。TST 不僅加速 throughput，還透過獨立機制提供更豐富訓練訊號，潛在重塑預訓練範式。

## 標籤

LLM, 研究論文, 開源專案, Nous Research