# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Fireworks AI (@FireworksAI_HQ) · 平台：X (Twitter) · 日期：2026-04-27

> 原始來源：https://x.com/FireworksAI_HQ/status/2048793033400078809

## 中文摘要

# 關於 DeepSeek-V4 訓練系統的筆記

DeepSeek-V4 之所以引人注目，並非因為單一的基準測試數據，而是因為圍繞它所構建的系統架構。這篇論文展示了架構、路由、獎勵建模 (reward modeling)、推理模式、蒸餾 (distillation) 以及 Agent 執行，這些全部都成為了訓練循環 (training loop) 的一部分。

對於訓練基礎設施而言，一個顯而易見的啟示是：固定的訓練配方已不足夠。研究人員越來越需要可程式化的循環，同時讓平台在底層處理分散式執行、推論整合、檢查點 (checkpointing) 以及擴展。支援這種靈活性，正是 Fireworks Training API 背後的核心設計原則。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138953-iaHG7FM6aaYAA0U6xjpg.jpg)

---

## 1. 長 context 正逐漸演變為記憶層級

DeepSeek-V4 在壓縮稀疏注意力 (Compressed Sparse Attention, CSA) 與重度壓縮注意力 (Heavily Compressed Attention, HCA) 之間進行切換。CSA 會壓縮 KV 條目，然後執行稀疏的 top-k 選擇；HCA 則壓縮得更激進，但會在壓縮後的記憶上保持稠密注意力。

重點不僅僅是「更長的 context」，而是模型與執行時期的共同設計：注意力模式、KV 佈局、精度、稀疏選擇以及推論核心 (inference kernels) 都必須相互配合。訓練也面臨同樣的問題。如果服務端使用自定義核心與壓縮快取，那麼訓練期間的評估就必須與服務端足夠接近，以確保我們不會在錯誤的系統上進行優化。

訓練平台設計筆記：這正是訓練形狀 (training shapes)、檢查點提升 (checkpoint promotion) 以及權重同步到部署環境變得相關的地方。架構特定的工作不僅僅是損失函數 (loss function) 的問題；平台必須啟動正確的訓練器、儲存可用的檢查點，並評估與未來服務使用者時相同的模型/執行時期組合。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138809-iaHG7FVCha0AACwsIjpg.jpg)

---

## 2. MoE 路由是一個穩定性問題

最有趣的預訓練技巧是「預期路由」(Anticipatory Routing)。DeepSeek 指出，損失尖峰 (loss spikes) 與 MoE 的離群值及路由有關。他們的解決方案是將特徵與路由解耦：在步驟 t，特徵是用當前權重計算的，但路由索引則來自較舊的權重 $\theta_{t - \delta}$。

為了避免執行兩次模型，他們會預取一個未來的 batch，利用舊的路由器提前計算其路由決策，快取這些路由，然後在稍後重複使用。他們報告稱，在此模式啟用時會有約 20% 的額外開銷，且僅在尖峰檢測器觸發回滾 (rollback) 後才會開啟。

這並非一個純粹的新目標，而是一種條件式的執行時期干預：檢測不穩定性、回滾、改變路由行為、快取側通道 (side-channel) 資料，然後恢復正常訓練。

訓練平台設計筆記：Fireworks 在其 rollout/訓練堆疊中有類似的原語 (primitives)：rollout 取樣可以回傳每個 token 的 logprobs，MoE rollout 路徑可以攜帶路由元數據 (如 routing_matrices)，而訓練資料可以攜帶模型輸入以及側通道欄位。這雖然不是 DeepSeek 完整的歷史路由器系統，但指向了相同的方向：路由決策有時需要成為訓練循環中的資料。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138828-iaHG7FeA0a4AAvN2Gjpg.jpg)

---

## 3. 推理努力是一種訓練出來的行為

DeepSeek-V4 從相同的權重中公開了三種模式：Non-think、Think High 與 Think Max。這些模式是透過不同的 RL 配置、長度懲罰、context 視窗以及回應格式訓練出來的。Think Max 還獲得了明確的系統指令，推動其進行詳盡的推理。

這使得「推理努力」(reasoning effort) 不再那麼神秘。它不僅僅是一個執行時期的旗標；它是一個由資料、獎勵設計、格式化與評估所支撐的行為合約。

訓練平台設計筆記：一個可程式化的循環可以將這些模式視為訓練條件：針對不同階段調整 prompt 格式、回應模板、取樣預算、獎勵塑造 (reward shaping)、損失權重以及評估標準。透過 rollout 推論加上檢查點熱載入 (hotloading)，你可以測試這些模式在行為上是否真的產生了分歧。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138795-iaHG7FzLLbwAAz7GLjpg.jpg)

---

## 4. 獎勵建模正變得生成式

對於難以驗證的任務，DeepSeek 表示他們捨棄了傳統的純量獎勵模型，轉而使用生成式獎勵模型 (Generative Reward Model, GRM)。Actor 模型本身充當評審，而 RL 會在生成的同時優化這種評估行為。

這一點很重要，因為許多有價值的任務很難透過精確匹配檢查來評分：例如寫作、設計、工具使用、研究綜述、主觀品質以及長程 Agent 行為。在這些情況下，評估看起來更像是審議而非純量預測。

當然，這存在明顯風險：自我評審的模型可能會產生盲點或獎勵駭客行為 (reward hacking)。但這個方向很重要。獎勵機制正從單獨訓練的純量獎勵模型，轉向由 RL 優化的模型生成式評估行為。

訓練平台設計筆記：相關的抽象概念是一個「樣本 -> 評審 -> 訓練」的循環。生成候選結果，呼叫驗證器/工具/評估器/模型作為評審，將回饋轉化為獎勵或自定義損失，然後更新策略。平台不需要預先知道回饋是來自單元測試、評分標準、人類標註還是生成式評審。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138783-iaHG7GAKpbQAAnAHxjpg.jpg)

---

## 5. 先訓練專家，再進行 On-Policy 蒸餾

DeepSeek 並未使用單一的混合 RL 階段來訓練最終模型。他們首先訓練領域專家。對於每個領域，先從高品質領域資料的監督式微調開始，然後使用領域特定的 prompt 與獎勵訊號執行 GRPO。

這些專家隨後透過 On-Policy 蒸餾 (On-Policy Distillation, OPD) 進行合併。學生模型對自己的 rollout 進行取樣，並由十多個教師模型在這些軌跡上提供目標分佈。這避免了直接合併權重，也無需寄望單一的複合獎勵能同時產生所有行為。

昂貴的部分在於全詞彙表 (full-vocabulary) 的 logit 蒸餾。DeepSeek 並非只匹配取樣的 token，而是匹配完整的教師分佈。為了使其可行，他們快取了教師模型最後一層的隱藏狀態 (hidden states)，並利用相關的教師頭 (teacher head) 即時重建 logits。

訓練平台設計筆記：具體的循環包括 rollout 取樣、教師/參考模型的 forward pass、自定義損失計算、優化器步驟，以及將檢查點/權重同步回部署環境以進行評估。DeepSeek 風格的全詞彙表 OPD 需要額外的原語來處理完整的 logits 或隱藏狀態串流，但外層循環正是可程式化訓練 API 應該表達的類型。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309138815-iaHG7GJY2aEAApdDsjpg.jpg)

---

## 6. Agentic 程式開發將執行時期納入循環

DeepSeek-V4 還改變了工具使用對話中推理狀態的處理方式。對於 Agentic 工作流程，它會在使用者/工具邊界之間保留推理軌跡，而不是在每次使用者訊息後就清除它們。對於一般的聊天，它仍然會捨棄先前的推理以保持 context 簡潔。

他們還引入了「快速指令」(Quick Instruction)：將特殊 token 附加到主 context 中，用於輔助決策，例如搜尋/不搜尋、查詢生成、領域分類以及 URL 讀取。這些決策無需呼叫單獨的控制器模型並支付冗餘的預填充 (prefill) 代價，而是重複使用主模型的 KV 快取。

最後，Agentic 訓練需要沙盒。DeepSeek 描述了一種可搶佔的 rollout 服務，具有 token 粒度的預寫式日誌 (write-ahead logs)，以及用於沙盒執行的 DeepSeek Elastic Compute (DSec)。DSec 保留了指令與結果的有序軌跡日誌，這使得工具執行成為訓練/評估記錄的一部分。

訓練平台設計筆記：對於 Agentic RL，rollout 執行是學習系統的一部分。取樣、工具/評估器整合、持久的軌跡日誌、檢查點以及可重現的執行環境，其重要性與優化器不相上下。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777309139003-iaHG7GQCTagAAUv7Hjpg.jpg)

## 
總結

---

貫穿這六個 DeepSeek-V4 組成部分的共同主線是：重要的訓練決策現在已經延伸到了執行時期、評估與基礎設施中。架構與服務端共同設計，路由變成了帶有側通道狀態的穩定性問題，而推理努力、獎勵、蒸餾與工具使用，全部轉變為圍繞 rollout、評審、檢查點與執行日誌的可程式化循環。

這正是 Fireworks Training API 背後的賭注：公開循環，並處理底層系統。全詞彙表 OPD、歷史路由器快取以及 DSec 風格的沙盒 rollout 服務，需要比目前大多數平台所提供的更多的原語，但這個方向是難以反駁的：固定的訓練管線正讓位給可程式化的訓練系統。

## 標籤

研究論文, LLM, 產業趨勢, DeepSeek, Fireworks
