# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：AVB (@neural_avb) · 平台：X (Twitter) · 日期：2026-04-24

> 原始來源：https://x.com/neural_avb/status/2047571732039635355

## 中文摘要

# DeepSeek V4 - 架構、訓練與創新

DeepSeek V4 剛剛發布，隨之而來的還有一份技術報告。在這篇文章中，讓我們來拆解一下這次更新的內容。

我們沒有時間浪費，因為要講的東西實在太多了。讓我們開始吧：

# 架構創新


## 1. 混合注意力系統：CSA + HCA + SWA

- 壓縮稀疏注意力 (Compressed Sparse Attention, CSA)：將每 m 個 token 壓縮為 1 個 KV 條目，然後應用 DSA (DeepSeek Sparse Attention) 針對每個 query 僅選取 top-k 個壓縮後的條目。核心注意力步驟使用多查詢注意力 (Multi-Query Attention, MQA)。

這句話資訊量很大，但這可能是理解整個系統最重要的地方。

> 問：什麼是 DeepSeek 稀疏注意力 (DSA)？

這是 DeepSeek 在 V3 發布時引入的一種技術。基本上，在傳統的多頭注意力 (Multi-Head Attention, MHA) 中，每個 query token 都會關注序列中的所有其他 token。給定長度為 n 的序列，注意力矩陣的大小為 n×n，這使得計算複雜度達到 O(n^2)。
DSA 是一種稀疏選擇策略，它不再關注所有的 n 個 token，而是讓每個 query token 只關注選定的 top-k 個 KV 條目。

> 問：那麼 CSA + DSA 是什麼？
當 DSA 關注 n 個 token 時，這些 KV 條目已經是 token 區塊的壓縮表示了！這種壓縮將每 m 個 token 聚合為單個壓縮後的 KV 條目！

我們是沿著 token 數量維度進行壓縮，這直接影響了序列長度（而不是沿著 embedding 維度）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065682900-iaHGpsNWPb0AASwJWjpg.jpg)

> 問：從技術上解釋一下

輸入的隱藏狀態為：[N x d]，其中 N = 序列長度，d = embedding 大小。

現在，沿著序列軸每 m 個連續的 token 條目會被融合為單個壓縮條目。大小變為 [N/m x d]，這直接減少了 m 個 token。

對於每個區塊，我們有兩個矩陣：C_a 和 C_b。C_a 查看當前區塊的前一個區塊，C_b 查看當前區塊。兩個區塊各包含 m 個 token，總共 2m 個 token。這兩個矩陣結合起來計算聚合後的 context。它們使用 softmax 操作來確定這 m 個 token 中的每一個對區塊最終 embedding 的影響程度。

以上就是 CSA。現在是時候進行 DSA 了。

DSA 接著取得這些區塊的 KV 表示，並應用一個輕量級索引器來找出哪些區塊與處理當前的 query token 相關。基本上，對於每個 query token，我們透過計算潛在空間相似度分數，來計算它與每個壓縮區塊 s 之間的廉價相關性分數。DSA 讓我們從 n/m 個區塊縮減到 k 個區塊（k << n/m，因此我們實現了注意力空間的稀疏化）。

以上就是 DSA，現在是時候進行 MQA 了。

MQA 取得我們擁有的那 k 個注意力區塊並應用多查詢注意力。MQA 是一種經典的注意力機制，我們為 query token 生成多個 query 頭，並使用我們在 CSA 期間已經儲存的單個 KV 頭。

> 問：為什麼這有助於將 DeepSeek-V4 擴展到數百萬個 token？

這大幅減少了被感知的 token 數量，因為多個 token 被分組為一個 token，加上 DSA 確保了只關注選定的 top-k 個條目。

這就是 DeepSeek V4 能夠擴展到超過一百萬個 token 的主要原因之一！

- 結合 CSA 和 HCA 的混合交錯注意力 - 我們已經介紹了 CSA，但還有另一種變體：重度壓縮注意力 (Heavily Compressed Attention, HCA)。

CSA = 壓縮 + 稀疏選擇（聰明但適度的壓縮）
HCA = 更激進的壓縮，關注剩下的所有內容（暴力但廉價）

DeepSeek V4 在不同層之間交替使用，以覆蓋不同的 context「範圍」。一層 CSA -> 接著 HCA -> 再接著 CSA，依此類推。

> 問：HCA 與 CSA 有何不同？

差異 1：HCA 比 CSA 壓縮了更多的 token。這使得序列長度變得更短。對於 Pro 和 Flash 模型，CSA 將 4 個 token 壓縮為一個 KV 條目，而 HCA 壓縮了 128 個 token！

差異 2：HCA 也不重疊（CSA 是重疊的，因為它有那兩個查看連續區塊的矩陣 C_a 和 C_b）。這確保了 HCA 的壓縮速度很快。

差異 3：CSA 使用了帶有 DSA 的 top-K 選擇器。HCA 的序列長度已經很小，所以它們透過對整個前綴應用注意力來暴力處理整個序列。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065682887-iaHGpscPmaEAE6RNyjpg.jpg)

> 問：它們如何互補？

HCA 層為每個 token 提供廉價的「全域記憶」——注意力是在整個 context 上進行的，因此它是整個前綴歷史的粗略摘要。

CSA 層讓 token 進行細粒度、選擇性的檢索。

> 問：為什麼這有助於將 DeepSeek-V4 擴展到數百萬個 token？

它們共同使得百萬級 token 的 context 變得可行：你永遠不需要進行完整的 O(n^2) 注意力計算，但你仍然可以同時獲得全域覆蓋 (HCA) 和精確的局部檢索 (CSA)！

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683021-iaHGpsBpcbAAAonrBjpg.jpg)

- 滑動視窗注意力 (Sliding Window Attention, SWA)：純 CSA/HCA 有一個根本問題：query token 無法看到其當前區塊內的其它 token。因為 CSA/HCA 只壓縮先前已完成的區塊——當前區塊尚未完成，因此無法壓縮！

SWA 解決了這個問題。它有兩個不同的角色。

> SWA 角色 1：

對於每個 query token，它會為最近的 nwin 個 token 生成一組原始的、未壓縮的 KV 條目，並將它們與壓縮後的條目直接串聯到注意力池中。

> SWA 角色 2：

還有第二個獨立用途：模型的最初幾層完全跳過 CSA/HCA，只使用純粹的滑動視窗注意力，且完全不進行壓縮。

理由是早期層正在構建低階的局部表示（語法、單字邊界、局部模式）——它們還不需要全域 context。純 SWA 對此來說既廉價又足夠。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065682881-iaHGpTvOXbQAAn28zpng.png)

## 2. 流形約束超連接 (Manifold-Constrained Hyper-Connections, mHC)

- DeepSeek-V4 用 mHC 或流形約束超連接取代了標準的殘差連接。

- mHC 是他們不久前發表的一篇論文，我有一個完整解釋它的影片。點這裡查看：https://youtu.be/rkNrmlDpTKE

> 問：Transformer 中殘差連接的角色是什麼？

基本上，標準殘差連接取得 Transformer 層的輸入，並將其加到輸出上——這使得 Transformer 層能夠學習殘差映射（即對輸入 embedding 的加法變化），而不是學習變換映射（即完全生成輸出 embedding）。

> 問：為什麼有人會想替換殘差連接？

如果你把殘差連接想像成在 Transformer 層中直接連接輸入到輸出的高速公路，那麼可以把 mHC 想像成「多條高速公路」。資料可以透過多個通道從輸入流向輸出。

mHC 使用了一些很酷的數學屬性，例如 Birkhoff 多面體，它基本上確保了儘管增加了這些多重連接器，輸出範數永遠不會爆炸。

這是一種穩定的方法，允許網路中存在多個殘差映射，而不僅僅是一個。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065682896-iaHGpsTp1boAA43wsjpg.jpg)

## 3. 更多內容

- 注意力匯聚 (Attention Sinks)：透過操作 Softmax，允許 token 在有意義時關注「虛無」。
https://arxiv.org/abs/2309.17453

- DeepSeek MoE 風格的混合專家模型 (Mixture-of-Experts)，取代了 FFN/稠密層。他們還做了很酷的事情，例如雜湊路由 (hash-routing)、預期路由 (anticipatory routing) 和無輔助損失路由 (auxiliary-loss-free-routing) 方法，以平衡專家之間的負載。
https://arxiv.org/abs/2401.06066

- 多 token 預測 (Multi-Token Prediction, MTP) - 增加了輔助預測頭，不僅預測下一個 token，還預測未來的 token。

- 使用 Muon 優化器來訓練大多數參數（embedding、預測頭、RMSNorm，靜態 mHC 偏差/門控使用 AdamW）。
Muon 論文：https://arxiv.org/abs/2502.16982

- 大量硬體層面的東西，用於 MoE 專家並行、底層 CUDA 核心以及訓練基礎設施，老實說我不太理解，所以我就不嘗試解釋了。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683018-iaHGpbjBxbMAAtyHkjpg.jpg)

---

## 訓練流程

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683254-diaHGpt5P0awAIKjxjpg.jpg)

我跳過了預訓練流程，因為這在如今大同小異且屬於標準程序。更有趣的部分其實是後訓練階段。

## 後訓練 (SFT + RL)

- 領域：數學、程式撰寫、Agent、指令遵循。每個領域都獨立使用 SFT → 基於 GRPO 的 RL 進行訓練。

- 每個模型有三種推理努力模式（Standard、Think、Think Max）——在 RL 期間有不同的長度懲罰和 context 視窗。Think Max 基本上是在開頭預置了一個特殊的系統提示指令。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683145-diaHGpj92KbMAAS7Yjpg.jpg)

- 生成式獎勵模型 (Generative Reward Model, GRM)：取代了難以驗證任務的純量獎勵模型。Actor 本身充當 GRM，使用 rubric-guided (準則引導) 的 RL 資料聯合訓練，兼具生成與評估能力。幾乎不需要人工標註。

> 問：哇，這是什麼 GRM？

通常，易於驗證的任務可以透過簡單的基於規則的驗證器或測試案例 (RLVR) 有效優化。

相比之下，難以驗證的任務傳統上依賴人類回饋強化學習 (RLHF)。

在標準 RLHF 中，你需要一個純量獎勵模型——一個分類器，它接收 (提示, 回應) 對並輸出一個數字：「這個回應評分為 7.2/10」。訓練它需要人工標註，且關鍵在於，它是一個愚蠢的黑盒子，它給你一個數字，背後卻沒有任何推理。

與其訓練一個單獨的分類器，想法是：讓模型自己當法官，並訓練它評估得更好。

> GRM 是同時戴著兩頂帽子的策略 (Actor) 網路：

- 生成器：像往常一樣對提示產生回應。
- 評估器：給定一個提示 + 回應軌跡，它會生成一個推理過程，然後根據準則對其評分。

這比純量模型強大得多，因為評分有明確的思維鏈推理作為支撐——模型用來回答問題的內部推理機制，現在也正在驅動它的評估。

- 特殊 token

這些是直接附加在使用者輸入後的特殊 token，每個都會觸發特定的輔助任務。模型讀取提示，在 <think> 內部短暫思考，然後在 <|action|> 之後輸出。

範例：「search」→ 去抓取網路搜尋結果。

這些 token 是在 SFT + RL 階段訓練到專家模型中的。專家模型會學習何時觸發搜尋、生成查詢等。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683154-ediaHGpmvlaEAAEs2jpg.jpg)

- 思考
DeepSeek-V4 使用專用的 <think></think> 標籤來將推理/思考路徑與實際回應區隔開來……這與市面上所有其他 LLM 類似。但 V4 更進一步：它引入了一種新的工具呼叫架構，使用特殊的 |DSML| token 結合基於 XML 的格式來進行工具呼叫。這為模型提供了一種結構化、無歧義的方式來標記「我現在正在呼叫工具」與「我正在思考」或「我正在回應」。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683274-iaHGppOf4bAAADcrajpg.jpg)

- 在工具呼叫流程中，所有的推理內容在整個對話中都被完整保留——甚至跨越了使用者訊息邊界和工具回應回合（在 3.2 中，中間步驟為了節省 context 被丟棄了）。由於 V4 就是為了處理長 context 而生的，它們在訓練期間不會為了節省空間而丟棄過去的推理/工具呼叫軌跡。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065683192-iaHGppWjHawAAbmNwjpg.jpg)

## 在線策略蒸餾 (On-Policy Distillation, OPD)

- 他們在訓練多個領域特定的專家模型後執行此操作。目標是將學習成果蒸餾到一個統一的模型中。

- 他們的基礎設施允許有多個教師（可能是非常大的模型）。所有教師權重都卸載到集中式分散式儲存中，並在教師前向傳遞期間按需載入。

- 當前正在訓練的模型（學生）在訓練期間生成自己的軌跡，教師評估這些軌跡。OPD 與 SFT 不同，因為在後者中，教師會生成指令資料，學生學習模仿它們。在 OPD 中，教師對學生的當前策略應該如何改變給予「回饋」。

- 在多教師場景中，學生模型的目標是「模式尋求」(mode-seeking)——它專注於每個教師機率最高的輸出，而不是對所有內容進行平均。簡單來說，學生學習「在數學 context 中，與數學專家對齊；在程式撰寫時，與程式撰寫專家對齊。」

- DeepSeek V4 執行的是全詞彙 Logit 蒸餾，而不僅僅是採樣後的 Logit。

> 問：解釋一下全詞彙 Logit 蒸餾

當 LLM 生成回應時，它會生成一系列 token。每個 token 都有一個固定的 logit 與之關聯。假設單字「Paris」的 logit 分數為 0.25。假設教師模型認為 Paris 的 logit 實際上應該是 0.75……蒸餾的目標是讓學生將 logit 分數提高到 0.75。

基本上大多數蒸餾技術只在採樣的 token 上執行此操作（例如，僅針對「Paris」）。

然而，如果你去觀察，在每個 token 生成步驟中，LLM 都會為其詞彙表中的每個 token 生成一個 logit。如果它有 10 萬個詞彙，它實際上會為這些 token 中的每一個生成 logprobs。DeepSeek V4 嘗試更新詞彙表中每個 token 的策略，而不僅僅是那 1 個 token。

> 這非常昂貴，特別是當涉及多個教師時，但這就是他們所做的。純粹是對遊戲的熱愛。

不過他們做了一個優化。為每個訓練範例的每個 token 位置儲存每個教師的 10 萬詞彙向量簡直是場噩夢。因此，他們沒有儲存 10 萬維向量，而是儲存了教師模型的最終 embedding 向量。在蒸餾期間，他們可以按需執行最後一層，將其從 embedding 維度（約 7168 維）「反嵌入」到 10 萬詞彙空間。

> 全詞彙 KL 比 token 級別的 KL 是更具表達力的 OPD 目標，結果也證明了這一點。

> 問：等等……如果 Pro 模型已經是他們擁有的最強模型，他們怎麼會有更好的教師？

教師是領域專家，擅長某一方面（而在其他方面較弱）。也許一個教師非常擅長 Agent/工具呼叫，另一個擅長創意任務，另一個擅長數學。目標是訓練一個單一的統一學生模型，使其擅長所有任務，並直接從這些教師那裡學習。

這些教師參數超過 1T，所以你無法將它們全部載入記憶體。因此，他們按需載入並生成蒸餾結果。

在資料管道中，每個提示在資料集建構時都預先標記了教師索引。在訓練期間，樣本按該索引排序並相應地分發。呼叫對應的教師，並進行全詞彙蒸餾的 OPD 步驟。

# 總結

論文中還有很多我沒講到的酷東西。

例如關於核心優化、他們如何擴展 RL、如何建立沙盒環境等的完整章節。他們還有一個非常詳細的結果部分，涵蓋了現實世界的範例（不僅僅是程式撰寫）。

閱讀原始論文以獲取更多資訊：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/resolve/main/DeepSeek_V4.pdf

他們的模型是開源的，採用 MIT 授權：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

如果你有 Paper Breakdown Pro 帳號，即使這篇論文還沒上 Arxiv，你也可以直接閱讀。

查看 Paper Breakdown（它幫助我寫了這篇文章）：

paperbreakdown.com/landing-page

按讚、留言、轉發以示支持 💙

## 標籤

LLM, 產業趨勢, DeepSeek
