# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Xiuyu Li (@sheriyuo) · 平台：X (Twitter) · 日期：2026-04-15

> 原始來源：https://x.com/sheriyuo/status/2044305629813321742

## 中文摘要

# 為什麼 dLLM 在 RL 中容易崩潰

在先前關於 dLLM 的討論中，重點通常在於它們與自回歸（autoregressive）模型的區別：前者從左到右生成 token，而後者透過去噪（denoising）逐漸逼近完整的序列。前者的機率分解本質上是顯式的，而後者則更像是反覆在一個不斷縮小的不確定性空間內精煉答案。

然而，一旦我們進入 RL 階段，這種差異就不再僅僅是建模風格的問題，而是變成了直接的優化問題。

## 為什麼 dLLM 不能簡單地進行 RL？

對於 dLLM 而言，序列樣本 x_0 的真實對數概似（log likelihood）需要對整個去遮蔽（unmask）軌跡上的所有中間狀態進行邊際化（marginalizing），這是一個指數級龐大且難以計算的過程。

加總範圍涵蓋了每一步所有可能的離散序列 x_1 到 x_T，且狀態空間隨著序列長度和詞彙表大小呈指數級增長，使得精確的分析評估或窮舉變得不可能。因此，研究實務上引入了 ELBO：

對前向過程 q 進行採樣，並利用它將右側估計為可計算的下界。

然而，這種估計依賴於蒙地卡羅（Monte Carlo）採樣，且通常具有高變異數。特別是離散變數沒有類似於連續擴散（continuous diffusion）的重參數化路徑，因此難以進行低變異數的無偏梯度估計。

結果，要獲得收斂的對數概似或準確的梯度，需要大量的樣本和精細的變異數縮減技術，而這正是 VRPO 旨在解決的問題。

---

對於 dLLM 而言，整個序列的概似通常難以計算，這意味著許多 RL 方法所依賴的重要性比率（importance ratio）無法精確獲得。人們只能透過 ELBO 或平均場近似（mean field approximations）等代理指標來估計它。

問題在於，一旦比率不再精確，而是變成了有雜訊的近似值，那麼在 AR 模型中相對穩定的策略更新機制就可能被這種雜訊放大。

StableDRL: Stabilizing Reinforcement Learning for Diffusion Language Models

該論文指出，訓練崩潰的關鍵不在於單次糟糕的更新，而是一個正回饋迴圈：雜訊比率估計導致尖銳的梯度突波，這些突波推動策略漂移（policy drift），而策略漂移進一步增加了後續比率估計的變異數，最終導致系統陷入不穩定。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595149-iaHF7T74EagAA9w5Qjpg.jpg)

標準的 GRPO 在 AR 設定中通常運作良好，因為它假設策略機率是可控的，更新是可解釋的，且裁剪（clipping）表現可靠。然而，作者指出 dLLM 在這種邏輯下存在兩個主要問題：

- 首先，條件裁剪在雜訊比率下不夠穩定。本應被裁剪的更新可能會因為估計誤差而繞過觸發條件，導致梯度幅度持續膨脹。

- 其次，固定的組大小歸一化（group size normalization）在高變異數環境下是不安全的，因為它無法適應當前批次中更新的實際強度，反而可能進一步放大已經不穩定的梯度波動。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595139-iaHF7UGVpasAEQDjkjpg.jpg)

StableDRL 背後的想法很直觀。既然問題源於雜訊比率被錯誤地放大，那麼優化過程就不應再依賴脆弱的條件觸發器，而應以對雜訊穩健的方式重新建構。論文提出了兩種核心方法。

第一種是無條件裁剪（unconditional clipping），它移除了條件機制，直接限制比率，從而抑制極端值。其直覺很明確：當比率的可靠性本身有限時，保守一點總比讓少數離群值扭曲整個更新要好。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595157-iaHF7UPjOaoAAWKCapng.png)

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595145-iaHF7USaMasAELiW9jpg.jpg)

第二種是自我歸一化（self normalization），它不再依賴固定的組大小，而是透過裁剪後的重要性比率之和進行歸一化。這種設計的意義在於，更新規模不再由與當前雜訊水準無關的常數決定，而是與批次本身的有效資訊掛鉤。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595136-iaHF7UVjybYAA7E4mjpg.jpg)

這兩種設計看起來簡單，但它們解決了一個非常根本的問題：當 RL 更新基於有雜訊的代理比率時，如何保持其可控性。論文提出的一個核心觀點是，僅僅進行裁剪是不夠的，因為它只能抑制極端值，無法解決歸一化本身引入的漂移。僅僅進行自我歸一化也是不夠的，因為如果沒有裁剪，比率中的離群值只會被平均化，而不是被移除。只有將兩者結合，更新才能真正被限制在一個穩定的範圍內。

作者甚至將這種設計解釋為對每個樣本梯度的幾何約束。更新不再被允許在變異數較大的區域中隨意移動，而是被限制在一個更可控的凸包（convex hull）內。雖然這種框架是理論性的，但其直覺很容易理解。目標不是讓模型學習得更激進，而是防止它在錯誤的方向上學習得太強。

該論文另一個值得注意的方面是，它並不侷限於全注意力（full attention）的 dLLM。它進一步將該方法擴展到區塊擴散模型（block diffusion models），因為 dLLM 在退化為半 AR 行為時通常表現更好。為了處理區塊模型中的機率估計，作者引入了階梯式注意力（staircase attention），這實現了無洩漏的代理估計。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595386-iaHF7UdNuasAEKWqQjpg.jpg)

這裡的關鍵問題是，如果區塊擴散中的訓練處理不當，估計過程很容易洩漏未來資訊，從而造成訓練目標與實際生成過程之間的不匹配。階梯式注意力的作用是使估計過程受到更嚴格的約束，以便代理指標可以在不違反擴散生成因果結構的情況下支援 RL 更新。這種設計表明，作者不僅僅是試圖讓 RL 運作，還試圖在優化過程與模型的生成機制之間保持一致性。

長期以來，我們一直將比率視為理所當然的中間量，假設一旦有了代理指標，我們就可以簡單地繼續使用傳統的策略優化框架。StableDRL 提醒我們，在 dLLM 中，代理比率本身已經是系統誤差的一部分，不能再像處理精確概似那樣處理它。換句話說，dLLM 的 RL 不僅僅是採用不同的生成方案，它改變了整個優化問題的統計結構。

我個人認為這類理論工作特別引人入勝，因為單純追求基準測試（benchmark chasing）最終是沒有意義的。它沒有試圖消除雜訊或不匹配，而是承認雜訊的存在並將其納入 RL 框架，然後使用更合適的裁剪和歸一化規則將雜訊轉化為可控的近似值。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1776267595128-iaHF7Ug98asAUKf8Cjpg.jpg)

## 標籤

LLM, 研究論文, 其他, dLLM