為什麼 dLLM 在 RL 中容易崩潰
為什麼 dLLM 在 RL 中容易崩潰
在先前關於 dLLM 的討論中,重點通常在於它們與自回歸(autoregressive)模型的區別:前者從左到右生成 token,而後者透過去噪(denoising)逐漸逼近完整的序列。前者的機率分解本質上是顯式的,而後者則更像是反覆在一個不斷縮小的不確定性空間內精煉答案。
然而,一旦我們進入 RL 階段,這種差異就不再僅僅是建模風格的問題,而是變成了直接的優化問題。
為什麼 dLLM 不能簡單地進行 RL?
對於 dLLM 而言,序列樣本 x_0 的真實對數概似(log likelihood)需要對整個去遮蔽(unmask)軌跡上的所有中間狀態進行邊際化(marginalizing),這是一個指數級龐大且難以計算的過程。
加總範圍涵蓋了每一步所有可能的離散序列 x_1 到 x_T,且狀態空間隨著序列長度和詞彙表大小呈指數級增長,使得精確的分析評估或窮舉變得不可能。因此,研究實務上引入了 ELBO:
對前向過程 q 進行採樣,並利用它將右側估計為可計算的下界。
然而,這種估計依賴於蒙地卡羅(Monte Carlo)採樣,且通常具有高變異數。特別是離散變數沒有類似於連續擴散(continuous diffusion)的重參數化路徑,因此難以進行低變異數的無偏梯度估計。
結果,要獲得收斂的對數概似或準確的梯度,需要大量的樣本和精細的變異數縮減技術,而這正是 VRPO 旨在解決的問題。
對於 dLLM 而言,整個序列的概似通常難以計算,這意味著許多 RL 方法所依賴的重要性比率(importance ratio)無法精確獲得。人們只能透過 ELBO 或平均場近似(mean field approximations)等代理指標來估計它。
問題在於,一旦比率不再精確,而是變成了有雜訊的近似值,那麼在 AR 模型中相對穩定的策略更新機制就可能被這種雜訊放大。
StableDRL: Stabilizing Reinforcement Learning for Diffusion Language Models
該論文指出,訓練崩潰的關鍵不在於單次糟糕的更新,而是一個正回饋迴圈:雜訊比率估計導致尖銳的梯度突波,這些突波推動策略漂移(policy drift),而策略漂移進一步增加了後續比率估計的變異數,最終導致系統陷入不穩定。

標準的 GRPO 在 AR 設定中通常運作良好,因為它假設策略機率是可控的,更新是可解釋的,且裁剪(clipping)表現可靠。然而,作者指出 dLLM 在這種邏輯下存在兩個主要問題:
首先,條件裁剪在雜訊比率下不夠穩定。本應被裁剪的更新可能會因為估計誤差而繞過觸發條件,導致梯度幅度持續膨脹。
其次,固定的組大小歸一化(group size normalization)在高變異數環境下是不安全的,因為它無法適應當前批次中更新的實際強度,反而可能進一步放大已經不穩定的梯度波動。

StableDRL 背後的想法很直觀。既然問題源於雜訊比率被錯誤地放大,那麼優化過程就不應再依賴脆弱的條件觸發器,而應以對雜訊穩健的方式重新建構。論文提出了兩種核心方法。
第一種是無條件裁剪(unconditional clipping),它移除了條件機制,直接限制比率,從而抑制極端值。其直覺很明確:當比率的可靠性本身有限時,保守一點總比讓少數離群值扭曲整個更新要好。


第二種是自我歸一化(self normalization),它不再依賴固定的組大小,而是透過裁剪後的重要性比率之和進行歸一化。這種設計的意義在於,更新規模不再由與當前雜訊水準無關的常數決定,而是與批次本身的有效資訊掛鉤。

這兩種設計看起來簡單,但它們解決了一個非常根本的問題:當 RL 更新基於有雜訊的代理比率時,如何保持其可控性。論文提出的一個核心觀點是,僅僅進行裁剪是不夠的,因為它只能抑制極端值,無法解決歸一化本身引入的漂移。僅僅進行自我歸一化也是不夠的,因為如果沒有裁剪,比率中的離群值只會被平均化,而不是被移除。只有將兩者結合,更新才能真正被限制在一個穩定的範圍內。
作者甚至將這種設計解釋為對每個樣本梯度的幾何約束。更新不再被允許在變異數較大的區域中隨意移動,而是被限制在一個更可控的凸包(convex hull)內。雖然這種框架是理論性的,但其直覺很容易理解。目標不是讓模型學習得更激進,而是防止它在錯誤的方向上學習得太強。
該論文另一個值得注意的方面是,它並不侷限於全注意力(full attention)的 dLLM。它進一步將該方法擴展到區塊擴散模型(block diffusion models),因為 dLLM 在退化為半 AR 行為時通常表現更好。為了處理區塊模型中的機率估計,作者引入了階梯式注意力(staircase attention),這實現了無洩漏的代理估計。

這裡的關鍵問題是,如果區塊擴散中的訓練處理不當,估計過程很容易洩漏未來資訊,從而造成訓練目標與實際生成過程之間的不匹配。階梯式注意力的作用是使估計過程受到更嚴格的約束,以便代理指標可以在不違反擴散生成因果結構的情況下支援 RL 更新。這種設計表明,作者不僅僅是試圖讓 RL 運作,還試圖在優化過程與模型的生成機制之間保持一致性。
長期以來,我們一直將比率視為理所當然的中間量,假設一旦有了代理指標,我們就可以簡單地繼續使用傳統的策略優化框架。StableDRL 提醒我們,在 dLLM 中,代理比率本身已經是系統誤差的一部分,不能再像處理精確概似那樣處理它。換句話說,dLLM 的 RL 不僅僅是採用不同的生成方案,它改變了整個優化問題的統計結構。
我個人認為這類理論工作特別引人入勝,因為單純追求基準測試(benchmark chasing)最終是沒有意義的。它沒有試圖消除雜訊或不匹配,而是承認雜訊的存在並將其納入 RL 框架,然後使用更合適的裁剪和歸一化規則將雜訊轉化為可控的近似值。

