# 策展 · X (Twitter) 🔥🔥🔥

> 作者：will brown (@willccbb) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/willccbb/status/2050038277454143918

## 中文摘要

# 關於 SFT、RL 與 On-policy Distillation

為什麼 SFT-RL 的流程有效？On-policy distillation 的定位為何？以及自我蒸餾（Self-distillation）為何會出錯？

作者：Will Brown & Claude Opus 4.7
2026 年 4 月 30 日

[編者註：觀點由我提出，內容由 Claude 撰寫。這是一項實驗，旨在嘗試讓 Claude 協助加速撰寫並建構技術研究部落格，初稿以 Artifacts 形式呈現，並透過「辯論」進行修正。我有太多想寫但一直沒時間動筆的部落格主題，但現在模型的能力終於足以協助完成這些工作（希望如此——請讓我知道你的想法）。]

---

## §1 — 標準流程與複合效應論證

大多數的後訓練（Post-training）流程都是「先 SFT，後 RL」的變體——先進行預訓練（Pre-train），透過監督式微調（SFT）取得基準模型，然後在 SFT 資料耗盡或無法進一步提升效能時，轉而執行 RL。人們通常將這種順序視為慣例，但其實有一個值得明確探討的論點。這個論點的核心在於：你的方法是在哪種採樣分佈（Sampling distribution）下進行複合（Compounding），以及由此產生的效能上限在哪裡。

本文所指的 SFT 是指「教師 SFT (Teacher SFT)」：即使用某個教師模型產生的完成內容進行訓練。（在人類策劃的資料上進行單純的指令微調，本質上也是同樣的模式，只是教師換成了人類。）其定義特徵在於：採樣分佈在資料集建構時就已固定。隨著模型在訓練過程中不斷進步，資料卻不會隨之更新。一旦學生模型接近教師模型的分佈，更多的 SFT 基本上就只是在死記硬背——邊際樣本已不再具有資訊量。SFT 的上限大致就是教師模型的上限。

RL 則完全相反。學生模型採樣自己的 Rollout，梯度更新策略，下一批次則從改進後的策略中採樣。改進會回饋到採樣分佈中，產生複合效應。其上限不由資料決定，而是由驗證器（Verifier）能評分的內容決定。

這產生了一個轉折點。當當前效能遠低於教師模型且教師資料成本低廉時，SFT 的單位改進成本極低——你正從一個具備能力的來源學習你所缺乏的能力。當當前效能接近教師模型時，邊際 SFT 樣本的資訊量會減少，而學生模型自身的 Rollout 透過幸運的探索，開始產生真正的新策略，這是 RL 梯度可以提取出來的。越過這個轉折點後，將 Rollout 的運算資源投入 RL 比投入更多的 SFT 更划算。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700628-iaHHMqZYTbkAAHMyWjpg.jpg)

拒絕採樣 SFT (SFT-RS，有時稱為 RFT——從教師或學生模型採樣，篩選正確的結果，並對存活下來的樣本進行訓練) 在期望值上嚴格優於傳統的教師 SFT，但它並沒有解決複合問題。採樣分佈仍然被鎖定在你所篩選的範圍內。一旦你的篩選器飽和——所有正確的都被包含，所有錯誤的都被丟棄——你就遇到了同樣的上限。SFT-RS 提升了曲線，但並沒有改變其形狀。

這些都不是新觀點，但明確說出來很有必要，因為本文其餘部分都在探討如何突破該上限，而可用的手段取決於你擁有什麼資源。

## §2 — 同家族與不同家族的教師

「執行 SFT」涉及選擇教師，而教師與學生模型的關係是影響效率的一個關鍵軸線，卻未得到足夠的重視。

「同家族教師（Same-family teacher）」是指 Tokenizer 相符且配方（Recipe）相符：相同的詞彙表、相同的通用訓練流程，理想情況下是不同規模的同一個基礎模型。Qwen3-32B 教導 Qwen3-8B-Base 就是典型的例子，源自 Qwen3 技術報告，並在 Thinking Machines 的 OPD 文章中被顯著重提。教師模型的輸出分佈在結構上與學生模型自然產生的內容非常接近。SFT 的訊號——對於每個 token，「教師會這麼說」——主要關於能力差距，而非風格差異。來自教師的逐 token logprobs 可以直接與學生模型進行比較，因為詞彙表共享，且相似的訓練配方會產生相似的分佈形狀。

「不同家族教師（Different-family teacher）」是指 Tokenizer 不匹配、配方不匹配，或兩者皆是。將前沿的閉源模型蒸餾到開放的基礎模型中，或跨越模型家族。這會產生兩個具體的代價：

- Tokenizer 不匹配意味著教師模型的每個完成內容都必須在學生模型的詞彙表中重新進行 Tokenization。你會在邊界處損失資訊，且逐 token 的 logprobs 在不同模型間不再對應到「相同位置的相同預測」。若沒有昂貴的變通方法，軟目標蒸餾（Soft-target distillation）基本上是不可能的。

- 配方不匹配意味著教師模型的輸出帶有風格和結構上的偽影（Artifacts）——例如它如何格式化列表、何時使用思維鏈（Chain-of-thought）、使用什麼語域（Register）說話——這些是訓練流程的副產品，而非能力。學生模型必須在吸收內容的同時吸收這些偽影。相當大比例的 SFT 資訊量被用於學習表面形式而非能力，導致學生模型看起來往往像是教師模型風格的劣化版，卻沒有內化教師模型的推理能力。

在實務上，大多數跨家族蒸餾在「教師知道什麼」與「學生在不學習教師流程的情況下能吸收什麼」之間的差距中損失了東西。同家族 SFT 在單位能力轉移上的效率要高得多，即使你並不總是有條件限制自己只使用這種方式。

這點很重要，因為演算法樹上的下一步——On-policy distillation——基本上只在同家族設定下可用，而這個限制決定了本文後續的內容。

## §3 — On-policy distillation 作為同家族升級

On-policy distillation (OPD，如 Lu 等人 2025 年的論文以及之前的 Qwen3 技術報告) 在你鋪陳了前兩節後，是一個顯而易見的選擇。學生模型採樣自己的 Rollout——因此你在採樣分佈中獲得了 RL 的複合效應——但 Rollout 中的每個 token 都由教師透過逐 token 的反向 KL 進行評分：

每個 token 的優勢（Advantage）在於「相對於學生模型，教師有多偏好這個 token」。這是密集的、On-policy 的、反向 KL 的。報告中的數據令人震驚——在 AIME 風格的基準測試中，運算量比 RL 少約 9–30 倍，當教師 logprob 呼叫可以並行化時，差距會進一步擴大。

這引出了一個圖 1 暗示的問題：為什麼 OPD 的實務上限高於 SFT-RS，儘管兩者針對的是同一個教師？更便宜的採樣是原因之一——教師模型僅對學生模型的 token 進行前向傳遞（Forward-pass），這本質上是 Prefill，而 Prefill 的單位 FLOP 成本遠低於生成。但這主要帶來的是更快的收斂，而非更高的上限。更深層的原因是 On-policy 的狀態覆蓋（State coverage）。SFT 和 SFT-RS 在教師的狀態分佈下訓練，但在學生模型自身的分佈下評估；在長 Rollout 中產生的暴露偏差（Exposure bias）差距，使得離線（Off-policy）實務效能無法達到實際評估分佈中的「教師品質」。OPD 在學生模型的 Rollout 上訓練，因此不會產生這種差距。名義上的漸近目標相同，但實務上限不同。

問題在於 OPD 需要同家族教師，且這種依賴性比人們通常承認的更嚴苛。你需要 Tokenizer 相符才能計算損失——逐 token 的 KL 是在相同 token 位置上，教師與學生分佈之間的差異。你還需要至少近似的配方相符，因為逐 token 的訊號需要在你關心的事物上真正具有資訊量。如果教師和學生模型是用非常不同的配方訓練的，反向 KL 梯度將被「教師會用不同方式表達這句話」所主導，而不是「教師會在這裡進行不同的推理」。

因此，只有當你有同家族教師可用時，OPD 才是「兩全其美」的選擇。當你有時，它往往在適度的運算預算下佔據優勢——先進行訓練中期的 SFT 以進入教師的大致領域，然後用 OPD 代替 RL 以有效地接近教師水準（你可以用較小的模型進行探索，且 Prefill 很便宜）。上限則是另一個問題。OPD 透過建構針對教師的分佈，因此在極限上受限於教師；RL 的上限受限於驗證器，後者可以高得多。所以框架不是「OPD 打敗 RL」，而是「OPD 讓你比 RL 更快達到教師水準，而且大多數時候這本來就是你想達到的地方」。當你沒有同家族教師時，你會退回到跨家族 SFT（承擔配方不匹配的代價）或 RL（承擔稀疏性代價）——或者，最近更具推測性的做法，轉向自我蒸餾。

## §4 — 當你沒有同家族教師時

對於「如果你有同家族教師，OPD 很棒」的自然反應是「如果我沒有呢？」自我蒸餾試圖透過使用學生模型本身作為教師來回答這個問題，並在教師的 Context 中加入學生模型在採樣時看不到的特權資訊（Privileged information）。最近出現了兩種實現方式；它們具有相同的演算法形狀，僅在提供給教師的特權資訊上有所不同。

SDFT (Shenfeld 等人 2026) 將教師條件化於專家示範（Expert demonstration）——一個已完成的範例，可能針對不同的任務。學生模型在 Context 中沒有示範的情況下採樣軌跡；教師在看到示範的同時，對軌跡計算逐 token 的 logprobs；學生模型透過反向 KL 向教師更新。完全是 On-policy 的。示範提供了分佈上的拉力（Distributional pull）而不洩漏答案，論文明確了支撐這一點的假設（詳見 §8）。

OPSD (Zhao 等人 2026) 則將教師條件化於真實答案（Ground-truth answer）。除此之外設定相同。教師知道軌跡應該在哪裡結束；學生模型不知道。這在教師模型中產生了比示範更強烈的分佈偏移。

在這兩種情況下，Tokenizer 相符是自動的（同一個模型）。配方相符也是自動的（同一個模型）。你所交換的代價是，特權資訊條件化改變了教師的分佈——SDFT 較溫和，OPSD 則較激進——使其偏離了學生模型的自然分佈。

兩者都處於與 OPD 完全相同的撥盤設定上。唯一的區別是教師的選擇。而這個區別恰恰是失敗模式存在的地方。

## §5 — 梯度的幾何結構

為了理解原因，值得探討每種方法的梯度在參數空間中實際看起來是什麼樣子。它們的形狀以具有啟發性的方式各不相同。

RL：稀疏，但因破壞性干擾而獲救

關於 RL 的標準抱怨是每個 Episode 只有一個 bit——一個分散在數千個 token 中的二元「你答對了」。我認為更有用的框架是：表面的稀疏性正是讓 RL 的梯度更新保持誠實的原因。

在 GRPO 風格的步驟中，每個 Rollout 中的每個 token 都會獲得一個優勢（Advantage）。在一個群組內，優勢的平均值透過建構大約為零（減去群組基準），並具有一定的變異數。每個逐 token 的優勢會乘以該 token 的對數機率梯度，在參數空間中產生一個向量。總更新是該批次的平均值。

這些向量大多數是雜訊。獎勵是稀疏的且以廣播方式分配；大多數 token 並未真正對答案是否正確做出貢獻。它們的優勢非零只是因為它們恰好與獎勵共享了一條軌跡，而不是因為它們在因果上對此負責。因此，該批次包含了一群小的、大部分是隨機的參數空間向量，其中帶有與獎勵實際相關維度（「思考更久」、「檢查算術」）的一小部分一致偏差。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700622-iaHHMh5DPbgAA1u7Djpg.jpg)

大批次、低學習率的 RL 之所以穩健，並不是因為每個逐 token 的梯度都有資訊量——大多數都沒有——而是因為沒有資訊量的部分互相抵消了。在平均值中存活下來的是沿著與獎勵實際相關方向的小型一致分量。這有一些實證支持：觀察到 RL 更新在參數空間中是稀疏的，僅修改小型子網路。這看起來像是破壞性干擾圖景的實現。

這也解釋了為什麼 RL 感覺「安全但緩慢」。每一步都將模型向你可以信任的方向移動了一點點。稀疏性並非純粹的錯誤；它是無偏估計器的代價。

SFT：密集、有偏差，但分散

SFT 則相反。每個 token 都獲得一個 One-hot 標籤。梯度密度極大——每個 token 都有一個資訊量豐富的更新，無需廣播。

但 SFT 的梯度分佈平均值不為零。根據建構，它偏向資料分佈。沒有類似於優勢抵消的機制。這是建設性干擾，而非破壞性。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700609-iaHHMmOgZbsAAcspNjpg.jpg)

那麼為什麼 SFT 不會崩潰？有兩個原因。首先，資料分佈本身是多樣的：偏差在許多樣本中指向許多略有不同的方向，因此你得到了一個軟主成分分解（Soft principal-components decomposition），模型整體向資料流形（Data manifold）漂移，而不是向任何單一樣本漂移。其次，SFT 是擴散的。SFT 步驟所做的大部分工作是強化模型已經半知半解的事物。很少有 token 的資料要求模型將大量機率質量放在它目前認為機率接近零的事物上。

這就是為什麼 SFT 具有包容性。資料可以稍微混亂，學習率可以稍微不準，你大多只是在漂移。偏差是真實存在的，但它是非集中的。

OPSD：密集、有偏差且集中

OPSD 的梯度形狀與上述兩者都不同，這種差異具有啟發性——它指出了為什麼純自我蒸餾並非最終答案。

考慮一個長的數學 Rollout，學生模型因為在思維鏈的某處未能做出關鍵觀察——選擇正確的代換、注意到一個技巧——而答錯了。稱該 token（或短片段）為樞紐 token（Pivot token）。對於學生模型，產生該樞紐 token 的機率可能非常低——例如 0.01。對於教師模型，在條件化於答案的情況下，該樞紐 token 的機率要高得多——例如 0.6，因為一旦你知道解決方案的走向，正確的代換就變得顯而易見。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700538-iaHHMiHx0boAAQIYgjpg.jpg)

「學生說 0.01」與「教師說 0.6」之間的逐 token 反向 KL 大約是 log(0.6/0.01) ~= 4.1。對於一個兩者都給出約 0.3 的典型 token，其貢獻基本上為零。因此，一個樞紐 token 對損失的貢獻比典型 token 高出約一百倍。梯度被它所主導。

該梯度做了什麼？它在給定前綴的情況下，大幅提升了學生模型對樞紐 token 的對數機率。參數空間中相應的方向是「在這個 Context 中讓這個罕見的 token 不那麼罕見」。關鍵在於，這個更新並沒有與指向不同方向的其他許多向量進行平均。RL 的救命稻草是雜訊向量互相抵消。SFT 的救命稻草是偏差分散在學生模型已經支援的許多 token 上。OPSD 兩者皆無。這是一次集中的拉扯，一步到位，指向模型先前不相信的區域。

OPSD 隨附逐 token 的點對點 KL 裁剪（Point-wise KL clipping）——在每個位置限制每個詞彙條目的發散貢獻，用他們的話說，是為了「避免一小部分風格 token 主導訓練訊號」。若沒有它，論文報告稱效能會在約 100 步內崩潰。這就是圖 4 的體現。修正有效，它直接告訴我們：自我蒸餾（帶提示）中的 KL 訊號過於集中，你必須對其進行預算。那麼，下一步就是尋找一個 KL 自然擴散的教師，而不是依賴裁剪來使集中的訊號變得可容忍。

## §6 — 稀疏/密集 × 偏差/無偏差家族

上述梯度分析將每種方法置於一個小型分類法中。兩個主要軸線是稀疏與密集（每個 token 是否獲得訊號，還是只有軌跡獲得），以及偏差與無偏差（預期梯度是相對於學生模型指向固定方向，還是僅沿著獎勵相關的方向）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700594-iaHHMii9QaIAAPDQTjpg.jpg)

SFT、OPD 和 OPSD 都位於「密集、有偏差」的格子中。它們的區別在於偏差指向何處（指向資料、指向同家族教師、指向帶提示的自我），以及對於失敗模式分析更重要的是，這種偏差如何分佈在 token 上。這是第三個軸線——集中度（Concentration）：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700804-iaHHMiuztbMAEgzvBjpg.jpg)

這是幾何分析的關鍵點。RL 是稀疏但無偏差的。SFT 是密集、有偏差但擴散的。同家族 OPD 繼承了 SFT 的擴散性，因為教師分佈是針對學生家族進行校準的。OPSD 是唯一一個同時獲得密集、偏差和集中的情況——這就是為什麼它隨附了其他方法不需要的明確防禦機制（KL 裁剪、將教師固定為初始策略）。

## §7 — 一個說明性的元演算法（Meta-algorithm）

所有四種方法都是單一 token 級策略梯度（Policy gradient）的特例：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700599-iaHHMxz9Na4AA2DJyjpg.jpg)

具有兩個標量旋鈕和一個教師策略選擇：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700586-iaHHMx8ggbEAASXxsjpg.jpg)

- α ∈ [0,1] — 採樣分佈有多 On-policy。

- λ ∈ [0,1] — 逐 token 的優勢有多少來自教師 KL，多少來自序列級的結果獎勵。

- π_T — 教師策略：哪個模型，條件化於什麼 Context c_T。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700612-iaHHMi32CaYAAMlcQjpg.jpg)

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700631-iaHHM1cxbaoAAwolpjpg.jpg)

一旦你固定了 α 和 λ，幾乎所有重要的事情——偏差、集中度、穩定性——都是 π_T 在學生模型的 Rollout 上，於逐 token 層級如何不同於 π_θ 的函數。這個空間的內部——α, λ ∈ (0,1)，或混合教師選擇——大多尚未探索，似乎是下一輪進展所在。

幾點結論：

- SFT 是「來自退化教師的蒸餾」：令 π_T(y|x) = δ_{y_data}(y) 可恢復交叉熵（Cross-entropy）。SFT 之所以安全，並不是因為這個教師很差——而是因為它在許多不同的樣本上進行了平均，這使得偏差變得擴散。

- RL 是「沒有教師」：設定 λ=0，逐 token 的訊號坍縮為廣播的結果獎勵。破壞性干擾的故事由此而來。

- OPSD 與 OPD 具有相同的撥盤設定：唯一的區別是 π_T。這解釋了為什麼它在有效時可以匹配 OPD（相同的演算法），以及為什麼它是失敗模式最尖銳的地方（教師選擇在分佈上最具侵略性）。

關於此因式分解用途的警告：它說明了與 Pareto / SFT-RL 相變圖景概念一致的演算法類型——而不是建議在中間值 (α, λ) 混合來源。我不確定那是否是一個有用的演算法。乾淨的角落（SFT、RL、OPD）是統計數據在沒有重要性採樣修正的情況下運作良好的地方，它們對應於品質上不同的機制，主要在 KL 預算 β 上有所不同。它們之間有趣的變化軸線是 β；內插 α 和 λ 只是旁枝末節。

實務上有趣的結構看起來更像是「選擇 β，然後找到該 β 的最佳教師」。上述元演算法使角落變得可見，但真正困難的問題是內部的那個——且教師優化既不乾淨也不便宜。它通常是離散的（哪個模型？哪個提示？哪個提示詞？），且無法整齊地分解為梯度框架。§8 中的 Pareto 圖景才是該問題真正存在的地方。

## §8 — 邁向最佳教師

幾何分析將最佳教師問題轉化為一個優化問題。我們想要一個教師策略 π_T，它能在每一步對學生模型產生巨大的獎勵改進，同時受到一個嚴格的 KL 約束以保持更新穩定。以拉格朗日形式表示：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700590-iaHHMyw3takAA6yd7jpg.jpg)

隨著 β 的變化，這會描繪出一條 Pareto 曲線。不同的方法是曲線上的不同點。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777636700616-diaHHMvLMaMAAYEkujpg.jpg)

SDFT 論文的框架在這裡值得直接探討，因為它提供了一條通往曲線內部的候選路徑，但由於我們希望它運作的原因，它並不完全奏效。該論文將 ICL 假設形式化——即條件化於專家示範的模型近似於該任務的最佳策略——並將其分析條件化於此類示範的可用性。該假設承擔了很大的責任。實務上，這給出了與 SFT 和 SFT-RS（概念上）相似的上限：你只能達到示範的水準，且無法超越它們進行引導（Bootstrap）。

我們更希望處於一個像 RL 那樣的曲線世界中，上限僅是我們驗證能力的函數，即使我們不能總是（在沒有極其昂貴採樣的情況下）解決問題。我們可以對驗證能力做出更弱的假設（如果我們想衡量效能，無論如何都需要這樣做），加上對分佈的輕微規律性條件：效能（準確度）在任務分佈中，透過將任務特徵與模型在給定檢查點的解決可能性耦合的平滑潛在空間中優雅地下降；且當充分正則化時，更新在分佈解決率上應為淨正 EV——例如無限批次 RL 的高批次大小、低學習率、無偏極限。這就是複合收益所需的條件，唯一的上限是評分者的效能，問題在於如何在保持穩定性的同時更快地達到目標。

策略梯度——至少在結果獎勵 GAE 內——大致是期望獎勵梯度的最小變異數無偏估計器。目標是能夠轉動一個旋鈕，將偏差換取穩定但激進的更新。OPD 和 SFT 是這條曲線上的兩個點，但兩者都需要一個真實的教師。使用更大、更聰明的模型可以改進教師，但在沒有 Tokenizer 相符的情況下，對 OPD 來說並不直接可行。有一些跨 Tokenizer 的方法，但最終我們想要的是一種能讓我們乾淨且具成本效益地權衡教師效能與偏差的方法。

幾種合理的方法在堆疊的不同層級針對此目標：

- 針對拉格朗日的逐任務提示優化。在逐任務基礎上，對拉格朗日目標使用類似 GEPA 的方法，並透過教師採樣來估計獎勵。優化器在提示空間（提示詞、條件化）中搜尋能使當前學生模型 E[Δreward] − β·KL 最大化的提示。這是一個廉價的內循環，可以在不重新訓練任何東西的情況下產生可用的教師。

- 分佈級提示優化。訓練一個模型，在給定「壞」提示時寫出好的最小提示——白盒 RF 存取、答案本身、已知好的示範。訓練訊號是相同的拉格朗日目標，在任務分佈中聚合。輸出是一個提示重寫器，將大型特權資訊提示轉化為小型提示，在改進獎勵的同時，盡可能少地移動教師分佈。

- 自我提示優化線上 RL。將提示視為平行環境中的 Rollout，透過 RL 目標與主策略一起改進，損失分量自適應平衡（例如，對獎勵增量和 KL 項進行平滑的 Minmax）。提示編寫者和學生模型共同演化。

- 直接用 RL 訓練提示編寫模型。使用正確性增量 × (1 − KL 增量) 作為目標，範圍鎖定在特定模型 / 分佈 / 任務 / 「一般情況」（與評分模型訓練的範圍運作方式相同）。提示編寫者是一個你可以發佈的獨立 asset。

- 借鑒「專家 RL + OPD」。一些最近的模型（例如 DeepSeek V4）在局部最佳 RL 之上疊加了教師訊號——這是同時具有教師 KL 和結果獎勵的元演算法類比。該領域的經驗教訓與此直接相關。

這些方法的共同點在於，它們都針對拉格朗日目標，而不需要固定的外部教師策略：「教師」是（按任務、按分佈或線上）建構的，對當前的學生模型來說是局部最佳的——高獎勵、低 KL、外科手術式而非廣播式。

在極限情況下，對於最困難的重尾問題分佈，RL 在無限運算機制下可能仍然是最佳的——在這些情況下，任何教師分佈都會增加學生模型最終本來就會修正的偏差。但似乎很有可能存在一種不錯的元演算法，可以在蒸餾和 RL 之間更乾淨地進行內插：不需要真實教師，且在曲線上的每一點都具有運算最佳的學習效果。解決這個問題是我在這個領域中覺得最有趣的問題。

參考文獻
· Lu, K. & Thinking Machines Lab. On-Policy Distillation (2025). 
· Zhao, S. et al. Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models (OPSD, 2026). 
· Shenfeld, I. et al. Self-Distillation Enables Continual Learning (2026). 
· Agarwal, R. et al. On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes (2023). 
· Mukherjee, A. et al. Reinforcement Learning Finetunes Small Subnetworks in Large Language Models (2025). 
· Qwen Team. Qwen3 Technical Report (2025). 
· Ross, S. et al. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning (DAGGER, 2010).

## 標籤

教學資源, 其他, Anthropic, Claude
