TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準
AI 語音朗讀 · Edge TTS
TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。
Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習(RL)中「哪些完成應獲提升機率」與「參數如何調整」兩個問題分離處理。TPO透過閉式目標分佈與交叉熵擬合,避免標準政策梯度方法的過衝或欠衝問題,在稀疏獎勵情境中表現優異。程式碼開源於GitHub(https://github.com/jeankaddour/tpo),涵蓋JAX實作與多項實驗。
TPO核心機制
TPO將GRPO轉化為監督學習:針對提示生成的完成群組,依據評分建構目標分佈( q_i \propto p_i^{\mathrm{old}} \exp(u_i) ),再以交叉熵損失擬合政策。損失梯度為( p^\theta - q ),一旦政策匹配目標即消失,讓多epoch訓練平滑無虞。
- 借鏡RL-as-EM舊思路(如REPS、MPO)的「reweight, then fit」,引入群組RL(group RL),無需評論家(critic)或內部最佳化,目標分佈為閉式公式。
- 與標準政策梯度(如PG、PPO、GRPO、DG)不同,TPO分離「提升哪些完成機率」與「參數移動方式」,避免學習率、裁剪等優化器選擇導致的過衝或欠衝。
擴展性優勢
TPO隨候選群組大小線性擴展,候選數增加時表現平滑提升,而GRPO穩定性較差。無政策梯度、無裁剪、無評論家,簡化訓練流程。
實驗驗證
在多項任務中,TPO於簡單情境匹配基準(如PG、PPO、GRPO、DG),於稀疏獎勵下大幅領先。GitHub程式庫提供JAX程式碼,涵蓋以下關鍵實驗:
| 實驗 | 指令 | 描述 |
|---|---|---|
| Tabular (single) | tpo.cli tabular_single |
單一脈絡老虎機 |
| Tabular (multi) | tpo.cli tabular_multi |
多脈絡老虎機 |
| MNIST | tpo.cli mnist |
脈絡老虎機(20 seeds,TPO超越DG與GRPO) |
| Token reversal (dense) | tpo.cli transformer |
密集獎勵序列任務 |
| Token reversal (sparse) | tpo.cli transformer_rlvr |
稀疏獎勵序列任務(H=10,20 seeds,TPO解決任務而DG與GRPO停滯) |
- 圖示顯示:MNIST脈絡老虎機中TPO領先;稀疏獎勵token reversal(H=10)中,TPO成功解決任務,基準方法卡住。
- 適用範圍:表格老虎機、Transformer序列任務、十億參數LLM RLVR。
程式庫結構與啟動
程式庫結構清晰,聚焦TPO實驗重現:
tpo/
├── src/tpo/
│ ├── algorithms.py # TPO, GRPO, DG, REINFORCE 損失函數
│ ├── models.py # PolicyMLP, CausalTransformer (Flax)
│ ├── config.py # 實驗配置 (frozen dataclasses)
│ ├── cli.py # 入口點
│ └── experiments/ # 各實驗執行器
├── scripts/ # 繪圖腳本
└── tests/
快速啟動:
uv sync安裝CPU安全預設堆疊(含macOS);Linux NVIDIA GPU用uv sync --extra cuda12。- 煙霧測試:
uv run python -m tpo.cli all --smoke --no-wandb --save-dir /tmp/tpo-smoke(約1分鐘)。 - 完整MNIST實驗:
uv run python -m tpo.cli mnist;圖表存於figures/。
技術貢獻與引用
TPO在RL從EM視角復興「reweight, then fit」,特別適用群組rollouts與稀疏獎勵,解決標準方法在參數調整上的不穩定。論文強調多epoch訓練平滑性,程式碼支援vocab掃描、消融與自訂選項。引用:
@misc{kaddour2026targetpolicyoptimization,
title={Target Policy Optimization},
author={Jean Kaddour},
year={2026},
eprint={2604.06159},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2604.06159},
}
此方法預示RL訓練將更模組化,ICLR 2026投稿凸顯其在LLM RLVR的潛力,尤其稀疏獎勵下的穩定優勢。
Introducing Target Policy Optimization (TPO):
— Jean Kaddour @ ICLR 2026 (@jeankaddour) April 16, 2026
TPO turns GRPO into supervised learning: build a target distribution over sampled completions, then fit with cross-entropy.
The gradient vanishes once the target is matched, making multi-epoch training smooth. 🧵(1/4) pic.twitter.com/0AAClEB3mP
TPO brings the old “reweight, then fit” idea from the RL-as-EM line of work (e.g. REPS, MPO) into group RL.
— Jean Kaddour @ ICLR 2026 (@jeankaddour) April 16, 2026
Because it works on a group of rollouts, the target is closed-form: no critic, no inner optimization. (2/4) pic.twitter.com/z2gNK3bqds
TPO scales cleanly with group size.
— Jean Kaddour @ ICLR 2026 (@jeankaddour) April 16, 2026
As the number of candidates grows, TPO improves smoothly, while GRPO is less stable. (3/4) pic.twitter.com/hLIdGYBiCy
Empirically, TPO matches baselines on easier settings and can pull ahead when rewards are sparse. Multi-epoch training is smooth too.
— Jean Kaddour @ ICLR 2026 (@jeankaddour) April 16, 2026
Paper: https://t.co/HpQS00Y8hP
Code: https://t.co/PwwF7m1UFu
(4/4) pic.twitter.com/OhMAaZN2oK
