← 返回首頁

TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準

Jean Kaddour @ ICLR 2026
Jean Kaddour @ ICLR 2026
@jeankaddour
228🔁 34
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。

Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習(RL)中「哪些完成應獲提升機率」與「參數如何調整」兩個問題分離處理。TPO透過閉式目標分佈與交叉熵擬合,避免標準政策梯度方法的過衝或欠衝問題,在稀疏獎勵情境中表現優異。程式碼開源於GitHub(https://github.com/jeankaddour/tpo),涵蓋JAX實作與多項實驗。

TPO核心機制

TPO將GRPO轉化為監督學習:針對提示生成的完成群組,依據評分建構目標分佈( q_i \propto p_i^{\mathrm{old}} \exp(u_i) ),再以交叉熵損失擬合政策。損失梯度為( p^\theta - q ),一旦政策匹配目標即消失,讓多epoch訓練平滑無虞。

  • 借鏡RL-as-EM舊思路(如REPS、MPO)的「reweight, then fit」,引入群組RL(group RL),無需評論家(critic)或內部最佳化,目標分佈為閉式公式。
  • 與標準政策梯度(如PG、PPO、GRPO、DG)不同,TPO分離「提升哪些完成機率」與「參數移動方式」,避免學習率、裁剪等優化器選擇導致的過衝或欠衝。

擴展性優勢

TPO隨候選群組大小線性擴展,候選數增加時表現平滑提升,而GRPO穩定性較差。無政策梯度、無裁剪、無評論家,簡化訓練流程。

實驗驗證

在多項任務中,TPO於簡單情境匹配基準(如PG、PPO、GRPO、DG),於稀疏獎勵下大幅領先。GitHub程式庫提供JAX程式碼,涵蓋以下關鍵實驗:

實驗 指令 描述
Tabular (single) tpo.cli tabular_single 單一脈絡老虎機
Tabular (multi) tpo.cli tabular_multi 多脈絡老虎機
MNIST tpo.cli mnist 脈絡老虎機(20 seeds,TPO超越DG與GRPO)
Token reversal (dense) tpo.cli transformer 密集獎勵序列任務
Token reversal (sparse) tpo.cli transformer_rlvr 稀疏獎勵序列任務(H=10,20 seeds,TPO解決任務而DG與GRPO停滯)
  • 圖示顯示:MNIST脈絡老虎機中TPO領先;稀疏獎勵token reversal(H=10)中,TPO成功解決任務,基準方法卡住。
  • 適用範圍:表格老虎機、Transformer序列任務、十億參數LLM RLVR。

程式庫結構與啟動

程式庫結構清晰,聚焦TPO實驗重現:

tpo/
├── src/tpo/
│   ├── algorithms.py      # TPO, GRPO, DG, REINFORCE 損失函數
│   ├── models.py          # PolicyMLP, CausalTransformer (Flax)
│   ├── config.py          # 實驗配置 (frozen dataclasses)
│   ├── cli.py             # 入口點
│   └── experiments/       # 各實驗執行器
├── scripts/               # 繪圖腳本
└── tests/

快速啟動:

  • uv sync 安裝CPU安全預設堆疊(含macOS);Linux NVIDIA GPU用uv sync --extra cuda12
  • 煙霧測試:uv run python -m tpo.cli all --smoke --no-wandb --save-dir /tmp/tpo-smoke(約1分鐘)。
  • 完整MNIST實驗:uv run python -m tpo.cli mnist;圖表存於figures/

技術貢獻與引用

TPO在RL從EM視角復興「reweight, then fit」,特別適用群組rollouts與稀疏獎勵,解決標準方法在參數調整上的不穩定。論文強調多epoch訓練平滑性,程式碼支援vocab掃描、消融與自訂選項。引用:

@misc{kaddour2026targetpolicyoptimization,
      title={Target Policy Optimization},
      author={Jean Kaddour},
      year={2026},
      eprint={2604.06159},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2604.06159},
}

此方法預示RL訓練將更模組化,ICLR 2026投稿凸顯其在LLM RLVR的潛力,尤其稀疏獎勵下的穩定優勢。