# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Jean Kaddour @ ICLR 2026 (@jeankaddour) · 平台：X (Twitter) · 日期：2026-04-16

> 原始來源：https://x.com/jeankaddour/status/2044738648772317665

## 中文摘要

TPO將GRPO轉化為監督式學習，在稀疏獎勵下大幅超越基準。

Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」（arXiv:2604.06159），提出TPO方法，將強化學習（RL）中「哪些完成應獲提升機率」與「參數如何調整」兩個問題分離處理。TPO透過閉式目標分佈與交叉熵擬合，避免標準政策梯度方法的過衝或欠衝問題，在稀疏獎勵情境中表現優異。程式碼開源於GitHub（https://github.com/jeankaddour/tpo），涵蓋JAX實作與多項實驗。

**TPO核心機制**

TPO將GRPO轉化為監督學習：針對提示生成的完成群組，依據評分建構目標分佈\( q_i \propto p_i^{\mathrm{old}} \exp(u_i) \)，再以交叉熵損失擬合政策。損失梯度為\( p^\theta - q \)，一旦政策匹配目標即消失，讓多epoch訓練平滑無虞。

- 借鏡RL-as-EM舊思路（如REPS、MPO）的「reweight, then fit」，引入群組RL（group RL），無需評論家（critic）或內部最佳化，目標分佈為閉式公式。
- 與標準政策梯度（如PG、PPO、GRPO、DG）不同，TPO分離「提升哪些完成機率」與「參數移動方式」，避免學習率、裁剪等優化器選擇導致的過衝或欠衝。

**擴展性優勢**

TPO隨候選群組大小線性擴展，候選數增加時表現平滑提升，而GRPO穩定性較差。無政策梯度、無裁剪、無評論家，簡化訓練流程。

**實驗驗證**

在多項任務中，TPO於簡單情境匹配基準（如PG、PPO、GRPO、DG），於稀疏獎勵下大幅領先。GitHub程式庫提供JAX程式碼，涵蓋以下關鍵實驗：

| 實驗 | 指令 | 描述 |
|------|------|------|
| Tabular (single) | `tpo.cli tabular_single` | 單一脈絡老虎機 |
| Tabular (multi) | `tpo.cli tabular_multi` | 多脈絡老虎機 |
| MNIST | `tpo.cli mnist` | 脈絡老虎機（20 seeds，TPO超越DG與GRPO） |
| Token reversal (dense) | `tpo.cli transformer` | 密集獎勵序列任務 |
| Token reversal (sparse) | `tpo.cli transformer_rlvr` | 稀疏獎勵序列任務（H=10，20 seeds，TPO解決任務而DG與GRPO停滯） |

- 圖示顯示：MNIST脈絡老虎機中TPO領先；稀疏獎勵token reversal（H=10）中，TPO成功解決任務，基準方法卡住。
- 適用範圍：表格老虎機、Transformer序列任務、十億參數LLM RLVR。

**程式庫結構與啟動**

程式庫結構清晰，聚焦TPO實驗重現：

```
tpo/
├── src/tpo/
│   ├── algorithms.py      # TPO, GRPO, DG, REINFORCE 損失函數
│   ├── models.py          # PolicyMLP, CausalTransformer (Flax)
│   ├── config.py          # 實驗配置 (frozen dataclasses)
│   ├── cli.py             # 入口點
│   └── experiments/       # 各實驗執行器
├── scripts/               # 繪圖腳本
└── tests/
```

快速啟動：
- `uv sync` 安裝CPU安全預設堆疊（含macOS）；Linux NVIDIA GPU用`uv sync --extra cuda12`。
- 煙霧測試：`uv run python -m tpo.cli all --smoke --no-wandb --save-dir /tmp/tpo-smoke`（約1分鐘）。
- 完整MNIST實驗：`uv run python -m tpo.cli mnist`；圖表存於`figures/`。

**技術貢獻與引用**

TPO在RL從EM視角復興「reweight, then fit」，特別適用群組rollouts與稀疏獎勵，解決標準方法在參數調整上的不穩定。論文強調多epoch訓練平滑性，程式碼支援vocab掃描、消融與自訂選項。引用：
```
@misc{kaddour2026targetpolicyoptimization,
      title={Target Policy Optimization},
      author={Jean Kaddour},
      year={2026},
      eprint={2604.06159},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2604.06159},
}
```

此方法預示RL訓練將更模組化，ICLR 2026投稿凸顯其在LLM RLVR的潛力，尤其稀疏獎勵下的穩定優勢。

## 標籤

研究論文, 開源專案, TPO, JAX
