# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Yifan Zhang @ ICLR 2026 (@yifan_zhang_) · 平台：X (Twitter) · 日期：2026-04-25

> 原始來源：https://x.com/yifan_zhang_/status/2048052313449783401

## 中文摘要

RPG 框架統一推導 KL 正規化策略梯度演算法，提升 LLM 推理效能。

Yifan Zhang 等人的 ICLR 2026 論文「On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning」提出 RPG (Regularized Policy Gradient) 框架，系統推導並修正大語言模型 (LLM) 在線上強化學習 (RL) 設定下的 KL 正規化策略梯度方法，解決文獻中散亂的 KL 方向、規範化形式與估計器設計問題。論文於 2025 年 5 月 23 日初版，2026 年 2 月 19 日修訂至 v4，並獲 ICLR 2026 接受，今日於里約熱內盧 Riocentro 會議中心 Pavilion 4 發表。作者樂見 V4 與 V3.2 版本採用論文修正的 KL 公式，並建議未來改用 REINFORCE 估計器取代 GRPO，以「IN REINFORCE WE TRUST」強調其可靠性。

**RPG 核心貢獻**

RPG 提供緊湊統一推導，聚焦離策略 (off-policy) 設定下，各 KL 變體所需的權重，使代理優化目標產生精確的 KL 正規化目標梯度：
- 統一規範化 (normalized KL) 與非規範化 (unnormalized KL) 形式，證明廣泛使用的 $k_3$ 懲罰即為非規範化 KL。
- 為前向 (forward) 與反向 (reverse) KL 散度推導策略梯度及代理損失函數。
- 指定 REINFORCE 風格損失 (使用 stop-gradient 運算子) 等價於全微分代理的條件，適用於線上 RL 透過舊策略 $\pi_{\mathrm{old}}$ 的重要性取樣 (importance sampling)。
- 辨識並修正 GRPO 的 KL 項離策略重要性權重不匹配問題。
RPG 還引入「RPG-Style Clip」，即 RPG-REINFORCE 中的裁剪重要性取樣步驟，實現大規模穩定離策略策略梯度訓練。

**數學推理基準實驗結果**

在 AIME2024 與 AIME2025 基準上，RPG-REINFORCE 搭配 RPG-Style Clip 相較 DAPO 基準提升高達 +6 個百分點絕對準確率：
- 擴展至 8K 上下文長度，於 AIME2025 達 52% 準確率，超越官方 Qwen3-4B-Instruct 模型的 47%。
- 使用過濾後的「filtered DAPO-Math-17k」資料集微調，評估資料集包括 AIME2024、AIME2025 與 AMC23，所有資料預處理為 .parquet 格式置於 "data/" 資料夾。
RPG 被定位為穩定可擴展的 LLM 推理 RL 演算法，依賴 (a) KL 正確目標、(b) 裁剪重要性取樣、(c) 迭代參考策略更新方案。作者強調，這解決了文獻中 KL 正規化設計的混亂與錯誤，特別批判 GRPO 的權重失配。

**程式庫特點與相容性**

RPG 程式庫支援全面推導與多樣演算法需求：
- **全面性**：涵蓋前向/反向 KL 的規範化 (KL) 與非規範化 (UKL) 形式。
- **彈性 RL 設定**：提供全微分損失函數 (連結變分推斷) 與 REINFORCE 風格梯度估計器，適用離策略線上設定。
程式庫基於 volcengine/verl 程式碼庫，需 Python 3.10+、PyTorch 2.6.0，相容 MIT 授權。專案頁面：https://github.com/complex-reasoning/RPG；論文：https://arxiv.org/abs/2505.17508；網站：https://complex-reasoning.github.io/RPG。

**硬體與安裝需求**

推薦 A100 或 H100 GPU，至少 8 張 80G VRAM：
- 安裝步驟：
  - 複製程式庫：`git clone https://github.com/complex-reasoning/RPG.git` 並進入目錄。
  - 遵循 verl 文件：https://verl.readthedocs.io/en/latest/index.html。
  - 安裝依賴：`pip install -r requirement.txt`。
虛擬環境管理依賴為佳。

**資料準備細節**

使用 pandas DataFrame 模板預處理資料至 .parquet 格式，置於 "data/" 資料夾：
| Key         | data_source                  | prompt                                                                 | ability | reward_model                                      | extra_info                                                                 |
|-------------|------------------------------|------------------------------------------------------------------------|---------|---------------------------------------------------|----------------------------------------------------------------------------|
| Description| 決定 rollout 結果評估方式的資料來源類型 | Dict: {"content": 嵌入提示模板的問題，"role": "user"}                  | MATH   | Dict: {"ground_truth": 結果字串，"style": "rule-lighteval/MATH_v2"} | Dict: {"index": acc@k 重複索引，"raw_problem": 原始問題，"split": None}    |

- **提示生成函數**：
  ```python
  def generate_prompt(question: str):
      pre_q = "Solve the following math problem step by step. The last line of your response should be of the form Answer: $Answer (without quotes) where $Answer is the answer to the problem.\n\n"
      post_q = "\n\nRemember to put your answer on its own line after \"Answer:\"."
      return pre_q + question + post_q
  ```
- **data_source 設定**：
  - "math-dapo" 用於 AIME2024 與 DAPO-Math-17k。
  - "aime2025" 用於 AIME2025。
  - "amc_23" 用於 AMC-23。
- **acc@k 支援**：重複資料 k 次，設定 "index" 為 0~(k-1)。
程式庫提供 AMC-23、AIME2024、AIME2025 資料；filtered DAPO-Math-17k 來自 https://huggingface.co/datasets/math-dataset/DAPO-17k-Eng/blob/main/dapo-math-17k-eng.parquet。

**重現實驗步驟**

1. 啟動 ray 伺服器：
   - `ray start --head --dashboard-host=0.0.0.0` 開啟儀表板。
   - `ray start --address='YOUR_IP_ADDRESS:6379'`，替換本地 IP。
2. 執行 "recipe/rpg/7b/" 資料夾腳本，重現論文實驗：
   - 基準實驗：run_A_7b_BCD.sh，其中 A 為 dapo/grpo/rfpp/rfppb，B 空值。
   - RPG 實驗：A 為 rpg，B 為 fkl/rkl/ufkl/urkl + 1e-4_。
   - RPG-REINFORCE 實驗：B 為 fkl/rkl/ufkl/urkl + 1e-4_rf_clip_ppo_ + 裁剪參數如 0.2_0.28_ 或 0.1_0.1_。
   - C 為空值 (AdamW 優化器) 或 schedule_free (Schedule-free 優化器)。
   - 範例：`bash recipe/rpg/7b/run_rpg_7b_fkl1e-4_rf_clip_ppo_0.1_0.1_7binstruct.sh`，執行 RPG-REINFORCE-FKL 於 Qwen-2.5-7B-Instruct 模型，裁剪參數 (0.1, 0.1)，AdamW 優化器。

**作者立場與產業影響**

作者 Yifan Zhang (*)、Yifeng Liu (*)、Huizhuo Yuan、Quanquan Gu、Andrew Chi-Chih Yao (※等號表示共同第一作者) 強調 RPG 修正業界常見錯誤，如 GRPO 的 KL 項問題，並呼籲 V4/V3.2 未來採用 REINFORCE 估計器，而非 GRPO。此立場反映對文獻散亂設計的批判，主張「Scaling KL-Regularized Policy Gradient and REINFORCE Is All You Need」，以幽默口號「IN REINFORCE WE TRUST」強化信任。RPG 不僅理論統一，還透過實證證明在數學推理上的優越性，感謝 volcengine/verl、Hugging Face、「Mathematical Association of America (MAA)」提供 AMC-23/AIME 資料，以及 BytedTsinghua-SIA 的 DAPO-Math-17k。

**引用資訊**

使用 RPG 時，請引用：
```bibtex
@article{zhang2025design,
    title={On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning},
    author={Zhang, Yifan and Liu, Yifeng and Yuan, Huizhuo and Gu, Quanquan and Yao, Andrew C},
    journal={arXiv preprint arXiv:2505.17508},
    year={2025},
}
```
此摘要忠實保留原文推廣 RPG、修正 GRPO 並推崇 REINFORCE 的立場，突顯其在 LLM 推理 RL 中的穩定擴展潛力。

## 標籤

LLM, 研究論文, ICLR
