← 返回首頁

R-Zero實現零外部資料自進化LLM推理能力大幅躍升

Han Fang
Han Fang
@Han_Fang_
429🔁 64
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。

「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料瓶頸,顯著提升推理表現,如Qwen3-4B-Base在數學推理基準上提升+6.49、一般領域推理基準上提升+7.54,僅經三輪迭代,無需任何人類資料。

框架創新
R-Zero從零開始生成訓練資料,解決自進化LLM依賴海量人類標註任務的根本限制。單一基礎LLM分化為兩個獨立模型:

  • 「Challenger」生成接近Solver能力邊緣的艱難問題,並在Solver失敗時獲得獎勵,學習探測弱點而非僅產生難題。
  • 「Solver」則針對Challenger提出的挑戰任務進行求解,並因解決更艱難問題而獲獎勵。
    兩模型透過GRPO獨立優化並互動共進化,形成針對性自改善課程,無需預存任務或標籤。

實證成效
在Qwen3-4B-Base基礎模型上,經三輪迭代即達顯著進步:

  • 數學推理基準提升+6.49。
  • 一般領域推理基準提升+7.54。
    此方法適用多種骨幹LLM,提供通往超智慧的可擴展路徑,論文作者Chengsong Huang、Wenhao Yu、Xiaoyang Wang、Hongming Zhang等人於2025年7月8日發布arXiv v1,最終修訂於2026年2月13日v4(連結:https://arxiv.org/abs/2508.05004)。

對AI發展的啟示
R-Zero突顯自進化LLM的潛力,透過內部互動擺脫人類資料依賴,但強調Challenger不僅生成難題,更需精準刺探弱點,方能推動模型超越人類推理極限,此為邁向超智慧的關鍵突破。