← 返回首頁

Vero:用於視覺推理的開源強化學習配方

Gabriel Sarch
Gabriel Sarch
@GabrielSarch
204🔁 38
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成

Vero:用於視覺推理的開源強化學習配方。

Vero 是一套針對視覺語言模型 (VLM) 的全開源強化學習 (RL) 訓練配方,旨在解決跨領域視覺推理任務,並透過大規模資料與任務路由獎勵機制,實現了超越現有模型的效能。

核心挑戰與解決方案
現有的視覺推理模型往往受限於封閉的強化學習流程與非公開資料,導致技術發展成為黑箱。Vero 透過建立一套全開源的訓練配方,整合了來自 59 個資料集的 60 萬筆高品質強化學習資料 (Vero-600k),涵蓋 6 大類任務,打破了過去技術黑箱的限制。該專案不僅提供模型權重,還公開了完整的訓練與評測框架,支援研究人員進行後續開發。

效能表現與評測
Vero 在 30 項基準測試中展現了領先的效能,超越了四種基礎模型,並在特定測試中擊敗了 Qwen3-VL-8B-Thinking。關鍵數據如下:

  • 在 30 項基準測試中,平均提升幅度顯著。
  • 以 Qwen3-VL-8B-Instruct 為基礎,整體平均分從 60.7 提升至 66.0。
  • 針對不同領域的提升:圖表與 OCR (+8.5)、STEM (+6.4)、空間與行動 (+3.7)、基礎與計數 (+5.3) 等。
  • 即使從相同的基礎模型訓練,Vero-600k 的表現也優於現有的強化學習資料集。

技術洞察與方法論
研究團隊發現,單一任務的強化學習往往會導致跨領域能力的退化,而 Vero 透過任務路由獎勵 (Task-routed rewards) 與廣泛的資料覆蓋,有效解決了多任務干擾問題。核心發現包括:

  • 不同任務類別會引發截然不同的推理風格:STEM 任務需要反思與回溯,而空間任務則依賴感知掃描,圖表任務則需要系統性的區域合成。
  • 廣泛的資料覆蓋是實現強大強化學習擴展性的主要驅動力。
  • 必須保留開放式任務,以維持模型在強化學習過程中的視覺對話能力。
  • 透過簡單的權重平衡,即可避免災難性的效能溢出,無需複雜的干預手段。

開源生態與工具
Vero 提供了完整的技術堆疊,支援研究人員重現並擴展其研究成果:

  • Vero-600k 資料集:包含 60 萬筆經過篩選的強化學習樣本。
  • VeroEval:一套包含 30 項挑戰性基準的評測套件。
  • 程式碼庫:包含完整的訓練框架 (vero-rl) 與評測工具 (vero-eval),支援多種基礎模型(如 Qwen3.5、Qwen2.5-VL、MiMo-VL 等)。
  • 獎勵機制:開源了執行時期的獎勵堆疊,包含基於規則的獎勵與 LLM 判斷器 (LLM-judge),確保訓練過程的精確性。