Vero:用於視覺推理的開源強化學習配方
Vero:用於視覺推理的開源強化學習配方。
Vero 是一套針對視覺語言模型 (VLM) 的全開源強化學習 (RL) 訓練配方,旨在解決跨領域視覺推理任務,並透過大規模資料與任務路由獎勵機制,實現了超越現有模型的效能。
核心挑戰與解決方案
現有的視覺推理模型往往受限於封閉的強化學習流程與非公開資料,導致技術發展成為黑箱。Vero 透過建立一套全開源的訓練配方,整合了來自 59 個資料集的 60 萬筆高品質強化學習資料 (Vero-600k),涵蓋 6 大類任務,打破了過去技術黑箱的限制。該專案不僅提供模型權重,還公開了完整的訓練與評測框架,支援研究人員進行後續開發。
效能表現與評測
Vero 在 30 項基準測試中展現了領先的效能,超越了四種基礎模型,並在特定測試中擊敗了 Qwen3-VL-8B-Thinking。關鍵數據如下:
- 在 30 項基準測試中,平均提升幅度顯著。
- 以 Qwen3-VL-8B-Instruct 為基礎,整體平均分從 60.7 提升至 66.0。
- 針對不同領域的提升:圖表與 OCR (+8.5)、STEM (+6.4)、空間與行動 (+3.7)、基礎與計數 (+5.3) 等。
- 即使從相同的基礎模型訓練,Vero-600k 的表現也優於現有的強化學習資料集。
技術洞察與方法論
研究團隊發現,單一任務的強化學習往往會導致跨領域能力的退化,而 Vero 透過任務路由獎勵 (Task-routed rewards) 與廣泛的資料覆蓋,有效解決了多任務干擾問題。核心發現包括:
- 不同任務類別會引發截然不同的推理風格:STEM 任務需要反思與回溯,而空間任務則依賴感知掃描,圖表任務則需要系統性的區域合成。
- 廣泛的資料覆蓋是實現強大強化學習擴展性的主要驅動力。
- 必須保留開放式任務,以維持模型在強化學習過程中的視覺對話能力。
- 透過簡單的權重平衡,即可避免災難性的效能溢出,無需複雜的干預手段。
開源生態與工具
Vero 提供了完整的技術堆疊,支援研究人員重現並擴展其研究成果:
- Vero-600k 資料集:包含 60 萬筆經過篩選的強化學習樣本。
- VeroEval:一套包含 30 項挑戰性基準的評測套件。
- 程式碼庫:包含完整的訓練框架 (vero-rl) 與評測工具 (vero-eval),支援多種基礎模型(如 Qwen3.5、Qwen2.5-VL、MiMo-VL 等)。
- 獎勵機制:開源了執行時期的獎勵堆疊,包含基於規則的獎勵與 LLM 判斷器 (LLM-judge),確保訓練過程的精確性。
Introducing Vero, the strongest fully open RL recipe for training next-generation visual reasoners.
— Gabriel Sarch (@GabrielSarch) April 7, 2026
From charts to spatial to open-ended tasks, Vero sets a new bar.
• sota 8B VLM across 30 benchmarks
• +4.4 avg over four base models (30 evals)
• beats prior RL datasets
🧵👇 pic.twitter.com/60S5LWIVBm
Most open visual reasoners focus on RL for one task category like math.
— Gabriel Sarch (@GabrielSarch) April 7, 2026
We asked: What if we just scaled high quality data coverage across tasks?
We curate Vero-600k, a high-quality RL dataset from 59 datasets spanning 6 broad task categories, and train w/ task-routed rewards. pic.twitter.com/dLEOtSGO4E
We also introduce VeroEval, a suite of 30 challenging benchmarks spanning diverse visual capabilities.
— Gabriel Sarch (@GabrielSarch) April 7, 2026
Across 30 benchmarks, Vero improves over previous RL datasets and four base models, and beats Qwen3-VL-8B-Thinking, even when starting from the Instruct model. pic.twitter.com/N14d7aMPtI
What drives the broad improvements?
— Gabriel Sarch (@GabrielSarch) April 7, 2026
RL on a single category often hurts or weakens transfer to other categories.
But a simple equal weighting across our 6 task categories minimizes interference and improves tasks broadly. No complex interventions needed, just broad data! pic.twitter.com/9w80uIU5EZ
Why is multi-task visual RL so tricky?
— Gabriel Sarch (@GabrielSarch) April 7, 2026
We find that each domain amplifies distinct reasoning strategies, lengths, and CoT “skills”: chart QA needs numeric extraction and comparison, while grounding needs spatial scanning and binding. The policy has to learn all of these at once. pic.twitter.com/NpwKfyQT7U
We provide lots of additional ablations and insights in the paper such as 1) open-ended tasks is necessary to preserve and improve visual chat ability during RL, 2) RL beats SFT on our dataset, 3) some tips to mitigate observed reward hacking.
— Gabriel Sarch (@GabrielSarch) April 7, 2026
Vero wouldn’t be possible without the team: co-lead @CaiLinrong, @HaoyangWuX, @qunzhongwang, and PIs @liuzhuang1234 and @danqi_chen.
— Gabriel Sarch (@GabrielSarch) April 7, 2026
Everything is public to support further research on broadly-capable VLMs and multi-task visual RL!
Paper: https://t.co/zcXvqasIah
— Gabriel Sarch (@GabrielSarch) April 7, 2026
Project page (w/ demos): https://t.co/ZCOj4YLLNi
Code: https://t.co/OucJdJewuj
Data: https://t.co/4a2WOhscIa
Models: https://t.co/qQxHUaRi0p
