# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Gabriel Sarch (@GabrielSarch) · 平台：X (Twitter) · 日期：2026-04-08

> 原始來源：https://x.com/GabrielSarch/status/2041528435919511877

## 中文摘要

Vero：用於視覺推理的開源強化學習配方。

Vero 是一套針對視覺語言模型 (VLM) 的全開源強化學習 (RL) 訓練配方，旨在解決跨領域視覺推理任務，並透過大規模資料與任務路由獎勵機制，實現了超越現有模型的效能。

**核心挑戰與解決方案**
現有的視覺推理模型往往受限於封閉的強化學習流程與非公開資料，導致技術發展成為黑箱。Vero 透過建立一套全開源的訓練配方，整合了來自 59 個資料集的 60 萬筆高品質強化學習資料 (Vero-600k)，涵蓋 6 大類任務，打破了過去技術黑箱的限制。該專案不僅提供模型權重，還公開了完整的訓練與評測框架，支援研究人員進行後續開發。

**效能表現與評測**
Vero 在 30 項基準測試中展現了領先的效能，超越了四種基礎模型，並在特定測試中擊敗了 Qwen3-VL-8B-Thinking。關鍵數據如下：
- 在 30 項基準測試中，平均提升幅度顯著。
- 以 Qwen3-VL-8B-Instruct 為基礎，整體平均分從 60.7 提升至 66.0。
- 針對不同領域的提升：圖表與 OCR (+8.5)、STEM (+6.4)、空間與行動 (+3.7)、基礎與計數 (+5.3) 等。
- 即使從相同的基礎模型訓練，Vero-600k 的表現也優於現有的強化學習資料集。

**技術洞察與方法論**
研究團隊發現，單一任務的強化學習往往會導致跨領域能力的退化，而 Vero 透過任務路由獎勵 (Task-routed rewards) 與廣泛的資料覆蓋，有效解決了多任務干擾問題。核心發現包括：
- 不同任務類別會引發截然不同的推理風格：STEM 任務需要反思與回溯，而空間任務則依賴感知掃描，圖表任務則需要系統性的區域合成。
- 廣泛的資料覆蓋是實現強大強化學習擴展性的主要驅動力。
- 必須保留開放式任務，以維持模型在強化學習過程中的視覺對話能力。
- 透過簡單的權重平衡，即可避免災難性的效能溢出，無需複雜的干預手段。

**開源生態與工具**
Vero 提供了完整的技術堆疊，支援研究人員重現並擴展其研究成果：
- Vero-600k 資料集：包含 60 萬筆經過篩選的強化學習樣本。
- VeroEval：一套包含 30 項挑戰性基準的評測套件。
- 程式碼庫：包含完整的訓練框架 (vero-rl) 與評測工具 (vero-eval)，支援多種基礎模型（如 Qwen3.5、Qwen2.5-VL、MiMo-VL 等）。
- 獎勵機制：開源了執行時期的獎勵堆疊，包含基於規則的獎勵與 LLM 判斷器 (LLM-judge)，確保訓練過程的精確性。

## 標籤

VLM, 開源專案, 研究論文, Vero
