# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Ai2 (@allen_ai) · 平台：X (Twitter) · 日期：2026-04-10

> 原始來源：https://x.com/allen_ai/status/2042618879650725996

## 中文摘要

Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料。

Ai2 推出 MolmoWeb，這是一套完全開源的多模態網頁 Agent，旨在打破當前頂尖網頁 Agent 多為封閉模型的現狀，提供從訓練程式碼到評估工具的完整生態，以推動社群的科學理解與技術進步。

**核心理念與技術架構**
Ai2 對當前網頁 Agent 領域過度依賴封閉模型表示擔憂，認為這限制了科學理解、可重現性與社群驅動的創新。MolmoWeb 採取「視覺導向」策略，作為指令條件下的視覺語言行動策略，Agent 僅透過觀察螢幕截圖來執行點擊、輸入與捲動等動作，完全不依賴 HTML、無障礙樹 (accessibility tree) 或特殊 API。這種設計讓 Agent 能以更接近人類的方式與網頁互動。

**開源生態與訓練資料**
此次釋出的「MolmoWebMix」包含超過 10 萬筆合成任務軌跡與 3 萬多筆人類示範資料，涵蓋網頁 GUI 感知、參考表達接地 (grounding) 及螢幕截圖問答。Ai2 同步開源了完整的開發工具鏈，包含：
- 訓練程式碼：支援針對特定任務客製化 MolmoWeb。
- 評估工具 (eval harness)：用於在 WebVoyager 與 Online-Mind2Web 等基準測試上評估 Agent。
- 標註工具：允許使用者記錄人類任務示範，並用於微調 Agent。
- 合成資料生成管道：可利用基於 LLM/VLM 的 Agent 產生網頁瀏覽資料。
- 演示程式碼：提供客戶端介面，讓使用者能即時觀察 Agent 的網頁導航過程。

**效能表現與評估**
MolmoWeb 提供 4B 與 8B 兩種參數規模。在 WebVoyager、Online-Mind2Web 與 DeepShop 等基準測試中，其表現超越了同量級的開源模型（如 Fara-7B、UI-Tars-1.5-7B 與 Holo1-7B）。值得注意的是，MolmoWeb-8B 在特定測試中甚至超越了基於 GPT-4o 等大型封閉模型的 Set-of-Marks (SoM) Agent。透過測試時擴展 (test-time scaling) 與最佳化選擇，其在 WebVoyager 與 Online-Mind2Web 的 pass@4 成功率分別達到 94.7% 與 60.5%。

**實際應用與開發指引**
開發者可利用提供的程式庫進行客製化訓練或評估。系統支援多種推理後端，並提供統一的評估框架，允許使用者透過簡單的指令執行 End to End (端到端) 的網頁自動化任務。Ai2 特別提醒，若先前已下載過 HuggingFace 上的資料集，請務必重新下載，因為資料集已進行更新。

## 標籤

Agent, 開源專案, VLM, Ai2, MolmoWeb
