Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料
AI 語音朗讀 · Edge TTS
Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料。
Ai2 推出 MolmoWeb,這是一套完全開源的多模態網頁 Agent,旨在打破當前頂尖網頁 Agent 多為封閉模型的現狀,提供從訓練程式碼到評估工具的完整生態,以推動社群的科學理解與技術進步。
核心理念與技術架構
Ai2 對當前網頁 Agent 領域過度依賴封閉模型表示擔憂,認為這限制了科學理解、可重現性與社群驅動的創新。MolmoWeb 採取「視覺導向」策略,作為指令條件下的視覺語言行動策略,Agent 僅透過觀察螢幕截圖來執行點擊、輸入與捲動等動作,完全不依賴 HTML、無障礙樹 (accessibility tree) 或特殊 API。這種設計讓 Agent 能以更接近人類的方式與網頁互動。
開源生態與訓練資料
此次釋出的「MolmoWebMix」包含超過 10 萬筆合成任務軌跡與 3 萬多筆人類示範資料,涵蓋網頁 GUI 感知、參考表達接地 (grounding) 及螢幕截圖問答。Ai2 同步開源了完整的開發工具鏈,包含:
- 訓練程式碼:支援針對特定任務客製化 MolmoWeb。
- 評估工具 (eval harness):用於在 WebVoyager 與 Online-Mind2Web 等基準測試上評估 Agent。
- 標註工具:允許使用者記錄人類任務示範,並用於微調 Agent。
- 合成資料生成管道:可利用基於 LLM/VLM 的 Agent 產生網頁瀏覽資料。
- 演示程式碼:提供客戶端介面,讓使用者能即時觀察 Agent 的網頁導航過程。
效能表現與評估
MolmoWeb 提供 4B 與 8B 兩種參數規模。在 WebVoyager、Online-Mind2Web 與 DeepShop 等基準測試中,其表現超越了同量級的開源模型(如 Fara-7B、UI-Tars-1.5-7B 與 Holo1-7B)。值得注意的是,MolmoWeb-8B 在特定測試中甚至超越了基於 GPT-4o 等大型封閉模型的 Set-of-Marks (SoM) Agent。透過測試時擴展 (test-time scaling) 與最佳化選擇,其在 WebVoyager 與 Online-Mind2Web 的 pass@4 成功率分別達到 94.7% 與 60.5%。
實際應用與開發指引
開發者可利用提供的程式庫進行客製化訓練或評估。系統支援多種推理後端,並提供統一的評估框架,允許使用者透過簡單的指令執行 End to End (端到端) 的網頁自動化任務。Ai2 特別提醒,若先前已下載過 HuggingFace 上的資料集,請務必重新下載,因為資料集已進行更新。
You can now train, adapt, and eval web agents on your own tasks.
— Ai2 (@allen_ai) April 10, 2026
We're releasing the full MolmoWeb codebase—the training code, eval harness, annotation tooling, synthetic data pipeline, & client-side code for our demo. 🧵 pic.twitter.com/yMGRuzbeXQ
MolmoWeb is our open web agent built on Molmo 2. It operates a browser by viewing screenshots and taking action – clicking, typing, and scrolling – the same way a person would.
— Ai2 (@allen_ai) April 10, 2026
We launched the model in March. Now we're releasing the rest of the components we used to build it.
🔹 Our training code has everything you need to customize MolmoWeb for specific tasks.
— Ai2 (@allen_ai) April 10, 2026
🔹 The new annotation tool lets you record human task demonstrations, then use the training code to fine-tune MolmoWeb on that data.
▸ Our eval harness lets you evaluate agents like MolmoWeb on popular navigation benchmarks including WebVoyager & Online-Mind2Web.
— Ai2 (@allen_ai) April 10, 2026
▸ It also doubles as a synth data gen pipeline—you can generate web browsing data using LLM-/VLM-powered agents w/ AxTree/screenshot input.
We're also releasing the client-side code for our MolmoWeb demo—so you can see how we built the interface that lets you give MolmoWeb a task and watch it navigate websites in real time.
— Ai2 (@allen_ai) April 10, 2026
Use it as a starting point for your own web agent UI ↓ https://t.co/0kF7NQk8ro
🔧 The training code, eval harness, annotation tooling, & demo code are now live: https://t.co/dn9I1L6BuL
— Ai2 (@allen_ai) April 10, 2026
📄 And our technical report is on arXiv: https://t.co/mGzMJzcOAQ
⚠️ Previously downloaded our @huggingface data? Please redownload—the datasets have been updated.
