← 返回首頁

Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料

Ai2
Ai2
@allen_ai
107🔁 15
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料。

Ai2 推出 MolmoWeb,這是一套完全開源的多模態網頁 Agent,旨在打破當前頂尖網頁 Agent 多為封閉模型的現狀,提供從訓練程式碼到評估工具的完整生態,以推動社群的科學理解與技術進步。

核心理念與技術架構
Ai2 對當前網頁 Agent 領域過度依賴封閉模型表示擔憂,認為這限制了科學理解、可重現性與社群驅動的創新。MolmoWeb 採取「視覺導向」策略,作為指令條件下的視覺語言行動策略,Agent 僅透過觀察螢幕截圖來執行點擊、輸入與捲動等動作,完全不依賴 HTML、無障礙樹 (accessibility tree) 或特殊 API。這種設計讓 Agent 能以更接近人類的方式與網頁互動。

開源生態與訓練資料
此次釋出的「MolmoWebMix」包含超過 10 萬筆合成任務軌跡與 3 萬多筆人類示範資料,涵蓋網頁 GUI 感知、參考表達接地 (grounding) 及螢幕截圖問答。Ai2 同步開源了完整的開發工具鏈,包含:

  • 訓練程式碼:支援針對特定任務客製化 MolmoWeb。
  • 評估工具 (eval harness):用於在 WebVoyager 與 Online-Mind2Web 等基準測試上評估 Agent。
  • 標註工具:允許使用者記錄人類任務示範,並用於微調 Agent。
  • 合成資料生成管道:可利用基於 LLM/VLM 的 Agent 產生網頁瀏覽資料。
  • 演示程式碼:提供客戶端介面,讓使用者能即時觀察 Agent 的網頁導航過程。

效能表現與評估
MolmoWeb 提供 4B 與 8B 兩種參數規模。在 WebVoyager、Online-Mind2Web 與 DeepShop 等基準測試中,其表現超越了同量級的開源模型(如 Fara-7B、UI-Tars-1.5-7B 與 Holo1-7B)。值得注意的是,MolmoWeb-8B 在特定測試中甚至超越了基於 GPT-4o 等大型封閉模型的 Set-of-Marks (SoM) Agent。透過測試時擴展 (test-time scaling) 與最佳化選擇,其在 WebVoyager 與 Online-Mind2Web 的 pass@4 成功率分別達到 94.7% 與 60.5%。

實際應用與開發指引
開發者可利用提供的程式庫進行客製化訓練或評估。系統支援多種推理後端,並提供統一的評估框架,允許使用者透過簡單的指令執行 End to End (端到端) 的網頁自動化任務。Ai2 特別提醒,若先前已下載過 HuggingFace 上的資料集,請務必重新下載,因為資料集已進行更新。