我們如何透過 Karpathy 的 Auto-Research 打造出最佳瀏覽器 Agent
瀏覽器 Agent 的 Auto-Research 運作方式
我們提供 Claude Code 一個連接到我們評估平台的 CLI,以及一個在迴圈中執行的 Prompt:

無需協調程式碼。每個 Claude Code 會話都會獲得一個目標,並自行執行 20 個週期。透過這個評估基礎設施,我們讓它們平行執行,並在所有可能的最佳 Agent 空間中獲得一個搜尋樹。

我們不關心表現不佳的 Agent。我們只關心獲得最佳 Agent。因此,我們告訴程式撰寫 Agent 要大膽嘗試,避免小幅修改,因為微小的調整會被執行間的差異所掩蓋。
迴圈的核心:偵錯 CLI
一個追蹤可能包含數百萬個 token。這就是為什麼我們將 CLI 設計成 3 個層級,讓 Agent 能夠盡可能快速地找到根本原因。

TSV 相較於 JSON,為我們的資料結構節省了 40% 的 token。微小的格式選擇可能決定 Agent 偵錯的成敗。

工具
平行的 Claude Code 會話在 Superset 中執行。評估則在 GitHub Action Runners 中執行,使用實驗的 git branch 和我們的隱形瀏覽器基礎設施。為了可觀察性,我們使用 Laminar 搭配 Agent SDK 作為判斷器。
最大的改進
Claude Code 將我們的瀏覽器 Agent 框架更新為一個程式撰寫 Agent。它不僅僅是點擊和輸入等工具,還加入了 Python 來解析 HTML 和提取資料。這與 LLM 的訓練分佈更加吻合,並顯著簡化了邊緣案例和資料提取。
其餘的:透過迴圈修復數百個邊緣案例。
基準測試
Online-Mind2Web 是最廣泛報導的瀏覽器 Agent 基準測試。它包含 136 個真實網站上的 300 個任務——涵蓋購物、金融、旅遊、政府等。每個網路 Agent 都會在此基準上進行測試。
判斷器很重要
原始的判斷器是基於螢幕截圖的。但現在瀏覽器 Agent 會撰寫程式碼、呼叫 API 並提取數千個項目。對於傳統判斷器來說,這就是幻覺。如果你的 Agent 能力提升,你需要一個 Agent 判斷器。
我們基於 Claude Agent SDK 建立了一個 Agent 判斷器。我們將其與人類判斷器對齊,這是使 Auto-Research 迴圈運作的關鍵。
我們是否過度擬合?
Auto-Research 迴圈的自然傾向是針對單一任務過度擬合。你需要努力提示研究系統以實現泛化。我大部分時間在合併週期時,都在拒絕那些過度擬合的特定任務解決方案。
我們使用訓練/驗證資料分割。迴圈只會看到訓練資料。然後我們在它從未見過的舊資料集上執行,並看到全面性的分數改進。
未移除任何任務
許多公司在報告分數之前會移除他們認為不可能完成的任務。我們使用了所有 300 個任務。我們少數的失敗來自於無法使用的網站、模糊的 Prompt,或自基準測試建立以來已更改的網站。
排行榜
Auto-Research 方法使基準測試達到最高分:

重新執行我們的結果很簡單
複製 github.com/browser-use/online-mind2web,設定你的 Browser Use API key,然後執行。
我們也上傳了 Prompt、結果和判斷。
我們需要更困難的基準測試
我們正在建立一個包含使用者實際關心的一切的基準測試。目前,基準測試忽略了諸如:「從子頁面中提取 1000 個產品並跨平台比較它們」這類任務,因為過去無法想像單一瀏覽器 Agent 能夠做到這一點。
敬請期待。
原始貼文
親自試用最佳網路 Agent
