# 策展 · X (Twitter) 🔥

> 作者：Magnus Müller (@mamagnus00) · 平台：X (Twitter) · 日期：2026-03-26

> 原始來源：https://x.com/mamagnus00/status/2036895484300976201

## 中文摘要

# 我們如何透過 Karpathy 的 Auto-Research 打造出最佳瀏覽器 Agent

## 瀏覽器 Agent 的 Auto-Research 運作方式

我們提供 Claude Code 一個連接到我們評估平台的 CLI，以及一個在迴圈中執行的 Prompt：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774502548095-iaHER9k85bYAMpx9wjpg.jpg)

無需協調程式碼。每個 Claude Code 會話都會獲得一個目標，並自行執行 20 個週期。透過這個評估基礎設施，我們讓它們平行執行，並在所有可能的最佳 Agent 空間中獲得一個搜尋樹。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774502548074-iaHER9rB5bYAETlPDjpg.jpg)

我們不關心表現不佳的 Agent。我們只關心獲得最佳 Agent。因此，我們告訴程式撰寫 Agent 要大膽嘗試，避免小幅修改，因為微小的調整會被執行間的差異所掩蓋。

## 迴圈的核心：偵錯 CLI

一個追蹤可能包含數百萬個 token。這就是為什麼我們將 CLI 設計成 3 個層級，讓 Agent 能夠盡可能快速地找到根本原因。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774502548088-iaHER9x96bYAISKfTjpg.jpg)

TSV 相較於 JSON，為我們的資料結構節省了 40% 的 token。微小的格式選擇可能決定 Agent 偵錯的成敗。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774502548126-iaHER91cxbYAQgxvbjpg.jpg)

## 工具

平行的 Claude Code 會話在 Superset 中執行。評估則在 GitHub Action Runners 中執行，使用實驗的 git branch 和我們的隱形瀏覽器基礎設施。為了可觀察性，我們使用 Laminar 搭配 Agent SDK 作為判斷器。

## 最大的改進

Claude Code 將我們的瀏覽器 Agent 框架更新為一個程式撰寫 Agent。它不僅僅是點擊和輸入等工具，還加入了 Python 來解析 HTML 和提取資料。這與 LLM 的訓練分佈更加吻合，並顯著簡化了邊緣案例和資料提取。

其餘的：透過迴圈修復數百個邊緣案例。

## 基準測試

Online-Mind2Web 是最廣泛報導的瀏覽器 Agent 基準測試。它包含 136 個真實網站上的 300 個任務——涵蓋購物、金融、旅遊、政府等。每個網路 Agent 都會在此基準上進行測試。

## 判斷器很重要

原始的判斷器是基於螢幕截圖的。但現在瀏覽器 Agent 會撰寫程式碼、呼叫 API 並提取數千個項目。對於傳統判斷器來說，這就是幻覺。如果你的 Agent 能力提升，你需要一個 Agent 判斷器。

我們基於 Claude Agent SDK 建立了一個 Agent 判斷器。我們將其與人類判斷器對齊，這是使 Auto-Research 迴圈運作的關鍵。

## 我們是否過度擬合？

Auto-Research 迴圈的自然傾向是針對單一任務過度擬合。你需要努力提示研究系統以實現泛化。我大部分時間在合併週期時，都在拒絕那些過度擬合的特定任務解決方案。

我們使用訓練/驗證資料分割。迴圈只會看到訓練資料。然後我們在它從未見過的舊資料集上執行，並看到全面性的分數改進。

## 未移除任何任務

許多公司在報告分數之前會移除他們認為不可能完成的任務。我們使用了所有 300 個任務。我們少數的失敗來自於無法使用的網站、模糊的 Prompt，或自基準測試建立以來已更改的網站。

## 排行榜

Auto-Research 方法使基準測試達到最高分：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774502548086-ediaHERlOCbYAId8Njpg.jpg)

## 重新執行我們的結果很簡單

複製 github.com/browser-use/online-mind2web，設定你的 Browser Use API key，然後執行。

我們也上傳了 Prompt、結果和判斷。

## 我們需要更困難的基準測試

我們正在建立一個包含使用者實際關心的一切的基準測試。目前，基準測試忽略了諸如：「從子頁面中提取 1000 個產品並跨平台比較它們」這類任務，因為過去無法想像單一瀏覽器 Agent 能夠做到這一點。

敬請期待。

原始貼文

親自試用最佳網路 Agent

## 標籤

Claude Code, CLI, Agent, 教學資源, Anthropic