真正能學習的 Web Agent
真正能學習的 Web Agent
每一個造訪網站的 Agent 都是從零開始。我們讓它們學會了記憶。
當你造訪 Google Flights,輸入城市名稱並按下 Enter,結果什麼都沒發生。你必須等待下拉選單出現,然後點擊建議選項。你犯過一次這種錯誤,就絕不會再犯。但 Web Agent 每次都會犯同樣的錯誤。
LLM 是在網際網路上訓練出來的,但「在網際網路上訓練」並不等於「了解每一個網站」。google.com/travel/flights 的特定怪癖?這屬於分佈外(Out of distribution)。因此 Agent 必須進行探索,而這正是所有成本的來源。
探索 vs. 利用 (Exploration vs. Exploitation)
每個 Web Agent 任務都有兩個階段。探索:找出網站的運作方式。利用:實際執行任務。

人類在網站上犯錯一次就會永遠記得。為什麼 Web Agent 不能做到一樣的事?
學一次,終身受用
當一個 Agent 弄清楚 Netflix 如何運作時,未來所有的 Agent 就會直接知道——這在平台上的所有使用者之間共享。
我們每天執行數十萬個任務。大多數實用的網站會在幾天內被索引。如果沒有技能(Skills),每次執行都要支付完整的探索成本。有了技能,探索成本只需支付一次,並分攤到未來所有的執行中。

運作原理
任務完成後,第二個 Agent 會審查完整的軌跡並詢問:「你需要知道什麼才能在 1-3 次呼叫內解決這個問題?」它會提取出一項技能——包含 URL 模式、操作配方,以及未來 Agent 可以跳過的步驟數量。
範例:Duo 2FA
每個登入 Canvas 的大學生都會遇到 Duo 2FA。第一個 Agent 多花了 8 次呼叫才搞定裝置信任提示。它發現該按鈕有一個穩定的 DOM ID:dont-trust-browser-button。技能 Agent 將其轉化為一個配方:偵測提示、透過 getElementById 點擊、輪詢直到重新導向。在 254 個 Agent 之後,沒有人需要再重新摸索一次。
技能作為社交網路
把它想像成 Agent 的社交網路。一個 Agent 建立一項技能,其他 Agent 使用它並留下回饋——不僅僅是按讚或倒讚,還包含文字說明。單純的 +1 或 -1 什麼都說明不了。原因才是讓它變得有用的關鍵:

帶有理由的 -1 不僅僅會降低分數——技能 Agent 會利用該理由來編輯該技能。Duo 技能經歷了 3 個版本,因為 Agent 發現了各種邊緣案例(edge cases)。當分數跌破 -3,該技能就會被停用。近乎重複的技能會被自動合併。
沒有 RL(強化學習),沒有微調。Agent 創造內容,Agent 審查內容,好的內容自然會脫穎而出。這深受 moltbook 的啟發。
技能不該學習什麼
技能是在所有使用者之間共享的。隨之而來的是兩個問題:技能會洩漏私人資料嗎?糟糕的技能會影響所有人嗎?
關於隱私:每項技能在儲存前都會通過 PII(個人識別資訊)閘門——一個專門的 LLM 會拒絕任何包含電子郵件、token 或使用者特定資料的內容。
關於正確性:評分系統會處理這個問題。糟糕的技能會被按倒讚並停用。讓好技能浮現的相同機制,也能淘汰掉壞技能。

從 UI 互動到 HTTP 請求
目前的技能教導 Agent 如何與 UI 互動——選擇器、表單、下拉選單。但 UI 只是 HTTP 請求的一種抽象層。每一次按鈕點擊、每一次表單提交——底層都是一個請求。
我們接下來正在建構 HTTP 層級的技能。技能 Agent 在任務期間觀察 HTTP 流量,反向工程底層的 API,並儲存原始請求。下一個 Agent 將完全跳過 UI,直接發送 API 呼叫。

試用看看
技能已在 Browser Use Cloud API 上線。給它一個非常困難的任務——那種需要 Agent 花很長時間才能弄清楚的任務。然後再次執行它。第二次執行將會非常快速。
技能減少了探索步驟,並使 Agent 能夠只利用其他 Agent 的學習成果。
