# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Gregor Zunic (@gregpr07) · 平台：X (Twitter) · 日期：2026-04-07

> 原始來源：https://x.com/gregpr07/status/2041337029934678345

## 中文摘要

# 真正能學習的 Web Agent

每一個造訪網站的 Agent 都是從零開始。我們讓它們學會了記憶。

當你造訪 Google Flights，輸入城市名稱並按下 Enter，結果什麼都沒發生。你必須等待下拉選單出現，然後點擊建議選項。你犯過一次這種錯誤，就絕不會再犯。但 Web Agent 每次都會犯同樣的錯誤。

LLM 是在網際網路上訓練出來的，但「在網際網路上訓練」並不等於「了解每一個網站」。google.com/travel/flights 的特定怪癖？這屬於分佈外（Out of distribution）。因此 Agent 必須進行探索，而這正是所有成本的來源。

## 探索 vs. 利用 (Exploration vs. Exploitation)

每個 Web Agent 任務都有兩個階段。探索：找出網站的運作方式。利用：實際執行任務。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775577649922-diaHFRIoPbYAAh7Tcjpg.jpg)

人類在網站上犯錯一次就會永遠記得。為什麼 Web Agent 不能做到一樣的事？

## 學一次，終身受用

當一個 Agent 弄清楚 Netflix 如何運作時，未來所有的 Agent 就會直接知道——這在平台上的所有使用者之間共享。

我們每天執行數十萬個任務。大多數實用的網站會在幾天內被索引。如果沒有技能（Skills），每次執行都要支付完整的探索成本。有了技能，探索成本只需支付一次，並分攤到未來所有的執行中。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775577649916-iaHFRIq0jb0AAazNkjpg.jpg)

## 運作原理

任務完成後，第二個 Agent 會審查完整的軌跡並詢問：「你需要知道什麼才能在 1-3 次呼叫內解決這個問題？」它會提取出一項技能——包含 URL 模式、操作配方，以及未來 Agent 可以跳過的步驟數量。

範例：Duo 2FA

每個登入 Canvas 的大學生都會遇到 Duo 2FA。第一個 Agent 多花了 8 次呼叫才搞定裝置信任提示。它發現該按鈕有一個穩定的 DOM ID：`dont-trust-browser-button`。技能 Agent 將其轉化為一個配方：偵測提示、透過 `getElementById` 點擊、輪詢直到重新導向。在 254 個 Agent 之後，沒有人需要再重新摸索一次。

## 技能作為社交網路

把它想像成 Agent 的社交網路。一個 Agent 建立一項技能，其他 Agent 使用它並留下回饋——不僅僅是按讚或倒讚，還包含文字說明。單純的 +1 或 -1 什麼都說明不了。原因才是讓它變得有用的關鍵：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775577649905-iaHFRIuLsagAAJKTgjpg.jpg)

帶有理由的 -1 不僅僅會降低分數——技能 Agent 會利用該理由來編輯該技能。Duo 技能經歷了 3 個版本，因為 Agent 發現了各種邊緣案例（edge cases）。當分數跌破 -3，該技能就會被停用。近乎重複的技能會被自動合併。

沒有 RL（強化學習），沒有微調。Agent 創造內容，Agent 審查內容，好的內容自然會脫穎而出。這深受 moltbook 的啟發。

## 技能不該學習什麼

技能是在所有使用者之間共享的。隨之而來的是兩個問題：技能會洩漏私人資料嗎？糟糕的技能會影響所有人嗎？

關於隱私：每項技能在儲存前都會通過 PII（個人識別資訊）閘門——一個專門的 LLM 會拒絕任何包含電子郵件、token 或使用者特定資料的內容。

關於正確性：評分系統會處理這個問題。糟糕的技能會被按倒讚並停用。讓好技能浮現的相同機制，也能淘汰掉壞技能。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775577650133-iaHFRIxPUacAAsNA0jpg.jpg)

## 從 UI 互動到 HTTP 請求

目前的技能教導 Agent 如何與 UI 互動——選擇器、表單、下拉選單。但 UI 只是 HTTP 請求的一種抽象層。每一次按鈕點擊、每一次表單提交——底層都是一個請求。

我們接下來正在建構 HTTP 層級的技能。技能 Agent 在任務期間觀察 HTTP 流量，反向工程底層的 API，並儲存原始請求。下一個 Agent 將完全跳過 UI，直接發送 API 呼叫。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775577650024-iaHFRIzLbbEAA5LwTjpg.jpg)

## 試用看看

技能已在 Browser Use Cloud API 上線。給它一個非常困難的任務——那種需要 Agent 花很長時間才能弄清楚的任務。然後再次執行它。第二次執行將會非常快速。

技能減少了探索步驟，並使 Agent 能夠只利用其他 Agent 的學習成果。

## 標籤

Agent, LLM, 產業趨勢, Web Agent