# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：GSD (@gsd_foundation) · 平台：X (Twitter) · 日期：2026-03-31

> 原始來源：https://x.com/gsd_foundation/status/2038645935891255751

## 中文摘要

AI Agent 在瀏覽器自動化上表現不佳，根本原因在於現有工具設計不當。Playwright 原本就不是為 Agent 打造的，而 Browser MCP Server 則只是半成品的封裝。開發者指出，既有工具要麼需要完整的 Node.js 執行環境，要麼要求撰寫指令碼才能完成基本任務，要麼乾脆只提供 5 個指令就宣告完成。這些限制促使開發者從零開始，打造 gsd-browser—一款從一開始就為 Agent 設計的工具。

**輕量化的部署體驗**

gsd-browser 是單一二進位檔案，無需 node_modules、瀏覽器驅動下載或 Python 環境。使用者只需執行安裝指令碼，它會自動下載二進位檔和 Chromium，30 秒內即可開始使用。這種「curl 即用」的設計理念源自開發者對即時可用性的需求：一鍵部署到任何機器，立刻開始執行指令。

**為 Agent 量身打造的核心特性**

- 每條指令都支援 `--json` 輸出格式，方便 Agent 直接消費結構化資料
- **Snapshot 版本化參考**：`snapshot` 指令為頁面元素分配版本化的 element refs（如 `@v1:e1`），讓 Agent 能確定性地與頁面互動，無需猜測 CSS 選取器
- **語義意圖**：內建 15 個語義動作（semantic intents），如 `act login` 或 `act accept-cookies`，Agent 毋需尋找特定的 CSS 選取器，系統自動解析正確的元素
- 這些設計確保 Agent 可以以確定性、可重複的方式控制瀏覽器，避免脆弱的選取器-based 自動化

**完整的功能集**

gsd-browser 提供 63 個頂層指令，涵蓋廣泛的使用場景：
- **導航與頁面控制**：`navigate`、`back`、`forward`、`reload`、頁面與 iframe 管理
- **互動**：`click`、`type`、`press`、`hover`、`scroll`、`drag` 等標準操作，以及表單填充與選項選擇
- **檢查與提取**：Accessibility tree、`find`、頁面原始碼、結構化資料提取
- **視覺與迴歸**：螢幕截圖、PDF 儲存、視覺差異比對（visual diffing）
- **網路控制與記錄**：路由模擬、URL 阻擋、HAR 匯出、CDP tracing、測試程式碼生成
- **安全與認證**：加密認證保管庫（auth vault）、Prompt injection 掃描
- **診斷與狀態**：Timeline 記錄、會話摘要、除錯套件

該工具明確不是玩具，而是一套完整的瀏覽器自動化系統。

**高效的常駐 daemon 架構**

gsd-browser 以常駐 daemon 程式的方式運作，與 Chrome 保持持久的 Chrome DevTools Protocol (CDP) 連線。指令透過本機 IPC 傳輸，因此沒有冷啟動延遲：首次執行指令會啟動 daemon，之後所有指令都是即時的。這種設計特別適合 Agent 反覆執行多個步驟的場景，避免了逐次啟動瀏覽器的開銷。

**設定與彈性**

gsd-browser 支援多層設定堆疊：內建預設值、使用者配置檔（`~/.gsd-browser/config.toml`）、專案配置檔（`./gsd-browser.toml`）、環境變數（`GSD_BROWSER_*`），以及 CLI 旗標。使用者可自訂瀏覽器路徑、headless 模式、daemon 連接埠、截圖品質、timeout 行為、artifact 目錄等參數。此外，`--session <name>` 旗標允許隔離的 daemon 與瀏覽器實例，支援並行 workflow。

**Agent 工作流建議**

文件明確針對 AI Agent 使用者提供最佳實踐指南：
- daemon 自動啟動，通常無需手動操作
- 當需要結構化輸出時使用 `--json`
- 優先採用「snapshot 後 click-ref 或 fill-ref」的穩定互動模式，頁面變化後重新 snapshot
- 使用 `assert` 與 `batch` 進行確定性的多步自動化
- 利用 `find-best` 與 `act` 覆蓋 15 個常見語義意圖（導航、表單、對話框、認證、分頁等）

**現狀與開源承諾**

gsd-browser 已在 GitHub 發佈，支援 macOS (Apple Silicon 及 Intel) 與 Linux (ARM64 及 x64) 預建二進位，亦可從原始碼編譯。npm 與 crates.io 套件尚未發佈。開發者對工具的侷限性毫不隱瞞，直指既有方案的根本缺陷，並透過這款工具展示出更好的替代方案確實可行。這個專案反映了業界對 Agent-native 瀏覽器自動化工具的迫切需求。

## 標籤

MCP, Agent, 開源專案, gsd-browser