# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Oskar (@o_kwasniewski) · 平台：X (Twitter) · 日期：2026-05-02

> 原始來源：https://x.com/o_kwasniewski/status/2050327494159634489

## 中文摘要

AI Agent測試工具需結合視覺與無障礙樹，解決真實應用程式的混亂現實。

TesterArmy團隊開發視覺工具，應對客戶應用程式無障礙不足的痛點，強調Agent不能僅依賴無障礙樹（accessibility tree），而需混合視覺截圖作為後備，以處理隱藏元素或彈出視窗等邊緣案例。

**無障礙樹的侷限**

無障礙樹雖讓Agent快速導航，但常因網站隱藏元素而出錯，導致Agent誤判畫面渲染bug。例如，測試「Stripe」結帳彈出視窗時，無障礙樹無法顯示可點擊元素，Agent完全看不見。

- Playwright等工具的原始輸出耗費大量token，團隊改用類似「Agent Browser」的緊湊介面表示，避免Agent解析整頁。
- 網站隱藏元素出現在無障礙樹，卻未渲染畫面，造成Agent混亂；反之，有些畫面元素不在無障礙樹中，無法點擊。

**純視覺方法的缺點**

團隊內部討論多次質疑全視覺方案，主要因速度與場景感知不足。OpenAI最近在「Codex」推出「computer use」，採用無障礙API與截圖混合，但其Agent僅截圖後決定X/Y座標點擊，宛如「睜眼決定、閉眼點擊、再睜眼確認」，遺漏連續變化。

- 截圖僅顯示視覺內容，缺乏穩定元素參照、表單語義、輸入類型、標籤等結構化脈絡。
- 視覺無法取代無障礙樹，僅作為處理最棘手案例的後備方案。

**混合策略的最佳平衡**

目前混合模式最優：預設無障礙樹，當Agent察覺畫面有元素卻無法結構化定位時，切換視覺後備。團隊新增兩項工具至Agent工具集：`ui_scene_understand`與`ui_vision_click`。

- 最佳實作是委託另一視覺語言模型處理細節，主Agent僅表達意圖，例如：
  ```typescript
  ui_vision_click({
    element: "Blue button in the header",
  });
  ```
- 視覺模型接收截圖、定位目標、傳回座標、執行點擊，並提供新截圖給主Agent，此法極省token。
- 主Agent無需在主迴圈保留原始截圖、座標推理、低階定位細節，只需描述互動目標，讓視覺工具負責執行。

**實際測試心得與建議**

真實客戶應用程式常混亂，無障礙樹無法反映使用者真實所見畫面，因此AI Agent需多種介面理解途徑。無障礙樹仍是預設，因其快速、結構化且通常可靠，但視覺工具補足缺口。

TesterArmy邀請開發行動或網頁應用程式的團隊測試其QA Agent效能，驗證在自家應用上的表現。

## 標籤

Agent, 自動化, 其他, ComputerUse, TesterArmy, Playwright