← 返回首頁
Michał Pierzchała
Michał Pierzchała
@thymikee
166🔁 19
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

agent-device 是一個專為 AI Agent 設計的行動裝置 UI 自動化工具,最新版本改善了 iOS 模擬器的行為,不再搶占使用者當前視窗的焦點,提升了開發體驗。

工具定位與核心功能

agent-device 是一個跨平台的 CLI 工具,用於在 iOS、tvOS、macOS、Android 和 AndroidTV 上進行 UI 自動化,專門針對 Agent 驅動的工作流程設計。它參考了 Vercel 的 agent-browser 專案概念,但將應用場景擴展至行動應用和裝置。該工具的主要目標包括:

  • 讓 Agent 透過結構化快照實際理解行動 UI 狀態
  • 保持自動化流程對 token 效率的優化,使其適合真實 Agent 迴圈
  • 確保常見互動足夠可靠,能重複執行自動化流程
  • 基於會話、選擇器和可重放流程的自動化,而非一次性腳本

核心架構與工作流程

該工具建立在四個核心概念上:會話、快照、引用 (refs) 與選擇器的分工,以及可重放的腳本。典型的使用流程包括開啟應用 → 拍攝 UI 快照進行檢查 → 透過按壓、填寫、捲動等操作與 UI 互動 → 比較快照或重新拍攝以檢視變化 → 關閉會話。非 JSON 模式下,核心修改命令會輸出簡短的成功確認訊息,讓 Agent 和開發人員能區分成功操作與靜默無回應的情況。

測試與重放能力

該工具支援編寫決定性的 .ad 腳本作為輕量級端到端測試套件。使用者可透過 --save-script 旗標保存流程、用 replay 命令重放單一腳本,或用 test 指令以序列方式執行資料夾或檔案模式匹配的測試套件。test 命令支援元資料感知重試機制(最多額外嘗試 3 次)、每個測試的逾時設定、不穩定測試回報,並在預設的 .agent-device/test-artifacts 目錄下由執行器管理成品。每次嘗試都會產生 replay.adresult.txt 檔案,失敗的嘗試還會保留複製的日誌和成品。

最新改進:iOS 模擬器焦點行為

最新版本解決了一個長期困擾開發人員的問題:iOS 模擬器不再搶奪使用者當前視窗的焦點。這意味著開發人員可以在 Agent 執行工作時繼續處理其他工作,無須被迫關注模擬器。這項改善使 iOS 的行為與 Android 保持一致,作者明確指出這在 Codex 測試該程式庫時曾引發困擾,而目前的狀況「已經改善得多」。

使用對象與文件

該專案提供面向人類開發人員的文件(包括官方網站和詳細文件),也為 Agent 提供專門的「技能」指南,包括 agent-device 技能、dogfood 技能,以及 ClawHub 上的線上版本。使用者可透過 npm 全域安裝最新版本。在 macOS 上,該工具包含本地的 agent-device-macos-helper 源碼套件,用於桌面權限檢查、警告處理和輔助相關的桌面快照表面支援。