# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Cua (@trycua) · 平台：X (Twitter) · 日期：2026-04-24

> 原始來源：https://x.com/trycua/status/2047383200348221632

## 中文摘要

Cua 開源 macOS 背景電腦使用驅動程式，讓任意 Agent 後台操控應用程式。

Cua 團隊開源「Cua Driver」，這款 macOS 驅動程式實現背景電腦使用，讓 Claude Code、Codex 或自訂 harness 的 Agent 在後台驅動任意應用程式，內建多使用者與多游標支援，不干擾使用者游標、焦點或 Spaces 切換。相較 OpenAI 上週推出的 Codex 背景電腦使用（僅限 OpenAI 封閉生態），Cua Driver 透過 SkyLight 私有 API 與 yabai 的 focus-without-raise 模式，提供開源實現，致敬 Sky 團隊（@AriX 等）率先證明此 UX 可行。

**開源背景驅動核心技術**

Cua Driver 利用 macOS 未公開框架 SkyLight 實現 Agent 後台操控，避開傳統 CGEventPost 的游標位移與焦點竊取問題：
- **SkyLight SLEventPostToPid**：將合成事件直接發送到特定 PID，繞過 HID 事件流與 IOHIDPostEvent，Chrome 等 Chromium 應用接受此路徑事件（標記 WindowServer 信任包絡），解決渲染器 IPC 邊界的過濾。
- **yabai focus-without-raise**：透過 SLPSPostEventRecordTo 翻轉 AppKit 焦點狀態，而不呼叫 SLPSSetFrontProcessWithOptions，避免視窗抬升與 Spaces 跟隨；此模式參考 yabai 程式碼邏輯實現。
- **AX 樹維持**：使用私有 _AXObserverAddNotificationAndCheckRemote 讓 Electron 應用（如 Chrome、Slack、VS Code）的無障礙樹在視窗被遮蔽時持續更新，支援完整 launch-snapshot-act-verify 循環。
- **誘導點擊機制**：針對 Chromium 應用，透過在螢幕外發送假 LeftMouseDown/Up 事件，模擬真實使用者手勢，讓後續點擊觸發影片播放、全螢幕等 API。

安裝簡單：執行 `/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"`，授予 Accessibility 與 Screen Recording 權限，即可透過 CLI 或 MCP 伺服器使用；完整工具參考與 Claude Code 技能隨包附贈。

**Agent 互動與定址機制**

Cua Driver 支援多種 Agent 互動方式，透過 element-indexed 點擊進行定址（直接觸發 AX 動作，支援隱藏目標）：
- **AX 模式**：僅回傳簡化 AX 樹 Markdown 大綱，每個可動作節點標記索引；無需螢幕擷取或 Screen Recording，最適系統應用（如 Calculator、Notes、iMessage）或 AppKit/SwiftUI 應用。
- **Vision 模式**：僅回傳目標視窗 PNG；適合像素 grounding 的 VLMs，但 Claude Code 等編碼 Agent 在 Anthropic 端點上傳圖像時缺少 computer-use beta 欄位，穩定性欠佳。
- **SOM (Set-of-Marks) 模式**：AX 樹與螢幕截圖結合，樹提供可點擊資訊，截圖消歧義；像素點擊（click({pid, x, y})）作為非 AX 表面（如 canvas、WebGL）的後備，使用 SkyLight 配方。

CLI 工具範例：`cua-driver list_apps`、`cua-driver launch_app`、`cua-driver click` 等指令；MCP 配置可直接整合 Claude Code 或 Cursor。

**實際演示與應用案例**

團隊錄製多個背景電腦使用示範，凸顯不干擾使用者工作流：
- **背景開發循環**：Claude Code 重現視覺 bug、撰寫修復、QA 測試；Agent harness 全程維持前景，使用者編輯器不變。
- **委託示範擷取**：Agent 驅動應用程式，cua-driver 錄製軌跡並匯出時 zoom-on-click；可委託 Agent 完整製作產品示範影片。
- **後台視覺脈絡提取**：Claude Code 從未抬升的 Chrome 分頁播放 YouTube 場景，讀取 Figma canvas、Preview 視窗或 YouTube 頁面。
- **個人助理**：Agent 在使用者編輯器輸入時，後台發送 Messages 回覆；Space 不切換。

每場景皆錄製為可重播軌跡，強調「第二游標」特性，而非取代使用者輸入。

**Cua 生態完整工具鏈**

Cua 儲存庫（https://github.com/trycua/cua）不止 Driver，涵蓋 Agent 建置、基準與虛擬化：
- **Cua Sandbox**：跨 OS（Linux/macOS/Windows/Android）沙盒，一 API 操控 VM 或容器；雲端（cua.ai）或本地 QEMU 支援，範例：`async with Sandbox.ephemeral(Image.linux()) as sb: await sb.mouse.click(100, 200)`。
- **CuaBot**：多 Agent 合作電腦使用 CLI，桌面原生視窗（H.265、共享剪貼簿、音訊）；`cuabot claude` 執行 Claude Code，內建 agent-browser/agent-device（iOS/Android）。
- **Cua-Bench**：OSWorld、ScreenSpot、Windows Arena 等基準與 RL 環境；`cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4`，匯出軌跡訓練。
- **Lume**：Apple Silicon 上近原生效能 macOS/Linux VM，使用 Virtualization.Framework；`lume run macos-sequoia-vanilla:latest`。
- **套件清單**：cuabot（多 Agent 沙盒 CLI）、cua-agent（電腦使用 Agent 框架）、cua-sandbox（沙盒 SDK）、cua-computer-server（沙盒 UI/程式碼驅動）、cua-bench、lume、lumier（Lume Docker 介面）。

資源：文件（https://cua.ai/docs）、部落格（https://www.cua.ai/blog）、Discord（https://discord.gg/mVnXXpdE85）、macOS 視窗內部剖析（https://github.com/trycua/cua/blob/main/blog/inside-macos-window-internals.md）。

**開發背景與產業反思**

自 2024 年起，作者觀察眾多 GUI Agent 產品因桌面輸入同步性（單游標、單鍵盤、單焦點視窗）而失敗，故 Cua 推廣隔離 VM/容器作為 Agent 動作空間，避免直接安裝 computer-server 於桌面主機。ClawCon 首展多使用者電腦使用原型，但僅限 Linux 透過 Xpra 遮罩。

Codex 背景電腦使用公告後，團隊逆向工程 macOS 視窗管理，發現 SkyLight 是 WindowServer 驅動所有視窗的未公開 C 層；yabai 源碼、Chrome lldb 偵錯、Swift 崩潰分析等揭露私有 SPI。反對將背景驅動綁定單一供應商（如 OpenAI），故以 permissive MIT 授權（第三方如 Kasm MIT、OmniParser CC-BY-4.0）釋出 v0.1 早期預覽，加速 Agent 體驗浪潮。

**現存限制與未解問題**

SkyLight 配方非萬能，兩大問題未修復：
- **Chromium 右鍵點擊**：渲染器 IPC 過濾將合成右鍵降為左鍵；AX 定址目標（如連結、按鈕）正常，純網頁內容限左鍵，需瀏覽器擴充套件（違反 drop-in 設計）。
- **Canvas 應用**：Blender GHOST、Unity、遊戲引擎僅接受 cghidEventTap 帶 mouseMoved 事件，需短暫前景啟用；cua-driver 在此類別 fallback 啟用應用，游標位移，違反無前景竊取承諾。

作者邀請奇特使用案例回饋，程式庫 Issues（https://github.com/trycua/cua/issues）開放 bug 與功能請求，強調貢獻指南（CONTRIBUTING.md）。

## 標籤

開源專案, Agent, macOS, ComputerUse, Cua, Anthropic, OpenAI
