# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Cua (@trycua) · 平台：X (Twitter) · 日期：2026-06-18

> 原始來源：https://x.com/trycua/status/2067639336703775037

## 中文摘要

Cua 釋出 Cua Driver 0.5.7，正式將背景電腦操作能力導入 Linux 桌面環境。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781814878234-8ytc03x7.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/aad6457f9cd57332.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這段影片展示了名為「Cua Driver for Linux」的桌面環境介面，並演示了透過終端機指令進行檔案操作的流程。

Cua 團隊於 2026 年 6 月 19 日宣布，其核心組件 `cua-driver` 已正式支援 Linux 系統。這項更新讓 Claude Code、Codex 或其他自定義 Agent 能夠在不搶佔使用者實體滑鼠游標或視窗焦點的情況下，於背景執行真實的桌面應用程式操作。此功能對於開發者而言，意味著 AI Agent 終於能跨越 Linux 桌面環境中碎片化的 GUI 障礙，實現真正的自動化工作流。

**核心技術與運作機制**
`cua-driver` 0.5.7 透過整合 `AT-SPI 2`（經由 D-Bus）來讀取應用程式的 UI 結構樹，並利用 `XTEST` 協定進行輸入合成。其設計哲學強調「誠實」原則，若系統環境（如原生 Wayland）限制了操作能力，driver會明確回傳錯誤，而非偽裝成功。
- **虛擬游標模型**：Agent 擁有獨立的 `cursor_id` 與覆蓋層游標，確保背景操作不會干擾使用者當前的前景工作。
- **無焦點寫入**：針對 GTK3/4、Qt5 與 Tk 等常見工具組，實作了無需搶佔焦點的寫入路徑。
- **環境相容性**：支援 X11 與 XWayland，原生 Wayland 支援目前處於預覽階段，可透過設定環境變數 `CUA_DRIVER_RS_ENABLE_WAYLAND=1` 啟用。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781814888031-on268rsb.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/855821ee9d3f038d.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 桌面環境中同時開啟兩個視窗，並透過滑鼠軌跡進行繪圖互動的演示。

**安裝與環境配置**
該driver適用於 Debian 12、Ubuntu 22.04/24.04、Rocky 9 與 Fedora 41 等發行版（需 `glibc 2.31` 以上）。
1. 執行安裝腳本：
   ```bash
   /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
   ```
2. 啟用 GNOME 無障礙功能：
   ```bash
   gsettings set org.gnome.desktop.interface toolkit-accessibility true
   ```
3. 診斷環境狀態：
   ```bash
   cua-driver doctor
   ```
對於 Chromium 核心應用（如 VS Code、Slack），driver會在啟動時自動將 `org.a11y.Status` 設為啟用，強制其建立 AT-SPI 樹，無需重新啟動應用程式。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781814898837-6kjeay6k.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/a98b0dac8df93c0b.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 透過終端機指令啟動計算機應用程式並進行簡單數學運算的過程。

**Agent 整合與部署**
使用者可透過 MCP 或 CLI 將 `cua-driver` 整合至現有的 Agent 工作流中。
- **Claude Code 整合**：
  ```bash
  claude mcp add --transport stdio cua-driver -- cua-driver mcp
  ```
- **持久化服務管理**：建議使用 `systemd --user` 管理服務，若需在登出後保持執行，請執行 `loginctl enable-linger "$USER"`。
- **無頭模式**：支援在無 GPU 或顯示器的遠端環境中，透過 SSH 繼承 `DISPLAY` 變數來操作桌面應用。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781814907571-fpdu8315.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/f49a2fdae2b86d66.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 影片展示了一個名為「FOREGROUND」的視窗介面，周圍環繞著多個顯示不同顏色波形動畫的子視窗。

**基準測試與開發資源**
Cua 同時提供了 `cua-bench` 工具，支援 OSWorld、ScreenSpot 與 Windows Arena 等資料集，協助開發者評估 Agent 效能。
- 基準測試安裝與執行：
  ```bash
  git clone https://github.com/trycua/cua && cd cua/cua-bench
  uv tool install -e . && cb image create linux-docker
  cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4
  ```
專案採用 MIT License 開源，詳細文件可參考 [官方文件](https://cua.ai/docs/cua-driver)，原始碼則託管於 [GitHub](https://github.com/trycua/cua)。作者 Francesco Bonacci 鼓勵使用者利用 `cua-driver doctor` 回報相容性問題，以協助改善 Linux 桌面生態中複雜的工具組支援缺口。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781814919138-m7ojhn29.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2409d71ef45698e5.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 使用 Gnumeric 試算表軟體建立個人月度預算表的過程。

## 媒體內容

**這段影片展示了名為「Cua Driver for Linux」的桌面環境介面，並演示了透過終端機指令進行檔案操作的流程。**

**影片中的 Prompt 與操作**

Prompt（00:01）：

```
cua-driver serve
```

Prompt（00:02）：

```
cua-driver click 'element_index:77'
```

操作步驟：

1. （00:01）在終端機輸入 `cua-driver serve` 並執行。
2. （00:02）在終端機輸入 `cua-driver click 'element_index:77'` 並執行。
3. （00:04）滑鼠游標移動至「Files」視窗中的「Reports」資料夾。
4. （00:05）滑鼠游標點擊「Reports」資料夾。

**桌面環境中同時開啟兩個視窗，並透過滑鼠軌跡進行繪圖互動的演示。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）於「Cas Puke A」視窗中開始繪製彩色線條
2. （00:01）於「Cas Puke B」視窗中開始繪製彩色線條
3. （00:02）兩視窗中的線條繪製完成

**透過終端機指令啟動計算機應用程式並進行簡單數學運算的過程。**

**影片中的 Prompt 與操作**

Prompt（00:10）：

```
calc
```

操作步驟：

1. （00:10）輸入指令「calc」並執行
2. （00:14）點擊計算機上的數字「7」
3. （00:15）點擊計算機上的乘號「*」
4. （00:16）點擊計算機上的數字「6」
5. （00:17）點擊計算機上的等號「=」

**影片展示了一個名為「FOREGROUND」的視窗介面，周圍環繞著多個顯示不同顏色波形動畫的子視窗。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）畫面顯示 12 個子視窗同時開始繪製彩色波形。
2. （00:01）至 @6 所有的波形曲線持續進行動態繪製與更新。

**使用 Gnumeric 試算表軟體建立個人月度預算表的過程。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:04）在 A1 輸入「Monthly Budget」
2. （00:08）在 A2 輸入「Category」
3. （00:10）在 B2 輸入「Amount ($)」
4. （00:12）在 A3 輸入「Rent」
5. （00:14）在 B3 輸入「1200」
6. （00:16）在 A4 輸入「Groceries」
7. （00:19）在 B4 輸入「450」
8. （00:21）在 A5 輸入「Utilities」
9. （00:23）在 B5 輸入「100」
10. （00:25）在 A6 輸入「Transit」
11. （00:27）在 B6 輸入「95」
12. （00:31）在 A7 輸入「Total」
13. （00:31）在 B7 輸入「1845」

## 標籤

功能更新, Linux, Agent, 自動化, Cua
