# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Cua (@trycua) · 平台：X (Twitter) · 日期：2026-06-25

> 原始來源：https://x.com/trycua/status/2069827307490172981

## 中文摘要

Gemini 3.5 Flash 透過原生 Computer Use API 在 Cua-Bench 的 KiCad EDA 測試中，以 0.267 的平均獎勵分數領先其他前沿模型。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1782355850463-tlkaua89.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/dd477df40f1aaf55.jpg" autoplay loop muted playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 畫面展示了 Gemini 3.5 Flash 模型在 Cua-Bench 測試中的電腦使用能力表現。

**核心評測表現**
Cua 團隊獲得 Google DeepMind 早期存取權限，針對 Gemini 3.5 Flash 的原生 Computer Use 功能進行了嚴格評測。在「Cua-Bench」的 KiCad EDA 套件（包含 25 項專業電機工程 CAD 任務）中，該模型展現了卓越的執行品質：
- **效能數據**：Gemini 3.5 Flash 取得 0.267 的平均獎勵分數，成功完成 5 項任務並部分完成 3 項，在速度與成本效益上表現優異。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/055481652fcedb3c.jpg)
> Cua-Bench 透過統一的測試協定（包含原生 Computer Use API、25 項 KiCad 任務、200 步限制與 7 款模型），評測出 Gemini 3.5 Flash 在前沿模型中獲得最高的平均獎勵。

- **競爭對比**：GPT-5.5 雖獨立完成了 6 項任務，但因缺乏部分完成的得分，在平均獎勵指標上略遜於 Gemini 3.5 Flash。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/8cbd0a660b280b52.jpg)
> 在 KiCad EDA 基準測試中，雖然 GPT-5.5 獲得最多完全解答（6/25），但 Gemini 3.5 Flash 憑藉 5 個完全解答與 3 個部分解答，以 0.267 的平均回報率位居所有受測模型之首。

- **技術亮點**：模型在縮放後的 CAD 目標上展現了像素級的精準定位（grounding），並具備實際的類比設計推理能力，例如能根據回饋方程式推導電阻值，並對照規格書進行驗證。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1d5787938e772369.jpg)
> 這張圖表展示了名為 Cua 的工具如何透過精準的像素定位與邏輯推理能力，在電子設計自動化（EDA）軟體中執行複雜的電路操作。

**現存技術瓶頸**
儘管模型在視覺與推理上有所突破，但在複雜的長任務中仍面臨挑戰：
- **執行漂移**：在 200 個步驟的預算限制下，從零開始的設計任務常因執行時間過長而超時。
- **狀態幻覺**：模型在多次螢幕觀察後，偶爾會產生螢幕狀態的幻覺，例如誤以為介面中存在某個表單或狀態，導致 Agent 迴圈的可靠性下降。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/77b2c914fe026fb2.jpg)
> 這張圖表展示了名為 Cua 的系統如何透過精確的像素定位與電路邏輯推理，實現工程設計任務的自動化處理。

**開發與整合指引**
Cua 團隊提供了完整的工具鏈，讓開發者能將 Gemini 3.5 Flash 整合至自動化工作流中：
- **驅動程式安裝**：透過 `cua-driver` 實現背景操作，無需佔用滑鼠或視窗焦點。
    - macOS / Linux：
      ```bash
      /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
      ```
    - Windows (PowerShell)：
      ```powershell
      irm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
      ```
- **整合至 Agent**：若要將其作為 MCP 伺服器使用，可執行以下指令：
  ```bash
  claude mcp add --transport stdio cua-driver -- cua-driver mcp
  ```
- **沙盒環境**：開發者可使用 `pip install cua` 快速建立跨作業系統的 Agent 執行環境，並透過 `Sandbox` 類別進行螢幕截圖、滑鼠點擊與鍵盤輸入等操作。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1782355915014-vz5i73pi.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2406500427067ed5.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 透過指令列介面（CLI）自動化操作「Smart Home Control Panel」進行燈光控制的演示過程。

Google 官方此次將 Computer Use 功能直接整合進 Gemini 3.5 Flash，並針對安全性推出了目標對抗訓練，以及包含「敏感操作需人工確認」與「偵測到間接提示注入時自動停止」的企業級防護系統，旨在提升 Agent 在真實桌面環境中的可靠性。詳細評測報告與工具使用說明可參考 [Cua 官方部落格](https://cua.ai/blog/evaluating-gemini-3.5-flash-on-computer-use)。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/8d8ad5095209392e.jpg)
> 在 Cua-Bench 的 KiCad EDA 任務測試中，Gemini 3.5 Flash 以 0.267 的平均獎勵（mean reward）位居榜首，領先其他測試的前沿模型。

## 媒體內容

**畫面展示了 Gemini 3.5 Flash 模型在 Cua-Bench 測試中的電腦使用能力表現。**

**影片中的 Prompt 與操作**

操作步驟：

1. 無

**Cua-Bench 透過統一的測試協定（包含原生 Computer Use API、25 項 KiCad 任務、200 步限制與 7 款模型），評測出 Gemini 3.5 Flash 在前沿模型中獲得最高的平均獎勵。**

**數據表**

|   | 02 25 tasks | 03 200 steps | 04 7 models |
| --- | --- | --- | --- |
| 01 CU api = Native Computer Use API | KiCad EDA suite | Matched step budget | Frontier head-to-head |

**在 KiCad EDA 基準測試中，雖然 GPT-5.5 獲得最多完全解答（6/25），但 Gemini 3.5 Flash 憑藉 5 個完全解答與 3 個部分解答，以 0.267 的平均回報率位居所有受測模型之首。**

**數據表**

|   | PROVIDER | FULL SOLVES | PARTIAL | MEAN / 25 |
| --- | --- | --- | --- | --- |
| GPT-5.5 | OpenAI | 6 / 25 | 0 / 25 | 0.240 |
| Gemini 3.5 Flash | Google | 5 / 25 | 3 / 25 | 0.267 |
| Claude Sonnet 4.5 | Anthropic | 5 / 25 | 3 / 25 | 0.253 |
| Claude Haiku 4.5 | Anthropic | 5 / 25 | 3 / 25 | 0.253 |
| Gemini 3.1 Pro | Google | 5 / 25 | 3 / 25 | 0.253 |
| Claude Opus 4.8 | Anthropic | 4 / 25 | 4 / 25 | 0.240 |
| Gemini 3 Flash | Google | 1 / 25 | 7 / 25 | 0.200 |

**在 Cua-Bench 的 KiCad EDA 任務測試中，Gemini 3.5 Flash 以 0.267 的平均獎勵（mean reward）位居榜首，領先其他測試的前沿模型。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Gemini 3.5 Flash | 0.267 |
| Claude Sonnet 4.5 | 0.253 |
| Claude Haiku 4.5 | 0.253 |
| Gemini 3.1 Pro | 0.253 |
| GPT-5.5 | 0.240 |
| Claude Opus 4.8 | 0.240 |
| Gemini 3 Flash | 0.200 |

**透過指令列介面（CLI）自動化操作「Smart Home Control Panel」進行燈光控制的演示過程。**

**影片中的 Prompt 與操作**

Prompt（00:00）：

```
get_window_state.json
```

原文：05: get_window_state.json

Prompt（00:00）：

```
click.json
```

原文：07: click.json

Prompt（00:00）：

```
bring_to_front.json
```

原文：34: bring_to_front.json

操作步驟：

1. @0:05 執行獲取視窗狀態指令。
2. @0:07 執行點擊指令。
3. @0:34 執行將視窗置於前景的指令。
4. @1:13 開始依序點擊網格燈光。
5. OGFRAME: 1:20

## 標籤

Benchmark, ComputerUse, Gemini, VLM, Google, Gemini