# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Google DeepMind (@GoogleDeepMind) · 平台：X (Twitter) · 日期：2026-06-26

> 原始來源：https://x.com/GoogleDeepMind/status/2070180509523546481

## 中文摘要

Google DeepMind 宣布 Gemini 3.5 Flash 正式支援原生電腦使用功能，讓開發者能打造跨平台操作的 Agent。

**核心功能與應用**
Gemini 3.5 Flash 現在將電腦使用能力整合至模型內部，不再需要依賴過去的獨立模型。這項功能賦予 Agent 觀察螢幕、進行推理並在瀏覽器、行動裝置及桌面環境中執行操作的能力。此更新旨在提升長時程任務與企業自動化流程的效能，特別適用於持續性的軟體測試與跨專業應用程式的知識工作。

**安全性與防護機制**
為應對 Agent 在真實環境中運作時可能面臨的 prompt injection 風險，Google 採取了以下防護措施：
- 針對電腦使用功能進行目標導向的對抗性訓練。
- 提供兩項選用的企業級安全系統：針對敏感或不可逆操作要求使用者明確確認，以及在識別出間接 prompt injection 時自動停止任務。
- 建議開發者採用「縱深防禦」策略，結合安全沙盒、人工介入驗證（human-in-the-loop）及嚴格的存取控制。

**實作與演示**
根據 Google AI Studio 的演示，Gemini 3.5 Flash 已能勝任複雜的網頁導航與電商操作任務，例如：
- 執行「Encyclopedia Hunt」任務：透過點擊超連結，從特定頁面導航至目標頁面（如從「Eiffel Tower」導航至「Albert Einstein」）。
- 電商自動化：在網站上搜尋商品、將「Minimalist Mug」加入購物車並執行結帳流程。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1782451905038-rtweosnk.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ebbda0e3c8c13f05.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 影片展示如何透過 Google AI Studio 的電腦使用（Computer Use）功能，讓 AI 代理自動化執行網頁瀏覽與操作任務。

開發者可透過 [Gemini API](https://goo.gle/4f4sNQA) 與 Gemini Enterprise Agent Platform 開始建置應用，或透過 Browserbase 提供的環境進行測試。詳細的參考實作與最佳實踐文件可於官方平台查閱。

## 媒體內容

**影片展示如何透過 Google AI Studio 的電腦使用（Computer Use）功能，讓 AI 代理自動化執行網頁瀏覽與操作任務。**

**影片中的 Prompt 與操作**

Prompt（00:00）：

```
起始：艾菲爾鐵塔
目標：阿爾伯特·愛因斯坦
```

原文：START: Eiffel Tower
TARGET: Albert Einstein

Prompt（00:36）：

```
起始：蘇格拉底
目標：彼得潘（角色）
```

原文：START: Socrates
TARGET: Peter Pan (character)

操作步驟：

1. （00:01）點擊「EXECUTE」按鈕
2. （00:17）點擊「German Empire」連結
3. （00:36）點擊「EXECUTE」按鈕
4. （00:47）點擊「Ancient Greek」連結
5. （00:59）點擊「Shop All」連結
6. （01:02）點擊「Minimalist Mug」商品
7. （01:04）點擊「Add to Cart」按鈕
8. （01:05）點擊「Proceed to Checkout」按鈕

**逐字稿**

- `00:00` 我給了一個 AI Agent 兩個毫無關聯的主題，並要求它只透過線上百科全書中的超連結，從一個主題連結到另一個主題。（I gave an AI agent two unrelated subjects and tasked it with getting from one to the other）
- `00:04` 這一切是透過 Gemini 3.5 Flash 的電腦使用功能所實現的。（using nothing but the hyperlinks in an online encyclopedia. This is made possible through）
- `00:09` 它能看見你的螢幕，針對螢幕上的內容進行推理，並採取行動。（computer use, a capability of Gemini 3.5 Flash. It sees your screen, reasons about what's on it,）
- `00:14` 你可以從左側看到 Agent 的思考過程。它成功導航到了德意志帝國，（and acts. You can see what the agent is thinking on the left. It made its way to the German Empire,）
- `00:19` 那是愛因斯坦出生的地方與時代。接著從那裡，經過幾個諾貝爾獎頁面，（which is the era and place where Einstein was born. Then from there, a few Nobel Prize pages）
- `00:25` 直到最後抵達我們要找的人。它並沒有讀取頁面背後的程式碼，也沒有人直接給它連結。（until it finally lands on our guy. It didn't read the code behind the page and nobody handed）
- `00:29` 它就像你一樣觀察螢幕，並規劃出到達目的地的路徑。（it the links. It watched the screen the same way you would and strategized its way there.）
- `00:34` 這就是電腦使用功能。現在，讓我們增加一點難度。從蘇格拉底到彼得潘。以下是（That's computer use. Now let's make it work a little harder. Socrates to Peter Pan. Here's）
- `00:38` 它在幕後實際運作的過程。它會截取螢幕畫面並針對內容進行推理。從（what's actually happening under the hood. It takes a screenshot and reasons about what's on it. From）
- `00:43` 那裡，它會決定採取點擊或捲動等動作，並解釋它為什麼採取該行動。（there, it decides on an action like a click or a scroll and it explains why it took that action.）
- `00:48` 接著它會再次觀察並重複這個過程，直到抵達我們的目標。截圖、推理、行動、確認。這個（Then it looks again and repeats until it reaches our target. Screenshot, reason, act, confirm. That）
- `00:55` 循環與流程就是電腦使用功能。除了玩遊戲之外，電腦使用功能也能應用於現實（loop and flow is computer use. Beyond just playing games, computer use can also be applied to real）
- `01:00` 世界的任務，例如讓 AI Agent 瀏覽、點擊並測試你的網站流程，（world tasks, like having an AI agent navigate, click through, and test your website's flows,）
- `01:05` 就像人類訪客一樣。使用 Gemini API 的電腦使用工具，建立你自己的 Agent，讓它具備視覺與行動能力。（just like a human visitor would. Build your own agent that can see and act using the Gemini API）
- `01:11` 你會想讓它建立什麼呢？歡迎在留言區告訴我們。（computer use tool. What would you ask it to build? Drop it in the comments.）

## 標籤

Agent, 功能更新, ComputerUse, Gemini, VLM, Google, DeepMind, Gemini
