# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Google DeepMind (@GoogleDeepMind) · 平台：X (Twitter) · 日期：2026-04-14

> 原始來源：https://x.com/GoogleDeepMind/status/2044069878781390929

## 中文摘要

Gemini Robotics-ER 1.6升級機器人具身推理，強化視覺空間理解與任務自主性。

Google推出Gemini Robotics-ER 1.6，這是專為機器人設計的具身推理模型升級版，於2026年4月14日發布，透過提升空間推理、多視角理解與儀器讀取能力，讓機器人更精準處理真實世界任務，從工廠巡檢到物件操作皆更自主可靠。

**指向能力強化空間推理**  
Gemini Robotics-ER 1.6將「指向」作為核心空間推理基礎，能精準偵測物件、計數並處理關係邏輯，例如辨識圖像中最小物品或「從X移至Y位置」的關係，也能推斷運動軌跡與最佳抓取點，甚至遵守複雜限制如「指向藍色杯子能容納的所有小物件」。  
- 在混亂工坊圖像中，正確指向並計數2把鐵鎚、1把剪刀、1把畫筆、6把鉗子及園藝工具群組，忽略不存在的獨輪車與Ryobi電鑽。  
相較Gemini Robotics-ER 1.5（錯計鐵鎚與畫筆數、漏掉剪刀、幻覺獨輪車、鉗子指向不準），及Gemini 3.0 Flash（鉗子處理較弱），1.6版更精準，避免幻覺並知曉何時不指向不存在物品。它還用指向作為中間步驟，輔助計數或數學運算，提升度量估計。

**成功偵測驅動任務自主**  
成功偵測是機器人自主性的關鍵引擎，讓Agent判斷任務完成與否，決定重試或推進下一步，需整合視覺理解、世界知識，應對遮擋、照明差與模糊指令，尤其多相機饋送（如頂視與腕裝）需融合即時串流形成連貫場景。  
Gemini Robotics-ER 1.6強化多視角推理，即使動態或遮擋環境，也能從多鏡頭確認「將藍筆放入黑色筆筒」任務完成，超越前代在複雜情境的表現。

**儀器讀取解決產業痛點**  
儀器讀取是Gemini Robotics-ER 1.6的關鍵強項，結合空間推理、世界知識與Agentic視覺，精準解讀各種儀表，如圓形壓力計、垂直液位指示器與數位讀數，源自與Boston Dynamics合作發現的工廠巡檢需求。  
- Boston Dynamics的Spot機器人巡邏設施捕捉複雜類比錶盤圖像，1.6版自行撰寫程式碼校正相機扭曲、計算刻度標記，甚至讀取類比錶至亞刻度精準度。  
- 處理視玻璃時，估計液體填充比例考慮相機視角扭曲；解讀錶盤文字單位、多針頭十進位組合。  
透過Agentic視覺中間步驟：先放大細節、再用指向與程式碼估計比例、最後套用世界知識解釋含義，讓Spot能完全自主應對真實挑戰。Boston Dynamics Spot副總經理Marco da Silva肯定此能力將帶來產業變革。

**安全性能達歷代最佳**  
Gemini Robotics-ER 1.6是Google最安全的機器人模型，全面整合安全政策，在對抗性空間推理任務中優於所有前代。  
- 嚴守物理限制，如避免液體或超過20kg物品，避免危險操作。  
- 基於真實傷害報告，在文字與影片情境辨識傷害風險，提升6%（文字）與10%（影片），超越Gemini 3.0 Flash基準。  
這些改進確保機器人在高風險環境更可靠。

**開發者即時可用與合作邀請**  
Gemini Robotics-ER 1.6現透過Gemini API與Google AI Studio開放給開發者，附Colab範例示範模型設定與具身推理提示。作為高階推理模型，它原生呼叫工具如Google搜尋、視覺語言動作模型（VLA）或第三方自訂函式，超越Gemini Robotics-ER 1.5與Gemini 3.0 Flash在指向、計數與成功偵測。  
Google邀請機器人社群提交10–50張標註圖像，展示特定失敗模式，以強化未來版本，強調透過合作最大化價值。更多詳情見https://goo.gle/4dGSh6y。

## 標籤

Robot, 功能更新, AIGC, Google, Gemini
