Gemini Robotics-ER 1.6升級機器人具身推理,強化視覺空間理解與任務自主性
AI 語音朗讀 · Edge TTS
Gemini Robotics-ER 1.6升級機器人具身推理,強化視覺空間理解與任務自主性。
Google推出Gemini Robotics-ER 1.6,這是專為機器人設計的具身推理模型升級版,於2026年4月14日發布,透過提升空間推理、多視角理解與儀器讀取能力,讓機器人更精準處理真實世界任務,從工廠巡檢到物件操作皆更自主可靠。
指向能力強化空間推理
Gemini Robotics-ER 1.6將「指向」作為核心空間推理基礎,能精準偵測物件、計數並處理關係邏輯,例如辨識圖像中最小物品或「從X移至Y位置」的關係,也能推斷運動軌跡與最佳抓取點,甚至遵守複雜限制如「指向藍色杯子能容納的所有小物件」。
- 在混亂工坊圖像中,正確指向並計數2把鐵鎚、1把剪刀、1把畫筆、6把鉗子及園藝工具群組,忽略不存在的獨輪車與Ryobi電鑽。
相較Gemini Robotics-ER 1.5(錯計鐵鎚與畫筆數、漏掉剪刀、幻覺獨輪車、鉗子指向不準),及Gemini 3.0 Flash(鉗子處理較弱),1.6版更精準,避免幻覺並知曉何時不指向不存在物品。它還用指向作為中間步驟,輔助計數或數學運算,提升度量估計。
成功偵測驅動任務自主
成功偵測是機器人自主性的關鍵引擎,讓Agent判斷任務完成與否,決定重試或推進下一步,需整合視覺理解、世界知識,應對遮擋、照明差與模糊指令,尤其多相機饋送(如頂視與腕裝)需融合即時串流形成連貫場景。
Gemini Robotics-ER 1.6強化多視角推理,即使動態或遮擋環境,也能從多鏡頭確認「將藍筆放入黑色筆筒」任務完成,超越前代在複雜情境的表現。
儀器讀取解決產業痛點
儀器讀取是Gemini Robotics-ER 1.6的關鍵強項,結合空間推理、世界知識與Agentic視覺,精準解讀各種儀表,如圓形壓力計、垂直液位指示器與數位讀數,源自與Boston Dynamics合作發現的工廠巡檢需求。
- Boston Dynamics的Spot機器人巡邏設施捕捉複雜類比錶盤圖像,1.6版自行撰寫程式碼校正相機扭曲、計算刻度標記,甚至讀取類比錶至亞刻度精準度。
- 處理視玻璃時,估計液體填充比例考慮相機視角扭曲;解讀錶盤文字單位、多針頭十進位組合。
透過Agentic視覺中間步驟:先放大細節、再用指向與程式碼估計比例、最後套用世界知識解釋含義,讓Spot能完全自主應對真實挑戰。Boston Dynamics Spot副總經理Marco da Silva肯定此能力將帶來產業變革。
安全性能達歷代最佳
Gemini Robotics-ER 1.6是Google最安全的機器人模型,全面整合安全政策,在對抗性空間推理任務中優於所有前代。
- 嚴守物理限制,如避免液體或超過20kg物品,避免危險操作。
- 基於真實傷害報告,在文字與影片情境辨識傷害風險,提升6%(文字)與10%(影片),超越Gemini 3.0 Flash基準。
這些改進確保機器人在高風險環境更可靠。
開發者即時可用與合作邀請
Gemini Robotics-ER 1.6現透過Gemini API與Google AI Studio開放給開發者,附Colab範例示範模型設定與具身推理提示。作為高階推理模型,它原生呼叫工具如Google搜尋、視覺語言動作模型(VLA)或第三方自訂函式,超越Gemini Robotics-ER 1.5與Gemini 3.0 Flash在指向、計數與成功偵測。
Google邀請機器人社群提交10–50張標註圖像,展示特定失敗模式,以強化未來版本,強調透過合作最大化價值。更多詳情見https://goo.gle/4dGSh6y。
We’re rolling out an upgrade designed to help robots reason about the physical world. 🤖
— Google DeepMind (@GoogleDeepMind) April 14, 2026
Gemini Robotics-ER 1.6 has significantly better visual and spatial understanding in order to plan and complete more useful tasks. Here’s why this is important 🧵 pic.twitter.com/rxT1lkYZZB
Gemini Robotics-ER 1.6 enables robots to better pinpoint objects in an image.
— Google DeepMind (@GoogleDeepMind) April 14, 2026
Ask it to find tools in a cluttered workshop, and it can accurately identify and count the right items while ignoring things that aren't present. pic.twitter.com/lDMHFhX4FG
The model knows when a task is complete to determine whether to retry it or move on - thanks to its multi-view reasoning and the ability to fuse live camera streams to understand a full scene.
— Google DeepMind (@GoogleDeepMind) April 14, 2026
Watch it process multiple angles to confirm if the job is done ↓ pic.twitter.com/yTBWnT65Xc
A key strength: Gemini Robotics-ER 1.6 combines spatial reasoning, world knowledge, and agentic vision to allow robots to read a variety of instruments.
— Google DeepMind (@GoogleDeepMind) April 14, 2026
See how it reads an analogy gauge right down to sub tick accuracy ↓ pic.twitter.com/GQhCrYdOER
Industrial inspection is a massive visual challenge.
— Google DeepMind (@GoogleDeepMind) April 14, 2026
When robots like Spot from @BostonDynamics patrols a facility, it captures images of complex analog dials. Gemini Robotics-ER 1.6 is the upgrade that could process these, writing its own code to account for camera distortion… pic.twitter.com/pxAxKlLtqy
This is also our safest robotics model yet.
— Google DeepMind (@GoogleDeepMind) April 14, 2026
Gemini Robotics-ER 1.6 understands physical constraints like avoiding liquids or items over 20kg when carrying out instructions. It is also 10% better at detecting human injury risks in videos. pic.twitter.com/cLPkWfPoKG
Ready to build smarter robots?
— Google DeepMind (@GoogleDeepMind) April 14, 2026
The model is available now on @GoogleAIStudio and the Gemini API. Find out more → https://t.co/aGIhg2cejM pic.twitter.com/1QlfBxshxj
