# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Demis Hassabis (@demishassabis) · 平台：X (Twitter) · 日期：2026-05-20

> 原始來源：https://x.com/demishassabis/status/2056831486251380783

## 中文摘要

Gemini Omni 實現原生多模態深度推理。

Google DeepMind 技術長暨首席 AI 架構師 Koray Kavukcuoglu 正式發表了「Gemini Omni」模型家族。這項技術標誌著 Gemini 從單純的資訊處理跨越至「推理與創造」並行的階段，首波釋出的「Gemini Omni Flash」模型，讓使用者能透過自然語言指令，對影片進行複雜的編輯與生成，並確保場景的一致性與物理邏輯的合理性。

**核心技術突破**
Gemini Omni 的設計初衷是「原生多模態」，這意味著它並非透過多個獨立模型拼接而成，而是從底層架構就具備同時處理影像、音訊、影片與文字的能力。其關鍵技術特點包括：
- **場景一致性與物理推理**：Omni 不僅是生成視覺影像，更具備對重力、動能與流體力學的直覺理解，能確保影片中的角色、物理規則與場景記憶在多次編輯互動中保持連貫。
- **跨模態整合**：使用者可以將圖像、文字、影片或音訊作為參考輸入，模型能將這些異質資訊轉化為具備連貫性的視覺輸出。
- **對話式編輯**：使用者無需專業剪輯軟體，僅需透過自然語言描述，即可調整影片的環境、拍攝角度、風格或特定細節，且每一項指令都會基於前一次的編輯結果進行疊加。

**應用場景與功能**
Gemini Omni 旨在將使用者的創意具象化，並結合 Google 的世界知識庫進行敘事：
- **影片重構**：使用者可將拍攝的影片作為基礎，要求模型改變動作、加入新角色或物件，甚至將現實場景轉化為超現實的視覺內容。
- **複雜概念視覺化**：透過簡短的提示詞（prompt），Omni 能將抽象或複雜的知識點轉化為具備教育意義的視覺說明影片。
- **數位分身（Avatar）**：為了負責任地推動 AI 發展，Google 允許使用者建立個人的數位分身，生成外觀與聲音皆與本人一致的影片。目前針對變更現有影片音訊與語音的編輯功能，Google 仍處於嚴謹的測試階段，以確保技術應用符合安全規範。

**透明度與安全性**
針對 AI 生成內容的潛在風險，Google 採取了明確的防護措施：
- **SynthID 數位浮水印**：所有由 Gemini Omni 生成的影片均會嵌入無法察覺的「SynthID」數位浮水印。
- **內容驗證**：使用者可透過「Gemini App」、「Chrome 瀏覽器中的 Gemini」以及「Google 搜尋」來驗證影片是否由 Gemini Omni 生成，以提升網路內容的透明度。

**取得方式與時程**
Gemini Omni 系列的首款模型「Gemini Omni Flash」已於即日起開始部署：
- **訂閱使用者**：全球的 Google AI Plus、Pro 與 Ultra 訂閱者可透過「Gemini App」與「Google Flow」使用。
- **創作者工具**：本週起免費開放給「YouTube Shorts」與「YouTube Create App」的使用者。
- **開發者與企業**：Google 將於未來幾週內透過 API 形式，將此技術開放給開發者與企業客戶使用。

更多詳細資訊可參考 Google 官方部落格的說明：[Gemini Omni 介紹](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/)

## 標籤

Gemini, VLM, 新產品, 功能更新, Google, DeepMind, Gemini