Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. pic.twitter.com/jPE8KpN7Rf
— Google AI Developers (@googleaidevs) March 10, 2026
AI 中文摘要Claude 生成
Google推出「Gemini Embedding 2」,這是首個原生多模態嵌入模型,現已公開預覽。該模型能將文本、圖像、視頻、音頻和文檔映射到統一的嵌入空間,支持超過100種語言的語義理解。
在功能方面,「Gemini Embedding 2」具有顯著的多模態處理能力,包括最多8192個輸入令牌的文本、6張圖像、120秒視頻、原生音頻處理(無需文字轉錄)以及6頁以內的PDF文檔。該模型還支持交錯輸入,允許在單次請求中同時傳入多種媒體類型,進而捕捉不同媒體間的複雜語義關係。
技術層面上,模型採用「俄羅斯套娃表徵學習」(Matryoshka Representation Learning)技術,支持靈活的輸出維度調整(從預設的3072維可縮減至768維),幫助開發者平衡性能與存儲成本。性能方面,「Gemini Embedding 2」在文本、圖像和視頻任務上的表現超越現有主流模型,並具有強大的語音能力。
該模型適用於檢索增強生成、語義搜索、情感分析和數據聚類等多種應用場景。開發者可通過「Gemini API」或「Vertex AI」開始使用。
