← 返回首頁
Google AI Developers
Google AI Developers
@googleaidevs
2,602🔁 323
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成
Google推出「Gemini Embedding 2」,這是首個原生多模態嵌入模型,現已公開預覽。該模型能將文本、圖像、視頻、音頻和文檔映射到統一的嵌入空間,支持超過100種語言的語義理解。 在功能方面,「Gemini Embedding 2」具有顯著的多模態處理能力,包括最多8192個輸入令牌的文本、6張圖像、120秒視頻、原生音頻處理(無需文字轉錄)以及6頁以內的PDF文檔。該模型還支持交錯輸入,允許在單次請求中同時傳入多種媒體類型,進而捕捉不同媒體間的複雜語義關係。 技術層面上,模型採用「俄羅斯套娃表徵學習」(Matryoshka Representation Learning)技術,支持靈活的輸出維度調整(從預設的3072維可縮減至768維),幫助開發者平衡性能與存儲成本。性能方面,「Gemini Embedding 2」在文本、圖像和視頻任務上的表現超越現有主流模型,並具有強大的語音能力。 該模型適用於檢索增強生成、語義搜索、情感分析和數據聚類等多種應用場景。開發者可通過「Gemini API」或「Vertex AI」開始使用。