# 策展 · X (Twitter) 🔥🔥

> 作者：Jina AI (@JinaAI_) · 平台：X (Twitter) · 日期：2026-05-13

> 原始來源：https://x.com/JinaAI_/status/2054226262047301933

## 中文摘要

Jina AI 推出 jina-embeddings-v5-omni，多模態嵌入模型支援文字、圖像、音訊與影片。透過凍結文字骨幹僅訓練 0.35% 權重，實現高效擴展並維持文字嵌入相容性。

**模型規格與相容性**  
jina-embeddings-v5-omni 提供兩種尺寸：small（1.57B 參數、1024 維度、32K 上下文）和 nano（0.95B 參數、768 維度、8K 上下文）。兩者皆支援 Matryoshka truncation，可縮減至 32 維度。模型完全向後相容，若已使用 jina-embeddings-v5-text-small/nano，現有文字索引無需重建，即可直接以 v5-omni 索引多模態內容（如圖像、音訊、影片）並開始搜尋。文字輸入產生 byte-for-byte 相同的嵌入向量，Elasticsearch 中的現有文字索引可無縫整合新多模態資料。

**效能對比與 Pareto 前沿**  
在所有開源權重 omni 嵌入模型（支援文字、圖像、音訊、影片）中，jina-embeddings-v5-omni-small（1.57B）匹配 LCO-7B（8.93B）的平均分數 53.93（對 LCO-7B 的 54.43），卻僅用 5.7 倍更少的參數。nano 版（0.95B）超越 LanguageBind（1.14B）達 +8.9 分，是 2B 參數下最佳開源 omni 模型，nano 版則在 0.9B 實現競爭性文件擷取。

**任務別表現**  
橫跨 13 種任務類型，v5-omni-small 在多項任務擊敗最佳開源基線（基線模型大 3-9 倍）：  
- 圖像分類：68.55（優於 64.30）  
- 圖像叢集：84.57（優於 83.24）  
- 音訊分類：55.89（優於 53.39）  
主要差距在影片擷取（27.82 對 58.73）和組合式/VQA（44.23 對 53.40），但整體與狀態藝術相當，證明凍結訓練策略的有效性。

**技術架構：GELATO 方法**  
論文 [jina-embeddings-v5-omni: Geometry-preserving Embeddings via Locked Aligned Towers](https://arxiv.org/abs/2605.08384)（作者：Florian Hönicke、Michael Günther、Andreas Koukounas、Mohammad Kalim Akram、Scott Martens、Saba Sturua、Han Xiao，初版 2026 年 5 月 8 日，修訂版 5 月 12 日）介紹 GELATO（Geometry-preserving Embeddings via Locked Aligned Towers），基於 VLM 架構，將非文字編碼器適配至語言模型產生統一嵌入空間。保留 v5-text 骨幹完全凍結，僅訓練小型投影層（佔總權重 0.35%），遠比端到端全參數再訓練高效。  
- **視覺**：Qwen3.5 視覺編碼器（源自 SigLIP2），施以 2x2 空間合併（4 倍 token 縮減）。凍結所有層，除最終投影層 `fc_vision_2`，替換為隨機初始化層映射至文字骨幹隱藏維度。  
- **音訊**：Qwen2.5-Omni 編碼器（源自 Whisper-large-v3）。單一隨機初始化 `fc_audio` 層，將 1280 維輸出投影至文字骨幹。  
- **影片**：視為視覺畫格序列，可選前置提取音訊片段。  
繼承 v5-text 的四種任務專屬 LoRA 適配器（擷取、文字匹配、分類、叢集），各任務獨立投影權重。模組化設計：純文字部署不載入視覺/音訊權重（與 v5-text 相同佔用），圖像專用略過音訊，全 omni 載入全部。

**訓練與部署優勢**  
凍結編碼器模型組合（frozen-encoder model composition）挑戰傳統觀點「多模態嵌入需端到端訓練全模型」。v5-omni 僅訓練 0.35% 權重，即匹配 5-7 倍大小模型，帶來三大利點：  
1. 文字相同性保存：骨幹未改，同輸入產生相同輸出。  
2. 訓練效率：投影層訓練快 1.8-3.9 倍，GPU 記憶體減 42-64%。  
3. 模組化：塔狀結構獨立載入。  
生產環境關鍵：現有 v5-text 索引不受影響，即可新增圖像、音訊、影片搜尋，無需重新嵌入單一文件，將多模態擷取變為「直接升級」而非遷移專案。現已上線 [Hugging Face 收藏](https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni)、Elastic Inference Service、Jina API，以及 Elasticsearch 原生推論端點。詳見 [官方部落格](https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video/)（作者 Han Xiao，2026 年 5 月 12 日）。  

此方法強調「組合勝過再訓練」：強大文字編碼器最難取得，一旦擁有，透過輕量投影附加視覺音訊幾乎免費，重新定義多模態嵌入生產部署。

## 標籤

新產品, Embedding, AIGC, Jina AI
