# 策展 · X (Twitter) 🔥

> 作者：Tongyi Lab (@Ali_TongyiLab) · 平台：X (Twitter) · 日期：2026-03-30

> 原始來源：https://x.com/ali_tongyilab/status/2038609308750143762

## 中文摘要

阿里巴巴推出 Qwen3.5-Omni，是其最新一代完全多模態大語言模型，支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本（Plus、Flash、Light），支援 256k 長文脈輸入。相比 Qwen3-Omni，Qwen3.5-Omni 在多語言能力上有顯著增強，支援 113 種語言/方言的語音辨識和 36 種語言/方言的語音生成。

**卓越的多模態處理規模**

模型能夠處理超過 10 小時的音訊輸入和超過 400 秒的 720P 音訊-視覺輸入（1 FPS），採用混合注意力 Mixture-of-Experts (MoE) 架構。Qwen3.5-Omni 在超過 1 億小時的音訊-視覺資料上進行原生預訓練，展現出全模態的感知和生成能力。

**基準測試的領先表現**

Qwen3.5-Omni-Plus 在 215 項音訊和音訊-視覺理解、推理及互動子任務/基準上達到國際先進水準，涵蓋 3 項音訊-視覺基準、5 項音訊基準、8 項自動語音辨識 (ASR) 基準、156 項語言特定的語音轉文字 (S2TT) 任務，以及 43 項語言特定的 ASR 任務。在一般音訊理解、推理、辨識、翻譯和對話方面超越 Google Gemini-3.1 Pro，其整體音訊-視覺理解能力與 Gemini-3.1 Pro 相當，視覺和文字能力則與同規模的 Qwen3.5 模型相匹配。

**突破性的音訊-視覺功能**

- **腳本級字幕生成**：能產生可控制、詳細且結構化的字幕，以及電影級細粒度描述，包括自動分段、時間戳標註，以及角色及其與音訊關聯的詳細描述
- **音訊-視覺 Vibe 編程**：這是多模態模型通過原生多模態擴展所出現的新興能力，能直接根據音訊-視覺指令執行程式碼撰寫
- **語音搜尋整合**：原生支援網路搜尋和複雜函式呼叫能力，模型可自主決定是否呼叫網路搜尋來回應使用者的實時問題

**即時互動的增強**

- **語義中斷辨識**：透過在 Omni 基礎上開發原生轉折意圖辨識，避免背景談話和無意義背景噪音造成的中斷
- **End to End (端到端) 語音控制**：支援自由控制音量、速度和情感，使模型能像人類一樣遵循指令
- **語音複製功能**：使用者可上傳語音自訂 AI 助手的聲音
- **系統提示自訂**：修改系統提示以改變模型行為，如對話風格或身份
- **語音穩定性改進**：提出 ARIA (Adaptive Rate Interleave Alignment) 技術，動態對齊文字和語音單元，解決串流語音互動中因文字和語音 token 編碼效率差異造成的不穩定（如遺漏、誤讀或數字發音不清），在保持即時性能的同時顯著提升語音合成的自然度和魯棒性。

**架構設計**

Qwen3.5-Omni 持續採用 Thinker-Talker 雙層架構。Thinker 透過視覺編碼器和音訊轉錄器接收視覺和音訊訊號，採用 TMRoPE 進行位置編碼，負責處理多模態訊號並輸出文字。Talker 接收 Thinker 的多模態輸入和文字輸出以進行上下文語音生成，使用 RVQ 方法編碼語音表示以替代運算量大的 DiT 操作。整個模型支援即時互動，Talker 輸入組織採用 ARIA 動態對齐機制，避免因編碼效率差異造成的語音不穩定。

## 標籤

AIGC, LLM, VLM, 新產品, Alibaba, Qwen
