AI 語音朗讀 · Edge TTS
多模態能力的新突破
阿里巴巴推出 Qwen3.5-Omni,是其最新一代完全多模態大語言模型,支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本(Plus、Flash、Light),支援 256k 長文脈輸入。相比 Qwen3-Omni,Qwen3.5-Omni 在多語言能力上有顯著增強,支援 113 種語言/方言的語音辨識和 36 種語言/方言的語音生成。
卓越的多模態處理規模
模型能夠處理超過 10 小時的音訊輸入和超過 400 秒的 720P 音訊-視覺輸入(1 FPS),採用混合注意力 Mixture-of-Experts (MoE) 架構。Qwen3.5-Omni 在超過 1 億小時的音訊-視覺資料上進行原生預訓練,展現出全模態的感知和生成能力。
基準測試的領先表現
Qwen3.5-Omni-Plus 在 215 項音訊和音訊-視覺理解、推理及互動子任務/基準上達到國際先進水準,涵蓋 3 項音訊-視覺基準、5 項音訊基準、8 項自動語音辨識 (ASR) 基準、156 項語言特定的語音轉文字 (S2TT) 任務,以及 43 項語言特定的 ASR 任務。在一般音訊理解、推理、辨識、翻譯和對話方面超越 Google Gemini-3.1 Pro,其整體音訊-視覺理解能力與 Gemini-3.1 Pro 相當,視覺和文字能力則與同規模的 Qwen3.5 模型相匹配。
突破性的音訊-視覺功能
- 腳本級字幕生成:能產生可控制、詳細且結構化的字幕,以及電影級細粒度描述,包括自動分段、時間戳標註,以及角色及其與音訊關聯的詳細描述
- 音訊-視覺 Vibe 編程:這是多模態模型通過原生多模態擴展所出現的新興能力,能直接根據音訊-視覺指令執行程式碼撰寫
- 語音搜尋整合:原生支援網路搜尋和複雜函式呼叫能力,模型可自主決定是否呼叫網路搜尋來回應使用者的實時問題
即時互動的增強
- 語義中斷辨識:透過在 Omni 基礎上開發原生轉折意圖辨識,避免背景談話和無意義背景噪音造成的中斷
- End to End (端到端) 語音控制:支援自由控制音量、速度和情感,使模型能像人類一樣遵循指令
- 語音複製功能:使用者可上傳語音自訂 AI 助手的聲音
- 系統提示自訂:修改系統提示以改變模型行為,如對話風格或身份
- 語音穩定性改進:提出 ARIA (Adaptive Rate Interleave Alignment) 技術,動態對齊文字和語音單元,解決串流語音互動中因文字和語音 token 編碼效率差異造成的不穩定(如遺漏、誤讀或數字發音不清),在保持即時性能的同時顯著提升語音合成的自然度和魯棒性。
架構設計
Qwen3.5-Omni 持續採用 Thinker-Talker 雙層架構。Thinker 透過視覺編碼器和音訊轉錄器接收視覺和音訊訊號,採用 TMRoPE 進行位置編碼,負責處理多模態訊號並輸出文字。Talker 接收 Thinker 的多模態輸入和文字輸出以進行上下文語音生成,使用 RVQ 方法編碼語音表示以替代運算量大的 DiT 操作。整個模型支援即時互動,Talker 輸入組織採用 ARIA 動態對齐機制,避免因編碼效率差異造成的語音不穩定。
1/10 🚀 Qwen3.5-Omni is here! Scaling up to a native omni-modal AGI.
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
Meet the next generation of Qwen, designed for native text, image, audio, and video understanding, with major advances in both intelligence and real-time interaction.
A standout feature:
Audio-Visual Vibe… pic.twitter.com/fWWyTl9cPY
2/10 Script-Level Captioning pic.twitter.com/q4bKesjJVo
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
3/10 Audio-Visual Vibe Coding pic.twitter.com/4SruDHarXl
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
4/10 Audio-Visual Vibe Coding pic.twitter.com/6XCB53L6QA
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
5/10 Web Search pic.twitter.com/FRqtlmHOYn
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
6/10 Multi-Turn Dialogue and Intelligent Interruption pic.twitter.com/k6Zv7JPJGx
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
7/10 Voice Style, Emotion and Volume Control pic.twitter.com/L3iMuRp4T4
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
8/10 Benchmark pic.twitter.com/UuVpdC8eem
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
9/10 Try it now🚀
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
Qwenchat: https://t.co/8zTSZhWE52
Blog: https://t.co/rcAVBq99Jc
Hugging Face Offline Demo: https://t.co/1J18xWHoHx
Hugging Face Online Demo: https://t.co/gEIQGzAltr
API: https://t.co/zfgS9tmuea
10/10 Don't miss out on the discussion. Join the server now!https://t.co/r9TjufrUYn
— Tongyi Lab (@Ali_TongyiLab) March 30, 2026
