← 返回首頁
Tongyi Lab
Tongyi Lab
@Ali_TongyiLab
1,174🔁 157
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

多模態能力的新突破

阿里巴巴推出 Qwen3.5-Omni,是其最新一代完全多模態大語言模型,支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本(Plus、Flash、Light),支援 256k 長文脈輸入。相比 Qwen3-Omni,Qwen3.5-Omni 在多語言能力上有顯著增強,支援 113 種語言/方言的語音辨識和 36 種語言/方言的語音生成。

卓越的多模態處理規模

模型能夠處理超過 10 小時的音訊輸入和超過 400 秒的 720P 音訊-視覺輸入(1 FPS),採用混合注意力 Mixture-of-Experts (MoE) 架構。Qwen3.5-Omni 在超過 1 億小時的音訊-視覺資料上進行原生預訓練,展現出全模態的感知和生成能力。

基準測試的領先表現

Qwen3.5-Omni-Plus 在 215 項音訊和音訊-視覺理解、推理及互動子任務/基準上達到國際先進水準,涵蓋 3 項音訊-視覺基準、5 項音訊基準、8 項自動語音辨識 (ASR) 基準、156 項語言特定的語音轉文字 (S2TT) 任務,以及 43 項語言特定的 ASR 任務。在一般音訊理解、推理、辨識、翻譯和對話方面超越 Google Gemini-3.1 Pro,其整體音訊-視覺理解能力與 Gemini-3.1 Pro 相當,視覺和文字能力則與同規模的 Qwen3.5 模型相匹配。

突破性的音訊-視覺功能

  • 腳本級字幕生成:能產生可控制、詳細且結構化的字幕,以及電影級細粒度描述,包括自動分段、時間戳標註,以及角色及其與音訊關聯的詳細描述
  • 音訊-視覺 Vibe 編程:這是多模態模型通過原生多模態擴展所出現的新興能力,能直接根據音訊-視覺指令執行程式碼撰寫
  • 語音搜尋整合:原生支援網路搜尋和複雜函式呼叫能力,模型可自主決定是否呼叫網路搜尋來回應使用者的實時問題

即時互動的增強

  • 語義中斷辨識:透過在 Omni 基礎上開發原生轉折意圖辨識,避免背景談話和無意義背景噪音造成的中斷
  • End to End (端到端) 語音控制:支援自由控制音量、速度和情感,使模型能像人類一樣遵循指令
  • 語音複製功能:使用者可上傳語音自訂 AI 助手的聲音
  • 系統提示自訂:修改系統提示以改變模型行為,如對話風格或身份
  • 語音穩定性改進:提出 ARIA (Adaptive Rate Interleave Alignment) 技術,動態對齊文字和語音單元,解決串流語音互動中因文字和語音 token 編碼效率差異造成的不穩定(如遺漏、誤讀或數字發音不清),在保持即時性能的同時顯著提升語音合成的自然度和魯棒性。

架構設計

Qwen3.5-Omni 持續採用 Thinker-Talker 雙層架構。Thinker 透過視覺編碼器和音訊轉錄器接收視覺和音訊訊號,採用 TMRoPE 進行位置編碼,負責處理多模態訊號並輸出文字。Talker 接收 Thinker 的多模態輸入和文字輸出以進行上下文語音生成,使用 RVQ 方法編碼語音表示以替代運算量大的 DiT 操作。整個模型支援即時互動,Talker 輸入組織採用 ARIA 動態對齐機制,避免因編碼效率差異造成的語音不穩定。