OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型
AI 語音朗讀 · Edge TTS
AI 中文摘要Claude 生成
OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型。
這款由小米團隊開發的「OmniVoice」模型,採用創新的擴散語言模型架構,支援超過 600 種語言,並透過單階段架構實現了高品質的語音生成與極致的推論速度。
核心架構與優勢
- 單階段架構:摒棄傳統的兩階段流水線,直接將文本映射至聲學 token,架構極簡且效能優異。
- 擴散語言模型:採用先進的擴散語言模型設計,在保持高品質輸出的同時,實現了極高的推論效率。
- 效能表現:即時因子(RTF)低至 0.025,推論速度比即時快 40 倍。
主要功能特性
- 多語言支援:支援超過 600 種語言,是目前零樣本 TTS 模型中覆蓋範圍最廣的。
- 語音複製 (Voice Cloning):透過參考音訊與對應文本,實現頂尖的語音複製效果;若未提供參考文本,系統會自動呼叫 Whisper ASR 進行轉錄。
- 語音設計 (Voice Design):使用者無需參考音訊,僅需透過屬性描述(如性別、年齡、音調、口音等)即可自定義語音特徵。
- 精細控制:支援插入非語言符號(如
[laughter]、[sigh])以增加表達力,並提供拼音與 CMU 字典標記來精確控制中英文發音。
使用與部署
- 部署靈活:支援透過 pip 或 uv 安裝,並提供 NVIDIA GPU 與 Apple Silicon 的安裝路徑。
- API 與工具:提供 Python API 以及多種命令行工具(CLI),包含互動式網頁演示、單項推論及支援多 GPU 的批次推論功能。
- 開源生態:專案已在 GitHub 開源,並提供完整的訓練與評估管道,使用者可透過 Hugging Face 快速體驗模型功能。
Kaldi 之父 Daniel Povey 的新作,小米团队出品。
— Feiteng (@FeitengLi) April 2, 2026
OmniVoice — 一个零样本 TTS 模型,支持 600+ 语言,覆盖面直接拉满:
1)单阶段架构,文本直接映射到声学 token,不走两阶段流水线。结构极简但效果反超 MaskGCT、F5-TTS 这些 NAR 前辈
2)用 Qwen3-0.6B 初始化 backbone,NAR TTS… pic.twitter.com/Tz01ndxhEj
