← 返回首頁

OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型

Feiteng
Feiteng
@FeitengLi
107🔁 24
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型。

這款由小米團隊開發的「OmniVoice」模型,採用創新的擴散語言模型架構,支援超過 600 種語言,並透過單階段架構實現了高品質的語音生成與極致的推論速度。

核心架構與優勢

  • 單階段架構:摒棄傳統的兩階段流水線,直接將文本映射至聲學 token,架構極簡且效能優異。
  • 擴散語言模型:採用先進的擴散語言模型設計,在保持高品質輸出的同時,實現了極高的推論效率。
  • 效能表現:即時因子(RTF)低至 0.025,推論速度比即時快 40 倍。

主要功能特性

  • 多語言支援:支援超過 600 種語言,是目前零樣本 TTS 模型中覆蓋範圍最廣的。
  • 語音複製 (Voice Cloning):透過參考音訊與對應文本,實現頂尖的語音複製效果;若未提供參考文本,系統會自動呼叫 Whisper ASR 進行轉錄。
  • 語音設計 (Voice Design):使用者無需參考音訊,僅需透過屬性描述(如性別、年齡、音調、口音等)即可自定義語音特徵。
  • 精細控制:支援插入非語言符號(如 [laughter][sigh])以增加表達力,並提供拼音與 CMU 字典標記來精確控制中英文發音。

使用與部署

  • 部署靈活:支援透過 pip 或 uv 安裝,並提供 NVIDIA GPU 與 Apple Silicon 的安裝路徑。
  • API 與工具:提供 Python API 以及多種命令行工具(CLI),包含互動式網頁演示、單項推論及支援多 GPU 的批次推論功能。
  • 開源生態:專案已在 GitHub 開源,並提供完整的訓練與評估管道,使用者可透過 Hugging Face 快速體驗模型功能。