# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Feiteng (@FeitengLi) · 平台：X (Twitter) · 日期：2026-04-02

> 原始來源：https://x.com/FeitengLi/status/2039639771912515584

## 中文摘要

OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型。

這款由小米團隊開發的「OmniVoice」模型，採用創新的擴散語言模型架構，支援超過 600 種語言，並透過單階段架構實現了高品質的語音生成與極致的推論速度。

**核心架構與優勢**
- **單階段架構**：摒棄傳統的兩階段流水線，直接將文本映射至聲學 token，架構極簡且效能優異。
- **擴散語言模型**：採用先進的擴散語言模型設計，在保持高品質輸出的同時，實現了極高的推論效率。
- **效能表現**：即時因子（RTF）低至 0.025，推論速度比即時快 40 倍。

**主要功能特性**
- **多語言支援**：支援超過 600 種語言，是目前零樣本 TTS 模型中覆蓋範圍最廣的。
- **語音複製 (Voice Cloning)**：透過參考音訊與對應文本，實現頂尖的語音複製效果；若未提供參考文本，系統會自動呼叫 Whisper ASR 進行轉錄。
- **語音設計 (Voice Design)**：使用者無需參考音訊，僅需透過屬性描述（如性別、年齡、音調、口音等）即可自定義語音特徵。
- **精細控制**：支援插入非語言符號（如 `[laughter]`、`[sigh]`）以增加表達力，並提供拼音與 CMU 字典標記來精確控制中英文發音。

**使用與部署**
- **部署靈活**：支援透過 pip 或 uv 安裝，並提供 NVIDIA GPU 與 Apple Silicon 的安裝路徑。
- **API 與工具**：提供 Python API 以及多種命令行工具（CLI），包含互動式網頁演示、單項推論及支援多 GPU 的批次推論功能。
- **開源生態**：專案已在 GitHub 開源，並提供完整的訓練與評估管道，使用者可透過 Hugging Face 快速體驗模型功能。

## 標籤

TTS, 新產品, AIGC, OmniVoice, 小米, Kaldi
