OpenBMB 發布 VoxCPM2:無需 token 的多語言語音生成模型
AI 中文摘要Claude 生成
OpenBMB 發布 VoxCPM2:無需 token 的多語言語音生成模型。
OpenBMB 推出的 VoxCPM2 是一款具備 20 億參數的無 token 擴散自回歸語音生成模型,支援 30 種語言並提供 48kHz 的高品質音訊輸出。該模型不僅開源且可商用,更具備創新的語音設計與精準的語音複製能力。
核心功能與多語言支援
- 支援 30 種語言,無需語言標籤,使用者可直接輸入文字進行生成。
- 語音設計:透過自然語言描述(如性別、年齡、語氣、情緒、語速)即可生成全新語音,無需參考音訊。
- 可控複製:透過短音訊片段進行複製,並可調整情緒與語速,同時保留原始音色。
- 極致複製:提供參考音訊與逐字稿,可進行音訊延續複製,精確重現語音細節。
- 高品質輸出:內建 AudioVAE V2 超解析度技術,直接輸出 48kHz 工作室等級音訊,無需外部升頻器。
技術架構與效能表現
- 架構:採用無 token 的擴散自回歸架構(LocEnc → TSLM → RALM → LocDiT),基於 MiniCPM-4 骨幹,參數規模為 20 億。
- 訓練資料:使用超過 200 萬小時的多語言語音資料進行訓練。
- 即時效能:在 NVIDIA RTX 4090 上,即時因子(RTF)約為 0.3,若使用 Nano-VLLM 加速可降至約 0.13。
- 硬體需求:記憶體需求約為 8 GB。
- 微調:支援全參數 SFT 與 LoRA 微調,僅需 5 至 10 分鐘的音訊資料即可完成。
限制與倫理規範
- 生成結果變異:語音設計與風格控制的結果可能因執行次數而異,建議多次生成以獲得理想輸出。
- 語言差異:效能會隨訓練資料的多寡在不同語言間產生差異。
- 穩定性:處理極長或高情緒表達的輸入時,偶爾會出現不穩定狀況。
- 嚴格禁止濫用:明確禁止將此模型用於冒充他人、詐騙或散佈虛假資訊,並要求使用者必須清楚標示人工智慧生成的內容。
授權條款
- 採用 Apache-2.0 授權,開放商業使用。開發團隊建議在生產環境部署前,針對特定應用場景進行徹底的測試與安全評估。
VoxCPM2 🔊 New token-free TTS model from @OpenBMB https://t.co/fHUlDGce1Y
— Adina Yakup (@AdinaYakup) April 7, 2026
✨2B - Apache 2.0
✨30 languages supported
✨Design voices from text (gender, age, tone, emotion)
✨48kHz studio-quality audio pic.twitter.com/emSgsDyUTh
