← 返回首頁

OpenBMB 發布 VoxCPM2:無需 token 的多語言語音生成模型

Adina Yakup
Adina Yakup
@AdinaYakup
141🔁 22
𝕏 (Twitter)🔥🔥🔥🔥
AI 中文摘要Claude 生成

OpenBMB 發布 VoxCPM2:無需 token 的多語言語音生成模型。

OpenBMB 推出的 VoxCPM2 是一款具備 20 億參數的無 token 擴散自回歸語音生成模型,支援 30 種語言並提供 48kHz 的高品質音訊輸出。該模型不僅開源且可商用,更具備創新的語音設計與精準的語音複製能力。

核心功能與多語言支援

  • 支援 30 種語言,無需語言標籤,使用者可直接輸入文字進行生成。
  • 語音設計:透過自然語言描述(如性別、年齡、語氣、情緒、語速)即可生成全新語音,無需參考音訊。
  • 可控複製:透過短音訊片段進行複製,並可調整情緒與語速,同時保留原始音色。
  • 極致複製:提供參考音訊與逐字稿,可進行音訊延續複製,精確重現語音細節。
  • 高品質輸出:內建 AudioVAE V2 超解析度技術,直接輸出 48kHz 工作室等級音訊,無需外部升頻器。

技術架構與效能表現

  • 架構:採用無 token 的擴散自回歸架構(LocEnc → TSLM → RALM → LocDiT),基於 MiniCPM-4 骨幹,參數規模為 20 億。
  • 訓練資料:使用超過 200 萬小時的多語言語音資料進行訓練。
  • 即時效能:在 NVIDIA RTX 4090 上,即時因子(RTF)約為 0.3,若使用 Nano-VLLM 加速可降至約 0.13。
  • 硬體需求:記憶體需求約為 8 GB。
  • 微調:支援全參數 SFT 與 LoRA 微調,僅需 5 至 10 分鐘的音訊資料即可完成。

限制與倫理規範

  • 生成結果變異:語音設計與風格控制的結果可能因執行次數而異,建議多次生成以獲得理想輸出。
  • 語言差異:效能會隨訓練資料的多寡在不同語言間產生差異。
  • 穩定性:處理極長或高情緒表達的輸入時,偶爾會出現不穩定狀況。
  • 嚴格禁止濫用:明確禁止將此模型用於冒充他人、詐騙或散佈虛假資訊,並要求使用者必須清楚標示人工智慧生成的內容。

授權條款

  • 採用 Apache-2.0 授權,開放商業使用。開發團隊建議在生產環境部署前,針對特定應用場景進行徹底的測試與安全評估。