# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Adina Yakup (@AdinaYakup) · 平台：X (Twitter) · 日期：2026-04-07

> 原始來源：https://x.com/adinayakup/status/2041451366015475935

## 中文摘要

OpenBMB 發布 VoxCPM2：無需 token 的多語言語音生成模型。

OpenBMB 推出的 VoxCPM2 是一款具備 20 億參數的無 token 擴散自回歸語音生成模型，支援 30 種語言並提供 48kHz 的高品質音訊輸出。該模型不僅開源且可商用，更具備創新的語音設計與精準的語音複製能力。

**核心功能與多語言支援**
- 支援 30 種語言，無需語言標籤，使用者可直接輸入文字進行生成。
- 語音設計：透過自然語言描述（如性別、年齡、語氣、情緒、語速）即可生成全新語音，無需參考音訊。
- 可控複製：透過短音訊片段進行複製，並可調整情緒與語速，同時保留原始音色。
- 極致複製：提供參考音訊與逐字稿，可進行音訊延續複製，精確重現語音細節。
- 高品質輸出：內建 AudioVAE V2 超解析度技術，直接輸出 48kHz 工作室等級音訊，無需外部升頻器。

**技術架構與效能表現**
- 架構：採用無 token 的擴散自回歸架構（LocEnc → TSLM → RALM → LocDiT），基於 MiniCPM-4 骨幹，參數規模為 20 億。
- 訓練資料：使用超過 200 萬小時的多語言語音資料進行訓練。
- 即時效能：在 NVIDIA RTX 4090 上，即時因子（RTF）約為 0.3，若使用 Nano-VLLM 加速可降至約 0.13。
- 硬體需求：記憶需求約為 8 GB。
- 微調：支援全參數 SFT 與 LoRA 微調，僅需 5 至 10 分鐘的音訊資料即可完成。

**限制與倫理規範**
- 生成結果變異：語音設計與風格控制的結果可能因執行次數而異，建議多次生成以獲得理想輸出。
- 語言差異：效能會隨訓練資料的多寡在不同語言間產生差異。
- 穩定性：處理極長或高情緒表達的輸入時，偶爾會出現不穩定狀況。
- 嚴格禁止濫用：明確禁止將此模型用於冒充他人、詐騙或散佈虛假資訊，並要求使用者必須清楚標示人工智慧生成的內容。

**授權條款**
- 採用 Apache-2.0 授權，開放商業使用。開發團隊建議在生產環境部署前，針對特定應用場景進行徹底的測試與安全評估。

## 標籤

TTS, 開源專案, 新產品, OpenBMB
