← 返回首頁
Mistral AI
Mistral AI
@MistralAI
4,310🔁 587
𝕏 (Twitter)🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Mistral 推出 Voxtral TTS,一款輕量化的多語言文字轉語音模型,聲稱在零樣本語音適應測試中超越 ElevenLabs v2.5 Flash,同時維持低延遲性能,主要瞄準企業級語音代理應用。

核心功能與設計特點

Voxtral TTS 是一個參數量為 4B 的輕量級模型,專為全球應用而設計。關鍵特性包括:

  • 支援 9 種語言(英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、義大利語、印度語、阿拉伯語)及多種方言
  • 提供逼真、情感表達豐富的語音生成,能理解語境(中立、開心、諷刺等)
  • 極低延遲:模型延遲達 70ms(以 10 秒語音樣本和 500 字元計算),實時係數約 9.7 倍
  • 快速語音適應,最少需要 3 秒參考音頻即可進行客製化
  • 零樣本跨語言語音適應,例如可用法語語音提示生成帶法語口音的英文語音

技術架構

模型採用 Transformer 基礎架構,建構在 Ministral 3B 之上,包含三個主要組件:

  • 3.4B 參數的 Transformer 解碼器主幹
  • 390M 參數的流匹配聲學 Transformer
  • 300M 參數的神經音訊編解碼器(對稱式編解碼)

系統以語音提示和文字提示為輸入,對每個音訊幀預測語義 token,接著流匹配 Transformer 執行 16 次函數評估(NFE)產生聲學潛在表示。Mistral 開發的內部編解碼器採用因果處理,使用語義向量量化(8192 詞彙量)和聲學向量量化(36 維、21 級),以 12.5Hz 幀率輸出。

性能評測與對標

Mistral 強調自動化指標(如字錯誤率、音訊品質分數)無法準確衡量語音自然度,因此進行了由母語使用者評判的人工評估。在零樣本客製語音測試中,使用每種語言中的兩個可辨識語音及其母語方言,3 名標註者進行並排偏好測試,評估自然度、口音準確性和與原始參考語音的相似度。結果顯示 Voxtral TTS 相比 ElevenLabs v2.5 Flash 擴大品質優勢,同時在時至首音訊(TTFA)上保持相近水準,且在情感導向方面與 ElevenLabs v3 並駕齊驅。

企業應用與部署

模型可整合現有的語音轉文字和大語言模型堆疊,或與 Voxtral Transcribe 搭配進行端到端語音轉語音。典型應用場景包括客戶支援語音代理和自動化客服系統的語音回應輸出。定價為每 1000 字元 0.016 美元。開源權重模型以 CC BY NC 4.0 授權在 Hugging Face 上發布,亦可在 Mistral Studio 和 Le Chat 中直接測試。