# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Xiaomi MiMo (@XiaomiMiMo) · 平台：X (Twitter) · 日期：2026-04-24

> 原始來源：https://x.com/XiaomiMiMo/status/2047381515341029761

## 中文摘要

小米MiMo推出V2.5語音系列，專為Agent時代打造全棧TTS與ASR模型。

小米MiMo發布「MiMo-V2.5 Voice」全棧語音產品線，包括「MiMo-V2.5-TTS」系列三款模型與開源「MiMo-V2.5-ASR」，強調從單純聽讀轉向精準理解與靈活表達，適用於Agent應用、音效劇與虛擬主播等創作場景。

**系列模型介紹**

「MiMo-V2.5-TTS」系列包含三款專用模型，各針對不同需求：
- 「MiMo-V2.5-TTS」：內建高品質聲音，專業調校自然發音與表達，即開即用，支持唱歌模式。
- 「MiMo-V2.5-TTS-VoiceDesign」：透過自然語言描述生成全新聲音，無需參考音頻，可定義年齡、口音、質感、氣質與說話風格，甚至創作不存在的角色聲音。
- 「MiMo-V2.5-TTS-VoiceClone」：僅需數秒參考音頻，即高保真複製目標聲音，保留氣息、節奏與停頓等個人細節，無需額外訓練或微調。

「MiMo-V2.5-ASR」為開源End to End (端到端)語音辨識模型，在多項權威基準達到最先進或高度競爭性能。

**TTS核心能力**

三款模型共享三大強項，讓聲音真正可控、具表現力並融入創作流程：
- **強大指令遵循**：從單句提示到完整導演筆記，穩定遵循情緒、語氣、語速、發聲方式與風格指引。例如，指令「聲音低沉沙啞一點，像個彷彿滄桑的老前輩在講述傳奇人物。語氣裡帶點由衷的敬佩、娓娓道來」，模型精準合成老周敘述；或「讀起來像一個喝了太多咖啡的電台DJ，用快節奏的語氣進行贊助商廣告」，生成活力廣告詞。
- **靈活音頻標籤控制**：在文本特定位置嵌入標籤，精準操控情緒、狀態與風格，支持中英雙語與開放描述，可複雜組合。例如，法庭場景加入[sternly]、[clears throat]、[commanding]、[trembling]、[Angry]、[sighs]、[wearily]，模擬法官與被告情緒轉換；科幻場景用[調侃]、[模仿音量，提高音量]、[突然停頓]、[爆發，憤怒壓不住]等，呈現角色起伏。
- **豐富文本理解**：純文本無提示無標籤，即自動捕捉節奏、停頓、情緒轉變與角色暗示。例如，倒數計時自動加速激昂；對話中自動切換小孩尖叫、老人咕噥、警官嚴肅與小孩啜泣的音色語氣。

這些能力支援多風格切換（如公告→耳語→咆哮）、多情緒混合（如「壓抑憤怒」「邊哭邊笑」）與多粒度控制（段落→句子→單字→單字元），自然語言置於user訊息，標籤置於assistant訊息。

**VoiceDesign與VoiceClone細節**

「MiMo-V2.5-TTS-VoiceDesign」讓聲音創作直觀高效：
- 輸入「Heavy Russian accent, gruff middle-aged male, blunt and matter-of-fact」，生成濃厚俄羅斯口音粗獷男性聲。
- 輸入「Young female, extreme close-up with a binaural, ear-to-ear ASMR feel. Audible breathing, subtle swallowing, and soft natural lip sounds. She speaks very slowly」，產生沉浸ASMR女性聲。
- 中文示例：「一位中年男性，說標準普通話，嗓音低沉有磁性，帶有輕微的沙啞質感，像紀錄片旁白解說員」；「一位年近的老先生，說標準北方口音的普通話，語速緩慢而沉穩，嗓音略帶沙啞和滄桑」。

「MiMo-V2.5-TTS-VoiceClone」僅需少量樣本復刻：
- 基於參考音頻，朗讀不同文本時保留原聲調、氣息與節奏，同時保有完整控制棧。

**ASR強大辨識場景**

「MiMo-V2.5-ASR」專攻真實混亂語音，涵蓋中英雙語、中國方言、語碼轉換、重疊講者、噪音與知識密集內容：
- **中國方言**：原生支援吳語、粵語、閩南語、四川話等，辨識如「再講呢，爺娘又勿辣身邊，勿懂呀，有吃就拼命吃，就像個狼一樣個」。
- **語碼轉換**：無語言標籤，即順暢中英混雜，如直播中「比從上海飛我們青海還便宜呢，啊，吉祥航空，人民幣兩千二」。
- **歌詞辨識**：精準轉錄中英歌曲，含伴奏與變調。
- **噪音與遠場**：高噪音、遠距拾音仍可靠。
- **多講者**：會議重疊對話準確，如電競實況「RNG贏需要三十、三十五分鐘，T1贏就需要二十五分鐘」。
- **知識密集**：古典詩詞（如「君不見黃河之水天上來」）、專有名詞（如Stack Overflow、GitHub）、地名與技術術語。
- **複雜英文**：在AMI等Open ASR Leaderboard挑戰基準領先。
- **原生標點**：直接從韻律與語義生成，無需後處理。

性能圖表顯示，在一般中英、方言、語碼轉換、歌詞與內部業務基準均達最先進水準。

**使用入門與整合**

**TTS存取方式**：
- 限時免費於「Xiaomi MiMo API平台」：https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5
- 即時試用「Xiaomi MiMo Studio」：https://aistudio.xiaomimimo.com/#/c
- 案例展示：https://mimo.xiaomi.com/mimo-v2-5-tts
- 開源「MiMo TTS Skills」快速整合Agent：https://github.com/XiaomiMiMo/MiMo-Skills，開發者可參考該程式庫進行整合。

**ASR存取方式**：
- 展示：https://mimo.xiaomi.com/mimo-v2-5-asr
- 程式碼：https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
- 權重：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-ASR
- Hugging Face Space：https://huggingface.co/spaces/XiaomiMiMo/MiMo-V2.5-ASR

安裝需Python 3.12、CUDA >=12.0，執行`python run_mimo_asr.py`啟動Gradio Demo，支持麥克風錄音與語言標籤（<chinese>、<english>或Auto）。

**未來展望**

小米MiMo持續優化語音模型，強化脈絡理解，讓模型從逐句執行轉為掌握敘事脈絡的講故事者。ASR將擴大方言涵蓋並深化脈絡意識。影片示範：https://www.youtube.com/watch?v=hIBFKB-avdM、https://www.youtube.com/watch?v=n-cA8GRlPWM。

## 標籤

TTS, Agent, 新產品, 開源專案, 小米, MiMo
