# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：ModelScope (@ModelScope2022) · 平台：X (Twitter) · 日期：2026-05-27

> 原始來源：https://x.com/ModelScope2022/status/2059243470469185617

## 中文摘要

MOSS-TTS 模型更新強化多語言效能。

**核心更新與模型生態**
MOSS-TTS v1.5 於近期發布，將支援語言從 20 種擴增至 31 種，新增粵語、印地語、泰語、越南語、他加祿語、斯瓦希里語等，並強化語音克隆穩定性與長參考音訊的處理效果。此外，MOSS-SoundEffect v2.0 採用 DiT（Diffusion Transformer）架構，支援 30 秒長度的 48 kHz 音效生成；輕量級的 MOSS-TTS-Nano 則僅需 4 個 CPU 核心即可實現串流輸出。各模型架構包含：
- `MossTTSDelay`：針對長上下文穩定性與生產環境設計。
- `MossTTSLocal`：強調輕量靈活性與系統效能。
- `MossTTSRealtime`：專為語音 Agent 設計，實現 377 ms 的總延遲（TTFB 為 180 ms）。

**技術架構與效能優化**
MOSS-Audio-Tokenizer 作為全系列共享骨幹，基於「CNN-free」的 Causal Transformer 架構，擁有 16 億參數，能將 24 kHz 音訊壓縮至 12.5 Hz 的低幀率，並透過 32 層 Residual Vector Quantizer (RVQ) 支援 0.125 kbps 至 4 kbps 的可變位元率。在推論加速方面，透過 SGLang 後端支援 `MossTTSDelay` 架構，吞吐量提升約 3 倍；同時支援無 PyTorch 的輕量化部署，透過 `llama.cpp` 與 ONNX Runtime 運行量化 GGUF 權重，8B 模型現可運行於 8GB GPU 上。

**部署與開發指南**
開發者可透過 Python 3.12 與 Transformers 5.0.0 環境進行安裝：
```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"
```
針對無 PyTorch 的推論需求，可使用以下指令下載權重並建置橋接：
```bash
pip install -e ".[llama-cpp-onnx]"
huggingface-cli download OpenMOSS-Team/MOSS-TTS-GGUF --local-dir weights/MOSS-TTS-GGUF
huggingface-cli download OpenMOSS-Team/MOSS-Audio-Tokenizer-ONNX --local-dir weights/MOSS-Audio-Tokenizer-ONNX
cd moss_tts_delay/llama_cpp && bash build_bridge.sh /path/to/llama.cpp && cd ../..
python -m moss_tts_delay.llama_cpp --config configs/llama_cpp/default.yaml --text "Hello, world!" --output output.wav
```
詳細的實作指南可參考 ``docs/moss-tts-firstclass-e2e.md``，微調教學則位於各架構資料夾下的 ``finetuning/README.md``。

**社群資源與學術引用**
MOSS-TTS 系列模型採用 Apache License 2.0 授權，並擁有活躍的社群生態，如 [ComfyUI-MOSS-TTS](https://github.com/richservo/comfyui-moss-tts) 與 [AnyPod](https://github.com/rulerman/AnyPod)。相關技術報告已發表於 arXiv，包含 [MOSS-TTS](https://arxiv.org/abs/2603.18090)、[MOSS-TTSD](https://arxiv.org/abs/2603.19739) 及 [MOSS-VoiceGenerator](https://arxiv.org/abs/2603.28086)。更多資訊可參閱 [OpenMOSS 官網](https://www.open-moss.com/) 或 [ClawHub](https://clawhub.ai)。

## 標籤

TTS, 功能更新, 開源專案, MOSS-TTS
