Today we launch Fish Audio S2, a new generation of expressive TTS with absurdly controllable emotion.
— Fish Audio (@FishAudio) March 10, 2026
- open-source
- sub 150ms latency
- multi-speaker in one pass
Real freedom of speech starts now 👇 pic.twitter.com/nIXumES4QX
AI 中文摘要Claude 生成
Fish Audio 發佈了 S2 新世代文字轉語音系統,這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案。S2 在超過一千萬小時、涵蓋約 50 種語言的音頻資料上訓練,採用強化學習對齊與雙自迴歸架構,能生成自然逼真且情感豐富的語音。
系統最大特色是支援細粒度的內聯情感控制,使用者可在文字中直接嵌入自然語言標籤如「[笑聲]」、「[低聲細語]」或「[非常開心]」來精確調控語調與表情。S2 同時支援多語言、多話者與多輪生成,可在單次推理中處理多個說話者身份。
在效能表現上,S2 延遲低於 150 毫秒,在標準測試基準中超越包括閉源系統的競爭者。其雙自迴歸架構包含快速與慢速分量,使推理過程兼具效率與音質保留。基於 SGLang 最佳化的串流式服務,單張 NVIDIA H200 GPU 可達到 0.195 的實時係數與逾 3000 token/秒的吞吐量。
該專案採開源發佈,包含完整文件、WebUI 與伺服器推理支援,並提供快速語音複製功能,使開發者與使用者享有高度自由度的語音生成體驗。
