← 返回首頁
Fish Audio
Fish Audio
@FishAudio
1,555🔁 199
𝕏 (Twitter)🔥🔥🔥🔥
AI 中文摘要Claude 生成
Fish Audio 發佈了 S2 新世代文字轉語音系統,這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案。S2 在超過一千萬小時、涵蓋約 50 種語言的音頻資料上訓練,採用強化學習對齊與雙自迴歸架構,能生成自然逼真且情感豐富的語音。 系統最大特色是支援細粒度的內聯情感控制,使用者可在文字中直接嵌入自然語言標籤如「[笑聲]」、「[低聲細語]」或「[非常開心]」來精確調控語調與表情。S2 同時支援多語言、多話者與多輪生成,可在單次推理中處理多個說話者身份。 在效能表現上,S2 延遲低於 150 毫秒,在標準測試基準中超越包括閉源系統的競爭者。其雙自迴歸架構包含快速與慢速分量,使推理過程兼具效率與音質保留。基於 SGLang 最佳化的串流式服務,單張 NVIDIA H200 GPU 可達到 0.195 的實時係數與逾 3000 token/秒的吞吐量。 該專案採開源發佈,包含完整文件、WebUI 與伺服器推理支援,並提供快速語音複製功能,使開發者與使用者享有高度自由度的語音生成體驗。