AI 語音朗讀 · Edge TTS
核心突破
Cohere 推出開源語音辨識模型「Cohere Transcribe」,在 HuggingFace 開源 ASR 排行榜上奪得首位,英文準確度達到 5.42% 的字誤率(WER),超越 Whisper Large v3、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B 等開源與商業競爭對手。這是 Cohere 朝向在其 AI Agent 編排平台「North」中實現企業級語音智慧的第一步。
技術架構
Cohere Transcribe 採用 Conformer 架構,參數規模為 20 億。模型將音訊波形轉換為梅爾頻譜圖,由擁有大多數參數的 Conformer 編碼器提取音頻表徵,再由輕量級 Transformer 解碼器生成文字 token。模型使用標準監督式交叉熵損失函數訓練,支援 14 種語言:
- 歐洲語言:英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文
- 亞太地區語言:中文、日文、韓文、越南文
- 中東北非語言:阿拉伯文
實測性能
Cohere Transcribe 的準確度不僅在基準測試中領先,更在人類評估中得到驗證。訓練過的評審人員評估實際音訊的轉錄品質(包括準確度、連貫性和可用性),確保模型在控制環境和實際企業環境間表現一致。模型展現出對多人交談、會議室級音響環境(如 AMI 資料集)和多元口音(如 Voxpopuli 資料集)的強健性。
在生產環境中,Cohere Transcribe 達到同級別參數模型中最佳的吞吐量表現,維持低延遲和高實時因子(RTFx),轉換速度比同類模型快高達三倍,能在秒級內將數分鐘音訊轉成可用文字。
實用限制
儘管性能領先,Cohere Transcribe 仍有明確侷限:
- 不支援自動語言檢測,對代碼混雜(code-switching)音訊表現不穩定
- 缺乏時間戳記和說話者辨認功能
- 易於過度轉錄,即使是非語音聲音也會被轉成文字,建議搭配語音活動檢測(VAD)或噪音閘道使用
部署方案
模型以 Apache 2.0 授權開源釋出,提供多種使用方式:
- 本地或邊緣裝置執行(HuggingFace 下載)
- 透過 Cohere API 免費試驗(受限流量)
- Model Vault 托管推論平台,提供無限流量、低延遲、私有雲推論(按小時實例計費)
戰略方向
Cohere 宣布將深化 Cohere Transcribe 與 North(其 AI Agent 編排平台)的整合,計畫後續演進為企業級語音智慧的廣泛基礎。此版本標記著 Cohere 從零到一的語音辨識能力建立,未來並將進一步拓展。
Introducing: Cohere Transcribe – a new state-of-the-art in open source speech recognition. pic.twitter.com/l87Z6oyQdM
— Cohere (@cohere) March 26, 2026
This is Cohere’s first speech-to-text model release and a huge step towards our goal of delivering enterprise speech intelligence into North, Cohere’s agentic AI orchestration platform.
— Cohere (@cohere) March 26, 2026
“We’re genuinely impressed with what Cohere has built with Transcribe. The speed is exceptional - turning minutes of audio into usable transcripts in seconds - and it immediately unlocks new possibilities for real-time products and workflows,” said Paige Dickie, VP, Radical…
— Cohere (@cohere) March 26, 2026
Our open-source speech-to-text model has secured the top spot for English language accuracy on HuggingFace’s Open ASR model leaderboard, achieving an impressive word error rate of just 5.42% and validated by human evaluation. We've also successfully achieved one of the strongest…
— Cohere (@cohere) March 26, 2026
Learn more: https://t.co/ckiE6XtCmp
— Cohere (@cohere) March 26, 2026
Download Cohere Transcribe: https://t.co/m8H9vfWaDX
