← 返回首頁
Cohere
Cohere
@cohere
2,495🔁 291
𝕏 (Twitter)🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

核心突破

Cohere 推出開源語音辨識模型「Cohere Transcribe」,在 HuggingFace 開源 ASR 排行榜上奪得首位,英文準確度達到 5.42% 的字誤率(WER),超越 Whisper Large v3、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B 等開源與商業競爭對手。這是 Cohere 朝向在其 AI Agent 編排平台「North」中實現企業級語音智慧的第一步。

技術架構

Cohere Transcribe 採用 Conformer 架構,參數規模為 20 億。模型將音訊波形轉換為梅爾頻譜圖,由擁有大多數參數的 Conformer 編碼器提取音頻表徵,再由輕量級 Transformer 解碼器生成文字 token。模型使用標準監督式交叉熵損失函數訓練,支援 14 種語言:

  • 歐洲語言:英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文
  • 亞太地區語言:中文、日文、韓文、越南文
  • 中東北非語言:阿拉伯文

實測性能

Cohere Transcribe 的準確度不僅在基準測試中領先,更在人類評估中得到驗證。訓練過的評審人員評估實際音訊的轉錄品質(包括準確度、連貫性和可用性),確保模型在控制環境和實際企業環境間表現一致。模型展現出對多人交談、會議室級音響環境(如 AMI 資料集)和多元口音(如 Voxpopuli 資料集)的強健性。

在生產環境中,Cohere Transcribe 達到同級別參數模型中最佳的吞吐量表現,維持低延遲和高實時因子(RTFx),轉換速度比同類模型快高達三倍,能在秒級內將數分鐘音訊轉成可用文字。

實用限制

儘管性能領先,Cohere Transcribe 仍有明確侷限:

  • 不支援自動語言檢測,對代碼混雜(code-switching)音訊表現不穩定
  • 缺乏時間戳記和說話者辨認功能
  • 易於過度轉錄,即使是非語音聲音也會被轉成文字,建議搭配語音活動檢測(VAD)或噪音閘道使用

部署方案

模型以 Apache 2.0 授權開源釋出,提供多種使用方式:

  • 本地或邊緣裝置執行(HuggingFace 下載)
  • 透過 Cohere API 免費試驗(受限流量)
  • Model Vault 托管推論平台,提供無限流量、低延遲、私有雲推論(按小時實例計費)

戰略方向

Cohere 宣布將深化 Cohere Transcribe 與 North(其 AI Agent 編排平台)的整合,計畫後續演進為企業級語音智慧的廣泛基礎。此版本標記著 Cohere 從零到一的語音辨識能力建立,未來並將進一步拓展。