# 策展 · X (Twitter) 🔥

> 作者：Cohere (@cohere) · 平台：X (Twitter) · 日期：2026-03-27

> 原始來源：https://x.com/cohere/status/2037159129345614174

## 中文摘要

Cohere 推出開源語音辨識模型「Cohere Transcribe」，在 HuggingFace 開源 ASR 排行榜上奪得首位，英文準確度達到 5.42% 的字誤率（WER），超越 Whisper Large v3、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B 等開源與商業競爭對手。這是 Cohere 朝向在其 AI Agent 編排平台「North」中實現企業級語音智慧的第一步。

**技術架構**

Cohere Transcribe 採用 Conformer 架構，參數規模為 20 億。模型將音訊波形轉換為梅爾頻譜圖，由擁有大多數參數的 Conformer 編碼器提取音頻表徵，再由輕量級 Transformer 解碼器生成文字 token。模型使用標準監督式交叉熵損失函數訓練，支援 14 種語言：

- **歐洲語言**：英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文
- **亞太地區語言**：中文、日文、韓文、越南文
- **中東北非語言**：阿拉伯文

**實測性能**

Cohere Transcribe 的準確度不僅在基準測試中領先，更在人類評估中得到驗證。訓練過的評審人員評估實際音訊的轉錄品質（包括準確度、連貫性和可用性），確保模型在控制環境和實際企業環境間表現一致。模型展現出對多人交談、會議室級音響環境（如 AMI 資料集）和多元口音（如 Voxpopuli 資料集）的強健性。

在生產環境中，Cohere Transcribe 達到同級別參數模型中最佳的吞吐量表現，維持低延遲和高實時因子（RTFx），轉換速度比同類模型快高達三倍，能在秒級內將數分鐘音訊轉成可用文字。

**實用限制**

儘管性能領先，Cohere Transcribe 仍有明確侷限：

- 不支援自動語言檢測，對代碼混雜（code-switching）音訊表現不穩定
- 缺乏時間戳記和說話者辨認功能
- 易於過度轉錄，即使是非語音聲音也會被轉成文字，建議搭配語音活動檢測（VAD）或噪音閘道使用

**部署方案**

模型以 Apache 2.0 授權開源釋出，提供多種使用方式：

- 本地或邊緣裝置執行（HuggingFace 下載）
- 透過 Cohere API 免費試驗（受限流量）
- Model Vault 托管推論平台，提供無限流量、低延遲、私有雲推論（按小時實例計費）

**戰略方向**

Cohere 宣布將深化 Cohere Transcribe 與 North（其 AI Agent 編排平台）的整合，計畫後續演進為企業級語音智慧的廣泛基礎。此版本標記著 Cohere 從零到一的語音辨識能力建立，未來並將進一步拓展。

## 標籤

開源專案, 新產品, Cohere
