# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Cohere (@cohere) · 平台：X (Twitter) · 日期：2026-05-21

> 原始來源：https://x.com/cohere/status/2057120818551734589

## 中文摘要

Cohere 發布 Command A+ 強化企業級推理。

Cohere 正式推出 Command A+ 模型，這是一款基於 Sparse Mixture-of-Experts (MoE) 架構的開源大型語言模型。該模型擁有 218B 總參數與 25B 活躍參數，專為企業級 Agentic 任務、多模態理解及複雜推理設計。透過 Apache 2.0 授權釋出，Cohere 旨在推動「主權 AI」（Sovereign AI），讓開發者能在自有環境中部署具備高效能的企業級 AI 系統。

**核心效能與架構優勢**
Command A+ 在多項企業工作負載中表現顯著優於前代 Command A 系列模型。其架構設計重點在於提升推理效率與多步驟任務處理能力：
- **推理與程式開發**：在「Terminal-Bench Hard」測試中，Agentic 程式開發效能從 3% 提升至 25%；在「𝜏²-Bench Telecom」測試中，分數由 37% 躍升至 85%。
- **記憶與分析**：在 North 應用場景中，Agentic 問答準確度提升 20%，試算表分析品質提升 32%，且在跨對話與儲存資料的「記憶」表現上達到 54%（前代為 39%）。
- **多模態與多語言**：支援 48 種語言，並在「MMMU Pro」與「MathVista」等基準測試中取得顯著進步；語言覆蓋範圍較前代擴增一倍以上。

**硬體效率與量化技術**
為了降低企業部署門檻，Cohere 針對硬體資源進行了極致優化，使其能在有限的基礎設施上運行：
- **硬體需求**：透過 W4A4 量化技術，該模型僅需 1 張 NVIDIA B200 或 2 張 NVIDIA H100 即可運行，且品質損失極小。
- **量化策略**：採用「量化感知蒸餾」（QAD）技術，僅對 MoE 專家層進行 4-bit 量化，保留注意力路徑（Attention path）與 KV 快取為全精度，以確保推理品質。
- **速度提升**：相較於前代模型，輸出速度（TOPS）提升超過 63%，延遲降低 17%。此外，透過針對 MoE 架構優化的推測解碼（Speculative Decoding），推理速度額外提升 1.5 至 1.6 倍。
- **Tokenizer 優化**：採用最新 Tokenizer，顯著提升壓縮率，特別是在阿拉伯語（+20%）、韓語（+16%）與日語（+18%）等非歐洲語言上，有效降低推理成本。

**部署與使用指引**
開發者可透過 [Hugging Face](https://huggingface.co/CohereLabs/command-a-plus-05-2026-w4a4) 下載模型權重，或使用 Cohere 的 Model Vault 進行託管部署。針對 W4A4 量化版本，需特別注意環境配置：
1. 確保使用 `vLLM` 版本 `>=0.21.0`。
2. 必須安裝 Cohere 的 `melody` 函式庫以支援正確的響應解析。
3. 若使用 `transformers`，請從包含該模型必要變更的原始程式庫進行安裝。

**Agentic 互動與工具呼叫**
Command A+ 具備原生工具呼叫能力，支援與 API、資料庫或搜尋引擎互動。開發者可透過 `transformers` 中的聊天模板（Chat Templates）進行整合，並建議使用 JSON Schema 定義工具描述。該模型設計旨在實現從實驗到生產環境的無縫銜接，為企業提供可控、可適應的 AI 解決方案。

## 標籤

LLM, Agent, 新產品, 開源專案, Cohere