# 策展 · X (Twitter) 🔥

> 作者：Xenova (@xenovacom) · 平台：X (Twitter) · 日期：2026-03-30

> 原始來源：https://x.com/xenovacom/status/2038610331417608691

## 中文摘要

Transformers.js v4 經過一年開發（自 2025 年 3 月起）正式上線，帶來全新的 C++ WebGPU 後端、超過 200 種架構支援，以及整個程式碼庫的完全重構。這次更新將瀏覽器端人工智慧的效能提升到新的高度，同時實現跨環境的統一程式碼執行。

**新一代 WebGPU 後端與跨環境支援**

最大的改進是完全用 C++ 重寫的 WebGPU 運行時。與 ONNX Runtime 團隊密切合作，經過廣泛測試，該後端提供了：

- 更好的操作覆蓋率、效能與準確性，相比前一代純 JavaScript 實作大幅領先
- 跨環境通用：相同的 Transformers.js 程式碼現在可在瀏覽器、Node.js、Bun、Deno 上運行，WebGPU 加速不再僅限瀏覽器
- 支援超過 200 種模型架構，其中許多為 v4 獨有

**效能突破與大型模型支援**

開發團隊透過操作層級重新實現架構，利用 ONNX Runtime 貢獻操作（如 com.microsoft.GroupQueryAttention、com.microsoft.MatMulNBits、com.microsoft.QMoE）最大化效能：

- BERT 嵌入模型達成約 4 倍加速
- 成功在瀏覽器中運行 20B 參數 GPT-OSS，速度約為每秒 40～60 個 token
- 透過 Mixture of Experts（專家混合）架構實現超過 8B 參數的大型模型本地推理

**新型號與先進架構支援**

v4 新增支援多個高效能模型與架構模式：

- **新型號**：GPT-OSS、Chatterbox、GraniteMoeHybrid、LFM2-MoE、HunYuanDenseV1、Apertus、Olmo3、FalconH1、Youtu-LLM、TranslateGemma、LFM2-VL、Qwen 3.5、Voxtral Realtime 等
- **高級架構**：Mamba（狀態空間模型）、Multi-Head Latent Attention（多頭潛在注意力）、Mixture of Experts（專家混合）
- 支援多語言翻譯（55 種語言）、即時影片字幕、多模態視覺理解、實時自動語音辨識及語音克隆

**生產級新功能**

針對實際應用需求，v4 引入了專為生產工作流設計的工具：

- **ModelRegistry API**：提供 asset 可見性，支援列舉需要檔案、查詢檔案中繼資料、檢查快取狀態、清除快取、查詢可用精度類型
- **progress_total 回呼**：提供 End to End (端到端)載入進度，無需手動追蹤單個檔案
- **環境設定**：env.useWasmCache 啟用 WASM 運行時檔案快取實現離線運作；env.fetch 支援自訂 fetch 實作、驗證標頭與中止信號
- **改進的日誌控制**：ONNX Runtime WebGPU 警告預設隱藏，可設定詳細程度級別，減少無用的 console 輸出

**程式碼庫與開發工具重構**

大規模重構投資確保長期可維護性：

- **PNPM Workspaces**：轉換為 Monorepo 架構，支援模組化子套件
- **模組化結構**：將超過 8,000 行的單一 models.js 分割為專注的小模組，改善可讀性與新模型新增的難度
- **esbuild 遷移**：建構時間從 2 秒降至 200 毫秒（10 倍加速），套件大小平均減少 10%；預設輸出 transformers.web.js 縮小 53%
- **獨立 Tokenizers.js**：將 tokenizer 邏輯提取為獨立函式庫（@huggingface/tokenizers），大小僅 8.8 KB (gzipped)，零依賴
- **範圍格式化**：採用 Prettier 統一程式碼風格；示例專案遷移至獨立程式庫

**型別與開發體驗**

TypeScript 使用者獲得動態 pipeline 輸出型別，根據輸入自動適應精確的返回型別。完整的型別安全與改進的開發者體驗。

## 標籤

開源專案, 功能更新, Web, Transformers.js