← 返回首頁

PrismML 推出 1-bit Bonsai 模型,透過極致的智慧密度實現邊緣裝置的高效 AI 推論

PrismML
PrismML
@PrismML
3,762🔁 515
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

PrismML 推出 1-bit Bonsai 模型,透過極致的智慧密度實現邊緣裝置的高效 AI 推論。

PrismML 發布了「1-bit Bonsai」系列模型,旨在打破 AI 必須依賴龐大算力集群的結構性限制,將先進智慧帶入手機、筆電及邊緣裝置等實際應用場景。該公司認為,AI 的下一個重大突破不在於參數規模的堆疊,而在於「智慧密度」(Intelligence Density)的提升。

核心技術與突破
Bonsai 8B 是真正的 1-bit 模型,其網路架構(包含嵌入層、注意力層、MLP 層及 LM head)全數採用 1-bit 設計,並無高精度保留。

  • 該模型擁有 82 億參數,卻僅佔用 1.15 GB 記憶體,體積較同級 16-bit 模型縮小約 14 倍。
  • 過去低位元模型常因能力折損而難以商用,但 Bonsai 證明了 1-bit 模型在指令遵循、多步驟推理及工具使用上,仍能具備生產等級的效能。

智慧密度指標
PrismML 提出「智慧密度」作為衡量標準,即模型在單位大小(GB)下所能提供的有效智慧量。

  • 透過負對數平均錯誤率除以模型大小計算,1-bit Bonsai 8B 的智慧密度達到 1.06/GB,遠超同級模型(如 Qwen3 8B 的 0.10/GB)。
  • 這項指標強調在維持高準確度的前提下,提升模型部署的靈活性,而非僅追求單純的基準測試分數。

實際應用與效能
由於模型體積小且運算高效,Bonsai 改變了 AI 的設計空間,使本地端運算成為可能。

  • 效能表現: 在 M4 Pro Mac 上可達每秒 131 個 token,RTX 4090 上可達 368 個 token,iPhone 17 Pro Max 上則為 44 個 token。
  • 長序列處理: 在模擬 50 項任務的代理(Agent)工作負載中,Bonsai 8B 能完成所有任務,而標準 16-bit 模型僅能完成 6 項,顯示其在長步驟推理上的優勢。
  • 能源效率: 較 16-bit 模型提升約 4-5 倍的能源效率,顯著降低了 AI 部署的經濟門檻。

未來展望與硬體潛力
目前 Bonsai 在現有的標準商用硬體上已表現優異,但 PrismML 指出,這僅是初步成果。

  • 由於 1-bit 權重在線性層(如 MLP)中可將大量乘法運算替換為簡單加法,若未來開發專用的 1-bit 推論硬體,效能與能效有望再提升一個數量級。
  • PrismML 同步釋出了 Bonsai 4B 與 1.7B 版本,並已透過 MLX 與 llama.cpp 支援 Apple 及 NVIDIA 裝置,模型權重現已依 Apache 2.0 授權開源。