PrismML 推出 1-bit Bonsai 模型,透過極致的智慧密度實現邊緣裝置的高效 AI 推論
AI 語音朗讀 · Edge TTS
PrismML 推出 1-bit Bonsai 模型,透過極致的智慧密度實現邊緣裝置的高效 AI 推論。
PrismML 發布了「1-bit Bonsai」系列模型,旨在打破 AI 必須依賴龐大算力集群的結構性限制,將先進智慧帶入手機、筆電及邊緣裝置等實際應用場景。該公司認為,AI 的下一個重大突破不在於參數規模的堆疊,而在於「智慧密度」(Intelligence Density)的提升。
核心技術與突破
Bonsai 8B 是真正的 1-bit 模型,其網路架構(包含嵌入層、注意力層、MLP 層及 LM head)全數採用 1-bit 設計,並無高精度保留。
- 該模型擁有 82 億參數,卻僅佔用 1.15 GB 記憶體,體積較同級 16-bit 模型縮小約 14 倍。
- 過去低位元模型常因能力折損而難以商用,但 Bonsai 證明了 1-bit 模型在指令遵循、多步驟推理及工具使用上,仍能具備生產等級的效能。
智慧密度指標
PrismML 提出「智慧密度」作為衡量標準,即模型在單位大小(GB)下所能提供的有效智慧量。
- 透過負對數平均錯誤率除以模型大小計算,1-bit Bonsai 8B 的智慧密度達到 1.06/GB,遠超同級模型(如 Qwen3 8B 的 0.10/GB)。
- 這項指標強調在維持高準確度的前提下,提升模型部署的靈活性,而非僅追求單純的基準測試分數。
實際應用與效能
由於模型體積小且運算高效,Bonsai 改變了 AI 的設計空間,使本地端運算成為可能。
- 效能表現: 在 M4 Pro Mac 上可達每秒 131 個 token,RTX 4090 上可達 368 個 token,iPhone 17 Pro Max 上則為 44 個 token。
- 長序列處理: 在模擬 50 項任務的代理(Agent)工作負載中,Bonsai 8B 能完成所有任務,而標準 16-bit 模型僅能完成 6 項,顯示其在長步驟推理上的優勢。
- 能源效率: 較 16-bit 模型提升約 4-5 倍的能源效率,顯著降低了 AI 部署的經濟門檻。
未來展望與硬體潛力
目前 Bonsai 在現有的標準商用硬體上已表現優異,但 PrismML 指出,這僅是初步成果。
- 由於 1-bit 權重在線性層(如 MLP)中可將大量乘法運算替換為簡單加法,若未來開發專用的 1-bit 推論硬體,效能與能效有望再提升一個數量級。
- PrismML 同步釋出了 Bonsai 4B 與 1.7B 版本,並已透過 MLX 與 llama.cpp 支援 Apple 及 NVIDIA 裝置,模型權重現已依 Apache 2.0 授權開源。
Today, we are emerging from stealth and launching PrismML, an AI lab with Caltech origins that is centered on building the most concentrated form of intelligence.
— PrismML (@PrismML) March 31, 2026
At PrismML, we believe that the next major leaps in AI will be driven by order-of-magnitude improvements in… pic.twitter.com/QzAJDIyFWK
Intelligence density = how much useful intelligence a model delivers per GB.
— PrismML (@PrismML) March 31, 2026
By this measure, 1-bit Bonsai 8B scores 1.06/GB, while the closest nearby full-precision 8B model scores 0.10/GB.
This isn’t a small efficiency gain — it’s a new paradigm of intelligence compression:… pic.twitter.com/ZJj4nUdapq
1-bit Bonsai 8B running locally on an M4 Pro (MLX) alongside a standard 16-bit 8B model.
— PrismML (@PrismML) March 31, 2026
Same class of model, very different deployment profile: far lower memory use and substantially higher throughput. pic.twitter.com/dxMFSyCZDG
This scatter plot shows the Pareto frontier of intelligence vs. size, defined by models like Qwen3 0.6B, 1.7B, 4B, 8B, and Ministral3 3B.
— PrismML (@PrismML) March 31, 2026
The 1-bit Bonsai family shifts that frontier dramatically to the left.
This changes the tradeoff itself: models no longer have to be large… pic.twitter.com/jU1Zs3bS9F
Website: https://t.co/Bt8L24a17r
— PrismML (@PrismML) March 31, 2026
Blog: https://t.co/cB85dFinLJ
HuggingFace: https://t.co/gzjml6J5A3
We’re hiring: https://t.co/NtgEMGCKg9
