把8B模型塞進iPhone，這家公司讓AI速度起飛，功耗省掉80%-科技-今日熱點-聚焦看點

當整個 AI 行業還在比拼參數規模、堆算力時，有家初創在相反的方向發力：把模型壓縮到只剩 1 比特。

當地時間 3 月 31 日，美國 AI 初創公司 PrismML 發佈了一款旗艦模型 1-bit Bonsai 8B。該模式使用 Google TPU v4 進行訓練，在接近同等性能的前提下，可將模型權重壓縮至單個比特（原生 1 比特架構）。

多項智能基準測試結果顯示，與傳統 FP16 8B 模型相比，該模型在高保真推理和語音理解能力相當的前提下，內存佔用從 16GB 降至 1.15GB，推理速度提升 8 倍，能效提升 4-5 倍。在現有硬件平臺上，該模型還能將能耗降低 75% 到 80%。也就是說，該技術以更少的資源完成了相同的工作，並有效降低了能耗成本。

值得關注的是，該公司在三種主流平臺跑通了這款模型。根據技術報告，Bonsai 8B 可通過 MLX 或 Metal 接口在 Apple 設備（Mac、iPhone、iPad），也可基於 llama.cpp CUDA 在 NVIDIA GPU ，還可以通過 MLXSwift 或 OpenCL 路徑在移動端上運行。

該技術有望催生新的 AI 系統：既能在邊緣高效運行，又能在雲端經濟高效擴展。讓 AI 直接在手機、筆記本電腦等消費電子設備本地運行，並有望進一步拓展至數據中心。有助於減少對雲的依賴，而是基於該模型直接在設備上執行的複雜 AI 應用程序，進而解鎖機器人、可穿戴設備和個人計算應用程序等邊緣場景。

“人工智能的未來有望不再取決於誰能建造最大的數據中心，而是取決於誰能以單位能源和成本提供最大的智能。”該公司投資人、Khosla Ventures 創始人 Vinod Khosla 表示。

（來源：資料圖）

PrismML 是在加州理工學院團隊技術支持下衍生而來。目前，該公司已通過種子輪融資和 SAFE 融資籌集 1,625 萬美元，投資者包括 Khosla Ventures、Cerberus Capital 和加州理工學院。

該公司聯合創始人兼 CEO、加州理工學院教授 Babak Hassibi 稱，該技術是一種能夠適應各種硬件環境，並“在單位能耗和成本下釋放更高智能密度”的數學突破。

圖丨1-bit Bonsai 8B 的技術報告（來源：PrismML）

隨着 AI 模型規模和計算量的提升，部署高級智能技術越來越需要龐大的數據中心基礎設施。但由於延遲、硬件和隱私等方面的限制，實時、本地化的 AI 體驗仍面臨嚴峻的挑戰。

PrismML 指出了一個容易忽略的事實：在端側推理場景下，真正“卡脖子”的是內存帶寬而非算力。該公司的關鍵優勢在於，通過數年時間研發了壓縮神經網絡所需的數學理論來應對這一挑戰。

與傳統的 FP16 架構不同，PrismML 創建了具有原生 1 比特結構的模型。在不犧牲推理、編碼和通用知識能力的前提下，同時壓縮計算複雜度與內存佔用。

圖丨1-bit Bonsai 8B 的智能密度（每 GB）與同一參數類別中的其他模型的比較（來源：PrismML）

根據 PrismML 發佈的技術報告，他們將智能密度定義爲模型智能與規模的比值（以比特爲單位測量，或等效地以 GB 爲單位）。按此標準衡量，1-bit Bonsai 8B 的智能密度得分達 1.06/GB。在參數數量相近的模型中，最接近的 Qwen3 8B 得分僅 0.10/GB。

圖丨1-bit Bonsai 8B 與其他相同參數類別的模型的基準分數比較（來源：PrismML）

在 MMLU-Redux 知識測試、MuSR 多步推理、GSM8K 數學解題、HumanEval+代碼生成、IFEval 指令遵循和 BFCLv3 工具調用六個維度的測試中，1-bit Bonsai 8B 的平均得分達 70.5 分，與 Qwen 3 8B 的 79.3 分差距不到 9 分，但其內存佔用僅爲 1.15 GB，比同類產品小約 12-14 倍。這正是智能密度的核心所在：不僅具有高性能，而且以更易於部署的方式提供性能支持。

研究人員在不同設備上進行了吞吐量數據對比。在 M4 Pro Mac 上，Bonsai 8B 的運行速度可達每秒 136 token；在 RTX 4090 上，可達每秒 440 token；在 iPhone 17 Pro Max 上，其運行速度約每秒 44 token。這些性能表現指向了一個與依賴雲端的 AI 截然不同的可能性：其所帶來的體驗，可能會速度更快、更直接、更易用。

這種優勢在處理長週期智能體工作負載時更加明顯。在上面視頻的演示中，研究團隊模擬了 50 個工單彙總和分配任務。結果顯示，在相同時間窗口內，Bonsai 8B 能夠完成所有 50 個工單，而標準的 FP 16 8B 模型在同一時間段內只能完成 6 個。

對於需要持續進行多步驟推理的智能體而言，更高的吞吐量和更低的內存佔用不僅能提升系統速度，還有利於擴展智能體實際完成的工作量。

圖丨各種硬件平臺的能耗對比（來源：PrismML）

從模型效率來看，Bonsai 8B 的能耗也具有優勢，而這一點與經濟效益直接相關。數據結果顯示，其遠低於 FP 16 版本，能效大約提升 4-5 倍。在 M4 Pro 上，其能耗爲 0.074 毫瓦時/token，而在 iPhone 17 Pro Max 上，其能耗僅爲 0.068 毫瓦時/token。

圖丨1-bit Bonsai 系列相對於多個尺寸等級模型的性能與尺寸（對數刻度）比較（來源：PrismML）

爲進一步展示技術的擴展性，PrismML 還同步推出了兩款更小的型號：Bonsai 4B 和 Bonsai 1.7B，內存佔用分別是 0.5GB 和 0.24GB。研究人員選取了從 1.2GB（Qwen3 0.6B）到 16.4GB（Qwen3 8B）的 20 款主流模型。從與同量級競品對比結果來看，PrismML 的三款模型在“智能密度”指標上具有優勢。

該公司承認技術當前仍具有侷限性：一方面，這些結果仍是在通用硬件和軟件優化的前提下實現；另一方面，移動端的能耗數據來自電池耗電速率的間接估算。

如果適配專門爲 1 比特模型設計的硬件，有可能減少對複雜數學乘法的需求。在此前提下 PrismML 預測，未來硬件只需執行簡單的加減運算，有望進一步將性能和能效提升 1 個數量級。

總體來說，這種“以小博大”的新範式，正在打破算力和設備之間的物理邊界：以往需要權衡取捨的場景，例如企業級本地部署、隱私敏感場景、間歇性連接環境、成本受限的 GPU 服務等，未來有望通過同一套方案覆蓋。

參考資料：

https://github.com/PrismML-Eng/Bonsai-demo/blob/main/1-bit-bonsai-8b-whitepaper.pdf

https://prismml.com/news/prismml-launches-worlds-first-1-bit-ai-model

https://prismml.com/news/bonsai-8b

https://www.wsj.com/cio-journal/caltech-researchers-claim-radical-compression-of-high-fidelity-ai-models-e66f31c9?mod=tech_feat1_ai_pos1

運營/排版：何晨龍

把8B模型塞進iPhone，這家公司讓AI速度起飛，功耗省掉80%