用量子技術給大模型瘦身！讓模型規模縮小一半仍保持強大性能-科技-今日熱點-聚焦看點

大型語言模型（LLM）的“大”既是智慧的象徵，也是落地的枷鎖。模型規模越來越大，計算資源、內存佔用、能耗和部署成本急劇上升，這讓許多企業和開發者難以實際應用其前沿能力。

2 月 24 日，一家西班牙初創公司 Multiverse Computing 在 Hugging Face 平臺免費開放其最新壓縮模型 HyperNova 60B 2602 的完整訪問權限。

這是這家公司過去發佈多款開源壓縮模型的延續，今年 1 月份，他們開放了基於 OpenAI 開源模型 gpt-oss-120B 的 50% 壓縮版本，HyperNova 60B。這次又在工具調用和代理式工作流上實現顯著迭代。他們試圖用量子計算技術打破這一僵局，以“身量減半、性能不減”的姿態，向全球開發者展示了模型輕量化的新路徑：無需鉅額基礎設施，即可調用接近前沿水平的 AI。

量子技術啓發模型壓縮：身量減半、性能不減

Multiverse Computing 成立於 2019 年，創始理念源於創始人恩裏克·利薩索（Enrique Lizaso）與量子物理學家羅曼·奧魯斯（Román Orús）的一次 WhatsApp 聊天，他們討論了將量子技術應用於金融複雜問題的可能性，並迅速邀請營銷專家阿方索·魯比奧（Alfonso Rubio）和計算物理學家塞繆爾·穆格爾（Samuel Mugel）加入，還獲得了西班牙巴斯克地區政府的支持孵化。

公司最初深耕於金融領域的量子計算軟件開發，這種通過量子方法解決複雜優化問題的思路，之後也被逐步擴展到 AI 模型的“瘦身”領域。

現在，Multiverse Computing 已將自身定義爲“量子啓發 AI 模型壓縮領域的領導者”。其專有技術 CompactifAI 正是這一路線的結晶。

（來源：Multiverse）

在傳統壓縮方法中，剪枝、蒸餾和低秩近似專注於減少網絡中的有效神經元數量，量化的重點則放在了降低單個權重的數值精度，以在保持神經元數量不變的情況下減小模型尺寸。

CompactifAI 另闢蹊徑，將量子計算中的張量網絡（Tensor Networks）數學思路應用於神經網絡分析與重組，關注模型的關聯空間，僅保留信息最豐富的核心組件，從而實現更可控、更精細和更可解釋的模型壓縮。

Multiverse 的研究團隊在 2024 年發表論文《CompactifAI：基於量子啓發式張量網絡的大型語言模型極致壓縮》（CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks，arXiv:2401.14109），首次詳細闡述了 CompactifAI 的工作原理和具體技術路徑：

對模型的自注意力（Self-Attention, SA）層和多層感知機（MLP）層進行“張量化”（tensorizing），使用特定張量網絡（Tensor Network）結構；通過控制鍵維度（bond dimension）精確截斷模型中的相關性（correlations），從而大幅減少參數數量和內存佔用；壓縮後，通過多 GPU 分佈式再訓練（稱爲“healing”過程）恢復精度，確保模型在更小規模下仍保留高級推理能力。

測試顯示，CompactifAI 最高可將模型體積減少 95%，精度損失僅控制在 2%~3% 以內。相比之下，行業標準的壓縮技術在進行 50%~60% 的壓縮時，精度卻出現了 20%~30% 的大幅下降。

這一方法不僅顯著降低訓練和推理時間（訓練時間可縮短 50%、推理時間縮短 25%），還極大減少了 GPU-CPU 數據傳輸開銷，使其特別適合分佈式訓練場景。CompactifAI 可獨立使用，也可與其他壓縮技術結合，進一步放大效果。

HyperNova 60B 2602 是基於 OpenAI 開源模型 gpt-oss-120B 的 50% 壓縮版本。原始模型大小約 61GB，新模型僅爲 32GB，參數規模降至約 60B，同時大幅降低了內存佔用和推理延遲。

相比 1 月份的初版 HyperNova 60B，本次更新聚焦於工具調用（tool calling）和代理式編碼（agentic coding），這些正是推理成本較高的核心場景。

公司表示，更新版在真實開發者反饋基礎上進行了針對性優化，相對於前版，其具體基準均有顯著提升：代理工具使用能力（Tau2-Bench）提升 5 倍、代理編碼與終端使用性能（Terminal Bench Hard）提升 2 倍，函數調用（BFCL v4）能力也是原來的 1.5 倍。

（來源：Multiverse）

整體而言，HyperNova 60B 2602 在工具調用能力上已經接近原始 120B 開源模型的水平，大小卻只有原來的一半。這一成果驗證了壓縮技術在生產級 AI 部署中的可行性：開發者可在資源受限環境下實現前沿級代理工作流，同時無需承擔鉅額基礎設施開銷。

Hugging Face 模型頁面進一步提供了完整基準、技術文檔和集成指南，支持 8-bit 精度和 mxfp4 量化，適用於 vLLM 等高效推理框架。

歐洲主權 AI 的曙光

目前，Multiverse Computing 已在美國、加拿大及歐洲多地設立辦公室，服務包括西班牙能源巨頭伊維爾德羅拉電力公司（Iberdrola）、德國工業巨頭博世（Bosch）以及加拿大銀行等在內的 100 餘家全球企業客戶。

Multiverse 強調，HyperNova 系列專爲真實世界部署設計，覆蓋企業系統、研究機構、公共部門，以及邊緣設備和終端級應用。通過開源策略，組織可在承諾大規模實施前輕鬆評估性能、安全性和運營適配性，只需最小化集成工作即可獲得更高控制權和獨立性。

2025 年，公司完成約 1.89 億歐元（約合人民幣）的 B 輪融資，西班牙技術轉型局（SETT）等機構參與投資。據相關消息，公司正在今年 2 月推進新一輪約 5 億歐元（約合人民幣）的融資談判，估值可能超過 15 億歐元。考慮到 Multiverse 曾宣稱可“在 AI 全棧提供主權解決方案”，這一增長勢頭或與歐洲對“非美科技替代方案”的迫切需求密切相關。

近期，公司還與西班牙東北部阿拉貢地區政府達成合作，進一步強化其在歐洲主權 AI 生態中的位置。

未來，這一壓縮技術將大幅降低模型使用的准入門檻，開發者不再受海量 LLM 基礎設施的制約，可自由測試、迭代和部署高級 AI；此外，還有望引發一場成本與能耗革命：用更低的算力、內存和功耗保留“智能”，實現更綠色、更經濟的 AI。

最後，在 AI 競爭中已經不佔優勢地位的歐洲地區，壓縮技術有望支持私有云、on-premise 或邊緣部署，幫助歐洲及全球企業減少對外部巨頭的依賴，保障數據安全與技術自主。

正如公司 CEO Enrique Lizaso Olmos 所言，“HyperNova 60B 2602 的推出展示了壓縮作爲迭代改進過程而非一次性優化的本質。每代壓縮模型都推動高效 AI 的邊界。”公司計劃在 2026 年持續發佈更多不同尺寸的開源壓縮模型，進一步拓展從企業級到設備級的應用場景。

開發者現可訪問以下鏈接免費試用：

HyperNova 60B 2602 模型頁：https://huggingface.co/MultiverseComputingCAI/Hypernova-60B-2602

公司 Hugging Face 空間（含全部發布、基準與指南）：https://huggingface.co/MultiverseComputingCAI

參考資料：

https://techcrunch.com/2026/02/24/spanish-soonicorn-multiverse-computing-releases-free-compressed-ai-model/

https://multiversecomputing.com/resources/multiverse-computing-opens-full-access-to-hypernova-60b-2602-on-hugging-face

https://arxiv.org/abs/2401.14109

運營/排版：何晨龍

用量子技術給大模型瘦身！讓模型規模縮小一半仍保持強大性能

賺錢第一：保時捷旗艦SUV K1因成本棄電改油，主攻中美高端市場

自家兄弟給面子了，Galaxy S26系列內存供應由美光和三星平分

華擎主板連毀兩顆AMD CPU！問題根源可能出在VRM供電元件

AI浪潮下，哪些科研崗位會受到衝擊

相關推薦

買車貸款，7年低息，比亞迪也跟進了···

NVIDIA GTC將推出前所未有芯片：大···

NVIDIA計劃今年推出消費級處理器：···

美光推出3GB GDDR7顯存模塊：只做3···

三星S26 Ultra防窺屏翻車：常見角度···

暴增73%，英偉達上個財季再創記錄，···