近年來,人工智能(AI)與生命科學的深度融合,正在以前所未有的速度推動着科研範式的根本性變革。從傳統的描述性分析到如今的預測性模擬,AI 正逐步成爲揭示生命奧祕、加速藥物研發的強大引擎。其中,AI 虛擬細胞(AI Virtual Cells, AIVC)作爲生命系統的數字孿生,正成爲生物學家開展高通量虛擬模擬實驗的一種重要方法路徑。
在這一前沿領域,同濟大學數字生命智能體實驗室(DELTA Lab)正致力於利用 AI 技術構建數字生命智能體。近日,該實驗室相繼發佈了兩項階段性研究成果——AlphaCell 和 CellHermes,分別從“虛擬細胞世界模型”的構建和“細胞語言模型”的跨模態異構數據融合兩個維度,加速 AI 虛擬細胞研究從概念驗證走向實用預測的進程。
AlphaCell:構建“虛擬細胞世界模型”,邁向高保真細胞擾動預測
虛擬細胞的概念最早可追溯至 21 世紀初。2001 年,《生物技術趨勢》雜誌(Trends in Biotechnology)就稱之爲“21 世紀的重大挑戰”,提出要通過計算機完整模擬一個細胞的全部生命過程。此後二十餘年,傳統機制建模因多尺度交互、非線性動力學等複雜性而進展緩慢。
直到 2023~2024 年,人工智能與單細胞組學技術的爆發式融合,快速改變了這一局面,學界開始嘗試利用大規模的深度神經網絡進行建模,讓 AI 從海量組學數據中直接學習細胞的多模態表徵與動態規律。
當前計算生物學正從描述性推斷轉向預測性模擬,這種研究範式的轉變,將對未來的生命科學研究產生深遠影響。傳統統計學建模難以應對高維度、高複雜度的生物數據,而在 AI 技術的驅動下,科學家得以進行預測性研究。
然而,現有的單細胞擾動預測框架,包括隱變量算術模型(如 scGen、CPA)、圖網絡模型(如 GEARS)、隱空間流模型(如 CellFlow)以及基於集合匹配的基礎模型(如 STATE),在全基因組動態建模時仍面臨三大結構性瓶頸:

圖丨劉琦(來源:受訪者)
表徵不完整(Representation Incompletion): 現有模型往往依賴啓發式特徵選擇,將細胞基因特徵截斷爲有限的高變基因(HVGs),從而對低表達但關鍵的調控因子產生“盲區”,損害了細胞狀態定義的理論完備性。
同濟大學數字生命智能體實驗室負責人劉琦教授在採訪中對 DeepTech 強調,傳統方法僅用高變基因描述細胞狀態“遠遠不夠”,只有將所有基因納入考慮,採取這種“全量輸入”,才能確保細胞狀態定義的理論完備性,避免了因丟失低丰度關鍵基因而導致的預測偏差。
重構失真(Reconstruction Distortion): 隱變量模型解碼機制薄弱,導致隱空間內的數學操作在解碼回原始基因空間時,容易產生脫離實際測量的“生物學幻覺”。
動態遷移缺陷(Transferability Deficiency): 現有方法多將擾動建模爲離散跳躍或在受限局部空間擴散,缺乏全局統一的連續座標系,難以學習可跨細胞類型遷移的“通用動力學法則”。
AlphaCell 的三大核心架構創新
在這一背景下,研究團隊聯合同濟大學自主智能無人系統前沿科學中心、上海期智研究院等團隊,引入自動駕駛與具身智能領域的“世界模型”(World Model)理念,構建了一個嚴謹的“虛擬細胞世界模型”:AlphaCell,用以對虛擬細胞世界狀態轉移的潛在邏輯進行刻畫和建模。

(來源:DELTA Lab)
該模型通過重構單細胞數據的空間表示與動態轉換,模擬細胞在虛擬世界中的運動和狀態轉移。其中包括三項關鍵技術:
首先,流形整流(Latent Manifold Rectification)構建了連續緊湊的流形空間。AlphaCell 摒棄了對高變基因(HVGs)的截斷,直接處理包含 19,253 個 HGNC 蛋白編碼基因的全轉錄組數據。
模型結合 Mamba(狀態空間模型)和 Transformer 的混合架構,將近兩萬維的高維離散觀測數據壓縮爲一個緊湊的 32x128 維連續隱流形(Continuous latent manifold),通過信息瓶頸和兩階段訓練任務過濾技術噪音和批次效應,爲連續動力學模擬提供了高質量的數學基礎。
其次,高保真觀測接口(Biological Reality Reconstruction)保障了生物學一致性。爲確保在抽象隱空間中的每一步狀態推演都能高保真地對應真實的生物學表型,AlphaCell 設計了一個非對稱的“倒金字塔”結構,配備了 12 億參數的混合專家(MoE)解碼器。
該解碼器能確保任意隱空間狀態可以被高保真地翻譯回全基因組表達譜,爲動態模擬提供了真實性的生物學錨點,有效避免了“生物學幻覺”。
最後,通過通用狀態轉換(Universal State Transition)求解最優傳輸流。在連續流形之上,AlphaCell Flow Model 承擔了“物理引擎”的作用。它引入最優傳輸條件流匹配(OT-CFM),將擾動響應嚴謹地數學建模爲細胞狀態沿着流形測地線的連續物理演化,而非預測離散狀態映射。
劉琦教授解釋,這種連續流動力學模型能夠學習到“通用的擾動物理學法則”。爲了處理上千種截然不同的擾動機制而不發生梯度衝突,Flow Model 設計了 16 個專家的 MoE 架構,實現了特定擾動機制與底層細胞身份的有效解耦。
性能突破與創新意義
AlphaCell 的基座模型和 Flow Model 分別在超大規模數據集(總計超 2.2 億單細胞轉錄組,包含 Tahoe-100M、Sci-Plex 等)上完成訓練,並在多個泛化場景下展現出性能突破。
其突破了全基因組尺度的“維度詛咒”。在全基因組預測任務中,AlphaCell 憑藉其流形整流設計,維持了較高的保真度,初步證明了其架構在重構和解析真實調控邏輯時的有效性。具體包括:
首先,模型在跨細胞背景的組合中表現出優越的泛化能力。在“已見細胞+已見擾動但組合未見”任務中,AlphaCell 實現了全面的性能領先,尤其在全基因組範圍內(而非 HVG 截斷)的差異表達基因(DEGs)的識別精度上大幅超越對比模型。這表明模型成功學習了具有可遷移性的擾動物理學法則。

(來源:DELTA Lab)
其次,面對最具挑戰性的任務:預測一種藥物在“完全未見過的全新細胞譜系”上的全基因組範圍響應,AlphaCell 依然取得了大幅性能提升,實現細胞類型全基因組範圍的“零樣本(zero-shot)”動力學遷移。
劉琦教授指出:對於這種“零樣本”預測場景,現有采取 HVG 截斷的方法邏輯上無法自洽:若依賴 HVG,但對於新細胞類型,我們根本無法預知哪些基因會產生高變。
而 AlphaCell 所體現出的“零樣本”預測能力,意味着模型可能學到了某種“通用動力學法則”,而不是僅僅死記硬背訓練數據。

(來源:DELTA Lab)
劉琦教授表示,AlphaCell 目前仍是一個“概念驗證(Proof of Concept)”階段的成果,與一個真正通用的虛擬細胞模型之間還有較大距離。未來的工作將聚焦進一步優化計算框架,持續迭代模型,最終賦能生命數字孿生系統的構建和相關應用。
CellHermes:以自然語言爲橋樑,融合異構組學的細胞語言模型
在生命科學領域,如何有效整合形態異構的多模態組學數據一直是計算生物學面臨的核心挑戰。同濟大學數字生命智能體實驗室近期發佈的另一項創新成果 CellHermes,是一個以自然語言作爲統一接口的細胞語言模型。
劉琦教授將 CellHermes 視爲實驗室在虛擬細胞研究的“第二角度切入”,它更多地是從多模態異構數據整合的角度,藉助語言模型統一不同組學描述模態和形式。
異構數據整合的痛點與突破
單細胞轉錄組數據通常以高維表格形式存在,而蛋白質互作網絡則以圖結構呈現,兩類數據在數學結構上的顯著差異,使得傳統分析流程往往需要爲每種模態單獨設計模型或從零訓練大規模基礎模型,計算成本高昂且知識遷移受限。
在這項工作中,實驗室嘗試去攻克多模態異構組學整合難題,聯合亥姆霍茲慕尼黑中心、慕尼黑工業大學、復旦大學、劍橋大學、微軟亞洲研究院及帝國理工學院等團隊,發佈 CellHermes(Hermes 取自希臘神話中掌管信使的神)。
CellHermes 的創新之處在於,它提出以自然語言作爲統一接口,將圖結構數據和表格數據“翻譯”成統一的數據形式,從而在同一學習框架內進行聯合學習。
方法創新:將圖與表“翻譯”爲統一語言
CellHermes 並未從零訓練新的模型骨幹,而是基於現有預訓練大語言模型,採用低秩適配(Low-Rank Adaptation, LoRA)進行參數高效微調。
團隊借鑑並擴展了 Cell2Sentence 等工作的思路,其核心方法包括將表格數據(單細胞轉錄組)轉化爲“基因表達句子”,將每個細胞中數千個基因按照表達量從高到低排序,形成一個文本描述。同時將圖結構數據(蛋白質互作網絡)轉化爲自然語言陳述蛋白之間的作用關係。
在此基礎上,研究團隊設計了多種自監督學習任務,包括掩碼語言建模(預測句子中被遮蓋的基因)、自迴歸預測(續寫表達句子),以及圖結構中的節點和邊預測,使模型在預訓練過程中同時獲取和融合兩類數據中的知識。

(來源:DELTA Lab)
CellHermes 的一個重要發現是,圖結構數據能夠爲表格數據的表示學習提供豐富的先驗關係。劉琦教授在訪談中提到,圖數據能夠幫助模型推斷哪些基因傾向於共同發揮作用,這是對基因調控、生物學相互作用等先驗知識的有效運用。
而這種跨模態預訓練也帶來了顯著的獲益。首先是基因功能預測性能提升。在 5 項基因功能預測任務中,CellHermes 的表現優於或與當前主流的單細胞基礎模型相當。這也說明,儘管 CellHermes 所用的訓練數據量遠小於某些對比模型,但圖數據的引入可能提高了數據的利用效率。
其次,CellHermes 可完成細胞類型特異性基因網絡的重建。例如,在 CD8⁺ T 細胞的分析中,CellHermes 能夠生成細胞類型特異的基因嵌入,並據此構建基因互作網絡,成功識別出與 T 細胞激活相關的功能模塊,而傳統方法未能發現這些模塊。
最後則是多任務適應能力。團隊構建了名爲 BioUniBench 的基準平臺,將 10 項異構下游任務(遺傳擾動預測、細胞適應性估計等)統一轉化爲問答格式。經過指令微調的 CellHermes 同樣在這些任務上展現出較好的性能,且在部分任務上觀察到多任務聯合訓練帶來的正向遷移。
CellHermes 的另一大特點是其生物學可解釋性。由於模型基於大語言模型構建,其可以利用內部的注意力機制定位關鍵輸入元素,同時生成自然語言式的思維推理過程。
例如,在黑色素瘤患者腫瘤反應性 T 細胞的分類任務中,模型不僅準確區分了反應性與非反應性 T 細胞,還能通過注意力權重高亮與細胞毒性相關的基因,並輸出類似“該細胞高表達細胞毒性基因,因此可能爲腫瘤反應性 T 細胞”的文本解釋。劉琦教授表示,這種可解釋性能夠爲生物學家提供可解釋的推理線索。

(來源:DELTA Lab)
CellHermes 展示了一種高效的組學數據分析路徑:將異構組學統一爲文本,使大語言模型同時處理多模態內容,從而不必爲每種模態單獨建模。
劉琦教授指出,CellHermes 目前仍存在侷限性,如訓練數據多樣性相對有限。未來團隊將進一步量化圖數據以及其它組學數據帶來的具體增益,並持續優化文本生成的可解釋性。
數字生命的未來圖景
AlphaCell 和 CellHermes 兩項研究,分別從細胞狀態的“物理模擬”和細胞信息的“語言理解”這兩個角度,共同推動了生命數字孿生系統的構建。劉琦教授表示,這兩項工作目前均發佈在預印本平臺上,是同濟大學數字生命智能體實驗室團隊和諸多交叉團隊共同合作的階段性研究成果。
其中 AlphaCell 論文的第一作者是同濟大學的啜國暉助理教授、陳曉涵博士、楊興博博士,通訊作者是同濟大學自主智能無人系統前沿科學中心的何斌教授和劉琦教授;CellHermes 論文的第一作者是同濟大學的高溢騁博士、亥姆霍茲慕尼黑中心汪偉旭博士、復旦大學趙宇恆博士和同濟大學董科竟博士,通訊作者是亥姆霍茲慕尼黑中心的 Fabian J. Theis 教授和劉琦教授。
同時,這兩項研究有望在未來進一步優化、整合,希望爲生物學家提供了更便捷、更可解釋的數據分析工具,也將爲個性化醫療、藥物研發等應用場景提供新的技術思路。
展望未來,從宏觀的組織器官到微觀的基因調控網絡,構建虛擬數字生命系統將成爲一個強大的探索工具,甚至有望開啓“設計生命”功能、優化生命過程的新篇章。然而,該目標的實現道路並非坦途。
面對海量的計算資源需求、模型泛化能力的極限挑戰,以及伴隨而來的深遠倫理考量,科學家們仍需持續攻堅。但劉琦教授認爲,中國的科學家團隊在生物學問題的深刻理解與硬核技術的攻堅突破上正逐步體現其獨特優勢,他對中國 AI 驅動的生命科學創新充滿期待。
參考內容:
https://www.biorxiv.org/cgi/content/short/2026.03.02.709176v1
https://www.biorxiv.org/content/10.1101/2025.11.07.687322v2
運營/排版:何晨龍




