最近,MIT 的科學家開發了一套叫 DefensePredictor 的 AI 模型,可以從細菌的基因組裏快速找出那些隱藏的防禦系統。
研究人員先用約 1.7 萬個細菌基因組訓練這個模型。他們給模型看了兩類蛋白質:一類是約 1.5 萬個已知能抵抗病毒的防禦蛋白,另一類是約 18.6 萬個負責日常家務的普通蛋白。通過反覆比較這兩類蛋白的特徵,比如基因長度、周圍的鄰居基因、DNA 序列裏的特殊模式,AI 學會了快速區分誰是防禦戰士,誰是普通居民。日前,相關論文發表在《科學》雜誌上。
論文作者只有三位,他們分別是 MIT 博士生 Peter DeWeirdt、前 MIT 高級研究支持助理&目前在美國約翰霍普金斯大學讀博的 Emily Mahoney 以及 MIT 副教授 Michael Laub。其中,Peter DeWeirdt 還曾在輝瑞公司實習過。

圖 | 從左到右:Peter DeWeirdt、Emily Mahoney、Michael Laub(來源:Linkedin)
很多人都知道,細菌和病毒之間的戰爭,已經打了數十億年。病毒是地球上數量最多的生物,每天能消滅 10% 到 25% 的細菌。爲了活下來,細菌進化出了各種各樣的防禦武器。
有些武器已經被人類拿來用了,比如大名鼎鼎的 CRISPR 基因編輯工具,它最初就是從細菌的免疫系統裏發現的。不過細菌的防禦武器庫還遠沒有被人類摸清楚。
傳統方法找這些防禦系統,就像大海撈針,要麼盯着已知防禦基因附近的區域猜,要麼在實驗室裏手動測試成千上萬個 DNA 片段,耗時又費力。

(來源:Science)
DefensePredictor 的祕密武器是一個叫 ESM2 的蛋白語言模型。它能把每個蛋白質轉換成一組數字,就像給蛋白質拍了張 X 光片,抓住了它的關鍵特徵。模型不僅看目標蛋白自己,還看它前後各兩個鄰居,因爲防禦基因經常喜歡扎堆住在一起。
利用這些信息,模型能在幾分鐘內掃描完一個細菌的全部基因組,找出最有可能的防禦系統候選者。DefensePredictor 正是通過這種觀察蛋白質的社交圈,來判斷它是不是防禦戰士。而假如換成以前的做法,這可能需要好幾個月。
爲了檢驗這套系統到底準不準,研究團隊做了一個實驗。他們用 DefensePredictor 掃描了 69 株不同的大腸桿菌,找出了 624 個被預測爲防禦相關的蛋白簇,其中超過 100 個跟已知的細菌免疫系統沒有任何關係。

(來源:Science)
研究人員從中挑選了 94 個進行實驗室驗證,把它們克隆進大腸桿菌細胞裏,然後用 24 種不同的病毒去攻擊。結果有 42 個系統成功保護了細菌,驗證率達到了 45%。模型給出的預測分數跟實驗驗證率高度相關,分數越高,越有可能是真的防禦系統。這也意味着 AI 的預測是可靠的,可以大大縮小科學家需要手動測試的範圍。
此外,有些系統用的蛋白結構,以前從未在防禦中被驗證過。比如一個叫 DS-8 的系統,它攜帶的金屬磷酸酶結構域跟人類免疫系統中的某個蛋白長得很像,人類用那個蛋白來調節自身的抗病毒信號通路。這說明細菌和人類的免疫系統在進化上可能有着共同的古老根源。

(來源:Science)
另一個叫 DS-11 的系統,用一種叫 CBS 的結構域來感應細胞內的能量分子,然後激活自身的殺傷功能。還有的系統把核酸酶拆成了兩半,這種分體式設計有可能被開發成需要特定信號才能激活的基因編輯工具,故在生物技術領域有着巨大的潛力。
這套模型的潛力還遠遠沒有挖盡。當研究人員把 DefensePredictor 應用到 1,000 種不同的微生物上時,它識別出了近 3,000 個與任何已知細菌免疫系統都不相似的蛋白簇。這些發現意味着大腸桿菌以及其他細菌所攜帶的抗病毒防禦系統,比我們之前以爲的要豐富得多。
在 3,000 株大腸桿菌和志賀氏菌的基因組分析中,平均每株細菌能預測出 32 個防禦基因,而傳統工具只能找到 6 個。目前,研究團隊已經把 DefensePredictor 作爲開源工具提供給全球的科學界,並且會隨着新數據的到來持續優化它。

(來源:Science)
一直以來,基因編輯領域一直在尋找比 Cas9 更小巧、更精準的工具,這些新發現的防禦系統裏藏着大量未被開發的核酸酶和新型工作機制。Cas9 雖然強大,但它個頭比較大,進入細胞不太方便。
如果能從這些新系統裏找到更迷你的核酸酶,基因治療就會變得更安全、更高效。研究人類免疫系統的科學家也可以從中追溯關鍵免疫元件的進化源頭,比如人類體內用來感知病毒 DNA 的 cGAS 蛋白,它的祖先可能就藏在某種細菌的防禦系統裏。
製藥領域有可能把這些新型系統改造成針對病原菌的精準抗菌藥。現在很多細菌對抗生素產生了耐藥性,如果能把細菌自己的防禦武器改造成攻擊它們的工具,就有望解決耐藥菌的難題。
而 DefensePredictor 的出現,讓原本需要數月甚至數年的篩選工作,縮短到了幾分鐘。未來,隨着更多新數據的加入,這套模型還會變得更聰明,幫我們找到更多細菌的祕密武器。
參考資料:
相關論文
https://www.science.org/doi/10.1126/science.adv7924
倉庫
https://github.com/PeterDeWeirdt/defense_predictor
https://www.linkedin.com/in/peter-deweirdt/
https://www.linkedin.com/in/emimahoney/
https://www.linkedin.com/in/michael-laub-1a7668106/
運營/排版:何晨龍




