AI結構預測的邊界:AlphaFold爲何不能取代實驗結構生物學

由 科技導報 發佈於 科技

'25-02-27

人工智能的飛速發展爲生物學研究帶來了深遠影響,其中,AlphaFold2在蛋白質結構預測領域引發了革命性的突破。本文評估了AlphaFold2對GPCR結構預測的可靠性,發現其雖能準確捕捉GPCR整體骨架的主要特徵,但在胞外域與跨膜域的組裝、配體結合口袋的形狀以及信號傳導界面的構象等方面,與實驗解析的高分辨率結構存在顯著差異。這些差異限制了其在GPCR功能研究和基於結構的藥物設計中的應用能力。因此,AI結構預測尚不能完全取代實驗結構生物學,需要聯合使用以輔助藥理學研究和藥物設計。




1 AlphaFold與結構生物學


近年來,人工智能(artificial intelligence,AI)以驚人的速度發展,改變了我們生活和科學研究的許多方面。2024年諾貝爾物理學獎和化學獎雙雙花落“AI”領域,物理學獎突出“科學如何應用於AI,改變AI”,而化學獎突出“AI如何改變科學和人們的認知”。本文將探討獲得2024年諾貝爾化學獎的蛋白質結構預測工具AlphaFold和傳統的結構生物學方法的對比。

AlphaFold是由DeepMind開發的AI模型,能夠根據蛋白質的氨基酸序列預測其三維結構。蛋白質就像是生命體內的小機器,它們的結構決定了功能。瞭解蛋白質的結構對於藥物研發和理解生命過程非常重要。AlphaFold的出現,讓人們看到了快速預測蛋白質結構的可能性。

截至目前,AlphaFold的3個主要版本分別是AlphaFold1、AlphaFold2和AlphaFold3,各自代表了從基礎探索,到高精度預測和複合體建模的逐步演進(表1)。

表1 3代AlphaFold的核心差異對比

傳統上,結構生物學使用實驗手段來解析蛋白質的三維結構,主要的方法有以下幾種:

  • X射線晶體學:是最早且最常用的方法。研究者需要首先讓蛋白質形成晶體,然後用X射線照射這些晶體,得到衍射圖樣。通過解析這些圖樣計算出蛋白質的三維結構。但這一過程非常複雜,需要大量的時間和精力,尤其是培養出合適的蛋白質晶體並不容易,並且某些蛋白質無法在任何條件下結晶,這限制了晶體學對蛋白結構的研究。

  • 核磁共振(NMR):這種方法利用了原子核在磁場中的特性。研究者將蛋白質溶解在溶液中,放入強大的磁場中,然後測量原子核的信號。通過這些信號,可以推斷出蛋白質的結構和動態信息。但NMR適用於研究小型蛋白質,對於分子量較大的蛋白複合體並不適用。

  • 冷凍電子顯微學(Cryo-EM):這是近年來迅速發展的技術,將蛋白質快速冷凍保持天然狀態,在電子顯微鏡下觀察。總體上精度不如晶體學研究,僅部分結構達到近原子分辨率。適合研究大型蛋白質複合物,不過設備昂貴,操作要求高。

這些傳統方法雖精確可靠,但過程繁瑣、耗時耗力,需要豐富經驗和技術支持。AlphaFold出現後,有人思考傳統實驗方法是否還有必要。實際上,AlphaFold存在侷限性,如對蛋白質動態變化預測能力有限,預測複合物結構仍面臨挑戰,其預測結果常需實驗確認。

筆者對比了AlphaFold預測的G蛋白偶聯受體(GPCR)結構與實驗解析結果,發現AI預測雖有一定準確性,但關鍵細節存在差異,會影響藥物設計和功能研究。AlphaFold是重要工具,但不能完全取代傳統結構生物學方法,實驗驗證依舊是理解生命奧祕的關鍵。



2 GPCR的奧祕與AlphaFold2


GPCR,是一種通過G蛋白傳導信號的受體,廣泛表達於細胞膜表面,負責將胞外信號傳遞到細胞內部。人類能看到東西、聞到味道,甚至感受到情緒波動,如開心和難過,GPCR都在其中扮演着關鍵角色。正因如此,它成爲了現代藥物設計中最重要的靶點之一,食品藥品監督管理局(FDA)批准藥物中約有三分之一都作用於GPCR,其年銷售額甚至超過1萬億美元。

儘管GPCR的重要性不言而喻,但由於其高度複雜的結構和在激活時產生的顯著動態變化(圖1),解析GPCR的高分辨率結構一直是生物學上的重大挑戰。傳統的X射線晶體學技術和近年來興起的Cryo-EM技術雖然取得了一些突破,但獲得高分辨率的GPCR結構仍然是一個耗時且成本高昂的過程。這一技術瓶頸限制了我們對GPCR功能的深入理解,也在新藥開發中形成了障礙。

圖1 GPCR的激活機制,紅圈表示激活過程中發生主要變化的跨膜螺旋6
AlphaFold2爲GPCR結構預測帶來突破,在蛋白質結構預測競賽中表現出色,預測效果接近實驗精度,爲GPCR相關研究提供了有力工具。但它在取代傳統結構生物學方法方面仍存在侷限。本文選取了AlphaFold2發表後的29個GPCR結構,使用AlphaFold2摺疊了它們的預測模型,並進行了和實驗結構的比較和評測。由於這些蛋白不在訓練集中,這排除了AlphaFold2預測時參考訓練集數據的可能。



3 整體結構區別:AlpahFold2是個好導航,但可以更好


在細胞生物學的世界裏,蛋白質就像一臺複雜的機器,GPCR則像傳遞外界信號的特工,AlphaFold2則是高科技的導航系統,能夠預測這些特工的“路線”。GPCR由7段跨膜螺旋組成,AlphaFold2在捕捉其整體佈局上表現不錯,評測的蛋白整體均方根偏差(RMSD)爲1.64Å,體現出較高精確度。

不過,當GPCR帶上大型細胞外結構(ECD)時,AlphaFold2的預測誤差通常會增大。因爲ECD和跨膜區域(TMD)之間的相對位置預測不夠準確,如結合了semaglutide的胰高血糖素樣肽-1受體(GLP1R),整體誤差達3.92Å。在甲狀旁腺激素2受體(PTH2R)和激活態的黃體生成素/絨毛膜促性腺激素受體(LHCGR)中,也出現整體RMSD大於分開計算的RMSD的情況。對於在訓練集中不常見的失活態LHCGR,整體RMSD竟然達到了6.08Å,差異極大(見圖2)。

圖2 具有大型胞外結構域的預測模型和實際結構對比,提供了分開對齊和整體對齊的RMSD



4 關鍵藥物作用位點:AlphaFold2無法指引重要路口的方向


GPCR類似繁忙的城市中心,小分子藥物像尋找關鍵交匯點(正構位點)的遊客。準確瞭解正構位點結構對基於結構的藥物設計和功能研究至關重要。

本文評估的29個GPCR結構中有4個是與小分子配體結合的受體。結果顯示,AlphaFold2預測的GPCR主鏈結構與實驗數據相似(平均主鏈RMSD僅爲0.89Å),但關鍵殘基側鏈差異顯著,側鏈RMSD高達1.90Å,整體原子RMSD爲1.52Å。使用基於AlphaFold2預測結構的分子對接評估發現,大部分對接不能重現結果(見圖3)。

圖3 AlphaFold2預測模型和電鏡結構在小分子配體口袋上的對比
例如在5-羥色胺1F受體(5HT1FR)案例中,AlphaFold2預測的側鏈排列出現偏差,阻礙了三氟苯環與H176ECL2的相互作用,導致分子對接生成的小分子結合姿態與實驗結構差異大,RMSD達到7.15Å。在褪黑素受體1A(MT1R)案例中,F1965.47側鏈向外“偏航”,導致對接後的小分子朝着TM螺旋束中心移動,RMSD爲4.79Å。在LHCGR案例中,F515ECL2側鏈改變了頂部“交叉口”環境,小分子配體無法成功被對接。雖然在2型輔助T細胞上表達的趨化受體同源分子(CRTH2)案例中,預測模型與實驗結構在正構位點高度一致,對接結果也幾乎完全吻合,但這種理想情況並非普遍存在。



5 TM6-TM7:複雜多變的導航路線,AlphaFold2往往難以把握



在GPCR的世界中,TM6和TM7這2段跨膜螺旋就像是細胞信號傳遞中的關鍵“交通樞紐”,會根據需要進行動態調整,爲重要的下游信號分子(如G蛋白等)提供暢通的“通行路徑”。然而,實驗結構和預測模型在這些關鍵“路段”上往往存在顯著差異,AlphaFold2在預測這些變化時也確實面臨挑戰,相關結果在圖4中展示。

圖4 AlphaFold2預測模型和電鏡結構在胞外關鍵激活螺旋上的對比

研究發現,有些GPCR在預測模型中的TM6-TM7構象與實驗結果有較大出入,誤差超過了2Å。例如,在ghrelin受體和抗利尿激素受體(V2R)的“地圖”中,這些關鍵“路段”的偏差分別達到了3.08Å和2.83Å。在GLP1R和PTH2R的模型中,TM6和TM7被預測爲“向上抬升”,影響小分子無法正確“到達”結合位點。

同樣地,細胞內區域的情況也值得關注(圖5)。通過測量TM6的開啓程度,我們可以瞭解這些GPCR在細胞內側爲蛋白結合夥伴預留的“通行空間”有多大。有趣的是,不同類型的GPCR在預測模型中預留的“空間”差異明顯。對於沒有結合G蛋白的A類GPCR,預測結構中預留的“空間”比實驗結構更多。而對於已經結合了G蛋白的A類GPCR,預測結構中預留的“空間”卻更少。B1類GPCR的預測模型與實驗結構幾乎一致,可能是訓練數據中激活態B類GPCR結構較多。此外,某些A類GPCR的胞內環區3(ICL3)在預測模型中與實驗結構差異大,如5HT1FR和膽囊收縮素受體1(CCKAR)。

圖5 AlphaFold2預測模型和電鏡結構在胞內關鍵激活螺旋(TM6)上的對比


6 蛋白結構預測的誤差:爲什麼AlphaFold2有時會“迷路”?


AlphaFold2預測GPCR結構時,在某些關鍵區域會出現誤差。如在GLP1R案例中,預測的ECD-TMD結構阻礙了肽的結合,可能是訓練過程中缺乏配體信息,無法準確重現有利於肽結合的特定ECD-TMD構象。

預測與小分子結合的GPCR結構時,雖主鏈預測準確度約1Å左右,但預測與配體相互作用的“結合口袋”結構時仍面臨挑戰。更糟糕的是,在LHCGR案例中,預測模型甚至未形成適合小分子對接的“停靠點”。

對於TM6螺旋的預測,AlphaFold2似乎傾向於產生一種介於激活態和非激活態之間的“平均”構象。此外,ICL3區域的預測也常常出現過長的螺旋結構,而在實驗結構中,這些區域通常是靈活多變的。這可能是因爲AlphaFold2從包含骨限制性干擾素誘導跨膜蛋白樣(BRIL)融合蛋白的非天然GPCR結構中學習,導致了偏差。



7 結論


通過這些例子,我們認識了AlphaFold2在GPCR結構預測中的侷限性,作爲從提出到獲得諾貝爾獎的最快例子之一,AlphaFold2爲研究領域帶來了革命性的變化,但仍不能忽視其潛在的問題。在未來的研究中,科學家們需要謹慎地使用這些預測模型,結合實驗結構生物學的方法,進行配體結合位點和激活機制的相關驗證,以爲真實的藥物設計提供參考。AlphaFold2爲我們提供了探索蛋白質結構奧祕的工具,但同時也提醒我們,在擁抱新技術的同時,仍需腳踏實地,通過實驗發現真實蛋白構象,共同繪製出更精確的蛋白質“路線圖”。
本文作者:何欣恆,李俊睿,徐華強
作者簡介:何欣恆,中國科學院上海藥物研究所,博士研究生,研究方向爲計算生物學和結構生物學徐華強(通信作者),中國科學院上海藥物研究所,研究員,研究方向爲核激素受體、肝臟生長因子(HGF)及其受體Met酪氨酸激酶、GPCR和植物激素等的結構和藥物研發。

論文全文發表於《科技導報》2025年第2期,原標題爲《爲什麼AlphaFold不能取代實驗結構生物學?——AI結構預測的準確性探討》,本文有刪減,歡迎訂閱查看。

內容爲【科技導報】公衆號原創,歡迎轉載
白名單回覆後臺「轉載」

《科技導報》創刊於1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的成果報道、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策諮詢建議。常設欄目有院士卷首語、智庫觀點、科技評論、熱點專題、綜述、論文、學術聚焦、科學人文等。


《科技導報》微信公衆平臺創建於2014年,主要刊登《科技導報》期刊內容要點,報道熱點科技問題、科技事件、科學人物,打造與紙刊緊密聯繫又特色鮮明的新媒體平臺。
科技導報公衆號聚集了數萬名專心學術的未來之星和學術大咖,添加編輯微信,讓優秀的你有機會與志趣相同的人相遇。


Scroll to Top