近日,來自北京大學的馬唯碩和所在團隊總結出了一套針對圖自編碼器(GAE,Graph Autoencoder)或以 GAE 爲基礎的模型的普適性優化方案,並通過實驗來重估性能。結果十分令人驚訝:經過這些優化,GAE 這個相對“古老”的模型,竟能以更快的速度達到與最先進模型相當或更好的結果。例如,研究團隊在美國斯坦福大學發佈的大規模數據集 ogbl-ppa 上,取得了排行榜 Rank#1 的性能。

圖 | 馬唯碩(來源:馬唯碩)
總結來看,本次成果的貢獻主要有兩點:首先,構建了優化版本的 GAE 模型並取得了 SOTA 結果,確認了本次基本方法所蘊含的巨大潛力;其次,歸納出了對以 GAE 爲基礎的鏈路預測模型普遍有效的一系列技術,有助於指導 AI 社區的後續模型構建。
“我們很榮幸地收到了一個接收(accept)意見和兩個強烈接收(strong accept)意見。”談及投稿過程馬唯碩這樣告訴 DeepTech。審稿人也認可了這一成果的核心觀點——“精心優化的簡單模型可以達到或超越複雜模型在鏈路預測任務上的表現”,並在原創性方面給予高度肯定。
從應用角度來看,這一成果最重大意義在於,研究團隊證明在鏈路預測任務上,效率和性能在某種程度上是可以兼得的。經過他們優化之後的 GAE 模型,相較以前的一些模型,有着幾十倍甚至上百倍的效率提升,這會爲圖神經網絡鏈路預測模型的規模化掃清重要阻礙。
舉例來說,在現代推薦系統任務中,部署圖神經網絡的一個重大阻礙是:建模出的物品-關係圖可能有着數十億甚至更多條邊,這對圖神經網絡的效率提出了非常高的要求,複雜的模型所增加的額外計算成本,在這種情況下往往是不可接受的。而 GAE 模型的計算開銷在這樣的情境下有着天然的優勢。總之,優化 GAE 架構在應用方面所能帶來的核心優勢便是,能在大規模部署場景下帶來大幅度的效率優勢。

(來源:https://arxiv.org/pdf/2411.03845)
談及本次成果的研究背景,馬唯碩表示鏈路預測——是圖學習領域中最重要且基礎的問題之一,在推薦系統、知識圖譜構建等領域有着重要的應用,也是該課題組一直以來的重要研究方向之一。近年來,基於圖神經網絡的方法逐漸成爲主流,並取得了良好的效果。但是,人們逐漸關注到,基礎的圖神經網絡架構並不能有效捕捉到預測連邊所需的結構特徵。因此,該領域內的工作引入了大量複雜的模型架構改進來克服這一點,在獲得性能提升的同時,計算成本也相應升高。
在追求複雜性的潮流中,研究團隊觀察到一個重要的評測缺陷:許多新發布的模型,其性能提升往往是被高估的,原因在於用來比較的基線模型,往往是多年前未經任何優化的原始版本,而近期模型往往都經過了非常精細的優化。這個問題可能導致人們不能正確評估模型所改進的效果,讓 AI 社區過分關注模型本身的新穎程度,而忽視了對於基礎模型潛力的挖掘。
基於這個觀察,研究團隊聚焦於近 10 年前提出的一個重要的模型——GAE,並提出了這樣一個問題:在不改變模型簡潔的核心架構的前提下,對 GAE 使用流行的現代優化技術進行全面優化,它的性能究竟能達到什麼水平?總而言之,研究團隊並不是在創建一個全新的模型,而是通過針對基礎模型進行全面優化,爲 AI 社區提供一個更公允、更強大的基線,併爲後續模型設計提供優化方面的重要參考。
另據悉,本次課題組最開始是針對另一個課題的跟進。在此前課題裏,研究團隊主要研究負採樣技術對於鏈路預測的促進作用,並側重於強調其優秀的效率。因此,他們希望在這一課題的啓示之下,尋求效率與性能平衡的新方向。當時,馬唯碩作爲一名本科實習生,得到了導師張牧涵教授和師兄們的信任與幫助,負責主導此次課題組的推進。“而這對我來說也是一個全新且激動人心的挑戰。”馬唯碩表示。
研究初期,他和其他團隊成員開展了一系列的消融實驗,逐個去掉了模型中的每個模塊,直到只剩下 GAE 的基座模型部分。他們很快發現當去掉這些模塊,並沒有對性能造成較大沖擊,其表現仍然遠遠好於早期測得的 GAE 基線結果。這讓他們立刻意識到,很有可能 GAE 本身的表現是被大大低估的。後續實驗很快證明他們的觀察是正確的:即僅僅通過基礎的模型架構改進,比如線性卷積等技術,以及最基本的參數調優,就能在部分數據集上取得不錯的結果,那怕和當時最先進的基線相比依然如此。通過仔細審閱代碼,他們確定沒有出現數據泄露這類問題,即不存在會導致表現虛高的問題,基於此他們覺得這個方向值得繼續挖掘。
爲了探明 GAE 模型的全部潛能,馬唯碩大量閱讀了近期所有知名鏈路預測模型的源代碼,以便確定它們的流水線中存在對於鏈路預測任務最有利的部分,並將其融入了 GAE 基線的基本架構中,同時設計了大規模實驗方案來確定每一個優化技術的最佳實踐。在針對每一個模塊進行大規模實驗研究與驗證之後,他們逐漸總結出一套詳盡的優化方案,並在該方案的指導之下做出了不錯的結果。
當然,僅有實驗結果是遠遠不夠的,還需要從理論來進行闡釋。實際上,人們之所以不信任 GAE 架構的一個主要原因在於,它在理論上存在表達能力限制,簡單來說它不能捕捉到那些對於連邊形成至關重要的結構信息。“而如果我們的模型能夠表現出非常優秀的性能,那一定表明其通過某種方式突破了這個限制。”馬唯碩表示。
實際上,他和所在團隊在很早就意識到這個原因。此前,已有論文指出正交噪聲可以用來估計公共鄰居信息,這對於鏈路預測十分重要。而將這個結論與 GAE 相結合,研究團隊發現當 GAE 使用正交初始化的初始節點表徵,輔以線性的卷積傳播和點積預測,這些公共鄰居信息同樣能夠得以保留,而這是一個相當強的結構信號。這表明本次實驗中展示出來的強大性能並非偶然。
研究推進到這裏其實已經比較充分,但是他們最初並沒有打算將其作爲正式會議論文進行投稿,而是準備製作一份研究報告。轉機在於該團隊另一一篇中稿神經信息處理系統大會(NeurIPS,Conference on Neural Information Processing Systems)的論文,讓本次成功在其他領域得到了驗證。也讓類似 GAE 這樣既簡單又強大的基礎模型得到了廣泛的認可。這堅定了他們的信心,讓他們更加清楚地意識到此次工作對於整個領域可能具有重要價值。
所以在導師和師兄的支持之下,馬唯碩決定將這一成果整理爲論文並將其投稿到信息與知識管理國際會議(CIKM,Conference on Information and Knowledge Management)。在整個論文寫作過程中,他和所在團隊系統性地彙總了一系列的實驗結果,並陸續迭代了數次論文敘述方式,確保每一個細節都做到最好。
“而值得一提的是,上述那篇 NeurIPS 論文也成爲了我們在這篇論文寫作過程中的重要行文結構參考。也很高興這篇論文被 CIKM 最終接收,並獲得了審稿人的良好反饋。”馬唯碩表示。
他認爲,紮實的基礎理解和冷靜的觀察視角必不可少。相對浮躁的研究思路可能會讓人們選擇追求複雜性的潮流,從而會在完善的架構基礎上繼續增加複雜的設計,而不去將更底層的機制理解透徹。這樣的方式很難做出真正的創新成果,也可能會錯過基礎架構中仍然存在的設計空間與優化可能。
後續,研究團隊主要關注以下兩個方向:
首先,他們希望可以把本次論文拓展到動態圖之中。在動態圖場景中,圖是會持續變化的,這爲圖學習提供了全新的挑戰。而由於它與工業場景比如推薦系統有着最緊密的結合,因此在近年來成爲了最熱門的方向之一。因此,他們希望能夠研究基礎架構在動態圖設置下的潛能。
其次,他們計劃研究圖基礎模型。近年來,構建一個單一的、強大而靈活的模型,以便處理不同圖上的不同下游任務,是圖學習領域的一貫追求。研究團隊希望可以利用本次論文提供的對於 GNN 優化的一系列觀察,爲圖基礎模型的設計提供更多啓發。
參考資料:
https://arxiv.org/pdf/2411.03845
運營/排版:何晨龍