AI 發展的速度比我們想象得更快。
就在上個月,我們曾報道頂尖的大語言模型們還在奧數級別的基準測試中集體受挫,而僅僅一個月後,AI 便已能在真正的國際數學奧林匹克競賽中斬獲金牌。
當地時間 7 月 21 日,谷歌 DeepMind 宣佈,其研發的人工智能系統在國際數學奧林匹克(IMO,International Mathematical Olympiad)中取得了歷史性的突破,正式獲得了“金牌”級別的成績。這標誌着人工智能首次在官方認證的 IMO 競賽中達到如此高的成就,同時也表明 AI 在複雜推理能力上邁出了關鍵一步。
在今年於澳大利亞舉行的第 66 屆國際數學奧林匹克競賽中,谷歌 DeepMind 參賽的 AI 模型“Gemini Deep Think”成功解答了全部六道題目中的五道,最終獲得了 35 分(滿分 42 分)的優異成績。根據 IMO 的評分標準,這一分數足以摘得金牌。IMO 主席 Prof. Dr. Gregor Dolinar 評價這些解答“在許多方面都令人震驚”,認爲它們“清晰、準確,大部分都容易理解”。

圖丨本次 IMO 的題目之一(來源:DeepMind)
此次谷歌的勝利,不僅在於分數的突破,更重要的是其實現方式也產生了巨大變革。去年,DeepMind 的兩個系統 AlphaGeometry 和 AlphaProof 聯手獲得了銀牌,解決了六題中的四題。但當時的系統需要人類專家先將自然語言描述的賽題手動翻譯成名爲“Lean”的形式化計算機語言,AI 才能進行處理,整個過程耗時兩到三天。而今年的 Gemini Deep Think 則完全不同,它是一個能夠直接理解並處理自然語言問題的“推理系統”,在與人類選手相同的 4.5 小時競賽時限內,端到端地完成了從讀題到生成嚴謹數學證明的全過程,無需任何人工干預。

(來源:DeepMind)
Gemini Deep Think 的成功,得益於谷歌在 AI 推理技術上的最新研究成果。該模型採用了一種被稱爲“並行思維”(parallel thinking)的先進技術,使其能夠同時探索和整合多個潛在的解題思路,而不是像傳統 AI 模型那樣沿循單一的線性推理路徑,從而大大提升瞭解決複雜問題的效率和創造性。此外,DeepMind 團隊還運用了新的強化學習技術,通過一個包含高質量數學解題方案的精選數據庫對 Gemini 進行專門訓練,使其掌握了更高級的多步推理和定理證明能力。
有意思的是,在解決其中一道許多人類選手需要動用研究生級別數學知識的難題時,Gemini Deep Think 卻另闢蹊徑,僅憑基礎的數論知識就給出了一個“絕妙的觀察”和自洽的證明,其解法比許多人類參賽者的更爲簡潔優雅。這在某種程度上也表明,AI 在複雜問題面前,已經具備了超越常規思路、發現創新解法的潛力。
不過,這次成就的發佈過程頗具戲劇性。就在谷歌公佈消息的兩天前,OpenAI 的一位研究員在社交媒體上搶先宣佈,他們的一款實驗性 AI 模型也在今年的 IMO 中取得了出色的“金牌”成績——同樣是解出五道題,獲得 35 分。
但區別在於,OpenAI 並未正式參與 IMO 的官方評估流程,而是他們組建了一個由三位前 IMO 獎牌得主構成的獨立小組來爲自己的 AI 打分。而谷歌則是與 IMO 官方合作,由競賽協調員根據學生評分標準正式評定成績,也因此,只有谷歌的成績得到了 IMO 官方的認證。
此外,據多方消息透露,IMO 官方曾請求所有參與測試的 AI 公司在閉幕式後等待一週再公佈成績,以便讓焦點首先集中在獲獎的青少年學生身上。谷歌 DeepMind 遵守了這一約定,而 OpenAI 則在閉幕式當天就迫不及待地公佈了其“自評”的成績,這種做法在 AI 社區引發了激烈爭議。DeepMind CEO Demis Hassabis 在社交媒體上含蓄地諷刺了一下友商:“順便說一下,我們沒有在週五宣佈,是因爲我們尊重 IMO 委員會的原始要求,即所有 AI 實驗室都應該在官方結果得到獨立專家驗證且學生們理應獲得應有的讚譽之後才分享他們的結果。”

圖丨相關推文(來源:X)
值得注意的是,無論是谷歌的 Gemini Deep Think 還是 OpenAI 的模型,都未能攻克本屆 IMO 難度最高的第六題。這道題目要求計算覆蓋一個給定空間所需的最少矩形數量,最終只有 5 名人類學生成功解出。據悉,Gemini 在解這道題時,從一個錯誤的假設出發,最終未能找到正確路徑。這也從側面說明,儘管 AI 在邏輯推理方面取得了長足進步,但在面對某些極具挑戰性和創造性的問題時,與頂尖的人類智慧相比,仍有其侷限性,需要從這些年輕的數學天才身上學習。
著名數學家陶哲軒也在社交媒體上詳細分析了評估 AI 能力的複雜性,他表示,AI 系統的表現很大程度上取決於被給予的資源和輔助條件。他用人類參賽者的類比來說明,如果改變競賽格式(比如給學生幾天時間而不是 4.5 小時,或者允許使用工具),那麼成績和排名可能會發生巨大變化。因此,在不同規則下對 AI 的能力進行比較,需要格外謹慎。

圖丨相關推文(來源:X)
但無論如何,這次比賽對谷歌而言,都堪稱一次“雙贏”——由他們贏兩次,不僅證明其在與 OpenAI 等對手的“AI 競賽”中佔據了有利身位,還因爲競爭對手本身的搶跑而獲得了好名聲。
基於這次的成功,谷歌方面也公佈了後續的商業化路徑:計劃向一組由數學家組成的受信任測試者提供一個版本的 DeepMind 模型,之後會將其推廣給每月支付 250 美元的 Google AI Ultra 訂閱用戶。他們相信,這種結合了自然語言流暢性和嚴謹推理能力的 AI 系統,將成爲數學家、科學家和工程師的寶貴工具,最終推動人類知識的邊界,加速 AGI 的到來。
參考資料:
1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
2.https://x.com/demishassabis/status/1947337618787615175?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1947337618787615175%7Ctwgr%5Ee2bf7e56b25bf6a4597610749ec8ad1afdee0a50%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fgoogle-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition%2F
運營/排版:何晨龍