過去半年,AI 在數學領域的進展令人目不暇接。2025 年 10 月,OpenAI 聲稱 GPT-5 解決了多道 Erdős 難題,隨後被證實其中大部分只是文獻檢索,找到了數據庫維護者尚未收錄的已發表論文。
但到了 2026 年 1 月,情況發生了實質變化:GPT-5.2 Pro 在一週內攻克了三道 Erdős 難題(#397、#728、#729),生成的證明經 Lean 形式化驗證後被陶哲軒本人接受,且這些證明在已有文獻中找不到先例。
據《科學美國人》2026 年 2 月的報道,AI 工具迄今已幫助將約 100 道 Erdős 問題轉入“已解決”狀態。與此同時,多位頂尖數學家開始向 AI 實驗室靠攏:哥倫比亞大學的 Mehtaab Sawhney 休學加入了 OpenAI,另一位研究者 Pagano 也入職了 Google DeepMind。
就在這個節點上,3 月 20 日,菲爾茲獎得主陶哲軒做客 Dwarkesh Podcast,從開普勒發現行星運動定律的故事講起,深入談論了 AI 正在如何改變數學與科學研究的方式。他在 2023 年曾預測到 2026 年 AI 將成爲數學研究中“值得信賴的合著者”,如今他對這個預測表示滿意。但他也坦言,AI 讓他的論文更豐富了,核心突破仍然要靠紙筆完成。

(來源:YouTube)
對話核心要點如下:
• 陶哲軒 2023 年預測“到 2026 年 AI 將成爲數學研究中值得信賴的合著者”,他認爲這個預測基本兌現;
• AI 工具已幫助解決約 50 道 Erdős 難題(據《科學美國人》報道已接近 100 道),但純 AI 一擊命中的解題已經停滯,剩餘問題的成功率約爲 1%–2%;
• AI 將想法生成的成本降到了接近於零,但驗證和評估成爲了新的瓶頸,科學界的同行評審體系正在被 AI 生成的投稿淹沒;
• 陶哲軒的論文現在包含更多代碼和圖表,如果沒有 AI 工具,寫出同類論文要花五倍時間;但數學問題中最核心的突破部分仍然依賴紙筆;
• AI 擅長廣度,人類擅長深度,二者高度互補;陶哲軒認爲人機混合將在數學領域佔據主導地位更長時間;
• 他認爲數學需要一種描述“策略”而非僅僅“證明”的半形式化語言,但目前還不知道這種語言該是什麼樣的;
• 對年輕人的建議:心態要足夠靈活,傳統教育仍然重要,但要對全新的參與科學的方式保持開放。
以下是這場對話的編譯全文。
Patel:我想先請你講講開普勒發現行星運動定律的故事,因爲我覺得這會是一個很好的跳板,讓我們從這裏開始聊 AI 與數學。
陶哲軒:好的。我一直對天文學有業餘的興趣,也很喜歡早期天文學家如何推算出宇宙本質的故事。開普勒是在哥白尼的工作基礎上進行研究的,而哥白尼本人又繼承了阿里斯塔克斯(Aristarchus)的思路。哥白尼最著名的貢獻是提出了日心說模型:不是行星和太陽圍繞地球轉,而是太陽位於太陽系中心,其他行星圍繞太陽運行。哥白尼認爲行星的軌道是完美的圓形,他的理論在一定程度上與希臘人、阿拉伯人和印度人數百年來積累的觀測數據吻合。
我覺得開普勒應該是在求學過程中接觸到了這些理論,然後他注意到,哥白尼所預測的各行星軌道的大小比例似乎蘊含着某種幾何意義。他開始提出這樣一種想法:比如你取地球的軌道,把它嵌入一個立方體中,那麼包圍這個立方體的外接球幾乎完美地吻合火星的軌道,依此類推。
當時已知有六顆行星,行星之間有五個間隔,而恰好有五種正則柏拉圖立體:立方體、正四面體、正八面體、正十二面體和正二十面體。所以他提出了一個他認爲極其美妙的理論,認爲可以在各行星的球面之間嵌入這些柏拉圖立體。數據看上去確實吻合。對他來說,這意味着上帝設計行星的方式恰恰對應了柏拉圖立體的數學完美性。
爲了驗證這個理論,他需要數據。當時幾乎只存在一套真正高質量的數據集,來自第谷·布拉赫(Tycho Brahe)。這位丹麥天文學家非常富有而又性情古怪,他說服了丹麥政府資助一座極其昂貴的天文臺,實際上是一整座島。他在那裏持續了幾十年,每天晚上(至少是天氣晴朗的每個晚上)用肉眼觀測所有行星的位置。他是最後一批純肉眼天文學家。他擁有的數據正是開普勒驗證理論所需要的。

圖丨開普勒與布拉赫雕塑(來源:WikiPedia)
開普勒開始與布拉赫合作,但布拉赫對自己的數據非常吝嗇,每次只給一點點。據說開普勒最終偷了數據,偷偷抄了一份,還跟布拉赫的後人鬧了一場。但他確實拿到了數據,然後他發現,令他頗爲失望的是,那個美妙的理論並不完全成立。數據與柏拉圖立體理論大約偏差了 10%。
他想了各種辦法來調整,挪動圓的位置之類的,但就是不太對。他在這個問題上鑽研了很多年,最終找到了一種方法,利用數據推算出行星的實際軌道。那是一項了不起的數據分析工作。最終他發現行星軌道其實是橢圓而非圓形,這讓他很震撼。
他推導出了行星運動的前兩條定律:橢圓軌道,以及等面積等時間定律(即行星與太陽的連線在相等時間內掃過相等的面積)。然後又過了十年,在積累了更多數據之後(最遠的行星如土星和木星是他最難搞定的),他最終推導出第三定律:行星完成一個軌道週期所需的時間,與它到太陽距離的某個冪次成正比。這就是著名的三大運動定律。對開普勒而言,這些完全是由實驗數據驅動的。要到一個世紀後,牛頓纔給出了一個統一的理論來解釋這三條定律。
Patel:我想提出一個看法,來看你怎麼評價:開普勒就像一個“高溫度”的大語言模型(high temperature LLM)。牛頓後來解釋了行星運動三定律爲何必然成立。開普勒推算出各行星相對軌道的方式,正如你所說,確實是天才之舉。但縱觀他的整個學術生涯,他一直在嘗試各種隨機的聯繫。
事實上,在他寫下第三定律的那本書《世界的和聲》裏,第三定律幾乎是一筆帶過。那本書的主題是關於不同行星擁有不同的和聲,地球上之所以充滿饑荒和苦難,是因爲地球的音符是“mi”和“fa”。所以大量的內容是隨機的占星學,但其中夾着立方平方定律(cube-square law),告訴你行星週期與到太陽距離之間的關係。如果把這條定律加上牛頓的 F=ma 和向心加速度公式,就能推導出引力的平方反比定律。牛頓就是這樣推導出來的。
我覺得這個故事之所以有趣,是因爲我感覺大語言模型可以做開普勒那種事情:花 20 年嘗試各種隨機聯繫,其中有些完全沒道理,只要有一個可驗證的數據庫(就像布拉赫的數據集),那就行。我要試試關於音符的隨機想法,試試關於柏拉圖立體的隨機想法,試試各種不同的幾何。我有一個偏見,覺得這些軌道的幾何關係中一定有什麼重要的東西。然後其中有一個想法成功了。只要你能驗證它,這些經驗規律就可以推動真正深層的科學進步。
陶哲軒:傳統上,當我們談論科學史的時候,“想法的生成”一直是科學中最有聲望的環節。一個科學問題涉及很多步驟:你必須先識別一個問題,然後判斷它是不是一個好問題。然後你需要收集數據,想出分析數據的策略,提出假說。到了這一步,你需要提出一個好的假說,然後驗證它,然後還要寫出來、解釋清楚,涉及十幾個不同的環節。但我們慶祝的確實是那些靈光乍現的“尤里卡”時刻,也就是想法的生成。
開普勒當然必須像你說的那樣,循環嘗試很多想法,其中好幾個不管用。我敢打賭還有很多他根本沒發表的,因爲數據就是對不上。這是過程中很重要的一部分:嘗試各種隨機的東西,看看哪個行得通。但正如你所說,這必須配合同等規模的驗證工作,否則就太慢了。
我的意思是,我們紀念開普勒,但也應該同樣紀念布拉赫。他那種一絲不苟的數據收集比之前的任何觀測精確了十倍。而那個額外的小數點的精度對開普勒得出他的結論至關重要。他當時使用的是歐幾里得幾何,以及他所能掌握的最先進數學來擬合數據模型。所以各個方面都必須到位:數據、理論、以及假說的生成。
我不確定如今假說生成還是不是瓶頸了。從那以來科學發生了很多變化。經典上,科學有兩大範式:理論和實驗。20 世紀又加入了數值模擬,你可以通過計算機模擬來檢驗理論。
再往後,到了 20 世紀末,我們進入了大數據時代,數據分析成了新的驅動力。現在很多新進展實際上是通過分析海量數據集驅動的:先收集大量數據,然後從中發現規律來推導想法。這和科學過去的運作方式有些不同。過去是你先做幾次觀測,或者憑空冒出一個想法,然後收集數據來檢驗它。這是經典的科學方法。
現在幾乎是反過來的:你先收集大數據,然後試圖從中提取假說。開普勒也許是最早的數據科學家之一,但即便是他,也不是從布拉赫的數據集出發再去分析的,他先有了預設的理論。不過現在這種做法似乎越來越少了,因爲數據量實在太大,實在太有用了。
Patel:有意思。我倒覺得你描述的這種“20 世紀的科學範式”實際上很好地描述了開普勒的經歷。他確實有一些先入爲主的想法(1595 至 1596 年間他提出了正多邊形和柏拉圖立體的理論),但那些是錯的。幾年後他拿到了布拉赫的數據,又經過 20 年不斷嘗試各種隨機想法,才得出了那些經驗規律。
所以實際過程更接近於:布拉赫的數據就像某種海量模擬數據庫,有了數據之後你可以不斷嘗試。如果沒有這些數據,開普勒就只能在那兒不停寫關於和聲與柏拉圖立體的書,沒有什麼東西可以用來驗證。
陶哲軒:對,數據確實極其重要。但我想做的區分是,傳統上是先提出假說、再用數據檢驗。但現在有了機器學習、數據分析和統計學,你可以從數據出發,直接用統計方法推導出規律。
開普勒的第三定律就有點像這樣,只不過對第三定律來說,他的數據點只有 6 個,不是上千個。每顆行星你知道軌道週期和到太陽的距離,一共 5 到 6 個數據點。他做了我們今天所說的“迴歸分析”,擬合了一條曲線,發現了三次方 - 平方的關係,這令人驚歎。但其實他挺幸運的。僅憑 6 個數據點就能得出正確結論,這其實不夠可靠。
後來有一位天文學家約翰·波德(Johann Bode),拿着同樣的行星距離數據,受開普勒啓發,他預測行星的距離構成一個平移的等比數列。他也做了曲線擬合,但其中缺了一個點,火星和木星之間有一個很大的空隙。他的定律預測那裏有一顆缺失的行星。這看起來像是個不靠譜的理論,但後來赫歇爾發現了天王星,天王星到太陽的距離恰好完美吻合這個規律。再後來穀神星(Ceres)在小行星帶被發現,也吻合這個規律。人們非常興奮,覺得波德發現了一條驚人的自然法則。

圖丨約翰·波德(來源:WikiPedia)
但再後來海王星被發現了,它的距離與預測完全不符。基本上那就是個數字巧合,因爲只有 6 個數據點嘛。也許開普勒之所以沒有像突出前兩條定律那樣突出第三定律,是因爲即便他沒有現代統計學知識,他也憑直覺知道 6 個數據點得出的結論應該持保留態度。
Patel:我來更明確地問一下這個類比吧。未來我們會有越來越聰明的 AI,數以百萬計,它們可以到處去尋找各種經驗規律。聽起來你似乎認爲,科學的瓶頸不在於爲每個領域找到更多類似“行星運動第三定律”這樣的東西,然後後人可以說“哦,我們需要一種方式來解釋這個,讓我們來推導一下數學,這就是引力的平方反比定律”?
陶哲軒:我覺得 AI 基本上已經把想法生成的成本降到了接近於零,就像互聯網把通信成本降到了接近於零一樣。“這了不起,但光靠它還不會自動帶來豐裕。現在瓶頸變了。
我們現在的處境是:突然之間人們可以針對一個科學問題生成成千上萬的理論,然後我們必須去驗證它們、評估它們。爲此我們必須改變科學的組織結構。以往,我們建造了各種“圍牆”。在 AI 生成的垃圾內容(AI slop)出現之前,業餘科學家們也會提出自己的宇宙理論,其中絕大多數沒什麼價值,所以我們建立了同行評審和出版體系來過濾,試圖篩選出高信號的想法去檢驗。
但現在我們可以大規模地生成這些可能的解釋,其中有些是好的,很多是糟糕的。人類審稿人已經招架不住了。很多期刊報告說 AI 生成的投稿正在大量湧入。所以 AI 能生成各種東西,這很好,但這意味着科學的其他環節必須跟上來:驗證、確認、評估哪些想法真正推動了學科進步、哪些是死衚衕或障眼法。這些事情我們還不知道怎麼大規模地做。對於每篇單獨的論文,我們可以在科學家之間討論,經過幾年達成共識。但當我們每天生產成千上萬篇的時候,這種方式就行不通了。
Patel:確實有一個極其有趣的問題:如果你有數十億個 AI 科學家,不僅要判斷哪些是真正的進步,還要判斷其中哪個發現可能像“比特”的發明那樣,具有跨領域的普遍意義。
人類科學界其實也面對過這個問題,而且我們某種程度上解決了。我其實不太確定我們是怎麼解決的。比如在 1940 年代,你在貝爾實驗室或者什麼地方,有這些新技術湧現:脈衝編碼調製,基本上是如何傳輸信號、如何將信號數字化、如何在模擬線路上傳輸。
關於工程約束和細節有大量論文。然後其中有一篇提出了“比特”的概念,它對許多不同領域都有影響。你需要某種系統能夠看到它並說:好,我們要把這個應用到概率論,要把這個應用到計算機科學,等等。
未來,如果 AI 提出了某種下一代的統一概念,你怎麼在上百萬篇論文中識別出它?那些論文可能確實都構成了進步,但它們的思想遠沒有那麼普遍和統一。
陶哲軒:很多時候需要時間的檢驗。許多偉大的想法在最初提出時並沒有得到很好的反響,只是在後來其他科學家發現可以把它們拿來進一步發展、應用到自己的領域時才被認可。深度學習本身在很長一段時間裏都是 AI 中一個小衆方向。完全通過數據訓練而不是第一性原理推理來得到答案,這在當時非常有爭議,花了很長時間才真正開花結果。
你提到了比特。實際上計算機架構有過其他方案,不一定非得是 0 和 1。曾經有人提出過三值邏輯(ternary logic),即 0、1、2。在另一個平行宇宙裏,也許另一種範式會勝出。Transformer 是所有現代大語言模型的基礎,是第一個真正足夠複雜到能夠捕捉語言的深度學習架構,但事情不一定必須如此。可能有其他架構先做到了同樣的事情,一旦被採用就成了標準。所以,評估一個給定的想法是否會有成果之所以困難,是因爲它取決於未來,也取決於文化和社會——哪些想法被採納了,哪些沒有。
十進制數系在數學中極其有用,比羅馬數字系統好得多。但 10 這個底數本身沒什麼特別的。它對我們有用,是因爲其他所有人都在用它,我們已經圍繞它標準化了,我們的計算機和數字表示系統都是圍繞它構建的。所以我們被它綁定了。偶爾有人推廣十進制以外的系統,但慣性太大了。你不能把任何科學成就完全孤立地拿出來給它一個客觀分數,而不考慮它過去和未來的語境。所以這可能永遠不是你能像解決更局部的問題那樣用強化學習來搞定的事情。
Patel:對,科學史上似乎經常出現這種情況:一個後來被證明是正確的新理論在提出時會產生一些推論,這些推論要麼說不通(後來我們才明白爲什麼說不通),要麼是正確的但在當時看來荒謬至極。
你提過阿里斯塔克斯在公元前三世紀就有了日心說,但古雅典人說這不可能,因爲如果地球圍繞太陽轉,我們應該能看到恆星的相對位置變化。唯一的解釋是恆星太遠了,遠到你觀察不到任何視差。這其實是正確的推論。
但有時候推論確實不正確,我們需要進入更高層次的理解纔行。比如萊布尼茨批評牛頓的引力理論,理由是它意味着“超距作用”(action at a distance),我們不知道其中的機制。牛頓自己也對慣性質量和引力質量恰好是同一個量感到震驚。這些問題都是愛因斯坦解決的,但它仍然是進步。如果 AI 做同行評審,它的問題就在於:即便你能證僞一個理論,你怎麼識別出它相對於之前的理論仍然構成了進步?
陶哲軒:事實上,最終正確的理論在早期往往在很多方面看起來更差。哥白尼的行星理論就不如托勒密的理論精確。地心說到那時已經發展了一千多年,有了非常多的調整和越來越複雜的臨時修正來使其越來越精確。哥白尼的理論簡潔得多,但精確度低得多。一直到開普勒才使它比托勒密的理論更精確。
科學總是在不斷推進的。當你只得到了部分解答時,它看起來可能不如一個雖然錯誤但已經被完善到足以回答所有問題的理論。牛頓的理論有很大的謎團(質量等價和超距作用)這些直到幾個世紀後,通過一種概念上完全不同的方法才被解決。進步的實現往往不是通過增加更多理論,而是通過刪除你頭腦中的某些假設。
地心說之所以能堅持那麼久,一個原因是我們有一種觀念,認爲物體天然趨向於靜止。這是亞里士多德的物理學概念。所以地球在運動這個想法……我們怎麼沒有全都摔倒?一旦你有了慣性運動的概念那就說得通了。但在概念上,認識到地球在運動是一個非常大的飛躍。你感覺不到它在動。最大的進步往往就是這類事情。
達爾文的進化論也是如此。物種不是靜態的,但這並不顯而易見,因爲你在一生之內看不到進化(當然,現在我們實際上可以看到了)。
我們目前正在經歷一場認知版的哥白尼革命。我們過去認爲人類智能是宇宙的中心,現在我們看到外面存在着非常不同類型的智能,有着非常不同的優勢和劣勢。我們對於“哪些任務需要智能、哪些不需要”的判斷必須大幅重新排序。試圖把 AI 塞進我們現有的科學進步理論、“什麼是難的什麼是容易的”這些框架裏,我們相當掙扎。我們不得不問一些以前從未真正需要問的問題,或許哲學家們問過,但現在我們所有人都得面對了。
Patel:這引出了一個我非常好奇的話題。你提到了達爾文的進化論。有一本書叫《發條宇宙》(The Clockwork Universe),作者 Edward Dolnick,涵蓋了我們正在聊的這個歷史時期。他有一個有趣的觀察:《物種起源》發表於 1859 年,牛頓的《自然哲學的數學原理》發表於 1687 年。所以《物種起源》比《原理》晚了將近兩個世紀。
而在概念上,達爾文的理論似乎更簡單。與達爾文同時代的生物學家托馬斯·赫胥黎讀完《物種起源》後說:“怎麼會這麼蠢,居然沒有想到這個。”但從來沒有人這樣說過牛頓的引力理論,不會有人責怪自己沒有搶在牛頓前面。
那爲什麼反而用了更長的時間?一個很大的原因似乎是:自然選擇的證據是累積性和回溯性的,而牛頓可以直接寫出方程,看看月球的軌道週期和距離是否吻合。如果吻合,就說明取得了進步。
盧克萊修(譯註:提圖斯·盧克萊修·卡魯斯,Titus Lucretius Carus,是羅馬詩人和哲學家)其實在公元前一世紀就有了物種適應環境的想法,但直到達爾文之前沒人真正討論過,因爲盧克萊修做不了實驗,無法迫使人們關注。所以我在想,我們回頭看的時候,是否會發現那些有緊密數據反饋循環、容易驗證的領域取得了更多進步,儘管它們在概念上可能困難得多。

圖丨盧克萊修(來源:Human Heritage)
陶哲軒:科學的一個方面不只是創造新理論和驗證它,還有把它傳達給別人。達爾文其實是一位出色的科學傳播者。他用英語寫作,用自然語言,說得通俗易懂。他綜合了很多分散的事實。進化論的一些零散部分以前就被發現了,但他提供了一種非常有說服力的願景。他仍然缺少一些東西,比如他不知道遺傳的機制,沒有 DNA。但他的寫作風格很有說服力,這幫了大忙。
牛頓用拉丁文寫作,他發明了全新的數學(譯註:微積分)來解釋他的工作。他所處的時代,科學家之間更加祕密和競爭。雖然學術界至今仍然充滿競爭,但牛頓那個年代更甚。他隱瞞了一些最好的洞見,因爲不想讓對手佔便宜。據我所知他本人也不太好相處。實際上是在牛頓之後幾十年,其他科學家用更簡單的語言解釋了他的工作,他的理論才廣泛傳播。
所以說,闡釋的藝術、論證的組織、構建敘事,這些也是科學的重要組成部分。數據當然有幫助,但人們需要被說服,否則他們不會去推進這個方向。他們需要做出初始投資來學習你的理論並真正去探索它。而這又是一件很難用強化學習來做的事情,因爲你很難明確給“說服力”打分。好吧,整個營銷行業都在試圖做這件事。所以也許 AI 目前還沒有被優化得太有說服力是件好事。
科學也有屬於社會層面的一部分。雖然我們爲客觀性自豪,我們有數據,有實驗驗證,但我們仍然需要講故事,說服我們的同行科學家。
這是一件柔軟的、模糊的事情。它是數據和敘事的結合。而且是關於缺口的敘事。就像達爾文,正如我說的,他的理論有一些他無法解釋的部分,但他仍然能夠論證說,未來人們會找到過渡形態,會找到遺傳的機制。後來果然如此。但我不知道怎麼把這些量化到足夠精確的程度去做強化學習。也許這將永遠是科學中屬於人類的部分。
Patel:我從閱讀和觀看你關於宇宙距離階梯的內容中得到的一個感悟是(順便說一句,我非常、非常推薦大家去看你和 Tim Nguyen 合作的關於宇宙距離階梯的系列講座),許多領域中的“推演盈餘”(deductive overhang)可能比人們意識到的要大得多。
如果你有了研究問題的正確切入點,可能會驚訝於你能從世界中學到多少。你覺得這只是天文學在你研究的那些特定歷史時期的產物,還是說基於目前入射到地球上的數據,我們實際上可以推斷出遠比我們恰好知道的更多的東西?
陶哲軒:天文學是最早真正擁抱數據分析的科學之一,它把手頭信息中每一滴可能的信息都榨乾了。因爲數據就是瓶頸(現在仍然是),收集天文數據真的很難。所以天文學家在從微量數據線索中提取各種結論方面幾乎是世界級的,有點像福爾摩斯。我聽說很多量化對沖基金更喜歡招天文學博士,因爲他們也對從各種數據噪聲中提取信號很感興趣。
我們確實沒有充分探索如何從各種信號中提取額外信息。隨便舉一個例子。我記得讀過一項研究,人們想測量科學家實際閱讀他們所引用論文的頻率。怎麼測量呢?你可以試着調查不同的科學家,但他們想到了一個聰明的辦法。很多引用都有小的排版錯誤,比如一個數字不對或標點符號有誤。他們測量了這些錯誤從一篇論文的參考文獻被複制粘貼到另一篇論文的頻率。由此他們可以推斷一個作者是否只是複製粘貼了一條參考文獻,根本沒有去核實。從這一點出發,他們能夠推斷出科學家對引用文獻的關注度。
類似地,你前面提出的那些問題,比如如何評估一項科學進展是否有成果、有趣、代表了進步,也許存在一些真正有用的指標或“足跡”隱藏在數據中。我們可以考察引文模式,看某個東西在文獻中被提及的頻率之類的。也許有大量科學社會學的研究工作可以做,來檢測這些東西。也許我們該找一些天文學家來做這件事。
Patel:好的,我覺得這自然地引入了 AI 在數學領域所取得的進展。你最近發過一個帖子,指出在過去幾個月裏,AI 程序已經解決了大約 1100 道 Erdős 問題中的 50 道。但我印象中大約一個月前你說過,由於低垂果實已經被摘完了,進展出現了一個停頓。首先我想確認一下,這個判斷目前是否仍然成立,我們確實摘完了低垂果實,目前處於一個平臺期?
陶哲軒:看起來確實如此。活動還在繼續,大約 50 道問題已經被解決了,這很不錯,但還剩大約 600 道。人們仍在一兩道一兩道地啃。我們現在看到的純 AI 解決方案要少得多了。那種 AI 直接一擊命中的情況,曾經有過一個集中爆發期,但現在已經停了。並不是沒人在嘗試,據我所知至少有三個獨立的團隊試圖讓前沿模型同時攻擊所有剩餘問題。它們能發現一些細小的觀察,或者發現某個問題其實已經在文獻中被解決了,但還沒有出現新的純 AI 驅動的解答。
人們目前大量使用 AI 作爲輔助工具。比如有人用 AI 生成一個可能的證明策略,然後另一個人用另一個獨立的 AI 工具來批評它、改寫它、生成一些數值數據、或者做文獻綜述。有些問題是通過大量人類和大量 AI 工具之間持續對話來解決的。但那種集中爆發似乎是一次性的。
也許可以打一個比方。想象你在一片山脈中,到處是各種懸崖和巖壁。有些也許只有 1 米高,有些 2 米高,然後是 5 米高、10 米高,還有一些巨大的懸崖。你試圖攀登儘可能多的巖壁,但你在黑暗中,不知道哪些是矮的。於是我們點了一些蠟燭、畫了一些地圖,慢慢地弄清楚了一些情況。有些是可以攀登的,有些我們發現了可以先到達的部分路徑。
然後這些 AI 工具出現了,它們就像跳躍機器人,可以跳到 2 米的高度,比任何人類都高。有時候它們跳錯方向,有時候墜毀,但有時候它們能到達那些我們之前到不了的最矮的巖壁頂端。於是我們把它們放到這片山脈中到處跳,經歷了一段激動人心的時期,它們確實找到了所有最矮的巖壁併到達了頂端。但然後就沒有了。
也許等下一次模型有了重大升級,人們會再試一次,也許更多的巖壁會被突破。但這和傳統的數學研究方式很不同。通常我們會做標記、識別部分進展、找出應該優先關注的中間階段。這些工具要麼成功,要麼失敗。它們在創造部分進展或識別中間階段方面表現很差。回到我們之前的討論,我們沒有一種方式來評估部分進展,不像我們可以評估一次完整的成功或失敗那樣。
Patel:你剛纔說的話可以從兩個方向來理解,一個看空,一個看多。看空的角度是:它們只能到達一定高度的巖壁,不如人類能到達的高度。看多的角度是:它們有一種強大的特性,一旦達到某個水位線,就能填滿那個水位線上所有可用的問題。人類做不到這一點,我們不能複製一百萬個陶哲軒,每個都給予一百萬美元的推理算力,讓他們各自做 100 年的主觀時間研究。
但一旦 AI 達到了陶哲軒的水平,它們就能做到這些。即使它們達到的是中間水平,也能做到中間版本的事情。所以我們現在應該看空的理由,恰恰是我們應該格外看多的理由,甚至不需要等它們達到超人智能,只需要它們達到人類水平智能就行了,因爲它們的人類水平智能在質量上比我們的人類水平智能更寬、更強大。
陶哲軒:我同意。AI 擅長廣度,人類擅長深度。至少人類專家如此。它們是非常互補的。但我們目前做數學和科學的方式偏重深度,因爲人類的專長在那裏,人類做不了廣度。那麼問題是:我們是否設計出了足夠科學的做法來充分利用我們現在擁有的這種廣度能力?
正如我所說,我們應該投入更多精力來創建非常廣泛的問題類別去攻克,而不只是一兩個非常深的重要問題。當然我們仍然應該保留那些深層的重要問題,人類應該繼續研究它們。但現在我們有了另一種做科學的方式:我們可以先讓這些具有廣泛中等能力的 AI 去勘探、清理某個全新的科學領域,做出所有簡單的觀察,然後識別出某些困難的“孤島”,讓人類專家來處理。我看到的是一個非常互補的科學未來。
最終你會希望同時擁有廣度和深度,兩全其美。但我認爲我們在廣度方面還需要練習。它太新了。我們甚至還沒有真正建立起充分利用它的範式。但終究會建立起來的。到那時候,科學將面目全非。
Patel:說到互補性,程序員已經注意到這些 AI 工具大大提高了他們的生產力。你作爲數學家是否有同樣的感受?不過,”vibe coding“和”vibe researching“之間似乎有一個很大的區別:對於軟件來說,這個東西的全部意義在於對世界產生某種效果。如果 AI 幫你更好地理解了問題或者想出了一個乾淨的抽象來體現在代碼中,那只是通向最終目標的工具。
而對於研究來說,我們關心解決千禧年大獎問題,大概是因爲在解決它們的過程中,我們會發現新的數學對象或新的技術,推進我們文明對數學的理解。所以證明本身是通向中間過程的工具,中間過程纔是最重要的。你是否同意這個二分法?
陶哲軒:對,在數學中過程往往比問題本身更重要。問題有點像衡量進步的代理指標。
即使在軟件領域我覺得也有不同類型的任務。如果你只是創建一個跟其他一千個網頁做同樣事情的網頁,確實沒什麼需要學習的。對於那種樣板代碼,肯定可以交給 AI。但有時候你做完了原型,開始維護它,在升級和兼容方面遇到問題。我聽說程序員反映,即使 AI 能創建第一個原型,但讓它與其他一切協調配合、以你期望的方式與現實世界互動,這是一個持續的過程。
如果你在編寫代碼的過程中沒有積累技能,後續維護可能會受影響。數學家同樣如此。我們用問題來建立直覺,訓練人們對什麼是對的、什麼是可以預期的、什麼是可證明的、什麼是困難的形成判斷。所以直接得到答案可能反而會抑制這個過程。
我之前提過理論和實驗的區分。在大多數科學中,理論和實驗有大致對等的分量。但數學幾乎是獨一無二的,它幾乎完全是理論性的。我們非常重視嘗試建立連貫、整潔的理論來解釋事物爲什麼爲真或爲假。我們在實驗方面做得不多,比如,也許有兩種不同的方法來解決一個問題,哪一種更有效?我們有一些直覺但沒有做過大規模研究,沒有拿 1000 個問題來測試。但現在我們可以做了。我認爲 AI 類工具確實會革新數學的實驗方面。
你不那麼在意單個問題和解決它的過程,而是想要收集大規模數據,瞭解什麼方法管用、什麼不管用。就像一個軟件公司想要部署 1000 個軟件,你不會想手工打磨每一個的經驗教訓,你只想找到可以規模化的工作流程。我們在“大規模做數學”這件事上還處於萌芽階段,但那正是 AI 將真正革新這個學科的地方。
Patel:我覺得這些關於 AI 對科學有多大幫助的討論中,一個關鍵分歧是:如果你把每一種已知技術應用到每一個未解決的問題上,那會不會就構成我們文明知識的一次巨大提升?還是說那並不會那麼令人印象深刻?
陶哲軒:這是一個好問題,我們還沒有足夠的數據來完全回答。人類數學家做的很多工作確實是這樣的:拿到一個新問題,首先去看所有在類似問題上曾經管用的標準方法,一個一個試。有時候就成功了。這仍然值得發表,因爲問題本身很重要。有時候差一點就成功,你需要再加一個小技巧,那也很有趣。但頂級期刊發表的論文通常是那些現有方法能解決 80% 的問題,但剩下的 20% 具有抗性,需要發明新技術來填補缺口的工作。
現在已經非常罕見了,完全不依賴已有文獻、所有想法憑空而來的解題。這在過去更常見,但數學現在太成熟了,不利用已有文獻是一個巨大的劣勢。
AI 工具在第一部分做得越來越好,就是在一個問題上嘗試所有標準技術。實際上它們犯的錯誤有時比人類還少。雖然仍然會犯錯,我測試過這些工具,在一些我能做的小任務上,有時候它們發現了我的錯誤,有時候我發現了它們的錯誤。目前大致是平手。但我還沒看到它們邁出下一步。當論證中出現漏洞、沒有已知技術能填上時,它們能提出一些隨機建議。但我發現試圖追蹤這些建議、讓它們成立,然後發現行不通,往往浪費的時間比節省的更多。
我認爲有一部分我們目前認爲很難的問題會被這種方法攻破,尤其是那些沒有受到足夠關注的問題。就像 Erdős 問題一樣,被 AI 解決的那 50 道問題幾乎全部是之前基本沒有什麼文獻的。也許有人偶然試過做不出來,但從來沒有真正深入研究過。但結果證明存在一個解,也許是把某個不太知名的技術和文獻中的另一個結果組合在一起。這是 AI 目前能達到的中位水平。清理了 50 道問題,這很了不起。
如果你只看那些在社交媒體上被廣播的成功案例,那看起來確實驚人。幾十年沒解決的問題現在紛紛被攻克。但每次我們做系統性研究時,對於任何給定的問題,AI 工具的成功率大約只有 1% 到 2%。只是因爲它們可以大規模投入,你只挑贏家出來看的話,效果確實很亮眼。
同樣的事情也會發生在那些真正有聲望的困難數學問題上。有上百個這樣的問題。也許有那麼幾個,某個 AI 會碰巧解決它們,因爲有某個後門式的解法是所有人都錯過的。這會引起很大的關注。但然後人們會把這些工具用在自己最喜歡的問題上,他們將體驗到 1% 的成功率。所以信號中會有很多噪聲。
越來越重要的是收集真正標準化的數據集。現在有一些努力在創建標準化的 AI 挑戰問題集,而不是隻依賴 AI 公司只公佈他們的勝利、不披露失敗的結果。這會讓我們更清楚地瞭解我們實際上處在什麼位置。
Patel:但我覺得值得強調的是,光是模型能夠應用某種沒有人寫下來可以用於這個特定問題的技術,這本身就已經是巨大的 AI 進步了。
陶哲軒:這種進步讓人又驚歎又失望,感覺很奇怪。但人們也適應得非常快。我記得大約 20 年前 Google 搜索出來的時候,它把其他所有搜索引擎都比下去了。你在第一頁就能得到精確的相關結果,幾乎恰好是你想要的。當時覺得太神奇了。然後幾年後你就覺得能 Google 任何東西是理所當然的了。現在也一樣,2026 年的 AI 水平放在 2021 年會令人震驚。人臉識別、自然語音、大學水平的數學題,我們現在都覺得理所當然了。
Patel:說到 2026 年,你在 2023 年做過一個預測……
陶哲軒:說 AI 到 2026 年將是數學中“值得信賴的合著者,如果使用得當的話”。
Patel:回頭看這個預測相當準確。
陶哲軒:是的,我挺滿意的。
Patel:那我們看看能不能保持這個勢頭。你個人因爲 AI 而生產力翻倍,你覺得那會是哪一年?
陶哲軒:生產力不完全是一個一維的量。我確實注意到我做數學的方式正在發生相當大的變化,包括我做的事情的類型。比如,我的論文現在有更多的代碼和圖片,因爲生成這些東西現在太容易了。以前要花幾個小時做的圖,現在幾分鐘就能完成。但在過去我根本不會在論文裏放那張圖,我會用文字描述。所以很難衡“2 倍”意味着什麼。
一方面,如果我必須在沒有 AI 系統的情況下寫我今天寫的那類論文,肯定會花五倍的時間。但我不會用那種方式寫論文。
Patel:五倍?
陶哲軒:對,但那是因爲這些是輔助性的東西。比如更深入的文獻檢索、提供更多的數值計算。它們豐富了論文。
核心工作,比如實際解決一個數學問題中最困難的部分,這方面變化不大,仍然需要紙和筆。但有很多其他事情,我現在用 AI Agent 來重新格式化,比如有時候我的括號大小不太對,以前我得手動在腦子裏改,現在可以讓 AI Agent 在後臺漂亮地處理。所以它們確實大大加速了很多輔助任務。它們還沒有加速我所做的核心工作,但讓我能在論文中添加更多東西。
反過來說,如果我要重新寫一篇 2020 年的論文,不加那些額外功能,只是達到同樣的基本水平的話,AI 其實也沒有加速多少。所以它讓論文變得更豐富、更寬廣了,但不一定更深。
Patel:你提出了“人工聰明”(artificial cleverness)和“人工智能”(artificial intelligence)的區分,我想更好地理解這兩個概念。什麼是不僅僅是聰明的智能?
陶哲軒:智能出了名地難以定義。你看到的時候就知道了。當我和別人合作解決一個數學問題時,有一種對話:我們都不知道怎麼解決,但其中一個人有了某個想法,看起來有希望。然後我們有了一個原型策略,去測試它,發現不行,但可以修改。想法會不斷被調整和改進。到最後,我們系統地摸清了什麼行不通、什麼行得通。
AI 有點能模仿這一點。回到跳躍機器人的比方,它們可以跳上去、失敗、跳上去、失敗,反覆如此。但它們做不到的是:跳了一點,抓住了某個着力點,然後在那裏停下來,把其他人拉上來,然後從那個新位置繼續跳。不存在這種累積過程。在交互中用它們的時候,感覺更多還是反覆試錯和暴力窮舉。這在某些場景下確實可以靠規模取勝,效果也很驚人。但從部分進展中一步步積累推進,這一點目前還差得遠。
Patel:有意思。你是說如果 Gemini 或者 Claude 解決了一個問題,它自己對數學的理解並沒有進步?即使它在一個問題上工作但沒有解決,它自己的理解也沒有進步?
陶哲軒:對,新的會話就忘記了之前做過什麼。它沒有新的技能可以依賴來解決相關問題。也許它剛纔做的東西會成爲下一代模型訓練數據的 0.001%,所以最終可能有一些被吸收。但基本上是這樣。
Patel:有一個大問題是:如果我們持續訓練 AI 讓它越來越擅長在 Lean(一種形式化證明語言)中解題,它們會繼續解決越來越令人印象深刻的問題嗎?然後回頭來看,我們會不會驚訝地發現,某個 Lean 證明出來的黎曼猜想解答其實沒給我們什麼洞見?你覺得解決黎曼猜想是否必然要求,即便是由完全在 Lean 中工作的 AI 來做,其中的構造和定義也必須推進我們對數學的理解?還是它可能只是一團像彙編代碼一樣不可讀的東西?
陶哲軒:我們不知道。有些問題基本上就是靠純粹的暴力搜索解決的。四色定理就是一個著名的例子。我們至今沒有找到一個概念上優雅的證明,基本上就是把問題分成了大量的情況然後對每種情況做計算機分析。也許我們永遠找不到優雅證明,有些問題可能只能通過窮舉來解決。
我們之所以特別看重黎曼猜想這樣的問題,是因爲我們相當確信必須創造出某種新數學,或者發現兩個之前沒有聯繫的數學領域之間的新聯繫,才能解決它。我們甚至不知道解的形態是什麼,但它不像是那種靠窮舉就能搞定的問題。當然,黎曼猜想理論上可能是假的。有一種不太可能但存在的場景:假設有一個零點不在臨界線上,通過大量計算機計算可以驗證。那會非常令人失望。
我確實覺得完全自主的一擊式方法不是解決這些問題的正確路徑。我認爲人類與這些工具協作會帶來更大的收益。我可以想象某個這樣的問題會被某個聰明的人類在極其強大的 AI 工具的輔助下解決。
但那種協作的具體形態可能與我們現在設想的非常不同。它可能是一種目前還不存在的協作類型。也許有一種方法可以生成黎曼 zeta 函數的一百萬種變體並做 AI 輔助的數據分析,發現之前不知道的連接它們的模式,從而把問題轉入另一個數學領域。各種場景都有可能。
Patel:假設 AI 解決了某個問題,而在 Lean 代碼中隱含着某個全新的構造。如果我們意識到它的重要性,就能在很多不同的場景中應用它。你怎麼識別出這個構造?這是一個也許很天真的問題,但如果 AI 做出了等價於笛卡爾那種把代數和幾何統一起來的座標系思想,在 Lean 代碼中它可能就看起來像從 R 到 R 的映射,看起來完全不起眼。
陶哲軒:在 Lean 這樣的系統中把證明形式化的好處恰恰在於,你可以把它的任何部分拿出來單獨研究。
我讀人類寫的論文時,碰到一個解決困難問題的工作,裏面往往是一長串引理和定理。有些作者會告訴你哪些是重點、哪些不是,但也有人不會點明哪一步纔是關鍵、哪一步只是常規操作。
不過你可以把每條引理單獨拿出來看。有些一眼就能認出來:哦,這個很標準,跟我熟悉的某個東西差不多,沒什麼特別的。但另一條引理讓你覺得,這是我以前沒見過的,而且我能理解爲什麼有了它就能推出主要定理。也就是說,你可以判斷一個步驟到底是論證的核心還是無關緊要的。Lean 的好處恰恰在這裏:它讓你可以非常精確地審視每一個單獨的步驟。
我認爲未來會出現一整個數學家職業羣體,他們可能拿到一個巨大的 Lean 生成的證明,然後對它做某種消融測試(ablation),嘗試移除部分步驟,找到更優雅的方式。也許其他 AI 可以做一些強化學習來讓證明更優雅?也許其他 AI 可以判斷這個證明是否看起來更好。
還有一件近期會明顯變化的事:一直以來,寫論文都是整個工作中最耗時、成本最高的環節,所以你不會輕易動筆。結果通常只寫一遍,論證中的其他部分就在腦子裏過一過就算了,因爲重寫一遍、重構一遍實在太痛苦了。
但現在這件事藉助現代 AI 工具變得容易多了。你不必只有一個版本的論文。一旦你有了一個版本,人們可以生成成百上千個變體。所以一個巨大的、混亂的 Lean 證明本身可能不太好理解,但其他人可以重構它、對它做各種處理。
我們在 Erdős 問題網站上已經看到了這種情況。人和 AI 會生成一個證明,然後給出 3000 行驗證證明的代碼。但然後人們讓其他 AI 來總結這個證明,人們也會寫自己的證明。一旦你有了一個證明,後續處理實際上是有很多工具可用的。這是數學中一個非常新興的領域。我不太擔心那種“如果黎曼猜想被證明了但證明完全不可理解怎麼辦”的問題。我覺得一旦我們有了證明這個產物,我們可以對它做很多分析。
Patel:你最近發了一個帖子說,擁有一種描述數學策略(而非僅僅是數學證明)的形式化或半形式化語言會很有幫助。Lean 專長的是證明。我很想了解一下,這種描述策略的語言會是什麼樣的。
陶哲軒:我們其實不太清楚。我們在數學中非常幸運,已經建立了邏輯和數學的規律。但這其實是一個相當晚近的成就。從歐幾里得幾千年前開始,一直到 20 世紀初我們才最終確立了:這些是數學的公理(我們稱之爲 ZFC 公理),這些是一階邏輯的公理,這就是“證明”的含義。
這些我們已經成功自動化了,有了形式語言。但也許還有某種方式來評估命題的合理性。比如你有一個猜想說某件事爲真,你測試了幾個例子都成立,這如何增加你對該猜想爲真的信心?我們有一些數學方法來建模,比如貝葉斯概率。但往往你必須設定某些基礎假設,仍然有很多主觀性。關於這些語言的討論,與其說是一個計劃,不如說是一個願望。
但看看擁有像 Lean 這樣的形式框架如何大大便利了演繹證明的自動化和 AI 訓練,如果有一個類似的框架用於策略和猜想的生成就好了。現在使用 AI 來創建策略和提出猜想的瓶頸在於,我們必須依賴人類專家和時間檢驗來判斷某件事是否合理。
如果有這樣一種框架,介於嚴格形式和自然語言之間,能讓這個過程部分自動化,同時不容易被鑽空子(這很重要,確保形式化證明助手沒有後門或漏洞至關重要,因爲強化學習特別擅長找到這些後門)。
科學家之間的交流有一種特殊的方式:一半是數據和論證,一半是在講故事、構建敘事。如果能有某種框架把這種交流方式捕捉下來就好了,但科學中那些主觀的成分,我們目前還不知道怎麼讓 AI 有效地介入。所以這是一個未來的問題。有一些研究在嘗試創建自動化的猜想系統,也許有辦法做基準測試,但這一切都非常非常新。
Patel:能幫我建立一些直觀的感受嗎?第一,有沒有一個具體的例子,說明科學家之間交流中有哪些是我們還不能形式化的?第二,說“構建敘事或自然語言解釋”同時又“將其形式化”,這聽起來幾乎在定義上就是自相矛盾的。我相信你心中有一種直覺,知道這兩者的重疊在哪裏。
陶哲軒:舉一個猜想的例子。高斯(Gauss)對素數很感興趣,他創建了最早的數學數據集之一,計算了前約 10 萬個素數,希望找到規律。他確實找到了一個規律,雖然也許不是他所預期的那種。他發現素數中有一個統計性的規律:如果你數到 10、100、1000、100 萬……有多少個素數,素數越來越稀疏,但密度的下降速率與數字範圍的自然對數成反比。
他由此猜想了我們現在稱爲素數定理的東西:不超過 x 的素數個數約等於 x 除以 x 的自然對數。他完全沒有辦法證明這一點,這是純數據驅動的。這在當時是革命性的,因爲它可能是數學中第一個真正重要的統計性質的猜想。
通常你說的規律,比如素數之間的間隔有某種規則性。但這個猜想不能告訴你在任何給定範圍內精確有多少個素數,它只給你一個近似值,而且越往外這個近似越準確。但它確實很有幫助。
這開創了我們稱之爲解析數論的領域。它是一長串類似猜想中的第一個,其中很多後來被證明了。這些猜想逐漸鞏固了一種觀念:素數實際上沒有一個固定的規律,它們的行爲像是隨機的數集,只是具有某種特定密度。
我的意思是,素數確實有一些規律,比如它們幾乎全是奇數,它們不是真的隨機。它們是所謂的“僞隨機”,生成素數不涉及隨機數生成器。但隨着時間推移,把素數當成彷彿是上帝不斷擲骰子生成的隨機集合來思考,變得越來越富有成效。這讓我們能做出各種其他預測。
比如孿生素數猜想:應該存在無窮多對只差 2 的素數對,像 11 和 13。我們無法證明它,而且有很好的理由說明爲什麼目前無法證明。但因爲素數的這種統計隨機模型,我們絕對確信它是對的。我們知道如果素數是通過拋硬幣生成的,那麼就像無窮多隻猴子在打字機上打字一樣,我們會看到孿生素數不斷出現。
我們隨着時間發展出了一個非常精確的概念模型,描述素數應該如何表現,基於統計和概率。但這大部分是啓發式的、非嚴格的,卻極其準確。那些少數我們確實能證明的關於素數的事實,都與我們所說的“素數的隨機模型”的預測相吻合。所以我們有了這個猜想性的概念框架來理解素數,所有人都相信它。
這也是我們相信黎曼猜想爲真的原因,是我們相信基於素數的密碼學在數學上基本安全的原因。這些都是這個信念體系的一部分。
我們關心黎曼猜想的一個原因是:如果黎曼猜想被推翻了,如果它是假的,那將嚴重打擊這個模型。這意味着素數中存在某種我們不知道的祕密規律。我認爲我們會非常迅速地放棄所有基於素數的密碼學。因爲如果有一個我們不知道的規律,那可能還有更多。而這些規律可能導致密碼學漏洞。這將是一個巨大的衝擊。所以我們真的想確保這不會發生。
我們之所以逐漸被黎曼猜想之類的命題說服,部分是實驗證據,部分是少數情況下我們能夠做出的理論結果確實與預測吻合。
當然,共識也有可能是錯的,也許我們都遺漏了什麼非常基本的東西。科學史上曾經有過範式轉換。但我們目前沒有一種方法來衡量這些事情,部分原因是我們對數學和科學如何發展缺乏足夠的數據。我們只有一條歷史時間線,大約一百個轉折點的故事。
如果我們能接觸到一百萬個外星文明,每個都有不同的科學發展順序和歷史,那也許我們就能真正對“如何衡量什麼是進步、什麼是好策略”形成理解,也許可以開始形式化並建立框架。
也許我們需要做的是創建很多“迷你宇宙”,讓 AI 在非常基礎的問題(比如算術之類)上進行模擬,讓它們自己發展出策略來解決這些問題,用這些小實驗室來測試。有人在研究類似的東西,比如能做十位數乘法的最小神經網絡之類的。我覺得我們確實可以從讓小型 AI 在簡單問題上進化中學到很多。
Patel:你需要快速學習新領域,而且要學得足夠深才能貢獻到前沿。從某種意義上說,你也是世界上最偉大的自學者之一。你學習新領域的過程是什麼樣的?
陶哲軒:我們之前談到了深度和廣度的區分,這不純粹是人類與 AI 的區分。人類中也有這種分化。我記得有人把人分爲刺蝟和狐狸。刺蝟對一件事知道得非常非常深,狐狸對很多事情都知道一點點。我肯定是狐狸型的。我經常和刺蝟合作,有時候我自己也可以充當刺蝟,但本質上我是狐狸。
我一直有點強迫症的傾向。如果我讀到某個東西,覺得自己應該能理解但就是不明白爲什麼它管用,裏面有某種魔法,比如有人使用了我不熟悉的數學方法,得到了我也想證明的結論,但我自己做不到。我就想知道他們的竅門是什麼。讓我煩惱的是別人能做到我覺得我應該能做到但做不到的事情。我一直有這種強迫式的完整主義傾向。
所以我不得不戒掉電子遊戲,因爲我一開始玩就想打通所有關卡。這就是我學習新領域的一種方式。
另一個方式是合作。我和很多人合作,他們教會了我其他類型的數學。我交一個在另一個數學領域工作的數學家朋友,覺得他們的問題很有趣,但他們需要教我一些基本的技巧、什麼是已知的、什麼是未知的。我從中學到了很多。
我發現把學到的東西寫下來很有用。我有一個博客,有時候會記錄我學到的東西。因爲過去年輕的時候,我會學到某個東西、發現一個很酷的技巧然後想“我要記住這個”。結果六個月後就忘了。我記得自己曾經理解過,但沒法重現論證。頭幾次經歷這種“理解了又失去了”的挫敗感,讓我下定決心應該把任何學到的有趣東西寫下來。博客就是這麼來的。
Patel:你寫一篇博客文章需要多長時間?
陶哲軒:這往往是我不想做其他工作時會做的事。比如有什麼審稿報告之類的,那些在當時讓我感覺略有壓力的任務。寫博客讓我覺得是創造性的、有趣的,是爲自己做的事情。根據話題不同,可能半小時也可能好幾個小時。但因爲它是我自願做的,寫的時候時間飛逝。相比之下,因爲行政原因不得不做的事情就是苦差事了。不過話說回來,這類苦差事現在 AI 確實幫了不少忙。
Patel:如果文明可以從零開始決定如何使用陶哲軒的時間,把它當作一種有限資源,當前的時間分配和最優分配之間最大的差距是什麼?沒準就不會有這期播客。
陶哲軒:雖然我確實會抱怨一些不想做但必須做的任務(在學術界越資深,就有越多的委員會和行政職責),但我也發現很多我勉強參加的活動,因爲是我的義務或者超出了我的舒適區,結果反而帶來了意想不到的收穫。我會遇到我通常不會交談的人(比如你),學到有趣的東西,獲得有趣的經歷,以及結識新朋友的機會。
所以我非常相信偶然性(serendipity)的價值。我確實會優化我的時間,一天中有些部分安排得很仔細。但我也願意留出一些部分做點不是我平時做的事。也許是浪費時間,也許會學到什麼。多數情況下,我感覺收穫了計劃之外的積極體驗。也許有一個危險因素是,在現代社會,不只是 AI,我們也變得太擅長優化一切了。
比如新冠疫情期間,我們大量轉向遠程會議。一切都有排期,我們忙碌程度差不多,至少在學術界,我們見的人和麪對面時差不多多。但一切都得提前安排。我們失去的是那種在走廊上偶遇、去倒咖啡時碰到某人的隨機互動。這些偶然的交流你可能覺得不是最優的,但實際上非常重要。
我讀研的時候,如果要查一篇期刊論文,得親自去圖書館,借出期刊,讀那篇文章。有時候旁邊那篇文章也很有趣。你可以隨便翻翻,偶然發現有趣的東西。現在這種事基本沒有了,因爲你想查什麼直接輸入搜索引擎或者 AI 就能立刻得到你要的,但你不會得到那些“意外發現”。
我曾經在普林斯頓高等研究院待過一年。那是一個很棒的地方,沒有干擾,你就是在那裏做研究。頭幾周非常好,你把積攢了很久的論文寫出來,花大塊時間思考問題。但如果待超過幾個月,我發現靈感會枯竭。因爲你開始更多地刷網頁。你其實確實需要生活中有一定程度的干擾,它提供了足夠的隨機性,或者說高溫度(high temperature),如果你喜歡用這個類比的話。
我不知道安排生活的最優方式是什麼。好像自然而然就行得通。
Patel:我很好奇,你預計 AI 什麼時候能在前沿數學方面至少做得和最好的人類數學家一樣好?
陶哲軒:在某些方面它們已經在做人類做不到的前沿數學了。這是一個不同的前沿。你可以說計算器也在做人類做不了的前沿數學,只不過那是數字計算。
Patel:但完全取代陶哲軒呢?
陶哲軒:那還要我幹什麼?(笑)
Patel:去多上播客吧。(笑)
陶哲軒:可能這個問題需要修正一下,我覺得在十年之內,數學家目前在做的很多事情(佔我們大部分時間的工作,我們今天寫進論文的很多內容)都可以由 AI 完成。但我們會發現那些實際上不是我們工作中最重要的部分。
100 年前,很多數學家的工作就是解微分方程。物理學家需要某個系統的精確解,就僱一個數學家去一步步做微積分。19 世紀數學家做的很多事情,現在你調用 Mathematica、Wolfram Alpha 或某個計算機代數包,或者更近期用 AI,幾分鐘就能解決。但我們繼續前進了,轉向了不同類型的問題。
Computer 這個詞以前指的是人。以前有人專門製作對數表和計算素數,像高斯那樣。這些全都外包給了電子計算機,但我們繼續前進了。基因組學也是如此,給一個生物體測序這項工作曾經是一個遺傳學家的整個博士論文。現在花一千美元寄給測序公司就行了。但遺傳學作爲學科並沒有死掉,你轉向不同的尺度了,也許研究整個生態系統而非單個個體。
Patel:你這個觀點我理解。但關於“什麼時候大部分數學進步幾乎全是由 AI 做出的”這個問題呢?如果你聽說今年有一個千禧年大獎問題被解決了,你有 95% 的把握是 AI 自主完成的,這樣的年份肯定會到來吧?
陶哲軒:也許吧。但我確實相信人類加 AI 的混合體將在數學中佔據主導地位更長時間。
這需要一些我們目前還沒有的額外突破。所以它會是隨機的。目前的 AI 在某些方面非常好,但在其他方面很差。雖然你可以加各種框架來減少錯誤率、讓它們更好地協同工作,但我感覺我們還沒有湊齊所有的成分來真正提供一個令人滿意的、能替代所有智力任務的方案。
目前它是互補的,不是替代。也許新發現、新突破會更快地出現,因爲當前水平的 AI 已經在很多方面加速了科學。也有可能通過某種方式破壞了偶然性,我們反而抑制了某些類型的進步。在目前這個時間點上,什麼都有可能。世界是非常、非常不可預測的。
Patel:對於考慮進入數學領域或剛開始數學職業的人,你有什麼建議?尤其是考慮到 AI 的進步,他們應該怎樣調整自己對職業的思考?
陶哲軒:我們生活在一個變革時期。如我所說,當前特別不可預測。我們幾個世紀以來視爲理所當然的事情可能不再成立。一切的做法都會改變,不只是數學。
我覺得人們就是得接受會有很多變化。你學的一些東西可能會過時或者被徹底革新,但有些東西會保留下來。
永遠要關注那些你以前做不到、但現在可以做的新機會。在數學領域,以前基本上要經過多年教育讀完博士才能對前沿研究做出貢獻。但現在,高中生就有可能借助這些 AI 工具和 Lean 等等參與數學項目並做出真正的貢獻。將會出現很多非傳統的學習和參與機會。
心態上要足夠靈活。保持好奇,樂於嘗試。傳統教育在一段時間內仍然很重要,學數學學科學的老辦法暫時還得走。但同時也應該對非常不同的做科學的方式保持開放,其中有些方式現在還不存在。
這是一個令人不安的時代,但也非常令人興奮。
參考資料:
https://www.youtube.com/watch?v=Q8Fkpi18QXU




