陶哲軒用Claude Code解題，兩度宕機，因爲token不夠用-科技-今日熱點-聚焦看點

近日，菲爾茲獎得主、加州大學洛杉磯分校（UCLA）數學系教授陶哲軒（Terence Tao）在 YouTube 發佈了一段時長約 26 分鐘的實操視頻，詳細演示瞭如何利用 Anthropic 推出的 Claude Code 代理工具，在 Lean 定理證明器中完成一項數學證明的形式化全過程。

（來源：Youtube）

陶哲軒在視頻開始就明確了任務目標：將集合論中的“單例定律”（Singleton Law）從非形式化的自然語言描述，轉化爲 Lean 系統能夠編譯和嚴格驗證的代碼。簡而言之，該定律論證了對於任意集合 A 和元素 x，單例集合 {x}屬於 A 的條件等價於某些特定的子集屬性。

儘管這在數學概念上這屬於較爲基礎的引理，但要在類型論嚴苛的 Lean 系統中完成形式化，卻伴隨着大量瑣碎且對語法要求極高的代碼編寫工作。

這並非陶哲軒首次處理這一任務。大約九個月前，他曾在其主導的“方程理論”（Equation Theories）項目中，已經利用當時的主流工具（如 GitHub Copilot）手動完成了該證明。

（來源：Youtube）

這次引入 Claude Code 重做此題，陶哲軒是想直觀對比新一代“代理式編碼工具”與上一代代碼補全工具之間的代際差異。

與 GitHub Copilot 早期僅能基於光標位置提供幾行代碼自動補全不同，Claude Code 是一個運行在終端的代理系統，能夠理解複雜的自然語言指令，自主讀取文件目錄，規劃步驟，並自動執行代碼編輯和修改。在陶哲軒看來，這種能力的躍升或許讓 AI 有望真正接管數學研究中被稱爲“繁文縟節”的重複性勞作。

大佬用 AI 也會翻車

有趣的是，視頻中所展示的流暢流程並非一蹴而就。陶哲軒在錄製中坦言，這是他第三次嘗試用 Claude Code 完成該任務。在此之前，他因爲不同原因已經“翻車”了兩次。

在第一次嘗試中，陶哲軒直接給出了一個宏觀指令，要求 Claude“完成整個證明”。結果，AI 在連續運行了 45 分鐘後，消耗了海量 Token 並導致電腦崩潰，最終未能產出任何有效結果。

有網友直接在評論區@Anthropic：“給陶哲軒開個無限 Token 權限吧，說不定數學 2.0 時代能提前到來！”這話聽着像玩笑，卻也戳中了當前 AI 工具的一個現實痛點：真幹起精細活來，Token 消耗的速度是真快。

（來源：Youtube）

第二次嘗試時，他改變了策略，要求 AI 按引理（Lemma 1, 2, 3）分步執行，這次耗時 25 分鐘成功完成，但因錄屏軟件故障未能保存。

吸取了第一次的教訓，在第三次（即本次發佈的視頻）實操中，陶哲軒採用了高度結構化的“腳手架”（Scaffolding）策略。他在文件頂部撰寫了一份極其詳盡的“配方”（Recipe），將任務拆解爲初始定義、大綱搭建以及三個子引理的逐步證明，以此來約束 AI 的行動發散空間。

1. 搭建骨架（Skeletonization）

流程初期，陶哲軒指令 Claude Code 先不要急於推導，而是用 Lean 系統中的佔位符“sorry”搭建起整個證明的宏觀框架。這一步進行得異常順利，AI 準確識別了非形式化證明中的邏輯斷點，並將其轉化爲 Lean 代碼結構。陶哲軒指出，讓 AI 先寫出帶有“sorry”的骨架，隨後再逐一填補，是目前最高效的人機協作模式。

2. 陷入泥潭與人工干預

然而，在具體填補 Lemma 1 的證明細節時，Claude Code 的短板開始顯現。由於 Lean 的底層邏輯要求高度嚴謹，AI 在面對非形式化語言中的等式代換時，表現出“過度思考”的傾向。它試圖頻繁展開底層的數學定義，而不是機械地按照人類給出的步驟進行推演。

在視頻中，AI 在後臺進行了大量的回溯和自我試錯，消耗了大量計算資源，推導過程變得異常冗長。在這個過程中，陶哲軒的工作站甚至意外宕機了一次。系統恢復後，面對 AI 將簡單步驟複雜化的窘境，陶哲軒果斷選擇人工介入。他直接接管了鍵盤，迅速輸入了一個基於 congr（同餘/等式替換）指令的策略，瞬間突破了僵局。

他客觀評價道：“過度依賴工具可能會讓你失去對證明的直覺。當 AI 陷入死衚衕時，人類直接上手往往比等待它糾錯要快得多。”

3. 演化出“並行工作流”

隨着進程推進到 Lemma 2 和 Lemma 3，陶哲軒展示了令人眼前一亮的工作流創新。當他確認 AI 已經掌握了骨架搭建的技巧後，他不再單純扮演“監督者”，而是開始與 AI“雙線操作”。當 Claude Code 在後臺自主分析並試圖填補 Lemma 3 的底層邏輯時，陶哲軒則在代碼的前段手動補全 Lemma 2 中相對直觀的"sorry"部分。

這種人機並行作業的模式，最後將總耗時壓縮到了約半小時以內，並且最終代碼毫無報錯地通過了 Lean 編譯器的嚴格審查。陶哲軒總結稱，將任務切分，人類處理一目瞭然的邏輯，而將需要堆砌代碼的繁重任務交由代理，是現階段最具可行性的實踐。

AI 從“平庸助教”到“初級合作者”

若將此次視頻置於陶哲軒近年來對 AI 的系列實驗史中審視，我們能清晰地看到一條技術躍遷的軌跡。

早在此輪生成式 AI 爆發之初，陶哲軒就曾積極測試各類聊天機器人，並將其比作“平庸但不完全無能的研究生”。彼時的 AI 在處理如微積分中的 epsilon-delta 極限證明時，極易出現幻覺，頻繁混淆變量域或遺漏邊界條件，更多是作爲一種新奇的玩具存在。

到了 2025 年，隨着大模型基礎能力的提升，陶哲軒曾公開測試 GPT-5 級別模型在複雜學術文獻檢索上的表現。在那次測試中，AI 能夠快速在海量未完全結構化的論文庫中挖掘出特定的定理淵源，爲他節省了數週的案頭檢索時間。然而，當時 AI 扮演的仍是“高級圖書管理員”的輔助角色，而非直接介入證明的生成。

而進入 2026 年初，形勢發生了質的變化。以 ChatGPT 爲代表的大模型在著名的 Erdős 開放猜想庫中發力，試圖“獨立”解決這些涵蓋數論與組合學數百個未解之謎的問題。陶哲軒的 GitHub 主頁也記錄了利用這些系統自動化處理周邊猜想的嘗試，填補了人類因精力有限而忽略的邊緣地帶。

（來源：X）

本次利用 Claude Code 進行的演示，恰恰是連接上述“前沿探索”與“日常實踐”的橋樑。雖然不如谷歌 AlphaProof 解出國際數學奧林匹克（IMO）難題那般具有極高的公衆戲劇性，但在 Lean 這一類型論保障的確定性環境中，陶哲軒的演示更爲接地氣，也更貼近當代數學家真實的研究常態。

當然，在肯定 AI 帶來的效率革命的同時，陶哲軒及其代表的數學界並未迴避技術現存的侷限性。

一方面，學術界有聲音擔憂，高度依賴 AI 生成的證明可能會引入“黑箱化”問題。即便 Lean 編譯器能夠從邏輯底層保證代碼 100% 的正確性，但長篇累牘、由機器生成的機器語言缺乏人類數學特有的直覺美感和可讀性，這可能導致數學從一門“理解的藝術”異化爲單純的“符號驗證”。

對此，陶哲軒保持了科學家特有的客觀與中立。他傾向於將 AI 定義爲一種強大的“實驗數學”工具。對於高度依賴計算和模式匹配的任務，AI 無可替代；但涉及黎曼猜想這類需要顛覆性直覺和深層概念重構的核心領域，人類的主導地位依然穩固。

正如他此前在 IPAM 會議上所言：“只要 AI 爲你節省的時間，多於你爲了糾正它而浪費的時間，它就是一款成功的工具。”此次長達 26 分鐘的無剪輯視頻，正是對這一論斷的最好背書。

在未來的數學研究中，“人機共作”或將成爲一種新常態。屆時，也許 AI 能夠以“初級合作者”的身份，徹底打通數學從直覺構想到計算機形式化驗證之間的瓶頸。

參考鏈接：

視頻地址：
https://www.youtube.com/watch?v=JHEO7cplfk8&t=124s

運營/排版：何晨龍

陶哲軒用Claude Code解題，兩度宕機，因爲token不夠用

氫能革命：驅動全球低碳轉型與氣候治理的戰略選擇

vivo X300s核心配置曝光：6.78英寸直屏，7000mAh大電池

一噸漲近700塊，新一輪油價定了，而且未來可能接着漲

中國智駕看千問？網絡爆料多家汽車廠商大模型使用Qwen開源技術

相關推薦

MAN也造純電大巴？63輛MAN Lion's ···

兆瓦閃充與換電，必須二選一？蔚來···

94% vs 5%+1%！桌面級AIB顯卡市場已···

小屏黨有福了，一加15T官宣本月發佈···

周黑鴨、擦車巾、南孚電池成箱買，···

iPhone 17e首批跑分公佈：閹割A19處···

賣高端才能掙得多！蘋果今年將推出···

vivo X300 Ultra鏡頭配置曝光，雙2···

每桶突破110美元，今晚油價暴漲！預···

MacBook Neo用閹割版A18 Pro，李楠···

32GB GDDR6+4096流處理器：英特爾A···

英偉達表示存儲價格越貴越好：大家···

相關推薦

MAN也造純電大巴？63輛MAN Lion's City E正式交付

兆瓦閃充與換電，必須二選一？蔚來李斌：兩者並不矛盾

94% vs 5%+1%！桌面級AIB顯卡市場已成英偉達獨角戲

小屏黨有福了，一加15T官宣本月發佈，外觀同步揭曉

周黑鴨、擦車巾、南孚電池成箱買，F1車隊們在上海都買了什麼？

iPhone 17e首批跑分公佈：閹割A19處理器GPU差了點

賣高端才能掙得多！蘋果今年將推出3款Ultra級旗艦新品

vivo X300 Ultra鏡頭配置曝光，雙2億像素搭配大底超廣角

每桶突破110美元，今晚油價暴漲！預計一升漲價0.4元

MacBook Neo用閹割版A18 Pro，李楠吐槽蘋果是庫存管理大師

32GB GDDR6+4096流處理器：英特爾Arc Pro B70實錘，或在兩週內登場

英偉達表示存儲價格越貴越好：大家都去買旗艦產品

剛剛，杭州多地排起長隊！這波漲價太猛了

陶哲軒用Claude Code解題，兩度宕機，因爲token不夠用

氫能革命：驅動全球低碳轉型與氣候治理的戰略選擇

vivo X300s核心配置曝光：6.78英寸直屏，7000mAh大電池

一噸漲近700塊，新一輪油價定了，而且未來可能接着漲

中國智駕看千問？網絡爆料多家汽車廠商大模型使用Qwen開源技術

相關推薦

MAN也造純電大巴？63輛MAN Lion's ···

兆瓦閃充與換電，必須二選一？蔚來···

94% vs 5%+1%！桌面級AIB顯卡市場已···

小屏黨有福了，一加15T官宣本月發佈···

周黑鴨、擦車巾、南孚電池成箱買，···

iPhone 17e首批跑分公佈：閹割A19處···

賣高端才能掙得多！蘋果今年將推出···

vivo X300 Ultra鏡頭配置曝光，雙2···

每桶突破110美元，今晚油價暴漲！預···

MacBook Neo用閹割版A18 Pro，李楠···

32GB GDDR6+4096流處理器：英特爾A···

英偉達表示存儲價格越貴越好：大家···

相關推薦

MAN也造純電大巴？63輛MAN Lion's City E正式交付

兆瓦閃充與換電，必須二選一？蔚來李斌：兩者並不矛盾

94% vs 5%+1%！桌面級AIB顯卡市場已成英偉達獨角戲

小屏黨有福了，一加15T官宣本月發佈，外觀同步揭曉

周黑鴨、擦車巾、南孚電池成箱買，F1車隊們在上海都買了什麼？

iPhone 17e首批跑分公佈：閹割A19處理器GPU差了點

賣高端才能掙得多！蘋果今年將推出3款Ultra級旗艦新品

vivo X300 Ultra鏡頭配置曝光，雙2億像素搭配大底超廣角

每桶突破110美元，今晚油價暴漲！預計一升漲價0.4元

MacBook Neo用閹割版A18 Pro，李楠吐槽蘋果是庫存管理大師

32GB GDDR6+4096流處理器：英特爾Arc Pro B70實錘，或在兩週內登場

英偉達表示存儲價格越貴越好：大家都去買旗艦產品

電腦IP地址查詢？ 這四種方法，輕鬆搞定

快壓幫助 - 解壓文件

剛剛，杭州多地排起長隊！這波漲價太猛了

vivo X300s核心配置曝光：6.78英寸直屏，7000mAh大電池

一噸漲近700塊，新一輪油價定了，而且未來可能接着漲

中國智駕看千問？網絡爆料多家汽車廠商大模型使用Qwen開源技術

追覓手機新消息：1英寸主攝+磁吸鏡頭模塊，目標直指高端旗艦

奇瑞星途EX7內飾公佈了，這塊30英寸大屏有點東西

陶哲軒用Claude Code解題，兩度宕機，因爲token不夠用

普通路由器變“透視眼”？WiFi穿牆識別人體姿態

果蠅大腦被完整“上傳”並驅動虛擬身體，全腦仿真進入具身時代

電腦IP地址查詢？這四種方法，輕鬆搞定