所有AI全軍覆沒！學者出2500道題，GPT-5得分25.3%，GPT-4o 2.7%-科技-今日熱點-聚焦看點

2 月 28 日，由全球近 1,000 名頂尖學者打造的 AI 新基準“人類最後一次考試”（HLE，Humanity''s Last Exam）的相關論文發在 Nature。這套新試卷覆蓋數學、物理、化學、歷史、語言、醫學，每一道題都來自專家自己的研究領域，每一道題都有唯一正確的答案，每一道題也都經過 AI 的經驗，如果哪個 AI 能夠答對，這道題就會作廢。

圖 | 相關論文（來源：Nature）

結果呢？GPT-4o 只拿了 2.7%，Claude 3.5 Sonnet 4.1%，OpenAI 最先進的 o1 模型，8%。發佈之後，更強的 Gemini 2.5 Pro 和 GPT-5 也來挑戰，一個 21.6%，一個 25.3%。可謂是全軍覆沒，沒有一個能及格。

圖 | 各個模型的得分（來源：Nature）

之所以出這套新卷子，是因爲當前最聰明的大模型在那些曾難倒無數學生的考試裏，已經能夠考到 90 分以上。MMLU 這樣一個包含 57 個學科、14,000 道題目的超難測試，AI 早就拿到了接近滿分的成績。

圖 | “人類最後一次考試”的數據集創建流程（來源：Nature）

因此，“人類最後一次考試”的推出正是爲了跟上和適應 AI 的發展。那麼，這套題到底有多難？

有一道題是一張古羅馬墓碑的照片，上面刻着帕爾米拉文字，要求 AI 把它翻譯出來。帕爾米拉是古代敘利亞的一個城市，有自己的語言和文字，但是現在已經沒人說了。翻譯這種文字，需要懂古閃米特語、懂考古學、懂歷史學。

另一道題問：蜂鳥身上有一塊特殊的籽骨，位於某塊肌肉的腱膜裏，這塊骨頭支撐着幾根肌腱？答案是數字。這就需要 AI 知道蜂鳥的解剖結構，知道那塊骨頭長在哪兒，知道它連着幾根肌腱，差一點都不行。

還有一道題是數學，關於自然變換和餘端，裏面充滿了 Σ、∞、Hom 這些符號。題目本身已經複雜到讓大多數數學系學生直接跳過，但答案要求卻是精確數字。

這套題的設計邏輯很殘酷。每一道題提交之前，都要讓 AI 先做一遍。如果 AI 做對了，這道題就不要。如果 AI 做錯了，纔會進入人工審覈環節。審覈要過兩關，第一關是幾個研究生水平的審稿人提意見，第二關是專家拍板。整個過程下來，1,000 個專家花費幾個月，從幾萬道題裏篩選出了這 2,500 道題。

如前所述，MMLU 已經無法滿足當前 AI 的發展。2020 年，MMLU 剛出來的時候，AI 只能考三四十分。到了 2023 年，GPT-4 直接飆到 86 分。現在，隨便一個開源模型都能考到 90 分以上。當考試分數都溢出來了，如何測量 AI 的聰明程度呢？因此，得換一套更難的新卷子。

“人類最後一次考試”這套基準測試名字聽着嚇人，但並不是字面意思，而是說這是 AI 最後一次可能考過的考試。等到 AI 哪天也在這套題上拿到 90% 的成績，說明它已經具備了專家級的學術能力。

那麼，AI 現在可以考多少分？前面提到，最厲害的 AI 也就考試 25% 左右，距離 90% 還有很大的差距。而且更有意思的是，AI 不知道自己不會。研究團隊在讓 AI 回答的同時給出信心分數，結果大多數 AI 明明答錯了，卻給出 80%、90% 的信心。這種過度自信非常危險，如果 AI 用在醫療和法律這些領域，而它不知道自己不知道，就會出現大問題。

還有一點值得注意。研究團隊發現，推理模型在回答這套題的時候，思考時間越長，正確率越高。但當思考時間超過一定長度，正確率反而下降了。這說明不是想得越久就越好，當思考時間超過某個臨界點，可能就是 AI 在瞎繞。這也給 AI 開發提了個醒，以後不能光拼推理時間，還得拼推理效率。

這套題現在已經在網上公開了一部分，網址是 lastexam.ai。任何人都可以去看看這些題目長什麼樣，也可以看看自己能不能答對幾道。當然，大部分人可能不太能答對，因爲題目本來就是給專家出的。

圖 | 長長的論文作者名字，截圖僅爲部分論文作者（來源：Nature）

那麼，這道題對於 AI 開發有什麼用？

它就好比一面鏡子，可以照出來 AI 到底有幾斤幾兩。以後誰再宣稱自己的 AI 多厲害，先拿這套題目考一下。考不過 25%，就談不上超越人類。透過這套題也可以看清楚 AI 擅長什麼和不擅長什麼。比如，從目前的得分來看，AI 在數學和計算機上的表現稍好，但是在歷史和語言上表現得慘不忍睹。

這說明 AI 的智能和我們想象得還不一樣。論文裏有一句話寫得很剋制，AI 在這些專家級問題上表現很差，說明真正的智能還需要深度、需要上下文、需要專業知識。那些覺得 AI 馬上就要統治世界的人，通過嘗試一下這套題目，可能就不再會那麼悲觀。

（來源：Nature）

美國德克薩斯 A&M 大學的助理教授阮東（Tung Nguyen，音譯）參與了出題，他寫了 73 道，是貢獻第二多的作者。他告訴媒體，這套題是一種理解 AI 的方法。它就好比是 AI 的入學考試，通過設置這套門檻，我們可以知道 AI 強在哪裏、弱在哪裏，才能造出更安全、更可靠的技術。同時，也說明了人類的專業知識依然重要。

參考資料：

相關論文
https://www.nature.com/articles/s41586-025-09962-4

https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

排版：胡巍巍

所有AI全軍覆沒！學者出2500道題，GPT-5得分25.3%，GPT-4o 2.7%