2 月 28 日,由全球近 1,000 名頂尖學者打造的 AI 新基準“人類最後一次考試”(HLE,Humanity''s Last Exam)的相關論文發在 Nature。這套新試卷覆蓋數學、物理、化學、歷史、語言、醫學,每一道題都來自專家自己的研究領域,每一道題都有唯一正確的答案,每一道題也都經過 AI 的經驗,如果哪個 AI 能夠答對,這道題就會作廢。

圖 | 相關論文(來源:Nature)
結果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先進的 o1 模型,8%。發佈之後,更強的 Gemini 2.5 Pro 和 GPT-5 也來挑戰,一個 21.6%,一個 25.3%。可謂是全軍覆沒,沒有一個能及格。

圖 | 各個模型的得分(來源:Nature)
之所以出這套新卷子,是因爲當前最聰明的大模型在那些曾難倒無數學生的考試裏,已經能夠考到 90 分以上。MMLU 這樣一個包含 57 個學科、14,000 道題目的超難測試,AI 早就拿到了接近滿分的成績。

圖 | “人類最後一次考試”的數據集創建流程(來源:Nature)
因此,“人類最後一次考試”的推出正是爲了跟上和適應 AI 的發展。那麼,這套題到底有多難?
有一道題是一張古羅馬墓碑的照片,上面刻着帕爾米拉文字,要求 AI 把它翻譯出來。帕爾米拉是古代敘利亞的一個城市,有自己的語言和文字,但是現在已經沒人說了。翻譯這種文字,需要懂古閃米特語、懂考古學、懂歷史學。
另一道題問:蜂鳥身上有一塊特殊的籽骨,位於某塊肌肉的腱膜裏,這塊骨頭支撐着幾根肌腱?答案是數字。這就需要 AI 知道蜂鳥的解剖結構,知道那塊骨頭長在哪兒,知道它連着幾根肌腱,差一點都不行。
還有一道題是數學,關於自然變換和餘端,裏面充滿了 Σ、∞、Hom 這些符號。題目本身已經複雜到讓大多數數學系學生直接跳過,但答案要求卻是精確數字。
這套題的設計邏輯很殘酷。每一道題提交之前,都要讓 AI 先做一遍。如果 AI 做對了,這道題就不要。如果 AI 做錯了,纔會進入人工審覈環節。審覈要過兩關,第一關是幾個研究生水平的審稿人提意見,第二關是專家拍板。整個過程下來,1,000 個專家花費幾個月,從幾萬道題裏篩選出了這 2,500 道題。
如前所述,MMLU 已經無法滿足當前 AI 的發展。2020 年,MMLU 剛出來的時候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飆到 86 分。現在,隨便一個開源模型都能考到 90 分以上。當考試分數都溢出來了,如何測量 AI 的聰明程度呢?因此,得換一套更難的新卷子。
“人類最後一次考試”這套基準測試名字聽着嚇人,但並不是字面意思,而是說這是 AI 最後一次可能考過的考試。等到 AI 哪天也在這套題上拿到 90% 的成績,說明它已經具備了專家級的學術能力。
那麼,AI 現在可以考多少分?前面提到,最厲害的 AI 也就考試 25% 左右,距離 90% 還有很大的差距。而且更有意思的是,AI 不知道自己不會。研究團隊在讓 AI 回答的同時給出信心分數,結果大多數 AI 明明答錯了,卻給出 80%、90% 的信心。這種過度自信非常危險,如果 AI 用在醫療和法律這些領域,而它不知道自己不知道,就會出現大問題。
還有一點值得注意。研究團隊發現,推理模型在回答這套題的時候,思考時間越長,正確率越高。但當思考時間超過一定長度,正確率反而下降了。這說明不是想得越久就越好,當思考時間超過某個臨界點,可能就是 AI 在瞎繞。這也給 AI 開發提了個醒,以後不能光拼推理時間,還得拼推理效率。
這套題現在已經在網上公開了一部分,網址是 lastexam.ai。任何人都可以去看看這些題目長什麼樣,也可以看看自己能不能答對幾道。當然,大部分人可能不太能答對,因爲題目本來就是給專家出的。

圖 | 長長的論文作者名字,截圖僅爲部分論文作者(來源:Nature)
那麼,這道題對於 AI 開發有什麼用?
它就好比一面鏡子,可以照出來 AI 到底有幾斤幾兩。以後誰再宣稱自己的 AI 多厲害,先拿這套題目考一下。考不過 25%,就談不上超越人類。透過這套題也可以看清楚 AI 擅長什麼和不擅長什麼。比如,從目前的得分來看,AI 在數學和計算機上的表現稍好,但是在歷史和語言上表現得慘不忍睹。
這說明 AI 的智能和我們想象得還不一樣。論文裏有一句話寫得很剋制,AI 在這些專家級問題上表現很差,說明真正的智能還需要深度、需要上下文、需要專業知識。那些覺得 AI 馬上就要統治世界的人,通過嘗試一下這套題目,可能就不再會那麼悲觀。

(來源:Nature)
美國德克薩斯 A&M 大學的助理教授阮東(Tung Nguyen,音譯)參與了出題,他寫了 73 道,是貢獻第二多的作者。他告訴媒體,這套題是一種理解 AI 的方法。它就好比是 AI 的入學考試,通過設置這套門檻,我們可以知道 AI 強在哪裏、弱在哪裏,才能造出更安全、更可靠的技術。同時,也說明了人類的專業知識依然重要。
參考資料:
相關論文
https://www.nature.com/articles/s41586-025-09962-4
https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette
排版:胡巍巍




