OpenAI 正在重新聚焦其研究方向,將資源集中投入一項新的宏大目標。這家公司瞄準的是“AI 研究員”——一個完全自動化的、基於智能體的系統,能夠獨立處理複雜問題。OpenAI 表示,這個新目標將成爲公司未來幾年的“北極星”,它將把推理模型、智能體和可解釋性方面的工作整合在一起。
並且,項目已經提上了日程。OpenAI 計劃在 9 月前打造出“自主 AI 研究實習生”——一個能夠獨立承擔少量特定研究問題的系統。該系統計劃於 2028 年推出,這個 AI 實習生將是全自動多智能體研究系統的前身。OpenAI 稱,它將能處理人類難以應對的複雜問題。
這些任務可能涉及數學和物理,比如提出新的證明或猜想,也可能涉及生物學和化學等生命科學,甚至是商業和政策難題。從理論來說,可以將任何能用文本、代碼或白板草圖表述的問題丟給這個工具,而這覆蓋的範圍非常廣泛。
最近幾年,OpenAI 被視爲引領 AI 行業的風向標。它憑藉大語言模型建立的早期主導地位,塑造瞭如今數億人每天使用的技術。但是現在,它面臨來自 Anthropic 和 Google DeepMind 等競爭對手的激烈挑戰。OpenAI 接下來決定造什麼,對它自己和 AI 的未來都很重要。

(來源:麻省理工科技評論)
這個決定很大程度上取決於 OpenAI 的首席科學家雅庫布·帕喬基(Jakub Pachocki),他負責制定公司的長期研究目標。帕喬基在 GPT-4 和推理模型的開發中都扮演了關鍵角色,前者是 2023 年發佈的一款改變行業格局的大語言模型,後者是 2024 年首次出現的一項技術,如今已成爲所有主流聊天機器人和智能體系統的基礎。
在本週的獨家專訪中,帕喬基向《麻省理工科技評論》詳細介紹了 OpenAI 的最新願景。“我認爲我們正在接近一個節點,屆時模型將能夠像人一樣,以連貫的方式無限期地工作。”他說,“當然,你仍然需要人來掌控全局、設定目標。但我認爲我們會達到一種狀態——一個數據中心就相當於一整座研究實驗室。”
通往“AI 研究員”的技術路徑
事實上,這類宏大願景並不新鮮。通過解決世界上最困難的問題來拯救世界,是所有頂尖 AI 公司的公開使命。德米斯·哈薩比斯(Demis Hassabis)2022 年就告訴過《麻省理工科技評論》,這是他創辦 DeepMind 的初衷。Anthropic 的 CEO 達里奧·阿莫迪(Dario Amodei)說,他正在數據中心裏打造一個“天才之國”。OpenAI 的 CEO 山姆·奧特曼(Sam Altman)想攻克癌症,對此帕喬基表示,OpenAI 現在已經具備了實現目標所需的大部分條件。
今年 1 月,OpenAI 發佈了 Codex,一款基於智能體的應用,可在本地或雲環境中生成並執行代碼任務。它具有分析文檔、生成圖表、製作收件箱和社交媒體的每日摘要等功能。(其他公司也發佈了類似工具,比如 Anthropic 的 Claude Code 和 Claude Cowork。)
OpenAI 稱,公司大多數技術人員現在工作中都在使用 Codex。帕喬基認爲,可以將 Codex 看作 AI 研究員的一個非常早期的版本,他預計 Codex 會有根本性的提升。
關鍵是讓系統能在更長的時間內運行,同時減少對人類指導的依賴。“我們對自動化研究實習生的真正期待是,你可以把那些一個人需要花幾天時間完成的任務交給它。”帕喬基說。
“很多人都對構建能進行更長週期科學研究的系統感到興奮,”艾倫人工智能研究院的研究科學家道格·唐尼(Doug Downey)認爲,這主要是受到代碼智能體成功經驗的驅動。“你能把相當複雜的編程任務交給 Codex 這樣的工具,這非常有用,也令人印象深刻。與此同時,這也帶來了一個更大的問題:我們是否能將這種能力拓展到編程之外,在更廣泛的科學領域做到類似的事情?”
對帕喬基來說,答案顯然是“能”。他認爲,這只是沿着我們已有的路徑繼續往前走,全面能力的提升也會讓模型在沒有幫助的情況下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飛躍作爲例子。他指出,GPT-4 在處理問題時的持續能力遠超前代,即使沒有專門訓練也是如此。
推理模型帶來了又一次飛躍。訓練大語言模型逐步解題、在犯錯或走入死衚衕裏時回溯,也讓模型在更長時間段內的工作能力得到了提升。帕喬基相信,OpenAI 的推理模型還會繼續進步。
與此同時,OpenAI 也在通過給系統喂入特定的複雜任務樣本來訓練它們更長時間地獨立工作,比如數學和編程競賽中的高難度題目。這些題目迫使模型學會追蹤超長文本,將問題拆分成多個子任務並加以管理。
但他們的目的不是造出一個只會贏數學競賽的模型。帕喬基說,這其實是在把技術推向真實世界之前,先驗證它的可行性。“如果我們真的想做,我們可以造出一個出色的 AI 數學家。但這不是我們現在要優先做的事,因爲到了你相信自己能做到的時候,有更緊迫的事情要做。我們現在更專注於在真實世界中有意義的研究。”
目前的工作方向是把 Codex 在編程方面的能力推廣到通用問題解決上。“編程領域正在發生巨大的變化,”他說,“我們的工作方式和一年前完全不同了。沒有人還在一直手動編輯代碼。取而代之的是,你管理一組 Codex 智能體。”按照這個邏輯,如果 Codex 能解決編程問題,它就能解決任何問題。
加速拐點已經出現
過去幾個月,OpenAI 確實取得了一些重要成果。在若干未解數學問題上,研究人員利用 GPT-5 系列模型(驅動 Codex 的大語言模型)發現了新解法,並在一些生物學、化學和物理學難題中突破了看似走不通的困境。
“看着這些模型提出大多數博士生至少要花好幾周才能想到的點子,我預計這項技術在不久的將來會帶來更多加速。”帕喬基說。
但帕喬基承認,事情還沒有塵埃落定,他也理解爲什麼有些人仍然懷疑這項技術究竟能帶來哪些變革。他認爲,這取決於每個人的工作方式和需求。“我能理解有些人覺得它目前還不太有用。”他說。
他告訴《麻省理工科技評論》,一年前他甚至不用自動補全——這是生成式編程技術最基礎的版本。“我對自己的代碼非常挑剔,”他說,“能自己在 vim 裏敲出來,我就自己敲。”(vim 是一款深受硬核程序員喜愛的文本編輯器,使用大量鍵盤快捷鍵而非鼠標來操作。)
但當他看到最新模型的表現後,想法改變了。他仍然不會把複雜的設計任務交出去,但當他只是想快速驗證幾個想法時,它是個省時利器。“一個週末就能讓它跑完以前我需要花一週寫代碼才能做的實驗。”他說。
“我還沒覺得它到了可以放手讓它主導整個設計的程度,”他補充道,“但當你看到它做出了一件需要花一週時間才能完成的事,這很難反駁。”
帕喬基的計劃是把 Codex 這類工具現有的問題解決能力大幅增強,然後推廣到各個科學領域。唐尼也認爲自動化研究員的構想非常酷:“如果明天早上回來,發現智能體幹了一堆活,有新結果可以看,那會非常令人興奮。”
但他提醒,構建這樣一個系統可能比帕喬基描述的要難。去年夏天,唐尼和同事們在一系列科學任務上測試了幾個頂尖大語言模型。OpenAI 最新的模型 GPT-5 名列前茅,儘管它仍然會犯很多錯誤。
“如果你需要把多個任務串聯在一起,連續做對好幾個的概率往往會下降。”他說。唐尼承認這個領域進展很快,他還沒有測試最新版本的 GPT-5(OpenAI 兩週前發佈了 GPT-5.4)。“所以那些結果可能已經過時了。”他說。
安全性與治理的關鍵未解問題
那麼,一個在幾乎沒有人類監督的情況下能獨立解決複雜問題的系統,可能帶來哪些風險?帕喬基告訴《麻省理工科技評論》,OpenAI 內部一直在討論這些風險。
“如果你相信 AI 即將顯著加速研究,包括 AI 自身的研究,這對世界來說是一個巨大的變化,這是一件大事。”他告訴《麻省理工科技評論》,“而且,伴隨着一些嚴肅的未解問題。如果它這麼聰明、這麼能幹,能運行整個研究項目,萬一它做了壞事呢?”
在帕喬基看來,這種情況可能以多種方式發生:系統可能失控,可能被黑客入侵,也可能只是誤解了指令。
目前 OpenAI 應對這些問題的最主要技術手段,是訓練推理模型在工作過程中分享它們正在做什麼的細節。這種監控大語言模型的方法被稱爲“思維鏈監控”(chain-of-thought monitoring)。
簡單來說,大語言模型在逐步執行任務時,會被訓練在一種“草稿本”上記錄自己正在做的事情。研究人員可以通過這些筆記,在一定程度上用於分析和評估模型行爲。近日,OpenAI 發佈了關於如何在內部使用思維鏈監控來研究 Codex 的新細節。
“一旦系統開始在大型數據中心裏長時間自主運行,我認爲思維鏈監控將成爲我們真正依賴的東西。”帕喬基說。
其設想是用其他大語言模型來監控 AI 研究員的草稿本,在不良行爲成爲問題之前就識別到它,而不是試圖從一開始就阻止不良行爲的發生。人類對大語言模型的理解還不夠深入,無法做到完全控制。
“我覺得要真正說‘好了,這個問題解決了’,還需要很長時間,”他說,“在你能真正信任這些系統之前,你肯定需要有限制措施。”帕喬基認爲,強大的模型應該部署在沙箱環境中,與任何它們可能破壞或利用來造成傷害的東西隔離開。
現在,AI 工具已經被用於發起新型網絡攻擊,有人擔心它們會被用來設計合成病原體作爲生物武器。“這將是一件非常奇異的事情。這是一種在某些方面前所未有的高度集中的權力,”帕喬基說,“想象一下,你進入一個世界,一個數據中心就能完成 OpenAI 或 Google 能做的全部工作。過去需要大型組織才能完成的事情,現在幾個人就夠了。”他認爲,這對各國政府來說是一個巨大的挑戰。
但有些人會說,政府本身就是問題的一部分。比如,美國政府想在戰場上使用 AI。Anthropic 與五角大樓最近的對峙表明,社會各界對於這項技術應該和不應該被如何使用遠未達成共識,更不用說由誰來劃定紅線。在那場爭端的緊接着,OpenAI 就站出來與五角大樓簽了協議,取代了競爭對手。局面仍然混沌不明。
《麻省理工科技評論》就此追問帕喬基:是真的相信其他人能解決這些問題,還是作爲未來的關鍵設計者,感受到了個人責任?“我確實感受到了個人責任,”他說,“但我不認爲 OpenAI 僅憑自己就能解決這個問題,無論是把技術推向某個特定方向還是以某種特定方式設計產品。我們肯定需要政策制定者的大量參與。”
那麼,我們現在身處何處?真的走在通往帕喬基所描繪的那種 AI 的道路上嗎?“我在這個領域待了二十多年了,我已經不敢相信自己對某些能力到底還有多遠的預判了。”他說。
OpenAI 的公開使命是確保通用 AI(一種假想的未來技術,許多 AI 樂觀派相信它將能在大多數認知任務上與人類匹敵)造福全人類。OpenAI 計劃通過率先造出它來實現這一目標。但帕喬基在與《麻省理工科技評論》的對話中只提到過一次 AGI,而且他很快就用“具有經濟變革性的技術”這個說法進行了替代。
大語言模型和人腦不一樣,他說:“它們在某些方面和人類表面上相似,因爲它們基本上是在人類語言上訓練的。但它們不是通過進化形成的,不像人類那樣高效。”
“即使到 2028 年,我也不預期我們會得到在所有方面都和人一樣聰明的系統。”他補充道,“我不認爲它會發生,但我不認爲那是絕對必要的。有趣的是,你不需要在所有方面都和人一樣聰明,就能產生巨大的變革力量。”
原文鏈接:
https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/
排版:劉雅坤




