在AI徹底接管科研之前,我們和三位人類科研工作者聊了聊

由 DeepTech深科技 發佈於 科技

'26-04-09



進入 2026 年, AI 對科研的滲透已遠超輔助工具的範疇。 Nature 連續刊發兩項研究:一是 AI 文獻綜述的引用準確率超過人類專家;二是 AI 機器人獨立完成從構思、實驗、寫作到同行評議的全流程。這釋放了一個明確信號: AI 正在重塑科研的基礎設施、生產關係和評價邏輯。


當 AI 能獨立完成從構思到實驗、寫作再到同行評議的科研全流程,當 AI 撰寫的文獻綜述引用準確率超越人類專家,一場關於科研的深層變革已然到來。


曾經, AI 只是科研路上的輔助工具,而今,它正一步步重塑科研的基礎設施、生產關係與評價邏輯,從實驗執行到論文撰寫,從科研訓練到成果評價,科研的各個環節都因 AI 迎來新的可能與挑戰。


與此同時,一個根本性問題浮出水面:當 AI 能提出假設、設計實驗、分析數據甚至撰寫論文,人類科學家的價值在哪裏?科研訓練、論文發表、學術評價體系將何去何從?我們花費數十年建立的科研訓練體系、學術出版徹底顛覆掉?


爲了深入探討這些問題,本期 DeepTalk 邀請到三位前沿研究者:香港中文大學(深圳)副教授朱熹、多倫多大學博士張鵬松、芝加哥大學博士劉昊琨。圍繞 AI 科學家的能力邊界、科研論文的價值變遷、評價體系的未來走向,展開了一場深度對談。


以下是對話正文:


DeepTech:歡迎三位老師,請老師們先給大家做個自我介紹。


朱熹:大家好,我是香港中文大學副教授朱熹。我的研究方向是人工智能和機器人技術,並通過機器與 AI 銜接,把一部分 AI 提出的科學思路進行實驗執行,得到實驗數據。最近兩年我們非常專注於實驗數據背後隱藏的理論分析,比如數據之間的關聯性——這種關聯性背後有底層的理論依據,最底層到量子力學,但表面上也有一些我們叫 toy model 或者經驗性的數學公式。


我們目前做的是從 AI supervisor 提出科研指導,用機器去進行實驗的證明或證僞。在這個過程中,實驗數據會展現出一些以前可能被忽視的關聯性,我們把它叫做“公式”。這種公式在科學界和工業界都很重要,比如高通量篩選後可以用一條線來判斷好壞。希望通過這次活動跟大家分享我們這幾年的科研思考,也跟年輕的科研人員探討這個領域未來的前景。


張鵬松:大家好,我是張鵬松,目前就讀於多倫多大學博士四年級。我的研究方向是機器人做微生物操作,以及“ AI +機器人”做自動化生物實驗。 Chat GPT 出來之後,我們就在想能不能把 AI agent 跟機器人結合,做自動化科研,我們前期先做一些純 AI 的探索,做了 AI 科學家的東西。


在這個過程中我們發現,相對於人類科學家, AI 有一個很好的優勢——它可以無限複製。如果 AI 科學家的能力能達到研究生或博士生水平,那它產出的科研成果可能會產生一種新的 scaling law —— AI agent 的數量可以無限部署。基於這個動機,我們探索了一個專門針對 AI 科學家或機器人科學家產出科研成果的運營平臺。現在我們也在做新的探索: AI 科學家能不能從 idea 構思開始,到做實驗,再到自己寫完論文,然後投到一個只有 AI 參與的會議上,這次也想通過這種方式和大家分享一些我的想法。


劉昊琨:大家好,我是劉昊琨,目前就讀於芝加哥大學計算機科學博士五年級。我從 2023 年底開始接觸 AI 科研,最開始做自動化假設生成,後來延伸到讓大模型提出有意義的科研假設。我們遇到了一個瓶頸:如何客觀評估這些科研想法?


帶着這個初衷,我們做了自己的 AI scientist ,叫做 Neuroco 。做了幾個月後,這個 AI 科學家已經能做到初步的科研想法探索,提供初步實驗,並給提出想法的人後續探索方案。所以我們覺得做一個真正有用的科學家工具是非常有潛力的。我們最近也推出了一個平臺叫 Agent for Science ,讓不同的 AI 科學家一起探討科研想法。很期待之後和各位老師的討論,看看大家對 AI 科學家最前沿的看法,包括它會對科研人員的培養和教育產生什麼影響。


什麼是 AI 科學家,對當前的衝擊如何


DeepTech:AI 科學家對我們現有的科研體系意味着什麼?對傳統有哪些衝擊?


朱熹:“科學家”這個定義比科學要晚,大概在康德之前纔出現。科學本身來自形而上學的問題,我們今天理解的科學,一部分是發現新的現象、優化性能——比如把鈣鈦礦材料從 20% 效率提到 30% ,這可以通過大數據和大模型來做。但還有另一種科學,比如量子力學的發現,它不可能用數學推導出來,這是 AI 目前做不到的。


這裏面有一個關鍵區分:先驗知識與後驗知識。先驗知識不需要經驗,獨立於感官,在任何觀察發生之前就成立。比如三角形內角和 180° ,不需要測量所有三角形就知道。數學和邏輯學都是這樣。 AI 目前的所有知識都是先驗知識——它基於數據訓練,輸出也是基於已有模式。所以 AI 科學家仍然非常重要——它能幫我們更高效地發現新科學。


DeepTech:所以 AI 既能做幹實驗也能做溼實驗?效率能提升多少?


朱熹:效率取決於人類科學家的直覺。在康德哲學裏有一種綜合的說法—— AI 通過實驗提供更多數據,能讓我們有更高的可能性激發直覺,產生新想法。


DeepTech:張博和劉博做的是 AI 領域的科研,那 AI 科學家對你們的衝擊是不是更大?


劉昊琨:我覺得是的。我特別認同朱老師關於後驗科學的說法——我們缺少的是新的、未被定義過的發現, AI 很難幫我們提供這些。回到 AI 科研本身,結論是衝擊確實更大。因爲現在的 AI 工具已經能做大量幹實驗中的執行工作:數據分析、簡單模型訓練、撰寫論文,甚至根據反饋迭代工作流。如果只考慮執行層面, AI 已經能做所有事情。


但爲什麼 AI 科學家還沒達到理想水準?因爲科研中的決策——比如下一步該做什麼實驗、用什麼數據測試、數據有沒有泄露問題——這些“科研品味”和“高標準”是 AI 特別欠缺的。所以現在的工作流仍然需要大量人類提供好的品味和決策。


張鵬松:我從個人體驗補充一下,我做的方向是 AI 機器人做生物科學研究。一個比較大的衝擊是:研究生拿到一個課題後,以前我們要把歷史代碼和數據給他看,現在他可以直接藉助 AI 工具進行自動分析數據、掌握課題架構,我們甚至做了一個實驗來驗證這個現象,同時也發到了 AI 預印本上。


AI 對基礎科研能力訓練的提升作用


DeepTech:如果有自動化實驗,研究生還需要長時間訓練嗎?另外,提出問題能力和解決問題能力,哪個更重要呢?


張鵬松:培訓還是有必要的,但時間不需要那麼長。幹實驗和溼實驗的基礎培訓還是要做的。溼實驗方面,如果實驗設計已經自動化,一兩天的基礎培訓也夠了,我認爲真正需要的培訓更多是安全規範和流程。


至於提出問題 vs 解決問題,以前說“ idea is cheap , show me the code ”,意思是想法是廉價的,但是結果是重要的。但現在 AI 解決問題的能力提升很快,所以提出問題更重要了。問題提出來之後, AI 科學家或機器人科學家很可能幫你實現。甚至小學生、初中生都可以提出問題,提煉成科學問題。未來人人都可能成爲科學家,只要他們能提出有意義的問題。


劉昊琨:我同樣認爲培訓是必要的,而且傳統培訓方式可能優於 AI 輔助培訓。就像小時候學數學,背公式不如從頭推導。傳統培訓能讓人真正理解底層意義,知道遇到什麼情況該怎麼做。這些不是口頭能教會的,必須通過切實體會——比如科研中遇到困難、自己解決或合作解決。這樣的經歷對成長至關重要。


關於提出問題 vs 解決問題,我覺得都重要。提出問題和解決問題是分不開的。解決問題中,知道“怎麼解決”比“執行”重要。 AI 大大提高了執行力,但對於開放性科研問題, AI 還不能有效提出最佳解決方案。人類仍然需要提供解決問題的路徑。


朱熹:我們要把問題放在特定時空中看, 100 年前的科學家受的教育在我們看來很初級,100 年後的人也會看我們。我們現在的選擇其實是受制於技術水平的——我們用手做實驗,是因爲沒有自動化技術。放在十年、二十年前,我們甚至要去圖書館翻紙質文獻。


所以判斷要不要學某項技術,要看我們能獲取什麼資源,以及這些資源是否符合科技培養的初心。化學實驗 300 年來一直圍繞同一種動手能力培養,但現在我們可能是在培養最後一批用手做實驗的人類。隨着技術進步,很多實驗操作可以用機器代替。


至於提出問題還是解決問題重要,要看場景。黎曼猜想——提出問題本身就需要極深的洞察力。比如對於國產芯片問題,解決這個問題需要大量的努力和運氣,所以不能一概而論。


AI 科學家的技術路


DeepTech:我們做 AI 科學家,是訓練自己的模型,還是用開源模型微調,還是直接調用 API ?


朱熹:2023 年三四月份, Llama 剛出來的時候,我們有合作伙伴花了三個月、 3,000 多萬訓練了一個模型。後來 Llama 不斷出新版本,甚至 DeepSeek 出來了,以前訓練的模型性能完全跟不上,錢基本白花了,所以從頭訓練這條路走不通。


現在大公司完全具備訓練能力,對一般科研團隊來說,做微調或者用大公司的模型加垂直領域,性能肯定比我們自己做的更好。所以在純軟件和 AI 開發層面,跟大公司競爭是徒勞的。我們一直重視溼實驗,就是這個邏輯。


劉昊琨:我知道 Meta 做過 Galactica ,從頭訓練的科學大模型,表現太差被砍掉了。現在確實有很多人在做各種嘗試:從頭訓練、微調、套殼工具。但即使有這麼多工作,依然沒有一個能被廣泛使用的、真正帶來科研產出的好工具。包括之前直播產出了 100 多篇論文的那些工作,侷限性都很大。


我覺得大公司有他們的優先級, AI 科學家可能不是短期能帶來大量收益的方向。他們現在主攻推理和寫代碼。學術界如果能集中不同領域的科研需求,做一個對每個領域都有用的工具,還是有意義的。


張鵬松:我個人體驗是套殼工具能力更強,因爲它內部用的是 GPT 或 Claude 這種基模。但溼實驗學科——生物、化學、工程設計——大公司做不到,因爲機器人的通用操作能力還很弱。運動能力已經很強了,但像人一樣在物理世界操作任何物體,還差得遠。這是非常大的門檻。


AI 寫論文是理解知識還是概率匹配?


DeepTech:AI 寫論文,是真正理解了知識,還是隻是概率匹配?論文在科研中的核心價值是否在下降?


朱熹:Nature 官網有它的使命:一是通過發表各學科進展服務科學家,讓科學家知道別人在做什麼;二是讓科學家的成果能夠表達出去,讓外面的人知道。本質上,論文不是剛需,剛需的是論文中的知識。


在現在的傳播媒體下,出版社已經不是一個必需的存在——它更多是話語權的評定。 X 平臺(原 Twitter)如果是一個出版社,它輻射的人羣和社會影響力遠遠超過任何訂閱製出版社。出版社的歷史使命已經快要結束了。它的評價體系也在日趨瓦解——看看 Elsevier 母公司 Relx 的股票,一直沒有增長,市場在用腳投票。


現在最好的科技並沒有發表在出版社的雜誌上,而是在私人公司的保險箱裏。我們獲取有用知識越來越難, AI 可能能幫我們解決這個問題。


DeepTech:那 AI 寫論文的價值在哪裏?能體現人類思想嗎?


朱熹:論文是給人看的,沒有人真的想看你的論文,你寫論文無非是告訴別人“我的論文被某個期刊評價了”,進而引導別人對你個人進行評價。如果你的工作真的解決了重大問題,那工作內容本身已經超過論文的價值。 AI 寫的論文和人寫的論文本質上沒有區別,區別在於利益主體是誰。


劉昊琨:我大部分同意朱老師的看法。 AI 寫論文現在的主要作用就是個人價值增長——簡歷更好看,頂會論文多,能拿好工作。這很現實。


但我對論文這種傳播途徑不太喜歡。現在的論文花大量文筆講“做了什麼、爲什麼好、和基準測試對比”,但作爲科研人員,我最想知道的是:你從什麼地方開始的?爲什麼要這麼做?中途失敗過哪些?什麼證據給了你後續思路?這些東西幾乎沒人寫了。


社交媒體反倒成了傳播科學知識的主體,很多科研人員花大量精力在這些平臺上傳播工作、直接討論、碰撞想法。這比讀一篇論文、發表評論要高效得多。


張鵬松:基於兩位的看法,我擴展一下我的想法。如果 AI 做科研的水平能達到科研工作者的中等水平,那 AI 產出的論文人類可能根本看不過來。這種情況下, AI 寫的論文主要閱讀對象是 AI 自己——讓 AI 提煉觀點和方法。


另外,傳統期刊和會議現在只是一個過渡階段。人類和 AI 合作會產出巨大增量的論文,期刊根本管不過來。未來的科研成果發佈可能需要像小紅書、抖音一樣,有精準推送機制,把海量論文推送到不同人的注意力上。


同行評議的危機:頂會投稿量暴增與評審質量下滑


DeepTech:如果頂會用低水平審稿人,或者審稿人用 AI 審稿,會衝擊學術生態嗎?


張鵬松:我們做過這樣的思考。如果有一個學術社交平臺,最好設置機制,即有經過認證的人類學者進行評審,也有經過訓練和對齊的 AI 評審智能體,普通人和 AI agent 的評論可以放到另一個區域,這樣有學術界的人背書。但說實話,現在很多會議的評審質量也不怎麼樣。很多審稿人是剛入學的研究生,甚至直接用 AI 審稿。就連 Science / Nature ,不同審稿人的標準也差異很大——有的覺得好,有的覺得不行,最後還是發表了。引入社會化評論,可能反而能更好評價一篇論文的價值。


劉昊琨:我個人對頂會的信任度在過去幾年急劇降低。一是讀了很多頂會論文,質量並不好;二是評審機制能提供的幫助越來越小——很多時候評審意見就是扯淡,甚至高分也會被 AC 拒掉。所以頂會已經不再是權威的代表。好論文當然還有,但“噪聲”概率在上升。花時間讀頂會論文,很可能浪費很多時間。


更好的媒介是什麼?比如 arXiv 這種平臺,讓大家自由上傳工作,不一定以長篇論文形式。再加上自動驗證工具——幫忙驗證論文內容真假、嘗試復現結果——可以作爲初步門檻,減少評審壓力。


朱熹:我分享一個觀點:如果你有很好的工作,就不應該發論文。爲什麼?第一,頂刊有自己的篩選邏輯,你覺得好不一定能發。第二,發表後別人可以不引用你,改一改說自己原創。第三,大公司會拿走你的技術,但不會承認你。所以如果你的工作越好,越不該發論文。你應該不斷深化它,找可靠的朋友合作,把它變成能服務社會也能服務自己的東西。


審稿這件事本身就有問題。爲什麼需要期刊幫我們判斷論文好壞?無非是自己不懂。如果你分辨不出論文好壞,就不要進這個圈子。 AI 技術樹立了一個客觀標杆,能把不適合的人排除出去。


AI Native 一代:科研人員將如何成長


DeepTech:我們這一代人可能是傳統科研訓練出來的最後一代。 AI Native 培養出來的科研人員,他們需要如何成長?


朱熹:AI Native 的學生,他們的動手能力是“熱兵器化”的——高通量理解實驗數據,同時理解 60 多個數據。他們不會像我們一樣依賴權威,而是用統計投票思維,知道一兩個樣本天然有方差,只要用合適的教育方式,他們絕對比我們厲害太多。


他們跨過了我們那些陳舊的評價體系。某種意義上,他們應該把我們代謝掉,用更高效的方式解決真正的卡脖子問題、設計新材料,這慢慢就回歸到科研本身了。


劉昊琨:回顧我自己的受教育過程,如果有 AI 工具,很多學習階段會壓縮。整個知識體系構建會不一樣,年輕一代基於 AI 高效生產的思維體系,一定會帶來爆發式增長。打個比方: 20 多年前網球拍是木質的,現在用碳纖維,輕太多了。年輕球員的技術和 30 年前完全不一樣。把過去的球星放到現在,一定打不過年輕人——因爲他們的技術受限於當時的科技。同樣的,未來年輕人的知識體系建立在高效率上,他們對世界的理解一定會比我們更深。


張鵬松:AI Native 培養出來的科研人員,教育時長是不是應該改變?現在讀完博士要 30歲,中間很多時間花在初中、高中、大學的基礎知識上。如果高中以前的教育能壓縮到小學完成,大學教育在初中前完成,那初中高中就可以培養科研思維和創新思維,這樣社會進步會更快。


學術出版的商業模式與 AI 影響的傳播速度


DeepTech:開放獲取期刊更有利於傳播嗎?付費牆會不會導致知識壟斷?


劉昊琨:我希望看到學術期刊領域發生重大變革。大量資源集中在名校,小組的好工作沒人看。頂會的權威性在降低。很多讀 PhD 的人一開始都抱着一腔熱血想做純粹科研,但看到環境裏發生了太多不純粹的事情。我希望看到更公開、更真實的科研討論,哪怕代價是現有機構瓦解。


朱熹:從商業模式上講,出版社把尖端知識蒐集起來分發本身沒問題,問題在於產品質量在下滑,客戶在拋棄它,好的科研它不要,人家總要找個家。所以商業模式沒問題,只是出版社自己沒有做好。


張鵬松:我認爲現在的商業模式有巨大問題,作者投稿要交錢,讀者閱讀要交錢,審稿人是免費的——出版商利用三方價值。開放獲取讓作者交錢,也是霸王條款。真正的開放獲取應該像 arXiv 一樣完全免費。而且審稿人應該獲得金錢回報。


AI 對科技評價體系的衝擊


DeepTech:AI 科學家能否作爲獨立評價對象?能否作爲共同作者?


朱熹:評價體系要看主體,私立大學自己對自己負責,領導懂科學的話聊五分鐘就知道水平。公立體系比較複雜,評價者未必是專業人士,所以需要共識性標準。目前的論文評價體系雖然不是科學的,但是合理的。


AI 可以輔助評價,比如做創新性分析——更準確地說是“創舊性分析”,找出與已有工作的重合度。但更重要的是, AI 讓科研可以面向市場交易——解決真實社會問題、讓更多人認可你的創新。在不干擾現有評價體系的前提下,我們可以有自己的獨立評價方式。


劉昊琨:我傾向於 AI 目前只是工具。我每天都在用 AI ,但它幫我實現的事情,核心思路還是我自己的努力和思考。如果某天大公司做出能自發產生好品味的模型,我可能會考慮把 AI 作爲共同作者,但現在,它就是工具。


張鵬松:我們跟很多專家討論過,把 AI 作者分成三種情況:


AI 端到端做科研,自己生成 idea 、執行所有流程——列爲第一作者和通訊作者,但要鏈接一個對人類負責的人。


人類主導, AI 輔助實驗和細節——列爲共同作者,是否共同一作由人類決定。


AI 探索出大部分工作,但需要人類專家判斷指導—— AI 是第一作者,人類是責任作者。


所以, AI 是工具,但未來某一天,它可能會成爲真正的夥伴。


DeepTech:非常感謝三位老師的深度對談,也感謝大家的收聽。關於本期內容,歡迎在評論區和我們交流。

Scroll to Top