從模仿到自主,機器人還需跨越三重挑戰|專訪NTU助理教授王子爲

由 DeepTech深科技 發佈於 科技

'25-11-29

AI、機器人和未來。


在新加坡南洋理工大學的一間實驗室裏,一隻機械臂正在嘗試完成一個看似簡單的任務:抓取一個蘋果。這個動作,對於三歲的孩童來說不過是本能,但對於當今最先進的機器人而言,卻是一道難以跨越的鴻溝。


在這個人工智能的“GPT 時刻”,我們見證了 AI 以快速迭代的方式掌握了語言、圖像甚至代碼。大型語言模型已經能在許多信息處理任務中展現出高效表現。然而,從知到行之間,橫亙着一道我們尚未完全理解的鴻溝:一個能在虛擬世界通過美國執業醫師資格考試的 AI,卻無法在物理世界爲我們可靠地端來一杯水。


這不僅是一個工程問題,更接近一個哲學命題:如果一個智能體無法與物理世界交互、感知、行動並承受後果,它是否真正理解了這個世界?在中國古典哲學中,“知行合一”被視爲智慧的最高境界。而在今天的人工智能研究中,如何讓機器實現從“知”到“行”的跨越,正成爲這個領域最前沿、也最艱難的挑戰。


王子爲的研究經歷,正是在這一問題背景下展開的。從清華大學的物理系,到 AI 研究,再到具身智能(Embodied AI)——他的每一次轉向,都與技術發展趨勢密切相關。



(來源:受訪者提供)




兩次“轉向”:從物理定律到機器人鐵律

2016 年,當 AlphaGo 與李世石的圍棋對決吸引全球目光時,王子爲還是清華大學物理系數理基礎科學專業的一名學生。在當時的學術路徑規劃中,物理系的學生,未來大多走向理論物理、高能物理或是金融工程。但這場人機大戰,徹底改變了這個 20 歲年輕人的人生方向。


“當時覺得這個東西非常神奇,有非常大的潛力。”回憶起那個轉折點,王子爲的語氣依然帶着當年的激動。這種激動促使他做出了一個大膽的決定——從物理學轉向人工智能研究。“我們當年有很大一部分同學都轉向了 AI 相關的工作,不管是計算機、電子還是自動化,多多少少都受了 AlphaGo 的影響。”


但真正讓他從 AI 轉向機器人研究的,是 2020 年另一項發表在Nature的里程碑式工作——“Robot Chemist”。來自英國利物浦大學的 Andrew I. Cooper 教授課題組開發了機器人化學家,其可以在實驗室“走來走去”並如同人類化學家一樣操作實驗儀器,完成各種各樣的實驗任務。


這項研究讓他意識到:相比純粹的算法研究,AI 與物理世界的結合可能是一個更具空間的方向。


同年,他開始了 AI 與機器人結合的研究,從純粹的 AI 走向具身 AI。“我記得非常的清楚,”他回憶起2020年第一次調試機器人,“看到我們自己設計的機械臂,能夠完成打包工作,把一個物體像人一樣打包進盒子裏面……那一份成就感,哪怕過去這麼多年了,也是記憶猶新。”




加速的時代,CMU 的“快”與“慢”

在 AI 這個以月爲迭代週期的領域,快是公認的信條。算法在加速,模型在膨脹,論文在增長。然而,王子爲在博士畢業後前往卡內基梅隆大學(CMU)進行博士後研究時,學到的最重要的一課,卻是“慢下來”。


“讓研究慢下來,其實不容易。”王子爲發現,當AI 與機器人結合,研究的範式就徹底變了。在純AI 領域,一個想法的驗證週期可能很短:設計一個新模型,在已有的數據集上跑一下,幾個小時或幾天後,就能迅速驗證想法是否有效。但在機器人領域,這個週期會被無限拉長。


“要把問題想清楚是需要時間的。”王子爲舉例,在機器人上驗證一個新算法,首先要採集數據。這個過程是物理的、實時的、昂貴的。“機器人採數據是需要時間的,是需要成本的。”採集完數據,還要進行漫長的訓練和調試。


更重要的是,物理世界遠比數據集要狡猾。“比如,我們設計的框架對不同的網絡結構、不同的硬件,是不是都有效?增加數據之後,在特定的問題上,它是否會產生像物理學裏面那種相變?”就像 GPT 模型在數據量跨越某個閾值後突然湧現出能力一樣。在機器人領域,這個湧現點在哪裏?沒有人知道。


“這都是需要時間的。”他反覆強調。


他在 CMU 參與的一個項目,是研究如何通過人類的語言或草圖,來生成樂高積木的拼接方案,並指揮機器人完成組裝。這聽起來像個玩具問題,但其背後的技術複雜度是驚人的。這套系統首先需要理解人類模糊的指令(造一個帶兩個窗戶的紅房子),然後生成一個三維的、符合物理拼接邏輯的模型;接着需要規劃機器人的每一步操作(抓取、旋轉、放置),最後纔到讓機器人執行高精度的動作的環節,並還要保證全過程的安全。


“這個工作從 2023 年就開始了,一直到今年(2025年)纔有一個里程碑式的結果,但最後這篇論文也是拿到了 ICCV 的 Best Paper。”


一個看似簡單的搭樂高任務,耗費了團隊數年的時間。這種“慢”,在如今的加速社會里似乎是不可想象的。但王子爲認爲,正是這種“慢”,讓他們能夠沉澱下來,去發現一些平常容易忽略的,但是真正重要的一些問題。


與此同時,CMU 的合作氛圍爲研究帶來了一種“快”。不同實驗室在硬件、感知、移動平臺等方面能力互補,使項目推進更爲高效。這種“快”與“慢”的結合,也影響了他後來在 NTU 開展研究的方式。




蘋果掉在地上:具身智能的“阿喀琉斯之踵”

“我們實驗室的長期目標,是爲機器人賦予能夠理解世界、並且能夠自主決策的大腦。”


在 NTU 的實驗室裏,王子爲正試圖回答這個領域最核心的難題:爲什麼今天的機器人,本質上仍然是模仿者,而不是決策者?他用一個極其生動的例子,點出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization)。


“以抓蘋果爲例。蘋果放在桌子上,很多模型表現都能把它抓起來。這是我們通常在演示視頻裏看到的。但是,如果某一次抓的時候沒抓穩,蘋果掉在地上了,那麼很多的機器人的模型現在就會直接 fail 掉。因爲在訓練的過程中,它可能壓根就沒有見過這種類似的數據。”


這就是當前主流的模仿學習(Imitation Learning)範式的弱點。模型只是在復現它在訓練數據中見過的軌跡,它並沒有真正理解這個任務。“人哪怕看到蘋果掉在地上,我理解到蘋果、桌子、地板之間的規律,以及這個世界的物理運行規律,包括摩擦力、包括重力……它都是能夠解決的。”而機器不能。這就是“分佈外”(Out-of-Distribution, OOD)問題。當機器人遇到一個它訓練數據分佈之外的、全新的情況時,它就束手無策了。


背後的挑戰可以概括爲三類,這也是整個行業共同面臨的“三座大山”:


其一,數據昂貴。機器人數據必須在真實物理環境中採集,每條數據往往要數十秒甚至更久,難以像語言模型那樣依靠大規模互聯網數據訓練;其二,物理精度要求高。幾毫米的誤差都可能導致任務失敗,小偏差的累積會迅速放大;其三,環境物理規律多變。摩擦、質地、光照等因素的微調都會影響動作效果,模型需要實時建模這些隱性變量。




走向“自主”:世界模型、推理鏈與強化學習

爲了應對上述難題,王子爲團隊正在探索三類方法。


第一條路徑,是嘗試用世界模型(World Model)打破數據詛咒。既然物理世界的數據採集那麼昂貴,我們能不能讓機器人在“腦海中”採集數據?這就是世界模型的邏輯。“它根據當前的觀察和即將要採取的一個動作,就會提前預判後續會產生什麼樣的後果。”王子爲解釋道,“也就是說,我不需要真的去做這個事,我只需要在我腦海裏面想一下,我就知道會產生什麼樣一個後果。”


通過世界模型,機器人可以在“想象”中源源不斷地產生訓練數據,極大地降低數據成本。當然,前提是這個“想象”要足夠逼真。這是王子爲團隊的重點方向之一,即如何生成真正跟真實的數據差距比較小的高質量數據。


第二條路徑,是用推理鏈解決長程任務。當前的機器人模型(如 VLA,Vision-Language-Action 模型)普遍“短視”。它們能做好抓取蘋果這樣的一步動作,但無法完成做一份早餐這樣的長程任務。“做早餐,它可能需要 20 步,甚至 30 步。打開冰箱、拿出食材、洗、切、煮、端到桌子上。”王子爲說,“這是一個需要推理能力的長程任務。”而受大語言模型思維鏈(Chain-of-Thought)的啓發,王子爲團隊的思路是,把長任務拆解成一步一步的短任務,讓機器人每次只去解決一小步。


但核心問題是:怎麼“拆”纔是最優的?人類認爲的 20 步,不一定是模型認爲最高效的 20 步。他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是爲了解決這個拆解問題。他們嘗試用蒙特卡洛搜索樹和強化學習的方法,去搜索一個最優的拆解方案。“機器人需要推理物體與物體之間的關係(空間上),也需要推理動作與動作之間的關係(時間上)。”


第三條路徑,用強化學習跳出模仿的範式。這是最激進,也可能最具革命性的一步。它試圖徹底解決那個“蘋果掉在地上”的 OOD 問題。模仿學習的覆蓋面總是有限的,“人是沒有辦法去窮盡所有的分佈外的情況的。“那我們能不能,”王子爲設想,“不再依賴於人類的數據採集,而是說通過自己主動的去嘗試一些東西?”


這就是強化學習的迴歸。讓機器人自己去探索,甚至主動犯錯。“比如說,它自己主動覺得,這個蘋果如果將來掉到地上之後,我可能不確定怎麼去拿,那麼他就會自己主動去嘗試,把這個蘋果弄到地上,然後去把它抓起來,在這個過程中進行學習。”這是一種根本的範式轉變:從“向人類學習”(Learning from Human)轉向“自主學習”(Self-learning)。


這標誌着機器人從一個被動執行的工具,開始向一個主動探索的智能體(Agent)進化。王子爲提到,近期已有很多論文顯示,通過這種方式,機器人在某些任務上能達到接近 100% 的成功率——這是純模仿學習無法企及的高度。




從“知”到“行”:熱情是最後一公里

迄今,那隻機械臂仍在不知疲倦地重複着訓練動作,身後的科研工作者們還在夜以繼日地調試。它還不夠完美,偶爾會失誤,會在意想不到的情況下“手足無措”。但正是這些失敗,構成了通向理解的必經之路。這也讓我們在採訪的最後,不禁問出了那個問題:在這樣一個瞬息萬變、充滿不確定性的領域,究竟什麼樣的人才能走到最後?


“我認爲是要有熱情和快速學習的能力。“因爲一個頂級的研究者,他肯定是這個世界上對於這個細分小領域最瞭解的人,至少是之一。所以他每往前邁一小步,其實都是要面臨無限的不確定性和挑戰。這種情況下,研究在很多時候就是一份煎熬。只有真正對這個領域充滿熱情的人,期待能夠看到自己把這個東西做出來、並且覺得有成就感的人,才能夠克服這份煎熬。”


在快速演化的具身智能領域,研究者需要面對複雜系統帶來的不確定性。算法在一個場景中表現良好,換一個位置或環境後可能完全失效;不同批次的數據可能帶來截然不同的訓練結果;許多問題缺乏現成答案,需要從頭推導和驗證。


爲了保持學習效率,王子爲在實驗室推動“論文快講會”,讓團隊成員每週快速總結新的研究進展,並相互討論。他認爲,在一個知識迭代迅速的領域,團隊式學習能更好地保持對前沿的敏感。


在應用層面,他的團隊也在與製造行業合作,包括汽車、飛機維保、物流等場景,希望在真實工業環境中採集到更高質量的數據,爲未來的機器人模型打下基礎。


具身智能仍是一個不斷髮展的領域,從“知道”到“做到”之間仍有距離。研究者在其中要面對工程複雜度、物理系統的不確定性,以及長期投入的要求。通往可用的通用機器人系統,仍需要時間、耐心和持續不斷的跨學科合作。

Scroll to Top