從"看得見"到"能幹活",機器人的下一步是擁有觸覺

由 DeepTech深科技 發佈於 科技

'26-03-01



在強光環境下拿起一個玻璃杯,這個動作對人類來說幾近本能,但對機器人而言,“看到玻璃杯”和“拿起玻璃杯”的過程卻充滿挑戰。


因爲玻璃過於乾淨透明,即便是人類或者動物,不仔細辨認有時也會一頭撞上去。對依賴視覺感知的機器人來說,這類物體更是難以辨別。透明材質帶來的透射與折射、強光環境下的反射與局部過曝,都會干擾視覺系統對物體邊界、位置和姿態的識別與定位。


更大的考驗還在觸碰的瞬間。抓取過程中,機器人必須實現精確的力控:既要施加足夠的握持力防止滑落,又要避免用力過大而壓碎脆弱的玻璃。也就是說,強光下抓起玻璃杯的簡單動作,不僅是視覺問題,更是感知與物理交互能力的綜合挑戰。


這暴露了當下具身智能技術落地的一大瓶頸:機器人或許已經能“看得見”,但卻“摸不準”。


類似的例子還有在插拔精密接頭、抓取易碎物品等操作場景中,僅依靠視覺的機器人仍然表現不佳。一方面,當機器人手指與物體接觸後,物體被遮擋,無法觀測接觸面的狀態變化;另一方面,視覺系統難以獲取物體的材質、軟硬度、滑移趨勢等關鍵物理信息,而這些信息對於實現穩定、精準的操作至關重要。


因此,業內已有共識:要讓機器人真正“能幹活”,必須在視覺之外補齊另一項關鍵能力——觸覺感知。通過爲機器人配備高分辨率的觸覺傳感器,使其在接觸物體時實時獲取力度、紋理、形變等多模態信息,才能讓具身智能構建起“看見-觸摸-調整”的完整操作閉環。


走在這條路上的其中一員,就是“戴盟機器人”。


這家初創公司孵化於香港科技大學的研究團隊,由港科大機器人研究院創始院長王煜教授與其學生段江譁博士聯合創辦;以視觸覺爲技術核心,致力於以觸覺與靈巧操作智能推動機器人走向通用。創立不到兩年,戴盟機器人已連續完成多輪融資,累計金額達數億元人民幣,刷新了觸覺傳感領域天使輪融資的最高紀錄。


“觸覺感知正從可選能力走向智能標配,直接決定機器人能不能幹活、能不能幹好活。”段江譁告訴 DeepTech,“今年,具身智能將正式告別炫技,進入以工程能力和商業落地爲唯一檢驗標準的實戰階段。誰能先完成從物理世界數據感知、採集、學習到商業落地的閉環,誰就有機會定義下一階段的行業格局。”


那麼,在即將到來的實戰階段,視觸覺傳感器作爲“具身智能上游的上游”前景如何?在純視覺技術不斷進步的背景下,觸覺感知的價值又是否會被削弱?


帶着這些問題,我們與戴盟機器人 CEO 段江譁進行了一次深入對話。


以下是對話內容,有所增刪,但未更改原意。


DeepTech:爲什麼當初戴盟機器人決定切入觸覺感知這一方向?


段江譁:我和聯合創始人王煜教授此前長期從事機器人操作(robotics manipulation)研究。在實際操作中,我們發現許多對人類而言非常簡單的任務:比如打一個蝴蝶結、用勺子舀出容器中的物體等動作,對機器人卻極具挑戰。


這背後根本原因在於,僅靠視覺無法解決接觸後的狀態感知問題。一旦夾爪與物體接觸,視覺常被遮擋,而傳統機器人又缺乏有效的觸覺反饋,導致操作失敗率很高。因此我們意識到,要真正提升機器人的精細操作能力,除了視覺提供的位置和姿態信息外,還必須引入高信息密度的觸覺感知,尤其是在接觸發生後的實時反饋。


DeepTech:與傳統的壓阻式或電容式觸覺傳感器相比,你們所採用的技術路線核心優勢體現在哪裏?


段江譁:研究顯示,人類單個手指表面分佈着約 1,800 至 2,500 個機械感受器,構成了極高密度的感知網絡。更重要的是,人手在操作中能同時獲取多達 12 種模態的觸覺信息,包括紋理、輪廓、硬度、接觸力大小等。這兩個關鍵指標——高分辨率(每指數千感知點)和多模態感知能力,成爲我們評估技術路線的核心標準。


而在我們剛開始研究的時候,市面上幾乎所有商用觸覺傳感器都無法同時滿足這兩點。傳統陣列式傳感器受限於物理佈線:要在幾平方釐米的手指面積內集成上千個傳感點,不僅佈線極其複雜,而且連線越多,越容易在反覆接觸中斷裂,導致可靠性差、成本高、難以量產。


於是我們決定迴歸第一性原理:什麼樣的物理機制能同時實現高分辨率、多模態、高耐用性和低成本?


最終,我們選擇了視觸覺(vision-based tactile sensing)路線。這種方案不依賴密集佈線的電極陣列,而是通過光學成像捕捉接觸面硅膠層的形變圖像,再結合算法解算出多種觸覺模態。理論上,其分辨率僅受限於相機像素,可輕鬆超越人類指尖的感知密度;由於沒有易損電路,壽命可達數百萬次操作循環,遠高於傳統方案。


DeepTech:目前這套觸覺系統所實現的感知能力具體能支持機器人完成哪些高精度任務?能否舉一些實際的應用場景或例子?


段江譁:首先需要澄清一個常見誤解:機器人的任務精度,並不完全由某一個傳感器的精度所決定。用一個簡單的例子來理解,把一瓶水遞到手裏,你未必能準確說出它具體重多少克,誤差可能很大;但這並不妨礙你輕鬆擰開瓶蓋、用鑰匙開門,甚至完成更精細的動作。人類之所以能做到,是因爲我們的動作並不是依賴“絕對測量值”,而是依賴不斷的感知反饋與協調配合。


機器人也是一樣。真正決定任務效果的,是整個系統的協同能力:機械結構的穩定性、運動控制的精度、視覺識別與定位的準確性、整機標定的一致性,以及算法的實時調整能力,缺一不可。


在這個體系中,觸覺並不是單獨“決定最終精度”的那個因素,但它承擔着關鍵角色,爲系統提供實時、靈敏的接觸反饋。當機器人真正“碰到”物體時,觸覺能及時告訴它力是否過大、是否發生滑動、是否需要微調,從而讓整個閉環控制更加穩定、更加細膩。


具體到我們的傳感器,它有兩項尤爲突出的核心性能:力感知靈敏度和空間分辨率。它可以感知最小 0.01 牛的力,僅 1 克力的微小接觸就能被識別。空間分辨能力則達到 0.01 毫米(10 微米),兩個微小凸起之間哪怕相距只有 10 微米,傳感器也能將它們區分開。這比人類手指尖的分辨率高出了約 300 倍。成年人指尖的空間分辨率通常爲 2-4 毫米,比如紙幣上盲文標記的間距通常設計在 3 毫米以上,正是出於對人手指尖分辨率的考慮。


傳感器的高靈敏度與高分辨率,不僅帶來了更精細的觸覺成像能力,也爲微結構識別、精密裝配和複雜接觸分析提供了更大的技術空間。


DeepTech:這種超細粒度的感知能力,在實際應用中能帶來哪些具體價值?


段江譁:首先是精密裝配。比如在插針、對準孔位或擰微型螺絲時,哪怕出現極其微弱的“卡頓”或阻力變化(可能只有幾毫牛的差異),系統也能立即捕捉。這使得機器人可以在不依賴視覺的情況下,自主調整姿態或力度,避免損壞零件或裝配失敗。


其次是表面質量檢測。比如經驗豐富的老師傅常通過手摸判斷零件表面是否平整、有無細微毛刺或加工瑕疵。我們的觸覺系統同樣能實現這一點,不僅能識別宏觀缺陷,還能感知亞毫米級的紋理變化、粗糙度差異,甚至材料軟硬程度。這對高端製造、質檢自動化非常有價值。


還有材質的辨識與分類。比如在柔性物體操作中,機器人可通過觸覺區分皮革、織物、硅膠等不同材質。這在服裝分揀、奢侈品鑑定或人機協作場景中尤爲重要。用戶常說“手感不一樣”,背後其實是觸覺多模態信息(如彈性、摩擦係數、紋理)的綜合判斷。


總的來說,我們的觸覺系統並非追求“絕對測量精度”,而是提供足夠細膩、穩定且多維的感知輸入,讓機器人具備類似人類“手感”的直覺式操作能力。這纔是實現真正靈巧操作的關鍵。


DeepTech:既然已經有了視觸覺技術基礎,爲什麼戴盟機器人沒有選擇直接做靈巧手?


段江譁:在人類的進化體系中,手之所以成爲最具代表性的操作器官,並不僅僅因爲其結構形態,更在於觸覺所構建的精細反饋能力。無論是五指靈巧手還是二指夾爪,本質上都只是執行終端;真正決定操作質量的,是感知系統,尤其是觸覺。


在機器人領域亦然。結構設計可以不斷優化,但如果缺乏高質量觸覺反饋,精細操作就難以穩定實現。正因如此,在具身智能的發展過程中,觸覺長期被視爲關鍵短板之一。當前觸覺技術被列入國家 35 項“卡脖子”核心技術清單,與算力芯片並列產業兩大硬件瓶頸。戴盟選擇專注觸覺賽道,既是對自身技術長板的聚焦,更是對行業短板的戰略性補位。


這種路徑本質上是一種技術槓桿策略。如果只做一款機械手,所能覆蓋的應用場景是有限的;但若爲數十甚至上百家企業提供觸覺解決方案,觸覺能力就可以嵌入到成千上萬臺設備中,進入更廣泛的工業、服務和特種等場景。相比單一產品,這種“底層能力賦能”模式所釋放的產業影響力與商業價值更具乘數效應。


從更宏觀的角度看,具身智能不會由單一企業垂直整合完成,而更可能沿着專業化分工的方向演進。算力、傳感、執行機構、整機系統與應用場景將形成清晰的生態。我們希望在這一體系中,牢牢佔據“觸覺底座”的關鍵生態位,成爲不可替代的基礎能力提供者。


基於這一判斷,今年我們將以觸覺數據爲核心切入口,構建從數據採集、模型訓練到應用部署的完整閉環體系。通過持續沉澱觸覺數據資產與算法能力,爲具身智能提供穩定、可擴展的觸覺基礎設施,讓機器人在真實世界中的操作能力向通用化邁進。


DeepTech:相比目前主流的三色光方案,戴盟堅持採用單色光路線,其底層邏輯是什麼?


段江譁:在我們創業之前,國際上最知名的方案來自 MIT 孵化的 GelSight 公司。他們用紅、綠、藍三色光照射硅膠表面,配合彩色相機捕捉接觸時微米級的光場變化,從而還原接觸區域的形貌和力學信息。這套方法在學術研究和紋理檢測中表現不錯,但十多年來始終沒能大規模落地工業場景。


而我們的系統用單色光源提供均勻照明,真正承載信息的是硅膠下方預設的一套高對比度編碼圖案。當物體接觸導致硅膠形變時,圖案隨之扭曲,黑白相機高速捕捉這一變化,再通過算法解算出力、紋理、滑動等多維感知信號。


這個看似簡單的改變,實際上繞開了三色光方案的多個硬傷。比如,RGB 系統出廠時需要精密標定三種光源的一致性,但 LED 在長期使用中光強會漂移,導致光場失配,時間一長,力估計或紋理重建就會不準,往往得重新校準。而單色光沒有顏色通道差異,光場極其穩定,幾乎不需要維護標定。


同時,彩色相機數據量大、算力需求高,典型幀率只有 20–30 Hz,還容易發熱。我們用黑白相機,不僅數據量大幅降低,處理速度也能提升到 120 Hz 以上,滿足機器人實時控制的需求,整機功耗和溫升也顯著下降。


更重要的是工程可靠性。我們在硅膠材料和結構上做了大量迭代,把傳感器壽命從傳統方案的約 1,000 次循環提升到 500 萬次以上。加上單色光源和黑白相機都是成熟、低成本的工業元器件,整套系統更容易量產、更耐惡劣環境。


在性能上,我們的有效分辨率達到 384×288,無論正壓力還是切向力的感知精度,都明顯優於現有三色光方案。


DeepTech:剛纔提到硅膠材料,很多人第一反應可能是:它會不會容易磨損或老化?你們有沒有做過完整的生命週期測試?維護成本是否過高?


段江譁:對觸覺傳感器而言,無論採用何種技術路線,使用壽命始終是行業共性難題。設備一旦故障,實驗即刻中斷,直接延誤研發進度。所以耐用性不是可選項,而是底線。


因此,我們在產品定義階段就建立了非常嚴苛的壽命測試體系。目前戴盟的視觸覺傳感器是全球首個通過 500 萬次按壓循環測試並獲得認證的產品。


我們也曾有過“讓軟體永遠不壞”的想法,但很快意識到,這在物理世界幾乎不可能實現。材料總會老化,形變累積到一定程度,性能就會隨之衰減。於是我們調整了思路,確保在預期壽命內穩定可靠,超出壽命後的更換足夠簡單、足夠便宜。


實際上產品最易磨損的就是外層的硅膠接觸面。我們把它設計成標準化、可快速拆卸的模塊,成本很低——就像汽車的雨刮器,不用換整個電機,只換前面的膠條;也像醫用注射器,針頭用完就換,主體重複使用。


這個接觸層由硅膠和內部編碼圖案構成,製造工藝成熟,單件成本可控。更換時只需擰下幾顆螺絲,裝上新模塊即可,無需重新標定或複雜調試,因爲圖案是一致的,系統能自動識別。


在實際部署中,客戶通常根據使用頻率制定維護計劃。很多工廠本來就有定期停機檢修的節奏,把觸覺模塊更換納入其中,幾乎不增加額外負擔。


DeepTech:對話開始我們提到純視覺方案,現在也有不少團隊在提升它的頻率和精度。如果未來純視覺在這些方面取得突破,觸覺傳感器是否還有存在的必要?你們怎麼看?


段江譁:在人類的感知系統裏,視覺和觸覺從來不是互相替代的關係,而是互補的。舉個最簡單的例子:你從褲兜裏掏手機或鑰匙,根本不需要低頭看——手一伸進去,靠觸覺就能準確找到並拿出來。這是因爲口袋是封閉空間,視覺完全失效,只能依賴觸覺完成操作。


機器人也一樣。有些任務沒有觸覺就根本做不了,比如插拔精密接頭、對齊卡扣、擰緊微小螺絲——這些動作中,接觸力的細微變化決定了成敗,而視覺無法提供這種反饋。


還有一些任務,沒有觸覺也能做,但效率很低。比如折衣服:現在有些機器人能折,但動作慢、容易掉。因爲它們只能等衣服真的滑落了,用攝像頭看到後才反應。而有了觸覺,系統能在衣服“即將滑落”的瞬間就感知到並調整夾力,效率和成功率都會大幅提升。所以,觸覺不是“有可無的補充”,而是在視覺受限、需要精細力控、或追求高效可靠操作的場景中,不可或缺的能力。


DeepTech:您是否認爲未來還可能出現更好的技術?


段江譁:技術演進肯定沒有終局,只能說商業落地存在“最優解”。


從當前的工程實踐來看,視觸覺傳感器(Vision-based Tactile Sensor)無疑是綜合優勢最明顯的路徑。它處於高信息密度、耐用性與量產成本之間的最佳平衡點,是目前構建觸覺智能、推動機器人從“演示”走向“實幹”的首選方案。當然,我們也要始終對前沿技術保持敏銳的探索,但在可預見的週期內,視觸覺技術的工程優勢我相信難以被撼動。


更重要的是,今年具身智能行業競爭邏輯正在發生質變。不再是單純比拼誰的技術點更“新”,而是比拼誰能構建完整、可複製的體系能力。觸覺感知正從過去的“錦上添花”變爲“智能標配”,它直接決定了機器人“能不能幹活”以及“能不能幹好活”。


因此,真正的勝負已不在於單一產品的參數之爭,而在於誰能率先跑通“物理世界數據感知—採集—學習—商業落地”的完整閉環。誰先完成這一閉環,誰就有機會定義下一階段的行業格局。

Scroll to Top