Meta新型腕帶實現“意念控制”,用非侵入神經接口實現手勢操控

由 DeepTech深科技 發佈於 科技

'25-07-24

想象一下,你無需觸碰任何設備,只需一個微小的手腕動作,憑空比劃幾下,就能與身邊的電腦、手機、智能眼鏡無縫交互。


Meta 公司的 Reality Labs,在最新發表於《自然》(Nature)雜誌的論文中,帶來了一項新成果:一種通用的非侵入性神經運動接口,與腕帶結合後,就能讓這種“意念控制”成爲現實。



圖 | 論文標題(來源:Meta 論文)


長期以來,人類在追求更高效、更直觀的計算機輸入方式上從未止步。然而,無論是鍵盤、鼠標還是觸摸屏,都不可避免地需要用戶與物理設備進行直接互動,這在移動場景下往往顯得笨拙不便。


而依賴攝像頭或慣性傳感器的手勢系統,則容易受制於遮擋或光線不足等環境因素。


爲了破除這些限制,直接從人體讀取信號的腦機接口(brain–computer interfaces)和神經運動接口(neuromotor interfaces)成爲了熱門研究領域。


Meta 團隊此次將目光投向了一種非侵入性神經運動接口:基於表面肌電圖(sEMG,surface electromyography)的技術。


簡單來說,就是通過讀取肌肉產生的電信號來理解人體的運動指令。



圖 | SEMG 腕帶系統示意圖(來源:Meta)


Meta 早在多年前就開始着手研究這項技術。2021 年,該公司組建了一個團隊,其中包括論文作者之一托馬斯·里爾登(Thomas Reardon)——他於 2019 年加入 Reality Labs,擔任神經運動界面主管,主導開發了一款基於肌電圖的手勢控制裝置原型。


這些肌電信號,實際上是運動單位動作電位(MUAPs,Motor Unit Action Potentials)的總和,它們就像是中央神經系統發出的微電流指令,可以透過皮膚,爲我們展現大腦如何控制肌肉。


與腦電圖相比,SEMG 信號具有更高的信噪比,這意味着它能更清晰地捕捉到肌肉的微弱活動,從而實現實時的單次手勢解碼。


同時,SEMG 信號不受遮擋、光照不足或微小動作的困擾,天然適用於人機交互應用。



圖 | SEMG 系統不需要單獨校準即可將信號準確地轉換爲命令(來源:Meta)


基於此,Meta 研究團隊開發並部署了一款非侵入式硬件,像腕帶一樣的 SEMG 研究設備(SEMG-RD),用於在手腕處記錄 SEMG 信號。


之所以選擇手腕作爲佩戴位置,是因爲人類主要通過手部與世界互動,且手腕能廣泛覆蓋手部、腕部和前臂肌肉的 SEMG 信號。


腕帶是無線的,並能適應不同解剖結構和環境,僅需幾秒鐘即可完成佩戴或摘除。它通過藍牙傳輸數據,續航在 4 小時左右。


除了硬件設備,研究團隊還創建了一個可擴展的、大規模數據收集基礎設施。他們從數千名參與者那裏收集了大量的訓練數據,幫助他們開發出了能夠跨個體泛化的通用 SEMG 解碼模型。



圖 | 三種實驗任務(來源:Meta)


實驗設計中包含了三類核心計算機交互任務:一維連續導航(類似於激光筆控制)、離散手勢檢測(手指捏合、拇指輕掃)和手寫轉錄。參與者佩戴 SEMG 腕帶,並根據計算機屏幕上的提示執行相應的動作。


爲了將 SEMG 信號轉換爲計算機指令,研究人員架構並部署了基於深度神經網絡的解碼模型。


針對不同的任務,模型採用了不同的處理技術和網絡架構:腕部任務採用多變量功率頻率(MPF,Multivariate Power Frequency)特徵和長短期記憶(LSTM,Long Short-term Memory)層,離散手勢任務採用一維卷積層後接 LSTM 層,手寫任務採用 MPF 特徵和 Conformer 架構。


此外,研究團隊還開發了時間對齊算法,以解決提示標籤與實際手勢時間可能存在的偏差,從而提高模型訓練的精度。



圖 | SEMG 腕帶(來源:Meta)


Meta 團隊通過離線和在線(閉環)兩種方式對 SEMG 解碼模型的性能進行了評估。


離線評估數據顯示,SEMG-RD 平臺在手寫和手勢檢測任務中,對未參與訓練的測試參與者實現了超過 90% 的分類準確率。在腕部角度速度解碼任務中,誤差低於 13°s-1。


研究指出,單個參與者模型在跨會話和跨用戶泛化方面存在挑戰,同一參與者在不同會話間的模型性能隨着訓練數據的增加而改善。但跨參與者泛化能力仍然受限,即使增加訓練數據也僅能帶來輕微改善。


這突顯了採用大規模、多樣化數據集訓練通用模型的必要性。


模型性能顯示出與訓練數據量和模型規模的冪律關係,這與大型語言模型和視覺 Transformer 的研究發現一致。隨着訓練參與者數量的增加,所有任務的解碼錯誤率均呈現下降趨勢。


在線(閉環)評估數據則直接反映了模型作爲計算機接口的實際可行性。評估對象爲之前沒有 SEMG 解碼器使用經驗的初次用戶。



圖 | 三種閉環任務示意圖(來源:Meta)


在腕部連續控制任務中,用戶實現了每秒 0.66 個目標獲取的閉環中位數性能。在離散手勢任務中,系統實現了每秒 0.88 次手勢檢測的中位數性能。在手寫輸入功能上,用戶實現了每分鐘 20.9 個單詞(WPM,Words Per Minute)的中位數性能。


與傳統交互設備相比,如 MacBook 觸摸板的平均獲取時間爲 0.68 秒、任天堂 Joy-Con 遊戲控制器的中位數手勢完成率爲 1.45 次/秒、無筆手寫的速度爲 25.1 WPM,SEMG 解碼器的絕對性能目前仍有差距。


然而,該接口的優勢在於不依賴手持設備或外部儀器,這在特定使用場景下具有幾乎無法替代的價值。研究團隊還觀察到,參與者在實踐中會不斷進步,適當的指導和練習有助於用戶適應腕帶並提高任務表現。


進一步的模型個性化探索表明,即使在通用模型表現良好的情況下,通過短時間額外的個性化數據(例如 20 分鐘)微調模型,仍能進一步提升性能。


以手寫任務爲例,即使通用模型已經用 6400 名參與者的數據進行了訓練,但只要再加入短短 20 分鐘的個性化數據,就能讓中位數性能再提高 16%。


個性化對那些通用模型表現相對較差的參與者,帶來了更大的相對增益,有效解決了用戶性能的長尾效應。


爲了深入理解離散手勢解碼器神經網絡的內部工作機制,研究人員分析了其學習到的表示。網絡架構包含一個一維卷積層和三個循環 LSTM 層。


研究發現,第一層卷積層的濾波器在時空特徵上與肌肉 MUAPs 具有相似性。這表明模型在較低層次學習了與肌肉電生理活動相關的基礎模式。



圖 | SEMG 研究設備的系統架構、示意圖和解剖接口對照圖(來源:Meta)


進一步分析 LSTM 層的表示發現,隨着網絡深度的增加,手勢類別信息在表示空間中變得更加可分離,而與參與者身份、腕帶放置位置和手勢激發的 SEMG 功率等“干擾變量”相關的表示則逐漸解耦或保持不變。


這意味着網絡通過學習,逐漸將 SEMG 信號的表示塑造成對這些“干擾變量”更加不變的形式,從而提高了手勢識別的穩健性。


Meta 研究團隊指出,這項技術爲未來人機交互開啓了多種可能性。


首先,SEMG 解碼器能夠直接檢測手勢的力度,這是現有攝像頭或操縱桿控制無法實現的功能。未來用戶可能通過“意念”來控制設備的力度,例如通過輕微的肌肉收縮來微調音量,而通過更強的收縮則實現快速靜音。


其次,儘管目前研究主要展示了一維連續控制,但通過添加更多仿生映射,例如利用手腕的尺側/橈側偏離來控制垂直方向,實現多自由度聯合控制是完全可能的。


此外,SEMG-RD 平臺及其配套軟件,還可用於研究神經反饋對運動單位活動的影響,從而探索新穎的“人機共生”交互模式,甚至支持人們學習新的運動技能。


最後,在臨牀領域,這種只需最小肌肉活動而非特定動作的交互設計,有望爲那些運動能力受限、肌肉無力或失去肢體的人提供可行的交互方案,並促進有效的閉環神經康復範式的發展。


雖然該研究在解決 SEMG 系統長期面臨的泛化和校準問題上取得了進展,但仍存在侷限性和進步空間。


例如,與傳統的、成熟的人機交互方法相比,SEMG 系統的絕對性能較弱,學習曲線較爲陡峭。此外,該研究主要面對的是健康人羣,訓練結果能否泛化到行動不便人羣仍未可知。這或許會限制它在臨牀、無障礙方面的用途。


爲了更好地推動 SEMG 的相關研究,研究團隊公開了 1060 份來自 300 名參與者的 SEMG 記錄數據以及相關的代碼。


研究人員表示,他們未來的工作將關注用戶熟練度提升、模型優化(包括個性化)、後處理技術和硬件傳感性能的改進。


參考資料:

Kaifosh, P., Reardon, T.R. & CTRL-labs at Reality Labs. A generic non-invasive neuromotor interface for human-computer interaction. Nature (2025). https://doi.org/10.1038/s41586-025-09255-w

https://newatlas.com/wearables/meta-mouse-keyboard-bracelet-semg-rd/


運營/排版:何晨龍

Scroll to Top