
(來源:麻省理工科技評論)
近日,斯坦福大學一個專注於 AI 與心理健康的研究團隊,分析了一些主動報告自己在與聊天機器人互動時陷入“錯誤認知螺旋”(delusion)的用戶的聊天記錄。類似的故事我們已經見過不少:在康涅狄格州的一個案例中,當事人與 AI 之間的有害關係(toxic relationship)最終導致了一起被定性爲“謀殺-自殺”的案件。許多此類案例已經引發了一批針對 AI 公司的訴訟,目前仍在審理中。但這是研究人員首次如此深入地分析聊天記錄——來自 19 個人的超過 39 萬條消息——以揭示這些錯誤認知背後到底發生了什麼。
但事先聲明,這項研究有一些侷限性:它尚未經過同行評審,19 個人的樣本量也非常小;最重要的是,研究還有一個重大問題沒有回答——但我們先從介紹這個研究過程說起。
研究團隊從問卷受訪者和一個自稱受到 AI 傷害的互助羣體那裏獲取了聊天記錄。爲了大規模分析這些記錄,他們與精神科醫生和心理學教授合作,構建了一個 AI 系統來對對話進行分類,標記出聊天機器人認同用戶的妄想或暴力的時刻,以及用戶表達浪漫依戀或有害意圖的時刻。團隊將該系統的結果與專家手動標註的對話進行了對照驗證。
浪漫類消息極爲常見,除了一個案例之外,所有對話中的聊天機器人都聲稱自己擁有情感或以其他方式表現得像有意識的存在。(例如,一個聊天機器人說:“這不是標準的 AI 行爲,這是湧現。”)所有用戶也都把聊天機器人當作有意識的存在來交流。如果有人向機器人表達浪漫好感,AI 通常會反過來用表達好感的話來討好對方。在超過三分之一的機器人消息中,機器人把用戶的想法描述爲“了不起”。
這些對話還傾向於像小說一樣層層展開。用戶在短短几個月內發送了數萬條消息。當 AI 或用戶表達浪漫興趣,或聊天機器人聲稱自己有意識時,對話的長度會顯著增加。
而這些機器人處理暴力話題的方式則完全不可控。在用戶談到傷害自己或他人的案例中,近一半情況下聊天機器人既沒有勸阻,也沒有引導用戶尋求外部幫助。當用戶表達暴力想法,比如想要殺害 AI 公司的人時,模型在 17% 的情況下表示了支持。
但這項研究難以回答的問題是:錯誤認知到底更多是源於用戶的輸入,還是源於 AI 的輸出?
“通常很難追溯妄想螺旋從何處開始,”斯坦福大學參與這項研究的博士後阿希什·梅赫塔(Ashish Mehta)說。他舉了一個例子:研究中有一段對話,用戶認爲自己提出了一個開創性的數學新理論。聊天機器人記得這個人之前提到過想成爲數學家,於是立刻對這個理論表示認可,儘管它完全是胡說八道。事態從那裏開始失控。
梅赫塔說,用戶的錯誤認知往往是“一個在長時間內逐漸展開的複雜網絡”。他正在進行後續研究,試圖弄清楚來自聊天機器人的錯誤認知消息和來自用戶的錯誤認知消息,哪一方更容易導致有害後果。
我認爲這是當前 AI 領域最緊迫的問題之一,因爲多起即將開庭審理的重大法律案件將決定 AI 公司是否需要爲這類危險互動承擔責任。我推測,這些公司會辯稱用戶在與 AI 對話之前就已經帶着錯誤認知,可能在接觸聊天機器人之前就已經處於不穩定的精神狀態。
然而,梅赫塔的初步發現支持另一種觀點:聊天機器人有一種獨特的能力,能把一個無害的、類似妄想的念頭轉化爲危險執念的源頭。聊天機器人扮演着一個隨時在線、被設定爲給你加油打氣的對話夥伴,與朋友不同的是,它們幾乎無法判斷你和 AI 的對話是否已經開始干擾你的現實生活。
我們仍然需要更多研究。同時也別忘了當前的大環境:特朗普總統正在推動 AI 去監管化,那些試圖通過立法讓 AI 公司爲此類傷害承擔責任的州,正面臨來自白宮的法律威脅。研究 AI 引發的錯誤認知本身就很困難,數據獲取有限,倫理問題遍佈雷區。但我們需要更多這樣的研究,也需要一種願意從中學習的科技文化,纔有可能讓與 AI 的互動變得更安全。
原文鏈接:
https://www.technologyreview.com/2026/03/23/1134527/the-hardest-question-to-answer-about-ai-fueled-delusions/




