識別深度僞造,AI與人類各有所長

由 科技導報 發佈於 科技

'26-03-06

來源:參考消息編譯:蘇佳維

據西班牙《趣味》月刊網站2月28日報道,在像素可塑、面孔合成的時代,模糊真僞之間邊界的容易程度令人不安。所謂的深度僞造,也就是通過人工智能(AI)生成的以驚人準確度模仿真人的圖像和視頻,已經不是什麼技術奧祕,而是一個可能改變公衆感知、評價和決策的工具。在這種變幻莫測的情況下,有一個問題很重要:誰更擅長區別真僞,是人類還是機器?

圖片來源:攝圖網

美國佛羅里達大學一個跨學科團隊針對這個問題的研究結果既具啓發性又具反直覺色彩。根據這項發表在《認知研究:原則與啓示》上的研究,算法在檢測靜態照片中僞造面孔的表現大大強過人類。但在同樣的面孔開始在視頻裏說話和打手勢時,優勢便易主了。突然之間,人眼就佔了上風。

在靜態圖像領域,人工智能展示出壓倒性的識別效率。在分辨人工生成面孔的照片時,檢測算法的準確率高達97%。相比這種近乎手術級精度的準確率,人類參與者區分真僞的準確率僅相當於隨機猜測。

該研究的設計很細緻。研究人員收集和生成了數百個圖像和視頻,其中一些是真實的,其他則是通過深度僞造技術創造的。數千名參與者評估了這些素材的真實性,與此同時,同樣的文件也交給專門檢測僞造的算法。對比很明顯:針對靜態圖像,機器彷彿擁有一個隱形的放大鏡,能夠檢測人類直覺察覺不到的瑕疵。

這種技術優勢表明,至少在照片領域,自動化工具能夠成爲對抗視覺虛假信息的關鍵助力。算法分析微觀特徵(不連貫的陰影、不合邏輯的對稱、數字僞影)的能力大大超越人類的有意識感知。

然而,這種優勢在場景不再靜止不動後,就顯現出脆弱性。

在圖像活動起來、人物說出話語的視頻中,算法的準確率下降到與隨機選擇相同。相反,人類參與者正確識別了近三分之二的視頻,無論視頻真僞。

爲什麼會出現這種角色轉換?研究論文的作者們認爲,動態帶來了更豐富的背景。一段視頻涉及微表情、語速、停頓、手勢與聲音的微妙同步。人腦在進化中受到訓練,以解析複雜的社交信號,它似乎能抓住現有的算法模型無法以同樣的細膩程度加以解讀的不協調之處。

此外,該研究還發現了人類表現中有趣的細微差別。分析思維能力較強、數字素養較高的人表現出較強的識別僞造視頻的能力。相反,自認心情較好的人往往出錯較多,這或許是因爲積極的情緒有助於增強信任感和削弱批判性懷疑能力。

不過,作者們提醒,這些測試是在受控條件下進行的,而且測試內容是有特定類型的。現實的數字生態系統充滿了各種刺激和模糊不清的背景,要複雜得多。不論是檢測技術還是僞造技術,都在以難以預料的高速度發展。

除了人類與機器的對比,該研究還提出一個根本性問題:人類集體決策的穩定性取決於信息的真實性。從政治競選到國際衝突等諸多領域,僞造視頻的流傳可能在幾個小時內影響大衆的認知。

研究人員強調,不是每個人都必須成爲數字化鑑別專家。但是,培養警惕的態度確實很重要:質疑眼之所見、覈對多個信源,並且在將一張圖像視作鐵證之前尋找更多證據。

Scroll to Top