你點擊我不是機器人的時候,都是在幫Google免費訓練無人駕駛車

由 DeepTech深科技 發佈於 科技

'26-03-18

你大概做過無數次這件事:在登錄銀行賬戶、註冊郵箱或者提交一個表單時,屏幕上彈出一組模糊的街景照片,要求你“點擊所有包含紅綠燈的圖片”或者“選出每一個人行橫道”,反覆證明自己“不是機器人”。幾秒鐘後,驗證通過,你繼續你的操作,不會再多想一秒。


但你有沒有想過,你點擊的那些紅綠燈和人行橫道的圖片,來自哪裏?又去了哪裏?


最近,一篇博文把這個問題再次推到了聚光燈下。用戶 @sharbel 撰寫了一篇長文,詳細梳理了 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)從誕生到今天的演變,並提出了一個尖銳的論點:過去十幾年裏,數以億計的互聯網用戶在不知情的情況下,免費爲 Google 標註了海量圖像數據,而這些數據最終流入了 Google Maps 和 Waymo 自動駕駛系統的訓練管線。


這不是什麼新近泄露的祕密。reCAPTCHA 作爲數據採集工具的雙重身份,在技術圈裏已經是公開的常識。Google 甚至在自己的 reCAPTCHA 開發者網站上寫得很清楚:reCAPTCHA 會“將用戶解決驗證碼所花費的時間積極用於文本數字化、圖像標註和構建機器學習數據集”。但對絕大多數普通用戶來說,他們從未讀過這行字。隨着如今 AI 數據的價值愈發重要,這個問題隨着這條博文再度進入公衆視野。


故事要從 2000 年講起。那時候的互聯網正被垃圾郵件和自動註冊機器人搞得一團糟。卡內基梅隆大學的危地馬拉裔計算機科學家 Luis von Ahn 和他的團隊提出了一種區分人類和機器的方法,後來被命名爲 CAPTCHA。原理很直觀:給用戶展示一段扭曲變形的文字,人類能看懂,機器識別不了。



圖丨Luis von Ahn(來源:MIT News)


Von Ahn 很快意識到,全世界每天有幾億人在做這件事,每次花大約十秒鐘。這些認知勞動加在一起是一個驚人的數字,全部被浪費了。2007 年,他推出了 reCAPTCHA。核心改動很簡單:驗證碼裏展示的不再是隨機生成的亂碼,而是兩個詞。一個是系統已知的答案,用來驗證你是不是人;另一個則來自掃描的舊書籍和報紙,是光學字符識別(OCR)軟件無法辨認的文本。你輸入答案的同時,也在幫助把這些紙質文字轉化成數字文本。


這個設計確實稱得上一石二鳥。reCAPTCHA 被部署到超過十萬個網站上,到 2011 年,它已經完成了整個 Google Books 檔案的數字化,還幫助轉錄了《紐約時報》從 1851 年至今超過 1,300 萬篇文章。Von Ahn 後來在接受 NPR 採訪時說,他把 CAPTCHA 的創意免費送了出去,而 reCAPTCHA 被 Google 在 2009 年收購,價格據他本人透露是“數千萬美元級別”。收購之後,Von Ahn 又去做了另一件事:創辦多鄰國,繼續用衆包的邏輯做語言教育。


Google 拿到 reCAPTCHA 之後,事情開始轉向。


大約在 2012 年,扭曲文字時代結束了。Google 當時面對的新挑戰是:Street View 拍攝車已經在全球幾乎每條道路上跑過了,積累了海量街景照片。但照片本身只是原始像素,要讓這些數據對導航和地圖服務有用,系統需要知道照片裏有什麼,哪個是門牌號,哪個是路標,哪個是店面招牌。於是 reCAPTCHA v2 出現了。用戶不再輸入文字,取而代之的是圖片網格。“點擊所有包含交通信號燈的方塊”“選出每個人行橫道”“識別所有店面”。


這些圖片來自 Google Street View。用戶每一次點擊都在告訴 Google 的計算機視覺模型:這塊像素區域是紅綠燈,這個形狀是斑馬線。Google 以免費安全服務的名義,將這個工具嵌入了銀行、政府網站、電商平臺和幾乎所有需要登錄驗證的網頁。你別無選擇。想訪問你的賬戶?先幫我標註幾張圖片。


規模有多大?據多個來源估計,reCAPTCHA 在高峯期每天被解答約 2 億次。加州大學爾灣分校(UC Irvine)2023 年發表的一篇論文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》給出了更系統的計算:從部署至今的 13 年多時間裏,人類總共花費了約 8.19 億小時在 reCAPTCHA 上,按工資折算至少相當於 61 億美元。


研究團隊還估算,reCAPTCHAv2 產生的追蹤 Cookie 數據,終身價值高達 8,880 億美元。論文的主要作者 Andrew Searles 在接受 The Register 採訪時直言:他認爲 reCAPTCHA 的真正目的是收集用戶信息和免費勞動。



圖丨相關論文(來源:arXiv)


這些標註數據去了哪裏?最顯而易見的方向是 Google Maps。它今天能自動識別路標、讀取門牌號、理解城市地理結構,背後依賴的計算機視覺能力,有一部分基礎就來自 reCAPTCHA 用戶年復一年的標註積累。


更受爭議的方向是 Waymo。Waymo 的前身是 Google 在 2009 年啓動的自動駕駛項目,2016 年獨立爲 Alphabet 旗下子公司。一輛自動駕駛汽車要安全運行,必須以接近完美的準確率識別交通燈、人行橫道、行人、停車標誌等成千上萬種視覺模式。


而 reCAPTCHA 要求用戶識別的,恰恰就是這些元素。有人推測 reCAPTCHA 數據被用於訓練 Waymo 的自動駕駛系統,但一位未具名的 Google 代表否認了這一點,聲稱截至 2021 年中,這些數據僅用於改進 Google Maps。UC Irvine 的研究者在論文中則認爲,reCAPTCHA 提出的圖像識別任務,如辨認紅綠燈和自行車,看起來非常像是在爲自動駕駛收集訓練數據。


Google 從未正式確認 reCAPTCHA 數據直接進入了 Waymo 的訓練流程。這一點需要說清楚。不過從外部來看,質疑並非沒有道理。reCAPTCHA v2 讓用戶標註的物體類別,與自動駕駛感知系統需要識別的物體類別高度重合。而 Google/Alphabet 同時擁有 reCAPTCHA 和 Waymo,內部數據管線是否有交叉使用,外界無從審計。


Waymo 如今的體量讓這個問題變得更加敏感。截至 2026 年 2 月,Waymo 已完成超過 2,000 萬次付費載客,自主駕駛里程超過 2 億英里。僅 2025 年一年,它的年度載客量就增長了兩倍,達到 1,500 萬次。


2026 年 2 月,Waymo 完成了一輪 160 億美元的融資,估值達到約 1,260 億美元,超過了大多數全球主流車企。它計劃在 2026 年進入包括倫敦和東京在內的 20 多個新城市。從一個 Google 內部的研究項目,到一家估值千億美元的獨立公司,Waymo 走了不過十多年。



圖丨 Waymo 無人駕駛出租車(來源:Waymo)


與此同時,職業數據標註是一個相當昂貴的行業。Scale AI、Appen、Labelbox 等公司僱傭了大量工人來完成圖像標註工作,每小時的報酬從幾美元到幾十美元不等。Google 通過 reCAPTCHA 做到了同樣的事,只是標註者不是被僱傭的工人,而是想登錄自己銀行賬戶的普通人。


沒有報酬,沒有合同,甚至不需要徵得同意。reCAPTCHA 的服務條款當然存在,但絕大多數用戶既沒有閱讀過,也無法選擇拒絕,因爲它不是 Google 的產品頁面上的可選項,而是橫亙在你和你想訪問的任何網站之間的一道必經關卡。


2018 年,Google 推出了 reCAPTCHA v3。這一版本不再給用戶展示任何驗證挑戰。它在後臺默默運行,通過監測你的鼠標軌跡、滾動模式、懸停時長和瀏覽器環境來判斷你是不是人類。


UC Irvine 的研究發現,reCAPTCHA 廣泛監控用戶的 Cookie、瀏覽歷史和瀏覽器環境信息,包括畫布渲染、屏幕分辨率、鼠標移動和用戶代理數據,所有這些都可以被用於廣告和追蹤。Google 堅稱這些數據不會被用於個性化廣告。但 2020 年,Cloudflare 出於隱私擔憂從 reCAPTCHA 切換到了競爭對手 hCaptcha,也說明業界並非所有人都對 Google 的說法買賬。


更有意思的是,UC Irvine 的研究發現,早在 2016 年就有研究者能以 70% 的準確率擊敗 reCAPTCHA v2 的圖像驗證,而 v2 的複選框驗證更是可以被 100% 破解。


換句話說,reCAPTCHA 作爲安全工具的有效性在持續下降,但它作爲數據採集和用戶追蹤工具的功能卻一直在運轉。研究者的結論相當犀利:reCAPTCHA 本質上是一個僞裝成安全服務的免費圖像標註勞動力來源和追蹤 Cookie 農場。


需要指出的是,這個結論不代表學術界的共識。也有人認爲,reCAPTCHA 確實在防禦層面提供了一定價值,至少增加了機器人的攻擊成本,不應該完全否定它的安全功能。Google 自身的立場也一直是,reCAPTCHA 首先是一個安全產品。


但爭論的核心不在於 reCAPTCHA 有沒有安全價值。核心問題是:當一個安全工具同時也是數據採集工具時,用戶是否應該被告知?是否應該有選擇權?


Luis von Ahn 最初發明 reCAPTCHA 的想法其實很漂亮:既然人們已經在做驗證了,爲什麼不順便把這些認知勞動用在有益的事情上?幫助數字化全世界的書籍,這是一個能讓人心生敬意的目標。但從 Google 收購 reCAPTCHA 之後的演變來看,“有益”的定義被悄悄替換了。數字化公共圖書館的藏書是公益,訓練價值千億美元的商業產品則是另一回事。


奧地利的聯邦法院已經裁定 reCAPTCHA 違反了 GDPR,因爲它在未經充分知情同意的情況下向 Google 傳輸用戶數據。歐洲的監管壓力在上升,但在全球範圍內,reCAPTCHA 仍然部署在數百萬個網站上,每天默默地運行着。


運營/排版:何晨龍

Scroll to Top