你點擊我不是機器人的時候，都是在幫Google免費訓練無人駕駛車-科技-今日熱點-聚焦看點

你大概做過無數次這件事：在登錄銀行賬戶、註冊郵箱或者提交一個表單時，屏幕上彈出一組模糊的街景照片，要求你“點擊所有包含紅綠燈的圖片”或者“選出每一個人行橫道”，反覆證明自己“不是機器人”。幾秒鐘後，驗證通過，你繼續你的操作，不會再多想一秒。

但你有沒有想過，你點擊的那些紅綠燈和人行橫道的圖片，來自哪裏？又去了哪裏？

最近，一篇博文把這個問題再次推到了聚光燈下。用戶 @sharbel 撰寫了一篇長文，詳細梳理了 reCAPTCHA（re-Completely Automated Public Turing test to tell Computers and Humans Apart）從誕生到今天的演變，並提出了一個尖銳的論點：過去十幾年裏，數以億計的互聯網用戶在不知情的情況下，免費爲 Google 標註了海量圖像數據，而這些數據最終流入了 Google Maps 和 Waymo 自動駕駛系統的訓練管線。

這不是什麼新近泄露的祕密。reCAPTCHA 作爲數據採集工具的雙重身份，在技術圈裏已經是公開的常識。Google 甚至在自己的 reCAPTCHA 開發者網站上寫得很清楚：reCAPTCHA 會“將用戶解決驗證碼所花費的時間積極用於文本數字化、圖像標註和構建機器學習數據集”。但對絕大多數普通用戶來說，他們從未讀過這行字。隨着如今 AI 數據的價值愈發重要，這個問題隨着這條博文再度進入公衆視野。

故事要從 2000 年講起。那時候的互聯網正被垃圾郵件和自動註冊機器人搞得一團糟。卡內基梅隆大學的危地馬拉裔計算機科學家 Luis von Ahn 和他的團隊提出了一種區分人類和機器的方法，後來被命名爲 CAPTCHA。原理很直觀：給用戶展示一段扭曲變形的文字，人類能看懂，機器識別不了。

圖丨Luis von Ahn（來源：MIT News）

Von Ahn 很快意識到，全世界每天有幾億人在做這件事，每次花大約十秒鐘。這些認知勞動加在一起是一個驚人的數字，全部被浪費了。2007 年，他推出了 reCAPTCHA。核心改動很簡單：驗證碼裏展示的不再是隨機生成的亂碼，而是兩個詞。一個是系統已知的答案，用來驗證你是不是人；另一個則來自掃描的舊書籍和報紙，是光學字符識別（OCR）軟件無法辨認的文本。你輸入答案的同時，也在幫助把這些紙質文字轉化成數字文本。

這個設計確實稱得上一石二鳥。reCAPTCHA 被部署到超過十萬個網站上，到 2011 年，它已經完成了整個 Google Books 檔案的數字化，還幫助轉錄了《紐約時報》從 1851 年至今超過 1,300 萬篇文章。Von Ahn 後來在接受 NPR 採訪時說，他把 CAPTCHA 的創意免費送了出去，而 reCAPTCHA 被 Google 在 2009 年收購，價格據他本人透露是“數千萬美元級別”。收購之後，Von Ahn 又去做了另一件事：創辦多鄰國，繼續用衆包的邏輯做語言教育。

Google 拿到 reCAPTCHA 之後，事情開始轉向。

大約在 2012 年，扭曲文字時代結束了。Google 當時面對的新挑戰是：Street View 拍攝車已經在全球幾乎每條道路上跑過了，積累了海量街景照片。但照片本身只是原始像素，要讓這些數據對導航和地圖服務有用，系統需要知道照片裏有什麼，哪個是門牌號，哪個是路標，哪個是店面招牌。於是 reCAPTCHA v2 出現了。用戶不再輸入文字，取而代之的是圖片網格。“點擊所有包含交通信號燈的方塊”“選出每個人行橫道”“識別所有店面”。

這些圖片來自 Google Street View。用戶每一次點擊都在告訴 Google 的計算機視覺模型：這塊像素區域是紅綠燈，這個形狀是斑馬線。Google 以免費安全服務的名義，將這個工具嵌入了銀行、政府網站、電商平臺和幾乎所有需要登錄驗證的網頁。你別無選擇。想訪問你的賬戶？先幫我標註幾張圖片。

規模有多大？據多個來源估計，reCAPTCHA 在高峯期每天被解答約 2 億次。加州大學爾灣分校（UC Irvine）2023 年發表的一篇論文《Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2》給出了更系統的計算：從部署至今的 13 年多時間裏，人類總共花費了約 8.19 億小時在 reCAPTCHA 上，按工資折算至少相當於 61 億美元。

研究團隊還估算，reCAPTCHAv2 產生的追蹤 Cookie 數據，終身價值高達 8,880 億美元。論文的主要作者 Andrew Searles 在接受 The Register 採訪時直言：他認爲 reCAPTCHA 的真正目的是收集用戶信息和免費勞動。

圖丨相關論文（來源：arXiv）

這些標註數據去了哪裏？最顯而易見的方向是 Google Maps。它今天能自動識別路標、讀取門牌號、理解城市地理結構，背後依賴的計算機視覺能力，有一部分基礎就來自 reCAPTCHA 用戶年復一年的標註積累。

更受爭議的方向是 Waymo。Waymo 的前身是 Google 在 2009 年啓動的自動駕駛項目，2016 年獨立爲 Alphabet 旗下子公司。一輛自動駕駛汽車要安全運行，必須以接近完美的準確率識別交通燈、人行橫道、行人、停車標誌等成千上萬種視覺模式。

而 reCAPTCHA 要求用戶識別的，恰恰就是這些元素。有人推測 reCAPTCHA 數據被用於訓練 Waymo 的自動駕駛系統，但一位未具名的 Google 代表否認了這一點，聲稱截至 2021 年中，這些數據僅用於改進 Google Maps。UC Irvine 的研究者在論文中則認爲，reCAPTCHA 提出的圖像識別任務，如辨認紅綠燈和自行車，看起來非常像是在爲自動駕駛收集訓練數據。

Google 從未正式確認 reCAPTCHA 數據直接進入了 Waymo 的訓練流程。這一點需要說清楚。不過從外部來看，質疑並非沒有道理。reCAPTCHA v2 讓用戶標註的物體類別，與自動駕駛感知系統需要識別的物體類別高度重合。而 Google/Alphabet 同時擁有 reCAPTCHA 和 Waymo，內部數據管線是否有交叉使用，外界無從審計。

Waymo 如今的體量讓這個問題變得更加敏感。截至 2026 年 2 月，Waymo 已完成超過 2,000 萬次付費載客，自主駕駛里程超過 2 億英里。僅 2025 年一年，它的年度載客量就增長了兩倍，達到 1,500 萬次。

2026 年 2 月，Waymo 完成了一輪 160 億美元的融資，估值達到約 1,260 億美元，超過了大多數全球主流車企。它計劃在 2026 年進入包括倫敦和東京在內的 20 多個新城市。從一個 Google 內部的研究項目，到一家估值千億美元的獨立公司，Waymo 走了不過十多年。

圖丨 Waymo 無人駕駛出租車（來源：Waymo）

與此同時，職業數據標註是一個相當昂貴的行業。Scale AI、Appen、Labelbox 等公司僱傭了大量工人來完成圖像標註工作，每小時的報酬從幾美元到幾十美元不等。Google 通過 reCAPTCHA 做到了同樣的事，只是標註者不是被僱傭的工人，而是想登錄自己銀行賬戶的普通人。

沒有報酬，沒有合同，甚至不需要徵得同意。reCAPTCHA 的服務條款當然存在，但絕大多數用戶既沒有閱讀過，也無法選擇拒絕，因爲它不是 Google 的產品頁面上的可選項，而是橫亙在你和你想訪問的任何網站之間的一道必經關卡。

2018 年，Google 推出了 reCAPTCHA v3。這一版本不再給用戶展示任何驗證挑戰。它在後臺默默運行，通過監測你的鼠標軌跡、滾動模式、懸停時長和瀏覽器環境來判斷你是不是人類。

UC Irvine 的研究發現，reCAPTCHA 廣泛監控用戶的 Cookie、瀏覽歷史和瀏覽器環境信息，包括畫布渲染、屏幕分辨率、鼠標移動和用戶代理數據，所有這些都可以被用於廣告和追蹤。Google 堅稱這些數據不會被用於個性化廣告。但 2020 年，Cloudflare 出於隱私擔憂從 reCAPTCHA 切換到了競爭對手 hCaptcha，也說明業界並非所有人都對 Google 的說法買賬。

更有意思的是，UC Irvine 的研究發現，早在 2016 年就有研究者能以 70% 的準確率擊敗 reCAPTCHA v2 的圖像驗證，而 v2 的複選框驗證更是可以被 100% 破解。

換句話說，reCAPTCHA 作爲安全工具的有效性在持續下降，但它作爲數據採集和用戶追蹤工具的功能卻一直在運轉。研究者的結論相當犀利：reCAPTCHA 本質上是一個僞裝成安全服務的免費圖像標註勞動力來源和追蹤 Cookie 農場。

需要指出的是，這個結論不代表學術界的共識。也有人認爲，reCAPTCHA 確實在防禦層面提供了一定價值，至少增加了機器人的攻擊成本，不應該完全否定它的安全功能。Google 自身的立場也一直是，reCAPTCHA 首先是一個安全產品。

但爭論的核心不在於 reCAPTCHA 有沒有安全價值。核心問題是：當一個安全工具同時也是數據採集工具時，用戶是否應該被告知？是否應該有選擇權？

Luis von Ahn 最初發明 reCAPTCHA 的想法其實很漂亮：既然人們已經在做驗證了，爲什麼不順便把這些認知勞動用在有益的事情上？幫助數字化全世界的書籍，這是一個能讓人心生敬意的目標。但從 Google 收購 reCAPTCHA 之後的演變來看，“有益”的定義被悄悄替換了。數字化公共圖書館的藏書是公益，訓練價值千億美元的商業產品則是另一回事。

奧地利的聯邦法院已經裁定 reCAPTCHA 違反了 GDPR，因爲它在未經充分知情同意的情況下向 Google 傳輸用戶數據。歐洲的監管壓力在上升，但在全球範圍內，reCAPTCHA 仍然部署在數百萬個網站上，每天默默地運行着。

運營/排版：何晨龍

你點擊我不是機器人的時候，都是在幫Google免費訓練無人駕駛車

2025圖靈獎公佈，量子信息科學首次獲得計算機界最高榮譽

專題：院士建言“十五五” 加快高水平科技自立自強

科學家正嘗試訓練實驗室培育大腦

至少還得等5年，關於全固態電池，長城魏建軍發話了

相關推薦

Switch 2帶來強力更新：舊遊戲540P···

趁你病要你命？索尼遇良率波動，iP···

訂單積壓600億歐元、已排到2030年！···