英偉達被起訴,用盜版訓練大模型成行業潛規則?

由 財經雜誌 發佈於 財經

'26-02-08

“影子圖書館”非法存儲並傳播海量圖書資源,願意提供付費的“優先級下載通道”,雖滿足了大模型開發者對優質數據的需求,但帶來了極大的侵權風險;針對訴訟,英偉達提交了正式動議,主張其行爲屬於“合理使用”

文|《財經》研究員 樊朔

編輯|朱弢


近期,英偉達成爲一場AI訓練數據版權集體訴訟的被告。

這起訴訟的原告方是五位擁有多部已註冊版權作品的作家。起訴書指控英偉達在使用NeMo Megatron框架開發其下一代大語言模型時,使用了包含原告版權作品的盜版圖書館的數據集,這些盜版圖書館也被稱爲“影子圖書館”。

NeMo Megatron是英偉達開發的一個用於構建、訓練和部署大語言模型的端到端框架。

原告在美國加利福尼亞北區聯邦地區法院提起訴訟。2026年1月31日,英偉達提交了正式動議,認爲原告未能提供足夠的證據證明該公司存在侵權行爲,要求法院駁回原告起訴狀,並主張其行爲屬於“合理使用”。法院已安排在 2026年4月2日舉行聽證會,審理英偉達提出的動議。

起訴書提供的內部記錄顯示,英偉達面臨着OpenAI的競爭壓力,爲了在 2023 年開發者大會上展示其領先的技術,不惜通過“影子圖書館”獲取數百萬本盜版圖書來訓練其大語言模型。

此外,起訴書還指出,英偉達向其客戶提供工具和腳本,鼓勵並協助他們下載盜版數據集 。

大模型熱潮之下,陷入訓練數據版權糾紛的不止英偉達,OpenAI、xAI、Anthropic、Meta等人工智能巨頭也先後遭遇訴訟。在一起侵權案件中,Anthropic曾同意支付至少15億美元達成和解,可能創下版權賠償金額紀錄。

英偉達高層批准盜版合作?

訓練數據的質量與數量對大模型開發起着關鍵性作用,圖書可以提供充足的數據量,在行業內被視爲高質量的訓練數據。對於大模型開發者而言,“影子圖書館”的數據更方便易得,滿足了訓練中對圖書類數據的需求。

起訴書顯示,英偉達發佈了多個NeMo Megatron系列大模型。根據其在Hugging Face網站上的描述,這些模型是在非營利研究機構EleutherAI發佈的The Pile數據集上訓練的。

The Pile包含一個名爲 Books3的子集,該子集源自“影子圖書館”Bibliotik,包含約19萬本圖書。

除了使用The Pile,英偉達還被指控直接與“影子圖書館”直接合作,使用盜版圖書資源訓練大模型,其中包括全球最大的“影子圖書館”Anna’s Archive。

Anna’s Archive建立於 2022年11月,正值知名電子書庫Z-Library遭到美國政府大規模封禁及創始人被捕之際,旨在整合 Z-Library、Library Genesis (LibGen)、Open Library 和 Sci-Hub 等多家影子圖書館的資源,實現知識的“永久備份”。2026 年 1 月,美國俄亥俄州聯邦法院下達永久禁令,命令其必須刪除所有抓取的全球最大的圖書館目錄數據庫 WorldCat 的數據。

起訴書披露了英偉達與Anna’s Archive溝通協商的全過程。內部文件顯示,英偉達獲取盜版圖書最直接的原因是行業內激烈的競爭。2022年9月,英偉達發佈了NeMo Megatron系列大模型。此後的一年間,OpenAI推出的ChatGPT大獲成功,使得投資者對人工智能的關注度升溫。因此,2023年秋季的年度開發者大會被英偉達認爲是一個重要的時間節點,在此次大會上發佈性能領先的大型語言模型才能更好地應對激烈的競爭態勢。

起訴書顯示,在爲內部代號“NextLargeLLM”“NextLLMLarge”及“Next Generation LLM”(以下統稱NextLargeLLM)的項目獲取數據時,英偉達高度聚焦於圖書語料庫。2023年8月,英偉達與多家圖書出版商洽談,試圖快速獲取圖書數據資源,不過,這一需求遭到了拒絕,並未達成數據授權協議。

爲了解決對圖書資源的迫切需求,英偉達方面轉而致函Anna’s Archive,意圖瞭解後者數據“高速訪問權限”的具體形式。Anna’s Archive則在回函中聲明,鑑於其盜版資源是非法獲取的,建議英偉達內部確定可以合作後再告知和推進。

在聯繫Anna’s Archive後的一週內,英偉達管理層便迅速批准了雙方的合作計劃。此後Anna’s Archive向英偉達提供了數百萬本盜版圖書數據的訪問權限,總量約500TB。

起訴書稱,除了Anna’s Archive和The Pile,英偉達還下載了來自其他“影子圖書館”的圖書資源,包括Z-Library、LibGen和Sci-Hub。

Z-Library曾因書籍更新極快、用戶體驗好而迅速崛起。2022年11月,美國聯邦調查局查封了 Z-Library 超過 200 個核心域名。兩名俄羅斯籍創始人在阿根廷被捕,並面臨洗錢和侵犯版權的刑事指控,美國政府目前正尋求將其引渡。此外,美國、奧地利、德國、印度等國法院多次下令域名註冊商註銷其域名。

Library Genesis被稱爲“影子圖書館”的鼻祖。2017年,美國紐約法院判決Library Genesis賠償出版商愛思唯爾1500萬美元。2023年,多家美國教科書出版商再次起訴 LibGen,要求其移交域名或將其從互聯網上徹底抹除。

Sci-Hub 專注學術論文,目前英國、法國、德國等國家的法院已下令所有主要互聯網供應商(ISP)封鎖 Sci-Hub。Sci-Hub 自 2020年底起已基本停止大規模上傳新論文。

2024年2月,在與Anna’s Archive達成合作四個月後,英偉達發佈了當時旗下最強大的大模型Nemotron-4 15B。公開資料顯示,Nemotron-4 15B擁有150億參數,使用了8萬億文本標註數據進行預訓練。英偉達方面並未披露該大模型的訓練數據來源,不過曾公開表示該模型訓練數據中70%來自“英語自然語言”數據集,該數據集本身包含4.6%的圖書內容。起訴書認爲,據此推算,英偉達的訓練數據需包含數百萬冊圖書。除非使用了盜版資源,否則該公司不可能獲得足量的圖書數據。

此外,起訴書顯示,通過NeMo Megatron框架和BigNLP平臺,英偉達向客戶提供了自動下載並預處理The Pile數據集的腳本。英偉達還向客戶Persimmon AI Labs和亞馬遜提供了類似的下載和處理The Pile數據集的協助。

大模型訓練需求撐起了盜版生意?

“影子圖書館”非法存儲並傳播大量高質量版權內容,也願意爲大模型開發者提供付費的“優先級下載通道”。

Anna''s Archive在其官網表示,“大語言模型依賴高質量數據才能蓬勃發展。我們擁有全球規模最大的圖書、論文、期刊等資源,這些正是最高質量的文本資源。我們提供高速的企業級訪問權限,以換取數萬美元級別的捐贈”。

這一商業模式也爲“影子圖書館”爭取了一線生機。Anna''s Archive在官網表示,不久前,“影子圖書館”瀕臨消亡。因訴訟壓力,收錄大量學術論文盜版資源的Sci-Hub已停止接收新作品。“隨着人工智能崛起,幾乎所有開發大語言模型的企業都聯繫我們獲取數據訓練。我們已爲約30家公司提供高速訪問權限”。

但使用盜版圖書資源爲大模型公司帶來極大的侵權訴訟風險。美國版權局2025年5月發佈的《版權與人工智能》系列報告指出,數據收集和預處理階段涉及下載、轉換和修改大量受版權保護的作品,無論數據來源是否爲公開網站,均可能構成對複製權、編輯權、改編權的多重侵害,在商業用途情形下風險尤爲突出。

2025年,美國法院對兩起版權人起訴大模型公司使用盜版圖書資源的案件作出判決。

2025年6月23日,美國北加利福尼亞地區法院就Andrea Bartz等作家起訴Anthropic的版權侵權訴訟案作出關於合理使用的裁決,認定使用受版權保護的作品進行人工智能訓練屬於合理使用。不過,從Library Genesis和Pirate Library Mirror等網站下載超過700萬本“明知是盜版”的電子版圖書的行爲,則“本質上、不可救藥地構成侵權”,無法被合理使用原則所豁免。同年9月,有媒體報道稱,Anthropic已同意支付至少15億美元達成該案的和解協議。美國加州一家法院已初步批准了這一協議。這也將成爲歷史上有公開報道的最大規模版權賠償案。

2025年6月25日,同樣是美國北加利福尼亞地區法院就Richard Kadrey等作家起訴Meta Platforms使用盜版圖書訓練大模型Llama構成版權侵權案作出簡易裁決,判決同樣認定Meta的行爲構成合理使用。不過,法院判定Meta獲取並使用盜版作品的行爲不單獨構成侵權,因爲Meta將該等作品用於AI大模型訓練目的,此種使用屬於轉換性用途。

具體而言,Meta使用原告圖書的目的在於訓練其大模型Llama,該大模型可生成多樣化文本並執行廣泛的功能,而原權利作品的用途主要在於供人閱讀以獲取娛樂或教育。因此,Meta使用原告圖書的行爲具有“進一步目的”和“不同性質”,即高度轉換性。鑑於複製行爲與Meta轉換性使用目的之間的關聯,其複製量也具有合理性和必要性。且在市場影響上,原告未提供任何其市場被影響或稀釋的有效證據。

但值得注意的是,法院限定了裁決的效力範圍,聲明該案“不構成集體訴訟”,且“不構成Meta使用受版權保護材料訓練語言模型合法的判例”。

訓練數據版權問題已引發更多訴訟

Anthropic案之後,更多作家或版權方也在發起訴訟。2025年12月22日,美國《紐約時報》記者、作家約翰·卡雷魯聯合另外五名作家,向加利福尼亞州聯邦法院提起訴訟,將谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司告上法庭,指控其未經許可使用受版權保護的圖書訓練人工智能系統。

原告方明確表示,不尋求發起人數更多的集體訴訟,因爲那將對被告有利,對方可能會試圖與大批原告達成統一的和解方案,從而一次性解決多項索賠。訴狀稱:“大語言模型公司不應如此輕易地以極低價格清償成千上萬項高額索賠。”

早在2023年12月,《紐約時報》就聯合其他八家媒體機構,指控微軟、OpenAI使用媒體刊登的文章訓練人工智能模型,侵犯其版權。

2025年3月,美國紐約南區法院駁回OpenAI要求直接駁回案件核心指控的動議,允許關鍵爭議進入下一階段,OpenAI使用《紐約時報》新聞內容訓練其模型是否構成版權侵權將進入實質司法審查階段。業界認爲,這一程序性裁決對原告方極爲有利,意味着法院認爲《紐約時報》的指控具有足夠的法律基礎,值得進行全面的證據審查和實體裁判。2025年11月,OpenAI被要求提供用戶日誌,這一證據對於證明訓練數據的具體使用方式,以及輸出內容的相似性具有重要價值。

一位不願具名的律師表示,目前美國法院對此類AI版權問題的態度非常謹慎,避免以單一案件過早確立具有普遍約束力的規則。他認爲,隨着更多大模型訓練數據版權案件出現,裁判結果將取決於爭議事實的認定以及技術細節的鑑定。

不過,2025年5月,《紐約時報》與亞馬遜達成許可協議,授權亞馬遜使用其新聞內容用於AI產品增強與模型訓練。前述律師認爲,通過授權合作而非訴訟對抗解決爭議,或許可以成爲業界通行的解決方案之一。

此外,出版商羣體也在2025年啓動維權。包括康泰納仕集團、《大西洋月刊》、Politico和Vox在內的多家大型出版商起訴人工智能初創公司Cohere,指控其未經授權使用超過4000部受版權保護的作品訓練大型語言模型,並在繞過出版商網站訪問的情況下,擅自向用戶發佈大量文章內容或整篇文章。

在中國,愛奇藝訴MiniMax案同樣引發關注,這是國內視頻平臺首例AI訓練數據訴訟。2025年1月,有媒體報道稱,愛奇藝已向上海市徐彙區人民法院提起訴訟,指控MiniMax在人工智能模型訓練及內容生成流程中涉嫌侵犯其著作權,索賠金額約10萬元人民幣。愛奇藝方面回應稱,事件仍處於法律程序中,無法對外披露更多信息。

同時,MiniMax在2025年遭遇了好萊塢巨頭的集體訴訟。迪士尼、環球及華納兄弟在美國加州聯邦法院對其旗下的海螺AI提起版權侵權起訴,索賠金額最高爲7500萬美元(約合52.8億元人民幣)。MiniMax在2025年底的招股書中首次否認了版權指控,認爲使用相關版權內容用於訓練AI屬於合理使用,7500 萬美元的索賠金額被“明顯高估”。該公司主張,具備法定賠償資格的獨立作品數量遠低於原告主張的規模,並強調在收到訴狀後,已採取技術措施防止相關侵權輸出。目前訴訟程序正在進行中。

Scroll to Top