内部文件曝光：英伟达被指向Anna’s Archive寻求数百万本盗版书籍以训练AI-资讯

内部文件曝光：英伟达被指向Anna’s Archive寻求数百万本盗版书籍以训练AI

近日，在一项针对英伟达的集体诉讼中曝出的内部文件显示，该公司高管曾批准从知名盗版资源网站“安娜的档案”（Anna’s Archive）获取数百万本受版权保护的书籍，用于其人工智能模型的训练。这一指控进一步加剧了科技公司与版权方之间围绕AI训练数据合法性的法律冲突。

英伟达的AI野心与法律风险

作为人工智能热潮的主要受益者之一，英伟达凭借其AI训练芯片及数据中心服务实现了营收大幅增长。与此同时，该公司也积极开发自有AI模型，如NeMo、Retro-48B等，这些模型均需依托海量文本数据进行训练。

然而，与知产前沿曾经报道过的OpenAI用德国音乐人创作歌词训练模型被判侵权爱奇艺起诉海螺AI版权侵权，指控擅用其素材进行AI模型训练附法庭文件 | 字节跳动与Meta在美遭遇集体诉讼，涉嫌非法抓取YouTube视频训练AI模型等多家科技巨头一样，英伟达的AI训练方法正面临来自版权方的强烈法律挑战。

诉讼升级：从Books3到“影子图书馆”

2024年初，多名图书作者以涉嫌侵犯版权为由将英伟达告上法庭，指控其使用数据集Books3训练AI模型，而Books3内含从盗版网站Bibliotik获取的大量受版权保护作品。英伟达此前辩称其使用行为属于“合理使用”，并表示书籍对其模型而言仅是“统计关联数据”。

然而，原告在证据开示阶段获得了新的关键证据。上周五，原告提交了经修订的起诉状，大幅扩大了诉讼范围，新增了更多书籍、作者、AI模型，并首次详细指控英伟达与“影子图书馆”的直接合作。

内部邮件曝光：英伟达主动联系盗版网站

根据新诉状，英伟达数据战略团队的一名成员曾主动联系“安娜的档案”，以了解该网站能否为公司提供所需的海量图书数据。诉状指出：“因急需海量图书数据，英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆——‘安娜的档案’，洽谈获取其数百万份盗版资料。”

诉状进一步披露，“安娜的档案”在接洽中明确向英伟达警示，其图书馆内的藏书均为非法获取和留存，并要求英伟达高管确认是否已获得内部授权推进合作。据称，英伟达在一周内便批准了这项合作，随后获得了该网站约500TB的数据访问权限，其中包含数百万本通常仅能通过“互联网档案馆”数字借阅系统获取的图书。

更广泛的数据源指控

除“安娜的档案”外，新诉状还指控英伟达从其他盗版平台获取数据，包括“图书馆基因”（LibGen）、“科学枢纽”（Sci-Hub）以及“Z图书馆”（Z-Library）。原告方指出，英伟达不仅自身使用这些盗版书籍训练AI模型，还向企业客户提供脚本和工具，使其能够自动下载包含盗版Books3数据集的“The Pile”数据库。

基于这些行为，诉状新增了两项法律主张——辅助侵权与共同侵权，指控英伟达通过便利客户获取盗版数据集而获利。