内部文件曝光:英伟达被指向Anna’s Archive寻求数百万本盗版书籍以训练AI

近日,在一项针对英伟达的集体诉讼中曝出的内部文件显示,该公司高管曾批准从知名盗版资源网站“安娜的档案”(Anna’s Archive)获取数百万本受版权保护的书籍,用于其人工智能模型的训练。这一指控进一步加剧了科技公司与版权方之间围绕AI训练数据合法性的法律冲突。

英伟达的AI野心与法律风险

作为人工智能热潮的主要受益者之一,英伟达凭借其AI训练芯片及数据中心服务实现了营收大幅增长。与此同时,该公司也积极开发自有AI模型,如NeMo、Retro-48B等,这些模型均需依托海量文本数据进行训练。

然而,与知产前沿曾经报道过的OpenAI用德国音乐人创作歌词训练模型被判侵权爱奇艺起诉海螺AI版权侵权,指控擅用其素材进行AI模型训练附法庭文件 | 字节跳动与Meta在美遭遇集体诉讼,涉嫌非法抓取YouTube视频训练AI模型等多家科技巨头一样,英伟达的AI训练方法正面临来自版权方的强烈法律挑战。

诉讼升级:从Books3到“影子图书馆”

2024年初,多名图书作者以涉嫌侵犯版权为由将英伟达告上法庭,指控其使用数据集Books3训练AI模型,而Books3内含从盗版网站Bibliotik获取的大量受版权保护作品。英伟达此前辩称其使用行为属于“合理使用”,并表示书籍对其模型而言仅是“统计关联数据”。

然而,原告在证据开示阶段获得了新的关键证据。上周五,原告提交了经修订的起诉状,大幅扩大了诉讼范围,新增了更多书籍、作者、AI模型,并首次详细指控英伟达与“影子图书馆”的直接合作。

内部邮件曝光:英伟达主动联系盗版网站

根据新诉状,英伟达数据战略团队的一名成员曾主动联系“安娜的档案”,以了解该网站能否为公司提供所需的海量图书数据。诉状指出:“因急需海量图书数据,英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆——‘安娜的档案’,洽谈获取其数百万份盗版资料。”

诉状进一步披露,“安娜的档案”在接洽中明确向英伟达警示,其图书馆内的藏书均为非法获取和留存,并要求英伟达高管确认是否已获得内部授权推进合作。据称,英伟达在一周内便批准了这项合作,随后获得了该网站约500TB的数据访问权限,其中包含数百万本通常仅能通过“互联网档案馆”数字借阅系统获取的图书。

更广泛的数据源指控

除“安娜的档案”外,新诉状还指控英伟达从其他盗版平台获取数据,包括“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z图书馆”(Z-Library)。原告方指出,英伟达不仅自身使用这些盗版书籍训练AI模型,还向企业客户提供脚本和工具,使其能够自动下载包含盗版Books3数据集的“The Pile”数据库。

基于这些行为,诉状新增了两项法律主张——辅助侵权与共同侵权,指控英伟达通过便利客户获取盗版数据集而获利。

作者寻求赔偿,集体诉讼范围扩大

原告作者要求英伟达就其损失进行赔偿,不仅代表本案具名原告,也涵盖未来可能加入诉讼的其他数百位作者。诉状强调:“市场竞争压力驱使英伟达走上盗版之路。”

据悉,这是美国大型科技公司英伟达与“安娜的档案”的往来函件首次被公开披露。近期,“安娜的档案”因丢失多个域名而备受关注,此次事件预计将进一步提升该盗版图书馆的公众可见度。

来源:IT之家

编辑:Sharon