IT之家 1 月 20 日音讯,据 Torrentfreak 报导,英伟达高管曾同意运用“安娜档案馆”的数百万本盗版书本,为其人工智能模型练习供给数据支撑。在一项征引英伟达内部文件的团体诉讼案中,数位图书作者指控此公司曾直接联络“安娜档案馆”,寻求该影子图书馆数据的高速拜访权限。
据IT之家了解,芯片巨子英伟达一直是人工智能热潮中的首要财政受益者之一。得益于商场对其人工智能练习芯片及数据中心服务的旺盛需求,该公司营收大幅度增加,且这一增加势头尚无见顶痕迹。
除了销售商场炙手可热的硬件产品外,英伟达也在自主研制人工智能模型,包括 NeMo、Retro-48B、InstructRetro 以及 Megatron。与其他科技巨子的做法相似,这些模型均依托英伟达自研硬件,并凭借海量文本库打开练习。
与其他科技公司相同,英伟达的模型练习方法也遭到版权方的激烈法令,其间就包括图书作者。在多起诉讼中,作者们指控科技公司运用盗版书本练习人工智能模型。
例如,2024 年头,数位作者就曾以涉嫌侵略版权为由将英伟达告上法庭。在这起团体诉讼中,原告方建议,英伟达的人工智能模型是根据 Books3 数据集练习的,而该数据集包括了从盗版网站 Bibliotik 获取的受版权维护著作。因为上述行为未经版权方答应,作者们要求英伟达作出补偿。
对此,英伟达辩称其行为归于“合理运用”,宣称书本对其人工智能模型而言不过是一组计算相关数据。但是,相关指控并未就此停息。相反,原告方在依据开示阶段发现了更多佐证。
上星期五,原告方提交了经修订的起诉状,大幅扩展了诉讼规划。除新增更多涉案书本、作者及人工智能模型外,诉状还归入了更广泛的“影子图书馆”相关指控。
包括阿布迪 纳泽米安在内的原告作者,现在征引了英伟达的多份内部邮件及文件,指出该公司曾故意下载数百万本受版权维护的图书。这份新诉状指出,“商场之间的竞赛压力唆使英伟达走上盗版之路”,其间就包括与颇具争议的“安娜档案馆”图书馆打开协作。
诉状称,英伟达数据战略团队的一名成员曾主动联络“安娜档案馆”,旨在了解这家盗版图书馆能为这家公司能够供给哪些资源。诉状中说到:“因急需海量图书数据,英伟达主动接洽了现存尖端规划、也最为肆无忌惮的影子图书馆 ——‘安娜档案馆’,洽谈获取其数百万份盗版材料,并讨论将‘安娜档案馆’归入其大言语模型预练习数据的可行性。因为‘安娜档案馆’对其盗版资源的‘高速拜访权限’收取数万美元费用…… 英伟达企图了解获取该数据高速拜访权限的详细计划。”
诉状显现,“安娜档案馆”随后向英伟达警示,其图书馆内的藏书均为不合法获取和留存。鉴于该网站此前曾与其他人工智能公司协作并消耗很多时刻,这家盗版图书馆要求英伟达高管承认,其是否已取得内部授权推动相关协作。
据称,英伟达方面在一周内就同意了这项协作,随后“安娜档案馆”便向这家芯片巨子敞开了盗版书本的拜访权限。诉状称:“在联络‘安娜档案馆’一周后,且在被奉告其藏书存在不合法性的数天后,英伟达管理层仍‘开绿灯’同意推动这项盗版协作。‘安娜档案馆’向英伟达供给了数百万本受版权维护的盗版书本。”
诉状指出,“安娜档案馆”许诺向英伟达敞开约 500TB 的数据拜访权限,其间包括数百万本图书,这些图书一般仅能经过“互联网档案馆”的数字借阅体系获取,而该档案馆本身也已身陷相关诉讼。
此外,有必要留意一下的是,英伟达还被指控运用了其他盗版数据源。除此前涉案的 Books3 数据库外,新诉状还指出,该公司曾从“图书馆基因”(LibGen)、“科学纽带”(Sci-Hub)以及“Z 图书馆”(Z-Library)等渠道下载图书。
原告方称,英伟达除了本身下载并运用盗版书本练习人工智能模型外,还向企业客户分发脚本和东西,使其能主动下载包括盗版 Books3 数据集的“The Pile”数据库。
这些指控衍生出两项新的诉讼建议 —— 辅佐侵权与一起侵权,原告方以为英伟达经过为客户获取盗版数据集供给便当,从中牟利。
根据上述及其他相关指控,作者们要求英伟达就其所遭受的丢掉作出补偿。该诉求不只适用于本案签字原告,也包括未来或许参加这起团体诉讼的其他数百位作者。
据现在把握的信息,这是美国大型科技公司与“安娜档案馆”的来往信件初次被揭露发表。而就在不久前,“安娜档案馆”刚丢掉了多个域名,此次事情无疑将逐渐提高这家盗版图书馆的大众重视度。