近日,俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)对Adobe提起集体诉讼,指控其在训练名为 SlimLM 的小型语言模型时,使用了包含其盗版作品在内的非法数据集。
SlimLM是Adobe推出的一系列轻量化语言模型,专为移动设备上的文档辅助任务(如摘要、改写、问答)优化。Adobe官方称,该模型基于 SlimPajama-627B 数据集进行预训练——这是由AI芯片公司Cerebras于 2023 年 6 月发布的开源、去重、多来源语料库。
然而,莱昂的诉状指出,SlimPajama实际上是 RedPajama 数据集的衍生版本,而RedPajama又直接复制了臭名昭著的 Books3 数据集。Books3 包含约19. 1 万本受版权保护的图书,长期被指大量收录自网络盗版资源(如The Bibliotik)。诉状强调:“SlimPajama因系RedPajama的衍生复制,故包含Books3 中的内容,其中包括原告及集体成员的受版权保护作品。”
莱昂本人是多本非虚构写作指南的作者,其作品据称就在被非法用于训练的数据之列。她指控Adobe在未获授权、未署名、未支付任何费用的情况下,将其文字用于商业AI产品的开发,侵犯了版权法赋予作者的专有权利。
这并非孤立事件。Books3 和RedPajama已成为AI行业版权诉讼的“高频词”:
-2024 年 9 月,Apple被诉使用Books3 训练其Apple Intelligence;
– 同月,Anthropic就类似指控与作家群体达成 15 亿美元和解,被视为AI版权案的里程碑;
-10 月,Salesforce也被指依赖RedPajama训练其AI系统。
随着生成式AI对海量文本的依赖日益加深,训练数据的合法性问题正从道德争议演变为法律雷区。Adobe此次被诉,再次凸显了一个行业性困境:即使使用“开源”数据集,若其源头包含侵权内容,下游开发者仍可能承担连带责任。
在Anthropic天价和解案的阴影下,Adobe如何应对此次诉讼,或将影响整个AI行业对训练数据溯源与合规审查的重视程度。而对内容创作者而言,这场诉讼不仅是维权,更是对“AI时代创作价值归属”的一次关键确认。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则