生成式人工智能训练数据版权问题的合理使用之辩

今日新闻 2025年10月18日 05:28 0 aa

——以卡德雷等人诉Meta公司案为例

章成,王恩术

□章成王恩术

　　生成式人工智能的快速迭代，在全球范围内引发了一场深刻的法律挑战。为了训练功能强大的模型，开发者使用了海量的、受版权保护的作品作为训练数据。这一实践将技术创新的现实需求与旨在激励创作的版权法基本原则置于紧张关系之中，形成了科技界与内容创作界的核心矛盾。

　　2025年6月25日，美国联邦地区法院对卡德雷等人诉Meta公司案作出判决。在该案中，法院认定被告Meta公司使用原告作品训练大语言模型的行为构成合理使用。该案虽以原告败诉告终，但并未对使用版权作品训练人工智能的行为予以无条件认可，反而通过深入的法理论证，为未来的司法实践和版权治理提供了极具价值的启示。

基本案情

　　本案原告是由理查德·卡德雷等13名知名作家组成的诉讼团体。被告是科技巨头Meta公司，其开发了名为LLaMA的大语言模型。

　　原告指控Meta公司在未经许可、未署名且未支付报酬的情况下，大规模复制了他们的书籍，并将其用作训练LLaMA模型的语料库，构成了直接和替代性版权侵权。原告指出，Meta公司用于训练的数据集包含了从“影子图书馆”中获取的作品，例如Books3、Bibliotik和LibGen等，这些平台是众所周知的盗版内容集散地。原告认为，被告这种带有“恶意”的数据获取方式，反映了其行为的非正当性。

　　法院首先驳回了原告提出的LLaMA模型构成侵权派生作品的主张，因为模型本身并非对原告书籍的重塑或改编。同时，替代性侵权主张也因原告未能举证LLaMA生成的任何具体内容与他们的作品构成“实质性相似”而被法院驳回。这极大地收窄了案件的争议范围，使后续争议焦点集中于Meta公司为训练LLaMA而复制书籍的行为是否构成直接版权侵权。对此，Meta公司以合理使用原则进行抗辩。

争议焦点

　　法院依据美国《版权法》第107条对合理使用的四个法定要素进行了系统性审查，该分析构成了整个判决的基础。

　　使用的目的与性质。法院认为，原、被告双方的使用目的截然不同。原告书籍的目的是供人阅读以获取娱乐或知识，而Meta公司复制这些书籍的目的是训练一个功能性的软件工具，该工具能够执行翻译、摘要、辅助“创意构思”等多种任务。LLaMA模型并非简单地“重新包装”原著，而是从数据中学习统计规律，以创造出在性质和功能上全新的事物，这正是转换性使用的核心要义。关于备受争议的“恶意”获取盗版数据问题，法院认为，即使Meta公司明知是盗版书籍而使用，这种恶意也并不影响其后续训练使用行为的转换性。合理使用制度的宗旨在于允许不构成市场替代的新表达形式出现，而原始材料的来源是否合法，并不会改变后续使用的根本性质。

　　受版权保护作品的性质。法院认为，涉案作品多为小说、回忆录等，属于创造性和表达性极高的作品，理应处于版权保护的核心范围。法院驳斥了Meta公司声称其仅使用了文本的“功能性元素”的说法，指出词语之间的联系本身就是“创造性表达的产物”。尽管如此，法院也补充说明，在现代对合理使用的判断中，该要素很少起到决定性作用。

　　使用部分的数量与实质性。法院认为，为了有效地训练大语言模型，复制整部作品是合理且必要的，仅输入部分内容的训练效果会大打折扣。因此，既然复制全部内容是实现合法的转换性目的所必需的，那么这种复制行为在“数量与实质性”上就是合理的。

　　使用行为对潜在市场或价值的影响。法院驳回了原告提出的两个主要市场损害理论：一是“输出内容替代”理论，即LLaMA的输出内容可能替代原著。证据显示，即使在“对抗性提示”下，模型也不会“反刍”出任何有意义的文本片段，因此无法对原著市场构成威胁。二是“授权许可市场损失”理论，即Meta公司的行为损害了一个潜在的、为人工智能训练目的而授权作品的市场。法院认为这是循环论证，因为版权持有人不能仅仅因为主张对一种转换性合理使用行为享有许可权，就创造出一个受法律承认的市场损害。

裁判结果

　　法院最终判决Meta公司为训练模型而使用作者书籍的行为，基于该案特定的论点和证据，构成合理使用。在权衡四要素后，法院认为第一、三、四项要素均有利于被告，仅第二项要素有利于原告。原告在起决定性作用的第四要素上的论证不力，是导致其败诉的直接原因。

　　法院在判决书中强调，“本判决不代表Meta公司使用受版权保护的材料来训练其语言模型的行为是合法的”，而“仅代表这些特定的原告提出了错误的论点，并且未能为支持正确的论点建立起相应的证据记录”。

　　法院在判决中详细阐述了一个原告未能有效提出、但更具说服力的损害理论——“市场稀释”理论。该理论认为，即使大语言模型输出的内容不构成侵权复制品，但模型本身使得“快速生成无数与原作相竞争的作品”成为可能。通过向市场大量注入同类型、同风格的作品，人工智能产品可能“摧毁”人类作者书籍的市场，特别是对于那些名气不大的作者而言。

　　法院认为，这是一个“远更有前景”的论点，甚至认为在许多情况下，构成这种类型的损害将使原告“在第四要素上取得决定性胜利，并最终赢得整个合理使用问题的胜利”。但该案中原告未能构建支持“市场稀释”理论的证据记录，未能提供有意义的证据或实证证据来反驳被告关于市场损害缺失的主张，因而败诉。

启示思考

　　合理使用原则面临新挑战。本案凸显了合理使用这一弹性原则在应对人工智能技术挑战时的困境。简单地将人工智能训练行为视为“变革性”使用，并以此作为合理使用的唯一抗辩理由，可能难以在未来的司法实践中获得广泛支持。该案判决书指出，“难以想象，利用受版权保护的书籍来开发一种能够赚取数十亿甚至数万亿美元的工具，同时还可能创造出无穷无尽的、可能严重损害这些书籍市场的竞争作品，可以被认为是合理使用”。未来法院可能会要求人工智能开发者提供更翔实的数据和技术证明，以说明其训练行为对原作品市场价值没有实质性影响，或者其训练方式与传统侵权行为有本质区别。

　　技术性证据在诉讼中将发挥更大作用。在该案中，法院不仅对利用文学作品训练人工智能的合法性问题作出认定，更为未来类似案件中版权人的举证责任释明了限度。该判决向法律界发出了一个强烈信号：这类复杂案件无法仅凭理论主张获胜，而需要深入的、基于事实的证据，特别是对市场影响的复杂经济模型分析。

　　人工智能技术开发者应主动承担社会责任。人工智能技术开发者在训练模型时，应当尽可能使用合法合规的数据源，并探索建立与版权人共赢的商业模式，而非单纯依赖合理使用原则获得法律豁免。同时，政府应鼓励行业自律，建立技术伦理规范，并推动法律法规的制定，形成技术、行业、法律三方协同的治理格局。

　　【本文系武汉大学青年研究中心2024-2025学年度（重点）调研课题（202439）的阶段性成果】

　　（作者单位：武汉大学前沿交叉学科研究院）