欢迎进入黑龙江省版权保护协会官方网站!
今天是
黑龙江省版权保护协会
行业动态
行业动态
行业动态 网站首页 >行业动态
合理使用制度是应对生成式人工智能机器学习的最优解?

日期:2025-02-14

  自2025年1月底发布以来,DeepSeek持续引发广泛热议。凭借出色的文本、图像等内容生成能力和理解推理能力,DeepSeek迅速崭露头角,成为继ChatGPT之后的又一现象级人工智能产品,被迅速应用于内容创作、在线客服、教育培训、企业运营等多个领域。


  随着生成式人工智能的普及和应用,知识产权法律保护也迎来了前所未有的挑战。其中,位于生成式人工智能生命周期前端的机器学习的版权合法性问题尤为突出。由于生成式人工智能技术的发展离不开依赖于海量数据训练的机器学习,版权作品作为优质的信息资源,是机器学习过程中必要的数据来源。根据著作权的事前授权原则,利用版权作品进行机器学习需要事前获得著作权人的许可。


  然而,面对海量的作品使用需求,人工智能的开发者需逐一与著作权人展开漫长复杂的谈判以获取授权,将产生极高的交易成本。于是,未经著作权人许可利用作品开展机器学习,成为人工智能产业发展的普遍现象,导致了作品市场的利益失衡。在此背景下,著作权人纷纷起诉人工智能企业,以期司法实践能积极回应新技术所引发的作品利用难题,构建机器学习场景下的版权治理框架。


  生成式人工智能机器学习行为的特殊之处


  从司法实践的诉讼情况来看,无论是北京互联网法院正在审理的“全国首例涉及AI绘画大模型训练著作权侵权案”,还是美国的30余起机器学习相关的版权纠纷,有关机器学习的版权合法性争议主要集中于生成式人工智能领域。这一现象的根源在于生成式人工智能机器学习的特殊性和复杂性。


  与传统的文本与数据挖掘行为不同,生成式人工智能机器学习不仅是将作品视为事实信息予以分析并提取规律,还涉及对作品元素的表达性使用。此外,这项技术对作品市场的影响颇为复杂,一方面,生成式人工智能开启了“机器创作”的新模式,其高效率的创作能力客观上为人类创作者提供了更丰富的语料素材。同时,利用生成式人工智能从事创作活动降低了作品创作成本,提升了艺术创作效率,促进了公众自由表达的实现。另一方面,更廉价的人工智能生成物会对人类作者的作品产生一定的替代效应,损害人类作者的整体利益。长此以往,这可能导致“劣币驱逐良币”,平庸、同质的机器生成内容取代了独特、多样的人类创作作品,阻碍文化表达的多样性发展。


  生成式人工智能机器学习的定性之难也折射出一个更本质的问题,即当版权保护和技术创新的价值发生冲突时应如何协调?不同的制度选择体现了不同的价值立场。在学界,多数学者主张采用更宽松的监管政策,即适用合理使用制度为人工智能产业发展减负。他们认为,数据训练中的作品使用行为具有“非特定性”,属于算法黑箱中过程性使用行为和非表达性使用,不构成著作权侵权。此外,基础模型作为人工智能时代的新型基础设施,在技术效果上具有普惠性,认定生成式人工智能机器学习构成合理使用,不仅在国内层面有利于中小型企业释放创新潜力,而且在国际层面也能够吸引更多人工智能研发者,助力我国人工智能产业的高质量发展。


  另一部分学者则以作品市场的利益平衡为视点,主张适用法定许可制度规制生成式人工智能的机器学习行为。他们指出,合理使用制度的滥用可能进一步巩固技术研发者的市场垄断地位,加剧作品市场的利益失衡,甚至导致人类作者因难以维持生计而退出创作领域,最终损害文化表达的多样性。而法定许可制度作为一个折中方案,以公平价值为理念,在简化作品许可使用程序的同时,保障了著作权人的经济利益,为其提供谈判筹码,兼顾了版权保护和技术发展的双重目标。


  此外,由于算法黑箱的不可知性,在人工智能致害的场景下,侵权责任认定的因果关系常难以成立,事后救济面临障碍。法定许可制度作为一种事前规制手段,要求基础模型的研发者在技术开发初期就将著作权人的利益纳入考量。这不仅有助于督促研发者采取更多的技术措施,降低输出侵权结果的概率,还能有效内化技术发展中产生的负外部性。


 生成式人工智能机器学习行为的合理使用分析


  生成式人工智能机器学习行为的定性目前仍存在较大争议,尽管多数学者倾向于认为生成式人工智能的数据训练应构成合理使用,但这一主张仍然需要在具体实践中通过“四要素测试法”加以检验。


  使用作品的性质和目的。是否构成转换性使用在合理使用的认定中发挥着关键作用,“转换性”程度较高的作品使用行为,即便是商业性使用也可能被认定为合理使用。持有“合理使用说”的学者认为,机器学习是技术开发的必要环节,其对作品的使用是一种以实现某一技术功能的转换性使用。诚然,对于并不应用于内容生成的基础模型而言,作品数据训练的目的是为提取作品中的事实信息,这种功能性使用通常不会被认定为侵权。然而,某些创意生成的语言模型,其输出的结果可能会与训练作品构成实质性相似,或其应用的市场与原作品的市场存在重叠,此时上述观点便缺乏解释力。在司法实践中,法院可能会裁定输出的结果、模型的部署等构成著作权侵权,不受合理使用原则的保护。比如,在广州互联网法院审理的“奥特曼案”中,由于案涉生成式人工智能输出的结果与奥特曼美术形象构成实质性相似,法院最终认定被告构成著作权侵权并要求其承担法律责任。这表明,生成式人工智能机器学习的合理使用判定的关键在于分析输出结果与版权作品是否构成实质性相似,若答案是肯定的,则需要进一步考察使用行为的性质和目的是否具有足够的“转换性”。通过个案的具体事实进行综合判断,方能勾勒出生成式人工智能机器学习的合理使用轮廓。


  考察使用行为是否出于商业目的或非营利的教育目的。对该要素的分析需要结合转换性使用的程度、对原作品市场的影响等其他因素进行综合判断。一般来说,非商业性的作品使用行为与合理使用制度内在的公益价值相契合,有较大可能构成合理使用。然而,在人工智能的产业实践中,从事基础模型研发的主体多为商业性质的互联网企业或科技公司,这使生成式人工智能机器学习的合理使用认定于该要素上处于劣势。此外,美国最高法院在2023年“安妮·霍尔案”中强化了“商业性使用”对合理使用认定的不利影响,提升了该要素在判定中的重要性,进一步增加了以商业目的进行机器学习被认定为合理使用的难度。


  判断是否为善意使用。生成式人工智能机器学习是否构成善意使用,与其数据来源的合法性密切相关,即是否规避或破坏著作权人所采取的技术措施。《生成式人工智能服务管理暂行办法》第七条第一项规定,开展数据训练处理活动应使用具有合法来源的数据和基础模型。因此,数据来源合法性是考察机器学习版权合法性的前提。例如,在美国的“纽约时报案”中,ChatGPT绕过了纽约时报所采取的技术保护措施“付费墙”,以逐字复制原作品的方式给未付费用户提供了文章《雪崩:隧道溪的灾难》(SnowFall:The Avalanche at Tunnel Creek)。这一行为将阻止机器学习构成合理使用。


  被使用作品的性质。版权保护的强弱与作品的性质紧密相关,虚构作品相较于事实作品会获得更充分的版权保护,因此,使用事实作品更容易构成合理使用,使用虚构作品则反之。当前生成式人工智能被广泛应用于广告、游戏等创意产业,其输出结果更容易与虚构作品或艺术作品构成实质性相似,存在较高的著作权侵权风险。


  需考量被使用部分在整个原作品中所占比例和质量。使用作品的比例要与其所实现的正当目的或功能相适应。以生成式人工智能机器学习为例,作品输入和模型训练阶段的作品使用是为提取海量作品中的语言表达规律,是技术开发过程中的非表达性使用,此时即便是完全地逐字复制也能被认定为合理使用。在结果输出环节,生成式人工智能根据指令生成符合用户需求的内容,此过程涉及对原作品的表达性使用。理论上应以少量使用为限,过量地使用原作品或使用其核心部分均不利于合理使用的认定。


  使用行为对原作品潜在市场或其价值的影响。该要素的考察与使用行为的转换性密切相关,也需要区分因构成著作权侵权而引发的市场替代效应与基于非著作权侵权行为所导致的市场竞争损害。通常而言,使用行为的转换性越弱,越容易被认定为著作权侵权,越有可能在“原作品的潜在市场”产生替代效应。以“下一个伦勃朗”项目为例,计算机通过学习伦勃朗的绘画风格、作品细节以及诸多伦勃朗作品片段,最终形成的人工智能系统能够根据指令“创作”出既具有伦勃朗绘画风格,又完全不同于其任何现存作品的全新数字绘画作品。然而,若伦勃朗的作品仍受版权保护,该人工智能生成的衍生作品将对伦勃朗作品市场产生替代效应,并影响其潜在市场,此时,机器学习便难以被认定为合理使用。


  通过上述分析可知,并非所有生成式人工智能的机器学习行为都能被认定为合理使用。在输出端非转换性使用与转换性使用的交织,使生成式人工智能机器学习的合理使用判定处于灰色地带,需要结合个案中的具体事实进行综合判断。即便主张生成式人工智能的机器学习构成合理使用,研发者要免于著作权侵权责任,仍要确保人工智能的输出结果与现有作品不构成实质性相似。因此,合理使用制度的适用因个案中输出结果的差异具有高度的不确定性,这既无法为基础模型研发者提供明确的法律指引,也难以完全满足行业实践的现实需求。(作者胡开忠系中南财经政法大学知识产权学院教授、博士生导师;江璐迪系中南财经政法大学知识产权学院2023级博士生)


来源:中国新闻出版广电报

|责编:牟研

二维码
黑龙江省版权保护协会
业务主管单位:
中共黑龙江省委宣传部 
黑龙江省版权局
社会登记管理机关:
黑龙江省民政厅
黑ICP备20004382号-1
Copyright © 2020 黑龙江省版权保护协会版权所有