张韬略等 | 开源大模型知识产权法律风险及防范

同济大学法学院 | 张韬略教授、博士研究生廖慧姣、刘烨、硕士研究生陈沪

楠哔哩哔哩法务团队 | 朱尧、曾逸然、曹蕾

目次   

一、引言

二、开源大模型的权益基础及开放风险

(一)开源模型的涵涉对象

(二)类型化视角下开源模型的知识产权基础

(三)开源的资产流失风险

三、开源模型孵化阶段的知识产权法律风险及应对

(一)知识产权侵权风险

(二)合同相关风险

四、开源模型市场化阶段的知识产权法律风险及应对

(一)知识产权类侵权风险

(二)合同类风险

五、结语

原文刊载于《电子知识产权》2025年第11

摘要:开源大模型的知识产权法律风险防范为其可持续发展的关键命题。从开源大模型的知识产权基础来看,模型本体仅受到有限的权利(权益)保护,模型输出在符合一定条件下可获得宽泛的知识产权保护。是以,开源行为可能会导致不同程度的资产流失风险。在开源孵化阶段,开源存在因利用他人受保护作品进行训练、复制他人代码组件而侵犯他人著作权的风险,需进行合规审查和溯源。为保证自身权益,企业需从覆盖范围、冲突风险以及模糊空白三大视角重新设定合理的许可证条款,并扩增贡献者许可协议的权利范围。在开源项目市场化阶段,模型输出内容易引发著作权和商标侵权争议,企业需履行提示以及过滤义务防止承担责任。此外,用户服务协议应注重“模型输入与输出”“限制竞争”以及“域外用户”等条款的设置,避免条款因违法或歧义而陷入无效困境。

关键词:开源大模型;法律风险;知识产权;许可证;贡献者许可协议


一 引言

DeepSeek等开源大模型的风靡为标志,人工智能产业正经历一场由开源驱动的技术创新及市场革命。在传统认知中,人工智能因其对算力、数据及技术的高度依赖,被视为由“少数巨头玩家”垄断的赛道。开源大模型通过集聚众多技术力量,以“滴水穿石”式的协同优化推动模型的技术创新及漏洞纠偏。这种通过惠普性技术扩散的商业战略正以超高的性价比优势,悄然削弱以美国闭源企业为核心的技术垄断,引发业界对开源模型生态的高度关注与积极响应。据麦肯锡于2025年发布的调研报告显示,在人工智能技术栈的多个关键环节中,超过50%的企业已开始使用开源模型技术。[1]

然而,开源模型在释放技术红利的同时,也因其开放性和技术结构复杂性而面临前所未有的知识产权法律风险挑战。如何构建制度性回应机制,以引导相关主体有效识别并防控风险,成为我国开源模型可持续发展的关键命题。开源模型项目在运行中高度依赖于一系列合同机制,如开源许可证、贡献者许可协议(CLA)以及用户服务协议等。但这些条款多继承自传统开源软件领域,适用于模型发布与应用时的效力边界仍存在较大争议。此外,开放发布往往加剧模型潜在侵权问题的暴露风险,使得开源模型在市场运行中面临更加尖锐的权利冲突与法律问责难题。

虽然现有研究已经关注到开源模型的创新价值[2],但大多侧重对其生态构建及治理问题的关切[3],对开源模型所内含的知识产权法律风险缺乏系统性的分析与应对框架:其一,现有研究对人工智能及其生成物的知识产权相关权益缺乏类型化探讨,特别是未区分模型中不同开放组件的保护边界,一旦进入公有领域,可能导致核心资产的不可逆流失;其二,关于开源模型所涉及的合同风险,多集中于用户服务协议的条款有效性,却忽视了许可证条款、贡献者协议等在人工智能应用场景中所面临的新型适用难题;其三,开源模型在“全生命周期”中,尤其是在孵化至市场转化阶段,其侵权风险呈现链条式、多元主体化特征,亟待进行系统化的侵权风险识别。

基于此,本文拟将开源大模型的生命周期划分为“孵化阶段”与“市场化阶段”,分别剖析其在不同阶段所涉及的知识产权合同风险与侵权风险,旨在从私法角度建构一套体系化的风险识别与应对机制,为我国人工智能开源生态的法治建设与制度创新提供理论支撑与实践指引。


  开源大模型的权益基础及开放风险

开源对象在法律制度上所能获得的权益保护程度,构成其能否有序开放及持续运行的根本前提,也是维系整个开源机制内在动力的核心基础。若缺乏明确的法定权利形态予以保护,相关组件便难以获得绝对权利上的保障,开源方只能依赖合同实现相对控制。因此,开源主体在决策开放策略前,必须优先识别其人工智能系统中各关键组件的权益基础,并据此构建相应的合同体系,同时预设与之相关的侵权责任预防机制。

(一)开源模型的涵涉对象

开源模型所涉及的技术内涵远超传统软件开源模式,其开源对象大体可分为两类:一类是人工智能模型本体,即包括实现与运行模型所需的各类技术组件;另一类则是模型的衍生物,即基于模型生成的输出内容。

1.模型本体:多组件构成的技术系统

人工智能模型本身由多个关键组件共同构成,其开源程度决定了下游用户是否能够有效实现“可使用、可修改、可再发布”的开源自由。这些关键组件主要包括:

代码。代码是人工智能系统运行逻辑的机器可读表达,包含从数据预处理到模型推理的全流程算法实现。代码可以被细分为数据预处理代码、训练代码、模型架构代码和后处理代码。与传统的开源代码支撑了开源软件分发、修改等自由一样,获得这些人工智能代码是人工智能系统复现、修改和优化的必要条件。如果仅开放编译后的模型二进制文件或推理代码,下游用户就只能使用模型而无法调整模型内部逻辑。例如,OpenAI未公开GPT-4架构代码,Llama 2也未公开训练代码,所以它们的核心训练逻辑并不可知。

参数。参数是模型通过训练数据学习到的知识表征,包含权重、偏置和其他可学习变量。参数可以被细分为预训练权重、微调权重和优化器状态等。这些参数是模型能力的实质载体和重要成果,是海量数据训练之后的最终成果,也是机器学习系统的独特之处。就当前顶尖模型的参数量而言,如果不公开相关的参数文件,使用者可能需要需投入数万GPU小时重新训练并且难以展开相关研究,这实质上剥夺了使用、改进和研究自由。

数据。数据是模型训练的知识来源,包含训练数据集、验证与测试数据集和元数据。对于严格定义上的开源,开放数据集显然是必要条件。然而,对于业界开发者们而言,这几乎是不可能的。除了公开数据集带来的潜在法律风险,高质量的训练数据几乎奠定了最后所诞生的人工智能的上限,通常也是大公司付出大量成本才得到的且渴望维护的竞争优势。在所有组件中,数据是否为开源模型的必要组件,是目前最大的争议。一方面,有观点认为在构建大规模人工智能时,获取数据可能比获取计算能力更重要。[4]另一方面,现实里许多标榜“开放”(Open)的人工智能产品往往不提供用于训练系统的基础数据,[5]更不用说公开提供基础训练数据本身。在训练数据缺乏透明度的情况下,自称开放的人工智能将很难进行科学的验证。

2.模型衍生物:输出内容

除模型本体外,开源模型还涉及其衍生产物,即模型生成的输出内容。该类内容通常指开源模型根据用户输入生成的文本、图像、音频、视频等生成式成果。虽然这些输出并非模型本体组成部分,但却直接体现模型的运行逻辑与功能边界,是用户实际交互的最主要成果形式。在法律上,模型输出的权益基础状态及归属问题尚无统一界定。模型输出既可能被视为自动生成的内容而不享有保护,也可能因人类介入或其他激励事由而获得保护。更为复杂的是,开源模型输出物是否应当受开源许可证或用户许可协议约束,以及约束范围如何界定,已成为当前法学与产业实践中的关键争议,下文将进一步展开分析。

(二)类型化视角下开源模型的知识产权基础

在传统软件开源领域,开源的核心要求是向用户提供完整的源代码及配套文档。在此背景下,源代码及配套文档作为成熟的知识产权客体,其可保护性已有明确界定。但是开源模型通常涵盖数据、算法、训练流程、参数等多维度组件,并可生成众多不同的输出内容,这些组件和输出的法律属性与可保护性却仍待进一步厘清。

1.著作权保护

1)模型本体

人工智能模型本身可解构为代码、数据、参数三类主要组件。首先,根据各国著作权法,具有独创性的代码可享有著作权。其次,根据现行法和司法案例[6],选择、编排具有“独创性”的数据集或数据库也可能获得著作权的保护。最后,参数并不符合作品构成的“作者要素”以及“独创性”要素,难以获得著作权保护。一方面,参数乃神经网络历经数据训练后的产物,其生成过程难以被人类具体控制,难以存在作者选择或安排的空间,无法“体现作者选择、取舍”的独创性要求,因而模型训练者难以称为模型参数的作者。另一方面,参数生成过程和最终表达基本贯彻“提高输出与期待输出准确度”这一功能意义,人类自由意志的空间很小,难以符合作品的独创性要求。

2)模型输出

随着知识蒸馏(Knowledge Distillation)等优化技术的广泛适用,合成数据对模型训练的作用也愈加凸显,模型生成物的可著作权性也成为重要的法律问题。以近期OpenAI在媒体控诉我国DeepSeek侵犯著作权为例[7],若模型生成物享有著作权保护,则利用他人模型生成物快速优化己方模型的蒸馏方式,很可能构成著作权侵权。

学理观点一般认为,著作权法并不保护非自然人的生成物,因此模型的直接生成物不应受到著作权法的保护。但也有观点将人工智能类比为纸笔、照相机等辅助工具,或从政策考量等角度,支持将人工智能生成内容(Artificial Intelligence Generated ContentAIGC)纳入著作权保护范畴。[8]司法实务中,中国首例“AI文生图”案即“春风案”[9]认为原告通过设计提示词、改变参数的做法体现了原告的选择与安排,因此具备“独创性”要件。这类以人类“提示词”视为自然人的选择,人工智能作为辅助工具的司法判决思路,也出现在国内其他一些判决中。[10]比较而言,美国版权局及法院对于AIGC可著作权性的态度更为审慎,如:艺术家杰森.M.艾伦使用AI图像生成工具Midjourney创作的绘画作品《太空歌剧院》,曾因“非自然人创作”为由被驳回版权登记。但该从严认定思路在近日似乎有所放松。2025129日,美国版权局发布了一份《生成式人工智能输出的可版权性报告》,指出若生成式人工智能仅用于协助实现作者表达,而非自行做出终局意义的表达选择,AIGC可能受著作权保护。随后美国版权局从自然人“对人工智能生成材料的选择、协调和安排”角度,对人工智能参与生成的视觉作品《一片美国奶酪》进行登记。虽然从视觉效果对比来看,《一片美国奶酪》最终版本与原始输出之间的差别,并不显著优于已被驳回的《太空歌剧院》[11],但该案用户对画作的局部控制和后期参数调整比较明确,能够体现作者对修改部分的“直接”干预以及“选择、协调和安排”。该案说明了美国人工智能输出在加入了作者具有独创性表达的特殊处理之后,在整体上可能作为汇编作品受到著作权法保护的可能。

就模型蒸馏而言,大量使用的AIGC似乎难以契合著作权保护要求。因为在知识蒸馏中,教师模型的输出(软标签)是基于输入数据自动生成的,通常不需要人为设计大量特殊的“提示词”(例如“春风案”)或进行后期的大量调整操控(例如《一片美国奶酪》案),其最终目的在于获得不同类别软标签的概率分布,并以此为目标训练学生模型。这类模型输出显然难以符合人类创作行为直接产生独创性表达这一要求。因此,模型蒸馏所涉及的AIGC难以满足可著作权性要求,不应受到著作权法保护。

2.商业秘密保护

1)模型本体

模型本身或其各个组件只要符合“秘密性、价值性以及保密措施”三大要件,就可享有商业秘密保护。彻底的“开源”,毫无疑问会导致商业秘密的丧失。因此,如果模型或组件(例如模型权重)无法获得如专利权或著作权等其他知识产权的保护,则企业需要慎重考虑是彻底“开源”即完全放弃商业秘密,还是局部“开源”即部分放弃商业秘密。

2)模型输出

此外,知识蒸馏背景下,AIGC是否可构成商业秘密获得保护也成为值得关注的另一话题。有学者提出,根据信息的处理、管理和使用方式,AIGC有可能会成为潜在的新商业秘密。[12]然而,AIGC是否构成商业秘密,不能泛泛而论,必须根据个案事实认定是否符合秘密性或采取了保密措施。例如,如果某个大模型已经可以在市场公开可用,那么其AIGC通常也处于相对人员普遍知悉或容易获得的范围,不符合商业秘密的秘密性要件。相比之下,企业内部专属训练出来的大模型,其AIGC如果采取合理的保密措施(如GPT所设置的诸如输出限制、访问控制等技术手段),有可能符合商业秘密的构成要件。但是,即便是公开使用的模型,如果用户输入了特殊的不为公众知悉的信息,并对产生的新的不为公众知悉的AIGC,而且采取了保密措施,也有可能符合商业秘密的保护要件。

3.专利保护

由于人工智能系统及其构建方法属于典型的技术方案,模型本身通常不会因不符合专利客体要求而受到申请阻碍。然而,当细化到人工智能系统的各个组成部分时,是否具备可专利性便成为一个颇具争议的话题。例如,单纯的数据集合或模型参数,因其本质上不构成技术方案,通常不符合现行专利法中关于技术特征的基本要求,故难以获得专利保护。在所有开源对象中,最具争议的莫过于两类内容:其一是模型所依赖的算法,因其是否属于专利法不予保护的抽象思想而广受争议;其二则是模型的输出内容,非人类创制是否会影响其可专利性。因此,本文接下来的分析将重点聚焦于上述两个方面,即人工智能模型中的算法及输出内容的可专利性问题展开讨论。

1)算法的可专利

性尽管学界有各种争议观点,[13]但计算机程序、算法自身不可专利,而包含算法且具有技术特征的人工智能发明具有可专利性,在我国和欧美专利法实践并无争议。

我国专利法实践基本支持人工智能相关的算法专利申请,但也以具备技术特征为前提。2019年,《专利审查指南》在面向计算机程序的第九章增加了第6节“包含算法特征或商业规则和方法特征的发明专利申请审查相关规定”。随后几年内,该节内容又进行了陆续修正。202412月,国家知识产权局出台《人工智能相关发明专利申请指引(试行)》,针对人工智能算法或模型本身的相关专利申请进行了特别规定。据此,在撰写涉及人工智能算法类发明专利申请的权利要求书时,需要明确体现算法的各个步骤与所要解决的技术问题“密切相关”。具体而言,使用该算法处理的数据必须具有确切技术含义而非抽象数据概念;处理过程要体现出对该数据进行了符合自然规律的处理;经过该算法处理后的输出数据,也要有确切技术含义而非抽象数据概念;以及算法的执行能解决一定的技术问题并获得技术效果。

《欧洲专利局审查指南》[14]认为,人工智能和模型是“基于分类、聚类、回归和降维的计算模型和算法,例如神经网络、遗传算法、支持向量机、K均值(K-Means)、核回归(Kernel Regression)以及判别分析”。本质上,这些模型具有抽象的数学特性,即使它们可以基于训练数据进行“训练”。因此,这些模型与数学方法类似,仅在它们对发明的技术特性作出贡献时,才具有专利性。在评估其贡献时,关键在于这些模型在发明背景下是否服务于某种技术目的。该审查指南强调,人工智能和机器学习在许多技术领域都有应用。例如,神经网络被用于心脏监测设备中,以识别心律不齐;算法还可用于基于低层次特征(如图像的边缘或像素属性)对数字图像、视频、音频或语音信号进行分类。此外,当某一分类方法服务于技术目的时,“生成训练集和训练分类器的步骤如果有助于实现该技术目的,也可以对发明的技术特性作出贡献”[15]

2)人工智能生成物的可专利性

从目前专利申请实践来看,并没有真正出现完全由人工智能自动生成的技术方案。然而, 科学杂志中与人工智能相关报告似乎表明了相 反的情况,并使许多人相信,目前人工智能本身已经能够自主产生可专利的发明。乔·马钱 特(Jo Marchant)的《使用人工智能发现强效 抗生素》、罗伯特·塞奇威克(Robert Service) 的《人工智能指导材料突破性研究——决策算 法改变机器人评估和合成太阳能电池及其他材 料的方式》以及德里克·洛(Derek Lowe)的 《人工智能设计有机合成》等文章都是这类观点的例证。[16]

美国“创意机器”专利5,659,666US666)是这类讨论和实践的最初范例,但实际上是关于用以生成技术方案的这类发明本身的可专利性,而且仔细研究可以发现,其并不具备完全自主产生技术方案的能力。US666涉及一种“用于自主生成有用信息的装置”。主要目的是“教授一种用于模拟创造力的创新构造与运行方式”。其任务是:“通过使用神经网络模拟人类创造力,该神经网络经过训练以生成特定知识领域内的输入输出映射;使用一种装置对神经网络进行扰动,从而改变预定知识领域;神经网络具有一个可选输出,能够将输出传递至第二个神经网络,后者基于其内部训练评估并选择输出内容。”该专利的说明书指出:“本装置代表了一种新方法和人工神经网络(ANN)的一种新应用,系统能够综合行动方案和原创设计或创作。该等系统被称为自主系统或‘创意机器’,可以完成超越技术发明的想象性壮举,进入美学和情感领域。”[17]该说明书及附图详细披露了涉及的ANN的整体结构和运行机制。它还详细描述了一些实例,其中之一是咖啡杯的设计:“在设计咖啡杯时,应结合美学和实用偏好相关的各种选项,并将这些信息编码到AAC中。这可以通过计算机代码实现,该代码生成各种长度的垂直对齐条纹,共同构成杯型或潜在的杯子设计”。从说明书的描述可知,这类“创意机器”虽然可以协助设计(例如咖啡杯),但依然需要一系列人类的参与,例如问题的提出、其输入装置的方式、必要训练数据的选择与提供/访问、使用适当的计算机代码对高级音频编码(advanced audio-codingAAC)信息进行编码等过程,以作为发明构思的决定性部分。

第二个经常被提及的机器生成发明的例子是DABUS专利申请案。在该案中,斯蒂芬· 萨勒(Stephen L. Thaler)在2018年向美国专利商标局(USPTO)、欧洲专利局(EPO)和英国知识产权局(UK IPO)提交了其专利申请时均未列出发明者。后面应EPOUK IPO的要求,将一台名为DABUS(统一感知自动引导设备)的机器列为该专利申请的发明人,且主张自己为该人工智能系统的雇主,但被欧洲专利局驳回。[18]

综上,目前尚未存在“人工智能生成物可否专利性”的确切案例,但对于AI能否成为专利法意义上的发明者却已有一定讨论。由于创意机器依然必须在自然人的支配和控制之下进行创造,再加上目前各类大模型都约定生成物权利属于使用者,因此大模型如果协助人类完成了发明活动,则AIGC有可能成为发明方案的组成部分,但发明人署名必须是自然人。此外,发明人仍应对发明创造的实质性特点作出创造性贡献,例如在技术问题的提出、技术路线的选择、模型数据的提供等方面,实质控制着发明活动并影响最终的发明方案。

4.数据权益保护

作为大模型的开发者,企业可能在数据采集和使用过程持有某些特定数据。例如用于训练模型的大规模数据集。此外,大模型训练后生成的衍生数据(如训练过程中产生的特征、模型输出、预测结果等)也可能具有新的价值。围绕这些原始数据或衍生数据,企业如果采取保密措施,很有可能享有商业秘密保护;如果对数据采取具有独创性的选择、编排,则可能享有汇编作品的著作权保护,在欧盟国家还可能享有数据库的专门保护。如果企业未采取任何保密措施,将这些数据以特定方式公开展示在企业网站上获取流量,且其独创性不足以获得作品保护的,仍可在一定条件下享有反不正当经济法保护的法益。我国司法裁判也确认了企业对于数据在一定条件下享有竞争法意义上的财产性权益,他人未经许可不得擅自进行抓取和实质替代性的使用。[19]然而,在正式投入市场前,大模型企业需要明确这些数据的原始权属并进行合规审查,否则很容易引发各种法律风险。

(三)开源的资产流失风险

开源行为意味着需要将其成果部分或全部开放给公众使用,除可能降低其竞争优势外,也可能导致其核心技术成果的流失,主要包括以下三类风险:

其一为商业秘密保护丧失的风险。根据上文分析,模型组件等其他核心信息都可能受到商业秘密的保护。企业若选择开源公布某些模型组件,将导致某些本可通过商业秘密进行保护的信息因直接丧失秘密性而失去法律保护的可能性。由于模型的权重难以获得专利、著作权保护,若将其开源则无异于直接流入公有领域。此外,模型开源也加大了竞争对手通过反向工程获取其他商业秘密的风险。即使某些核心的技术信息并未予以公开,如当前普遍不予开放的模型的架构信息、算法逻辑等,但通过对开源的其他组件进行反向工程,竞争对手更容易提取出这些关键信息。以知识蒸馏技术为例,竞争对手可利用开源模型提取其关键内部输出,进而学习该模型的“知识”,即使这些知识信息并未以开源形式提供。除知识蒸馏外,还存在参数的逆向工程、架构的逆向工程等技术。

其二为影响专利申请和布局的风险。企业自行实施的开源行为并不属于《专利法》第24条“不丧失新颖性”的例外情形[20],因此在模型开源之前,企业需提前进行专利申请布局,否则可能会影响相关技术的新颖性,导致企业后续无法获得专利。

其三为作品思想、技术构思被轻易借鉴,扶植了竞品的出现。企业普遍通过著作权保护软件代码。然而,人工智能模型的代码贯穿于数据预处理到模型推理的全流程,直观地体现了模型中算法如何运行、模型如何搭建结构以及模型如何训练、更新、优化等核心技术信息,而不仅是软件实现的某种表达。这些核心技术信息属于人工智能企业中最具竞争力的创新成果和资产,若将包含技术构思的代码开源发布,仅可获得“表达”层面的有限保护,核心思想却可被轻易借鉴,很容易出现“换皮”的竞争产品。


 开源模型孵化阶段的知识产权法律风险及应对

孵化阶段指从人工智能项目立项、开源发布前的技术准备和开发阶段、开源项目发布阶段、发布后的社区运营和维护、最后到项目逐步成熟到足以转化为产品或服务的整个时期。这个阶段涵盖开源规划、数据准备、模型研发、内部测试、开源合规预审等核心环节。开源数据准备阶段包括训练数据的采集、清洗、标注及预处理等,可能涉及到数据的著作权争议、隐私合规等。在代码编写阶段,涉及到代码合规审计,例如使用了在先开源代码或模型,还必须考虑许可证兼容性等问题。总体来看,开源模型的“不可撤回性”可能会造成一些无法挽回的负面影响,而且孵化阶段的法律风险具有潜伏性,未能察觉或妥善处理的侵权或合规隐患可能随开源行为进入市场化阶段后显化。比如,如果在项目孵化的开发阶段使用了未经许可的版权材料进行训练,在后续的市场化阶段中,模型就有可能输出侵权内容,典型的例子如微软公司和OpenAI公司的代码自动生成工具Codex模型。[21]

(一)知识产权侵权风险

针对开发阶段拟使用的第三方技术、作品等,企业应注意取得合法授权,避免引发侵权风险。开源项目的公布行为更容易向同行暴露潜在的故意或疏忽的侵权行为。以2024年斯坦福团队“Llama3-V”模型被爆抄袭中国团队“MiniCPM-Llama3-V 2.5”事件为例[22],该两项模型都被发布至开源社区。因存在藤校光环,斯坦福团队开源的模型迅速获得了社区广泛关注。然而,社区成员通过对比二者开源的代码以及架构,发现斯坦福团队“Llama3-V”与中国团队开源的模型高度一致。该事件对这一初创团队的信誉造成了极大打击。因此,企业在前期需根据技术路线发展获取授权,在开源发布前,应提前评估己方模型的“侵权风险”,谨慎开放某些“高危”组件。

1)著作权侵权风险

开源项目开发与测试阶段所涉及的一般著作权侵权风险主要存在下述两类:未经授权使用他人受著作权保护的材料训练模型;未经授权复制他人受著作权保护组件开发模型。

一是未经授权使用他人受著作权保护的材料训练模型。若训练时使用他人受著作权保护的材料,可能涉及著作权的侵犯。在该类风险中,主要存在两个核心争议问题:其一是内部训练行为是否构成著作权意义上的复制侵权行为;其二是如果构成,是否属于合理使用。

目前针对机器训练的中外司法案件,都是针对输出端(或同时捆绑输出端)的行为,例如我国“杭州奥特曼AI侵权案”与美国“Thomson ReutersRoss Intelligence”案。如果大模型输出了与在先版权作品实质相同的作品时,只要满足“接触+实质性近似”要件,就可以认定为版权侵权,对此业界争议不大。但应该指出,目前尚无纯粹针对机器训练内部行为(而不包含输出的AIGC涉嫌版权侵权的事实)的案件。这主要与内部训练行为的不透明和隐秘性导致证据缺失有关。[23]此外,从支持技术创新的角度,有部分学术观点认为,鉴于训练中的作品使用具有“非特定性”,且属于生成过程中的中间使用,也仅对人工智能这一基础工具具有增强效应,因此将他人受著作权保护的材料用于模型训练属于“非作品性使用”,该种使用不构成侵权。[24]另有观点通过剖析复制权,认为训练行为中对作品的复制因不符合复制权“固定性+传播性”中的“传播性”要件,而不构成对复制权的侵犯。[25]

由于我国《著作权法》第24条合理使用条款采取“封闭式列举”的立法模式[26],模型训练行为既不属于该条款下的合理使用情形,亦不存在“法律、行政法规规定的其他情形”,因此从严格的文义解释来看,模型内部训练行为难以纳入我国合理使用范畴。然而,我国司法实务中已多次借鉴美国的四要素分析法(作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响)[27],且我国司法政策也给四要素的引入提供了一些支持。[28]相比之下,美国的合理使用制度具有较大的弹性,可以在个案里适用于机器训练的场景。近期Anthropic案和Meta案的发布标志着,美国法院首次认可人工智能训练数据属于“合理使用”范畴。Anthropic案中,法院将训练整体过程切割为单纯的训练及前期的数据准备阶段,并认为单纯的训练行为与人类学习类似具备极高的转换性,在未有证据证明模型输出与训练内容一致的情况下,训练行为并不影响原作品的潜在市场,而那些依据合法来源所进行的数据准备行为亦因属于训练所必须且未侵害著作权人合法权益而被认定具有转换性。[29]Meta案将单纯的训练和前期准备行为视为整体的训练过程,同样认为训练具有变革性,但在第四要素“使用对市场的影响”中特别强调不同于人类学习,“如果模型能够生成与原作品相似的作品”则可能削弱原作品的市场,这将对人工智能开发者不利。不过由于该案的原告并未提供关于市场稀释的证据,因此本案最终认可了模型训练的合理使用构成。根据上述两案的判决,法官都不约而同地将第四要素“使用对市场的影响”作为认定训练是否构成合理使用的关键因素。[30]因此,如果特定模型训练是针对特定在先权利人,训练之后对在先作品的替代性很强,则可能对在先作品潜在市场或价值造成重大影响而不符合合理适用。例如,近期公布的“Thomson ReutersRoss Intelligence”案[31]认为,由于Ross Intelligence的作品使用性质是商业使用,其训练目的在于开发与Westlaw案例检索相竞争的产品,不存在其他转化性使用目的,这将对Westlaw案件检索的市场价值产生不利影响,因此不构成合理使用。

总体来看,中、美立法机构尚未明确是否针对模型训练阶段的著作权进行特殊限制,而欧、日近年的著作权权利限制制度改革虽然允许科研性质的大数据挖掘和机器训练,但也规定了权利人的退出机制。因此,对于为孵化开源项目而开展机器训练的企业而言,即便可以主张科研例外,因训练行为所引发的著作权侵权风险似乎难以完全避免。企业只能尽量建立正版训练数据的采购通道,对训练数据集进行合规分析及审查(特别关注同类别市场下训练素材的合规性,如法律市场、插画市场等),以保证训练数据的合法性。

二是未经授权复制他人受著作权保护组件开发模型,涉及的侵权对象多为代码。人工智能的代码贯穿模型开发的全部流程,包括数据预处理代码、训练代码、模型架构代码和后处理代码。代码侵权风险对于人工智能产品将造成巨大的影响。一方面,在被诉侵权且对方已有初步证据时,为证明己方未侵犯对方代码著作权,可能会被要求提供被诉AI模型的真实、完整源代码,这对于企业的技术秘密将造成巨大威胁。另一方面,若被判侵权,也可能面临高昂的赔偿损失,且此时若适用停止侵权责任,诸如模型架构代码等的底层代码进行更迭的成本过高。以近日公布的“美摄诉字节侵犯代码著作权案”为例[32],法院便要求字节提供被诉侵权软件抖音的真实、完整源代码,在字节拒绝提供完整源代码后,法院判处了较高的赔偿金额。

一般而言,代码侵权需特别注意下述情况:

第一,员工使用前雇主的代码。人工智能顶尖人才的争夺正步入白热化阶段。[33]虽然这种人才流动可为行业诸如创新动能,但同时也暗藏技术成果流转的法律风险。若员工在任职期间复制了在其他企业任职期间所接触或创作的代码,这将为未来产品开源或市场化造成巨大的风险。美摄诉字节侵犯代码著作权案中便涉及这类。在该案中,美摄公司通过提交离职员工持续提交代码的SVN日志,以此证明该离职员工在任职期间参与类似软件的研发,存在直接、全面的接触可能,法院认可了相关证据。为避免己方代码流失的风险发生,企业除设置竞业协议外,还应建立完善的代码管理及追踪制度,留存代码开发时间戳、历史版本等日志。为日后此类争议留存相应的“接触”证据。而为避免非法代码的流入,企业可要求新入职员工签署《技术成果来源承诺协议》,明确其贡献代码的原创性,对核心人员的既往技术成果进行备案登记,认真审查可疑代码(例如与在先任职单位已发布产品的相关度和相似度)的流入,以此减少可能的侵权风险和降低自己的侵权责任

第二,未遵循许可证使用开源代码。AI项目的开发中,如果需要复制开源代码或在开源代码基础上进行改编时,应当注意须遵循许可证的要求。尽可能选用较宽松开放许可证下的开源代码,如Apache等,而慎重使用许可证中包含“商业用途限制”、“模型衍生作品”分发限制等要求的开源代码。以千问研究许可协议为例,若复制了该许可证下少量的模型代码,其使用材料的行为如想用于商业用途,则必须向通义另行申请商业许可,此外使用该部分开源代码所开发的AI模型还必须在产品文档中显著标明“基于通义千问构建”或“使用通义千问改进”字样。实践中,开发者还可能从非官方渠道(例如未标注许可证的GitHub代码仓库)直接复制代码片段,导致引入无明确授权或存在版权瑕疵的代码。即使代码未明确标注“禁止商用”,只要未获得授权,擅自复制即可能埋下将来的侵权法律风险。项目组应该建立代码分类管理制度,区分外部开源代码、内部自编代码和商业代码的边界,防止交叉污染。对大量使用开源代码的项目,需要按照传统的开源代码管理制度,依照许可证类型进行开源代码管理,确保代码的组合使用符合许可证兼容性的要求。

(二)合同相关风险

1.开源许可证开

源项目发布阶段,企业应重点考虑开源许可证的选用或设计,这关系到模型发布后许可协议的有效性、适用性以及可执行性。在许可证的选择和设计中可能会存在下述风险:

1)传统软件开源许可证对开源模型的覆盖不足

软件时代下的开源许可证依然在开源模型领域被广泛使用。然而,由于人工智能的组件构成、开源方式相较软件而言复杂太多,传统开源许可证适用于人工智能时将不可避免引发诸多兼容危机。以适用范围最广的旧许可证Apache 2.0为例。首先,Apache 2.0协议设置的知识产权许可范围有限。根据Apache 2.01条(作品定义)和第2条(版权许可),该许可证主要覆盖以代码为核心的作品。然而,人工智能模型涵盖多重组件,诸如数据集等其他内容同时也可能构成作品,关于这类非代码类作品的许可却欠缺关注。其次,Apache 2.0 许可证并未涵盖非知识产权对象的许可内容。Apache-2.0协议仅包含两类许可,一类是版权许可,另一类是专利许可。然而,除作品和专利外,人工智能模型还存在权重、训练数据(非可著作权性的数据集)等无法受到知识产权保护的组件,需另行对这些组件作出规定。最后,许可证未能对AI模型输出等价值性信息的权属以及使用方式进行额外澄清。目前,模型推理或生成内容的权属及使用问题已经引发了诸多争议,如AIGC的著作权权属争议、对AIGC的使用行为限度等。总而言之,当前以Apache 2.0协议为核心的传统开源许可证仅能处理以软件“代码”为核心的许可问题,难以有效覆盖其他类型的知识产权客体、非知识产权覆盖组件以及模型生成内容等重要资产的授权许可及使用限制,企业在管理开源AI项目时,应慎重选择传统开源许可证。

2)开源许可证之间存在冲突的风险

在开源模型(AI)项目中,开源许可证之间的冲突也同样是一个重要的法律问题,尤其是当多个AI项目或模型整合时。这种冲突主要存在两类情况:一是所选择开源许可证与上游开源许可证之间的不兼容;二是同时适用不同类型开源许可证所引发的冲突。

对第一类情况,开源AI项目往往可能也适用了大量开源模型的外部组件,这些组件可能是已开源的数据集、训练代码等。例如,若所开源模型为在META旗下Llama模型基础上的衍生模型,根据Llama所自创的许可证要求,微调者开源其衍生模型时,必须遵循相同的许可证或分发限制要求。由于不同开源许可证对组件的使用、修改、分发和再分发规定不同,AI模型所涉及的组件又众多,其兼容风险更为尖锐。对第二类情形,由于传统许可证通常仅覆盖代码组件,对参数、数据集等组件束手无措,因此,开源方可能会在同一个开源项目中,针对不同的人工智能组件采用并行的开源许可证。例如,代码适用传统开源许可证,而针对参数、数据集等组件,则选择其他类型的开源许可证。这种一个开源项目存在超过两种以上平行许可证的情况,可能引发许可证冲突的风险。

一方面可能涉及使用限制的冲突。许多新型的开源模型许可证包括了商业用途、使用行为等限制。假设数据集适用禁止商业用途的CC-BY-NC-4.0,而对参数适用允许商业使用的许可证,将导致完整的AI项目无法同时满足不同的两项条款。另一方面还可能涉及衍生品的认定及使用冲突。如果代码、权重以及数据集适用不同种类的许可证,各自规定将改进成果视为衍生作品,并对衍生作品的后续授权、使用进行规定,也可能导致衍生作品的重叠问题,此时可能需要同时遵循不同许可证的要求。而如果许可证之间难以兼容,也会导致冲突。

3)许可证条款设计的模糊及空白风险

人工智能项目比一般软件更为复杂,如果企业对开源项目有特别的需求,而许可证条款没能进行清晰说明,也可能引发后续争议。这些争议有可能涉及许可对象、权利、限制的范围,乃至争议解决方式等,因此开源方在涉及许可证条款时应当注意:

第一,厘清许可协议涵摄对象的范围。开源AI项目通常涉及模型本身的流程代码、参数以及用于不同目的的数据集等三类组件,但具有较大价值的输出也必须考虑在内。此外还应关注模型衍生品:不仅包括“开源模型”本身的修改品,还包括利用开源组件或材料进行创建、训练、微调或改进的其他模型。因此,AI开源许可证的术语定义有必要扩增涵摄的对象,即AI组件及AI输出,而不仅限于代码,并重新定义协议所需规范的开源“衍生品”。以Gemma许可证为例,其在第一条“术语定义”明确指出“‘Gemma’指ai.google.dev/gemma列出的机器学习语言模型及其训练权重参数……‘输出内容’指运行Gemma/模型衍生作品生成的信息内容。”以及“‘模型衍生作品’包含:i.Gemma的修改版本;ii.基于Gemma开发的作品;iii.通过迁移Gemma权重/参数/输出生成的模型(含蒸馏方法等);(注:输出内容不视为模型衍生作品)”。

第二,扩增协议许可权利范围。开源AI项目中涉及的知识产权更为复杂,还包含非知识产权类的权利,有必要扩展权利许可条款的许可范围。例如,腾讯混元社区许可协议仅设置了“知识产权的许可条款”,相比之下,通义千问研究许可协议的“权利授予”条款中,特别将授权范围扩增至“基于我方在材料中拥有的知识产权及其他权利”。将“其他权利”纳入许可范围,在一定程度可以涵盖未来因“权重”等非知识产权对象产生的许可争议。

第三,特别增设许可限制条款。开源模型项目所需特别关注的许可限制主要包括三类,商业限制、使用限制以及开发限制。首先,在商业限制中,开源项目管理者必须考虑是否禁止商业使用或如何设置例外。有的企业针对“月活用户数大”或将模型“用于商业目的”的用户,设置了“申请许可”的限制条款,包括但不限于腾讯旗下的混元模型、阿里旗下的千问70B模型以及Meta旗下的Llama。设置这类商业限制条款的企业通常已在“网络服务提供市场”占据一定市场地位,其限制通常结合企业自身市场定位进行调整,目的在于避免竞争者影响其市场地位。其次,许可协议的使用限制条款还可用以限制下游用户的滥用行为,以为开源方建立免除或减轻责任的抗辩理由。当下游用户滥用开源AI从事违法行为时,开源方可藉此抗辩其“已尽到合理的注意义务”,从而免责或减轻责任。最后,开源AI的开发限制特指限制第三方利用开源AI开发或改进己方模型的行为。与商业限制不同,该限制的目的是避免或减少“模型市场”出现直接竞争者。

应该指出的是,如果开源项目管理者同时是市场产品或服务的提供者(也即进入市场化阶段),这类由经营者实施的限制性条款,可能会触及《反垄断法》审查或违反“技术合同的相关要求”的司法审查。尤其当经营者在细分技术市场具有显著影响力时,实施这类限制性行为可能会涉嫌构成滥用市场支配地位而被无效。另一方面,开源AI项目的许可证也可被视为一种技术合同,而《最高人民法院关于审理技术合同纠纷案件适用法律若干问题的解释》第10条将限制当事人一方在合同标的技术基础上进行新的研究开发或限制其使用所改进的技术视为“非法垄断技术”,为避免这类开发限制条款陷入无效,该条款设定时不应非法限制标的技术的创新或发展。总而言之,该种开发限制条款仅在非支配地位且条款设计合理时更可能被认可,可尝试采用“时间限制”或“特定行为限制”的构造方案,用以调整该条款的无效风险,如限制第三方利用(细化利用方式)开源AI(增设一定期限内)开发或改进己方模型的行为。

第四,增加模型输出内容的权属规定。企业在向用户交付模型或提供模型服务之后,模式输出是用户输入和模型自身功能的混合物。为了争取更多的注册用户和付费用户,推广模型的应用范围,企业向用户让渡自己模型输出内容的各种权利和权益,是最为明智的选择,也是当前许多大企业的做法(参见表2-2)。在目前AIGC版权争议案件里,法院通常也会审查这类权属约定。例如,“春风案”中[34],法院虽认为“原告为作者”而享有著作权,但同时指出“涉案人工智能模型的设计者,在其提供的许可证中表示,‘不主张对输出内容的权利’,可以认定设计者亦对输出内容不主张相关权利”。在“伴心”案[35]中,法院也关注了AI服务提供商就模型输出权属的条款内容,认为Midjourney软件用户协议约定使用软件服务生成图片作品的资产及其权利属于用户,并当庭登录创作平台,对登录过程、用户信息以及提示词修改等图片迭代过程进行审查。法院以“当事人提供的涉及著作权的底稿、原件、合法出版物、著作权登记证书、认证机构出具的证明、取得权利的合同等作为证据”,认定原告为权利人。其中“取得权利的合同”便为用户协议中“输出内容的权属约定”。总之,虽然当前对该项权属规定内容的定性尚不清楚,但从现有判例来看,许可协议的约定对后续争议的解决存在一定影响,企业有必要进行事先约定。

第五,增加涉外争议解决条款。这一争议解决条款应特别包含准据法选择以及争议解决机制。根据《涉外民事关系法律适用法》第41[36],开源许可证通常面向全球用户,但鉴于不同国家法律的特殊要求(法律体系的差异),其在不同国家的法律适用性可能存在差异。应合理考虑适用的准据法,以保证许可证的效力及可执行性。此外,在地缘政治博弈加剧的背景下,开源AI协议相关争议解决已演变为技术主权争夺的数字战场,争议解决机制的慎重选择对于保障开源方企业的利益而言至关重要。是以,各大开源企业纷纷在其自制许可证中设置了有利于己方的争议解决条款,如Meta在其Llama协议中规定“本协议受加利福尼亚州法律管辖(不含冲突法原则),《联合国国际货物销售合同公约》不适用。因本协议产生的争议由加州法院专属管辖”,阿里则选择适用中国法律,并规定由杭州市人民法院专属管辖以解决协议相关争议。

2.贡献者许可协议

开源项目通常接受外部贡献者的代码或技术建议,因此必须从最初就确定相关的权属,避免后期就开发、使用乃至维权等事项产生争议。贡献者协议本质上是一种知识产权(技术)许可合同,即合法拥有技术或知识产权的权利人,将现有特定的专利、技术秘密、著作权等的相关权利许可他人实施、使用所订立的合同。贡献者协议通常由项目方自行进行设定,重点涉及贡献者授权项目方的权利及范围(通常包括著作权、专利权等)以及贡献者原创声明。

贡献者许可协议对于开源项目具有重要意义,通过开源快速获取“技术反馈及迭代”本就是开源这一竞争策略的特有优势,若无法利用这些社区贡献,开源策略的优势将大打折扣。若开源项目方未与贡献者之间签署CLA,或其他类似条款,则意味着项目方不享有贡献者的知识产权授权,如果涉及涵盖贡献者成果项目的再开源、使用、转让等行为,则需先行获取许可。这将极大制约项目方的后续商业行为。目前已经发生了因贡献者协议而影响开源项目后续发展的先例,Mozilla便曾花费数年时间获取过去贡献者的授权许可,以重新授权Firefox等相关软件。因此,开源方应当要注重贡献者许可协议的内容设定,对于可能涉及的知识产权进行提前布局。除CLA之外,利用开源许可证(设置类似的自动许可条款,如Apache2.0许可证第5[37])和开发者原创证明(Developer Certificate of OriginDCO)亦可达到类似效果。

对比于软件时代下的CLA多仅针对代码的著作权或软件所涉及的某些专利,开源模型项目所涉及的许可范围要广泛的多,特别包含数据的著作权和使用授权、模型所涉及的其他知识产权等。一方面,对开源模型的微调等“贡献”可能涉及训练数据的许可,贡献者协议中应特别确保“贡献者提交的数据集是合法的,且有权进行使用、授权”以及“训练数据的许可范围”,另一方面,开源模型将包含更多的创新技术方案、作品等知识产权,贡献者协议须特别扩张贡献可能涉及的权利范围。此外,开源模型的安全和隐私问题更为尖锐,不仅限于代码安全、漏洞等方面,因此贡献者协议需要特别关注贡献所引发的安全等缺陷,事先特别约定好承责方式和范围。


 开源模型市场化阶段的知识产权法律风险及应对

市场化阶段指开源模型已经孵化成功后,由开源项目管理者或者第三方以模型供应商、服务提供者的身份向市场推广应用。在市场化阶段,伴随着法律身份的转变,法律风险呈现出升级和扩散的特征。首先,项目管理者面临开源项目的后期开发和应用是否转向闭源的决策,并需承担部署者或提供者的相关市场风险,例如服务提供商的违约或侵权责任。其次,模型提供者将无法继续享有科研性质或开源下的豁免,必须承担起模型部署者、使用者等同程度的法律责任。虽然目前我国尚未有类似制度,但从侵权原理来看,开源为普惠性的技术行为,即使他人使用衍生模型投入市场引发民事侵权纠纷,一般也不应由开源项目管理方承担责任,除非其明知开源模型必然会导致侵权行为。但若开源管理方转而向公众提供大模型市场服务,则理应与一般的服务提供或模型部署者履行一致的注意义务。值得注意的是,由于开源是一种生态建设,因此在市场化阶段,开源项目的运营和维护仍可能持续着,例如开源社区管理、模型更新和优化、开源许可等依旧是同步进行的。这时候必须根据不同的行为性质,判断不同的法律责任和法律风险。

(一)知识产权类侵权风险

1.输出内容的侵权风险

1)输出内容侵犯他人著作权

若模型输出的内容与他人受著作权保护作品实质性近似,则可能构成著作权侵权。在该类情形下,有必要进行一定区分:利用受著作权保护作品训练模型,从而输出与他人作品实质性近似的作品,以及未进行训练,但仍输出与他人作品实质性近似的作品。目前的司法判例主要涉及第一类情形,无论是“奥特曼”案[38],还是“Thomson Reuters v. Ross Intelligence案”[39],都同时涉及“训练+输出”两个步骤,因此,该部分争议本质在于考察,训练行为是否侵犯他人著作权,故在此不作赘述。对于模型并未使用受著作权保护作品进行训练,却仍输出了与他人作品实质性近似作品的情况,可类比于人类并未“接触”他人在先作品,却生成了实质性近似的内容。在此,模型主体可通过举证其“训练数据不涵盖侵权内容”“内容为独立生成的技术日志”等证据证明其不存在“接触可能性”,从而规避权利人的侵权指控。

然而,在这类情形中,还存在两种特殊情况:

其一,模型主体未用侵权内容训练模型,但用户输入了侵权内容致使输出与他人作品实质性近似的内容。在因用户输入所导致的争议中,即使模型提供方未直接实施侵权行为,若其未在输入输出端采取著作权审查或过滤措施,仍可能因未尽到合理的注意义务而被判定承担间接侵权责任。在“奥特曼”案[40]中,法院认为,尽管模型服务提供商未直接实施著作权专有权控制的行为,不构成直接侵权,但基于生成式人工智能服务的性质和盈利模式,服务提供商应当对其商业应用场景中的内容保持足够的了解,并承担相应的注意义务。该案中,由于作品的知名度及侵权事实的明显性,且被告未积极采取预防侵权的合理措施,因此法院认定被告未尽到合理注意义务,主观上存在过错,构成帮助侵权。因此,如果企业计划将开源项目投入市场运营,必须承担比开源项目方更高的注意义务,在提供服务时,企业应定期审查明显的侵权事实,加强用户行为管理,在用户协议中说明用户的输入行为和模型输出可能涉及的版权责任,并限制或警示用户避免输入或生成侵权内容。此外,模型提供商应在输入输出端建立有效的版权过滤机制,识别并防止侵权内容的生成或输出。此系统应包括对常见侵权内容的检测与阻止,尤其是在用户输入内容涉及著作权作品时,自动触发提示或审查机制。

其二,用户未输入侵权内容,但用户勾选互联网搜索功能后,模型通过检索互联网生成与他人实质性近似的内容。若AI模型因启用互联网检索功能而输出基于检索结果的内容,某些情形下可视为著作权法意义上的“适当引用”,行为无需经过著作权人许可且无需支付报酬。根据《著作权法》第二十四条第一款,合理使用的条件包括“指明来源”、“不影响作品的正常使用”以及“不合理地损害著作权人的合法权益”。特别地,第二款第二项规定,适当引用的目的应为“介绍、评论某一作品或说明某一问题”,并且引用行为须“适当”。因此,当AI模型通过互联网检索输出内容时,引用必须遵循适当范围与方式,并在输出中注明作品的名称及来源信息。尤为重要的是,引用不得影响作品的正常使用,亦不得不合理地损害著作权人的合法权益。这两要件的认定核心在于引用行为不可导致对原作品的实质性替代,在模型语境下,即模型输出引用检索内容时,不可实质性替代原作品的效用,如电影作品的观赏效能等。总之,若模型输出涉及引用互联网内容,必须遵循《著作权法》的合理使用条款,对引用内容标明来源,并确保引用不影响原作品的正常使用。特别是在生成内容时,明确注明引用来源,如超链接或其他标识方法,以防止被误认为是对原作品的替代。


2)输出内容涉嫌侵犯他人商标权

目前,一些AI服务提供者已经被指控其输出内容涉嫌构成商标侵权和驰名商标淡化侵权。例如,Getty ImagesStability AI[41]同时涉及上述两种侵权指控,其指出该模型生成合成图像时,未经授权使用了Getty Images的商标,这将使得消费者产生混淆,构成对商标的直接侵权。此外,这种错误的联系不当淡化了旗下驰名商标的显著性,尤其是它们出现在冒犯性或低质量的AI输出上时。纽约时报诉微软、OpenAI等案[42]则涉及后者,纽约时报认为被告未经授权在模型生成的低质量和不准确的内容中使用旗下“Times”驰名商标,该行为通过玷污的方式稀释了这项驰名商标的显著性。

首先应当厘清的前提性问题为,输出内容中包含他人商标的行为是否构成商标法意义上的商标性使用行为。根据我国《商标法》[43],判定商标性使用的核心在于“是否用于识别商品来源”。其中,商标性使用是一种客观行为,在生产制造或加工的产品上以标注方式或其他方式使用了商标,只要具备了区别商品来源的可能性,就应当认定该使用状态属于商标法意义上的“商标的使用”。[44]因此,如果AI生成的内容中商标的使用客观上实现了识别商品来源的效果,则应当理解为系商标法意义上的商标性使用。当用户输入“获得关于某些主题的视觉艺术图片”的提示时,模型输出了添加“Getty Images”或“Times”商标的水印的合成图片时,由于水印对于艺术市场而言通常会被用以识别来源(如视频水印),该种水印添加具有区别商品来源的可能性,存在很高风险被认定为是商标性使用。但是,如果是用户输入“涵盖特定商标的图片或文字”提示后,模型才输出相关内容,那么此时模型仅为用户的侵权“工具”,模型服务提供者并不构成直接侵权。但与上文的著作权侵权问题一致,模型服务提供者需要对此承担一定的注意义务,否则也可能构成帮助侵权。

其次,该行为是否构成商标侵权。在涉及商标侵权的指控中,根据我国《商标法》规定,在双相同情况下,模型输出将直接构成侵权。然而,在双相似情况下,需满足混淆要件,才构成侵权。[45]此外,在上述涉及驰名商标淡化的指控中,核心焦点仍在于相关公众会误以为该驰名商标与质量低下的输出内容存在联系。易言之,商标侵权的认定主要需判断是否将构成混淆。而混淆的认定主要立足于相关公众的一般视角,在模型输出语境下,其未必会必然成立。AI模型的特性使得它可能生成带有虚假或错误信息的内容,甚至可能无意中将他人商标包含在输出中,这实际上是技术上的问题,而非故意的侵权行为。因此,模型在生成内容时可能通过从大量数据中学习,在某些情况下生成与已有商标相似的内容,或者在图像生成中生成水印或商标标识。当相关公众已经意识到这些内容的生成方式和潜在的不准确性时,并不一定会导致相关公众的混淆。然而,为了避免法律风险并确保商标权利的保护,AI服务提供商需要采取必要的措施:一方面,应加强商标过滤措施,避免模型输出包含商标的内容,特别是当这些商标属于驰名商标时;另一方面,企业还应在用户协议中明确说明模型输出可能包含的风险,特别是虚假信息或带有水印的情况。此外,AI服务商应在输出端通过适当的提示或警告,确保用户理解和知晓相关风险,从而在法律上减少潜在的商标侵权问题。

(二)合同类风险

该阶段的合同纠纷主要体现为与用户服务协议的相关争议。

一是与模型输入与输出相关的条款。在该类条款中,需特别关注企业方提出“收集用户输入、输出”以进行模型优化条款的合规性。由于用户上传的内容和输出的内容可能涉及他人作品或其他知识产权成果,若平台盲目依据该优化条款用以优化服务,可能会面临知识产权的侵权风险。此外,用户协议通常应对输出内容的可靠性作一定的风险提示。目前,幻觉被认为是大模型的普遍缺陷之一,尚未有“完全完备”的技术手段用以杜绝该类风险。即使是最先进的大模型,也可能出现输出不可靠、不可信的情形。因此,企业有必要就此做好充分的风险提示工作,履行其作为服务提供者的注意义务,以降低输出内容后续所引发的侵权风险。用户协议中通常会明确输出内容的责任分配,声明“用户须对输出内容负责”。然而,依据《民法典》关于格式合同的规定,企业在特定情形下免责或仅在一定额度范围内承担赔偿责任的声明,很可能被视作不合理地免除或者减轻其责任,进而被认定无效。此外,即使企业针对模型输出内容设置了免责条款,如果未采取技术措施过滤违法输出(如涉恐言论),可能会被认定为未尽合理注意义务。例如,在杭州首例涉生成式人工智能平台侵害信息网络传播权案[46]中,杭州互联网法院指出,被告作为LoRA模型的服务提供者,对模型运营中的生成内容具有管理能力,应当承担与其信息管理能力相匹配的注意义务,并采取合理措施预防侵权行为。

二是限制竞争条款的效力争议。在一些用户服务协议中,模型提供者会试图排除对模型进行竞争性使用为内容,此类条款旨在阻止潜在竞争者利用模型的输出结果来训练新模型与原开发者进行竞争(下称“限制竞争条款”)。闭源模型的提供者基本都会设置此条款来对抗竞争,纵使像Meta这样的开源模型开发者,也会在其许可协议中设置限制竞争条款,仅允许用户的非商业用途。问题在于,模型提供者是否真的能够以此为由对抗竞争对手使用其模型?在此情况下,如前所述,限制竞争条款也属于一种格式条款,可能因为排除用户的竞争性使用权利而被判无效。又根据《反不正当竞争法》第2条,限制竞争条款可能被认定为扰乱市场秩序,发布者构成不正当竞争行为。为此,建议模型提供者不要过于依赖此类条款。即便下游环节存在明显滥用模型的事实证据,目前来看,也尚无企业试图通过法律手段来强制实施这些限制使用条款。

三是不同国家用户对服务协议的理解和诉求有差异,若协议存在歧义或未充分考虑当地法律和用户习惯,可能引发用户投诉和法律纠纷。其一,国内AI企业在向欧美用户提供服务时,在用户服务协议中未充分考虑欧美用户对数据隐私的高要求,可能因此被用户投诉侵犯隐私权,进而面临法律诉讼和声誉损失。其二,用户同意机制在不同国家和地区存在差异,国内企业通常沿用“一揽子同意”条款(如“继续使用即视为同意”),而这在欧盟地区可能被认定无效,原因在于GDPR要求“自由、明确、具体”的同意。其三,服务协议中有关数据主体权利的内容缺失。比如,国内企业可能没有在服务协议中说明用户行使删除权的具体方式,像是提供专用表单或邮箱,可能因此遭致域外用户的集体诉讼。其四,关于文化认知冲突。以“必要个人信息”为例,中文表达中的“必要个人信息”可能被欧洲用户视为过度收集,触发监管部门(如DPA)的调查。


 结语

开源大模型为模型产业注入了源源不断的创新活力,其所引发的知识产权法律风险问题,不仅是对既有法律规则在技术新场景下适用性的检验,更是对开源理念本质及其法律边界的深刻反思。本文以开源模型的发展阶段为线索,区分孵化期与市场化阶段,围绕权利基础、知识产权侵权以及相关合同风险进行类型化分析,尝试构建一套契合不同阶段的风险应对框架。在技术不断演进、制度边界日益模糊的当下,唯有以精细化的制度思维回应开源实践中的知识产权法律风险挑战,方能在促进共享与保护创新之间寻得真正的平衡。

*基金项目:本文系上海市科学技术委员会科技创新行动计划-软科学项目“开源人工智能的法律风险及防控研究”(25692106900)的阶段性成果。

注释(上下滑动阅览)

[1]Open source technology in the age of AIat https://www.mckinsey.com/capabilities/quantumblack/our-insights/open-source-technology-in-the-age-of-ailast visited on April 22, 2025 

[2]参见隆云滔、刘海波、许哲平等:《关于构建我国人工智能开源创新生态体系的建议》,载《中国科学院院刊》2025年第3期,第453-458页。谢新水:《智能跃迁、开源创新与主权AIDeepSeek现象推动人工智能开源创新生态体系建设》,载《电子政务》2025年第3期,第40-48页。参见魏钰明、贾开、曾润喜等:《DeepSeek突破效应下的人工智能创新发展与治理变革》,载《电子政务》2025年第3期,第2-39页。

[3]参见傅宏宇、贾开、彭靖芷:《人工智能开源的价值、风险与生态治理研究》,载《电子政务》在线发表,第1-12页,https://link.cnki.net/urlid/11.5181.TP.20250618.1607.002,最后访问日期:202583日。王哲:《开源创新公地治理机制演变:从开源软件到开源大模型的范式转型与治理路径变迁》,载《电子政务》在线发表,第1-13页,https://link.cnki.net/urlid/11.5181.TP.20250618.1607.004,最后访问日期:202583日。

[4]See Micah Musser et al., The Main Resource Is the Huma, Center for Security and Emerging Technology, 2023; Hu Xu et al., Demystifying CLIP Data, arXiv (28 Dec, 2024), http://arxiv.org/abs/2309.16671 2024.

[5]See Timnit Gebru et al., Datasheets for Datasets, 64 Commun. ACM 86 (2021).

[6]该案为上海市高级人民法院2021年知识产权司法保护十大案件之九,参见科睿唯安信息服务(北京)有限公司与上海梅斯医药科技有限公司侵害作品信息网络传播权及不正当竞争纠纷案,上海市徐汇区人民法院(2019)沪0104民初2392号民事判决书(2019)沪0104民初2392号,上海知识产权法院民事判决书(2020)沪73民终531号民事判决书(该案为上海市高级人民法院2021年知识产权司法保护十大案件之九)。

[7]See João da Silva & Graham Fraser, OpenAI says Chinese rivals using its work for their AI apps, BBC (Jan. 29, 2025), https://www.bbc.com/news/articles/c9vm1m8wpr9o.

[8]参见朱阁等:《人工智能生成的内容(AIGC)受著作权法保护吗》,载《中国法律评论》 2024年第3,第 1-28页。

[9]参见李某与刘某侵害著作权纠纷案,北京互联网法院(2023)京0491民初11279号民事判决书。

[10]参见王某诉武汉某某科技有限公司著作权权属、侵权纠纷案,武汉东湖新技术开发区人民法院(2024)鄂0912知民初968号民事判决书;林晨与杭州高斯气膜技术有限公司、常熟市琴宏房地产开发有限公司著作权侵权纠纷案,江苏省常熟市人民法院(2024)苏0581民初6697号民事判决书。[11]Söğüt Atilla:《人工智能生成的图片是原创艺术作品还是汇编作品?》,载微信公众号“国际知识产权观察”,2025223日上传。

[12]See David S. Levine, Generative Artificial Intelligence and Trade Secrecy, 3 Journal of Free Speech Law 559 (2023).

[13]参见崔国斌:《专利法上的抽象思想与具体技术——计算机程序算法的客体属性分析》,载《清华大学学报(哲学社会科学版)》2005年第3期第49页;吴汉东:《中国知识产权法律体系论纲——以〈知识产权强国建设纲要(20212035年)〉为研究文本》,载《知识产权》2022年第6期第15页。

[14]See The Guidelines for Examination in the European Patent Office (2019), European Patent Office, https://www.epo.org/en/publication-content/guidelines-examination-european-patent-office-2019#:~:text=The%20Guidelines%20for%20Examination%20give%20instructions%20on%20the,applications%20and%20patents%20in%20accordance%20with%20the%20E. 

[15]EPO《审查指南》,Part G-II, 3.3.1

[16]See Joseph Straus, Will Artificial Intelligence Change Some Patent Law Paradigms?, December 2021 Zbornik znanstvenih razprav 81(1):11-61, DOI:10.51940/2021.1.11-61.

[17]See Stephen L. Thaler, Device for the autonomous generation of useful information, JUSTIA,https://patents.justia.com/patent/5659666, last visited on January 19, 2026.

[18]归纳自EPO2020127日做出的裁决,该裁决拒绝了第18275174.3号专利申请 (EPO Doc. PK23498), https://data.epo.org/publication-server/pdf-document?pn=3563896&ki=A1&cc=EP&pd=20191106.

[19]参见大众点评诉百度不正当竞争案,上海知识产权法院(2016)沪73民终242号民事判决书。

[20]《专利法》第二十四条。

[21]张韬略:《使用开源代码训练大模型的著作权法评价——以全球首例机器学习诉讼为研究样本》,《知识产权》,2025年第3期第48-50页。

[22]See Project author team stay tuned: I found out that the llama3-V project is stealing a lot of academic work from MiniCPM-Llama3-V 2.5 #196, https://github.com/OpenBMB/MiniCPM-o/issues/196

[23]同前引21,第62-63页。

[24]参见刘晓春:《生成式人工智能数据训练中的“非作品性使用”及其合法性证成》,载《法学论坛》2024,年第39(03)期第68-69页。

[25]参见施小雪:《重塑复制权:生成式人工智能数据训练的合法化路径》,载《东方法学》2024年第3期第70页。

[26]《著作权法》第二十四条。

[27]参见广东省高级人民法院(2018)粤民终137号民事判决书

[28]参见最高人民法院《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见的通知》。

[29]Andrea Bartz V. Anthropic PBCNo.C24-05417 WHA

[30]Kadrey v. Meta PlatformsCase 3:23-cv-03417-VC

[31]Thomson Reuters Enterprise Centre GmbH et al v. ROSS Intelligence Inc., Docket No. 1:20-cv-00613 (D. Del. May 06, 2020)

[32]参加北京市高级人民法院(2021)京民初4号民事判决书。

[33]参见《豆包高价挖走阿里通义千问大模型团队,AI人才争夺战再升级》,载微信公众号“拓荒客”,https://mp.weixin.qq.com/s/5wzAGUg51oKjrCCtQV8Q0A

[34]北京互联网法院(2023)京0491民初11279号民事判决书。

[35]江苏省常熟市人民法院(2024)苏0581民初6697号民事判决书。

[36]《涉外民事关系法律适用法》第四十一条。

[37]除非您明确声明,否则您向许可方提交的任何贡献均默认按本许可证条款(无附加条件)授权。本条款不取代您与许可方单独签署的贡献相关协议。

[38]浙江省杭州市中级人民法院(2024)浙01民终10332号民事判决书

[39]Thomson Reuters Enterprise Centre GmbH et al v. ROSS Intelligence Inc., Docket No. 1:20-cv-00613 (D. Del. May 06, 2020)

[40]浙江省杭州市中级人民法院(2024)浙01民终10332号民事判决书

[41]Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135, (D. Del.)

[42]The New York Time Co. v. Microsoft Corp., OpenAI Inc., et.al, Docket No.:23-cv-11195

[43]《商标法》第四十八条。

[44]参见最高人民法院(2019)最高法民再138

[45]《商标法》第五十七条。

[46]浙江省杭州市中级人民法院民事判决书(2024)浙01民终10332号。

来源:知识产权与竞争法

编辑:Sharon