开源大模型法律风险及防范研究报告2025_第1页
开源大模型法律风险及防范研究报告2025_第2页
开源大模型法律风险及防范研究报告2025_第3页
开源大模型法律风险及防范研究报告2025_第4页
开源大模型法律风险及防范研究报告2025_第5页
已阅读5页,还剩184页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究报告2开源大模型法律风险及防范开源法律治理课题组编写3版权声明本指引版权属于开源法律治理课题组及成员单位所有,受法律保护。转载、摘编或利用其它方式使用本指引的,应注明来源。违4编写团队开源法律治理课题组指导单位:2025年版本起草人:(姓氏笔画为序)科学项目“开源人工智能的法律风险及防控研究”(项目批准号:25692106900)的资助5随着人工智能(AI)技术从传统的“开源软件”时代迈向“开源大模型”时代,开源已成为推动技术创新和打破科技垄断的重要力量。然而,开源大模型涉及代码、参数(权重)、数据等复杂组件,其法律属性、私法保护及合规义务远比传统软件复杂。本报告由同济大学互联网与人工智能法律研究中心、上海市人工智能社会治理协同创新中心及哔哩哔哩法务团队联合组建课题组编写,旨在识别开源大模型全生命周期(孵化期与市场化期)目前业界对“开源”定义未达成共识,存在从“完全封闭”到“完全开放”的多种形态。其中,“开放权重”(OpenWeights)成为当前高性能模型发布的主流策略(如Meta现与运行模型所需的各类技术组件,如模型权重、训练数据和算法,以及模型的衍生物,数据输出著作权√√xO商业秘密√√√√专利xxx√数据权益√√√√本报告将开源大模型的生命周期划分为“孵化阶段”与“市场化阶段”。孵化阶段指从人工智能项目立项、开源发布前的技术准备和开发阶段、开源项目发布阶段、发布后的社区运营和维护、最后到项目逐步成熟到足以转化为产品或服务的整个时期。市场化阶段指开源模型已经孵化成功后,由开源项目管理者或者第三方以模型供应商、服务提供者的尽管闭源模型(如最新的GPT系列)在性能上仍占优势,但开源模型(如DeepSeek、Qwen、LLaMA等)正在迅速追赶,促使更多企业采用“小模型开源、大模型闭源”或“代差开源”的混合策略。传统的开源软件许可证(如Apache2.0)难以完全覆盖AI的复杂性。新型许可证如RAIL(负责任AI许可证)和LLaMA系列许可证应运而生,它们引6入了“行为限制”(如禁止军事用途、限制大规模商用)等新型内容条款。(1)规划阶段:战略决策与权属厘清知识产权归属风险:企业需在开源前开展尽职调查,确保对拟开源的大模型及组件享有完整所有权,需排查职务作品、委托开发或合作开发合同中的权属约定,防止第三方干资产流失风险:开源可能导致商业秘密(如核心算法、参数)直接丧失保护,或因技术方案提前公开而导致专利申请丧失新颖性。此外,公开核心代码可能导致思想被竞争对监管红线风险:需评估开源模型是否涉及国家安全、国家秘密泄露风险,以及是否触犯特定行业(如金融、银行保险)的准入与合规特别规定。(2)开发与测试阶段:数据合规与侵权防控著作权侵权风险:未经授权使用受版权保护的材料进行模型训练存在侵权风险,虽然美欧有部分合理使用抗辩的判例,但中国法律对此尚无明确豁免,且若模型输出与原作品相同或实质性相似,被判定侵权的风险极高。存在员工非法使用前雇主代码(如“美摄诉字节案”)或未遵循开源许可证(如GPL传染性)使用第三方开源代码的风险。人格权与数据权益风险:训练数据若包含未经授权的肖像或声音,可能侵犯肖像权与声音权益。使用个人信息需遵循《个人信息保护法》的“告知一同意”规则,爬取商业数知识蒸馏风险:利用他人模型生成的数据进行蒸馏训练,若违反了原模型的使用协议(如禁止开发竞品条款),可能构成“以不正当手段获取商业秘密”。(3)发布阶段:许可证选型与设计传统许可证的不适配:Apache2.0等传统软件许可证仅覆盖代码,难以有效涵盖模型参数、数据集及模型输出等AI特有组件。许可证冲突与模糊:项目中混用多种许可证可能导致兼容性冲突。若许可证条款设计涉外争议管辖:鉴于地缘政治因素,开源协议中的准据法与争议解决机制选择成为技(4)运维阶段:社区治理与持续合规7贡献者风险管理:接收社区贡献的代码或组件时,需防范侵权代码流入,建议签署贡网络安全与算法监管:开源项目的运维者需履行网络安全漏洞管理义务。若涉及算法推荐、深度合成或生成式AI服务,需履行相应的备案、标识、安全评估及反歧视等法定监反垄断合规:需警惕通过开源生态实施经营者集中或滥用市场支配地位(如限制性许可、搭售)的风险。(1)私法风险:知识产权与合同争议知识产权侵权风险(输出端):即便模型未直接使用侵权数据训练,若用户输入诱导或模型“过拟合”导致输出与他人作品实质性近似,服务商若未尽到过滤、审核等合理注意义务,可能构成间接侵权。若涉及互联网检索增强(RAG),引用内容需符合“适当引用”标准。模型生成带他人商标(如GettyImages水印)的虚假图片,或将商标与低质量内容关联(如《纽约时报》诉案),可能构成商标侵权或驰名商标淡化。模型可能无意中合同与用户协议风险:协议中约定“收集用户输入/输出用于模型优化”,若未脱敏或涉及用户知识产权,可能引发侵权及隐私纠纷。尽管协议常声明“不对输出准确性负责”,但若属于格式条款且不合理免除责任,或未采取技术措施过滤违法内容(如涉恐言论),免责条款可能被认定无效。试图通过协议禁止用户利用模型输出开发竞品(如OpenAI、Meta的条款),可能因违反《反不正当竞争法》或构成滥用市场支配地位而无效。用户协议若未适配目标国法律,可能面临合规诉讼。涉及网络安全审查、算法推荐备案、深度合成标识等义务。若模型被用于生成虚假信息或遭受攻击,运营者需承担数据安全主体责任。(2)公法风险:监管合规与地缘政治产品质量与安全风险:作为产品生产者,需确保不存在危及人身财产安全的缺陷,符地缘政治风险:针对先进模型权重(如ECCN4E091分类)和AI芯片的出口管制加剧,中国企业开发的模型(如DeepSeek)在美国可能面临被禁用的风险(如“脱钩法案”、军事禁令)。AI交互界面、数据分析等技术出口需通过商务部许可,且需防范被列入“不可靠实体清单”的风险。欧盟及成员国(如意大利DPA)可能以数据隐私合规不足为由,8限制中国开源模型在当地的商业运营。4.企业防范相关法律风险的建议开源大模型是技术红利与法律风险的共生体。企业在享受开源带来的生态优势时,必须从“代码思维”转向“模型思维”。本报告针对前文识别的法律风险,提出了“许可证选择——合规体系建立”的两维防范体系:企业应从源头的开源策略选择入手,建立跨部门的合规治理架构,并针对私法(知识产权与合同)与公法(监管合规)风险实施精细化管理。通过精细化的许可证设计、严格的数据合规管理以及前瞻性的全球监管应对,构建牢固的法律防火墙。9目录1.研究的背景和具体问题 11.1开源历程:从开源软件到开源人工智能 1 1 21.2开源人工智能的定义、组件及阶段 4 4 5 61.2.4开源人工智能的开源孵化阶段与市场化阶段 1.3开源人工智能生态现状 1.3.2不同类型/程度的开源(开放)人工智能 1.3.3开源(开放)人工智能的产业地位 28 2.开源人工智能孵化阶段的法律风险识别 2.1开源人工智能孵化阶段的主要工作 2.2开源人工智能孵化阶段的主要法律风险点 412.2.1开源项目规划阶段 412.2.2开源项目开发与测试阶段 462.2.3开源项目发布阶段 2.2.4开源项目运维阶段 3.开源人工智能市场化阶段的法律风险 63.1开源人工智能市场化阶段的主要工作 63.2开源人工智能市场化阶段的法律风险点 3.2.1私法风险 693.2.2公法风险 14.企业防范相关法律风险的建议 4.1人工智能的开源选择 4.1.1开放程度 4.1.2许可证设计 814.2开源人工智能合规体系 4.2.1企业内部治理的主体和职能 4.2.2开源人工智能私法风险类型及应对 4.2.3开源人工智能公法风险类型及应对 1.1开源历程:从开源软件到开源人工智能根据开源倡议会(OpenSourceInitiative,OSI)的定义,“开源思想的源头——自由软件(freesoftware)²,起源于对软件私有化的一种抗争。上个世纪六七十年代的大部分软件都是由科研工作者编写,就如同最初网络空间被认为是有别于国家意志所控制的物理空间的一片新大陆一样,当时的人们认为应当可以在研究环境中自由分享或是修改这些软件而不是商业公司所倡导的软件私有化。3但相必须是自由的自由软件,开源思想并不与商业公司对立,而是强调通过设定许可协议以带来的实际利益并真正推动软件的开放。到现在为止,开源软件已经存在了几十年并成为了开源软件的核心在于其开放性和可修改性,旨在促进技术的共享与合作,但并不等同于简单意义上的免费。对开源软件的使用通常伴随着特定的许可协议,也即开源许可证。这些许可证允许软件的源代码对任何人开放和共享,同时规定了使用、修改和分发时的特定条件与义务。开源许可证大致分宽松许可证(PermissiveLicenses)和著佐权许可证 (CopyleftLicenses)两类:前类许可证往往只要求被许可方保留原作品的版权信息,对下游的限制极少并且可以私有化衍生软件,也因而在商业化环境中备受欢迎,例如ApachMIT系列许可证。而后者,以自由软件时代发明的GPL系列许可证(GNUGeneralPublicLicense)为代表,则是一类较为严格的许可证,其具有所谓的开源“传染性”特征,即对用户设置了开源互惠义务,要求包含开源代码、与之构成更大作品的软件在后续传播时必须开源。2SeeEnidGabriellaColeman,CodingFreedom:TheEthiniversityPress,2012.3参见金芝、周明辉、张宇霞:《开源软件与开源软件生态:现状与趋势》,载《科技导报》2016年第14期。4SeeWillDouglasHeavenarchive,TheOpen-SourceAIBoomwLongWillItLast?,MITTechnologyReview(May12,2023),https:5/12/1072950/open-source-ai-google-openai-el]2自诞生以来,开源软件之所以受到大量的关注并被寄予厚望,离不开该种商业模式背后所拥有的广泛战略意义。对国家而言,开源软件能够减少对外国技术的依赖,推动本土技术创新和产业发展。尤其在网络安全、基础设施建设等领域,具备足够透明度的开源软件的采用无疑能提高国家的技术独立性。这也是为什么在许多国家,开源相关项目在政策和法律责任上得到一定的优待。对产业而言,通过开源软件,产业内不同企业可以共享技术资源,降低研发成本并创造公平的竞争环境,促进技术的快速迭软件促进了合作型开发模式的兴起,多个企业和个人通过共同的代码库推动技术进步。对头部企业而言,开源策略通常是其生态系统的一部分,能够吸引更多开发者和合作伙伴,进行的开源,这一行为直接巩固了其在智能手机革命中核心的主导地位。参与开源软件不仅能促进其本身的创新,更能紧密地跟随技术发展趋势乃至在行业内产生生态性影响。而对非头部企业尤其是微小企业而言,开源软件为他们提供了低成本、高质量的技术选择,帮助其在竞争激烈的市场中立足。例如,希望构建生成式人工智能应用的小型企业可以从各种开源人工智能中进行选择。这种开发成本的节约是非常庞大的——开源软件的兴起使得企业们可以在高质量的免费软件上构建产品,进而节省近9万亿美元的也提高了透明度。任何人都能查看源代码,漏洞和恶意代码更容易被发现并修复。公众不仅可以使用开源软件,还能参与到开发过程中,促进了技术民主化和相较于开源软件,人工智能领域的“开源”仍存在不小的争议,不仅仅开源人工智能首先,虽然业界对开源软件的概念已有共识,但其桥接在人工智能领域之时却仍有不小的排异反应——人工智能并不等同于软件和代码。当前所指的人工智能,例如各种大模5SeeJonathanRosenberg,TheMeaningofOpen,GooglePublicPolicyBlog(Dec.21,2009),https:///2009/12/meaning-of-open.html;OliverAlexy,FreeRevealing:HowFirmsCanProfitFromBeingOpen,SpringerScience&BusinessMedia,2009..⁶SeeRonAmadeo,Google'sIronGriponAndroid:ControllingOpenSourcebyAnyMeansNecessary,ArsTechnical(Jul.7,2018),/gadgets/2018/07googles-iron-grip-on-android-controlling-open-source-by-any-means-nec7SeeManuelHoffimann,FrankNagle&YanuoZhou,TheValueofcienceResearchNetwork,2024.3型,实际上是一个复杂的人工智能系统的一部分,8仅仅靠代码甚至无法对相关系统做出符合自己需求的调整或是对其展开深入的研究,人工智能“开源”其所需开放的内容丰富程度,远超软件代码的开源。业界为了宣传的便利,不加区分地将开源软件的概念、原则适用于人工智能领域,其实并不妥当9甚至扰乱了开源的经典定义,并带来实践上的误区。例如,很多传统的开源软件许可证被大量地直接使用在人工智能开源之上,让人误以为大模型各类组件都完全开放。其次,有别于主要由程序员个人发起的自由软件运动,人工智能领域的复杂竞争关系和安全问题,使整个行业更难在人工智能的开源标准上达成共识。近年来,虽然有许多知名的人工智能企业和组织选择将其人工智能系统开源。例如,Meta的LLaMA系列和阿里巴巴的通义千问(Qwen)系列模型已经成为全球范围内广泛使用的开源人工智能。然而,LLaMA系列模型只提供应用程序接口(API)或是包含有限组件的模型的下载,其模型虽包含权重但受到非常明显的使用限制。10这些限制和弱透明度令人怀疑该系列模型根本算不上开源。11归根结底,Meta希望的是发展围绕LLaMA系列模型的生态并从中获得反馈,而不是给自己制造竞争对手。对以盈利为首要目的许多公司而言,开源主要是一个利益衡量问题。再次,对很多大企业而言,人工智能开源意味着一个无法撤回的行为和可能随之而来的大量法律风险。例如,随着生成式人工智能表现的不断增强,生成虚假信息或是深度伪造图片等滥用风险也与日俱增。正是基于这一点,OpenAI于其GPT-4的技术报告中直接指出:“鉴于GPT-4等大规模模型的竞争格局和安全影响,本报告不公开大模型架构(包括yersWest,Why'Open'AISystemsAreActuallyClosed,andWhyThisMatters,6tuallyClosed,andWhyThisMatters,635N10SeeMeta,MetaLlama3CommunityLicenseAgreement,Meta(Apr.18,2024),Llama,https://www.2023),/blog/metas-1lama-2-license-is-not-open-source;tGPTAreNotOpen-Source,IEEESpectrum,/open-sourc1,IsLlama2OpenSource?No-andPerhapsWeNeedaNewDefinitionofOpen,OpenSourceConnections(Jul.19,2023),/blog/20234模型大小)、硬件、训练计算、数据集构建、训练方法或类似方法”。而且,随着先进人工智能系统和社会生态的更深度嵌合,开发和提供人工智能服务的科技公司正在掌握更多然而,在目前全球开放竞争的格局之下,开源人工智能的重要使命和价值之一就在于促进技术的共享和加速其发展以消解大型企业的科技霸权。闭源人工智能系统所引以为傲的护城河,也可能在开源的冲击下变得不值一提——DeepSeek的出现和全球影响已经证明了这一点。即便是在过去风光无量的OpenAI掌门人奥特曼(Altman)也不得不表示承认在1.2开源人工智能的定义、组件及阶段1.2.1开源人工智能的开放对象(1)模型本体:多组件构成的技术系统在传统软件开源领域,开源的核心要求是向用户提供完整的源代码及配套文档,用户据此可理解程序逻辑并自由修改、分发和运行。但是对于人工智能而言,仅凭源代码的开放无法实现过去开源所要求的那些自由。人工智能系统意义上的真正开源,超越了代码层面的透明性要求,需覆盖多个组件的开放。导致这种差异的根本原因,在于一个能满足这些自由的开源人工智能依赖于数据、算法、训练流程、参数等多维度组件的共同配合。具代码是人工智能系统运行逻辑的机器可读表达,包含从数据预处理到模型推理的全流程算法实现。代码可以被细分为数据预处理代码、训练代码、模型架构代码和后处理代码。与传统的开源代码支撑了开源软件分发、修改等自由一样,获得这些人工智能代码的是人工智能系统复现、修改和优化的必要条件。如果仅开放编译后的模型二进制文件或是推理代码,下游用户就只能使用模型而无法调整模型内部逻辑。例如,OpenAI未公开GPT-4参数是模型通过训练数据学习到的知识表征,包含权重、偏置和其他可学习变量。参数可以被细分为预训练权重、微调权重和优化器状态等。这些参数是模型能力的实质载体和重要成果,是海量数据训练之后的最终成果,也是机器学习系统的独特之处。就当前顶5尖模型的参数量而言,如果不公开相关的参数文件,使用者可能需要需投入数万GPU小时重新训练并且难以展开相关研究,这实质上剥夺了使用、改进和研究自由。数据是模型训练的知识来源,包含训练数据集、验证与测试数据集和元数据。对于严格定义上的开源,开放数据集显然是必要条件。然而,对于业界开发者们而言,这几乎是不可能的。除了公开数据集带来的潜在法律风险,高质量的训练数据几乎奠定了最后所诞生的人工智能的上限,通常也是大公司付出大量成本才得到的且渴望维护的竞争优势。在所有组件中,数据是否为开源人工智能的必要组件,是目前最大的争议。一方面,有观点认为在构建大规模人工智能时,获取数据可能比获取计算能力更重要的声音不绝于耳。13另一方面,现实里许多标榜“开放”(Open)的人工智能产品往往不提供用于训练系统的基础数据的基本信息,14更不用说公开提供基础训练数据本身。在训练数据缺乏透明度的情况下,自称开放的人工智能将很难进行科学的验证。(2)模型衍生物:输出内容除模型本体外,开源模型还涉及其衍生产物,即模型生成的输出内容。该类内容通常指开源模型根据用户输入生成的文本、图像、音频、视频等生成式成果。虽然这些输出并非模型本体组成部分,但却直接体现模型的运行逻辑与功能边界,是用户实际交互的最主要成果形式。在法律上,模型输出的权益基础状态及归属问题尚无统一界定。模型输出既可能被视为自动生成的内容而不享有保护,也可能因人类介入或其他激励事由而获得保护。更为复杂的是,开源模型输出物是否应当受开源许可证或用户许可协议约束,以及约束范围如何界定,已成为当前法学界与产业实践中的关键争议。国际社会对开源人工智能的定义尚未形成广泛共识一致的结论。目前具有一定影响力的概念有OSI作出的“开源人工智能定义1.0”15以及欧盟《人工智能法》序言对开源人工智能的定义。我国《中华人民共和国人工智能法(学者建议稿)》和《人工智能示范法2.0 (专家建议稿)》虽然给出了豁免了开源人工智能部分法律责任的建议,但两者均未定义什么是开源人工智能。不过,后续的《人工智能示范法3.0(专家建议稿)》在附则中定义,13SeeMicahMusseTechnology,2023;HuXuetal.,DemystifyingCLIPData,arXiv(28Dec,2024)15TheOpenSourceAIDefinition-1.0,OpenSourceInitiative,/ai/open6开源人工智能是指“在开源许可证框架下,以可获取形式向社会公众公开发布的人工智能系统,其技术组件应当以可获取形式包含基础模型权重、参数等等核心要素,并按照技术特性附有适度公开的训练数据集、完整的模型参数说明或相应的安全合规文档等。”OSI在开源人工智能定义1.0中指出,“一个开源人工智能系统是指在遵循特定条款和●分享自由:可以将系统分享给他人,无论是否对其进行了修改,且可用于任何目这些自由既适用于功能性完整的系统,也适用于其各个组件。行使这些自由的前提是能够访问最佳修改形式以修改系统,这些最佳修改形式必须包括数据信息、代码以及参数。“这一所谓的最佳修改形式”,从组件的视角来看,OSI要求必须包括数据信息、代码和参数。具体而言,数据信息必须包括所有用于训练的数据的详细描述以及公开可用或是第三方获取数据的列表和方法,代码则是训练和运行系统的完整源代码,最后则是包括权重除此之外,欧盟《人工智能法》也规定了可以获得一定程度的法律监管豁免的“自由且开源”的人工智能。根据其序言第102条和103条规定,自由且开源的人工智能应至少允许用户可以自由访问、使用、修改和重新分发他们或其修改版本,其中自由且开源的人工智能组件包括软件和数据,这些组件可以通过不同的渠道提供。但该法案进一步明确,人工智能组件若是以收费或其他货币化形式提供的,便不属于该法案下可获得豁免待遇的“开源人工智能”。1.2.3开源人工智能及生成物的民事权益在决定开源与否之前,相关单位必须审视自己的人工智能系统具有哪些民事权益。即便决定开源了,开源人工智能也并非处于公有领域的信息产品,而是与开源软件一样,可数据输出7著作权√√XO商业秘密√√√√专利XXX√数据权益√√√○表示司法裁判有争议,个案可能出现支持或反对的结果。(1)人工智能系统本身的可著作权性分析人工智能模型本身可解构为代码、数据、参数三类主要组件。首先,根据各国著作权法,具有独创性的代码可享有著作权。其次,根据现行法和司法案例16,选择、编排具有“独创性”的数据集或数据库也可能获得著作权的保护。最后,参数并不符合作品构成的“作者要素”以及“独创性”要素,难以获得著作权保护。一方面,参数乃神经网络历经数据训练后的产物,其生成过程难以被人类具体控制,难以存在作者选择或安排的空间,无法“体现作者选择、取舍”的独创性要求,因而模型训练者难以称为模型参数的作者。另一方面,参数生成过程和最终表达基本贯彻“提高输出与期待输出准确度”这一功能意义,人类自由意志的空间很小,难以符合作品的独创性要求。(2)模型生成物的可著作权性分析——尤其针对数据蒸馏的场景随着知识蒸馏(KnowledgeDistillation)等优化技术的广泛适用,合成数据对模型训练的作用也愈加凸显,模型生成物的可著作权性也成为重要的法律问题。以近期OpenAI在媒体控诉我国DeepSeek侵犯著作权为例¹7,若模型生成物享有著作权保护,则利用他人模型生成物快速优化己方模型的蒸馏方式,很可能构成著作权侵权。学理观点一般认为,著作权法并不保护非自然人的生成物,因此模型的直接生成物不应受到著作权法的保护。但也有观点将人工智能类比为纸笔等辅助工具,或从政策考量等角度,支持将人工智能生成内容(ArtificialIntelligenceGeneratedContent,AIGC)纳入著8作权保护范畴。18司法实务中,中国首例“AI文生图”案即“春风案”19认为原告通过设计提示词、改变参数的做法体现了原告的选择与安排,因此具备“独创性”要件。将人类“提示词”视为自然人的选择,人工智能作为辅助工具的司法判决思路,也出现在国内其他一些判决中。20不过,近日也有法院提出,若使用者仅通过简单提示词生成初稿,未通过多轮调整、参数修改或后期加工对构图、线条、色彩等表达要素进行深度干预,则AI生成内容难以体现“个性化智力成果”,而难以获得著作权法的保护。21比较而言,美国版权局及法院对于AIGC可著作权性的态度更为审慎,最初的《空间歌剧院》等案件22都因“非自然人创作”为由被驳回版权登记。但该从严认定思路在近日似乎有所放松。2025年1月29日,美国版权局发布了一份《生成式人工智能输出的可版权性报告》,指出若生成式人工智能仅用于协助实现作者表达,而非自行做出终局意义的表达选择,AIGC可能受著作权保护。23随后美国版权局从自然人“对人工智能生成材料的选择、协调和安排”角度,为人工智能参与生成的视觉作品《一片美国奶酪》进行登记。虽然从视觉效果对比来看,《一片美国奶酪》最终版本与原始输出之间的差别,并不显著优于已被驳回的《空间歌剧院》2,但该案用户对画作的局部控制和后期参数调整比较明确,能够体现作者对修改部分的“直接”干预以及“选择、协调和安排”。该案说明了美国人工智能输出在加入了作者具有独创性表达的特殊处理之后,在整体上可能作为汇编作品受到著作权法保护的可能。就模型蒸馏而言,大量使用的AIGC似乎难以契合著作权保护要求。因为在知识蒸馏中,教师模型的输出(软标签)是基于输入数据自动生成的,通常不需要人为设计大量特殊的“提示词”(例如“春风案”)或进行后期的大量调整操控(例如《一片美国奶酪》案),其最终目的在于获得不同类别软标签的概率分布,并以此为目标训练学生模型。这forRefusaltoRegisterTheatreD'opéraSpatial(SR#1-11743923581;CorrespondenceID:1-5T5320R)1 23SeeU.S.CopyrightOffice,CopyrightandArtificialIntelligencePart2:Copyrightability(J9类模型输出显然难以符合人类创作行为直接产生独创性表达这一要求。因此,模型蒸馏所涉及的AIGC难以满足可著作权性要求,不应受到著作权法保护。模型本身或其各个组件只要符合“秘密性、价值性以及保密措施”三大要件,就可享有商业秘密保护。彻底的“开源”,毫无疑问会导致商业秘密的丧失。因此,如果模型或组件(例如模型权重)无法获得如专利权或著作权等其他知识产权的保护,则企业需要慎重考虑是彻底“开源”——完全放弃商业秘密,还是局部“开源”——部分放弃商业秘密。此外,知识蒸馏背景下,AIGC是否可构成商业秘密获得保护也成为值得关注的另一话题。有学者提出,根据信息的处理、管理和使用方式,AIGC有可能会成为潜在的新商业秘密。25然而,AIGC是否构成商业秘密,不能泛泛而论,必须根据个案事实认定是否符合秘密性或采取了保密措施。例如,如果某个大模型已经可以在市场公开可用,那么其AIGC通常也处于相对人员普遍知悉或容易获得的范围,不符合商业秘密的秘密性要件。相比之下,企业内部专属训练出来的大模型,其AIGC如果采取合理的保密措施(如GPT所设置的诸如输出限制、访问控制等技术手段),有可能符合商业秘密的构成要件。但是,即便是公开使用的模型,如果用户输入了特殊的不为公众知悉的信息,并对产生的新的不为公众知悉的AIGC,而且采取了保密措施,也有可能符合商业秘密的保护要件。专利保护由于人工智能系统及其构建方法属于典型的技术方案,模型本身通常不会因不符合专利客体要求而受到申请阻碍。然而,当细化到人工智能系统的各个组成部分时,是否具备可专利性便成为一个颇具争议的话题。例如,单纯的数据集合或模型参数,因其本质上不构成技术方案,通常不符合现行专利法中关于技术特征的基本要求,故难以获得专利保护。在所有开源对象中,最具争议的莫过于两类内容:其一是模型所依赖的算法,因其是否属于专利法不予保护的抽象思想而广受争议;其二则是模型的输出内容,非人类创制是否会影响其可专利性。因此,该部分分析将重点聚焦于上述两个方面。(1)人工智能算法的可专利性25SeeDavidS.Levine,GenerativeArtificialIntelligenceandTradeSecrecy,3JoumalofFreeSpee1尽管学界有各种争议观点,26但计算机程序、算法自身不可专利,而包含算法且具有技术特征的人工智能发明具有可专利性,在我国和欧美专利法实践并无争议。我国专利法实践基本支持人工智能相关的算法专利申请,但也以具备技术特征为前提。2019年,《专利审查指南》在面向计算机程序的第九章增加了第6节“包含算法特征或商业规则和方法特征的发明专利申请审查相关规定”。随后几年内,该节内容又进行了陆续修正。2024年12月,国家知识产权局出台《人工智能相关发明专利申请指引(试行)》,针对人工智能算法或模型本身的相关专利申请进行了特别规定。据此,在撰写涉及人工智能算法类发明专利申请的权利要求书时,需要明确体现算法的各个步骤与所要解决的技术问题“密切相关”。具体而言,使用该算法处理的数据必须具有确切技术含义而非抽象数据概念;处理过程要体现出对该数据进行了符合自然规律的处理;经过该算法处理后的输出数据,也要有确切技术含义而非抽象数据概念;以及算法的执行能解决一定的技术问题并获得技术效果。《欧洲专利局审查指南》27认为,人工智能和模型是“基于分类、聚类、回归和降维的计算模型和算法,例如神经网络、遗传算法、支持向量机、K均值(K-Means)、核回归(KernelRegression)以及判别分析”。本质上,这些模型具有抽象的数学特性,即使它们可以基于训练数据进行“训练”。因此,这些模型与数学方法类似,仅在它们对发明的技术特性作出贡献时,才具有专利性。在评估其贡献时,关键在于这些模型在发明背景下是否服务于某种技术目的。该审查指南强调,人工智能和机器学习在许多技术领域都有应用。例如,神经网络被用于心脏监测设备中,以识别心律不齐;算法还可用于基于低层次特征(如图像的边缘或像素属性)对数字图像、视频、音频或语音信号进行分类。此外,当某一分类方法服务于技术目的时,“生成训练集和训练分类器的步骤如果有助于实现该技术目的,也可以对发明的技术特性作出贡献”28。(2)人工智能生成物的可专利性从目前专利申请实践来看,并没有真正出现完全由人工智能自动生成的技术方案。然而,科学杂志中与人工智能相关报告似乎表明了相反的情况,并使许多人相信,目前人工27SeeEuropeanPatentOffice,TheGuidelinesforExamin(Jul.20.2020),/en/publication-content/guidelines-examination-european-patent-off#:~:text=The%20Guidelines%20for%20Examination%20give%20instructions%20on%20the,applicad%20patents%20in%20accordance%20with%20the%20E智能本身已经能够自主产生可专利的发明。乔·马钱特(JoMarchant)的《使用人工智能发现强效抗生素》、罗伯特·塞奇威克(RobertService)的《人工智能指导材料突破性研究一—决策算法改变机器人评估和合成太阳能电池及其他材料的方式》以及德里克·洛 美国“创意机器”专利5,659,666(US‘666)是这类讨论和实践的最初范例,但实际上是关于用以生成技术方案的这类发明本身的可专利性,而且仔细研究可以发现,其并不主要目的是“教授一种用于模拟创造力的创新构造与运行方式”。其任务是:“通过使用神经网络模拟人类创造力,该神经网络经过训练以生成特定知识领域内的输入输出映射;使用一种装置对神经网络进行扰动,从而改变预定知识领域;神经网络具有一个可选输出,能够将输出传递至第二个神经网络,后者基于其内部训练评估并选择输出内容。”该专利的说明书指出:“本装置代表了一种新方法和人工神经网络(ANN)的一种新应用,系统能够综合行动方案和原创设计或创作。该等系统被称为自主系统或‘创意机器’,可以完成超越技术发明的想象性壮举,进入美学和情感领域。”30该说明书及附图详细披露了涉及的ANN的整体结构和运行机制。它还详细描述了一些实施例,其中之一是咖啡杯的设计:“在设计咖啡杯时,应结合美学和实用偏好相关的各种选项,并将这些信息编码到型或潜在的杯子设计”。从说明书的描述可知,这类“创意机器”虽然可以协助设计(例如咖啡杯),但依然需要一系列人类的参与,例如问题的提出、其输入装置的方式、必要训练数据的选择与提供/访问、使用适当的计算机代码对高级音频编码(advancedaudio-coding,AAC)信息进行编码等过程,以作为发明构思的决定性部分。第二个经常被提及的机器生成发明的例子是DABUS专利申请案。在该案中,斯蒂芬·萨勒(StephenL.Thaler)在2018年向美国专利商标局(USPTO和英国知识产权局(UKIPO)提交了其专利申请时均未列出发明者。后面应EPO和UKIPO的要求,将一台名为DABUS(统一感知自动引导设备)的机器列为该专利申请的发明29SeeJosephStraus,WillArtificialIntelligenceChangeSomePatentLawParadigms?,81Ljubljana30US'666,第1栏,第24-30行。综上,目前尚未存在“人工智能生成物可否专利性”的确切案例,但对于AI能否成为专利法意义上的发明者却已有一定讨论。由于创意机器依然必须在自然人的支配和控制之下进行创造,再加上目前各类大模型都约定生成物权利属于使用者,因此大模型如果协助人类完成了发明活动,则AIGC有可能成为发明方案的组成部分,但发明人署名必须是自然人。此外,发明人仍应对发明创造的实质性特点作出创造性贡献,例如在技术问题的提出、技术路线的选择、模型数据的提供等方面,实质控制着发明活动并影响最终的发明方案。作为大模型的开发者,企业可能在数据采集和使用过程持有某些特定数据。例如用于训练模型的大规模数据集。此外,大模型训练后生成的衍生数据(如训练过程中产生的特征、模型输出、预测结果等)也可能具有新的价值。围绕这些原始数据或衍生数据,企业如果采取保密措施,很有可能享有商业秘密保护;如果对数据采取具有独创性的选择、编排,则可能享有汇编作品的著作权保护,在欧盟国家还可能享有数据库的专门保护。如果企业未采取任何保密措施,将这些数据以特定方式公开展示在企业网站上获取流量,且其独创性不足以获得作品保护的,仍可在一定条件下享有反不正当经济法保护的法益。我国司法裁判也确认了企业对于数据在一定条件下享有竞争法意义上的财产性权益,他人未经许可不得擅自进行抓取和实质替代性的使用。32然而,在正式投入市场前,大模型企业需要明确这些数据的原始权属并进行合规审查,否则很容易引发各种法律风险。开源人工智能从项目的孵化到进入市场,都可能伴随着相关法律风险。本研究以大模型的市场化为关键节点,分两个阶段——孵化阶段与市场化阶段,逐一探讨相关风险的诞生和防范。孵化阶段孵化阶段指从人工智能项目立项、开源发布前的技术准备和开发阶段、开源项目发布阶段、发布后的社区运营和维护、最后到项目逐步成熟到足以转化为产品品或服务的整个时期。这个阶段涵盖开源规划、数据准备、模型研发、内部测试、开源合规预审等核心环节。首先,在模型开与不开之间,涉及商业秘密、专利布局、出口管制等多种因素的考量。例如,大模型开源可能会导致某些核心技术丧失商业秘密保护,大模型开源时间点可能因为技术方案的披露而影响相关专利申请及获取。此外,开源行为可能因构成技术出口而触发一国的出口管制,加密技术的代码开源就是典型例子。33其次,开源数据准备阶段包括训练数据的采集、清洗、标注及预处理等,可能涉及到数据的著作权争议、隐私合规等。在代码编写阶段,涉及到代码合规审计,例如使用了在先开源代码或模型,还必须考虑许可证兼容性等问题。总体来看,开源人工智能的“不可撤回性”可能会造成一些无法挽回的负面影响,而且孵化阶段的法律风险具有潜伏性,未能察觉或妥善处理的侵权或合规隐患可能随开源行为进入市场化阶段后显化。比如,如果在项目孵化的开发阶段使用了未经许可的版权材料进行训练,在后续的市场化阶段中,模型就有可能输出侵权内容,典型的例子如微软公司和OpenAI公司的代码自动生成工具Codex模型。34市场化阶段指开源人工智能已经孵化成功后,由开源项目管理者或者第三方以模型供应商、服务提供者的身份向市场推广应用。在市场化阶段,伴随着法律身份的转变,法律风险呈现出升级和扩散的特征。首先,项目管理者面临开源项目的后期开发和应用是否转向闭源的决策,并需承担部署者或提供者的相关市场风险,例如服务提供商的违约或侵权责任。其次,模型提供者将无法继续享有科研性质或开源下的豁免,必须承担起模型部署者、使用者等同程度的法律责任。以欧盟框架下的人工智能监管为例,一般模型的开源项目管理者通常无需履行模型的监管义务,但当开源管理者选择将孵化好的开源模型投入市场向用户提供时,角色便转换为服务的提供者或模型的部署者,无法享有监管责任豁免。虽然目前我国尚未有类似制度,但从侵权原理来看,开源为普惠性的技术行为,即使他人使用衍生模型投入市场引发民事侵权纠纷,一般也不应由开源项目管理方承担责任,除非其明知开源模型必然会导致侵权行为。但若开源管理方转而向公众提供大模型市场服务,则理应与一般的服务提供或模型部署者履行一致的注意义务。值得注意的是,由于开源是一种生态建设,因此在市场化阶段,开源项目的运营和维护仍可能持续着,例如开源社区管理、模型更新和优化、开源许可等依旧是同步进行的。这时候必须根据不同的行为性质,判断不同的法律责任和法律风险。开源人工智能生态的构建依赖于项目、组织与平台的共同推动,以“技术一规则一市场”的三元结构共同构成开源人工智能生态的基础设施。开源人工智能项目作为生态系统的核心生产力载体,本质上是以代码、参数和数据等为核心的技术共享机制,其技术开放程度与创新质量直接决定生态活力。当前具有全球影响力的开源项目可分为基础模型、开发框架与工具链三类。基础模型领域,Meta的LLaMA系列通过开放模型权重重塑了人工智能开源范式,成为中小开发者构建垂直领域模型的基石。但LLaMA的开放程度有限,其权重需在有限条件下“申请”获取,这些限制条件包括但不限于使用目的与范围的限制、权重和衍生模型的分发限制。这类有限开放常被业内称为“开源洗地”行为,并不完全符合开源的精神。除LLaMA外,阿里旗下的Qwen也是基础模型中最有影响力的开源项目之一,并且因LLaMA4性能表现的不佳得到了更多的关注。但与Meta类似,阿里旗下模型也有差异化的开放限制,并且始终有性能更优的商业化模型序列。据开源中国的不完全统计,截至2024年9月,全球已有近8万基于阿里Qwen的衍生模型,超越了Meta的LLaMA。35开发框架领域,Google和Meta主导的TensorFlow与PyTorch是当前最主流的两大人工智能开发框架,36它们通过模块化设计,降低分布式训练与模型部署的技术门槛,避免重复造轮子的困境。其中使用PyTorch框架的预训练人工智能模型要比使用前者的多得多,37也是人工智能学术研究中最流行的框架。38PyTorch等开发框架所实现的人工智能开发的标准36SeeDavidG.Widder,MeredithWhittaker&SarahallyClosed,andWhyThisMatters,6337SeeSireeshGururajaedigmShifisinNaturalLanguageProcessing,inH.Bouamor,38SeeAdamPaszke,etal.,PyTorch:AnImperativeStyle,H in32AdvancesinNeuralInformationProcessingSystems,CurranAssociates,Inc.,2019;heStateof38SeeAdamPaszke,etal.,PyTorch:AnImperativeStyle,H in32AdvancesinNeuralInformationProcessingSystems,CurranAssociates,Inc.,2019;heStateofMachineLearningFrameworksin2019,TheGradient(Oct.10,2019),https:/thegradient.1化,使最终成果与发布者平台兼容。39对Meta等企业而言,开发框架的开放,也在巩固和加强其在人工智能领域的主导地位。工具链层面,HuggingFace的Transformers库通过标准化接口集成超200,000个预训练模型,通常能将模型调用代码量降低至10行以内,极大加速了人工智能技术落地进程。开源组织作为生态治理的主体,在技术标准制定与合规框架构建中发挥枢纽作用。在开源人工智能相关的组织中,曾在开源软件领域做出较大贡献的OSI也在积极推动开源人工智能共识的形成。OSI所定义的开源人工智能虽然遭受一定批评,但被认为是目前较为和谐和平衡的版本。Linux基金会下属的LFAI&Data组织同样具有突出贡献,其托管的开放模型倡议(OpenModelInitiative)倡导并提供工具帮助成员项目建立数据溯源机制与伦理影响评估体系。40在中国,开源中国(OSChina)作为本土开源组织,通过代码托管、技术社区运营及项目孵化等机制,构建连接国内开发者与国际开源生态的桥梁。开源平台为开源人工智能项目提供了至关重要的技术基础设施,推动了技术传播和协作。GitHub作为开源人工智能项目发布和协作的主要载体,为开发者提供了一个公开、透明的平台,使得人工智能项目能够被全球开发者共同参与和改进。在GitHub上,开源人工智能项目不仅能够快速获得全球开发者的反馈和贡献,还能够借助平台的版本控制功能确保项目的稳定性和可扩展性。而HuggingFace开创了模型即服务(Model-as-a-Service)的新型交互模式上,在平台托管了超十四万个模型,将开源人工智能的分发成本降低至近乎零。其推出的(Open)RAILLicense以自发布以来被大量的开源人工智能发布者所采纳,已实质影响模型分发环节的合规要求。总的来说,开源人工智能项目、组织和平台三者的连接和互动构成了生态的基本骨架。开源项目以前沿技术创新吸引开发者聚集,开源组织通过标准化将势能转化为有序协作,开源平台则通过资源聚合与网络效应扩大技术辐射半径,最终形成“创新涌现一规则适配一规模扩散”的正向循环。就开源人工智能法律风险而言,项目在代码、数据、模型等层面的选择性开放策略,组织构建的相关定义和标准,平台设计的技术流通规则,三者共同编织出具有弹性特征的权利义务网络。这种网络既为技术创新提供了制度性庇护,也提供了识别开源人工智能的法律风险的坐标体系——开放组件的类型选择(如仅开放接口或包39SeeAlexEngler,HowOpen-SourceSoft1含训练数据)、许可证的约束强度(如免责条款的范围)、参与主体的合规层级(如是否通过第三方审计)等变量,都将成为法律风险防范的关键维度。1.3.2不同类型/程度的开源(开放)人工智能尽管行业组织(例如OSI)和立法者(例如欧盟)尝试给出开源人工智能的定义,但业界尚未达成真正共识,市面自称“开源”的人工智能,其实开放程度并不一致。截至2023年8月,根据斯坦福大学“生态系统图谱”(EcosystemGraphs)的数据,英国竞争与市场管理局在其报告中指出:在已公开披露的模型中,最常见的发布方式是“开放”发布。41另一方面,将所有不属于严格定义上开源的“开源”人工智能划入闭源的范畴显然也是不公平的,因为尽管其开放程度并不足够,但仍保有一定的开源精神和作用。换句话说,在完全封闭和完全开放的大模型之间,其实存在许多中间过渡的形态。因此,我们需要一个类型化的框架,观察和区别这些处于中间地带的开放人工智能。HuggingFace的IreneSolaiman提出了一个分类框架(图1-1)。42在这一框架中,Solaiman根据发布时的方式区分了六类不同开放程度的人工智能:1.完全封闭,指的是该人工智能除了开发者组织之外没有其他人能访问,即便知道这一系统的存在;2.逐步/阶段发布,指的是在预定时间内分逐步或分阶段发布系统,以最大程度降低发布的风险;3.托管访问,指的是发布者通过在自己的服务器上托管模型并允许表层(surface-level)的接口来访问,这一维度上的访问意味着只能进行最简单的交互和使用;4.基于云/API的访问,开放程度指的是可以通过云或是API访问,但根据发布者的限制不同所能实施的操作也不同;5.可下载,指的是发布者已经提供了能够使得下游自行部署的组件,但是训练数据集和训练代码等并不包含在内;6.完全开放,指的是提供了足以复现系统的所有组件。在这一梯度中,随着开放程度的上升,风险也随之上升。开放程度完全封闭托管访问云/API访问41SeeCompetitionandMarketsAuthori42SeeIreneSolaiman,TheGradientofGenerativeAIRelease:MethodsandConsiderations,inProceedingsofthe2023ACMConferenceonFairness,AccoputingMachinery,2023;RishiBommasani,etal.,ConsiderationsforG386Science151(2024).1开放程度开放程度典型虽然Solaiman的六阶段分类模型揭示了开放程度与风险管控的负相关关系,但未充分考量权重这一组件的在当前开源人工智能生态中的特殊性。RishiBommasani等人在此基础foundationmodels)概念。该梯度去掉了逐步/阶段发布这一类,且细分出支持微调API访问这一类型。除此之外,在可下载这一基础上,主张权重是除数据外开放的核心组件。必须指出的是,开放权重不是简单的只提供权重,而是在可以访问基础之上还提供了权重,一般还意味着推理代码等组件的开放。之所以强调权重,因为模型权重一旦发布,开发者就放弃了对下游使用的控制。这意味着下游使用者可以对系统进行二次训练调整,无视开发者的各种限制,这毫无疑问更加符合开源的精神。完全封闭托管访问支持微调的API访问重、代码和码和数据典型总的来说,Bommasani等人所提出的这个分类梯度更加的贴合当前的开源/开放人工智能生态。虽然对于发布者而言,有着众多可发布组件的人工智能系统可以组成很多不同的发布方案,但开源生态下的下游开发者和研究者所关心的仍然是如何访问和使用这些系统。因而,简单的交互(托管访问),稍微更多的推理(API访问)、可以微调(支持微调的API访问)、可本地部署和调整参数(开放权重)、有限制的使用(有限制的权重、代码和典型43SeeIreneSolaiman,TheGradientofGenerativeAIRelease:MethodsandConsiderations,inProceedingsofthe2023ACMConferenceonFairness,AccomputingMachinery,2023;RishiBommasani,et最重要和最主要的使用行为。因此,本报告也采取这一类型化框架,对当前的开源/开放人工智能生态图景进行分析,并且以人工智能系统提供的最大访问和使用自由类型进行分类。例如,Mata旗下的LLaMA系列模型很多不仅提供了API服务也开放了权重,但本报告只将其归入开放权重一类。有争议的是,是否必须彻底开放数据训练集(而不仅是“数据信息”),才可认为是开源人工智能。本报告认为,彻底开放数据集是无法强求的理想状态,如果以此定义开源人工智能,势必导致大量具有开放精神的做法被排除在开源运动之外。事实上,无须OSI和许多开发者是否同意,达不到彻底开放数据集的LLaMA,已经重塑了人工智能的开源或者说开放范式,并且据此建立了广泛的社区生态。从自由软件和开源软件的理念分野和共生共存的历史经验来看,就开源人工智能而言,同样可以寻求一个更加平衡的开源标准和定义,确保人工智能生态的开放多样性,同时平衡开源自由理念的坚守和企业维护竞争优势的需要。回顾开源运动所追求的自由,就像OSI所称那样,对模型进行修改以满足自身需求 (无论是调参还是蒸馏)才是下游用户最看重的行为之一。就此而言,如果仅仅做到支持开放API接口以支持微调的做法显然不能满足下游绝大部分开发者的需求,而本地化部署和调整参数则提供了更进一步的修改自由度。但如果要求开放更多组件,例如训练代码和数据,则可为下游提供的模型修改自由并不太多,反而直接涉及到企业最核心的竞争优势力。因此,本研究认为,有资格真正称为“开源”的人工智能,至少是向下游用户提供了推理代码、参数及其他支持本地化部署和参数调整自由的机器学习系统。本研究在分析开源人工智能的法律风险时,也将主要以此为标准。1.3.3开源(开放)人工智能的产业地位为了更好的了解当前开源人工智能在全球人工智能生态中的影响力,本研究借助由UCBerkeleySkyLab和LMArena开发的模型竞技场排行榜(ChatbotArenaLLMLeaderboard),分析了高性能人工智能系统的发布趋势和相关人工智能企业的策略。44MArena,ChatbotArenaLLMLeaderboard:Community-drivenEvaluationforBestLLMandAIchatbot,单纯从图1-3(B)45所示当前的数量占比来看,对比图1-3(A),开放权重依然是高性能模型发布时采用最多的做法(40%)。开放API(34%)、API微调(13%)和托管访问(13%)的做法占比依次降低。早期高性能模型几乎都是以开放API这种的相对封闭方式发布,例如,早期的GPT-3.5、GPT-4和Claude等。2023年下半年开始,Meta的LlamA2(2023年7月发布)引领了社区开源风潮,其后诸多开源或开放模型或其衍生模型相继密集发布。到2024年,一方面,OpenAI、Anthropic等继续推出以GPT-01和Claude系列为代表的封闭新版本,追求性能突破以保持本身的竞争优势。另一方面,Meta、DeepSeek和阿里等公司持续开源升级版模型。虽然LLaMA4的作弊丑闻似乎使得开源世界的灯塔轰然倒塌,但DeepSeek的横空出世还是极大地推动了开源进程,连一直贯彻封闭模式的OpenAI和百度都相继开源了一些模型。整体趋势上,封闭模型曾一度主导,但开源(开放)模型的发布占比随着时间显著上升。尤其随着2023年下半年Meta发布Llama系列模型并开放权重起而迎来井喷,46顶尖模型从“以封闭为主”转变为“封闭与开源并存”,开放模型已成为发布主流之一。A托管访问API访问托管访问数量的占优并不意味着开放模型就能在性能上与闭源模型比肩,两者之间仍有一定差距,但这一差距不算太大。Top100中封闭模型平均得分约1408分,而开放模型平均约1390分。Moonshot和DeepSeek所提供的开源模型所展现出的竞争力也排名前列。图1-4(A)46SeeBenDickson,2023WasaGreatYearforOpen-SourceLLMs,VentureBe的比例在增加。claude-opus-4-5-20251101-hinkinclaude-sonnet-4-5-202gpt-4.5-preview-2025-claude-opus-4-1-20250805claude-opus-4-1-20250805kimi-k2-thinking-tumi50pmoio-l月份情况——开源模型模型名称中大都带有“llama”不同,这些模型主要来自我国的和突出贡献。2●托管访问API微调开放权重chudeopus4-20250514-1hiqwen3-235-a22b-instrdepsockv32-ecp-hinkinggok-4depeck-r1-0528kimikkimi-k2-0711-preciewgwen3-NJ-235b-g4-4.1-202504-14claude-opus4-20250514■2025/2/152025/4/152chue3-7-ome-20290291misemimi²5liepreviu-06gm-4.5air图1-4高性能模型的开放类型:(C)3月份和12月份模型名称及类型根据图1-4(D)和(E)则可以发现,top51-100的区间内,开源模型基本是主力(46%)。这也再一次从侧面印证了开源模型正在逐渐追赶闭源模型,至少在top51-100的这一区间内,极大的修改自由将是其吸引更多的开发者的竞争优势。同时,和上一区间开源模型主要来源于我国不同,开始出现来自其他国家quen3-235b-a22b-no-thiqwen3-235b-a22b-thinkingqwen3-v↓-235b-a22b-thichude-3-7-sont-20250219-thinkingqwen3-coder-480b-a35b-inshunyuan-turbos-202504wcn-306-ab-insuc1-25gmini-2.5-fash-litepreview-06-17-hi2024/9/52024/11/52025/1/52025/3/52025/5/52025/7/5EAPI访问genini-2.0-flash-litepreview-mhunyuan-turbos-202502amazm-nova-ecperimcnal-chat2024/9/172024/12/32025/2/192025/5/72025/7/242025/2(1)国际主流大模型发布策略示例OpenAI自GPT-3至2024年以来迄今坚持封闭策略,其先进系列模型均较为封闭,只开放API服务而不开放模型权重。虽然存在几个排名前100的模型支持API微调,但相对使得OpenAI在高性能模型上保持领先并构建性能的护城河。2023年至2025年期间,OpenAI主要通过持续迭代封闭模型(如GPT-4的多个版本更新)来巩固性能优势和维护竞争优势。值得注意的是,可能是受到来自DeepSeek的压力,OpenAI在2025年8月发布了gpt-oss-120b和gpt-oss-20bOpenAI的封闭模式在一定程度上刺激了其他竞争者和开源社区的追赶。Anthropic等大多数公司在一开始也选择了封闭模型路线。长久以来,Anthropic都被认为是OpenAI有力的竞争对手,其模型的性能表现和封闭程度可能更甚于OpenAI。Anthropic旗下当前仍提供服务的模型系列为Claude4系列、Claude3.5系列和Claude3系列,均包含Opus、Sonet和Haiku三个子序列。上述模型除了旗舰模型Claude4.5Opus只提供给升级用户进行托管访问之外,均提供API访问。然而比起OpenAI,其当前支持API微调的版本只有一年前发布的Claude3haiku,无论是在模型版本还是数量上都落后于OpenAI。但考虑到其主要面向企业的个性化定制服务的商业策略,较少提供的免费模型,自然也不倾向于采取开放Google的开源策略呈现了相对全面的梯度状:其先进旗舰模型开放API,中坚模型支持API微调,小参数模型则采取开源(开放)。一方面,Google的最前沿模型(gemini-3-pro)相对封闭,仅通过托管平台或是API接口提供相对限制的服务,是目前被认为足以撼动OpenAI领先的最先进模型。另一方面,Google也发布了若干支持API微调的模型(如gemini-2.5-pro)和小型开源模型(如Gemma-2-27B-it)并采用了自定义的开源许可。这种策略一方面能展示企业技术实力,另一方面也能弥补其在开源生态的缺席。总体而言,谷歌的开放策略梯度非常完整,这种层次的梯度策略使其既能凭借封闭大模型参与顶尖竞赛,又不至于在开源浪潮中失声。截至目前,Googl第一,而支持API微调的模型和开放模型则体量较小,性能处于次梯队。XAI同样采取了梯度的发布策略,但其梯度是模型本2第二代、第三代等则提供API访问,最新一代也就是Grok-4.1当前仅对X(推特)付费用户和自家网站提供服务,只有填写申请并获批者才能获得Grok-4.1的API访问权限。就像xAI所表示的那样,其最新版本成熟后才会开源前代Grok模型,以确保最强模型的竞争力。简单而言,xAI采取“代差开源”策略,以平衡商业利益与社区影响。不同于对竞争和安全充满担忧的巨头们,Meta走了一条几乎相反的道路,其将大模型权重直接向社区开放并以此重塑了模型开源(开放)的范式。2023年初发布LLaMA系列时,Meta率先开放给学术社区,随后7月直接开放了LLaMA2全系列模型(7B~70B)。Meta展现出对大模型开源的信心。事实证明,LLaMA的开源确实催化了开源(开放)人工智能生态的繁荣,众多衍生模型(如WizardLM)均基于其权重二次开发而来。Meta自家推出的Llama-3.1系列模型虽然性能不俗,但尚未直接冲击最顶尖位置。但这种强势的开放策略带来了足够的长尾效应,通过社区协作加快其模型迭代速度。可以说,Meta以“开源换生态”,在大模型开放战略上一度走在行业前列。然而,随着LLaMA4训练丑闻的曝光,其开始渐渐落后于DeepSeek和Kimi等后来者。MistralAI所发布的开源(开放)模型一度是Meta最有竞争力的对手之一,但其发布策略却和Meta有所不同。Mistral作为欧洲少有的顶尖人工智能企业,其最初跃入公共视野便是通过发布号称“同规模最强”的开源人工智能Mistral7B,其在多个标准基准上超越了更大参数的LLaMA2。47目前为止,MistralAI发布了包括推理模型MistralLarge、多模态模型PixtralLarge和小型模型MistralSmall等多款模型。然而,MistralAI并没有能够做到和Meta同等程度的开放——其性能较好的推理模型和多模态模型都禁止商用,其更强大的Mistral-medium只能通过其自有的开发者云平台LaPlateforme调用。由此可见,MistralAI在小模型开源和中等模型供给学术界以打造社区影响力的同时,也在高性能模型上寻找盈利点,因此策略上更像是Google。(2)国内主流大模型发布策略示例百度在开源路线上的选择和OpenAI非常相似,一度坚持闭源模式。百度自2019年起推出了多代ERNIE模型。2019年3月开放了ERNIE1.0,2023年在HuggingFace上开放了ERNIE2.0和ERNIE3.0系列的部分模型,2023年3月推出了类ChatGPT的对话模型文心一言(ERNIEBot),并于10月发布了号称“与GPT-4相比毫不逊色的文心大模型4.0”。47SeeMistra

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论