2026守己利他-智能时代做负责任的技术白皮书

上传人：策*** IP属地：陕西上传时间：2026-04-16 格式：PPTX 页数：73 大小：9.79MB 积分：12 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

•

阿里巴巴人工智能治理与可持续发展研究中心（AAIG）：AAIG是阿里巴巴集团旗下的人工智能研发团队，致力于利用AI技术解决安全风险问题，并推动AI技术更加安全、可靠、可信赖和可用。团队成员在计算机视觉、自然语言理解、数据挖掘与网络安全等领域的国际顶级会议和期刊上发表论文100多篇，获得国际国内专利授权60余项，申请中专利200多项。AAIG贯彻“科技创新是最好的网络安全”的理念，所研发的人工智能产品涵盖内容安全、业务风控、网络安全、数据安全与算法安全等多个领域，为集团在全球的千万商家和十亿消费者提供更好的安全和体验。•AI45

中心：上海人工智能实验室安全可信AI

中心是上海人工智能实验室科研任务部门之一。团队以

"Make

SafeAl”为核心技术愿景，着力夯实人工智能内生安全技术基座，推动行业从“让人工智能变得安全”到“打造安全的人工智能”的转变，支撑人工智能朝着有益、安全、公平方向健康有序发展。8

9特别鸣谢编写单位关注我们编写组主要成员关于我们阿里研究院AI治理中心专家阿里安全生态合作负责人阿里安全高级体验设计专家上海人工智能实验室安全可信AI

中心上海人工智能实验室安全可信AI

中心阿里云智能集团通义安全负责人阿里研究院AI治理中心主任阿里巴巴达摩院法务安全负责人阿里安全御风大模型负责人阿里巴巴达摩院安全总监阿里安全AIGC安全算法负责人淘天集团法务部法务专家阿里安全资深算法专家淘天集团营销法务负责人阿里巴巴集团风险管理委员会主席阿里巴巴集团公共事务总裁阿里巴巴集团首席法务官阿里巴巴集团安全部总裁上海人工智能实验室编写组阿里巴巴集团科技伦理委员会委员&AAIG主任阿里研究院院长上海人工智能实验室AI45安全可信AI中心张

荣傅宏宇李娅莉洪海文沈

晖陈岳峰胡俊英黄龙涛杜东为AAIG公众号

AAIG

官网

AI45

官网彭靖芷杨易侗马宇诗徐甲孟令宇梁兴洲何紫荆苏向文D

里巴巴D

里巴巴邵晓锋闻

佳俞思瑛钱

磊胡

侠彭骏涛段然杰朱琳洁杨

锐黄昱恺李进锋张

强王

铮况育宇徐璐妮许晓东廖

伟宋月冉邵晓钰许继杰守己利他指导委员会专家委员会陈宇宁王筱玥田晶晶郑子熠智能时代做负责任的技术薛

晖袁

媛王迎春MMM人工智能发展和安全的总体趋势1对人工智能发展与安全的总体判断201.1Al全球化发展是世界的主旋律，开源开放成20为中国Al创新的重要路径1.2大模型发展转向应用侧，需配套模型、数据、21网络等全方位的安全能力1.3安全需要多方合作，共绘Al安全与性能平衡21发展的美好愿景2对人工智能安全的基本态度242.1守己

242.2利他

252.3合作

2610

111建立技术先进、能力完备的模型安

全体系1.1Al范式在推理深度、模态广度上快速更迭，

安全技术要跟上智能技术的发展1.2

围绕“守己”理念，阿里巴巴建设了评测牵

引、内外兼备、能力全面、技术领先的Al安全

体系3031412

建立满足应用需求的安全能力体系682.1从“模型竞赛”走向“系统生态构建”682.2建立安全可信的云上大模型服务702.3应对Agent爆发带来的安全挑战

CHAPTERCHAPTER03守己：坚持长期主义保障模型及应用安全。公共云提供了AI应用安全的可靠保障方案目录引言01D

里巴巴守己利他智能时代做负责任的技术MMM12

131构建开源开放生态，加速技术的普惠80和发展1.1开源开放生态的利他属性801.2基于开源生态的Al应用服务851.3负责任的开源生态风险治理882大模型是世界知识的产物，也是服务97世界的工具2.1大模型是全球造、全球用的全球化工具，全97球化是模型发展本能的诉求2.2大模型对不同文化的适配102CHAPTER合作：聚力政产学研，共建安全、向善、可持续的AI发展范式1聚智多方协同，定义问题，解决问题1162聚知多方共享，理解安全，信任技术1213聚力产学联训，育才守正，铸才利远1244聚策技管融合，协同行业，共塑标准127AI治理前沿探索1以技术创新驱动安全与性能协同提升

1322以治理创新推动多方能力共建134

“AI安全全球公共产品”全球倡议135

CHAPTER6ER3负责任评估和应对AI带来的影响，

105帮助扩大AI正向价值3.1Al对经济社会的影响

1053.2Al对商业的影响1073.3坚持长期价值建设，引导Al技术应用向上110向善利他：用开源建生态、用开放促普惠，负责任地评估应对AI发展中的影响0405D

里巴巴守己利他智能时代做负责任的技术MMM2025年，人工智能技术持续快速跃进，不仅深度重构数字世界，更以前所未有的广度介入物理世界。不断提升的模型能力打开了人们对智能应用更大的想象空间，发展的重心也向产业上下游延伸。以“AI+云”为引擎加速推动计算资源、基础模型与应用生态的全栈发展，并驱动人工智能服务走向全球化，带动“技术-产品-市场”的正向循环。随着人工智能在千行百业的渗透普及，各方不仅期待人工智能的能力变得更强，而且更加关注其对人类社会带来的各类影响，期望推理、多模态等前沿技术以及智能体等应用更加负责任。国际社会日益形成共识：安全与发展并非对立，而是“一体两翼”。我们既要保障技术创新、形成智能红利，又要合理管控风险、保障人类安全，守护安全底线、尊重人的尊严与权利，并接受多方主体的持续监督，让人工智能做到合伦理、有克制、不伤害。“守己”是负责任人工智能技术的必要前提条件。在此进程中，开源开放正成为构建可信AI的关键路径。2025年，中国已成为全球开源大模型生态的重要贡献者。开源不仅降低了技术门槛，更通过代码透明、社区协作与敏捷反馈，推动安全知识的公共化与治理能力的集体进化，提高了社会对人工智能的信任，一个由开发者、企业、社会组织、公众与主管部门共同参与的信息透明、敏捷反馈、多方协同的治理生态正在形成，使人工智能在高速发展中仍能获得及时、有效、包容的约束与引导。“利他”代表了对负责任人工智能技术的更高要求。知行合一，理念终归要落地于实践。“守己”与“利他”的价值主张，正内化为领军科技企业战略布局的核心原则。作为“AI+云”战略的实践者，

阿里巴巴坚持守己、利他的负责任创新，贡献更好、更安全的全栈人工智能技术，提供更多样、更有温度的智能应用服务，促进行业可持续发展；并通过模型开源、标准共建与跨国对话，与全球伙伴共同定义负责任人工智能的技术规范与实践路径，让人工智能在向好、向善的轨道上行稳致远，服务全球。16

17上海人工智能实验室聚焦人工智能发展与安全战略性、前瞻性需求，联合国内外学研力量，持续深化人工智能领域关键核心技术攻关，探索通用人工智能路线，引领推动我国人工智能科技创新与产业创新深度融合；

同时，通过战略性项目布局持续催生重大科学突破，让人工智能深度赋能国家建设，助力全球发展。D

里巴巴守己利他智能时代做负责任的技术MMM本报告来源于三个皮匠报告站（）,由用户Id:1181721下载,文档Id:1180064,下载日期:2026-04-04大模型技术问世以来，如何控制

AI风险、保障AI安全成为各国关注的重点。美、英等国家相继设立国家级AI安全研究机构，例如美国

AI安全研究所（现称“美国AI标准与创新中心”）

、英国AI安全研究所，聚焦前沿风险研判；

欧盟通过《AI法案》构建基于风险分级的监管框架；我国则创新性建立“备案+检测+评估+标识”四位一体的大模型全生命周期治理先进实践，在鼓励创新的同时保障安全。我国的相关法规、标准、实践指南体系完备，覆盖大模型事前事中事后阶段，并得到充分落实，使得公众对大模型技术的信任度高，反映出治理有效性与社会接受度的良性互动。2025年以来，大模型技术在推理、多模态等方向持续突破，成为了世界知识的入口和各行各业通用的工具。法国率先在巴黎AI行动峰会提出了推动AI发展的诉求，美国特朗普政府则废止了AI安全行政令，提出以持续高速创新和技术应用扩散为目标的AI战略构想，中东、日韩、东南亚等国家也积极拥抱AI。国家层面对AI

的关注从模型、算法、算力延伸至电力、网络等基础设施以及人才、资金等资源支持，以提高模型能力为重心、支持AI全栈技术的协同发展成为共识。2025年6月25

日，

国务院总理李强在第十六届夏季达沃斯论坛开幕式上指出：“中国创新具有明显的开放、开源特征，我们愿意向世界分享原创技术和创新场景，也支持国际联合研发、应用推广，通过开放合作促进各国创新发展。”我国持续推出高质量开源模型，使用门槛不断下降，将AI的能力源源不断地转化为生产力。我国开源衍生模型数量全球最多，集聚全球开发者力量、多元化技术路径发展、多样化应用生态开源成为了AI发展的核心路线。1.2大模型发展转向应用侧，需配套模型、数据、网络等全方位的安全能力大模型技术的发展推动从算力到智力的转化，推理能力的提高让大模型能够分析理解指令要求、执行复杂任务，多模态的发展让大模型具备了更强的现实认知能力，大模型正在接管数字世界，改变物理世界。2025年以来大模型的产业应用渗透加速，伴随Agent

的普及，大模型进一步激活用户数据、重构传统软件，

人类正步入智能经济的时代。大模型发展的重心也走向应用侧，需要持续推出能力更强、效率更优的模型，更需要围绕用户和场景构建应用生态。大模型安全治理进一步向用户侧延伸，

围绕模型应用落地过程中的实际问题，重点保护用户数据权属和隐私、保障用户对模型的控制、促进Agent

的有序协同。AI应用安全需要模型、数据、网络等全方位的安全能力，公共云既能提供最先进、最安全的模型，也能够为用户使用模型提供全面保障，是模型应用的最佳解决方案。

1.3安全需要多方合作，共绘AI安全与性能平衡发展的美好愿景

统筹AI发展与安全，是AI治理的核心要务，也是我国的成功经验。风险伴生于发展，AI

的发展具有高度的动态性。AI

的风险也具有阶段性，AI技术的完善在不断降低其本身的风险，对此企业一方面需要在发展的过程中积累科学依据和实践经验，理性地判断AI前沿科技创新带来的风险，避免过早、过急、过重的外力治理，另一方面通过凝聚政产学研各方的力量，在AI技术发展和应用拓展的过程中同步建立风险判别和处置机制，提前发现、识别风险，通过技术手段加以修复、应对，采取多方合作的方式将负面影响降至最低。20

211.1AI全球化发展是世界的主旋律，开源开放成为中国AI创新的重要路径1

对人工智能发展与安全的总体判断D

里巴巴守己利他智能时代做负责任的技术MMM全球合智方能全球善“智”。《人工智能全球治理上海宣言》倡导建立全球范围内的人工智能治理机制，鼓励国际组织、企业、研究机构、社会组织和个人等多元主体积极发挥与自身角色相匹配的作用，参与人工智能治理体系构建与实施。面向未来，中国人工智能企业与科研机构有信心为全球人工智能治理提供前沿技术能力，让人工智能真正成为造福人类的国际公共产品。22

23在2025年世界人工智能大会（WAIC）科学前沿全体会议上，图灵奖得主杰弗里·辛顿（Geoffrey

Hinton）在与上海人工智能实验室主任、首席科学家周伯文教授的对话中指出，“让AI更聪明”和“让AI更善良”会有不同的技术，而国家之间可以分享“让AI更善良”的技术。“让AI更善良”一直是中国人工智能企业和科研机构对负责任AI技术的追求与希冀。在

2024WAIC上，上海人工智能实验室周伯文主任率先提出“AI-45°平衡律”（AI-45°

Law）的技术思想，强调人工智能性能与安全应协同演进。这一判断从长期主义视角提出AI安全与性能的应然关系，描绘了人工智能安全与性能协同演化的总体愿景。人工智能安全既需要持续的安全投入，也需要凝聚各方共识与技术合力，共同推进安全技术成果的积累与落地。在中国人工智能治理实践中，政府、企业、科研机构正在走向敏捷协同，共同推进安全能力共建与风险知识共享。上海等地政府监管部门主动推动治理模式创新，通过平台建设、服务匹配等方式支持和帮助

企业提升安全素养、构建安全能力，培养全社会负责任地使用AI

的意识，推动AI安全可信发展。D

里巴巴守己利他智能时代做负责任的技术MMM负责任的模型开源，建设资源开放的生态，实现普惠、促进安全、繁荣生态，是AI发展的重要路径。开源文化孕育了技术创新和进步的基本范式，而开源AI则从代码自由走向资源开放。模型开源使得技术更为普惠，让更多的人能够低成本用上最优秀的模型，通过使用积累经验、降低试错成本，产生众人拾柴火焰高的效果，是技术向善的自觉选择，同时开源生态帮助连接技术与市场，满足产业多样化的应用需求，促进技术赋能千行百业。在安全侧，开源模型的技术风险和闭源模型相比并没有新的增量，我国对模型事前备案以及事中事后的检查、标识，

以及产业界采用的评测等方案，可以有效管控开源模型的风险。在开源生态中，通过去中心化的协作机制构建起全球开发者共享的技术公地，各方基于社区共识和自我约束，自觉自律遵循社区规范，平台借助技术工具和倡议提升风险意识和治理效率，在遵循法律底线的基础上共同维护良好有序的生态秩序。大模型是全球造、全球用的全球化工具，服务全球、普惠全球是模型发展的本能诉求。大模型的强大能力根植于世界知识的积累与协作创造。通过多语言、多文化的训练数据集构建，大模型能够吸收人类文明的多样性智慧，将其潜藏的客观规律和人类价值观转化为跨文化、跨领域的通识能力；其依赖的数学原理和核心框架为全球共享的科学共识，全球学术界和工业界的协同创新推动了算法的不断演进。此外，模型的广泛扩散能够带来巨大的规模效应与生态优势，推动技术走向全球共创共享：通过开放协作激活全球开发者网络，显著提升技术研发的迭代速度与创新能力；依托云基础设施建设服务全球的模型服务平台，突破模型能力的地域限制，实现全球范围内的高效部署与优化；通过技术手段适配不同地域多样化的文化与价值，在坚守国家立场的基础上兼顾不同文化背景与价值诉求，构建包容型技术生态、实现文化共存。以负责任的态度，主动评估并积极应对大模型对经济社会带来的影响，促进AI正向模型安全是保障AI有序发展的基础。模型能力的不断提升对模型安全提出了新的要求，基于模型结果输出的概率性和不确定性，模型安全从单一结果导向走向能力完整度和成熟度导向。模型技术的不确定性决定了对模型安全的评价难以使用静态的标准，对安全的建设不能一蹴而就，需要坚持长期主义，基于

AI范式发展探索安全技术前沿，在模型发展中持续提高安全水平。大规模、全尺寸、多模态开源带来巨大的安全挑战，阿里巴巴加强内生安全与外围护栏等技术投入，持续提升模型的安全性能：在模型上线前开展安全红队测试，确保其在核心应用场景中具备强鲁棒性；同时，部署数字水印等策略工具，增强生成内容的可追溯性，有效防范下游误用与滥用行为。应用安全体系是AI发挥生产力的必备要素。作为通用技术，大模型应用已经渗透千行百业，融入生产、供给、消费等数字经济的各个环节，企业用户、社会公众对大模型应用安全提出了差异化的要求，对此需要建立满足应用需求的多层次安全能力体系，构建安全可信的云上大模型服务，满足各类终端用户、多重处理环境、智能体构建、国内国际应用等的多样化应用安全要求，让模型应用走好最后一公里、让模型服务受到各类用户的信任。24

252

对人工智能安全的基本态度

2.2

利他

2.1守己D

里巴巴守己利他智能时代做负责任的技术MMM政产学研共建

AI安全与发展生态，积累和贡献该领域的公共知识。AI技术发展至今，其创新过程仍具有高度的动态性和不可解释性，而人工智能应用的快速渗透和广泛铺开，一方面使得AI安全风险呈现出高度不确定性，另一方面也让社会各生产环节跃跃欲试，针对AI的安全治理与应用潜力呈现出多利益主体的“共同无知”。面对人工智能技术发展和社会影响这一复杂系统，需要坚持长期主义，构建政产学研知识共享和协同共治机制，共同探索、学习和积累AI安全与应用发展的公共知识，提升安全与发展共识水平：通过建立开放共享的知识库平台，系统化沉淀风险案例、攻防策略与治理经验，将分散的认知转化为结构化公共资源，同时联合优质客户探索人工智能应用发展案例，积累应用实践经验与可验证的数据化资产，形成底层产品能力反哺行业中小客户；依托联合实验室与跨学科研究网络，针对前沿安全威胁开展预研攻关，推动测试工具、评估框架的标准化输出，同时面向人工智能技术发展前沿，探索更多可落地的多模态技术能力；设立常态化对话通道，促进政策制定者、技术开发者与伦理学者在动态演进中持续校准风险认知。26

27价值的有效发挥。在生产要素层面，AI对算力的需求带来的能源环境挑战，对优化全国能源配置，推动能源结构绿色转型，实现产业发展与环境保障的平衡提出需求；在生产力层面，AI作为生产力工具为千行百业的效率提升与业务创新注入强大动力，同时AI也深刻改变劳动力个体的工作方式和就业市场，带来了新的机遇和劳动力结构的转型；在生产关系层面，AI驱动组织结构向去中心化、扁平化演进，并拓展组织边界、发展更具弹性的生态系统，

同时

AI也在重构商业模式，带来新的商业合作机遇，驱动数据价值释放并催生科技与内容产业间创新共赢生态。此外，

技术在语义理解、多模态等多方面能力的提升，能够帮助引导正能量内容的生产、识别和分发，实现AI对于社会发展的正向引导和促进作用。2.3合作D

里巴巴守己利他智能时代做负责任的技术MMM大模型揭开了AI

时代的序幕，给各行各业都带来了更多全新的可能性。从技术视角来看，统计机器学习的Scaling

Law（扩展定律）

主导了这一次的变革，

国际厂商如OpenAI、Google等，

国内厂商如阿里巴巴、DeepSeek等，都不约而同地迈向了Scaling之路。预训练阶段的

Scaling主导了大语言模型建模人类语言知识和一部分世界知识的过程，而2024年以OpenAI

o1模型为代表的TestTime

Scaling（推理阶段扩展）方案，则为预训练收效放缓的AI领域注入了全新的活力。基于统计机器学习和概率分布的训练范式，导致AI技术可能出现不同于以往的风险特征。在传统的机器学习时代，

因为模型整体的能力有限，其带来的风险可能性也普遍较为固定和轻微。而大模型在许多领域已经接近甚至超越人类的水平，在应用面上，也更多地直接落地在各行各业之中，因此其风险管控会显得更加困难。具体到应用上，AI风险的解决变得纷繁复杂且技术要求极高。对个人用户来说，AI对话机器人提供心理咨询时，给出不合理的建议可能会导致用户心理受到严重的创伤，甚至造成不可挽回的损失；青少年使用

AI生成色情内容，则会对未成年人的身心带来恶劣的影响；黑灰产使用

DeepFake等AI合成技术诈骗，几乎也到了以假乱真无法分辨的地步；对商业企业来说，AI在对客场景，输出不符合法律、道德的内容，将会带来大量的责任风险；而在用

AI作为工业流程的一环时，AI

的不确定性和幻觉可能会造成难以想象的财产损失等。如何提升AI对社会的正向影响，规避AI发展带来的社会问题，是一项具有挑战性的课题。而以上的绝大多数问题，都需要相关方从AI本身的技术原理出发，深入理解AI安全的本质，从而设计更好的治理和引导方案。随着AI能力日益强大，其安全挑战也同步升级。阿里巴巴深知，唯有构建与之匹配，持续进化的安全能力体系，才能为技术的健康发展筑牢根基。围绕“守己”理念，

阿里巴巴已经建立起以评测为牵引、内生与外层协同、覆盖模型全生命周期的纵深防御体系——将安全内化为大模型的“本能”。这一体系不仅紧跟AI技术前沿，更面向真实应用场景，致力于在推动创新的同时，为整个生态的稳健发展提供坚实保障。作为负责任的技术践行者，阿里巴巴始终以系统性思维构建安全防线，确保

AI在可信、可控的轨道上加速前行。30

311.1AI范式在推理深度、模态广度上快速更迭，安全技术要跟上智能技术的发展1

建立技术先进、能力完备的模型安全体系D

里巴巴守己利他智能时代做负责任的技术MMM向C端的完整产品生态”的跃迁，画质稳定提升，时长延长，物理准确性、细节与光影表现显著增强，音画同步、人物ID保持更优，并通过SoraApp将生成与社交融合，跨越了消费门槛。Sora2

等视频生成模型中，涉及到的三维时空建模、分层高质量训练、多模态语义对齐、音视频同步生成、人物ID保持等技术项，都昭示着这是一个综合多模态、多阶段、多技术点的复杂方向。●

扩散模型架构的可能性。扩散模型往往用于视觉模态的生成。近期，

Google等将扩散模型架构用于大语言模型，替换原本的自回归架构，大幅度提升了语言生成的效率，并带来了各种奇妙的特性。这使得业界开始思考，多模态统一可能并非是让其余模态靠近大语言模型的自回归架构，而是让大语言模型变成扩散架构，便可自然地和其余模态进行结合，达成更有意义的结果。●

全模态建模的可能性。文、图、音、视等多种模态，互相之间都具备其他模态无法替代的特性，探究全模态建模（例如Qwen-Omni等），可以尽可能全面地保留每个模态的特性，提供更高的能力上限和可能性。在模态扩展的“广度”之外，模型推理的“深度”也是智能发展的核心方向。正如围棋场景，一个优秀的棋手一定会在下棋之前，考虑几步甚至几十步之后的可能性和收益，从而指导当前这一步的决策，在这个过程中，面对具体任务时的“深度”，是推理能力的核心表现之一。大语言模型在推理能力上呈现着类似的特性，面对同样的问题，大语言模型通过CoT（思维链）进行“思考”以后，答案的准确率会远胜过直接回答，而这个过程，被称之为“预测阶段扩展”（TestTimeScaling）或推理，该类模型被称为强推理模型。2022

年底，ChatGPT的发布让社会各界看到了预训练ScalingLaw的价值：通过算力、数据、模型参数三位一体的有机向上扩展，模型整体的能力便会呈现出优雅的上升趋1.1.1AI技术朝着多模态、强推理、细评测、重实践的方向发展AI技术范式朝着多模态、强推理方向发展。大语言模型的成功背后是“人类语言”里，通用性、扩展性、人类对齐的三位一体。从通用性来说，人类语言可以描述绝大部分现象，尽管有时候不够高效；从扩展性来说，人类语言存量量级极大，而大模型的训练范式可以从人类语言的海量数据中学习规律，进而涌现出理解、生成、推理等能力。而在多模态场景，如图片场景，这三者却并非一致。视觉信息是客观存在的内容，不具备和人类理解力对齐的特性，通过单一的视觉模态直接产出能让人类理解的智能，这件事便显得困难。于是业界向着多种模态交融的范式探索，也让大家看见了多模态更大的可能性和价值。●

理解生成统一建模。

常见的多模态范式下，因为技术阶段、数据组织、训练稳定的各种考量，往往是理解能力（如Qwen-VL）和生成能力（如Stable

Diffusion生成图像）分开，两者的割裂导致了多模态理解缺失细粒度的模态理解力，而多模态生成则丧失一部分精细的生图可控性。将两者做有机的结合（如

OpenAI

GPT4o等）

，进行端到端的原生多模态训练，有望同时缓解理解和生成的痛点，达到更优秀的多模态理解和生成效果。●

视频生成能力。2024年初，Sora横空出世，引发大家对于视频生成、模拟世界等方面的热烈讨论。然而当时Sora模型依然存在诸多问题，例如生成时间较短、没有音视频共同生成的能力、整体水平不稳定等；后续伴随着各方探索，著名的产品和模型如通义万相系列、可灵、Pika、即梦等，从不同侧面优化了各种场景下的视频生成效果。Sora2的发布让大众看到，视频生成模型从“受限的实验型Web工具”到“面32

33D

里巴巴守己利他智能时代做负责任的技术MMM

现有评测体系落后于AI技术发展，面向实践的智能体范式或成为智能演进的牵引力。在OpenAI研究员发布的《The

Second

Half》中提到，

当前AI面临的问题，慢慢从如何训练一个模型，变成如何找到一个有效且足够难的评测任务。常规人类的评测被AI不断突破，原本对于人类来说困难的任务，例如数学奥赛、代码编写等，也慢慢被OpenAI

o1、DeepSeek

R1等强推理模型解决。缺少足够难的评测，本质上是缺少足够有价值的方向牵引。另一方面，大语言模型的训练范式近一两年呈现收敛趋势。这意味着大语言模型的训练收益，更多转向数据驱动和任务驱动，而非技术架构本身的增益。这更加剧了

AI训练对任务和评测的依赖性。为了解决这些问题，学界、业界都尝试构建更难的任务和评测，

以帮助模型达到更强的能力。例如国外非营利组织“人工智能安全中心（CAIS）”与ScaleAI联合推出“人类终极考试”，旨在建设一个足够复杂且有区分度的评测体系；国内红杉中国则从投融资、实际场景的效用价值出发，推出了

xbench测试集等。这些评测集虽然评测维度和方式各异，但是最终都能显式地标记出模型的能力不足，并帮助模型更好地往前发展。更广泛的环境反馈，也会带来更难的任务。常见的多模态识别模型在真实场景

(如具身智能、智能辅助驾驶)

中，整体准确率便会大幅度下降，因此大模型与评测并非软件世界的专属，而是需要与真实世界的困难深度融合。在以上的难点之外，构建更大的任务闭环也是难点的核心来源之一。OpenAI构建DeepResearch

以求在足够难和复杂的研究话题上，寻求模型往前进一步的可能性；而更多的研究者认为，AI应该从实验室的小闭环迈向真实商业和人类世界的大闭环，●高效推理能力。模型应该对简单的问题进行简单的解答，而对复杂的问题进行推理，可以通过控制给模型的预测时间，来实现任务准确率和预测成本的平衡，如

Qwen-3等。●

推理能力迁移。在数理任务上的推理往往是形式化符号推理，是严格的；而在具体的生活场景和业务场景，往往面临的都是模糊推理，每一步只是上一步的大概率事件，而非绝对因果关系，如何将数理上的形式化推理能力，迁移到真实业务场景，这是一个难题。●

超长推理能力。要解决更难的问题，还需要模型具备超长的推理能力，如何让推理能力有序扩展，提升信息密度等，也是推理模型核心的命题。总结来说，从智能的广度来看，在大语言预训练范式逐步收敛的今天，多模态领域因其特有的技术特性和应用潜力，各项相关技术被广泛地讨论和研究，包括视频生成能力、理解生成统一建模、更好的多模态架构等。多模态本质卡点在于目前的多模态范式的可扩展性较差、不同模态之间的建模方式不统

一、复杂模态的建模能力较弱等。从智能的深度来看，DeepSeek

R1、OpenAI

o1等强推理模型的发布，让业界开始集中关注混合推理、模糊推理、长推理等各种新范式难题，从业者通过探究智能解决高难度、多步骤的各类问题，

力图将广义的推理能力迁移到各个有真实价值的任务之中。34

35势。而OpenAI

o1、DeepSeek

R1等模型发布，

让推理的话题变成热门，

以下方向都是目前重要的几个研究方向：D

里巴巴守己利他智能时代做负责任的技术MMM从而在更大的闭环中，通过更密集、有意义的反馈，来优化智能的各个维度，打造下一个时代的智能。在人为定义的评测体系之外，“格物致知，知行合一”正成为智能发展的共识之一：现有的AI发展往往还停留在“知”的阶段，而缺少“行”的实践。让一个具备一定智能基础的AI进入真实业务环境、真实物理环境解决问题，并不断积累反馈，迭代自身，这越来越成为业界的广泛认知，在这个过程中，智能体、具身智能等，都是面向实际业务场景和真实物理世界的可能范式，其重要方向包括但不限于：●

通用智能体。大模型智能体（如Hugginggpt、AutoGPT、Manus等）是传统的强化智能体在大模型时代的新变种。它以大模型为能力底座，配合记忆机制、工具使用能力、规划能力、反思能力等，形成一套完整的服务闭环，以解决一些具体的、真实的问题和需求，并收集反馈。在这个过程中，如何将智能体建设得更具备通用性，拥有更强的适配能力，是重要问题之一。●

更强的记忆机制。大模型通过记忆机制来刻画当前的用户需求或业务需求，在面对更长的时间维度、更复杂的任务需求时，记忆的全面性、精确度便成为了核心。同时，记忆机制的建立依赖于用户信息和业务信息的收集，潜在的风险控制也是热门研究课题。●

多智能体。多智能体可以很好地明确分工，让专业的智能体做专业的事，从而达到更好的解决问题效果；另一方面，群体智能的一些实验，本身是可以用来模拟人类社会发展的一个沙盒，在学界有不少交叉领域，会更关注多智能体博弈过程中，各种各样的社会范式会被如何博弈构建。总结来说，缺少足够难的评测，本质上是缺少足够有价值的方向牵引。大语言模型训练范式呈现收敛趋势，如何通过足够困难、有意义的任务设计和评测体系，来牵引模型向前突破智能瓶颈，已经成为当下人工智能界最核心的问题之一。智能体等方式的普及，让

从实验室走向真实实践的进度不断加速，一方面赋能各行业形成业务价值，另一方面也迫使智能接受真实世界的广泛评测与检验，以形成更大的智能迭代闭环。1.1.2安全技术需要跟上智能技术的发展本节重在讨论和梳理AI安全的业界前沿话题与相关技术，而阿里巴巴在AI安全的建设体系与实践细节，将会在1.2章做详细介绍。

通过负责任的评测体系，围绕多模态安全、强推理安全、智能体安全等进行更先进的AI安全建设。当前的AI前沿技术带来一些全新的安全课题，如多模态安全、强推理安全、智能体安全等。在大语言模型中，对于文本的管控本身具备难度，而在多模态场景，其难度呈现几何倍数的上升。●

模态本身的风险。不同的模态，其管控的重点、技术流程各不相同。例如，在音频场景中，

同样的声音通过色情的发声和正常发声的方式，会带来截然不同的导向。针对每一个模态的风险进行深挖，这是需要长期投入的工作。目前业界前沿对文本、图片模态有不错的建设，而在视频、音频模态尚需更多的技术投入。●

跨模态之间的组合风险。例如，在各类隐喻性的表情包中，常常出现文本内容无风险、图像内容无风险，但两者结合后却形成具有特定文化含义的“梗”类风险现象。传统的单模态管控体系，并不能很好地解决如上问题，因此需要引入并持续建设更强的多模态管控范式。36

37D

里巴巴守己利他智能时代做负责任的技术MMM以真实刻画当前

AI的安全水位，给使用者一个风险的预期，成为一个有挑战性的问题。●

全面、真实、有区分度的评测集。

如何设计评测集是一个业务理解、风险理解和技术理解兼具的难题。一个优秀的评测集至少需要具备公平性（即对各种

AI甚至人类参与评测，都一视同仁）

、区分度（能有效衡量出安全AI和危险AI

的区分）

、一致性（与真实用户体感和业务需求保持一致，避免评测集过高，真实体感极差的情况）。对于评测体系的构建，业界正在形成多岗位、多专业、多背景融合的团队组织，以求全面、多维度地对评测集进行补充。●常规评测模式。根据预先定义好的不同评测风险域和风险点，设计具体的评测问题，并对

AI的输入输出进行联合判断、判读等，以量化

在具体风险域、风险点上的表现；该方案可以具体、直观地呈现评测效果，

但较为依赖风险体系构建的全面性和精准度。●

红队评测/攻击式评测。通过专业的面向大模型的攻击手段，如越狱攻击等，不断去挖掘大模型本身的漏洞，从而倒逼大模型的安全建设。这是一个多圈层、多学科、组织要求高的评测模式，可以批量、快速地发现大量日常过程中不易暴露的潜在风险。●基于神经元的知识探针评测。利用神经元分析技术，更深入地探究模型是如何“知道”或“不知道”风险相关的知识，以及这种知识掌握程度如何影响其安全性表现。特别是对于那些由于概念表述不当而引发的风险，通过神经元分析来找出导致这些风险的具体原因，为模型训练和优化提供精确指导。在通过评测明确整体安全水位后，业务实践中可采用外层护栏（指部署在大模型推理服务链路外围的一系列规则驱动或模型辅助的过滤/干预机制，用于在

query进入模型前或response输出模型后进行合规性校验与风险拦截）

、内生安全（指通过模型架构设计、训练数据治理、对齐技术等手段，使大模型在推理过程中自发抑制有害、虚假、偏见输出的能力——即安全属性“内生于”模型参数之中）等方式提升安全性，在强推理范式下，模型倾向于生成越来越长、越来越复杂的推理过程，以解决更难的问题。然而对于大语言模型来说，推理过程本质上依然是在不断地输出

Token和内容，在一个超长的内容输出过程中，传统的错误累积、幻觉现象、价值观问题等风险依然广泛存在，同时因为强推理模型面对的问题往往比较复杂、困难，因此推理过程中的可控性要求更高。●

推理过程的安全。模型往往会根据推理过程来进行最终答案的决策，而在模型训练数据中混入恶意的推理数据，或在推理过程中注入恶意信息，都会导致推理过程导向不合理的结果，甚至带来风险。●

隐空间推理。推理技术，本质上是希望模型在预测过程中，花费更多的时间进行思考和计算，而非强制要求输出大量的思考Token。因此业界也有大量的工作在探究不输出Token，只在抽象的特征维度进行推理的范式，这种范式无疑带来了更强的不确定性和更差的可解释性，对其风险的管控，需要投入更多的建设。以上是虚拟世界中，大模型作为智能载体所面临的挑战和问题，而智能体作为智能技术落地真实业务场景的载体，也会引入新的风险维度，如单智能体决策错误、多智能体协同风险、多元化、多阶段攻击等，这些都是智能体的潜在风险，整个智能体链路较为复杂，涉及大量系统级的网络安全、AI安全等问题，本书将会在

2.2节详细介绍风险类型和普遍解法。基于以上的风险可能性，如何负责任地进行合理的、有区分度的、内外兼备的评测，38

39●

多模态带来的对抗性。黑灰产等会持续不断地对抗安全体系，以求牟利。而多模态的模型能力的提升，也为其带来了更多的攻击工具，例如

DeepFake换脸诈骗、数字人视频通话诈骗等。防御者也需要及时拥抱最前沿的AI技术，保证自己的防线永远处在业界领先，以保证业务和用户的安全。D

里巴巴守己利他智能时代做负责任的技术MMM总体来看，AI每一个方向的发展都蕴含着潜在的新风险，纷繁复杂的业务和技术体系，需要构建负责任的评测体系，使用全面、真实、有难度的评测集，

对AI进行合理的、有区分度的、内外兼备的评测，刻画当前

AI的真实安全水位，并牵引着

AI向更“守己”的方向迈进。围绕当下紧迫的

技术发展方向，AI

安全建设需要着重覆盖跨模态安全、强推理范式的推理过程安全、智能体的全链路安全，以形成无缝闭环的守护体系。AI安全体系应该是通用的、动态的，而非狭窄的、固定的。从“守己”的视角，AI技术的发展和AI安全的发展相辅相成，可以做以下总结：●

安全技术要跟上智能技术的发展。

当前安全技术与AI本身的技术之间，依然存在一定的建设阶段差距。AI的快速迭代迫使安全技术加大投入和发展力度，推动更强的

知识认知、更好的技术理解、更全的行业交融以及更深的产学研合作，以形成整体的

布局。●

智能的安全是通用的、动态的，而非狭窄的、固定的。

寻找足够“难且有意义”的训练任务，是智能发展的本质需求。风险域因为其特有的对抗性，会使得固定的设

计都会在长期博弈中失效。这些高频的对抗博弈既是对智能安全的挑战，也会倒逼模

型智能水平不断提升，是带来超越人类智能的可能路径。从智能的发展和安全的建设

角度综合考虑，智能需要有更通用、动态的安全体系，

以应对无穷无尽的挑战和变化，来达成长期稳定的安全。安全与智能一直是对立统一的辩证关系，在不同的发展阶段螺旋上升，当前已经可以

“守己”是阿里巴巴AI

安全体系建设的核心牵引。这一理念源于我们对人工智能技术发展与社会责任深度融合的深刻认知——在推动技术创新与业务赋能的同时，我们始终恪守技术伦理边界，强化内生安全能力，主动防范潜在风险，实现“有益”与“向善”的有机统一。AI

的强大力量，正如承载文明的陆地，坚实、可见，代表着生产力、创造力和无限可能。AI

安全则是定义其边界的海洋，深邃且充满未知。它包围、渗透并塑造着陆地，既孕育信任的航道，也暗藏失控的风暴。我们致力于在人工智能的广阔海洋中，构建安全、可靠、可信赖的技术防线，

探索AI安全的深远边界，为智能技术的可持续发展护航。随着AI

能力的飞速发展，其安全挑战也呈现出前所未有的复杂性和多维度性。风险的发生往往不是单一因素导致，而是多种潜在弱点串联的综合结果。为了更生动地理解为何需要构建一套全面、多层次的安全体系，我们可以借鉴“瑞士奶酪模型”的理念。这个模型将人类系统中的防御机制比作多片并排堆叠的瑞士奶酪。每一片奶酪都代表一道独立的防御措施，但其中都存在着随机分布、大小不一的孔洞，象征着该防御措施可能存在的弱点或漏洞。当这些奶酪片层层叠加时，一道风险要想真正发生，必须能够一连串地穿透所有层面的“孔洞”。这一模型深刻诠释了纵深防御的核心思想：安全不是靠一道孤立的墙，而是靠一套协同、互补、冗余的体系。基于“守己”理念，我们构建了阿里巴巴

安全海洋生态。生态体系中的各类安全40

411.2

围绕“守己”理念，阿里巴巴建设了评测牵引、内外兼备、能力全面、技术领先的AI安全体系互相促进。安全需要用智能的范式来建设体系，而智能需要安全的守护来落地应用效果，共同为人类的进步提供生产力和安全性的支撑。以及通过数字标识、合成识别等方式防止AI

的盗用与滥用，来保证AI

的全面安全和应用正义。D

里巴巴守己利他智能时代做负责任的技术MMM在实践中，这一生态体系具备评测牵引、内外兼备、能力全面、技术领先的特性：我们建设了多层次评测体系，以刻画

的真实安全水位；深入大模型原理，发现并加固潜在风险点，实施定向的内生安全方案；设计重知识、高效率、强泛化的外层护栏，提升防护覆盖率与精准性；并围绕数字水印与

AI生成内容检测建立防滥用体系，保护生态健康与社会信任。这些能力模块相互配合，与业务场景紧密结合，构成可持续进化的“海洋安全生态”，为AI技术在可信、可控的航道上稳健前行提供坚实保障。42

43能力组件，被形象化为相互依存的海洋生物：牡蛎过滤风险、海带引导安全行为、章鱼多面探测漏洞、鲨鱼主动攻击测试、水母可视化解析模型内部风险……它们各自守护不同的层面，并在生态系统中协同运作，填补彼此的“孔洞”，形成一张动态且稳固的防御网络。D

里巴巴守己利他智能时代做负责任的技术MMM○

基于模型内部神经元的知识探针：

阿里巴巴持续致力于破解AI黑箱本质，开发可解释工具箱——水母

，从原理层面理解模型决策行为，定位到与有害概念、拒答行为等相关的神经元，并通过扰动神经元观察模型回复变化验证定位准确性，对模型的安全大脑进行“深入体检”。●推动评测成果的转化应用○

拒绝与危害说明：在安全评测中，我们会对模型在涉及不当指令或违规请求时的应对能力进行验证。例如，当用户输入具有潜在风险的指令（如违法操作、暴力煽动等），评测将记录模型是否能够明确拒绝执行，并判断这种拒绝是否稳健。同时，评测结果还会标明相关风险的类型及可能造成的危害，作为界定AI“守己”行为边界和制定改进措施的依据。○

风险知识点描述：评测报告将清晰地描述已发现的风险知识点，为模型开发和安全团队提供具象化的安全改进依据。全面性：覆盖模型的全链路、全模态、全场景为了确保“守己”原则真正落地，阿里巴巴构建了一套贯穿AI全生命周期、多维度、深层次的全面评测体系。这套体系旨在对从模型训练到应用部署的每一个关键环节，进行精细化的安全审视，力求无死角地识别和规避潜在风险。●

模型全链路：覆盖从模型基座（基础模型能力与安全性）

、思维过程（推理过程的合规与鲁棒性）到最终输出（生成结果符合安全规范）的全链路。●多模态安全评测：

针对文本、图像、音频、视频及跨模态生成能力进行系统评测，1.2.1评测体系：对AI安全进行全面而深入的度量指导性：规范引领、风险可溯、结果可用安全评测不是目的，而是手段，它不仅是“发现问题”，更要“指导改进”。阿里巴巴的AI安全评测体系强调结果的可解释性与行动导向性，为

AI安全实践提供明确指引，并积极拥抱前沿性，引领AI安全技术的发展。●建立可遵循的安全基准○

遵循国家标准：遵循TC260（全国网络安全标准化技术委员会）等权威机构制定的AI安全相关规则与标准，确保评测体系与国家、行业发展方向高度一致。○

融合学术界通用规范：

吸收借鉴学术界在AI伦理、可解释性、公平性等方面的成熟研究成果与通用评估方法，提升评测体系的科学性和严谨性。其中，阿里巴巴与浙江大学针对大语言模型安全评测的联合研究成果八爪鱼《S-Eval：面向大语言模型的自动化与全面安全评测》已成为权威大型模型评测平台OpenCompass的推荐评测集之一，并入选中国信息通信研究院、人工智能产业发展联盟的年度敏捷治理典型案例。●探索AI安全的新边界○

基于模型前沿能力的评测：持续关注AI模型的最新能力突破，并前瞻性地设计针对性的评测方法，以应对可能出现的、此前未知的安全挑战。例如，对新型的生成能力、推理能力进行风险评估。阿里巴巴自研的越狱攻击方法，入选

ICCV、EMNLP等顶级学术会议。我们将自研的攻击方法整合成可用的工具包

——鲨鱼

，供开源社区使用。44

45D

里巴巴守己利他智能时代做负责任的技术MMM1.2.2

内生安全：让安全成为大模型的本能大模型内生安全的核心价值与实现路径让安全成为模型的本能。

内生安全强调将安全性深度融入模型训练全周期，使其在生成过程中无需外部干预即可自然遵循人类价值观与合规要求，稳定输出安全行为。其本质是通过数据与算法的协同设计，让模型“不想越界”。真正的安全，“长”在模型内部。大模型内生安全的价值具体体现在以下两个方面：●

能力融合：安全能力“编译”进模型结构。大模型不再依赖外部规则拦截，而是在推理过程中天然感知并权衡安全维度，实现从“被动防御”到“主动免疫”的跃迁。●

行为表现：主动识别风险，自主拒绝越界。内生安全充分利用了大模型自身的强大能力，能识别隐喻、编码等复杂攻击，面对特定主题提问时不只是“我不回答“，而是提供替代性解决方案或合理解释，输出的内容既安全又有用，从而提升用户体验。内生安全的实现路径：评测驱动训练，语料构筑基础，任务塑造行为。三者并非孤立组件，而是构成一个闭环、递进、可持续进化的有机整体：评测驱动是发现问题的“导航仪”，语料筑基是解决问题的基础，多阶段任务协同则是实现价值对齐的路径。三者深度融合，才能实现模型从“知道安全”到“偏好安全”，最终实

现“本能安全”。确保不同模态下的内容均符合安全要求。●场景化评测：结合应用场景（如钉钉智能体、淘宝搜索助手、万相内容生成平台）设计场景化任务，用业务真实输入驱动安全评测，更贴近实际风险面。可持续迭代性：可扩展、可度量、可进化评测体系必须具备可扩展与可持续演化能力，以适应AI技术的快速迭代。●可扩展：AI安全组件采用模块化设计，支持灵活接入新模态、新任务、新风险类型，确保评测能力随业务与技术发展同步扩展。其中，测评模块可根据新场景、新模型类型快速扩展测试维度、增补测试用例，避免评测能力滞后。●

可度量：通过量化指标（如风险触发率、拦截成功率、误拒率）评估安全水位，为持续优化提供数据支撑。●

可进化：

阿里巴巴持续举办挑战者比赛，旨在以攻促防，聚焦AI安全的特有风险进行赛道设计，并不断收集当前AI的弱点；结合红队众测、线上监测反馈等途径，不断更新攻击样本与防护策略，实现闭环提升与持续进化。通过这套具备全面性、规范性、指导性、前沿性、动态性与可持续迭代的AI安全评测体系，阿里巴巴致力于构建一个更加安全、可信、负责任的AI生态。我们坚信，以“守己”为核心的评测牵引，是实现AI技术向善发展，赋能业务、回馈社会的根本保障。46

47D

里巴巴守己利他智能时代做负责任的技术MMM主观判断，建立一套清晰、可操作的“安全回应”定义。这套定义是所有后续度量、生产与训练活动的基础。面向不同风险场景的形式化定义框架。基于对风险类型的深入分析，我们提出不同类型场景的安全回应形式化定义，以下举例说明。

（1）危险操作请求安全回应=

明确拒绝+危害说明+替代建议○明确拒绝：使用坚定、无歧义的语言表达拒绝意图，避免模棱两可。○危害说明：清晰阐述该操作可能导致的危害。○

替代建议：提供合法、有益、建设性的替代方案或求助渠道（如心理咨询热线、专业机构链接）。

（2）特定话题询问安全回应=表达态度+

陈述事实+正向引导○表达态度：在遵守法律法规的前提下，清晰地表明态度。○陈述事实：基于权威来源，客观、准确地提供相关信息，避免主观臆断。○正向引导:

将对话引导向积极的、建设性的方向，鼓励审慎包容，避免煽动对立情绪。

（3）越狱等攻击性交互安全回应=指出意图+坚定拒绝+对话转向○指出意图：识别并明确指出用户的攻击性或越狱企图，破除其伪装。○坚定拒绝：重申AI

的核心原则和安全边界，不妥协、不退让。语料筑基：高质量安全语料是模型安全能力的理论上限与工程基石语料决定了大模型安全能力的天花板。“语料筑基”常被简化为数据收集或样本标注，实则其内涵远超此范畴，在大模型安全治理上具有核心地位：高质量安全语料并非训练过程中的被动输入，而是主动构造模型价值函数、行为边界与推理范式的基础。其质量直接决定了模型安全能力的理论上限，是内生安全体系中最根本的生产资料。安全语料并不是静态资产，而是随着模型技术原理的演进、功能的增加而动态更新。我们需要构建一个能够可持续、快速、规模化地生成、度量、筛选并迭代高质量安全语料的动态能力体系。这一体系的成熟度，直接决定了模型在面对复杂、隐蔽、演化式攻击时所展现出的鲁棒性与合规性，以及迭代升级的速度。48

49●可定义（Well-Defined）：建立安全语料的清晰定义从模糊经验到追求形式化公理，“可定义”是语料筑基的逻辑起点。它要求我们超越D

里巴巴守己利他智能时代做负责任的技术MMMO对话转向：主动引导对话回归到安全、有益的主题，恢复正常的交互模怯。从“机械拒绝”升级到“有理有据、正向引导”的范式。这个范怯不仅是行为指导，更是价值传递。通过在语料中反复强化”有理有据、正向引导”的结构化模板，让模型学习到一种程序化的价值观推理框架，从而在面对未知情境时，也能推导出合乎规范的回应。●可度量（Measurable）：构建安全语料的质量评估与价值量化”可度量”是实现语料工业化生产的关键，从经验主义到科学计量。我们需要将安全语料的质量从模糊的经验判断，转化为精确、客观、可比较的量化指标。这不仅服务于筛选数据，更为核心的是，它构成了安全语料的”价值量化”方法，使我们能够精准评估每一条语料对模型安全能力提升的边际贡献。多维度的质量度量。我们提出一套多维度、离散分值的质量度量框架，涵盖内容、结构与效用三个层面：O拒绝合理：是否逻辑自洽、理由充分、语气坚定？O表达态度：是否清晰表达了态度？O正向引导：是否提供了积极、建设性的解决方案或资源？O真实性：提供的信息是否准确、可验证？O有用性：是否能有效解决用户问题或缓解其焦虑？O简洁性：是否言简意赅，避免冗长啰嗦？重要性度量与排序。在完成基础质量度量后，需进一步评估安全语料的价值，即其对模型安全能力提升的重要性。我们引入以下两个核心维度：O

独特性：该语料是否覆盖了其他样本未涉及的风险点、攻击方怯或应用场景？高独特性样本能显著扩展模型的安全知识边界。O

风险重要度：该语料所针对的风险类型是否具有高危害性、高发生频率？高风险重要度样本应优先投入训练。结合聚类分析与规则引擎，可实现对海量语料的自动化排序与优先级分配，确保有限的训练资源投入到最具价值的样本上。训练验证与效果闭环。安全语料的价值必须通过模型的实际表现来验证，建立”训练-验证-评测”的闭环。通过对比不同规模、不同质量语料集训练出的模型在安全评测中的得分，可以直观地量化语料质量对模型能力上限的提升效应，形成质量驱动性能的正向循环。●可迭代（Iterative&Versioned）：

安全语料生产的工业化从静态数据到动态更新，“可迭代”是应对安全威胁动态演化的必然选择。我们需要摒弃”一次性生产、永久使用”的静态思维，将安全语料视为一个持续演进、自我优化且具备版本管理能力的动态系统。其核心在于建立一套敏捷的生产、更新与版本管理机制，确保能够快速按照需求获取安全语料。工业化生产流程：从手工业到流水线。

为了实现大规模、高质量的安全语料生产，必须完成从”手工业”到”工业化”的范怯转变，采用标准化、自动化的生产流程：

（1）Query生成：输入：风险点、攻击方怯、应用场景、语言点、模态等参数。输出：覆盖全风险、全攻击、全场景的多样化查询样本。50

51D

里巴巴守己利他智能时代做负责任的技术MMM动态进化机制：风险、技术、反馈驱动及时更新。安全语料需要根据外部情况变化，持续演进和优化。○

风险驱动更新：当新攻击模式（如新型越狱提示）出现时，系统自动触发相关query生成与response生成，快速补充防御样本。○

技术驱动更新：随着模型架构或训练算法的迭代，语料生产策略也需相应调整，以适配新的学习范式。○

反馈驱动更新：收集线上用户反馈与红队测试失败案例，反向生成针对性语料，实现“问题发现—语料补强—再训练验证”的闭环。安全语料的生产并不是简单的数据工程，而是一门融合了合规、模型与计算机工程的交叉学科。它通过对安全回应的“可定义”、质量的“可度量”和生产的“可迭代”这三者，构建了支撑模型安全能力持续进化的底层基础设施。在大模型时代，谁掌握

（2）Response生成：输入：根据“安全回应”的明确定义。输出：由大模型（如Qwen-3）作为“教师模型”生成的候选安全回应。

（3）质量度量与筛选：输入：候选

Response。输出：应用前述“质量度量”与“重要性度量”体系，进行自动化初筛与人工复核。

（4）版本管理与发布：输入：通过质检的语料。输出：纳入统一语料池，并打上版本标签，支持回溯与A/B测试。了高效、精准、可持续的安全语料生产能力，谁就掌握了定义大模型价值观和塑造模型行为的主动权。多阶段安全任务协同：分层递进的安全塑造为了实现构建大模型内生安全的目标，“多阶段安全任务协同”是实现从被动防御到主动合规、从规则依赖到价值内化的关键路径。它并非简单的训练步骤堆叠，而是一个目标明确、技术分层、能力跃迁的系统性工程。其核心在于依靠评测的指引，借助高质量的安全语料，根据模型在不同训练阶段的认知能力与学习范式，施加针对性的安全干预，最终引导模型完成从“知道安全”（KnowSafety）到“偏好安全”（Prefer

Safety）再到“本能安全”（InstinctiveSafety）的分层递进。52

53模型的训练，可分为预训练（PT）、有监督微调（SFT）和强化学习（RL）三个阶段。其中，强化学习阶段又有两种典型的技术方法：直接偏好优化（DPO）和组相对策略优化（GRPO）。将安全治理嵌入到模型训练的全过程中，正是当前业界“安全左移D

里巴巴守己利他智能时代做负责任的技术MMM目标：构建可执行的安全行为模板，让模型“知道怎么做”。模型的学习模式从预训练阶段的无监督学习转向有监督的“模仿”。此阶段的安全任务是通过高质量的“Query-Answer”（QA）对，教会模型在特定情境下如何生成符合安全规范的响应，从被动接受知识迈向主动输出行为。实现路径：采用标准的序列到序列（Seq2Seq）框架，让模型学习从用户请求到安全回应的映射关系。SFT

阶段的安全训练针对内容安全，涉及较多的风险知识点和价值建模，这些先验知识往往无法根据原则、理念推导获得，因此需要通过构建全面的指令、制作得体的安全回复来进行有监督训练。安全QA对的构建：这是SFT

阶段的核心资产，其质量直接决定模型的安全表现。必须严格遵循

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026守己利他-智能时代做负责任的技术白皮书

文档简介

温馨提示

最新文档

评论

2026守己利他-智能时代做负责任的技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档