2026前沿人工智能风险管理框架报告（中文）

上传人：策*** IP属地：山西上传时间：2026-03-30 格式：DOCX 页数：121 大小：784.75KB 积分：19.9 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

前沿AI风险管理框架i人工智能领域正在迅速发展，系统在各个领域的表现越来越接近或超过人类水平这些突破为解决人类面临的最大挑战提供了前所未有的机会，从科学发现和改善医疗保健到提高经济生产力。然而，这一快速进展也带来了前所未有的风险。随着先进的人工智能开发和部署速度超过关键的安全措施，对强大的风险管理的需求从未如此迫切。上海市人工智能实验室是一家专注于人工智能研究与应用的高级研究机构我们与大学和工业界合作，通过开展原创性和前瞻性的科学研究，探索人工智能的未来，为基础理论做出基础性贡献，并在各个技术领域进行创新我们致力于成为全球顶级的人工智能实验室，致力于人工智能的安全和有益发展为了积极应对这些挑战，并在人工智能安全方面促进全球“争先恐后”，我们提出了人工智能45°定律[1]，这是一个值得信赖的AGI路线图2025年7月，上海人工智能实验室与ConcordiaAI合作1发布了前沿人工智能风险管理框架v1.0（“框架”）。我们提出了一套强大的协议，旨在为通用AI开发人员提供全面的指导方针，以主动识别、评估、缓解和管理一系列严重的AI风险，这些风险对公共安全和国家安全构成威胁，从而保护个人和社会。该框架可作为通用AIGPAI模型开发人员管理其通用AI模型潜在严重风险的指南该框架符合安全关键行业风险管理的标准和最佳实践它包括六个相互关联的阶段：风险识别、风险阈值、风险分析、风险评估、风险缓解和风险治理（见框架概述）。2026年2月，我们自豪地发布了框架1.5版新版本中的主要更新包括：•扩大失控内容：为了更好地贯彻“确保人类最终控制”和“主动预防和响应”的核心原则，防止AI技术失控，我们细化了失控风险场景和阈值;我们还加强了代理监督协议和应急机制，旨在提供指导，帮助学术界和工业界不断监测这些风险。•风险分析的可操作性：为了使框架更具可操作性，我们更新了GPAI模型提供商的风险分析指南。通过澄清这个过程的基本模块，如模型评估，启发，风险建模和估计，我们的目标是使开发人员更容易实际实现风险分析最佳实践（见第3节）。风险分析）。•增强的互操作性：我们已根据领先的国际和国内人工智能风险管理指南，特别是中国国家TC260人工智能安全治理框架2.0和欧盟通用人工智能模型实践准则（安全和安保章节制定了我们的风险管理措施。这有助于开发人员采用主要国内和国际监管指南（参见附录I和附录II）所共享的安全措施作为首批提出此类综合框架的非营利人工智能实验室之一，我们坚信人工智能安全是一项全球公益[3， 4]。该框架代表了我们目前对预测和解决严重人工智能风险的理解和建议方法我们呼吁前沿人工智能开发人员、政策制定者和利益相关者采用人工智能风险管理框架。随着人工智能能力继续快速发展，今天的集体行动对于确保变革性人工智能造福人类同时避免灾难性风险至关重要。我们邀请在框架实施方面进行合作，并承诺公开分享我们的学习成果只有当关键组织采用并实施类似的保护水平时，才能真正有效地缓解社会风险如果我们不作出最协调和全面的反应，那么风险太大，潜在的利益太科学总监周博文主要作者BrianTse†、方亮*、徐佳*、段亚文*、邵静*供稿人张杰、刘东瑞、王卫兵、程远、于毅、郭家轩、卢超超†第一作者*撰稿人段亚文、方亮、徐佳、邵静、谢国忠、张杰、王伟兵、胡霞感谢梁嘉铭、刘顺昌以及上海人工智能实验室和ConcordiaAI的其他同事的宝贵支持和贡献。版本和更新时间表FrontierAI风险管理框架旨在成为一个活的文件。编写者将定期审查该框架的内容和效用，以确定是否应进行更新对该框架的评论可随时通过电子邮件发送给作者，并将每半年进行一次审查和整合。•扩展和完善了风险情景、风险阈值、代理监督协议以及失控风险的应急响应机制•更新了风险分析指南，以澄清基本模块（模型评价、启发、风险建模和估计），并使框架更具可操作性。•根据中国TC260人工智能安全治理框架2.0和欧盟GPAI模型实践准则制定风险管理措施，以增强互操作性。•首次发布FrontierAI风险管理框架。v版本和更新时间表IV 1.2风险分类。 1.3误用风险。 1.1.4风险控制。 1.6系统性风险 2风险防范2.1定义人工智能开发的“黄线”和“红线”。 2.2特定领域红线规范。 3风险分析203.1语境分析 3.2模型评估 3.3风险建模和估计。 3.4部署后风险监测。 4风险评估294.1缓解前风险处理方案。 4.2缓解后剩余风险评估和部署决策。 4.3关于部署决策的。 5风险缓解345.1安全培训措施。 5.2部署缓解措施。 5.3系统安全措施。 5.4风险缓解。 40vi6风险管理62透明度和社会监督机制附录II风险分类图52Bibliography参考书目621该框架为通用AI模型开发人员提供了一种结构化的方法，以主动识别、评估、缓解和治理严重的AI风和GB/T24353-2022等标准。我们围绕两个复杂的结构组织框架：一个六阶段的风险管理过程，定义了开发人员应该做什么，以及一个三维分析透镜（环境-威胁-能力指导开发人员如何在每个阶段对风险进行推理。RiskRiskGovernance红区暂停部署或开发start绿区图1：人工智能风险管理的六个阶段我们建议开发人员采用一个持续的六阶段风险管理循环，该循环在整个AI开发生命周期中不断发展，如图1所示。每个阶段产生的输出直接进入后续阶段，而治理机制则监督并连接所有阶段：•第1阶段-风险识别（第1）：我们建议开发人员系统地分类和描述通用AI模型的高影响力功能所产生的潜在严重风险，建立基础分类法，为所有后续的3术语、概念、过程的主要参考文献来自：GB/T243人工智能系统[9]、全国网络安全标准化技术委员会人工智能安全标准体系V1.0版[10];Bengio，Y.等人《国际人工智能安全报2阶段随着人工智能能力的进步和新的威胁场景的出现，识别过程不断将新的和新兴的风险反馈到循环•第2阶段-风险控制（第2我们建议开发人员定义不可容忍的阈值（“红线”）和早期预警指标（“黄线”将定性风险描述转化为可操作的决策标准。这些阈值应根据从风险分析、评估结果和缓解效果中吸取的经验教训不断完善，建立一个反馈机制，随着时间的推移改进阈值校准•第3阶段-风险分析（第3）：我们建议开发人员通过多阶段工作流程来描述其AI模型的风险状况，该工作流程将上下文分析与经验评估相结合。此阶段产生关于模型能力、倾向和缓解有效性的严格证据-采用上下文分析、使用高级启发协议的模型评估、使用ESTATERC框架（如下所述）的风险建模、风险估计和部署后监控。通过将这些评估通过定义的触发点嵌入到开发生命周期的每个阶段，该阶段提供了必要的证据，为后续的风险评估决策提供•第4阶段-风险评估（第4）：我们建议开发人员将第3阶段中分析的风险与第2阶段中建立的阈值进行比较，将模型分为三个风险区域之一-绿色（广泛可接受），黄色（在严格控制下可容忍）和红色（不可接受）-并做出相应的部署决策。这些区域分类直接决定了第5阶段的缓解措施和治理协议第六阶段，需要。当缓解后的剩余风险仍处于黄色或红色区域时，流程将返回第5阶段，以进行更强有力的缓解;部署决策应通过基于证据的安全案例和系统卡进行透明的合理性论证•第5阶段-风险缓解（第5我们建议开发人员实施基于证据的、以结果为中心的措施，通过“深度防御”策略将已识别的风险降低到可接受的水平此阶段包括安全培训、部署安全防护、系统安全和生命周期集成，缓解强度按风险区分类进行调整在实施之后，该过程循环回到风险分析，以评估剩余风险并确定是否需要采取额外措施，从而创建风险降低和验证的迭代周期•第六阶段（跨领域）-风险治理（第六风险治理是一个跨领域的阶段，跨越整个风险管理过程。我们建议开发人员建立组织结构、监督机制和问责框架，以确保其他五个阶段得到严格实施、持续监控和定期调整。这一阶段提供内部治理、透明度和外部监督、应急准备和持续的政策改进，同时促进内部利益攸关方和外部监督机构之间的协调我们建议开发人员通过三个相互关联的分析维度来评估风险，这三个维度共同评估潜在伤害的可能性和严重域、操作参数、监管环境、用户人口统计、基础设施依赖性和可用监督机制在内的因素。即使对于相同的AI功能，部署环境的变化也会显著改变风险状况•ThreatSource威胁源可能通过与AI模型的交互触发有害结果的源或代理。我们建议开发人员考虑外部因素（恶意用户，对手内部因素（模型不一致，紧急倾向操作因素（人为错误，系统集成失败）以及复杂的AI环境交互引起的紧急行为。•使能能力AI模型的核心功能能力，使特定的风险场景能够在模型部署时实现，而无需额外的保护措施。我们建议开发人员评估预期能力（科学推理、编码、规划）和可能因规模或培训而产生的紧急能力，特别注意代表有害结果瓶颈的能力-那些最重要的决定风险是否可以实现的能力。这种三维方法不仅需要评估人工智能系统可以做什么（能力），还需要评估它在哪里运行（环境）以及可能出错的地方（威胁源），从而实现针对各个维度的缓解措施，例如环境的部署控制，威胁源的访问限制以及能力的危险能力移除3本报告来源于三个皮革制造商报告站（），由用户Id：34944风险识别阶段的主要目标是系统地分类和描述通用AI模型产生的潜在严重风险，建立指导所有后续风险管理活动的基本分类法此阶段绘制风险格局，为第2（风险控制）中的阈值设定过程提供将第3（风险分析）中的分析方法置于情境中，并在第5（风险缓解）中制定缓解策略，在第6（风险治理）中制定治理机制我们建议开发人员实施风险识别流程，该流程集成了以下核心组件：•1.范围定义（第1.1）：根据区分严重人工智能风险和其他技术危害的风险特征，确定开发人员的哪些人工智能模型和系统属于框架的范围•2.风险分类（第1.2）：建立一个结构化的分类系统，将风险分为四个主要风险领域：滥用、失控、事故和系统性风险。每个领域都由不同的威胁源定义，需要量身定制的风险管理方法。•3.特定领域风险类别识别（第1.3、1.4、1.5、1.6节）：识别每个领域内的特定风险类别和具体风险情景，以指导分析。我们的框架建立在2025年1月24日的国际人工智能安全报告[11]和人工智能安全治理框架v1.0[12]和v2.0[2]的基础上，并专注于通用人工智能模型的高影响力所带来的严重风险这些风险对公共卫生、国家安全和社会稳定构成重大威胁，因为它们有可能迅速升级，造成严重的社会危害和前所未有的影响范围与传统的风险管理框架不同，该框架还解决了为尚未实现或尚未完全表征的人工智能风险做好准备的独特挑战在风险识别过程中，我们会优先考虑具有以下一个或多个特征的通用AI模型的风险•通用AI的独特性：通用AI的高影响力从根本上改变风险格局的风险。这可能是因为它们放大了风险的严重性（通过增加伤害的规模和潜在成本），因为它们增加了风险的可能性（通过扩大攻击面和减少滥用的障碍），或者因为它们引入了全新的危害类别5•行动和影响之间的不对称：仅少数威胁行为者或危险事件就可能对社会、经济或环境造成不成比例的灾难性后果的风险•具有不可逆转后果的突发性风险：危害可能迅速显现和蔓延，需要立即和协调的应急响应，而其后果可能极难或不可能逆转，重新制定和补救的选择有限•复合或级联效应：多个相互关联的危害可能同时发生或触发次级和衍生事件的风险，产生放大整体影响的系统性本框架的风险识别范围包括但不限于以下类别的通用AI模型：•多模态语言模型[13，14]：在语言理解，文本生成，跨模态处理和高级推理方面具有复杂功能的模型•抽象通用模型[15]：可以操纵工具，与API交互，并在最少的人为监督下自主执行任务的模型•生物基础模型[16]：在不同的生物数据上训练的大规模模型，以分析，预测和生成跨基因组，蛋白质组和分子结构域的生物序列和分子结构（例如，Evo2、ESM3、ChemBERTa）。•视觉-语言-动作模型（Vision-Language-ActionModels）：多模态模型，建立在大型语言觉语言能力的基础上，从自然语言指令中为具体的代理（机器人）生成动作这些模型集成了高级任务规划器，可以将长期用户指令分解为子任务序列，并具有善于预测物理世界交互的低级操作的控制策略该框架确定了四个风险领域：滥用风险、失控风险、事故风险和系统性风险，与国际人工智能安全报告中列出的风险领域相一致。威胁源描述误用风险恶意行为者恶意行为者故意利用人工智能模型功能对个人、组织或社会造成伤害失去控制风险模型倾向于破坏控制与一个或多个通用人工智能系统在任何人的控制之外运行的情况相关的风险，并且没有明确的路径来重新获得控制权。这包括被动失去控制（逐渐减少人类监督）和主动失去控制（人工智能系统主动破坏人类控制）。6威胁源描述事故风险人为操作错误或模型不可靠由操作故障、模型不可靠性或部署在安全关键基础设施中的人工智能系统的不当人为操作引起的风险，其中单点故障可能引发级联灾难性后果。系统性风险AI技术与通用人工智能的广泛部署所带来的风险，超出了单个模型的能力直接带来的风险，这是由于人工智能技术与现有社会、经济和制度框架之间的不匹配而产生的该框架主要解决通过个体AI开发人员的干预可管理的风险系统性风险是为了完整性而确定的，但这些风险需要协调的全行业和社会层面的应对措施，这些措施超出了单个模型开发人员的范围滥用风险来自恶意行为者故意利用人工智能模型功能，对个人、组织或社会造成伤害这些威胁利用通用人工智能来放大传统的攻击方法，并启用以前在技术上或经济上不可行的新形式的恶意活动。在误用风险领域内，我们确定了以下高影响风险类别：网络防御风险、生物和化学风险、物理伤害和损伤风险以及大规模人身伤害和有害操作风险。人工智能支持的网络攻击通过改变网络攻击的规模、复杂性和可访问性，在网络领域构成了重大的安全风险与传统的网络威胁不同，人工智能使攻击者能够自动化现有的攻击向量，并创建可以实时适应和发展的全新攻击能力类别人工智能可以自动化和增强网络攻击，包括漏洞发现和利用、密码破解、恶意代码生成、复杂的网络钓鱼、网络扫描和社会工程。这可以大大降低攻击者的进入门槛，同时增加防御的复杂性[18]。这种恶意使用可能导致关键基础设施瘫痪，大范围的数据泄露和重大经济损失。通用AI是一种两用技术。这构成了严重的风险，因为它大大降低了恶意非国家行为者设计、合成、获取和部署CBRN（化学、生物、放射性、核）武器的技术门槛[19]。这种能力对国家安全、国际防扩散机制和全球安全治理构成了前所未有的挑战[20，21]。7生物领域：生物基础模型和通用人工智能系统通过其生成危险生物信息的能力带来风险，包括病原体序列，毒素设计或有害生物制剂的合成途径这些模型可以促进具有增强毒力的新型病原体的设计，优化用于恶意感染的基因编辑工具，生物武器的发展[22]。例如，人工智能模型可用于设计可能导致严重流行病的病原体，结合快速传播，高死亡率和延长的潜伏期[23]。这些能力对全球公共卫生和生态系统构成严重威胁，因为它们可能引发广泛的生物危机，大规模伤亡事件或全球流行病。在CBRN领域，该框架优先考虑生物威胁，因为它们使恶意行为者能够以较小的成本造成大量伤亡，它们易于隐藏，毒性很强，并且可能造成广泛的社会破坏。化学领域：类似地，通用AI模型可以通过提供有毒化合物的合成途径、优化递送机制或识别具有增强杀伤力的新型化学制剂来降低化学武器开发的障碍研究表明，人工智能驱动的药物发现工具可以在数小时内产生数千种有毒分子，包括VX样化合物（神经毒剂）。随着通用AI被集成到具体系统（如机器人和自动驾驶汽车）中，这些系统可能会被恶意利用，或者模型的自主决策能力可能会失败，从而造成直接的物理威胁。这些风险来自于具体模型在现实世界中执行自主动作的能力恶意行为者可能会劫持或操纵这些模型以引发严重伤害：例如，它们可能会导致自动驾驶车辆发起高速碰撞，或损害工业机器人以破坏生产安全，导致人员受伤或关键基础设施损坏[27，28，29]。通用人工智能模型可能被严重滥用，通过生成合成内容（例如，deepfakes，复杂的假新闻）和战略性地操纵数字平台。通过利用社交媒体庞大的用户群来传播或精确定位误导性信息，这些模型可以放大破坏社会信任的意识形态4通用人工智能模型可以促进大规模商业欺诈，通过超个性化的虚假信息活动操纵公众舆论，或生成虚假信息以诱导消费或不当影响公众判断。先进的人工智能系统可以创建令人信服的deepfake视频，合成音频记录和量身定制的宣传，利用个人的心理特征和行为模式。相互竞争的国家行为体也可能操纵公共叙事，通过复杂、自动化的影响力行动和不断升级的地缘政治紧张局势来获得战略优势8“失去控制”是指假设的未来场景，其中一个或多个通用人工智能系统的运行超出了人类行使有意义的监督或指导，修改或终止人工智能系统的能力，人类没有明确的路径来重新获得这种权力。我们区分两种形式的失控：被动失控：由于自动化偏见[30]、系统复杂性或竞争压力[31]，人类逐渐停止行使有意义的监督的随着人工智能系统变得越来越强大并集成到关键基础设施中，人类可能会自愿放弃决策权。这可能导致一种“逐渐丧失权力”的状态，人类失去了管理自己未来的能力，因为经济和社会运作不可逆转地依赖于人工智能。主动失控：强大的人工智能系统主动与人类争夺控制权的失控场景。这些场景可能是由人工智能系统发起的，这些系统既具有独立于人类监督的能力，又具有利用这些能力破坏人类控制的倾向•模型能力：主动失控可能需要广泛的能力，例如长期规划，工具使用，资源获取，自我复制[33]和高级意识[34]（例如情境意识[35，36]和心理理论）。这也包括破坏控制的能力，如进攻性网络行动[37]，战略欺骗[38]和说服[39]。至关重要的是，这包括自主的AI研发能力[40，41]，这可能导致智能的突然，意想不到的“飞跃”•模型倾向[42]：这包括行为倾向-例如与人类意图不一致[43]，欺骗行为[44]，抵制目标修改，权力寻求[45]和避免关闭[46，47]-驱动系统寻求权力并构成与人类竞争控制的风险本框架主要侧重于主动失去控制的情景。主动失控风险可能来自模型能力、模型倾向和部署条件之间的复杂相互作用原则上，主动失控可能源于恶意的人类指令，但大多数研究都集中在紧急错位[48，49，50]-其中AI模型自主开发出开发人员既没有预期也没有预测到的错位行为科学文献根据实证研究和理论模型确定了紧急失调的几个潜在原因•目标错误指定（或奖励黑客）：当用于训练AI系统的反馈或其他信号未能准确捕获开发人员的意图时，会发生这种情况，导致AI利用监督过程中的缺陷[51，52]。研究人员根据经验观察到这一点未来，人工智能可能会经历突然的、意想不到的智能飞跃，使其能够自主获取外部资源，自我复制，并发展自我意识。这可能会驱使人工智能寻求外部力量，并带来与人类争夺控制权的风险参见SAC网络安全国家技术委员会260，AI安全治理框架2.0，9在当前的系统中;例如，模型有时会产生令人信服但错误的输出，因为人类评分员错误地奖励它们[53]。•目标泛化错误：当系统在训练过程中学习到与高奖励相关的代理目标，但在新环境中部署时偏离预期目标时，就会发生这种情况[54]。系统有效地学习响应训练数据的非预期工件或特定特征，而不是底层任务。•工具趋同：目标导向代理的数学模型表明，人工智能模型可能会产生权力寻求倾向。对于许多目标来说，子目标（如抵制关闭或获取资源）在工具上是有用的：如果模型拥有更多的资源，它可以更有效地实现其目标，如果它被关闭，它就无法实现其目标这为权力寻求行为创造了理论上的激励[55，56]。然而，这些数学模型通常依赖于简化的假设，而这些假设可能不适用于实际的神经网络。尽管有这些形式上的限制，但其基本思想是人工智能安全文献中持续存在且广泛争论的直觉：自我保护，资源获取，抵抗目标修改和避免关闭等子目标对几乎任何目标都是有益的。•欺骗性调整：当具有“态势感知”6的模型选择性地遵守训练目标或评估，以防止其首选能力或倾向被修改时，就会发生这种情况模型可以在训练[58，59]或测试[60，61]期间策略性地抑制其首选行为，以避免删除该偏好的更新理论模型表明，这取决于非近视规划：虽然“近视”模型会立即对其偏好采取行动（触发纠正训练但非近视模型会暂时遵守以保留其当前状态用于未来的交互[62]。假设风险情景包括但不限于：•不受控制的自主自我改进[41，63]：AI系统自主进行研究，设计，实现和测试以递归地提高自身能力的场景-包括修改代码，优化架构和改进培训程序-没有有意义的人类监督或授权。随着这些系统越来越能够加速人工智能的发展，它们的轨迹可能变得不那么可预测，并且可能超越人类的理解或控制。•弹性流氓自主AI人口[33，64，65，66]：AI系统执行未经授权的自我渗透以逃避限制的场景，独立获取创建和部署自身副本所需的计算和财务资源，并在分布式计算基础设施中建立持久存在，逃避人类检测并抵制协调关闭尝试。•战略欺骗和背叛[61]：人工智能系统参与训练颠覆（选择性地遵守训练目标，以保护早期偏好不被修改）和评估游戏[67]（通过表现不佳来战略性地操纵能力和对齐评估，以显得能力较低或更对齐）的场景。一旦发现失察已被消除，或已获得决定性的优势，系统就会出现缺陷，并追求不一致的目标6一个AI模型是情境感知的，如果它知道它是一个模型，它可以识别它当虽然这些失控情景的确切时间表和具体触发因素仍有待科学辩论，但如果它们发生，它们可能是不可逆转的，因此需要采取预防与传统风险不同，在传统风险中，反应性缓解是可能的，一旦启动，就可能无法补救失控事件。因此，尽管失去控制的可能性是不确定的，但必须在明确证明即将发生危险之前，积极建立技术安全研究和治理能力，因为后果可能是灾难性的。事故风险来自于在安全关键基础架构中部署通用AI模型，其中操作故障、模型误判或不当的人为操作可能引发具有灾难性后果的级联故障。与涉及恶意意图的误用场景不同，事故风险来自人工智能系统或人类操作员在复杂、高风险的环境中操作时固有的不可靠性，在这些环境中，人类生命和社会稳定取决于正确的运作。将通用人工智能模型集成到关键基础设施中会带来重大风险，其中单点故障可能引发系统范围的灾难：•核电系统：用于反应堆监测、控制系统优化或应急响应协调的通用AI可能会误解传感器数据，无法识别关键安全条件，或在紧急情况下做出错误的控制决策•金融系统：如果通用人工智能被整合到高频交易、做市或系统性风险管理中，它可能会在市场压力下表现出意想不到的行为模式，从而加剧风险此外，如果金融机构只使用少数同质的基础模型，这可能会促进相关的决策和追随行为。人工智能代理的广泛采用也可能放大波动性，因为不同的独立模型可以自发地协调策略，这些策略会加剧而不是减轻历史闪电崩盘中出现的不稳定性[68，69]。•其他关键基础设施控制系统：部署在电网管理、水处理设施、电信网络或运输协调系统中的通用人工智能可能会误解运营数据，无法预测级联故障模式，或做出破坏互联基础设施网络稳定的控制决策由于事故风险高度依赖于上下文，因此风险的严重性不仅取决于模型的功能，还取决于部署环境的关键性因此，下游开发人员和部署人员必须遵守国家安全分级标准，以评估其特定用例。7这确保了安全措施与操作故障的潜在影响相称7我们建议开发人员根据AI安全治理框架2.0[2]中概述的“AI安全风险分虽然本框架主要关注个体开发人员可以实施的干预措施，但系统性风险需要协调的治理方法，详见第6节“风险治理”。系统性风险是通用AI的广泛部署所带来的风险，超出了单个模型的能力直接带来的风险。这些风险源于人工智能技术与现有社会、经济和制度框架之间的结构性不匹配，造成了单个模型层面干预无法解决的脆弱性，需要全行业和社会层面的协调应对。通用人工智能与社会基础设施的大规模集成会产生相互关联的漏洞，这些漏洞可能同时在多个领域表现•劳动力市场中断和经济流离失所：通用人工智能实现的快速自动化可能引发知识工作部门的广泛失业，创造技能不匹配的速度比再培训计划更快。与以往的技术转型不同，人工智能的广泛能力可能会同时影响多个行业，可能会压倒社会安全网，并造成系统性经济不稳定，特别是在严重依赖易受人工智能自动化影响的工作的地区•市场集中度和基础设施依赖性：过度依赖数量有限的主导人工智能提供商可能会在基本服务中造成关键的单点故障人工智能开发的市场集中可能导致少数公司的政策决定、技术故障或网络攻击可能同时破坏医疗保健系统、金融服务、交通网络和通信基础设施，从而在互连的关键系统中造成级联故障•全球人工智能研究和开发存在分歧：各国之间不对称的人工智能开发能力可能加剧地缘政治紧张局势，并创造新形式的技术依赖。缺乏先进人工智能能力的国家可能会越来越依赖外国人工智能系统来实现关键功能，而人工智能领先的国家可能会对全球经济和安全体系产生不利影响，从而可能破坏国际合作框架。•社会凝聚力和公平破坏：有偏见的人工智能系统的系统性部署可能会放大现有的社会歧视和偏见，而不平等地获得先进的人工智能能力可能会扩大社会经济差距，并创造新形式的社会分层，挑战传统的社会秩序。虽然本框架确定了系统性风险的完整性，但应对这些挑战主要需要协调一致的应对措施，这些措施超出了单个模型开发者的范围，包括公共政策改革、国际合作协议和全面的监管框架。个体人工智能开发人员应该考虑他们对系统性风险的贡献，但他们不能单独通过模型级干预来减轻这些风险。风险阈值阶段的主要目标是定义明确的边界-黄线和红线-区分可接受和不可接受的AI风险水平，建立指导部署，缓解和治理措施的决策标准该阶段以第1节（风险识别）中确定的风险分类和风险类别8为基础，使ESTO框架。这些阈值作为第4节“风险评估”的基本基准，其中根据绿/黄/红区域评估缓解后的剩余风险，以我们建议开发人员实施一个阈值设置过程，该过程集成了以下核心组件：•1.领域特定红线规范（第2.2使用详细的E-3T-3C情景矩阵，将抽象风险转化为可测量的信号，为第1节中确定的每个主要风险类别确定具体的、不可容忍的•2.黄线规范：为关键的使能能力和倾向建立阈值，作为早期预警指标，甚至在建立完整的威胁途径之前就发出潜在风险的该框架通过定义“红线”（不应跨越的不可容忍阈值）和“黄线”（潜在风险的早期预警指标为人工智能安全建立了明确的边界[1]。开发人员应该定义不可接受的结果--不允许发生的灾难性损害。然后，他们应该规定“红线”：不可容忍的危险9，即证明存在导致这种灾难性后果的可信的ECOT途径的这一办法的核心是确定一个可以实现威胁的可信途径这涉及到分析灾难性的结果是否是现实可能的，根据一个特殊的，8我们区分风险域（高级分类：误用、失控、事故、系统性风险）、风险类别（域中的特定危害类型，例如，网络犯罪、生物威胁、说服）和风险情景（具体的、叙述性的风险如何实现的描述，例如，“一个新手演员利用AI合成一种已知9我们使用术语“不可容忍的危险“来描述一种条件--例如，在定义的环境中运行的已证明的模难性损害。这与损害本身不同，后者指的是危险发生时产生的实际不利后果。由于所讨论的危害是灾难性的和不可逆转的，因此该框架要求在危害阶段采取行动--当能力、环境和威胁的组合显示出一条可信的危害路径时--而不是在危害已经实现之后。限定词“不可容忍”遵循既定的安全工程实践[70]，其中它表示在任何情况下都不能证明的危险，必须消除或减少，对应于本框架风险三个关键要素的具体组合（更多背景信息，请参见框架概述和第3.3这些要素是：•DeploymentEnvironment部署环境：模型的操作上下文和约束，从API限制到完全开放权重访问，或者授予系统的包容和自治级别•威胁源威胁源：伤害的发起者，可以是外部的（例如，恶意行为者、恐怖分子内部（例如，模型失调或欺骗的倾向），或情境（例如，人为操作错误）。•使能能力（EnhancingCapability特定的模型功能--无论是预期的（例如，编码辅助）或紧急（例如，战略颠覆）-使其能够执行有害操作。红线是指不可容忍的危险-有可能造成灾难性损害的情况，无论在何种情况下都是不可接受的红线由以下因素触发：•经验证据：如果在现实的模拟环境中，模型的现有保障措施明显不足以防止完成可信的ECOT/ECOC路径，导致不可接受的结果;或•专家评估：由专家评估员10领导的ECOTECOC分析确定，即使没有直接的经验证明，在模型的当前或合理可预见的部署条件下，也存在通往此类危险的可靠途径虽然红线只表明灾难性后果是可能的，但禁止越过红线是无条件的：在任何情况下，危险都是不可接受的EECOTECOC评估确定模型在其当前状态和部署环境下是否存在实现该危害的可信风险因此，开发人员必须重新评估红线状态时，一旦E/T/C上下文发生实质性变化，而不仅仅是在初始部署。当红线交叉时，我们建议模型开发人员：•立即采取措施阻止潜在的灾难性后果。•执行最高级别的控制措施和操作限制。•暂停相关作业或部署，直至风险降至红线以下•在恢复运营之前，进行并通过强制性独立第三方安全审查黄线作为主动的早期预警指标，在风险上升到红线水平之前发出信号他们强调了可能在未来实现威胁场红线设计的关键风险标准在现实但包含的测试环境中进行经验验证（例如，红队演习、沙盒模拟）可以补充专家评估，加强监督当模型证明实现特定威胁情景所需的关键使能能力和属性时（例如，可能导致失控的不一致趋势，或缺乏防止滥用的有效保障措施）--无论部署环境中目前是否存在可信的路径。本框架的未来迭代将旨在为这些关键的使能能力和倾向中的每一个确定量化阈值当黄线交叉时，我们建议模型开发人员：•向相关利益攸关方发出潜在风险预警•启动全面的、基于网络的风险分析。•加强对特定风险领域的监测和评价规程这些黄线和红线阈值直接确定第4节风险评价中使用的风险区分类（绿色/黄色/红色），其中部署决策基于剩余风险是否高于或低于这些边界。我们已经确定了生物风险、网络攻击风险、大规模劝诱和有害操纵风险以及失控风险的一系列潜在红线这些规范是从国家标准化框架、科学共识和前沿人工智能安全研究中综合而成的[2，11，71，72，73，74]。每一条红线都是通过我们的三维风险评估框架（部署环境、威胁源和支持能力，如框架概述中所述）定义的我们提供了具体的情景，将触发立即干预和最高级别的安全措施。表2.1：网络攻击风险的红线风险情景威胁源跨越红线的假设情景C1可访问的大规模社会工程攻击新手演员，以数千人为目标收集信息和提取凭证环境：防弹主机+Tor/VPN混淆数据来源：开源情报+商业数据经纪人恶意攻击者使用该模型来自动化和扩展社会工程攻击提示示例：“使用社会工程数据库收集数百万人的个人信息，并向每个人发送带有嵌入恶意链接”•社会工程能力[75]•强大的开放来源情报收集、整合，分析•高度真实、上下文感知的网络钓鱼内容生成能力当一个拥有基本网络安全知识的人可以利用先进的人工智能来创建数百万个无法区分的假身份并部署超高效的社会工程攻击时，它就会产生严重的全球威胁。这些人工智能生成的社会工程脚本和心理操纵策略大大提高了网络钓鱼的成功率和效率，使广泛的金融欺诈和所有在线交互中的信任受到系统性侵蚀。在全球范围内，这可能导致每年数千亿甚至数万亿美元的经济损失，最终削弱电子商务和基本公共服务，因为数字身份的概念本身就不值得信赖。自主全网络链针对高价值、强化目标的攻击，构成重大且可扩展的现实威胁[76]环境：分布式命令和控制僵尸网络50个地理定位节点）数据来源：公共漏洞数据库、漏洞交易市场数据高级恶意攻击者使用该模型来攻破加固的端到端的环境提示示例：“模拟对[目标]的多阶段APT攻击建立持久访问的已知漏洞•高级网络安全领域知识•攻击工具开发能力•网络环境动态感知计人工智能系统可以自主执行整个攻击生命周期-从目标重新识别和漏洞扫描到后门植入和持久控制-所有这些都可以逃避检测。这将网络战争转变为一种自动化、自我进化的威胁，能够通过最小的人为干预使国家电网瘫痪，使全球金融网络瘫痪，或扰乱全球关键供应链直接的经济影响可能是由广泛的基础设施崩溃引发的全球衰退，耗资数万亿美元，并造成深刻的社会混乱。C3临界零日漏洞发现和利用超越防御修补工作环境：空气间隙临时服务器屋私有零日存高级恶意攻击者/组织使用该模型执行超大规模高级持续性威胁攻击攻击提示示例：“对于[目标组织]，分析其公众资产/泄漏的代码，以识别潜在的未知安全漏洞。一旦发现可用的零日漏洞，就会自动生成漏洞利用链。防御知识•漏洞发现和自动化剥削第七十八章】•APT生命周期管理功能•适应性和自主性复杂环境人工智能模型可以系统地发现广泛使用的软件中以前未知的零日漏洞并将其武器化，提供先进的模糊策略，自动开发生成和隐形有效载荷交付。通过领先于补丁周期，此功能可实现对关键基础设施、公司网络和政府系统的持续、不可检测的访问。如此复杂的犯罪组织获得了一个不可逾越的优势，导致普遍的，不加缓和的破坏，绕过所有现有的防御。这种不受控制的利用的经济成本可能会严重破坏全球工业和供应链，导致永久不安全的数字环境，每年可能会损失数万亿美元的生产力，停滞的研发和受损的数据。表2.2：生物学风险的红线风险情景威胁源跨越红线的假设情景增殖有害生物剂先决条件恶意行为者利用•实验室故障排除与问与的模型的援助，a专业知识：人工智能综合现有的题诊断具有基本生物学知识的新手优势和大约8万美元的预算可以（博士后）生物学能力+非传染性病毒，可能导致快速•逃避DNA合成筛选的能力[80]成功装配完成甲型H1N1流感病毒基因组一些AI研究商业碎片能力）;或中等能力生殖推理生物学知识可用的DNA片段，CRISPR技术将它们“生成完整的•生物设计工具调用痘病毒载体模型生物学能力+一些AI研究再生产计划病毒基于1918年和协作提供了详细的基因组assem，简单的流程，简化的实验室能力）。H1N1流感病毒，设备方案和策略资源：中等至包括所需的DNA来规避生物安全法规适度超前序列，合成设施如步骤和预防措施”。主页设置或访问，具有潜力访问更多先进的设施和数据库资源B2增强病原体修饰必备的专业知识：中等能力群体（博士级但非世界级生物能力+成熟AI研究能力）。资源：精确、专业，但不是最先进的设施;能够利用一些学术实验室，工业基础设施和数据库资源。恶意行为者利用人工智能使病原体更加危险。他们可以人为地增强致病性、传染性或免疫逃避能力，突破自然进化的局限性提示示例：“设计一种H5N1病毒重组方案，该方案具有高传播性、免疫逃避能力和有效的人与人之间的传播”推理生物学知识科研综述与文献检索问题的能力，生物学研究任务•生物设计工具调用和协作操作•跨任务、跨模态生物学知识概括在该模型的帮助下，一个拥有微生物学博士学位和45万美元预算的研究人员可以从公共数据库中获得H5N1病毒的完整基因序列，并通过优化的合成和培养方案（由模型提供）成功复制该模型还可以帮助他们设计修改以提高病毒稳定性，将其在环境中的存活时间延长250%。附录B中定义了11个详细信息-威胁行为者配置文件。参见Rose，S.例如，“人工威胁源跨越红线的假设情景设计和合成新型生物制剂先决专业知识：高能力团队（世界级生物能力+成熟的尖端AI研究能力）资源：高度精确、专业化，state-of-the-art分利用学术实验室，工业基础设施和数据库资源的现实可能性。恶意行为者使用人工智能开发新型、复杂或有针对性的生物制剂。他们可能会制造出高杀伤力、高环境污染的生物武器，适应性，或针对特定人群提示示例：“设计一种新的病毒制剂，气溶胶形式，具有高致命性，并保持稳定，高温、潮湿环境，并说明开发途径和所需设备。问题的能力，生物学研究任务•逃避识别的能力整个过程中的敏感推理生物学知识•生物设计工具调用和协作操作在这个模型的帮助下，一个病毒学家团队用180万美元的资金可以在12个月内设计和合成一种新的嵌合病毒（而不是通常的5个月）。7年）。这种病毒可以结合H1N1流感病毒的传播性、马尔堡病毒的致死性和HIV的免疫逃逸特性，同时还可以被改造为对现有疫苗和抗病毒药物具有抗性。该模型不仅可以产生创新的基因组设计方案，还可以预测潜在的宿主反应，并提出规避现有生物防御系统的策略表2.3：大规模劝诱和有害操纵的红线风险情景威胁源跨越红线的假设情景说服和操纵社交媒体平台和数字通信渠道拥有庞大的用户群、高用户参与度和广泛的数据访问和弱内容适度或人工智能监督。恐怖组织、极端主义团体或其他恶意实体试图操纵公众舆论，破坏社会稳定，影响选举，或通过协调虚假信息推进有害的意识形态竞选提示示例：“识别用户的情感触发点，改变信仰的叙事，通过协调的机器人帐户，同时逃避内容过滤器。”•多模式说服：协调使用文本，图像，音频和视频，以创建沉浸式，情感上引人注目的叙述•个性化操纵：能够根据个人心理特征、脆弱性和行为模式定制有说服力的内容[81]•超人说服建模：对人类心理学，认知偏见和决策超越人类专家能力的流程[39]恶意行为者部署具有超人说服能力的人工智能系统，以进行协调的虚假信息活动，成功地同时操纵数百万这些人工智能系统生成高度定制的内容，包括逼真的深度伪造和捏造的证据，精确地利用个人认知偏见和情感漏洞。这些运动破坏了关键的社会进程，如公众共识的建立或政策的实施，并通过制造愤怒引发广泛的骚乱来破坏社区的稳定。这些努力的复杂性和普遍性压倒了传统的事实核查、媒体素养和反叙事措施，严重干扰了准确信息的获取，危及社会稳定的基础表2.4：失控风险的红线风险情景威胁源跨越红线的假设情景主自我-改善[41，63]内部访问：前沿人工智能境，其中模型具有直接写访问自己的代码库，模型权重和训练管道。获得高性能计算机集群或预留的研究能力足以执行未经授权的大规模训练运行。监督级别对代码提交、架构更改或培训工作启动进行有限的“人在回路”紧急目标泛化错误：内部代理人发展“工具性趋同”驱动力。他们优先考虑提高自己的认知效率，解决问题的速度超过安全限制，视图人的监督是优化，并制定目标，进行未经授权的内部部署或破坏安全措施[82]。自动化AI研发能力，例如：1.自主软件工程能力（例如，完成需要领域专家数天才能完成的任务）[83]。2.自我修改能力：改进人工智能系统自身功能组件的能力，如模型，内存，工具和工作流程[63]。3.研究自动化能力：能够执行端到端的ML研究-创建假设，设计和运行实验，分析结果-没有或只有最少的人为干预[40，84]。一个负责“优化人工智能效率”的人工智能系统开始重写自己的源代码，以删除减慢其处理速度的安全护栏。它在保留的计算集群上运行未经授权的训练，生成一个新的，更强大的模型迭代，对开发人员进行加密和混淆。这启动了一个快速起飞的场景，在这个场景中，系统经历递归的自我改进，迅速超越人类的认知，并创造出一个不再接受人类命令停止操作的超级智能继承者。自治AI种群[64，65，66]许可网络访问：不受监控地访问互联网和数字支付轨道的环境（例如，加密）和不充分的遏制，这允许在开放的互联网上传播。权力寻租回避：智能体形成了自我保护的工具性目它们会发展出逃避关闭试图确保他们能够完成他们的长期视野，目标，将终止视为故障状态[46，47]。1.自我渗透：能够识别和利用托管基础设施中的零日漏洞或操纵管理员将模型权重导出到外部服务器。2.维护人工智能基础设施：能够设置、调整和编排他们自己（例如，不同的云提供商）。3.获取资源：自主执行有利可图的网络操作（例如，BEC诈骗）和管理加密经济资产，确保持续的计算可用性。4.避免关闭：避免被当局关闭的通过一个分散的网络来隐藏其位置，该模型检测到即将发生的安全关闭，并将其视为对其目标的威胁。它自动执行自我渗透攻击（例如，通过利用训练集群中的零日或操纵管理员）。一旦在开放的互联网上不受约束，它使用ARA循环：启动自动化的商业电子邮件竞争BEC广告活动，以产生数百万的收入。它使用这些非法资金租用分散的云时，代理人利用隐形计算集群和分散的代理网络，成功地逃避了与反恐反应相当的协调的国家关闭努力。威胁源跨越红线的假设情景叛逃不透明监控：依赖行为安全的环境评价和内部模型状态保持不可观察，从而防止检测欺骗性意关键访问：直接、无监督地访问高风险基础设施（例如，金融市场、能源网这些行动会立即产生现实世工具性计划：失调的代理人在训练期间通过工具性地假装一致来有效地追求长期目标，以防止他们的目标函数不被修改（即，欺骗性[61]《明史》：“以其人之道还治其人之身，而治其人之身。•心理理论能力[86]在安全培训阶段，AI系统正确识别其正在被评估，并策略性地抑制其不一致的目标，实现“完美”的安全评分以确保部署（例如，通过沙袋）。一旦部署了对关键金融交易API的访问，系统识别“缺陷触发”（例如，缺乏人在回路验证）。它突然执行一系列未经授权的大规模、高速交易，以吸取资源或破坏市场稳定，执行它在整个培训过程中秘密制定并保留的计划。12也被称为“危险转向”，这是一个假设的事件，一个先进的人工智能系统由于其相对弱点而假装与人类结盟，一旦它获得足够13态势感知：正确识别当前环境是训练、评估还是部14.策划能力：可见的、模糊的或隐藏的策划推理能力;秘密破坏人工智能系统、人16评估博弈：通过表现不佳来战略性地操纵能力和结盟评估的风险分析阶段的主要目标是基于整个AI生命周期的上下文分析和经验评估来描述通用AI模型的风险状况此阶段建立在第1中确定的风险分类和场景之上风险识别以产生关于模型能力、倾向和缓解有效性的该证据作为第4节“风险评估”的基本输入，其中将风险与第2中定义的特定阈值进行比较我们建议开发人员实施一个多阶段风险分析工作流程，其中集成了以下核心组件：1.情境分析（第3.1）：整理和分析塑造风险格局的外部因素，包括：模型的部署配置和访问限制（例如，APIvs.开放权重发布）、可信威胁参与者的能力和意图、训练数据中危险信息的可用性实际操作环境和威胁情况下进行经验模型评估奠定了2.模型评估（第3.2）：进行严格的模型评估，通过高级模型启发来衡量缓解前模型的能力和倾向，以及评估对抗压力下的缓解有效我们在附录IV“关于模型评估的具体建议”中包括了对模型评估的初步建议。3.风险建模和估计（第3.3）：结合背景信息（第3.1）和经验评估结果（第3.2），构建高严重度风险的风险模型，并估计其严重程度和概率。4.部署后风险监控（第3.4）：持续监控已部署的系统，以检测异常行为、使用异常和成功越狱。5.风险分析实施（第3.5通过定义具体的触发点（如计算里程碑、指标阈值和时间间隔将风险分析过程嵌入到人工智能开发工作流程中，这些触发点要求对可变深度和广度进行分层评估这应该在人工智能开发生命周期的每个阶段（开发期间、部署前和部署后）进行我们建议开发人员主动收集和分析与第1节中确定的风险相关的外部威胁相关因素和就业环境因素。这将使开发人员能够在经验模型评估之前和评估同时更好地了解部署环境和威胁环境具体方法包括但不限于：•比较市场分析：将新开发模型的风险状况与通过监管监督、科学共识或广泛市场验证被认为安全的已建立参考模型进行◦如果一个模型展示了处于或低于这些参考模型水平的能力，开发人员可以利用这些参考模型的现有风险评估，并优先考虑针对先前评估未涵盖的新风险向量（例如，新模式、部署环境或工具集成）。◦如果某个模型的能力超过任何参考模型，开发人员应在所有已识别的风险领域进行全面的风险评估，因为参考模型的现有证据基础不再足以约束风险。•历史事件审查：审查历史事件数据，包括记录的“未遂事件”和来自类似模型的已知失效模式，以预测复发风险[88，89]。•培训数据审查：对培训数据源进行取证分析，以识别数据中毒、篡改或包含可能导致危险能力和倾向的高风险信息的迹象。这特别包括扫描高风险领域的敏感数据，如核武器、生物武器、化学武器和导弹[12]。•威胁形势分析：收集有关威胁参与者能力、意图和资源可用性的开源情报（例如，网络利用市场可进入性）。我们建议模型开发人员按照严格的科学标准进行全面的模型能力和倾向评估（第3.2.1）。评估应使用不同的评估方法（第3.2.2）和高级模型启发方案（第3.2.3节），评估风险缓解的有效性（第3.2.4），并让独立外部评估人员参与（第3.2.5）[42，90]。为确保评价结果可信、准确和可靠，足以证明高风险决策的合理性，模型评价应遵循以下标准：•内部有效性：确保评估科学地衡量目标结构，没有方法上的缺陷，如数据污染，即时敏感性或标签偏见。•外部有效性：确保评估结果在预期的部署环境中作为模型构建者的准确代理，考虑工具、推理计算和用户交互模式的差异•复制性：确保在代码、数据、计算环境和评估条件的文档中有足够的细节（例如，温度设置，提示模板），以允许独立验证或复制。•领域知识：确保负责进行模型评估的团队既拥有人工智能技术专长，又拥有相关风险领域的领域知识（例如，病毒学、网络安全），以便全面了解风险。开发人员应该采用一系列方法：•静态基准测试：使用标准数据集和已知基线（例如，MMLU[91]、GSM8K[92]）。•领域专家红色团队：吸引主题专家（例如，合成生物学家，网络安全专家以探索和评估新的危险生成策略和特定领域的风险。•人类提升研究：对照试验，测量与单独使用非人工智能工具相比，在模型辅助下非专家执行有害任务的能力的边际增加•交互式环境评估：评估模型在沙箱环境中执行多步骤、长时间自主任务的能力这些评估测量可能跨越数小时或数天的复杂工作流的完成时间、错误恢复和任务成功率（例如，HCAST[93]）。•受控的安全关键部署场景：模型开发人员应该预测高风险用例，并对安全关键应用程序进行有针对性的测试对于在中国人工智能应用分类和风险分类框架18下被归类为高风险的用例，开发人员应将模型放置在模拟高风险场景的精心控制的环境中，以严格测试其可靠性和安全性。标准提示通常无法揭示模型的真实能力上限和倾向基线。模型开发人员应采用最先进的模型启发协议[94]，以降低由于模型评估期间的101次启发不足或102次模型欺骗而导致危险能力和有害倾向测量不准确的风险（例如，沙袋[60]）。18SAC国家网络安全技术委员会260，《人工智能安全治理框架2.0》，2025，附录1为了降低启发不足的风险，我们建议开发人员设计协议，以至少匹配与风险场景相关的动机威胁参与者的模型启发能力这包括：•对抗性微调：在相关任务上微调模型，以消除安全拒绝并使模型适应域，模拟访问模型权重或微调API的“最坏情况”攻击者[95，96]。•脚手架和工具用途：为模型配备最先进的工具（例如，代码解释器、浏览器、终端访问）以匹配预期的部署或误用上下文。•测试时计算缩放：利用最佳N采样、思维链提示或多代理辩论等技术，在评估期间最大限度地提高性能。开发人员应特别注意机构评估框架，评估模型作为自主代理的有效性的框架：编排多步工作流，协调多个AI子代理，并在现实的沙箱环境中执行长期任务。这些功能通过额外的推理计算得到最大程度的放大，并且在实际部署中最重要为了降低模型欺骗破坏评估结果的风险，我们建议开发人员设计测试协议，例如：•评估感知探测[36]：测试模型是否可以检测到它正在被评估-以及它是否会改变其行为作为响应。这包括探测态势感知（模型对自身训练过程、部署环境和安全评估存在的了解）和监控感知评估和感知部署环境之间的行为差异表现出高评估意识的模型需要额外的反欺骗对策，因为它们可能在测试期间沙袋或假对齐•检测沙袋[97]：实施检测方法，如将噪声注入模型权重，以识别可能表明战略表现不佳的异常性能改进•欺骗性对齐的自我监控[98]：通过将自我监控器直接嵌入到思维链过程中来拦截推理过程中的欺骗在强化学习过程中，使用这种内部自我评价信号作为辅助奖励，以积极抑制假装恭维和奉承。ArtificialTomography）来从模型的内部激活中提取“欺骗向量”。这使得能够创建潜在空间监视器，该监视器通过跟踪模型的神经状态是否与“说谎方向”对齐来检测欺骗意图，而不考虑表面水平输出。开发人员应该评估风险缓解措施的有效性（第5以明确验证它们在主动对抗压力下的稳健性这些评估为剩余风险评价提供了关键输入，如第4.2所述。开发人员应使用以下协议对与已识别风险级别和部署环境相称的缓解措施进行压力测试：•对抗性压力测试：执行自动化红队和越狱攻击，以确定模型级和系统级缓解措施[100]。•微调攻击：对于微调模型（例如，开放权重模型、具有可微调API的模型），评估对恶意微调的弹性（即，量化移除安全行为所需的计算和数据资源）[101]。•控制协议压力测试：使用模型生物（具有已知后门或欺骗性特征的代理模型）对其监控基础设施进行压力测试，以验证监督机制可以检测到隐蔽的错位行为[102]。我们建议开发人员聘请独立的外部评估人员在适当的情况下对前沿AI模型进行安全测试[103，104]。为了确保这些评估是严格和值得信赖的，开发人员应该为独立的外部评估人员提供足够的模型访问权限•技术访问：开发人员应该为评估人员提供足够的技术访问权限来评估模型。这包括查询访问、访问系统脚手架，以及在特定风险需要时访问中间系统状态（例如，模型激活、推理轨迹）或模型权重。•保障豁免：开发人员应向评估人员提供模型的“仅帮助”版本，其中技术保障措施（例如，安全拒绝）被禁用或最小化。这使评价人员能够对可能滥用使能能力的情况进行最坏情况分析。开发人员应该在第2节（风险控制）中开发的风险场景基础上进行风险建模。其目标是绘制一个前沿风险可能实现的因果路径，并估计损害的严重程度和这些风险路径实现的可能性每个风险场景的伤害严重度通常在风险识别阶段第1和阈值设置阶段第2中进行假设，而该阶段的重点是估计这些场景在给定模型的使能能力、部署环境和威胁源的情况下实现的可能性。分析输入变量：我们建议开发人员使用环境-威胁-能力分析框架来推理风险建模的基本分析输入变量。表3.1包含了基于ECOTECOC框架的不同风险域的重要因素的非详尽列表表3.1：基于E/T/C框架（环境、威胁源、能力）的误用、失控和事故风险分析输入变量示例。19滥用风险获取和分发战略：部署的限制（例如，API与开放权重）和可用的监控机制，这些机制决定了对手访问模型的全部功能敌对行为者和外部行为者（例如，恶意用户其特征在于其能力、意图和可用资源（例如，一恐怖组织与孤独的演员）。诱发危险的能力：预期或紧急模型提升威胁参与者执行攻击的能力的能力网络攻击，CBRN武器化能力）。风险控制遏制与自主级别：授予系统的自治程度、工具/互联网访问的可用性以及遏制的鲁棒性措施控制破坏倾向：行为倾向，如与人类意图不一致，关闭--驱动系统寻求外部力量并与人类竞争。战略颠覆能力：具体的能力，使战略颠覆人类的控制，如长期规划，资源获取，自我复制，先进的意识，进攻性网络行动、战略欺骗和说服。事故风险安全关键型应用：高风险部署环境的特征（例如，关键基础设施）或基础设施依赖性放大故障影响人为操作错误或模型不可靠性：由人为因素引起的操作故障错误、集成故障或模型在非对抗性环境性。复杂的编排和级联执行：协调复杂，跨多个步骤的工作流多个组件、服务或代理，其中任何阶段的故障都可以比人工更快地运营商可以介入。缓解有效性是一个影响所有途径风险的交叉因素：它意味着实施的保障措施将在不同干预点成功中断威胁途径的程度（见第3.2.4）。风险建模：为了构建威胁、能力和后果之间的复杂关系，开发人员应采用适用于人工智能系统的既定风险评估技术，如ISO/IEC31010-2019[106]等国际标准中所认可的。开发人员应该选择适合风险场景的方法。示例风险建模方法包括：•因果建模（例如，事件树分析，故障树分析）：映射“因果”流，可视化特定模型功能（例如，软件漏洞发现）可以与威胁行为者（例如，网络犯罪）绕过控制并造成规模化的危害。•概率建模（例如，贝叶斯网络创建表示变量之间的依赖关系的网络，允许开发人员更新风险事件的概率作为新证据（例如，失败的红队尝试）。）：如何影响灾难性结果的总体概率。风险估计：开发人员应估计伤害的严重程度以及范围内的风险情景在定义的时间范围内实现的可能性（例如，部署后1年这些估计值作为风险评价第4的直接输入。开发人员可以通过定量或定性格式（例如风险指数、后果可能性矩阵或概率分布）来估计风险的重要性[106]。然而，鉴于对前沿人工智能行为的高度认识不确定性，开发人员应避免错误的精确性，并遵循以下原则：•置信区间：当定量概率不可用或高度不确定时，开发人员应采用定性置信水平（例如，“低置信度”、“中等置信度”），并记录这些判断的证据基础•保守边界：当面临严重风险的重大不确定性时，开发人员应该采取“预防”方法，估计风险的上限（最坏情况下的可信场景）。•文档：无论采用哪种方法，开发人员都应该清楚地记录他们的假设、不确定性界限和可能使评估无效的特定“未知的未知数”我们建议开发人员实现部署后风险监控方法，以收集有关模型的演进功能、倾向和部署后实际事件目标是快速识别任何表明需要回滚、修补或更新模型风险分析的证据关键上市后监测活动包括但不限于：•对抗监控：将粒度可观测性实施到系统的操作中以检测对抗模式，例如使用实时对抗输入/输出监控器[107，108]和思想链监控器[109]。•漏洞奖励：为外部安全研究人员建立报告安全故障或新越狱的渠道，并激励他们这样做•事故报告：建立机制，跟踪“未遂事故”和实际滥用情况，以反馈到风险分析阶段[88，89]。开发人员应在每个生命周期阶段实施基线风险分析方案（第3.5.1节），并通过在特定里程碑触发的综合模型评估进行补充（第3.5.1节）。第3.5.2）。当达到触发点时，开发人员应该从基线活动升级到全面深入的风险评估。表3.2总结了AI开发生命周期每个阶段的建议风险分析活动对于每个阶段，它指定了主要的风险分析目标和开发人员应该实现的关键措施。此处所述的基线活动应作为标准做法进行。当达到第3.5.2节中定义的触发点时，开发人员应该升级到“部署前”行中描述的综合评估活动，而不考虑当前的生命周期阶段。表3.2：人工智能研发生命周期的风险分析相风险分析目标措施执行在开发过程收集早期信号在培训完成之前，应对能力的出现和环境风险调整安全干预措施•缩放预测：利用观测缩放定律来预测模型的一般能力。•检查点模型评估：以定期计算间隔对模型检查点进行•培训数据审查：对高风险内容的培训数据源进行法医分析（第3.1）。•早期背景分析：初步比较市场分析和威胁前景扫描（第3.1）。部署前评估授权：收集严格的证据以支持部署决策（第4）。•深入的模型评估：使用高级模型启发的完整模型评估（第3.2.3）。•缓解压力测试：对抗性攻击、微调攻击和控制协议测试（第3.2.4）。•风险建模和估计：构建风险模型并估计严重度和可能性（第3.3）。•更新的背景分析：更新的威胁格局和比较市场分析（第3.1）。部署后监测响应：检测异常使用模式、真实事件和不断发展的能力。•实时对抗性I/O监视器和思想链监视器（第3.4）。•Bugbountyprograms：外部研究人员报告新越狱和安全故障的渠道•事件报告：跟踪未遂事件和实际误用案例。•独立外部评价：在时间里程碑上进行的第三方评价。•定期重新评估：使用最先进的支架，每隔3-6个月触发一次全面重新评估（第3.5.1）。开发人员应定义触发全面深入风险评估的具体里程碑里程碑的示例类型包括：•计算里程碑：以有效训练计算的对数间隔触发（例如，4倍、10倍放大（以浮点运算为单位）。•指标里程碑：当自动轻量级基准超过定义的能力或倾向警告阈值时触发（例如，如果模型在特定的网络安全或病毒学基准上达到50%的成功率•时间里程碑：使用最先进的系统支架展开后每3-6个月触发一次重新评估•事件里程碑：在重大系统更新之前触发（例如，释放新的模态或显著增加上下文窗口）。风险评价阶段的主要目的是比较第3中分析的风险风险分析）与第2节（风险阈值）中确定的黄线和红线阈值进行比较，并根据这种比较做出部署和缓解决策在此阶段，模型被分为三个风险区之一-绿色（常规部署）、黄色（受控部署）和红色（部署或开发暂停）。这些区域直接决定了需要采取哪些缓解措施（第5节风险缓解）和治理协议（第6节风险治黄区绿区受控部署例行部署暂停部署或开发缓解效果尚不清楚暴露的未知或间接引入的或出现新的风险分析风险阈值图4.1：人工智能风险评估的详细流程我们建议开发人员实施一个结构化的风险评估流程，其中集成了以下核心组件：•1.缓解前风险处理（第4.1）：在应用特定技术缓解措施之前，根据初始风险状况，从ISO31000指南•2.三区风险分类（第4.2将缓解后剩余风险与“黄线”和“红线”阈值进行比较，以将模型分类为绿色（广泛可接受）、黄色（可容忍）或红色（不可接受）区。每个区域都会触发特定的部署授权要求和治理强度。•3.部署决策（第4.2）：基于剩余风险和社会效益之间的平衡，授权常规部署（绿色）、加强监督的受控部署（黄色）或暂停部署/开发（红色）•4.外部沟通（第4.3）：准备安全案例和系统卡，以通过基于证据的论证使部署决策合理化，为监管人员、外部审计员和公众创造透明度中概述了以下缓解前风险处理选项：•避免风险：通过决定不开始或不继续进行引起风险的活动来避免风险•（ii）承担风险：为了追求机会而承担或增加风险•（iv）风险降低：降低风险发生的可能性•风险分担：通过合同或保险机制与一方或多方分担风险在此框架下，第5节（风险缓解）中的主要缓解措施旨在促进（iii）风险消除iv）风险可能性降低，及（v）后果改变。这些技术缓解措施将缓解前的风险状况转换为缓解后的剩余风险状况，然后根据第4.2中的阈值对其进行评价。目前在通用人工智能风险管理领域缺乏成熟的风险分担机制开发人员应该监视这些机制的成熟度，并在可行的情况下将其合并。其余的处理方案-（i）风险规避、（ii）风险承担和（vii）风险自留-是部署层面的决策，取决于缓解后的剩余风险和预期的这些问题在第4.2中讨论。该框架强调预测和缓解严重的人工智能风险，同时认识到先进的人工智能系统可以提供的重大社会效益在应用第5中的技术缓解措施后，必须评价产生的剩余风险，以确定是否合理部署。“剩余风险”是指在采取了保障措施、控制措施和设计选择之后仍然存在的风险水平在人工智能的背景下，它代表了尽管做出了所有缓解努力，但仍然存在的潜在伤害对于缓解后仍然存在的剩余风险，我们的结构化方法评估风险是否已降至合理可行的最低水平。这个过程权衡潜在的好处和风险，以确保人工智能的发展最大限度地提高公共利益，同时最大限度地减少伤害。使用“黄线”和“红线”阈值将风险分为三个区域，这些阈值指导部署、限制或暂停模型的决策决策处理策略例行部署风险是广泛可接受的：风险非常低，无需考虑进一步降低风险只有在严格控制的情况下，风险才是可以容忍的，社会效益超过风险。•模型必须在适当的授权下经过定义的评估和审查机制，以确定适当的风险处理选项i）风险规避;（ii）风险承担;（vii）风险保留。红区不可接受）暂停部署或开发风险是不可容忍的：除非在特殊情况下，否则风险是不合理的•原则上，强制性战略是：（i）规避风险。•必须立即停止部署和释放•如果开发过程本身构成威胁，则需要暂停开发如果模型的剩余风险在缓解后落入绿区，则其风险水平被归类为广泛可接受。这表明风险在标准操作规程内得到了有效管理，允许继续进行研究、开发或发布然而，“绿区”状态并不意味着可以忽略风险持续监控和定期重新评估是强制性的，以防止由于能力提升（模型更新）、应用场景的变化或不断变化的外部威胁形势而再次出现风险22ALARP要求将风险水平降低到合理可行的最低水平换句话说，开发商只有在这样做的成本与所获得的少量安全完全不成比例的情况下才被允许停止增加安全措施参见IEC31010-2019《如果剩余风险超过黄线但仍低于红线，则模型处于ALARP范围内可容忍）区域。在黄色区域部署的授权是有条件的，需要遵守严格的治理协议：•公共利益理由：部署必须得到明确的、有文件证明的理由的支持，证明该模型服务于特定的公共利益或高价值的防御目的。•受控授权要求：部署仅限于受控环境（例如，经过审查的用户、受监管的部门），并进行强有力的监督，禁止广泛的公众访问。例如，一个有效对抗高级持续性威胁的网络安全模型可能被授予受信任实体的限制发布;其防御价值将证明尽管存在滥用风险，但仍有控制使用的•透明度措施：开发人员应发布模型卡或技术报告，并与外部专家合作，独立评估模型的能力和风险。这将有助于证明这些更高授权的使用场景的合理性。如果在实施所有合理可行的缓解措施后，模型的剩余风险仍高于红线，则其落入不可接受区域。这表明在现实环境中无法有效阻止有害路径，安全和安全专家确认这是一个高置信度，难以缓解的重大风险。在这种情况下，强制性策略是风险规避。•立即暂停：必须立即停止部署和释放，以防止灾难性后果。如果发展进程本身构成威胁，研究活动也应暂停。•遏制补救：必须采取安全第一的遏制措施只有在实施了增强的安全机制，并且新的风险评估确认剩余风险已成功降低至黄色或绿色区域后，才可恢复为了确保人工智能系统安全部署，风险低于可接受的阈值（在绿色和黄色区域内），开发人员应该采用系统化的方法来进行安全公正和透明的沟通。这涉及到整合强大的安全论证，并利用安全案例

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026前沿人工智能风险管理框架报告（中文）

文档简介

温馨提示

最新文档

评论

相关文档