人工智能算法评估规范_第1页
人工智能算法评估规范_第2页
人工智能算法评估规范_第3页
人工智能算法评估规范_第4页
人工智能算法评估规范_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.01CCSL67SZSDArtificialintelligencealgorithmevaluationspecificatiSZSD020002—2026I前言 2规范性引用文件 3术语和定义 4类别 5评估指标体系 26评估方法与过程 3参考文献 SZSD020002—2026本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由青岛市城阳区大数据发展管理局和青岛市人工智能产业协会共同提出。本文件由青岛市大数据发展管理局归口。本文件起草单位:青岛市大数据发展管理局、青岛市城阳区大数据发展管理局、青岛市人工智能产业协会、创新奇智科技集团股份有限公司、国华(青岛)智能装备有限公司、青岛港国际股份有限公司、中科曙光国际信息产业有限公司、海信视像科技股份有限公司、青岛海尔科技有限公司、数字青岛建设有限公司、山东海博科技信息系统股份有限公司、中国联合网络通信有限公司青岛分公司、中国移动通信集团山东有限公司青岛分公司。本文件主要起草人:毕建奎、姜代楠、解星汉、王广、吴宇震、杜夏威、杨晓勇、蓝传锜、朱春波、于靓环、李建伟、万力、郭乙运、刘玉海、夏培勇、张昕、吴岩、管洪清、罗桂富、孔繁斌、禚建龙、刘芳、陈成军、贾磊、王阿宁、林佳华、孙玉灵、王晓婷、李莹莹、姜鹏程。SZSD020002—2026随着人工智能领域的持续创新,各种强大的算法出现在人们的视野,例如机器学习算法、深度学习算法、自然语言处理算法、强化学习算法等。特别是深度学习算法,是大模型研制的核心技术支撑,大模型通过构建庞大的神经网络,实现对复杂数据的深度理解和处理,从而在多个领域取得突破性的进展,这对于提升大模型在各个领域的应用效果、引领人工智能技术的发展趋势都具有重要意义。本文件旨在通过术语定义明确算法可信度、鲁棒性等技术概念边界,规定算法类别,明确评估指标体系及评估流程,通过统一评估基准,规范将助力开发方优化模型架构,指导用户方科学选型算法,推动人工智能技术可靠应用与风险防控。SZSD020002—20261人工智能算法评估规范本文件规定了人工智能训练算法评估的术语和定义、算法类别、评估指标体系、评估流程。本文件适用于指导人工智能算法开发方、用户方及第三方等相关组织在不同应用场景选择对人工智能算法的可靠性开展评估工作。2规范性引用文件本文件没有规范性引用文件。3术语和定义本文件没有需要界定的术语和定义。3.1算法algorithm解题方案的准确而完整的描述,是一系列解决问题的清晰指令,用系统的方法描述解决问题的策略机制。3.2输入项input一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件。3.3输出项output一个算法有一个或多个输出,以反映对输入数据加工后的结果。4类别4.1机器学习算法基于数据样本的学习和建模,通常需要大量的训练数据,如决策树、支持向量机、神经网络、随机森林等。4.2深度学习算法基于神经网络,对数据进行层层处理和学习以提取更高级别的抽象特征,适用于处理大规模图像、语音、文本等数据,如卷积神经网络、循环神经网络等。4.3自然语言处理算法SZSD020002—20262用于处理自然语言数据的算法,如文本分类、机器翻译、情感分析等,如词向量模型、循环神经网络等。4.4强化学习算法用于训练智能体进行决策和行动的算法,通过不断试错和奖惩来优化行为策略,如Q学习、策略梯度等。4.5计算机视觉算法用于处理和分析图像和视频数据的算法,如目标检测、图像分割、人脸识别等。4.6推荐系统算法用于根据用户的历史行为和兴趣建议相关物品的算法,如在线广告推荐、电子商务推荐等,如协同过滤、基于内容的推荐等。5评估指标体系5.1算法功能实现的正确性用于评估人工智能算法实现的功能是否满足要求,应包括但不限于下列内容:——任务指标:用户可以根据实际的应用场景选择任务相关的基本指标,用于评估算法完成功能的能力;——响应时间:在给定的软硬件环境下,算法对给定的数据进行运算并获得结果所需要的时间。5.2代码实现的正确性用于评估代码实现功能的正确性,应包括下列内容:——代码规范性:代码的声明定义、版面书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循环控制、类型转换、初始化、比较判断和变量使用等是否符合相关标准或规范中的编程要求;——代码漏洞:栈溢出漏洞、堆栈溢出漏洞、整数溢出、数组越界、缓冲区溢出等。5.3目标函数的影响用于评估计算预测结果与真实结果之间的误差,应包括下列内容:——优化目标数量:包括优化目标不足或过多。优化目标过少容易造成模型的适应性过强,优化目标过多容易造成模型收敛困难;——拟合程度:包括过拟合或欠拟合。过拟合是指模型对训练数据过度适应,通常由于模型过度地学习训练数据中的细节和噪声,从而导致模型在训练数据上表现很好,而在测试数据上表现很差,也即模型的泛化性能变差。欠拟合是指模型对训练数据不能很好地拟合,通常由于模型过于简单造成,需要调整算法使得模型表达能力更强。5.4训练数据集的影响用于评估训练数据集带来的影响,应包括下列内容:——数据集均衡性:指数据集包含的各种类别的样本数量一致程度和数据集样本分布的偏差程度;SZSD020002—2026——数据集规模:通常用样本数量来衡量,大规模数据集通常具有更好的样本多样性;——数据集标注质量:指数据集标注信息是否完备并准确无误;——数据集污染情况:指数据集被人为添加的恶意数据的程度。5.5对抗性样本的影响平台用于评估对抗性样本对人工智能算法的影响,应包括下列内容:——白盒方式生成的样本:指目标模型已知的情况下,利用梯度下降等方式生成对抗性样本;——黑盒方式生成的样本:指目标模型未知的情况下,利用一个替代模型进行模型估计,针对替代模型使用白盒方式生成对抗性样本;——指定目标生成的样本:指利用已有数据集中的样本,通过指定样本的方式生成对抗性样本;——不指定目标生成的样本:指利用已有数据集中的样本,通过不指定样本(或使用全部样本)的方式生成对抗性样本。5.6软硬件平台依赖的影响用于评估运行人工智能算法的软硬件平台对可靠性的影响,应包括下列内容:——人工智能框架差异:指不同的人工智能框架在其所支持的编程语言、模型设计、接口设计、分布式性能等方面的差异对人工智能算法可靠性的影响;——操作系统差异:指操作系统的用户可操作性、设备独立性、可移植性、系统安全性等方面的差异对人工智能算法可靠性的影响;——硬件架构差异:指不同的硬件架构及其计算能力、处理精度等方面的差异对人工智能算法可靠性的影响。5.7环境数据的影响用于评估实际运行环境对算法的影响,应包括下列内容:——干扰数据:指由于环境的复杂性所产生的非预期的真实数据,可能影响算法的可靠性;——数据集分布迁移;算法通常假设训练数据样本和真实数据样本服从相同分布,但在算法实际使用中,数据集分布可能发生迁移,即真实数据集分布与训练数据集分布之间存在差异性;——野值数据:指一些极端的观察值。在一组数据中可能有少数数据与其余的数据差别比较大,也称为异常观察值。6评估方法与过程6.1可靠性评估应运用以下步骤确定人工智能算法的可靠性目标:a)场景分析:针对人工智能算法实现的功能发生算法失效从而导致软件系统产生一个危险时,需要对其所处的运行环境与运行模式进行描述,既要考虑软件系统正确使用的情况,也要考虑可预见的不正确使用的情况;b)危险分析:1)应通过多种途径开展有关人工智能算法失效的危险识别:如头脑风暴、专家评审会、质量历史记录和软件失效模式和影响分析等技术识别人工智能算法发生算法失效的危害;2)应识别危险的后果:如对环境或人员是否有伤害、需要完成的任务是否有影响等;3)危险事件应由运行场景和算法失效的相关组合确定;SZSD020002—202644)应以能在人工智能算法所在的软件系统层面观察到的输出来定义结果;c)危险严重性等级评估:针对每一个算法失效,应基于确定的理由来预估潜在危险的严重性等级。危险严重性等级的评估可以基于对多个场景的综合性考虑,同时危险严重性等级的确定应基于场景中有代表性的个体样本。危险严重性等级见表1。表1危险严重性等级危险严重性等级描述灾难级算法失效直接或间接导致人员死亡、重伤;造成重大财产损失;不可逆的严重环境破坏;引发区域性社会秩序混乱;关键基础设施瘫痪等。严重级算法失效导致人员轻伤;造成较大财产损失;对环境造成需要专业干预的损害;导致重要业务系统长时间中断或核心功能丧失,引发群体性投诉或较大社会负面影响等。一般级算法失效未造成人员伤害;但导致一定的财产损失或资源浪费;造成业务系统性能显著下降或部分非核心功能失效,引发用户投诉或一定的负面评价等。轻微级算法失效的影响非常有限;可能造成轻微的不便或可忽略的财产损失;系统功能出现非关键性偏差或性能轻微波动,可通过简单干预快速恢复,几乎无负面外部影响等。d)确定可靠性目标:根据算法失效的危险严重性等级,建立人工智能算法的可靠性目标见表2,其中可靠性目标从高到低依次分为A、B、C、D四个级别。表2人工智能算法的可靠性目标可靠性目标可靠性目标说明危险严重性等级对应说明A避免算法失效造成灾难级危险灾难级B避免算法失效造成严重级危险严重级C避免算法失效造成一般级危险一般级D避免算法失效造成轻微级危险轻微级6.2评估准则人工智能算法可靠性评估通过的准则应满足:面向算法需求阶段、设计阶段、实现阶段及运行阶段四个阶段的可靠性评估均通过。6.3评估实施方法不同可靠性目标的人工智能算法,在需求、设计、实现、运行各阶段需选取相应的评估指标,并采用具体的方法与工具实施评估。评估指标与典型实施方法的对应关系如表3所示。SZSD020002—2026表3评估指标体系与实施方法对照表评估指标主要评估内容主要适用阶段算法算法功能实现的正确性任务指标完成度、响应时间需求、设计、实现、运行代码实现的正确性代码规范性、安全漏洞实现目标函数的影响优化目标设置、拟合程度设计、实现训练数据集的影响均衡性、规模、标注质量、污染设计、实现对抗性样本的影响攻击有效性、扰动隐蔽性、模型鲁棒性实现、运行软硬件平台依赖的影响框架、OS、硬件兼容性与性能差异需求、设计、运行环境数据的影响数据分布迁移、干扰数据、野值运行6.4各阶段评估各阶段评估工作应满足:——面向人工智能算法的需求阶段、设计阶段、实现阶段、运行阶段四个阶段实施评估活动;——通过当前阶段的评估是进入下一阶段评估的前提条件之一;——四个阶段的评估活动有完整的顺序关系;——各阶段评估活动的输入、关键活动及输出要求;——各阶段可靠性评估结果均应以阶段评估报告的形式进行输出,其内容至少应包括以下内容:.人工智能算法的可靠性目标;.开展可靠性评估的阶段名称;.针对算法在该阶段开展可靠性评估工作所选择的评估指标及针对评估指标的评估结果;.该阶段的可靠性评估结果。6.4.1需求阶段的评估6.4.1.1概述人工智能算法需求阶段是通过调研和分析,理解用户和项目应用的功能、性能等具体要求,最后确定算法应实现的功能性需求、非功能性需求和应满足的设计约束的阶段。面向人工智能算法需求阶段的可掌握性评估工作,指运用可掌性分析方法,通过对算法功能实现的正确性和软硬件平台依赖的影响等进行评估,以确定算法的需求满足可靠性目标要求。6.4.1.2前提条件开展本阶段可靠性评估工作前至少应完成获取人工智能算法的可靠性目标。6.4.1.3输入SZSD020002—20266开展本阶段可靠性评估工作的输入至少应包括:——软件系统的求说明书;——系统设计规范;——软硬件接口规范;——人工智能算法的需求;——人工智能算法的功能概念,包括其目标、功能、运行模式及状态;——人工智能算法的运行条件与环境约束。6.4.1.4关键活动对应确定后的算法需求阶段的可靠性目标选取评估指标,并从以下关键活动中选取与评估指标对应的关键活动,实施评估工作:——a)对算法功能实现的正确性进行评估:.分析需求阶段设定的任务指标要求是否影响可靠性目标;.分析需求阶段设定的响应时间要求是否影响可靠性目标;——对软硬件平台依赖的影响进行评估:.分析人工智能框架差异对算法带来的影响;.分析操作系统差异对算法带来的影响;.分析硬件架构差异对算法带来的影响。6.4.1.5输出人工智能算法需求阶段的可靠性评估报告。6.4.2设计阶段的评估6.4.2.1概述人工智能算法的设计阶段是根据算法需求阶段得到的需求分析,设计出满足设计约束并能够实现任务功能性需求、非功能性需求的人工智能目标函数及相应的算法,并选取合适的训练数据集的阶段。面向人工智能算法设计阶段的可靠性评估工作,指运用分析或评审等方法,对算法功能实现的正确性、训练数据集的影响及目标函数等进行评估,以确定算法的设计满足可靠性目标要求。6.4.2.2前提条件开展本阶段可靠性评估工作前至少应完成:——人工智能算法需求阶段的可靠性目标;——人工智能算法的设计工作。6.4.2.3输入开展本阶段可靠性评估工作的输入至少应包括:——人工智能算法需求阶段的可靠性评估报告;——人工智能算法的可靠性评估目标;——人工智能算法的功能说明;——人工智能算法所在的软硬件系统的接口规范;——人工智能算法的训练数据集;——人工智能算法的设计说明。SZSD020002—20266.4.2.4关键活动对应确定后的算法可靠性目标选取评估指标,并从以下关键活动中选取与评估指标对应的关键活动实施评估工作:——对算法功能实现的正确性进行评估:.分析设计完成后任务指标要求是否满足需求阶段设定的相应要求;.分析设计完成后响应时间要求是否满足需求阶段设定的相应要求;——对训练数据集进行分析:.分析训练数据集是否存在不均衡情况;.分析训练数据集规模是否满足训练需求;.分析训练数据集标注质量是否满足训练需求;.分析训练数据集是否受到污染;——对目标函数的影响进行分析:分析优化目标数量是否满足算法需求。6.4.2.5输出人工智能算法设计阶段的可靠性评估报告。6.4.3实现阶段的评估6.4.3.1概述人工智能算法实现阶段是对算法设计阶段所设计的算法进行编程实现,包括利用数据集对人工智能算法的开展训练、测试与验证等活动。面向人工智能算法实现阶段的可靠性评估工作,指运用分析和测试等方法,对算法功能实现的正确性、代码实现的正确性、目标函数的影响及对抗性样本的影响等进行评估,以确定算法的实现满足可靠性目标要求。6.4.3.2前提条件应完成:——人工智能算法设计阶段的可靠性评估工作;——人工智能算法的实现工作。6.4.3.3输入应包括:——人工智能算法需求阶段的可靠性评估报告;——人工智能算法设计阶段的可靠性评估报告;——人工智能算法的可靠性评估目标;——人工智能算法所在的软硬件系统的接口规范;——人工智能算法的训练数据集;——人工智能算法的对抗性样本;——人工智能算法的设计说明;——人工智能算法的功能说明;——人工智能算法的源代码。6.4.3.4关键活动SZSD020002—20268应包括但不限于:——对算法功能实现的正确性进行评估:.验证算法实现后的任务指标是否达到需求阶段设定的相应要求;.验证算法实现后的响应时间是否达到需求阶段设定的相应要求;——对代码实现的正确性进行评估:.分析代码是否满足相应的编程规范或指南;.验证代码是否存在漏洞;——对目标函数的影响进行评估:分析算法的拟合程度对算法可靠性的影响;——对对抗性样本的影响进行指标分析:.分析白盒方式生成的样本对算法的影响:在已知模型内部结构、参数及训练数据的情况下,使用基于梯度的优化方法生成对抗样本进行测试。分析攻击成功率、对抗样本准确率、扰动隐蔽性、梯度敏感性等影响指标;.分析黑盒方式生成的样本对算法的影响:在未知模型内部细节,仅可通过输入-输出接口进行查询的情况下,评估模型对黑盒攻击的抵御能力。分析查询次数、迁移成功率、攻击效率等影响指标;.分析指定目标方式生成的样本对算法的影响:评估模型抵抗攻击者试图将特定输入误导至指定错误类别的攻击能力。分析目标达成度、精准度等影响指标;.分析不指定目标方式生成的样本对算法的影响:评估模型抵抗攻击者仅试图使模型产生任何错误分类(非特定类别)的攻击能力。分析错误多样性和泛化能力等影响指标。6.4.3.5输出人工智能算法实现阶段的可靠性评估报告。6.4.4运行阶段的评估6.4.4.1概述人工智能算法运行阶段是在实际应用场景下运行包含人工智能算法的软件系统的阶段。面向人工智能算法运行阶段的可靠性评估工作,指针对实际运行环境使用的数据进行分析,对算法功能实现的正确性、软硬件平台的依赖影响和环境数据的影响等进行评估,以确定算法的运行满足可靠性目标要求。6.4.4.2前提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论