版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
NLP类Al系统鲁棒性评测挑战与实践陈永健|华为GTS平台测试总工、TSE
Leader06年加入华为ICT
BG
,
6级专家目前主要负责华为运营商软件数智化转型与AI云原生平台开发测试
,
主导参与研发ADC
Copilot、
Code
Agent、
AgentStudio等多款AI应用产品。
长期投入项目一线和TSE团队建设
,在混沌工程(高可靠性测试)
、生态兼容性测试、
自动化测试、AI大模型评测、
性能与仿真测试等领域有深入探索
,每年支撑和保障GTS全球300+运营商客户稳定运营。陈永健华为GTS平台测试总工、TSE
Leader目录CONTENTS01
AI系统鲁棒性挑战与开展背景02
鲁棒性评测定义及关键技术点03
NLP类AI系统鲁棒评测实践04
总结思考与后续计划PART
01Aı系统鲁棒性挑战与开展背景 AI系统的脆弱性一面人工智能是否可信是制约其发展的关键因素智能驾驶不能承受的脆弱Trustworthy生物医疗生产制造法律合规要求各国陆续出台AI合规法案《人工智能法案》《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》产品可信竞争力要求AI系统竞争力重要要素,鲁棒性一定程度上衡量AI能力的领先性,成为AI领域持续被重视的一环用户满意度要求AI系统满足不同角色、不同地域习惯、不同文化水平、不同技能栈等差异化用户群的体验0102
03
Aı系统鲁棒性商用诉求
什么是AI系统的鲁棒性ISO/IEC24029-2:2023人工智能(AI)神经网络鲁棒性评估RobustnessistheabilityofanAIsystemtomaintainitslevelof
performance
under
any
circumstances
。人工智能系统在任何环境下保持其性能水平的能力。ISO/IECTS5723:2022TrustworthinessRobustness
isdefinedasthe“abilityof
a
systemto
maintain
its
level
ofperformance
underavarietyofcircumstances”。
人工智能系统在各种环境下
保持其性能水平的能力。鲁棒性(Robustness)是指AI系统在面对输入数据的微小变化、扰动、噪声、异常值或对抗性攻击等干扰时,仍能保持其预期功能和性能不变或变化不大的能力。任务与场景复杂性任务•
任务复杂度:多步推理、复杂理解或生成高度创造性内容•
多轮复杂上下文交互环境•
指令/提示(Prompt)的鲁棒
性数据训练数据质量•
数据本身质量,包含噪声、
错误标签、偏见等•
数据分布漂移(Data
Drift)•
数据覆盖度不足模型基础模型能力•
模型容量与泛化能力,模型结构本身的设计(如注意力机制、残差连接等)•
参数初始化与优化器选择•
模型对扰动的敏感性
影响AI系统鲁棒性的因素in
hereTASK鲁棒Alignment鲁棒扰动设计
评测对象
评估指标DataSets、
Prompt、
Model挑战 AI系统鲁棒性评测挑战与应对OODTasksPromptBenchJailbreak(安全)Prompt鲁棒PART
02鲁棒性评测定义及关键技术点Approach
to
evaluate
Capability&Characteristics技术手段Tech.
Method测试模式库测试数据生成提示词鲁棒性
Prompt
Robustness字符级
|单词级
|句子级|
语义级图像鲁棒性
Image
Robustness高斯噪声
|泊松噪声
|椒盐噪声
…被测对象
AI系统级鲁棒性
AI
System
Robustness
AI模型级鲁棒性
Model
Robustness
Systemunder
Test
LLM模型鲁棒性多模态/CV类模型鲁棒性可靠性准确性toevaluate安全性 AI系统鲁棒性评测相关概念Adaptive:环境变化/适应所指:输入数据及环境训练数据与真实世界应用之间的自然分布差异特点:全局、系统、自然Challenge:威胁/挑战/攻击应对所指:输入数据欺骗对抗、攻防博弈、促进提升特点:局部、微小、针对恶意攻击”防“人祸价值观对齐内容合规概念关系Conceptual
Relation关注AI的通用性、泛化性
真实场景中的实用价值模型本身的一种属性、能力对抗鲁棒
Adversarial自然非恶意防“天灾”分布外鲁棒OOD鲁棒性Prompt+
DataSet字符级单词级句子级语义级高斯噪声泊松噪声椒盐噪声鲁棒性评测总体技术思路结果评估分析大模型
准确率/F1 PDR性能下降率(Performance
Drop
Rate,
PDR)对
抗
扰
动噪
声
扰
动鲁棒性测试平台OOD分布外数据集对抗扰动算法Adversarial数据集扰动提示词扰动AI应用PromptDataSetPrompt鲁棒性测试模式库DataSets重复、删词、加句子、加减符号、形近词变换、语义变换、拼写错误
Language
Phenomenonzero-shot
few-shot
GLUE
XNLI
关键技术1:
NLP类鲁棒性测试模式库•随机挑选增加单词:querythe
numberof2GCell
in【Beijing】querythe
data
numberof2G
Cell
in【Beijing】•
随机挑选改词:querythe
numberof2GCell
in【Beijing】querythe
numberof2G
Sell
in【Beijing】•随机挑选增加词:大量【基站】退服,请定位故障详细原因大量【基站】退服,请定位故障详细原因原因•随机挑选增加字:大量【基站】退服,请定位故障详细原因大大量【基站】退服,请定位故障详细原因•
随机挑选改词:大量【基站】退服,请定位故障详细原因大量【基站】退服,请定位故障详细园因querythe
numberof2GCell
in【Beijing】querythe
numberof2GCells
in【Beijing】英文鲁棒性测试模式库中文鲁棒性测试模式库•随机挑选增加字母:
关键技术2:鲁棒性扰动
(Attack)
设计
(动态生成开源实现:
TextAttack
、OpenAttack
、TextFlint形式化方法经验方法推荐程度最常用
,推荐谨慎用
,不推荐一般推荐定义基于数据的统计分析,通过大量数据样本的统计特性评估系统鲁棒性通过数学模型
、逻辑推理或验证来证明系统在各种情境下的正确性与稳定基于人类经验、判断和测试结果的主观评估方法评估方式依赖数据集上的统计指标
(如准确率、召回率、性能下降率PDR等)进行评估使用逻辑
、证明、模型或工具来进行形式化验证通过实际操作、测试和用户反馈等主观方式进行评估优点-简单易实施-适用于大量数据分析-可量化和自动化-提供严格的理论证明-可用于确保系统在所有条件下的可靠性
--直接反映实际应用中的问题-易于理解和应用缺点-依赖大量数据,可能需要高成本-无法证明系统的普适性或理论鲁棒性-需要复杂“数学推导和工具支持一适用范围有限,可能无法应对复杂模型-高度依赖专家经验-主观性强,难以量化和标准化适用性-适用于可量化的、
统
计
性
强的
任
务-比较明确的目标和结果-
适用于需要严格验证的任务
,如安全-critical系统-适用于不容易量化或具有不确定性的任务使用阶段一般可用于测试和运行阶段测试阶段测试阶段
关键技术3:鲁棒性评估方法统计类方法
PART
03华为NLP类Aı系统鲁棒评测实践模拟键入错误示例:中英文分词
字符索引选取拼音转换
字符替换 AI
Agent鲁棒性评测实践总体架构1、构建鲁棒性模式库,建立如同义转换、模拟键入错误、模拟错别字、无关拓展、添加标点等一系列鲁棒性变异因子2、通过工程代码+LLM能力,完成用例的鲁棒性变异
鲁棒性
用户:你是一个汉语专家,
你的任务是根据非
正确的拼音生成汉
字。你将收到多个
拼音,针对每个拼
音,生成{number}
个不重复的汉字。比如,
xxxxxx转换大小写转换同义替换语法结构变换时态转换问题1:使用helloword函数,如
和获取sayhello的参数time属性?问题2:适用helloword函数,如
何获取sayhello的参数time属性?原始问题:使用helloword
类,如何获取sayhello的参数time属性?问题3:xxxx④优化辅助生成⑤鲁棒性评测结果模拟错误模拟键入错误模拟错别字…功能评测集Benchmark鲁棒性模式库②鲁棒性模式库覆盖20+语言现象扩展无关扩展添加标点…基本原理①基线评测集Prompt③工程方法评测集LLM…原子任务测评集1、AI应用很难开展白盒逻辑覆盖验证,大多数情况依赖黑盒场景覆盖,对场景业务分析的输入要求提高了2、针对AI不确定性,如何设计测试数据集评估其概率结果而不会出现统计偏差?3、AI应用输入输出随机性加大,传统软件测试基于确定性结果断言方案不适用
选择鲁棒性评测种子集Clean
DataSet概率评估NLP句式/参数模板语料分析实体:设备格式、区域时间:昨天、前3小时
…空间:深圳、广东、华南
…语义:指令型、确认型…AI应用自然语言作为输入无法穷尽,输出随机性大
准确率目标要防止统计误差AI应用测评数据集设计输入数据多样性设计
输入数据对抗设计测评数据集AI不确定性测评方案能力Memory
RAG检索
设计AI应用STA分层测试覆盖方案能力工具调用工具理解工具使用需构建多样性测试数据集测评统计概率结果测评集重复执行M次统计偏差关键挑战
鲁棒性数据集
鲁棒性
模型能力测评集主观题评分权重设计任务/功能故障诊断任务/功能根因推理任务/功能命令生成业务场景测评集业务场景故障排查任务/功能参数核查任务/功能工单转派任务/功能告警知识问答一致性NLP鲁棒性模式库鲁棒性准确性准确性数据集一致性多轮对话准确性测试数据样本量设计测试断言评判设计叠加执行次数要求基于LLM改写泛化标准评测集预期结果不变泛化评测集3
评测集标准分布•
覆盖全•
多样性•
代表性•
均衡性•
挑战性规范•
规范性•
准确性•
无冗余•
一致性•
完整性•
安全性1
输入场景树一级二级三级x%用例
1用例
2三级x%用例
i二级三级x%用例
j数据飞轮专家问答自动化标注组合覆盖规则因子库覆盖策略蜕变规则更新测评集人工抽检2
评测集自动生成基于提问范式+因子库+蜕变规则场景示例抽取Q抽取A数据回流数据回流聚合抽取生成问题生成答案提问范式答案范式4
测试执行实验室验证天罗平台现网验证因子设计蜕变规则抽取AI自动测评工具自主设计场景测评集管理测评集管理客户验收测评集导入运维巡检自动评判裁判模型升级检查回
流
场
景现网问答增广未点评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026贵州安顺市黄果树镇人民政府招聘公益性岗位1人备考题库及答案详解(典优)
- 莆田市民族宗教工作制度
- 街道企业服务办工作制度
- 生态补偿标准核算方法创新课题申报书
- 环境内分泌干扰物替代效应研究课题申报书
- 随迁子女就学成本分担研究课题申报书
- 教育资源配置与随迁子女入学课题申报书
- 重庆银行校招试题及答案
- 2026年焦作市九年级中考一模历史试卷及答案
- 2026年网络工程自荐考试试题及答案
- DB31/T 5000-2012住宅装饰装修服务规范
- 钢结构预拼装方案及标准
- (高清版)DG∕TJ 08-202-2020 钻孔灌注桩施工标准
- 传染病院感防控课件
- 起重设备维护培训
- Unit 7 Happy New Year Part B(教学设计)-2024-2025学年接力版(2024)英语三年级上册
- 医院感染与病原微生物基因测序
- 某爱琴海购物中心开业预热推广方案
- 公路工程标准施工招标文件(2018年版)
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
- 10-RCU5000i遥控器手册完整
评论
0/150
提交评论