2025QECon全球软件质量效能大会:NLP类AI系统鲁棒性评测挑战与实践_第1页
2025QECon全球软件质量效能大会:NLP类AI系统鲁棒性评测挑战与实践_第2页
2025QECon全球软件质量效能大会:NLP类AI系统鲁棒性评测挑战与实践_第3页
2025QECon全球软件质量效能大会:NLP类AI系统鲁棒性评测挑战与实践_第4页
2025QECon全球软件质量效能大会:NLP类AI系统鲁棒性评测挑战与实践_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NLP类Al系统鲁棒性评测挑战与实践陈永健|华为GTS平台测试总工、TSE

Leader06年加入华为ICT

BG

6级专家目前主要负责华为运营商软件数智化转型与AI云原生平台开发测试

主导参与研发ADC

Copilot、

Code

Agent、

AgentStudio等多款AI应用产品。

长期投入项目一线和TSE团队建设

,在混沌工程(高可靠性测试)

、生态兼容性测试、

自动化测试、AI大模型评测、

性能与仿真测试等领域有深入探索

,每年支撑和保障GTS全球300+运营商客户稳定运营。陈永健华为GTS平台测试总工、TSE

Leader目录CONTENTS01

AI系统鲁棒性挑战与开展背景02

鲁棒性评测定义及关键技术点03

NLP类AI系统鲁棒评测实践04

总结思考与后续计划PART

01Aı系统鲁棒性挑战与开展背景 AI系统的脆弱性一面人工智能是否可信是制约其发展的关键因素智能驾驶不能承受的脆弱Trustworthy生物医疗生产制造法律合规要求各国陆续出台AI合规法案《人工智能法案》《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》产品可信竞争力要求AI系统竞争力重要要素,鲁棒性一定程度上衡量AI能力的领先性,成为AI领域持续被重视的一环用户满意度要求AI系统满足不同角色、不同地域习惯、不同文化水平、不同技能栈等差异化用户群的体验0102

03

Aı系统鲁棒性商用诉求

什么是AI系统的鲁棒性ISO/IEC24029-2:2023人工智能(AI)神经网络鲁棒性评估RobustnessistheabilityofanAIsystemtomaintainitslevelof

performance

under

any

circumstances

。人工智能系统在任何环境下保持其性能水平的能力。ISO/IECTS5723:2022TrustworthinessRobustness

isdefinedasthe“abilityof

a

systemto

maintain

its

level

ofperformance

underavarietyofcircumstances”。

人工智能系统在各种环境下

保持其性能水平的能力。鲁棒性(Robustness)是指AI系统在面对输入数据的微小变化、扰动、噪声、异常值或对抗性攻击等干扰时,仍能保持其预期功能和性能不变或变化不大的能力。任务与场景复杂性任务•

任务复杂度:多步推理、复杂理解或生成高度创造性内容•

多轮复杂上下文交互环境•

指令/提示(Prompt)的鲁棒

性数据训练数据质量•

数据本身质量,包含噪声、

错误标签、偏见等•

数据分布漂移(Data

Drift)•

数据覆盖度不足模型基础模型能力•

模型容量与泛化能力,模型结构本身的设计(如注意力机制、残差连接等)•

参数初始化与优化器选择•

模型对扰动的敏感性

影响AI系统鲁棒性的因素in

hereTASK鲁棒Alignment鲁棒扰动设计

评测对象

评估指标DataSets、

Prompt、

Model挑战 AI系统鲁棒性评测挑战与应对OODTasksPromptBenchJailbreak(安全)Prompt鲁棒PART

02鲁棒性评测定义及关键技术点Approach

to

evaluate

Capability&Characteristics技术手段Tech.

Method测试模式库测试数据生成提示词鲁棒性

Prompt

Robustness字符级

|单词级

|句子级|

语义级图像鲁棒性

Image

Robustness高斯噪声

|泊松噪声

|椒盐噪声

…被测对象

AI系统级鲁棒性

AI

System

Robustness

AI模型级鲁棒性

Model

Robustness

Systemunder

Test

LLM模型鲁棒性多模态/CV类模型鲁棒性可靠性准确性toevaluate安全性 AI系统鲁棒性评测相关概念Adaptive:环境变化/适应所指:输入数据及环境训练数据与真实世界应用之间的自然分布差异特点:全局、系统、自然Challenge:威胁/挑战/攻击应对所指:输入数据欺骗对抗、攻防博弈、促进提升特点:局部、微小、针对恶意攻击”防“人祸价值观对齐内容合规概念关系Conceptual

Relation关注AI的通用性、泛化性

真实场景中的实用价值模型本身的一种属性、能力对抗鲁棒

Adversarial自然非恶意防“天灾”分布外鲁棒OOD鲁棒性Prompt+

DataSet字符级单词级句子级语义级高斯噪声泊松噪声椒盐噪声鲁棒性评测总体技术思路结果评估分析大模型

准确率/F1 PDR性能下降率(Performance

Drop

Rate,

PDR)对

动噪

动鲁棒性测试平台OOD分布外数据集对抗扰动算法Adversarial数据集扰动提示词扰动AI应用PromptDataSetPrompt鲁棒性测试模式库DataSets重复、删词、加句子、加减符号、形近词变换、语义变换、拼写错误

Language

Phenomenonzero-shot

few-shot

GLUE

XNLI

关键技术1:

NLP类鲁棒性测试模式库•随机挑选增加单词:querythe

numberof2GCell

in【Beijing】querythe

data

numberof2G

Cell

in【Beijing】•

随机挑选改词:querythe

numberof2GCell

in【Beijing】querythe

numberof2G

Sell

in【Beijing】•随机挑选增加词:大量【基站】退服,请定位故障详细原因大量【基站】退服,请定位故障详细原因原因•随机挑选增加字:大量【基站】退服,请定位故障详细原因大大量【基站】退服,请定位故障详细原因•

随机挑选改词:大量【基站】退服,请定位故障详细原因大量【基站】退服,请定位故障详细园因querythe

numberof2GCell

in【Beijing】querythe

numberof2GCells

in【Beijing】英文鲁棒性测试模式库中文鲁棒性测试模式库•随机挑选增加字母:

关键技术2:鲁棒性扰动

(Attack)

设计

(动态生成开源实现:

TextAttack

、OpenAttack

、TextFlint形式化方法经验方法推荐程度最常用

,推荐谨慎用

,不推荐一般推荐定义基于数据的统计分析,通过大量数据样本的统计特性评估系统鲁棒性通过数学模型

、逻辑推理或验证来证明系统在各种情境下的正确性与稳定基于人类经验、判断和测试结果的主观评估方法评估方式依赖数据集上的统计指标

(如准确率、召回率、性能下降率PDR等)进行评估使用逻辑

、证明、模型或工具来进行形式化验证通过实际操作、测试和用户反馈等主观方式进行评估优点-简单易实施-适用于大量数据分析-可量化和自动化-提供严格的理论证明-可用于确保系统在所有条件下的可靠性

--直接反映实际应用中的问题-易于理解和应用缺点-依赖大量数据,可能需要高成本-无法证明系统的普适性或理论鲁棒性-需要复杂“数学推导和工具支持一适用范围有限,可能无法应对复杂模型-高度依赖专家经验-主观性强,难以量化和标准化适用性-适用于可量化的、

强的

务-比较明确的目标和结果-

适用于需要严格验证的任务

,如安全-critical系统-适用于不容易量化或具有不确定性的任务使用阶段一般可用于测试和运行阶段测试阶段测试阶段

关键技术3:鲁棒性评估方法统计类方法

PART

03华为NLP类Aı系统鲁棒评测实践模拟键入错误示例:中英文分词

字符索引选取拼音转换

字符替换 AI

Agent鲁棒性评测实践总体架构1、构建鲁棒性模式库,建立如同义转换、模拟键入错误、模拟错别字、无关拓展、添加标点等一系列鲁棒性变异因子2、通过工程代码+LLM能力,完成用例的鲁棒性变异

鲁棒性

用户:你是一个汉语专家,

你的任务是根据非

正确的拼音生成汉

字。你将收到多个

拼音,针对每个拼

音,生成{number}

个不重复的汉字。比如,

xxxxxx转换大小写转换同义替换语法结构变换时态转换问题1:使用helloword函数,如

和获取sayhello的参数time属性?问题2:适用helloword函数,如

何获取sayhello的参数time属性?原始问题:使用helloword

类,如何获取sayhello的参数time属性?问题3:xxxx④优化辅助生成⑤鲁棒性评测结果模拟错误模拟键入错误模拟错别字…功能评测集Benchmark鲁棒性模式库②鲁棒性模式库覆盖20+语言现象扩展无关扩展添加标点…基本原理①基线评测集Prompt③工程方法评测集LLM…原子任务测评集1、AI应用很难开展白盒逻辑覆盖验证,大多数情况依赖黑盒场景覆盖,对场景业务分析的输入要求提高了2、针对AI不确定性,如何设计测试数据集评估其概率结果而不会出现统计偏差?3、AI应用输入输出随机性加大,传统软件测试基于确定性结果断言方案不适用

选择鲁棒性评测种子集Clean

DataSet概率评估NLP句式/参数模板语料分析实体:设备格式、区域时间:昨天、前3小时

…空间:深圳、广东、华南

…语义:指令型、确认型…AI应用自然语言作为输入无法穷尽,输出随机性大

准确率目标要防止统计误差AI应用测评数据集设计输入数据多样性设计

输入数据对抗设计测评数据集AI不确定性测评方案能力Memory

RAG检索

设计AI应用STA分层测试覆盖方案能力工具调用工具理解工具使用需构建多样性测试数据集测评统计概率结果测评集重复执行M次统计偏差关键挑战

鲁棒性数据集

鲁棒性

模型能力测评集主观题评分权重设计任务/功能故障诊断任务/功能根因推理任务/功能命令生成业务场景测评集业务场景故障排查任务/功能参数核查任务/功能工单转派任务/功能告警知识问答一致性NLP鲁棒性模式库鲁棒性准确性准确性数据集一致性多轮对话准确性测试数据样本量设计测试断言评判设计叠加执行次数要求基于LLM改写泛化标准评测集预期结果不变泛化评测集3

评测集标准分布•

覆盖全•

多样性•

代表性•

均衡性•

挑战性规范•

规范性•

准确性•

无冗余•

一致性•

完整性•

安全性1

输入场景树一级二级三级x%用例

1用例

2三级x%用例

i二级三级x%用例

j数据飞轮专家问答自动化标注组合覆盖规则因子库覆盖策略蜕变规则更新测评集人工抽检2

评测集自动生成基于提问范式+因子库+蜕变规则场景示例抽取Q抽取A数据回流数据回流聚合抽取生成问题生成答案提问范式答案范式4

测试执行实验室验证天罗平台现网验证因子设计蜕变规则抽取AI自动测评工具自主设计场景测评集管理测评集管理客户验收测评集导入运维巡检自动评判裁判模型升级检查回

景现网问答增广未点评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论