版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华为应用开发Agent自动化评测实践胡应广|华为华为ICT软件测试工程与自动化五级专家,
10年以上云原生软件测试开发相关工作经验,长期致力于GTS产品线AI原生应用评估和自动化评测系统的构建
,以及AI辅助研发质效提升项目探索与实践。胡应广华为GTSAI原生应用评估专家目录CONTENTS04
AI原生应用自动评测系统构建思路03
Agent评测标准与体验一致性优化02
CodeAgent评测挑战与总体思路01
华为ADC应用开发平台介绍05
总结与展望PART
01华为ADC应用开发平台介绍ADC一体化编排应用开发平台低门槛、高效率•
支持以图形化、拖拉拽的方式构造应用服务•开放流程、界面、数据、大屏等多种编排能力,所见即所得安全可信•
提供APP质量评估系统,保障APP高质量交付•
提供端到端可信工具链,轻松构建可信APP资产生态开放•
支持多协议、多引擎,随心构建、极速集成扩展•
API集成图形编排,集成资产全面复用共享支撑多场景基于低码编排快速实现业务应用ADC(AgentDevelopmentCenter)是一个面向业务开发者低代码、安全可信的全场景开发平台,具备完整的资产生命周期管理工具链,提供以业务资产为核心的高效复用的新开发模式。 从低码到智码,华为ADC应用开发平台企业场景生态伙伴低码开发应用网络集成5G行业应用智慧运营智能运维… 从低码到智码,ADC业务开发者低码开发痛点学习资料多,高能耗集中开发者求助开销大Next智能推荐输入简单运行即应用需求即应用多模态设计即开发多轮澄清式开发自然语言开发3
智码不懂开发CUI/LUI进入智码时代,体验变革:1.输入更简单:从代码自然语言多模态 华为ADCCodeAgent智能化演进之路高度智能化限定的场景下,不需开发者有条件智能化以智能开发为主,人工做必要的辅助场景级智能辅助跨元素智能辅助,仍以人工开发为主Level
1L5Level
4Level
3Level
22
低码1
高码
拖拉拽写代码
2.
不需要懂开发:从懂开发
懂业务完全智能化全部不需开发者,自动完成开发Level
0智能辅助单一开发元素的智能辅助无智能化低码拖拉拽,无智能化智码等级now当前目标0码PART
02CodeAgent评测挑战与实践总体思路评测成本高•人工评测成本高、耗时长、难以规模化•评估结果容易受测试人员主观偏见的影响;•
自动化评测实现难度大;•不同版本和模型对比评估。评测集构建困难•测试集应覆盖的范围和边界不明确;•测试集输入输出质量,理想态GroundTruth构建困难;•测试集规模和完备性如何界定和评估。评估标准定义难•通用评估基准(如CLUE),领域Agent不适用;•评估指标如何量化,如何与用户体验对齐;•评估标准如何保证可执行性,并进一步实现自动化。 CodeAgent评测面临的挑战相较于传统软件,AI原生应用的行为和输出是非确定性和概率性的,而且其故障模式往往无法通过修改特定代码来修复,所以要做好AI智能体的评估对于测试来说挑战非常大。02
0301 CodeAgent测评分层E2E全景ADCCodeAgentE2E商用发布评测L2模型领域模型过程评测02
领域业务测评集04
测评自动化01
训练语料测评03
测评标准02
选型测评集04
选型评估报告L0/L1模型基础模型选型01模型入围03
测评标准01
测评与问题提单02
测评问题定级03问题关闭标准04
发布标准业务类别/用户活动/业务目标功能维、安全维、性能维、可靠性维、易用维、效率维
测试集三大要素评估维度:正确性、相关性、完整性、流畅性、隐私保护、偏见性、鲁棒性
CodeAgent评测试集构建总体思路以业务能力评测为主,兼顾评测通用能力对业务能力的基础影响,同时具备快速开展全量评估能力(自动化)应对不同版本不同模型下测试结果对比。测试集参考架构•用户TASK•
质量属性维度•评估标准(内/外在)业务场景驱动•业务场景/价值流•业务目标•业务流程/用户活动
输入
支撑业务场景(用户视角)用户TASK+系统功能评估标准(指标)质量属性维度可交付性规范性上下
文
一
致
性明确性流畅性可执行完整
性相关性正确
性五类
评
测
指
标开发Agent评测系统AI4ModelAI4Flow&ServiceAI4UI评测平台项目管理环境对接管理评测数据管理评测任务管理模型结果人工复核问题看板评测报告评测方法与分析说明:跟随系统能力、用户反馈不断调优,拟合用户感受 CodeAgent智码整体评测框架主观评测
+客观评测、人工评测
+
自动评测需求分析&设计Agent搜读&问答Agent业务场景故障管理告警派单油机管理准确性多次问答的准确性多次问答的相同性理论支撑
鲁棒性非流式响应耗时模型安全流式响应耗时支持并发稳定性完整性符合伦理相关性信息安全内容合规正确
性流畅性性能效率安全性OBP指标分析权重合理性分析现网数据分析自动化分析***一致性体验评测基础评测扩展评测对比评测三类
评
测
对
象变更管理***知识问答产品文档************原始需求描述***************技术支撑*********自然语言建模*********************自然语言生成流程框架******Python函数服务辅助***************生成大屏图表*********************AI4Script知识召回Prompt装填Act
需求设计文档定制场景提取
上下文召回定制点实现描述Reasoning
Based
OnLLM局点信息提取场景提取
需求Case拆分需求描述
需求分析文档ActAct知识召回
Prompt装填需求场景分析需求实现设计产品knowwhat
know
how
programLLMReasoning
Based
On触发需求设计SE需求分析Agent
需求设计Agent开发Agent_
___
__SA需求设计Agent需求分析Agent原始需求
输入输出•输入:一句话需求;输出:需求分析文档、需求设计文档
评测标准1、文档规范:内在评估•语法正确性:没有基础语法问题,没有错别字、拼写错误等•文档可读性:文档结构层次清晰,语言表达通俗易懂,用词精准,图表紧密合,无长篇
大论的文字描述。•格式规范性:使用正确的模板,包括文档命名、封面、目录、页眉页脚等2、内容质量:外在评估•完整性:需求文档内容关键元素完整,场景覆盖完整,功能/非功能需求表述完整•明确性:无歧义表述,避免使用“可能”“尽量”等模糊词汇;需求分析过程按照逻辑
顺序组织;指标量化,对异常场景处理有明确方案;专业术语有明确定义•一致性:业务需求、用户需求、系统需求之间映射一致性;功能与非功能之间各条目相
互支持,不存在逻辑上的矛盾;文档中使用的术语和定义保持一致性。3、可交付性:外在评估•技术可行性:需求设计方案具备可落地性,包括时间、成本等•可验证性:有明确验收标准,包括量化性能指标、功能边界、系统规格约束 需求分析/设计Agent被测对象分析与评测标准
被测对象业务逻辑分析
评测标准根据自然语言,调用大模型做步骤拆解、信息提取,从向量库匹配私域知识,动态构建Prompt,然后调用大模型生成代码,最后通过adc-studio-xxx进行代码语法检查、纠错等后处理。关键要素:1、输入内容:自然语言2、Prompt:动态构建3、向量库检索:检索私域知识的相关性、正确性4、大模型生成代码:生成内容的相关性、完整性、语法正确性、需求理解和匹配度、业务逻辑正确性、安全性5、adc-studio-xxx:后处理后的代码语法正确、可执行、执行效率等
测试集1、输入内容:自然语言2、功能特性:平台提供的API、SDK接口全覆
盖代码片段生成;3、业务场景:设备管理、告警派单、费用报销、请假流程、考勤系统等的服务JS、页面JS等代码生成场景(来源:业务资产包)4、真实用户反馈:收集真实场景下系统表现的数据,了解用户需求和期望
结果评估1、评估方式:•代码静态检查(需求、逻辑、合规),P=需求*0.5+逻辑*0.3
+合规*0.2•代码可执行:基于任务pass@kk=10;通
过率
=通过的用例数/K*用例数2、扩展评估:结构清晰可读、代码注释、执行
效率3、关键因素:可执行性评估,依赖代码上下文补齐
+代码可执行性评估框架(目前不具备) 开发Agent-领域代码脚本生成与测评集构建代码库步骤拆解后处理输出(代码检查、格式校验)动态构建promptLLM生成代码上下文前处理用户Task+当前脚本(可选)
被测对象业务逻辑分析私域知识匹配
评测集构建代码知识问答:1、语料入库2、多路召回
:IRQA知识检索、向量库语料检索3、大模型处理输出关键要素:1、语料质量:不同来源质量差异大(产品文档、开发者社区等)2、语料清洗:清洗后的准确性(是否包含敏感信息)3、输入内容:
自然语言4、语料检索:chunk分块、向量化
,召回后知识的上下文相关性5、大模型汇总输出结果:相关性、正确性、流畅性6、最终用户界面结果展示:样式、引文、推荐问题等
评测集构建维度来源1、基于语料知识库构建:语料加工/泛化的问题,效率高2、基于业务特性进行全功能点覆盖构建:
功能树3、不同用户角色进行用户场景覆盖:初学者、资产开发者、资产管理员、运维人员等构建不同用户场景、不同难易程度的问题4、真实用户反馈:
收集真实场景下系统表现的数据,了解用户需求和期望
结果评估1、评估方式:1)参考答案VS实际结果,语义相似度2)
5分制评估,
P=正确性*0.4+相关性*0.3+完整性*0.2+流畅性*0.1
;
P>=3.5视为准确2、关键因素:
“参考答案”的制定,
主客观结合 搜读&问答Agent测评集与评测标准
被测对象业务逻辑分析
评测集构建PART
03Agent评测标准与体验一致性优化真实用户Good/Bad
Case输入指令因子库业务场景打分
+评估评估标准、评估执行(多人多轮)、版本间/模型间对比【自动化】大模型应用评测系统
【自动化】业务测试系统ADCCodeAgent评测资产库性能基线(负载/响应时间)
安全测试集稳定性
鲁棒性用户分析结果评估测试效率提升功能测试集测试数据构建(更新迭代)用户交互体验好的评测标准是评测结果与用户体验一致构建完善构建中持续构建优化评测能力与指标项智能对比分析正确性判定遵从性判定自定义检测通顺性检测一致性判定 好的评测标准是评测结果与用户体验一致安全性
评
测基线性
能
评
测基线统
一
评
测
指
标
与
服
务可
靠
性
评
测基线用
户
易
用
性
评
测基线自定义智能分析项自定义规则项指令未遵从要求执行内容混乱逻辑正确性代码实现一致性裁判汇总打分规范遵从(代码)内容截断事实正确性上下文一致性多模型打分指令未执行重复啰嗦多轮次协同结果正确性多轮一致性全量(可选)每日/每周例行分层聚合分层标签计算指标监控 现网用户侧反馈数据分析,建立测评标准飞轮版本对比测试Benchmark集专项测试集高频语料问题分析抽样趋势对比分析标注注:现网数据获取需脱敏并征得用户授权许可研发版本例行现网脱敏数据月度/季度抽样PART
04Aı原生应用自动评测系统构建思路u
评测集管理:•
项目测试数据隔离•
通用/安全评测集资产共建共享,平台已沉淀3W+公
共评测集u
辅助测试设计:•
通过关键字组合快速生成评测集用例。•通过文档提取QA,快速生成评测集用例。•
通过改写泛化&扰动因子,快速泛化鲁棒性评测集。u
评测任务:•
准确性/安全性/鲁棒性/一致性/性能任务评测u
裁判评分模型:
LLM/Agent-AS-A-Judge•
知识问答裁判模型(正确性+相关性+完整性)
;•Python/JS/TQL代码生成、解释、检视裁判模型;•内容生成和内容安全合规裁判模型;u
问题标注:•
AgentJudge仲裁算法自动标注打分可信度•
支持人工标注结果,自动继承人工评价•
标注结果可作为负向反馈持续迭代优化评分模型u
评测报告:•
版本级报告导出•
任务级报告导出•
历史版本报告比对导出评测集管理运营看板基础服务
认证鉴权
负载均衡
GaussDBRedis
项目管理项目管理版本管理分权分域 构建快速响应的全自动评测系统智慧引擎辅助设计LLM-AS-A-Judge裁判智能体评测任务管理环境管理辅助评测集生成评测报告通用评测报告安全评测报告历史报告比对问题看板自动标注人工标注DTS提单企业场景生态伙伴低码开发应用5G行业应用智慧运营网络集成智能运维关键字组合泛化模型改写泛化AI原生应用评测系统…评分采纳率用例运营指标问题运营指标模型提取QA公开审批流程项目评测集自定义字段GTS
Bench业务场景应用鲁棒性任务一致性任务定制接入性能任务自定义接入准确性任务安全性任务标准接入领域测评集安全测评集通用测评集缺点幻觉问题:•LLM理解评分标准时存在偏差或有时会混淆参考答案和被评估模型输出模型偏好:•AI模型作为裁判打分存在自身偏好和局限,比如位置偏见、冗长偏见、情绪语气偏见、评分粒度影响等计算出错:•
多维度打分公式计算得分时,偶尔出算错影响置信度和可演进:•JudgeLLM给出的评分可信度难以衡量、模型训练成本高演进困难记忆:•从历史人工标注数据中召回相似问题,用于few-shot及置信度评估规划:•慢思考:由JudgeLLM提示工程CoT思维链,转为LLM慢思考推理模式•反思:增加评估反思环节,逐步审核评分过程,进一步明确置信度•交叉验证:核心内容提取比对交叉验证,通过判定一致性明确置信度工具使用:•低级错误拦截:完全匹配和通过算法工具拦截明确异常场景,如空内容、拒答、重复
…•
历史人工标注匹配:高相似度评估结果召回继承•
置信度仲裁:置信度仲裁算法评估流程:•低级错误拦截->历史标注匹配->LLM主裁判打分->助理裁判打分->召回计算->置信度仲裁计算器日期查询工具使用算法规则…记忆Agent行动反思自我评价思维链慢思考长期记忆短期记忆规划JudgeLLM
评估结果SFTDPORL输入问题+参考答案被评估模型输出提示工程评估标准/评分指南
关键技术点:裁判智能体(AgentASAJudge)Agent
AS
A
Judge
(自主评估)LLMASAJudge(辅助评估)VSPython代码RhinoJS代码PC/J大屏S代码技术问答文本TestCase
评测框架-评测标准技术问答评测任务裁判智能体相关性
完整性
流畅性w2w3
w4综合评分代码多指标(编程规范/编译类/语法)扣分规则裁判模型主观评测w2综合评分得分基于代码生成价值的RoES量化评测算法w1确定业务场景用户输入内容
ADC代码生成Agent代码生成评测任务代码续写评测任务P
=
RoES*w1
+裁判智能体打分*w2–代码规范扣分正确性w1 关键技术点:开发Agent-领域代码脚本生成评测通过主观和客观相结合的方式进行代码生成类Agent质量评测。主观评测主要是应用裁判模型按照评测规范指标进行检查打分、客观评测是使用算法对比Agent生成代码和参考代码差异进行评测。参考答案降噪处理模型生成输入数据预处理分制转换
加权求和输出Rouge-L优化ES的动态规划编辑距离&相似度召回率3.算法优化•
词粒度:
Levenshtein
Distance算法采用的是字符粒度计算编辑距离,优化为单词/变量粒度,统计模型生成代码到参考答案的最小编辑距离(插入、删除、替换操作的次数)。•
距离计算优化:对于整行代码删除操作,不区分删除的单词的数量,
编辑距离计为1次;忽略对空格/空行等编辑次数;连续删除的行或单词,编辑距离计为1次。4.分值转换•相似度取值[0,
1]
,转换为5分制•Score
=
(f
(Rouge-L)
*
w1
+
f
(ES)
*
w2)
*
5 关键技术点:基于代码生成价值的量化评测算法(RoES)RoES(Rouge-LAnd
EditeSimilarity)是在ROUGE-L算法和Levenshtein
Distance算法基础上的自定义算法。1.
降噪处理•
对参考答案和生成结果进行降噪处理,•
删除代码中的注释、常量字符串、•
忽略注释换行符/空行/各类特殊字符、•连续字符串、拼接纠错、命名实体抽取等。2.数据预处理•
对参考答案和生成结果进行数据归一化预处理,包括:
1)统一同一方法和参数名引用2)统一同一方法的同类型变量声明 关键技术点:基于大模型代码生成评测Agent使用LLMAS
A
Judge来评估CodeAgent在各种场景下的表现,用来弥补各种基准测试以及基于规则算法的测试不足,同时也可以作为一种接近人类偏好的评价指标;相比人工评测更高效、更稳定,且具备可扩展性、可解释性。
评测标准:•
输出代码结构正确性,是否遵从Prompt输出格式要求等;•
API及API参数选择正确性;•
生成代码是否能够解决用户问题,代码逻辑是否正确;•
推理过程是否正确:逻辑是否正确,
是否有错误、是否有冗余推理信息等。分场景的评测标准+
场景划分
=
问题场景
+
提高裁判智能体评估效果的方法:•
测评集的参考答案标注质量;•
少样本示例:提供样例帮助裁判模型更好的推理;•
慢思考:
要求模型给出评分的推理过程,帮助优化改进。裁判模型汇总报告:•Pass、Fail的问答对汇总•不同场景下评估的准确率输出:•评估过程/依据•评分置信度•
总得分(0-5分)问答对人工复核测试集泛化流程种子测试集业务相关术语/保留字异常输入加标点/语气/副词语义混淆错别字/同意词有效性评估泛化的测试集
种子测试集选取:在准确性评测集通过聚类后选取10%用例作为泛化用例生成种子
输入扰动因子库:异常输入、语言风格、语义混淆、多模态输入、术语等
变异泛化:拓展、转换、模拟、替换等改写泛化方式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桩基沉降预测与控制方案
- 2026年多维度分析机械图纸
- 2026年利用Python实现邮件自动回复系统
- 2026年桥梁抗震评估中的多因素影响分析
- 2026年来安县公开招聘2名政府购买服务工作人员备考题库及答案详解(名校卷)
- 2026年数字构架下的自动化测试策略
- 2026四川省八一康复中心招聘工作人员(编制外)7人备考题库附参考答案详解(满分必刷)
- 2026广东广州南沙人力资源发展有限公司现向社会招聘编外人员备考题库及参考答案详解(夺分金卷)
- 2026年智能制造的工业互联网生态体系构建
- 2026中国社会科学调查中心招聘1名劳动合同制工作人员备考题库含答案详解(综合题)
- 2026年安徽皖北协作区第28届高三语文联考作文题目解析及范文:看见与想象
- 八年级下册道德与法治核心考点深度解析与议题式教学实施精要
- 2026年统编版小学二年级道德与法治下册(全册)课时练习及答案(附教材目录)
- 销售办事处考勤制度
- 《希腊城邦和亚历山大帝国》历史教学课件
- 纳滤膜行业分析报告
- 护工管理员考核制度
- 2026湖北武汉理工大学心理健康教育专职教师招聘2人备考题库及1套参考答案详解
- 2026年消防工作计划及重点整治工作
- 2025年提前招生社会工作笔试题及答案
- 门式脚手架施工技术规范
评论
0/150
提交评论