华为应用开发Agent自动化评测实践_第1页
华为应用开发Agent自动化评测实践_第2页
华为应用开发Agent自动化评测实践_第3页
华为应用开发Agent自动化评测实践_第4页
华为应用开发Agent自动化评测实践_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

胡应广长期致力于GTS产品线AI原生应用评估和自动化评测系统的构建,以及AI辅助研发质效CONTENTS01华为ADC应用开发平台介绍02CodeAgent评测挑战与总体思路03Agent评测标准与体验一致性优化04AI原生应用自动评测系统构建思路05总结与展望华为ADC应用开发平台介绍…•开放流程、界面、数据、大屏等多种编排能力,所智码等级LevelLevel4多轮澄清式开发进入智码时代进入智码时代,体验变革:1高码拖拉拽写代码2.不需要懂开发:从懂开发懂业务CodeAgent评测挑战与实践总体思路+用户TASK+系统功能质量属性维度业务类别/用户活动/业务目标+用户TASK+系统功能质量属性维度业务类别/用户活动/业务目标功能维、安全维、性能维、可靠性维、易用维、效率维测试集三大要素评估维度:正确性、相关性、完整性、流畅性、隐私保护、偏见性、鲁棒性评估标准(指标)评估标准(指标)开发Agent开发Agent原始需求描述知识问答三类评测对象性能效率鲁棒性一致性安全性内容合规信息安全符合伦理模型安全多次问答的相同性正确性相关性完整性流畅性稳定性性能效率鲁棒性一致性安全性内容合规信息安全符合伦理模型安全多次问答的相同性正确性相关性完整性流畅性稳定性非流式响应耗时流式响应耗时支持并发多次问答的准确性准确性可交付性可交付性规范性明确性流畅性可执行完整性相关性正确性五类评测指标评测方法与分析主观评测+主观评测+客观评测、人工评测+自动评测评测平台项目管理环境对接管理评测数据管理评测任务管理被测对象业务逻辑分析原始需求需求场景分析需求实现设计knowwhatknowhowprogramReasoningBasedOn需求描述需求分析文档ActAct触发需求设计Act需求设计文档定制场景提取ReasoningBasedOn评测标准•输入:一句话需求;输出:需求分析文档、需求设计文档•一致性:业务需求、用户需求、系统需求之间映射一致性;功被测对象业务逻辑分析前脚本(可选)4、大模型生成代码:生成内容的相关性、完整性、语法正确性、需求理解和匹配度、业务逻辑正确性、评测集构建测试集结果评估),评测集构建评测集构建维度来源1、基于语料知识库构建:语料加工/泛化的问题,效率高2、基于业务特性进行全功能点覆盖构建:功能树3、不同用户角色进行用户场景覆盖:初学者、资产开发者、资产管理员、运维人员等构建不同用户场景、不同难易程度的问题4、真实用户反馈:收集真实场景下系统表现的数据,了解用户需求和期望结果评估1)参考答案VS实际结果,语义相似度2)5分制评估,P=正确性*0.4+相关性*0.3+完整性*0.2+流畅性*0.1;P>=3.5视为准确2、关键因素:“参考答案”的制定,主客观结合Agent评测标准与体验一致性优化真实用户Good真实用户Good/BadCase输入指令因子库业务场景评估标准、评估执行(多人多轮)、版本间/模【自动化】大模型应用评测系统【自动化】业务测试系统性能基线(负载/响应时间)安全测试集(更新迭代)安全性评测基安全性评测基线可靠性评测基线用户易用性评测基线性能评测基线重复啰嗦内容混乱内容截断结果正确性逻辑正确性事实正确性多轮一致性代码实现一致性上下文一致性指令未执行规范遵从(代码)指令未执行规范遵从(代码)指令未遵从要求执行自定义规则项自定义智能分析项多模型打分多轮次协同裁判汇总打分研发版本例行抽样Benchmark集版本对比测试现网脱敏数据专项测试集趋势对比分析分层聚合高频语料问题分析月度/季度研发版本例行抽样Benchmark集版本对比测试现网脱敏数据专项测试集趋势对比分析分层聚合高频语料问题分析抽样标注全每日/每周例行分层标签计算指标监控注:现网数据获取需脱敏并征得用户授权许可AI原生应用自动评测系统构建思路……共评测集•通过文档提取QA,快速生成评测集用例。•准确性/安全性/鲁棒性/一致性/性能任务评测•Python/JS/TQL代码生成•内容生成和内容安全合规裁判模型;辅助评测集生成模型提取QA模型提取QA用例运营指标问题运营指标评分采纳率用例运营指标问题运营指标评分采纳率智慧引擎辅助设计项目管理版本管理版本管理分权分域分权分域评测报告基础服务认证鉴权负载均衡GaussDBRedisVSLLMASAJudge(辅助评估)VS模型偏好:•AI模型作为裁判打分存在自身偏好和局限,比如位置偏见、冗长偏计算出错:置信度和可演进:•JudgeLLM给出的评分可信度难以衡量、模型训练成本高演进困难AgentASAJudge(自主评估)…Agent•从历史人工标注数据中召回相似问题,用于few-shot及置•交叉验证:核心内容提取比对交叉验证,通过判定一致性明确置•低级错误拦截:完全匹配和通过算法工具拦截明确异常场景,如空内容、拒答、重•低级错误拦截->历史标注匹配->LLM主裁判打分->助理裁判打分->召回计算->置信度仲裁通过主观和客观相结合的方式进行代码生成类Agent质量评测。主观评测主要是应用裁判模型按照评测规范指标进行检查打分、客观是使用算法对比Agent生成代码和参考代码差异进行评测。TestCase评测框架-评测标准w2w3w4综合评分综合评分得分确定业务场景用户输入内容ADC代码生成Agent代码生成评测任务代码续写评测任务1.降噪处理•对参考答案和生成结果进行降噪处理,•删除代码中的注释、常量字符串、•忽略注释换行符/空行/各类特殊字符、•连续字符串、拼接纠错、命名实体抽取等。2.数据预处理•对参考答案和生成结果进行数据归一化预处理,包括:1)统一同一方法和参数名引用2)统一同一方法的同类型变量声明3.算法优化变量粒度,统计模型生成代码到参考答案的最小编辑距离(插入、删除、替换操作的次数)。•距离计算优化:对于整行代码删除操作,不区分删除的单词的数量,编辑距离计为1次;忽略对空格/空行等编辑次数;连续删除的行或单词,编辑距离计为1次。4.分值转换•相似度取值[0,1],转换为5分制使用LLMASAJudge来评估CodeAgent在各种场景下的表现,用来弥补各种基准测试以及基于规则算法的测试不足问题场景问题场景 场景划分=+ + 汇总报告:汇总报告:•输出代码结构正确性,是否遵从Prompt输出格式要求等;•API及API参数选择正确性;•生成代码是否能够解决用户问题,代码逻辑是否正确;•推理过程是否正确:逻辑是否正确,是否有错误、是否有冗余推理信息等。提高裁判智能体评估效果的方法:•测评集的参考答案标注质量;•少样本示例:提供样例帮助裁判模型更好的推理;•慢思考:要求模型给出评分的推理过程,帮助优化改进。业业务类别/用户活动/业务目标性、一致性、易用性业务场景驱动:•价值/业务场景•业务流程/用户活动+质量属性维度线上数据回流:网上数据采集、数据提取、筛选1、标准:用户视角、用户体验2、规模:效果、效率、成本3、管理:权限管理、版本管理场景因子发布评估线上发布测试集测试数据集加标点/语气/副词理理评测集1评测集2评测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论