版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向行业智能体评测的高质量数据合成技术范雨欣|蚂蚁集团行业技术团队算法工程师全球软件质量&效能大会蚂蚁集团行业技术团队算法工程师,负责行业智能体评测工作。主要研究方向为合成数据与数据质量,致力于为智能体构造全流程提供海量多样化高质量数据支撑。全球软件质量&效能大会增长增长>100%GrowthinDevelopeAlPerformance=ISurpassedHumanLevelsofAccuracy&Realism,perChadtGPTAIUSser+Subscriber+RevenueGrowthRa+21%AnnualGrowthOverTe可量化地跟踪领域进展BrowuingEQ\*jc3\*hps9\o\al(\s\up2(D),C)EQ\*jc3\*hps9\o\al(\s\up2(i),r)EQ\*jc3\*hps9\o\al(\s\up2(ta),d)多个模型之间的对比Kaoyan行业作为支付宝的业务先锋,积极与外部机构深度合作,在政务民生、出行酒旅、物流行业为用户提供智能化的服务。Al访谈、智能简历…评测方法演进路径1.业务初期:关注问题解决和快速迭代问题导向2.业务成熟期:需要系统化评估和横向对比系统化评估标准化标准化量化指标成熟期优势问题导向深度分析初期阶段优势高质量语料数据质量决定信度!模型训练评测流程行业评测集推理任务标注归因评测报告考题数据质量评估标注归因自动化指标计算评测能力合成算子数据质量评估模型标注归因人工标注归因指标算子考纲考纲标注标准、评测标准行业benchmark高质量数据为何重要评测机制评测机制核心逻辑高质量数据准确评估能力可信评测结果产品成功落地▽▽若数据低质量的后果链条:低质量数据→误判模型能力→评测结果失真→产品上线失败评测数据面临的挑战×两种传统路1.人工编写→效率2.线上回流→数据构建"像真的一样"的合成数据合成数据=算法生成+真实感模拟+可控构造不是“假数据”,而是"高仿真的虚拟数据”●就业Al:合成"精通Python+有教师经验+兼职"等罕见复合求职需求获取成本高低(自动化)隐私合规风险高极低受限更新速度慢快不稳定高(可控)·Gartner预测:到2028年,合成数据预计将占人工智能数据的80%,相比2024年的20%有显著提升·槽位填充(如城市、时间)“订{城市的酒店”“查询{日期的航班”·生成更自然的表达·尝试构建用户模拟器·生成质量不稳定·缺乏上下文理解特点:统计学习+模式识别LLMLLM驱动时代·语义自然、多样性强·支持多轮对话与复杂意图·可控生成+自动校验机制·支持风格、角色、场景定制优势:无版本控制与追溯无版本控制与追溯·无法关联"数据版本⇔模型版本"·数据回溯困难,影响归因分析×挑战三·生成数据冗余高、逻辑错误·生成数据冗余高、逻辑错误而是一个可工程落地的合成数据框架:Python/YAML初始数据集Pipeline调度器最终数据集生成模型生成模型标注器(标注器(Labeller)支持自定义复杂支持自定义复杂Pipeline灵活组合/自定义Step组件提供个性化能力推荐简单模板流程开箱即用,快速上手内置最佳实践模板支持团队协作与规模化生产自动化质量评估体系组件化Step设计可追溯全链路版本与血缘管理缓存机制+错误恢复+中间结果保存+断点续传挑战:通用框架≠个性化输出血政务助手·政务热点驱动·政策覆盖全面出行助手旅游诉求多样时间逻辑复杂多轮对话表达用户常分步表达需求(如先问航班再订酒店)1.如何设计Step,让它适应复杂场景?2.如何定义高质量,并自动保障它?step模板库设计:个性化合成三阶闭环r关键能力:关键能力:关键能力:从无到有能力沉淀为可复用组件(每个step的数据结构统一)支持用户开发自定义Step,接入私有模型或业务逻辑数据生成场景1:评测数据您想找一个什么样的工作呢?Role1:你是一个18岁刚毕业的大专生,你期望找一个餐厅服务员的工作……Role2:你是一个46岁的宝妈,你打算重返服务员职场……场景:多模态交互(Multi-model)就业助手电话语音即时沟通我想找餐饮服务员工作。您比较擅长什么工作呢?我擅长点单和收银,很勤快……turn_1”{我的就业意向是我决定报名!……·输入:基础特征+提示词●输入:枚举维度+枚举值为就业Al生成高质量评测Query提供真实、可信的用户画像输入,避免逻辑冲突(如"54岁应届生”、“高中学历要求CEO职位"等不合理组合)O景点推荐rrquery→理解→规划→抽参→执行→label怎么样,推荐适合去的景点”③执行调用④参数抽取输出成果输出成果生成Query-Label配对的训练数据,支持智能体学习多步推理和工具使用能力词频去重词频去重字面匹配·高效精准·核心思想:“词都一样,就是重复”“词都一样,就是重复”·适用场景:··技术原理:-中英文分词(双语支持)-MinHash+LSH近似去重-支持大规模数据高效处理语义去重语义理解·深层去重·核心思想:“意思差不多,也算重复”·适用场景:··技术原理:-调用embedding模型生成向量-使用近邻搜索(ANN)快速检索-支持跨表达形式的语义匹配避免全量比对带来的计算爆炸支持万级样本秒级处理完整性综合评估:从单一指标到总体得分标准化准确性机密性一致性综合质量易用性时效性无偏性使用两大核心度量指标进行验证使用两大核心度量指标进行验证通过BenchBuilder管道的七大维度进行筛选1.模型区分能力好的基准应能将强弱模型的分数显著拉开。大计算所有模型对胜率差值的平均值,值越大,区分度越高。Separation=Avg(IWinRate(A)-WinRate(2.与人类偏好一致性计算LLM排名与人类排名的斯皮尔曼相关系数,Alignment=SpearmanCorr(Rank_LLM,Rank_Human数据合成技术展望:面向行业智能体评测路径一:基于知识的主动合成路径二:基于数据的闭环增强行业知识库/知识图谱行业知识库/知识图谱全球软件质量&效能大会关注公众号关注公众号为企业人才培养需求提供多方位的讲师课程推荐,在线学习质量把关,资料学习推荐及直播课堂服务。技术峰会内训定制技术峰会内训定制在线课程数据库质量管理前端开发作为企业第三方专业人力提升培训服务供应商,秉承互联共成长的理念,恪守客户实际业务需求为第一优先级的本职。我咨询电话:010-657980492025全球软件质量&效能大会2025GLOBALSOFTWAREQUALITY&EFFICIENCY◎北京希尔顿逸林酒店(3层宴会厅)查看更多会议详情专场规划专场规划数据治理和知识工程AI原生应用的质量评测两场3小时深度工作坊两场2小时闭门会2025智能时代软件工程技术大会专场规划专场规划软件工程的“暗”软件工程的“暗”知识工程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长治市屯留县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 铁岭市西丰县2025-2026学年第二学期五年级语文第四单元测试卷(部编版含答案)
- 揭阳市榕城区2025-2026学年第二学期五年级语文第五单元测试卷(部编版含答案)
- 三明市永安市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 忻州市偏关县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 咸阳市杨陵区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 松原市乾安县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 美丽乡村文艺表演活动方案
- 家政公司策划方案
- 餐馆营销策划方案
- 2026江西赣州市政公用集团社会招聘39人备考题库及参考答案详解ab卷
- 2026年广东省广轻控股集团有限公司校园招聘笔试模拟试题及答案解析
- 快递员服务规范与操作流程(标准版)
- 镇电商服务中心建设方案
- 2026年贵州综合评标专家库评标专家考试经典试题及答案
- 武松打虎现代版课本剧
- YY/T 1293.2-2022接触性创面敷料第2部分:聚氨酯泡沫敷料
- GB/T 3216-2016回转动力泵水力性能验收试验1级、2级和3级
- 市政工程厂区道路施工方案
- 爆破片安全装置定期检查、使用、维护、更换记录表
- 辽宁公务员考试试题
评论
0/150
提交评论