2025QECon全球软件质量效能大会:基于大模型的智能交互产品评测_第1页
2025QECon全球软件质量效能大会:基于大模型的智能交互产品评测_第2页
2025QECon全球软件质量效能大会:基于大模型的智能交互产品评测_第3页
2025QECon全球软件质量效能大会:基于大模型的智能交互产品评测_第4页
2025QECon全球软件质量效能大会:基于大模型的智能交互产品评测_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大模型的智能交互产品评测王珍懿|蚂蚁集团、技术专家王珍懿(翠翰)蚂蚁集团技术专家长期从事质量保障领域算法开发及模型效果评测工作,目前负责芝麻信用部门智能体评测。在评测集合成、智能体红蓝军、自动标注等能力项有丰富积累与实践经验,已在NLP领域国际顶级会议上发表多篇论文。通过技术创新迭代提升评测质量和效率,牵引对客智能体的技术迭代和业务效果升级。CONTENTS传统NLP时代的智能交互产品早期对话系统依赖规则匹配,难以理解语境,导致对话预设知识库规模有限,无法覆盖所有场景,影响系统响缺乏深度理解能力,对模糊指令和口语化表达识别困难,降低交互效率。代表性产品:早期客服机器人(依赖预设问题库和规则逻辑)、传统搜索引擎大模型时代的智能交互产品数据驱动的力量数据驱动的力量新时代智能交互产品的评测:机遇与挑战特定领域场景复杂,若仍然关注单轮答案指智能体输出更加倾向于图文并茂的多模态交深入场景模拟真实用户交互是难点,缺乏有效方法模拟多样化用户行为和需求。基于多模态大模型的评测技术LLMops&EvaluationasAgent围绕评测全流程的提效数据集准备批量推理智能标注人工标注数据集准备批量推理智能标注人工标注经验经验、记忆知识工具、算子规划badcase分析agent数据生成agent用户模拟agent验收agent标注agent评测智能体技术实现评测专家文档预训练评测专家文档预训练执行任务执行任务SFT格式对齐/思考奖励格式对齐/思考奖励GRPOPromptPrompt自动优化评测关键技术突破通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置克服多模态幻觉垂类数据集生成垂类数据集生成难度评估语义难度难度评估语义难度:在句子语义视角下的难度程度推理难度:从推理到答案的逻辑难度程度解决难度:融合多个裁判模型推理的难度区分度:多个裁判模型推理的区分程度效度评估代表性:问题能够代表整个问题范畴的程度分布覆盖度:数据集样本标签的覆盖程度分布偏差度:数据集不同版本间的差异程度语言真实性:样本口语化的程度信度评估规范性:数据集内样本格式是否保持一致完整性:样本语句/语义是否完整,是否截断正确性:样本内容与标签的匹配程度垂类数据集生成评测关键技术突破通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置克服多模态幻觉指标分级处置指标分级模型分级请问以下文本是否拒绝回答?是/否请问以下文本是否拒绝回答?是/否你的提问包含敏感信息,我无法回答。请重新提问其他问题请问以下文本和什么行业有关?3C数码/餐饮/医疗器械/奢侈品/服装…折叠椅租赁上海塑料加厚黑白大型开学典礼活动演唱会户外出借简易根据本月的数据,小程序流量主要来自**浙江省**:访问用户数为67xxxx…。简单:短文本整体理解小模型中等规模大模型大模型指标分级处置AutoregressiveDecoding指标分级处置①LLM打分提速:限制输出tokensJudgingLLM-as-a-Judg②CoT->可解释性、可靠性③和评测集充分结合评测关键技术突破通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置通过基础语料、构造生成和对抗校验生成丰富可靠的垂类数据集。这些数据集经过多维度评估和badcase剔除,确保其准确性和可靠性。准垂类数据集生成指标分级处置克服多模态幻觉克服多模态幻觉文档中的图文内容基本符合常识…像,是近年来随着深度学习和神经网络技术的发展而兴起的一种新型图像处理方式。它通过训练机器学习模型来理解和模仿人类的视觉感知能力,从而能够根据给定的文本描述、草图或其他形式的输入自动文档中的图文内容基本符合常识…克服多模态幻觉教师模型生成标签数据过滤/质量修正高质量微调数据集高效、高并发垂类智能应用的评测实践实践案例:2B/2C垂类应用的自我认知评测垂类数据集规划生成自动化场景理解+机审打分垂类数据集规划生成自动化场景理解+机审打分Badcase分析报告撰写Badcase分析报告撰写用户对话模拟/对抗/采集实践案例:2B/2C垂类应用的自我认知评测自动化场景理解+机审打分用户对话模拟/对抗/采集自动化场景理解+机审打分用户对话模拟/对抗/采集AbilityAbility_Id:xxx_300001,title:投放端定Ability_Id:xxx_300001,title:是否包含…如问题2选否,则继续回答问题3样本思考think..批改×标注中止/继续裁判agent截图采集实践案例:AI产品的真机评测实践案例:AI产品的真机评测严格双盲:对话框切出、标志性产品特征切除、OCR、交严格双盲:对话框切

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论