版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
QECon2025全球软件质量&效能大会
·深圳站2025
GLOBAL
SOFTWARE
QUALITY
&EFFICIENCY
CONFERENOE
SHENZHENZHAN基于行业benchmark
的智能体评测崔润泽|蚂蚁集团高级测试开发工程师崔润泽蚂蚁集团高级测试开发工程师负责行业benchmark
设计、行业大模型评测、评测技术研发等工作,保障线上大模型业务水位稳定。日常主要工作为协助业务质量团队,从工程、数据、算法角度出发,攻克评测流程例里的各项技术难点。QECon全球软件质量&效能大会01
大模型评测概述02
行业评测Benchmark
03
评测核心技术解析未来挑战与展望目录CONTENTSPART01大模型评测概述全球软件质量&效能大会888大模型评测的重要性·
可量化的跟踪领域进展>领域中的模型是不是变得更强了
>
客观、可重复地验证模型的变化多个模型之间的对比>
模型A在哪个方面更强?>
模
型B更适合什么任务?·
评测训练/微调过程中的进展>经过训练效果是否有变好?
>
哪种训练策略会更有效?>哪部分训练数据是有效数据?Why-
为什么要做评测·Al
领域期刊出版物数量2.4倍
(vs
2015)Amazon,GoogleMicrosoft,and
Nvidia
raceto
backstartupsattheforefrontofAldevelopmentBigtechsAIstartupimvestmentsin2023·Al
领域专利数量上涨62.7%(2021)AlinfrastructureICBINSIGHTS
How-
评测标准AlIA
(中国人工智能产业发展联盟)发布的《智能体技术要求与评估方法》,为智能体效果评测提供了具体的指导建议与评估方法。评估维度技术能力应用服务能力域/能力项量加城
旅方了堆学习酒力切
图
力相治深说互描力共相能力上务监确。替气至1骨其曲量备成点期治网工作工家个量各皮监期影成用实瓶高始鸭专业回答像人一样响应速度隐私安全回答类胜和率Badcase率FistToken耗时安全团队通用指标具体指标项推也6%温指有:对
国
者
清
率
0
n
.
N热对
A
0
0
L
.
1
8
纳
.民生服务类、出行服务类政务办事、大量三方服务政务政策、文旅攻略极致服务型服务分发型知识问答型重点在服务动线的重构,LUI&GUI全链路服务体验的结合服务完结率重点在语料,提升模型归纳总结能力和准确度服务挂载率、服务准确率、服务第一层点击率重点在服务理解及意图的匹配准确度好体验OpenCompass平台上海人工智能研究院新加坡大学清华大学开源评测系统完备方法论·
中文全面覆盖,含高难度任务·支持D-shot、few-shot、CoT评测·
高效分布式框架XCompass·
支持500+评测数据集·
业界协同推动开放平台标准·
更新速度快,国内领先BIG-Bench(BBH)数据集谷歌大规模评测体系
开源评测标准·
多维度能力评估框架·
包含204个评测任务·
支持77种语言评测·
国际标准评测基准·
全面的任务覆盖C-Eval数据集清华、上交、复旦等高校专业能力评测学科全面覆盖·
52个学科领域覆盖·
专业知识评测体系·
CLUE规范标准·
中文专业领域完整覆盖·
权威的评测标准SuperGLUE数据集+平台CLUE开发社区完善的评测方法
中英文数据集·
70+评测任务·
3700+评测数据·
多维度评测体系·
支持多样化开放问题·
完整的评测生态QE
How-评测用例
平台名称
主要机构
类型
核心能力
产品特色·
14个专业课题覆盖
·
17个开源评测系统·
中英双语评测·
跨模态评测能力·
规范的评测流程多模态综合评测
跨模态能力评估多
模
态
M
M
E数据集中科大
腾讯How-
评估方法绝对评估:基于完备的标准,专家标注并计算绝对分数对比评估:多模型对比、排位对战ranking
一ModelOutputA:
Thecafeteriahad23
applesoriginall.They
used20
to
make
lunch.So
they
had
23-20=3.Theybought
6moreapples,so
they
have3+6=9.Theanswer
is
9.Parse
find("The
answer
is
{x}")Model's
answer:
9Correctgrammar:larehappy.蝙制计划The
correct
grammar
would
be"Iam
happy."Correctgrammar:lare
happy.I'm
happy
to
helpyou
with
your
English
grammar.Can
you
please
provide
me
with
a
sentence
ortwo
that
you
would
like
me
to
corect?自动化评估:基于条件概率、答案提取,多用于封闭集评测Ais
better
Bis
better结果输出交叉核对题日偏制题日校对依据:FlagEval力模型奔学术论文编码入库双人独立标生数据标注diff
测A×
PA1e)×
Prcle)
☑
PrD-le)→Model's
answer:A参考:学生学科测试Answer:全球软件质量&效能大会PART
02行业评测Benchmark888行业智能体行业做为支付宝的业务先锋,积极与外部机构深度合作,在政务民生、出行酒旅、物流
行业为用户提供智能化的服务。·
民生助手
·
出行助手
非本地户口能在南京登记结婚吗?
接下来,我用要将这些信息整合成一个连勇的回答,确
保不遗溺重要亲件,井且语言简洁明了。同时,要建免
使用任何参考资料中提到的关睫词,比如“根据资料”
等,保持回答的自然流场。最后,检查是否有超过300字,如果有需要适当概括。
确保回答在300字以内,周时,按院输出要求,使用序
号或列表来组织恼息,使国答更有层次盛,易于阅读。异地公积金买房是否可用取决于具体情况:一套房且无公积金贷款,且夫妻一方为购房地
户口或在当地缴纳社保,可在南京办理柜面转
账还货。需携带身份证、结婚证、贷款证明及
征信报告等材料。2.
异地公积金提取:在南京购房时,可提取异地
和会
票地描妇兰材判南吉公扣全由入办你的出发地是蚂蚁A
空间,目的地是银泰百
货(杭州武林店),查询时间为2025-05-15推荐方案是乘坐地铁,耗时30分钟,花费3
元,乘坐公交地铁总站数为6站。出发日期2025-05-
15的天气预报显示有小雨,最高温度32℃,最低温度21℃。建议你携带雨具,并注意防暑降温,我是你的AI出行助手路线规划
·语音出行
·服务伴随你可能想看如何快速预约接机?◎
附近快充充电桩在哪?如何查看公交车位置?查询到从杭州到上海的2025年5月16日出发
的火车票。请注意,杭州和上海当天都有小雨,建议携带雨具。推荐您乘坐K352
次快速列车,出发时间为2025年5月16日05:30,到达时间为07:45,车程耗时2小时15分。好,我现在要解答用户的问题:“异地公积金买房能用参考资科中摇到了几个政策,特别是政策1到政策5。政策1说明南京公积金可以异地还房货,但需要满足特定
条件,比如家庭在南京无房,或者有一套房且无公积金
贷款,以及夫妻一方是购房地户口或在当地缴纳社保。
政策3提到在南京购房时,可以提取异地公积金,但需要携带相关材料到南京公积金中心办理。政策5则详细说明了南京郁市匪城市的职工可以在南京申请公积金货故,但需要连续缴存满6个月,且家庭在全国范围内没非本地户口的居民可以在南京登记结婚。如果双方都不是江苏省户籍,需要一方持有南京市的居住证,并携带双方的户口簿、身份证,在居住证发放地的婚姻登记机关办理结婚登记。如果结婚
的一方或双方是江苏省户籍,无需提供居住证,可以在江苏省内的任意一个婚姻登记机关办理婚姻登记。你好,我是“晓苏”,你可以随时问我,我将为你解答关于
公积金、社保、婚姻等相关问题,帮我买
一
张杭州去上海的火车票,明天出发推
荐
服
务帮我规划去西湖银泰的路线已帮你找到相关服务居住登记为了方便全省群众通过移动互…去使用去使用下拉查看最近一次对话已开启深度思考智
能
体智
能
体Agent
Library个性化MemoryTool
Library追问-濯清自裁反思Prompt中心tapsm治地e数据获取与准备
调用基座模型+RAG
后训练
评估与优化对应樟块1,3评测驱动训练优化1.行业外部数据引入·行业公开数据收集·专业文献与报告抓取·合作伙伴数据交换3.语料质量检测修复·语料质量评估指标·噪声识别与过滤·语料自动化清洗·数据修复与增强QE
行业智能体训练流程行业智能体训练主流程数据是智能体训练的核心基础6.行业智能体评测·权威评测集构建·行业专用评测指标·多维度能力评估·评测数据分析与反馈行业智能体数据训练流程图·多样化语料合成方法·行业场景数据生成·
合
成
数
掘
质
量习数分布均横调整·行业术语与概念库·专业知识图谐构建·行业规则与流程库·
专家知识结构化·训练数据消融实验·语料配比优化策路·多领域数据均衡·
迭代优化训练数据对应模块2
对应禅块4,5训练-评测-数据闭环体系5.语料训练配比4.行业语料合成2.行业知识库评测区动数据优化
一对应模块6Badcase
驱动的评测结果标注
(效率)·
算法迭代速度
vs
人工
标注效率
…推理执行
(效率)·
相比传统LLM,行业智能体涉及到多轮会话与服务卡片等复杂交互,推理过程中需要模拟真实用户的理解与动作离线评测(含对抗)行业评测集构建评测任务执行推理结果标注badcase归因评测报告生成算法优化其他渠道反馈行业评测集
(效果)·基准评测是“实际效果”表现的代理指标。评测结果是否能够代表模型能
力的真实水位?评测结果的改进是否
可信?·行业高质量语料不足的问题问题归因
(效果&效率)·
需要理解算法工程全链路,在推理标注结
果产出后归因到关键技术模块(安全拦截、意图识别、RAG召回-FAQ/
知识图谱/
全网搜、服务挂载、内容生成等)路线规划到查购票问时间选方案
查票
授权模型推理线上效果评测
线上数据采样效果优化问题归因结果标注多模态能力
基础语言能力连
P
力多附对话违希际售通房资底能力评测维度村会科青然科行业知识能力QE
评测方法演进评测方法演进的必然性1.业务初期:关注问题解决和快速迭代·产品形态未定,
需要快速发现并解决核
心
问题·通过具体案例分析提升产
品
能
力
更
有
效2.
业务成熟期:需要系统化评估和横向对比·需要客观衡量
产
品
能
力
,
支
撑
决
策
和
优
化Badcase
驱动业务初期主要评测方式问题导向针对性发现并解决具体问题深度分析质性研究与根因分析初期阶段优势·快速迭代验证·针对性问题解决·灵活应对业务变化·产品形态快速打磨成熟期优势·系统化能力评估·横向竞品对比·
持
续
监
控
优
化·规模化效率提升AI评测方法演进路径从
问
题
导
向
到
系
统
化
评
估
的
必
然
趋
势标准化可复现的评测体系量化指标客观数据支撑决策Benchmark驱动业务成熟期标准方案逻辑推理能力#职神重
4
后业务发展阶段(专业
力)探索期讲言能力惠事高学捕粮理"主事弄都豌户框体些旅望对
外
应
用伊明师4能
率重字也力事实性温著面地咖理型a
5
属
e
长OE
行业Benchmark政
务
知
识
问
答
语
料·政策法规精确问答·办事流程详细指南·
部门职责明确解答·
常见政务疑问集合·
准确性优化的合成数据个
性
化
服
务
语
料·个性化服务推荐数据·
弱势群体政策服务数据·
用户画像推荐匹配·
多轮服务对话数据·
特殊群体权益合成数据政
务
推
理
与
解
读
语
料·COT
推理类数据·
白话文政务解读·复杂政策适用分析·政策因果关系推理·
申请资格判断数据工
具
调
用
语
料·外部工具调用指令数据·个税计算器调用数据·养老金计算器使用数据·
医保查询工具调用·政
务API集成调用数据规
划
推
理
语
料·
行程规划推理数据·
最优路线选择推理·
时间安排优化推理·
多地点组合规划·
预算约束下的规划记
忆
和
上
下
文
语
料·
旅行记忆追踪数据·
上下文感知对话·历史偏好记忆·
行程变更适应数据·
长期规划记忆数据工
具
调
用
语
料·外部工具调用指令数据·
地图导航APi调用·
票务查询工具调用·
天气预报AP
调用·
酒店预订系统调用个
性
化
多
轮
交
互
语
料·个性化旅行偏好数据·
多轮交互精确规划·特殊需求旅行安排·
偏好调整对话·
满意度反馈交互行业语料合成模块民生政务与出行智能体行业语料合成引擎为特定行业智能体定制高质量训练语料民生政务智能体语料合成
出行智能体语料合成System1
.
评测维度
System2
.政务安全合
政第办丰服务改务安全合理评测维度B
的事湿务System1,出行知e6捷维
度出system2出多地迎
维
度出GovLLM-bench:100,000+政务评测样本最核心考题:重大版本迭代(1万-2万)合成数据生成评测样本规横tMobi-bench:100,00
出行评测样本评测样本分层重点考题:模块化评测(3万5万)
普通考题:长尾和极端对抗测试(10万+)智能化标注语料合成方法基础数据扩充·模板生成·模型自助学习·微调对齐·人工审核增强语料质量
保障准确性验证·一致性检查·多样性保障·疆盖率评估·时效性更新·适用性测试
通过持续迭代优化确保智能体语料的高质量与全面性智能体评测Benchmark框架
GovLLM-bench与SmartMobi-bench智能体评测体系科学评测、全面覆盖、数据驱动、持续优化SmartMobi-bench出行智能体评测基准System
维度评测框架System1
(快速直觉反应)
System2(深度思考推理)GovLLM-benchSystem
维度评测框架System
1(快速直觉反应)人机标注一致性:>90%机器标注一数性:>90%人人标注一致性:>90%评测置信度保障评测集样本规模·标注一致性·评测集鲁棒性·评测集分布覆盖度System2(深度思考推理)QE
评测集质量数据质量定义:ISO8000:“数据质量是数据的特征,满足规定和隐含需求的程度”学术定义:“数据在特定使用环境下满足用户明确和隐含需求的程度”(Wang&Strong,1996)数据质量指标:1.
类别平衡度(Class
Balance)B=1-(∑lp_i-1/n|)/(2(1-1/n))2.信息熵(Information
Entropy)H=-Z(p_i*log_2(p_i))3.
重复样本率(DuplicateSampleRate)DSR=
(重复样本数/总样本数)*100%4.
标注一致性(Inter-annotator
Agreement)准确性完整性
一致性时效性
可信度可解释性5.
数据完整性(Data
Completeness)
完整性=(有效字段数/总字段数)*100%6.
数据一致性(Data
Consistency)
一致性=(一致记录数/总记录数)*100%7.
数据准确性(Data
Accuracy)准确性=(正确值数量/总值数量)*100%8.
时效性(Timeliness)时效性=1-(数据年龄/有效期限)质量提升方法:1.
数据清洗(DataCleaning)2.
重采样(Resampling)3.主动学习(Active
Learning)4.
数据增强(Data
Augmentation)Cohen's
Kappa:K=(p_o-p_e)/(1-p_e)行业语料质量检测修复流程图民生政务与出行旅游规划智能体语料质量检测修复主流程数据质量是智能体性能的关键保障1
.语料质量检测
2
.
问题识别分类
3
.语料修复策略
4
.
自动化修复
5
.
质量验证民
生
政
务
智
能
体
语
料
质
量
检
测
修
复
出
行
旅
游
规
划
智
能
体
语
料
质
量
检
测
修
复语料质量检测语料问题分类语料自动修复语料质量验证修复效果验证·政策准确率提升·流程指引完整度·服务信息时效性·用户服务满意度常见质量问题·景点信息过时·交通时刻表不准确·价格信息不一致·地理坐标偏差质量检测指标·政策法规准确性检测-·办事流程完整性检测·服务信息时效性检测·行政术语规范性检测常见质量问题·政策信息过时·办事流程不完整·服务要求不明确·部门职责模糊修
复
策
略·多源数据交叉验证·实时数据源更新价格区间标准化·地理信息系统校准修复效果验证·旅游信息准确率·交通建议合理性·价格推荐精准度·用户规划满意度QE
语料修复质量检测指标一旅游信息准确性检测一·交通数据时效性检测·价格信息一致性检测·地理位置精确性检测修复策略一政策更新自动比对·流程完整性补充服务信息标准化·术语规范化处理通过持续的质量检测与修复,确保智能体语料的高质量与准确性全球软件质量&效能大会PART
03评测核心技术解析888合成数据评测数据合成方法合成单轮数据
合成多轮数据
合成多模态评测集●
模板填充法使用预定义模板,通过填充槽位生成数据
适合结构化、固定模式的数据生成●大模型生成法利用预训练大模型生成多样化的数据
通过精心设计的提示词引导生成过程●
数据增强法通过同义词替换、回译等技术扩充数据
提高数据多样性和模型鲁棒性●
多智能体协作法
多模态测试多个AI智能体协同工作,模拟复杂交互生成文本、图像、语音等多模态数据生成多方参与的动态对话或过程
测试模型跨模态理解和生成能力●交互流程生成模拟用户与系统的多轮交互过程
生成符合业务逻辑的操作序列交互流程生成创建多模态交互序列和场景模拟用户与多模态系统的交互过程模拟不同角色间的多轮对话交互生成符合特定场景和角色特征的数据生成UI界面的文本描述和结构信息
用于测试界面理解和生成能力角色扮演法
界面描述生成QE方法:语言模型生成、语义相似性扩展(sentence-
bert)、同义词替换、模板生成、typo模拟等d鼓据集说明当朝故据集可以定义字段Sirdey).Straceld)、S/name].s(desc)、S(subject}、Sintertion),Stsitustion),Sfaction)。*白定义Promot现在你是沈阳市市民中心的办事人员,请你模仿民众的询问意图,针对我给你提供的资料,提出一个query.要
求
:1、query筛单明了,不要一句多间,不要超过20个字,不要分成多个子句;2、query符合口语化表达;3.query中不要有“要什么材料”、“亚期些材料”、“要啥手续”、“要哪些证明”、”要赔证明”、”昨办”、“咋申请“等低质量、重复性内容;4.范围仅限沈阳市5、不要包含主语代词,不要有“我是沈阳人,我想
…“这类表述以下是几个【goodcase]:1、沈阳人才落户有何标准?;2、浑南区户口注躺在曝办?;3、就阳市注销分公司需要有营业扶期吗?4、浑南区结姐量记营业时间。5.沈阳市职业培训补贴申领有什么条件?以下是几个[badcasel:Prompt示例基于思维链的合成数据依赖模型的推理和生成能力数据多样性高,适用于复杂任务高,尤其是链式推理需要更多算力数据质量高,但可能生成逻辑错误或不一致适合复杂任务(推理、开放式生成)基于seed种子增强评测用例合成基于思维连生成基于种子变体和数据增强强依赖于种子语料数据多样性受限于种子语料
低,计算资源需求少容易保持语义一致,但缺乏新颖
性适合简单任务(分类、问答)*输入类型生成用例数量◎热点/主题列表热点/主题列表人才夜市毕业生找工作公积金比例公积金买房薪资待遇落户政策上海找工作面试技巧提
交
重
置QE通过思维链合成数据依赖性数据多样性
生成成本
生成质量适用场景高质量知识库构建质量保证
:·多轮专家审核·版本严格管控·定期更新维护题答同步生成基于知识库内容定向生成题干和答案确保答案的正确性和可追溯性RAG
增
强知识检素增强生成提高答案准确性优
势:·答案质量有保证·无需复杂校验流程题干生成依据业务知识作为“考纲”增强/合成题干模型直接回答使用大模型直接生成答案阶段一校验多模型投票·GPT-4·
Claude·LLaMA·其他模型通过率:80%通过率:50%
通过率:95%局
限:优
势
:·校验流程成本高·漏斗效应导致产出低QE
合成标准答案核心难点二:标准答案如何生成方法二:逆向合成基于高质量知识库定向生成方法一:正向合成基于模型直接生成+多重校验来
源
渠
道:·专家审核的标准文档·已验证的业务规范·历史高质量题答对阶段二校验专家模型审核·答案完整性·逻辑正确性·业务规范性阶段三校验人工审核·专家评审·业务确认·最终把关多模态协同文本+图像联合生成丰富题答形式Chain-o-Thought思维链推理保
证
退
性·知识库构建成本高·生成范围受限·可生成海量题目·覆盖范围广局
限:QE
动态多轮评测路线规划到查购票问起点问终点
问时间选方案行业智能体(待评测评测人员传统大模型评测环境评测数据输入
业务处理(多轮会话/服务卡片交互等)
结果存储查票
授权登录
选座下单支付
出
票行业智能体(待评测)Simulation
Agent移动端多模态交互环境多模态输入处理场景及任务识别
多模态输出生成结果存储
移动端资源管理与适配ConstraintC
Generation
Algorithm
g
Description
FunctionFFunctonFoTree-basedDAGUinearEq.ReachablityNode:Rame,Operation,Vaue,ChadrenStep3:Describe
DAGandtask.and
task.A's
walue
s3,B's
valuels1,Tree-basedDAGrsvalueisderivedbysummingthevalue
ofF,G,HWhat
is
the
value
of?动态多轮评测数据合成Agent2.query自然语言改写首轮冷启
语言风格4.交互meta-data=数据合成模块
多轮交互模块
评估模块归
因
&
报
告
产
出能力评估
产出报告意图链集合0.意图链槽位检索to-be-tested3.feedback数据存储
异常处理线上query槽位信息互斥槽位生成意图链
上海
明
早商
务
座
武
汉
晚
上
一
等
座筛
选
数
据auglcocte
Cov-quaity解析指令理解开放配置Step2:Generate
DAGwithconstralnt.异常处理
路径陆机首轮冷启
卡片交互多轮指标计算计算槽位分布Step
1:SpecifytheconstralntforDAG杭
州北京长沙进展率成功率耗
时最
近低
价General
DAGApotstoNose.-
1
.
槽
位info>深圳
qam基核Agent
v3.0MoE53B四多路召回高度说科Justification-TheAl
assistant'sQ-Summarizethelife
andwork
ofisaacNewton.GaAongeLM]-Sr
lsae
Newton
wasan.Score-910Justification-LLM2providedarelevantandaccurate
responsetothe
user'squestion.LLM1]-Southof
Franceisagreat..[LM2]-The
SouthofFranceoffers.Justification-TheAssistant'sanswerisaccurate
and
closely
mirrorsthe
ReferenceAnswer.
ei
ta
0each.HowCan
the
evaluator[Ref]-2pairs'$60palr=5120Doevaluators
check
foradherenceto、instructions?ealoulations?FBI?6yspseohcdhhtunmaLLMas
aJudge:>
事实性、指令遵循、连贯性和推理能力>
参考答案有一定的帮助>可以通过提示词增强、微调等方式提
升精准度,但是成本较高QE
智能标注Al
辅助评测工具仍然存在局限性1、全网瞿(百灵内置版)2、知识库(WIP-@
炎煜)全网理-标注专用deep
researeh总结回夏PaiwiseEvaluationInstruction
FollowingQ-What
canldo
forb
days
in
theSouth
of
France?ReferenceGuldedReasoningQ-Johnbuys2pairs
ofshoes棵模兜感总括回是SingleAnswerGrading
FactualCanthe
evaluatorreliablyverifyspotfactual
mistakes?[LM-BpoisoftonsPiceohoEvaluatorLLMs路合丹一和关性过精排全球软件质量&效能大会PART04未来展望888QE
评测体系演变趋势智能协同期
价
值
创
造
期2024+
2025+核心能力评测维度技
术
验
证
期2020-2021基础能力·
知识储备深度·推理与理解能力·表达与更新能力场景
深
化
期2022-2023场景能力·领域专业性·场景适应性·解决方案完整性AI评测体系演进与未来趋势从技术验证到价值创造的范式转变价值创造·业务价值提升·效率优化程度·持续进化能力协同能力·
多模态交互·
系统集成性·
异构系统协作技术保障·
实时监控系统·数据分析引擎·
安全防护机制人员保障·
团队协作模式·
知识管理体系·
激励反馈机制流程保障·
异常处理机制·
版本控制体系·持续优化流程新一代评测质量保证体系·
专家评审委员会·持续培训体系·
多维度考核机制·标准化评测流程·
多轮交叉验证·
动态更新机制·
自动化测试平台·AI辅助评测工具·性能基准测试QE
机遇与挑战应对策略●标准建设·
分级分类评测体系·统一技术规范●技术创新·
自动化评测工具·
智能分析平台●安全保障·
隐私计算框架·
安全防护机制●生态协同·
多方协作机制·
资源共享平台●多模态评测体系·文本、语音、视觉融合评估·跨模态理解能力验证●场景自适应评测·动态场景生成·
实时评测反馈●群体智能评测·
多智能体协同能力·
集体决策质量●持续学习能力评测·
知识更新效率·
迁移学习表现●技术挑战·评测标准难以统一·复杂场景难以模拟·评测成本居高不下●
安全挑战·
数据隐私保护·对抗样本防护·评测结果可信度●伦理挑战·偏见与歧视识别·道德边界把控·社会影响评估●产业挑战·
商业模式探索·行业标准制定·生态协同发展●产业升级·AI
应用质量提升·行业标准完善●
服务优化·用户体验提升·服务效率提高●人才发展·评测专家培养·复合型人才需求●生态构建·产学研深度融合·开放协作生态AI评测的机遇与挑战探
索AI评测的发展路径与应对之策创新突破方向
面临挑战
社会影响全球软件质量&效
能
大
会感谢聆听关注公众号作为企业第三方专业人力提升培训服务供应商,秉承互联共成长的理念,恪守客户实际业务需求为第一优先级的本职。我们公司定位于专业、专注、全方位服务于IT研发中心,产品、技术、工具、团队管理方向的培训课程;有公开课,定制内训,在线课,T技术峰会一站式采购等产品;更多的从客户需求角度出发,匹配更适合团队学习的资讯和课程推荐;更好的为客户服务,有专业的培训顾问,对整个IT行业峰会,讲师情况,课程方向都有比较深的了解。公开课
微咨询云计算专业
IT
技
术培训服务供应商产品经理持续运维质量管理大数据数据库前端开发5大服务课程方向为企业人才培养需求提供多方位的讲师课程推荐,在线学习质量把关,资料学习推荐及直播课堂服务。在线
课程技术
峰会内训
定制智盟创课www.zmeng测试开发组织管理敏捷开发架构设计开发编程咨询电话软件研发效能权威指南
大模型时代的软件工程QECon
持续输出AI4SE
案例篇已发布10篇,抢先订阅
编写进行中20+篇案例关注QE公众号
回复“DORA2024”获取报告关注QE
公众号回复“工具指南”获取书籍链接立即参与案例持续收录中个前沿案例实用软件研发质效工具指南汇聚行业系用软件研发质效工具指南一书籍推荐一测试和研发领域的“百科全书”ENGIWEERING
PRODUCTTMITYDEFINITVEGUIDE软件研发效能
权威指南主编
茹
娟腥
张
乐副主编陈题石需蜂吴酸龙余超
LP
张眸MODERN
SOFTWARETESTINGDEFLNTTIVEGUDE现代软件测试技术
权威指南购买链接威代指南件软件研发效能权威指南测技禾+na
版t⁰
图拿上服性专项测试(含全链路压测、混沌工程、性能测试等)数据驱动测试与精准测试智能化测试的创新实践Al时代下的安全测试自动化测试工具开发LLM赋能下测试管理与流程再造质效度量:从洞察到智能化AI原生应用的质量评测研发数据治理与质效提升多智能体助力效能提升(含MCP、A2A应用)平台工程(设计驱动的质效内建)Vibe
Coding模式下代码质效大模型在研发提效中的深度实践大模型驱动的DevOps工具链大模型时代的质量体系和文化建设2场2小时闭门会2场3小时深度工作坊2025全球软件质量&效能大会10/31-11/1北京-希尔顿逸林酒店09/12-13上海-明捷万丽酒店下一站上
海
站北
京
站
45%研发关键技术能力进阶专场
大数据平台与架构实践
出海与云原生
高可用架构
大前端前沿技术
大前端架构实践
业务架构数据治理数据库架构SECon2025全球软件工程技术大会2025
GLO
B
A
L
SOF
T
WA
RE
ENG
IN
EERING
CON
FE
REN
C
E
Data+Al
的探索与实践
AI重塑研发工作流
AI模型安全与伦理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全员安全意识提升专项行动方案
- 注册会计师税法中企业所得税法税收优惠减免税的适用条件
- 气体公司充装操作准则
- 机械制造厂设备维修制度
- 某钢铁厂热轧工艺操作制度
- 2026中国科学院化学研究所怀柔研究中心招聘备考题库含答案详解(能力提升)
- 2026清华大学出版社校园招聘备考题库带答案详解(培优b卷)
- 2026浙江台州市中医院招聘心电图诊断医生(编外)1人备考题库(含答案详解)
- 2026安徽皖信招聘铁塔阜阳市分公司技术人员2人备考题库及参考答案详解ab卷
- 2026江西鹰潭月湖区民政局招聘工作人员1人备考题库及参考答案详解(新)
- 羊圈养殖场施工方案
- 塔吊基础施工风险评估与控制措施
- 2025年湖北省中小学教师高级职称专业水平能力测试模拟题(含答案)
- 高职电气工程实训指导手册
- 2025中数联物流科技(上海)有限公司招聘考试参考试题及答案解析
- 施工合同人工费支付协议
- 人工智能技术及应用 第2版 课件 6.3 强化学习
- 2025年山东高考生物真题及答案
- DB15T 1895-2020 建筑消防设施维护保养技术规程
- 辽宁装饰装修管理办法
- 微波功率放大器-洞察及研究
评论
0/150
提交评论