版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI大模型驱动算法评测的“效能革命”陈曦文目录1
背景2评测全流程的效能革命3应用案例4
挑战与展望01
背景
传统算法评测痛点1.数据收集:依赖真实场景数据,成本高、样本不足,难以覆盖边缘案例2.离线评测:人工标注耗时长,小模型泛化能力差,
问题归因依赖专家经验3.业务上线:多轮人工审核导致流程冗长,用户体验差(如广告/电商生成图审核周期长)4.线上巡检:人工回流数据耗时,问题归因不系统,
报告生成效率低背景
现状当前支付宝各业务线DAU较大,传统依赖人工质检与小模型的评测方式已难以应对当前海量数据的实时性与精准性要求。VGG
LLM1.0小模型时代2.0大模型时代MLLMAI时代变革
Claude
LLaMA
Midjourney从此进入AI大模型时代,实现从“专用模型”到“通用智能”的跨越。Transformer问世ResNet
CLIPDeepSeekQwen-VLGeminiDALL-EChatGPTAlexNetBERTGANAI
1.0•
定义:数据驱动下的技术架构与智能化范式。•典型场景:图像识别、语音识别、自然语言处理等。•
应用范式:基于领域内数据构建判别式AI小模型,完美展现专家经验。•
局限性:需要大量标注数据,泛化能力弱,可解释性差。核心转变:不再依赖于专家逻辑,
把理解、知识和逻辑推理交给AI。AI
2.0•
定义:利用大模型的生成能力和推理能力,带来新的应用范式。•典型场景:ChatGPT、
Copilot等。•
应用范式:训练一个巨大的生成式大模型,大模型驱动业务决策•
局限性:训练资源消耗巨大,存在不当使用和模型偏见问题。通过预训练+微调范式,轻量化训练业务大模型算法评测的变革核心02
评测全流程的效能革命一、数据集构建传统方式:依赖于开源数据、业务数据、或真实场景采集,成本高、样本有限,难以覆盖极端案例AI注入:基于sd模型或虚拟仿真技术,生成“不存在的badcase”
,低成本构建海量样本。不再局限于真实场景及传统的数据增强方式,提升覆盖度的同时,极大地降本增效二、离线评测人审提效70%,全流程耗时降至小时级,助力用户体验与业务效率双提升三、业务上线四、线上日常巡检03
应用案例广告AIGC场景应用—评测难点与挑战AIGC产物新问题点:广告场景下:
现实世界不存在或不常见【异常】
主体生成前后改变【一致性】
与用户意愿不相符【一致性】
与客观事实不符【美学】
主观感受不佳【美学】
主背景不协调【美学】•建设思路:“魔法打魔法”的思路,用大模型测大模型•测评大模型:基于CLIP(ViT)、
LLaVA等业界前沿的大模型训练框架和底座
,结合开源数据集以及支付宝自营业务场景标注数据
,训练一套蚂蚁自己的AIGC生图测评大模型VQAGPT
,对AIGC生图产物进行自动化评测质检。VQA-GPT:VisualQualityAssessmentGeneral
Pretrained-models广告AIGC场景应用—大模型思路
判断生成前后商品主体是否一致
可视化问题区域,提高模型对特定问题发现的辨识度线上拦截商品主体出现异常突变的生成图,
拦截准确率90%+大模型思路VQA-GPT一致性判断训练集:开源+业务美学标注数据规模10w+大模型思路VQA-GPT美学判断在算法上线前充分验证机审能力,上线后持续优化,实现高效可靠的AIGC图像质量检测体系,为人审提效20%+。广告AIGC场景应用—业务效果功能4:任务中心提供多种检索方式,用户可查看所有上传图的评测结果功能2:图文一致性检测,用户可以上传图片和对应文本,来实现检测功能1:美学异常检测,用户可以上传单/多张图片(url)
,来实现检测功能3:图图一致性检测,用户可以上传图片-图片对,来实现检测自动化评测平台质量评测平台(VQA
GPT)功能5:统计中心为用户提供各指标的分级统计结果,如异常率的高/中/低分级、一致率的优/中/差分级等自动化评测平台功能6:评测样本集管理评测集开源主流AIGC开源&增强评测集AIGC线上算法评测结果库重部署标准流程是否通过数据预处理是否通过的标准:1、文生图各大指标准出标准;2、
图生图各大指标准出标准。自动化算法服务效果评测是否劣化1.模型更新2.代码更新3.模型+代码更新调用新算法服务验证效果
&工程AITestOpsAIGC算法服务库线上效果监控Auto-Eval
Pipeline工程部署火花平台透出线上回流仿真开源评测集模型训练模型评估算法离线优化流程是是否04
挑战与展望
技术深化1.轻量化模型:边缘计算部署(如移动端实时质检)2.多模态融合:文本、语音与图像的联合评测3.应用拓展:助力AI评测能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河北省内外贸一体化综合服务平台启动:“1 2 N”体系深度解析
- 土地增值税的基本概念和特点
- 2026年网络安全培训课件
- 2026年水上安全警示培训
- 2026年实验室风险评估培训
- 2026年商场安全文化建设培训
- 疼痛评估:方法与技巧
- 2026年安徽省阜阳市临泉县第一次中考模拟试卷(一模)数学试题(含答案)
- 甲状腺术后患者生活质量评估与干预
- 护理风险责任界定
- T/ZJSEE 0016-2023高压电缆线路故障定位在线监测装置技术规范
- 2025全国英语等级考试(PETS)二级试卷:智能城市英语阅读理解
- 临床护理带教中的人文关怀
- 马克思主义宗教观课件
- 河道生态修复治理实施方案
- 《全液压转向器 摆线转阀式开心无反应集成阀型》
- 小儿药液外渗的预防及护理
- DB32-T 4787-2024 城镇户外广告和店招标牌设施设置技术标准
- AQ/T 1119-2023 煤矿井下人员定位系统通 用技术条件(正式版)
- 2024年厦门航空有限公司招聘笔试参考题库含答案解析
- 南京航空航天大学“天目启航”学生自由探索项目申请书
评论
0/150
提交评论