2025QECon全球软件质量效能大会:营销质量AI图片校验实践分享_第1页
2025QECon全球软件质量效能大会:营销质量AI图片校验实践分享_第2页
2025QECon全球软件质量效能大会:营销质量AI图片校验实践分享_第3页
2025QECon全球软件质量效能大会:营销质量AI图片校验实践分享_第4页
2025QECon全球软件质量效能大会:营销质量AI图片校验实践分享_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QECon2025全球软件质量&效能大会

·深圳站2025

GLOBAL

SOFTWARE

QUALITY

&EFFICIENCY

CONFERENOE

SHENZHENZHAN营销质量AI图片校验专项实践分享牛文芳(楚浔)|阿里巴巴淘天集团-营销质量-高级测试开发工程师牛文芳(楚浔)阿里巴巴淘天集团-营销质量-高级测试开发工程师6年阿里工作经验、负责淘天集团营销质量保障工作,大促全链路氛围预演专项负责人。全球软件质量&效能大会01

背景02

方案设计03

项目挑战和策略04

项目结果和沉淀

未来展望目录CONTENTS全球软件质量&效能大会PART

01项目背景888.QE

背景大促导购全链路表达预演介绍>手淘/手猫双端月均s/s+级大促2场,a/a+

小促70+场,

每次大小促活动运营/大促pm

都会针对本次活动搭建新会场模块、配置全链路氛围素材等;>作为大促导购域预演负责人,每次s/s+大促上线之前,都会组织导购域全链路氛围预演,拉通手猫/淘/淘特3端80+同学、详情/购物车/搜推等10+个渠道/点位、猫超/

国际/新享/EDLP

等多个行业/业务验证导购域表达是否符合预期;全链路氛围表达校验

会场表达校验霜一级能效变频小冰箱超薄预演场景和频次>月均组织全链路氛围预演1-2场,人工校验图片750张/月,人工预演校验氛围花费17人日/月,完全依赖人工校验效率低,易出错;>小促场次因数量较多、每月需校验图片约5000张,且技术侧保障弱投入,易将问题暴露在线上,只能靠事后运营工单处理,风险较高;问题总结>营销质量有很多图片校验的业务场景,当前完全依赖人工校验,

效率低、易出错;部分场景(比如每月几十场小促氛围校验)技

术侧保障弱投入,易将问题暴露在线上,只能靠事后运营工单处理,风险较高;在营销质量图片校验保障中,我们对不同的多模态大模型进行可

行性调研,能否快速、准确使用大模型校验图片正确性,成了营销质量保障新命题;大

正BA以的已以n*描-增方通E三已确认的自m已的均音节已确认的音把期

em

的节零共哪e附的的节不关道再关址不送建

背景c清以E请以世册配确认阳余册已清以阳a田已清以均a己清以企图已确以期址图已清以出已确

认e满u期由C以n5E湖以开治楼巴普会eunaewAnaeE

A

从Ann45742L,En国84864,E磨通程名中死品

、通的8中10155大

国抽

-

M1

a

R

-

M

R-

E上8-出

W是

星大正窗nATE大描%-言方立满E%-上降热路式QECon全球软件质量&效能大会PART

02方案设计888.直方立:14.9元618·聚创

天测试请不要拍测试请不要拍测试请不要拍测

试,请不要拍-增加可售问题类型示例

详细描述

示例活动价¥8.64

CmEV⁷3校验腰带logo和文案是否正确

(

4

6

%

)示例1:该商品是前N双报,应该展示618.超级秒杀,实

际展示618.聚划算;示例2:该商品是预售单报,应该展示预售抢先购,实际展示预售抢先购·

超级爆款;超级秒杀每100液10金币挺10%3测试商品请不要拍◎推荐椰帮我选发货

浙江温州快递:5.00D

承诺24小时内发赁超级秒杀限封折后W7.7,拒结束☆收磁校验腰带颜色是否正确(

3

9

%

)示例1:该商品腰带应该是黄色背景图上面都是红色字体,实际展示白色,看不清logo;示例2:该商品腰带应该是绿色背景图上面都是白色字体,实际展示红色,不符合设计规范;QE

Con

全球软件质QE

方案设计Al图片校验调研全链路氛围表达问题分析:优点

:◆能够自动学习、适应性强:

对于大规模数据集、复杂场

景的校验,特别是当涉及到

理解图片语义内容、跨多种

信息类型综合判断时,可以

作为智能大脑统筹各方数据

进行综合输出;◆更高的灵活性和扩展性:

于识别错误的情况,可以通

过调整prompt

提供更多信息

来进行优化;缺

:★

大模型幻觉问题:对于手淘

全链路的各种复杂场景氛围/会场等表达校验,大模型识别准确率会有所降低,但是

可以通过Prompt

调优以及OCR

辅助来提高;★训练成功高、计算资源消耗较大:

需要大量图片数据进

行训练;优点

:实现简单,易于理解和调试

:对于特定条件下的问题

处理效果好;缺

:★能力单一化,不适合对文本和图像结合等多种信息源结

合的校验:对复杂场景的校

验适应性差,难以处理模糊

不清的规则边界,比如像腰

带中的颜色、会场中的空坑、图片断裂等视觉领域的

校验无法识别;QE

方案设计Al图片校验调研QE

Con

全球软件质量&效能大会

◎深圳站多模态大模型图像识别原理:利用图像处理算法(如边缘检测、颜色分析等)识别

图片中的元素,然后将元素和预定义的规则或标准来校验是否符合要求,比如,尺寸、比例、分辨率等;传统OCR

等算法图像识别原理:使用深度学习模型自动从数据中学习特征表示,并用于分类、检测等任务,可以结合文本、图像等多种信息源,共

。QE

Con

全球软件质量&效能大会

深圳站问题类型示例

测试模型&准确率示例校验腰带logo和文案是否正确gpt-4o-0513-global:正确率:90%(曾测试模型gpt-4o-0513-global、gemini-1.5-pro、GPT4V、Claude3_Sonnet)例1、给出图1、图2、图3三张图片作为示例,告诉大模型图1、图

2、图3的大促logo分别是百亿秒杀节、年中开门红和618超级单品,

让大模型识别图4、图5的大促logo是什么gpt-4o-0513-global:正确率:75%校验腰带文案字体颜色是否正确

(曾测试模型gpt-4o-0513-global、

gemini-1.5-pro、GPT4V、Claude3_Sonnet)例2、校验图片中是否有“健康节.聚划算”和

团”,如果有校验字体颜色是否为白色;例3、判断图中是否包含字符“618.聚划算”和

”,如果有618聚划算”和“热卖中下单立抢”

红色“x月xx日00:00开“热卖中下单立抢

,校验颜色是否为Al图片校验调研初

:对大促氛围图片中的logo/文字校验正确率已经达到90%以上,图片中文字颜色校验正确率也能达到75%,多模态大模型对图片理解和判断能力能够满足使用需求,基本达到可用标准,可以通过构造和调试prompt,将AI图片校验提效全链路大促氛围预演;QE

方案设计大

验大模型平台LLM

API评测结果存储DB测评报告可视化以大促全链路氛围预演图片校验为样板间,打造导购链路使用多模态大模型图片校验巡检通用能力,提高大促全链路氛围预演图片校验效率和正确率,节省人力,s/s+级

促全链路大促氛围预演95%场景接入自动化校验无需人工介入,

a/a+

大促全部接入AI校验,避免问题暴露线上引起运营工单;商品ID封装API获取商品获取商品和大促映射策略抽取Prompt模型评测Prompt实

例化明确校验规则SchedulerxODPS

DB商品ID招商大皮方案设计多模态大模型已经可以实现基于图片或者视频的智能问答,在视觉理解、视觉描

述、场景文本理解等表现优异营销质量图片校验业务场景较多,完全依赖人工校验,效率低、易出错;部分场

景技术侧保障弱投入,易将问题暴露在线上,只能靠事后运营工单处理,风险高淘/猫表梳理场景精简规则大

索招商表

玩法表背景目标端脚本执行环境安装脚本准备获取图片DB自动化真机

截图沉淀自

图任务调度商品图片聚合脚本数据集成Diamond大模型校验详细方案根据预演场景和渠道对Prompt进行细化拆分prompt

基础参考获取招商配置

活动和氛围映射

校验参考值详自动化真机获取图片:方案详见下方自动化真机截图设计64+大促预演场景现货+跨店满减

现货+超单双报

现货+前N双报现货+聚切算双报预售+聚切算双报新风潮·聚划算校验结果存储Prompt

细化拆分prompt-3.0/2.0

prompt-pcprompt-

手猫prompt-

全链路iconQE

方案设计大模型校验

icLLMAPI19个渠道/点位详情3.0/2.0搜索细Prompt

参考值自动映射新风潮-超级单品新风潮·热销爆款新风潮新风潮·超级秒杀手猫详情/OD首猜PC会场购物车报告可视化3自动化真机截图方案设计自动化截图环境准备:独立安装TMQ

环境和设备,保证截图环境稳定性;自动化截图商品准备:mock优惠规则仅保留氛围透出强依赖,保证截图商品稳定性;大促详情腰带腰带素材配置渠道中皮大促全链路iconicon素材配置渠道中皮大促腰带透出核心要素大促icon

透出核心要素中皮id规则QE

方案设计创建长期优惠购物车/搜索/推荐等服务实时校验规则mock跳过规则校验氛围二方包素材获取素材组装截图场景渠道截图链接(中皮id+商品id+

渠道)截图场景渠道截图链接(中皮id)任务调度打开截图

链接自动化真

机截图截图能力

沉淀返回图片DB氛围二方包素材获取素材组装实时校验规则mock环境搭建

真机托管

脚本准备获取腰带截图链接获取icon截

图链接mock服务截图用例生成ump

校验优惠icon

图片详情服务截图服务腰带图片工程(截图)截图服务

工程(大模型)大模型[氛围巡检]3.4:

发起截图任务3.5:

同步创建结果3.7:异步截图3.8:

截图结果3.9:结果处理3.13:异步多次校验3.14:校验结果1:

发起校验巡检任务2:同步创建结果a4:

巡检结果1.1:前置处理3.1:数据检索3.2:

同步返回结果3.3:

发起截图任务3.6:

同步创建结果3.10:戳图结果3.12:同步调用结果3.15:大模型校验结果QE

Con

全球软件质量&效能大会

深圳站QE

方案设计技术方案设计工程(巡检)

工程(数据清洗)全球软件质量&效能大会PART

03项目挑战和策略888.多模态大模型图片校验挑战和措施挑战

挑战措施

措施数据准备

动化截图大模型校验挑战

施线上AI巡检每个活动校验场景

较多(40+通用场景),数据

清洗难清洗;上线前Al校验依赖自动化截图

提前预览氛围配置是否正确,但是会存在招商商品报名晚于

氛围配置,导致截图没有商品梳理规则且多人评审,ODPS数

据清洗,过滤下架/测试商品创建长期优惠,和开发共建,在

业务工程里mock

掉优惠和规则实时校验,使自动化截图排除商

品影响,只保留氛围表达强依赖;校验范围难确定,无法确定某

个大皮没有配置氛围,到底是

业务预期还是业务漏配置;和开发共建,支持可以筛选出业

务已经配置素材的大皮活动来作

为校验范围;>分层次给大模型输入,每层次增加详细示例和特殊说明:层层递

进,步步为赢;Prompt

拆分和细化,根据业务

场景细化prompt;>

引入AIC算法辅助校验;QE

项目挑战和策略编写Prompt经验不足,大

模型校验准确率低,离真

正投入使用有很大差距;>

挑战-编写Prompt

经验不足,准确率低,大模型校验不准确;测试策略:分层次给大模型输入,每层次增加详

细示例和特殊说明:层层递进,步步为营;·

根据校验场景和渠道对Prompt详细拆

分提高准确率;·引

入OCR

算法辅助校验;·

对比调试多种模型:gpt-4o-0513-

global、qwen-vl-max;esae-”"role";“systen”,"content":“你是一位电商的商品详情页图片审核师,需要判断商品详情页中围大腰带的背景和背景上的字体颜色是否正确.“"role”;“user,

1、告诉大模型所封璃的角色content":("type";"text","text":“本次对话你需要判断筑围大腰带上的字体醒急是否正确,你需要按园以下规则进行判断。n1.如果氟围大腰带的背景是黄色,黄色背景上的所有字体只能是红色in2.如果氛围大腰带的背最是绿色,绿色背景上的所有字体只能是白色或黄色n

3.

你需要判断正奉与否并结出思考理由,你需要将结果以jsan格式输出,输出示例胜惨考:1“"result\";\"true\”,“曜由\":\“背景是黄色,字体是红色。所以结果是正确\“"”,“{\"resut\";"false\”,

“理由\";\“背景是黄色,字体是白色,所以结果是错误

V“}”2、金局层面,用尽可能简洁的语言描述大模型费执行的任务。并胡确Djson格式输出结果“type”;"text","text”:“本次对话你需要通过下方措出的示例,参考如何识廓氛围大腰带上的字体颇色是否正确"

_"

:

_urt",url":"-hangzhou,05s-cdn.aliyun-inc,com/6855711/1724914749712.png"urinimagetype”:"““type”:"inage_url",“image_art”:(urt”;"-bagzhou,05s-cdn.aliyun-ine,com/6059697/172534949261,png"“type”;"text","text":“{"result\":Vtrue\",

“喱由":\"背照是绿色。绿色哲景上的字体为白色或黄色,所以结果是正确\"}""type”;"text"",”text”:“郭图大腰带育景上需要校油的常足字体始你就步考:1“99百亿壁典架划牌”,《“续胱装聚划郸”,\”大牌正品价档保障”,“00:00开菌”,”厂货节聚划聘”,”购车节聚划算·

"“QE项目挑战和策略"urt":"/6856845/172493865521.png""max_tokens";1024,respense_format":("type":"json_object",platferminnut":"type":"text","text";“"result\";Vtruev",

“理由”:\"育景是黄色。黄色背景上的字体都为红色,所以结果是正确\”)

1,"type":"inage_url",

“image_url”;(4、细眼粒度详缩城入示例,方便大模型准确找到要校轴对象3.全局常愿,指出全局承例。并按json格式输出结果全球软件质量&效能大会PART

04项目结果和沉淀888.QE

项目结果和沉淀多模态大模型氛围校验核心成果沉淀多模态大模型图片校验巡检能力支持场景大促通用场景64+,均走自动化截图+Al校验口大促+跨店满减口大促+官方立减口大促+聚划算双报口大促+前N

双报口大促+聚划算双报+官方立减口大促+超单双报口预售+热销爆款双报□……已支持端/渠道数量口端:支持手淘、手猫、淘特3端;口

详情渠道8个:详情3.0、详情2.0、PC、H5、手猫详情、手猫OD、

淘特2.0、淘特3.0;口

全链路icon

标10+:购物车、搜索、推荐、店铺等准确率口大促腰带logo/

颜色/全链路氛

围icon

标:95%+口口自动化bug

统计自2024.830上线以来

大促:17个;口

小促:双11期间发现bug17

个;口大模型校验任务调度

-

>大

促数据玩法清洗->自动化

真机截图->调用大模型图

片校验->结果呈现业务确支持大小促A/A+小促月均70+场;

S/S+大促月均1-2场;QE项目结果和沉淀大促保障提效

小促稳定性保障>

大促保障

>小促保障:月均支持70+小促,月均5800张图,小促氛围保障由之前技术弱投入到现在自动化巡检来保障氛围表达是否正确,发现有效问题16个,避免将问题暴露在线上引起运营工单;月均支持1-2场S级/S+

大促,S2

期间发现有

效问题20个,每月S

级大促无特殊情况不再组织全链路氛围预演,节省人力204人日/年;活动级别:行业分组:活动节奏时间:

现货-天猫官方大促AI校验范围主站氛围校验开始校验查看结果AI校验范围会场氛围校验

开始校验查看结果活动ID:

4活动级别:行业分组:活动节奏时间:

作废中皮AI校验范围

主站氛围校验

开始校验查看结果AI校验范围会场氛围校验

开始校验查看结果报名中Al校验范围淘特氛围校验开始校验查看结果售卖中AI校验范围淘特氛围校验

开始校验

查看结果QE项目结果和沉淀产品展示Al校验范围主站氛围校验

开始校验查看结果

AI校验范围

淘特氛围校验

开始校验查看结果Al校验范围

会场氛围校验

开始校验

查看结果AI校验范围

主站氛围校验

开始校验查看结果

AI校验范围淘特氛围校验开始校验查看结果Al校验范围

会场氛围校验

开始校验

查看结果2025年活动ID:

45956活

:行业分组:活动节奏时间:汇-二活动节奏时间:

作废中皮2025年活动ID:

4活动级别:

1.行业分组:活动节奏时间:

现货-淘宝大促活

:活

:报名中售卖中查询4

/

页QE项目结果和沉淀14/19手猫店镇-正式

手猫擅索-正式★****

253万隐继推荐宝

贝手猫购中后推荐-正式回筛选二产品展示主站氛围校验校验结果活

动ID:4活动时间:

校验时间:2手猫详情_天猫大促+聚划算…

校验成功◎假

施四极速退款7天无理由退换QE项目结果和沉淀创建人:校验成功率:100.00%(66/66)手猫详情_天猫大促+前n_…产品展示产品展示【巡检通知】>每天通过定时触发当前时间段生效的大小促

氛围表达是否正确,通过钉钉通知同步结果;【巡检任务结果通知】巡检任务已执行完毕,请查收执行结果!

务ID:1012任务类型:会场标校验查看详情【巡检任务结果通知】巡检任务已执行完毕,请查收执行结果!

任务ID:783任务类型:淘特巡检查看详情咆

☆logo校验①logo错误信息①聚划算预热校验①聚划算预热错误信息①

聚划算正式校验①

聚划算0

功0

大促icon应该是母婴日,Jogo展示错误识别出大促腰带bogo氛围错误0

大促icon应该是母…0

功0

功0

功0成功0

功0成功成

功成功大促腰带颜色校验正确0

功【巡检任务结果通知】巡检任务已执行完毕,请查收执

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论