2025QECon全球软件质量效能大会:生成式AI在CV算法测试中的创新实践_第1页
2025QECon全球软件质量效能大会:生成式AI在CV算法测试中的创新实践_第2页
2025QECon全球软件质量效能大会:生成式AI在CV算法测试中的创新实践_第3页
2025QECon全球软件质量效能大会:生成式AI在CV算法测试中的创新实践_第4页
2025QECon全球软件质量效能大会:生成式AI在CV算法测试中的创新实践_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QECon2025全球软件质量&效能大会

·深圳站2025

GLOBAL

SOFTWARE

QUALITY

&EFFICIENCY

CONFERENOE

SHENZHENZHAN生成式AI在CV算法测试中的创新实践李英俊|小米集团

CV

测试专家团队成员:郑鹏博,赵宁李英俊小米集团CV测试专家QECon全球软件质量&效能大会02

数据集热构建

Al相册搜索benchmarkQECon全球软件质量&效能大会AIGC(SD,FLUX)

生图

能力构建目录CONTENTS全球软件质量&效能大会PART

01构建AIGC(SD,FLUX)

生图

能力88802时效性供应商数据采集通常要经过

采集方案制定,招标,合同

签订,试采集,正式采集,

数据验收等不同环节,整个

流程走完通常需要三个月以

上,耗时过长,很难跟上项

目排期03不可撤销数据采集一旦完成,供应商

就不可能再按照测试团队的

要求做任何改变,没有后悔

药。如果测试需求发生变化,

只能重新采集数据集,成本

过大01长期性CV测试团队通常不会只测试

一种CV算法,所以测试数据

集的采集和构建是一个长期

而复杂的过程,需要根据不

同的测试需求,随时采集和

构建不同的测试数据集QE构建CV测试数据集面临的问题以构建人像聚类数据集为例场景室内:卧室,办公室,教室,商场室外:海边,植物园,公园,街道光照正常光,强光,暗光,逆光CV

测试集QE

高质量CV测试数据集需要考虑的维度微调SD大模型,用提示词来创建

数据集?附属物头饰:帽子,眼镜,耳环,围巾手持物:手机,书,水杯,球类

背包,动物拍摄拍摄角度:平拍,俯拍,仰拍分辨率:1k,2k,4k,>4k

全身照,半身照,遮挡人物性别,年龄,数量,人种

服装,表情,姿势版本发布时间参数量主要改进点解决的问题StableDiffusionv1.42022年8月约860M-基础文本到图像生成能力-基于LAION-5B子集训练-使用CLIPViT-L/14文本编码器初步实现高质量文本生成图像,但存在细节不足和多样性受限

的问题。StableDiffusionv1.5*2022年10月约860M-优化训练数据和微调策略-提升图像细节和风格多样性改善生成图像的清晰度和多样性,修复v1.4中部分提示词(prompt)不敏感的问题。StableDiffusionv2.02022年11月约900M-升级文本编码器至OpenCLIPViT-H/14-支持768×768分辨率生成-开放模型权重解决低分辨率图像生成限制,提升文本对齐能力;因更换编码器需用户调整提示词风格。Stable

Diffusion

v2.12022年12月约900M-改进生成真实感和艺术风格-调整NSFW内容过滤策略缓解v2.0因过度过滤导致的生

成僵化问题,提升开放域内容

的生成灵活性。StableDiffusionXL*2023年7月6.6B(基础+精炼模型)-多模态融合(文本+图像输入)-支持1024×1024分辨率-优化复杂提示词理解解决小模型对复杂语义理解不

足的问题,显著提升高分辨率

图像的细节和连贯性。StableDiffusion

3.02024年2月8B-引入多模态扩散变压器(MMDiT)架构-提升文本理解和拼写能力-开放API接口提升文本到图像生成的准确性

和多样性,增强模型的可用性

和易用性。FLUX.1*2024年8月约12B-基于StableDiffusion3的MMDiT架构-引入旋转式位置编码(RoPE)-并行注意力层设计改进图像生成质量,优化细节

表现,提升模型的生成能力和

效率。SD

大模型发展历程注:带*的版本后续会用到构建训练数据集,需保持人物一致性SD1.5/SDXL:选择同一个人物的照片训练LoRa,

只为同一个人出图;不同的人需要训练不同的LoRaFLUX:收集多个人物,每人3-4张图,每人拼成一张图,形成多张图;能生成多个人物,且人物保持一致性在预训练模型的权重矩阵上添加低秩矩阵A

和B

的调整,从而实现对模型的微调,而不是直接

修改原始的预训练权重。这样,模型在保持预

训练知识的同时,能够适应新的任务或数据训练过程中,W

被冻结,不接受梯度更新,而A

和B包含可训练参数,微调的所有“新知识”都

保存在A

和B里面在推理时,将左右两部分的结果加到一起即可,

h=Wx+BAx=(W+BA)x,只要将训练完成的矩

阵乘积BA

跟原本的权重矩阵W

加到一起作为新

权重参数替换W

即可LoRa微调原理h大模型

预训练参数W∈Rd×dX核心思想训练过程推理过程B=0rA=N(0,o²)SD

生图能力010203QE

SD1.5/SDXL

微调要点微调数据集构建选择同一个人物的照片,要求背景简单,以

素颜为主,没有太多首饰;以人脸为中心裁

切,最长边小于1024,为每张图创建提示词微调方案选择如果能找到10-20张某一人物的照片,可以用经典的LoRa方案来微调;如果只能找到3-9张,则采用类LoRa

的方案,比如Text

Inversion进行微调STABLEDIFFUSION底模选择测试工作中主要需要写实风格的图片,因此这里选择麦橘写实V6

模型做为底模训练LoRa;

当然,也可以根据自己的实际需求选择合适的底模QE

SD1.5/SDXL微调应用案例(人像聚类)训练集(12张)

聚类效果训练集(6张)

聚类效果3jpg7jpg10.jpg6jpg9.jpgSDXLText

Inversion1.jpg05jpg06.jpg01.jpg

02.jpg03.png

04.pngSD1.5

LoRa12.jpg8.jpg5.jpg2.jpg4.jpg11.jpg微调关键参数linear_alpha:16resolution:[512,768,1024,1280,1536,1920]

Ir:1e-4微调数据集构建收集10-30个人物,每人

3-4张图,把每个人的图以人脸为中心进行裁切,

然后拼到一起,形成10-

30张图做训练数据集底模选择根据情况选择FLUX.1[dev],FLUX.1

[schnell]

或第三方模型STOIQONewReality作为底模;

schnell

生图较快但效果

较差QE

FLUX微调要点(支持故事线生成)FLUX

微调应用案例微调数据集示例(实际没故事线,但能训出故事线效果)生图效果示例(人物无中生有)推理提示词:This

nine-grid

imagecapturestheserenemomentsofanelderlyChinesewomantendingto

hergarden.[IMAGE1]She

kneels

besideabedofbloomingflowers,her

handsgently

pruninga

rose

bush,thesoftmorning

light

illuminating

her

silver

hair;[IMAGE2]she

standswithawateringcan,herfacecalmand

peacefulasshenurturesher

plants;[IMAGE3]...;[IMAGE4].训练提示词:This

four-panelimageshowcasesayounggirl;[TOP-LEFT]aportraitof

her;[TOP-RIGHT]aportraitof

her;[BOTTOM-LEFT]aportrait

of

her;[BOTTOM-RIGHT]a

portrait

of

her.全球软件质量&效能大会PART02数据集热构建888QE

工作流生图工作流

(part1):加

载SD/FLUX模型及LoRa,

填上提示词,即可根据提示词生成需要的图片◎fe-shos-Comyu工作流放大工作流

(part2):根据情况,把图像扩大到2k,4k,8k等,增强多样性QE

工作流裁切工作流◎

out-ComfyUC

▲不安全

10.30.121.144Comfyul

工作流2

◎T0.0082一X架构设计·

基础层采用Florence-2进行图像的信息抽取和智能分析,提

供图像描述,OCR信息,目标

检测等可视层采用FiftyOne

(图像数

据管理和分析工具)整合存储多种来源的图像数据,提供直

观的可视化界面,方便进行数据管理和分析结果的查看·应用层采用Elasticsearch进行

高效的图像检索,快速定位符

合特定条件的图像·

最后通过数据增强技术,扩充图片数据的规模和多样性,缓

解数据不平衡基础层元数据数据库可视层应用层ElasticsearchFlorence-2信息抽取Fiftyone

数据集管理平台旋转、模糊、锐利、噪声、超分SD/FLUX

图片数据集(AIGC

生成)自建图片数据集(人为拍照等)开源图片数据集(COco,ImageNet等)热构建数据集目标检测(类别,位置)图片描述(Caption)OCR

信息热构建query

数据集热构建平台时间戳、GPS

信息(可选)图片集Florence2flepath2025-04-24.09:02:19ereated

at2025-04-24,09:07:38lastmodified.atNoneclip

uniquenesyoungqirinpajamasplayintoyOTHER基于FiftyOne

构建,通过Florence2

解析到图像信息,如

、caption

等,再通过FiftyOne

展示和管理三QE

数据集可视化QE

应用案例数据获取:通过关键词获得对应的图像,支持相册搜索benchmark

中的数据集构建图像搜索输入搜索关键词humanwearinghat数据增强:控制图像的亮度,对比度,饱和度,旋转,模糊等,增强图像的多样性全球软件质量&效能大会PART

03AI相册搜索benchmark888标签的用户覆盖度100000%90.000%80.000%70.000%60.0000%50.000%40.000%30.000%20.00%10.000%0.0000%时间、地点、OCR用户有明确的搜索需求,此外根据照片标签的用户覆盖率选top300,可覆盖85%照片,整合为头部垂类相册标签分布。由此根据用户真实搜索数据,拆解出“搜索四要素”Al相册搜索query关键要素拆解地点事件时间主体搜索四要素Al相册搜索2025年1月8号星期三8时20分30秒春节夏至秋天阴历、阳历去年上个月昨天上星期一晚上去年中秋节2025年春节昨天下午在1月搜5月,应解析为去年5月春节假期中搜春节X

年X

月X

日星期XX时X分X秒节日节气季节历法星期时间段绝对+相对绝对+绝对相对+相对未来时间半未来半已发生QE

搜索要素拆解-时间绝对时间相对时间组合时间特殊时间时间中国、美国河北省、北京市、安大略省青岛市、大兴安岭地区、加利福尼亚州涞水县、三河市、海淀区、施瓦宾区小岗村村民委员会、三里屯居民委员会公交站、火车站、大兴机场XX酒店、XX

宾馆XX电影院、XX游乐场XX

图书馆、XX

医院、XX

学校搜索要素拆解-地点地级行政区县级行政区乡级行政区村级行政区景

点购

物交

通住

宿娱乐休闲公共服务饭店、商场、

公园、动物园、海洋馆海边、沙漠、河流、湖泊、山

峰青岛的海边、海边的青岛北京市海淀区、纽约曼哈公园里的小河绝对地点地点地理位置POI地

点人文地点自然地点绝对+相对绝对+绝对相对+相对9:59…Q

车找到17项内容10:00?披

萨找到1项内容10:00Q

花找到26项内容回

会取

搜索要素拆解-主体青少年年龄老年人数

量合影服饰颜色方位人体部位人物表情名人特定人物聚类特定照片种

类数量-颜色方位一程度配饰特定动物聚类数量颜色人物+票证卡种类数

量方

位一程度人物+食品种类数量一颜色方位形状程度人物+物体人物+植物票证卡食

品物

体植

物OCR回

3取

消主体取消人文事件事件动植物事件自然事件看电影、打牌、过生日办公、开会、看病、收银化妆、敷面膜、理发让座、慰问、捐款吃火锅、喝汤做饭、整理床铺、刷厕所打篮球、滑雪、攀岩遛狗、喂猫、养鱼叼盆、舔毛、摇尾巴开花、花落、叶落、随风飘、绽放搜索要素拆解-事件社交娱乐工作学习关怀与帮助饮食家务运动锻炼宠物/动物相关动物事件植物事件下雪、下雨、打

雷、火山喷发、

日落、极光同义词query2白含数导网类型queryquery构建专项似是而非query负向query特定称谓query基于标签,泛化用户可能会搜的query,如“菜肴”标签可泛化成火锅、烧烤、红烧

肉等query

(人工+大模型泛化)搜索query构建方法构造同义词query,

义词query,

似是而非

query,

歧义query,

负向query

等专项逆向分析竞品标签,补充到各维

度query集合QE搜索query

构建方法01单要素“上月攀岩”“北京市的秋”“2024年的千媾”Q

搜索你的图库…03完整句子02多要素大类垂类子垂类query示例时间绝对时间X年X月X日2025年,25年,1月,一月,8号,8日,1月8号,1月8日,2025年1月8日,

12.11,十二月十一,十二月十一日,十二月十一号,十二月11日,12月十一日,第一季度,1月上旬星期X星期三,周末,礼拜日X时X分X秒3点40分,3点半,3点一刻,下午3点,8时20分,20分10秒,8时20分10秒节日国庆节,五一假期,元旦假期,春节,中秋节,圣诞节,愚人节,情人节,

520节气春分,谷雨,芒种,大暑,秋分,冬至季节春天,夏天,秋天,冬天,深秋,初冬历法农历八月十六,正月初八,二月廿五,腊月二十三,阴历二月二相对时间年今年,去年,上一年,前年,半年前,2年前,两年前月这个月,上个月,半个月前,2个月前,两个月前日今天,昨天,前天,大前天,2天前,两天前,星期本周一,这周二,上星期六,上礼拜五,上周末时间段上午,中午,午后,下午,晚上组合时间绝对+相对星期三上午,1月8号晚上,去年中秋节,上个月20号绝对+绝对2015年国庆节,20年夏至相对+相对昨天下午,冬季的傍晚特殊时间未来时间在1月搜5月,应解析为往年5月一半未来时间一半已发生时间春节假期中搜春节QE

搜索query

构建方法-单要素大类垂类二级垂类三级垂类query示例地点绝对地点地理位置国家中国,美国,俄罗斯,澳大利亚,巴基斯坦,比利时,毛里求斯省级行政区河北省,北京市,香港,内蒙古自治区,安大略省(加拿大)地级行政区青岛市,大兴安岭地区,香港岛,玉树藏族自治州,伦敦市(英

国),加利福尼亚州(美国)县级行政区涞水县,三河市,海淀区,滨海新区,大厂回族自治县,阿鲁科尔

沁旗,施瓦宾区(德国)乡级行政区凤凰乡,乌镇,陆家嘴街道,长阳土家族自治乡,扎兰屯市苏木,

香榭丽舍大街(法国)村级行政区小岗村村民委员会,三里屯居民委员会POl地点餐饮海底捞,星巴克,XX餐厅,XX饭店景点故宫,国家博物馆,朝阳公园购物三里屯,成都万象汇,万达广场,XX商场交通XX公交站,XX地铁站,大兴机场住宿XX酒店,XX宾馆,XX民宿娱乐休闲XX电影院,XXKTV,XX游泳馆,XX动物园,XX海洋馆公共服务XX图书馆,XX医院,XX学校,XX派出所相对地点人文地点饭店,商场,室内,公园,卧室,客厅,院子,亭子自然地点-海边,沙漠,河流,湖泊,山峰,街边组合地点绝对+相对-青岛的海边,海边的青岛绝对+绝对-北京市海淀区,纽约曼哈顿(美国)相对+相对公园里的小河边QE

搜索query构建方法-单要素大类垂类子垂类二级垂类query示例主体人物性别男人男人,男性,男士,男生女人女人,女性,女士,女生年龄婴幼儿婴幼儿,宝宝,幼儿,婴儿青少年小孩,孩子,儿童,少年中年人中年人,中年男人,中年女人老年人老年人,老人,老爷爷,老奶奶数量单人一个人,

一个男人,

一个女人,

一个小孩,单人照两人两人,两个男人,两个女人,

一男一女,两个小孩三人三个人,三个男人,三个女人,

一家三口,三个老人合影合影,合照,集体照,团体照服饰-穿短袖的男孩,穿裙子的女孩,戴眼镜的男人,背着包的老人颜色-红头发的男人,穿白色连衣裙的女孩,穿黑色西装的男人方位-在小孩身后的老人,门后的小孩程度-白发苍苍的老奶奶,胖嘟嘟的小孩,瘦弱的老爷爷人体部位-手,指甲,头发,牙,眼睛,腹肌,屁股,腿,耳朵表情-微笑的男人,大笑的小孩,哭泣的孩子,愤怒的老师,惊讶的老奶奶职业-警察,军人,医生,护士,志愿者,演员等名人-雷军,周杰伦,马克思,薛之谦,刘亦菲,杨幂,李白,鲁迅等特定人物聚类-爸爸,妈妈,儿子,女儿,老公,老婆,小明特定照片-证件照,毕业照,全家福,婚纱照,自拍照,大头照QE

搜索query

构建方法-单要素大类垂类子垂类query示例主体动物种类猫,狗,鸟,鱼,龟,橘猫,金毛,鹦鹉,金鱼数量两只猫,三只狗,一只猫和一只狗颜色白色的小猫,三花猫,黑色的狗方位沙发上的小猫,桌子下的金毛,躺在小狗身上的小猫配饰带铃铛的猫,穿粉衣服的金毛程度大型犬,长毛猫特定动物聚类圆圆,咪咪,花花,旺财人物+动物我的猫,和小朋友一起玩的拉布拉多票证卡种类票据:发票,电影票,飞机票,火车票证件:身份证,护照,户口本,驾驶证卡:银行卡,信用卡,社保卡数量一张银行卡,三张电影票,一张身份证和一张社保卡颜色绿色的毕业证方位桌子上的身份证,社保卡上面的身份证程度褪色的电影票人物+票证卡小明的护照,女孩手里的三张电影票QE搜索query

构建方法-单要素大类垂类子垂类query示例主体食品种类包含甜点,酒,主食,饮料,水果,中餐,西餐,海鲜,蔬菜,零食,调料等数量双层蛋糕,三层蛋糕,一盘饺子,两碗馄饨颜色红苹果,青苹果方位桌子上的一碗馄饨程度发霉的馒头,大瓶可乐人物+食品手里的汉堡,手边的咖啡,嘴里的零食,叼着的棒棒糖物体种类交通工具,生活用品,数码/电子产品,学习用品,办公用品,玩具,运动/健身设备,家具,服饰,

餐具厨具,工具,化妆品,洗护用品,电器,乐器,医疗用品,游戏等(可进一步细分)数量两辆汽车,三支口红颜色紫色的耳机,粉色的拍立得,白色的桌子方位水杯旁边的鼠标,大货车上的小轿车程度新书,旧书,泛黄的图纸人物+物体手里的游戏机,叼着的烟斗,嘴唇上的口红植物种类花,草,树,多肉,荷花,玫瑰,花束,花篮,蒲公英,苔藓,枫树,柳树,松树,棉花,椰子树,

仙人掌等数量两盆仙人掌,一束玫瑰花,两颗松树颜色红玫瑰,黄玫瑰方位窗台上的仙人掌程度枯萎的树叶人物+植物手里的玫瑰花,情侣旁边的樱花树OCR文本匹配时间,地点,姓名,数字等(可进一步细分)QE

搜索query

构建方法-单要素大类垂类子垂类query示例事件人文事件社交娱乐看电影,打牌,打麻将,看演唱会,游玩,过生日,结婚,比心,放烟花,

跳伞工作学习办公,会议,看病,收银,做实验,写字,画画个人护理化妆,敷面膜,理发,刮胡子,做美甲关怀与帮助让座,慰问,捐款,募捐饮食打饭,吃火锅,喝汤,喝水家务做饭,整理床铺,擦地板,刷鞋,睡觉运动锻炼打篮球,踢足球,骑车,瑜伽,锻炼,乘车,开车,滑雪,攀岩,打乒乓球,打羽毛球,踢橄榄球,玩棒球宠物/动物相关遛狗,喂猫,养鱼,看熊猫动植物事件动物事件叼盆,舔毛,摇尾巴植物事件开花,花落,叶落,随风飘,绽放自然事件下雨,下雪,打雷,火山喷发,日出,日落,极光QE搜索query

构建方法-单要素QE

搜索query时间+地点时间+主体地点+主体时间+事件地点+事件主体+事件○构建方法-多要素O

时间+地点+主体O时间+地点+事件◎地点+主体+事件三要素双要素注:各要素顺序可颠倒O

时间+主体+事件时间+主体时间+地点+主体多要素时间+地点+事件时间+主体+事件地点+主体+事件圣诞节的小孩昨天的小猫4月27号的电影票早上的鸡蛋去年的电脑春天的樱花去年学校里的小猫除夕夜在院子里看烟花23年妈妈在跳舞一对情侣在咖啡厅约会济南的冬天25年的香格里拉东京的学生北京动物园的长颈鹿在韩国拍的护照北京的烤鸭两个女人喝咖啡两个男生打乒乓球小猫舔毛小狗叼盆在巴厘岛举办婚礼在操场踢足球2016年毕业昨天下雪QE搜索query

构建方法-多要素时间+地点地点+主体主体+事件地点+事件时间+事件时间地点时间+地点+主体+事件主体事件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论