2025QECon全球软件质量效能大会:多模态大模型赋能可解释性画质评估任务-抖音画质大模型应用实践_第1页
2025QECon全球软件质量效能大会:多模态大模型赋能可解释性画质评估任务-抖音画质大模型应用实践_第2页
2025QECon全球软件质量效能大会:多模态大模型赋能可解释性画质评估任务-抖音画质大模型应用实践_第3页
2025QECon全球软件质量效能大会:多模态大模型赋能可解释性画质评估任务-抖音画质大模型应用实践_第4页
2025QECon全球软件质量效能大会:多模态大模型赋能可解释性画质评估任务-抖音画质大模型应用实践_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

范昊天|抖音集团抖音集团-算法工程师字节跳动抖音多媒体质量实验室算法技术负责人,负责多媒体质量相关方向的算法研发工作。硕士毕业于伦敦大学,曾就职于华为和创业公司,21年加入字节跳动,主导构建了抖音端到端多媒体质量分析体系,剪映、即梦生成式机评体系。多次在计算机顶级会议CVPR、ICC质量相关workshop,发表期刊会议文章、中美专利数十篇。全球软件质量&效能大会大模型重新定义下的可解释画质评估任务03抖音画质大模型应用实践未来展望多媒体画质评估任务综述小A是个热爱生活的博主;平时喜欢在社交平台分享旅行日常,偶尔也会开直播带带自己喜欢的小众好物。小A在大理洱海边拍了一组绝美的日落照—一橙红色的夕阳洒在湖面,远处的苍山轮廓清晰,连湖边随风飘动的芦苇穗都根根分明可等她在酒店把照片导入手机、在社交媒体发布后,刷新页面一看却傻了眼:原本清晰的湖面成了一片模糊的橙黄色色块,苍山的线条变得虚虚软软,连芦苇穗都糊成了一团“小毛球”小A最近接了个小众毛衣品牌的带货合作,品牌方寄来的样品。白色的羊毛面料上有细腻的菱形提花,凑近看能清晰看到纱线交织的纹理,摸起来也柔软亲肤小A打开直播软件开启直播,特意选在光线充足的客厅直播,还准备了微距镜头,打算给毛衣纹理拍个特写。可直播一开始,她就发现不对劲:镜头里的毛衣纹理像是被“磨平”了一样,原本清晰的菱形提花变得模糊不清,连面料的细腻感都打了折扣。prompt随意编辑图像,并且可以让图像变清晰。于是她找到了之前在大理旅行拍摄的照片,想通过ai“修复”一下,把背景内容复原。结果图像主体变成了一只猫QE内容生产范式变革——多媒体体验评估演进专业化内容生产用户生产内容Al生产内容质量高,内容有限质量参差,内容丰富生产效率高亮度对比度过欠曝基础画质多模态效果噪声强度静态噪声动态噪声纹理细节边缘细节全剧细节基础画质多模态效果色便程度QE画质——多媒体核心感知维度生产端服务端端到端链路消费端抖音端到端生产消费链路人偏好高质量的视觉效果更高质量的视觉效果往往带来更高的码率和成本投入需要通过增强算法、档位决策等手段,兼顾画质、成本、性能的平衡。成本成本比特率画质损失对焦一一致性大规模/细粒度高精度&高性能Table1:IncomparisontoexistingT2Imodenotations(Ann.).Furthermore,EvalMuse-40Koffersfine-grainedannotationsattheelement(Ele.)levelandelementsintodifferentskillsinimage-textalignment.ingeneratedimages.ToensurereliableevaluationofautomatXXX十XX√X5√X6√X48√大模型重新定义下的可解释画质评估任务输出结果单一精度一般输出结果单一精度一般可解释性差QEVLM重新定义可解释性画质评估任务-单图jaggededges,OverallQualityAnaltoysonthetopshelf,anQEVLM重新定义可解释性画质评估任务-多图同场景下细节对比,归因分析GPT-40GenerMulti-choicequeMILPIndividualdistortionassessmeReferringgrounSetofDistibutionShifEQ\*jc3\*hps12\o\al(\s\up6(ege),Ac)EQ\*jc3\*hps12\o\al(\s\up6(n),c)iStep1:BriefdescriStep2:Findandanalyzedistojaggedanduneven,creatingastaifocus,whilethebackgroundisblurred.Step4:Analyzeoverallquaimagequality.ThebluronthebackgroundteeshaslontheoverallimModerateoutoffocusbluraffectstheleftsideoftheimage,wherethesilhouetteofapersonisvisible.ThisModerateoutoffocusblur(bax1)affectsthesilhoueteofforegroundchild.Thelackofclarityaffectstheperceptionofthesilhouette'sformanditsinteractiModerateoutoffocusblur(bax2)affectsbackgroundtrees.Thesetreesappearlessdefined,withsoftenedStep2:Analyzeeachoccurren(position,severity,impact,signioutoffocusblurintheimaoutoffocusblurintheoutoffocusblurintheima更好的打分拟合策略让大模型学习分布而不是分数(NIMA、DEQASCore)scm:3.38±053BetterSupervisedFine-tuningforVQA:Integer大模型对整数分数的打分更加敏感(IOVQA)BaihongQian¹,HaotianFan¹,WenjieLiao¹,YunqiuWang¹,TaoLi¹,andJunhuiCui¹ViDA—UGC的数据从多个UGC数据中进行采样,计算每张图像的low-level特征,并通过样,保证各个特征维度的分布均匀所有数据由图像处理研究人员组成的专业团队进行审核与校对,每张图像会有超过五名标注员进行校准QEQECon全球软件质量&效能大会·上海站从从ViDA-UGC中提取了476个样本作为Benchmark数据,以衡量VLM的单图画质感知能力。支持设数十种是失真类型,支持在质量描支持设数十种是失真类型,支持在质量描述、质量定位、质量感知三大可解释图像质量评估任务上对VLM进行系统性评估。QEQECon全球软件质量&效能大会·上海站Modelvariant)TraininQ-Bench222223通过强化学习,对齐主观偏好抖音画质大模型应用实践智能断言2.点击评论3.点击编辑2.点击评论3.点击编辑测试结果埋点断言放大对比自动报告产出自动报告产出评估置信度提升QE迈向感知修复一体化的统一大模型识别画质退化类别识别退化严重程度识别退化区域对期望的高质量图片的信息描述针对不同画质退化类别的恢复能力针对不同退化严重程度的恢复能力针对局部退化区域的恢复能力根据用户描述决定恢复效果目前VLM对于同场景的内容感知区分能力较差,更好的实现画质对比需要需要克服这一难题正逆序一正逆序一调换输入顺序调换输入顺序流群抖音多媒体评测实验室扫一扫上面的二维码图案,加我为朋友。全球软件质量&效能大会关注公众号关注公众号为企业人才培养需求提供多方位的讲师课程推荐,在线学习质量把关,资料学习推荐及直播课堂服务。技术峰会内训定制技术峰会内训定制在线课程数据库质量管理前端开发作为企业第三方专业人力提升培训服务供应商,秉承互联共成长的理念,恪守客户实际业务需求为第一优先级的本职。我咨询电话:010-657980492025全球软件质量&效能大会2025GLOBALSOFTWAREQUALITY&EFFICIENCY◎北京希尔顿逸林酒店(3层宴会厅)查看更多会议详情专场规划专场规划数据治理和知识工程AI原生应用的质量评测两场3小时深度工作坊两场2小时闭门会2025智能时代软件工程技术大会专场规划专场规划

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论