2025QECon全球软件质量效能大会:AIGC时代下画质算法的机遇与挑战_第1页
2025QECon全球软件质量效能大会:AIGC时代下画质算法的机遇与挑战_第2页
2025QECon全球软件质量效能大会:AIGC时代下画质算法的机遇与挑战_第3页
2025QECon全球软件质量效能大会:AIGC时代下画质算法的机遇与挑战_第4页
2025QECon全球软件质量效能大会:AIGC时代下画质算法的机遇与挑战_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC时代下画质算法的机遇与挑战董航|字节跳动-智能创作资深算法工程师董航字节跳动智能创作Al画质方向资深算法工程师,主要负责画质算法的研发工作,其负责的超清类算法已经在抖音、剪映、豆包等应用上落地并取得了可观收益。2020年博士毕业于西安交通安大学人工智能学院,长期致力于超分辨率、画质修复以及AIGC编辑等领域的研究,在各类国际会议期刊发表论文30篇,并长期担任CVPR、IJCV等顶级会刊审稿人。·智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。智创智创PM业务PM设计师研发侧模型优化团队编辑画质团队资源团队(数据管理、评测实验室等)·画质修复是指通过技术手段对受损、退化或低质量的图像/视频视频超分·为了提升画质修复算法在真实低质场景下的表现,前AIGC时代往往采用对抗损失loss来提升网络的泛化能力·但对抗训练存在ModelCollapse现象,导致无法规模化提升生成网络和数据集规模,因此导致其无法拟合复杂的真实纹理GeneratorNetworkBk9n64s1DiscriminatorNetworkk3n128s2k3n256s2QEAIGC技术的发展·随着diffusion技术的发展,大模型逐渐涌现出来强大的生成能力,其对于现实世界图像的强大理解,使其可以实现对于图像逼真化的编辑。XTXt(xt-1Xo扩散模型推理过程两个少年在鬼屋,其中走在前面的男孩面露惊恐,跟在后面的男孩则显得很平静。3DCG风格,一只穿着短裤的猫拿着偷的鱼在街上跑,非常害怕的样子,鱼贩子在它身后举着菜刀追QEAIGC技术的发展·借助diffusion大模型中强大的图像先验,画质算法可以更好的拟合真实的高频细节,从而大幅提升画质上限·通过将低质量图像作为控制条件注入T2I网络中,便可以实现一致性和生成能力的平衡编辑类扩散模型无法保证语义一致性√扩散修复模典型的扩散修复模型型可以在保持一致性的同时提升画质细节典型的扩散修复模型QEAIGC技术的发展·更真实的训练数据集·解决扩散模型带来的过生成现象·提升算法速度,降低推理成本111扩散超分成本远高于传统GAN超分过生成现象典型的视频去模糊算法架构现有方法的对齐模块可大致分为两类:1.使用训练完成的PWCNet,SPYNet等网络对相邻帧的运动进行光流估计,并根据光流对特征进行对齐。2.使用可变形卷积(deformable)对相邻帧的运动通过计算偏移量offset进行补偿对齐。但模糊的存在,以及不同帧模糊程度的差异,都会影响上述两种方式的精度。数据集采集过程的时间线:模糊视频:完成拍摄模糊视频后复位i清晰视频:数据集采集过程的时间线:模糊视频:完成拍摄模糊视频后复位i清晰视频:15帧时间中线:模糊视频帧长曝光时间(0.5秒)机械臂按照预设坐标进行移动拍摄场景短曝光时间(0.025秒)AUBOI5机械臂和SonyICLE6000数码相机清晰视频帧模糊帧清晰帧室外含有高频信息的图表·扩散式超分效果提升显著,但耗时增加相当明显·目前的加速方案聚焦于:模型架构压缩(需要大量训练)、步数蒸馏(推导复杂)绿绿MUSIQ:26.59MUSIQ:26.70embeddingsSimilarity-AwEQ\*jc3\*hps14\o\al(\s\up6(Coar),featu)EQ\*jc3\*hps14\o\al(\s\up6(s),r)EQ\*jc3\*hps14\o\al(\s\up6(e),e)EQ\*jc3\*hps14\o\al(\s\up6(H),VH)EQ\*jc3\*hps14\o\al(\s\up6(R),R)ReshapeILRPatchifyCTYrsy0yo自适应采样优化PGS的作用LDMStableSRResShiftDiffBIRLRimageSta的作用25.82LDMStableSRResShiftDiffBIROSEDiff效果和效率同步提升LRimagew/textpromptw/texturepr(b)Real-ESRGAN(c)SwinIR-GAN(d)LDM(e(g)PASD(h)DiffBIR(i)SinSR(j)OSEDiff(b)Real-ESRGAN(c)SwinIR-GAN(d)LDM(g)PASD(h)DiffBIR(i)SinSR(j)OSEDiff动因-扩散模型固有的随机性导致在其视频任务中存在时序不一致。视频帧i+2th视频帧ith视频帧i+1视频帧i+2thRNN层3D卷积/时间注意力模块跨帧层跨帧层分叉推理加速扩散过程视频帧i视频帧i+1Stage-1:粗略语义信息Stage-2:细节语义信息和边缘信息Stage-3:高频信息文本提示:beach文本提示:基础模型本章算法文本提示AbeautifulmountainvillagewithgregrassandhousesAnarrowslotcanyoninthedesert低分辨率输入帧本章算法超分结果withasmallstreamharmonic低分辨率输入帧LQ输入RealBasicVSRUAV落地应用介绍·画质算法组成立于2020年,其中画质超清类一直是组内最核心的技术需求。经过多年的发展我们已经形成了多套不同超清算法构成的的图像超清能力矩阵·目前画质算法已经落地字节全部业务场景,每年贡献XX亿元商业化收入,调用次数XX百亿次。输入GANAIGC输入业界竞品AIGC·为了解决开源AIGC超分严重的生成错误,我们发现推理时的分辨率和参数对效果稳定性极为重要。自适应尺寸调整,模型参数智能质量感知调节模型·为了解决标准版AIGC图像超分较长的推理时间,我们提出基于单步推理技术的轻量版AIGC超分。该超分可以在推理速度与线上GAN超分持平的情况下,显著提升输出清晰度和画面细节,从而实现全场景的画质升级。·在三十张测试集(输出范围1440*960~ (4卡)已经与线上GAN超分耗时持平,自研GAN超分耗时(4K输出)轻量版AIGC超分耗时(4K输出)2.1s○高清组-AIGC优于GAN(case数79):G:S:B=153日常组-AIGC优于GAN(case数96):G:S:B=1○低清组-AIGC优于GAN(case数130):G:S:B=253ee·不同于保真型AIGC超分,生成型AIGC超分以创意生成为优先,尝试在保证【语义结构一致性】的前提下适当放开局部一致性,来激发基模的生成能力,全面提升画面质感。同时基于I2I的推理框架可以开放更多的生成参数给用户。QE生成型AIGC超分·为了将图像生成能力提升到极致,我们采用了【Seedream3.0】作为基模,并在4K高清数据集上训练了一个生成式超分插件来将引入低质量图像。同时为了能够满足4K/8K超分效果,我们还围绕主模型设计了一套超高分辨率121推理系统,可以通过分块推理的方案得到超高分辨率输出。QE生成型AIGC超分输入基础训练优化训练·感受野对齐训练方案输入基础推理超高分辨率推理·超高分辨率推理系统QE生成型AIGC超分输入标准型AIGC超分生成式AIGC超分QE生成型AIGC超分人像-中小人脸海报文字中希b0%人像-中小人脸海报文字中希b0%人像-多人人像-多人风景&建筑风景&建筑插画&动漫播画&动漫风景&建筑风景&建筑插画&动漫商品静物&室内静物&室内商品商品静物&室内静物&室内动物食物竞品2动物食物竞品2竞品3竞品1自研竞品3竞品1自研竞品3QE生成型AIGC超分输入国内知名AIGC超分竞品生成式AIGC超分·为充分利用T2V(文本转视频)基模中蕴含的视频图像先验知识(prior),同时兼顾模型性能与生2345·在营销、影视、动漫、明星、颜值、日常、游戏、新闻、美妆、海报、萌宠共11个综合场景上,轻量级AIGC视频超分的整体效果表现优于线上GAN效果以及头部竞品Topaz,各评分标准均展现出显著正向感知。显著正向感知明显正向感知轻微正向感知无明显感知对比线上GAN对比Topaz整体表现输入AIGCGAN输入AIGC输入AIGC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论