易观智库-人工智能行业AIGC产业研究报告2023：图像生成篇

上传人：策*** IP属地：山西上传时间：2023-09-28 格式：DOCX 页数：32 大小：507.25KB 积分：19.9 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

AIGC产业研究报告2023—图像生成篇confidentialandprotectedbycopyrightLawsl序言图像作为人工智能内容生成的一种模态,一直在AlGC领域中扮演着重要角色,由于图像生成应用的广泛性和实用性,使其受到学术界和产业界相当多的关注。近年来,图像生成技术也取得了很多关键性突破,从经典的GAN技术到目前主流的扩散模型,以及在此基础效果更好的算法和模型,极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时,生成速度和稳定性的提升、可控性和多样性的增强,以及数据隐私和知识产权等问题,也需要在图像本报告将聚焦于图像生成的技术发展和产业应用情况,提出影响模型应用能力的关键因素、商业化过程中的落地挑战,并展望未来的发展方向,以期为AlGC领域的应用开发者和使用者提供参考和易观分析:E-mail:ygfx@ 12主要类型和应用领域 13技术发展的关键阶段 14主流模型实现原理及优缺点 3 3 45影响模型应用能力的关键因素 46典型产业应用场景 57商业化过程中面临的挑战 7 7 88前沿探索与趋势展望易观分析版权声明2023 关于易观分析易观分析:E-mail:ygfx@lll图2-1:图像构成的主要类型 1图3-1:图像生成技术发展的关键阶段 2图4-1:国内外图像生成代表模型 4图5-1:影响模型应用能力的关键因素 4图6-1:图像生成典型产业应用场景 6图7-1:图像生成商业化落地挑战 8易观分析:E-mail:ygfx@1图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同,图像生成主要包括图像合成（imagecomposition),根据现有的图片生成新图像（image-to-image),以及根据文本描述生成符合语义的图像（text-to-image)等。2主要类型和应用领域根据图像构成的类型,图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图,在实际应用中,模型的效果表现主要体现在生成图像的质量和图像的多样性,其在平面设计、游戏制作、动画制作等领域均有广泛的应用,另外,在医学影像合成与分析,化合物合成和药物发现等方面,图像生成也具有很大的应用潜力。3技术发展的关键阶段作为计算机视觉领域的重要组成部分,图像生成的技术发展大致经历了三个关键阶段:易观分析:E-mail:ygfx@2.GAN生成阶段生成对抗网络（GAN)是上一代主流图像生成模型,GAN通过生成器和判别器进行博弃训练来不断提升生成能力和鉴别能力,使生成式网络的数据愈发趋近真实数据,从而达到生成逼真图像的目的。.自回归生成阶段自回归模型进行图像生成的灵感得益于NLp预训练方式的成功经验,利用Transformer结构中的自注意力机制能够优化GAN的训练方式,提高了模型的稳定性和生成图像的合理性,但基于自回归模型的图像生成在推理速度和训练成本方面的问题,使其实际应用受限。.扩散模型生成阶段对于前代模型在性能方面的局限性,扩散模型（DiffusionModel)已经使这些问题得到解决,其跨模态图像生成需求,则需要结合CLlp进行,CLlp基于文本-图像对的训练方式能够建立跨模态的连接,显著提升生成图像的速度和质量。目前,业内主流且生成效果优秀的图像生成产品主要是基于扩散模型和CLlp实现的。易观分析:E-mail:ygfx@34主流模型实现原理及优缺点4.1主流模型解析.扩散模型（DiffusionModel)1)实现原理扩散模型是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像。扩散模型通过系统地扰动数据中的分布,再恢复数据分布,使整个过程呈现一种逐步优化的性质,确保了模型的稳定性和可2)模型优缺点扩散模型的优点在于其基于马尔可夫链的正向及反向扩散过程能够更加准确地还原真实数据,对图像细节的保持能力更强,因此生成图像的写实性更好。特别是在图像补全修复、分子图生成等应用上扩散模型都能取得很好的效果。但由于计算步骤的繁杂,相应地,扩散模型也存在采样速度较慢的问题,以及对数据类型的泛化能力较弱。.CLlp（ContrastiveLanguage-imagepre-training)1)实现原理CLIP是基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。2)模型优缺点:CLIP模型的优点在于其基于多模态的对比学习和预训练的过程,能够将文本特征和图像特征进行对齐,因此无需事先标注数据,使其在零样本图像文本分类任务中表现出色；同时对文本描述和图像风格的把握更加准确,并能够在不改变准确性的同时对图像的非必要细节进行变化,因此在生成图像由于CLIP本质上属于一种图像分类模型,因此对于复杂和抽象场景的表现存在局限性,例如可能在包含时间序列数据和需要推理计算的任务中生成图像的效果不佳。另外,CLIP的训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大。易观分析:E-mail:ygfx@44.2国内外代表模型5影响模型应用能力的关键因素从实际应用视角来看,图像生成模型的关键能力包括图像质量、图像多样性,以及图像稳定性和可控性,这些能力决定了模型在应用表现上的差异。易观分析:E-mail:ygfx@5.图像质量图像质量包括生成图像的像素值,精细化程度,是否能够充分展现优秀的画质和细节信息的丰富程度,例如物体的细节、纹理和色彩,以及图像的真实程度,也就是在基于真实场景图像生成任务中,图像的整体表达能够符合现实世界的基本逻辑。例如在产品包装设计、海报设计等行业客户需求中,通常对于图像的尺寸、分辨率、噪声、亮度、深度等有着具体要求,需要结合应用场景对图像精.图像多样性在图像多样性的应用上,主要取决于模型对于像素生成过程的控制能力,以及通过对数据分布的预测探索更加多样化的图像表达,从而能够更好地进行图像细节的控制,满足多种风格化生成的要求。其中,个人用户看重构图、颜色、主题和实体的细节表现力和风格的表达,以及图像的幻想程度、艺术性等。行业用户则在此基础上,更加强调在生成多张图像或是不同风格图像时,对语义一致性的把握,因此在满足图像多样性要求的同时能够保持核心元素表达的统一,将更有利于实现商用。.图像稳定性实际应用中,原始图像可能会存在光线不足、模糊抖动,因此需要图像生成模型对于输入数据的噪声具有一定的鲁棒性,例如扭曲、失真、异常描述等,能够在存在干扰的情况下仍然生成高质量的.图像可控性图像可控性是使用者能够对生成图像进行细节控制和后续调整,例如图像的颜色、形状、纹理以个人用户的实际需求主要在能否通过调整文本描述来修改局部细节,进行二次图像生成。行业用户对图像可控性的要求更高,包括能否进行全景控制、精确区域控制、任意细节控制等,因此需要考6典型产业应用场景图像生成是计算机视觉领域的重要组成部分,与图像生成相关的典型应用场景包括图像分类、图像分割、图像生成、图像风格转换、图像修复、图像超分辨率等,结合数字信号处理技术、传感技术、虚拟现实技术的快速发展,目前已经广泛应用在各行各业的场景中。易观分析:E-mail:ygfx@6.图像分类、图像分割可以在工业、工程设计等领域辅助进行目标识别、图像相似度检索,辅助CAD设计等;在医学领域可以帮助进行医学影像标注、解剖、病理结构变化分析等。另外,图像生成模型在零样本分类任务中的良好表现,可以在不需要进行额外训练的情况下快速创建项目,有效提升了模型的工程化能力,降低了对数据标注的要求和训练成本。.图像生成和图像风格转换在艺术设计、产品设计、动画与游戏制作等方面均有充分的商业化潜力,可以将其大量应用于创作艺术作品,根据设计者的草稿图、创意概念来生成图像,以及图像合成、图像编辑、增强图像艺术性等,从而能够帮助设计师、建模师进行动漫人物、游戏场景的制作,帮助完成海报、产品LOGO和产品包装设计等工作。在电商的应用方面,图像生成可以在虚拟试衣.图像修复能够根据已有图像的上下文信息修复缺失部分,例如上色、去除噪声或填充缺失部分,对图像对比度、锐度或色彩鲜艳度等图像要素的增强等,可以应用于数字化历史文献的修复、图像修补等。在摄影与影视制作方面,对老照片、老电影的修复和画质提升都具有很强的应用价值。.图像超分辨率能够从低分辨率图像恢复和重建高分辨率图像,在医学影像处理场景中,结合模型的数据合成和预测能力进行图像识别、特征提取和图像重建,能够帮助医生创建逼真的病例和解剖结构,生成CT扫描图像,辅助进行病情的分析诊断。另外,在天文观测和卫星遥感观测等方面,利用图像超分辨率能够提升成像设备的性能,并克服时间差异、气象变化等因素引起的图像场景变化,为天文探索发现增加了更多可能性。未来,随着图像生成技术的发展,其与3维生成的强相关性将会更多在视频、教育、建筑以及虚拟空间建模等方向形成纵深探索。模型的稳定可控能力是影响未来发展的核心要素,目前图像生成内容仍然存在较大的不确定性,对于艺术创作有助于激发灵感,但对图像本身可控性要求极高的领域来易观分析:E-mail:ygfx@7说,生成图像是否与预期目标相符,以及对图像精度的精准控制十分关键,这将有利于拓展其在生物7商业化过程中面临的挑战7.1国内外主流图像生成产品及商业模式从国内外市场需求和规模来看,目前图像生成在AlGc领域中总体的商业化进展较快。国外主流的图像生成平台以MidjourMidjourney采用闭源付费模式,在对DiffusionModel精调后部署在Discord上,用户通过与bot的交互来获得图片,从生成效果来说其对艺术风格的把握独树一帜。Midjourney通过早期开放公测积累了大量用户群,在Discord频道中形成了高活跃度的社群,以saas付费订阅模式提供通用或定制化服务,构建起了较为成熟的商业模式。而stableDiffusion则完全开源,因此模型的优化选代速度非常快,形成了较好的开发者生态,其盈利手段主要通过Apl收费和面向专业领域的B端用户提供定制化模型服务;此外,stableDiffusion可以作为插件应用嵌入photoshop,支持直接在ps上生成图像并保存,能够为专业设计DALL-E2通过百亿级大规模参数集进行训练,能够形成稳定和高质量的图像,生成效果更接近真实照片,目前DALL-E2采取闭源付费模式,而依托OpenAl与微软的深度合作关系,搭载chatGpT能力并将产品嵌入微软的办公生态,将使DALL-E2建立起核心竞争优势。另外,Adobe也推出了图像生成模型集Firefly,并融入到Adobe工作流,Adobe还强调其训练数据来自Adobestock素材库、公开许可内容和版权已过期的公共领域内容,可以生成专为商业使用的高质量图像,并计划和photoshop、lllustrator、premiere等系列产品深度整合,这些手段将有利于建立面向专业设计领域的客户优势,提升用户粘性。对于国内市场而言,随着我国自主研发模型的技术进展,文心一格、cogview、ZMO等Al图像生成产品通过模型调优和知识增强训练,对中文提示词具备更强的理解能力,在美术创作、广告设计等领域已经形成了一定的用户基础。其中,文心一格提供面向c端用户的免费和付费模式,依托文心大模型的能力,文心一格在多模态交互方面具有明显优势;cogview通过Apl开放能力,支持与企业Al底座的能力对接和模型微调,并提供面向B端用户的定制训练和私有化部署服务;ZMO则将商业化重点聚焦在图生图任务中,进行产品图到营销海报等真实场景的图像生成,积累了一定规模且有付费意愿的小B端用户。可以预见,国内图像生成领域的商业化进程速度将加快并迎来用户的快速增易观分析:E-mail:ygfx@8长期,但仍然需要结合技术能力和产品能力进行深度打磨,通过构建数据层、模型层、应用层的生态7.2图像生成商业化落地挑战结合国外主流平台的成功经验与国内市场情况,打造成熟的商业模式需要关注来自三个方面的挑.数据能力挑战图像生成的效果很大程度依赖于训练数据的规模和数据质量,图像生成产品在向更多专业领域和行业深入时,需要考虑行业存在的数据壁垒、数据量不足、数据质量不高等问题。另外,针对不同行业的特定场景的图像生成要求,需要结合行业知识进行增量训练,但目前图像生成模型仍然存在对复在模型训练阶段,可以通过数据增强策略、利用合成数据预训练等方式进行优化,提升下游任务的性能。但在商业化过程中,还需要考虑资源、性能、成本的平衡。因此,针对不同类型的用户群体,构建数据资产经营的闭环将起到决定作用。对于c端用户,通过结合用户所输入的提示词（prompt)、生成图像选择等进行交互行为和偏好分析,利用这些沉淀的数据形成可靠的数据资产,以此提升数据筛选、标注和分类能力,以及模型的中文语义理解能力和图像风格化能力,更有针对性地进行模型选代；同时引导用户形成中文生成内容社区,来优化内容分发方式,针对不同的用户圈层和付费意愿打造差异化的服务模式。Midjourney的一个关键成功因素就是基于Discord建立内容社区形成用户共创的格局,从而不断沉淀数据资产,提升用户粘性。易观分析:E-mail:ygfx@9对于B端用户,可以借鉴stabilityAI的商业模式,通过建立适用性良好的框架积累不同行业客群,沉淀内容和行业经验,以此提供面向用户特定需求的定制模型,例如能够对动画制作、影视制作、建筑设计等行业高质量的艺术效果图的需求进行模型调优和二次开发,形成具有行业属性的图像生成产品,将是国内图像生成下阶段商业化的成功关键。.产品化能力挑战图像生成模型落地应用的过程中,需要解决模型训练阶段和下游任务实现之间的差距,满足产业场景下对图像生成的实际需求。例如在实际应用时,用户所输入的提示词直接决定了图像生成的实际效果,因此模型对于prompt的理解和运用非常关键。如果能在文生图过程中,减少文本描述量和复杂度的情况下保持对语义的准确把握,将明显降低用户的使用门榄；在此基础上,在用户意图的基础上进行扩展,生成超越预期的高质量图像,将有效提升用户体验,提升产品化能力。而影响图像生成的产品化能力的因素,一是模型本身的性能能否直接满足应用要求,二是能否在产品中引入附加工具来解决模型局限性问题,而可控性是产品化的核心挑战。其中一个实现方式是通过扩大参数集和数据集规模来提升模型性能,并提高对图像编辑、图像风格转化、图像超分辨率等多种下游任务融合应用的能力,从而支持多种个性化需求和控制生成图像的细节,相应地,也需要更强的模型部署能力、环境和配套资源。另外,还可以通过引入ControlNet等微调模型来生成指定要求的图像,实现对画面中的物体位置、人物姿势等精确控制,优化图像生成模型不可控的问题,并能够进行视角调整、光影调整、细节添加等,以满足B端用户对于产品可控性的更高要求,同时也有利于在控制训练成本的前提下实现产.监管合规挑战生成式AI的发展不可避免引发来自人工智能技术应用风险的问题,商业化的一大前提是需要满足监管的合规性要求,近日网信办已经下发了《生成式人工智能服务管理办法》的征求意见稿,也将加速AIGC对于数据使用和行业发展的规范化。对于图像生成类产品,合规性考量主要包括隐私保隐私保护方面,由于使用图像生成工具进行内容创作的成本低、操作简单、逼真程度高,在一定程度上造成了信息滥用问题,可能导致隐私泄露、伪造欺诈引发的信息安全和财产损失,例如将深度合成的人脸图像用于金融领域的身份识别欺诈,利用含有欺骗性或者其他有害的图像内容进行传播和其他不当行为等。因此需要提升图像在生成、流转、存储等过程中的数据安全,以及加强对伪造图像版权保护方面,图像生成模型基于网络公开数据进行训练,将可能会产生涉及图像知识产权的风险,例如有研究指出生成模型可能存在从训练数据中复制图像而不是生成新图像。目前,一些行业和易观分析:E-mail:ygfx@相关机构已经要求所有生成式Al内容必须注明来源,或是直接禁用生成式Al的使用。图像生成作品是否应该受到版权保护,原创内容与生成内容的比例应该如何界定等,都是图像生成在实际应用中需人工智能治理方面,一是公平性问题,由于图像生成模型的训练数据包含大量未经过清洗的数据集,使图像生成模型中可能隐藏的如性别、种族、文化等数据偏见。二是模型可解释性问题,大模型在深度神经网络结构层级越来越复杂的情况下,存在对底层数据的淹没问题,导致模型的可解释性变弱,解析生成模型内部表征的难度变得越来越高。图像生成模型可以创建逼真场景或人物图像,其可解释性也与实际商用的可能性强相关。因此建立可信可控的人工智能需要纳入从模型8前沿探索与趋势展望目前,图像生成技术的前沿探索主要聚焦在如何加强对图像实体关系的深度理解、提升多模态间转换生成效果、提高采样速度和样本质量的研究等方面,从而提升模型对复杂和抽象任务的图像生成效果,以及形成更强的跨模态能力和实用性。其中,openAl提出的全新图像生成模型consistencyModels,不仅能够解决扩散模型选代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本,可以快速完成图像修复、图像超分辨率等多种图像任务,表现出了更强的应用潜力。另外,对于传统的GAN结构在增加架构容量导致的不稳定问题,已经有研究提出了全新的生成对抗网络架构,在推理速度和图像生成效果方面展现了更好的性能,可以看到GAN在图像编辑、图像转换等场景的应用潜力仍然存在。从产业应用层面来看,随着用户规模化效应显现和治理规范的落地,下一阶段图像生成将向更加标准、细分的市场需求方向发展。在面向类型不同的使用者时,对生成效果的要求也存在不同的视角加看重图像生成的产品能力、服务模式,行业应用场景的丰富程度,以及与自有产品和系统结合的适用性、本地化部署要求等,用户的定制化需

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

易观智库-人工智能行业AIGC产业研究报告2023：图像生成篇

文档简介

温馨提示

最新文档

评论

易观智库-人工智能行业AIGC产业研究报告2023：图像生成篇

文档简介

温馨提示

最新文档

评论

相关文档