3.讲义-人工智能辅助设计与绘图技术实务-基础学习班-张海平-第三章 文生图_第1页
3.讲义-人工智能辅助设计与绘图技术实务-基础学习班-张海平-第三章 文生图_第2页
3.讲义-人工智能辅助设计与绘图技术实务-基础学习班-张海平-第三章 文生图_第3页
3.讲义-人工智能辅助设计与绘图技术实务-基础学习班-张海平-第三章 文生图_第4页
3.讲义-人工智能辅助设计与绘图技术实务-基础学习班-张海平-第三章 文生图_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自考辅导《人工智能辅助设计与绘图技术实务》第三章文生图第1页第三章文生图第01讲文生图基本步骤

01文生图基本步骤文生图基本步骤

第02讲文生图常用设置方法.mp4

02常用设置方法

给定提示词

输入提示词:一个可爱的卡通女孩,穿着粉色上衣,在海边玩耍,特写,上半身照,看着镜头,微笑,喜悦

采样方法设置

在文生图技术中,“采样方式”的选择对于生成图像的质量和风格具有重要影响。在哩布哩布网站的“在线生成”选项中,采样方法在如红框所示的位置

在相同参数与提示词的情况下,不同的“采样方法”生成的图像也有着很大的差距,其中LMS、DPMfast的采样方式都出现了一些画面上的崩坏,这可能是因为迭代步数不够或提示词引导系数不合适导致的。

采样方式参数我们可以比喻为不同的化妆师用相同的材料去化妆,每个人多少会有一些差距,采样方法中大部分带“++”字符的采样方式其实都是升级迭代过后的,所以生成的图像细节和对提示词的理解程度都会优秀一些。

可以看到不同的采样方式在生成图像时的各有优劣。在实际应用中,用户可根据实际的需求进行选择,以获得最佳的生成效果。同时,也建议用户在实践中不断尝试和调整参数,以找到最适合自己的采样方式和参数设置。

迭代步数设置

在文生图的过程中,“迭代步数”是一个关键参数,决定了模型的计算次数和图像的精细度。迭代的步数越多,模型对输入提示词的解析就越深入,图像就越接近所描述内容,但同时也会增加计算时间和资源。打开哩布哩布网站的“在线生成”选项,可以在文生图标签下找到“迭代步数”参数

图片尺寸设置

在文生图过程中,图片尺寸也是一个至关重要的设置参数,决定了所生成图像的分辨率和输出的大小。图片尺寸不仅影响着图像的清晰度和细节展现,还会影响计算资源和生成时间。打开哩布哩布网站的“在线生成”选项,可以在文生图标签下找到图片尺寸设置

生成批次设置

在文生图生成过程中,通常会遇到两个关于批次的参数:“总批次数”和“单批次数”。打开StableDiffusion之后在文生图标签下找到生成批次设置

在哩布哩布网站中只有一个总的图片数量

图片数量设置越多,代表着模型一次要生成的图像数量越多,同时时间也会更长,默认是1,也就是代表着当单击“开始生成”后,会生成一张图像;当将其改为2的时候,单击“开始生成”后,就会同时生成两张图像。

提示词引导系数设置

StableDiffusion模型的CFG提示词引导系数也是一个关键参数。它的值决定了生成的图像与输入提示词之间的匹配度和创造性。打开哩布哩布网站的“在线生成”选项,可以在文生图标签下找到“提示词引导系数(CFGScale)”

随机数种子设置

在文生图生成过程中,“随机数种子”也是一个重要的参数。它能提供一个固定的起始点,确保在相同的设置和参数下,每次使用相同的“随机数种子”都会得到相同的生成结果。使用“随机数种子”,可以在多次生成过程中获得一样的结果,对于比较不同参数或设置的效果非常有用。

打开哩布哩布网站的“在线生成”选项,可以在文生图标签下找到“随机数种子”

“随机数种子”的默认值为“-1”,代表随机的意思,即在其他所有的参数都是固定不变时,每次单击“开始生成”后生成的图片具有的随机性,风格等可能存在差异。其具体随机数种子值可以在图下方信息中找到标签为seed,其后跟着的值为“随机数种子”

可以在“随机数种子”参数的输入框内输入任何正整数。在其他参数也相同的情况下,生成的图像完全一致。

第03讲实操:生成一张跑车图片

03实操:生成一张跑车图片

实操:生成一张跑车图片

第一步:打开哩布哩布网址:https://www.liblib.art/。

第二步:点击“在线生成”,如下图红框所示。

第三步:点击“文生图”

第四步:在提示词框里输入如下提示词:

一辆液态金属红超跑(法拉利SF90/未来概念车型)在霓虹蓝调山道(或赛博都市街道)高速漂移,碳纤维尾翼划出光轨,20英寸涡轮轮毂溅起虹色火星,琥珀色渐变车漆映射环境光斑,搭配动态模糊与无人机追焦视角,采用赛博朋克混合写实风格(可切换低多边形建模),4K级细节呈现雨夜倒影/干燥扬尘特效,Octane光线追踪引擎渲染电影级景深,背景可拓展为沙漠公路或海底隧道超现实场景。

第五步:在负向提示词框里输入如下提示词(避免一些现象的出现):

超级糟糕的画质,灰白的色彩。

第六步:选择采样方法:Euler。

额外练习:请同学们尝试在其他参数不变的情况下选不同的方法生成图,找到最符合要求的。

第七步:设置迭代步数:40。

额外练习:请同学们尝试在其他参数不变的情况下选不同的迭代步数生成图,找到最符合要求的。

第八步:设置图片尺寸:512×512。

额外练习:请同学们尝试在其他参数不变的情况下选不同的图片尺寸生成图,找到最符合要求的。

第九步:选择图片数量:2。

额外练习:请同学们尝试在其他参数不变的情况下选不同的数量生成图。

第十步:设置提示词引导系数:10。

额外练习:请同学们尝试在其他参数不变的情况下选不同的提示词引导系数生成图,分析异同。

第十一步:设置随机数种子:11234222。

额外练习:请同学们尝试在其他参数不变的情况下选不同的随机数种子生成图,分析异同。

第十二步:选择模型:在CKECKPOINT下拉框选“基础算法_v2.1safetensors”模型,如下图所示。

额外练习:请同学们尝试在其他参数不变的情况下选不同的模型生成图,分析异同。

第十三步:点击“开始生图”,生成两张图片。

第十四步:保存图片:按如下步骤,分别将两张图片保存到本地

第04讲StableDiffusion系列深度解析

04技术拓展技术拓展

模型对比与选择

主流模型架构

▷StableDiffusion系列

▷DALL·E系列

▷MidJourney系列

▷StableDiffusion系列深度解析

√SD2.1模型

√SDXL模型

√SD3模型

▷StableDiffusion系列深度解析

◆SD2.1vsSDXL

①参数量对比

·SD2.1:860M参数,基于U-Net的扩散模型,专注于512×512分辨率生成。

·SDXL:3.5B参数,引入更大规模U-Net与跨模态注意力层,支持1024×1024高清生成。

·性能影响:

a.SDXL相比于SD2.1模型容量提升4倍,细节刻画能力显著增强(如毛发、纹理)。

b.SDXL相比于SD2.1显存需求从8GB(SD2.1)升至16GB(SDXL),需RTX3090以上显卡。

▷StableDiffusion系列深度解析

◆SD2.1vsSDXL

②训练数据对比

·SD2.1的数据局限:

a.基于LAION-5B的子集(5亿图文对),存在低质量/版权争议内容。

b.审美评分机制简单(仅依赖CLIP相似度),导致生成风格单一。

·SDXL的数据革新:

c.精选数据集:

a)从LAION-5B筛选出1.3亿高质量图文对,增加艺术平台数据(如ArtStation、Behance)。

b)引入人工标注的审美评分(0-10分),过滤低分内容(如模糊、构图混乱的图像)。

d.多尺度训练:

同时训练512px和1024px模型,提升跨分辨率生成一致性。

▷StableDiffusion系列深度解析

◆SD2.1vsSDXL

③生成质量对比

▷StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

①混合架构设计

·DiffusionTransformer(DiT):

a.替代传统U-Net,采用纯Transformer结构,提升长程语义关联能力。

b.优势:对复杂提示词(如“交织的藤蔓与机械齿轮”)的理解更精准。

·流匹配(FlowMatching):

c.引入连续时间扩散理论,优化噪声到图像的映射路径。

d.结果:生成速度提升20%,且图像逻辑更连贯(如肢体与背景的合理互动)。

·多模态协同:

文本编码器升级为CLIPViT-L/14+MT5,支持中/日/韩等多语言提示词。

▷StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

②文本渲染突破

·可读文字生成:

a.传统缺陷:SDXL生成的文字多为乱码(如“Adidas”→“A#di@da”)。

b.SD3解决方案:

a)字形注意力层:将字符轮廓编码为空间约束条件。

b)合成数据增强:用程序生成100万张“文本-背景”配对图像进行微调。

c.应用案例:

a)广告标语生成:“SummerSale50%Off”可直接渲染到海报中。

b)书籍封面设计:作者名与标题自动排版。

▷StableDiffusion系列深度解析

◆StableDiffusion3(SD3)

②文本渲染突破

·多语言支持:

a.中文/日文生成示例:

提示词:“日本居酒屋招牌「焼き鳥一番」”→正确生成汉字与假名。

b.技术原理:

将Unicode字符映射为字形图像,联合训练文本-图像对齐损失。

▷StableDiffusion系列深度解析

◆SDXL与SD3生成质量对比▷StableDiffusion系列深度解析

◆SDXL与SD3行业应用场景对比

①SDXL的商用价值

·影视行业:

a.概念设计:生成4K分镜图,直接用于Previs预演。

b.虚拟制片:实时生成背景替换素材,降低绿幕拍摄成本。

·电商领域:

c.产品换装:输入“模特穿红色毛衣”,生成100组角度/光照变体。

d.A/B测试:快速生成不同风格的广告图,优化点击率。

▷StableDiffusion系列深度解析

◆SDXL与SD3行业应用场景对比

②SD3的创新潜力

·教育出版:

a.自动生成插图:输入教科书段落,输出匹配的示意图(如细胞结构)。

b.多语言教材:同一场景匹配不同语言文本(如中文“火山喷发”→阿拉伯文标注)。

·AR/VR领域:

实时环境生成:结合扩散模型与NeRF,从文本生成3D可探索空间。

第05讲DALL·E3模型详探究

▷DALL·E3模型详探①核心架构设计

·多模态扩散模型框架

DALL·E3基于改进的扩散模型,但引入以下关键创新:

a.HierarchicalDiffusion(层级扩散):

a)多尺度生成:分阶段生成低分辨率草图(64×64)→中分辨率细节(256×256)→最终高清图像(1024×1024)。

b)级联训练:每个阶段使用独立扩散模型,通过条件控制传递上下文信息。

c)优势:降低计算成本,同时提升复杂场景的生成稳定性。

b.视觉-语言联合嵌入空间:

a)CLIP-ViT-G:升级版CLIP模型,支持图像与文本的细粒度对齐(如局部特征匹配)。

b)动态路由机制:根据文本复杂度自动选择嵌入维度(低维→全局风格,高维→细节控制)。

·扩散过程优化

a.自适应噪声调度器:

a)根据图像内容复杂度动态调整噪声添加步长(如人脸区域步长更小以保留细节)。

b)数学表达:

b.语义引导去噪:在U-Net中嵌入文本条件注意力层(Text-ConditionalAttention):

1)文本嵌入向量与图像特征图通过交叉注意力交互。

2)动态权重机制:对关键词(如“发光”“机械”)分配更高注意力权重。

②与ChatGPT的深度集成

·对话式提示词优化

a.语义补全机制:

a)用户输入模糊描述(如“一只帅气的狗”)→ChatGPT自动扩展为:

“AmajesticSiberianHuskywithglowingblueeyes,wearingafuturisticarmor,standingonasnow-coveredcliffunderauroraborealis,8kcinematiclighting.”

b)技术实现:基于RLHF(人类反馈强化学习)优化提示词改写策略。

b.多轮迭代生成:

a)支持上下文感知修改(例:“把背景换成火星”→“给狗添加喷气背包”)。

b)记忆机制:通过键值缓存(KVCache)保留前序对话的视觉特征。

·联合训练框架

共享嵌入空间:

a)ChatGPT的文本编码器与DALL·E3的CLIP编码器共享部分参数,确保语义一致性。

b)训练目标:最小化文本-图像对的对比损失(ContrastiveLoss)与扩散损失(DenoisingLoss)。

③训练策略与数据优化

·训练数据优化

a.数据源:

a)精选数据集:从LAION-5B筛选出2亿高质量图文对,人工标注审美评分(≥7分)。

b)合成数据:利用GLIDE生成1亿对“文本-图像”数据,补充长尾概念(如冷门历史事件)。

b.对抗性训练:

a)引入对抗样本(如错误关联的图文对)提升鲁棒性。

b)案例:强制模型区分“熊猫吃竹子”与“竹子图案的熊猫玩偶”。

·训练流程优化(多阶段)

a.预训练阶段:

使用256×256分辨率图像训练基础扩散模型(耗时1个月,4096张A100)。

b.对齐微调:

通过人类标注员对50万组生成结果进行偏好评分,优化模型(PPO算法)。

c.安全对齐:

注入安全样本(如暴力/侵权内容)训练拒绝生成能力。

④安全策略

·多层内容过滤

a.预生成过滤层:

a)文本黑名单:包含50万条敏感词(暴力、种族歧视、版权关键词)。

b)语义检测模型:基于RoBERTa-large的分类器(准确率99.1%)。

b.后生成过滤层:

多模型校验:

·版权保护技术

a.训练数据清洗:

a)移除所有已知版权内容(如迪士尼角色、明星照片)。

b)使用哈希黑名单匹配LAION数据集中的争议图像。

b.溯源水印:

a)隐形水印:通过离散余弦变换(DCT)嵌入不可见标识。

b)显性水印:可选在图像角落添加“AIGenerated”标签。

⑤性能和局限性

·性能优势

a.生成质量:

a)在COCO数据集上的FID分数为3.1(对比SDXL的4.8)。

b)对复杂提示词的理解能力提升40%(基于人工评估)。

b.推理速度:

50步采样仅需4.2秒(A100GPU),比DALL·E2快2.3倍。

·当前局限

a.长尾概念缺失:

对冷门文化符号(如非洲传统服饰)生成质量不稳定。

b.过度安全限制:

误拦截合理请求(如医学教材中的解剖图)。

c.3D一致性不足:

生成多视角图像时可能出现物体形变。

第06讲MidJourney模型详探

▷MidJourney模型详探

①核心架构设计

·基于扩散模型的混合架构

a.改进的扩散框架

MidJourney底层仍基于扩散模型(DiffusionModels),但引入了多项定制化优化:

a)渐进式超分辨率生成:

分阶段生成低分辨率草图(256×256)→中分辨率(512×512)→最终高清图像(1024×1024),每阶段使用专用子模型,降低计算复杂度。

b)动态噪声调度:

根据图像内容复杂度调整噪声添加策略(如人物面部区域采用更精细的噪声控制)。

b.风格增强模块

a)艺术风格嵌入层:

在U-Net中集成风格特征库(如油画、赛博朋克、水墨画),通过注意力机制动态融合风格向量。

b)风格迁移损失函数:

训练时引入Gram矩阵损失,强制生成图像与目标风格的艺术品在纹理分布上对齐。

·多模态文本理解

a.专用文本编码器

a)不同于开源模型依赖CLIP,MidJourney可能采用混合编码器:

1)语义解析层:类似GPT-3的Transformer,理解复杂描述(如隐喻、抽象概念)。

2)风格关键词提取器:自动识别并强化“trendingonArtStation”“cinematiclighting”等艺术导向词汇。

b)长文本支持:支持超长提示词(最高750字符),通过分段注意力机制捕捉全局语义。

②训练策略与数据优化

·数据筛选与优化

a.高质量艺术数据集:

a)核心数据源:从ArtStation、Behance等艺术平台精选数百万高质量图像-文本对,人工标注审美评分(避免LAION-5B中的低质内容)。

b)风格标签系统:每张图像标记风格标签(如“印象派”“科幻”),训练时作为附加条件输入。

b.合成数据增强:

使用早期版本模型生成多样化图像,结合人工筛选扩充训练集,覆盖长尾场景(如“蒸汽朋克蝴蝶”“中世纪太空站”)。

·强化学习与人类反馈(RLHF)

a.用户偏好优化:

a)收集用户对生成结果的投票(👍/👎),训练奖励模型(RewardModel)预测人类审美偏好。

b)通过PPO(近端策略优化)算法微调生成模型,最大化奖励得分。

c)案例:V5→V6版本迭代中,手部细节和透视准确性的显著提升即源于此机制。

③生成优化技术

·艺术化后处理管道

a.风格化超分辨率:

a)最终阶段使用GAN-BasedUpscaler(如ESRGAN变体),在放大分辨率时增强纹理细节(如笔触、材质)。

b)可选风格滤镜:用户可选择“--style4a”(写实)或“--style4b”(抽象)等参数,激活不同的后处理网络。

·动态控制机制

a.隐式控制模块:

a)类似ControlNet的功能,但无需用户输入控制图,而是通过提示词解析自动生成约束(如“对称构图”“黄金分割比例”)。

b)示例:输入“俯瞰视角的魔法城堡”会自动应用透视变形与景深模糊。

b.多提示词混合:

支持::分隔符混合多概念(如cyberpunkdragon::3||medievalpainting::1),通过权重调整风格强度。

④性能和优势

·生成质量对比

·闭源生态优势

a.端到端优化:

从硬件到算法的全栈优化,实现高推理效率(1024×1024图像生成仅需20秒)。

b.版权合规:

内置版权过滤系统,拒绝生成迪士尼角色等受保护IP内容(基于合作版权库)。

⑤技术局限性

a.可控性不足:

缺乏类似ControlNet的精准控制接口,依赖提示词调整生成细节。

b.长尾概念偏差

对冷门文化元素(如非洲传统服饰)生成效果不稳定。

c.闭源限制:

无法本地部署或定制微调,依赖官方API更新。

第07讲模型对比与选择依据

▷三种模型性能对比▷三种模型选择依据

①根据适用场景选择模型场景MidJourneyV6游戏概念设计、插画、社交媒体艺术创作、非商业性艺术表达StableDiffusion3工业设计、科研实验、定制化需求、本地化部署DALL·E3

企业广告设计、教育出版、医疗/金融等合规敏感行业。②根据技术能力与资源选择资源/能力MidJourneyV6StableDiffusion3DALL·E3技术门槛低(仅需提示词)高(需本地部署/调参)中(依赖API交互)硬件需求云端(无需硬件)需高性能GPU(16GB+显存)云端(API调用)定制化能力弱(仅风格参数)极强(开源代码+插件)弱(官方控制)数据隐私中(依赖平台)高(本地数据不外传)低(数据经云端)③根据预算与成本选择成本维度MidJourneyV6StableDiffusion3DALL·E3初始成本10−10−120/月(订阅制)免费(本地)或云服务成本0.02−0.02−0.08/图(按量计费)隐性成本风格扩展依赖官方更新需技术团队维护/开发企业级合规成本低长期性价比适合高频低精度需求适合低频高定制需求适合中频合规需求

第08讲提示词使用指南

生成控制的高级技巧

▷提示词工程

提示词工程(PromptEngineering)在人工智能绘图的应用中扮演着至关重要的角色。它的核心在于通过精心设计输入提示(Prompt),以高效、精准地引导模型输出符合需求的回答。

①提示词的重要性

1.决定模型输出的质量

a.精准度:模糊或错误的提示词可能导致模型生成无关、错误甚至有害的内容。例如,提问“怎么写文章?”可能得到泛泛而谈的回答,而“如何写一篇关于气候变化的学术论文?”会引导模型提供更具体的结构和方法。

b.相关性:好的提示词能约束模型的输出范围,避免“答非所问”。例如,在客服场景中,“请用中文简短回答用户关于退货政策的问题”比“解释政策”更有效。

2.提升效率,降低成本

a.减少迭代次数:精准的提示词能一次性获得可用结果,避免反复调试。例如,在代码生成中,明确需求(如“用Python生成一个快速排序函数,附带时间复杂度的注释”)比笼统提问更高效。

b.节省计算资源:复杂的任务通过分步提示(Chain-of-Thought)拆解,可降低模型的计算负担。

3.适应不同场景的灵活性

a.角色扮演:通过提示词让模型扮演特定角色(如“你是一位经验丰富的医生”),可提升回答的专业性。

b.多模态任务:在图像生成(如DALL·E、MidJourney)中,提示词的细节(“赛博朋克风格,霓虹灯光,雨天街道”)直接影响生成效果。

4.推动AI的可解释性与安全性

a.透明化:通过分析提示词与输出的关联,可部分解释模型行为。

b.伦理控制:例如,添加“请以无害且包容的方式回答”可减少有害内容生成。

第09讲提示词重要性

②提示词使用指南

1.权重语法深度解析

a.动态调节机制:(关键词:数值)通过数值系数控制元素表现强度

a)1.5-2.5:显著增强存在感

b)0.3-0.7:弱化非核心元素

c)多级嵌套示例:(cyberpunkcityscape:1.3)(neonlights:1.7)(raineffect:0.8)

b.叠加效应:可使用多重括号增强效果,如(((detailedtexture)))≈1.3倍权重

c.空间权重分配:通过[前景:背景]格式实现层次控制,如(characterdesign:1.6)[background:0.9]

2.负提示词高级技巧

a.分层排除系统:

a)基础层:lowresolution,deformedanatomy,extrafingers

b)风格层:watercolor(当需要写实效果时),3Drender(需要手绘质感时)

c)内容层:textoverlay,signature,frameborder

b.反向加权:对负面元素也可施加权重,如(blurry:1.8)加强模糊排除力度

c.情境化屏蔽:通过场景描述自动排除矛盾元素,如指定"白天"自动屏蔽moonlight

3.参数协同优化

a.温度系数:0.3-0.7配合精确提示词

b.迭代步数:复杂提示建议40+steps

c.采样器选择:DDIM适合概念设计,Eulera适合快速迭代

③提示词实践建议

1.明确意图:定义清晰的目标和约束条件。

2.分步引导:复杂任务拆解为多轮提问(如“先列出大纲,再展开每部分”)。

3.持续迭代:通过测试反馈优化提示词,利用A/B测试对比效果。

4.结合领域知识:专业领域需融入术语和上下文。

第10讲精细化控制技术

▷精细化控制技术①ControlNet全解析

a.8种控制模式对比

b.实战案例:线稿→上色图

a)用Procreate绘制线稿并导出PNG

b)在StableDiffusion中加载CannyEdgeControlNet

c)输入提示词“赛博朋克城市,霓虹灯光,雨夜”

d)调整ControlNet权重(0.6-0.8平衡控制力与创意)

②风格迁移与微调技术

a.LoRA(Low-RankAdaptation)

a)原理:通过低秩矩阵更新适配模型(仅训练0.1%参数)

b)训练流程:

1.准备20-50张目标风格图片(如浮世绘)

2.使用Dreambooth工具微调2小时(RTX3090)

3.生成时触发词:<lora:ukiyoe:0.7>

b.StyleGAN混合控制

将StyleGAN的潜空间与扩散模型结合,实现发型/妆容分离控制

第11讲游戏行业应用

应用与伦理——行业落地案例

一.游戏行业:AI赋能美术创作

①《逆水寒》AI美术应用

·《逆水寒》使用StableDiffusion等AI工具,批量生成角色服饰纹理和场景原画,极大提升美术生产效率,传统人工绘制角色服饰纹理需2周,而AI生成加人工优化仅需3天,显著缩短开发周期。

·《逆水寒》AI美术应用不仅提高了生产效率,还降低了成本。AI工具能够快速生成高质量的美术资源,减少了对大量专业美术人员的依赖,降低了人力成本。同时,AI生成的资源可以快速迭代和优化,进一步提高了美术资源的利用率和质量。

②角色概念图迭代过程

·AI生成角色概念图从文字描述开始,生成多版草图供美术师筛选,最终选定满意方案,加速创意落地。这种迭代过程使美术师能快速探索不同设计方向,提高角色设计的多样性和创新性。例如,美术师可以根据AI生成的草图进行修改和优化,快速调整角色的外观和风格,以满足游戏设计的需求。

·AI在角色概念图迭代过程中还能够提供丰富的创意灵感。通过分析大量的美术作品和数据,AI可以生成具有独特风格和创意的角色概念图,为美术师提供更多的设计思路和参考。这有助于激发美术师的创造力,推动角色设计的创新和发展。

③游戏行业应用趋势

·程序化生成与AI辅助的工业化管线成为游戏行业发展趋势,提升美术资源生产效率和质量。例如,通过AI生成基础场景元素,再由美术师进行优化和整合,实现高效且个性化的游戏美术制作。这种模式不仅提高了美术资源的生产效率,还能够保证资源的质量和一致性,为游戏开发提供了有力支持。

·游戏行业对AI技术的应用不仅局限于美术创作,还逐渐扩展到游戏设计、剧情生成、玩家行为分析等多个领域。AI技术的广泛应用将推动游戏行业的智能化发展,为玩家带来更加丰富和个性化的游戏体验。例如,AI可以根据玩家的游戏行为和偏好,自动生成个性化的游戏剧情和任务,提高玩家的参与度和满意度。

第12讲广告设计应用

二.广告设计:AI助力创意升级

①可口可乐AIGC广告案例

·可口可乐“Masterpiece”Campaign使用DALL·E生成数百版初稿,设计师筛选融合,提升创意效率。该广告制作周期缩短60%,成本降低45%,AI为广告设计带来显著效益。AI工具能够快速生成大量的设计初稿,为设计师提供了更多的选择和创意灵感,帮助设计师快速找到最佳的设计方案。

·AI在广告设计中的应用还能够提高广告的吸引力和影响力。通过分析大量的广告数据和用户行为,AI可以生成符合目标受众喜好的广告内容,提高广告的点击率和转化率。例如,AI可以根据不同地区、不同年龄层次的受众特点,生成个性化的广告文案和图像,使广告更具针对性和吸引力。

②AI生成的超现实主义元素

·AI生成的超现实主义元素将古典画风与现代产品巧妙结合,创造出独特的视觉效果,吸引消费者关注。例如,将文艺复兴时期的绘画风格应用于现代产品广告,形成强烈的视觉冲击,提升广告吸引力。这种独特的视觉效果能够吸引消费者的注意力,激发他们的购买欲望。

·AI生成的超现实主义元素不仅具有视觉冲击力,还能够传达出独特的品牌价值和文化内涵。通过将古典艺术与现代产品相结合,广告可以展现出品牌的深厚文化底蕴和创新精神,提升品牌的形象和竞争力。例如,可口可乐在广告中融入古典画风元素,不仅吸引了消费者的关注,还传递出品牌的历史传承和文化魅力。

③广告行业新范式

·广告行业出现创意总监向AI提示词工程师的角色转变,提示词设计成为关键技能,推动行业创新。设计师需掌握AI工具,通过精准提示词引导AI生成符合创意需求的设计方案,提升广告创意水平。这种角色转变要求设计师具备更高的技术素养和创新能力,能够熟练运用AI工具进行广告设计。

·AI技术的应用还推动了广告行业的工作流程变革。传统的广告设计流程需要经过多个环节和大量的时间,而AI技术的应用可以实现快速设计和优化,提高工作效率。例如,AI可以根据广告主的需求快速生成广告创意,设计师只需进行简单的调整和优化,即可完成广告设计,大大缩短了设计周期。

第13讲影视分镜应用

三.影视分镜:AI优化制作流程

①NetflixAI工具测试

·Netflix测试AI工具RunwayML,将剧本段落转化为分镜画面,实现从剧本到分镜草图的自动化流程。该工具通过文本理解生成基础分镜,为影视制作提供快速高效的前期方案,节省时间和人力成本。RunwayML能够快速生成分镜画面,为导演和制片人提供直观的视觉参考,帮助他们更好地规划拍摄工作。

·AI工具在影视分镜制作中的应用还能够提高分镜的质量和准确性。通过分析大量的影视作品和剧本数据,AI可以生成符合影视制作规范和艺术要求的分镜画面,为影视制作提供高质量的前期方案。例如,AI可以根据剧本中的场景描述和镜头要求,自动生成详细的分镜画面,包括镜头角度、镜头运动、画面构图等,为拍摄提供详细的指导。

②AI生成的动态分镜

·AI生成的动态分镜包含基础运镜提示,为导演和摄影师提供初步视觉参考,辅助拍摄规划。例如,AI根据剧本描述生成带有镜头运动轨迹的分镜,帮助团队提前预览拍摄效果,优化拍摄方案。动态分镜能够更加直观地展示镜头的运动和变化,帮助导演和摄影师更好地理解和规划拍摄工作。

·AI生成的动态分镜还能够提供实时的反馈和调整。在拍摄过程中,导演和摄影师可以根据实际拍摄情况进行调整和优化,AI可以根据这些调整实时更新分镜画面,为拍摄提供更加准确的指导。这种实时反馈和调整功能能够提高拍摄的效率和质量,减少拍摄过程中的错误和失误。

③局限性与人工把控

·尽管AI在分镜生成方面取得进展,但镜头语言的专业性仍需人工把控,以确保影视作品的艺术效果和叙事连贯性。导演和摄影师需对AI生成的分镜进行调整和优化,融入专业创意和艺术理念,提升作品质量。AI生成的分镜虽然能够提供基本的视觉参考,但无法完全替代人类的专业判断和创意。

·AI在影视分镜制作中的应用还需要考虑版权和法律问题。AI生成的分镜画面可能涉及到版权保护和知识产权问题,需要在使用过程中严格遵守相关法律法规。同时,AI生成的内容需要经过人工审核和修改,以确保其符合影视制作的规范和要求。

第14讲伦理与法律挑战

应用与伦理——伦理与法律挑战

一.版权争议

①训练数据来源问题

·LAION-5B数据集包含未经授权的Pinterest艺术家作品,引发版权争议,凸显数据来源合法性问题。艺术家集体诉讼案例,如SarahAndersen等诉StabilityAI案,促使行业重视数据使用规范。这些案例表明,AI训

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论