神经网络与深度学习-课件 第四章-生成对抗网络 GAN_第1页
神经网络与深度学习-课件 第四章-生成对抗网络 GAN_第2页
神经网络与深度学习-课件 第四章-生成对抗网络 GAN_第3页
神经网络与深度学习-课件 第四章-生成对抗网络 GAN_第4页
神经网络与深度学习-课件 第四章-生成对抗网络 GAN_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程讲授/第4章第4章生成对抗网络GAN研究生教学版|教材内容梳理+2026发展扩展本章核心理解GAN的“生成器–判别器”对抗式学习框架掌握minimax目标、训练不稳定来源与经典改进熟悉CGAN/DCGAN/WGAN/InfoGAN/Pix2Pix的动机从2026视角定位GAN与diffusion/autoregressive的分工1–2节课安排理论主线GAN模型、目标函数、训练算法与理论分析模型主线CGAN、DCGAN、WGAN、InfoGAN、Pix2Pix应用主线超分辨、图像翻译、医学图像、数据增强扩展主线GANvs扩散模型、低比特推理与生成安全2026关键词扩散TransformerSoraFLUX.2NVFP4深度伪造治理1神经网络与深度学习|第4章第4章/生成对抗网络学习目标与课堂安排研究生教学版2神经网络与深度学习|第4章学习目标•用博弈视角解释GAN的生成过程•能写出基本minimax目标并理解其含义•说清训练不稳定、模式崩塌与评估难点•区分不同GAN变体各自解决的核心问题•从2026视角判断GAN在现代生成体系中的位置建议教学节奏第1课时•4.1随机数据生成•4.2模型•4.3训练与理论分析第2课时•4.4改进与应用•4.5研究热点•2026发展扩展课堂讨论如果扩散模型已经在通用图像/视频生成中占主导,为什么GAN仍值得在研究生课程中系统学习?课后作业比较CGAN、WGAN-GP与Pix2Pix在输入条件、目标函数、训练稳定性和应用场景上的差异,并给出一个你认为GAN仍优于扩散模型的任务。第4章/生成对抗网络教材第四章的逻辑结构研究生教学版3神经网络与深度学习|第4章4.1随机数据生成•从噪声采样•目标:学到数据分布•为GAN铺垫“从z到x”4.2–4.3基本模型•生成模型G•判别模型D•minimax目标•训练与理论分析4.4改进与应用•CGAN/DCGAN•超分辨/WGAN•InfoGAN/Pix2Pix4.5研究热点•优化与评估•对抗攻击•现代生成模型关系研究生教学建议:先用“对抗学习”为主线,再把每个变体看成对训练难点的定点修补。第4章/生成对抗网络为什么需要GAN:从“生成数据”到“学习分布”研究生教学版4神经网络与深度学习|第4章生成任务的目标•不只是分类已有样本•而是从噪声中合成“看起来真实”的新样本•理想情况下,模型输出应服从真实数据分布传统难点•显式写出高维数据分布很困难•最大似然常常需要近似推断•图像数据维度高、结构复杂、感知质量难量化GAN的回答•用G直接从噪声z生成样本•用D学会区分真/假•通过“对抗”逼迫G逐步贴近真实分布直观比喻:G像“伪造者”,D像“鉴别者”,两者在博弈中共同提升。第4章/生成对抗网络GAN基本框架:生成器G与判别器D研究生教学版5神经网络与深度学习|第4章噪声z生成器G假样本G(z)真实样本x判别器D真/假概率关键观察D的提升会给G更强的学习信号;G的提升又会迫使D学会更细致的边界。对抗不是“谁赢谁输”,而是希望最终达到一种近似均衡。第4章/生成对抗网络目标函数:minimax博弈与它的含义研究生教学版6神经网络与深度学习|第4章判别器D想做什么?•让真实样本D(x)尽量接近1•让生成样本D(G(z))尽量接近0•本质上学习“真/假”分类边界生成器G想做什么?•让D(G(z))尽量变大•也就是让假样本骗过D•目标是让G(z)的分布逼近pdata平衡点的直观理解•当G足够好时,D很难区分真/假•理想情况下D(x)=0.5左右•此时生成分布与真实分布在统计意义上接近教学提示:不要把这个式子当成普通分类损失,而应把它看作两个目标相反、参数相互耦合的优化问题。第4章/生成对抗网络为什么GAN难训练:不稳定、模式崩塌与梯度问题研究生教学版7神经网络与深度学习|第4章问题1优化不是单目标•G与D同时更新•一个参数变化会改变另一个的目标面•训练轨迹容易震荡、循环甚至发散问题2模式崩塌•G只学会少数“容易骗过D”的模式•输出看似真实,但多样性下降•典型现象:生成样本长得都差不多问题3梯度饱和•若D太强,D(G(z))很快趋近0•原始目标会给G很弱的梯度•早期训练尤其明显工程应对•非饱和损失•标签平滑•梯度惩罚•BN/谱归一化•更新步数平衡第4章/生成对抗网络评估生成质量为什么比分类更难?研究生教学版8神经网络与深度学习|第4章分类任务•标签明确•准确率、召回率、F1都较直接•预测结果与标准答案一一对应生成任务•“像不像真样本”没有单一标准答案•既要看质量fidelity,也要看多样性diversity•人类主观感知与像素级误差常常不一致常见指标•InceptionScore:看类别置信度与多样性•FID:比较真实/生成特征分布差异•Precision&Recall:质量与覆盖面的拆分•人工评测:仍然重要教学提示:“高分”不一定等于“真实可用”,尤其在医学、遥感、安防等高风险场景。第4章/生成对抗网络GAN家族演化:每个变体都在修一个“痛点”研究生教学版9神经网络与深度学习|第4章CGAN加入条件变量,控制生成类别或属性DCGAN用卷积结构改进图像生成质量WGAN用Wasserstein距离缓解训练不稳定InfoGAN显式鼓励可解释潜变量Pix2Pix做配对图像到图像翻译一句话理解GAN变体的核心不是“堆更多模块”,而是针对条件控制、卷积归纳偏置、训练距离、表示可解释性和具体任务形式做定向设计。第4章/生成对抗网络CGAN:让生成变得“可控”研究生教学版10神经网络与深度学习|第4章核心思想•在G和D中同时加入条件变量y•y可以是类别、标签、属性甚至文本条件•目标从“随机生成”转为“按条件生成”zyG(z,y)D(x,y)典型应用•类别可控图像生成•条件补全与编辑•由语义标签到图像的生成•是后续文本条件生成的一条思想源头第4章/生成对抗网络DCGAN:用卷积归纳偏置提升图像生成研究生教学版11神经网络与深度学习|第4章DCGAN的四个经典经验①使用卷积/转置卷积替代池化②去除大部分全连接层③引入BatchNorm稳定训练④选择更合适的激活函数(如G用ReLU/Tanh,D用LeakyReLU)为什么有效?•CNN更适合图像局部结构•归纳偏置更强•参数共享提高表达效率教学重点•DCGAN不是改目标,而是改网络结构•它证明“架构归纳偏置”对生成质量极其重要与教材的连接教材强调它通过深度卷积结构改善大尺寸图像生成时的模糊问题,并总结了卷积替池化、去全连接、BN与激活函数设计等关键经验。这一页适合用来讲“为什么结构设计会影响优化景观”。第4章/生成对抗网络WGAN/WGAN-GP:把“距离”换掉,稳定性提升研究生教学版12神经网络与深度学习|第4章原始GAN的一个痛点•判别器过强时梯度会很差•JS散度在分布支撑集几乎不重叠时不够友好•训练曲线常常难以解释WGAN的核心•用Wasserstein-1距离近似替代原始散度•判别器变成critic,不输出概率而输出分数•训练中更容易观察“距离是否下降”为什么要加GP?权重裁剪过于粗糙,会限制critic表达能力;WGAN-GP用梯度惩罚更平滑地满足Lipschitz约束。梯度惩罚项第4章/生成对抗网络InfoGAN与Pix2Pix:可解释潜变量与图像翻译研究生教学版13神经网络与深度学习|第4章InfoGAN•在噪声之外显式加入潜变量c•通过互信息约束让c与生成结果建立可解释关系•目标:学到“可控且可解释”的潜在表示•适合课堂说明“生成模型也能做表示学习”Pix2Pix•解决“配对图像到图像翻译”•输入是源图像,输出是目标域图像•通常结合对抗损失+重建损失•经典任务:语义标签→街景、边缘图→照片、草图→图像教学提示:InfoGAN说明“潜变量可解释性”,Pix2Pix说明“任务条件化”。二者一起讲,学生更容易看懂GAN的能力边界。第4章/生成对抗网络GAN的典型应用版图研究生教学版14神经网络与深度学习|第4章超分辨/图像增强SRGAN等方法追求感知质量图像到图像翻译Pix2Pix/Cycle风格任务医学图像合成、重建、去噪、分割辅助数据增强缓解样本稀缺与类别不均衡隐私保护与匿名化以可控生成方式替换敏感细节风格迁移与内容创作视觉设计与AIGC原型系统第4章/生成对抗网络2026视角:GAN在现代生成模型中的位置研究生教学版15神经网络与深度学习|第4章维度GANDiffusionAutoregressive课程结论训练特点对抗博弈,易不稳逐步去噪,训练更稳定顺序建模,长度敏感GAN最适合讲“博弈式学习”生成质量高感知质量,但可能塌陷质量高且多样性更强在语言/代码中强通用视觉生成主流已转向diffusion速度单步生成可快采样步数多,但可加速逐token生成边缘低延迟场景GAN仍有吸引力适用场景翻译、增强、小样本通用图像/视频生成文本、代码、序列现代课程应讲“范式分工”第4章/生成对抗网络2026发展扩展:通用生成主流迁向扩散Transformer研究生教学版16神经网络与深度学习|第4章Sora给出的信号OpenAI在公开视频生成技术报告中明确指出,既往视频生成方法包括RNN、GAN、autoregressive与diffusion;而Sora本身采用diffusiontransformer路线,强调patch/token化与扩展性。开源图像生成的方向NVIDIA在2026年对FLUX.2的加速文章中,将其描述为diffusiontransformer模型,并展示了面向Blackwell的低比特推理优化。这说明现代高质量开源图像生成的工程主线也在向扩散Transformer靠拢。课程上的结论GAN不再是“通用图像/视频生成的唯一主线”,但它仍是理解生成学习、图像翻译、小样本增强、对抗训练和稳定性问题的最佳教学入口之一。第4章/生成对抗网络2026工程扩展:低比特推理正在重塑生成部署研究生教学版17神经网络与深度学习|第4章NVFP4是什么?NVIDIA2025官方文章介绍,NVFP4是面向Blackwell的4-bit浮点格式,目标是在超低精度下尽量保持模型精度,并通过双层缩放减少量化误差。为什么这和GAN课相关?今天学生实际部署生成模型时,往往面对的是扩散模型而非传统GAN;但理解低比特推理、延迟与显存约束,可以帮助他们回答“为什么某些场景还会回到更轻量、更快的模型家族”。课堂连接点•训练范式会变,但工程约束始终存在•生成质量、推理成本、可控性与安全性必须一起考虑•“会训练”与“能部署”是两回事第4章/生成对抗网络风险与治理:深度伪造、对抗攻击与可信评估研究生教学版18神经网络与深度学习|第4章深度伪造•高逼真生成能力会被用于伪造身份、语音和视频•课程中应强调技术双刃剑属性•不能只教“怎么生成”,也要教“怎么鉴别”对抗攻击•教材第4.5.2已将其列为研究热点•生成模型既可能被攻击,也可被用于构造攻击样本•安全评估需要超出视觉质量本身2026研究生教学建议•加入来源标注、模型水印与内容真实性讨论•区分研究demo与高风险应用•在作业中要求写出“潜在误用与缓解方案”第4章/生成对抗网络本章总结与课堂讨论题研究生教学版19神经网络与深度学习|第4章本章总结•GAN用对抗学习把“生成数据”变成可训练问题•经典难点是稳定性、模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论