生成式视觉模型原理与实践 课件chapt1、2 生成式视觉模型简介_第1页
生成式视觉模型原理与实践 课件chapt1、2 生成式视觉模型简介_第2页
生成式视觉模型原理与实践 课件chapt1、2 生成式视觉模型简介_第3页
生成式视觉模型原理与实践 课件chapt1、2 生成式视觉模型简介_第4页
生成式视觉模型原理与实践 课件chapt1、2 生成式视觉模型简介_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生成式视觉模型

原理与实践9:17:58下午1第1&2章

生成式视觉模型简介9:17:58下午2主要内容生成式大模型:语言模型和视觉模型生成式视觉模型的发展历程生成式建模的基本概念(复习概率知识)典型生成模型简介评价指标简介深度学习框架PyTorch简介9:17:58下午31.生成式大模型9:17:58下午4时间模型开发者2022年11月ChatGPTOpenAI2023年2月LLaMAMetaAI2023年3月BardGoogleAI2023年3月文心一言百度2023年4月通义千问阿里2023年12月GeminiDeepMind2025年1月DeepseekV3深度求索语言大模型视觉大模型语言大模型ChatGPT信息检索代码生成聊天机器人……科技业医疗健康客户服务……1.生成式大模型9:17:58下午5时间模型开发者2022年7月MidjourneyMidjourney2022年8月StableDiffusionStabilityAI2023年3月Gen-2Runway2023年7月通义万相阿里云2023年11月文心大模型百度2024年2月SoraOpenAI2025年2月CogView4智谱AI语言大模型视觉大模型图像修复图像编辑图像变换……艺术创作文化娱乐医疗影像……视觉大模型《太空歌剧院》(Midjourney)SoraStableDiffusion的生成效果9:17:58下午6Gen-2的生成效果(1)9:17:58下午7基于一张图片和一段提示词的视频生成图片输入提示词输出Gen-2的生成效果(2)9:17:58下午8视频风格转换输入风格图输出Sora的生成效果(1)9:17:58下午9Sora的生成效果(2)9:17:58下午102.生成式视觉模型的发展历程9:17:58下午11深度神经网络AlexNet(2012)网络结构、损失函数、训练方法等快速迭代DeepMind提出BigGAN(2019)NVIDIA提出StyleGAN(2019)IanGoodfellow等提出生成对抗网络GAN(2014)提出对抗训练机制扩散模型兴起(DiffusionModel)OpenAI提出ADM(2021)媲美甚至超越GAN的生成效果朱俊彦等提出GigaGAN(2023)GAN在图像生成领域的复兴OpenAI发布Sora(2024)JonathanHo等提出DDPM(2020)“前向加噪-反向降噪”训练机制宋飏等提出Score-basedModel(2020)条件生成对抗网络cGAN(2014)对生成的图像具有了较强的控制能力连续条件生成对抗网络CcGAN(2020)以连续标量为条件GAN落伍了?Runway团队提出LatentDiffusionModel(2022)催生出StableDiffusion(同期还有DALL·E、Imagen等)JonathanHo等提出Classifier-FreeGuidance(2021)生成式模型的大型化趋势模型“大”参数量多或计算量大数据“大”上亿的训练样本功能越来越强,成本也越来越高9:17:58下午12M:百万B:十亿3.生成式建模的基本概念3.1概率预备知识3.2信息论预备知识3.3针对图像的生成式建模9:17:58下午13《神经网络与深度学习》,邱锡鹏,机械工业出版社,20213.1概率预备知识样本空间随机变量/向量及其概率分布边际分布条件概率分布独立与条件独立期望和方差高斯分布9:17:58下午143.1概率预备知识似然函数与极大似然估计熵交叉熵

KL散度(相对熵)

JS散度9:17:58下午15样本空间9:17:58下午16

随机变量9:17:58下午17

只有离散型和连续型吗?

接下来只讨论连续型随机变量!连续随机变量的概率分布

9:17:58下午18

连续随机变量的概率分布

9:17:58下午19连续随机变量的概率分布

9:17:58下午20随机向量

9:17:58下午21随机向量的分布

9:17:58下午22边际分布

9:17:58下午23条件概率分布

9:17:58下午24贝叶斯定理

9:17:58下午25在后续的公式推导中会被反复用到!先验:已知信息后验条件:新信息独立与条件独立

9:17:58下午26数学期望

9:17:58下午27方差

9:17:58下午28期望针对哪个分布?协方差

9:17:58下午29期望针对哪个分布?高斯分布9:17:58下午30高斯分布9:17:58下午31

多维高斯分布

9:17:58下午32似然函数

9:17:58下午33极大似然估计(MLE)

9:17:58下午34熵

9:17:58下午35交叉熵

9:17:58下午36KL散度(相对熵)

9:17:58下午37JS散度Jenshon-Shannon(JS)散度是一种对称的、衡量两个分布相似性的度量方式。定义9:17:58下午383.2什么是生成式建模?9:17:58下午39

生成式建模的根本任务密度估计(DensityEstimation)样本生成(Sampling)9:17:58下午40密度估计9:17:58下午41概率密度估计(densityestimation):基于一些观测样本来估计随机变量的密度函数密度估计的方法9:17:58下午42显式估计参数法:假设待估分布为某已知分布,估计其中未知参数;极大似然估计非参数法:直方图法、核密度估计等可获得估计分布密度函数的具体表达式,但是高维场景中表现较差密度估计的方法9:17:58下午43

样本生成

9:17:58下午443.3针对图像的生成式建模9:17:58下午453.3针对图像的生成式建模9:17:58下午46

估计所有像素值的联合分布

采样

4.典型模型简介4.1变分自编码器4.2生成对抗网络4.3标准化流4.4扩散模型9:17:58下午479:17:58下午48典型模型结构示意图4.1变分自编码器变分自编码器在编码过程中引入了一个隐变量,使得模型能够学习到数据的潜在分布。通过优化潜在变量的变分下界,变分自编码器能够生成与原始数据分布相似的新样本。9:17:58下午494.2生成对抗网络生成对抗网络由两个神经网络组成:一个生成器和一个判别器。通过这两个网络的对抗训练,生成对抗网络能够生成高质量的数据样本,如逼真的图像、音频和视频。9:17:58下午504.3标准化流模型通过一系列可逆且光滑的变量变换,将简单的概率分布(如高斯分布)逐步转换为与真实数据相匹配的复杂分布。这些变换需要满足其雅可比行列式易于计算的条件,以便于进行高效的概率密度估计。9:17:58下午514.4扩散模型通过模拟物质的扩散过程来生成数据。在扩散模型中,数据逐步被添加噪声,然后再通过一个逆向过程逐步去噪,以恢复原始数据或生成新的数据实例。9:17:58下午52典型模型的比较9:17:58下午53模型简称密度函数采样过程训练过程模型结构变分自编码器VAE下界快MLE-LB编码器-解码器生成对抗网络GAN无快对抗式生成器-判别器标准化流Flow精确的较快MLE可逆函数扩散模型Diffusion下界慢MLE-LB编码器-解码器5.评价指标简介

5.1负对数似然

5.2

InceptionScore(IS)

5.3

FréchetInceptionDistance(FID)5.4过拟合的检测9:17:58下午545.1负对数似然9:17:58下午55

交叉熵估计负对数似然越小越好!5.2InceptionScore9:17:58下午56用一个在ImageNet数据集上预训练的Inception

V3模型来预测给定生成图片的类别标签,然后计算

整个数据集类别标签的边缘分布5.2InceptionScore9:17:58下午57两条假设:一是若生成图像的多样性足够高,这些图像的类别标签应该均匀分布于1000个类别,而非集中于某几个类别。二是对于视觉质量较好的生成图像,分类器Inception-V3网络输出的预测概率应当集中于某一特定类别上,即分类器能够较为确定地判断该图像所属的类别。若满足假设,KL散度应该较大。IS越大越好!该数学期望在实际中如何计算?5.3FréchetInceptionDistance用一个在ImageNet数据集上预训练的Inception

V3模型来提取生成图片和真实图片的特征

(feature),并在此特征空间定义一个距离:FID分数越低,表示生成图像与真实图像的分布越接近,通常认为生成的图像质量越高。9:17:58下午58生成图像生成图像真实图像真实图像5.4

过拟合的检测

9:17:58下午595

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论