版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章
生成式人工智能目录4生成式人工智能的应用1生成式人工智能的发展历程2生成式人工智能核心原理生成式模型架构36.1生成式人工智能的发展历程
目录1早期探索与技术雏形关键技术突破与标志性模型2生成式人工智能的发展历程01人工智能的诞生达特茅斯会议1956年,达特茅斯会议首次提出“人工智能”术语,汇聚了多位科学家,共同探讨机器学习、自然语言处理等前沿课题,标志着人工智能学科的诞生。图灵测试的提出1950年,艾伦·图灵在其论文《计算机器与智能》中提出图灵测试,为判断机器是否具有智能提供了一个标准,开启了人工智能的理论探索。早期人工智能的探索方向符号主义早期人工智能主要集中在符号主义和逻辑推理上,通过符号表示和操作实现智能。然而,这种方法在处理复杂、模糊和不确定性问题时存在明显局限性。专家系统早期专家系统通过将专家知识编码为规则,利用逻辑推理引擎模拟专家决策过程。但在语言生成和图像识别等领域,专家系统难以处理复杂问题。生成式人工智能的早期探索语言生成的初步尝试20世纪50年代末,自然语言处理的先驱们通过编写复杂的语法规则让计算机生成简单句子,但生成内容生硬且缺乏连贯性。图像生成的早期探索20世纪60年代,计算机图形学先驱开发了交互式绘图系统,尝试通过算法生成复杂图像,为后续图像生成技术奠定了基础。生成式人工智能的技术雏形手写数字生成实验90年代初,研究者利用神经网络生成简单的手写数字图像,虽分辨率低,但验证了神经网络在生成任务中的潜力。反向传播算法的提出20世纪80年代,反向传播算法的提出使多层神经网络可端到端训练,突破了感知机的线性局限,为神经网络的广泛应用奠定了基础。生成式人工智能的技术雏形隐马尔可夫模型20世纪90年代,隐马尔可夫模型被广泛应用于语音识别和自然语言处理,通过状态转移和观测概率生成序列数据。序列生成的局限性尽管隐马尔可夫模型在语法上较为合理,但在语义连贯性和多样性方面仍存在不足,难以生成复杂的语言内容。生成式人工智能的技术雏形01对抗学习的早期探索90年代至2010年前后,对抗学习概念逐渐兴起,生成器与判别器在零和博弈中交替提升,为后续GAN的提出提供了理论基础。02GAN框架的诞生2014年,Goodfellow提出生成对抗网络(GAN),将博弈论思想与深度神经网络结合,开启了高质量内容生成的新范式。生成式人工智能的发展历程02关键技术突破MNIST生成实验深度信念网络在MNIST数据集上验证了其生成能力,低维噪声向量可通过网络生成清晰的手写数字图像。深度信念网络的提出2006年,Hinton提出深度信念网络,通过堆叠受限玻尔兹曼机逐层训练,解决了深层网络的训练难题,为无监督学习提供了新思路。关键技术突破自编码器的局限传统自编码器通过压缩输入数据生成低维表示,但在生成多样性和语义合理性方面存在不足。变分自编码器的突破2013年,变分自编码器引入概率模型,使隐空间向量服从概率分布,从而生成具有多样性的样本,显著提升了生成质量。关键技术突破GAN的核心机制GAN通过生成器与判别器的对抗训练,无需显式概率密度估计即可生成高质量样本,为图像生成等领域带来了革命性突破。GAN的改进与发展DCGAN标准化了GAN的卷积架构,引入批归一化技术,解决了训练不稳定问题,进一步提升了生成图像的质量。关键技术突破Transformer架构的创新2017年,Transformer架构通过自注意力机制,允许模型在处理序列数据时捕捉长距离依赖关系,显著提升了生成质量。Transformer的广泛应用Transformer架构不仅在自然语言处理领域取得突破,还迅速扩展到图像、音频等多模态生成任务,成为生成式人工智能的核心技术之一。
标志性模型GPT-1的开创意义2018年,GPT-1首次将Transformer架构应用于生成式预训练模型,展现了强大的语言生成能力。GPT-3的突破性进展2020年,GPT-3以1750亿参数展示了少样本学习和零样本学习能力,极大地推动了自然语言生成技术的发展。
标志性模型01StyleGAN的核心创新StyleGAN通过风格向量实现对生成图像风格的精细控制,能够生成高质量的人脸图像,并在发型、肤色、表情等方面进行灵活调整。02StyleGAN的持续改进StyleGAN2和StyleGAN3在生成图像质量和多样性方面不断优化,推动了图像生成技术的发展。
标志性模型DALL·E的文本到图像生成DALL·E能够根据复杂的文本描述生成高质量图像,为创意设计和广告制作等领域提供了新的工具。StableDiffusion的开源与应用StableDiffusion采用扩散模型架构,具有开源、高效的特点,广泛应用于艺术创作和图像合成任务。6.2生成式人工智能核心原理目录4预训练与微调原理5多模态融合原理1生成模型基础概念2生成数据的核心方式对抗训练原理3生成模型基础概念01生成模型基础概念数学本质从数学角度而言,生成式AI以随机噪声为起点,通过一系列复杂变换逼近真实样本的分布,从而实现高保真内容的生成。定义生成式人工智能是一种能够自主生成各类数据的模型,涵盖图像、文本、音频等多种数据类型。其核心使命是通过算法深度还原真实数据的分布特征。生成模型基础概念概率模型范式基于概率模型的生成方式,以隐马尔可夫模型(HMM)为代表,依靠状态转移概率和观测概率生成序列数据。HMM语音生成在语音生成任务中,HMM依据音素间的转移概率及发音信号概率,逐步生成连贯自然的语音序列,精准把控音素转换规律。应用场景例如在英语发音中,从元音音素“a”过渡到辅音音素“p”存在一定概率,HMM通过这些概率实现语音序列的生成。生成模型基础概念深度学习范式基于深度学习的生成方式借助神经网络强大的函数拟合能力,直接对数据分布进行建模,自动编码器(AE)是典型代表。自编码器工作原理自编码器由编码器和解码器构成,编码器将输入数据压缩为低维表示,解码器再将其重构为原始数据的近似形式,从而学习到数据特征。生成数据的核心方式02生成数据的核心方式在生成对抗网络(GAN)中,生成器以随机噪声向量为输入,这些噪声向量通常从标准正态分布或均匀分布中采样。噪声输入生成器通过卷积层提取特征信息,再利用反卷积层将低维特征映射到高维空间,逐步构建出与真实数据相似的图像。生成过程例如生成猫咪图像时,生成器从噪声向量出发,识别出猫咪轮廓、毛发等局部特征,最终生成具有特定姿势和毛色的猫咪图像。示例生成数据的核心方式条件输入条件生成对抗网络(CGAN)在生成器和判别器的输入中融入条件信息,如类别标签或文本描述,以生成符合特定条件的数据。应用示例例如给定类别标签“猫”,生成器会生成符合猫特征的图像;若给定风景描述文本,生成器则生成与文本描述相符的风景图像。对抗训练原理03对抗训练原理01博弈关系在GAN中,生成器和判别器相互对立又相互促进,生成器试图欺骗判别器,判别器则努力区分真假数据。02目标通过对抗训练,生成器生成的数据愈发逼真,判别器的鉴别能力也日益增强,最终达到相对平衡状态。对抗训练原理训练循环生成器生成假样本,判别器输出真伪概率,生成器最大化被判真概率,判别器最小化分类误差。双方通过反向传播同步更新权重,使假样本在纹理、色彩等维度逐步逼近真实数据。参数更新经过多次迭代,生成器生成的数据在视觉和语义上与真实数据高度相似,判别器难以区分真假。结果预训练与微调原理04预训练与微调原理
预训练过程以GPT系列为例,模型在通用文本语料上通过自回归方式学习词间语义、句间逻辑及语法结构。优势预训练阶段无需标注数据,可吸收语言共性,形成可迁移的语义空间,为下游任务提供通用基础。生成模型基础概念例如在医疗文本分类中,通过微调聚焦医学术语与疾病逻辑,实现高精度专业输出。应用示例收集少量标注数据,调整预训练模型的顶层参数,保持底层语义不变,适配具体下游任务。微调步骤微调后的模型能够精准完成特定任务,同时保留预训练阶段学到的通用知识。效果多模态融合原理05多模态融合原理
互补性图像、文本、音频等不同模态数据在信息密度与语义粒度上互补,单一模态常面临歧义或缺失,融合可提升生成内容的准确性与丰富度。动机通过融合不同模态数据,生成式AI能够突破单一模态限制,生成更具综合性、高质量的内容。多模态融合原理
将视觉特征和语义特征融合后输入生成模型,生成既贴合画面又符合语法的图像描述。特征融合与生成通过CNN提取图像中的关键视觉特征,如物体形状、颜色、位置关系等。图像特征提取利用NLP模型将文本描述转化为语义特征,包括物体名称、属性描述、动作行为等信息。文本语义解析6.3生成式模型架构目录4自动化办公5医疗诊断与医学研究其他领域61文本生成2图像与视频生成音乐与音频生成3生成对抗网络01生成网络的架构生成对抗网络由生成器(generator)和判别器(discriminator)两个相互对抗的神经网络构成。GAN的构成01其核心思想源于博弈论中的二人零和博弈,生成器试图生成与真实数据相似的数据样本,判别器则努力区分输入数据是真实数据还是生成数据。GAN的核心思想02两者在对抗训练中不断优化,最终达到一种动态平衡状态,即纳什均衡。在这种均衡下,生成器生成的数据能够以假乱真,判别器也难以准确分辨数据的来源。GAN的动态平衡03生成网络的架构生成器的主要任务生成器的主要任务是接收随机噪声作为输入,通过一系列的神经网络变换,将噪声向量映射到与真实数据相似的数据空间中,生成看似真实的数据样本。例如,在图像生成任务中,生成器将随机噪声向量转化为具有特定分辨率和内容的图像;在文本生成中,将噪声向量转化为连贯的文本段落。生成器的目标是欺骗判别器,使判别器误以为生成的数据是真实数据。判别网络的架构判别器的主要任务判别网络,也就是判别器,负责对输入的数据进行真伪判断。它接收来自真实数据集的数据样本以及生成器生成的数据样本,通过自身的神经网络结构提取数据的特征,并利用分类器判断输入数据属于真实数据分布还是生成数据分布。判别器的训练目标是最大化区分真实数据和生成数据的能力,通过不断优化参数,提高对两类数据的鉴别准确率。GAN相关重要概念对抗训练GAN的训练机制是生成器和判别器通过交替训练进行对抗。在生成器训练阶段,固定判别器参数,生成器生成数据并输入到判别器中,生成器的目标是最大化判别器对生成数据的误判概率;在判别器训练阶段,固定生成器参数,判别器接收真实数据和生成数据,通过最小化分类损失来提高对两类数据的区分能力。模式坍塌GAN训练过程中可能出现模式坍塌问题,即生成器只生成少数几种模式的数据,无法覆盖真实数据的全部多样性。为了避免模式坍塌,可以采用一些改进的训练方法,如引入正则化项、多尺度训练、使用更复杂的网络架构等。评估算法InceptionScore的计算IS通过计算生成图像类别分布的熵和生成图像属于真实类别的平均概率来评估GAN的性能。较高的IS值意味着生成图像既具有高置信度又有高多样性,表明GAN生成的图像质量较高且具有丰富的变化。InceptionScore的定义InceptionScore(IS)是一种广泛应用于评估生成对抗网络(GAN)生成图像质量和多样性的指标,其构建基于预训练的Inception模型。变体FID的定义FID通过计算生成数据和真实数据在特征空间中的分布距离来衡量生成模型的优劣。FID值越低,表明生成数据的分布与真实数据的分布越接近,生成模型的性能也就越好。KID的定义KID与FID类似,也是基于Inception模型的特征来评估生成数据与真实数据分布之间的差异,但它采用了核方法来进行计算。KID对分布差异的检测更为敏感,尤其在处理小样本数据时表现出色。变体01DCGAN的定义深度卷积生成对抗网络(DCGAN)对生成器和判别器的架构进行了规范化设计,在生成器中使用反卷积层,在判别器中使用卷积层,并引入了批归一化技术,使得网络训练过程更加稳定,生成的图像质量更高。02CGAN的定义条件生成对抗网络(CGAN)在生成器和判别器的输入中引入额外的条件信息,如类别标签、文本描述等。通过这种方式,生成器能够根据给定的条件生成特定类型的数据样本,增强了生成模型的可控性。
自回归模型(Transformer架构)02生成对抗网络(GAN)Transformer架构的特点Transformer架构的核心特性是自注意力机制和多头注意力,它能够同时对序列中的多个元素进行处理,极大地提升了计算效率,且通过自注意力机制,模型在处理每个位置时,均可全方位关注序列中其他位置的信息,有效解决了长距离依赖问题。Transformer架构的应用Transformer架构在自然语言处理(NLP)、计算机视觉(CV)等多模态生成任务中大放异彩。在NLP领域,从基础的文本分类、情感分析,到复杂的机器翻译、问答系统、文本生成等任务,Transformer都展现出了卓越的性能;在CV领域,其在图像描述生成、目标检测、图像分割等任务中也取得了令人瞩目的成果。生成对抗网络(GAN)自注意力机制的工作原理自注意力机制通过线性变换生成查询、键、值向量,然后计算注意力权重,将每个位置的输入向量转化为对应的查询、键和值向量,为后续的注意力计算奠定基础。自注意力机制的优势自注意力机制赋予模型在处理序列中每个位置时,动态关注序列中其他所有位置信息的强大能力,真正实现了对序列信息的全局感知与深度融合。生成对抗网络(GAN)01多头注意力机制的定义多头注意力机制是在自注意力机制基础上进行的一次重大升级与拓展,它通过在多个不同的子空间中并行应用多个自注意力机制,然后将这些不同视角的结果巧妙拼接整合,极大地增强了模型的表达能力和学习能力。02多头注意力机制的优势每个头的自注意力机制都可视为一个独立且专注的观察者,它们从各自独特的视角关注序列中不同类型的依赖关系,从而使模型能够更全面、深入地捕捉序列中的复杂特征与依赖关系。生成对抗网络(GAN)位置嵌入的作用位置嵌入技术为模型提供序列位置信息,使其能够准确理解序列中元素的相对位置关系。位置嵌入的生成方式位置嵌入通常有两种生成方式,一种是基于正弦和余弦函数的确定性生成方式,另一种是通过模型学习得到的自适应生成方式。生成对抗网络(GAN)BERT的定义BERT作为一种基于Transformer的预训练模型,在自然语言处理领域表现卓越。它仅采用了Transformer的编码器部分,通过独特的双向上下文学习方式来生成词嵌入。BERT的预训练任务BERT在预训练阶段精心设计了掩码语言模型和下一句预测两种任务,通过大量样本的训练,模型能够深度挖掘单词在丰富上下文环境中的语义表示,极大地增强了对语言的理解和把握能力。生成对抗网络(GAN)GPT的应用GPT在预训练过程中通过不断地预测下一个单词,逐步探索和学习语言的内在模式和规律。它在对话系统、写作辅助等领域表现出色,能够生成高质量、连贯且富有逻辑性的文本。GPT的定义GPT是另一种基于Transformer的预训练模型,专注于文本生成任务。它采用了Transformer的解码器部分,通过自回归生成方式,有条不紊地逐步生成文本序列。6.4生成式人工智能的应用目录4自动化办公5医疗诊断与医学研究其他领域61文本生成2图像与视频生成音乐与音频生成3文本生成01文本生成ChatGPT能够根据用户输入的主题和内容要点,快速生成格式规范、语言得体的邮件正文,平均撰写时间缩短近半,同时确保信息准确性和专业性。邮件撰写通过语音识别和自然语言处理技术,ChatGPT可实时识别会议语音内容,精准提取关键信息,生成条理清晰的会议纪要,提高工作效率。会议纪要ChatGPT能够根据客户的不同需求和反馈信息,灵活调整回复策略,实现个性化沟通,提升用户体验和企业形象。个性化沟通图像与视频生成02图像生成广告海报生成用户输入简单描述,生成式AI即可快速生成创意十足的广告海报图像,满足不同市场定位需求,大大缩短广告创意策划周期。媒体配图生成式AI为新闻报道、杂志插画等生成高质量图像,丰富视觉元素,提升内容吸引力和传播力,降低媒体制作成本。视频生成游戏场景生成生成式AI根据关键词描述,自动生成包含丰富细节的游戏场景,如奇幻森林、未来都市等,显著缩短游戏开发周期。AI可快速生成符合主题的影视片头视频,提供多种风格选择,助力影视制作团队高效完成前期工作,提升创作效率。影视片头制作用户输入文字描述,生成式AI生成生动有趣的短视频片段,满足社交媒体内容需求,为创作者提供丰富素材。短视频创作音乐与音频生成03音频生成生成式AI可一次性完成作词、作曲、编曲及混音,为音乐创作者提供零门槛创作环境,激发创作灵感。音乐创
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年草除灵乙酯项目发展计划
- 4.1用数对表示位置
- 2025年智能检测分选装备合作协议书
- 护理SBAR交班在危重症患者管理中的应用
- 产后瑜伽与运动康复
- 尿瘘患者生活质量评估与护理干预
- 护理课件学生满意度调查
- 护理工作流程详解
- 告别陋习拒绝吸烟课件
- 肝癌患者的康复锻炼护理
- 小儿肾挫伤的护理措施
- 2025中原证券股份有限公司招聘55人笔试考试参考试题及答案解析
- 医疗不良事件上报与绩效联动策略
- 骨相美学理论课件
- 2025年空气采样操作流程试题有答案
- 2025年度数字化城市管理信息系统安全自查报告
- 营销沙盘实训报告
- 教辅销售年终总结
- 加盟连锁店的风险管理与应对策略
- 煤矿正式工合同范本
- 婚介红娘合同协议书
评论
0/150
提交评论