版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅知识目标:能了解ChatGPT以及其它大模型;能复述生成式人工智能的概念,能描述生成式人工智能的各种常见应用。能力目标:能掌握大模型的处理流程和相关技术;能完成给定需求下,用生成式人工智能提升解决问题的效率和质量。素养目标:具备生成式人工智能的思维和正确使用生成式人工智能的认识。7.17.27.37.4生成式人工智能那些事生成式人工智能概述生成式人工智能的核心技术*目录CONTENTS7.5生成式人工智能具体应用扩展:国产大模型DeepSeek
自2022年11月30日,OpenAl公司发布人工智能大模型ChatGPT3.5引爆这次人工智能浪潮以来,生成式人工智能得到快速发展。那发展到底有多快呢没有对比就没有伤害
我们来对比一下各个软件平台用户数破亿的耗时记录。(1)电话用户数突破一亿用户的耗时75年,(2)互联网则需要7年。(3)facebook则花费4.5年(4)苹果公司的AppleAppStore耗时2年。(5)腾讯公司的微信耗时1.2年、(6)字节跳动的TikTok(抖音)耗时九个月、(7)OpenAI的ChatGPT耗时两个月,...
2022年成为“大模型元年”大模型元年2022年-至今,这种发展模式持续
爆,从单模态发展到多模态,从高成本发展到低成本、从国外延伸到国内,其影响力还在不断延伸和扩展。2025年1月,深度求索的DeepSeek又一次引起全球对大模型以及生成式人工智能巨大关注,用户数破亿仅仅花费7天。到底生成式人工智能是啥?为啥如此火爆?我们又如何利用它服务我们的学习、生活和未来的专业发展呢?小智的生成式人工智能体验
小智先是准备竞选班干部,利用生成式人工智能制作了简历,还做个自己的数字代言人,成功竞选班干部。
后来小智在服务班级活动中,偶尔还制作PPT,班级微视频等。
你是否好奇,小智是如何利用生成式人工智能技术服务他的学习和生活的呢?DeepSeek等大模型功能真的有这么强大吗?这些应用背后的技术支撑又是什么呢?GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅7.17.27.37.4生成式人工智能那些事生成式人工智能概述生成式人工智能的核心技术*目录CONTENTS7.5生成式人工智能具体应用扩展:国产大模型DeepSeek人工智能按用途可简单分为决策式人工智能生成式人工智能扫地机器人自动驾驶等DeepSeek,文心一言可灵、即梦等人工智能按用途可简单分为决策式人工智能生成式人工智能扫地机器人自动驾驶等具身智能DeepSeek,文心一言可灵、即梦等7.2.1生成式人工智能概念
生成式人工智能英文全称是GenerativeArtificialIntelligence,简称GAI或生成式AI。
它能够根据用户要求生成文本、图像、代码、视频和音频等内容。用户可以提出什么要求呢?7.2.1生成式人工智能概念讲四次工业革命的事儿,(演示)生成个连连看的游戏(演示)提出要求不同,生成内容不同提示词看备注
在2022年ChatGPT最初发布的时候,主要是生成文字。随后技术快速发展,目前从国内外各种大模型来看,能生成文字、图像、代码、视频、音频以及智能体等内容,而且很多模型都支持多模态生成。下面我们就常见的生成内容进行介绍。7.2.2生成式人工智能生成内容讨论,你经常使用哪些大模型来进行生成,能生成什么?
(1)文本生成
文字的生成是生成式AI最原始的功能,也是从自然语言处理发展而来的功能,目前的大语言模型如ChatGPT,还有很多国产的大语言模型如百度的文心一言、阿里的通义千问、清华的智谱清言、科大讯飞的讯飞星火、字节跳动即抖音的豆包、金山公司的WPS、深度求索的DeepSeek等都能提供文生文的功能。7.2.2生成式人工智能生成内容对于人类来说,80%的信息靠视觉获取,我们天生更喜欢看,因此对图像的敏感度和喜欢程度也自然远高于文字本身,因此大模型除语言大模型可以生成文字外,还有图像大模型可以生成图像,目前支持图像的大模型的应用,国外的有OpenAI开发的DALL·E、Midjourney、StableDiffusion等,国内如百度的文心一格、阿里的通义万相等都提供文生图的功能。7.2.2生成式人工智能生成内容
(2)
图像生成7.2.2生成式人工智能生成内容
(2)
图像生成
基本能提供文字生成的大模型大都能提供代码生成,如DeepSeek,文心一言等,除此之外,还有一些专门做代码生成的平台,如pycharm就是python的集成编辑平台,可以进行智能代码补全的任务。
完善连连看游戏的完整版7.2.2生成式人工智能生成内容
(3)
代码生成
一方面是生成式AI能力不断增强,另一方面是大家AI需求的不断增加,现在有很多平台都可以根据文字来生成视频,或是依据静态图片来生成动态视频。目前生成视频的平台国外的有Sora,国内如快手的可灵、抖音的即梦AI等。7.2.2生成式人工智能生成内容
(4)
生成视频7.2.2生成式人工智能生成内容
(5)
其它生成
不同的生成式AI平台,提供的AI生成能力也不相同,随着多模态大模型的发展,综合生成能力不断增强,而且随着逐步的商业化,由基本生成延伸出来的变形也越来越多,如AI换装(可灵)、AI修图()等。也可以通过平台的不同组合来进行,如先根据图片生成视频,再根据视频合成数字人等,在这里就不一一赘述,在后面生成式AI赋能部分再详细介绍。7.2.3如何写好提示词
这个有点类似你问我如何学好大学的课程?敢问、会问是关键讨论,你的经验在使用大模型生成的时候,如何写提示词?1.目标明确,增加细节提示词1:生成一副学校的画面。提示词2:生成一副大学校园的画面,在秋季,两个女同学在草地上聊天。7.2.3如何写好提示词2.写好反向提示词在生成的时候,一方面我们写提示词告知大模型我们想要什么?同时我们也要告诉大模型我们不想要什么,这一点往往被忽略。提示词3:生成一条在草地上玩耍的小狗。提示词4:生成一条在草地上玩耍的小狗,不要带狗绳或项圈。7.2.3如何写好提示词3.合理利用合适的关键词、短语和句子一般关键词和短语在描述要点,而句子主要用来描述细节,如提示词5.提示词5:飞机;莱特兄弟;在蓝色的天空中飞行,天空中有几朵白云,下面是一望无际的大海。7.2.3如何写好提示词4.使用样例5.可以利用生成式AI来生成提示词6.其它如提示词写出markdown格式等等7.2.3如何写好提示词
使用生成式AI,但我们不能依赖它。7.2.3如何写好提示词(它可能一本正经的胡说八道,为什么呢?)GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅7.17.27.37.4生成式人工智能那些事生成式人工智能概述生成式人工智能的核心技术*目录CONTENTS7.5生成式人工智能具体应用扩展:国产大模型DeepSeek7.3.1大模型概述7.3.2生成对抗网络GAN7.3.3大模型基础架构Transformer7.3.4扩散模型Diffusion7.3.5文生图的核心CLIP模型讨论:现实生活中,你了解模型吗?
在正式生产某种产品之前往往会先做模具;在盖大楼之前先绘制设计图;在制作衣服之前先做样衣等等,其实这些模具、设计图和样衣等是模型。
为了求点到直线之间的距离,我们会总结出数学公式,这个数学公式也是模型。
在机器学习中,模型是指通过算法从数据中进行学习的数学表示。
大模型主要是采用深度神经网络搭建起来的一个有输入、有输出、有很多参数、需要很多数据来进行训练的一个模型体系,而这个体系要运转起来,还需要很大的算力。
所以大模型的大,可谓是大数据、大参数和大算力等。7.3.1大模型概述012006年辛顿团队多层神经网络022009年李飞飞团队ImageNet数据集032010年GPU被广泛用于模型训练062017年Google推出Transformer架构052014年GAN算法产生可生成文本和图像042012年AlexNet深度学习的转折点072022年OpenAI推出ChatGPT082025年DeepSeek横空出世AI大众化大模型相关的重大事件7.3.1大模型概述
可见大模型的发展是一个快速迭代的过程,每一次进步都依赖着计算能力的提升、算法创新以及应用场景的扩展。那大模型是怎么工作的呢?7.3.1大模型概述
大模型原理:学习已有知识+生成新知识一、怎么学习已有知识二、又如何生成新知识类似与捏泥人的过程7.3.1大模型概述类似与捏泥人的过程7.3.1大模型概述搭建硬件架构,需要GPU等各种深度学习算法需要用数据进行训练能进行各种生成介绍大模型主要技术7.3.1大模型概述7.3.2生成对抗网络GAN
生成对抗网络GAN诞生于2014年,综合了深度学习和强化学习的思想,通过生成器和判别器的相互对抗来实现文字、图像和视频的生成过程。原始的GAN并不要求生成器和判别器都是深度神经网络,但在实际中,往往都是基于深度神经网络去构建。7.3.2生成对抗网络GAN生成器判别器一位正在学习画小狗的画家一位严格的鉴定师GAN的工作原理对抗对抗类比(b)鉴定师对抗:画的不好
d)鉴定师不断对抗:没有身体
(f)鉴定师:可以了(a)画家随机涂鸦
(c)画家画狗水平不断提高
(e)画家绘制满意作品7.3.2生成对抗网络GAN生成器生成对抗过程判别器GAN的工作原理是一个神经网络,利用随机数来生成对应的目标对象。生成的过程中不断地根据判别器提供的对抗信息进行参数调整,直到判别器认可为止。也是一个神经网络,根据训练数据集判断生成器生成内容的相似程度,0不像,1非常像。7.3.2生成对抗网络GAN生成对抗网络GAN对抗过程7.3.2生成对抗网络GANGAN虽然本身可以生成文字和图像,但不得不说,GAN本身并不擅长文字生成,后来发展的GAN的变体也确实应用于文本生成,但GAN最主要或者说最广泛的应用还是在图像生成方面。GAN的应用文本生成我不擅长,请找我的子孙们,我擅长的是标出的这些。生成图像数据集图像创作图像修复多模态生成7.3.2生成对抗网络GAN
在GAN模型的推动下,生成式AI应该说迎来了春天,而且也有了一些应用。GAN缺点和不足(1)生成器和判别器两个神经网络,训练难度大(2)GAN本身的机制是生成器最终为了从判别器那里“骗取”高分,这使得它的生成天生难以充分发挥生成式AI多样性和创造性的需要。(3)GAN不好加条件,如生成人可以,但如果添加生成黄皮肤、圆脸、大眼睛的长发美女,它就搞不定啦。Transformer和Diffusion就更显卓越。7.3.3大模型基础架构Transformer
在自然语言的机器翻译部分,我们已经对Transformer有初步的认识,知道它通过编码器和解码器,同时设置中间语义转换向量来实现从一种语言翻译成另一种语言。其实Transformer的应用非常广泛。我们目前的大模型,无论是GPT、文心大模型、通义大模型、DeepSeek等,都是基于Transformer来建立的。你可能好奇,Transformer是怎么做到的呢?7.3.3大模型基础架构Transformer
讲讲生活中的习惯思维1.注意力机制初次见面,先看外表。阅读文章,先看标题批改作业,先看格式共同点,通过后者快速推断前者,找出其中关系这就是注意力机制,就是关注我们容易关注的。
人工智能的注意力机制最早来自图像标注,后来被用于自然语言处理,用于解决机器翻译的长句子处理问题。当翻译的句子越来越长的时候,单纯的编码器和解码器,翻译效果不理想。7.3.3大模型基础架构Transformer1.注意力机制基于编码器和解码器的机器翻译7.3.3大模型基础架构Transformer1.注意力机制Ilikesports我喜欢运动ItwasonthemorningofFebruarytheninththatIarrivedinLondon.它在2月的早上第九我到达了伦敦短句翻译,还可以
长句翻译,就不理想。忽略了词和词之间的联系,没有采用注意力机制。
采用注意力机制以后,翻译:2月9日早晨我到达了伦敦
从数学的角度来描述注意力机制的话,可以理解为权重。就是把重要的内容设置的权重高,而不重要的内容设置的权重低。7.3.3大模型基础架构Transformer1.注意力机制设置不同权重的编码器和解码器7.3.3大模型基础架构Transformer研究明表,汉字序顺并不定一影阅响读比如当你完看这句话,才发现字全是乱的。来自科普中国的一段文字其实仅有注意力机制还不够,请阅读右边文字。这是因为在阅读时,我们并不是逐字阅读,而是会扫视“关键字”,然后大脑会凭借经验进行“脑补式”的理解。1.注意力机制----自注意力机制7.3.3大模型基础架构Transformer
有意思的是,人不仅在理解汉字时是这样,在理解其它语言和图片时也这样。而把这种现象应用到人工智能中,就是自注意力机制了。通俗的讲,Transformer的自注意力机制能够在句子中找到自己与各个词之间的关系,能快速找到要关注的重点。1.注意力机制----自注意力机制7.3.3大模型基础架构Transformer
除了自注意力机制外,还有多头注意力机制,顾名思义就是有多个自注意力机制通过加权计算,然后将加权计算结果综合起来,增加自注意力机制的效果。
如在一个句子中,一个注意力头关注上一个单词和下一个单词之间的关系,另一个注意力头则会关注主语和谓语的关系上。1.注意力机制----多头注意力机制7.3.3大模型基础架构Transformer
Theanimaldidn'tcrossthestreetbecauseitwastootired.it与animal、street和其它词的关联1.注意力机制----多头注意力机制7.3.3大模型基础架构Transformer
Theanimaldidn'tcrossthestreetbecauseitwastootired.animal、street与其它词的关联1.注意力机制----多头注意力机制注意力机制自注意力机制多头注意力机制同学们看看能不能用生活中的例子类帮助理解这三个概念一个经常发言的同学引起你的注意,一个项目团队合作,不仅要关注自己,还要和其它同学协调
项目太大,分为多个团队,每个团队有自注意机制,多个团队就是多头自注意力机制注意力机制自注意力机制多头注意力机制核心功能生活举例从外部信息中筛选出相关的部分。理解同一序列内元素之间的关系。并行多视角分析,综合更全面的信息。本质都是动态分配权重,让模型学会“该关注什么”。一个经常发言的同学引起你的注意,一个项目团队合作,不仅要关注自己,还要和其它同学协调
项目太大,分为多个团队,每个团队有自注意机制,多个团队就是多头自注意力机制7.3.3大模型基础架构Transformer
你可能会问,上面讲的和Transformer模型有关系吗?当然有呀,其实Transformer模型就是引入了多头注意力机制的编码器和解码器。2017年,谷歌发布的论文《AttentionisAllYouNeed》提出Transformer模型。从宏观来看,可以把Transformer模型看做一个有输入和输出的黑匣子。2.Transformer模型7.3.3大模型基础架构Transformer
拆开这个黑匣子,我们可以看到它是由编码组件、解码组件和它们之间的连接组成,2.Transformer的模型7.3.3大模型基础架构TransformerTransformer的编码组件由一系列编码器组成,解码组件由一系列解码器组成,其结构可以描述为如图所示,当然这里只绘制了5个编码器和解码器。2.Transformer的模型Transformer结构
编码器和解码器的工作过程虚线框内是一个编码器或解码器的内部结构7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程其中每一个编码器有前馈神经网络(有输入层、隐藏层和输出层的神经网络)和多头自注意力机制组成。7.3.3大模型基础架构Transformer2.Transformer的模型自注意力机制通过计算前一个编码器的输入编码之间的相关性权重,来输出新的编码;然后前馈神经网络对每个新编码进行处理,然后将这些处理后的编码作为下一个编码器或解码器的输入。编码器和解码器的工作过程7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程举例:首先,将句子“Ihurtmyback”输入编码器,编码器将每个单词就行拆解,转化为向量。在多头注意力机制中进行加权计算,然后整个编码器会输出一个向量集给解码器。7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程举例:其次,在解码器中,解码器首先读到一个开始标记,然后解码器会生成并输出一个向量,这个向量包含所有可能的汉字,并且每个汉字会有一个得分,得分高的汉字会出现在第一个位置,在这里,就是“我”这个汉字了。7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程举例:第三,把“我”作为解码器新的输入,接下来得分高的可能是“的”,以此类推,直到完成“我的背受伤了”。7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程
解码器的多头注意力机制采用的是掩码多头注意力机制,其核心思想是:因为解码器的生成对象是一个一个生成的,生成时只让参考已经生成的部分,没有生成的部分不允许参考。编码器和解码器的工作过程
仍以“我的背受伤了”为例,当翻译到“的”的时候,只能参考前面已经生成的“我”,而不能参考后面还没有生成的部分。7.3.3大模型基础架构Transformer2.Transformer的模型7.3.3大模型基础架构Transformer2.Transformer的模型编码器和解码器的工作过程此外,解码器在前馈神经网络和掩码多头注意力机制之间,还有编码-解码注意力机制,主要是为了接受编码器的输入向量集,让解码器在解码过程中能够充分关注到上下文的信息。7.3.3大模型基础架构Transformer3.Transformer基础模型的常见扩展目前的大模型GPT、ChatGPT、BERT、T5、LAMMA以及国内的大模型的基础都是Transformer,Transformer构成了几乎所以大模型的基础,以Transformer为基础的大模型可谓生长成一颗大树。Transformer家族7.3.3大模型基础架构Transformer4.大模型的训练过程GPT是只包含解码器的Transformer模型,属于典型的通过大数据预训练+小数据微调的模型,模型发展经历GPT-1,GPT-2,GPT-3,GPT3.5,GPT4和GPT4o等。7.3.3大模型基础架构TransformerGPT的不同版本训练模型规模
模型参数(Billion)训练数据量突破训练方法产生时间GPT-11.3B40GB训练出大规模通用模型无监督预训练和有监督微调2018GPT-21.5B40GB多任务学习框架增加模型规模和参数2019GPT-3175B数十TB展现:大力出奇迹,继续增加模型规模和参数2020GPT-3.5(ChatGPT)175B数十TB对话机器人奖励模型,引入人类反馈的强化学习算法2022GPT-4未公开未公开双模态未公开2023GPT-4o未公开未公开多模态未公开20247.3.3大模型基础架构Transformer4.大模型的训练过程ChatGPT是在GPT-3.5模型基础上的微调模型,采用了基于人类反馈的强化学习算法,这种算法的核心思想:(1)模型的训练结果很大程度依赖人类的反馈,人类对其生成的结果进行打分。
(2)对打分的结果重新输入的模型中,来对模型进行调整。
高分
低分
YESNO正是利用这种基于人类反馈的强化学习算法,让ChatGPT具备更加清晰理解人类对话的意图,并获得和人类进行对话的能力,在语义理解上展现了前所未有的智能。7.3.3大模型基础架构Transformer4.大模型的训练过程GPT3.5是基础模型(通用大模型),通过预训练完成。ChatGPT是在GPT3.5的基础上又经过监督微调、奖励模型和强化学习训练的结果,整个训练过程分为四个步骤:ChatGPT的训练分为四个步骤预训练通用大模型监督微调训练奖励模型强化学习步骤一
步骤二
步骤三
步骤四7.3.3大模型基础架构Transformer4.大模型的训练过程预训练是预先在大量数据上训练模型。通过无监督学习的方式对大量无标签数据进行学习。这样获得的模型也称成为通用大模型,如GPT3.5就是通用大模型。这种训练往往需要大数据、大参数和大算力支持。ChatGPT的训练分为四个步骤预训练通用大模型监督微调训练奖励模型强化学习步骤一
步骤二
步骤三
步骤四7.3.3大模型基础架构Transformer4.大模型的训练过程通用大模型,可能不能满足某些场景的需要,需要进一步通过监督微调的方式进行训练。微调是在特定任务的小数据集上微调预训练模型以优化性能。ChatGPT的训练分为四个步骤预训练通用大模型监督微调训练奖励模型强化学习步骤一
步骤二
步骤三
步骤四基础大模型
微调模型通才
专才7.3.3大模型基础架构Transformer4.大模型的训练过程首先收集人们在对话中感兴趣的问题,形成一个问题库;其次不断从问题库中提取一个问题(称为prompt),丢给现实中的人,让它来做出回答,这个回答也称为标注。接下来把问题和回答形成“问-答”对,放入到通用模型如GPT3.5中进行监督学习,得到一个监督学习的微调模型。从问题库中抽取问题苹果是什么?
苹果是一种水果...
人工进行回答在GPT3.5上进行微调步骤二:监督微调7.3.3大模型基础架构Transformer4.大模型的训练过程奖励模型的训练方式,针对同一个问题,让监督微调学习模型给出多个答案。让现实中的人对这多个回答进行排序,这其中隐含了人类对模型效果的预期,依此形成新的标注数据集,然后进行训练奖励模型,ChatGPT的训练分为四个步骤预训练通用大模型监督微调训练奖励模型强化学习步骤一
步骤二
步骤三
步骤四7.3.3大模型基础架构Transformer4.大模型的训练过程步骤三:训练奖励模型从问题库中抽取问题苹果是什么?
A红色的
人工进行排序利用排序结果训练奖励模型重复生成多次回答B玩具
C酸酸甜甜
D一种水果
7.3.3大模型基础架构Transformer4.大模型的训练过程用强化学习算法通过奖励模型优化策略。可以认为得到策略优化模型ChatGPT的训练分为四个步骤预训练通用大模型监督微调训练奖励模型强化学习步骤一
步骤二
步骤三
步骤四7.3.3大模型基础架构Transformer4.大模型的训练过程(1)从数据集里面取出一条问题(2)然后放入到从微调模型得到的策略优化模型里面,(3)策略优化模型给出一条输出文本。(4)把文本放入奖励模型进行打分,获奖励值,(5)把奖励值反馈到策略优化模型更新策略,并持续反复迭代。GPT大模型的训练四个步骤8.3.2大模型是如何演进的所需资源上千块GPU训练数月几十块GPU训练数天几十块GPU训练数天几十块GPU训练数天四个步骤预训练监督微调奖励模型强化学习数据集互联网公开数据集2万亿Token问答对1万-10万人工反馈评价10万-100万人工提示词1万-10万算法语言模型预测下一个Token语言模型预测下一个Token二元分类器输出奖励强化学习最大化奖励模型基础模型预训练模型奖励模型强化学习7.3.3大模型基础架构Transformer4.大模型的训练过程经过以上四步的训练,可以实现完成大模型的训练。但如何利用大模型完成文本生成呢?7.3.3大模型基础架构Transformer5.大模型实现文本生成
大模型通过预测下一个词产生文本生成,预测下一个词的原理类似我们熟悉的“文字接龙”游戏。本质上大模型接收一段文本后,会预测下一个最可能的词汇,然后选中概率最大的那个,组成一个新的文本,然后继续预测下一个最可能的词汇,重复这个过程,直到生成完整的句子或段落。7.3.3大模型基础架构Transformer5.大模型实现文本生成
如:人工智能赋下一个可能出现的词概率能0.8歌0.05有0.05值0.1下一个可能出现的词概率人0.5课0.3羊0.1椅0.1能人...为什么相同的提示词,大模型生成的内容却不同?概率生成机制:大模型本质上是一个基于概率的文本生成模型,它通过计算下一个词出现的概率来生成文本。即使输入相同,每次生成的输出也会因为概率分布的随机性而不同。...7.3.4扩散模型Diffusion
如果说Transformer为AI文本生成提供了基础模型,那Diffusion就是为AI绘画提供基础模型。Diffusion模型是一种应用于细粒度图像生成的模型,在跨模态的图像生成任务中,已逐渐替代GAN成为主流。7.3.4扩散模型Diffusion使用Diffusion模型的AI绘画平台有StableDiffusion、DALL、Sora、Midjourney,国内的即梦、可灵等。2022年在美国科罗拉多州博览会的数字艺术类美术比赛中获得第一名的“太空歌剧院”,就是由Midjourney平台生成的。7.3.4扩散模型Diffusion那Diffusion模型到底是什么?为何具有如此强大的功能呢?Diffusion模型也称为扩散模型。扩散本身是一种物理现象,指的是一种基于分子热运动的现象,是分子通过布朗运动从高浓度区域向低浓度区域移动的过程。例如一滴墨水扩散到整个盛水的容器中。7.3.4扩散模型DiffusionDiffusion就是利用这种扩散原理开发的模型,其思想是:首先向训练数据集中的图像不断加入噪声,使之最终变成一张模糊的图像,这个过程就类似于向水中加入一滴墨水,墨水扩散,水变成蓝色;然后模型逆转这一过程,将噪声转化为图像。7.3.4扩散模型Diffusion正向扩散过程可以描述为逐渐将噪声作用于图像,直到图像全部被噪声覆盖。1.正向扩散过程7.3.4扩散模型Diffusion这样就可以得到一个定义明确的正向扩散过程。1.正向扩散过程马尔科夫链正向扩散过程每一个状态概率分布,只能由当前状态决定,与其它状态无关。每一个图片是什么样子,只和它的上一个图片有关,而且遵循概率分布。7.3.4扩散模型Diffusion换一个角度思考,既然任何一幅图像通过不断添加随机噪声后,会变成完全随机的噪声图像,那我们能不能将这个过程翻转?让神经网络学习这个噪声扩散的过程,然后在将这个过程逆向扩散,把随机生成的噪声图像,逐渐转换为清晰的生成图像呢?2.逆向扩散过程7.3.4扩散模型Diffusion实现这个过程需要一个“魔法工具”来帮忙,这个工具就是
UNet神经网络,UNet因结构像U形而得名,UNet就像一个“图片修复大师”,它知道如何从噪声中提取有用的信息,并一步步修复图片。2.逆向扩散过程7.3.4扩散模型Diffusion(1)输入:UNet接收一张带噪声的图片,以及当前的噪声强度。(2)预测噪声:UNet分析这张图片,并预测出图片中的噪声是什么。2.逆向扩散过程7.3.4扩散模型Diffusion(3)去除噪声:根据预测的噪声,从图片中减去噪声,得到一张稍微清晰一点的图片。(4)迭代:重复这个过程,一步步减少噪声,直到图片完全清晰。2.逆向扩散过程7.3.4扩散模型Diffusion通过正向扩散和逆向扩散两个过程,扩散模型就能实现以一张原始图像为基础,生成一张全新的图像。2.逆向扩散过程7.3.4扩散模型Diffusion
回忆一下以前的黑白电视和神奇的天线。7.3.4扩散模型Diffusion通过上面的学习我们可能明白了怎么在随机噪声和图像之间的生成,可现在大火的文本生成图像是怎么实现的呢,我们就不得不说到另一个大模型CLIP模型。2.逆向扩散过程7.3.5文生图的核心CLIP模型在2015年物体识别水平最终超越人类以后,可以实现把识别的物体转换为一系列描述,这时候有研究者就在想,能不能把这个过程反过来,就是给一段描述,然后让生成图像,听起来是不是有点异想天开?能创新的人都是异想天开的高手!7.3.5文生图的核心CLIP模型要想让AI进行绘画,需要让AI很好理解图片,要让AI理解图片,就必须解决两个问题,理解力问题和数据量问题。AI对图像的理解人类对图像的理解AI是对图像中的一个个像素的特征进行学习。而人类则是对图像从整体上进行把握。需要对大量图片进行标注来训练AI。而人类则通过看少了的图片,就可以建立对图像的理解和认识。7.3.5文生图的核心CLIP模型一顿好吃的午饭一只小狗商业握手对人类来说容易的事情,但对AI就不那么容易7.3.5文生图的核心CLIP模型当AI对图像的理解陷入困境时,OpenAI的研究者就转换思路:能不能像人类处理图像的方法,通过建立文本和图像之间的匹配来提升AI对图像的理解力呢?这其实就是CLIP模型的思想。在数据方面,目前文本和图像之间匹配的数据较之之前要好找多了,无论是微信的朋友圈、博客的发文、推特的推文还是抖音、小红书等等平台发布的内容本质都是用一段文字描述一幅图片,这就提供了已经标注好的文字和图片标注对,形成了天然的数据资源。理解力问题数据问题7.3.5文生图的核心CLIP模型OpenAI收集了4亿个高质量的的文本-图像标注对,让CLIP模型进行学习和训练。AI在海量文本-图片数据集上学习图片和文本的匹配的具体过程描述:1.潜在空间的概念2.建立图像潜在空间和文本潜在空间的联系生活中的潜在空间概念:我们18位的身份证号码的每一位都隐含着潜在信息,示信南省郑州市中原区2006年10月1日出生序号+性别检验身份证号码的潜在信息地区出生日期顺序号等7.3.5文生图的核心CLIP模型1.潜在空间的概念建立图像潜在空间和文本潜在空间的联系,形成标注好的图文潜在空间。朋友圈就是一个很好的被标注好的图文潜在空间7.3.5文生图的核心CLIP模型2.建立图像潜在空间和文本潜在空间的联系如生成一副骑自行车的小狗画面7.3.5文生图的核心CLIP模型2.建立图像潜在空间和文本潜在空间的联系建立图像潜在空间和文本潜在空间的联系,形成标注好的图文潜在空间。
Diffusion模型负责“一只小狗骑自行车”的生成过程
当然这个过程需要大数据、神经网络的大参数和大算力支持。7.3.5文生图的核心CLIP模型2.建立图像潜在空间和文本潜在空间的联系建立图像潜在空间和文本潜在空间的联系,形成标注好的图文潜在空间。7.3.5文生图的核心CLIP模型通过这一节内容的学习,我们基本了解了文本如何生成文本,图像生成是如何进行的,文本到图像又是怎么生成的。由于CLIP是OpenAI提出的,它的产品DALL.E大火了一把,之后各个公司相继开发图像生成平台,但基本原理都用到了CLIP模型和Diffusion模型。讨论,目前生成式人工智能有哪些支持商用的开源大模型?ChatGLM/6B/1T/可商用LLaMA2/7B/13B/33B/65B/2T/可商用BLOOM/1B7/7B1/176B-MT/1.5T/可商用Baichuan/7B/13B/1.2T/1.4T/可商用Falcon/7B/40B/1.5T/可商用Qwen/7B/7B-Chat/2.2T/可商用Aquila/7B/7B-Chat/可商用GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅GenerativeArtificialIntelligence07生成式人工智能2035主讲:王红梅7.17.27.37.4生成式人工智能那些事生成式人工智能概述生成式人工智能的核心技术*目录CONTENTS7.5生成式人工智能具体应用扩展:国产大模型DeepSeek7.4.1制作简历
小智由于竞选班委的需要,在AI的帮助下,完成了简历的制作。简历是干什么用的?制作简历有什么要求吗?小智又是如何实现的呢?1.简历是什么?简历是升学、应聘、面试等重要场合的一个敲门砖,我们一般根据简历要达成的目标,有目的和重点的通过简历简单明了的介绍自己的过去在这方面的经验,同时表达自己对未来要达成此目的的想法、思路和愿景,让浏览简历的人能一目了然在短时间内认识自己,清楚自己的目的和能力,从而更好的达成自己的意愿。7.4.1制作简历2.简历的基本要求与原则(1)简历的经历必须真实。(2)简历要介绍的内容与要达成的目标应该是一致,(3)表达自己要达成本目的或职位的相关知识、能力和资源。3.简历制作的基本流程明确目标准备文字介绍准备个人照片合成7.4.1制作简历4.简历制作过程第一步:明确目标第二步:准备文字介绍(AI协助)第三步:准备个人照片(AI协作)第四步:合成,形成个人简历
方案一:在WPS中设计简历
方案二:用模版生成方法1
方案三:用模版生成方法27.4.2制作数字人1.什么是数字人2.小智也想要个数字人3.设计和实现小智的数字人
第一步:找到合适的图片(数字人的原型)
第二步:找到合适的数字人生成平台(即梦,可灵等)
第三步,进入平台后
(合成视频)
第四步:根据上一步生成的视频,提供文字,对口型,完成数字人制作。7.4.3生成视频第一步:准备素材第二步:设计文案第三步:在软件平台合成视频(剪映)7.4.4给自己配个智能体助手1.什么是智能体?这里的智能体是基于大模型生成的智能体,是一种利用大型语言模型作为核心组件,能够执行特定任务、与环境交互并做出决策的人工智能系统。经常有人把智能体比作自己的专职秘书,比实际秘书更有优势的是,你不用支付工资、它可以24小时无休,你可以创建多个智能体,智能体之间还可以相互协作,从不争宠。7.4.4给自己配个智能体助手智能体在多个领域有广泛的应用,如在客户服务领域,智能体可以作为智能客服机器人,自动回答用户问题,提供个性化服务。在内容创作领域,智能体可以辅助新闻写作、文案创作,提高创作效率和质量。在教育领域,智能体可以作为AI助教,帮助学生解惑答疑,帮助老师批改作用,分析学情等。7.4.4给自己配个智能体助手2.小智的智能体需要入学一段时间后,同学们对大学的学习和生活产生了困惑,小智准备创建一个智能体,帮助同学们解决面临的各种心理问题,不仅保护了大家的隐私,还能解决出现的各种不适问题。7.4.4给自己配个智能体助手3.如何创建智能体支持创建智能体的平台有很多,像字节跳动的扣子、百度的文心、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高级审计师面试题及审计流程解析
- 人力资源薪酬绩效主管笔试题及答案
- 中国联通财务分析师财务分析笔试题及答案
- 2025年国际货运代理平台项目可行性研究报告
- 2025年智能互联网家居集成项目可行性研究报告
- 2025年绘画艺术数字化平台项目可行性研究报告
- 2025年人工智能技术投资项目可行性研究报告
- 2025年高端制造业创意设计中心可行性研究报告
- 2025年光伏发电项目建设与经济效益可行性研究报告
- 2025年社区儿童教育项目可行性研究报告
- 大庆一中、六十九中初四上学期期末质量检测物理试题
- 建材有限公司砂石卸车作业安全风险分级管控清单
- 小学生一、二、三年级家庭奖罚制度表
- 中石化华北分公司钻井定额使用说明
- 矿山压力与岩层控制智慧树知到答案章节测试2023年湖南科技大学
- 机加工车间主任年终总结3篇
- WB/T 1119-2022数字化仓库评估规范
- GB/T 5125-1985有色金属冲杯试验方法
- GB/T 4937.3-2012半导体器件机械和气候试验方法第3部分:外部目检
- 我国尾管悬挂器研制(for cnpc)
- 第3章桩基工程课件
评论
0/150
提交评论