




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型通识微课
生成式预训练语言模型GPT源自谷歌公司2017年的一篇论文“注意力就是你所需要的”,Transformer是一种在自然语言处理领域中广泛使用的深度学习模型,其主要特点是使用了“自注意力”机制,允许模型在处理序列数据时考虑所有元素的上下文关系。Transformer模型首先应用于机器翻译的神经网络模型架构,目标是从源语言转换到目标语言,Transformer模型完成了对源语言序列和目标语言序列全局依赖的建模。因为它适用于并行计算,其模型复杂程度使它在精度和性能上较其他模型更好,如今,几乎全部大语言模型都基于Transformer结构。微课2.2生成式预训练语言模型GPT可以简单地把Transformer看成是一个黑盒子,当我们在做文本翻译任务时,输入一段中文,经过这个黑盒子之后,输出来的就是翻译过来的英文。输入一个文本时,由编码器模块对该文本编码,然后传入解码器模块进行解码,得到翻译后的文本。2.3.1Transformer过程为进一步细化自注意力机制层,增加了“多头注意力机制”的概念,从两个方面提高了自注意力层的性能。第一个方面,扩展了模型关注不同位置的能力。第二个方面,给自注意力层多个“表示子空间”。2.3.1Transformer过程Transformer模型主要由编码器和解码器两部分组成。(1)编码器:由多个相同的层组成,每一层都有两个子层。第一个子层是自注意力层,考虑输入序列中所有元素的上下文关系。第二个子层是一个前馈神经网络。每个子层后面都跟有一个残差连接和层归一化。编码器的任务是将输入序列转换为一组连续的表示,这些表示考虑了输入序列中每个元素的上下文。2.3.2Transformer结构(2)解码器:也由多个相同的层组成,每一层有三个子层。第一个子层是自注意力层,它在处理当前元素时,只考虑该元素及其之前的元素,不考虑其后的元素,这种机制被称为掩码自注意力。第二个子层是一个编码器-解码器注意力层,它使解码器可以关注到编码器的输出。第三个子层是一个前馈神经网络。每个子层后面都跟有一个残差连接和层归一化。解码器的任务是基于编码器的输出和前面已经生成的元素,生成下一个元素。2.3.2Transformer结构先通过输入嵌入层将每个单词转换为其相对应的向量表示。在从输入到输出的语义抽象过程中,主要涉及如下几个模块。(1)注意力层:自注意力操作是基于Transformer的机器翻译模型的基本操作,在源语言的编码和目标语言的生成中频繁地被使用,以建模源语言、目标语言任意两个单词之间的依赖关系。使用多头注意力机制整合上下文语义,它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好地解决文本的长程依赖问题。2.3.3Transformer模块(2)位置感知前馈网络层:前馈层接收自注意力子层的输出作为输入,并通过一个带有激活函数的两层全连接网络对输入文本序列中的每个单词表示进行更复杂的非线性变换。由Transformer结构组成的网络结构通常都非常庞大。编码器和解码器均由多层基本Transformer块组成,每一层中都包含复杂的非线性映射,这就导致模型的训练比较困难。因此在Transformer块中进一步引入残差连接与层归一化技术,以进一步提升训练的稳定性。主要是使用一条直连通道将对应子层的输入连接到输出,避免因优化产生潜在梯度消失问题。2.3.3Transformer模块计算机视觉领域采用ImageNet(数据集)对模型进行一次预训练,使得模型可以通过海量图像充分学习如何提取特征,再根据任务目标进行模型微调。受此范式影响,自然语言处理领域基于预训练语言模型的方法也逐渐成为主流。以ELMo为代表的动态词向量模型开始了语言模型预训练,此后,以GPT(生成式预训练)和BERT(来自变压器的双向编码器表示)为代表的基于Transformer的大规模预训练语言模型出现,使自然语言处理全面开启预训练微调范式。2.3.4生成式预训练语言模型GPT利用丰富的训练数据、自监督的预训练任务及Transformer等深度神经网络结构,预训练语言模型具备了通用且强大的自然语言表示能力,能够有效地学习到词汇、语法和语义信息。将预训练模型应用于下游任务时,不需要了解太多的任务细节,不需要设计特定的神经网络结构,只需要“微调”预训练模型,即使用具体任务的标注数据在预训练语言模型上进行监督训练,就可以取得显著的性能提升。2.3.4生成式预训练语言模型GPTOpenAI公司在2018年提出的GPT是典型的生成式预训练语言模型,它由多层Transformer组成单向语言模型,主要分为输入层、编码层和输出层三部分。
图2-13GPT的模型结构2.3.4生成式预训练语言模型GPT(1)无监督预训练。GPT采用生成式预训练方法,单向意味着模型只能从左到右或从右到左地对文本序列建模,所采用的Transformer结构和解码策略保证了输入文本每个位置只能依赖过去时刻的信息。(2)有监督下游任务微调。通过无监督语言模型预训练,使得GPT模型具备了一定的通
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广告心理策略课件
- 课件模板人物简笔画女生
- 课件模板app手机
- 中华传统服饰课件
- 法治宣传培训授课
- 浮雕蛋糕文字课件
- 挫折应对培训课程
- 课件最后一页金句
- 安全生产应急预案培训试题及答案解析
- 蜡疗法考试题及答案
- 2024年指标房转让买卖合同范本
- 水土保持工程概(估)算编制规定
- DZ/T 0430-2023 固体矿产资源储量核实报告编写规范(正式版)
- 2024年海南省中职教师技能大赛-新能源汽车维修 赛项规程
- 人美版六年级上册美术教案完整版
- (正式版)YBT 072-2024 方坯和圆坯连铸结晶器
- 广东高职高考数学题分类
- 建筑外观设计设计理念
- 部编人教版一年级上册道德与法治全册教案
- 乳牙根管治疗的护理配合
- 突发性耳聋演示课件
评论
0/150
提交评论