【《Transformer模型的相关概述》1900字】_第1页
【《Transformer模型的相关概述》1900字】_第2页
【《Transformer模型的相关概述》1900字】_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Transformer模型的相关概述Transformer模型的总体框架是一种编码器-解码器体系结构。编码器部分主要是基于自注意力机制的信息提取,而解码器部分则是基于编码器部分提取出的信息来生成我们所需要的序列。编码器由多层编码层组成,这些编码层一层又一层地迭代处理输入,解码器由多层对编码器的输出执行相同操作的解码层组成。每个编码器层的功能是处理其输入以生成编码特征,其中包含有关输入的哪些部分彼此相关的信息。它将其编码特征集作为输入传递到下一个编码器层。每个解码器层执行相反的操作,使用所有合并的上下文信息进行处理,以生成输出序列。为此,每个编码器和解码器层都使用一种自注意力机制。该机制针对每个输入,权衡该输入与每个其他输入之间的相关性,并据此从中获取信息以产生输出。每个解码器层还具有一个附加的注意力机制,该机制在解码器层从编码中获取信息之前,从先前解码器的输出中获取信息。编码器层和解码器层均具有前馈神经网络,用于输出的其他处理,并包含残差连接和归一化步骤。图2-1Transformer模型整体架构编码器(Encoder)编码器结构由多层编码层组成。每一层编码层都包含两个主要组件:自注意力机制与前馈神经网络。自注意力机制从先前的编码层获取一组特征编码,并权衡它们之间的相关性以生成一组特征编码。然后,前馈神经网络进一步分别处理每个输出特征。这些输出特征最终会传递给下一层编码层作为输入,同时也会作为解码器的输入。第一层编码层将位置信息和输入序列的嵌入(包含匹配项、被匹配项、抽取信息,详情见自注意力机制)作为其输入。位置信息对于Transformer模型利用序列的顺序是必不可少的,因为Transformer模型的其他部分都没有利用它。解码器(Decoder)解码器结构由多层解码层组成。每一层解码层由三个主要组件组成:自注意力机制,特征注意力机制和前馈神经网络。解码层的功能类似于编码层,不过其插入了一个额外的特征注意力机制,该机制从之前编码层生成的特征中提取相关信息。与第一层编码器一样,第一层解码层将位置信息和最后一层编码层输出的特征序列的嵌入作为输入。但是,由于Transformer模型不应将当前或未来的输出用来预测输出,因此必须屏蔽部分输出特征序列,以防止这种反向信息流。最后一层解码层后面是线性变换和归一化指数函数(softmax)层,该部分将生成词汇表上的输出概率。自注意力机制(Self-Attention)自注意力机制依据每个输入生成该输入对应的q、k、v三项,其中q(query)为匹配项,k(key)为被匹配的键值项,v(value)为抽取出来的信息项。图2-2将输入项进行拆分每个输入项生成的匹配项与所有输入项的被匹配的键值项分别进行匹配,从而初步获取每个输入项的全局信息。除以输入键向量的维数d开根号达到稳定梯度的效果,并进行归一化指数函数(softmax)处理将权重和归一化后,与该输入项生成的抽取出来的信息项进行加权求和,从而得到该输入项对应的输出项。由于各个输出项在进行计算时,相互间不存在依赖关系,故能方便的进行并行计算,以矩阵相乘的形式计算,方便GPU加速。即可以令Q=WqI,K=WkAttention(式2-1)图2-3以矩阵相乘的方式进行并行运算位置编码机制(PositionalEncoding)对自注意力机制来说,因为每一个输入项跟所有输入项都使用注意力机制进行运算,所以在该过程中没有考虑到输入项的位置信息。而给每个位置的输入项加入对应的位置编码权重则可以保留输入序列的位置信息。为了能够利用序列的顺序,Transformer模型必须加入一些关于符号在序列中的相对或绝对位置的信息。在Transformer模型中,位置编码被添加到编码器和解码器堆栈底部的输入嵌入中。位置编码与嵌入具有相同的维度dmodelPE(式2-2)PE(式2-3)其中pos是位置,i是维数。简而言之,位置编码的每个数据维度都与一条正弦曲线一一对应。波长的几何级数包含2π至10000·2π。这个函数可以让模型很容易地学习输入词之间的相对位置关系,因为对于任何固定的偏移量k,PEpos+k可以表示为PE多头机制(Multi-Head)多头机制的原理是将输入项产生的q、k、v分成不同部分。在进行匹配和运算时,仅将相同部分的q、k、v进行匹配和运算(如2头中,第一头部与第一头部进行匹配,第二头部与第二头部进行匹配,最后再将第一头部输出项和第二头部输出项进行嵌入拼接)。多头机制的好处是不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论