【《注意力算法类别概述》1900字】_第1页
【《注意力算法类别概述》1900字】_第2页
【《注意力算法类别概述》1900字】_第3页
【《注意力算法类别概述》1900字】_第4页
【《注意力算法类别概述》1900字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

注意力算法类别概述本节将讨论注意力的分类问题。我们将注意力算法按照计算注意力函数的输入序列位置进行分类,可分为以下三类,它们分别是:全局注意力(globalattention)算法、硬性注意力(hardattention)算法和局部注意力(localattention)算法。1.1全局注意力算法全局注意力算法需要依附于模型来进行理解。在其核心思想上,全局注意力算法就是软性注意力算法。此节我们重点关注的是注意力函数的计算。软性注意力(softattention)算法是指在选择信息的时候,先计算输入序列的加权平均,再输入到网络中计算。现设输入序列,其中单个输入向量,并给定查询向量。软性注意力算法的计算可以分为两步:一是计算注意力分布;二是根据注意力分布来计算输入信息的加权平均。第一步:注意力分布的计算。下式计算在给定查询向量和输入序列的条件下,选择第个输入信息的概率:其中,为对齐函数,用于计算输入信息中第个向量与给定的查询向量之间的相关程度。此外,采用softmax函数对进行归一化处理,使其映射至区间上。基于此,构成了模型的离散型注意力分布(或概率分布)。表2-2为对齐函数的具体表达式,其中、和是可学习的模型参数,是输入向量的维度。表2-2对齐函数的表达式对齐函数名称函数表达式加性对齐函数点积对齐函数缩放点积对齐函数双线性对齐函数第二步:计算输入序列的注意力函数值。采用软性注意力算法,对输入序列求加权平均,得到注意力函数值:对上述公式还有一个有趣的观察角度。将其从概率的角度可理解为:注意力函数值是注意力分布的期望,即下图展示了注意力函数值的求解过程:图2-5软性注意力算法的注意力函数值求解流程接下来我们将结合模型结构详细介绍全局注意力算法。全局注意力算法的核心思想体现在:计算语义向量时考虑编码器的所有隐藏状态(如图2-6所示)。全局注意力机制中根据位置处的解码器隐藏层状态和每个编码器隐藏层状态计算注意力分布:其中,为对齐函数,该函数具体表达式可参考表2-2。然后根据计算其加权平均值:即为全局语义向量。图2-6全局注意力算法1.2硬性注意力算法硬性注意力(hardattention)算法是指选择输入序列某个特定位置上的信息。现将输入序列表示为,其中,给定查询向量。硬性注意力的注意力函数值有以下两种实现方式:(1)选取一个概率最大的输入向量,即其中为概率最大的输入序列的下标,即。(2)通过在注意力分布上随机采样的方式实现。硬性注意力算法的优点为训练速度快,但是它的缺点也非常明显。无论是基于最大采样还是随机采样的方式来选择信息,它都会使得损失函数与注意力分布之间的函数关系不可导,无法使用反向传播算法进行训练。因此,硬性注意力算法通常需要使用强化学习来进行训练。为了使用反向传播算法,一般采用软性注意力来代替硬性注意力。1.3局部注意力算法全局注意力算法的缺点是它必须访问编码器所有隐藏层状态。这会导致当它面对长序列问题(例如段落或文档)时,效率急剧下降。而硬性注意力算法无法使用反向传播算法进行训练,通常需要使用强化学习来训练。为了解决上述缺陷,本节介绍一种局部注意力算法,它只选择性地访问编码器的部分隐藏层状态。局部注意力算法的核心思想在于有选择性地聚焦于一个小的信息窗口。这种方法的优点是避免了全局注意力带来的巨大的计算量,同时它又可以利用反向传播算法进行训练。如图2-7所示,该机制首先为每个解码器隐藏层状态生成对齐位置,然后将窗口内编码器中的隐藏层状态集进行加权平均得到语义向量,其中是经验值。与全局注意力算法不同,对于解码器隐藏层状态,局部注意力算法的对齐向量是固定维度的,即。局部注意力算法的对齐位置有如下两种计算方式下:单调对齐位置:简单地将其设置为,假设编码器序列和解码器序列的注意力区域大致是单调排列的。再根据下述公式计算注意力分布:其中是属于窗口中的编码器隐藏层状态。(2)预测对齐位置:该方式并非假设其单调排列,而是预测其对齐位置,并将其表示如下:其中,和是可学习的模型参数,是输入序列长度,故。为了加强对周围点的关注,我们在传统注意力分布函数后加入一个以为中心的截断的高斯分布。换句话说,就是提高对窗口中靠近的编码器隐藏层状态的关注度,降低对窗口中远离的编码器隐藏层状态的关注度。注意力分布函数修正如下:其中,是属于窗口中的编码器隐藏层状态,并将标准偏差设置为(经验值),是以为中心的窗口内的整数。单调对齐位置与预测对齐位置计算方式类似,不同之处在于预测对齐位置动态地计算并使用截断的高斯分布来修改原始注意力权重。利用来计算注意力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论