【《计算机在视觉学中的注意力机制概述》4600字】_第1页
【《计算机在视觉学中的注意力机制概述》4600字】_第2页
【《计算机在视觉学中的注意力机制概述》4600字】_第3页
【《计算机在视觉学中的注意力机制概述》4600字】_第4页
【《计算机在视觉学中的注意力机制概述》4600字】_第5页
免费预览已结束,剩余1页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机在视觉学中的注意力机制概述目录TOC\o"1-3"\h\u11195计算机在视觉学中的注意力机制概述 1201911.1前言 196551.2注意力研究进展简介 193651.3软注意力的注意力域 244091.1.1空间域(SpatialDomain) 2300211.1.2通道域(ChannelDomain) 3230841.1.3混合域 429481.1.4时间域注意力 5240001.4小结 51.1前言注意力(Attention)在日常生活中是是非常常见的一个概念,只不过不会被刻意留意。举个例子,当抬头望向天空的时候如果看到一只鸟儿在天空中掠过,我们会注意到天空中鸟儿的身影,而不会过多的关注于天空的背景。同样的道理,当人们看到纸上写的遗传数字的时候,人们会关注于纸上数字的信息,而不会关注纸张的背景信息。对于一般的深度学习算法来讲,它并没有引入注意力相关的机制,当该网络处理一张带有数字信息的图片时,通过各个神经元信息的传递和反馈,深度学习网络是可以进行数字信息识别的。但是,该深度学习算法实现的机制并不是关注于数字的本身,在该结构的眼里图像上的信息都是有相同的权值,不会过多的关注图像上的某一块区域,也不会过多在意图像上的某一个通道。注意力机制在现实生活中有明显的体现,同样,在计算机视觉中也会有广泛的应用,其最主要的思想就是将图像中主要的信息进行关注,将不重要的背景信息进行忽略以减少分类的误差。例如,当我们在阅读书籍的时候会将注意力集中的读书的这件事上,如果有人和读书的人聊天,可能就会对声音的来源不会有太多的注意,此时外部的声源就是噪声。如果读书的人十分不耐烦的阅读文章就会忽略文章里的太多信息,这意味着注意力不是很集中。对于深度学习网络也一样,网络对带有天空背景的鸟儿进行识别时,如果引入注意力机制,就会将算力集中于识别鸟儿自身上。如果将注意力机制应用到医疗影像检测当中,就会产生不一样的效果,模型就会更加注重医疗图像病灶的信息,忽略背景信息所带来的噪声。1.2注意力研究进展简介早期的注意力机制一般引入的是赢者通吃的思想,这种思想也被广泛应用在计算机视觉当中,由于这种思想的实现比较过时,不做详细的介绍。在人工智能发展到今天,以往的深度学习算法已经无法适应现实的需求,在深度学习算法里引入注意力机制就变得很有必要了。引入注意力机制一方面可以解决算法对图像识别过程中噪声带来的问题,另一方面可以让深度学习训练的过程更具有解释性,让人们可以更为清楚的观察和理解深度学习网络中的世界。在深度学习中引入注意力机制是十分必要的,注意力机制一般会被分为强注意力和弱注意力,软注意力一般采用掩码的方式,掩码的思想就是在图像比较重要的特征区域引入一组权重,模型根据权重来判断该图像区域的重要程度从而形成了注意力的意识。软注意力和强注意力是有比较大的差别的,软注意力更加注重的是图像的区域或是图像的某个通道。因此它注意的特征是比较固定的,可以用数据准确标记的,可以用数据准确标记的特征也可以通过网络进行生成得到。另外一方面,软注意力机制在数学上是可微的,可微意味着在模型的训练过程中,可以通过神经网络的向前传播方式和反向传播的进行注意力的调参,也就是权重的调整。强注意力与其相反,不可微也意味着其训练学习过程是通过增强学习的思想进行的。强注意力机制关注更多的是图像中的某一个像素的点,该点是随机预测得到的,因此其变化也是动态的。 本节将会通过三个不同注意力域来分析注意力机制,这三种注意力域分别是空间域、通道域和混合域。另外还有一个时间域,它与其它的注意力域实现过程是不同的,其要通过增强学习的方式来实现,本节不做介绍。1.3软注意力的注意力域为了详细概述三种不同注意力域,本节将介绍三种不同的算法进行展现。介绍三种注意力机制通过不同的方式结合深度学习网络来实现更有注意力的深度学习模型。每个算法将通过两个不同的方式进行介绍,首先介绍模型的设计思路,其次在介绍模型的基本结构。1.1.1空间域(SpatialDomain)对于空间域中的注意力机制,能想到的方法就是将原始图像中的特征转换到一个特征图之中保留原始图像之中最重要的信息,这种思路首次出现在15年一篇NIPS的文章上,它提出了一种SpatialTransformerNetworks(STN)模型[23]。这个模型的构思十分巧妙,通常在卷积神经网络之中,人们为了减少运算量会使用池化的方法来缩减压缩图像的信息,这种方法处理在一定程度上导致了信息的丢失,从而使得最后的结果不会太准确。而该模型则使用了空间转换器的方法,将图像需要注意的模块进行相关映射,提取图像之中最为关键的信息。这种方法避免了信息的丢失,在一定程度上也降低了运算量。图1.1手写数字实验图比如这个直观的实验图1.1:(a)列展示了一连串的数字图像信息,根据图中所示在第一行中数字7并没有发生变化,第二行的数字5进行了一定的旋转变化,而最后一行数字6加了一些噪音。这一系列的变化为后面的实验提供实验数据。(b)列中可以看到每行都出现了一个彩色的方框将数据标注起来,这个方框是由STN模型学习到的空间转换方框,分别训练不同的数字图像学习到的。(c)列中是通过空间转换学习的数字图像的样式,第一行的数字7并没有太大的变化,而第二行的数字5和第三行的数字6被分别采用了扶正和去噪的操作。从而通过模型识别出(d)列中的每个数字。在这个过程中体现了一种注意力机制的思想,首先手写数字图像,不管是被旋转过还是含有背景噪音都会被空间转换的思想通过提取局域信息进行修复。它将注意力集中在被提取区域而忽略周围的信息,而且该算法还有裁剪、旋转图像的作用进一步减少了图像的噪声。空间转换网络的作用实质上就是引入了注意力机制的思想。该网络可以作为一个独立的模块应用到不同的深度学习网络之中,例如我们所熟知的ResNet。1.1.2通道域(ChannelDomain)在通道域的设计思路当中,可以从信号变换的方面进行了解。基础的信号变换都是可以用正弦波的线性组合来解释的,通常在深度学习里所讲的卷积变化,在信号时频变化中采用的是傅里叶变化,一个频率信号数值是可以代替时域上连续变化的信号波的,这也是通道域注意力的思想原理[24]。 平常的彩色图像都是由三个通道组成的,由(R,G,B)来表示。在将图像送入深度学习网络的训练过程中会经过不同的卷积核操作,操作之后的通道就会产生其他新的信号。假设卷积核是16的,那么通过卷积核的通道就会产生64个新的矩阵(H,W,64),在括号中H,W分别代表的是图片特征的高度和宽度。在卷积核在做卷积处理的过程中,其操作过程就类似于傅里叶变换。就是将特征通道分解成64个不同的信号分量,其实时频变换也大致采用了这样的思想。图1.3不同卷积核被分出的64个不同的信号分量其有效信息的价值也是有多有少的,为了体现每种信号的价值,引入了一个权重矩阵,以此来体现每个信号的重要程度。重要的信息会被赋值大的权重,反之会被赋予小的权重。有一个比较经典的模型结构SeNet,其思想是将图像数据输入该网络中经过卷积变换就会产生新的信号,每个信号会有不同的通道,如果用注意力机制来学习每个通道的权重,就会产生一个面向通道的注意力机制。在SeNet网络中,注意力机制是由三个不同的部分组合完成的,三个不同的部分分别是挤压,激励以及注意。下面将会详细介绍这三个函数。挤压函数: zc=该函数的作用就是全局平均池化,全局平均池化就是将所有通道中的特征值累加起来在做平均运算。激励函数: s=Fδ函数是ReLU,而σ是一个Sigmoid激活函数。尺度函数: xc=尺度函数的作用就是在每个通道上加入权重矩阵,来增强模型对关键的通道域上注意力。1.1.3混合域混合域就是将通道域和空间域结合起来的产物。由于基于空间域的注意力机制忽略的是通道中的信息,简单的将通道中的图像特征进行单一处理,其缺点就是特征的提取只关注于原始图像的特征提取,对于其他通道进行了忽视。而通道域相反,正好忽略了同都内的空间局部信息,这种做法会引入不必要的噪声。为了将两种通道进行优势互补,所以提出了一种混合域注意力机制的概念[25]。 将混合注意力机制和深度学习网络相结合起来在图像识别中是个很好的方法,其可以解决背景噪声的问题。例如在深度残差网络中引入了一种软注意力机制的思想,其在软注意力机制中也加入了掩码的思想,为了不让信息在深层次网络学习的过程中丢失,也将上一层网络的信息传递了下来,这样可以让网络延伸的更深。掩码的作用不单单是对空间和通道进行权重的调配,而是也会对每一个特征元素进行权重的分配,这样就会形成通道和空间的混合注意力机制。但是将每一个特征元素都分配权重,会破坏深层次网络的特征信息,而且会大大减弱残差网络固有恒等映射的作用,因此将掩码过后的张量作为输入的同时也将未掩码的张量输入到下一层进行信息的补充,这样可以得到更为丰富的特征。模型的组成是分为了三层。每层的注意力会分成两个不同的方向,最基本的是残差网络结构,它是最主要的一个方向,也叫主分支。另外一个方向是掩码分支,掩码分支最主要的部分就是注意力机制,而注意力机制则是由上采样、下采样以及残差模块组成的。模型结构中比较创新的残差注意力机制是: Hi,上式子中,输出的结果是注意力机制的模块,F代表的是上一层网络的图像信息,M代表的是掩码的权重参数。这个式子就构成了残差注意力模块,输出的结果可以直接传入到下一层网络当中去,f函数就是为了得到不同注意力域的结果。 f1x f2x f3xf1f2xi1.1.4时间域注意力时间注意力机制[26]并不是经常用到,当模型在训练某种不是时间序列化的图像时就不会用到,它的思想是利用递归神经网络(RecurrentNeuralNetwork,RNN)引入注意力机制。RNN模型在现实生活中会被应用到文章处理和视频处理的过程中,在自然语言处理的过程中会涉及到语序的问题,而在视频处理过程中会引入时间的概念有时序的问题,可以通过RNN来引入注意力机制。和前面介绍的域的不同点在于只是又引入了另外一个维度。这个维度的出现,只是带来了时间连续的特性。在时间因素下,继续对图像的某些节点采样,这个节点所取得的位置就是我们需要重点考虑的位置。而这一模型中的注意力由于不再仅仅是一个能够被微分化的注意力信息,因此它也被认为是一个很有强烈的注意力(hardattention)模型。这个模式的训练需要我们利用增强学习(reinforcementlearning)方法进行训练,所以它需要花费的时间比较多。这个模型更让人需要明白了解的并不是RNN注意力模型,因为这个模型其实是在自然语言的处理过程中所有者介绍的更详尽,更让人需要明白的是这个模型的如何将图像信息转化为时序上的采样和信号的:图1.4时间注意力原理图这个是模型中的关键点,叫GlimpseS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论