【《图像描述相关技术概述》3800字】_第1页
【《图像描述相关技术概述》3800字】_第2页
【《图像描述相关技术概述》3800字】_第3页
【《图像描述相关技术概述》3800字】_第4页
【《图像描述相关技术概述》3800字】_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-I-图像描述相关技术概述目录TOC\o"1-3"\h\u2912图像描述相关技术概述 1182031.1卷积神经网络 1254621.2循环神经网络 2297481.3Encoder-Decoder结构 4213031.4数据增强 5313361.5跨语言图像描述 6本章将详细介绍本文完成图像描述任务使用的相关基础技术。图像文本描述任务主要分为图像理解和生成描述两个部分,在图像理解阶段使用卷积神经网络提取图像特征,在文本生成阶段使用循环神经网络预测词组。深度学习的推广和使用,端到端的思想也被应用在图像描述的任务上,此外,本章还将介绍关于数据增强的方法。卷积神经网络深度学习的研究成果大多都来源于人类对大脑认知的研究,人们根据人脑分层逐级抽象的特点构建了卷积神经网络。卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习的典型网络结构之一,是一种具有卷积计算和深度结构的前向神经网络[28]。目前大量研究任务都采用卷积神经网络。卷积神经网络创造性的提出了局部感受野,这一新概念被广泛用于计算机视觉任务,相比于全连接网络,卷积神经网络权值共享的机制可以大大减少参数量,是训练更快捷。卷积层:卷积层是CNN的核心层,每一个卷积层都包含有许多卷积核,用来局部连接上一层的输入。对于图像而言,图像中的一个像素会受到周边像素的影响,卷积核通过卷积运算将相邻区域的像素点提取出边缘等信息,之后通过滑动窗的方式逐像素提取特征边缘。卷积操作示意图如图2-1所示。图2-1卷积操作示意图池化层:池化层通常在卷积层之后,或者作为全连接层的替换层使用。池化层的作用是对当前输入的特征图进行像素级别的缩小,在保证特征图数量不变的情况下达到降维的目的,从而降低网络计算复杂度。池化层包括最大池化和平均池化两种操作方式。最大池化是在被滤波器扫到的特征图内选取最大值,最大池化操作示意图如图2-2所示。图2-2最大池化操作示意图全连接层:全连接层是对CNN最后一层卷积的输出进行全尺度卷积操作或空间维度变换而形成的一个所有神经元相互连接的层。由于全连接层对前一层的输出特征进行整合,因此该层的权值参数是也是最多的。全连接层一般作为卷积神经网络最后几层来使用,本质上来讲是一个包含有多个隐藏层的神经网络,它具备全局感受野,用来去除空间信息,全连接层在整合特征信息之后,会将整合好的信息交给最后的分类层。循环神经网络循环神经网络(RecurrentNeuralNetwork,RNN)是神经网络的一种,类似的还有深度神经网络(DeepNeuralNetworks,DNN),卷积神经网络CNN,生成对抗网络(GenerativeAdversarialNetworks,GAN),等等。RNN的特点是对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等自然语言处理(NaturalLanguageProcessing,NLP)领域的问题时有所突破。图2-3RNN结构示意图左侧就是模型的基本结构,右侧就是它在时间上进行展开的示意图。是时刻的输入,相应的,分别是对应时刻的隐藏层和输出层。上面我们可以看出,一个RNN的输入包括了两个:一个是当前时刻输入,用于实时更新状态,另一个是上一时刻隐藏层的状态,用于记忆状态,而不同时刻的网络共用的是同一套参数。不过是带时序的反向传播(BackpropagationthroughTime,BPFT),它与反向传播的原理是完全一样的,只不过计算过程与时间有关。与普通的反向传播算法一样,它重复地使用链式法则,区别在于损失函数不仅依赖于当前时刻的输出层,也依赖于下一时刻。所以参数W在更新梯度时,必须考虑当前时刻的梯度和下一时刻的梯度,传播示意如图(2-4)所示;图2-4时序反向传播示意图因为时刻的导数会传播到,,...,时刻,这样就有了连乘的系数。连乘带来了两个问题:梯度爆炸和消失。而且,在前向过程中,开始时刻的输入对后面时刻的影响越来越小,这就是长距离依赖问题。这样一来,就失去了“记忆”的能力,要知道生物的神经元拥有对过去时序状态很强的记忆能力。长短期记忆(Longshort-termmemory,LSTM)就是要解决这两个问题,通过引入若干门来解决,相比RNN多了一个状态:细胞态(cellstate)。这个cellstate承载着之前所有状态的信息,每到新的时刻,就有相应的操作来决定舍弃什么旧的信息以及添加什么新的信息。这个状态与隐藏层状态不同,在更新过程中,它的更新是缓慢的,而隐藏层状态的更新是迅速的。LSTM的网络结构如图(2-5)所示,输入包括,,输出,状态为,。图2-5LSTM网络结构示意图遗忘门决定了要从上一个状态中舍弃什么信息,选择记忆阶段,也就是对输入有选择性地进行“记忆”,重要的记录下来,不重要的少记一些,它决定了要往当前状态中保存什么新的信息。输出门决定了要从cellstate中输出什么信息。LSTM的基本原理就是通过门控状态来对信息进行选择性的记忆,满足了需要长时间记忆信息和遗忘信息的需求。虽然相比普通的CNN,模型的复杂度和训练难度都增加了不少,时序模型在语音,视频以及自然语言处理等领域有不可替代的作用。Encoder-Decoder结构编解码结构是深度学习中非常常用的一种算法框架。它常用于无监督自动编码、智能问答、机器翻译、图像描述等领域,编解码结构并不是一个特定的模型,而是一个框架。编解码器可以采用CNN、RNN等网络结构,处理的数据也可以是文本、语音、图像等数据。编解码算法模型结构的一般形式如图2-6所示。图2-6encoder-decoder架构编码-解码结构最显著的特点之一就是它是一个端到端的学习算法,具体来说,模型利用编码器的神经网络将输入序列信息“编码”为一个中间状态,然后利用解码器的神经网络将中间状态“解码”为输出信息。编码-解码结构最早应用于机器翻译任务中并取得很大成功。在机器翻译任务中,算法的输入是待翻译单词序列,输出是目标语言的单词序列。因此编码解码器所使用的网络结构一般都为循环神经网络。而在图像描述任务中,输入是图像,输出是单词序列。由于图像描述任务的特殊性,基于编码-解码结构的图像描述模型一般在编码阶段采用深层卷积神经网络用于将图像编码为视觉向量,在解码阶段使用循环神经网络将图像视觉向量解码为描述信息。NIC网络采用编解码结构,将图像视觉特征提取与自然语言文本生成这两个功能模块统一在一个算法框架下。编码器网络接收输入图像并将其转化为图像视觉特征向量。由于经过大规模图像数据集预训练后的深层神经网络具有较为普遍的图像编码能力,因此NIC网络的编码器采用深层卷积神经网络结构,并使用大型图像分类数据集Imagenet进行预训练。NIC网络的解码器采用长短时记忆网络LSTM,将编码器输出的图像视觉特征向量解码为自然语言描述文本。同时仅在解码的初始时刻,图像视觉特征一次输入LSTM,不存在后续输入。同时输入解码器的每句描述会加入start和end标记,每个单词采取了one-hot编码。在预测阶段使用最大概率和beamsearch两种策略生成词汇。其网络结构如图2-7所示。图2-7NIC网络结构示意图数据增强数据增强,也叫数据增广。数据增强方法的本质实际上是在现有的有限数据的基础上,在不实际收集更多数据的前提下,而让数据产生等价于更大数据量的价值,即根据现有数据样本按照规则生成增量数据的过程。数据增强方法不仅是数据样本量的增多,更多的是数据本身特征的“增强”。样本数据是整体数据的抽样,当样本数据量足够大时,样本的分布情况和总体的分布情况应相似。但由于客观原因收集的样本数据不够完整,这时则可通过数据增强方法生成与真实数据分布更加相似的新样本的数据;深度学习网络模型拥有极强的学习能力,因此学习到的一些无用的信息特征对最终的结果会产生负面影响,而数据增强技术可实现按照需求针对数据施加约束来增加先验知识的前置过程,如将一些信息删除或补全,来减少负面影响对处理图像任务的模型性能的影响。现阶段数据增强方法的使用方式主要被分为两种:离线增强和在线增强。离线增强是指对数据集执行一次性转换,该操作可成倍增加数据样本的数量。使用数据增强方法产生的样本数量为增强因子数与原始数据样本量的乘积。离线增强由于一次性处理全部数据集,因此适用于较小的数据集。在线增强使在获取批量的数据后就对其进行数据增强操作,随后增强后的数据就被送入机器学习模型进行训练,由于其批量处理的特性,因此一般适用于大数据集。NLP数据增强方面,有一些研究在文本分类上进行数据增强的探索。Wei等人[29]对NLP数据扩充方面的文本编辑技术进行了全面扩展,并在文本分类上取得了收益。Xie等人[30]提出用占位符标记替换一些随机单词,以此避免特定上下文过拟合的方法并且作为语言模型平滑机制,并给平滑的文本数据增加噪声。Kafleet等人[31]进行了创新,他们通过使用语义标注图像产生新问题。Ray等人[32]的工作自动为原问答对生成了必要的问题,它使用VisualGenome[33]中的其他数据为生成的问题添加了多样性。Chen等人[34]的工作提出了一种循环一致的训练方案,在该方案中,它会生成不同的问题表述,并对模型进行训练,从而使生成的问题和原始问题中的预测答案保持一致。随着GAN网络的应用,Agarwal等人[35]提出了基于GAN的重生成技术来自动删除对象,以增强模型针对语义视觉变化的鲁棒性。所有这些方法都以单一模式(仅文本或仅图像)扩充数据,并且严重依赖复杂的模块以实现轻微的性能提升。跨语言图像描述与如何产生英语描述的大量研究相比,很少有关于跨语言图像描述的研究。郭淑涛等人[36]提出了一种基于深度学习的中文图像描述模型,提出了记忆助手来解决循环神经网络梯度消失的问题,取得了一定的效果。邓珍荣等人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论