《基于深度神经网络的汉字识别研究的国内外文献综述》3900字_第1页
《基于深度神经网络的汉字识别研究的国内外文献综述》3900字_第2页
《基于深度神经网络的汉字识别研究的国内外文献综述》3900字_第3页
《基于深度神经网络的汉字识别研究的国内外文献综述》3900字_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于深度神经网络的汉字识别研究的国内外文献综述1.1汉字识别系统概述二十一世纪初,已经研发出识别率较高的联机手写汉字识别系统,它能够保存书写的笔顺信息,获取时间空间顺序从而实现,但是脱机手写汉字识别的发展遭遇瓶颈,当时世界上并没有足够完善的脱机手写汉字识别方法。随着深度学习的兴起,计算机计算能力的增长,依托于图像识别技术的进步,在2012年,瑞士人工智能实验室描述了具备“端-端”特点的多列卷积神经网络模型(MCDNN)。在多列卷积神经网络中,利用GPU训练深度神经网络的模型,同时平均集成卷积神经网络的输出;将所得到的手写汉字样本转换成图像类别,并通过已搭建的模型训练。在训练的过程中,不采用进一步地特征选择、提取,所得到的最终结果便是卷积神经网络希望得到的识别结果[2]。在脱机和联机手写汉字识别方面,多列卷积神经网络模型能够很好地胜任模式识别工作,当时的识别技术都位居当时世界识别水平的前列,为手写汉字识别问题提供了更加完善的解决方案。尽管以多列卷积神经网络模型为代表的卷积神经网络模型简便且具备比较优秀的识别能力,但缺点也是较为明显的,端到端的识别方法不能全面的利用手写文字的已有研究成果,例如联机手写汉字中的笔顺信息、汉字方位转换特点等,这些手写汉字的特征是利用本卷积神经网络无法进一步学习来实现的。近年来,伴随着卷积神经网络(Convolutionalneuralnetworks,CNN)的模型理论不断完善,对于它的研究方向也朝着多方面发展。对运行速度和存储容量的优化是非常重要的一个方面,因此涌现了许许多多优化升级CNN模型的方法。中国科学家设计出一种9层CNN,该网络采用了全局监督低维扩展(GSLRE)方法,使神经网络能够拥有更高的计算速度更小的模型大小,利用自适应权重(ADW)技术,使得网络仍能达到超过90%的识别率。尽管精度有所下降,但是仅仅只是下降了0.21%,却大大减少了计算量。在CNN的识别过程中,图像噪声也会对识别率产生一些影响——虽然CNN力求最简便的输入,更完美的识别系统应当可以在这方面进行进一步地优化。在最新的JournalofPhysics:ConferenceSeries杂志上发表的一篇基于CNN和中值滤波的手写体汉字识别进行了有关噪声处理对CNN手写汉字识别系统的优化,中值滤波在散斑噪声、椒盐噪声的处理中有很好地表现。因此首先通过中值滤波法,实现对图像的去噪声处理过程,再将处理后的图片信息应用到CNN,以此获得更高的识别率[3]。如今,国内互联网公司也推出了各种手写汉字识别服务,但对于风格迥异的手写汉字,仍不能做到始终使得汉字识别率维持在极高的水平,要做到精确识别不同风格的手写汉字,仍需要投入更大的精力。1.2深度神经网络概述深度神经网络已经在我们日常生活中最为常见的信息处理领域,如语音、文字、图像等方面,获得了极大的成功[4]。日新月异的计算机理论带来的是这个世界翻天覆地的变化,计算机计算能力的飞速发展,使得深度神经网络已经具备足够的可行性和可用性,现代的优秀工程师们,已经通过各种技术手段,搭建不同的深度神经网络,将它应用到许许多多的不同领域,并且在各个领域都拥有者举世瞩目的成就。深度学习可谓独领风骚于音视频领域上,现今的所有商用语音识别背后,都有着深度学习的影子。除此之外,深度学习使得图像识别变得极为简便,大大提高了现今的图像识别能力,识别率相较之前的技术有了长足进步,甚至使得目前对于图像识别的准确率不属于人工识别。就图像识别这个领域而言,他的应用已经涵盖了我们生活的方方面面,应用最广的就是为我们所熟知的人脸识别,指纹识别等,这些都是深度学习在生物特征识别技术上的成果。而在自然语言理解方面,深度学习也大显身手。当下较为火热的无人车技术,智能问答,天气预报等,都在深度学习的帮助下有着质的飞跃[5]。深度神经网络的起源一般以1994年的LeNet5为起点,LeNet5是最早的卷积神经网络,孕育着未来发展的无限可能。LeNet5最大的特点就是定义了卷积神经网络的基本特征,即它的层次模型。首次利用卷积操作实现图像特征的提取,子采样利用了图空间平均技术,而在激活层之中使用了Sigmoid函数和tanh函数来进行非线性整流操作。LeNet5可以说是深度神经网络的开山鼻祖。尽管如此,受限于当时的计算水平,深度神经网络的发展遭遇了一个瓶颈期。但是,相关的研究人员没有放弃,缓慢地推动着深度神经网络的持续发展。一直到2010年,国外科学家DanClaudiuCiresan和JurgenSchmidhuber接过深度神经网络发展的接力棒,使得深度神经网络再度进入大众视野,并开启了深度神经网络蓬勃发展的黄金时代,他们成功搭建了基于NVIDIAGTX280GPU图形处理器的GPU神经网络九层模型,能够实现前向传播和后向反馈计算。之后的一年里,硅谷的美国巨头互联网公司们也开始使用CNN使得语音识别的错误率显著下降;2012年,AlexKrizhevsky发表了一篇题为“利用深度卷积网络进行图像网络分类”的论文,其中确认了一种称为卷积神经网络的多层卷积计算模型能够识别和分类大约120万张图像,达到了前所未有的精度水平[6]。AlexKrizhevsky利用他的AlexNet在大规模图像识别挑战大赛ImageNet上大放异彩,以巨大的优势将图像识别的错误率降低将近十个百分点,错误率低至百分之十五,斩获冠军;同年,谷歌公司完成了从大量的图片中利用卷积神经网络使得计算机学习如何实现猫脸识别;而这之后,深度神经网络的发展以火箭般的上升速度,闪耀于各个领域。阿法狗(AlphaGo)于2015年10月横空出世,是深度学习研发公司DeepMind对人工智能的最新研究成果,是第一台以计算机身份打败了一个个人类职业围棋选手,最终以巨大的优势击败了世界围棋冠军李世石,在围棋领域被认为是世界上最强,创造了历史[7]。下面介绍三种常见的深度神经网络模型。前馈神经网络:前馈神经网络(feedforwardneuralnetwork,FNN)神经网络主要是由输入层(InputLayer)、隐藏层(HiddenLayer)、输出层(OutputLayer)来构成它的结构。图1表示的就是一种最简单的前馈神经网络,底层神经元为输入层,最高层的神经元表示输出层,所有在中间的都为隐藏层。FNN实现单向传播,期间并不产生反馈型号,在输出层得到一个有向非成圈图,即为输出结果。因为这种神经网络由多个隐藏层串型连接,也被人们称作多层感知机模型。全连接神经网络(FullyConnectedNeuralNetwork,FCNN)也是形容FNN的一种方式,顾名思义,其原因在于前馈神经网络的各个层次是全连接形成的。另外,各个神经层的神经元之间是相互独立的,只有相邻层次的的神经细胞才会按照全连接方式构建,神经元由线性加权求和的“线性层”和以激励函数为基础的“非线性层”两部分组成。神经元逐层获取上一层的信号量输出到下一层的神经元。前馈神经网络是非常基础的一种非线性模型,但它所具备的独特的思维理念使得人工智能的目光投向深度学习,引起业内人士的广泛讨论[8]。卷积神经网络:卷积神经网络在图像数据处理方面大显身手,但可用于其它形式数据的处理,如语音识别,自然语言处理等方面。举一个典型的卷积神经网络应用地例子,比如通过学习已有的知识,构造好一个模型,当输入一个图像后,它会根据训练好的模型对图像进行一系列的操作,对图像进行分类,得到一个较为精确的分类结果。比如,对于“篮球”的图像,它就输出“篮球”;对于“橄榄球”的图像,它不会认为这是一个篮球,而是通过学习,知道它是“橄榄球”。如图2所示,CNN一般由多个结构相似的单元组成,每个单元卷积(convolution),激活(activation)和池化(pooling)三个基本操作。这种结构使得CNN对于二维结构数据的处理,相较于其它多种DNN模型具有无可比拟的优势。除此之外,CNN在训练的过程中,将参数在多个层次重复使用,提高了运算的效率,大大提高了训练速度。生成式对抗网络:生成式对抗网络(GenerativeAdversarialNetworks,GAN)是深度学习研究的一个非常重要的分支,它由生成器(generator)和判别器(discriminator)组成的一对相互竞争的网络。GAN在噪声处理,图像修复,精准预测等领域中有着较好的表现;它所具备的突出优点是,解决了训练集数据缺少的情况下,进行相应的学习训练,主要也是通过模拟现实数据来实现训练精度的不断提升。简单地说,两个网络协同工作,生成器通过学习真实世界中的图像、声音、文本等信息,不断制造虚假的类别,而判别器接受这些不断生成的虚假类别,并区分真实与虚假的类别。好比一个古董鉴评师,根据自身鉴别赝品和正品的经验,不断提高自身的鉴定水平,从而更好地进行鉴定工作。如图3所示,随机噪声输入到生成器中形成“伪样本”,再把“伪样本”和“真样本”输入至判别器,在[0,1]区间给定一个数值,越接近“1”表示可信程度越高,越接近“0”表示可信程度越低。不断重复这一过程中,进行“生成”和“对抗”两种操作,生成器学习如何制造更加完美的“赝品”,判断器学习如何更好地区分“真伪”,最终形成了这一深度神经网络模型[9]。人工智能(AI)是在全球范围内兴起的一个热词,它涉及到科技、军事、金融等各个关键领域,已经成为了全球经济竞争新的主题,已经可以在一定程度上反映国家的部分科技硬实力。有别之前的几次工业革命,在最新的以人工智能为核心技术的生产革命中,中国已经站在了与西方国家同一起跑线上,已经积累了足够的底蕴支持发起新一轮的技术提升。深度学习作为人工智能的一个分支,中国已经投入了足够的人力物力开展相关的研究,中国的前沿科学家工程师们凭着他们的智慧,在世界舞台上占据了一席之地。在深度学习领域上,中国研究者们发表的论文数以及相关的专利数在这几年保持着高速的增长水平,甚至超越美国。例如,清华大学的博士生导师黄高教授就提出了一种名为密集连接卷积网络模型(DenseNet)。DenseNet有别于传统神经网络,它创造性地构造了一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论