【《基于深度学习网络的手写笔画识别分析案例概述》4500字】_第1页
【《基于深度学习网络的手写笔画识别分析案例概述》4500字】_第2页
【《基于深度学习网络的手写笔画识别分析案例概述》4500字】_第3页
【《基于深度学习网络的手写笔画识别分析案例概述》4500字】_第4页
【《基于深度学习网络的手写笔画识别分析案例概述》4500字】_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于深度学习网络的手写笔画识别分析案例概述目录TOC\o"1-3"\h\u31019基于深度学习网络的手写笔画识别分析案例概述 1227371.1基于CNN的手写笔画识别 1306271.1.1参数图归一化 130861.1.2搭建卷积神经网络 4157681.1.3实验结果与分析 9226001.2基于LSTM的手写笔画识别 10182371.2.1数据预处理 1057611.2.2LSTM调参 1222361.2.3实验结果与分析 12为了提高手写笔画识别结果的准确性,本章采用两种不一样的学习网络对手写笔画图像数据进行识别和分类,它们分别是基于CNN卷积神经网络的手写笔画识别以及基于LSTM长短时记忆网络的手写笔画识别。1.1基于CNN的手写笔画识别为了避免目前手写笔画识别研究中存在的“构建数据集时缺乏信息”以及“深度学习网络中数据输入维数有限”的两个问题,本文需要充分提取RDM和ATM图像数据中包含的手写笔画动作信息。CNN卷积神经网络能够有效提取图像特征,与传统的特征提取方案相比,它的效率更佳。本文采用了两种不同的CNN卷积神经网络,第一种网络是是传统的CNN卷积神经网络,它只能输入单一的参数;第二种网络是双流参数输入的,它可以分别提取两类图像的二维特征,然后进行特征融合,最后利用分类器对这些图像进行识别和分类。1.1.1参数图归一化RDM图和ATM图是从雷达采集的某个手写笔画的数据经过数据处理之后分别得到的,它们包含手写笔画的距离、速度和方位信息。正因为RDM和ATM图像是距离与速度、方位与时间(帧数)耦合得到的,所以在不同的时间会有不同的像素值。所以如果某一时刻的像素值远大于另一时刻的像素值,则会导致相应图中手写笔画运动信息的弱化和抑制。而像素值归一化处理可以有效地解决此类像素值不均问题,原理如下:Xn'Xn是第n帧参数图的手写笔画参数数据,Xn’是像素值归一化的参数图结果。本文需要对所有图像逐帧进行归一化。实验中采集的六种手写笔画动作归一化后的方位时间示意图的一部分如图1.2所示。图1.2手写笔画极其对应的数据集示意其中,从左到右从上到下的六种手写笔画依次为点、横、捺、撇、竖、提。图1.2中笔画“点”与“竖”我们已经在3.3.2中分析了,接下来依次分析横、捺、撇、提。由第二幅图可以看出,随着时间的变化,角度呈线性地从-20°到20°变化,该特征与笔画“横”的特征相符;第三幅图中,随着时间的变化,角度从-20°到20°非线性的变化,该特征与笔画“捺”的特征相符;第四幅图中,随着时间的变化,角度从20°到-20°非线性的变化,该特征与笔画“撇”的特征相符;最后一幅图中,随着时间的变化,角度从-20°到0°非线性的变化,该特征与笔画“提”的特征相符。在这些笔画中,提和点的特征具有一定的相似性,所以在之后对笔画的识别分类的深度学习框架中,我们需要结合RDM图中距离和速度的信息,才能将这两类不同的笔画识别出来。1.1.2搭建卷积神经网络下面描述基于RDM和ATM组成的二维参数数据集的CNN网络的手写笔画识别系统,本文分别在单一的输入和双流输入的卷积神经网络中进行手写笔画的特征提取和分类识别[28]。在构建整个神经卷积网络的过程中,本文需要不断调整这个网络的参数,从而可以找到最精确的参数值。(1)单一输入的CNN网络首先,本文只使用一种图像数据作为数据集,在卷积神经网络中学习和识别的网络称为单输入卷积神经网络[17]。通过分别观察数据集中的RDM距离多普勒图和ATM方位时间图,本文可以发现描述同一笔迹笔画动作的两个参数图之间的相似度并不大。然而,在训练CNN网络所需的数据集中,每一类的图像数据应该具有相似的特征。在CNN网络的训练过程中,本文不仅要提取图像中包含的目标物体的形状、边缘、还有轮廓等一系列特征,还要学习每一类图像中的特征。因此,在单参数输入的卷积神经网络中,描述同一笔迹笔画的RDM图和ATM图不能简单地混合在同一数据集中,本文需要对两种图像分别独立地提取它们的特征。在下文中,本文将使用该网络来提取特征并识别和分类每个数据参数图,然后研究卷积神经网络在单输入下提取特征和识别手写笔画的可靠性。本研究中使用的卷积神经网络是对经典的VGG-16网络的改进之后的,该网络属于VGGNet,VGGNet主要探索卷积神经网络的性能与其自身深度之间的关系[22]。VGG-16一共有五个卷积池(conv1~conv5),每个卷积池包含两个或三个卷积层(conv1_n~conv5_n),每个片段的结尾都有一个最大的池(pool1~pool5),其主要作用是缩小画面的大小。数据需要经过5段卷积层,以及2段具有4096个输出通道全连通层[25]。Softmax层是最后一层,它用于分类输入的信息。表1.1基于VGG-16改进的卷积神经网络结构表结构层的名称滤波器尺寸输入通道数输出通道数第1层卷积池化段conv1_1conv1_2pool13×33×32×2132第2层卷积池化段conv2_1conv2_2pool23×33×32×23264第3层卷积池化段conv3_1conv3_2conv3_3pool33×11×31×12×264128第4层卷积池化段conv4_1conv4_2conv4_3pool43×11×31×12×2128512第5层卷积池化段conv5_1conv5_2conv5_3pool53×11×31×12×2128512第6层全连接层fc6-5124096第7层全连接层fc7-140968层分类层softmax-16从表1.1可以看出,单一参数CNN网络中,从第3层到第5层的卷积池模块是主要的可以改进的部分,改进前滤波器的大小为3×3和1×1,改进后的大小为3×1、1×3和1×1[21]。变化后网络层数没有变化,但是同样层数的网络却可以保留多个非线性映射的特性,也可以拟合更复杂的函数;并且网络的卷积核的大小被削减,这极大地减少了相同层数的卷积神经网络的计算量,并降低了整个网络模型的时间复杂度。(2)二维输入的双流CNN网络上面研究的单输入卷积神经网络只使用一种图像数据,ATM或者RDM。为了充分利用雷达数据中的手写笔画动作信息,在单输入CNN卷积神经网络的基础上,本文构建了支持二维输入的双流CNN网络,从而可以同时提取这两种图像数据的特征,然后在融合特征之后完成识别和分类。这种CNN网络结构如图1.3所示:图1.3二维输入的卷积神经网络结构图其中,二维输入双流卷积神经网络可以分为两部分:①第一部分选取了上述研究的单输入CNN网络的前五个卷积段,这一部分主要用于提取输入的图像数据的特征。②第二部分采用最后三层传统的单输入卷积神经网络,主要用于融合两个输入图像中的距离,速度和角度特征,最后通过softmax分类器进行分类。一般来说,双流卷积神经网络将两个单输入网络集成为一个端到端网络。为了提高双流卷积神经网络的学习性能,参数选择和优化如下。①全连通层的大小:全连通层指的是CNN网络的第六层fc6和第七层fc7,这两层其中的所有神经元都是与其上层的网络相连的。它的大小指的是每一层当中所包含的神经元数量[18]。尺寸太大,时间和空间复杂度会较高,而尺寸太小,则很难拟合理想模型。因此,本文有必要找到合适尺寸的全连接层,这样有助于提高分类和识别的准确性。测试统计如下:图1.4不同全连接层尺寸的识别准确率②学习率是指使整个训练过程中使误差收敛的参数。学习率太高,误差振荡幅度太大,从而导致输入的模型无法收敛;而学习率太小,会导致误差收敛速度太慢,无法得到理想的网络模型[18]。因此,有必要选择一个合适的学习率。测试结果如下:图1.5不同学习率对应的识别准确率综合图1.4和图1.5可以得出以下结论:对于全连通层的大小,当fc6大小为4096时的识别准确率高于fc6大小为2048时的识别准确率,而fc7大小为4096时的识别准确率最高。至于网络的学习率,当选择为0.009时,在迭代步数逐渐增加的同时,总能达到较高的识别精度。综上,本文可以选择fc6和fc7的大小为4096,而初始的学习率为0.009。1.1.3实验结果与分析利用上述分析得到的参数构造了两种卷积神经网络,并用实验采集的数据进行了验证。结果见表1.2和表1.3。表1.2单一参数输入的卷积神经网络识别成功率:单手写笔画平均准确率测试手写笔画动作点竖提撇横捺数据集RDM82.42%83.21%83.71%86.32%87.59%81.27%ATM51.87%92.53%58.67%83.74%83.63%82.37%平均准确率80.28%表1.3双流卷积神经网络识别成功率:识别准确率测试手写笔画动作数据集测试次数点竖提撇横捺&ATM191.55%92.80%86.57%93.47%89.22%91.13%292.27%88.52%85.36%90.69%91.66%92.98%391.75%89.71%88.79%92.43%92.48%91.63%493.56%92.37%88.50%91.50%90.67%95.49%平均准确率93.03%90.85%87.31%92.02%91.01%91.31%平均识别准确率91.42%本文通过对以上两个表的分析,得出以下两个结论:①VGG-16网络改进的单参数卷积神经网络算法复杂度低,但用于训练的数据集只能是RDM或ATM图像数据中的一种,而不同手写笔画的同一种参数图具有一定的相似性,从而导致网络的识别准确率偏低,只有80.28%;②而双流卷积神经网络可以同步提取手写笔画运动的距离、速度和角度三个特征特征,然后进行特征融合和分类识别,因此每一种手写笔画运动的数据集都有其独特性,识别准确率达到91.42%。1.2基于LSTM的手写笔画识别利用1.2所述方法识别手写笔画是很传统的方法,研究中手写笔画雷达采集的数据是时序的,而LSTM是一种特殊的具有时间记忆的神经网络,它可以利用内部结构记忆输入的数据,判断下一个输入数据是否有意义,从而决定其输出数据[21]。为此,本文首先利用I3D网络提取并重组RDM图像中的时间序列信息,得到新的时序序列RT和DT。然后将RT、DT、AT序列输入LSTM网络,提取整个时间序列[23]中的时间信息,然后用归一化指数函数进行分类。1.2.1数据预处理I3D网络采用三维卷积的方式,只能同时处理三幅连续的RDM。因此,它不能代表一个完整的手写笔画动作,而是只包括一个手写笔画动作的前后几帧。因此,有必要对从I3D提取的特征进行重组,然后将其输入LSTM网络中进行时间序列的特征提取。(1)特征重组:特征的重组过程如图1.6所示。图1.6RT和DT特征重组过程以距离时间重组序列为例,上图显示了I3D网络提取的同一T下R和D的一系列信息,然后按照时间顺序重新排列组合,从而得到一个新的具有二维RT和DT特征的序列[21]。(2)时序特征提取将I3D提取重组后得到的距离和速度的时间序列输入LSTM网络,然后提取时间序列的特征。LSTM网络的结构如图1.7所示:图1.7LSTM网络结构二维图像信息首先通过遗忘门ft,然后通过输入门it,以确定要从单元状态中移除的信息Ct−1和要存储在单元状态中的输入信息Ct(3)特征融合和分类上面得到的两组一维向量可以代表一个完整的手写笔画动作。通过将两组向量与AT序列并行连接,得到一个维数等于3的融合特征向量,包含手写笔画运动的距离、速度和角度变化的时序信息。然后完成归一化,添加到全连接层中。经过多次卷积后,高度抽象的手写笔画特征被融合和排列。使用的归一化指数函数为:softmax(z)=exp(θ其中k=6表示手写笔画的种类数量(点、竖、提、撇、横、捺),i为第i种手写笔画,Zi是表示特征向量的第i个元素,θi是表示1.2.2LSTM调参在LSTM网络中,本文需要调整学习率。下图直接显示了调整结果:图1.8LSTM网络中不同学习率对应的识别准确率从图1.8可以看出,学习率过高,如0.008、0.0006,会致使网络难以收敛或局部最优;而学习率过低,如0.00005,会造成模型的负载过重,网络更新会很缓慢。综上所述,学习速率设为0.00009时,准确率是最佳的。1.2.3实验结果与分析本节对I3D网络进行了改进,将I3D网络提取的RT、DT和AT输入到LSTM网络中,进一步的提取它们的特征[25,26]。为了验证距离多普勒图的特征重组的效果,本文在测试中直接将RDM的时序图像输入到LSTM网络中,然后将识别结果与I3D重组后的结果输入LSTM的识别效果进行比较。结果如下:表1.4LSTM识别准确率识别准确率网络结构LSTMI3D&LSTM手写

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论