版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征融合的印刷体图像中关键字检索实验探究目录TOC\o"1-3"\h\u16441基于特征融合的印刷体图像中关键字检索实验探究 1255131.1特征融合原理 1275631.2特征融合算法 2216001.2.1基于贝叶斯理论的特征融合算法 3207411.2.2基于稀疏表示理论的特征融合算法 3194511.2.3基于深度学习理论的特征融合算法 322631.3基于特征融合的印刷体图像中关键字检索 519721.4实验结果分析与总结 7在计算机视觉领域中图像分类是最基本的问题。传统的图像分类方法,在一定程度上被解决。如用于特征提取的支持向量机、人工神经网络、近邻法等,用于分类的分类器训练,最后输出分类结果[54]。传统的用于图像分类特征,是人工选择的特征,提取输入图像的人工选择特征,例如颜色特征、像素特征、SIFT特征、纹理特征、GIST特征等,这些特征的共性是,存在于类内方差较小而类间方差较大的图像。因为一种特征只对图像部分特征较为明显,例如提取的是颜色特征,那该特征只能对颜色较为敏感,而对于纹理、像素等特征不敏感。所以,当两类图像的差异在某种特征敏感特性上的差异不大时,基于单一特征训练的分类器就无法输出正确的分类。除此之外,图像中背景的噪声也会影响特征提取,分类器的分类的训练,降低图像分类的准确率。在传统图像分类方法中,使用传统的特征融合方法解决单一特征的局限性问题,同时用多种融合特征进行分类器训练,实现特征互补,降低单一特征固有缺陷的影响。1.1特征融合原理其实,人们认知的过程就是信息融合的过程,通过视觉、听觉、触觉等多重感官接受各种各样的信息,再将这些信息通过传感器传入大脑皮层进行综合处理,这就是人们的认知过程。信息融合理论是特征融合的基础理论。信息融合是对多源异构数据进行综合处理,从而达到联合决策的目的[55]。在计算机领域中,由于多源数据的结构和含义不同,在数据处理时不能一概而论,必须经过融合算法处理。在图像分类领域,使用特征融合方法解决图像分类问题,就是信息融合的思想。其内容是使用融合算法融合图像的多个特征(颜色、纹理、像素、SURF、HOG等),以便实现更智能的视觉图像领域问题。随着计算机硬件GPU、CPU的发展、软件研究技术的推进,社会发展的越来越多元化,使得计算机处理的融合信息更加多样,如何在大规模分布式计算、并行计算的环境下,通过信息数据融合使得分类器级推进到了特征级和数据级的层面。图像分类问题的解决过程一般包括数据获取、预处理、特征提取、分类器设计与训练和分类决策等步骤,如图1.1所示,信息融合的3个层次恰好可以与这个过程对应。下图分别从三个方面进行特征融合,首先可以在数据上进行融合,其次是在提取特征时,对特征进行融合。最后在设计分类器时,可以对分类其进行融合。特征融合保留了必要的、显著的信息,既降低原始数据的冗余性,减少数据噪声,又比分类器决策结果又更充分的数据信息,数据量和数据维度适中,因此在这个层次上进行融合是目前最优的选择。1.1融合层次与图像分类1.2特征融合算法在图像分类领域对特征融合方法的研究包括基于贝叶斯理论的特征融合、基于稀疏表示理论的特征融合算法等[54]。近年来,随着深度学习理论的发展,基于深度学习理论的特征融合算法也逐渐成为研究热点。前两者是在提取多特征的基础上提出融合算法,重点在于对多特征进行综合处理得到特征融合;后者是将融合的思想引入深度学习理论中,在深度神经网络模型中加入融合过程,从而对网络模型进行优化。1.2.1基于贝叶斯理论的特征融合算法基于贝叶斯理论的特征融合算法是在分类器融合算法的基础上发展起来的[54]。贝叶斯决策理论是一种经典的图像分类方法,已知模型空间Ω包含C种图像类,记为Ω=(,…),未知样本X由N维实数特征组成,记为X=。根据最小错误率的贝叶斯决策理论,若将样本X分为第j类,则该样本就是在已知样本X条件下后验概率最大的模式类,这个决策过程表示为公式1.1:If(1.1)其中,表示第K类后的后验概率,K∈[1,C]。1.2.2基于稀疏表示理论的特征融合算法稀疏表示理论是信号处理领域的一种基础理论,它的基本思想是使用数据稀疏性这一先验知识,从一个超完备字典中找尽可能少的原子对目标信号进行线性表示[57]。稀疏表示问题可以表示为,对于向量b∈和矩阵A∈,使得Ax=b,即公式1.2的优化问题。其中X是一个稀疏向量,且m远小于n,优化目标X的范数,通常为了求解方便在实际求解算法中使用范数代替。经典的稀疏问题求解算法包括匹配算法、追踪算法、LASSO算法等。S.t.Ax=b(1.2)基于稀疏矩阵表示理论的特征融合算法是对样本提取多特征后建立特征联合稀疏表示矩阵,这个矩阵表示矩阵就是多特征的融合结果。1.2.3基于深度学习理论的特征融合算法深度学习理论是在人工神经网络的基础上发展起来的机器学习理论,在多层神经网络中加入了更多隐层单元,得到了深度神经网络模型。其中深度卷积神经网络模型是该理论中的重要模型之一。基于深度学习理论的特征融合的思想引入深度神经网络模型,使用多特征输入到模型中进行训练,在模型中选择两个隐层进行特征融合。在图像分类中一般使用空间特征融合算法。空间特征融合算法可以对卷积层输出的2个特征图(featuremap)进行融合,得到融合后的特征图,从而将两个卷积网络模型连接在一起,这个连接点就是融合点。因此,引入特征融合方法后,两个卷积神经网络模型在融合点之前分别进行特征学习,并在融合点将独立学习的特征进行融合,最后开始共同学习。融合函数定义为公式1.3:(1.3)其中,和表示t时刻的视频帧分别经过卷积运算得到的空间特征图,表示融合空间特征图。融合函数包含加性融合函数、最大融合函数、级联融合函数、卷积融合函数和双线性融合函数等。1.加性融合函数加性融合函数,是对两个特征图对应位置元素的值进行相加,如公式1.4所示,融合特征图的通道数不变,其中i∈[1,H],j∈[1,W],d∈[1,D]。(1.4)2.最大融合函数最大融合函数与加性融合函数相似,是将两个特征图对应的位置元素较大的一个作为融合结果,即公式1.5所示(1.5)3.卷积融合函数卷积融合函数,是将级联融合结果与滤波器f进行卷积运算,并且引入偏差值b,从而实现融合特征图的降维处理,表示为公式1.6:(1.6)其中f∈,b∈。4.级联融合函数级联融合函数与之前不同,它保留了两个特征图的结果,并将融合后特征图的通道数变为原始特征图的两倍,如公式1.7所示:(1.7)其中f∈。1.双线性融合函数双线新融合函数,是对两个特征图对应的位置元素进行外积运算后求和,融合特征图的通道数是原始特征图通道数的平方,表示为1.8所示:(1.8)其中∈。这种融合函数常被用在Relu层,能够对两个特征图对应的通道进行融合。1.3基于特征融合的印刷体图像中关键字检索本节将详细介绍基于特征融合的印刷体图像中关键字检索方法,整体框架如图1.2所示。在该方法,继续以GoogLenet作为低层网络模型,用CBAM和BAM以并行的方式分别提取输入图像的特征[56],再将提取的特征进行融合,该融合的方法是1.2.3节中论述的卷积特征融合的级联特征融合方法。将融合后的特征输入到GoogLenet提取特征,在下图中GoogLenet卷积层提取的特征被称为局部特征。经过几层卷积层的特征提取后,在第七层Inception结构之后又同时插入CBAM和BAM提取特征,再将特征进行级联融合。再输入到GoogLent中,提取局部特征,最终输出全局特征。图1.2基于特征融合的印刷体图像中关键字检索通过卷积神经网络提取的特征包含了图像的高级语义信息,可以有效解决许多计算机视觉问题,并且性能优于其他低层特征。因本文数据集的印刷体图像在生成图像时,有空白区域,因此图像进行CBAM和BAM同时提取特征,再进行级联融合,得到局部融合特征。CBAM是由一个一维的通道注意力模块和一个二维的空间注意力模块串行排列构成。其中,C表示通道数,H、W分别表示特征图高度和宽度。图像首先输入通道特征αCBAM。随后,将生成的通道特征输入空间注意力模块,利用特征的空间关系生成空间特征,得到最终特征αCBAM。通道注意力模块关注图像的那一部分是需要被关注的,而空间注意力模块通过关注图像中的具体信息,对通道注意力进行补充。αCBAM的计算公式如下1.9所示:(1.9)式中:为通道注意力模块输出的结果,为数组元素依次相乘。BAM则是由通道注意力模块和空间注意力模块并行构成。与CBAM类似,通道注意力模块利用通道特征间的关系得到其特定的响应,然后通过空间注意力模块选择增强还是减弱处于不同空间位置的特征。将特征图像输入BAM模块中,得到如公式1.10所示:(1.10)式中:,是sigmoid函数。最后,将经过两个模块处理后的特征,进行级联特征融合。1.4实验结果分析与总结在本节中,展示实验结果。本节使用第三章介绍过的15个数据集对该网络模型进行训练。在本节中展示数据集11和数据集12训练模型的模型训练图。下图1.3为数据集11训练该模型的模型训练图。图1.3基于特征融合的网络模型在数据集11下的训练图图1.4为数据集12训练该网络模型训练图。图1.4基于特征融合的网络模型在数据集12下的训练图特征融合的网络模型在所有的数据集训练中都收敛。从上图可以看出,模型在数据集的训练下,模型在训练集和验证集上的正确率都达到了99%,说明网络模型稳定(用于网络训练、测试的数据集不变)。当训练集包含验证集和测试集时,GoogLenet+CBAM+BAM模型的正确率与GoogLenet+CBAM3和GoogLenet网络的正确率比较。下表1.1为模型在测试集上的正确率。表1.1训练集包含验证集和测试集时模型在测试集上的正确率模型字体个数GoogLenetGoogLenet+CBAM3GoogLenet+CBAM+BAM一种字体汉字99.9%99.8%99.9%二种字体汉字99.95%99.85%100%三种字体汉字99.93%99.95%99.96%上表模型在测试集上的正确率都很高,测试集在模型训练时已经被训练过,因此再用模型进行测试时,模型的正确率都很高,也说明训练出来的网络模型是稳定的。其次GoogLenet+CBAM+BAM网络模型在所有字体数据集下,正确率高于GoogLenet网络和Googlenet+CBAM3网络模型。用训练集不包含验证集和测试集的测试集对该网络模型进行测试,其结果如下表1.2所示。表1.2训练集不包含验证集和测试集时模型在测试集上的正确率模型字体个数GoogLenetGoogLenet+CBAM3GoogLenet+CBAM+BAM一种字体汉字98.5%97.6%99%二种字体汉字99.25%99.45%99.5%三种字体汉字98.36%99.3%99.43%通过上表发现,在只有一种字体的数据集时,GoogLenet+CBAM+BAM模型在测试集上的正确率比GoogLenet模型高0.5%,比GoogLenet+CBAM3模型高1.4%。当字体为两种字体的数据集时,GoogLenet+CBAM+BAM网络模型在测试集上的正确率比GoogLenet模型高0.25%,比GoogLenet+CBAM3网络模型高0.5%。当字体为三种字体的数据集时,GoogLenet+CBAM+BAM网络模型比GoogLenet模型高1.7%,比GoogLenet+CBAM3模型高0.13%。表1.3是测试集和验证集的字体不同于训练集,通过上一章的实验结论,知道模型在测试集上的正确率取决于字体与训练集字体是否接近。表1.3测试集和验证集是另外一种字体(方正粗黑宋简体)模型字体个数GoogLenetGoogLenet+CBAM3GoogLenet+CBAM+BAM一种字体汉字3.2%2.7%4.1%二种字体汉字9.5%11.8%23.1%三种字体汉字78.8%80.2%84.7%通过上表实验结果可知,测试集为不同于训练集的方正粗体黑时,当训练集只有一种字体时,GoogLenet+CBAM+BAM网络模型比GoogLenet网络模型高0.9%,比GoogLenet+CBAM3模型高1.4%。在训练集有两种字体时,GoogLenet+CBAM+BAM模型比GoogLenet高13.6%,比GoogLenet+CBAM3模型高11.8%。在训练集有三种字体时,GoogLenet+CBAM+BAM模型比GoogLenet模型高1.9%,比GoogLenet+CBAM3高4.5%。用不同于训练集字体的包图小白体作为测试集测试基于特征融合的网络模型的正确率。其结果如下表1.4所示:表1.4测试集和验证集是另外一种字体(包图小白体)模型字体个数googlenetGoogLenet+CBAM3GoogLenet+CBAM+BAM一种字体汉字0.2%0.5%0.4%二种字体汉字0.2%0.4%1.3%三种字体汉字1.2%1.5%1.1%通过上表实验结果可知,包图小白体跟训练集的字体差别较大,增加训练集数据量,模型在该测试集上的正确率也不会有任何提升。通过该实验可知,当字体颜色区别就大时,即使使用级联特征融合,该测试字体包图小白体的正确率也不会提升。用不同于训练集字体的Dengl作为测试集测试基于特征融合的网络模型的正确率。其结果如下表1.5所示。表1.5测试集和验证集是另外一种字体(Dengl)模型字体个数googlenetGoogLenet+CBAM3GoogLenet+CBAM+BAM一种字体汉字40.4%31.8%62.4%二种字体汉字83.3%83.6%83.9%三种字体汉字96.2%98.9%99.1%通过上表实验结果可知,测试集为不同于训练集的dengl时,当训练集只有一种字体时,GoogLenet+CBAM+BAM模型比GoogLenet高22%,比GoogLenet+CBAM3模型高26.6%。在训练集有两种字体时,GoogLenet+CBAM+BAM网络模型比GoogLenet
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购买旗杆安装合同书
- 釉料怎样购买合同书
- 购买赠予房屋合同
- 墓地土地购买合同
- 购买买牛协议合同
- 购买门面怎样签合同
- 电线原料购买合同
- 制冷剂购买合同范本
- 幼儿园购买面包合同
- 桂林公租房购买合同
- 四川大学2026年强基计划笔试模拟试题及答案解析
- 张掖市民乐县城镇公益性岗位招聘笔试真题及答案
- 2026上海静安社区工作者招聘154人考试备考试题及答案解析
- 2026年安全生产月专项培训课件
- 2025江苏省苏州市中考语文真题(原卷版)
- 消防设施操作员职业前景
- 2025年广东省东莞市中考物理真题试卷(含完整答案解析)
- (三模)南通市2026届高三第三次调研测试地理试题卷(含答案)
- 水利数据分类分级规则(2026 版)
- 宝兴县2026年上半年“雅州英才”工程赴外招才引智活动面向全国引进高层次和急需紧缺人才(14人)笔试参考题库及答案解析
- 2026年南昌市西湖区社区工作者招聘考试参考题库及答案解析
评论
0/150
提交评论