【《基于CBF-Net的票据文本识别模型分析案例》4000字】_第1页
【《基于CBF-Net的票据文本识别模型分析案例》4000字】_第2页
【《基于CBF-Net的票据文本识别模型分析案例》4000字】_第3页
【《基于CBF-Net的票据文本识别模型分析案例》4000字】_第4页
【《基于CBF-Net的票据文本识别模型分析案例》4000字】_第5页
已阅读5页,还剩4页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于CBF-Net的票据文本识别模型分析案例目录TOC\o"1-3"\h\u435基于CBF-Net的票据文本识别模型分析案例 [50]中的”向前--向后”(Forward--Backward)算法来快速计算p(l/x)。首先引入了变换,变换对应文本识别流程中的解码,定义如下:4-(6)定义代表所有经过变换后是l的路径π。在输入图像x后,得到真实标签l的概率可以通过累乘操作得到。4-(7)最终,损失函数可以转化为:4-(8)实验和分析为了测试CBF-Net模型的性能以及选择最优的模型识别票据图像中的文本,本节进行了对比实验,通过对比实验综合分析CBF-Net模型的准确率和识别速度,验证了CBF-Net模型的有效性。对照实验设计本文选择了另外两个基线模型作为对照实验,实验模型会使用CTCloss作为损失函数进行训练,对照组1,对照组2和实验组的模型如下:对照组1:CRNN对照组2:CNN(CRNN的主干网络和全连接)实验组:CBF-Net一共准备了三种票据的文本识别训练集。一共46111张数据集,随机将9/10的数据集用作训练,剩下的1/10的数据用作测试。中英文字符分类数量设置为5530。在将图像输入模型之前,会将图像统一调整成280*32的尺寸。三组实验使用相同的超参数,模型优化器使用Adam,批次大小设置为32,学习率设置为0.001,训练轮次epoch为300。每训练完一个轮次后都会对模型进行测试,查看模型的准确率表现。准确率分析根据以上实验设计,完成模型的训练后,将300个训练轮次中的loss值和准确率进行整理,绘制了图4.3。(a)图是300个训练轮次过程中模型的loss变化情况。(b)图是200轮次到300轮次loss的变化。横坐标表示训练轮次,纵坐标表示loss值。蓝色线代表CRNN模型的loss值,橙色线代表CBF-Net模型的loss值,绿色线表示CNN的loss值。根据(a)图显示,在训练的过程中,CNN的收敛速度比CBF-Net的速度快,CBF-Net的收敛速度比CRNN快。这进一步证实了LSTM越多,模型越难训练。根据(b)图显示,大约在第200到300个训练轮次之间,三组模型的loss值都不再继续下降,而是在一定的小范围内震荡。通过对比可以看出,CRNN的loss震荡最严重,其次是CNN的loss,而CBF-Net的震荡较少,相比较另外两个模型,loss更加平稳。(a)0-300轮次损失(b)200-300轮次损失图4.3对比实验Loss如图4.4所示,三组实验按照CNN,CBF-Net,CRNN的顺序依次达到了收敛的最高值。在200轮次到300轮次之间,CBF-Net的准确率明显高于CNN和CRNN。为了进一步分析三组实验的准确率差别情况,统计了三组实验的最高准确率和200轮次到300轮次之间的平均准确率。图4.4对比实验准确率如表4.2所示,通过对比三组模型的最高准确率后发现,CBF-Net的准确率最高,相比于CRNN提高了1.15个百分点。同时在200轮次到300轮次的平均准确率中CBF-Net的平均准确率最高,比CRNN提高了3.96个百分点。根据数据可以知道,CBF-Net的准确率高于CRNN和CNN的准确率,在票据数据集上有着最高的准确率性能。表4.2准确率统计表实验模型最高准确率200-300轮次平均准确率对照组1CRNN0.87460.8198对照组2CNN0.85170.7986实验组CBF-Net0.88610.8594识别速度分析模型的推理速度也是评价模型性能的一项重要指标。当在高并发的环境或者识别数据量特别大的时候,较高的推理速度可以更快地完成任务,提升用户体验。为了给出最佳的解决方案,实验对比了CBF-Net,CRNN和CNN模型的识别速度。表4.3给出了实验进行的硬件环境和软件环境。表4.3识别速度实验环境实验环境硬件环境CPUIntelXeonW-2133六核心十二线程主频3.6GHz内存32GB,GPURTX3090软件环境Ubuntu20.04.1LTSCUDA11.1python3.6pytorch1.6通过CRNN,CBF-Net和CNN分别对一定数量的文本区域进行了预测,并计算了程序运行的时间。如表4.4所示,进行了3次的对比实验,实验数据量分别是50,200和500,记录了模型完成识别任务的推理时间,并根据三次测试实验计算了模型的FPS。对比实验中识别速度最快的模型是CNN,其次是CBF-Net。根据FPS可以计算出CBF-Net相比较CRNN识别速度平均高13.7%,CNN相比较CBF-Net识别速度平均高20.2%。表4.4识别速度测试模型50200500FPSCRNN0.3179s1.0474s2.5375s182CBF-Net0.2888s0.8622s2.3167s207CNN0.2153s0.7895s1.9200s249结论根据准确率分析和识别速度分析可以得到以下结论。在对比实验的三组模型中,CBF-Net在票据数据集上可以达到超越CRNN和CNN的准确率,并且识别速度对比CRNN也有了一定的提升。票据图像的文本识别可以通过应用CBF-Net模型,达到较高的准确率和较快的识别速度。如图4.5所示,选取了一张票据图像作为测试集,通过CBF-Net对票据图像中的文本区域进行了识别。测试集中的票据文本识别结果已经达到了较高的水平,中等长度和较短的文本都可以达到较好的识别效果,存在的问题是较小字符的漏识别和长文本的错误识别。货号名称及规格单位4321233佳能MG2580s付款方式金额496【送货单】34324233549伍仟陆佰肆拾叁元整备注奔图m6202nw激光打印机日期2020-02-04收货地址山东省鸟市市南区江西路B4号收货单位思晋Y2831dw28商务大型公司公图4.5识别结果小结在本章中,针对实现票据图像的文本识别这一目标,为了提高模型识别票据文本的准确率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论