【场景文字检测识别方法研究的国内外文献综述4200字】

上传人：E*** IP属地：湖北上传时间：2026-06-18 格式：DOCX 页数：8 大小：401.20KB 积分：10.8 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

场景文字检测识别方法研究的国内外文献综述1.1场景文字检测的研究现状场景的文字检测算法的发展历程于绝大多数的计算机视觉任务相类似。其中传统的方法，主要依赖于人工设计的规则，同时局限简单的场景。这种传统的方法大体分为两类，分别是基于连通域的方法和基于滑动窗口的方法。而随着近几年来基于深度学习目标检测飞速发展，其中的很多方法也可以很好的迁移到文本检测算法中来，基于深度学习的文本检测方法大体分成三类，分别是直接回归的方法，基于锚框回归的方法和基于像素点回归的方法，他们各自都有其优缺点，需要结合具体场景来对算法网络设计进行选择。基于连通域的方法一般采用自底向上的策略检测场景文本。采用一个快速的方法来分离文本像素与非文本像素。这类方法一般专注对灰度值、颜射、梯度等底层信息的提取，进而获取连通域的途径。Neumann等人在2004年提出的MSER算法可以很好的应用于自然场景文本检测[3]。该算法基于分水岭算法的概念，取[0,255]阈值的图像进行二值化处理，阈值从0到255依次递增，在此过程中，某些连通区域的面积随阈值的上升变化很小，该区域就被定义为最大稳定极值区域。MSER算法可以较好地描述文本内部颜色的一致性，一定程度上克服噪声和仿射变换带来的干扰。在这之后，MSER的一些变体相继被提出来。Sun等人提出通过用对比极值区域(ContrastingixtremalRegion，CER)方法来减少候选区域的数量进而很好的对文本区域定位[4]。GargR等人提出了颜色聚类方法(ColorCluster)一种用于分割具有复杂布局的文档的新颖框架[5]。通过组合基于聚类和条件随机字段(CRF)的建模来执行文档分割。自下而上的分割方法基于颜色强度将每个像素分配给一个群集平面。J.Matas等人抛弃了MSERs对稳定性的要求，并选择了一种依赖类型(不必稳定)的ExtremalRegions[6]。它使用图像矩作为单神经网络(monolithicneuralnetwork)需要的特征，这个神经网络被训练用于特定形状集合(如纹理，特定字符)的检测。而基于滑动窗口的方法是指在图像中密集地滑动一个子窗口，同时使用手动设计的底层特征或者通过卷积在滑窗的各个位置设计检测算法其采用自顶向下的策略来进行文本检测。K.Wang和B.Babenko等人用滑动窗口的方法来将找到的多个单独的字符视作可见词，并用一个词典来将字符分组成单词[7]。刘爽等人提出了基于滑动窗口定位技术进行智能仪表字符的检测与识别[8]。近年来，随着深度学习的发展，卷积神经网络得到了越来越广泛地应用，其中在目标检测和文字检测方面也不断地涌出一系列优秀的算法，这些算法使用效果更加稳定的高层语义特征，利用更多的数据去拟合更复杂、泛化能力更强的模型，在场景图片文本检测中取得了突破性的进展。其操作过程是通过神经网络模型结构可以自动地对图像中的特征进行学习，对图片中的文字和非文字区域进行分类，从而达到文字检测的任务。在早期的工作中，Wang等人使用无监督学习方法来初始化CNN第一层的Filter，然后基于CNN提取的特征训练SVM分类器，分类后得到每张文本图片的响应图，经过NMS、连词、文本行生成等后处理获取最终的检测框[9]。Jaderberg等人在2016年提出了基于区域建议(RegionProposal)的方法，该方法采用CNN与ACF提取文本候选区域，同时训练简单的框回归器修正区域建议阶段获取的文本检测框[10]。Tian等人提出了连接文本提议网(ConnectionistTextProposalNetwork，CTPN)[11]，该方法将文字沿文本行方向切割成更小且宽度固定的Proposal，极大地提高了检测定位的精度。同时，考虑到水平行的语义上下文信息，他们使用RNN来编码水平行的文本信息，进一步提高了网络的文本特征表征能力。受一阶段目标检测器的启发，TextBoxes文献中使用SSD，并把默认框更改为适应文本的不同方向和宽高比的具有不同宽高比规格的四边形[12]。Pixellink文献中Deng等人通过添加额外的输出通道来指示相邻像素之间的链接，学习预测两个相邻像素是否属于同一文本实例[13]。Wang等人通过对像素根据其颜色一致性和边缘信息进行聚类，融合的图像段称为超像素，通过这些超像素来提取字符和预测文本实例[14]。Long等人提出了一个新模型Textsnake，该模型可学习预测局部属性，包括TCL/非TCL，文本区域/非文本区域，半径和方向。TCL像素和文本区域像素的交集给出了像素级TCL的最终预测[15]。1.2场景文字识别的研究现状经过场景文字检测处理之后，我们获得文字区域的位置。接下来就是通过识别算法来转译这些文字区域的内容。场景文字识别算法大体上分为三类，基于字符分割的文本识别方法、基于时序分类(CTC)的文字序列识别方法和基于注意力机制(Attention)的文本行识别方法。传统的文字识别很复杂，一般都是基于字符分割然后进行单字符的识别，这套方法对于简单的任务非常奏效，并且这种方法的灵活性比较高，但再分割复杂的背景下是一个有挑战性的问题。Wang等人在汉字检测过程中引入HOG(HistogramofOrientedGradient)特征，使用不同尺寸的滑动窗口提取不同纬度的图像特征，最后再使用随机算法得到字符级分类的结果[16]。Bissacco等人提出了PhotoOCR，这是一种从图像中提取文本的系统[17]。Alsharif等人用使用一种复杂的，包含分割、矫正以及字符识别的CNN网络，利用了最近推出的Maxout网络以及已被证明对语音识别有用的混合HMM模型,构建了一个可调的，高度准确的识别系统[18]。Novikova[19]和Mishara[20]等人通过字符分类器对字符进行分割与分类并且把它们链接成一个图结构进而来推导识别出整个字符序列。近年来，随着深度学习的迅猛发展，一系列算法被提出来应对上述复杂场景识别问题。自2015年以来，基于深度学习的字符序列识别算法逐渐成为舞台上的主宰。这类算法的噪声处理能力强，具有一定的鲁棒性，同时对于训练的数据集，只需要序列文本标签，不需要字符级标注。He[21]在文章中提出了一种较为统一的完全深度学习算法DTRN。它在输入图像上滑动CNN模型以生成卷积特征切片，然后将其输入RNN。首先以32×32像素的窗口将字符图片划分成图片序列，将图片序列送入卷积网络编码器中，计算每个窗口对应的图片特征，组成特征序列后再送入后端用于时序建模的循环网络部分产生连贯的语义，并借助CTC时序分类去除序列冗余，最后产生预测字符序列。而华中科技大学白翔团队提出了CRNN[22]算法在DTRN的基础上更进一步地统一了输入，字符图片不需要滑动窗口，保持完整图片作为输入就能得到预测字符序列。与之前通过部分到整体的算法相比，可以进行端到端的训练，而不是各个部分单独训练，同时借用了自然语言处理模型中序列标注任务的思想，将序列标注算法嵌套在现有的深度卷积网络中，组成完整的端到端梯度反向传播的算法.再通过深度学习网络提取到场景图片中文字深层次特征之后，接下来就是文字识别的重中之重，通过编码器-解码器(Encoder-Decoder)和CTC，对特征图进行编码和解码进而对识别出来的文字进行输出。Y.Li等人通过建立注意力的编码器-解码器模型，使得在二进制约束下训练编码器部分，在减少计算参数量的同时提高了识别模型的精度[23]。在此基础之上Bai等人提出了一种编辑概率(editprobability-EP)度量标准，以处理真实标签字符串与注意力的概率分布输出序列之间的失准，EP尝试根据输入图像上的概率分布的输出序列来估计生成字符串的概率。对了适应不规则文本的识别，通过设计纠正模块(Rectification-modules)可以很好的解决这一问题[24]。Shi等人提出了一种文本识别系统，该系统将空间转换网络(SpatialTransformerNetwork,STN)和基于注意力的序列识别网络相结合[25]。STN模块使用全连接层预测文本边界多边形，以进行薄板样条插值，从而将输入扭曲的文本图像校正为更规范的文本图像进而送入文本识别的特征提取网络。Yang[26]等人以类似于TextSnake[15]的方式进行了局部属性预测，通过定义文本中心区域内像素的半径和方向值，以纠正字符的透视畸变的方式重建边界多边形。1.3场景文字检测识别的难点与产业应用现状自然场景图像中的文字检测与识别往往在难度上要大于扫描文档中的文字的检测与识别，相比于文本字符排列整齐，字体规范清楚，图片背景单一，文本字符信息容易分割，自然场景的文字检测识别具有极大的多样性和明显的不确定性。自然场景中文字允许多种语言文本混合，每种语言含有多种字符，同时每个字符还可以有不同的字体、颜色、大小、亮度、对比度、颜色；因拍摄图像的随意性，图像中的文字区域还可能会产生变形(透视和仿射变换)、残缺、模糊断裂等现象；低分辨率问题，由于文字本身比较细密，所以一点发生模糊不清楚等状况，很容易丢失大部分文字信息；文字通常以文本行的形式存在，但文本行可能存在多样的排版方式，有横排和竖排，以及各种弯曲文字等等。如图1.1是一些常见的场景。图1.1自然场景中图像文字多样性示例Fig.1.1Examplesofimagetextdiversityinnaturalscenes现如今场景文字检测识别技术作为机器视觉领域的一个非常重要的研究方向，涉及的应用领域多种多样已经有不少服务商在提供图像文字检测和识别服务，这些服务商既包括了微软、亚马逊、腾讯、百度、阿里等大型云服务企业[27]；还有些公司是围绕相关领域做OCR应用，像教育领域有学霸君、猿辅导、好未来、作业盒子，安防领域有大华、海康威视等等；同时也包括了一些活跃在物流、视频直播、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以通过使用客户提供的数据集训练定制化模型(如票据识别模型)，以及提供定制化AI服务系统集成等。也可以通过深度学习技术使用提前训练好的模型直接提供场景图文识别、卡证识别、场景文字检测识别理解等服务。参考文献FischerA,KellerA,FrinkenV,etal.HMM-basedWordSpottinginHandwrittenDocumentsUsingSubwordModels[C].IEEEInternationalConferenceonPatternRecognition,2010:3416-3419.Merino-GraciaC,LencK,MirmehdiM.AHead-MountedDeviceforRecognizingTextinNaturalScenes[C].InternationalConferenceonCamera-BasedDocumentAnalysisandRecognitionSpringer-Verlag,2011:29-41.LNeumann,JMatas.Amethodfortextlocalizationandrecognitioninreal-worldimages[C].InAsianConferenceonComputerVision,2010:770-783.SunL,HuoQ.Acomponent-treebasedmethodforuser-intentionguidedtextextraction.In:Proceedingsofthe21stInternationalConferenceonPatternRecognition.Tsukuba,Japan:IEEE,2012.633-636GargR,HassanE,ChaudhuryS,etal.ACRFBasedSchemeforOverlappingMulti-coloredTextGraphicsSeparation.[J].2011.J.MatasandK.Zimmermann.Anewclassoflearnabledetectorsforcategorisation.

InImageAnalysis,volume3540ofLNCS,pages541–550.2005.K.Wang,B.Babenko,andS.Belongie.End-to-endscenetextrecognition.InICCV2011,2011.刘爽,崔国光,刘同海,等.基于旋转校正和滑动窗口定位的智能仪表字符识别[J].电测与仪表,2013,000(006):20-23.WangT,WuDJ,CoatesA,eaal.End-to-EndTextRecognitionwithConvolutionalNeuralNetworks[C].ICPR,2012JaderbergM,SimonyanK,VedaldiA,etal.Readingtextinthewildwithconvolutionalneuralnetworks[J].InternationalJournalofComputerVision,2016,116(1):1-20.TianZ,HuangW,HeT,etal.DetectingTextinNaturalImagewithConnectionistTextProposalNetwork[J].InEuropeanConferenceonComputerVision,2016:56-72.Liao,B.Shi,X.Bai,X.Wang,andW.Liu.Textboxes:Afasttextdetectorwithasingledeepneuralnetwork.InAAAI,pages4161–4167,2017Deng,H.Liu,X.Li,andD.Cai.Pixellink:Detectingscenetextviainstancesegmentation.InProceedingsofAAAI,2018,2018.Wang,F.Yin,andC.-L.Liu.Scenetextdetectionwithnovelsuperpixelbasedcharactercandidateextraction.In201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition(ICDAR),volume1,pages929–934.IEEE,2017.Long,J.Ruan,W.Zhang,X.He,W.Wu,andC.Yao.Textsnake:Aflexiblerepresentationfordetectingtextofarbitraryshapes.InInProceedingsofEuropeanConferenceonComputerVision(ECCV),2018.K.Wang,B.Babenko,S.Belongie.End-to-endscenetextrecognition[C].IEEEInternationalConferenceonComputerVision.Barcelona,Spain,2012:1457-1464BissaccoA,CumminsM,NetzerY,etal.PhotoOCR:ReadingTextinUncontrolledConditions[C]//2013IEEEInternationalConferenceonComputerVision(ICCV).IEEE,2013.AlsharifO,PineauJ.End-to-endtextrecognitionwithhybridHMMmaxoutmodels[J].ComputerVisionandPatternRecognition,2013,24(8):754-768.NovikovaT,BarinovaO,KoliP,etal.Large-lexiconattribute-consistenttextrecognitioninnaturalimages[C].EuropeanConferenceonComputerVision,2012:752-765.MishraA,AlahariK,JawaharCV.Scenetextrecognitionusinghigherorderlanguagepriors[C].BMVC-BritishMachineVisionConference,2009:1-11.He,W.Huang,Y.Qiao,C.C.Loy,andX.Tang.Readingscenetextindeepconvolutionalsequences.InThirtiethAAAIconferenceonartificialintelligence,2016.X.Bai,Shi,C.Yao.AnEnd-to-EndTrainableNeuralNetworkforImage-basedSequenceRecognitionandItsApplicationtoSceneTextRecognition.[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015.Liu,Y.Li,F.Ren,H.Yu,andW.Goh.Squeezedtext:Areal-timescenetextrecognitionbybinaryconvolutionalencoder-decodernetwork.AAAI,2018d.Bai,Z.Cheng,Y.Niu,S.Pu,andS.Zh

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【场景文字检测识别方法研究的国内外文献综述4200字】

文档简介

温馨提示

最新文档

评论

【场景文字检测识别方法研究的国内外文献综述4200字】

文档简介

温馨提示

最新文档

评论

相关文档