基于深度学习的场景文本检测的研究

上传人：1*** IP属地：云南上传时间：2020-09-16 格式：DOCX 页数：95 大小：2.04MB 积分：9.6 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、中文图书分类号：TP183 密级：公开UDG： 004学校代码:10005松孝- BEIJING UNIVERSITY OF TECHNOLOGY硕士专业学位论文PROFESSIONAL MASTER DISSERTATION论文题目：基于深度学习的场景文本检测的研究论文作者：恩孟一专业类别/领域：软件工程指导教师：李蓉李建强论文提交日期：2018年6月UDC： 004中文图书分类号：TP 183学校代码：10005学号：S201525105密级：公开北京工业大学硕士专业学位论文（全日制）题目：基于深度学习的场景文本检测的研究英文题目：RESEARCH ON SCENE TEXT

2、DETECTION BASED ON DEEP LEARNING论文作者：恩孟一专业类别/领域：软件工程研究方向：计算机视觉申请学位：工程硕士专业学位指导Mr师：李蓉李建强所在单位:软件学院答辩日期：2018年6月授予学位单位：北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：恩孟一日期：2018

3、年6月4日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定，BP：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影卬、缩印或其他复制手段保存论文。（保密的论文在解密后应遵守此规定）签名：恩孟一导师签名：李建强日期：2018年6月4日日期：2018年6月4日北京工业大学工程硕士专业学位论文摘要自然场景图像中的文本包含着丰富而精准的语义信息，是图像中重要的信息来源，这使检测和识别场景图像中的文本成为一个具有巨大应用价值的研究主题。近年来，场景文本的检测和识别得到了越来越多研究者的关注，在该领域不断有新的方

4、法被提出。早期的场景文本检测识别方法基本上都是基于人工设计的特征的，随着深度学习的复兴，深度网络强大的特征学习能力使基于深度学习，特别是基于卷积神经网络的方法逐渐成为该领域的主流。在该背景下，本文的主要工作是，基于深度卷积网络对场景文本检测问题进行研究。本文针对于多尺度场景文本尤其是小文本检测的问题，提出了一个新的场景文本检测框架一一基于特征金字塔的场景文本检测器。该框架基于通用目标检测领域的SSD框架，并引入特征金字塔机制，通过一种自顶向下特征融合方法，将卷积神经网络中不同深度的特征进行融合产生新的特征，使这些新特征在具有较强判别力的同时又保留较多图像的局部细节信息。通过在新特

5、征上进行文本检测，使该框架在检测多尺度文本尤其是小文本方面的效果得到了提升。该方法在 ICDAR2013 数据集上达到 87.6%的 F-score0冃前大多数基于深度网络的场景文本检测方法需要大量拥有包围盒级别标注的数据进行模型训练，而这种数据往往需要昂贵的人工标注才可获得。针对这一问题，本文尝试提岀一种基于弱监督的方法，在仅包含图像级标注的数据集上训练得到拥有场景文本定位能力的卷积网络模型，而无需任何包围盒级别的标注。该网络模型可以根据输入图像产生一张二维的类激活图，该激活图上每个像素的值表示该位置属于文本区域的置信度。利用该激活图可以排除输入图像中大部分的背景区域，定位到可

6、能屈于文本的区域，进而可以在这些区域上通过基于 MSER的方法进行进一步的文本候选框提取。通过在ICDAR2013和ICDAR2015 数据集上进行验证，发现该方法提取的文本候选框达到的召冋率与一些监督方法相当。关键词：场景文本；卷积神经网络；弱监督；深度学习AbstractText in natural scene images is an important source of information, containing rich and precise high level semantics. So detecting and recognizing scene text hav

7、e great application value and have attracted much research interests during the last two decades. Early detection and recognition methods are based on artificially designed text features. However, with the revival of deep learning, deep neural networks show strong ability of learning features. Resea

8、rch based on deep neural networks, especially convolutional neural networks has became the mainstream of this field. Against the backdrop, the main task of this paper is to study the problem of scene text detection based on deep convolutional networks.In order to solve the problem of multi-scale sce

9、ne text detection, especially small text detection, we propose a new detection framework called feature pyramid based scene text detector. The framework is based on the state-of-the-art object detection framework SSD, and introduces feature pyramid mechanism. Through a top-down feature fusion manner

10、, features from different depth in CNN are combined and new features are built, forming a feature pyramid in which features have both high-level semantics and fine local details. Detecting on the new built features improves the performance on multi-scale text detection and small text detection. On I

11、CDAR2013 benchmark, the F-score of the proposed method achieves 87.6%.Most of the current state-of-the-art scene text detection methods need a large amount of data with bounding box-level or pixel-level ground-truth to train deep models. But getting these kinds of data require expensive manual annot

12、ation. We explore to propose a weakly supervised method that train a deep CNN model with text localization ability on datasets that have only image-level annotations. Given an input image, the model is capable of producing a 2-D class activation map (CAM) where value of each pixel denotes the confid

13、ence score of whether the pixel belongs to text region or not. By the help of the CAM, most of background areas in the input image can be filtered out and then we find the areas where text may exist. Based on this method, we can generate text proposals by some MSER-based methods. The proposed weakly

14、 supervised method achieves recall rate comparable to some fully supervised methods on ICDAR2013 and ICDAR2015 benchmarks.Keywords: scene text; convolutional neural netwotks; weak supervision; deep learning 北京工业大学工程硕士专业学位论E摘要IAbstractII第1章绪论11.1研究背景与意义11.2国内外研究现状2121传统方法31.2.2基于深度学习的方法31.3主要工作和贡献51.

15、4论文结构安排6第2章目标检测技术基础72.1 RCNN系列方法72.1.1候选目标区域提取72.1.2 R-CNN82.3 Fast R-CNN82.1.4 Faster R-CNN112.2 SSD132.3反思152.4本章小结15第3章基于特征金字塔的场景文本检测173.1网络结构173.1主干网络173.1.2特征金字塔193.1.3检测模块203.2技术细节213.2.1 atrous 卷积213.2.2特征金字塔223.2.3先验盒263.2.4预测层283.2.5匹配规则293.2.6损失函数303.3实验313.3.1实验环境313.3.2数据集313.3.3训练和测试313

16、.3.4验证特征金字塔的有效性323.3.5检测小文本的实验323.3.6不同配置下的FPTD性能对比343.3.7与其他检测方法的对比343.3.8检测效果展示与分析353.4本章小结36第4章基于弱监督的场景文本注意力网络374网络模型374.2技术细节384.2.1空间金字塔池化384.2.2类激活图的生成404.2.3感受野和多尺度问题424.2.4生成文本候选区域434.3实验454.3.1实验环境454.3.2数据集454.3.3 训练454.3.4 测试464.3.5二分类效果464.3.6文本候选区域提取效果464.3.7 ICDAR2013数据集上的召回效果474.3.8 I

17、CDAR2015数据集上的召回效果484.3.9单一尺度输入的召回效果514.3.10与其他文本proposal方法的比较514.4本章小结52结论55参考文献59附录一ICDAR2013数据集介绍65附录二ICDAR2015数据集介绍70V目录附录三FPTD评测结果截图72攻读硕士学位期间取得的成果75致谢77v第1章绪论第1章绪论1.1研究背景与意义在过去的二十多年中，如何有效地检测、利用自然场景图像中的文本信息得到了越來越多研究者的关注。比较有代表性的是国际文档分析与识别会议(International Conference on Document Analysis and Recog

18、nition, ICDAR) 和该会议设置的鲁棒阅读竞赛(Robust Reading Competition) U_5J,以及从2005年开始举办、依附于ICDAR会议的基于摄像机的文档分析与识别研讨会(International Workshop on Camera-Based Document Analysis and Recognition, CBDAR) o此外，近年来在计算机视觉领域的各大顶级会议，如CVPR, ICCV, ECCV等会议上，自然场景图像中文本的检测和识别也成为了重要的研究话题。对于自然场景图像来说，图像中出现的文字携带着丰富而精准的高级语义信息，这是图像中信

19、息的重要來源。因此，如果可以有效地将这些文本信息进行检测、识别并加以利用，对很多的基于视觉的应用来说具有重大意义，例如文档图像检索，基于航拍图像的目标地理位置定位，基于视觉的机器人路径导航凶，帮助视障人士通过照相机读取货币而值9，等等。另外，近年来随着智能手机的普及，人们可以随时随地方便地“制造讶口处理大量的图像，这些图像中往往包含着文本信息。这也为检测、识别多样环境下自然场景图像中的文木提供了巨大的应用需求和应用空间。一般來说，传统光字符识别(Optical Character Recognition, OCR)的任务是在背景干净、文本均匀的扫描文档上检测、识别文本，目前该技术己

20、较为成熟一在普通扫描文档上一般可以达到99%以上的识别率I。和它相比，自然场景图像中文本的检测与识别是一项非常具有挑战性的任务，在目前大部分的公开数据集上，检测和识别效果都要远远低于传统OCR。该任务的主要难点可以概括为以下儿个方面：(1) 图像背景的复余性。在场景图像中，许多的非文本物体，主要是一些人造物，如建筑物，标志，涂鸦等等，与场景中的文本在外观、结构上有较大的相似性。这样一來，图像中的文本与其周围的非文本物体很容易发生混淆，给区分图像中的文本与非文本造成了一定的困难。(2) 不均匀光照。在获取(拍摄)图像时，环境中的照明不均匀或是感光器件本身的不均匀响应，都会使得到的

21、场景图像中存在一定程度的光照不均。这第1章绪论会导致图像的颜色失真，一些视觉特征的退化，从而影响了图像中文本的检测、分割以及识别的准确性。（3）图像模糊/退化。拍摄过程中拍摄位置的不稳定，以及相机对焦等问题, 会造成图像的模糊、质量退化。此外，图像的压缩、解压缩处理也会带来图像质量的退化。这种情况会使导致图像中文本锐度的降低，并且有可能引入粘连字符, 从而增大某些重要任务比如文本分割的难度。（4）文本本身的多样性。首先，场景图像中的文本具有多样的宽高比，例如，交通标志上的文本通常很“短”，而报刊杂志上的文本通常较“长二因此，文本检测算法需要考虑到这些多样性來匹配不同宽高比的文本，这会

22、使算法设计的难度大大增加。第二，场景图像中的文本除了水平的，也可能是倾斜的，甚至是弯曲的。这就使文本检测算法面临更大的挑战，往往一个适用于水平文本的检测方法在检测倾斜、弯曲文本的时候效果会很差。第三，语种多样性。比如，拉丁语拥有几十种字符，而像汉语、日语等语种拥有成千上万种字符；阿拉伯语通常存在粘连字符，等等。综上，场景文木检测和识别有着巨大的应用价值。同时，由于该任务面临很大的挑战，所以又有着相当大的研究价值和研究空间。一般来说，关于自然场景图像文本的研究主要集中在场景文本的检测和识别这两个方而，本文的研究工作则主要侧重于文本检测这一方而。1.2国内外研究现状近年来，越来越多的

23、高校和科研机构都参加到了场景文木检测领域的研究中来。在国内，如中科院大学，北京科技大学，华中科技大学等高校，百度IDL, 腾讯优图，三星研究院等研究机构；在国外，如牛津大学，康奈尔大学等高校, 谷歌，MSRA等研究机构等，均有长期从事场景文本检测方面研究的人员，也不断有新的方法被提出。类似于计算机视觉领域的其他任务，场景文本检测要解决的一个核心问题是 “表征”（representation）。简单来讲，表征”是指通过怎样的方式、方法来对自然场景图像中的文本和非文本（背景）进行描述和建模。也就是通过找到场景图像中文本区域和非文本区域的特征，将图像中的这两种区域区分开来，从而达到将文木检

24、测出来的目的。这里按照对文本特征的建模方式，将场景文本检测的方法分为两类：采用人工设计特征的传统方法和采用深度网络自动学习特征的基于深度学习的方法。1.2.1传统方法在传统方法中，文本的特征基本上是人工设计的。检测算法依照这些设计好的特征，将场景图像中符合这些特征的区域认为是文本区域，从而与非文本区域区分开来。下面按照人工设计特征的不同种类分别介绍相关的研究工作：(1) 颜色特征：该特征基于假设图像中的文本拥有连续且可与背景形成对比的颜色。相关的方法例如：将颜色特征结合聚类方法得到连通体利用一些特殊颜色空间如HSV空间，HLS空间9中的颜色特征，等等。(2) 边缘/梯度特征：该特征基

25、于假设一一文本与背景之间存在较强的梯度变化。该特征常与一些分类器比如人工神经网络】4、AdaBoost等结合使用，来做基于滑动窗(sliding window)的文木检测。(3) 纹理特征：图像中的文本较为密集时，文本可以被视为一种纹理(texture) 场景文本检测中常见的纹理特征包括傅立叶变换，离散余弦变换，小波变换，HOG特征等。纹理特征也经常用于结合分类器和多尺度滑动窗做文本检测。(4) 笔画特征：利用该特征的一个典型方法是笔画宽度变换法(stroke width transformation, SWT) l20J,该方法通过一种图像算子将输入图像转化为一张特征图，该特征图表

26、示原图中每个像素最有可能被包含的笔画的宽度。该方法具有同时期方法中较为出色的表现，之后被广泛引用和改进也。(5) 区域特征：最具有代表性的是最大稳定极值区域(Maximally Stable Extremal Regions, MSER),由于其较高的有效性，在近年来的场景文本检测工作中被广引用”,24,25。它充分利用了场景图像中，文本区域通常与背景存在显著的色彩对比，并且趋于形成一种稳定的、同质的色彩区域这一普遍现象。1.2.2基于深度学习的方法在自然场景图像中，文木和背景均有很大的多样性和复杂性，仅仅利用上述的一种或几种人工设计特征进行场景文本检测，鲁棒性往往并不理想。近年来随

27、着深度学习的复兴，尤其自2012年起，深度卷积神经网络(DCNN)在图像识别、冃标检测等计算机视觉任务上开始取得巨大成功MJ这很大程度上得益于深度网络强大的特征学习能力。与人工设计特征相比，深度网络在大规模数据集上自动学习到的特征往往具有更高的判别力和鲁棒性。在场景文本检测领域，越来越多基于深度学习尤其是基于DCNN的方法被提出。这一部分主要介绍基于深度网络的场景文本检测的工作。在这之前首先介绍基于DCNN的通用冃标检测研究现状。R-CNN27是利用DCNN进行通用冃标检测的一项开创性工作：先提取图像中目标的候选区域(objectproposal) I2S,然后用CNN模型逐一地

28、对这些候选区域进行分类。该方法的准确率在当时达到领先水平，但缺点是非常耗时。FastR-CNNl29在RCNN的基础上进行改进，通过共享特征图(feature map)的方式大大提高了整个框架的速度。此后，Faster R-CNN1301 引入了区域候选捉取网络(Region Proposal Network, RPN),将 object proposal 环节整合到CNN中，进一步提高了整个框架的速度。YOLO】则将冃标检测作为一个回归问题来处理：将整张图像作为输入，在CNN最高层feature map 直接预测冃标的包围盒和对应的分类置信度。该框架达到了很快的检测速度，但在一定

29、程度上牺牲了准确率。SSD32则结合了 Faster R-CNN和YOLO各自的优点，直接在CNN多个不同的feature map上分别形成若干锚盒”(anchor box) l29J, 然后对每个anchor box进行分类和位置、形状回归。该框架在具有较快速度的同时也保留了相当的准确率。受通用目标检测领域研究的启发，近期有很多基于DCNN的场景文本检测方法提出，并逐渐成为该领域的主流。Zhang等人提出了一个基于全卷积神经网络(fully convolutional network, FCN)的检测框架，由两个FCN构成，一个用于预测文本的显著性图(saliency map),结

30、合MSER来预测图像中的文木行区域；另一个FCN用于预测图像中每个字符的中心以排除错误正例。Zhong等人提出的方法基于FasterR-CNN,他们将RPN改进为Inception-RPN,采用多个尺寸的卷积核共同预测文本候选区域，用来解决文本形状、宽高比具有多样性的问题cMa等人El提出了一个用于检测多方向场景文本的方法，基于Faster R-CNN, 他们将RPN部分进行改进，使它可以提取倾斜的、带角度的文本候选区域，然后通过兴趣区域池化(Rolpooling)得到的特征对每个候选区域进行分类和包围盒回归。Jiang等人E利用RPN提取轴对齐文本proposal,结合不同尺寸的

31、Rol Pooling来提取区域特征，通过多任务损失使网络可以同时学习对proposal进行分类，将其回归成轴对齐矩形框和带方向矩形框这三种任务，使该方法适用于检测多方向文本。Liao等人卩提出的场景文本检测框架TextBoxes则基于SSD,文本检测在CNN的多个feature map上同时进行，先在这些feature map的每个位置上产生一组缺省盒(default box),然后通过卷积层直接对每个default box进行分类和包围盒回归;该方法还对SSD进行了若干针对于场景文本检测的改进。工作37提出的方法同样基于SSD,作者将default box设计成不规则四边形，使

32、该方法适合检测多方向的文本。在工作38中，文本检测同样是在CNN的多个 feature map上进行，不同的是，文本检测不是基于default box机制，而是在feature map的每个位置上，通过卷积层岚接对该位置进行文木置信度打分，以及预测该位置与其所在的文本四边形每一条边的距离。最近，Shi等人39提出的方法将文本检测分解为两部分即segments和links,前者是多方向的包围盒，包含着一个单词或是一个文本行的一部分，后者是两个segment之间的关系，表示两个 segment之间是否属于同一个单词或文本行。该框架将输入图像的segments和 links同时预测出來，经过

33、后处理得到最终的检测结果。除了借鉴通用物体检测领域的思想，将场景文本检测视为一种特殊的物体检测之外，在一些工作中，还引入了在机器翻译等领域获得成功的“注意力机制(attention mechanism) ”来解决场景文本检测问题。在40中,通过训练一个空间变换网络(spatial transformer network, STN)作为注意力机制，用产生的采样网格来定位场景图像中的文本区域。在42中，注意力机制由一个循环神经网络(recuiTent neural network, RNN)来实现，在 RNN 的每一个时间步(time step) 上，都会产生一个注意力区域，表示当前时间需

34、要关注输入图像中的某个区域，即字符区域，该机制可以处理不规则、弯曲排列的文本。在当前的自然场景文本检测研究领域，基于深度学习的方法已经代替了基于人工设计特征的方法，成为该领域的主流。目前该领域所面临的的主要问题有：(1) 多方向，弯曲的以及不规则排列的场景文本检测较为困难。(2) 多尺度文本，尤其是小文本的检测性能有待提升。(3) 大多数检测方法需要依靠大量人工标注文本位置的场景文本图像数据集, 不依赖昂贵标注的弱监督检测方法较少有人研究。(4) 大部分研究目前集中于拉丁文检测，而针对诸如汉语、口语、阿拉伯语等语种的文本检测检测研究则相对较少，面临的挑战也更大。1.3主要工作和贡献本文的

35、主要工作是基于深度卷积神经网络来研究场景文本检测问题，提出相关算法。总体来说，本文工作包括两部分：(1) 针对多尺度场景文本检测尤其是小文木检测，提出一个基于特征金字塔的场景文本检测框架。该工作的主要贡献包括：提出了一个基于CNN的新的检测框架，可以用于检测自然场景图像中多种尺度的文本，且可以端到端训练；特征金字塔机制首次被应用到场景文本检测中来，通过自顶向下的特征融合方法， CNN中不同层次的特征被充分结合起来，使得到的特征既拥有较强的判别力，又保留了较多图像中的局部特征，文本检测则在这些新特征上进行。该框架在 ICDAR20I3 数据集上达到了 87.6%的 F-scoreo(2

36、) 尝试提出一种基于弱监督的用于场景图像中文本proposal的方法。该工作的主要贡献包括：首次将弱监督方法应用到场景文本检测中来，利用通过弱监督训练得到的CNN模型来产生场景图像中可能存在文本的区域；改进Zhou等人提出的模型，引入空间金字塔池化来提升模型的效果；利用CNN中多个不同层的特征共同产生文本注意力区域使模型达到更好的效果；模型可以接收任意大小的输入图像尺寸，提高了模型对于场景文木的尺度不变性。作为一种弱监督方法，该方法在ICDAR2013和ICDAR2015两个数据集上达到了较高的proposal 召回率，达到了与一些监督方法相当的效果。1.4论文结构安排第一章，绪论

37、。简要介绍本文所做工作的背景与意义。然后，总结国内外相关研究现状，介绍本文工作的内容和贡献。最后归纳研究内容与文章组织和安排。第二章，目标检测技术基础。木文关于场景文本检测的研究大部分建立在通用冃标检测的工作基础之上，因此这一章对通用冃标检测领域一些较为重要的方法进行回顾和介绍，并对它们与场景文木检测方法的关系进行反思。第三章，基于特征金字塔的场景文本检测。这一章对我们提出的基于特征金字塔的场景文木检测框架进行详细介绍，其中包括框架结构，其中的技术细节, 以及在ICDAR2013数据集上进行的多组实验等。第四章，基于弱监督的场景文本注意力网络。这一章对我们提出的基于弱监督的场景文本候

38、选提取方法进行详细介绍，主要包括基于弱监督的场景文本注意力网络的结构、技术细节。还介绍了该方法在ICDAR2013和ICDAR2015数据集上进行的多组相关实验。最后，结论。总结本文在自然场景文本检测工作上的贡献以及创新点，并指出当前工作的局限性，同时对该研究领域下一步的发展方向进行展望。5第2章目标检测技术基础第2章目标检测技术基础如第一章所述，借鉴通用目标检测领域的思想和方法，将场景图像中的文木视为一种特殊类型的冃标来进行检测，是当前场景文本检测领域的一种重要思路。而木文在场景文木检测方面的工作也大部分建立在通用目标检测技术的基础之上。因此作为技术基础，本章将对通用冃标检测中较

39、为重要的两套方法一一R- CNN系列方法以及SSD进行回顾和介绍，这两套方法所采用的目标检测思路和其中的技术细节对文本方法的设计具有重要意义。2.1 RCNN系列方法作为通用物体检测领域的开创性方法之一，R-CNN (Region-basedCNN)系列方法27,29,30自提出后就被不断地引用、改进并应用于各种计算机视觉任务上。按照提出的先后顺序，该系列包括R-CNN, Fast R-CNN和Faster R-CNN三种。这一节将对这三种方法做一个回顾和介绍。2.1.1候选目标区域提取所谓冃标候选区域提取，即object proposal (以下简称为proposal),是以一张图

40、片作为输入，输出一定数量的矩形包围盒，对应着输入图像中的一个个区域，代表待检测目标可能出现的区域，即“候选”目标区域。目标检测任务的一个基本假设是，一张图像包含两种成分，一种是“前景” 即日标区域，另一种是“背景”即非目标区域。显然，目标的种类可以有多种，以PASCAL VOC剛目标检测数据集为例，图像中岀现的目标包括20种，如人、火车、狗等类别；同时，背景也可能有很多类，如天空、道路、海洋等。但对于 proposal来说，其任务仅是将图像中所有可能为目标的区域找出，而不区分这些区域具体属于哪一种子类，同样，排除掉的是所有可能为背景的区域，但不区分这些区域屈于哪一类背景。一般把pro

41、posal的这种特性称为“类未知(class- agnostic)-的，即算法本身仅能大致区分目标与背景这两大类，对于这两大类各自包含什么子类则是不知道的。也将产生的候选区域称为“感兴趣区域(region of interest, Rol)。另外，proposal方法得到的候选区域一般只能较为粗糙地定位到冃标上，且往往仍含有非冃标区域，因此需要在后而的阶段对这些候选区域进行进一步的处理。在R-CNN系列方法中，进行proposal的冃的是尽可能在该阶段排除输入图像中的非目标区域，引导CNN模型去注意含有目标的区域，使整个检测框架的9北京工业大学工程硕士专业学位论文训练、推理更有效率。2

42、.1.2R-CNN图2-1展示了 R-CNN冃标检测流程的主体，可分为如下几步：Proposal.对于一张输入图像，R-CNN采用Selective Search1451方法进行 proposal,产生若干候选区域/? = 尽,心,心。(2) 候选区域缩放。将所有R岸R都缩放为固定尺寸得到R = K , R?，R” (3) CNN特征提取。将每个R,： g R输入一个CNN模型计算特征，每个斤得到一个特征向量。(4) 候选区域分类。对每个特征向量，将其分别输入K (目标类别总数)个支持向量机(support vector machine, SVM)中，每个SVM负责判断当前候选区域是否属

43、于某一特定的类。这一步结束后，得到原始图像所有的目标区域 )= Di, 2,，A，D 二 R。(5) 包围盒回归。将每个DwD对应在CNN模型pool5层的特征输入一个线性模型46进行包围盒回归，得到修正后的冃标区域D = D；,DS(6) 去除冗余检测结果。对于D,逐类别进行非极大值抑制，去除冗余的区域，得到最终的检测结果。缩放后的候选区域1.输入图像2.候选目标区域提取(约两干个)3. CNN提取特征4候选区域分类图 2-1 R-CNNFigure 2-1 R-CNN2.1.3 Fast R-CNNFast R-CNN在R-CNN的基础上做了一系列改进，图2-2展示了该框架的0 标

44、检测流程：(1) Proposal.与R-CNN相同，对于输入图像产主若干感兴趣区域(Rol) R = K , R?，Rm (2) CNN特征提取。将图像输入CNN模型，得到整个图像在CNN最后一个卷积层上的特征巧。(3) 计算Rol的特征向量。将R*R投影到Ff上,得到该Rol对应的卷积特征F&.,将你.通过感兴趣区域池化(RoIPooling)得到池化后的特征，再将该特征经过若干全连接层得到当前Rol的特征向量厶o(4) 预测。将fR输入两个网络分支，一个进行分类，另一个进行包围盒回归。得到所有的检测结果D = 0,2,2。(5) 去除冗余。同R-CNN,通过非极大值抑制去除D中的

45、冗余结果，得到最终的检测结果。softmmx令半句，馬1倉冋1闩图 2-2 Fast R-CNNFigure 2-2 Fast R-CNNFast R-CNN做出的主要改进包括:(1) 降低Rol区域特征的计算量。不必每个Rol都输入CNN做一遍前向传播才能得到对应特征，而是先用CNN计算好整张输入图片的卷积特征，每个Rol 的特征只需在该卷积特征上进行投影就能得到，相当于共享了一张图片中所有 Rol的特征计算。(2) 引入Rol Pooling,不同尺寸的Rol可以不通过缩放大小就能得到相同维度的特征向量。(3) 将特征提取，Rol分类，Rol包围盒回归三个模块整合到同一个网络中, 通

46、过设置多任务损失同时进行优化。不必像RCNN中分开训练这三部分，无需北京工业大学工程硕士专业学位论E将中间特征存储到硬盘上(R-CNN中用存储的特征来训练SVM) o上述改进使整个检测框架的训练、测试过程更加简洁、高效了。下而对Fast R-CNN中的两个重要部分进行介绍。(1) RoI Pooling.这种池化方式的作用是，将任意大小的Rol投影到卷积feature map上的区域特征都转化为一个尺寸为HxW的小feature map,其中H和 W均为超参数。具体做法是：对于卷积feature map F 一个的矩形Rol区域，将该区域划分为HxW个尺寸为(h/H)x(w/W)的矩形格子，

47、然后在每个格子中进行最大池化得到对应特征值(池化在每个通道单独进行)。这样，假设F 通道数为C ,通过Rol Pooling可以将该feature map上任意大小的Rol转化为一个HxWxC的小feature map可将F送入全连接层进行后续处理。(2) 多任务损失。Fast R-CNN中将Rol的分类和包围盒回归通过网络末端的两个分支实现，并且这两个分支在训练中通过一个多任务损失同时进行学习。假设每个Rol对应的类别标签(ground-truth)为u ,对应的包围盒标签为#,那么对于每个Rol都有一个多任务损失厶，如公式(21)所示。L(p, u, f, v)二 L&(p, u

48、) + au 1 LIoe(t v)(2-1)其中Lelsu) = -ogpl(为分类损失，卩为分类预测输出，采用了正确类的对数损失。S为包围盒回归损失。严=(斗，龙)为对正确类的包围盒预测输出，各个元素的定义见公式(22),其中为预测的包围盒中心点坐标和宽、高，(迅h,胪)为Rol的中心点坐标以及宽、高。可见，包围盒回归分支输出的并不是包围盒真实的坐标和宽高，而是它们的一个变换，这样做是为了使冋归过程对尺寸和位置具有不变性。同样，标签v = (vv,vv,vHv/?)也经过了同样的变换，见公式(2-3),其中(x*, y , w*,/? )为ground-truth包围盒的中心点

49、坐标和宽、高。氐的定义见公式(2-4),其中对每个预测值都采用smooth-Ll损失，其定义见公式(2-5) o相比于R-CNN的包围盒回归中采用的L2损失，smooth- Ll 损失的好处在于它对离群值的敏感性更低，可以更好地防止梯度爆炸。u为指示函数，当“ni时其值为1否则为0.也就是说，当Rol被判定为背景时，忽略其回归损失。兄为平衡因子，是一个超参数，用于控制分类损失和回归损失的平衡。Fast R-CNN这种损失函数的设计，在通用物体检测领域后来的工作中被广io第2章目标检测技术基础17(2-2)(2-3)(2-4)(2-5)泛应用，在本文提出的场景文本检测模型中也使用了这种损

50、失函数。V十一尢打/屛,vvz： = log(),vvVx=(X-XR)/wR9vv=(Z-/)/A*Vv 二 bg()，wvh = og 法)Sc(广宀)= 工伽a% -气.)f 0.5/,ifxsmooth.= I x| -0.5, otherwise2.1.4 Faster R-CNN在Fast R-CNN中，整个框架的速度瓶颈出现在目标proposal环节。尽管像 Selective Search宙,EdgeBoxes这些技术已经尽可能地利用图像中的低级特征进行低成本的计算，但在Fast R-CNN中，利用它们进行proposal仍然占用了整个框架大部分的计算时间。Faster R

51、-CNN引入的最重要的改进就是将proposal环节整合到CNN中，让 proposal环节与检测网络共享计算，也就是用深度网络来进行proposal,这个用于 proposal 网络被命名为 RPN (Region Proposal Networks)。整个Faster R-CNN框架由两个部分构成，一个是用于proposal的深度全卷积网络即RPN,另一个是利用RPN产牛的Rol进行目标检测的检测网络。图2 3描述了 Faster R-CNN的工作流程。输入图像通过CNN计算出整个图像的卷积 feature map, RPN 在该 feature map 上进行 proposal,产生

52、若干 Rol；这些 Rol 输入检测网络，经过Rol Pooling得到特征，进而进行分类和包围盒回归，得到最终检测结果。可见，RPN与检测网络共享了特征提取的计算。下面对RPN进行详细介绍：候选区域输入图像feature maps图 2-3 Faster R-CNNFigure 2-3 Faster R-CNNRPN的输入是一张任意大小的图像，输出是若干proposal矩形包围盒，每个包围盒带有一个包含目标的分数。首先,图像输入特征提取网络（如VGG16的所有卷积层）计算特征；在最后一个卷积层得到的feature map ,滑动一个几xn 的滑动窗；滑动窗每到一个位置，都会将该区域的

53、feature map映射到一个低维的特征向量将/输入两个分支，一个进行分类，一个进行包围盒回归。滑动窗到达的每个位置，都会同时预测k个proposal,因此分类分支在该位置会输出 2R个分数，对应每个proposal 于冃标区域或背景区域的分数，回归分支输出 4k个值，对应每个proposal的坐标。RPN预测proposal基于锚盒（anchorbox）机制：在每个滑动窗的位置，会以滑动窗的中心点为中心，在输入图像的对应位置上产生个预先设计好的不同尺寸、宽高比的矩形包围盒，即anchor boxo若输入feature map尺寸为HxW , 则在原图上共有丹肱个anchor box

54、 o而上述分类、回归分支的作用是根据特征向量/，判断每个anchor box是否属于目标区域，并H调整其位置、形状。图24 描述了 RPN的这一过程（图中以/1 = 3, = 4为例）。在实现上，兀xn的滑动窗由一个2的卷积层来实现，输出结果包含每个位置得到的分类、回归分支则分别由两个1x1的卷积层来实现（每个滑动窗位置共享参数）。损失函数方面，RPN这两个预测分支采用和Fast R-CNN中相同的损失函数（公式（2-1）,其中包围盒回归输岀的编码方式也与Fast R-CNN 相同（公式（2-2） ,（2-3）） o2kg类疑妇4k个回归值原图上的kanchor box低维特征向屋图

55、 2-4 Faster R-CNN 中的 RPNFigure 2-4 RPN in Faster R-CNN2.2 SSDRCNN系列方法的基本流程可概括为三步：(l)Proposal得到若干Rol, (2)计算Rol特征，(3)利用特征对Rol进行分类、包围盒回归。该流稈在检测精度上达到了领先的水平，但在检测速度则上不能达到实时处理的要求。而SSD (Single Shot MultiBox Detector)词中提出的一系列改进使目标检测框架的速度达到了较高水平而又不至于像YOLO为了速度而牺牲检测精度，这些使SSD成为了目标检测领域又一个经典的框架。SSD中最重要的思想是去除了

56、R-CNN系列方法中的第和第步，即不需要产生Rol和提取Rol特征，而是通过一个CNN的一次前向传播就能够输出冃标检测结果，这也是其名字中single shot”的来源。图2-5描述了 SSD的检测流程。一张图片输入CNN计算特征，CNN中K 个不同层的feature map (图中以K = 4为例)会与检测模块相连。每个检测模块会根据其输入的feature map进行冃标检测并输出检测结果，来自不同检测模块的检测结果被汇总到一起，经过非极大值抑制得到最终的检测结果。SSD每个检测模块的输入是网络中某一卷积层的feature map,输出是若T包围盒，毎个包围盒对应着c个分类分数(c

57、为目标总类别数)。检测模块的工作机制与Faster R-CNN中的RPN相似：斤的滑动窗在feature map 滑动，每个滑动窗的位置都在原图上关联着k个预先定义好的不同形状的包围盒，SSD中称为缺省盒(default box)；在滑动窗的每个位置，对该位置关联的所有default box 进行c类分类、包围盒回归。其中，分类由X/2卷积层实现，输出通道数为伙，后接softmax；回归由/lx总卷积层实现，输出通道数为4R。Figure 2-5 Detection pipeline of SSD与R-CNN系列方法只在CNN最高层feature map上进行检测不同，SSD在 CNN中多个不同层的feature map上

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于深度学习的场景文本检测的研究

文档简介

温馨提示

最新文档

评论

基于深度学习的场景文本检测的研究

文档简介

温馨提示

最新文档

评论

相关文档