付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模式识别英文文献阅读(0504)Image Retrieval using Textual Cues2013302590047川1.概要本文介绍了一种基于图像中文字信息的图像检索办法。尽管,根据科学家们近期在理解图像中文字方面取得的成就,一种有可能解决文字信息检索图像问题的方法是,先定位文字,再理解它,最后询问数据库。证明了这种基于“se-of-the-art”的方法是的;并且提出了一种不依赖于具体的定位识别过程的方法。作者们采取了一种“询问驱动”的检索方法,先找到搜索文本中的元素的大致位置,然后利用空间约束关系在数据库中生成一个排好序的图像表。作者用这种检索方法在三个大型的公共影像数据集(I
2、IITscene text retrieval, Sports-10K and TV series-1M)上进行了测试。2.背景和意义背景2.1据估计在过去的 12 月中产生了超过三万八千亿张,其中有百分之十的是由人性的问类拍摄的。在信息量增长如此迅速的情况下,检索相关信息成为了一个相当有题。识别图像或中文字信息近年来已经得到了计算机视觉领域科学家们巨大的关注,尽管在任意场景中定位识别文字信息可喜的成就。2.2 意义相关工作基于文字定位与识别的方法还远没有被解决,人们已经取得了一些在这种思路中,一旦文字被定位/识别,那么对于图像的检索就等价于对文字的检索。为了对这一思路进试,作者分别采用了 i
3、)ann and Matas 的方法定位/识别文字以及 ii)通过 SWT 的方法进行定位并通过 Mishra 等人的方法进行识别,然后作者将识别出的文字信息录入数据库中,输入查询信息并将根据最小编辑距离进行排序。实验结果显示这两种方法都不能达到很好的效果。原因如下:1.在定位/识别过程中丢失的信息是不可逆的。2.这种识别方法不是询问驱动的,没有充分利用识别器中次好的预测。3.视点、照度、字体的变化导致了定位/识别过程的确。总而言之,这种思路严重的依赖于定位与识别的表现,使其在算法过程中易受影响。End-to-end scene text recognition这是一种可以在图像中标记出若干个
4、(小于五十个)字库中词汇的方法。这种方法不依赖于精确的定位,但是严重的受制于字库的大小。作者证实了这种方法不适用于本项研究。基于检索相似视觉信息的方法这种方法多应用于“以图搜图”的检索中,并不能确定在“以文搜图”中它能发挥多大的作用,因为文字有可能以多种风格出现。3.4基于元和图中上下文信息的方法这种方法是以文字作为检索条件的,应用于谷歌元与上下文文字信息的质量。3.5基于视觉相似区域的方法搜索。这种方法的可靠性受制于这种方法是以作为检索条件的,应用于谷歌。尽管这种方法利用了视觉内容,它有可能并不充分。4.为了实现通过文字查询检索图像的功能,作者用了三个具体的步骤:1.检测数据库中中的所有字符
5、,得到文字的潜在位置。2.在图像中定位检索词中的字符,根据字符的出现计算指数。建立一个包含id 和指数的反向指标文件。3.利用字符顺序约束和位置约束,对前 n 项检索结果进行重排序。4.1 定位潜在字符这是一个离线过程,也是图像检索的第一步。该过程不要求得到字符的精确位置,只需要得到许多潜在的字符窗口,甚至这里面会有一些假窗口存在。为了实现这一点,作者用 HOG 特征训练了一个线性 SVM 分类器。为了增强使用滑动窗口进行字符定位的鲁棒性, 需要一个强大的分类器。分类器的性能受制于训练样本的缺乏,为了解决这一点,提供了小型的原始字符图像的仿射变换,甚至是加入了许多的样本。使用了基于多尺度滑动窗
6、口的分类器。首先,对于任意窗口 i,使用Platts method 计算似然概率 P(li|hogi),其中 li 属于字符集 K,K 包含了英文字符(A- Z, a-z),数字(0-9)和一个背景类(共 63 维);hogi 表示从窗口 i 提取的 HOG 特征。然 后,作者运行字符细节的非最大值抑制(NMS)算法来删除弱窗口。最后,作者将这个 63 维的向量通过舍弃背景类和取大写字母与小写字母的平均值变换为 36 维向量(包括对 26 个大写或小写字符和 10 个数字字符的似然概率)。4.2 指标化一旦完成字符的检测,就对数据库在一定的检索词(已知)下进行指标化。首先,为了移除一些字符窗口
7、,建立一个图,每一个被检测到的字符都是一个节点,空间上相邻的字符被边连在一起。然后通过上下文信息,窗口尺寸和空间距离移除一些边,移除标准中的阈值通过训练样本获得。最终独立的节点将会被移除。上述图中的每一个节点都有一个 36 为的特征向量,同时为每一条边计算联合概率,即一个 36*36 的矩阵。假设在图像 Im 中对检索词中的某一词 Wk 进行指标化。首先将图像分为每一条高度都为 H 的水平带。一旦检错词条中的的每一个词都在库中的每一个图像上检索过之后,就建立一个包含图像 id,检索词以及检索指数的反向指标文件,同时将图像与其对应的图结构也存入指标数据库中,用于后面的重排序。4.3 检测和重排序
8、上述的过程不能保证图像中所有的字符是以正确的顺序及位置排列的,因此需要进行重排序。基于空间顺序的重排序(RSO):令total = Wk1,Wk1,Wk2, Wkp 为检索词的集(包含前后空格),同时生成一个包含空间上前后字符的当前词的集。计算指数如下,如果指数等于一,则当前词即为检索词。按此方法对检索结果进行重排序。基于空间位置的重排序(RSP):利用前述中生成的图计算一个表示字符间空间位置关系的新指数如下。指数高说明当前词与检测词之间有着较高的似然概率和空间位置的相似性。按此方法对结果进行重排序。实验结果与评价字符分类结果作者分别在 ICDAR-char,Chars74K 和 SVT-ch
9、ar 数据集上测试字符分类表现,参与测试的算法有 FERNS 算法,RBF 算法,MKL+RBF 算法以及 HOG+inear 算法。(作者提出的)经过检测显示,作者算法在取 13 维 HOG 特征的情况下,牺牲了小量的精度获得了处理时间上的极大缩短,最终被作者采用。5.2 检索结果作者首先在SVT,ICDAR2011和IIIT STR数据集上,通过定量的mAP方法测试检索表现。显示,最初的字符定位步骤的检索效果与其他方法相当,而作者重排序方法对于检索结果有着极大的提高。在IIIT STR数据集上的良好表现说明了该方法不仅适用于不同的视点以及字体,而且有着较强的鲁棒性。为了验证该方法的可拓展性
10、,作者又在两个大型的数据集上进行了测试。作者提出的指标化过程是的处理百万张的时间降低到了3秒,但低分辨率以及牌上奇特的字体,使得在Sports-10K数据集上的检测精度稍低。6.优缺点优点6.16.1.1 字符定位中图的数据结构。作者在进行第一步字符定位的过程中,创新性的引入了图的数据结构,每一个被检测到的字符都是一个节点,空间上相邻的字符被边连在一起。这使得在字符定位环节对定位精度的要求降低了,而这种数据结构又可以服务于后续的重排序过程。6.2缺点6.2.1 只能识别水平文字。该方法尚不能应用于检测出一个单词中的字符不是水平排序的情况下。6.2.2 检测的精度有待提高。尽管作者重排序方法是的检测的精度有了大幅度的,但作中的检测精度还
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论