




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)复杂背景图像中的叠加文字提取技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 图像和视频中的文字包含有丰富的语义信息,是理解图像和视频内容的重要线索, 提取和识别这种图像文字对于图像理解、视频内容分析、基于内容的图像和视频检索等 领域具有重要意义。由于图像和视频中的文字通常叠加在复杂的图像背景之上,背景成 分的干扰使得现有的o c r 技术难以识别出文字,因而如何从图像的复杂背景中提取出 文字成为一个有必要研究的问题近年来,这一问题丌始受到广泛关注,并取得了大量 的研究成果,但由于区分文字与复杂背景的困难性,该问题还远没有得到完美解决。 针对以上问题,本论文主要围绕如何充分利用文字的各种特性更鲁棒地从复杂背景 图像中分割出叠加文字、去除残余背景进行了研究,并对使用文字的笔画特征来区分文 字区域与复杂背景区域进行了尝试。本文研究取得的主要研究成果包括: 1 提出了一种基于文字颜色和尺度信息的鲁棒的文字分割算法。利用文字的边缘 特性设计采样规则,能够更准确地估计文字的颜色,并利用文字笔画的尺度特性,能够 更有效地去除尺度不同于文字的复杂背景区域。 2 提出了一组启发式约束条件,更严格地刻画了分割后的文字区域与残余背景区 域在颜色、边缘、尺度以及空问关系上的区别,能够有效地去除范围相当广泛的残余背 景,大大降低了残余背景对o c r 识别的负面影响。 3 对使用汉字的笔画特征从复杂背景图像中提取和确认候选文字区域进行了初步 研究,验证了笔画线条的统计特征对于文字区域与复杂背景区域的区分能力。 关键词:图像文字提取,文字检测,文字分割,残余背景去除 r e s e a r c h0 0o v e r l a yt e x te x t r a c t i o nf r o mi m a g e sw i t hc o m p l e xb a c k g r o u n d f ul i b o ( c o m p u t e ra p p l i c a t i o n ) s u p e r v i s e db yw a n gw e i q i a n g t e x ti ni m a g e sa n dv i d e o sc a r r i e sp l e n t yo fs e m a n t i ci n f o r m a t i o nu s e f u lf o ru n d e r s t a n d i n gt h e c o n t e n to fi m a g e sa n dv i d e o s t h u s , i tm a k e st e x tr e c o g n i t m nv e r ys i g n i f i c a n tf o ru n d e r s t a n d i n ga n d r e 廿e v a lo fi m a g e sa n dv i d e o h o w e v e r , t e x ti su s u a l l ye m b e d d e di nc o m p l e xb a c k g r o u n do fi m a g e s , w h i c h m a k e sd i r e c to p t i c a lc h a r a c t e rr e c o g n l u o na l m o s ti m p o s s i b l e t h e r e f o r e , i tb e c o m e s n e c e s s a r yt o e x t r a c tt e x tf r o mc o m p l e xb a c k g r o u n db e f o r er e c o g n i t i o n i nt h el a s td e c a d e s , m a n ye f f o r t sh a v eb e e n d e v o t e dl od e v e l o p i n gc f f c c t i v ea l g o r i t h m st oe x t i a c tt e x tf r o mc o m p l e xb a c k g r o u n di ni m a g e sa n d v i d e o h o w e v e r , t h es t a t e - o f - t h e - a r to ft e x te x n a c t i o ni sf a rf r o mp e r f e c td u et ot h eg r e a td i f f i c u l t yi n d i s c r i m i n a t i n gt e x tf r o mc o m p l e xb a c k g r o u n dc o m p l e t e l y i nt h i st h e s i s , m yr e s e a r c hw o r ka i m st oi m p r o v et h e 非d | 讲t 舭o ft e x te x t r a c t i o nf r o mt w o 弱p t ,c t s :i n o r er o b u s tt e x ts e g m e n t a t i o na l g o r i t h mu t i l i z i n gh y b r i di n f o r m a t i o na n de f f e c t i v e p o s t - p r o c e s s i n gt e c h n i q u e st oe l i m i n a t eb a c k g r o u n dr e s i d u e s t h ef e a t u r e se x t r a c t e df r o ms t r o k e so f c h a r a c t e r sa r ee x p e r i m e n t a l l yc h e c k e dt oe v a l u a t et h e i rf e a s i b i l i wi nd i s c r i m i n a t i n gt e x tr e g i o n s 丘o m c o m p l e xb a c k g r o u n dr e g i o n s ,t h em a i nc o 棚b 嘶o n so f t h et h e s i si n c l u d e : 1 a r o b u s tt e x ts e g m e n t a t i o na t g o n t h mi sp r o p o s e db a s e do i lh y b r i di n f o r m a t i o no f t e x ts u c ha s c o l o ra n ds c a l e i tc a ng e n e r a t eam o r ep r e c i s ee s t i m a t i o no f t e x tc o l o rv i at h es m a r ts a m p l i n gn e a rt h e e d g e sa r o u n dt e x la l s o , b yu t i l i z i n gt h eh y b r i di n f o r m a t i o n , i tb e c o m e sn x i 佗e f f i c i e n ti nr e m o v i n g c o m p l e xb a c k g r o u n dr e g i o n s c o m p a r e d 、i mm o s te x a s t i n ga l g o r i t h m s 2 ag r o u po fh e u r i s t i cc o n s t r a i n t sa r ed e s i g n e dt oe l i m i n a t eb a c k g r o u n dr e s i d u e sa f t e rt e x t s e g m e n t a t i o nb a s e do nc o l o r , e d g e s , s c a l ea n dt h es p a t i a lr e l a t i o no f c o n m c t e dc o m p o n e n t s , w h i c hc a n e f f e c t i v e l ye l i m i n a t eam d er a n g eo f b a c k g r o t m dr e s i d u e sa n dc a nb eu s e di nv a r i o u st e x ts e g m e n t a t i o n a l g o r i t h m s 3 an e wt e x td e t e c t i o nm e t h o df o rc h i n e s ed f l j i r a c 雠i sp r o p o s e d i tu t i l i z e st h ef e a t u r e s e x h a c t e df r o ms t r o k e st od t f f e r e n t i a t et e x tr e g i o n sf r o mc o m p l e xb a c k g r o u n dr e g i o n s , a n dt h er e l a t e d e x p e r i m e n t ss h o wt h a tt h er 跚f e a t u x e sa ee f f e c t i v e k e y w o r d s :t e x te x t r a c t i o nf r o mi m a g e s ,t e x td e t e c t i o n , t e x ts e g m e n t a t i o n , b a c k g r o u n dr e s i d u e s e l i m i n a t i o n i 图1 1 图像文字提取的一般框架 图目录 图1 2 自底向上的图像文字提取框架 图2 1 包含有复杂背景的文字块示例 图2 2 基于颜色和尺度信息的文字分割算法框架 3 1 5 一图2 3 边缘检测和采样的结果1 6 图2 4 在边缘附近采样的示意图1 6 图2 5 样本集合的颜色直方图 图2 6 估计像素尺度时的搜索方向 图2 7 尺度图像示例 图2 8 用于计算联合概率的像素邻域 图2 9 二值化之后的候选文字层 图2 1 0 经过后处理的两个候选二值文字层 图2 1 l 文字分割的一些结果 图2 1 2g m m 的核函数个数k 取不同值时的分割结果 2 4 图2 1 3 样本集的似然函数值随g a u s s i a n 核函数个数k 的变化曲线2 5 图3 1 复杂背景文字块的分割结果示例 图3 2 沿法线方向寻找颜色差分最大的位置的示意图 图3 3 连通分量的最大连续厚度( m c t ) 分向示意图 图3 4 连通分量之日j 的空日j 关系 图3 5 后处理的分步结果 图3 6 二值文字层在后处理 口后的对比 图4 1 文字检测算法的框架图 图4 2 文字块粗定位的一般步骤 3 3 v 3 6 复杂背景幽像中的破加史7 提取技术研究: 幽目录 图4 3 四个方向上的5 5 线段检测算子 图4 4 线段检测的结果 图4 5 被检出线条的区域分布直方图 图4 6 对原文字块进行窗口切分示例4 l 图4 7 根掘笔画线段提取候选文字块示例 图4 8 候选文字块提取与确认的一些结果 图4 9 字符漏检率与误检率随扫描窗口大小的变化曲线 v i l l 4 3 表2 1 文字分割算法的性能比较 表3 1 后处理自口后的性能比较 表目录 表4 1 算法在两组视频帧上执行的性能 2 3 3 4 4 4 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特j j o d l :i 以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:竹动良 日期:- 占,2 , 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书 作者签名:竹讶良导师签名:凇h , j u # :洲- 占- ,z 1 1 课题背景 第一章引言 图像或视频帧中常常包含一些文字内容,图像文字提取与识别( i m a g e t e x te x t r a c t i o n a n dr e c o g n i t i o n ) 就是将这些文字提取出来,经过识别转化为纯文本的过程。 近年来,随着计算机技术、多媒体技术和通信技术的飞速发展,以图像、音频和视 频为主的多媒体信息正在迅速成为信息交流与服务的主流。如何从i n t e r n e t 上准确迅速 地找到用户所需的多媒体内容成为只益突出和紧迫的需求。同时,传统的图书馆为了满 足用户对多媒体内容的查询需求,也丌始收藏图像和音视频等内容,因而也需要有效的 方法来组织和检索这些多媒体内容。传统的基于关键字的检索方式一方面由于信息量急 剧膨胀使得抽取关键字变得繁琐而低效,另一方面单纯依靠关键词的检索结果不完整, 不能满足用户的需要,因而基于内容的检索技术应运而生并代之成为主流。 在文本检索方面,自从g o o g l e 等知名搜索引擎的出现,全文检索和w e b c r a w l e r 等 相关技术已经得到长足发展,人们可以很方便地用关键词去查找所需内容的网页、文档 以及用文字标注好的图像和音视频等。而在多媒体检索方面,由于图像、音视频的内容 是非结构化的,如何抽取和描述其内容遇到很大的困难。早期的多媒体检索系统主要依 据图像和视频的低层特征,如颜色、纹理结构、形状以及时序变化等,这些是机器能够 直接感知和容易提取的,也称为感知内容。然而,用户的查询需求通常以语义形式描述, 难以与感知内容相映射,如何从低层特征中抽取出高级语义内容现阶段还存在着根本性 的困难,这个鸿沟是且自h 基于内容的图像和视频检索技术盼关键难点之一 嵌入在图像和视频帧中的文字,是图像语义内容的一种重要表达方式。大量的w e b 图片例如新闻图片、广告画等都通常在其内部嵌以简短的文字柬概括所描述的事件和对 象,以帮助用户快速理解。如果这种图像格式的文字能被自动提取和识别,就可以让机 器来自动理解图片的内容并对图片分类,也就可以借助于已经成熟的文本检索技术用这 些文字来标注和检索图片,从而为基于内容的图像和视频检索提供了一种途径。 图像文字的识别可以借助于现有的o c r 技术。o c r 技术以自动识n - - 维点阵字符 并将其转换为纯文本为目标,经过数十年的发展已经相当成熟,被广泛用于文档扫描。 然而,与文档不同的是,嵌入在图像和视频中的文字通常都带有复杂的背景,而且文字 出现的位置未知,在没有去除背景和二值化之前,现有的o c r 系统难以识别出字符, 因而在提交给o c r 系统之i i 都必不可少地需要一个文字提取( t e x te x t r a c t i o n ) 的过程 这样,如何从复杂背景中提取出图像文字就成为以文字为线索来理解和检索图像和视频 内容的一个关键任务。基于这一应用背景,本文将在现有的研究成果的基础上,就如何 从复杂背景图像中提取出叠加文字进行进一步的研究和讨论 i 中国科学院帧i 学位论文复杂背景图像中的番加史7 提取技术研究 1 2 课题来源与目的 本课题受8 6 3 信息安全技术“网络图像监控关键技术研究”( 课题编号: 2 0 0 3 a a l 4 2 1 4 0 ) 课题支持。 图像中的文字为图像内容的理解和判别提供了依据,针对图像中文字的监控也是图 像监控的内容之一。提取图像文字就是要从图像所包含的复杂背景中快速、准确、鲁棒 的检测出文字区域,并分割出文字笔画,形成现有o c r 系统所能识别的二值文字图像, 然后通过o c r 识别来理解图像的内容并判断图像的类别。为了能够应用于网络监控, 算法在准确、鲁棒和实时性方面都需要有较好的性能 1 3 图像文字提取的相关概念 图像文字提取由于其对于图像内容理解的重要意义j 十多年来已经获得了广泛关注 和持续研究。在这期日j ,研究者们就该问题取得了一些理论上和实验上的共识。本节先 介绍图像文字提取所涉及的内容及其框架,然后对图像文字的视觉特性和提取的可行性 进行简要分析。 1 3 1 图像文字提取的理论框架 图像文字提取本质上是一个模式分类问题,它覆盖了图像处理与图像分析、模式识 别、机器学习、计算机视觉等诸多学科的内容,既是对这些学科的理论与方法的一个现 实的综合性应用,而它的一些未被解决的难题又成为这些学科迸一步的研究内容之一。 嵌入在图像和视频中的文字一般都带有复杂的背景,文字区域占图像面积的比例通 常较小,而且出现的位置不定。为了简化问题的复杂度,现有的方法一般将文字提取过 程分为两个步骤:文字检测( t e x td e t e c t i o n ) 和文字分割( t v x ts e g m a a t a t i o n ) 。检测的目 的是判断图像和视频中有无文字出现,若有则准确地定位出文字出现的矩形区域( 也称 作文字块) 。分割的目的是进一步除去文字块中的背景,提取出文字笔画,并有可能地增 强笔画的质量,以得到o c r 系统能够识别的二值文字图像。这种自上而下的框架如图 1 1 所示。同时也有一些方法例如 j a i n 9 8 】【l i e n h a r t 9 6 s h i m 9 8 等采用图像分割的办法先 将图像分割为区域,然后判别出文字的连通区域并自底向上地合并成二值文字行。这种 方法因为分割在先,定位出文字行之后就无需再作分割,但是也被笼统地称为“文字检 测”或“文字定位”( t e x tl o c a t i o n ) 。这种自底向上的框架如图i 2 所示。本文采用第一 种框架下对文字检测和文字分割的定义,同时对第二种框架下的算法也略作介绍。 文字检测和文字分割都是一个基于统计方式的模式识别过程,前者将图像区域分成 文字区域和背景区域,后者则在文字块内分出文字像素和背景像素。与基于统计方式的 模式识别系统的一般框架相对应,文字检测与文字分割一般也分为特征提取与选择、分 类决策两个核心步骤。特征提取与选择阶段对图像数掘进行各种变换,得到最能反映出 2 第一帝0 i 苦 文字与背景的区分性的特征;分类决策阶段设计分类器对使用特征表示的模式进行分类, 各种模式分类的方法例如b a y e s 决策、决策树以及无监督聚类等都被广泛用到。其中, 特征提取与选择是文字检测与文字分割的主要困难。一方面文字模式随着文字的语言、 字体、j 斌格、颜色以及排列等属性的变化而呈现出多样性,对于文字区别于背景最本质 的特征以及如何提取出这种特征,现阶段还没有一个统一的认识;另一方面在图像模糊、 有一定的信息丢失时,如何保证所选择的特征继续有效也是一个很困难的问题。这些困 难决定了图像文字提取研究的挑战性,也体现了它对于相关学科的理论发展的研究价值。 i 文字检测 尽魂鲤翁瓣 i 文字分割 e 翟翟墨墨囫 l 文字识别 。世界气象日上海举行咨谒活动” 幽1 1 幽像文字提取的般框架 1 3 2 图像文字的视觉特性和提取的可行性 i 文字行定位 囹皿团圆圆雹圆 l 文字删 4 。c o j 诳瑕o m i s 0c o n e l e m p u 的” 幽1 21 3 底向上的幽像文字提取框架 嵌入在图像和视频中的文字按照其产生机理可以分为场景文字( s c e n et e x t ,也被称 为自然文字) 和叠加文字( o v e r l a y t e x t ,也被称为标题文字或人工文字) 两大类 l i e n h a r t 0 3 】 【j u n 9 0 3 。场景文字作为场景的内容之一是自然存在于场景之中的,例如场景中的招牌、 路标、车牌和一些包装物上的文字等。叠加文字则是人为地覆盖在图像和视频帧之中的 注释性文字,例如图片和视频中的标题文字和字幕等。 场景文字在字体和风格上有着很大的任意性,其排列方向和透视深度依赖于摄像机 的方位与角度,其清晰度也受环境、光照、距离、运动以及摄像器材等因素的影响,因 而其提取难度主要取决于场景的视觉特性和文字质量,要获得较高的检测率,一般需要 足够的关于场景的约束条件或先验知识然而,在没有以上不利因素的干扰时,场景文 字和叠加文字的提取也没有本质上的区别,例如包装物、广告画、图书封面上的文字通 常作为场景文字出现,但只要对摄像或扫描的姿态作适当限制,它们与叠加文字也就基 3 中田科学院坝i 学位论_ 迎复杂背景幽像中的叠加文7 提取技术研究 本上没有视觉区别由此可见,场景文字提取的主要困难在于场景信息的获取和场景的 矫讵,之后的提取过程与叠加文字是相同的,场景文字的提取是以叠加文字的提取为基 础的。目时除了车牌检测与识别、路标识,j r g a 0 0 1 】【c h e r t 0 4 等少数应用之外,只有较少 的工作涉及到普通三维场景中的文字提取,代表文献有 c i a r k 0 1 m y e r s 0 1 z h a n 9 0 4 等。 叠加文字是人为地覆盖在图像平面之上的,与图像内的场景信息无关。叠加文字的 视觉特性有一定规律,它隐含着人们对于文字的一些约定俗成的视觉习惯 l i e n h a r t 0 3 1 j u n 9 0 3 1 。这罩主要列举如下: 1 ) 几何形念: 尺寸:同一文字区域内,文字的字体和字号通常保持一致,除了极少数特效场合 对于汉字,几乎所有的字符在同一字体和字号下时具有一致的高度和宽度。 笔画:文字的笔画通常粗细一致,线条平直,即一些文献所提到的“刚性”,这 t 种特性还衍生出一些特征点和特征结构,例如角点、支点、交点以及圈、。方框等。 结构:大部分汉字由多个连通分量组成,连通分量之甘j 在位置上存在一定的约束 关系以保持字形结构的紧凑和匀称。 2 ) 空间关系: 日j 距:叠加文字通常以文字条的形式出现,同一文字条内,字符问距保持不变。 罗马字符的间距以及单词间距通常较小,分别在一个字符和数个字符宽度以内。汉 字的间距可以较大 排列:叠加文字一般呈水平排列,汉字也可以是垂直排列。字符都是竖立的。 3 1 颜色: 同一文字条内的叠加文字通常都是同色的,以便于阅读。在一些复杂背景图像 和解析度较低的视频字幕中,字符的笔画周围常常被包上镶边,形成内外双色结构。 在一些特效场合中,字符还可能有多色、阴影和渐变色等风格,但在同一文字条内, 字符的风格一般是一致的。 舢对比度: 叠加文字总是位于静景。文字与背景问有足够的对比度以便于阅读,再加上罗 马字符的紧密排列和汉字的复杂结构,在文字区域内会产生密集的亮度或颜色变化 5 ) 运动: 视频中的叠加文字( 字幕) 通常会静止地驻留在连续多帧之中,或者作匀速平 移,字幕的前景颜色和几何特性在6 口后帧之间一般会保持不变。 叠加文字的单个字符具有笔画粗细一致的特点,对于汉字还有笔画线条平直的特点, 在紧密排列时呈现出具有整齐、均匀和密集的亮度或颜色变化的条形,使得人眼不需要 分辨和认出每个字符就能断定该区域是文字区域,这是文字区域区别于大多数背景区域 的特有的稳定的纹理模式。 根掘模式类的紧致性理论,决定图像文字提取的可行性的基本因素是文字模式的聚 4 第一帝0 i 高 集性和文字模式与非文字模式的可分性大量的文献通过实验表明,只要对文字的样式、 图像的质量和背景的复杂程度作适当的限制,通过设计适当的规则或较少的特征就能够 把文字与绝大多数背景区分丌柬,获得较高的检出率。这说明在一定的约束下,文字的 模式是可以较好地聚集的,与背景是可分的。 叶齐祥在【叶嗍中使用p c a 分析对文字块的模式聚集性进行了实验,他将1 3 5 0 个 任意字体任意灰度值的汉字字符图像尺度归一化为2 8 2 8 之后,使用2 8 2 8 = 7 9 4 维 的狄度值作为特征向量,经过p c a 分解后再重建,并与同样的特征向量表达的人脸图片 的分解和重建结果进行比较,结果表明文字块的主成分个数远多于人脸,分别为1 0 0 多 个和2 0 多个,而且不同于“特征脸”,文字块的本征图像一片模糊,不和任何字符相像 这表明文字的模式不同于一般的图像模式,其共性不在于灰度或颜色的分布,也不存在 单一或固定的纹理结构,而应该是某种更“隐蔽”的纹理属性,由笔画的尺度、线条和 空日j 布局等来体现。显然,这种纹理属性的精确描述和提取都有一定困难。 以上分析表明,至少在适当的前提约束下,图像文字的提取是可行的。然而,要减 少对文字属性的和背景复杂度的限制,扩大应用范围,则需要寻找文字模式更一般的共 性,如何描述和提取这种共性也正是文字提取相对于一般模式识别问题最显著的困难。 1 4 国内外相关研究综述 近十年来,研究者们针对各种信息源中的文字检测做了大量的工作,根据文字的边 缘和纹理等特征提出了一系列的检测方法,在文字分割方面,也有一些代表性的算法被 陆续提出。下面分别对文字检测和文字分割的代表性方法进行介绍。 1 4 1 文字检测方法概要 目前所提出的文字检测方法根据所使用的特征,大体可以分为基于边缘 ( e d g e - b a s e d ) 、基于纹理( t e x t u r e - b a s e d ) 和基于区域( r e g i o n - b a s e d ) 三种。很多算法实 际上综合利用了以上的某两种或全部三种特征。对于视频字幕,还可以利用视频的结构 特性和帧日j 冗余信息对检测过程进行加速。除此之外,还有少数算法 g a r g i 9 9 l i m 0 0 利用压缩域特征( 如d c t 系数、运动向量等) 直接从j p e g 、m p e g 等压缩数据中检测 文字,但由于对文字区域定位的准确性通常较差,一般只适合于检测文字的有无,不适 于文字提取与识别。 1 l 基于边缘的方法 基于边缘的方法强调文字与背景之问的高对比度典型的做法如文献 a g n i h o t r i 9 9 1 , 首先通过边缘检测( 如c a n n y 算子,g a u s s 差分算子) 得到原图像的梯度图像,对边缘 进行适当过滤以后再使用形念学操作或平滑算子将密集的强边缘合并成区域,最后使用 启发式规则( 如文字条基线检测、连通分量分析等) 滤除非文字区域,定位出文字块, 5 中田科学院顾i 学位论文一复杂背景i 芏f 像中的叠血l 丈7 提取技术研究 边缘的一些衍生对象例如角点( c o m e r ) 等也可以用于文字检测,文献 h u a o h 就利用文 字条具有角点密集且呈带状分钿的特性,通过角点检测、角点合并、区域膨胀与分解等 步骤提取出候选文字块,最后根据文字块的填充率、质心偏移等约束条件对其进行确认。 基于边缘的方法具有很高的执行速度,且不敏感于文字的颜色,在图像中的文字区 域很少时可以迅速去除大面积的简单背景,缩小待检测区域,但不足以去除纹理复杂的 背景,常常产生过高的误检率( f a l s ea l a r m ) 。许多混合型的方法都用它作为算法的第一 步束进行初始检测,得到候选文字区域之后再依据其他特征进行确认,以保证较快的检 测速度和较高的查全率。采用这种混合型方法的有 c h e n 0 1 g a 0 0 1 w u 9 7 y e 0 3 等。 2 ) 基于纹理的方法 基于纹理的方法强调文字区域与背景区域在纹理属性上的区别,致力于提取能够区 分文字区域与背景区域的纹理特征然后进行纹理分类。常用的纹理特征有原始像素抽 样 k i i i l 0 3 】、局部方差 z h o n 9 9 5 、梯度分布 l i e n h a r t 0 2 、强边缘的密度及方向分布等空 域统计特征和小波 g l l a v a t a 0 4 l i 0 0 【y e 0 3 、f f t 、g a b o r m a 0 3 y a n 0 3 变换系数的统计 特征如矩、直方图、共生矩阵等。 纹理特征可以使用在文字检测算法的不同阶段,一种是首先使用纹理特征对原始图 像的小区域进行分类,典型的做法是选取一个适当大小的滑动窗口和相应的滑动步长, 对原始图像进行穷尽扫描,计算窗口内的纹理特征并分类,得到文字类的小区域,然后 依据其他特征和规则进行后续的求精处理。使用这一做法的文献有 k i m 0 3 l i 0 0 【l i e r h h a r t 0 2 g l l a v a t a 0 4 等。对于计算过程较复杂的纹理特征,这种穷尽扫描通常很费时, 于是很多算法先使用其他方法如边缘检测、连通分量分析等从原始图像中提取出候选文 字区域,然后只对这些候选文字区域根据纹理特征进行再分类,以排除被误检到的非文 字区域,文献 c h e r t 0 1 y a n 0 3 y e 0 3 属于这类做法 由于提取的纹理特征通常维数较高,通常采用机器学习的方法来设计分类器,例如 n n l i 0 0 l i e n h a r t 0 2 t a n 9 0 2 、s v m c h e n 0 1 k i m 0 3 y e 0 3 分类器和b o o t s t r a p y a n 0 3 、 a d a b o o s t c h e n 0 4 等学习算法。例如,文献 l i e n h a r 0 2 使用具有2 0 0 个复数值输入结 点的神经网络对原始图像的复数值梯度图像中的2 0 x1 0 的滑动窗口进行判别是否为文 字区域。文献 c h e n 0 1 6 e 先使用双线性插值将候选文字块标准化为1 6 个像素高,然后使 用1 6 x1 6 的滑动窗口进行扫描,在滑动窗口内使用2 5 6 维的“边缘距离图像”作为纹 理特征,使用s v m 计算该窗口为文字的可信值,最后根掘所有滑动窗口的可信值的加 权平均值来判断该候选文字块是否为真正的文字块。 基于纹理的方法对于纹理复杂的背景可以有较强的判断能力,甚至可以识别出较小 的文字区域,比如单个的字符,而不一定要求以文字条的形式出现,这对于日j 距可以较 大的汉字是有意义的。但是如何选取有效和通用的纹理特征是该类算法的首要难点,而 且基于学习的分类算法需要有足够的训练样本,算法的性能也受制于分类器的性能和推 广能力。 6 第一章0j 高 3 l 基于连通区域的方法 基于连通区域的方法是i 3 1 节中介绍的自底向上的检测框架所普遍采用的方法,它 通常假定文字具有统一的自u 景色,而且与背景色具有较远的距离以保证较高的对比度。 该类方法依掘这一假设使用基本的图像分割算法例如颜色量化 j a i n 9 8 z h o u 9 7 、区域标 注 s h i m 9 8 ,区域分裂与合并 l i e n h a r t 9 6 1 等提取出所有的同色区域;接着根掘文字固有 的几何特性( 例如字符尺寸、笔画厚度、分枝和“洞”的个数等 z h o u 9 7 】) 构造启发式 规则对连通区域进行几何分析以排除明显的非文字区域;然后根据字符问的位置关系( 例 如字符间距、行距等) 构造启发式规则,白底向上地将连通区域合并成候选文字区域 s o b o t t k a 9 9 j a i n 9 8 z h o u 9 7 ,在合并过程中,将不满足规则的区域作为背景除去;最后 对候选文字区域进行优化,包括利用水平或垂直投影、文字块的填充率、与背景的对比 度等属性进一步去除残余背景区域,适当的区域生长以弥补文字笔画的缺失 w u 9 7 等。 由于叠加文字通常为平直排列,该类方法采用的启发式规则一般都比较简单,主要 是考虑连通区域的尺寸、形状、水平白j 距和垂直对齐等因素。然而,对于汉字的多分量 结构,目i i 还没有提出用来描述多分量的位置关系的规则或模型。文献 r d m 9 9 中使用从 真实文字图像中聚类得到的文字区域模板来进行区域匹配并滤除非文字区域,从一定程 度上降低了定义启发式规则的不灵活的弱点。 对于场景文字中常有的歪斜或者曲线排列,文献 z h a n 9 0 4 提出了一个基于高阶 m r f 的框架:利用区域邻接图( r e g i o na d j a c e n c yg r a p h ,r a g ) 对分割出的单色区域 建模,其中r a g 的结点表示各个区域,结点的状态表示该区域是文字的概率,r a g 的 边表示所连接的两个区域在互相的邻域之内,即互相邻接;以区域的高宽比、相邻接的 多个区域问的空日j 距离、颜色距离、高度一致性、排列曲线的曲率等观测值为参数设计 邻域的位势函数;根掘最大似然准则( 即最大化结点观测值和结点状念值的联合概率) 通过学习得到结点观测值相对结点状态值的条件概率:根掘位势函数、条件概率和待检 测图像的观测值,使用信念传播( b e l i e f p r o p a g a t i o n ) 对待检测图像的r a g 进行递推直 至收敛;根掘结点状态的后验概率确定是否为文字区域。 。 由于基于连通区域的方法首先就对图像进行了分割,所以在去除了非文字区域之后, 也就得到了二值化的文字图像,无需再进行文字分割它对于背景粒度较粗的一类图像 ( 例如图书封面、广告画等) 具有很好的文字提取效果。然而,在文字比较模糊或文字 颜色比较发散时,该类算法的性能依赖于初始连通区域的生成即图像分割算法的性能; 若存在纹理复杂的背景,启发式规则的适应性也面临考验。 4 ) 视频中利用时间域信息的方法 视频中的字幕一般具有如下的时空特性:1 ) 字幕的存在跨越若干帧,甚至若干个镜 头;2 ) 字幕存在时,尽管不同帧之b j 的变化可能很大,但是字幕所在的区域的亮度或颜 色变化不大;3 1 字幕的出现与消失会在相继两帧内字幕所对应的区域内引起很大的亮度 7 中国科学院硕i 学位论文复杂背j = :幽像中的硅加文厂摊取技术研究 或颜色变化。利用这些特性可以对视频文字的检测过程进行优化。 , 文献 t a n 9 0 2 中先将视频段分割为镜头,根掘上述特性3 ) 在镜头段内利用日口后两帧 的区域亮度差找出字幕出现与字幕消失的各帧,再在这些帧罩面利用字幕的出现与消失 所引起的帽继两帧的差别( 包括帧差图像的亮度分布与边缘方向分布) 定位出字幕区域, 从而大大减少了需要检测的帧的数量,也回避了相继两帧中未改变的背景区域。 对于视频中的滚动字幕以及运动的场景文字区域,研究者们主要通过运动估计在后 续帧中跟踪( t r a c k i n g ) 当自口所检测到的文字区域,以对当日口所检测到的文字区域进行优 化 l i e n l m r t 9 6 l i 0 0 其q 。 l i c n h a r t 9 6 使用了视频压缩标准h 2 6 1 中的方法束搜索匹配 块,【l i 0 0 则采用二阶线性预测的方式估计运动向量,并针对复杂背景、字幕的尺度变 化等情形提出了通过字幕轮廓来稳定跟踪结果和多尺度匹配等技术。跟踪到的相同文字 块主要用于文字增强( 见1 4 2 ) 。 1 4 2 文字分割方法概要 从图像或视频中检测到的文字块,通常具有复杂的背景,在提交给o c r 识别之前都 需要经过分割以去除背景。现有的文字分割方法主要利用了文字的颜色和部分空间信息, 大体可以分为阈值法、无监督聚类法和基于统计模型的方法等。此外,l - 4 1 节中基于连 通区域的检测方法本身就包含了分割,也可以将它作为一种分割方法用于文字块。从视 频帧和低质量图像中检测到的文字块常常由于解析度低、噪声污染而变得模糊,难以分 割,在这种情况下,需要有文字增强( t e x te n h a n c e m e n t ) 技术来尽可能地提高文字质量 1 ) 预处理和文字增强方法 文字尺寸的不同会给分割带来不必要的复杂性。实验表明,过大的文字尺寸不会改 善文字分割的结果,也不会提高o c r 的性能 l i e n h a r t 0 3 ,还徒增计算量。因此,现有 算法一般都在预处理中使用子像素插值的办法( 如线性插值 l i e n h a r t 0 2 】【s a t 0 9 8 、样条 插值或s h a n n o n 插值 l i 0 0 ) 放缩文字块,使得文字的尺寸大体固定。对于固定尺寸的 文字,可以充分利用罗马字符在相同的字体和字号下笔画粗细一致的特性,对于汉字还 有高度一致和宽度一致。同时,对于尺寸过小的文字,该过程还有助于提高文字的解析 度。 视频字幕可以利用自蕾后多帧的冗余信息进行增强。出于字幕一般驻留在连续多帧中 保持不变或仅作简单的平移,字幕的背景可以有一定的变化,而前景一般保持不变。将 连续多帧中的相同文字块取平均可以抵消部分噪声,使文字笔画得到增强,而文字的背 景则得到平滑 l i 0 0 - 1 ;或者对相同的文字块进行。与”操作即对每个像素取亮度在多帧 中的最小值,可以降低背景的复杂度。 对于静态图像中的文字笔画增强,目6 口研究得很少文献 s a t 0 9 8 中设计了四个方向 性的滤波器用于增强四个方向上的长笔画,每个滤波器在相应方向上做平滑和在垂直方 向上做锐化,以突显相应方向的笔画,最后对四个滤波结果进行叠加。文献 c h e n 0 2 1 】 8 第一市0 i 肓 中使用基于g a b o r 的非对称滤波器组来估计图像中模式的几种主要尺度,然后对这些尺 度的模式( 包含文字) 进行增强。 2 l 阈值法 阈值法来源于文档分析,通常假定文字亮度高于背景亮度,然后使用亮度阈值分割 出前景和背景,因而只适用于简单背景的狄度文字块。该类方法一般根据文字块中j i i 景 和背景的亮度分布自适应地选取一个全局阈值 w u 9 7 s h i m 9 8 。考虑到亮度渐变的情形, 【t r i e r 9 5 采用了自适应局部阈值,【h u a n 9 0 5 对于非均匀光照下如何自适应地选择窗口大 小进行了讨论当文字块具有较复杂的背景,例如文字的灰度可能介于背景的多个狄度 之日j 时,阙值法不再适用。 3 ) 无监督聚类法 无监督聚类法假定文字块中所有像素根掘颜色可以分为k 类,文字像素对应于其中 一类,其余各类均为背景,然后采用经典的无监督聚类算法如k - m e a n s o t s u 7 9 等对所有 像素进行聚类类似的聚类方法还有基于颜色相似性度量的颜色削减算法 j a i n 9 8 、欧式 距离最小生成树算法( e m s t ) z h o u 9 7 等,所不同的是k - m e a m 算法需要给定类的个 数k ,后两者根掘颜色相似性度量自动生成类的个数。这类方法可以用于复杂背景的情 形,但是当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类, 从而产生大量的残余背景,影响o c r 识别。 以上的聚类都是逐点进行的,并没有利用文字的空问信息,因而对噪声很敏感。有 的研究者在聚类之前对单纯的灰度或颜色向量进行扩展,加入空间信息。例如,g l l a v a t a 等人在 g l l a v a t a 0 4 - 1 e p 对默度化以后的文字块进行二通道小波变换,对于每个像素,在 它的3 x 3 邻域内分别计算i l l 、i _ 1 - 1 和h h 三个高频子带的系数的标准方差,进行归一 化以后作为归一化的颜色向量的扩展,然后使用k - m e a n s 聚类。 4 ) 基于统计模型的方法 基于统计模型的方法为文字块内所有像素或者文字像素建立概率模型,一般是根据 颜色建立混合高斯模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 典型的做法如文献 g a 0 0 q , 所有同色区域用一个g a u s s i a n 核函数表示,建立g m m ,使用e m 算法估计模型参数, 最后根掘最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,这种简单的 统计模型存在着与k - m e a n s 同样的问题,而且g m m 核函数的个数难以确定。 为了描述文字的空问信息,文献 c h e n 0 2 中除了使用g m m 表示文字块中像素的厌 度的分布以外,还使用m a r k o v 随机场( m a r k o vr a n d o mf i e ,加r f ) 模型对二阶邻域 以内( 也就是水平、垂直或对角相邻) 的像素点的类别标号的相关性进行建模,山表征 像素狄度值相对于像素类别标号的条件概率的g a u s s i a n 核函数和表征二阶相邻的像素点 的类别标号相关性的势函数共同组成随机场的能量函数。在使用e m 算法估计g m m 参 9 中田 1 学院坝i 学位论文一复杂背景幽像中的叠加文7 提取技术研究 数和势函数以后,通过最小化能量函数来得到文字块的标号场的最优取值。然而,作者 的结论表明,引入了m r f 之后的结果与直接使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年销售岗位面试攻略及经典预测题解析
- 2025年初中化学特岗教师招聘考试高频考点梳理
- 2025年计算机等级考试四级网络工程师模拟题及答案解析
- 电力基础知识培训资料课件
- 2025年财务管理师考试模拟题及解析
- 2025年人工智能面试模拟题详解及答案
- 2025年市场推广专员招聘笔试模拟题及参考答案集萃
- 2025年国际商务谈判策略与沟通技巧题库
- 2025年煤气工程岗位面试技巧大揭秘模拟题集与答案
- 2025年银行柜员岗位招聘考试模拟卷及答案解析
- 《中国民航发展史》课件-1-3 中国民用航空的萌芽
- 《新能源汽车维护与故障诊断》课件:新能源汽车基本故障诊断策略
- JJG 693-2011可燃气体检测报警器
- 伤寒论原文398条
- 电气设备巡检培训课件
- 承保实务非车险课件
- 幼儿园教学活动设计方法
- 无人机项目融资计划书
- 液氧站施工方案
- GB/T 16886.12-2023医疗器械生物学评价第12部分:样品制备与参照材料
- 16J934-3中小学校建筑设计常用构造做法
评论
0/150
提交评论