




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)视频中的文字信息提取.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复旦大学硕十学位论文:视频中的文字信息提取刘洋 摘要 视频中所含的文字为描述和指示视频内容提供了十分丰富的信息。在一些情 况下这些信息在多媒体载体中是独一无二的,例如电视节目结束时的制作者信 息,另外一些情况下视频文字则高度的概括了视频片断的内容,例如新闻标题等。 视频文字信息抽取能够应用于基于高层语义的视频检索和浏览系统,并且它们是 建立索引的有效手段。 与传统的文档图像相比,视频文字具有分辨率低、背景复杂、文字形态差异 大等特点,这给视频文字抽取带来了极大的挑战。本文主要围绕针对视频文字信 息抽取的几个方面对我们的工作进行了介绍,提出了一个包括文字区域检测,区 域分割,视频文字跟踪和增强以及识别等模块的完整的视频文字信息提取系统和 算法。 在视频文字检测方面,我们提出了一种基于改进的c a n n y 算子并利用线条 特征的检测算法,该算法对c a n n y 算子进行了有效的改进,使其对文字边缘的 敏感度大大提高,并且通过有效的利用文字笔画的线条特征来对文字区域进行判 别,使得算法克服了传统的基于边缘检测算法的缺点,在保持较高查全率的同时 大大降低了虚警。在文字分割模块中,我们提出了一种融合多种处理方法的文字 区域二值化算法,通过综合局部二值化,边缘像素填充,文字极性判断等方法有 效的过滤文字区域中的背景,使文字区域二值化效果得到较大提高。 视频文字一般会持续出现一段时间,因此我们利用视频文字的时间冗余性米 提高文字检测精度和增强文字质量。在这一阶段我们提出了一种基于二分搜索法 的快速文字跟踪算法,以文字区域的边缘位图为特征,实现了对静止文字对象快 速有效的跟踪。在多帧融合方面,我们除了采用传统的灰度融合图像进行文字区 域增强,还利用边缘位图对文字区域进行进一步的背景过滤,从一个更新的角度 利用了文字的时间冗余特性进行背景过滤和文字增强。 本文针对提出的算法进行了详细而全面的实验,实验表明本文算法具有较高 的检测和识别性能,以及较强的实用性。文中所提出的算法已经成功的应用于本 实验室开发的多媒体信息检索系统中,成为系统中基于高层语义查询模块提供了 的重要信息。 关键字:视频字符检测;多媒体信息检索,边缘检测算予,文字分割 复且大学颁士学位论文:视频中的文字信息提取刘洋 a b s t r a c t t e x ti n d i g i t a l v i d e op r o v i d e sr i c hi n f o r n l a t i o nf o rt h ev i d e oc o n t e n t i h e e x t r a c t i o no f t h ev i d e ot e x tm a k e si tp o s s i b l ef o rt h ec o n t e n t - b a s e dv i d e or e t r i e v a la n d b r o w s i n g ,a n di ts e r v e sa l le f f e c t i v em e a n sf o rt h ev i d e oi n d e x i n g c o m p a r e dw i mt y p i c a ld o c u m e n ti m a g e s t e x ti nv i d e op r e s e n t sc h a l l e n g e sd u e t ol o wr e s o l u t i o n ,c o m p l e xb a c k g r o u n d ,l i g h t i n gv a r i a t i o n ,a n dv i r t u a l l yu n r e s t r i c t e d p o s e ,s h a p ea n dc o l o r t h i st h e s i sp r e s e n t so u rw o r ko ns e v e r a la s p e c t so ft h ev i d e o t e x ti n f o r m a t i o ne x t r a c t i o na n dp r o p o s e sac o m p l e t ep r o c e s s i n gs y s t e mi n c l u d i n gt e x t d e t e c t i o n ,s e g m e n t a t i o n , t r a c k i n g ,e n h a n c i n ga n dr e c o g n i t i o n , i nt e x td e t e c t i o n ,w ep r o p o s ea ne f f e c t i v et e x td e t e c t i o nm e t h o db a s e do na l l i m p r o v e dc a n n ye d g ed e t e c t o ra n du t i l i z i n gl i n ef e a t u r e s t h ea l g o r i t h mm o d i f i e st h e c a n n ye d g ed e t e c t o rt os u i tt h et e x te d g ed e t e c t i o n m e a n w h i l e ,b yu t i l i z i n gt h el i n e f e a t u r e so ft h ec h a r a c t e rs t r o k e s ,i tr e d u c e st h ef a l s ed e t e c t i o nn o t i c e a b l y , w h i c h e f f e c t i v e l yo v e r c o m e st h ed i f f i c u l t yf a c e dw i t hc l a s s i ce d g e - b a s e dm e t h o d s w h e n s e g m e n t a t i o ni sc o n c e r n e d w ec o m eu pw i t hat e x tr e g i o n b i n a r ym e t h o d st h a t i n t e g r a t e sm u l t i p l ep r o c e s s i n gm e t h o d s ,i n c l u d i n ga d a p t i v et h r e s h o l d i n g ,b o u n d a r y p i x e lg r o w i n ga n de f f e c t i v e t e x tp o l a rj u d g i n g t h ei n t e g r a t i o no ft h e s em e t h o d s e f f e c t i v e l yf i l t e r e dt h eb a c k g r o u n da r e ai nt h et e x tr e g i o n ,t h u si m p r o v i n gt h eb i n a r y r e s u l tm u c h t e x ti nd i g i t a lv i d e oo f t e ns p a n st e n so re v e nh u n d r e d so ff r a m e s w ee x p l o i tt h e t e m p o r a lr e d u n d a n c yo f v i d e ot e x tt oi m p r o v et h et e x td e t e c t i o na c c u r a c ym a dt h et e x t r e g i o nq u a l i t y w ep r o p o s eab i n a r y s e a r c hb a s e dt e x tt r a c k i n gm e t h o d ,w h i c hc a r l t r a c kt h es t a t i ct e x to b j e c te f f i c i e n t l yb yu t i l i z i n gt h ef e a t u r e so ft h ee d g eb i tm a p i n m u l t i f r a m ei n t e g r a t i o n , w ee x p l o i te d g ef e a t u r et of u r t h e rr e m o v eb a c k g r o u n di n a d d i t i o nt ot r a d i t i o n a lg r a y v a l u ei n t e g r a t i o n t h i si sar a t h e rn o v e la s p e c to ft h eu s e o f m u l t i f r a m ei n t e g r a t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h m sp r o p o s e di nt h i st h e s i sc a n a c h i e v eh i g hp e r f o r m a n c eb o t he f f i c i e n t l ya n de f f e c t i v e l y a sa na p p l i c a t i o n t h e w h o l et e x ti n f o r m a t i o ne x t r a c t i o np r o c e s s i n gh a sb e e ne x p l o i t e di nt h em u l t i m e d i a i n f o r m a t i o nr e t r i e v a lp r o j e c td e v e l o p e db yo u rl a b ,p r o v i d i n gi m p o r t a n tr e s o u r c et o t h eh i g h 1 e v e ls e m a n t i c - b a s e dv i d e oi n f o r m a t i o nr e t r i e v a l k e y w o r d s :v i d e ot e x td e t e c t i o n ;m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l ;e d g ed e t e c t o r ;t e x t s e g m e n t a t i o n 复旦大学硕十学位论文:视频中的文字信息提取刘 羊 1 1 研究背景和意义 第一章简介 2 0 世纪8 0 年代以来,多媒体技术和互联网的飞速发展将世界带入了一个崭 新的信息时代。这些多媒体信息包括文本,图像,音频和视频等多种形式,并且 数量也呈爆炸式增长。多样的信息给人们的生产和生活带来了巨大的便利,但也 使如何在海量信息中迅速找到自己需要的内容这一问题浮出水面。在多媒体数据 大量涌现的最初阶段,人们通过手工分类的方法对图像,视频等多媒体进行分类, 这种方法相当费时费力,极大的局限了对多媒体数据进行实时过滤和检索的应 用。因此,多媒体信息检索技术这一课题应运而生。 在传统的文本检索方面,人们已经做了大量的工作,目前已经形成用关键字 进行查找等经典方法。例如,现在通过i n t e m e t 上的文本搜索引擎,如g o o g l e 1 1 等,人们已经可以比较方便地通过提交关键词的方法检索到自己感兴趣的文本内 容。对于文档图像,即对普通文档用扫描仪扫描后得到的图像,已经有较为成熟 的光学字符识别技术( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,o c r ) ,能够将这些图像识别 成为文字,从而利用传统的基于关键字的方法对这些文档进行检索和过滤。而对 于信息量极其丰富的视频,它包含了多种形式的信息源,例如语音,图像中含有 的文字信息( 包括新闻标题,节目字幕等) ,以及伴音脚本( c l o s e d c a p t i o n ,很 多国外电视台对节目提供伴音脚本) 等,这些信息是互为补充互相强调的,综合 的利用这些信息能够为视频建立有效的过滤和检索。 在各种图像和视频中,往往可以见到各种各样的文字,这些文字概括或者补 充了关于图像和视频内容的信息,即在一定程度上反映了这些图像和视频的语 义。著能准确的将这些文字信息检测出来,并进行处理,使之能够被传统的o c r 软件识别并被转化成为机器内码,这样就可以以用类似文本检索的“关键字”查询 方法,对视频片断进行快速有效的查询。 1 2 研究目标和主要贡献 如e u 所述,本文所讨论的主要内容就是在视频和图像中如何检测( 定位) , 跟踪,增强进而识别文字这一特定语义对象,这一过程通常被称为v i d e o o c r 2 。 本文将围绕以上几个模块,实现一个完整的视频文字处理系统,该系统能够有效 的检测和识别视频中所含的大部分文字信息,并为基于内容的视频检索服务。 复且大学硕士学位论文:视频中的文字信息提取刘洋 本文的主要贡献在于: ( 1 ) 提出了一种基于改进的c a n n y 算子并利用线条特征的文字区域检测算 法,该算法有效得克服了基于边缘的文字检测算法普遍存在的虚警率较 高的缺点; ( 2 ) 在视频文字跟踪过程中,实现了快速文字对象跟踪,大大提高了文字跟 踪的效率; ( 3 ) 利用文字区域的相对静止性,根据多帧图像中文字区域的边缘信息进行 文字区域增强,从而比传统的只利用灰度信息进行增强的方法更全面更 有效的利用了多帧信息。 1 3 论文结构 本文主要阐述了本人在视频文字信息提取方面进行的研究工作,围绕文字处 理的框架,本文的结构和主要内容如下: 第一章简介:主要阐述视频文字信息提取的研究背景及意义,以及本文的 主要研究目标和贡献,并给出文章的结构; 第二章详细分析了文字在不同类型图像和视频上的表现形式,特点等,并 对现有的视频图像文字信息抽取算法进行了回顾与总结; 第三章针对关键帧,讨论了基于单幅静态图像中的文字进行检测和二值化 分割,提出了基于改进的c a n n y 算子并利用字符线条信息的检测算 法以及一种融合了多种处理方法的文字区域分割算法。在给出静态 图像文字检测和识别的评价标准后,对基于关键帧的视频文字检测、 分割和识别进行了实验。 第四章针对视频片断,提出了一个以监视一跟踪一分割一识别为主线的视 频文字处理框架,详细介绍了本人提出的快速文字跟踪算法和利用 边缘信息进行文字区域增强的算法,并给出详尽的实验。 第五章总结全文并探讨了进一步的研究方向。 2 复旦大学硕士学位论文:视频中的文字信息提取 刘洋 第二章背景及相关工作 2 1 场景文字与图形文字 视频图像中的文字可以分为两大类:场景文字( s c e n e t e x t ) 年1 图形文字( g r a p h i c t e x t ) 。场景文字是指摄像机拍摄过程中,被摄像机直接拍摄下来的场景中的文字, 例如街道标语,路牌,广告牌等( 如图2 ,1 ( a ) ( b ) ) 。这类文字对诸如机器人视觉, 视频监控等应用非常有价值,但是由于这些文字是现场录入的,在大小,形态和 光照等因素上变化非常大,并容易受到拍摄角度的影响发生变形,因而要提取它 们是比较困难的。另外,由于录入的随意性,场景文字对于视频检索并不能提供 特别有效的索引,因而不是目前视频图像文字检测的重点。而图形文字,又称叠 加文字( s u p e r i m p o s e d t e x t a r t i f i c i a lt e x t ) ,是在制作视频时通过特殊的设备或者软 件添加到视频图像中的文字信息。由于它们是人为添加的,因此具有较强的指向 性( 如图2 2 ( a ) ( f ) ) 。图形文字对表达图像的语义起着比较大的作用,而且为了 方便阅读,这些文字一般比较清晰规整。因此针对于图形文字的检测和识别是研 究视频图像中的文字信息抽取的重点,同时也是本文的研究重点。在视频中,图 形文字出现的情况通常有以下几种形式: 新闻节目中出现的标题:概述该段新闻的主要内容,如图2 2 ( a ) 所示。 人物对话脚本:经常出现在电视剧,人物访谈,记录片等节目中。节目制作 者为了观众能够更准确的了解人物对话或者画外音所说的内容,通常将对话 内容制作成叠加字幕随节目一起播放,如图2 2 ( b ) 所示。 各类指示信息:出现在各类节目中,例如人物访谈中的人名对应,地点指示, 体育节目中的赛事比分( 图2 2 ( c ) ) ,财经节目中出现的股价报告等。尤其是 人名对应这类指示信息,如图2 2 ( d ) 所示,这在新闻和人物访谈等节目中经 常出现,节目制作者会添加上表明人物姓名、身份等文字信息。在此可以将 文字检测与人脸检测技术结合起来,将检测到的人脸与人名对应,这样用户 就可以提交人名来进行检索,而不需要像传统的基于底层的检索方式那样要 事先找一张被检索人的图片。 视频或图像的制作者信息:这些信息经常在电影,纪录片的片头或片尾出现, 见图2 2 时 是连续的视频帧,n = l 时是静态图像) 中找到所有文字对象的位置a 及确 定它们的属性伊。这个阶段是下两个阶段的基础。 ( 2 ) 文字理解( t e x tu n d e r s t a n d i n g ) :目标是通过已得出的a 和( p 确定0 【。这 也就是传统文字识别部分。 这两个目标在l i 的文章 4 】中已有表述。针对以上特点,目i j 视频文字检测 和识别系统主要包括以下几个部分( 见图2 3 ) : 预处理模块:包括图像平滑,倾斜度校正,对是否有文字出现进行简单判断。 文字区域定位:指在视频帧和图像中检测出文字区域。由于文字区域可能出 现在图像或视频帧的任何位置,因此不能用传统的文档布局分析方法来对图 像进行分析,针对文字区域的定位算法是目前视频文字检测的重点研究对 象。 文字跟踪和增强:利用文字对象在视频中的出现持续一定时间的特点,对文 字区域进行跟踪。视频中文字区域分辨率较低,因此通过对文字区域进行跟 踪,并对文字区域内容进行增强或者过滤一些误检,能够进一步去除背景图 像的干扰,提高检测和分割效果。 6 复旦大学硕+ 学位论文:视频中的文字信息提取刘洋 文字区域二值化:由于文字区域往往含有背景图像,因此要根据区域中文字 的颜色和形状等特征对区域进行二值化,去除背景,并处理字符的粘连,断 裂等情况,将文字区域分割成二值化的能够被传统o c r 软件识别的图像。 字符识别:将分割好的图像用商业的o c r 软件识别,转化成机器内码。 2 4 相关工作 预处理 山 文字区域定位 山 l 文字区域跟踪和增强 山 文字区域分割 山 文字区域识别 图2 3 视频图像文字识别系统的一般框图 文字是一类特殊的视觉对象。对象的检测和识别在计算机视觉领域是一个基 础而重要的问题,但目前要对一般的对象进行检测和识别还不可能。除了文字以 外,已有许多的研究者对一些特殊对象的检测和识别问题进行了大量的研究,如 人脸的检澳j 5 1 1 6 与识别【7 】【8 】,汽车的检测【9 】等。文字的检测和识别也已有了很 多方面的应用,如汽车牌照识另l j 1 0 1 1 】,w e b 网页图像和场景图像 1 2 1 3 】中的 文字抽取等。在这一节里我们将回顾在视频和图像中文字信息的提取工作,包括 文字检测,跟踪,增强和识别,并对这些方法进行了归纳和总结。 2 4 1 文字区域检测 根据算法利用的特征,视频和图像中的文字检测算法可以分成基于区域特征 和基于纹理特征两大类。基于区域特征的方法的基本思想是利用文字区域内的颜 色和灰度特征具有某方面的共性,并且与背景区域存在较大的差异。根据区域特 征的不同,基于区域的方法又可以细分为两个子类:基于连通区域的方法和基于 边缘的方法。基于区域特征的检测算法一般都是按照由下至上的方式来进行文字 检测,即首先确定图像的各像素点的特征,例如连通像素或者边缘,然后将符合 文字区域特性的像素合并并且扩充,以形成文字区域。基于纹理的检测算法的基 复旦大学坝士学位论文:视频中的文字信息提取刘洋 本思想是将文字区域作为一种特殊的纹理对象来考虑,采用了一种从上至下的方 式,首先对图像进行纹理分割,先将文字区域与背景分离丌,然后再运用后处理 技术将字符从文字区域中提取出来。 2 4 1 1 基于连通区域的方法 基于连通区域的方法 1 4 1 7 1 通常按照由下至上的方式,将连通元素不断合并 和扩充形成一个个连通区域,直至图像中所有的区域都被标注为止。然后用一些 几何分析方法过滤非文字区域,并确定文字区域的边界。 z h o n g 在文 1 4 1 中利用颜色量化来产生连通区域的算法。该文通过统计r g b 颜色空间上的颜色直方图的峰值来进行颜色量化,产生候选区域后根据一些简单 的先验信息,例如空间对齐信息,区域面积,区域纵横比等对候选区域进行过滤, 得到最后的结果。但这种方法的基本假设是文字区域具有较为统一的颜色并且在 整幅图像上占有较大的空间,而视频图像中的文字通常直接叠加在复杂背景上, 受背景的影响,文字区域的颜色并不统一。因此这种算法对视频图像不适用。 j a i n 和y u 在文【1 5 忡提出了一种基于连通区域的文字检测算法。算法首先 对2 4 比特色彩的图像进行颜色近似,去掉颜色的较低位,得到仅用6 比特表示 的图像,然后使用颜色聚类的算法对颜色进行量化,使颜色数目下降到仅有少数 几种。然后算法在每个颜色平面上试图找出按水平或垂直排列的一组连通区,这 组连通区的最小外接矩形组成了候选文字块。在得到这样的一组候选块后,算法 还定义了一些规则来过滤候选块,从而得到最后的结果。这个方法的适用范围较 广,适用于各种图像。但对于分辨率较低,背景复杂的视频,由于该算法要求同 一文字行中的字符是出同种颜色组成,因此效果不太理想。 l i e i l l l a n 【1 6 】中认为文字区域使具有相同或者相似颜色和大小的连通区域,利 用了文字区域的单色性和高对比度的特点来进行文字区域的检测。首先运用分裂 一合并( s 口l i t a n d - m e r g e ) 算法对图像进行颜色分割,然后通过应用各种先验规则, 如区域大小,纵横比等区域的几何特征来逐步去除非文字区域。这种方法可以在 分割后立即得到二值形式的文字。这个算法主要使针对标题检测,而视频中的标 题通常相对于背景有较高的对比,但是当文字区域的背景变得复杂时,算法的假 设便不成立了。 基于连通区域的算法是视频和图像中文字检测中最早出现的算法,它们的实 现大都较为简单而快速。几乎所有的基于连通区域的方法都包括下面四个处理步 骤1 8 】:( 1 ) 预处理,例如颜色聚类或者降低噪声;( 2 ) 产生连通像素;( 3 ) 过滤非 文字的连通区域;( 4 ) 连通像素增长产生文字区域。这类方法在复杂的背景和较 低分辨率的视频图像中,经常会将同一个字符分割成不同的连通区域,并且检测 复旦大学硕士学位论文:祧频中的文字信息提取刘洋 结果对连通像素增长过程十分敏感。另外,这些方法通常需要人为的设置阈值 而这些闽值的设定通常与实验的视频图像数据有关。 2 4 1 2 基于边缘的算法 基于边缘的算法 1 9 2 4 贝j j 关注于“图像中文字区域相对于背景具有较高的对 比度”这一特性,这一特性反应在边缘上即为文字区域具有丰富的边缘信息。算 法一般是采用某种边缘检测算子对图像进行边缘检测,然后将边缘聚集生成候选 文字区域,再根据一定的规则和先验知识判断哪些区域是文字区域。 s m i t h 和k a n a d e 在文【1 9 】中提出了一种基于边缘检测的提取文字信息的方 法。文中首先采用了一个3 x 3 的垂直边缘检测算子对图像进行边缘检测以提取具 有较高颜色对比度的区域,紧接着对边缘图像进行平滑以去除噪声以及合并断裂 的文字笔划。在平滑图像后,经过聚类产生候选文字区域并确定区域的外接矩形。 最后应用几何分析,将纵横比满足一定比例并且边缘填充率较大的区域保留,作 为文字区域。该方法仅利用了简单的几何分析,因此易受到复杂背景的干扰,产 生较高的虚警。 w o n g 2 0 1 的基本思想是利用了文字区域像素的灰度梯度值具有较大跳变这 一特性来进行文字区域的检测。首先使用滑动窗口对图像进行扫描,计算当前像 素为中心的窗口内图像灰度的最大梯度和最小梯度差,当这个梯度差超过一定阈 值,并且梯度正负跳变次数超过一定范围,则认为该像素为文字区域像素。以此 生成候选文本基线,然后将这些候选文本基线进行合并形成候选文字区域。 l y u 等在 2 1 2 2 q h 提出了一种能够检测多种语言文字的视频文字检测算法。 该文分析了文字区域的各类特征,指出对比度、颜色、文字方向和文字区域的相 对静止性是与语言独立的,而文字笔划的密度,字体大小,文字区域的纵横比以 及文字笔划的统计信息则是与语言相关的,这些特性在西文和东亚文字差异很 大。l y u 等则是利用了与语言无关的特性,例如边缘密度和边缘强度来实现多语 种的文字检测。算法首先采用s o b e l 算子对图像进行边缘检测,根据边缘强度直 方图,选择一个较弱的阈值初步去除一些较弱的边缘像素,然后采用一个滑动窗 口对边缘图像进行进一步的局部阈值化,对于背景复杂的区域再次统计局部边缘 直方图求闽值。在得到边缘图像后,算法用两个算子来增强文字区域,这两个算 子能够分别增强边缘密度大和边缘强度较大的区域。在文字区域得到增强后,文 章使用了水平一垂直投影的方法确定文字区域的边界,最后使用一些先验知识, 包括区域的平均边缘密度,峰值分布等规则来去除一些误检。 基于边缘的检测算法在时间和效率上能够达到较好的折中,但是对于背景复 杂的视频图像,基于边缘的方法容易产生较高的虚警。因此有很多研究采用了机 复旦大学硕士学位论文t 视频中的文字信息提取刘洋 器学习的方法来辅助进行文字区域的判断。c h e n 2 3 提出了一种利用s v m 对文 字区域进行判别的算法。算法首先用c a n n y 算子检测出垂直和水平边缘,对边 缘图像进行膨胀运算,并且将垂直和水平边缘图像重叠求交集得到边缘图像。接 着用水平投影确定文字区域及其基线,再通过一些先验知识:包括区域高度,面 积,纵横比等属性去除一些非文字区域。最后用s v m 来对候选文字区域进行判 别:先将文字区域尺度归一化,然后用一个1 6 十1 6 滑动窗口扫描文字区域,提取 窗口内的特征d m ( d i s t a n c e m a p ) ,每个窗口得到2 5 6 维的特征,作为s v m 的输 入,由s v m 判断该窗口属于文字的置信度。对于每个文字区域,将窗口沿水平 方向移动,用一个高斯模型计算整个区域的置信度,以此判断是否为文字区域。 l i e n h a r t 2 4 使用r g b 颜色的梯度值作为特征。采用一个2 0 1 0 像素的滑动 窗口在图像上扫描,并用神经网络对窗口是否属于文字进行判断。算法还采用了 多级采样的方法检测多尺度的文字。最后用投影法得到文字区域的外接矩形。 2 4 1 3 基于纹理的方法 基于纹理的方法的基本思想是利用了文字区域在图像中呈现出独特的纹理 特性。通常采用各种滤波器,例如g a b o r 滤波器 2 5 、高斯滤波器【2 6 】,小波变 换【2 7 】和快速傅立叶变换 2 8 】等对图像进行纹理分割。 w u 2 6 1 采取了一个多尺度的纹理分割策略,用9 个二阶高斯导数滤波器进 行纹理分割,再经过非线性变换估计每个像素的局部能量,并用一个特征向量米 表示每个像素点。然后用k 均值算法对这些特征向量进行聚类,选出文字区域 类,以完成纹理分割。接着通过高斯二阶求导,产生强边缘点,并通过连通区域 聚集产生笔划,通过对笔划的过滤、聚集等步骤来形成候选的文字区域,并对其 进行过滤和扩张。其中笔划提取和文字区域的形成过程都是在多尺度上进行的, 以便能检测到不同大小的文字。 由于基于纹理的方法对文字的字体和尺度十分敏感,但又不可能为每一种文 字字体和尺度专门设计个滤波器,因此有很多基于纹理的方法采用了基于机器 学习的方法来自动产生滤波器。 l i 2 7 1 提出了一种基于学习的方法来检测视频中的文字。首先用一个1 6 1 6 的滑动窗口对小波变换后的图像提取特征,对每个窗口采用h a m 小波变换进行 分解,选择子图像的均值,二阶矩和三阶矩作为窗口的特征。然后用b o o t s t r a p 方法训练的神经网络对窗口是否属于文字区域进行判别,最后用连通区域的方法 产生文字区域的外接矩形。 j u n g 2 9 使用了一种类似的基于学习的方法,使用神经网络来对纹理区域进 行判别。与l i 2 7 的方法不同的是,j u n g 通过对r ,g ,b 三个颜色平面上的纹 o 复旦大学硕士学位论文:视频中的文信息提取刘洋 理特征进行提取,然后再进行判别。首先用三个神经网络对图像进行扫描,分别 对r ,g ,b 三个颜色平面进行分析,然后再用一个判别神经网络对前面三个神 经网络的输出结果进行判别,尽量使判别错误率摄小。判别后的图像经过平滑, 最后通过些先验知识,过滤掉一些非文字的区域,产生文字区域的外接矩形。 基于纹理的方法能够产生较高的检测精度。但是由于需要对整幅图像进行扫 描和纹理分割,并且基于学习的神经网络需要大量的训练,传统的基于纹理的方 法的计算代价太高。而且纹理分割时文字区域的边界定位不够准确,因此基于纹 理的方法通常与基于边缘的方法相结合,使计算代价与检测效果得到较好的平 衡。 由于视频和数字图像通常是以压缩形式存储、处理和转发的,因此出现了 些直接在压缩域上对文字区域进行检测的算法【3 0 【3 l 】。这些算法只需要对视频 进行部分解码,并通过分析d c t 系数和运动向量来实现快速的文字检测。 2 4 2 文字区域跟踪和增强 视频中的文字一般会持续出现一段时间,因此有越来越多的研究开始利用这 种时间上的冗余性来提高v i d e oo c r 的效率和效果。除了文字检测,关于文字 对象跟踪,增强的研究也渐渐成为人们研究的热点。 l e i h a r t 2 4 1 中描述了一种基于块匹配的文字跟踪算法。该文中将视频文字刘 象处理分为两个阶段:第一阶段是每隔一定时间对视频图像进行文字检测,一日 检测到文字区域则开始文字对象的跟踪阶段。在第二阶段中,算法根据文字对象 运动的速率,在相邻帧进行文字对象在该帧中的位置搜索,并采用块匹配算法计 算二者的相似度,将最匹配的区域作为文字对象在该帧的实例。文字区域在时间 轴上多个实例的组合成为一个完整的文字对象。这种方法不能检测淡入淡出或者 文字区域大小发生变化的文字对象。 l 1 1 3 2 3 3 提出了一种能够追踪运动文字的算法,他们根据文字区域的运动 模型,使用相邻帧相应位置像素灰度值的最小平方差s s d 作为相似度,基于这 个相似度来进行文字区域的搜索,并采用多分辨率的策略来减小计算量。当文字 的运动变得复杂时,采用文字区域的边缘轮廓信息来确保文字跟踪的准确性。该 文提出的文字跟踪算法不仅能够跟踪简单线性运动的文字,还能够跟踪进行复杂 运动,包括滚动文字,缩放文字,以及进行任意运动的场景文字。 视频中文字出现的时间冗余性不仅能用于文字跟踪,而且还能用于文字增 强,提高文字分割效果。s a t o 2 采用了一种线性差值的方法来对较小尺度的字符 进行放大,以提高其分辨率。首先s a t o 使用s m i t h 1 9 的方法对图像进行文字区 域的检测,然后采用子像素差值法来提高图像的分辨率。由于大部分背景物体是 复旦大学硕士学位论文:视频中的文字信息提取刘洋 运动的而文字区域相对静止,s a t o 利用这一特点进行前后多帧融合,提高了文字 区域的图像质量。并且他还提出了一种基于字符识别结果来反向增强文字分割效 果的算法。 h u a 在 3 4 】中提出了一种利用多帧融合来提高文字分割结果的算法。与 s a t o 2 算法不同的是,h u a 首先分析了文字对象跨越的各帧的对比度以及文字区 域内不同区块的对比度,然后只使用具有较高对比度的帧和区块来进行多帧融 合,这种有选择性的多帧融合能够更加有效的增强文字区域的对比度,提高文字 区域分割的效果。 w a n g 3 5 用了多帧融合( m f i ) 的方法来提高字符检测的性能与其它方法不同 的是,该算法先用m f i 处理视频帧,得到背景被模糊的图像后再进行文字区域 的检测,从而降低了虚警。 2 5 小结 本章主要介绍了视频图像中文字的表现形式和特点,给出了视频和图像中文 字处理的模型,并指出视频中的叠加文字是我们研究的主要对象。在第2 4 小节 中,介绍了视频文字处理方法的一些典型算法,包括基于连通区域,基于边缘检 测和基于纹理这三大类,这三类方法各有其优缺点,目前新提出的算法越来越倾 向于结合其中两种方法,使得文字检测的效果和性能得到全面的提高和平衡。 复旦大学硕十学位论文:视频中的文字信息提取 刘洋 3 1 简介 第三章基于关键帧的文字检测和识别 r u i 在 3 6 】提出了视频信息处理的典型层次结构,其中镜头是表达视频语义 的基本单位,因此基于镜头中关键帧的文字检测和识别,能够为视频建立中在本 章中,我们讲讨论如何处理静态图像中的文字,即不利用时间信息,在单帧视频 图像上检测,分割和识别文字。它对应于2 3 节中提出的文字模型中的文字对象 q ( q = a ,p ,口 ) ,文字检测的目标就是要从人( 人= a , ) 中确定某 个= p ,q ( 在此我们可以不确定q ) 。而利用时间冗余性对文字进行跟踪和 增强,即在确定了某个“后,确定整个a 的算法将放在第四章中讨论。 由于视频图像中的文字不是视频内容的主体,它可以叠加在任意背景上,受 背景干扰很大,这给检测和识别这些文字带来极大挑战。在2 4 1 小节中我们介 绍了耳前视频文字检测的主要算法,由于基于边缘的检测算法能够获得较好的检 测效果,并且在时间复杂度上比基于纹理分析的方法要低,因此近年来基于边缘 的检测算法获得了广泛而深入地研究。但是在检测视频字符时,这种算法会遇到 如下问题:首先,由于视频包含各种复杂的背景,而这种方法是基于边缘的丰富 程度等特性来判别文字区域的,因此在含有复杂背景的视频帧中,这种算法可能 会产生较高的误检,即虚警。另外,由于视频字符经常直接叠加在复杂的背景中, 字符区域周围的背景边缘经常会与字符边缘粘连在一起,从而影响字符区域定位 的准确性。为了解决上述两个问题,本章提出了一种基于改进的c a n n y 边缘检 测算子【3 7 】( 以下称c a n n y 算予) 并结合字符线条特征的字符检测算法。首先根 据字符边缘的特性,对c a n n y 边缘检测算予进行改进,使之尽可能检测到所有 字符边缘,同时抑制那些非字符的背景边缘。这样,经过改进后的c a n n y 边缘 检测器尽可能抑制非字符的边缘,从而降低了误检的可能性。第二,与众多基丁 边缘的检测算法不同的是,本算法不仅仅利用字符区域边缘像素的密度特性,而 且利用了字符边缘像素的空间分布和排列特征。即根据相邻边缘能够组成字符笔 划的线条这一特性,将边缘图像转化为线条图,并利用字符线条的特征来进行文 字区域的判别。通过对非字符线条的过滤,提高了文字区域定位的准确性。 对于文字区域二值化算法,尽管已经提出了很多基于图像的二值化算法,包 括全局二值化【3 8 】,局部二值化 3 9 】算法等,但它们对图像中文字区域的二值化 并不十分适用。由于视频和图像中的文字区域往往直接叠加在复杂的背景图像 上,因此必须采取其它辅助的方法来对背景进行过滤。我们提出了一种融合局部 复旦大学硕士学位论文:视频中的文字信息提取刘洋 二值化,连通区域分析,边界颜色填充等多种处理方法的文字分割算法,对于文 字的各种不同背景和叠加方式均能达到较好的分割效果。 3 2 基于改进的c a n n y 算子的视频字符检测 本章提出的基于改进的c a n n y 算子的视频字符检测算法包括以下四个步骤: ( 1 ) 对c a n n y 算子进行改进,解决c a n n y 算子阈值自适应问题,同时增强其 检测字符边缘的针对性: ( 2 ) 用线条追踪算法将二值边缘图像转化为线条图,提取线条特征,并根据 这些特征对线条进行初步过滤; ( 3 ) 将相邻的线条进行聚集,生成候选文字区域并对每个候选区域内的线条 进行进一步过滤; ( 4 ) 最后根据区域内线条分布特性,用一个训练好的神经网络和一些先验知 识对候选文字区域进行最终判别。 3 2 1 对c a n n y 边缘算子的改进 在众多边缘检测算子中,c a n n y 算予被称为最优边缘检测算子。j c a n n y 在 文 3 7 忡提出了边缘检测的三个准则: ( 1 ) 检测准则:是指没有漏检和误检这两类错误,c a n n y 算子通过最大化边缘 检测的信噪比来使发生两类错误的概率最小; ( 2 ) 定位准确性:是指使检测到的边缘位置与实际的边缘位置距离最小,c a n n y 算子通过求边缘定位估计的标准方差的最小值来使检测到的边缘尽可能 靠近实际边缘; ( 3 ) 单响应规则指将对一处边缘的多重响应压缩至单响应,c a n n y 算子通过局 部非最大化抑制的方法使产生的边缘均为单像素宽,即单响应。 由于c a n n y 算子的以上特点,它能够很好的还原物体的边缘轮廓,并且保证 边缘的单像素宽度,因此本算法决定采用c a n n y 算子对视频帧进行边缘检测。 但由于c a n n y 算子的出发点是检测图像中所有物体的边缘,在当视频帧含有较 复杂的背景时,大量背景物体的边缘也会被检测到,从而加大了检测字符的难度。 因此我们对c a n n y 算子进行改进,提高对字符边缘的查全率,而同时降低非字 符边缘的检测率。 c a n n y 算子通过非最大化抑制方法确定候选边缘,对边缘进行定位,得到候 选边缘点,然后用双阈值法进行边缘二值化。高阈值( n 砌) 用于确定强边缘点, 低阂值( t t o 。) 用于连接强边从而还原轮廓线。最终的边缘检测结果主要由高闽 复旦大学硕上学位论文:视频中的文字信息提取刘洋 值( t h g h ) 确定。实际上,死泐是一个百分比值,对应于边缘强度直方图中所有 非强边占总候选边缘数目的百分比。虽然这个百分比实现了一定程度的自动阈值 化,但是对于含有各式各样背景图像的视频帧,用固定的死蝴百分比还是会产 生大量非字符边缘,给后继处理带来较大的干扰以至于影响最终的检测结果。经 过大量观察,我们发现叠加字符通常相对于背景具有较高的对比度。尤其对于叠 加在背景复杂的图像中,字符必须具有较高的对比度,人眼才能容易识别。因此 如何定义图像的复杂度以及确定其与期望阙值的关系成为确定自适应阂值的关 键。 关于图像的复杂度,我们可以用非最大化抑制过程中得到的候选边缘数与图 像总像素的比值c a n de 叠印r a t i o 来表示。因为这些候选边缘点是具有局部最大 梯度值的像素点,图像背景越复杂,即含有的物体纹理越复杂,边缘信息越丰富, 那得到的候选边缘点也越多,因此c a n d 也越大。得到这个图像复杂_ e d g e r a t i o 度因子之后,为了确定图像复杂度与期望阈值( 乃础) 的关系,我们选择了1 0 0 幅 实验图像。这些图像背景复杂度各异,c a n d _ e d g e _ r a t i o 取值从0 1 4 到o 3 2 ,基 本覆盖了其合理取值范围。对每一幅图像,手工标定一个理想阈值,使得c a n n y 算子在这个阈值下检测出来的边缘对字符边缘具有较强的针对性,既响应了大部 分字符区域的边缘又抑制了非字符区域的边缘。图3 1 显示了c a n d _ e d g e _ r a t i o 与 阈值胁的建模图,图中绿色曲线是我们通过如下指数模型得到的, c a n t e d g er a t i o 图3 1c a n d _ e d g e _ r a t i o 与t u 曲的建模关系 丁 f 幽= 一p 一“”一8 啦一”“。+ ( 3 1 ) 其中,d 是一个非线性归一化因子,其大小决定了靠恸对c a n a l _ e d g e r a t i o 的敏感程度,b 则是平移因子,用于将乃耐的变化范围控制在 0 ,l 】内。在实验巾, 取n :1 1 ,芦= 。从公式3 1 中我们可以看到,死劬随着c a n de d g e _ r a t i o 增大而非 线性增大。当图像背景较复杂,产生较多候选边缘点时,期望阈值则更高。因此 复臣大学硕上学位论文:视频中的文字信息提取划洋 改进后的c a n n y 算子将根据公式3 i 计算t h t g h ,这样得到的自适应阈值较接近期 望阈值,因此c a n n y 算子会倾向于检测具有更高边缘强度的边缘点,这些边缘 点通常包括了所有的字符边缘点,从而有效的抑制了那些边缘强度较小的非字符 边缘。 然而,直接这样确定阈值有可能会把一些字符边缘也过滤掉,尤其是当图像 整体复杂度较大,但是某一部分文字区域的对比度不够强的时候。我们注意到 c a n n y 算子在确定强边缘点时只利用了灰度图中的梯度信息,并未利用彩色图像 的信息。进一步考察字符区域的像素各颜色分量的边缘梯度模值的特点,注意到 叠加字符通常有较强的颜色对比。通过实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年贵港市教育局选调直属事业单位考试笔试试题(含答案)
- 2025年宁夏中考地理试题卷(含答案解析)
- 互联网医学考试题及答案
- 网络广告推广及效果评估合同
- 湛江一中大考试卷及答案
- 公务员时事政治试试题及答案2025年
- 腹膜炎护理考试题及答案
- 人保车险笔试题目及答案
- 泉州大队委笔试题目及答案
- 内燃机原理考试题及答案
- 财务管理分析毕业论文
- 2025年《临床执业医师》考试试卷及参考答案
- BSCI验厂一整套文件(含手册、程序文件及表单汇编)
- 儿科泌尿道感染护理查房
- 2025年国防知识竞赛题库及答案(共300题)
- 胃肠胰神经内分泌肿瘤诊疗指南2025年版
- 抗肿瘤药物安全防护与管理
- 2025年综合类-油漆工考试-高级油漆工考试历年真题摘选带答案(5卷单选100题合辑)
- 超声科医生进修成果汇报
- 国家能源集团陆上风电项目通 用造价指标(2025年)
- 融媒体中心保密方案
评论
0/150
提交评论