(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf_第1页
(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf_第2页
(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf_第3页
(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf_第4页
(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于som的视频中人工文本检测方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

v i d e oa r t i f i c i a lt e x td e t e c t i o n c a n d i d a t e :y uj i a s u p e r v i s o r :a s s o c i a t ep r o f w a n gy a n a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g j n l l l n n r 8 0 7 9 6 2 o f s p e c i a l i t y :c o m p u t e rs o f t w a r ea n dt h e o r y d a t eo fs u b m i s s i o n :j a n u a r y , 2 010 d a t eo fo r a l 【e x a m i n a t i o n :m a r c h ,2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 触l 一 i 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中己注明引用的内容外, 本论文不包含任何其他个人或集体己经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :孑位 日期:帅年易月形日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 留在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :寸住 日期: 洲口年易月日 导师( 签字) :互蒸 山易年多月6i s 哈尔滨工程大学硕士学位论文 摘要 视频中的人工文本是表达视频语义信息的重要手段之一,对它的有效检 测、定位与提取对于视频的分析理解和检索等应用都具有十分重要的意义。 论文在对现有文本检测方法的研究基础上,针对大多数文本检测方法受 到文本位置与语种的限制问题,给出一种视频中非限定性人工文本区域的检 测方法。首先,重点研究s o m 神经网络的特点,提出一种基于有导师学习 的s o m 神经网络分类器,从而使s o m 在文本检测中能够对分类后的像素进 行分类标记。其次,根据视频中人工文本区域存在强烈边缘的特点,采用s o b e l 边缘检测算子提取图像的边缘特征,提取出的特征作为特征向量的一部分。 因为视频中人工文本区域与背景存在着明显的边缘,而s o b e l 算子不但具有 方向性并且它检测到的边缘一般大于两个像素,能较好地描述图像边缘特征。 然后,针对人工文本区域出现位置不同的问题,结合分类器的结构,给出区 分人工文本区域与背景的特征向量的基本形式,利用有导师s o m 分类器初 步定位目标文本区域。最后,采用基于形态学的方法对目标文本区域进行处 理,用以处理由于分类器的误判而出现的一些噪声点和空洞,并对精确定位 的目标文本区域进行后期处理。实验表明,论文给出的方法能够有效检测并 定位视频中的非限定性文本区域。 关键词:视频人工文本检测;非限定性区域;s o b e l 算子;s o m ;有导师学 习 伽誓 仅 , - q t h ep i x e l sc l a s s i f i e d t h e n ,b yg e t t i n gd e t a i lk n o w l e d g eo fe d g ef e a t u r eo ft h e v i d e oa r t i f i c i a lt e x ta r e a ,s o b e le d g ed e t e c t i o no p e r a t o ri st h e e f f e c t i v ew a yt o e x t r a c tt h ei m a g ee d g ef e a t u r e s t h ef e a t u r e sa b s t r a c t e dw e r eu s e dt ob eap a r to f f e a t u r ev e c t o r b e c a u s et h e r e sac l e a re d g eb e t w e e nv i d e oa r t i f i c i a lt e x ta r e aa n d b a c k g r o u n d ,w h i l et h es o b e lo p e r a t o rn o to n l yh a st h ed i r e c t i o nb u ta l s ot h ee d g e i tg e t si ng e n e r a li sg r e a t e rt h a n2p i x e l s s oi tc a nb eu s e dt od e s c r i b et h ei m a g e e d g ef e a t u r e sb e t t e r f o rt h ep r o b l e m o fd i f f e r e n to c c u r r e n c e so fa r t i f i c i a lt e x ta r e a , c o m b i n e ds t r u c t u r eo ft h ec l a s s i f i e rp r o p o s e d ,ab a s i cf o r mo ff e a t u r ev e c t o r si s g i v e n t h e nt h es u p e r v i s e ds o m c l a s s i f i e ri su s e dt oc l a s s i f yt h e mt og e tt h e i n i t i a lt a r g e tt e x ta r e a f i n a l l y , t h em o r p h o l o g y b a s e da p p r o a c hi su s e dt op r o c e s s t h et a r g e tt e x ta r e at or e m o v et h en o i s ep o i n t st oe l i m i n a t et h ep r o b a b i l i t yo f m i s c l a s s i f y i n go ft h ec l a s s i f i e r t h e np e r f o r mt h ep o s t - p r o c e s s i n go ft h ep r e c i s e p o s i t i o n i n gt a r g e tt e x ta r e a e x p e r i m e n t ss h o wt h a tt h em e t h o dp r o p o s e dc a r l e f f e c t i v e l yd e t e c ta n dl o c a t et h ev i d e ou n l i m i t e da r t i f i c i a lt e x ta r e a k e y w o r d s :v i d e oa r t i f i c i a lt e x td e t e c t i o n ;u n l i m i t e da r e a ;s o b e lo p e r a t o r ;s o m ; s u p e r v i s e dl e a r n i n g 仅 、 1 3 论文的主要研究内容一6 1 4 论文的组织结构6 第2 章文本检测相关理论与技术8 2 1 文本检测方法概述8 2 2 边缘特征提取方法综述l o 2 2 1 特征提取的原则1l 2 2 2 基于边缘算子的特征提取方法11 2 3s o m 基本原理1 6 2 3 1s o m 简介17 2 3 2s o m 的结构1 8 2 3 3s o m 的学习过程及学习算法1 9 2 3 4 分类器设计的原则和目标2l 2 4 形态学基本理论2 2 2 4 1 二值形态学运算2 2 2 4 2 形态学常用算法2 4 2 5 本章小结2 5 第3 章有导师s o m 分类器的设计与研究一2 6 3 1 神经网络学习规则简介2 6 3 2s o m 的特点分析2 7 3 3 有导师s o m 分类器的设计2 9 3 3 1 有导师s o m 的结构一2 9 3 3 2 有导师s o m 的学习算法一3 1 3 4 特征的选择与提取3 3 3 5 本章小结3 5 7 r h , 哈尔滨工程大学硕十学位论文 第4 章有导师s o m 分类器的性能分析3 6 4 1 样本向量的设计与样本集的获得3 6 4 2 非限定性人工文本区域的定位3 7 4 2 1 有导师s o m 分类器的训练一3 7 4 2 2 文本区域的初步定位3 9 4 3 文本区域的精确定位和后期处理4 1 4 3 1 目标文本区域的精确定位4 1 4 3 2 目标文本区域的后期处理4 3 4 4 有导师s o m 的性能分析4 6 4 4 1 在简单分类问题中的性能分析4 6 4 4 2 在文本检测中的性能分析5 0 4 5 本章小结5 4 结论5 6 参考文献5 8 攻读硕士学位期间发表的论文和取得的科研成果6 4 致谢一6 5 人物、背景、文字等。其中,人工文本作为高级语义信息的一种表达形式, 成为了最炙手可热的资源,所以,如何对视频中的人工文本进行检测、提取 和识别就成了当前研究的重点。 视频中的人工文本可以应用在很多领域,如视频注释、视频索引、视频 的分析和查找等。例如,基本上在所有的电视节目中,屏幕的上方( 左上 角或右上角) 都有以图片形式存在的的台标1 2 1 ,可以将这样的台标检测、识 别出来并存储在数据库中以备用作注释或者索引;在新闻视频中,播音员或 记者的名字及其所在新闻现场的地址等信息经常出现在屏幕上,可以通过提 取这样的文本来记录这些重要的信息;歌手和演员的名字、主持人和嘉宾的 名字等一些简单的信息也是通过类似的形式表示出来的。因此,通过检测和 识别人工文本区域中的字符,并将检测出的字符以一定的规则和形式存入数 据库,就可以利用这些重要的信息对视频进行索引。如体育节目可以通过分 数和参赛队的名字或者运动员的名字进行检索。视频中的人工文本也可以应 用在文本分析和文本分类中,如视频的主题、比赛的分数等。在视频图像 中,经常会出现一些包含如标题、频道代码、比赛分数等一些“空间代号” 的字符块,根据这些字符块也可以对某些感兴趣的信息进行索引。通过对文 本“移动轨迹”的观察,可以发现视频中存在着滚动的、静止的或者飞动的 文本,如滚动文本的出现通常表示着电视节目的开始或结束,这个信息可以 帮助人们找到节目的“时间边界 。还有一种比较有趣的应用就是检测和识别 k 一 哈尔滨工程大学硕士学位论文 在比赛、脱口秀节目或者新闻视频中的滚动字幕,这些滚动字幕一般表示的 是一些观众发来的信息或将来要发生的事情,如天气预报、股票涨幅等,利 用这些滚动信息可以提取并恢复一些视频所表达意思之外的信息以备以后查 询或补充信息使用。 目前应用最广泛的视频检索技术1 1 7 就充分利用了视频中的大量文本信 息。视频资源的不断增加导致了多媒体数据库的迅速扩充,在一个视频节目 的数据库中,要快速查找某段节目或者视频中的哪几帧是否存在、播放的起 止时间等信息,如果靠人工查找,这个过程既耗时又费力、效率低、劳动强 度大。因此,需要建立一套智能的视频检索系统,以提高视频检索的效率。 现在,视频检索技术已成为各国学者研究的热点问题,在众多的视频检索系 统中,效果最好的是基于语义信息的视频检索系统,因为目前出现的视频信 息除了图像底层信息( 如背景、人物等) 之外,大都用一些语义信息( 如文 本、音频) 来记录视频所要表达的内容。随着各种视频的不断涌现,不同种 类的应用也接踵而来,而对于一些应用来说,仅仅使用文本信息对视频进行 检索也满足不了需求了。如用户可能提出一个检索有关喜剧大师卓别林的视 频的要求,而这种要求是不能仅仅用图像底层信息来定义的,所以,只有将 视频中的高级语义信息( 如人工文本) 与图像底层信息结合起来,才有可能实 现基于某种主题的视频检索,因此,视频检索技术面临着一定的困难与挑战。 从以上人工文本检测的意义可以看到,视频中人工文本检测的应用非常 广泛。在众多的应用中都需要精确的语义信息表示,要从视频中的人工文本 中得到非常精确的语义信息表示,就要求能够对视频中的人工文本进行精确 地检测、定位与提取。因此,就要不断改进方法,侵人工文本能够在视频检 索等实际应用中更好地发挥作用。 1 2 国内外研究现状 从图像和视频中提取文本是一个比较新的研究课题,其中,视频中人工 文本检测更是吸引了许多研究者的目光,他们也给出了很多不同的、有效的 2 哈尔滨t 程大学硕七学位论文 方法,近几年人工文本检测方法的发展也很迅速: v l a d i m i ry m a r i a n o t 4 j 和a m i e n e t - j 等人提出的方法都是基于颜色分割的方 法。这两种方法都是首先根据图像在颜色空间的分布特征将图像进行分割, 然后再将具有类似颜色特征的块融合起来,完成文本与背景的分割。文献 4 给出的方法能够有效定位文本区域,缺点是只能定位水平的、同一颜色的文 本;文献 5 给出的方法对高分辨率的图像效果较好。 s a t o 和t e ob o o nc h e n 【7 】等人利用了视频的实时性来增强文本区域。首 先利用文本区域的边缘统计信息,得到初步定位的文本区域,然后利用多帧 结合的技术增强文本区域。这两种方法都得到了比较不错的识别率,文献 7 】 给出的方法对低分辨率的视频图像能够达到8 5 的识别准确率。 q i x i a n gy e 卅和k w a n gi nk i m 9 】等人则是通过提取图像的纹理统计特征区 分文本与背景。文献 8 在使用小波能量分析的方法提取出纹理特征之后,使 用s v m 分类器从候选文本像素中识别出文本像素,进而得到了精确定位的 文本区域。该方法检测速度快,对于在复杂背景下的文本行有很强的鲁棒性。 文献 9 也使用了同样的方法,但它对小文本和低分辨率的图像检测效果一 般。 l e b o u r g e o i sr j o l 和c w o l l q j 等人均使用累计灰度这个统计特征对文本进 行定位。文献 1 0 使用累计灰度将图像二值化后送入o c r 软件进行识别,得 到了较好的检测效果。文献 1 1 】首先使用累计灰度和形态学方法定位文本区 域,然后使用多帧整合技术提高文本定位质量,最后给出一个基于标准化局 部对比度的二值化方法对图像进行二值化,并使用o c r 软件得到最终的字 符识别结果。 l i v : 、c l a r k i j 3 1 、w e m i k e v 4 、j u n g 1 5 】和z o h r as a i d a n c tj 6 j 等人在提取出图像 的各种统计特征的基础上,使用神经网络分类器根据这些统计特征将图像中 的像素进行分类,进而初步定位文本区域的方法。文献 1 3 结合边缘强度、 直方图系数等多种特征对图像中的像素进行分类,该方法的检测准确率较高。 文献【1 4 】首先提取出各个方向的边缘强度作为特征,然后使用神经网络进行 哈尔滨工程大学硕士学位论文 分类,该方法对边缘特征突出的图像检测效果较好。文献 1 5 1 直接使用像素 的灰度值作为神经网络分类器的输入对区域进行分类,检测它们是否包含文 本,该方法对灰度对比度大的图像效果较好。文献 1 6 提出了一种从场景图 片中提取彩色文本特征的自动识别方法。使用卷积神经网络作为分类器,从 i c d a r 2 0 0 3 ( 2 0 0 3 ,i n t e r n a t i o n a lc o n f e r e n c eo nd o c u m e n ta n a l y s i sa n d r e c o g n i t i o n ) 公共训练数据库中选择标准的场景文本图片作为训练集。该方 法证明卷积神经网络对于扭曲的、背景复杂的、分辨率低的图片的识别都具 有很强的鲁棒性。c h e n 等1 1 9 1 弓i 入了机器学习中的a d a b o o s t 方法,通过集成 学习选取最好的一组特征。该方法在i c d a r 2 0 0 5 ( 2 0 0 5 ,i n t e r n a t i o n a l c o n f e r e n c eo nd o c u m e n ta n a l y s i sa n dr e c o g n i t i o n ) c 2 0 j 自0 竞赛中获得了第二名 的好成绩。文献 2 2 1 和 2 3 1 也采用了类似的方法。 z h o n g t ,】和c r a n d a l l 等m 】都是通过从d c t 系数中计算水平和垂直纹理能 量来区分文本区域和非文本区域,但是,也只对较大的文本有较好的检测结 果。 t e k i n a l p t 2 。】和硒m 【:s 】等人则是综合利用了纹理、对比度和颜色等多种信息 进行文本检测。这种多特征结合的方法大大提高了检测的效果。 以上各种文本检测方法大致可总结为这几种:基于分割的方法】,基于边 缘的方法缸7 】,基于纹理的方法f r9 】,基于几何特征的方法1 1 0 】1 】,基于学习的方法i 协怕 1 9 2 0 2 2 埘,基于压缩域的方法【n - r 】,基于多特征结合的方法【1 3 2 12 4 , - - 2 6 。 基于分割的方法是指将文本与背景视作两种不同的结构,通过计算文本 与背景的一些统计信息,如纹理、边缘、颜色等,将文本从背景中分离出来。 目前,这种方法使用颜色特征进行分割的效果比较好,缺点是适合于高分辨 率的图像,对于低分辨率的视频图像来说就失去了作用。 基于边缘的方法是指利用文本与背景之间存在的强烈变化的梯度而形成 的强烈边缘作为分界线将文本与背景进行分离的一种方法。由于视频中的人 工文本是在后期处理时后加上去的,因此,文本与背景之间存在着明显的边 缘,即在二者的分界处形成了非常明显的梯度变化,所以这种方法对于视频 4 哈尔滨工程大学硕士学位论文 中的人工文本检测非常有效。缺点是当背景中存在具有与文本相似的边缘特 性时,会将其误判为文本,降低文本检测准确率。 基于纹理的方法与基于边缘的方法有异曲同工之处,它也是利用图像中 文本的特殊纹理将其与背景进行分离。这种方法在处理背景复杂的图片时要 比基于分割的方法有更强的鲁棒性。缺点是在寻找图像中文本的纹理规律时 非常耗时。并且,当背景中存在具有与文本相似的纹理结构时也会出现定位 不准的现象。 基于几何特征的方法主要是通过形态学手段来定位并不断细化文本区 域,这种方法对于那些边缘或纹理特征不明显的图像来说是一个好办法。但 是由于图像中存在着许多具有不同几何特征的物体,因此,这种方法并不总 是可行的。 基于学习的方法是近几年发展较快的一种方法,这种方法将文本检测归 于模式分类问题中,将文本与背景以及图像中的一些噪音等视作不同的模式, 首先通过某种方法得到各个模式的统计特征,然后构造分类器,并使用该分 类器对这几种模式进行分类,进而得到初步定位的文本区域。这种方法是一 种智能分类方法,虽然在分类器得到充分训练的前提下,对几乎所有的分类 问题都有很好的鲁棒性,但是由于训练样本的好坏影响了分类器的性能,所 以训练样本也是影响分类效果的重要因素之一。 基于压缩域的方法是一种利用在图像压缩域中存在的一些统计特征将文 本与背景进行分类的方法,这种方法只能对那些大文本进行检测,对于小文 本来说效果很不理想。 基于多特征结合的方法是由于很难找到单一的具有很强鉴别能力的特征 而产生的。由于图像的形成过程会受到一些因素的影响使得图像中的文本具 有的某种特征被破坏,而这种破坏又是人眼所看不到的,多特征结合的方法 就解决了这个问题。这种方法对各种类型的图像都有很强的鲁棒性,缺点是 耗时耗力。 虽然视频中人工文本检测这个研究领域发展的还不是很成熟,但是已经 哈尔滨工程大学硕七学位论文 在许多应用中做出了贡献,如视频的检索和恢复等,很多学者也给出了人工 文本检测的方法,但是每种方法中都会不可避免地出现一些缺陷,因此,在 视频中的人工文本检测上,还面临着很多挑战。 1 3 论文的主要研究内容 视频中人工文本的检测、定位与提取的方法经常受到各种各样因素的影 响,如图像背景的复杂程度、视频图像的分辨率、文本出现的位置、文本语 言的种类等,具有一定的难度。针对目前大多数文本检测方法只能检测出固 定位置、固定字体的文本区域的问题,论文给出一种基于s o m 的视频中非限 定性人工文本区域检测方法,主要包括以下几方面工作: ( 1 ) 对目前的文本检测方法进行研究和分析,总结各种方法的特点以及 其中存在的问题。对比分析基于边缘算子的边缘检测方法的特点,并给出对 比分析的结果。 ( 2 ) 提出一种基于有导师学习的s o m 神经网络分类器,构造该分类器的 结构并给出相应的学习算法,用以解决s o m 在文本检测中不能对分类后的结 果进行分类标记的问题。针对人工文本区域出现位置不同的问题,结合有导 师s o m 分类器的结构给出区分人工文本区域与背景的特征向量的基本形式, 利用该有导师s o m 分类器对人工文本区域和背景进行分类,得到初步定位目 标文本区域。 ( 3 ) 针对由于分类器误判出现的噪声点及空洞,采用形态学方法对其进 行去噪和填补空洞的处理,得到精确定位的目标文本区域。对文本区域进行 后期处理,并送入o c r 识别软件进行字符的识别。最后,通过实验比较与分 析有导师s o m 分类器的性能。 1 4 论文的组织结构 第1 章绪论。介绍论文研究课题的背景和意义,简述并总结国内外文本检 测领域的研究现状,给出论文的主要研究内容和论文的组织结构。 6 哈尔滨工程大学硕士学位论文 第2 章文本检测相关理论与技术。总结视频中文本的分类、特点以及文本 检测方法的分类、一般步骤和存在的难点:阐述特征提取的原则以及分类器 设计的原则和目标;介绍常用的边缘特征提取方法并分析各自的特点,给出 对比分析的结果;简单介绍无导师s o m 的基本原理以及形态学的基本原理。 第3 章有导师s o m 分类器的设计与研究。描述神经网络的学习规则;总 结并分析s o m 的特点,针对其在视频中人工文本检测中不能对分类的结果进 行类别标记的问题,提出一种基于有导师学习的s o m 0 0 经网络的结构及相应 的学习算法;分析视频图像中人工文本区域的特性,采用s o b e l 算子提取图像 边缘特征。 第4 章有导师s o m 分类器的性能与分析。结合视频图像的边缘特征与视 频中人工文本的位置特征,给出特征向量的基本形式并构成样本集;设置有 导师s o m 分类器的各个参数,并对其进行训练,初步定位目标文本区域;对 目标文本区域进行去噪、增强以及二值化的处理,得到精确定位的文本区域 并使用o c r 软件进行字符识别;最后,通过实验对比分析有导师s o m 分类器 的性能。 最后,对论文的工作进行总结,指出进一步的研究方向。 哈尔滨工程大学硕+ 学位论文 第2 章文本检测相关理论与技术 文本,无论在生活中还是工作中都是一种非常重要的记录各种语言和表 达高层语义信息的工具。在数字视频图像中,与其他的底层信息( 背景、人 物等) 相比,文本直接表示了视频所要表达的语义信息。视频中的文本分为 两种:场景文本( s c e n et e x t ) 和人工文本( a r t i f i c i a lt e x t ) u 2 1 。场景文本指 的是在视频采集的过程中被采集到的物体上存在的文本,如街道上的标志牌、 车辆的牌照、人物衣物上的标记等;人工文本是在对视频进行后期处理时人 为地加到视频中去的、以图片形式存在的区域,如台标、人物姓名、视频标 题、滚动字幕等,它的作用主要是总结视频内容,并直观地表示出来。论文 的主要研究对象为视频中各式各样的人工文本。 文本检测并不是一种单一的图像处理技术,其中还包括了许多相关领域 :的理论与技术,如特征提取、分类器设计等,对这些知识的理解与合理的运 用是能够有效完成文本检测的重要前提。下面就简单介绍一下文本检测中的 一些相关理论与技术。 2 1 文本检测方法概述 为了检测并提取出具有丰富特征的视频中人工文本,许多研究者都作出 了努力,并提出了许多有效的方法。通过对中外文献的阅读与总结,将文本 检测方法分为两类: 1 基于统计特征和分类器的方法 这种方法将文本和非文本看成不同的块。首先使用各种各样的方法,如 g a b o r 滤波,空间变换,或者小波变换计算纹理特征或者文本块的其他统计 特征,然后选择一个合适的分类器,如神经网络或支持向量机来区分文本块 和非文本块,进而定位文本区域。 哈尔滨工程大学硕士学位论文 2 基于增强对比度的方法 这种方法假设文本笔划对于背景来说有一定的反差,并使用不同的方法 不断增加这种对比度,那些有强边缘密度和强对比度的区域则被作为文本区 域检测出来了。 从以上两类文本检测方法可以看出,目前视频图像中的文本检测方法的 流程大体上是一样的,都包含了图像的预处理、文本区域定位、文本区域的 后期处理以及最后的字符识别几个步骤,但是,由于采取的具体方法与使用 的图像特征不同,所以在具体流程上还存在着一定的差异。 两类视频中文本检测方法的基本步骤见图2 1 。 视频帧 s z 提取图像 s z 图像预处理 z 、 计算文本块的 统计特征 。z 得到i l l i 练样本集 二z 一 训练分类器 z 定位文本区域 z 文本区域后期处理 s z o c r 字符识别 、z 根据图像的强对比度 特性定位文本区域 7 文本区域后期处理 t 一 玉z o c r 字符识别 ( a ) 第一类方法步骤( b ) 第二类方法步骤 图2 1 文本检测方法步骤 图2 1 所示的方法中,第一种方法的重点是提取出文本与非文本的标志性 特征,使得利用这种特征训练出来的分类器能够很好地将文本与非文本进行 分类,从而得到初步定位的文本区域;在这种方法中,构造一个合适的、鲁 棒的分类器也是研究的重点。第二种方法利用图像中文本与背景之间的强对 比度来提取文本,它将重点放在增强图像中的这种强对比度特性,首先对图 9 一删一一一一一一一 哈尔滨t 程大学硕士学位论文 像进行预处理,去除图像中包含的噪声,然后使用图像增强算法进一步增强 图像中文本与背景之间的对比度,使得文本能够在图片中更加突出。这两种 方法都包含了对目标文本区域的后期处理,这种后期处理是根据目前的o c r 识别软件的特点而增加的一个步骤。目前,大多数o c r 识别软件都只能识别 分辨率较高的二值图像,由于视频图片的分辨率参差不齐,通过各种方法得 到的文本区域也会由于某种原因而带有一定的噪音,因此,要提高o c r 软件 的识别准确率,就要对得到的文本区域图像做进一步的后期处理。在众多的 文本检测方法中,还有许多利用了视频序列的时序性特点,在方法中又加入 了多帧结合、文本轨迹跟踪等技术,使得文本区域的定位更加准确,提高了 文本检测的准确率。 虽然目前的文本检测方法很多,但视频图像中的人工文本检测还存在着 一些难点,如视频种类繁多,分辨率等硬性条件不适合文本检测;视频中人 工文本的种类很多,以至于在检测时会将不需要的文本也随之检测出来,需 要进一步的后期处理将其去除,加大了工作量;许多视频由于在拍摄时受到 周围其他因素的影响。如外界环境中光照不均、使用的采集设备功能较弱、 后期处理方法效果不好等,使得提取出的图像中包含着各式各样的噪音,增 加了对视频图像进行分析的难度。总之,目前存在的许多方法并不能对所有 图像中的文本进行检测,因此,文本检测方法还有待于进一步研究。 2 2 边缘特征提取方法综述 通过阅读大量文献及对视频中人工文本的研究分析发现,视频中的人工 文本具有这样一些特征:由于人工文本是人为地加到视频中去的,因此,文 本区域与背景之间存在着非常强烈的边缘,并且,加入人工文本的目的是使 得观众能够在清楚辨别字符的前提下更好地理解视频内容。因此,人工文本 与背景之间有很强的对比度;不同“功能”的人工文本在视频中所处的位置 不同,“功能”是指人工文本表达的内容和意义。如台标一般出现在视频上方 的两个角落上,标题文本一般出现在视频下方三分之一处,而滚动字幕则一 般出现在视频下方的四分之一处等;人工文本具有一些特殊的纹理;在同一 1 0 哈尔滨工程大学硕士学位论文 行或同- - n 文本中各个字符具有相似的颜色或亮度;对于字幕或标题等人工 文本,每个字符之间都具有一定的间隙,并且同一文本条内字符之间的距离 保持不变;新闻标题、台标和滚动字幕等文本与视频图像的上下边缘之间有 固定的距离。 视频中的人工文本区域是论文研究的唯一目标,因此,熟悉并了解视频 中人工文本的特性是论文工作的重要开端。在了解这些特征之后,就应该选 择合适特征并将其提取出来了。 特征提取是图像处理领域的关键技术之一,提取出的特征能否正确描述 识别目标直接决定着识别的准确率。在基于学习的文本检测方法中,特征提 取结果直接影响着分类器的性能,而视频中的人工文本又具有很多特征。因 此,选择并提取能够正确描述识别目标的特征也是论文的研究重点之一。图 像特征提取方法随着图像处理技术的发展不断改革创新。现有的特征提取方 法可分为以下几种m 1 :颜色或灰度等统计特征的提取、纹理或边缘特征的提 取、代数或几何特征的提取、变换系数特征的提取。 2 2 1 特征提取的原则 在特征提取过程中,提取的特征不同,使用的方法也不同,但是对所有 的特征提取方法来说,都应该遵循以下原则【3 7 】: ( 1 ) 提取出的特征应能正确描述待分类模式; ( 2 ) 特征提取方法应准确率高且速度快; ( 3 ) 提取出的各类特征之间应具有尽可能小的关联; ( 4 ) 提取出的特征数量应在能充分描述模式的前提下尽可能少; ( 5 ) 提取出的特征应具有较好的抗噪能力。 无论使用何种方法提取特征,遵循以上原则提取出的特征才是解决模式 分类问题的最优选择。下面主要介绍一下边缘特征的提取方法。 2 2 2 基于边缘算子的特征提取方法 边缘通常出现在两个不同区域相连接的地方,在数字图像中,相邻像素 1 1 哈尔滨工程大学硕士学位论文 间的明亮度差异即产生了边缘。图像的边缘特征一直都是图像处理中使用最 多的特征,对边缘特征的有效检测和提取也是长期以来许多学者努力的方向 1 3 0 - - 3 1 。虽然现在已经有了很多种边缘特征提取方法,但是图像中的边缘并不 总是一成不变的,其中经常会参杂由于不同因素引起的噪音,增加了边缘提 取的难度,因此,如何能够有效地检测和提取边缘特征还需要进一步的研究 与探索。 经过多年的研究,已经有一些方法被认定为是固定且有效的方法,即基 于边缘算子的边缘检测方i 去【:7 】。使用边缘算子模板进行边缘检测实际上就是 使用算子模板( 卷积核) 的中心点在图像中横向或竖向依次移动,并计算图 像中的每个像素点与模板的卷积,最终的结果即为图像的边缘。基于边缘算 子的边缘检测方法原理简单易懂、检测速度快、效率高,是非常好的边缘特 征提取方法。下面就简单介绍几种边缘检测算子。 1 基于r o b e r t s 算子的边缘检测 r o b e r t s 算子是最早出现的边缘检测算子,它利用局部差分算子来计算边 缘。计算公式如下: a i ,j = if i ,j 卜f i + l ,j + 1 i + if i + 1 ,j 一f i ,j + 1 】i ( 2 - 1 ) 其中,a i ,j 为点( f ,) 处的梯度近似值,f i ,j 为数字图像中像素点( f ,) 的值。式2 1 可以用它的两个算子模板通过计算它们与各个像素的卷积来实 现,r o b e r t s 算子的模板见图2 2 。 田罔 ( a )( b ) 图2 2r o b e r t s 算子模板 图2 2 中给出的算子模板是一个2 x 2 矩阵,并且是一个交叉梯度算子,利 用这两个算子与图像中的像素计算得到的卷积和即为该像素点的总梯度值。 r o b e r t s 算子对于梯度变化明显的低噪声图像处理效果较好,对边缘的定位比 1 2 哈尔滨工程大学硕士学位论文 较准确。但是,由于它是2 x 2 的模板,没有明显的中心点,在与图像中各像 素做卷积运算时存在一定的困难。 2 基于p r e w i t t 算子的边缘检测 p r e w i t t 算子矛d r o b e n s 算子类似,也有两个模板。 p r e w i t t 算子的模板定义见图2 3 。 111 1ol k 00o lo1 蝇 ll1 1 o 1 ( a )( b ) 图2 3p r e w i t t 算子模板 图2 3 中,模板( a ) 计算的是垂直边缘,模板( b ) 计算的是水平边缘, 取两者的最大值作为该像素点的边缘值。 p r e w i t t 算子在检测图像边缘的过程中经常会丢失一些重要的边缘信息, 因此,应用不是很广泛。 3 基于s o b e l 算子的边缘检测 s o b e l 算子是一种一阶微分算子,各像素4 邻域内像素对它的影响较强, 而4 个对角像素对它的影响较弱,并且,s o b e l 算子是有方向的,能计算出水 平、垂直以及对角方向的边缘。计算公式如下: 广。= m = s :+ s : 其中,s 。和s ,分别为水平边缘和垂直边缘,它们的计算公式如下: s 。= ( a 2 + c 口3 + a 4 ) 一( a o + c a 7 + a 6 ) s 、= ( a 0 + c a l + a 2 ) 一( 口6 + c a 5 + a 4 ) 其中,口,f = 0 7 为图像中像素点八邻域内各像素点的值,c 为算子模 板中绝对值大于1 的参数值。 s o b e l 算子的四个3 x 3 模板见图2 4 。 哈尔滨工程大学硕十学位论文 21o 101 o12 01 , 一 1o1 , 1 0- ( a )( b )( c )( d ) 图2 4s o b e l 算子模板 在图2 4 的四个模板中,模板( a ) 计算的是垂直边缘,模板( b ) 计算的 是水平边缘,( c ) ( d ) 两个模板则计算的是对角的边缘,其中模板( a ) 和 模板( b ) 比较常用。使用各模板求得的卷积最大值作为该像素点的边缘值。 s o b e l 算子对灰度渐变、噪声较多的图像处理效果比较好。 4 基于拉普拉斯算子的边缘检测 虽然各算子的实质都是求偏导数运算,但与r o b e r t s 算子不同的是拉普拉 斯算子是一个二阶导数。拉普拉斯算子对噪声非常敏感,并且,它不能检测 出边缘的方向,因此,为了克服这个缺点,需要预先对图像进行平滑去噪处 理。在后来的发展中,这种平滑去噪的处理慢慢与边缘检濒 方法融合起来, 提高了边缘检测的效率。将高斯滤波和拉普拉斯边缘检测算子结合起来就形 成了l o g ( l a p l a c i a no f g a u s s i a n ) 算法: ,一生二 v 2 9 ( x ,y ) = ( 竽) p 2 盯! 其中,g ( x ,y ) 为平滑函数;工,y 为图像中各像素点的整数坐标;o 为高斯 分布均方差。对平滑后的图像做拉普拉斯变换,根据卷积求导得到: h ( x ,y ) = v 2 g ( x ,y ) 木f ( x ,y ) 使用l o g 方法可降低运算复杂度,但经该方法处理过的图像会变得模糊。 5 基于c a n n y 算子的边缘检测 c a n n y 算子也是一种一阶算子,它首先使用准高斯函数平滑图像, f ,】: s i ,j - g i ,j ;c r x f ,j 其中,g i ,;仃 为准高斯函数,研f , 为平滑后的图像。然后,使用带方 向的一阶微分算子计算其导数的最大值。平滑之后的梯度可使用2 2 一阶有 限差分的近似值来计算: 1 4 哈尔滨工程大学硕十学位论文 i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i _ _ _ _ _ _ _ _ i _ _ 一i i l i l _ p i ,j = ( s i ,+ 1 - s i ,歹】+ s i + l ,+ 1 卜s i + l , ) 2 q i ,j = ( s i ,+ 1 - s i + l ,】+ s i ,+ 1 卜s i + i ,j + 1 ) 2 幅值和方向角使用直角坐标到极坐标的坐标转化来计算: ,_ 。= - m i ,j 】_ 尸 i ,】2 + q f , 2 研f ,j 】- a r c t a n ( a i ,j 尸 f , ) 其中,m i ,j 表示图像的边缘强度;o ( i ,) 表示边缘方向。c a n n y 算子也 可用高斯函数的梯度近似表示,但在实际应用中实现复杂且运算较慢。 图2 5 中的图像( b ) ( c ) ( d ) ( e ) ( f ) 分别表示经过r o b e r t s 、p r e w i t t 、 s o b e l 、l o g 、c a n n y 各算子检测得到的边缘图像。 ( a ) 原始灰度图像( b ) r o b e r t s 算子边缘图像 一一 ( c ) p r e w i t t 算子边缘图像( d ) s o b e l 算子边缘图像 一一 ( e ) l o g 算子边缘图像 ( f ) c a n n y 算子边缘图像 图2 5 边缘图像 1 5 哈尔滨工程大学硕士学位论文 从图2 5 可以看到,各个边缘检测算子都有其自身的优点和缺点:r o b e , s 算子定位较准且可提取出图像的“骨架”,但对噪声比较敏感;p r e w i t t 算子 是平均滤波,间断点较多,而s o b e l 算子是加权平均滤波并且检测到的边缘一 般大于两个像素,间断点也较多,这两种方法对于低噪图像检测效果较好, 但对于含有复杂噪声的图像来说,处理效果一般,它们的检测速度都比较快; l o g 方法能够检测出比较完整的边缘细节,但它对噪声比较敏感且检测速度 较慢。c a n n y 方法检测阶跃型边缘效果很好,它l g r o b e a s 算子、s o b e l 算子和 p r e w i t t 算子的去噪能力都强,能够对边缘进行高度定位、误判率低且能显著 抑制虚假边缘,但是它也容易平滑掉一些边缘信息且检测速度较慢。 以上的比较见表2 1 。 表2 1 边缘算子的比较 算子名称 特点检测速度 定位准确,可提取细节轮廓,不包括平滑 r o b e a s快 操作,对噪声敏感。 平均滤波,间断点较多,可检测灰度渐变、 p r e w i a快 低噪声图像。 加权平均滤波,检测到的边缘一般人于两 s o b e l 快 个像素,间断点较多。 l o g 可检测出较完整的边缘细节。慢 检测阶跃型边缘效果较好,去噪能力强, c a n n y 误判率低,可抑制虚假边缘,但容易平滑 慢 掉一些边缘信息。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论