已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)图像和视频中叠加文字提取算法研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 图片和视频中的叠加文字是帮助理解图片和视频内容高层语义的重要线索,有效地 提取这些文字对图像理解以及基于内容的多媒体信息检索系统来说是一项重要的技术。 目6 u 商业的o c r 技术对于二值图像中文字的提取识别已经趋于成熟,但对于图片和视 频中的叠加文字,由于图像背景复杂,有效的文字提取具有很大的挑战性,这限制了o c r 技术的成功应用。 针对图像背景复杂、分辨卒低,文字形态变化多端等问题,本文提出一种基于拆分 一合并的鲁棒文字分割算法,在文字检测的基础上,利用文字的颜色和尺度信息,对检 测到的文字块进行准确和高效的分割,最大限度地去除图片中的背景,为o c r 系统提 供完整清晰的二值图像输入。 为了有效地剔除叠加文字的背景,研究人员做过很多尝试,提出的算法大多比较复 杂,以致检测和分割的处理速度较慢,准确性与实用要求也有一定的距离。本文提出了 一种基于时间自适应变化模型的视频文字提取算法,使得在引入简巷的人工交互行为后, 文字提取系统的性能和速度得到显著提高,这在些对完全自动化要求不高,但是对准 确性和处理速度要求较高的系统中将是一项很为实用的技术。 此外,作为图像和视频文字提取技术应用的一个尝试,本文还将文字检测技术和图 像恢复技术相结合,开发一个较为实用的视频字幕自动擦除系统,通过文字背景的空域 恢复和时域恢复实现了图片文字的自动擦除。 关键词:文字检测文字分割文字识别o c r 图像理解基于内容的检索模式识别 i m a g e v i d e ot e x te x t r a c t i o na n di t sa p p l i c a t i o n z h a ny a o w e n ( c o m p u t e r a p p l i c a t i o n ) s u p e r v i s e db yw a n gw e i q i a n g t e x te m b e d d e di ni m a g e sa n dv i d e of l a m e sc a r r i e si m p o r t a n ts e m a n t i ci n f o r m a t i o nf o r i m a g e sa n dv i d e o ,t h e r e f o r et h et e c h n o l o g yo ft e x te x t r a c t i o ni sv e r yi m p o r t a n tf o ri m a g e u n d e r s t a n d i n ga n dc o n t e n t - b a s e di n f o r m a t i o nr e t r i e v a ls y s t e m s n o w a d a y s ,m a n yc o m m e r c i a l o c r s y s t e m sm a k eag r e a ts u c c e s sa n dt h et e c h n o l o g yo f t e x te x t r a c t i o na n dr e c o g n i t i o nf r o m b i n a r yi m a g et e n d st om a t u r e h o w e v e r , m o s te m b e d d e dt e x ti ss u r r o u n d e db yc o m p l e x b a c k g r o u n da n ds o m e t i m e sa c c o m p a n i e db yh i g hn o i s e s t h e s ef a c t o r sh a v er e s t r i c t e dt h e a p p l i c a t i o no f o c r a n dp o s e dg r e a tc h a l l e n g e st ot e x te x t r a c t i o nf r o mi m a g e sa n dv i d e o s t od e a lw i t ht h ep r o b l e m sc a u s e db yc o m p l e xb a c k g r o u n d , l o wr e s o l u t i o na n dv 撕o n s s t y l e so f t e x t , w ep r o p o s ear o b u s ts p l i t - a n d - m e r g et e x ts e g m e n t a t i o na l g o r i t h mi nt h i st h e s i s t os e g m e n td e t e c t e dt e x tp r e c i s e l ya n de f f i c i e n t l y , t h ep r o p o s e da l g o r i t h mu t i l i z e sn o to n l yt h e c o l o ri n f o r m a t i o nb u ta l s ot h es c a l ei n f o r m a t i o no f t e x ts t r o k e s e x p e r i m e n t a lr e s u l t ss h o wt h a t t h i sa l g o r i t h mc a nr e m o v em o s tb a c k g r o u n dp i x e l s , a n dp r o v i d eac l e a rb i n a r yi n p u ti m a g ef o r s t a n d a r do c r s y s t e m s t or e m o v e b a c k g r o u n de f f i c i e n t l y , r e s e a r c h e r sh a v ep r o p o s e dl o t so f a p p r o a c h e s m o s to f t h e ma r es oc o m p l e xt h a tt e x td e t e c t i o na n d s e g m e n t a t i o ni sq u i t et i m ec o m s u m i n g a sar e s u l t , m a n yt e x te x t r a c t i o ns y s t e m sa r en o tp r a c t i c a lc n o u g h t oo v e r c o m et h ed i s a d v a n t a g e , w e p r o p o s eav i d e ot e x te x t r a c t i o na l g o r i t h mb a s e do nat i m e - a d a p t i v ec o l o rm o d e li nt h i st h e s i s t h ep r o p o s e da l g o r i t h ms t a r t su pa no n l i n em a c h i n el e a r n i n gp r o c e s sa f t e rs i m p l ei n t e r a c t i o n b yau s e r , a n dt h e nd e t e c t sa n ds e g m e n t st e x tl i n e sf r o mt h ev i d e ob a s e do nt h ea d a p t i v em o d e l + t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ts i m p l en s e l i n t e r a c t i o n sc a ni m p r o v et h ep e r f o r m a n c eo f t h et e x te x t r a c t i o ns y s t e mr e m a r k a b l y t h ep r o p o s e da l g o r i t h mi su s e f u lf o rt h o s es y s t e m st h a t r e q u i r ev e r yh i 曲e x t r a c t i o np r e c i s i o na n dp r o c e s s i n gs p e e d , b u td o n o rc a r ea b o u ti n t r o d u c i n g s i m p l eu s e ri n t e r a c t i o n s b e s i d e s , a sa l la p p l i c a t i o no f v i d e ot e x te x t r a c t i o na l g o r i t h m , w ed e v e l o pas y s t e mt h a tc a l l r e m o v eu n d e s i r e dc a p t i o n si nv i d e o i nt h i ss y s t e m , w ef i r s td e t e c ta n ds e g m e n tt e x tf r o mv i d e o l 隆a m e s , t h e nr e s t o r eo c c l u d e dr e g i o n st h r o u g hs p a t i a lr e s t o r a t i o na sw e l la st e m p o r a l r e s t o r a t i o n k e y w o r d s :t e x td e t e c t i o n , t e x ts e g m e n t a t i o n , t e x tr e c o g n i t i o n , o c r , i m a g eu n d e r s t a n d i n g , c o n t e n t - b a s e dr e t r i e v a l ( c b r ) ,p a t t e mr e c o g n i t i o n i l 图1 1 图片视频文字提取的系统结构图 图1 2 不同种类的图像文字 图目录 图1 3 特殊的图像文字 图1 4 文字检测得到的文字块 图2 1 具有复杂背景的图片和视频帧。 图2 2 基于拆分合并的文字分割流程图 图2 3 文字分割算法的输入文字块 图2 4 文字分割的各阶段示意图 图2 5 连通分量尺度计算示意图 1 3 1 4 图2 6 动态聚类得到的图像层 图2 7 文字层的带状分析图。 1 5 1 6 1 8 1 9 图2 8 几种算法分割效果的对比( 每组图中第一行为原始图像块,第二行为本文算法分 割结果,第三行为闽值算法的分割结果,第四行为简单k - m e a n s 算法的分割结果) 2 1 图2 9 本文算法效果较差的例子 图2 1 0 本文文字提取系统d e m o 界面截图 图3 1 视频文字检测框架示意图 图3 2 高斯混合分布示意图 图3 3 字幕文字颜色的多峰分布 图3 4 简单用户交互选定文字像素。 图3 5k - m e a n s 聚类结果与选择 图3 6 利用当d 口模型进行文字检测和分割 图3 7 投影曲线示意图 图3 8 字幕文字检测和分割的结果 v l i m 拍 船 孔 孔 驺 弘 弘 | 兰i 像和税颇中叠加卫,挺取曹泣i 卅究发p 用: i 苎| 甘录 图3 9 测试视频及其文提取结果示例 图3 1 0 模型参数的时问自适应变化图( 8 = 1 ) 。 4 1 4 2 4 3 图3 1 1 基于时间自适应模型的文字提取系统界面截图 图4 1 不同语占字幕文字的简单叠加效果 图4 2 用纹理合成方法进行图像恢复的效果图 图4 3 图像填充算法示意图 图4 4i n p a i n t i n g 算法的渐变性质 图4 5i n p a i n t i g 算法的效果示例 图4 6 基于样例的图像填充算法标记示意图 4 4 4 4 4 6 4 6 4 7 图4 7 基于样例的图像填充过程过程示意图 图4 8 视频字幕进行自动擦除系统流程图 图4 9 字幕擦除效果示意图 4 8 4 9 5 0 图4 1 0 文字区域和搜索区域示意图 图4 1 1 时域恢复直接得到擦除结果 图4 1 2 时域恢复与空域恢复结合得到擦除结果 图4 1 3i m a g ei n p a i n t i n g 算法出现的模糊现象 图4 1 4 基于样例的图像恢复算法的图像恢复过程 图4 1 5 字幕自动擦除系统界面 v l 5 i 5 2 5 3 5 3 5 4 5 4 表目录 表2 1 算法的性能比较 表2 2 对不同图片的分割性能 表2 3 对中英文字符的分割结果 表3 1 算法对三个视频片断性能比较 表3 2 与不基于模型的算法的性能比较 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含 其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意。 储签镌耀久嗽一弘,厂 论文版权使用授权书 本入授权中国科学院计算技术研究所可以保留并向国家有关部门或机 构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 懒名翩心燃:彬眺川何 1 1 课题背景 第一章引言 2 0 世纪9 0 年代以来,计算机技术和通讯技术飞速发展,以图像、声音和视频为主 的多媒体信息成为信息交换的主流,大大地改变了人们的,上活方式。在i n t e m e t 上,纯 文本页面正逐渐被加入多幅图像,以使页面更吸引人,相当数量的文字信息币越束越多 地以图像形式出现,同时,本柬纯粹收藏文字资料的图书馆也正在不断地把图像、视频 和声音剪辑加入收藏,数字图像和视频图书馆正在兴起,它们都需要一个自动的方法去 有效地索引和枪索多媒体内容。但传统的数掘库枪索中采用的足基于关键词的检索方式, 这种方式检索多媒体信息已逐渐显得力不从心,不能满足人们的需要,于是基于内容的 检索( c o n t e n t - b a s e dr e t r i e v a l ,c b r ) 技术应运而尘f 卢o i l 。 图片和视频中的叠加文字足帮助理解图片和视频内容高层语义的重要线索,有效地 提取这些文字对图像理解和基于内容的多媒体信息检索系统束沈是一项重要的技术。在 i n t e m e t 上,越来越多的页面内容以图片的形式展示;在视频中,新闻标题、v c d 影片 字幕、播出时问和工作人员名单等均包含了丰富的高层语义信息。如果这些文字能自动 地被检测、分割和识别出来,必定会对图像高层语义的自动理解、索引和检索具有很大 的帮l 功 l i e n h a r t 9 6 1 另一方面,视频和图像中文本信息提取的后期处理技术已经相当成熟。在文本检索 方面,人们已经积累了大量的工作。g o o g l e ,y a h o o ,b a i d u 等i n t e m e t 上的搜索引擎已经 可以比较有效地通过关键词检索的方法来为用户搜索感兴趣的内容;在文字识别方面, 2 0 世纪7 0 年代兴起的光学字符识别( o p t i c a l c h a r a c t e r r e c o g n i t i o n ,o c r ) 技术现已日渐 完善,在对文字材料进行扫描并将其转换为计算机能够统一识别和存储的内码方面已取 得了较大成功。因此,人们研究的重点便放在了如何迅速有效地检测及提取这些文字信 息上 1 2 课题来源及目的 本课题的研究受国家8 6 3 信息安全技术“网络图像监控关键技术研究”( 课题编号: 2 0 0 3 a a l 4 2 1 4 0 ) 课题的支持。 图片和视频文字提取,是图像理解和基于内容的图像索引与检索的重要支撑技术, 其目的就是要准确、快速、鲁棒地定位和分割出视频中的文字,为标准的o c r 系统提 供输入,最终将以图像形式存在的文字转化为标准的文字编码。 中国芊院坝l 学位论史一吲像年n 觎频中煎姐l 殳7 挺舣笋庄研究发麻用 1 3 主要技术方法的国内外研究现状 1 3 1 国内外相关工作 在2 0 世纪7 0 年代,随着光学字符识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n , o c r ) 技术 的兴起,i ,f 多学者就丌始进行文档图像中文字提取的研究,到了上世纪9 0 年代,随着计 算机技术和多媒体技术的飞速发展,基于内容的多媒体检索成为一个研究的热点。这时, 图像和视频中的文字荻取又逐渐成为研究的热点之一。通常文字在字体、大小、颜色、 对齐方式和排列方向上常常有很大的变化,文字背景复杂,图像分辨卒低,图像噪声高, 而且很多系统在应用上还要求算法有较高的处理速度,这些都使得从图像中有效地提取 出文字变得异常困难。国内外很多学者在这方面部作出了有益的探索和尝试。 z h o n g 首先在 z h o n 9 9 5 1 中提出了定位复杂图像中的文字的一个解决方案。该方案融 合了两种方法,分别基于寻找特定尺寸的t 鞋色区域和基于文字本身特殊的空间差异。该 方案主要足针对彩色c d 封面的扫描图像中的文字定位,还不能直接应用到视频帧图像 中。通常,扫描图像的信噪比( s n r ) 是比较高,而视频图形的信噪比是相当低的,这 也是视频帧中文字分割所面临的一个很大挑战。j i a n 等在 j a i n 9 8 中介绍了一种适合报纸、 网页和一般的图像、视频帧的文字定位方法,该方法对广告图像、网页标题图像、扫描 杂志页面以及视频帧都能获得较好的实验结果。但作者通过实例指出该算法了对小文字 字体的识别效果不理想,这些实例更经常出现在视频帧中。s m i t h 等在 s m i t h 9 5 提出了 一种在视频帧中检测文字的方法,该文提出的文字特征是一个有密集边缘的矩形框,并 利用这些特征去识别单个视频帧中的文字,但这个方法有尺寸上的局限性,它只能检测 特定字体范围内的文字,并且没有利用到相同的文字会出现在连续的多帧中这个特性去 进一步增强文字检测的性能,也没有进行为o c r 做准备的文字分割。w u 等提出了一个 分4 步从图像中检测和抽取文字的系统 w u 9 7 ,该系统首先把文字看成一种特殊的纹理, 在三个不同尺度上使用三个二阶高斯导数来寻找可能的文字区域;然后,从水平排列的 文字区域中抽取出明显的垂直笔画,再利用基于经验的规则来将笔画组合成紧凑的矩形 框,并且在原始分辨率下合并这些矩形框;接着清除所有文字块内的背景得至0 - v 值的图 像:至此,将得到的文字框区域重复自口面两步进行进一步提炼,最后,将二值化后的每 个文字块输入标准的o c r 系统进行识别。w u 等对3 5 幅图像进行了实验,结果表明, 识别率达8 4 。不过这种方法也是针对扫描图像的,同样对信噪比比较低的视频帧效果 不太理想。s a t o 等丌发了一个针对静念的低分辨率新闻标题的文字分割识别系统 【s a t 0 9 9 ,该系统首先使用在文献【s i n i m 9 5 1 中提出的方法去检测标题文字,然后将检测到 的标题文字放大4 倍,利用视频帧的基于时f b j 的最小像素值柬对标题文字块进行整合, 该系统对新闻节目取得了较好的效果。l i e n h a r t 等先后丌发出两个视频中的文字检测、 分割和识别系统 l i e n h a r t 9 6 a l i e n h a r t 0 0 。这两个系统都利用了文字的罄色性、与背景 的高对比度和视频字幕的简单纹理来进行图像文字分割。为了排除非文字区域,文献 第一辛0 l 高 【l i e r t h a r t 9 6 a 中的系统采用基于颜色的分割融合算法,并且只对单帧进行分割和识别, 而没有考虑到连续的多帧,而文献 l i e n h a r t 0 0 的系统则迸一步考虑了字幕文字的纹理特 征和文字在其存在的连续多帧内被追踪和整合利用,返使得其结果在商业o c r 上识别 率大大提高。l i u 等在 l i 9 9 和 l i 0 0 使用了视频帧中的高频小波系数作为网络的输入 来训练神经网络,对字幕中的文字进行监视,若出现文字,则继续处理一定能够数量的 帧:否则就便用块匹配去追踪简单背景下的文字。 1 3 2 文字提取的系统结构 一个完整的图片,视频文字提取系统结构如图1 1 所示,其中包含了文字检测、文字 分割和光学字符识别( o c r ) 三个串联的阶段。狭义的文字捡测往往又被称为文字定位 ( t e x t l o c a l i z i n g ) ,而广义的文字检测包括了图1 1 中的文字检测和文字分割模块,它们 作为o c r 系统的前端,是本文主要关注的问题所在。 图l i 图片,视频文字提取的系统结构图 1 。3 3 文字检测的主要技术方法 1 3 3 1 文字检测问题的定义 本文所提到的文字检测是狭义的文字检测,又称为文字定位( t e x tl o c a l i z a t i o n ) ,它 指的是从给定的图片或视频帧中准确定位出文字区域。通常文字在图片中是以文字行或 文字列出现的,所以检测的结果常以一系列的矩形框来表示。 1 3 3 2 文字检测分类 根据文字出现方式的不同,文字检测可分为字幕文字检测和自然场景文字检测两种。 字幕文字指的是视频片断中出现的标题、对白、解说、人员列表等人为在后期制作中叠 加上去的文字,如图1 2 ( a x c ) 。字幕文字一般以文字行的形式出现,其位置范围相对稳 3 中团 ,学院坝l 学位砼立一| 鳘| 像和视频中叠切l 史,挺取曹i 上研究及加用 定,并且同一视频片断中的字幕往往具有一致的形态,如文字的颜色,大小,笔画等等, 这些信息对提高文字检测的准确率都有很大的帮助作用;自然场景文字,指的是嵌入在 自然实物中的文字,例如车牌号码、宣传横幅、路标指示牌上的文字、运动员衣服上的 号码等等( 如图1 2 ( b ) ( d ) ) 。这些文字出现的形态各异,位置方向等不固定,并且可能出于 拍摄角度的影响产生仿射变形或自然扭曲( 如图1 3 ( a ) ( b ) ) 所示。通常检测难度比字幕 文字要难得多。 根掘文字在图片中叠加方式的不同,文字检测又可以分为简单背景中的文字检测和 复杂背景中的文字枪测两种。简单背景下,文字和背景往往具有两种不同的颜色,其对 比度很高( 如图l ,2 ( a ) ( b ) ) ,容易检测,并且一旦准确定位后,只需要简单分割就可以输 入o c r 系统进行识别;复杂背景中,文字与背景不只有简单的颜色区别,文字区域与 背景区域的对比度相对较低( 如图1 2 ( c ) ( d ) ) ,这种情况下,文字定位相对较难,并且定 位后的结果需要复杂的分割步骤才能取得理想的识别效果。 此外还有些特殊形态的文字,如手写文字、艺术字等( 图1 3 ( c ) ( d ) ) ,这种文字尽管 能够检测出来,但是在o c r 系统中的识别的难度很大,不足本文关注的内容。 ( a ) 简单背景的字幕文字( b ) 简单背景的场景文字 ( c ) 复j 背景的字幕文字( d ) 复杂背景的场景文字 图1 2 不同种类的幽像文字 4 第一幸l 高 图1 3 特殊的图像文字 1 3 3 3 文字检测的主要方法 为了解决以上文字检测问题,研究人员提出了大量的文字检测方法,这些方法大体 上可以分为基于边缘的方法( e d g e - b a s e dm e t h o d ) 、基于纹理的方法( t e x t u r e - b a s e d m e t h o d ) 、基于区域的方法( r e g i o n - b a s e dm e t h o d ) 以及基于视频的多帧平均方法( v i d e o f r a m ei n t e g r a t i o n ) 等几种。由于文字和背景的复杂性,在解决实际的问题的时候,以上 这些方法常常被综合使用,以提高检测的效果。 ( 1 ) 基于边缘的方法( e d g e - b a s e dm e t h o d ) 基于边缘的方法利用了文字出现区域的边缘非常丰富这个重要的特征。文字是由一 系列的笔画构成的,而文字笔画与图像背景之间是以边缘为分界的,因而文字区域往往 具有高密度的边缘。这种方法首先通过边缘检测( 例如c a n n y 算子、g a u s s 差分算子) 得到原图像的梯度图像,对边缘进行适当过滤以后使用形态学操作将密集的强边缘合并 成区域,再使用启发式规则( 例如连通分量分析、文字条基线检测等) 对文字块进一步 筛选,定位出文字行。f l i 9 9 1 先利用了一个3 x 3 的水平差分滤波器束获得垂直边缘,然 中田 i 翠疏坝i 学位论文一l 鳘| 像和视频中叠卸l 史,提取算往亢发却用 后利用一个平滑滤波器柬使分离的文字连接起来,并将多余的碎片过滤掉,最后利用一 些文字的特征( 如文字的面积,纵横比等) 束搜索文字区域,取得较好的检测效果。 基于边缘的方法可以比较快速地检测到文字,且不敏感于文字的颜色,在图像中的 文字区域很少时可以迅速去除大面积的简单背景,缩小待捡测区域;但这种方法不足以 去除纹理复杂的背景,常常产生比较高的误检率。尽管如此,高密度的边缘是文字的一 个非常重要的特征,基于边缘的方法是其他很多方法的基础,许多混合型的方法部以此 为第一步柬进行粗略的检测,以排除大部分不可能足文字的背景区域,从而提高检测的 速度。 ( 2 ) 基于纹理的方法 基于纹理的方法利用了纹理特征去判定一个像素点或象素块是否属于文字。由于字 符通常由很多较细的笔莉构成,因此文字笔丽存在的区域通常也是图像中纹理较丰富的 区域。这种方法假定了文字区域与背景区域存在纹理上的区别,先提取能够区分文字区 域与背景区域的纹理特征,然后进行纹理分类。常用的纹理特征有图像的一阶导数、二 阶导数、边缘强度、局部方差、r 叮系数、g a b o r 系数以及小波系数的各种统计特征如 一阶矩、二阶矩、直方图、共生矩阵等等。w u 在 w u 9 7 和 w u 9 9 提出一种基于k - m e a n s 的算法去识别文字像素,该方法使用了9 个高斯二阶导数作为图像的纹理特征。【l i 0 0 中使用了神经网络在h a r t 小波解析特征空间中去抽取文字块; z h o n 9 9 5 提出一种综合 分析空间差异和连通区域的方法,而 j a i n 9 8 q b $ q 用了g a b o r 小波。纹理特征可以使用在 文字检测算法的不同阶段,一种做法是选取一个适当大小的滑动窗口和相应的滑动步长, 对原始图像进行穷尽扫描,计算窗口内的纹理特征并分类,以确定可能的文字区域,然 后依据其他特征和规则进行后续的求精处理。这种算法对于计算过程较复杂的纹理特征 通常很费时,于是很多算法先使用其他方法如边缘检测、连通分量分析等从原始图像中 提取出候选文字区域,然后只对这些候选文字区域依据纹理特征进行验证,以排除其中 的非文字区域。 基于纹理的方法可以识别出各种类别的文字,具有较好的通用性。但是这类方法对 文本的字体和风格比较敏感,并且为了提取纹理信息,通常必须通过对全图进行微分运 算来寻找微分结果较大的区域,这种运算是非常耗时的。另一方面,如何选取有效和通 用的纹理特征也足该类算法的一个难点,在利用纹理信息进行分割的时候,往往也需要 特别注意防止全图高频噪声的影响。 ( 3 ) 基于区域的方法 基于区域的方法通常假设文字具有一致的前景色,而且与背景色具有较大的颜色差 异以保证较高的对比度该类方法依掘这一假设使用各种算法例如灰度阂值、颜色量化、 区域标注、区域分裂与合并等提取出所有的连通分量;然后根据文字分量固有的几何特 性和相互间的位置关系( 例如字符的间距、行距等) ,构造启发式规则,对连通分量进行 几何分析以排除明显的非文字分量,然后自底向上地将连通分量逐级地合并成较大的分 逗,最后形成区域,在合并的过程中,将不满足规则的分量作为背景分量除去;最后对 6 第辛0 i 高 所得到的候选文字区域进行优化,包括利用水平和垂直投影、文字块的填充率、与背景 的对比度等指标进一步去除残余背景区域。r l i e n h a r t 9 6 a 中文字检测算法就是基于连通 区域的,需要文字或其背景是单一颜色,【k i m 9 9 1 使用从真实文字图像中聚类所得到的 文字区域模板来进行区域匹配并滤除非文字区域,从一定程度上降低了定义启发式规则 的难度。许多基于连通分量的方法实际上已经在检测文字的同时实现了文字的分割,或 只需要对检测的结果进行简单的二值化操作就可实现文字的分割 w u 9 6 】。 基于区域的方法具有较快的处理速度和较高的定位精度,它不仅能识别人工的字幕, 也能检测复杂背景中的文字。然而,由于图像和视频帧中文字并不总是单色的,这在一 定程度上限制了该方法的使用范围。 ( 4 ) 基于视频的多帧平均方法 视频字幕一般具有如下的时空特性: ,字幕的存在可能跨越若干帧,甚至若干镜头; 字幕存在时,尽管不同帧之问变化很大,但是字幕所在区域的亮度或颜色变 化不大; 字幕出现时,字幕对应区域在相邻的视频帧之问会出现很大亮度或颜色的变 化,同时,当字幕消失时,也会产生很大类似的跳变。 这样,通过对字幕出现或消失的相邻两帧进行比较,就可以检测得到候选字幕区域; 对字幕持续存在的多帧进行平均,就可以进一步排除一些被错误检测到的非文字区域, 而且可以使字幕候选区域的图像质量得到改善和增强i l l 9 9 h u a 0 1 1 。 视频多帧的利用,需要采用视频结构化方法来有效选取所需要的若干视频帧。这样, 该方法的效能和自动化程度就很大程度上依赖于视频结构化的效能。 1 3 4 文字分割的主要技术方法 1 3 4 1 文字分割问题的定义 如前所述,通过文字检测,我们得到了原始图像中出现文字的一系列矩形区域。将 这些区域剪裁下来,就得到了原图像的一系列子图像,我们称之为图像文字块,如图1 4 所示。文字分割指的是从以上的图像文字块中将背景去除,得到只含文字信息的二值图 像,从这个意义上说,文字分割也可以叫做图像文字二值化 文字分割是文字检测到文字识别的一个中间步骤,对于某些本来就是二值化图像的 文档图像来说,这个步骤是不需要的,但是现在社会中,特别是飞速发展的互联网中, 彩色图片和视频越束越多,这些图片和视频帧中的文字背景大多是复杂的,而目自口大多 数o c r 软件要求干净、清晰的二值化图像作为输入,尽管有些软件和方法 c h e n 0 4 支持 久度级文字的识别,但是当背景复杂到一定程度的时候,其识别效果也会受到影响。所 以,为了满足传统o c r 模块的输入要求,有效的文字分割对于复杂背景的图片是很有 必要的。 7 中国 i 。7 - 院坝l 学位论史| 兰i 像和视频中叠加史7 娃取箅泣训f 究发廊用 图1 4 文字检测得到的文字块 1 3 4 2 文字分割的主要方法 近年来,研究人员在文字分割方面做了大量有意义的工作,提出了很多方法,这些 方法大致百r 分成以下三类: ( 1 ) 基于颜色阈值的方法 基于颜色阂值的方法假定了图像中文字的亮度总是比背景高或者比背景低,通过估 计背景颜色和前景颜色的阈值束达到分割的目的。文字的闽值又分为全局阈值和局部阈 值两种。全局阀值是指整个图像都使用的一个阈值;局部阈值则是指根掘图像的具体区 域束确定的阈值,与全局阂值相比,它的优点是能处理亮度和对比度发生变化的图像。 文 l i u 9 7 首先利用了 o s t u s 7 9 的提出的二值化算法获得一系列的候选阈值,这些闽值各 对应一种纹理特征,对这些纹理迸行分析最后确定最优的阂值。文 w u 9 7 1 利用了局部阈 值来取出背景和噪声,同时得n - 值化的图像。 基于颜色阈值的方法最早来源于文档图像分析,它对处理背景简单的文档图像简单 而有效,但是当背景复杂起来的时候,由于图片中的文字颜色和背景颜色之间不存在简 单的阈值,因而这种简单的方法便失效了 ( 2 ) 基于颜色模型的方法 基于颜色模型的方法认为图像中的文字颜色分布是满足一定的参数模型的,这种方 法首先通过机器学习为文字像素建立一个颜色模型,然后利用该模型计算图片中每一个 像素属于文字像素的概率,概率高于某个阈值的像素被标记为文字像素,低于这个阈值 的像素标记为背景像素。在 c h e n 0 2 中,c h e n 等首先为图像中的文字久度值建立一个高 斯混合模型( g a u s s i a nm i x t u r em o d e l g v i m ) ,然后用基于马尔科夫随机场( m a r k o v r a n d o mf i e l d ,r f ) 的方法确定每个象素所属的高斯项,从而达到分割的目的。【y e 0 4 】 中,y j 等在h s i 颜色空问中使用g m m 表示文字颜色的h 、i 两分量的分布,首先利用 第一学0 l 高 文字的“边缘对”特性通过采样得到一部分属于文字的像素,然后使用这些样本在线估 计g m m 的参数并根据g m m 提取剩余的文字像素。 基于颜色模型的方法由于考虑到了文字颜色的多峰值分布,因而能够处理比较复杂 的背景,但是对不同的图像,其文字的颜色模型往往差别很大,为多种不同的图像建立 不同的模型并不容易,有时候甚至是不可能的。 ( 3 ) 基于连通分量分析的方法 基于连通分量分析的方法利用了文字笔画具有连通性的特征,这种方法首先将输入 的图片分割成一系列的连通分量,然后通过自底向上的方法分析确定每个分量属于前景 还是背景,最后将所有前景分量组合成分割结果。文献 s o b o n k a 9 9 】利用一种非监督聚类 的方法将图片中颜色相近的像素聚成若干个像素类,然后通过一个自底向上和一个自顶 向下相结合的方法来完成文字的分割;文 z h o u 9 7 贝f 应用了一种基于e m s t 的聚类方法 进行颜色的量化。 基于连通分量的方法由于对文字的笔画作为整体处理,因而分割的结果笔画的连贯 性比较好,易于被o c r 软件所识别;但是大多数这类方法进行连通分量聚合的时候只 利用了文字的颜色,因而只能对具有单一颜色的图像文字有效,另一方面,较低的图像 分辨率和较高的图像噪声也会影响连通分量聚合的结果。 1 4 本文的主要研究内容 通过以上对图像和视频中文字提取技术以及国内外相关工作的分析可以看出,目前 图像和视频中文字提取所面临的困难主要包括以下几个方面: ( 1 ) 图像分辨率低,图像质量差,对于视频帧来说,表现的更为明显。虽然随着图 像和视频的压缩编码技术以及高清晰度数字电视的发展,图像和视频的质量将得到比较 大的改善,但是图像质量的增强,尤其是文字图像的增强,仍需要进一步的研究。 ( 2 ) 图像文字的背景复杂。在w w w 图像和视频帧中,复杂背景广泛存在,它们的 纹理模式各异,甚至有一些还类似于文字这不仅是导致文字检测出现较高的误检率 ( f a l s ea l a r m ) ,还会使得这部分文字很难被检测到,产生漏检。复杂背景的存在,使得 被检测到的文字块中常常含有大量的与文字颜色相当接近的背景对象,现有的文字分割 算法还不能有效地去除它们,使得它们残留在二值文字图像中一起被提交给o c r ,造成 o c r 识别率的严重下降。 ( 3 ) 文字的尺寸、字体、颜色、运动方式多交,语言种类也多种多样。因此,寻找 一种能在各种图像分辨率水平下,较为复杂背景中,提取并分割出文字的鲁棒性方法是 一个重要的研究课题。 由于h l t c m e t 的不断发展,图像和视频数掘的同益膨胀,对这些资源进行基于内容 的分析和索引,没有极高处理速度的系统不可能胜任的。目前的文字检测和分割方法的 处理速度还相当有限,基本上还没有达到实用的程度。因此,如何在保证文字提取j 下确 9 中时 ;院琐f 学位论且l 芏! 像和税颁中盛抽i 史,提取算法研究发m 用 率的酊提下加快处理速度,提高系统的实用性也是一个重要的研究目标。 此外,目前很多关了二图像和视频文字提取的方法大多停留在实验原型阶段,真i f 的 应用系统还比较少。丌发基于图片和视频文字提取的特定应用系统,也足本课题的一个 重要目标。 本论文的研究内容主要包括: ( 1 ) 基于拆分一合并的鲁棒文字分割算法研究 在图片和视频文字检测的基础上,利用文字的颜色和空间信息,对检测到的文字块 进行准确和高教的分割,最大限度地去除图片中的背景,为后端的o c r 系统提供完整 的二值图像输入 ( 2 ) 基于时间自适应变化模型的视频文字提取算法研究 假设在一段视频序列中文字的颜色具有一定的均匀一致性,然后通过一种非常简雎 的用户交互方式来启动一个基于颜色的在线机器学习过程,并利用生成的随着时脚自适 应变化的模型束鲁棒地检测分割出同一视频序列中的字幕文字。在引入简单的人工交互 行为后,往往能够大大提高文字提取系统的性能,这在一些对完全自动化要求不高,但 足对准确性和处理速度要求很高的系统中将是一项较为实用的技术。 ( 3 ) 视频文字提取方法应用于视频字幕自动擦除 将文字检测技术的和图像恢复技术相结合,应用于图片文字的自动擦除,开发一个 实用的视频字幕自动擦除系统。 1 5 论文的组织 论文从课题的背景出发,在第一章引言中阐述了图像和视频文字提取的意义,并将 完整的文字提取系统划分为文字检测、文字分割和文字识别三个阶段,指出前两部分足 本文所要解决的问题所在,接着详细分析了文字检测和文字分割的问题定义,主要研究 方法和国内外的相关工作。 在第二章中,提出了一种基于拆分合并的鲁棒文字分割算法。该算法在图片和视 频文字检测的基础上,利用文字的颜色和尺度信息,对检测到的文字块进行准确和高效 的分割,最大限度地去除图片中的背景,整个算法包括预处理、拆分、合并和后处理四 个步骤,在文章中分别作了详细的描述。 第三章将研究目标从静态的图像扩展到连续的视频帧,提出一种基于时日j 自适应模 型的字幕文字提取算法,该算法通过引入简单的人工交互来提高系统的准确性和处理速 度。在这一章中,首先介绍一个基于视频的文字检测框架和将应用于本文算法的高斯混 合模型,接着洋细描述了模型的初始化、文字检测和分割以及模型更新三个部分,最后 给出实验结果和分析。 在莳两章的基础上,第四章研究了文字提取的应用,将文字检测技术的和图像恢复 技术( i m a g el n p a i n t i n g ) 相结合,介绍和实现了图片文字的自动擦除系统。 0 第一节- j l 高 最后一章对全文进行了总结,并对下一步的研究方向作了阐述 第二章基于拆分一合并的鲁棒文字分割算法 2 1 文字分割的必要性 文字分割就是将图片或视频帧中文字之外的背景去除,得到只包含文字信息的二值 图像。它足整个文字识别系统的重要步骤之一。文字分割的必要性主要表现在以下两个 方面: ( 1 ) 很多包含文字的图片都具有复杂的背景,特别是那些来自于i m e m e t 的彩色图片 和视频帧( 如图2 1 所示) ,将这些图片直接导入o c r 系统进行识别,很可能得到毫无 意义的结果,因为传统的o c r 系统需要输入足干净、清晰的二值化图像。 ( 2 ) 很多视频帧中的文字分辨率比较低,而传统的o c r 要求输入的图像有至少 2 0 0 d p i 到3 0 0 d p i 的分辨率 l i e n h a r t 0 2 ,少于这个分辨率将会严重影响o c r 系统的的识 别效果。大部分原始视频帧的分辨率达不到这个要求。 ( a ) 来自t :i n t e r n e t 的彩色图片( b ) 新闻视频的标题 图2 1 具有复杂背景的图片和视频帧 可见,有效地从图片,视频帧中分割出文字是非常必要的为了解决上述的问题,研 究人员对图像文字的分割作大量的探索和尝试,在上一章中已经提到,已提出的图片文 字分割方法大致可分三类,再简述如下: 基于颜色阀值的方法:通过估计背景颜色和前景颜色的阂值来达到分割的目的。 基于颜色模型的方法:首先通过机器学习的方法为文字像素建立一个颜色模型,然 后利用该模型计算图片中每一个像素属于文字像素的概率,超过某个概率闽值的像素被 标记为文字像素。 基于连通分量分析的方法:首先将输入的图片分割成一系列的连通分量,然后分析 确定每个分量属于背景还是自f 景,最后将所有自口景分量组合成最终的结果。 本章在总结以上方法的基础上,提出一种基于文字层的动态划分划分和选取的文字 分割算法。该算法为了解决以往方法存在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届河北T8联考高三下学期4月联合测评英语+答案
- 2025杭州电子科技大学信息工程学院教师招聘考试题目及答案
- 2026年江西餐饮服务资格考试及答案
- 洛阳二建试卷试题及答案
- 2026北京市法院系统招聘聘用制审判辅助人员53人建设考试备考题库及答案解析
- 2026福建龙岩市第一医院医疗辅助岗位招聘4人建设笔试参考题库及答案解析
- 2026广东省惠东县教育局赴高校招聘公办学校教师126人(惠州场)建设笔试备考题库及答案解析
- 2026黑龙江黑河市鸿兴资本运营有限公司招聘工作人员12人建设笔试参考题库及答案解析
- 2026浙江温州市乐清市龙西乡卫生院招聘1人建设考试参考题库及答案解析
- 绍兴市镜湖开发集团有限公司下属企业招聘工作人员5人建设笔试备考试题及答案解析
- 第5课 从小爱劳动 课件(内嵌视频) 2025-2026学年道德与法治三年级下册统编版
- 一年级数学10以内加减法计算专项练习题(每日一练共12份)
- 2026特种作业场内专用机动车辆作业考试题及答案
- (二模)苏北七市2026届高三第二次调研测试生物试卷(含答案)
- TCABEE080-2024零碳建筑测评标准(试行)
- 遗传性高胆红素血症诊疗专家共识(2025年版)解读课件
- 科大讯飞深度研究报告
- (正式版)DB37∕T 4863-2025 《数字经济发展评价指标体系》
- 供方履约评价表(工程施工类)
- 风湿性多肌痛的诊断与治疗课件
- 烤箱能效测试标准
评论
0/150
提交评论