（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：68 大小：2.89MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf_第2页

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf_第3页

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf_第4页

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf_第5页

已阅读5页，还剩63页未读，继续免费阅读

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要图片和视频中的叠加文字是帮助理解图片和视频内容高层语义的重要线索，有效地提取这些文字对图像理解以及基于内容的多媒体信息检索系统来说是一项重要的技术。目6 u 商业的o c r 技术对于二值图像中文字的提取识别已经趋于成熟，但对于图片和视频中的叠加文字，由于图像背景复杂，有效的文字提取具有很大的挑战性，这限制了o c r 技术的成功应用。针对图像背景复杂、分辨卒低，文字形态变化多端等问题，本文提出一种基于拆分一合并的鲁棒文字分割算法，在文字检测的基础上，利用文字的颜色和尺度信息，对检测到的文字块进行准确和高效的分割，最大限度地去除图片中的背景，为o c r 系统提供完整清晰的二值图像输入。为了有效地剔除叠加文字的背景，研究人员做过很多尝试，提出的算法大多比较复杂，以致检测和分割的处理速度较慢，准确性与实用要求也有一定的距离。本文提出了一种基于时间自适应变化模型的视频文字提取算法，使得在引入简巷的人工交互行为后，文字提取系统的性能和速度得到显著提高，这在些对完全自动化要求不高，但是对准确性和处理速度要求较高的系统中将是一项很为实用的技术。此外，作为图像和视频文字提取技术应用的一个尝试，本文还将文字检测技术和图像恢复技术相结合，开发一个较为实用的视频字幕自动擦除系统，通过文字背景的空域恢复和时域恢复实现了图片文字的自动擦除。关键词：文字检测文字分割文字识别o c r 图像理解基于内容的检索模式识别 i m a g e v i d e ot e x te x t r a c t i o na n di t sa p p l i c a t i o n z h a ny a o w e n ( c o m p u t e r a p p l i c a t i o n ) s u p e r v i s e db yw a n gw e i q i a n g t e x te m b e d d e di ni m a g e sa n dv i d e of l a m e sc a r r i e si m p o r t a n ts e m a n t i ci n f o r m a t i o nf o r i m a g e sa n dv i d e o ，t h e r e f o r et h et e c h n o l o g yo ft e x te x t r a c t i o ni sv e r yi m p o r t a n tf o ri m a g e u n d e r s t a n d i n ga n dc o n t e n t - b a s e di n f o r m a t i o nr e t r i e v a ls y s t e m s n o w a d a y s ，m a n yc o m m e r c i a l o c r s y s t e m sm a k eag r e a ts u c c e s sa n dt h et e c h n o l o g yo f t e x te x t r a c t i o na n dr e c o g n i t i o nf r o m b i n a r yi m a g et e n d st om a t u r e h o w e v e r , m o s te m b e d d e dt e x ti ss u r r o u n d e db yc o m p l e x b a c k g r o u n da n ds o m e t i m e sa c c o m p a n i e db yh i g hn o i s e s t h e s ef a c t o r sh a v er e s t r i c t e dt h e a p p l i c a t i o no f o c r a n dp o s e dg r e a tc h a l l e n g e st ot e x te x t r a c t i o nf r o mi m a g e sa n dv i d e o s t od e a lw i t ht h ep r o b l e m sc a u s e db yc o m p l e xb a c k g r o u n d , l o wr e s o l u t i o na n dv 撕o n s s t y l e so f t e x t , w ep r o p o s ear o b u s ts p l i t - a n d - m e r g et e x ts e g m e n t a t i o na l g o r i t h mi nt h i st h e s i s t os e g m e n td e t e c t e dt e x tp r e c i s e l ya n de f f i c i e n t l y , t h ep r o p o s e da l g o r i t h mu t i l i z e sn o to n l yt h e c o l o ri n f o r m a t i o nb u ta l s ot h es c a l ei n f o r m a t i o no f t e x ts t r o k e s e x p e r i m e n t a lr e s u l t ss h o wt h a t t h i sa l g o r i t h mc a nr e m o v em o s tb a c k g r o u n dp i x e l s , a n dp r o v i d eac l e a rb i n a r yi n p u ti m a g ef o r s t a n d a r do c r s y s t e m s t or e m o v e b a c k g r o u n de f f i c i e n t l y , r e s e a r c h e r sh a v ep r o p o s e dl o t so f a p p r o a c h e s m o s to f t h e ma r es oc o m p l e xt h a tt e x td e t e c t i o na n d s e g m e n t a t i o ni sq u i t et i m ec o m s u m i n g a sar e s u l t , m a n yt e x te x t r a c t i o ns y s t e m sa r en o tp r a c t i c a lc n o u g h t oo v e r c o m et h ed i s a d v a n t a g e , w e p r o p o s eav i d e ot e x te x t r a c t i o na l g o r i t h mb a s e do nat i m e - a d a p t i v ec o l o rm o d e li nt h i st h e s i s t h ep r o p o s e da l g o r i t h ms t a r t su pa no n l i n em a c h i n el e a r n i n gp r o c e s sa f t e rs i m p l ei n t e r a c t i o n b yau s e r , a n dt h e nd e t e c t sa n ds e g m e n t st e x tl i n e sf r o mt h ev i d e ob a s e do nt h ea d a p t i v em o d e l + t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ts i m p l en s e l i n t e r a c t i o n sc a ni m p r o v et h ep e r f o r m a n c eo f t h et e x te x t r a c t i o ns y s t e mr e m a r k a b l y t h ep r o p o s e da l g o r i t h mi su s e f u lf o rt h o s es y s t e m st h a t r e q u i r ev e r yh i 曲e x t r a c t i o np r e c i s i o na n dp r o c e s s i n gs p e e d , b u td o n o rc a r ea b o u ti n t r o d u c i n g s i m p l eu s e ri n t e r a c t i o n s b e s i d e s , a sa l la p p l i c a t i o no f v i d e ot e x te x t r a c t i o na l g o r i t h m , w ed e v e l o pas y s t e mt h a tc a l l r e m o v eu n d e s i r e dc a p t i o n si nv i d e o i nt h i ss y s t e m , w ef i r s td e t e c ta n ds e g m e n tt e x tf r o mv i d e o l 隆a m e s , t h e nr e s t o r eo c c l u d e dr e g i o n st h r o u g hs p a t i a lr e s t o r a t i o na sw e l la st e m p o r a l r e s t o r a t i o n k e y w o r d s ：t e x td e t e c t i o n , t e x ts e g m e n t a t i o n , t e x tr e c o g n i t i o n , o c r , i m a g eu n d e r s t a n d i n g , c o n t e n t - b a s e dr e t r i e v a l ( c b r ) ，p a t t e mr e c o g n i t i o n i l 图1 1 图片视频文字提取的系统结构图图1 2 不同种类的图像文字图目录图1 3 特殊的图像文字图1 4 文字检测得到的文字块图2 1 具有复杂背景的图片和视频帧。图2 2 基于拆分合并的文字分割流程图图2 3 文字分割算法的输入文字块图2 4 文字分割的各阶段示意图图2 5 连通分量尺度计算示意图 1 3 1 4 图2 6 动态聚类得到的图像层图2 7 文字层的带状分析图。 1 5 1 6 1 8 1 9 图2 8 几种算法分割效果的对比( 每组图中第一行为原始图像块，第二行为本文算法分割结果，第三行为闽值算法的分割结果，第四行为简单k - m e a n s 算法的分割结果) 2 1 图2 9 本文算法效果较差的例子图2 1 0 本文文字提取系统d e m o 界面截图图3 1 视频文字检测框架示意图图3 2 高斯混合分布示意图图3 3 字幕文字颜色的多峰分布图3 4 简单用户交互选定文字像素。图3 5k - m e a n s 聚类结果与选择图3 6 利用当d 口模型进行文字检测和分割图3 7 投影曲线示意图图3 8 字幕文字检测和分割的结果 v l i m 拍船孔孔驺弘弘 | 兰i 像和税颇中叠加卫，挺取曹泣i 卅究发p 用： i 苎| 甘录图3 9 测试视频及其文提取结果示例图3 1 0 模型参数的时问自适应变化图( 8 = 1 ) 。 4 1 4 2 4 3 图3 1 1 基于时间自适应模型的文字提取系统界面截图图4 1 不同语占字幕文字的简单叠加效果图4 2 用纹理合成方法进行图像恢复的效果图图4 3 图像填充算法示意图图4 4i n p a i n t i n g 算法的渐变性质图4 5i n p a i n t i g 算法的效果示例图4 6 基于样例的图像填充算法标记示意图 4 4 4 4 4 6 4 6 4 7 图4 7 基于样例的图像填充过程过程示意图图4 8 视频字幕进行自动擦除系统流程图图4 9 字幕擦除效果示意图 4 8 4 9 5 0 图4 1 0 文字区域和搜索区域示意图图4 1 1 时域恢复直接得到擦除结果图4 1 2 时域恢复与空域恢复结合得到擦除结果图4 1 3i m a g ei n p a i n t i n g 算法出现的模糊现象图4 1 4 基于样例的图像恢复算法的图像恢复过程图4 1 5 字幕自动擦除系统界面 v l 5 i 5 2 5 3 5 3 5 4 5 4 表目录表2 1 算法的性能比较表2 2 对不同图片的分割性能表2 3 对中英文字符的分割结果表3 1 算法对三个视频片断性能比较表3 2 与不基于模型的算法的性能比较声明我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。储签镌耀久嗽一弘，厂论文版权使用授权书本入授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档，允许本论文被查阅和借阅，可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 懒名翩心燃：彬眺川何 1 1 课题背景第一章引言 2 0 世纪9 0 年代以来，计算机技术和通讯技术飞速发展，以图像、声音和视频为主的多媒体信息成为信息交换的主流，大大地改变了人们的，上活方式。在i n t e m e t 上，纯文本页面正逐渐被加入多幅图像，以使页面更吸引人，相当数量的文字信息币越束越多地以图像形式出现，同时，本柬纯粹收藏文字资料的图书馆也正在不断地把图像、视频和声音剪辑加入收藏，数字图像和视频图书馆正在兴起，它们都需要一个自动的方法去有效地索引和枪索多媒体内容。但传统的数掘库枪索中采用的足基于关键词的检索方式，这种方式检索多媒体信息已逐渐显得力不从心，不能满足人们的需要，于是基于内容的检索( c o n t e n t - b a s e dr e t r i e v a l ，c b r ) 技术应运而尘f 卢o i l 。图片和视频中的叠加文字足帮助理解图片和视频内容高层语义的重要线索，有效地提取这些文字对图像理解和基于内容的多媒体信息检索系统束沈是一项重要的技术。在 i n t e m e t 上，越来越多的页面内容以图片的形式展示；在视频中，新闻标题、v c d 影片字幕、播出时问和工作人员名单等均包含了丰富的高层语义信息。如果这些文字能自动地被检测、分割和识别出来，必定会对图像高层语义的自动理解、索引和检索具有很大的帮l 功 l i e n h a r t 9 6 1 另一方面，视频和图像中文本信息提取的后期处理技术已经相当成熟。在文本检索方面，人们已经积累了大量的工作。g o o g l e ，y a h o o ，b a i d u 等i n t e m e t 上的搜索引擎已经可以比较有效地通过关键词检索的方法来为用户搜索感兴趣的内容；在文字识别方面， 2 0 世纪7 0 年代兴起的光学字符识别( o p t i c a l c h a r a c t e r r e c o g n i t i o n ，o c r ) 技术现已日渐完善，在对文字材料进行扫描并将其转换为计算机能够统一识别和存储的内码方面已取得了较大成功。因此，人们研究的重点便放在了如何迅速有效地检测及提取这些文字信息上 1 2 课题来源及目的本课题的研究受国家8 6 3 信息安全技术“网络图像监控关键技术研究”( 课题编号： 2 0 0 3 a a l 4 2 1 4 0 ) 课题的支持。图片和视频文字提取，是图像理解和基于内容的图像索引与检索的重要支撑技术，其目的就是要准确、快速、鲁棒地定位和分割出视频中的文字，为标准的o c r 系统提供输入，最终将以图像形式存在的文字转化为标准的文字编码。中国芊院坝l 学位论史一吲像年n 觎频中煎姐l 殳7 挺舣笋庄研究发麻用 1 3 主要技术方法的国内外研究现状 1 3 1 国内外相关工作在2 0 世纪7 0 年代，随着光学字符识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n , o c r ) 技术的兴起，i ，f 多学者就丌始进行文档图像中文字提取的研究，到了上世纪9 0 年代，随着计算机技术和多媒体技术的飞速发展，基于内容的多媒体检索成为一个研究的热点。这时，图像和视频中的文字荻取又逐渐成为研究的热点之一。通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化，文字背景复杂，图像分辨卒低，图像噪声高，而且很多系统在应用上还要求算法有较高的处理速度，这些都使得从图像中有效地提取出文字变得异常困难。国内外很多学者在这方面部作出了有益的探索和尝试。 z h o n g 首先在 z h o n 9 9 5 1 中提出了定位复杂图像中的文字的一个解决方案。该方案融合了两种方法，分别基于寻找特定尺寸的t 鞋色区域和基于文字本身特殊的空间差异。该方案主要足针对彩色c d 封面的扫描图像中的文字定位，还不能直接应用到视频帧图像中。通常，扫描图像的信噪比( s n r ) 是比较高，而视频图形的信噪比是相当低的，这也是视频帧中文字分割所面临的一个很大挑战。j i a n 等在 j a i n 9 8 中介绍了一种适合报纸、网页和一般的图像、视频帧的文字定位方法，该方法对广告图像、网页标题图像、扫描杂志页面以及视频帧都能获得较好的实验结果。但作者通过实例指出该算法了对小文字字体的识别效果不理想，这些实例更经常出现在视频帧中。s m i t h 等在 s m i t h 9 5 提出了一种在视频帧中检测文字的方法，该文提出的文字特征是一个有密集边缘的矩形框，并利用这些特征去识别单个视频帧中的文字，但这个方法有尺寸上的局限性，它只能检测特定字体范围内的文字，并且没有利用到相同的文字会出现在连续的多帧中这个特性去进一步增强文字检测的性能，也没有进行为o c r 做准备的文字分割。w u 等提出了一个分4 步从图像中检测和抽取文字的系统 w u 9 7 ，该系统首先把文字看成一种特殊的纹理，在三个不同尺度上使用三个二阶高斯导数来寻找可能的文字区域；然后，从水平排列的文字区域中抽取出明显的垂直笔画，再利用基于经验的规则来将笔画组合成紧凑的矩形框，并且在原始分辨率下合并这些矩形框；接着清除所有文字块内的背景得至0 - v 值的图像：至此，将得到的文字框区域重复自口面两步进行进一步提炼，最后，将二值化后的每个文字块输入标准的o c r 系统进行识别。w u 等对3 5 幅图像进行了实验，结果表明，识别率达8 4 。不过这种方法也是针对扫描图像的，同样对信噪比比较低的视频帧效果不太理想。s a t o 等丌发了一个针对静念的低分辨率新闻标题的文字分割识别系统【s a t 0 9 9 ，该系统首先使用在文献【s i n i m 9 5 1 中提出的方法去检测标题文字，然后将检测到的标题文字放大4 倍，利用视频帧的基于时f b j 的最小像素值柬对标题文字块进行整合，该系统对新闻节目取得了较好的效果。l i e n h a r t 等先后丌发出两个视频中的文字检测、分割和识别系统 l i e n h a r t 9 6 a l i e n h a r t 0 0 。这两个系统都利用了文字的罄色性、与背景的高对比度和视频字幕的简单纹理来进行图像文字分割。为了排除非文字区域，文献第一辛0 l 高【l i e r t h a r t 9 6 a 中的系统采用基于颜色的分割融合算法，并且只对单帧进行分割和识别，而没有考虑到连续的多帧，而文献 l i e n h a r t 0 0 的系统则迸一步考虑了字幕文字的纹理特征和文字在其存在的连续多帧内被追踪和整合利用，返使得其结果在商业o c r 上识别率大大提高。l i u 等在 l i 9 9 和 l i 0 0 使用了视频帧中的高频小波系数作为网络的输入来训练神经网络，对字幕中的文字进行监视，若出现文字，则继续处理一定能够数量的帧：否则就便用块匹配去追踪简单背景下的文字。 1 3 2 文字提取的系统结构一个完整的图片，视频文字提取系统结构如图1 1 所示，其中包含了文字检测、文字分割和光学字符识别( o c r ) 三个串联的阶段。狭义的文字捡测往往又被称为文字定位 ( t e x t l o c a l i z i n g ) ，而广义的文字检测包括了图1 1 中的文字检测和文字分割模块，它们作为o c r 系统的前端，是本文主要关注的问题所在。图l i 图片，视频文字提取的系统结构图 1 。3 3 文字检测的主要技术方法 1 3 3 1 文字检测问题的定义本文所提到的文字检测是狭义的文字检测，又称为文字定位( t e x tl o c a l i z a t i o n ) ，它指的是从给定的图片或视频帧中准确定位出文字区域。通常文字在图片中是以文字行或文字列出现的，所以检测的结果常以一系列的矩形框来表示。 1 3 3 2 文字检测分类根据文字出现方式的不同，文字检测可分为字幕文字检测和自然场景文字检测两种。字幕文字指的是视频片断中出现的标题、对白、解说、人员列表等人为在后期制作中叠加上去的文字，如图1 2 ( a x c ) 。字幕文字一般以文字行的形式出现，其位置范围相对稳 3 中团，学院坝l 学位砼立一| 鳘| 像和视频中叠切l 史，挺取曹i 上研究及加用定，并且同一视频片断中的字幕往往具有一致的形态，如文字的颜色，大小，笔画等等，这些信息对提高文字检测的准确率都有很大的帮助作用；自然场景文字，指的是嵌入在自然实物中的文字，例如车牌号码、宣传横幅、路标指示牌上的文字、运动员衣服上的号码等等( 如图1 2 ( b ) ( d ) ) 。这些文字出现的形态各异，位置方向等不固定，并且可能出于拍摄角度的影响产生仿射变形或自然扭曲( 如图1 3 ( a ) ( b ) ) 所示。通常检测难度比字幕文字要难得多。根掘文字在图片中叠加方式的不同，文字检测又可以分为简单背景中的文字检测和复杂背景中的文字枪测两种。简单背景下，文字和背景往往具有两种不同的颜色，其对比度很高( 如图l ，2 ( a ) ( b ) ) ，容易检测，并且一旦准确定位后，只需要简单分割就可以输入o c r 系统进行识别；复杂背景中，文字与背景不只有简单的颜色区别，文字区域与背景区域的对比度相对较低( 如图1 2 ( c ) ( d ) ) ，这种情况下，文字定位相对较难，并且定位后的结果需要复杂的分割步骤才能取得理想的识别效果。此外还有些特殊形态的文字，如手写文字、艺术字等( 图1 3 ( c ) ( d ) ) ，这种文字尽管能够检测出来，但是在o c r 系统中的识别的难度很大，不足本文关注的内容。 ( a ) 简单背景的字幕文字( b ) 简单背景的场景文字 ( c ) 复j 背景的字幕文字( d ) 复杂背景的场景文字图1 2 不同种类的幽像文字 4 第一幸l 高图1 3 特殊的图像文字 1 3 3 3 文字检测的主要方法为了解决以上文字检测问题，研究人员提出了大量的文字检测方法，这些方法大体上可以分为基于边缘的方法( e d g e - b a s e dm e t h o d ) 、基于纹理的方法( t e x t u r e - b a s e d m e t h o d ) 、基于区域的方法( r e g i o n - b a s e dm e t h o d ) 以及基于视频的多帧平均方法( v i d e o f r a m ei n t e g r a t i o n ) 等几种。由于文字和背景的复杂性，在解决实际的问题的时候，以上这些方法常常被综合使用，以提高检测的效果。 ( 1 ) 基于边缘的方法( e d g e - b a s e dm e t h o d ) 基于边缘的方法利用了文字出现区域的边缘非常丰富这个重要的特征。文字是由一系列的笔画构成的，而文字笔画与图像背景之间是以边缘为分界的，因而文字区域往往具有高密度的边缘。这种方法首先通过边缘检测( 例如c a n n y 算子、g a u s s 差分算子) 得到原图像的梯度图像，对边缘进行适当过滤以后使用形态学操作将密集的强边缘合并成区域，再使用启发式规则( 例如连通分量分析、文字条基线检测等) 对文字块进一步筛选，定位出文字行。f l i 9 9 1 先利用了一个3 x 3 的水平差分滤波器束获得垂直边缘，然中田 i 翠疏坝i 学位论文一l 鳘| 像和视频中叠卸l 史，提取算往亢发却用后利用一个平滑滤波器柬使分离的文字连接起来，并将多余的碎片过滤掉，最后利用一些文字的特征( 如文字的面积，纵横比等) 束搜索文字区域，取得较好的检测效果。基于边缘的方法可以比较快速地检测到文字，且不敏感于文字的颜色，在图像中的文字区域很少时可以迅速去除大面积的简单背景，缩小待捡测区域；但这种方法不足以去除纹理复杂的背景，常常产生比较高的误检率。尽管如此，高密度的边缘是文字的一个非常重要的特征，基于边缘的方法是其他很多方法的基础，许多混合型的方法部以此为第一步柬进行粗略的检测，以排除大部分不可能足文字的背景区域，从而提高检测的速度。 ( 2 ) 基于纹理的方法基于纹理的方法利用了纹理特征去判定一个像素点或象素块是否属于文字。由于字符通常由很多较细的笔莉构成，因此文字笔丽存在的区域通常也是图像中纹理较丰富的区域。这种方法假定了文字区域与背景区域存在纹理上的区别，先提取能够区分文字区域与背景区域的纹理特征，然后进行纹理分类。常用的纹理特征有图像的一阶导数、二阶导数、边缘强度、局部方差、r 叮系数、g a b o r 系数以及小波系数的各种统计特征如一阶矩、二阶矩、直方图、共生矩阵等等。w u 在 w u 9 7 和 w u 9 9 提出一种基于k - m e a n s 的算法去识别文字像素，该方法使用了9 个高斯二阶导数作为图像的纹理特征。【l i 0 0 中使用了神经网络在h a r t 小波解析特征空间中去抽取文字块； z h o n 9 9 5 提出一种综合分析空间差异和连通区域的方法，而 j a i n 9 8 q b $ q 用了g a b o r 小波。纹理特征可以使用在文字检测算法的不同阶段，一种做法是选取一个适当大小的滑动窗口和相应的滑动步长，对原始图像进行穷尽扫描，计算窗口内的纹理特征并分类，以确定可能的文字区域，然后依据其他特征和规则进行后续的求精处理。这种算法对于计算过程较复杂的纹理特征通常很费时，于是很多算法先使用其他方法如边缘检测、连通分量分析等从原始图像中提取出候选文字区域，然后只对这些候选文字区域依据纹理特征进行验证，以排除其中的非文字区域。基于纹理的方法可以识别出各种类别的文字，具有较好的通用性。但是这类方法对文本的字体和风格比较敏感，并且为了提取纹理信息，通常必须通过对全图进行微分运算来寻找微分结果较大的区域，这种运算是非常耗时的。另一方面，如何选取有效和通用的纹理特征也足该类算法的一个难点，在利用纹理信息进行分割的时候，往往也需要特别注意防止全图高频噪声的影响。 ( 3 ) 基于区域的方法基于区域的方法通常假设文字具有一致的前景色，而且与背景色具有较大的颜色差异以保证较高的对比度该类方法依掘这一假设使用各种算法例如灰度阂值、颜色量化、区域标注、区域分裂与合并等提取出所有的连通分量；然后根据文字分量固有的几何特性和相互间的位置关系( 例如字符的间距、行距等) ，构造启发式规则，对连通分量进行几何分析以排除明显的非文字分量，然后自底向上地将连通分量逐级地合并成较大的分逗，最后形成区域，在合并的过程中，将不满足规则的分量作为背景分量除去；最后对 6 第辛0 i 高所得到的候选文字区域进行优化，包括利用水平和垂直投影、文字块的填充率、与背景的对比度等指标进一步去除残余背景区域。r l i e n h a r t 9 6 a 中文字检测算法就是基于连通区域的，需要文字或其背景是单一颜色，【k i m 9 9 1 使用从真实文字图像中聚类所得到的文字区域模板来进行区域匹配并滤除非文字区域，从一定程度上降低了定义启发式规则的难度。许多基于连通分量的方法实际上已经在检测文字的同时实现了文字的分割，或只需要对检测的结果进行简单的二值化操作就可实现文字的分割 w u 9 6 】。基于区域的方法具有较快的处理速度和较高的定位精度，它不仅能识别人工的字幕，也能检测复杂背景中的文字。然而，由于图像和视频帧中文字并不总是单色的，这在一定程度上限制了该方法的使用范围。 ( 4 ) 基于视频的多帧平均方法视频字幕一般具有如下的时空特性：，字幕的存在可能跨越若干帧，甚至若干镜头；字幕存在时，尽管不同帧之问变化很大，但是字幕所在区域的亮度或颜色变化不大；字幕出现时，字幕对应区域在相邻的视频帧之问会出现很大亮度或颜色的变化，同时，当字幕消失时，也会产生很大类似的跳变。这样，通过对字幕出现或消失的相邻两帧进行比较，就可以检测得到候选字幕区域；对字幕持续存在的多帧进行平均，就可以进一步排除一些被错误检测到的非文字区域，而且可以使字幕候选区域的图像质量得到改善和增强i l l 9 9 h u a 0 1 1 。视频多帧的利用，需要采用视频结构化方法来有效选取所需要的若干视频帧。这样，该方法的效能和自动化程度就很大程度上依赖于视频结构化的效能。 1 3 4 文字分割的主要技术方法 1 3 4 1 文字分割问题的定义如前所述，通过文字检测，我们得到了原始图像中出现文字的一系列矩形区域。将这些区域剪裁下来，就得到了原图像的一系列子图像，我们称之为图像文字块，如图1 4 所示。文字分割指的是从以上的图像文字块中将背景去除，得到只含文字信息的二值图像，从这个意义上说，文字分割也可以叫做图像文字二值化文字分割是文字检测到文字识别的一个中间步骤，对于某些本来就是二值化图像的文档图像来说，这个步骤是不需要的，但是现在社会中，特别是飞速发展的互联网中，彩色图片和视频越束越多，这些图片和视频帧中的文字背景大多是复杂的，而目自口大多数o c r 软件要求干净、清晰的二值化图像作为输入，尽管有些软件和方法 c h e n 0 4 支持久度级文字的识别，但是当背景复杂到一定程度的时候，其识别效果也会受到影响。所以，为了满足传统o c r 模块的输入要求，有效的文字分割对于复杂背景的图片是很有必要的。 7 中国 i 。7 - 院坝l 学位论史| 兰i 像和视频中叠加史7 娃取箅泣训f 究发廊用图1 4 文字检测得到的文字块 1 3 4 2 文字分割的主要方法近年来，研究人员在文字分割方面做了大量有意义的工作，提出了很多方法，这些方法大致百r 分成以下三类： ( 1 ) 基于颜色阈值的方法基于颜色阂值的方法假定了图像中文字的亮度总是比背景高或者比背景低，通过估计背景颜色和前景颜色的阈值束达到分割的目的。文字的闽值又分为全局阈值和局部阈值两种。全局阀值是指整个图像都使用的一个阈值；局部阈值则是指根掘图像的具体区域束确定的阈值，与全局阂值相比，它的优点是能处理亮度和对比度发生变化的图像。文 l i u 9 7 首先利用了 o s t u s 7 9 的提出的二值化算法获得一系列的候选阈值，这些闽值各对应一种纹理特征，对这些纹理迸行分析最后确定最优的阂值。文 w u 9 7 1 利用了局部阈值来取出背景和噪声，同时得n - 值化的图像。基于颜色阈值的方法最早来源于文档图像分析，它对处理背景简单的文档图像简单而有效，但是当背景复杂起来的时候，由于图片中的文字颜色和背景颜色之间不存在简单的阈值，因而这种简单的方法便失效了 ( 2 ) 基于颜色模型的方法基于颜色模型的方法认为图像中的文字颜色分布是满足一定的参数模型的，这种方法首先通过机器学习为文字像素建立一个颜色模型，然后利用该模型计算图片中每一个像素属于文字像素的概率，概率高于某个阈值的像素被标记为文字像素，低于这个阈值的像素标记为背景像素。在 c h e n 0 2 中，c h e n 等首先为图像中的文字久度值建立一个高斯混合模型( g a u s s i a nm i x t u r em o d e l g v i m ) ，然后用基于马尔科夫随机场( m a r k o v r a n d o mf i e l d ，r f ) 的方法确定每个象素所属的高斯项，从而达到分割的目的。【y e 0 4 】中，y j 等在h s i 颜色空问中使用g m m 表示文字颜色的h 、i 两分量的分布，首先利用第一学0 l 高文字的“边缘对”特性通过采样得到一部分属于文字的像素，然后使用这些样本在线估计g m m 的参数并根据g m m 提取剩余的文字像素。基于颜色模型的方法由于考虑到了文字颜色的多峰值分布，因而能够处理比较复杂的背景，但是对不同的图像，其文字的颜色模型往往差别很大，为多种不同的图像建立不同的模型并不容易，有时候甚至是不可能的。 ( 3 ) 基于连通分量分析的方法基于连通分量分析的方法利用了文字笔画具有连通性的特征，这种方法首先将输入的图片分割成一系列的连通分量，然后通过自底向上的方法分析确定每个分量属于前景还是背景，最后将所有前景分量组合成分割结果。文献 s o b o n k a 9 9 】利用一种非监督聚类的方法将图片中颜色相近的像素聚成若干个像素类，然后通过一个自底向上和一个自顶向下相结合的方法来完成文字的分割；文 z h o u 9 7 贝f 应用了一种基于e m s t 的聚类方法进行颜色的量化。基于连通分量的方法由于对文字的笔画作为整体处理，因而分割的结果笔画的连贯性比较好，易于被o c r 软件所识别；但是大多数这类方法进行连通分量聚合的时候只利用了文字的颜色，因而只能对具有单一颜色的图像文字有效，另一方面，较低的图像分辨率和较高的图像噪声也会影响连通分量聚合的结果。 1 4 本文的主要研究内容通过以上对图像和视频中文字提取技术以及国内外相关工作的分析可以看出，目前图像和视频中文字提取所面临的困难主要包括以下几个方面： ( 1 ) 图像分辨率低，图像质量差，对于视频帧来说，表现的更为明显。虽然随着图像和视频的压缩编码技术以及高清晰度数字电视的发展，图像和视频的质量将得到比较大的改善，但是图像质量的增强，尤其是文字图像的增强，仍需要进一步的研究。 ( 2 ) 图像文字的背景复杂。在w w w 图像和视频帧中，复杂背景广泛存在，它们的纹理模式各异，甚至有一些还类似于文字这不仅是导致文字检测出现较高的误检率 ( f a l s ea l a r m ) ，还会使得这部分文字很难被检测到，产生漏检。复杂背景的存在，使得被检测到的文字块中常常含有大量的与文字颜色相当接近的背景对象，现有的文字分割算法还不能有效地去除它们，使得它们残留在二值文字图像中一起被提交给o c r ，造成 o c r 识别率的严重下降。 ( 3 ) 文字的尺寸、字体、颜色、运动方式多交，语言种类也多种多样。因此，寻找一种能在各种图像分辨率水平下，较为复杂背景中，提取并分割出文字的鲁棒性方法是一个重要的研究课题。由于h l t c m e t 的不断发展，图像和视频数掘的同益膨胀，对这些资源进行基于内容的分析和索引，没有极高处理速度的系统不可能胜任的。目前的文字检测和分割方法的处理速度还相当有限，基本上还没有达到实用的程度。因此，如何在保证文字提取j 下确 9 中时；院琐f 学位论且l 芏! 像和税颁中盛抽i 史，提取算法研究发m 用率的酊提下加快处理速度，提高系统的实用性也是一个重要的研究目标。此外，目前很多关了二图像和视频文字提取的方法大多停留在实验原型阶段，真i f 的应用系统还比较少。丌发基于图片和视频文字提取的特定应用系统，也足本课题的一个重要目标。本论文的研究内容主要包括： ( 1 ) 基于拆分一合并的鲁棒文字分割算法研究在图片和视频文字检测的基础上，利用文字的颜色和空间信息，对检测到的文字块进行准确和高教的分割，最大限度地去除图片中的背景，为后端的o c r 系统提供完整的二值图像输入 ( 2 ) 基于时间自适应变化模型的视频文字提取算法研究假设在一段视频序列中文字的颜色具有一定的均匀一致性，然后通过一种非常简雎的用户交互方式来启动一个基于颜色的在线机器学习过程，并利用生成的随着时脚自适应变化的模型束鲁棒地检测分割出同一视频序列中的字幕文字。在引入简单的人工交互行为后，往往能够大大提高文字提取系统的性能，这在一些对完全自动化要求不高，但足对准确性和处理速度要求很高的系统中将是一项较为实用的技术。 ( 3 ) 视频文字提取方法应用于视频字幕自动擦除将文字检测技术的和图像恢复技术相结合，应用于图片文字的自动擦除，开发一个实用的视频字幕自动擦除系统。 1 5 论文的组织论文从课题的背景出发，在第一章引言中阐述了图像和视频文字提取的意义，并将完整的文字提取系统划分为文字检测、文字分割和文字识别三个阶段，指出前两部分足本文所要解决的问题所在，接着详细分析了文字检测和文字分割的问题定义，主要研究方法和国内外的相关工作。在第二章中，提出了一种基于拆分合并的鲁棒文字分割算法。该算法在图片和视频文字检测的基础上，利用文字的颜色和尺度信息，对检测到的文字块进行准确和高效的分割，最大限度地去除图片中的背景，整个算法包括预处理、拆分、合并和后处理四个步骤，在文章中分别作了详细的描述。第三章将研究目标从静态的图像扩展到连续的视频帧，提出一种基于时日j 自适应模型的字幕文字提取算法，该算法通过引入简单的人工交互来提高系统的准确性和处理速度。在这一章中，首先介绍一个基于视频的文字检测框架和将应用于本文算法的高斯混合模型，接着洋细描述了模型的初始化、文字检测和分割以及模型更新三个部分，最后给出实验结果和分析。在莳两章的基础上，第四章研究了文字提取的应用，将文字检测技术的和图像恢复技术( i m a g el n p a i n t i n g ) 相结合，介绍和实现了图片文字的自动擦除系统。 0 第一节- j l 高最后一章对全文进行了总结，并对下一步的研究方向作了阐述第二章基于拆分一合并的鲁棒文字分割算法 2 1 文字分割的必要性文字分割就是将图片或视频帧中文字之外的背景去除，得到只包含文字信息的二值图像。它足整个文字识别系统的重要步骤之一。文字分割的必要性主要表现在以下两个方面： ( 1 ) 很多包含文字的图片都具有复杂的背景，特别是那些来自于i m e m e t 的彩色图片和视频帧( 如图2 1 所示) ，将这些图片直接导入o c r 系统进行识别，很可能得到毫无意义的结果，因为传统的o c r 系统需要输入足干净、清晰的二值化图像。 ( 2 ) 很多视频帧中的文字分辨率比较低，而传统的o c r 要求输入的图像有至少 2 0 0 d p i 到3 0 0 d p i 的分辨率 l i e n h a r t 0 2 ，少于这个分辨率将会严重影响o c r 系统的的识别效果。大部分原始视频帧的分辨率达不到这个要求。 ( a ) 来自t ：i n t e r n e t 的彩色图片( b ) 新闻视频的标题图2 1 具有复杂背景的图片和视频帧可见，有效地从图片，视频帧中分割出文字是非常必要的为了解决上述的问题，研究人员对图像文字的分割作大量的探索和尝试，在上一章中已经提到，已提出的图片文字分割方法大致可分三类，再简述如下：基于颜色阀值的方法：通过估计背景颜色和前景颜色的阂值来达到分割的目的。基于颜色模型的方法：首先通过机器学习的方法为文字像素建立一个颜色模型，然后利用该模型计算图片中每一个像素属于文字像素的概率，超过某个概率闽值的像素被标记为文字像素。基于连通分量分析的方法：首先将输入的图片分割成一系列的连通分量，然后分析确定每个分量属于背景还是自f 景，最后将所有自口景分量组合成最终的结果。本章在总结以上方法的基础上，提出一种基于文字层的动态划分划分和选取的文字分割算法。该算法为了解决以往方法存在

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）图像和视频中叠加文字提取算法研究及应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档