




已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)基于内容图像检索中的文字分割技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于内容图像检索中的文字分割技术研究上海大学硬士学位论文 摘要 随着基于内容的图像检索技术的发展,对包含文本信息的图像的研究日益成 为图像检索领域的研究热点之一。与颜色、纹理、轮廓等特征不同,文本信息能 够直接提供解释图像的语义,从而使得语义级的内容检索成为可能。但是,由于 图像通常都会有比较复杂的背景,很难将字符信息直接提取出来用于检索,因此 研究基于内容图像检索中的文字分割技术具有重要的意义。 本论文主要研究了复杂背景图像中的字符定位及其相应的二值化处理方法, 并将该方法应用于医学、媒体广告和视频等图像的实验中,实验结果证实了方法 的有效性。 作者研究的成果主要包括以下两个方面: 结合二维小波在图像处理中具有方向选择性及字符图像具有方向特性,提出 了基于小波的字符图像定位方法。在该方法中,利用二维小波的方向选择性 提取了图像在不同方向上的高频信息,并将它们进行融合,从而得到具有字 符方向特征的所有象素,在此基础上,通过数学形态运算将非字符部分的象 素去除,最后准确有效地定位出字符图像区域。实验结果显示该方法具有较 强的稳健性,能够有效地定位复杂背景图像中的字符区域。 对于定位后得到的字符区域,由于背景依然比较复杂,很难宜接进行二值化 处理,为此提出了能够消除字符区域干扰背景的二值化处理方法。该方法首 先将字符图像视为特殊纹理,分割出具有字符图像部分,从而可以消除非字 符图像的干扰,然后,通过选择适当的闽值,将得到的背景干扰小的字符图 像进行二值化处理。 关键词:文字分割、二维小波、形态运算、g - a b o r 滤波、k - 均值 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 a b s t r a c t w i t ht h ea d v a n c e m e n to fc o n t e n t b a s e d i m a g e r e t r i e v a l t e c h n o l o g y , t h e i m p o r t a n c eo fs e m a n t i c sf o r t e x ti n f o r m a t i o nc o n t a i n e di ni m a g e sa t t r a c t sm a n y r e s e a r c h e r s c o m p a r e dw i t hv i s u a lf e a t u r e s ,s u c ha sc o l o r , t e x t u r ea n dt o u r , t h et e x t i n f o r m a t i o nc o n t a i n e di ni m a g e sg i v e si m p o r t a n tc l u et ot h es e a r c he n g i n e , a n dm a k e s t h es e m a n t i c - l e v e lc o n t e n t - b a s e dr e t r i e v a lp o s s i b l e s oi ti sn e c e s s a r yt od or e s e a r c h o nt h et e x ts e g m e n t a t i o nf o rc o n t e n t b a s e di m a g er e t r i e v a l t os e g m e n tt e x tl i o mc o m p l e xb a c k g r o u n d ,t h i sp a p e rs t u d i e st e x tl o c a t i o na n d r e l a t i v eb i n a r i z a t i o n p r o c e s s i n g m e t h o d al a r g en u m b e ro fm e d i c a l i m a g e s , a d v e r t i s i n gi m a g e sa n dv i d e of r a m e sa r et e s t i nt h i sp a p e r , a n dt h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h em e t h o du s e di nt h i sp a p e rc a ne x t r a c tt e x t 劬m c o m p l e xi m a g e s e f f e c t i v e l y m a i ne o n t n b u t i o n so f t h ea u t h o r sr e s e a r c ha r ea sf 0 1 1 0 w s an e wt e x tl o c a t i o na p p r o a c hb a s e dw a v e l e ti sp r o p o s e d , i nw h i c hd i r e c t i o n a lt e x t i n f o r m a t i o ni sd e t e c t e d b ya p p l y i n g t h e2 dw a v e l e tt r a n s f o r ma l o n gt h r e e d 证e c t i o n sa n dt h ep i x e l sw h i c hh a v eh i g hf r e q u e n c ya r ee x t r a c t e da st e x t t h e t h r e eo u t p u t sa r ec o m b i n e dt o g e tt h et e x ti n f o r m a t i o no n l y t or e m o v eo t h e r n o n - t e x tp i x e l s ,m o r p h o l o g i c a lo p e r a t i o n sa r eu s e d a n dt h er e c t a n g u l a rb o x e sa r e c a l c u l a t e di nt h ee n d , w h i c hc a nl o c a t et h et e x t u a lr e g i o n s 肋m o r i g i n a li m a g e s i n c et h et e x t u a lr e g i o n ss t i l lh a v ec o m p l e x b a c k g r o u n d t h e i rb i n a r i z a t i o nc a r l t b e r e c o g n i z e dd i r e c t l yb y t h eo p t i c a lc h a r a c t e r r e c o g n i z e r a r e l a t i v eb i n a r i z a t i o n p r o c e s s i n gi sp r o v i d e di nt h i sp a p e r , w h i c hi n c l u d e st w op r o c e s s e s ,e l i m i n a t i n g b a c k g r o u n da n db i n a r i z a t i o n t h ei d e ao f t e x tl o c a t i o nb a s e dt e x t u r es e g m e n t a t i o n i sa d o p t e dt oe l i m i n a t et h ed i s t u r b i n gb a c k g r o u n d t h eb i n a r yi m a g e sg a i n e di n t h ee n dc a nb e r e c o g n i z e d k e y w o r d s :t e x ts e g m e m a t i o 玛2 dw a v e l e t ,m o r p h o l o g i c a lo p e r a t i o n , g a b o rf i l t e r , k - m e a n s 基于内容图像检索中的文字分割技术研究上海大学硕士学拉论文 绪论 一引言 随着信息技术的高速发展,各种多媒体信息数据也日益膨胀。如何快速、准 确、全面地从海量信息库中搜索出所需的信息,在知识经济时代特别重要。因此, 人们对多媒体信息的检索要求也越来越高。 传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多, 而通过对人工标注和描述进行索引的检索方式,已远远不能满足现代多媒体信息 检索的需要,基于内容的多媒体信息检索技术“1 就是为解决这方面的需求而出现 的。基于内容的多媒体信息检索技术包括基于内容的音频检索和基于内容的图像 检索,由于多媒体信息多以图像为主,基于内容的图像检索已成为目前研究的热 点。 在基于关键字的图像检索系统中,需要先对所有的图像进行关键字标注,然 后才能使用全文检索技术对图像进行搜索。这种方法存在两个方面的问题:一是 这种方法需要较多的人工参与,而且随着图像数目的增加,这种方法很难实现; 第二个问题在于图像所包含的信息量庞大,不同的人对于同一张图像的理解也不 相同,这就导致对图像的标注没有一个统一的标准,因而检索的结果不能很好地 符合用户的需求。 基于内容的检索不同于基于关键字的检索,它不需要过多的人工参与,而利 用图像自身的特征来进行检索,具有较强的客观性。但是,由于这些特征并不代 表图像真正的语义信息,基于内容的检索结果往往不能令人满意。因此目前大多 数系统还是基于关键字的检索,如y a h o o 、a l t a v i s t a 等互联网搜索引擎。语义 级的内容检索研究成为基于内容的多媒体信息检索技术研究的趋向。 语义级的检索需要一些语义分析或知识,例如分析注释或对象的标题、字幕 等。而语义检索是理想的,因为它是人类所希望的一种检索方式,但是,它需要 高强度的人工注释,或者需要难以实现的复杂的自动内容分析。 现在的自动语音识别技术使音频检索可以达到语义级,可以自动识别出音频 流中的词语,而完全可能自动定位到某人,他正在谈论长城,或是真正找出有关 基于内容图像检索中的文字分割技术研究 上海大学硕士学位论文 长城的记录片或镜头。因此,音频检索具有其自身的优势,并且可以达到较好的 效果。但从图像中提取语义非常困难,例如,如果没有关键字的注释,要找出“长 城”的照片非常困难。对于有字幕的图像或有字符标注的照片,语义的提取将成 为可能,但如何从背景复杂的图像中提取出文字依然是目前研究的难点。 本论文研究的内容是上海市高等学校科学技术发展基金项目“直接基于图像 内字符信息的图像检索技术”的一部分。该项目研究的主要内容包括三个部分: 其一,考虑不同类型图像中字符图像区域的特点,针对复杂背景图像研究有效的 文字分割算法;其二,研究复杂背景中字符图像的二值化处理方法,提取出可以 直接用于检索的字符信息:其三,研究基于提取出的字符特征的图像检索。 本文研究的内容属于前两部分,首先将小波变换在图像处理中的特性应用到 文字图像分割中,提出了基于小波的字符图像定位方法,并应用方向滤波将已定 位字符图像的干扰背景消除,最后得到可直接用于识别的二值图像。实验考虑的 对象是特定的几类包含字符信息的图像:媒体广告图像、医学图像、视频图像。 二本论文研究的内容 本文作者研究的成果主要包括以下两个方面: 结合二维小波在图像处理中具有方向选择性及字符图像具有方向特性, 提出基于小波的字符图像定位方法。 在该方法中,利用二维小波的方向选择性提取了图像中在不同方 向上的高频信息并将它们进行融合,从而得到具有字符方向特征 的所有象素,之后通过形态数学运算将非字符部分的象素去除,最 后有效准确地定位出字符图像部分。实验结果显示该方法具有较强 的稳健性,能够将复杂背景图象中的字符部分有效地定位出。 与已有的复杂背景中的字符图像定位方法不同的是,本文采用了 二维小波进行字符图像的检测。该方法计算量小,定位有效。在已 有方法中,基于纹理分割的字符图像定位方法也提取了图像的方向 信息,但它是用于分割出字符图像的纹理信息的,并且计算量大。 对于已定位出的字符图像,由于背景依然比较复杂,很难直接进行二值 化处理,为此提出了能将字符背景干扰消除的二值化处理方法。 2 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 该方法由两个过程组成:消除干扰背景和二值化。在消除干扰背 景这一过程中,应用了已有的基于纹理分割的字符图像定位方法, 将具有字符图像纹理的部分分割出,从而可以将非字符图像的干扰 部分消除。由于在本文中要处理的是定位后的图像,图像的尺寸小, 应用该方法能够较精确地将字符图像和干扰背景分离,并且计算量 很小,克服了该方法在原来应用中计算量大的缺点。在二值化过程 中,通过选择适当的阕值,将得到的背景干扰小的字符图像进行二 值化处理。 已有用于版面分割的基于纹理分割的字符定位方法,在本文方法 的干扰背景消除过程中得到很好的应用。实验结果表明,该方法能 够较好地消除背景的干扰。最后得到的二值图像质量较好,可直接 用于识别。 三论文的基本安排 本文最主要的工作是分析了字符图像的特征,将图像处理中常用的二维小波 变换应用到复杂背景中字符图像定位,并结合形态滤波的特性和g a b o r 滤波的特 性迸行相应的后处理,有效地定位出复杂背景中的字符,最后得到可直接用于 o c r 识别的二值化字符图像。 论文各章的具体安排如下: 第一章是概述。介绍了基于内容的图像检索技术出现的背景、基本结构、其 主要应用以及m p e g 7 标准与基于内容检索技术研究的关系,最后对已有的研 究方法和研究成果进行了分析。 第二章是本论文要讨论内容的基础。简单地介绍了直接基于图像内字符信息 图像检索技术,分析了字符图像的基本特点,总结了已有的几种主要文字分割方 法,最后根据从已有方法得到的启发提出了新的文字分割方法基本框架。 第三章是本论文的重点。首先是二维小波在图像处理中具有极向性的基本原 理介绍。然后介绍了用二维小波定位复杂背景中字符图象的实现方案。根据基本 方案的不足,采用相关的后处理方法。最后根据实验结果讨论了方法的可行性和 有效性。 基于内容图像检索中的文字分割技术研究上海大学硬士学位论文 第四章同样是本论文的重点。对已定位出的字符图像进行二值化处理。在已 有的基本二值化处理方法的基础上,提出了用于背景复杂的字符图像二值化处理 方法。将纹理分割应用到字符图像的二值化处理中,消除背景复杂对二值化处理 的干扰,然后通过选择闽值进行二值化。 第五章是结束语。 4 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 第一章基于内容图像检索技术简介 本章内容提要: 基于内容图像检索的概念及应用举例 m p e g 一7 与内容检索研究之间的关系 已有的基于内容图像检索研究成果 第一节基于内容图像检索技术产生的背景及其应用 随着多媒体技术和网络技术的迅速发展,图像来源不断扩大,大容量高速存 储系统为图像的海量存储提供了基本保障,各个行业和领域对图像的使用日益广 泛,图像资源的管理和检索显得特别重要。图像检索技术的研究将对多媒体数字 图书馆、医学图像管理、卫星遥感图像、计算机辅助设计和制造、地理信息系统、 罪犯识别系统、商标版权的管理等o 方面提供有力的支持。 图像的传统管理方式是以文件系统进行的,当用户查询一幅图像时,要逐一 打开文件进行浏览才能找到其目标图像,随着图像文件数量的增加,查找效率急 剧降低。由于以文件存储方式对图像的使用和操作非常方便,以文件管理图像的 方式一直延用至今。图像检索技术作为解决问题的关键,在研究中持续不断发展, 以适应信息技术发展所带来的新需求。 基于内容图像检索技术的产生 图像检索自7 0 年代开始便成为一个非常活跃的研究领域,其推动力来源于 两大研究领域:数据库系统和计算机视觉。传统的图像检索主要是基于文本方式 的,主要方法是通过人工对图像文件建立关键词或文本标题以及一些附加描述 信息,然后将图像的存储路径和图像关键词之间建立联系,其研究主要在数据库 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 领域进行。当图像的数量非常大的时候,这种检索方法存在两大缺点。一个缺点 是手工对图像进行注释所需的工作量实在太大,尤其是对于大型的多媒体数据 库,如数字图书馆,每天都有大量的新资料出现,需要及时把这些资料归档。没 有计算机的自动或辅助处理,资料的更新周期就不能满足用户的需要。另一个缺 点是人工注释难以解决蕴藏在图像中的丰富内容以及内容描述的主观性,人们常 说,一幅图胜过千言万语,而图像中确实由许多内容部分很难用文字来描述清楚 的。 8 0 年代是多媒体技术发展的时代,图像的获取、创作、压缩、存储技术都 取得了举世瞩目的成就,而对图像信息的管理尚未给予足够的重视。9 0 年代早 期,大规模图像数据库的出现,由手工进行注解的这一方法所带来的困难变得十 分尖锐。基于内容图像检索技术c b m ( c o n t e n t b a s e di m a g er e t r i e v a l ) 。1 的出现 为海量信息库的管理与检索带来了新曙光,它不同于基于文本的检索方式,不需 要过多的人工参与,而是利用图像自身的视觉内容特征f 如:颜色、纹理、形状 等) 来进行检索的。 图1 1 基于内容图像检索系统的一个基本框架 一个基本的基于内容图像检索系统主要由几个部分构成:图像的预处理、特 征提取、数据库系统、查询和浏览界面、匹配引擎以及索引过滤器。整个系统的 基本框架如图1 1 示。图像的预处理部分实现图像的获取、数字化和格式统一化, 使得到的图像可直接用于分析和建立数字图像库。特征提取部分主要是通过对图 像进行分析提取出图像中客观存在的视觉特征,然后根据已提取的特征建立与图 像对应的特征库。数据库系统包括数字图像库和视觉特征库。建立索引后,用户 6 基于内容图像检索中的文字分割技术研究上海大学硬士学垃论文 可以直接通过查询界面进行查询。根据查询的内容,匹配引擎利用相似性测度从 特征库中寻找匹配特征,通过索引过滤器将与匹配特征相对应的图像都传递给用 户。 二基于内容图像检索技术的应用举例 基于内容图像检索的应用列举如下: l - 远程购物 越来越多的商品是通过在线商品目录销售的。如果目录限制为文本形式,效 果就不好。视觉的印象要比文本的印象深刻得多。用常规的方法可以检索到商品, 但是对于要买的商品,往往是许多用户仅仅知道一些模糊的概念,“看到了才知 道”。因此,需要提供视觉查找方法,以及逐步调整搜索要求,最终找到所要的 商品。例如,“我要查找棕色的鞋子,像这样的鞋子,但是后跟要高一些”,或 者是“我在找这种花样的窗帘,但是颜色要更鲜艳一点”。这样的可视搜索还 适合地毯、布料、内装修、建筑等方面的商品选购。 2 生物医学应用 医学资料充满了大量的图像,以不同的缩放比例,表示身体备部分正常和病 变的状况。诊断中通常需要调用这些资料,而仅仅采用基于文本的描述是不够的。 因此,需要能够响应图像查询的搜索引擎。医生调用医疗数据库中的病例记录, 比较x 光照片以判断病变组织。在生物化学方面,主要用于分子和细胞3 d 结构 的检索,这要用到形状的描述。在药物设计阶段也很有用,例如,搜索形状相似 于候选药品的生物分子,以预先了解可能产生的副作用。 3 遥感应用 遥感应用基于卫星图像数据库。数以百万计的图像是按照全色、多频谱、超 频谱等方法获得的。直到现在,图像库中的搜索还是基于文本信息的,例如现场 名、几何、频谱和地物信息。一种挑战是为在线数据库系统提供以下功能:文本 查询、基于整体和部分参考图像( 一个和多个频谱边带) 的图像查询、基于内容的 检索和浏览、保密性和数据保护。 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 第二节基于内容的多媒体信息存取与m p e g 一7 在基于内容的图像检索系统中,图像内容特征的存取与内容描述标准 m p e g 一7 “1 密切相关。随着多媒体信息的多样化和不断扩大,对于特定类图像特征 的描述各不相同,如何提高包含多类图像或声音的多媒体信息库的检索效率,需 要开发一种视听信息的“表示( r e p r e s e n t a t i o n ) 形式”,它超越基于波形或基于 样本、基于压缩( 如m p e g l 和m p e g 一2 ) 甚至是基于对象( 如m p e g 一4 ) 的表示,这就 需要“表示形式”允许某种程度的对信息含义的注释,同时设备或计算机代码可 以传递和存取这些注释。 1 9 9 6 年1 0 月,m p e g 开始了一项新的工作,以提供对以上问题的解决方案。 这个m p e g 家族的新成员被称为“多媒体内容描述接口”( m u l t i m e d i ac o n t e n t d e s c r i p t i o ni n t e r f a c e ) ,简称为m p e g - 7 。其目标就是产生一种描述多媒体内 容数据的标准,满足实时、非实时应用的需求。m p e g 并不对应用标准化,但可 利用应用来理解需求并评价技术,它不针对特定的应用领域,而是支持尽可能广 泛的应用领域。 m p e g 一7 将扩展现有标识内容的专用方案及有限的能力,包含更多的多媒体 数据类型。换句话说,它将规范一组“描述子”,用于描述各种多媒体信息,也 将对定义其他描述子以及结构( 称为“描述模式”) 的方法进行标准化。这些“描 述”( 包括描述子和描述模式) 与其内容关联,允许快速有效地搜索用户感兴趣的 资料。m p e g 一7 将标准化一种语言来说明描述模式,即“描述定义语言”。带有 m p e g 一7 数据的a v ( a u d i oa n dv i d e o ) 资料可以包含静止图像、图形、3 d 模型、 音频、语音、视频,以及这些元素如何在多媒体表现中组合的信息。这些通用数 据类型的特例可以包含面部表情和个人化的特性。 图1 2 是m p e g 一7 处理链的一种高度抽象示意图,用于解释m p e g - 7 的范围嘲。 它包括特征抽取( 分析) 、描述本身和搜索引擎( 应用) 。为了全面开发m p e g 一7 描 述的潜力,自动的特征( 或是描述子) 提取将是极其有用的。但是很清楚,自动提 取并不总是可能的,抽象层次越高,自动提取的难度就越大,这时可以采用交互 提取工具。但不管它们多么有用,无论是自动的或半自动的,都不包括在标准范 围之内。主要原因是不需要对它们标准化以建立互操作性,而是留有竞争的余地。 另一个原因是在技术领域允许采纳更好的改进方案。搜索引擎也不包含在 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 m p e g 一7 范围之内,它不需要,竞争将产生最好的结果。 图1 2m p e g 一7 的范围 m p e g 一7 将标准化各种类型多媒体信息的描述,但它不包含特征的提取,也 不规范搜索引擎和其他使用这些描述的程序。目前,围绕m p e g 一7 ,在多媒体信 息存取方面,研究主要是从以下几个方面进行的嘲: 1 存取接口:研究通用的和与应用相关的多媒体信息查询接口。 2 特征提取和检索引擎:自动和半自动的特征提取方法。 3 广泛的多媒体应用研究:m p e g 一7 不仅仅用于多媒体信息的检索,更能广 泛地用于其他与多媒体信息内容管理相关的领域。 第三节基于内容图像检索的研究现状 不同类型的图像具有不同的内在内容,但从整体看,图像的内容分为三个级 别:最低层的物理样本级、中间层的视觉特征级和最高层的语义级,如图1 3 所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。到目前为止,基 于内容的图像检索技术的研究,主要是基于图像视觉特征级内容的。 一基于提取颜色特征的内容检索已有的研究方法 相对于几何特征而言,颜色具有一定的稳定性,它对大小、方向都不敏感。 同时,在许多情况下,颜色是描述一幅图像最简便而有效的特征。在检索图像时 指定图像中的主色调( 如蓝色,对应海水:黄色,对应海滩) 后即可以此为依据查 找与此颜色分布类似的图像,而这方面其他检索特征往往难以奏效。所有这些, 都促使颜色成为基于内容检索所采用的主要手段之一。 基于颜色的检索算法的基本思想即进行颜色空间直方图匹配,采用的颜色空 基于内容图像检索中的文字分割技术研究 上海大学秧士学位论文 义级 觉特征级 理样本级 图1 3 图像内容分层描述模型 间和匹配方法因不同算法而异。1 9 9 0 年,s w a i n 和b a l l a r d ”1 提出了颜色检索的 基本思想和算法,采用了互补颜色空间直方图来描述物体,并通过定义直方图的 相交( i n t e r s e c t i o n ) 及反投影算法( b a c k p r o j e c t i o na l g o r i t h m ) 来完成物体的 识别和在图像中的定位。通过直方图相交算法,给定图像直方图后,颜色检索就 变为在模型库中查找具有最大匹配度的图像。s w a i n 还进一步证明了当两个直 方图的象素数目相同时直方图相交运算的结果反映了两个直方图的街区距离 ( c i t y b l o c k ) ,从而更充分地说明了算法的含义。 s w a i n 算法对于光照条件异常敏感。仅仅光照幅度的变化,就会大大影响该 识别算法的准确性。他在其文章中提议采用n o v a k 的监控颜色恒常性 ( s u p e r v i s e dc o l o rc o n s t a n c y ) 算法,即在环境中放置已知反射率的调色板,以 作为光照变化的参考。然而在许多情况下,此条件难以得到满足。 f u n t 和f i n l a y s o n ”1 针对这种情况提出了颜色恒常性颜色检索( c c c i , c o l o rc o n s t a n tc o l o ri n d e x ) 算法。实验结果表明,他们的检索算法比s w a i n 的算法对于光照变化具有更好的不变性,但在光照不变的前提下,其检索精度却 不如s w a i n 的检索算法。h e a l e y 9 1 利用有限维模型提出了从直方图分布求取光 照不变量的思想,并在实现中取得了较好的效果。该算法对于光照变化具有良好 的不变性,同时光照不变情况下保持了s w a i n 算法的检索精度。 1 0 基于内容图像检索中的文字分割技术研究 上海大学硕士学位论文 二基于提取纹理特征的内容检索已有的研究方法 作为物体的另一重要特征,纹理也是基于内容检索的一条主要线索。纹理检 索和纹理分类技术有着密不可分的关系,针对不同系统的应用要求在纹理检索的 实现中往往采用不同的纹理识别技术。早期的纹理识别技术可分为三类:统计方 法、结构方法和频谱分析方法。结构方法主要对规则的结构纹理,采用句法分析 方法识别。 从7 0 年代开始,基于二阶灰度统计特征的统计方法得到了广泛的研究。 r h a r a l i c k “”等提出了从并发矩阵提出的1 4 种纹理特征,并将其用于卫星图像 纹理的识别。j s w e s z k a “”对频谱分析方法和统计方法作了比较性分析,并提 出了统计方法优于频谱分析方法的论断。 8 0 年代后,随机场模型也用于纹理的分类和识别。k a s h y a p “2 3 采用了基于 圆对称自回归随机场模型的特征,用于自然纹理的分类,并取得了9 1 的正确率。 f s c o h e n “”等采用了高斯马尔可夫随机场( g m r f , g a u s s i a nm a r k o vr a n d o m f i e l d ) 模型,对9 种自然纹理的识别达到了9 9 一1 0 0 的正确率。p a n j w a n i 和 h e a l y ”进一步采用g m r f 模型用于彩色纹理图像的分割,也取得了较好的效果。 基于人类对纹理的视觉感知的心理学的研究,t u r n e r “采用了g a b o r 函数 来进行纹理分类,b o v i k 、j a i n “”等将其用于纹理分割,r e e d 及u n s e r “7 1 等也都 对g a b o r 函数的应用进行了讨论。小波理论对于时频分析的重要性为人们所认 识后,也被用来进行纹理分类。c a r t e r “”采用m o r l e t 和m e x i c a n 草s w , j , 波对6 种自然纹理进行了分析,得到了9 8 的正确率,但其采用的小波缺乏方向选择 性。l a i n e 和f a n 。”解决了此问题,他们采用了小波包算法,并对其用于纹理 分类的效果进行了分析。 三基于提取形状特征的内容检索已有的研究方法 形状特征表达的一条重要准则是要求对位移、旋转、变比的不变性,因为人 类出于识别和检索的目的,总是趋向于忽略这种变化。通常形状表达可以分成为 二类:基于边界的和基于区域的。前者利用的是形状的外边界,而后者则利用整 个形状区域。对于基于形状的检索来说,形状的表示和匹配无疑是需要解决的重 要问题。 基于内容图像检索中的文字分割技术研究 上海大学硕士学位论文 传统的计算机视觉中,曾先后用f r e e m a n 链码、曲线、f o u r i e r 描述子、二 次曲线及b 样条等来描述平面曲线。在其后的研究中,b o u l t 和g r o s ”采用超二 次曲线( s u p e r q u a d r i c ) 来表示形状,c h u a n g 和k u o 。“则给出了形状的小波描述 逼近,在复杂( 不连通) 形状的表示方面,w a n g 和c h e n 。2 1 等提出了矩f o u r i e r 描述子方法,并将其用于汉字识别,而k e r e n 和c o o p e r ”3 1 等则采用了隐式多项 式的表示方法,并对其表示能力进行了分析。 对于形状匹配来说,h o u g h 变换是最经典的方法,而且对于噪声和遮挡具有 良好的抗干扰性。但h o u g h 变换仅能解决形状的平移、旋转和缩放所带来的匹 配问题,而对实际应用中广泛的变形匹配问题无能为力。针对由关节点联结起来 的活动物体,m e h r o t r a “”等提出了f i b s s r ( f e a t u r ei n d e x b a s e ds i m i l a r s h a p e r e t r i e v a l ) ,用于此类物体的匹配。对于更广泛的变形形状的匹配问题,则需要 与变形模型( d e f o r m a b l em o d e l ) 的研究相结合。根据模型的不同特性,可将常见 的变形模型分为两类:自由变形模型和参数变形模型。对于自由变形模型来说, 对于模板没有全局的结构约束,而仅受局部的连续性和光滑性的约束。通过对图 像中的显著特征如直线、边缘等建立能量函数而建立一个势场,使模板通过变形 与这些特征匹配。 实际应用中,出于对算法时间和空间复杂性的考虑,形状的表达和匹配往往 采用更为简单的方法,如形状参数关于形状的一些定量测度( 如矩阵、面积、 周长等) 来描述形状并进行形状的匹配。 四国内外研究现状 基于内容的检索直接分析图像内容,利用图像本身的特征和特征组合进行检 索。它符合人类的认识特点,容易把握信息的本质,是一项在理论研究和实际研 究应用中都很有前途的新技术。国外一些科研机构、高等院校( 如i b m 、麻省理 工、s t a n f o r d 大学等) 都投入了大量人力、物力进行研究,所开发的原型被应 用在遥感技术、地理信息系统、医药系统等诸多领域。国内的国防科大、浙江大 学等高校也在这一领域做了一些研究畸“”3 ,取得了成果。但现有的研究主要基于 提取图像的颜色、纹理、形状等特征,计算其相似度量来实现检索,或是在检索 中综合图像和人工标注的文本信息进行查询。 1 2 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 现有典型的基于内容图像检索系统分析如下: 1 q b i c i b m 的q b i c ( q u e r yb yi m a g ec o n t e n t ) 是第一个商品化的基于内容的图 像检索系统,它的系统框架和技术相对后来的图像检索系统具有深远的影响。 q b i c 支持基于例子图像、用户构造的略图、选择的颜色、纹理等的查询。q b i c 中使用的颜色特征有平均( r ,g ,b ,、( y ,i ,g ) 、( 三,n ,6 ) 和m t m ( m u n s e l l 数学变换) 坐标及k 个元素的颜色直方图,它采用的纹理表示是t a m u r a 提出的 纹理表示的一种改进,即是粗糙度、对比度和方向的结合,它的形状特征包括形 状面积、圆形度、偏心度、主轴偏向和一组代数矩不变量。q b i c 是少数几个考 虑了高维特征索引的系统之一,在它的索引子系统中,首先使用k l t 减少维度 并采用r 。树为多维索引结构在它的新系统中,基于文本的关键字查询与基于内 容的相似性查询结合在一起。 q b i c 的演示程序在h t t p :w w w q b i e a l m a d e n i b m e o m 。q b i c 系统的检索界 面中,提供了基于以下4 种特征量的检索: 颜色直方图 颜色分布位置 纹理 上述三种特征量的综合检索 使用颜色直方图,对于那些颜色数量较少,颜色构成比较明显的图像,有比 较好的效果。另外,全局颜色直方图对于图像的旋转,镜像和缩小等变换,没有 影响,系统可以将经过变换的图像都检索出来。 系统使用了图像的全局纹理特征进行图像的检索。纹理特征一般对于那些具 有较大的色块构成的图像比较有效,象红花绿叶,夕阳这样的图像,纹理特征都 比较强烈,一般可以得到较好的检索结果,另外,那些云彩分布较为均匀的蓝天 白云图像,也能够得到较好的结果。 系统将颜色直方图、颜色位置和纹理三种特征量综合起来,进行图像的检索。 综合特征量的检索在颜色方面,比单独使用一种颜色特征有着更好的效果,但是, 由于单个颜色特征量本身存在着颜色分类上的不足,因此系统仍然会发生错检和 漏检的现象。基于综合特征的检索在旋转,缩小等变换上仍然具有一定的不变性。 基于内容图像检索中的文字分割技术研究 上海大学硕士学拉论文 2 w i s ea n dw b i i sd e m o 该站点使用了w b i i s ( 基于小波的图像索引和查找) ,一种图像索引检索算 法,它有在大型图像库中进行部分略图查找的能力。该算法通过提供语义含义图 像比较在图像空间上刻画出色彩不变性。索引算法在每一个三元色上应用一个 d a u b e c h i e s 小波变换。在最低频带的小波系数及它们的变量作为特征向量存储。 为加速检索,整个过程分2 步:第一步进行基于变量的粗糙选择;然后通过在被 选图像与待查询图像间的特征向量匹配,进一步改进查找。二级的分辨率匹配可 以在查找中取得更好的准确度。在这里,屏蔽技术用来做部分略图查询。这种技 术在捕获图像相关性、对象间距、局部色彩、纹理及避免偏离这几个方面比传统 的色彩布局算法要好。w b i i s 比传统算法更快更准确。在一个超过一万幅通用图 像数据库上的测试表明,在3 3 秒内可得出一百个最佳匹配。 3 v i r a g e 基于内容的图像搜索引擎v i r a g e 由v i r a g e 公司开发。与q b i c 相似,v i r a g e 支持基于颜色、颜色布局、纹理和结构( 对象边界信息) 的可视化查询,但v i r a g e 比q b i c 更进一步,它也支持由上述四个原子查询的任意组合,用户可根据自 己的侧重调接这四个原子查询的权重。文献中j e g r e y 等进一步提出了图像管理 的一个开放式框架,将视觉特征( 称为“原语”( p r i m i t i v e ) ) 按通用型( 如颜色、形状 或纹理) 和领域相关型( 如面部识别、癌细胞检测等) 分类,按领域的要求,不同的 有用“原语”可以被加到开放式结构中去。突破按例子查询的模式,g 1 l p l a 等人 提出了九部件的查询语言框架。相应的v i r a g e 演示在h t t p :w w w v i r a g e c o m 。 1 4 基于内容图像检索中的文字分割技术研究 上海大学硬士学位论文 第二章基于图像内字符信息检索与 文字分割技术 本章内容提要: 直接基于图像内字符信息检索的基本概念 字符图像的基本特征 已有的几类文字分割方法 第一节基于图像内字符信息的图像检索简介 基于图像内字符信息的图像检索,是直接提取图像内容中包含的字符,通过 对字符信息的理解,克服目前基于内容的检索研究中,由于特征模型缺乏统一标 准造成的检索精度及速度低、针对性不强等问题。 许多图像本身就包含文字,例如医学图像中标注的病情、日期、病人姓名、 病例号,数字化档案中的档案号、档案的文字内容,视频新闻中视频帧上的字幕、 视频广告中视频帧上的文字广告内容等。这些字符信息是图像内容中的一个重要 部分,属于语义级内容。如果能够提取图像中的字符信息,通过对字符内容的理 解加深对图像的理解,必将大大提高图像查询的精度和速度。而在已有的研究中, 这一问题几乎都被忽视。所以,对基于图像内部字符信息的图像检索技术进行研 究,将进一步完善现有的基于内容的图像检索的理论与方法,具有深远的理论意 义和广阔的应用前景。 对该检索系统的研究主要由三大部分组成:字符图像的有效定位、字符信息 的提取和寻找用于索引的相似性度以便实现最终的检索。文字特征的提取是要解 决的关键问题,这就要求在比较已有的各种图像分割方法的基础上,研究能有效 基于内容图像检索中的文字分割技术研究 上海大学硕士学位论文 提取图像中字符特征的分割方法。大量的图像数据如果只用线性表的结构来组 织,检索的时间将是线性增长的,寻找合适的相似性度量可提高检索效率。该检 索系统的基本框架如图2 1 所示。 图2 1基于图像内字符信息检索系统基本框架 前两部分是本论文研究的主要内容。目前,存在大量包含字符信息的医学图 像、媒体广告图像和视频图像,而且这三类图像中字符信息出现的方式都各不相 同。医学图像中存在游离字符,以往研究中提出的文字分割方法都无法检测到。 媒体广告图像和视频图像中的字符大都以字符串的形式出现,但字符图像的背景 与医学图像相比要复杂许多。要用同一种方法从这三类图像中提取出文字,有一 定的难度。本文试图从字符图像的特征本身出发,提出同时适用于游离字符和字 符串的文字分割方法,将文字信息从复杂的背景中提取出,以便形成用于最后检 索的字符信息库。 第二节字符图像的特征分析 许多图像中包含文字信息,文字可能出现在图像中的任何地方,有可能包含 大量信息,也有可能不太重要。通常图像中的文字可以分为两大类:场景文字和 人工文字。 场景文字是指和图片里的内容一起被记录下来的,并作为场景一部分的文 字,如场景里的街道或商店的名字等。人工文字是指人为书写或打印在图片之上 的文字,如电视画面中的字幕,医学图像中的字符,新闻图片中的说明等。场景 1 6 基于内容图像检索中的文字分割技术研究 上海大学碗士学位论文 文字随机出现,很少有目的性,所以一般它们包含的信息很少,提取文字信息来 建立索引的价值并不大。而且场景文字出现的地点和方式具有很大的随机性,很 难得到它们的共同特征。人工文字的出现则一般有目的性,因此包含大量的信息, 所以有必要用它们来建立索引。 人工文字的出现有一定的规则,通常都具有如下的特点: 1 具有一定的频率和方向信息; 2 表现出空间凝聚性,即同一字符串中的字符一般具有相同的高度,角度 和字符距离。 3 具有可辨识性,字符图像与背景之间有比较明显的对比度。人工文字加 入的主要目的是提供与图像有关的有用信息,所以通常都表现为具有可读性。 第三节几类文字分割方法比较 文字区域的有效分割是利用文字建立索引的关键,因为只有将文字区域有效 地从图像中分割出来,才能进一步对其进行特征提取和识别。目前文献中介绍的 分割方法很多,早期的研究主要集中在对印刷版读物的文字分割,近期关于文字 分割的研究包括彩色图像的文字分割、自然景物图像的文字分割、包含文字图像 地图的文字分割、视频中文字图像的提取、互联网图像的文字分割等。 文字分割技术同时还属于基于图像内容的图像检索研究的一部分,不同于基 于颜色、纹理、形状等低级内容的检索,它属于基于图像高级内容( 偏向语义) 检索的研究。由于不同类型的图像中文字分割的难易程度不同,以往的研究主要 是针对特定的图像类提出相应的文字分割方法,下面简单介绍已有的几种主要文 字分割方法。 一版面分割 将印刷版读物转换成相应的电子版,个好的版面分割系统是必不可少的。 版面图像背景大多非常简单,字符图像部分的背景也非常干净,所以,分割出的 字符图像部分可直接用o c r 进行识别。已有的版面分割方法主要有两种;连通 基于内容图像检索中的文字分割技术研究 上海太学硬士学位论文 域分析法和纹理分割法。 l a f i e t c h e r 1 等人提出的算法,结合了连通域的生成和h o u g l l 变换的应用, 将连通域中包含的字符串部分组合,并将文字部分与非文字部分分离开。这种算 法能够分割出不同字体、不同大小、不同方向上的文字,实现的步骤为:1 ) 根 据输入的图像生成连通域;2 ) 面积滤波和比例滤波,选择适当的门限,滤除面 积过大的连通域,为除去版面中的直线部分,滤去长宽比例偏差较大的连通域; 3 ) 应用h o u 曲变换组合在同一直线方向上的连通域:4 ) 对字符串部分的连通 域进行逻辑组合;5 ) 将文字图像部分与原图分离。这种连通域分析的方法简单 易行,计算复杂度低,但是当图像中的文字与其它背景相交的情况下,容易在滤 波的时候将个别文字部分过滤掉,产生漏检的错误。 a k j m n 啪1 等人的版面分割研究中把文字图像视为具有特殊纹理的图像,通 过多通道
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 灯具安装合同范本博客
- 制造业路演题目及答案
- 护理部工作计划范文2025(5篇)
- 烟草行业技术规范与市场策略
- 劳动合同的注意事项
- 环境监测行业智能化转型2025年数据质量控制与智能化监测平台报告
- 2025年管理信息系统试卷及答案
- 2025年电工常识题库及答案
- 2025年餐饮消防培训题目及答案
- 2025年陕西省安康市事业单位工勤技能考试考试题库及参考答案
- 《全新观光车操作与安全培训课件》
- 医疗器械使用安全责任免责书
- 进出口贸易合规管理制度
- 医疗器械冷链培训
- 公共政策分析 课件 第0章 导论;第1章绪论:政策科学的“研究纲领”
- 冠脉微循环功能障碍评估
- 病理学课件下载
- 2024-2030年撰写:中国病房行业发展趋势及竞争调研分析报告
- 【MOOC】土木工程施工-西南科技大学 中国大学慕课MOOC答案
- 颈动脉狭窄手术治疗
- CAXA工艺图表2024使用手册
评论
0/150
提交评论