(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf_第1页
(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf_第2页
(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf_第3页
(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf_第4页
(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于内容的文档图像检索系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近些年来,随着多媒体技术和i n t e r n e t 的发展,多媒体资源快速增长。现 在许多公司,政府机关,数字图书馆等机构都有各种各样的资料信息以文档图 像的形式保存,而且数量巨大。随之而来的问题,就是如何在这些大量的文档 图像中查找信息,基于内容的文档图像检索技术可以用来解决这个问题。 本人在对基于内容图像检索技术、o c r 技术以及文档图像特点的研究分析 的基础上,研究了基于内容的文档图像检索技术。设计了可以以汉字或汉字图 像块作为检索条件,检索返回含有该汉字的文档图像的检索系统。这不同于传 统基于内容文档图像检索方式,即输入文档图像实例,判断其是否在文档图像 库中出现。 主要研究内容有: ( 1 ) 文档图像预处理; ( 2 ) 文档图像分割,将文档图像分割成一个一个汉字图像块: ( 3 ) 汉字图像块各种特征提取方法以及相应的相似度计算方法本文从 不同的角度,使用了不同的汉字图像块特征提取方法。实验表明将 几种特征提取方法相结合,可以提高准确率; ( 4 ) 在倒排索引格式和四叉树( q u a d t r e e ) 索引格式的基础上,设计了 自己的高维索引格式; 在本论文的工作基础上,可以进一步研究开发和完善系统功能,最终实现 一个完整的基于内容的文档图像检索系统,投入到实际应用中。 关键字:文档图像;基于内容的文档图像字级检索;汉字图像特征提取;相似 度计算:高维索引。 a b s t r a c t a b s t r a c t i nr e c e n ty e a r s ,a l o n gw i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya n dt h e i n t e r a c t , t h er e s o u r c e so fm u l t i m e d i ag r o wf a s t n o w , m a n yo r g a n i z a t i o n s ,s u c ha s c o r p o r a t i o n s ,a g e n c i e so fg o v e r n m e n t sa n dp u b l i cd i g i t a ll i b r a r i e sh a v eal o ta l l k i n d so fi n f o r m a t i o ns a v e di nt h ef o r mo fd o c u m e n ti m a g e s ap r o b l e mf o l l o w e dt h a t i sh o wt os e a r c hs o m ei n f o r m a t i o ni nt h e s em a s s i v ed o c u m e n ti m a g e s c o n t e n t - b a s e dd o c u m e n ti m a g er e t r i e v a lt e c h n o l o g yc a ns o l v et h i sp r o b l e m b a s e do i lt h e s t u d yo fc o n t e n t - b a s e di m a g e r e t r i e v a l t e c h n o l o g y , o c r t e c h n o l o g ya n dd o c u m e n ti m a g ef e a t u r e s ,is t u d yt h e c o n t e n t - b a s e dd o c u m e n t i m a g e s r e t r i e v a lt e c h n o l o g y id e s i g naq u e r y i n gm a n n e rt h a tu s e sac m n e s e c h a r a c t e r so rc h i n e s ec h a r a c t e ri m a g e sa st h eq u e r yt og e ts e a r c hr e s u l t so fd o c u m e n t i m a g e sw h i c hc o n t a i nt h eq u e r y i n gc h i n e s ec h a r a c t e r t h i sq u e r ym a n n e ri sv e r y d i f f e r e n tf r o mt h et r a d i t i o n a lc o n t e n t b a s e dd o c u m e n ti m a g er e t r i e v a lq u e r y i n g m a n n e r , w h i c hu s e sa 1 1i n s t a n c eo fd o c u m e n ti m a g et oj u d g ew h e t h e rt h ed o c u m e n t i m a g ei nt h ed a t a b a s eo fd o c u m e n ti m a g e t h em a i ns t u d yc o n t e n t s 弱f o l l o w : 1 t h ep r e p r o c e s so fd o c u m e n ti m a g e s ; 2 t h em e t h o dt h a ts e g m e n t sd o c u m e n ti m a g e si n t op i e c e so fc h i n e s e c h a r a c t e ri m a g e s ; 3 m e t h o d so ff e a t u r e se x t r a c t i o no fc h i n e s ec h a r a c t e r s ,a n dt h e c o r r e s p o n d i n gs i m i l a r i t yc o m p u t a t i o nm e t h o d s f r o md i f f e r e n ta n g l e s ,t h i s p a p e ra d o p t sm a n yd i f f e r e n tm e t h o d so ff e a 吣, r e s e x t r a c t i o no fc h i n e s e c h a r a c t e r s t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h ec o m b i n a t i o no fs e v e r a l f e a t u r e - e x t r a c t i o nm e t h o d sm a ye n h a n c et h ea c c u r a c y 4 t h ed e s i g no fm yo w nh i g hd i m e n s i o n a li n d e xf o r m a t ,w h i c hi sb a s e do n t h es t u d yo fi n v e r t e di n d e xa n dq u a dt r e es t r u c t u r e b a s e d0 1 1t h i sp a p e r sw o r k ,f u r t h e rs t u d ya n di m p r o v e m e n to ft h es y s t e m f u n c t i o n sc a r lc a r r yo n f i n a l l y , ac o m p l e t e dc o n t e n t b a s e dd o c u m e n ti m a g er e t r i e v a l s y s t e mw i l lb ei m p l e m e n t e d ,w h i c hc a np u t i n t op r a c t i c a la p p l i c a t i o n a b s t r a c t k e yw o r d s :d o c u m e n ti m a g e ;c o n t e n t - b a s ed o c u m e n ti m a g ec h a r a c t e r - l e v e l r e t r i e v a l ;c h i n e s ec h a r a c t e rf e a t u r ee x t r a c t ;s i m i l a r i t yc o m p u t a t i o n ;h i l 曲 d i m e n s i o ni n d e x i i i 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论 文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷 本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用 影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目 录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按 有关规定向国家有关部门或者机构送交论文的复印件和电子版;在 不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内 容用于学术活动。 学位论文作者签名:习1 乞戚 2 舄年月2 中日 ( 注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行研究工作所取得的成果。除文中已经注明引用的内容外,本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均己在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担。 签名a 1 峨 2 0 0 年f 月 第1 章绪论 1 1 选题背景 第1 章绪论 当前,世界已经进入了信息时代,各种信息成为了社会发展的关键因素之 一。其中文本形式的信息处理技术最先发展起来,现在发展的非常迅速,取得 了巨大的成功。而现在随着多媒体技术和网络的发展给人们带来巨大的多媒体 信息海洋。而传统的检索技术已经无法满足发展的需要,如何在这个多媒体信 息海洋中查找信息成为急需要解决的问题。 文档图像作为一类特殊的多媒体资源,广泛存在于在企业,政府机关,数 字图书馆等机构中。例如企业的资料、信函、合同,政府机关的文档信息,数 字图书馆的数字信息都以文档图像的方式保存。通过文档图像检索技术,可以 快速,简捷的从这些海量的文档图像信息中查找某些信息。让企业,政府机关, 个人都可以利用这种技术,提高工作效率,从海量信息中提取有用信息,为企 业,政府机关以及个人的决策提供帮助。基于内容的文档图像检索( c o n t e n t - b a s e d o c u m e n ti m a g er e t r i e v a l ) 【i 】技术越来越成为人们研究的焦点。 可见文档图像检索技术有着非常重大的应用意义。它可以处理文档图像这 些特殊的多媒体信息源,让用户根据自己的需求,从这些海量的文档图像信息 源中,快速的,简捷的,准确的查找信息。 文献 2 】中提到,由于当前人工智能技术还没法让机器理解文档图像的高级 语义( 即像人那样理解文档图像的内容) ,机器只能理解文档图像的低层的特征, 如颜色,纹理,形状等,而人们理解的是高级语义。而基于内容的文档图像检 索技术可以实现机器提取文档图像的某些底层特征,同时将用户的检索条件也 转换成对应的底层特征,通过底层特征的匹配来检索到用户所需要的信息。 1 2 研究背景 1 2 1 基于内容的文档图像检索的概述 文档图像【1 1 是指这样一类特殊图像:图像上的内容主要是文字,有少量的 第1 章绪论 表格,这类图像主要通过扫描仪将文档资料扫描成图像或是通过一些文字转换 成图像的软件生成的。而文档图像检索是指:根据用户提供的查询的条件,从 大量文档图像中找到符合查询条件的文档图像,将结果返回给用户的过程。当 前基于内容的文档图像检索方式主要有两种: 1 早期基于内容的文档图像检索方式:输入的查询条件是一幅文档图 像,判断文档图像库中是否有这幅文档图像或者相近的文档图像。这 种检索方式和一般的基于内容的图像检索技术非常相似,即基于内容 的图像检索系统中的样图检索方式。 2 最近几年,研究者们又提出了新的查询方式,即输入的查询条件是汉 字或者是汉字图像块,检索文档图像库中哪些文档图像中含有这些汉 字,并根据一定的相似度算法,将查询的结果排序,最后返回给用户, 这个过程非常类似于文本检索方式。 总的来说,第二种检索方式应用的范围比较广泛,而且应用价值大,但是 第二种检索方式的技术要比第一种检索方式的技术要复杂的多,困难的多。而 且当前国内还没有第二种检索方式的系统,甚至这方面的研究也几乎没有,而 本文将介绍第二种检索模式技术。为了后面描述的方便,将基于内容的文档图 像检索系统对应的第一种检索方式的系统的称为:基于内容的文档图像文档级 检索系统,而第二种检索方式对应的系统称为:基于内容的文档图像字级检索 系统。 基于内容的文档图像系统主要有以下模块构成:文档图像预处理,文档图 像分割,分割后的文档图像的特征提取,多维特征的索引;检索时将检索条件 同样预处理,提取特征,然后根据一定的相似度计算方法,在索引库中查找符 合检索条件的文档图像,然后根据相似度排序,最后将结果返回给用户。如果 用户对查询结果不满意,可以将一些信息反馈给查询系统,如本次查询结果中 的正例或反例反馈给系统。基于内容的文档图像检索系统根据这些反馈信息, 调整系统参数等,再次查询,然后将结果返回给用户,如果用户还不满意结果, 可以重复这个反馈过程,直到返回用户满意的结果。一些智能的系统会将这些 反馈信息保存起来,调整自身的参数信息等。随着越来越多的查询和相关的反 馈信息,整个系统的准确率和性能都会提高,表现出一定的智能性。 当前越来越多的领域使用文档图像作为信息的保存形式,文档图像有着广 2 第1 章绪论 泛的应用前景,例如数字图书馆,企业,政府机关等都有大量的文档图像信息。 基于内容的文档图像检索技术可以让用户从这些海量信息中快速和准确的查找 自己想要的信息。总的来说随着越来越多的信息以文档图像的形式保存,基于 内容的文档图像检索技术会在越来越多的领域中得到应用,有着巨大的应用前 景,发展潜力和市场潜力。 1 2 2 图像检索技术概述 1 2 2 1 图像检索的发展历史 早在2 0 世纪7 0 年代,图像检索乜一4 5 1 就成为一个非常活跃的研究领域。 当时,是基于文本的图像检索,为实现检索,通常需要先给图像加上一个对其 描述的文字或数字标签,然后在索引时对标签进行检索,即对图像基于标签进 行查询。这种方法虽然简单。但有几个根本问题会影响到图像的有效检索: ( 1 ) 当前的计算机视觉和人工智能技术还没有办法对图像进行自动标注, 而是需要大量的人力参与,当图像库非常大的时候,人工标注是不现 实。 ( 2 ) 同一幅图像,在不同的场景下往往具有不同的意义。 ( 3 ) 即使同一幅图像,在同一个场景下,不同的人有不同看法,所以标注 的内容不可避免的有主观因素。 ( 4 ) 图像内容丰富,很难用有限的文字完全表达,所以检索时,效果不理 想。 自1 9 9 0 年后,人们提出了基于图像内容的图像检索( c o n t e n t - b a s ei m a g e r e t r i e v a l ) 技术。它是指通过对图像视觉特征和上下文联系的分析,自动提取 包含图像内容的颜色、纹理、形状和相互关系等可视特征,对数据库中图像和 查询样本图像在特征空间进行相似匹配,检索出与样本相似的图像。它区别于 传统的检索手段,融合了图像理解技术、模式识别技术,从而可以为用户提供 更加有效的检索手段。基于内容的图像检索完全是一种基于相似性的查找,可 分为3 个层次: ( 1 ) 基于原始数据的查找,这是最低层的查找。由于每一幅图像的基本单元 是像素点,而决定其根本不同的也是像素点,因此可以通过图像之间的 3 第1 章绪论 像素点比较查图。 ( 2 ) 基于特征的查找,这是较高层次的查找。图像的特征就是一幅图像与其 他图像不同的原始特征或根本属性。在n 维特征空间的查找实质就是 目标特征矢量与存储在数据库内的特征矢量的相似性度量。 ( 3 ) 基于语义的查找,这是最高层次的查找方式。可以看成是一种基于对象 的查找。图像中包含的具体事物、场景,图像描述的感情色彩等。对这 些信息的查找都可以看成这个层次的查找。 1 2 2 2 基于内容的图像研究现状 现阶段,基于内容的图像检索的研究还集中在第2 个层次,也就是基于特 征的查找。即通过颜色、纹理和形状特征提取来查找匹配相似的图像。基于内 容的图像检索的特征提取方法主要有以下几种: 1 基于颜色特征【2 ,3 4 ,5 ,6 ,7 ,8 1 颜色信息是图像检索中使用最广泛的底层特征。它和图像中的物体和场景 有着紧密的联系,与其他底层特征相比,颜色特征对于图像缩放、旋转等变形 有着更强的鲁棒性。 颜色直方图【2 3 ,7 ,8 ,明是最常用的颜色特征表示方法,在统计意义上,它表示 了三个颜色通道强度的联合概率。s w a i n 和b a l l a r d 提出了直方图相交,l l 度量 作为颜色直方图的相似性度量。因为大多数的颜色直方图非常稀疏并且对噪音 敏感,s t r i c k c r 和o r c n g o 提出累积直方卧2 。颜色矩( c o l o rm o m e n t s ) 【2 捌是 一种简单而有效的颜色特征,这种底层特征的数学基础是:任何图像的颜色分 布都可以通过其各阶矩来表示。同时颜色分布的大部分信息集中在它的低阶矩 上,所以可以采用颜色的一阶矩( 均值) 、二阶矩( 方差) 和三阶矩来近似的估 计图像颜色特征。此外颜色相关图( c o l o rc o r r e l o g r a m s ) 【2 】和颜色聚合向量( c o l o r c o h e r e n c ev e c t o r ) 瞄】也被应用于图像检索。为了便于对大规模图像集的快速检 索,s m i t h 和c h a n g 【2 】提出了颜色集作为对颜色直方图的近似。 2 基于纹理特征 纹理【2 ,3 4 ”7 ,8 】也是图像的一个重要属性。航空、遥感图像、织物设计图案以 及动植物都含有纹理,一般认为纹理是图像中具有局部不规则模式,而宏观上 有规律的特性,是由大量可见基元均匀地紧密地排列在一起所组成的一种视觉 模式。纹理特征由两个要素构成:( 1 ) 纹理基元;( 2 ) 基元的排列。纹理的分 4 第1 章绪论 析大致可以分为结构方法和统计方法。结构方法力图找出纹理基元,从基元结 构组成上探求纹理规律。统计方法则根据图像颜色强度的空间分布信息进行统 计。 在文献 2 中提到,上世纪7 0 年代早期,h a r a l i c k 等提出了纹理特征的共 生矩阵表示法,它表示了纹理的灰度级空间依赖性。在人的视觉感知心理学研 究的推动下,t a m u r a 等人从不同的角度提出了一个纹理的表示法,这6 个视觉 纹理属性是粗糙度、对比度、方向性、线性相似性、规律性和光滑性。t a m u r a 纹理表示法与共生矩阵表示法的一个主要的不同在于t a m u r a 表示法中所有的 纹理属性都是视觉上有意义的,而共生矩阵表示法中某些纹理属性则不是( 如 熵) ,这个特点使得t a m u r a 纹理表示法在图像检索中非常的有吸引力,q b i c 系 统和m a r s 系统都使用了改进的t a m u r a 纹理表示法。 上世纪9 0 年代早期,在小波变换的理论框架已经建立后,许多研究者开始 研究小波变换在纹理表示中的应用。s m i t h 和c h a n g 使用从小波次能带中提取 出来的统计量( 均方差) 作为纹理的表示符。为了研究中间带特性,c h a n g 和k u o 用树状结构的小波变换来进一步提高准确度。除了以上的方法外,还有 s a r ( s i m u l t a n e o u sa u t o r e g r e s s i v et e x t u r ef e a t u r e ) 、g a b o r 纹理特征、w o l d 纹理特征等。 3 基于形状特征【2 3 4 ,7 8 】 形状特征对于人来说是识别物体的主要信息,是一种重要的图像内容的表 达手段,因为有的物体不是单靠颜色区分的,例如同样的桌子,只是颜色不同, 如果通过颜色来判断,是不同的,从形状角度它们是一样的。形状是描述物理 轮廓和它们的物理结构的重要特征,在图像检索应用中,形状特征可以分为基 于边界的和基于区域的两类。前者仅使用形状的外部边界,而后者使用整个形 状区域。对这两类形状特征最成功的表示法是傅立叶描述符瞄1 和矩不变量 2 。3 ,4 ,l o 0 傅立叶描述符的主要思想是使用形状边界的傅立叶变换作为形状特征,傅 立叶变化后,得到一组复系数,这些参数在频域上表达了图像的形状特征。低 频部分表示了图像的总体轮廓,而高频部分则表征了轮廓细节。 矩不变量的主要思想是使用基于区域的矩,它对一些变换具有不变性,h u 瞄1 提出了7 个对平移、旋转和尺度变化不变的矩,通过计算图像这7 个不变矩来 作为图像的区域形状特征。 5 第1 章绪论 除了上述两种方法外,形状特征其它表示方法【2 】有似圆性、偏心率、主轴 方向、c h 删描述子、边界链码等。 4 基于空问关系特征【2 & 4 1 图像内容实际上是由一些视觉对象构成的。当图像中包含多个物体对象时, 对象之间的空间关系成为比较图像之间相似度的重要因素。描述物体间的空间 关系首先需要对图像进行目标分割和识别,通过一种方式来表述分割后物体对 象之间的关系。 美国匹兹堡大学的c h a n g 提出2 0s t r i n g 2 】方法进行图像空间关系的检索。 其主要思想是对图像中的每个对象用一个符号表示,其空间位置用质心表示, 将这些对象的质心分别在x 轴和y 轴方向上投影,形成两个坐标系列,用任一 序列的坐标值的相互关系构成对应的符号串。这样两个图像之间的空间特征相 似度度量问题转化为传统字符串匹配问题。 c h a n g 的2 ds t r i n g 方法的缺点是仅用对象的质心表示空间位置是不够的。 许多学者提出了各种改进方法【2 1 ,例如j u n g e r t 扩展了基本的2 ds t r i n g 方法, 采用对象的最小包围盒的方法,用它们分别在x 轴和y 轴的投影区间之间的交 叠关系来表示对象之间的空间关系。 除了上述两种方法外,l e e 等人又提出2 db s t r i n g 方法 2 1 ,b i m b o 用拓扑 关系【2 】和方向关裂2 】来表述空间关系方法。 总之,对象的空间关系特征的描述仍然是一个值得研究的问题,它利用图 像上各个目标对象之间的空间位置上的关系,来表述图像内容特征,图像之间 的相似性通过这种图像上视觉对象的空间关系来计算。 文献【2 】讲到,目前图像检索的研究主要集中在4 个方面,即低层次的图像 的特征提取;相似性度量方法的研究;高维特征索引的研究;用户交互式学习 技术。低层特征是指颜色,纹理,形状,空间关系等,发展了各种欧式和非欧 式的相似性的度量方法,高维索引的降维和索引结构的设计技术。用户交互式 学习主要是指相关的用户反馈技术,以及用户的接口。目前比较成熟的特征索 引是颜色、纹理和一些低层的、简单的形状特征和物体间方位关系,这些特征 具有计算简单,性能稳定的特点,但这些特征都有一定的局限性,因此,近几 年的研究逐渐转向基于区域和目标。 1 2 2 3 基于内容图像检索的当前问题 6 第1 章绪论 基于内容的图像检索系统当前还存在着很多的问题仫3 1 ,计算机视觉和图像 理解领域缺乏合理的数学理论模型和描述方法等,没有很好的且通用的方法从 低层视觉特征推导出高层的图像的语义知识。而且当前的低层视觉描述还不是 很充分:而且当前的各种图像特征向量的相似度计算方法和人的感知还有差距; 高维的特征的降维可能导致一些重要的信息的丢失,高维特征的索引效率还需 要进一步提高;而且基于内容的图像检索技术涉及到各个领域知识和理论,当 这些领域技术理论的突破,会带动基于内容的图像检索的进一步发展。 1 2 3ocr 技术 1 2 3 1 o c r 概述 o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,光学字符识别) 1 l , 1 2 ,是属于图 型识别( p a t t e r nr e c o g n i t i o n ,p r ) 的一门学问。其目的就是要让计算机知道 它到底看到了什么,尤其是文字资料。早在6 0 、7 0 年代,世界各国就开始有 o c r 的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅 为0 至9 的数字。初期以数字为对象,直至1 9 6 5 至1 9 7 0 年之间开始有一些简 单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮 局作区域分信的工作。中国在o c r 技术方面的研究工作相对起步较晚,在2 0 世纪7 0 年代才开始对数字、英文字母及符号的识别技术进行研究,2 0 世纪7 0 年代末开始进行汉字识别的研究,现在国内有许多成熟的商业产品,如汉王, 清华紫光文通等。 o c r 可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知 道其趋近值,却只能靠近而无法达到,永远在与1 0 0 作拉锯战。因为其牵扯的 因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、 学习及测试的样本等等,多少都会影响其正确率,也因此,o c r 的产品除了需 有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方 法,也是决定产品好坏的重要因素。 1 2 3 2o c r 系统构成 一个o c r 识别系绀i ! , 1 2 】,其目的很简单,只是要把影像作一个转换,使影 像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机 文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,一个 o c r 识别系统主要有两个模块: 7 第1 章绪论 ( 1 ) 文字特征抽取:单以识别率而言,特征抽取可说是o c r 的核心,用什 么特征、怎么抽取,直接影响识别的好坏。所以在o c r 研究初期,特征抽取的 研究是研究者们的研究焦点。而特征提取可以说是识别的关键,目前o c r 特征 提取可分为两类:一为统计的特征,如文字区域内的黑白点数比,当文字区分 成好几个区域时,这一个个区域黑白点数比之联合,就成了空间的一个数值向 量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征, 如文字影像细化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为 特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识另l 方 法多以此种结构的方法为主。 ( 2 ) 对比数据库:当输入文字图像特征提取完后,不管是用统计或结构的 特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所 有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。 对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性, 选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛 比对法( r e l a x a t i o n ) 、动态程序比对法( d y n a m i cp r o g r a m m n g ,d p ) ,以及类 神经网络的数据库建立及比对、h m m ( h i d d e nm a r k o vm o d e l ) 等著名的方法, 为了使识别的结果更稳定,也有所谓的专家系统( e x p e r t ss y s t e m ) 被提出,利 用各种特征比对方法的相异互补性,使识别出的结果,其可信度特别的高。 字词后处理:由于o c r 的识别率并无法达到百分之百,或想加强比对的正确性 及信心值,一些除错的功能,也成为o c r 系统中必要的一个模块。字词后处理 就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识 别文字找出最合乎逻辑的词,做更正的功能。 1 2 4 基于内容的文档图像检索相关技术 在国内,尽管基于内容的文档图像检索的研究很少,特别是基于内容的文 档图像字级检索系统基本没有多少人在研究,更没有成熟商业产品应用,但是文 档图像作为一类特殊的图像,它具有一般图像的特点,而近年在基于内容的图 像检索方面已经开展了大量的研究工作,并且取得了巨大的成功,发展了许多 的研究和商业的典型系统【2 a 5 1 ,如i b m 的q b i c ,v i r a g e 的v i r a g e 系统,m i t 实验室的p h o t o b o o k 等等。所以可以采纳一些已有的基于内容的图像检索技术, 8 第i 章绪论 同时基于内容的文档图像检索技术和o c r 技术也相关,如果能够实现上面所说 的基于内容的文档图像字级检索系统的话又和一般的文本检索方式相关,所以 可以借鉴已有的基于内容的图像检索技术,o c r 技术和文本检索技术,设计出 基于内容的文档图像检索系统。 基于内容的文档图像检索和一般的基于内容的图像检索有很大的相似处: 特别是基于内容的文档图像文档级检索系统和一般的基于内容的图像检索非常 类似,会用到很多基于内容的图像检索技术,而基于内容的文档图像字级检索 系统虽然没有基于内容的文档图像文档级检索系统那样与一般的基于内容的图 像检索那样相似,但也会用到许多基于内容的图像检索技术,如图像预处理技 术,提取低层的特征,相关的反馈技术,高维特征向量的计算方法,高维特征 的索引等。使用这些已有的技术,通过适当的修改,使这些技术可以应用于基 于内容的文档图像检索技术。 与o c r 技术关系:为了实现上面介绍的基于内容的文档图像字级检索系 统,需要对文档图像进行分割,对分割后的一个一个汉字图像块提取特征,特 征提取还要忽略字体的不同、字体大小的不同、字体粗细的不同等因素,这与 o c r 技术有共同的地方,可以借鉴o c r 技术中的汉字图像块特征提取方法和 一些相应的特征向量的相似度计算方法。 与一般的文本检索技术:如果能够实现上面所说的基于内容的文档图像字 级检索系统,即类似一般的文本检索方式,通过关键字,找到对应的一系列的 文件。而这里是通过一些字( 直接输入汉字和输入含有汉字的图像块等方式) , 去查找含有这些字的文档图像,所以基于内容的文档图像索引过程可以采用类 似一般的文本检索的倒排索引结构的技术。 由以上可见,基于内容的文档图像检索,既有一般的基于内容的图像检索 的特征,又有自身的独特之处,所以在设计基于内容的文档图像检索系统时, 可以借鉴已有的基于内容的图像检索技术。同时又与o c r 技术相关,可以借鉴 o c r 技术中的汉字特征提取方法和相应的相似度计算方法。在索引结构上使用 类似文本检索中的倒排索引格式。有了这些成熟的技术,实现上面介绍的基于 内容的文档图像字级检索系统成为可能,这些技术为基于内容的文档图像检索 提供了理论技术基础。 9 第1 章绪论 1 2 5 文档图像检索的历史和研究现状 早期的文档图像检索方式与早期图像检索方式一样,也是对文档图像加上 文字说明或文字描述,检索文档图像时,只是对这些文字说明进行检索。这种 检索方式的问题与早期的图像检索方式的问题一样,即由于当前机器视觉技术 还无法自动对文档图像进行标注,需要大量的人力参与;同时不同的人对同一 幅文档图像的标注也不尽相同,受主观因素的影响。基于这些原因,一般不使 用这种方式来检索文档图像,这种方法一般会作为后面介绍的基于内容的文档 图像检索系统中一个扩展功能支持,即将文档图像的基于内容检索和文本检索 相结合。 后来随着o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,光学字符识别) 技术的广泛 应用,人们通过o c r 技术,将文档图像上的文字识别出来保存成文本,然后利 用文本检索技术进行检索,整个系统结构如图( 1 1 ) 所示。 图1 1 基于o c r 技术的文档图像检索 这种检索方式的问题是: ( 1 ) 检索的准确率受到o c r 识别准确率的影响。 ( 2 ) 这个识别需要时间,而且检索过程与文档图像没有关系,也违背了人 们最初的目的。 ( 3 ) 有些文档图像上的信息( 例如偏僻字) ,无法通过o c r 技术识别出来或 者准确的识别出来,导致无法检索。 自1 9 9 0 年,研究者们提取了基于内容的图像检索技术之后,许多研究者开 1 0 第1 章绪论 始从事基于内容的文档图像检索技术的研究工作,工作重点主要是如何对文档 图像自身的视觉特征内容进行提取,提取出可以代表文档图像内容的特征,然 后进行相似度匹配检索。在基于内容的文档图像检索研究中,研究者们先后提 出了两种检索方式: ( 1 ) 在基于内容的文档图像检索研究的早期,检索方式是输入一幅文档图 像,判断这幅文档图像是否在文档图像数据库中出现过。 ( 2 ) 最近几年,研究者们提出,因为文档图像的特殊性,非常类似一篇文本, 是否可以像文本检索那样,可以检索文档图像上的字。所以发展了基于 内容的文档图像检索的第二种检索方式,即可以检索到哪些文档图像, 含有特定的字,这种检索方式有着广泛的应用前景,但是技术上相对比 较复杂。 在国内,上面介绍的第一种检索方式与一般的基于内容的图像检索方式相 似,还有一些理论模型。而上面介绍的第二种检索方式还没有多少人在研究,n 因为汉字的结构复杂性,国内还没有什么发展,没有好的设计方法,急需要解 决。 基于内容的文档图像检索的当前研究焦点主要在3 个方面:文档图像的特 征提取,文档图像的检索方式,索引格式。对于文档图像的特征提取,有提取 整篇文档图像特征,提取文档图像中每段的特征,有提取每行特征,有提取每 个汉字特征。 1 2 6 基于内容的文档图像检索的一般过程 基于内容的文档图像检索一般有以下主要过程【2 3 j : 1 文档图像的预处理,例如文档图像噪音去除,文档图像二值化,水平和 垂直校正等。预处理过程主要是处理文档图像,使其符合后续处理的要 求,这样可以方便后期的进一步处理,提高特征提取的准确性。 2 对文档图像的分割,这样可以很好的对分割后的目标物体提取特征,例 如上面介绍的基于内容的文档图像字级检索系统就需要将文档图像分割 成一个一个的汉字块。分割出目标对象,这样可以减少数据的处理量, 提高系统系能。 3 对上面分割后的目标物体提取特征,如果要实现基于内容的文档图像字 第l 章绪论 级检索系统,就需要对分割后的一个一个汉字图像块,进行特征提取。 4 将提取的特征归一化,按照一定的方式索引。 5 检索时,将检索条件进行同样预处理,提取特征,根据一定的相似度计 算方法,到索引库中查找符合条件的文档图像,并根据相似度排序,最 后将结果返回给用户。 6 用户反馈技术,用户可以根据需要,将一些信息返回给系统,检索系统 可以根据这些返回的信息,调整系统的参数,然后重新查询。 1 。2 7 基于内容的文档图像检索的关键技术 1 文档图像预处理【2 ,4 ,7 s ,1 3 ,1 4 】: 如果文档图像不符合要求,例如文档图像含有噪音、没有二值化或者文档 图像上汉字比较模糊等,则后续的处理过程没法处理或者高效准确的处理文档 图像。这时就需要对文档图像进行一些预处理,比如说,去除噪音,图像二值 化,锐化等等。文档图像的预处理可以使后续处理过程更好的处理和理解文档 图像内容,总体提高基于内容的文档图像检索系统的性能。同时,也可以减少 后续处理的数据量,提高系统速度。 2 文档图像分割【2 , 4 , 7 , 8 , 1 3 , 1 4 : 文档图像分割是为了分割出目标对象,特别是要实现上面介绍的基于内容 的文档图像字级检索系统,就需要对文档图像进行分割处理,分割成一个一个 汉字图像块。这样后面的特征提取模块就可以针对这些汉字图像块进行处理, 提取特征。即使是基于内容的文档图像文档级检索系统,也需要对文档图像进 行分割,分割出主要的汉字区域,而忽略空白区域,减少数据处理量,提高系 统性能和准确率。 3 特征的提取【2 4 ,7 , 8 , 1 3 , 1 4 l : 对分割后文档图像的目标对象,进行特征提取,用这些特征来代表文档图 像的内容。本人研究的基于内容文档图像检索系统是以分割后的一些汉字图像 1 2 第1 章绪论 块,来表示一幅文档图像的内容。但是直接以这些汉字图像块作为文档图像的 特征的话,数据量太大,相似度计算和索引的数据结构设计非常复杂,所以必 须通过一些手段去除一些无关或者无关紧要的数据,只保留本质特征的数据作 为文档图像的特征。这样的话相似度计算和索引的数据结构设计就会相对的简 单一些。 4 相似度计算方法【2 , 6 , 1 0 , , 1 3 , 1 4 1 : 在提取文档图像的特征之后,就要定义相应的相似度计算方法,因为文档 图像特征提取后以高维向量的形式表示,所以文档图像特征相似度就是计算两 个向量之间的距离或者相似度。现假设特征空间为f _ 戤,x = ( x 。,x :, x 。】【1 ) ,y = ( y 。,y 2 y 3 y ) x ,y f ,则两个向量x ,y 之间的常用距离函数 有: ( 1 ) 街区距离d i s t a n c e ( x ,y ) = i 工,一y ,i i f f i l ( 2 ) 欧式距离d i s t a n c e ( x , 耻 公式( 1 2 ) ( 3 ) 无穷范数d i s t a n c e ( x ,y ) = 罂援蔫 i 柳一少l 公式( 1 3 ) 瞅角余蛐d x 删扣,c 厣万, , ( 5 ) 两个向量的交距离d i s t a n c e ( x ,y ) 2 ( m i n x ,y t ) ) y l 公式( 1 5 ) i f f i li = l ( 6 ) k l ( k u l l b a c k - l e i b l e r d i v e r g 饥c e ) 距离。i s t a i l c e ( x ,y ) 2 喜引。g ( 盖) 公式( 1 6 ) ( 7 ) 相关距离d i s t a n c e ( 硼2 例m l 挚麓。善砂+ , 公式( 1 7 ) 这些向量间距离计算方法,有的是满足欧式距离的要求( 其中公式1 1 ,1 2 , 1 3 是常用的欧式距离计算方法) ,其它的是非欧式距离计算方法。这些计算方 1 3 第1 章绪论 法从不同的角度,考虑向量之间的距离,在实际应用中需要根据具体的需求选 择或修改某些距离计算方法。 5 高维特征向量的索引【2 4 ,7 8 ,1 3 ,1 4 】 对文档图像提取特征后,必须将这些特征量化保存到索引库中,这样后续 的查询过程才可以根据查询条件在这个索引库中快速的查找到符合查询条件的 文档图像,所以索引结构设计的好坏将直接影响查询速度。因为提取的文档图 像的特征都是高维的向量,数据量比较大,索引结构设计比较复杂,困难。一 些研究者提出可以通过对高维向量的降维技术,降低向量维数,减少数据量, 常见降维技术有两种,即k l t ( k a r h u m e n l o e v et r a n f o r m ) 和列间聚类 ( c o l u m n w i s ec l u s t e r i n g ) 。当前高维特征索引常用的方法有:桶算法 ( b u c k e t i n ga l g o r i t h m ) ,k d 树,优先k d 树,四叉树( q u a d - t r e e ) ,k - d - b 树,h b 树,r 树和变种r + 树,胁树等。总的来数,设计高效的索引数据结构将 会提高查询效率和准确率。 6 用户的相关的查询反馈技术【2 4 ,刀 自2 0 世纪9 0 年代中期以来,研究者们逐渐认识到特征抽取和相似度匹配 这种方法难以满足用户要求,这是由于当前基于内容的图像检索技术( 包括基 于内容的文档图像检索技术) 还没有办法完全消除机器理解的低级特征与用户 高级语义之间的差异,必须有相应的用户反馈信息,通过人的介入和帮助,来 弥补这方面的差距,基于内容的图像检索系统( 包括基于内容的文档图像检索 系统) 根据反馈信息,调整查询方法或参数,让用户的下次查询得到更好的查 询结果,例如i b m 的q b i c 系统中采用了交互式图像分割方法。反馈信息可以是: 查询结果中的正例或者反例,阈值参数的大小,相似度计算方法等。利用这种 人机交互,协同工作的方式,可以弥补计算机理解的不足,提高检索效果。总 的来说,基于相关反馈信息的图像检索方法的基本思想是:在检索过程中,系 统根据用户提交的查询给出第一轮查询结构,用户可以对查询结构进行评价和 标记,并将这些相关与否的信息反馈给系统,系统通过对这些反馈的相关信息 进行学习,再进行下一轮检索,从而使得检索结果更能满足用户的要求。图像 检索中的相关的反馈技术大致可以分为四种类型:参数调整方法,聚类分析方 法,概率学习方法,神经网络方法。 1 4 第1 章绪论 1 2 8 基于内容的文档图像检索系统的通用体系结构 基于内容的文档图像检索是基于内容的图像检索的一个特例,所以基于内 容的文档图像检索系统的通用体系结构和一般的基于内容的图像检索系统的通 用体系结构非常相似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论