(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)基于内容的图像检索技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要由于计算机科学和数据库技术的发展,基于内容的图像检索( c b i r )已成为国内外的一个研究热点。c b i r 实际上是一种模糊查询技术,本文主要针对图像特征提取、相似度匹配以及相关反馈三方面技术进行深入的探讨和研究,并选择合适的算法,设计了基于内容的图像检索系统。图像特征方面,主要是提取颜色、纹理、形状等视觉信息;研究了颜色直方图、t a m u r a 纹理特征、傅立叶形状描述符等提取算法。相似性度量方面,分析了欧拉距离、直方图相交等方法。在相关反馈中,探讨了查询向量优化算法。本文还提出了一种基于离散余弦变换( d c t ) 压缩的j p e g 图像的检索方法。该方法利用j p e g 图像数据在d c t 压缩域的特性,直接提取特征,只需要对j p e g 进行部分熵解码。在加速了图像检索的过程的同时也保证了检索结果的精确性。关键宇:基于内容的图像检索特征提取相似度量相关反馈a b s t r a c tc o n t e n tb a s e di m a g er e t r i e v a l ( c b i r li sat e c h n i q u ef o rr e t r i e v i n gi m a g eo nt h eb a s i so fa u t o m a t i c a l l y - d e r i v e dv i s i o nf e a t u r e 。i th a sb e e na na c t i v er e s e a r c ha r e ai nr e c e n ty e a r ;c b i ri saf u z z yi n q l l i r yt e c h n o l o g yi nf a c t 1 1 1 ei s s u ei n v o l v e st h r e ea s p e c t s :t h ee x t r a c t i o no fc h a r a c t e r i s t i c s c h a r a c t e r i s t i cm a t c h ,a n dt h er e l e v a n tf e e d b a c k a n dc h o s e ns u i t a b l ea l g o r i t h m ,d e s i g n e dac b i rs y s t e m i ni m a g ec h a r a c t e r , m a i n l yd i s c u s s e de x t r a c to v e s t h e s i ai n f o r m a t i o ns u c ha sc o l o u rc o l o r ,e d g e ,a n dt e x t u r ef e a t u r ef r o mi r f l a g e s i th a sc o l o rh i s t o g r a m ;t a m u r at e x t u r ef e a t u r ea n df e u r i e rd e s c f i p t i o n i nc h a r a c t e rm a c t h ,h a v i n gd i s e u s s e de u l e rd i s t a n c e h i s t o g r a md i s t a n c ea n ds oo n i nr e l e v a n tf e e d b a c k , h a v i n gd i s c u s s e dt h ei n q u i r yv e c t o ro p t i m i z a t i o na l g o r i t h m t h em e t h o do fr e t r i e v i n gj p e gc o m p r e s s e di m a g e sw a sp r o p o s e d 1 1 l cf e a t u r e sw f r ee x t r a c t e dd i r e c t l yi nd c tc o m p r e s s e dd o m a i n , u s i n gt h ec h a r a c t e r i z a t i o no fd c t i n s t e a do ff u l l yd e c o m p r e s s i n gj p e gi m a g e s t h e r e f o r e , t h ew o r ko fr e t r i e v i n gi m a g e si sa c c e l e r a t e d a i s o , t h ee f t 5 c i e n c yo f r e t r i e v i n gi ss a t i s f i e d , w i t hc e r t a i nr o b u s t n e s s k e yw o r d s :c b i r ,c h a r a c t e r i s t i ce x t r a c t i o n ,c h a r a c t e r i s t i cm a t c h ,r e l e v a n tf e e d b a c k长春理工大学硕士学位论文原创性声明本人郑重声明:所呈交的硕士学位论文,基于内容的图像检索技术的研究与实现是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。储签等:斡诅月盔日长春理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使用规定”,同意长春理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。储躲4 塑l 4 一吐月蟛指导导师签名:粤日b 年弓月鹕日第一章绪论1 1 研究课题的目的和意义近年来,随着多媒体技术和计算机网络的飞速发展,数字图像的数量在以惊人的速度增长,图像己成为大众化数字信息的种形式,图像信息的使用渗入到社会各行各业和人们生活的每一个角落。在如此广泛的应用背景下,产生了大量的各式各样的图像数据库。这就要求有一种能够快速而且准确地查找访问图像的技术,也就是图像检索技术。早期的图像检索使用的是文本标注方法。主要是对图像文件建立关键字或文本标题以及一些附加信息,然后在图像的存储路径和图像关键字之间建立联系。然而,随着网络技术的发展和普及,这种采用对图像建立关键词等文本描述信息已越来越不适应网络信息检索的要求。究其原因主要存在如下局限性:1 ) 对图像加注文本信息由手工完成,工作量大;2 ) 由于图像所包涵的丰富内涵远非少量文本注释所能表达。即所谓的“一幅图像胜过千言万语”。这直接导致了文本注释不可避免的主观性和不精确性。随着大规模的数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像检索技术( c o n t e n t - b a s e di m a g er e t r i e v a l ,简称c b i r ) 应运而生。它区别于传统的人工标注的做法,不同于基于关键字的手工注释,基于内容的检索技术自动提取每幅图像的视觉内容作为其索引,如颜色、纹理和形状等。基于内容的图像检索是个非常活跃的研究课题,这方面的专题几乎同时出现在许多国际知名期刊上,许多研究机构纷纷开展了基于内容检索的研究和便于按照内容检索的“理解”的研究。本课题研究的目的是在目前图像检索系统的基础上,建立高效准确的图像检索系统。基于内容的图像检索技术为图像信息的检索从可视角度开辟了一条更为准确直观的途径。为快速地大量地查找网上图像信息创造了条件。在很多方面都做了一些有意义的探索,也出现了不少代表性的检索系统。但是总的来说,目前基于内容的图像检索技术的研究还不很完善,难以达到实用的标准。因此,加强这方面的研究,建立高效准确的图像检索系统不仅具有重要的理论意义,而且具有实际应用价值。1 2 基于内容图像检索的研究现状和趋势基于内容的图像检索在以前的研究中大致可分为两个方面:1 ) 图像内容通过人工模型化为一组属性并被管理,在传统数据库管理系统的框架下,通过这些属性进行查询。基于属性的图像表示要求高层次的图像抽象。通常越高层次的抽象,对图像数据库的查询的范围越小。基于属性的图像查询最初是由数据库研究者所倡导和进行的:2 ) 集成特征提取和目标识别子系统来克服基于属性检索的局限:这种子系统在图像插入数据库时自动进行特征提取和目标识别,然而,自动的目标识别的研究依赖于特定的领域,计算处理困难而且代价高。这种研究最初是由图像理解的研究者进行的。对对象语义的获取和表示方面先l j 有两种探索:通过人的中介作用来解释,然后用一个适用的形式来描绘其语义,然而,语义是经常依赖于具体环境的,人并不能够对于给定的对象的同样的特性给出一致性的解释,这就导致了第二种探索:使用自动技术用计算机来描绘语义,在过去的二十多年里,视觉及信息领域研究者不断地进行研究,至今仍无重大突破。这方面的研究也由于知识库的迅速增大,关系极难模型化,包含的数据结构太过复杂而不能够有效处理。随着数据库规模的不断扩大,人工注释的大量劳动和人工解释的主观性和不完全性引入了难以克服的困难。自动的高级的图像理解和目标识别技术又不够成熟,因此当前的基于内容的图像检索技术主要是面向低级特征,诸如颜色、纹理、形状等。而且,没有一种单一的方法能够适用于具体的应用。所以需要多种方法结合以解决当前面临的困难。多特征联合以及文本注释结合将为基于内容图像检索系统提供一个良好的途径。基于内容的检索系统的当前趋势还要基于以下三点主张:1 ) 成功的基于内容的检索系统是依赖于特定的领域。2 ) 自动理解工具必须被交互工具代替。3 ) 对于人的中介作用,应被指定基本任务,这种任务能够被大多数人一致地执行,而且其结果能够用于建立基于内容的检索应用。1 3 基于内容的图像检索系统的特点和数字字符型数据相比,图像数据具有以下不同:一幅图像的内容不能准确地描述。一幅图像的内容可被看作一组空2间对象( 例如:点、线、面等) 和它们之间的空间关系( 相邻、方向、相对位冒等) ,总之,没有精确的方法能够表示对象和它们之间的关系,只能通过近似的表示描述。而字符数值数据总能用基本数据类型( 如:整型数、字符串) 或又基本数据类型组合成的复杂数据类型来精确表示。一旦对对象和其关系指明数据类型,就不能改变了。因此使用基本数据类型和用户定义的数据类型的模型化技术就足够了。但是,这对图像数据的模型化是不够的,因为其表示是近似的,不唯一的,而且多种表示是可能的,选取的最好表示也不能固定在数掘模型中。基于内容的图像检索系统与传统的数据库检索系统相比,具有如下特点:1 ) 图像对象固有的多维结构,不同的特性表现,在于我们对其的重视程度,如何看待,特征获取是越多越好,获取所有的必要的特征。但在实际系统中实现检索时常常只能利用其部分特征,一方面过多的特征意味着庞大的计算开销,甚至是系统无法实现的:另一方面实际应用总是在某一领域进行,用户只会对部分特征感兴趣,过多的特征很多是与应用无关的,这会让用户分散注意力甚至无所适从。2 ) 基于相似度的检索技术。将查询图像和图像库的每一幅图像进行非精确匹配。因为用户给定的查询信息本身常常是不精确的,不完全的,系统必须能够返回那些能够部分或可能满足指定条件的查询的对象,并按相似程度由高到低排序输出,即产生所谓的相似图像组。由用户最终决定符合查询条件的图像。3 ) 为相似匹配的快速检索提供有效的检索结构和存取结构,尤其是在多媒体数据量极大时这个问题就很突出,有效的结构能帮助用户检索二级或三级存储器上的内容。图像的匹配涉及到大量的运算,这比文本检索要复杂得多,检索效率是非常重要的。4 ) 查询说明及查询界面,专业用户需要复杂的图像界面。图形界面应以一种自然的有效的方式来支持基本的查询,而非专业用户更喜欢以自然语言来说明查询,由于说明和解释的主观属性的不准确性导致在说明和处理查询时,查询处理器能交互地处理这个问题。需要指出的是,基于内容的检索系统还有个显著的特点就是需要信息共享,因此大部分检索都是通过计算机网络进行。尤其在大型的公共数字图书馆中这种通过网络进行检索就显得十分重要。1 4 国内外现有典型系统概况由于基于内容的图像检索具有广泛的应用领域,所以基于内容的图3像检索成为一个非常活跃的研究领域。迄今为止,己有许多图像检索系统面世。q b i ci b m 的q b i c ( q u e r yb yi m a g ec o n t e n t ) 是第一个商品化的c b i r 系统。它的系统框架和技术对后来的图像检索系统具有深远的影响。q b i c的系统结构由图像入库、特征计算、查询阶段3 部分组成。在索引技术方面q b i c 采用了基于颜色、纹理、形状和手绘草图的图像索引方法。颜色特征采用了平均色和颜色直方图两种方法:纹理特征采用纹理的粗糙度、对比度和方向性:形状特征为形状的面积、圆形度、离心率、主轴方向和一组代数矩不变量。实现了基于文本的关键字查询与基于内容的相似性查询结合的查询。q b i c 的基于图像内容检索的技术己制成独立产品,如i b m 数字图书馆、超媒体管理器、d b 2 数据库的图像扩展等工具软件。q b i c 的演示系统见h t t p :v a 啊q b i c a l m a d e n i b m c nv i r a g ev i r a g e 是由v i r a g e 公司开发的基于内容的图像搜索引擎。系统可分为4 层表示:图像表达层、图像对象层、领域对象层、领域事件层。支持基于颜色、颜色布局、纹理和结构( 对象边界信息) 的可视化查询,同时也支持它们的任意组合。在y i r a g e 中把特征称为”原语,并进一步把原语分为通用型原语和特定领域原语。v i r a g e 技术的核心是v i r a g ee n g i n e 以及在图像对象层上的操作。v i r a g ee n g i n e 主要有3方面的功能:图像分析、图像比较和图像管理。它将查询引擎作为一个插件,它既可应用到通用的图像查询,也对其进行扩展并应用到特定领域。v i r a g e 的演示系统见h t t p :w w v i r a g e c o m c g i b i n q u e r y e p o t o b o o kp o t o b o o k 是m i t 媒体实验开发的用于浏览和搜索图像的一套交互式工具,p o t o b o o k 包括三个子部分,分别用于提取形状、纹理和面部特性。用户可以在每个子部分中按照对应的特征进行查询。在p o t o b o o k 的最近版本f o u r e y e 中,p i c a r d 提出的注释和检索中包括人。这一提出建立在没有一种单独的特征可以最好地对图像建模,而且人的理解又是主观的这样一种观测之上。因此,他们提出模型集( “s o c i e t yo fm o d e l ”) 方法,结合了人的因素。实验结果表明该法在交互式图像注释中很有效。v i s u a l s e e kv i s u a l s e e k 是种视觉特性搜索工具,其姊妹系统w e b s e e k 是面向w w w 的文本图像搜索工具,两者都是由哥伦比亚大学开发的。其主4要的研究是提图像区域的空间关系查询和从压缩域中抽取视觉特性。系统采用的视觉特性是颜色集( c o l o rs e t ) 和基于小波变换的纹理特性。为了加速检索过程,他们采用了二叉树的索引算法。v i s u a l s e e k 支持基于视觉特征和它们之间空间关系的查询。用户可以把顶部为红橙区、底部为绿色区域,这样的图像作为查询“草原日出”的草图。n e t r an e t r a 是u c s ba l e x a n d r i ad i g i t a ll i b r a r y 发展的图像检索系统原型。n e t r a 在其分块图像区域中使用颜色、纹理、形状、和空间位置信息来从数据库中搜索和检索相似的区域。n e t r a 系统的主要研究特性是它的基于g a b o r 过滤器的纹理分析,基于神经网的图像分类构造和基于边流的区域分块。n e t r a 所在的主页地址为:h t t p :v i v a l d i e c e u c s b e d u n e t r a 1 5 本文主要研究内容1 ) 介绍目前基于内容的图象检索技术的发展概况,分析基于内容的检索系统的特点以及在内容检索中的重要的地位及存在的问题,明确本文研究目的和研究意义。2 ) 研究c b i r 系统的系统结构和各种索引技术。针对图像特征提取、相似度匹配以及相关反馈三方面技术进行深入的探讨和研究,并选择合适的算法,设计基于内容的图像检索系统。3 ) 图像特征提取方面,研究颜色直方图、t a m u r a 纹理特征、傅立叶形状描述符等特征提取方法。相似性度量方面,分析欧拉距离、直方图相交等算法。在相关反馈中,探讨查询向量优化算法。4 ) 提出了一种基于离散余弦变换( d c t ) 压缩的j p e g 图像的检索方法。在加速了图像检索的过程的同时也保证了检索结果的精确性。5 ) 对系统框架和数据管理进行深入分析,给出系统的实现算法和检索结果分析。5第二章c b i r 系统综述基于内容的图像检索涉及多个领域的技术。其中重要的是计算机视觉领域和数据库领域技术和方法的交汇。由于基于内容的图像检索所覆盖的领域非常广泛,下面仅对本文研究所关注的技术方面分别进行综述。2 1c b l r 系统的系统结构第一章已经对c b i r 的特点作了阐述,简单地说就是:c b i r 遵循概率排队规则,根据用户的查询需要,基于检索模型对查询样本和库中图像分别计算图像的相关特征,并比较相似性,最后按相似性值由大到小排列库中图像,完成一个查询过程。c b i r 系统有四个基本要素。具体来说1 ) 图像集,即图像库;2 )检索模型,即图像的相似比较方法;3 ) 索引即用来表征图像间相似性的量化特征,即图像特征;4 ) 查询技术,即用户的查询方式。其中,中间两项是相互关联的,在建立检索模型时必须考虑用来比较相似性的图像特征,同样在选取图像特征同时也要考虑基于图像特征的最终的图像相似比较问题,因此两者是相辅相承的。在图像索引中,对图像数据库中的每幅图像根据采用的图像特征生成一个n 维特征矢量,与图像一起存储。因为特征矢量表示了图像的特征,代表图像,所以在检索过程中可以用特征矢量代替图像本身,对两个图像的特征矢量使用一个距离函数或相似度量。相似图像的检索就成为特征矢量组成的特征空间内与查询图像特征矢量一定距离特征矢量的查找。这样就减少了图像检索时间,加快了查询响应速度。因此,基于内容的图像检索的基本系统结构,如图2 1 所示:在输入模块中输入图像,对图像预处理,提取所有系统可能用到的特征,存入特征数据库,以备以后检索需要。6用户输出图2 1 图像检索的基本系统结构2 2c b i r 的各种索引技术对于图像数据的索引要从3 个方面进行研究:索引的表示、索引的组织和索引的提取。图像索引的提取可以分为手工提取、半自动提取、自动提取,这在很大程度上依赖于图像处理技术的发展。图像索引的表示可以分为关键词索引、颜色特征索引、形状特征索引,纹理特征索引等。由于图像索引组织的维数一般都比较高,有的高达几百维,但传统的数据库采用的数据结构如h a s h 表、b 一树等不能很好地组织这些高维的特征索引,因此研究一种高效的数据结构非常重要。关于图像索引的提取方法在计算机视觉和图像处理中有大量的综述文献,关于高维数据的组织在数据结构研究领域中也已有较多的论述,本节主要是从基于图像的颜色、纹理、形状以及压缩域上论述目前基于内容的图像检索技术的现状。由于每种特征索引方法都涉及到相似度量和匹配问题,所以图像相似性度量作为单独的一节进行论述。2 2 1 基于颜色特征的索引技术颜色是物体表面的一种视觉特性,每种物体都有其特有的颜色特7征。颜色是图像内容组成的基本要素,是人识别图像的主要感知特征之一。用颜色特征进行检索可以追溯到s w a i n 和b a l l a r d 提出的颜色直方图的方法。相对于其他特征颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性,因此得到了研究人员的广泛关注,目前几乎所有的基于内容检索的图像数据库系统都把颜色检索方法作为检索的一个重要手段,并提出了许多改进方法。归纳起来主要可以分为两类:全局颜色特征索引和局部颜色特征索引。1 ) 全局颜色特征索引全局颜色特征索引方法目前采用最多的是颜色直方图的方法,s w a i n 的主要思想是根据颜色直方图统计每种颜色在图像中出现的概率,然后采用颜色直方图的交来度量两幅图像颜色的相似性,其最大的缺点是完全丢失了图像颜色的空间信息。p a s s 等人提出以图像的颜色聚合矢量c o y ( c o l o rc o h e r e n c ev e c t o r ) 作为图像的索引,它是图像直方图的一种演变,其核心思想是将图像中在感知上颜色相似的像素所占据的连续区域的面积大于一定的阈值时,该区域中的像素为聚合像素,否则为不聚合像素,这样统计图像所包含的每种颜色的聚合像素和不聚合像素的比率称为该图像的颜色聚合矢量,在图像检索过程中匹配目标图像的聚合矢量和检索图像的聚合矢量,聚合矢量中的聚合信息在某种程度上保留了图像颜色的空间信息。s t r i c k e r 和o r e n g o 提出了累计颜色直方图方法,并且提出了颜色矩的方法“1 ,认为颜色信息集中在图像颜色的低阶矩中,他们主要对每种颜色分量的一阶、二阶和三阶矩进行统计。r i c k m a n 和s t o n h a m 提出了颜色元组直方图的方法,将一幅图像中的所有颜色用一些颜色元组来表示,这些颜色元组的特征形成了一个特征编码簿,然后对一幅图像中特定位置的r 1 个采样点所对应的颜色元组的特征值在特征编码簿中出现概率进行统计,就形成了一个颜色元组的直方图。这种方法同一般颜色直方图方法不同的是:不是对每个像素点进行统计,而仅仅对一些设定的采样点进行统计;每个采样点的特征由周围一些像素的色调的组合来表示,目的是试图捕获一些颜色空间信息。关于图像颜色直方图之间的距离,目前主要有直方图的交、直方图的绝对值距离,n i b l a c k 和b a r b e r 等人采用直方图的欧几里德距离的度量方法,h a r f n e r 等人提出了颜色直方图的加权距离作为直方图之间的度量方法。2 ) 局部颜色特征索引由于全局颜色特征索引捕获了整幅图像颜色分布的信息,丢失了许多局部的颜色空间信息。目前从划分局部区域的角度来说可分为:基于固定块的图像分割、基于手工的区域分割、采用交互的半自动的区域分8割以及一些自动的颜色分割方法。局部区域中的颜色信息可以表示为平均颜色、主颜色、颜色直方图和二进制颜色集。h s u 等人试图结合图像的颜色信息和图像颜色的部分空间信息对颜色的直方图进行检索,其主要思想是从图像中选择一些代表颜色,然后将图像划分成一定的矩形区域,每个区域中以一种主要的单一颜色作为代表,两个图像之间的相似性是两个图像之间具有相似颜色区域的重叠程度。i b m 的q b i c 系统通过交互的工具对图像中对象轮廓进行提取,并统计对象区域的平均颜色和颜色直方图等作为对象的颜色特征。s t r i c k e r 和d i m a i 认为图像中最有意义的区域是位于图像的中心,将图像划分为5 个模糊的区域,其中护心的区域为一个椭圆形,将椭圆外的图像进行一定的模糊化,目的是保持图像中的颜色信息、对小的平移和旋转影响不敏感,然后再对每个区域中每种颜色通道的一到三阶矩进行统计,这种方法保留了图像颜色的一部分空间信息。s m i t h 和c h a n g采用颜色的自动分割方法,形成一个二进制的颜色索引集,在图像匹配中,比较这些图像颜色集的距离和颜色区域的空间信息。颜色的空间关系主要有颜色区域的分离、包含、交,每种关系对应一定的评分,查询的空间距离是所有这些颜色区域所对应的空间关系的评分和。综上所述,人们对颜色索引方法的研究已经相当多,它们都分别从不同的方面对颜色检索问题进行了研究。但目前主要存在的问题是颜色空间选择并不完全统一,有人使用r g b 颜色空间,更多的人采用h s v ,m u s h e l l 等视觉意义上的颜色空间等,而且这些方法之间关于颜色之间的度量方法也不统一,给各种方法检索效果的评价带来了一定的难度。颜色检索方法仅仅是基于内容检索的一种方法,在实际应用中和其它检索方法相结合,效果可能更佳。2 2 2 基于纹理特征的索引技术纹理是图像的一个重要属性。关于纹理的定义和纹理的量化方法有许多,其中主要有两种:一种是结构方法;一种是统计方法。前者是将图像中非常具有结构规律的特征加以分析,后者则是对图像中的颜色强度的空间分布信息进行统计。h a r a l i c k 纯粹从数学上研究了图像纹理中灰度级的空间依赖关系,根据图像中像素之间的方位和距离关系构造了一个共生矩阵,然后从中提取出有意义的统计特征作为纹理特征的表达,使用的特征主要有能量、熵、相关性和惯量,该方法的最大缺陷是这些统计特征没有和人在视觉上对纹理特征的鉴别之间建立对应关系。关于人类视觉对纹理特征的鉴别,j u l e s z 已经作过大量的心理实验,目前己有不少人提出了纹理特征的度量方法,其中t a n u r a 提出的纹理9特征集很好地对应于人类视觉感知,这些特征包括:粗糙度( c o a r s e n e s s ) 、对比度( c o n t r a s t ) 、方向度( d i r e c t i o n a l i t y ) 、线像度( 1i n e l i k e n e s s ) 、规整度( r e g u l a r i t y ) 、和粗略度( r o u g h n e s s ) 。在这些特征中最重要的特征是纹理的粗糙度、对比度和方向度。随后不少人提出了纹理特征集。目前还没有一个统一的标准来精确地表示纹理特征,因为人对纹理的视觉特征的认识非常主观。随着小波变换在图像纹理分析中的广泛应用,一些人也采用小波变换后的系数作为图像的索引。如s m i t h 和c h a n g 从小波子波段中提取统计特征作为图像的纹理表示,取得了很好的检索效果。c h a n g 和k u o 探索了小波中波段的特征,采用树结构小波变换来进一步提高图像分类能力的准确度。讹和m a n j u n a t h 评价了各种小波变换形式,发现基于g a b o r基小波变换的纹理检索方法的效果最好。2 2 3 基于形状特征的索引技术形状是图像的重要可视化内容之一。在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域,所以对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。目前的基于形状检索方法大多围绕着从形状的轮廓特征和形状的区域特征建立图像索引。1 ) 轮廓特征索引关于对形状轮廓特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述予以及高斯参数曲线等等。j a i n 等人将形状用封闭的直线段来描述,然后对形状中每条边的斜率进行分别计算,按一定的角度间隔对线段进行统计形成斜率直方图,并计算形状的7 个无关矩信息,在图像查询的时候,计算斜率直方图和形状矩的加权距离来区分两个图像中的形状”;还有人采用样条曲线对形状的边界进行拟合,然后按一定的长度间隔对形状边界上的各个控制点计算斜率、曲率的正负等信息,在图像检索的过程中采用h a u s d o r f f 距离来度量两个特征之间的相似距离,两个图像的相似距离是这些距离的加权和。上述方法存在的主要问题是一些形状特征的描述不是独立于形状的大小、位置和方位的,在使用时有一定的局限性,而且这些表示方法对形状边界信息丢失较多,致使检索的效果不是十分理想。早在1 9 7 2 年z a h n 就采用傅立叶描述子描述形状的边界信息,发现傅立叶描述子具有良好的平移、旋转、伸缩等几何不变性,非常适合构造形状的边界信息。g u n s e l 提出了基于特征形状的图像检索方法,其主要思想是对一个形状的边界控制点中的任意两个点之间的高斯加权距离所形成的邻接矩阵计算其特征向量,将归l o一化后的特征向量叫做特征形状。这样两个形状之间的相似性就转变为对两个归一化的特征向量之间距离的计算,该方法的一个优点是对形状的轮廓不是封闭曲线也同样可以处理。2 ) 区域特征索引对于形状的区域特征主要有区域的无关矩、区域的面积、区域的纵横比等。早在1 9 6 2 年,h u 提出了用形状的7 个无关矩来度量形状的特征,由于计算这7 个无关矩花费的时间较长,有许多人提出了关于无关矩的快速计算方法。f 1 i c k e r 等人在i b m 的q b i c 图像检索系统中采用了区域面积、圆度、离心率、主轴惯量以及高阶无关矩,这些特征形成了区域的特征矢量,形状之间的相似性使用加权欧几罩德距离。a n g 提出了关于图像形状的多分辨检索方法,在低分辨率的情况下,将区域的形状用紧致性、区域的矩、离心率、凸性进行粗略表示:关于区域中的细节特征用斑点的分布情况表示,其度量方法有斑点百分率、斑点数目、分散性和中心矩四个属性,其图像的检索过程可以看作一个逐步求精的过程。实际上更常用的方法是采用区域特征和边界特征相结合来进行形状的相似检索。如e a k i n 等人提出了一组重画规则并对形状轮廓用线段和圆弧进行简化表达,然后定义形状的邻接族和形族两种分族函数对形状进行分类。邻接族主要采用了形状的边界信息,而形族主要采用了形状的区域信息。在形状进行匹配时,除了每个族中形状的差异外,还比较每个族中质心和周长的差异,以及整个形状的位置特征矢量的差异,查询判别距离是这些差异的加权和。2 2 4 压缩域图像特征索引与检索当前c b i r 的研究多集中于未压缩的原始图像。对于压缩图像,如果把图像解码至空域,再用现存的技术,需要对整个数据库的图像解码,效率极低。而直接在压缩域提取图像特征,则避免了解码和重新编码的过程,并以其作为索引而实现基于内容的图像检索,它实际上是把图像压缩技术和图像检索技术融合在一起,克服现有方法将压缩和检索隔离所带来的不便,极大地提高了效率。压缩域检索根据所基于的压缩方法的不同可分为两大类:变换域技术和空域技术。变换技术包括基于d f t ,k l t ,d c t 等,空域技术有基于矢量量化和分行等。目前的编码标准中普遍采用的是基于i ) c t 变换和小波变换的压缩算法,基于这两种压缩域的检索技术研究异常活跃。就目前来讲,以d c t ”为核心的压缩标准还是主流,且以小波为核心的压缩标准相互兼容。研究o c t 域的检索技术同样具有现实意义。2 3 图像内容的相似性度量方法在基于内容的图像检索中,颜色、纹理和形状等图像特征被提取出来后,形成特征向量,就可以用这个特征向量来表征对应的图像。在图像检索中,判断图像之间是否相似是通过比较这些特征向量是否相似来进行的。也就是,把图像特征向量之间的比较就看成是图像相似度比较。显然,个好的特征向量比较算法对图像检索结果影响很大。特征相似关系的理论研究通常使用的是几何模型,将图像的特征看作是坐标空间中的点,两个点的接近程度通常用它们之间的距离表示,也即它们之间的不相似程度。关于距离度量函数的定义通常要满足距离公理的自相似性、最小性、对称性、三角不等性等条件。对于几何相似距离的数学表达形式通常采用欧拉距离、二次式距离等表示方法。2 4 图像的相关反馈检索技术目前,基于内容检索的图像数据库中存在一个主要问题是现有的检索方法都是以计算机为中心,使得一些查询结果计算机认为是相似的,而人却认为是不相似的。c b i r 系统是一个与用户交互的系统,一方面用户提交查询,另一方面系统返回检索结果,良好的人机接口不仅包括友好的查询界面,如何利用用户提供的信息对查询进步优化使之更好地满足用户查询需要也是一个很重要的方面。为了弥补自动语义分析面临的困难,并考虑查询用户的个性化检索要求,近几年来,人们把用户模型嵌入到图像检索系统,引入了相关反馈机制,出现了基于相关反馈的交互查询技术m 。相关反馈通过图像检索中的人机交互方式实现:首先接收用户对当前检索结果的反馈意见,然后根据反馈信息自动调整查询,最后利用优化后查询重新计算检索结果。这也意味着用户不需要指定各种特征的权重,而只需要指出他认为的与查询相似或不相似的图像,系统能够自动地调整特征权重来更好地模拟图像的高层语义和感知主观性。第三章特征的提取与匹配基于内容的图像检索系统的特征提取与匹配,包括:图像特征提取,相似性度量,相关性反馈等方面,下面将详细论述各个方面。3 1 特征提取图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征( 如关键字、注释等) 和视觉特征( 如颜色、纹理、形状等) 两类。由于基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研究,本章中我们主要介绍图像视觉特征的提取和表达。视觉特征又可分为通用的视觉特征和领域相关( 局部专用) 的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括颜色、纹理和形状:后者则建立在对所描述图像内容的某些先验知识( 或假设) 的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别的研究范围,并涉及许多专业的领域知识,在此我们就不再详述,而只考虑通用的视觉特征。对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上,图像特征的不同表达方式从各个不同的角度刻画了该特征的某些性质。在本章中,我们主要介绍那些由实践证明对图像检索比较有效的特征和相应的表达方法。以下我们将分别介绍图像的颜色、纹理和形状特征。3 1 1 颜色特征颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。面向图像检索的颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间来描述颜色特征:其次,我们要采用一定的量化方法将颜色特征表达为向量的形式;最后,还要定义一种相似度( 距离)标准用来衡量图像之间在颜色上的相似性。在本节中,我们将主要讨论第一个问题,介绍颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等颜色特征的表示方法”1 。3 1 1 1 颜色直方图颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同颜色在整幅图像中所占的比例,而并不关心每种颜色所处的空l 日j 位置,即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。当然,颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是r g b 颜色空间,原因在于大部分的数字图像都是用这种颜色空间表达的。然而,r g b 空间结构并不符合人们对颜色相似性的主观判断。因此,有人提出了基于h s v 空间、l u v 空间和l a b 空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中h s v 空间是直方图最常用的颜色空间。它的三个分量分别代表颜色( h u e ) 、饱和度( s a t u r a t i o n ) 和值( v a l u e ) 。从r g b 空间到h s v 空问的转化公式如下所示:v = m a x ( , ,g ,6 )f = i v n l i n p ,g ,6 彤1 ,h =5 + 矿,= m a x ( r ,g ,6 ) a m g = r a i n ( ,g ,l - 9 7 矿r = m a x ( r ,g ,6 ) a n dg m i n ( r ,g ,di + r 矿g = m a x ( r ,g ,6 j 口材6 = m i n ( ,g ,6 )3 - b 矿g = m a x ( r ,g ,6 ) a n db m m ( r ,g ,6 )( 3 1 )3 + g 矿b = m a x ( r ,g ,6 ) a n d ,= m i n ( r ,g ,6 )5 一r o t h e r w 括pr ,= 【v r 1 【v m i l l ( r ,g ,6 ) 】g = 【v g v n l i n o ,g ,6 ) 】b = 【v 一6 伽一m i n ( r ,g ,6 ) 】其中r ,g ,6 【0 ,1 】1 ;h 【0 ,3 6 0 ,a n d s ,v f o ,1 】。计算h s v 空间中两种颜色的距离由多种不同的方法。例如嘲中提出了如下的颜色距离计算公式:以力= i 一以k 一一) 2 + bc 0 蛳一qc 0 鸡) 2 + bs i l l l 一qs i 屿) 2 r 2 ( 3 2 )1 4其中( 红,s ,v ,) 和瓴,s j ,v ,) 分别代表两种h s v 空间中的颜色。这种相似度量方法相当于一个圆柱形颜色空间中的欧拉距离,该空间中的颜色值表示为( s c o s k s s i l l h o ,这样的圆柱空间被进一步变形称为圆锥形空间,其中的颜色表示为细c o s h , s v s i n h , v ) 。这些改变使v 值较小的时候,降低了直方图对h 和s 分量的分辨能力。计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小区间成为直方图的一个b i n 。这个过程称为颜色量化( c o l o rq u a n t i z a t i o n ) “。然后,通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方法,例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量( 维度)均匀地进行划分。相比之下,聚类算法则会考虑到图像颜色特征在整个空间中的分布情况,从而避免出现某些b i n 中的像素数量非常稀疏的情况,使量化更为有效。另外,如果图像是r g b 格式而直方图是h s v 空间中的,我们可以预先建立从量化的r g b 空间到量化的h s 、,空间之间的查找表( l o o k - u pt a b l e ) ,从而加快直方图的计算过程。上述的颜色量化方法会产生一定的问题。设想两幅图像的颜色直方图几乎相同,只是互相错开了一个b i n ,这时如果我们采用欧拉距离计算两者的相似度,会得到很小的相似度值。为了克服这个缺陷,需要考虑到相似但不相同的颜色之间的相似度。一种方法是采用二次式距离。另一种方法是对颜色直方图事先进行平滑过滤,即每个b i 中的像素对n于相邻的几个b i n 也有贡献。这样,相似但不相同颜色之间的相似度对直方图的相似度也有所贡献。图3 1 给出了灰度形式的5 1 2 5 1 2 原始图像和其直方图特征。其中,图3 1 右上角的b i n 数目为2 5 0 ,右下角的b i n 数目为1 2 5 。在图像直方图中,横坐标为灰度颜色归一化后的值,纵坐标为每b i n 颜色所对应的图像像素数目总和。1 5图3 1 原始图像与其颜色直方图特征选择合适的颜色小区间( 即直方图的b i n ) 数目和颜色量化方法与具体应用的性能和效率要求有关。一般来说,颜色小区间的数目越多,直方图对颜色的分辨能力就越强。然而,b i n 的数日很大的颜色直方图不但会增加计算负担,也不利于在大型图像库中建立索引。而且对于某些应用来说,使用非常精细的颜色空间划分方法不一定能够提高检索效果,特别是对于不能容忍对相关图像错漏的那些应用。另一种有效减少直方图b i n 的数目的办法是只选用那些数值最大( 即像素数目最多) 的b i n 来构造图像特征,因为这些表示主要颜色的b i n 能够表达图像中大部分像素的颜色。实验证明这种方法并不会降低颜色直方图的检索效果。事实上,由于忽略了那些数值较小的b i n ,颜色直方图对噪声的敏感程度降低了,有时会使检索效果更好。两种采用主要颜色构造直方图的方法可以在文献“中找到。3 1 1 2 颜色矩另一种非常简单而有效的颜色特征使用由s t r i c k e r 和o r e n g o 所提出的颜色矩( c o l o rm o m e n t s ) “”。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的阶矩( m e a n ) 、二阶矩( v a r i a n c e ) 和三阶矩( s k e w n e s s ) 就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达为:1 6l 芒“2 面备如吒- - i 吉阮一p ,卢j( 3 3 )= lr1 占,b 、js ,2 l i 乙l p ”一“lj = 1其中p 。是图像中第,个像素的第,个颜色分量。因此图像的颜色矩一共只需要9 个分量( 3 个颜色分量,每个分量上3 个低阶矩) ,与其他的颜色特征相比是非常简洁的。在实际应用中为避免低阶矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围( n a r r o wd o w n ) 的作用。3 1 1 3 颜色集为支持大规模图像库中的快速查找,s m i t h 和c h a n 只提出了用颜色集( c o l o rs e t s ) 作为对颜色直方图的一种近似“”。他们首先将图像从r g b 颜色空间转化成视觉均衡的颜色空间( 如h s v 空间) 。并将颜色空间量化成若干个b i n 。然后,用颜色自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引。从而将图像表达为一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和颜色区域的空间关系( 包括区域的分离、包含、交等操作,每种对应于不同得评分) ,因为颜色集表达为二进制的特征向量,可以构造分查找树来加快检索速度,这对于大规模的图像集合十分有利。3 1 1 4 颜色聚合向量针对颜色直方图和颜色矩无法表达图像颜色的空间位置的缺点,p a s s “”提出了图像的颜色聚合向量( c o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论