




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于内容的图像检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要随着多媒体技术及i n t e r n e t 网络的迅速发展,基于内容的图像检索技术研究成为目前一个相当重要而富有挑战性的课题。本文围绕基于内容图像检索中的一些关键技术,包括图像底层特征提取、图像间相似度的度量及相关反馈、高维索引等技术,进行了一些探索性的研究,研究具有一定的理论意义和实际应用价值。在深入分析图像底层特征和相关反馈的机制的基础上,本文提出了相似度得分机制和基于正负相关图像线性组合方式的相关反馈机制,并在这两种机制基础上实现了一个扩展性良好的图像检索系统。文中利用此系统分析了不同相似度度量方法的优劣,不同特征对图像检索性能的影响。通过实验分析可知,本系统在二次检索时能够有效的提高检索的查准率和召回率。高维索引机制是大规模图像库检索达到实时性要求的关键技术,本文通过深入分析r 树,实现了一个基于r 树可变最小包围矩形的图像检索系统。通过实验分析可以得出,随着最小包围矩形边长的减少,检索的时间也将减少,但是当最小包围矩形边长减小到一定程度,将导致查找结果过少,甚至没有的情况出现。通过理论分析和实验结果可知,最小包围矩形边长与检索时间成正比关系。关键词:相似度得分;相关反馈;r 树;可变最小包围矩形a b s t r a ( 了ra b s t r a c td u et ot h ed e v e l o p m e n to fm u l t i m e d i aa n di n t e r n e tt e c h n i q u e s ,r a p i da n de f f e c t i v es e a r c h i n gf o rd e s i r e di m a g e sf r o ml a r g e - s c a l ei m a g ed a t a b a s e sb e c o m e sa ni m p o r t a n ta n dc h a l l e n g i n gr e s e a r c ht o p i c i nt h i sd i s s e r t a t i o n ,l o t so fe x p l o r a t o r yr e s e a r c hw o r kh a sb e e nd o n ea r o u n ds o m ek e yt e c h n i q u e so fc b i r ,w h i c hi n c l u d el o w 1 e v e lf e a t u r ee x t r a c t i o n ,s i m i l a r i t ym e a s u r e ,r e l e v a n c ef e e d b a c k ,h i g h d i m e n s i o n a li n d e x i n ga n ds oo n t h es e a r c hw o r ki sv a l u a b l eb o t hi nt h e o r ya n da p p l i c a t i o n t i l i sp a p e rd e e p l ya n a l y z e sl o w l e v e lf e a t u r eo fi m a g ea n dr e l e v a n c ef e e d b a c k t h e n ,t h i st h e s i sp r o p o s e ss i m i l a r i t ys c o r em e c h a n i s ma n dr e l e v a n c ef e e d b a c kb a s e do np o s i t i v ea n dn e g a t i v er e l e v a n c ei m a g e sa s s o c i a t e d1 i n e a rc o m b i n a t i o n i nt h i sp a p e r , w ed e s i g na ne x t e n d e di m a g er e t r i e v a ls y s t e mb a s e do nt h e s et w ot h e o r i e s d i f f e r e n ts i m i l a r i t ym e a s u r e sa r et e s t e di nt h i ss y s t e m m a n yi m a g ef e a t u r e sa r ea l s ou s e dt ot e s tt h ep e r f o r m a n c eo ft h ei m a g er e t r i e v a ls y s t e m t h r o u g ht h ea n a l y s i so ft h ee x p e r i m e n t ,b o t hp r e c i s i o na n dr e c a l la r ei m p r o v e dw h e nw et a k ea d v a n t a g eo ft h er e l e v a n c ef e e d b a c kt or e t r i e v a lt h es i m i l a ri m a g e e 伍c i e n th i g h d i m e n s i o n a li n d e x i n gs c h e m ei sr e q u i r e df o rr e a lt i m er e t r i e v a li nl a r g e s c a l ei m a g ed a t a b a s e i no u rp a p e r , w ed e e p l ys t u d i e dr t r e ea n dd e v e l o p e da n o t h e ri m a g er e t r i e v a ls y s t e mb a s e do nm u t a b l em i n i m u mb o u n d i n gr e c t a n g l e s i no u re x p e r i m e n t ,w ed i s c o v e r e dt h a tw i t hs i d el e n g t ho fr e c t a n g l er e d u c t i o nt h es e a r c ht i m ew i l lb er e d u c e d b u tw h e nt h es i d el e n g t hr e d u c e dt oac e r t a i ne x t e n t ,t h er e t r i e v a lr e s u l tw i l ll e a dt os m a l l e v e nn o t h i n g f r o mt h e o r e t i c a la n a l y s i sa n de x p e r i m e n t a lr e s u l t s ,c o n c l u s i o n sh a v e b e e nm a d e :t h es i d el e n g t ha n dt h er e t r i e v a lt i m eh a v ed i r e c tr a t i or e l a t i o n s k e yw o r d s :s i m i l a r i t ys c o r e ,r e l e v a n c ef e e d b a c k ,r - t r e e ,m u t a b l em i n i m u mb o u n d i n gr e c t a n g l e si i学位论文版权使用授权书本人完全了解北京信息科技大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向中国科学技术信息研究所等国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:毫7 专彬 年1 只13e l经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。( 注:论文属公开论文的,作者及导师本处不签字)指导教师签名:学位论文作者签名:年月日年月日硕士学位论文原创性声明本人郑重声明:所呈交的论文题目为基于内容的图像检索研究学位论文,是本人在导师指导下,进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。作者签字:熏广亨卅年月3e l第一章引言1 1 研究背景及意义第一章引言近年来,随着计算机科学技术和多媒体通信技术的迅速发展,特别是2 0 世纪9 0年代以来i n t e r n e t 的普及,每天都产生了大量的各式各样的图像数据,图像数据呈现出了爆炸级增长的趋势,这些图像数据包含着大量有用的信息。如何更好地用图像的视觉特征来实现方便、快速、准确地查询和检索到用户所需的图像信息,已成为人们迫切需要解决的问题。自2 0 世纪7 0 年代以来,在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成为一个非常活跃的研究领域。当时数据库和计算机视觉两大领域是从不同的角度来研究图像检索技术的,前者的研究是基于文本的,通过对图像进行文本标注来实现图像检索;而后者是基于视觉的,即通过对图像可视特征的研究来实现图像检索。基于文本的图像检索技术( t e x t - b a s e ai m a g er e t r i e v f l ,t b i r ) 的历史可以追溯到2 0 世纪7 0 年代末期。当时流行的图像检索系统是将图像作为数据库中存储一个对象,用关键字或自由文本对其进行描述。查询操作是基于该图像的文本进行精确匹配或概率匹配,有些系统的检索模型还有词典支持。另外,图像模型、多维索引、查询评价等相关技术都在这样一个框架之下发展起来。但随着图像数据库规模的增大,完全基于文本的图像检索技术存在的问题就暴露出来了:( 1 ) 每一幅图像都需要人工进行注释,因此标注较大的图像数据库需要大量的人工劳动;( 2 ) 人工注释具有很强的主观性,即使对于同一幅图像,不同的人有着不同的看法,而且,一旦人工注释完成就很难更新和改变:( 3 ) 一幅图像所包含的意义非常丰富,“一幅图像胜过千言万语 ,人工注释的少量文字很难充分表达图像的内涵;( 4 ) 不同国家不同民族很难用同一种语言对图像进行加注标识,而且对图像语义理解的差异也很大,因此不可能形成一种统一检索方法。为了突破文本检索方式的诸多弊端,从2 0 世纪9 0 年代初期开始,人们转向研究图像中所包含的内容信息作为图像的索引,其主要的方法是根据图像的颜色、纹理、形状及空间关系等特征,建立图像的特征向量,计算查询图像和目标图像的相似距离,按多维特征的相似性匹配进行图像检索。这项技术被称为基于内容的图像检索( c o n t e n t b a s e di m a g er e t d e v f l ,c b i r ) 。此项技术的研究把计算机视觉( c o m p u t e r1第一苹引言v i s i o n ) 、图像处理( i m a g ep r o c e s s i n g ) 、图像理解( i m a g eu n d e r s t a n d i n g ) 和数据库( d a t a b a s e ) 等多个领域的技术成果结合起来,是一个很有前途的发展方向,而且该研究的深入必将推动其它相关领域的发展。图1 1 给出了一个典型的c b i r ( c o n t e n t b a s e di m a g er e t r i e v a l ) 系统的基本框图n 1 。从图中可以看出,系统主要可分为4 个模块:特征提取模块、相似性匹配模块、索引模块、相关反馈模块。特征提取模块对图像库中的图像抽取特定特征生成特征向量,并与图像一起存入图像库,从而形成基于内容的图像数据库;索引模块主要负责对图像数据库中的图像特征建立索引,以提高查询效率;相似性匹配模块主要负责计算待检索图像与图像数据库中图像的距离,以得到最相似的图像;相关反馈模块主要负责人机交互部分的内容。图1 1 典型c b i r 系统的基本结构框架作为传统数据库的拓展,基于内容的图像检索系统主要是根据图像的内容进行检索。同传统的关系数据库检索系统相比,主要具有以下的特点和优势:l 、从图像内容中提取信息线索。基于内容的检索突破了传统的基于关键词检索的局限,直接对图像进行分析并提取特征,使得检索更加接近图像对象。2 、提取特征的方法多种多样。2第一章引言对图像的特征提取可以是颜色特征、形状特征、纹理特征、轮廓特征、空间关系特征等等。3 、人机交互进行。人对于特征比较敏感,但对于大量的对象,一方面难以记住这些特征,另一方面人工从大量数据中查找目标效率非常低,而这正是计算机的长处,因此,使用基于内容的图像检索系统时,人与计算机相互配合进行检索。4 、基于内容的图像检索是一种近似匹配。在检索过程中,采用逐步求精的办法,每次的中间结果是一个集合,不断减小集合的范围,直到定位到目标。这一点与数据库检索的精确匹配算法有明显的不同。尽管经过十多年的研究,基于内容的图像检索技术有了很大的发展,但是,仍然无法满足人们的检索需要,无法真正实用。这主要是由于一些具有普遍性的问题还远远没有得到解决,尤其是图像特征的有效提取,高维数据索引的建立等是现阶段的突出难点。综上所述,基于内容的图像检索仍然是一个开放性的研究课题,其研究将涉及认知科学、人工智能、模式识别、图像处理、信息检索等多个领域,许多问题还有待于进一步探索和研究。基于内容的图像检索既体现了图像信息的特点,又结合了传统的数据库方法,是一项在理论研究和实际应用中具有前途的新技术。随着各个领域对c b i r 技术提出新的要求,其应用前景将更加诱人。因此,研究该项技术既有深远的意义,同时也将面临巨大的挑战。1 2 国内外研究热点及现状基于内容的图像检索技术始于9 0 年代中期,目前已有十多年的发展历史。由于涉及领域广泛,在国外迅速成为了研究热点。许多研究机构和公司相继推出了自己的系统,例如:i b m 、m i t 、c o l u m b i a 、s t a n f o r d 、u i u c 、u c s b 、b e r k e l e y 、m i c r o s o f t等。各大著名杂志也纷纷设专刊介绍该领域的最新研究成果。基于内容的图像检索技术研究的热点大致可以分为四个方面。最初的基于内容的图像检索研究注意力集中在如何选择合适的全局特征去描述图像内容和采用什么样的相似度量进行图像匹配。采用这种策略的代表性工作包括:i b m 的q b i c 引、m i t的p h o t o b o o k t 3 1 、c o l u m b i a 的v i s u a l s e e k h l 等。这种方法一般只适用于简单的图像或背景较为单一的图像,如:纹理图像、自然风光图像、建筑物图像等。第二个研究热点是基于区域的图像检索方法1 ( r e g i o n b a s e di m a g er e t r i e v a l ) ,其主要思想是通过图像分割技术提取出图像中的物体,然后对于每一个区域使用局部的特征来描述,综合每个区域的特征得到图像的整体特征描述,最后使用固定的相似性度量标准来检索图像。在这一研究领域中具有代表性的工作有:n c t r a 、b l o b w o r l d 、s i m p l i c i t y 和i p u r e 。由于图像分割是一个相当困难的技术,目前将图像中的物体有效的分割出来还存在一定的困难,同时建立区域与物体之间良好的对应关系也非易3第一章引言事,因此,这方面还有待于进一步的研究。第三个研究热点是高维索引技术。互联网的迅猛发展及各种多媒体设备的普及使用产生了大量的图像、视频和音频等多媒体数据,如何快速地从大型图像数据库中检索到用户需要的图像,已成为急待解决的问题。随着图像数量的同益增多,检索速度越来越成为图像检索的瓶颈。高维索引技术包括图像高维特征的降维和图像高维特征的索引两个方面,图像高维特征的降维技术主要有k a r h u n e n - l o e v e 变换( k l t ) 和按列聚类旧,图像高维特征索引技术主要有r 树、聚类技术、使用自组织( s e l f - o r g a n i z a t i o nm a p ,s o m ) 神经网络构造树状索引结构的方法等睁1 2 1 。目前,尽管在这一研究领域已取得一些进展,但探索更加有效的高维索引技术仍是一个急需解决的问题。第四个研究热点是相关反馈( r e l e v a n c ef e e d b a c k ,r f ) 技术。相关反馈技术主要基于人机交互的思想,借助一种相关反馈的技术来猜测用户的需求,并且根据用户的需求动态调整系统检索时所采用的特征向量或参与检索的不同特征的权重系数,从而尽量缩小底层特征和高层语义之间的差距,提高算法的检索效果。其实,相关反馈是文本检索领域中一个基本的技术,r u iy o n g 最先将其用到c b i r 领域n 劓,实验证明它十分有效。此项技术也迅速成为c b i r 的研究热点,许多相关反馈方法也相继被推出,代表性的工作有文献n 毛1 6 1 。事实上,图像特征可以分为低层视觉特征和高层语义特征两类。低层视觉特征主要包括颜色、形状、纹理、空间关系等;而高层语义特征是指“冷 、“热”、“快乐 、“悲伤”等主观性的带有感情色彩的描述。近几年来,为了解决低层视觉特征与高层语义特征之间的对应问题,许多研究者已经将研究方向转向了研究从图像的低层视觉特征获取高层语义特征,从而建立有效的图像特征描述子,使得对图像的描述更加符合人类的主观判断这一新的研究热点。国际运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ) 提出了描述多媒体内容的国际统一标准m p e g 一7 【1 7 】,它的全称是:多媒体内容描述接1 3 ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) ,其目标是提供在多媒体环境中描述视听数据内容的标准化核心技术。m p e g 7 为c b i r 系统提供了一个完整的目标描述模型。它包括两个方面:一是图像特征内容的数据模型,m p e g 7 从多角度多层次来描述,它覆盖的视觉特征主要包括颜色、纹理、形状、运动、定位这几个方面,每一方面又由基础的和复杂的描述子组成;二是描述模型,m p e g 7 规定了一套由描述子、描述模式、描述语言所组成的灵活且易于扩充的描述模型。m p e g 7 标准的推出和完善,必将对该领域的研究起到推动和规范化的作用。4第一章引言1 3 经典的c bir 系统介绍从2 0 世纪9 0 年代初期开始,随着基于内容图像检索技术成为研究热点,各大公司和科研机构陆续推出了一些商用或研究用的图像检索系统。本节将简单介绍几个经典的图像检索软件系统。q b i c ( q u e r y b y i m a g ec o n t e n t ) 是由i b m 提出的、在基于内容图像检索领域应用最早的商用产品。q b i c 系统提供了多种查询方式,包括:支持用户使用例子( 系统自身提供) 查询、用户素描草图查询、扫描输入图像查询、指定特征( 纹理、颜色等)查询方式、用户输入动态影像片段和前景中运动的对象等查询方式。在此系统中,颜色主要使用在( r ,g ,b ) 、( y ,i ,q ) 、( l 书,a ,b 宰) 等颜色空间的颜色直方图。形状信息主要采用面积、圆形度、偏心度、矩不变量等。另外,q b i c 系统还考虑到了高维特征的索引,采用r 术树作为索引结构。q b i c 系统建立较早,技术成熟,功能全面,为基于内容的图像检索技术的验证和推广作出了很大贡献。q b i c 的演示在:h 主主乜;z z 盟:g 垒i 曼:垒! 婴垒亟曼n :i 垒堡:曼q 堡。v i r a g e 是由v i r a g e 公司开发研制的基于内容的图像搜索引擎。其特点是提供完善的用户开发功能,如:提供用于开发用户界面的工具包;提出p r i m i t i v e 概念,用于支持用户定义新的图像视觉特征( 包括该特征的类型、计算和相似性度量方法) ;支持5 种抽象数据结构便于图像特征的描述;提供用户相关反馈检索机制。因此该系统比较适合用来进行特定应用领域图像数据库的二次开发。v i r a g e 已经和多种商业数据库进行了集成。p h o t o b o o k 是m i t 多媒体实验室开发的图像检索系统,p h o t o b o o k 有三个子部分,分别用于提取形状、纹理和面部特征。因此,用户可以在这三个子部分中分别进行基于形状、基于纹理和基于面部特征的图像检索。由美国哥伦比亚大学开发的姊妹系统。v i s u a l s e e k 和w e b s e e k 的主要特点是研究利用图像区域空间关系进行查询和从压缩域提取视觉特征来进行检索。系统中主要使用的特征是颜色特征和基于小波变换的纹理特征,并且使用基于q u a d t r e e 和r t r e e的索引结构以提高检索速度。支持基于视觉特征及其相互之间空间关系的检索。w e b s e e k 主要是面向w e b 的搜索引擎,它包括3 个模块,图像视频收集,分类与索引和搜索,浏览和检索。支持关键词检索,并使用用户相关反馈技术来改善检索结果。1 4 本文的组织结构本文共分六章。第一章是引言部分。介绍本课题的背景,国内外的研究热点和研究现状,一些经5第一章引言典的c b i r 系统,最后给出本文的组织结构。第二章介绍了图像特征的提取与表达,其中包括图像的颜色特征、纹理特征以及形状特征。第三章介绍了图像检索中的两类相似性度量技术:基于距离函数的相似性度量方法和非几何的相似性度量方法;同时也介绍了三种主要的相关反馈机制。第四章提出了相似度得分机制和正负相关图像线性组合方式的相关反馈机制。在此基础上实现了一个扩展性很强的图像检索系统。通过实验分析了不同相似度度量方法的优劣、不同特征组合对检索结果的影响、相关反馈机制对检索结果的影响。第五章介绍了高维索引技术的基本思想和结构,对插入、查找等主要算法做了详细介绍。实现了一个基于r 树索引机制的图像检索系统,在该系统中实现了可变最小包围矩形的索引结构,并通过实验分析了其与检索性能的关系。第六章是全文的总结部分,对本文的研究进行了总结,并对后续的研究做了进一步的展望。6第二章图像特征提取与表达第二章图像特征提取与表达图像特征提取的好坏,将直接影响到图像检索系统的性能,特征提取是基于内容的图像检索的基础。有效的特征应该意义直观,区分能力强,计算相对简单,具有平移、尺度、旋转不变性n e 1 。通常图像内容的特征可以分为三个层次:底层、中层和高层。底层特征不需要对图像的理解和有关领域的特殊知识,是任何图像都具有的特征,如颜色特征、纹理特征等:中层特征一般要经过预处理才能提取,如经过图像分割、边界检测后提取的目标形状特征;高层特征包含与应用领域有关的特殊信息,通常是人们对图像内容概念级的反映,如人脸图像检索、卫星遥感图片检索中提取的图像特征。图像特征的表示方法有三种:数值表示、关系表示和语义表示。如图像的颜色可以用r 、g 、b 值表示,图像中对象之间的位置关系就要用到关系表示,而语义表示方法则需要对物体进行识别和解释,要借助于人类的知识推理。采用的表示方式不同,查询时进行相似性比较的算法也不一样。目前对图像特征提取的研究主要处在前两个层次上,对高层语义特征的研究还有待于理论的完善和发展。2 1 颜色特征的提取与表达颜色是图像的一种重要视觉性质,最早在基于内容的图像检索中得到应用。颜色特征定义比较明确,抽取也相对容易,而且与其他的可视化特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,所以在图像检索中得到广泛的重视和研究。在使用颜色特征进行图像检索时涉及到若干问题。首先,需要选择合适的颜色空间来描述颜色特征;其次,要选用合适的颜色量化方法把颜色特征表达为向量的形式,并便于检索:最后,还要定义一种距离函数来衡量图像之间在颜色上的相似性。下面讨论颜色模型和几种颜色特征提取方法瞳叭。2 1 1 颜色模型介绍1 r g b 模型面向硬件设备的最常用颜色模型是r g b 模型,它是一种与人的视觉系统结构密切相连的模型。根据人眼结构,所有颜色都可看作是3 个基本颜色一一红、绿、蓝的不同组合。r g b 模型可以建立在笛卡尔坐标系里,其中三个轴分别为r ,g b ,见图2 1 。r g b7第二章图像特征提取与表达模型空间是个正方体,原点对应黑色,离原点最远的定点对应白色。在这个模型中,从黑到白的灰度值分布在从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色,可用从原点到该点的向量表示。r图2 1r g b 空间模型2 、c i v i y 模型利用3 基色光叠加可产生光的3 补色:蓝绿( c ,c y a n 即绿加蓝) ,品红( m ,m a g e n t a即红加蓝) ,黄( y ,y e l l o w 即红加绿) 。按一定比例混合3 基色光或将1 个补色光与相对的基色光混合就可以产生白色光。c m y 模型主要用于彩色打印,这3 种补色可分别通过从白光中减去3 种基色而得到,一种简单而近似的从r g b 到c m y 的转换关系为:r = l cg = 1 一m( 2 1 )b = l 一】r3 、h s i 模型面向彩色处理的最常用模型是h s i 模型,其中,h 表示色调,s 表示饱和度,i表示密度( 对应亮度或灰度) 。人区分颜色就常用3 种基本特征量:亮度、色调和饱和度。亮度与物体的反射率成正比,如无彩色则只有亮度1 个维量的变化。对彩色来说,颜色中掺入白色越多就越明亮,掺入黑色越多亮度就越小。色调是与混合光谱中主要光波长相联系。饱和度与一定色调的纯度有关,纯光谱色是完全饱和的,随着白光的加入饱和度逐渐减少。色调和饱和度合起来称为色度。h s i 模型有两个重要的特点。首先亮度分量与色度分量是分开的,1 分量与图像的彩色信息无关。其次是h 及s 分量与人感受彩色的方式紧密相连( 这里强调了颜8第二章图像特征提取与表达色的重要性,因为人对光的感知还与1 分量有关) 。这些特点使得h s i 模型非常适合基于人的视觉系统对彩色感知特性进行处理分析的图像算法。从r g b 空间到h s l 的换算关系如下:h = =气趾卜而埘n ( 足g ,功( 尺+ g + 曰)、7( 2 3 )1 = 俾+ g + s ) 3( 2 4 )由式( 2 2 ) 直接计算出的h 在 o ,3 6 0 之间,为使h 在 0 ,l 】之间,可再令h = h 3 6 0进行转换。另外当s = 0 时,对应无色,这时h 没有意义,此时定义h 为0 。另外当i = 0 或i = 1 时,讨论s 也没有意义。4 、h s v 模型h s v 模型和h s i 模型的坐标系统类似,但h s v 模型比h s i 模型更与人类对颜色的感知接近。它把彩色信号表示为三种属性:色调h ( h u e ) 、饱和度s ( s a t u r a t i o n ) 和亮度v ( v a l u e ) 来。从r g b 空间到h s v 空间转换的公式如下:h =坚坌丝兰竺一,bgarcco$;= = = 兰= = = = = = 兰= = 三兰= = = = = 兰= = = = s2 、i ( r - g ,) p 2 簧= - 岩黑b )( 2 5 )2 n - 眦s 堡垒些兰坠一,召 g峰。72 4 ( r g ) 2 + ( 尺一召) ( g b )am a x ( r ,g ,b ) 一m i n ( r ,g ,曰)、= m a x ( r ,g ,b )t,b ) , rm a x ( rg,= 一2 5 5( 2 6 )( 2 7 )式( 2 5 ) 、( 2 6 ) 、( 2 7 ) 中r ,g ,b 为r g b 空间中的三分量,m a x 函数表示取最大值,m i n 函数表示取最小值。当v = 0 时,h ,s 无意义。当s = 0 时,h 无意义。意思是如果亮度特别低( 比如在漆黑深夜) ,人眼是区分不出颜色的,可以说无论什么颜色的物体我们看起来都是黑色;而当s 过小,即任何颜色都特别淡,并且在亮度比较高时,人眼见到的物体也将全部变为白色。但是,在色调分量h 的计算式中,由于存在着反三角函数、平方和开平方这几种复杂的非线性运算,因此计算过程较为复杂,给实际应用中h 分量的使用带来了极大9弟一草图1 冢符让促驭与表达的不便。为了在一定程度上解决这个问题,并保留h 分量的特点,实际应用中通常使用下面的近似公式乜妇计算h 分量:肚竺翼型黑( 2 8 ),= - - - - - - - - - - - - - - - - - - - - - - - - - - 一i ,xlm a x ( r ,g ,曰) 一m i n ( r ,g ,b )、g f = 1 f 竺黑型黑( 2 9 )i= 一,v lm a x ( r ,g ,b ) 一m i n ( r ,g ,b )、肚竺笺璺黑( 2 1 0 )m a x ( r ,g ,b ) 一m i n ( r ,g ,曰)、贝i i h =( 5 + 8 3 ;fr = m a x ( r ,g ,b ) a n dg = m i n ( r ,g ,b )( 1 一a s ;fr = m a x ( r ,g ,b ) a n dg m i n ( r ,g ,曰)( 1 + r s ;fg = m a x ( r ,g ,b ) a n db = m i n ( r ,g ,b )( 3 8 3 ;fg = m a x ( r ,g ,曰) a n db m i n ( r ,g ,曰)( 2 1 1 )( 3 + g 3 ;fb = m a x ( r ,g ,b ) a n dr = m i n ( r ,g ,b )( 5 一r f ) ;e l s eh = 6 0 木日显而易见,按上面的近似转换公式计算h 分量的效率显然大大提高,而且也容易编码实现。2 1 2 颜色特征的表达利用颜色特征进行图像检索的关键之一是颜色特征的提取。图像的颜色特征可以是各种颜色的比例分布以及颜色的空间分布等,目前大部分基于颜色的检索系统都采用颜色比例分布来获取颜色特征,这就是颜色领域中的直方图法( c o l o rh i s t o g r a m ) 。它是一种非常流行的颜色特征,被许多现有的图像检索系统采用。颜色直方图具有明显的优点,也存在一定缺点。其优点在于:它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。计算颜色直方图时需要先将颜色空间划分成有限个小区域,每个区域关联于直方图中的一维,即颜色的量化。对于一幅给定的数字图像,我们先将其转化到我们选定的颜色空间,然后计算落在直方图每一维对应的空间区域中的像素的个数。为缩减直方图的维数可以只选择值最大的几维来表征整个直方图。因为值最大的几维往往代表1 0第二章图像特征提取与表达了这幅图大部分像素的颜色信息,所以,只要在这几维上两幅图比较相似,那么可以推断它们在整个直方图上都是比较相似的瞄1 。这样的处理并不会引起正确率上的损失。这样我们就得到了未经平滑和归一化处理的原始直方图。上面分析所得到的颜色直方图反映了图像中各种颜色在图像中所占的百分比。但同时它丢失了图像颜色的空间分布信息。两幅颜色空间分布完全不同的图像可以具有相同的直方图,这样就会造成检索的误差,因此检索还应该加进颜色的空间分布信息。下面将介绍几种最基本的表达方法。1 、统计直方图为利用图像特征描述图像,可借助特征的统计直方图。图像特征的统计直方图实际上是一个1 d 的离散函数,即有:日( 后) = 号k = o ,l ,三一l( 2 1 2 )v上式中k 代表图像的特征取值,l 是特征可取值的个数,n k 是图像中具有特征值为k 的像素的个数,n 是图像像素的总数。得到图像特征的统计直方图后,不同图像间的特征匹配可借助于计算直方图间的距离来进行。当图像中的特征并不能取遍所有可取值时,统计直方图会出现一些零值,使得匹配值不能正确反映两图间的颜色差别。为解决这个问题可利用累积直方图2 、累积直方图图像特征统计的累积直方图也是一个1 d 的离散函数,既有:七日( 后) = 号k = o ,l ,l - 1( 2 1 3 )= 0 v上式中各参数含义同前,累积直方图大大减少了原统计直方图中出现的零值,两种颜色在特征轴上的距离保持与它们之间的相似程度成正比。3 、颜色矩另一种非常简单而有效的颜色特征是由s t r i c k e r 和o r e n g o 所提出的颜色矩( c o l o rm o m e n t s ) 。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外,由于颜色分布信息主要集中在低价矩中,因此仅采用颜色的一阶矩( m e a n ) 、二阶矩( v a r i a n c e ) 和三阶矩( s k e w n e s s ) 就足以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达为:1n,= 寺弓( 2 1 4 )4 = ( 二1 善n ( 弓皑) 2 ) m( 2 1 5 )第二章图像特征提取与表达墨= 砖姜( 弓制) l ,3( 2 1 6 )其中只,是图像中第j 个象素的第i 个颜色分量。因此,图像的颜色矩一共只需要9 个分量( 3 个颜色分量,每个分量上3 个低次矩) ,与其他的颜色特征相比是非常简洁的。在实际应用中为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其他特征前起到过滤缩小范 ( n a r r o wd o w n ) 的作用。4 、颜色聚合向量针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,p a s s 他羽提出了图像的颜色聚合向量( c o l o rc o h e r e n c ev e c t o r ) 。它是颜色直方图的一种演变,其核心思想是将属于直方图每一个b i n 的象素分为两部分:如果该b i n 内的某些象素所占据的连续区域的面积大于给定的阈值,则该区域内的象素作为聚合象素,否则作为非聚合象素。假设口,与屏分别代表直方图的第i 个b i n 中聚合象素和非聚合象素的数量,图像的颜色聚合向量可以表达为 。而 就是该图像的颜色直方图。由于包含了图像分布的空间信息,颜色聚合向量相比颜色直方图可以达到更好的检索效果。2 2 纹理特征的提取与表达由于纹理特征对模式识别和计算机视觉等领域的重要意义,对纹理的分析研究在过去三十年中取得了重大成果。近年来,在图像检索中,纹理特征也发挥了很大的作用,取得了越来越多的研究成果。当前,通常比较粗略的可将纹理定义为:纹理是对图像的像素灰度级在空间上的分布模式的描述,反映物体的质地,如粗糙度、光滑性、颗粒度、随机性和规范性等扭4 | 。纹理特征就是从物体图像中计算出一个值,对物体灰度级变化的特征进行量化。通常,纹理与物体的位置、走向、尺寸、形状有关,但与平均灰度级,即亮度,是无关的。纹理的描述技术大体上可以分为三大类:统计法、结构法和频谱法心5 矧。统计方法是最早的纹理描述方法之一。它又分为空间域方法和变换域方法,包括自相关函数、纹理边缘、结构元素、狄度的空间共生概率( s p a t i a lg r a y - t o n ec o o c c u r r e n c ep r o b a b i l i t i e s ) 、狄度行程和自回归模型。统计方法将纹理描述为光滑、粗糙、粒状等特征。基于直方图的纹理度量是典型的统计方法。由于在狄度直方图中各个像素的灰度是独立进行处理的,不具有像素之间相对位置的信息而受到限制。因此,研究图像的两个象素组合中灰度配置的情况时,不仅应考虑强度分配,还应考虑具有相同强度值或近似强度值的象素位置,才能更好地表现纹理特征。1 2第二章图像特征提取与表达结构方法就是假定纹理模式由纹理基元的空间排列组成,使用模式基元和特定的排列规则来描述纹理。结构法研究的主要内容是基元及其空间关系。基元一般定义为具有某种属性而彼此相连的单元的集合,属性包括灰度、连同区域的形状、局部一致性等。空间关系包括基元的相邻性、在一定角度范围内的最近距离等等。根据基元间的空间联系,纹理可以分为弱纹理或强纹理。进一步细分,可以根据基元的空间共生频率来划分,也可以根据单位面积内的边缘数来区别。基元也可以定义为灰度行程。频谱方法的典型是对图像进行傅立叶变换,从傅立叶频谱成分的分布中来求得纹理特征。频谱分析技术是用区域自相关函数或傅立叶变换域的能量分布来检测纹理的周期,包括计算峰值处的面积、峰值处的相位、峰值与原点的距离平方、两个峰值间的相角差等手段。下面给出几个目前在图像检索中常用的经典纹理特征乜 。2 2 1 灰度共生矩阵在图像中任意取一点( x ,y ) 以及偏离它的另一点( x + a y + b ) ,形成一个点对,设该点对的灰度值为( i j ) ,即点( x ,y ) 的狄度为i ,点( x + a ,y + b ) 的灰度为j 。固定a 与b ,令点( x ,y )在整幅图像上移动,则会得到各种( i j ) 值。设灰度值的级数为l ,则i 与j 的组合共有r 种。在整幅图像中,统计出每一种( i j ) 值出现的次数,再将他们归一化为出现的概率弓,则称方阵【弓】砒为灰度联合概率矩阵,也称为灰度共生矩阵。灰度联合概率矩阵实际上就是两象素点的联合直方图。距离差分值( a ,b ) 取不同的数值组合,可以得到沿一定方向( 如0 。,4 5 。,9 0 。,1 3 5 。)相隔一定距离d = 4 a 2 + b 2 的像元之间灰度联合概率矩阵。a 和b 的取值要根据纹理周期分布的特征来选择,对于较细的纹理,选取( 1 ,0 ) ,( 0 ,1 ) ,( 1 ,1 ) ,( 一l ,1 ) 等这样小的差分值是有必要的。当a 与b 取值较小时,对应于变化缓慢的纹理图像( 粗纹理) ,其灰度联合概率矩阵对角线上的数值较大,倾向于作对角线分布;若纹理的变化较快( 细纹理) ,则对角线上的数值越小,而对角线两侧上的元素值增大,倾向于均匀分布。利用灰度共生矩阵可以得到一系列的纹理特征统计量,例如,能量、对比度、方差、逆差矩等。设灰度级为l ,典型的参数定义如下:1 、能量( 角二阶矩)1 l彳= 露( 2 1 7 )i = 1j = l2 、对比度( 反差)l以= l i - j l 弓( 2 1 8 )1 3第二章图像特征提取与表达3 、方差4 、熵5 、逆差矩2 2 2t a m u r a 纹理特征z = g 一) i = 1 ,= l工正= 一l o g :岛i = 1 = l六2 善l 缶l 而1助( 2 1 9 )( 2 2 0 )( 2 2 1 )基于人类对纹理的视觉感知的心理学的研究,t a m u r a 等人提出了纹理特征的表达。t a m u r a 纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度( c o a r s e n e s s ) 、对比度( c o n t r a s t ) 、方向度( d i r e c t i o n a l i t y ) 、线性度( 1 i n e a r i t y ) 、规整度( r e g u l a r i t y ) 和粗略度( r o u g h n e s s ) 。其中,前三个分量对于图像检索尤其重要。接下来我们着重讨论粗糙度、对比度和方向度这三种特征的定义和数学表达。1 、粗糙度从狭义观点来看,纹理就是粗糙度。当两种纹理模式只是基元尺寸不同时,具有较大基元尺寸的模式给人的感觉更粗糙。对具有不同结构的纹理模式来说,基元尺寸越大或者基元重复次数越少,则给人的感觉越粗糙。可以说,粗糙度是纹理最基本的特征,可以分一下几个步骤计算粗糙度。( 1 ) 计算图像中大小为2 2 。个象素的活动窗口中象素的平均强度值。x + 2 k 一i 2 i 一ia ,( x ,j ,) = g ( i ,j ) 2 2 ( 2 2 2 )l = x 一2 一j = y 一2 一其中,k = o ,1 ,5 ,而g ( i ,j ) 是位于( i ,j ) 的象素强度值。( 2 ) 对于每个象素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均强度差。邑 ( x ,j ,) = 1 4 ( x + 2 一,y ) - a k ( x 一2 k - i , j ,) le ,( 毛j ,) :i 4 ( x ,j ,+ 2 扣1 ) 一4 ( x ,y 一2 卜1 ) i2 2 3 其中对于每个像素,能使e 值达到最大( 无论方向) 的k 值用来设置最佳尺寸。1 4第二章图像特征提取与表达s b , , t y ) = 2 ( 2 2 4 )( 3 ) 最后,粗糙度可以通过计算整幅图像中的平均值来得到,表达式为k = 上m xn 妻i = l 壹j f f i | ( f ,_ ,)( 2 2 5 )2 、对比度对比度是通过对象素强度分布情况的统计得到的。确切的说,口4 = l u 4 8 4 来定义的,其中4 是四阶矩,艿2 为方差。对比度定义为:= 毒它是通过( 2 2 6 )该值给出了整个图像或区域中对比度的全局度量。3 、方向度t a m u r a 方法的核心是构建方向角局部边缘概率直方图,计算方向度的步骤如下:( 1 ) 首先计算每个象素处的梯度向量,该向量的模和方向定义为:f a g i = ( i i + i 矿i ) 2( 2 2 7 )9 = a r c t a n ( a y a ) + 万2( 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 放射师考试题及答案
- 防暑知识考试题及答案
- (正式版)DB15∕T 3672-2024 《设施蔬菜秸秆原位还田技术规程》
- (正式版)DB15∕T 3657-2024 《香菇干燥技术规程》
- 毒贩刑侦考试题及答案
- 项目管理进度报告模板项目风险与资源管理
- (正式版)DB15∕T 3281-2023 《骆驼绒纤维外观形态图谱》
- 知识产权保护宣言及承诺书(9篇)
- 临川护理三基考试题库及答案
- 商业合同审查与修订工作指引
- 《数据库系统概论》教案
- 小学学校“十五五”(2026-2030)发展规划
- 2025一建《建设工程项目管理》考前十页纸(完整版)
- 红楼梦第34回课件
- 摩托车整车采购合同范本
- 民事起诉状(人身保险合同纠纷)样式
- 9《犟龟》公开课一等奖创新教学设计
- 2025年乡村产业发展笔试模拟题库
- GB/T 43355-2023塑料和其他无孔材料表面抗病毒活性的测定
- 公共关系学授课教案
- 河北省城市集中式饮用水水源保护区划分
评论
0/150
提交评论