




已阅读5页,还剩113页未读, 继续免费阅读
(模式识别与智能系统专业论文)交互式图像检索中的相关反馈技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
交互式图象检索中的相关反馈技术 摘要 近些年来,基于内容图像检索逐渐成为一个活跃的研究领域。但是, 由于当前图像理解技术的局限以及人类视觉认知的主观性,使得依赖于 低层视觉特征的基于内容图像检索系统难以达到应用的要求。相关反馈 技术通过把人的参与引入到检索过程中来克服上述困难,并成为提高检 索性能的有效方法。论文对相关反馈的技术要点以及相关反馈算法的发 展现状作了深入、系统的讨论和综述,并研究了三种新的相关反馈技术: 结合语义分类信息的相关反馈技术,结合标记数据和未标记数据进行学 习的相关反馈算法,以及支持多级相关度量的相关反馈技术。论文取得 的创新性成果如下: 1 提出了一种通过相关反馈技术把基于内容图像检索和图像语义分 类相结合的方法。该方法根据图像与语义类的类属关系来构成语义特 征,与低层视觉特征一起用于图像检索,并在相关反馈方案中结合了两 个分别针对这两种特征的相关反馈算法。 2 提出了一种相关反馈的概率框架,它在利用标记样本的同时结合 了全体样本( 标记和未标记的样本) 的分布特点,从而有效地利用了未 标记数据来提高相关反馈算法的性能。 3 分析了在图像检索中使用多级相关度量的必要性,创新性地把顺 序回归问题的研究引入到图像检索领域,并从相关度量尺度、顺序回归 问题的特点及其求解思路、检索性能度量等方面对支持多级相关度量的 相关反馈作了详细的论述。 4 提出了用于顺序回归的级联线性模型( c l m ) ,并结合s v m 设计 了一种快速的顺序回归算法。该算法克服了经典支持向量顺序回归算法 速度慢的缺点,并能达到与其相当的检索精度。 5 设计了一种新颖易用的图形化相关度量工具,并结合我们提出的 相关反馈算法,开发了一个交互式图像检索原型系统一w i l l h u n t e r 。 关键词:图像检索、相关反馈、顺序回归、s v m 壁! ! :竺! ! ! ! ! ! ! 竺竺! 。! ! ! 些竺! 垄! ! 坐璺! ! 竺墅! ! ! 些璺型型 r e l e v a n c ef e e d b a c k t e c h n i q u e s f o r i n t e r a c t i v ei m a g er e t r i e v a l a u t h o r :h o n gw u s u p e r v i s o r :s o n g d em a a b s t r a c t i nr e c e n t y e a r s ,c o n t e n t b a s e di m a g er e t r i e v a l ( c b i r ) h a sb e c o m ea n a c t i v er e s e a r c ha r e a b u tt h ep e r f o r m a n c eo fc b i rs y s t e m sb a s e do ni o w 1 e v e lf e a t u r e si s p o o rd u et o t h el i m i t a t i o no fc u r r e n ti m a g eu n d e r s t a n d i n g t e c h n o l o g ya n dt h es n b j e c t i v i t yo fh u m a np e r c e p t i o n ,r e l e v a n c ef e e d b a c ki s a p r o m i s i n g t o o lt o i m p r o v er e t r i e v a lp e r f o r m a n c e ,i nw h i c hh u m a n i s i n v o l v e di nt h er e t r i e v a lp r o c e s s t h i sd i s s e r t a t i o nf o c u s c so nt h r e en o v e l r e l e v a n c ef e e d b a c kt e c h n i q u e s :i n c o r p o r a t i n gi m a g es e m a n t i cc l a s s i f i c a t i o n i n i m a g er e t r i e v a l ,u s i n g u n l a b e l e dd a t at ob o o s tr e l e v a n c ef e e d b a c k a l g o r i t h m ,a n dt e c h n i q u e sf o rr e l e v a n c ef e e d b a c kw i t hm u l t i l e v e lr e l e v a n c e m e a s u r e m e n t t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r ea sf o l l o w s : 1 af l e x i b l er e l e v a n c ef e e d b a c ks c h e m ei s p r o p o s e d t o i n c o r p o r a t e s e m a n t i cc l a s s i f i c a t i o ni ni m a g er e t r i e v a l s e m a n t i cf e a t u r eo fe a c hi m a g ei s d e r i v e df r o mi t sc l a s sm e m b e r s h i p ,a n dc o m b i n e dw i t hl o w l e v e lf e a t u r e si n i m a g er e t r i e v a l a n dr e s p e c t i v er e l e v a n c ef e e d b a c ka l g o r i t h m sf o rt h et w o k i n d so ff e a t u r e sa r ec o m b i n e dt oa c h i e v eab e t t e r p e r f o r m a n c e + 2 ap r o b a b i l i s t i cr e l e v a n c ef e e d b a c kf r a m e w o r ki s p r e s e n t e d ,i nw h i c h n o t o n l yt h el a b e l e dr e l e v a n ts a m p l e sa r eu s e d ,b u ta l s ot h ep r o b a b i l i s t i c d i s t r i b u t i o no fa l ls a m p l e si st a k e ni n t oa c c o u n t i nt h i sw a y , t h eu n l a b e l e d d a t ai su s e dt ob o o s tr e l e v a n c ef e e d b a c ka l g o r i t h m 3 t h en e c e s s i t yo fm u l t i l e v e lr e l e v a n c em e a s u r e m e n ti s a n a l y z e d ,a n d r e l e v a n c ef e e d b a c ki sc a s tt oa no r d i n a lr e g r e s s i o np r o b l e m ,s o m e k e yi s s u e s r e l a t e dt or c l e v a n c ef e e d b a c kw i t hm u l t i l e v e lr e l e v a n c em e a s u r e m e n ta r e 交互式图象检索中的相关反馈技术 d i s c u s s e d :r e l e v a n c es c a l e ,t h ec h a r a c t e r i s t i c so fo r d i n a lr e g r e s s i o n ,b a s i c i d e ao fi t ss o l u t i o n ,a n ds u i t a b l ep e r f o r m a n c em e a s u r e 4 i n s t e a do fl i n e a r u t i l i t ym o d e l ,c a s c a d e l i n e a rm o d e l ( c l m ) i s p r o p o s e df o ro r d i n a lr e g r e s s i o n ,a n daf a s ts v m b a s e dr e l e v a n c ef e e d b a c k a l g o r i t h mi sd e v e l o p e db a s e do nt h i sm o d e l t h en e wa l g o r i t h mi s n o to n l y m u c hf a s t e rt h a nt h ec l a s s i c a ls u p p o r tv e c t o rl e a r n i n ga l g o r i t h m ,b u ta l s oc a n a c h i e v eac o m p a r a b l er e t r i e v a lp e r f o r m a n c e 5 an e w e a s y - t o u s eg r a p h i c a lr e l e v a n c e m e a s u r i n g i n s t r u m e n ti s d e s i g n e d ,a n d u s e d t o g e t h e r w i t ht h es v m b a s e dr e l e v a n c ef e e d b a c k a l g o r i t h mi nac b i rp r o t o t y p es y s t e m - - w i l l h u n t e r k e y w o r d :i m a g er e t r i e v a i ,r e l e v a n c ef e e d b a c k ,o r d i n a lr e g r e s s i o n ,a n ds v m 一i l l 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我序 知,除了文r ”特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果 j 我同丁作的同志对本研究所做的任何贡献均已在论文c i t 作了明确地说明并表示了谢意。 签名日期:魈垡至! 星! 三 关于论文使用授权的说明 本人完全了解c 1 i 国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院i 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部分p 容,可以采刚影印、缩印或其他复制手段保存论文。 签名: ( 保密的论文在解密后应遵守此规定) 羡蟛 导帅签名曼丝笆: 日期:上勉牲 第一章绪论 1 1 课题背景及意义 第一章绪论 近十多年来,随着数字技术的迅速发展和普及应用,每天从政府机 构、军方、民间组织甚至个人都产生出大量的数据,其中有很大一部分 是图像和视频之类的多媒体数据。面对如此大量的数据,如何对它们进 行有效地组织、管理。并从中检索出用户需要的信息就成为一个非常重 要的问题。由于在多媒体中,图像是最基本最常用的媒体形式,并且对 图像检索的研究也是视频检索研究的基础,所以在本文中我们讨论对图 像的检索。 传统的图像检索方法是通过文字标注来进行的。它先对图像加上描 述性的文字标注,然后采用基于文本的检索技术进行检索。这种方法虽 然简单但存在着明显豹局照性。首先,由于人类感知的主观性和图像内 容的丰富性,对同一幅图像,不同人有不同的认识。这些使得手工标注 常常是不规范的、片面的,并带有很强的主观性,因此传统的图像检索 方法在很多情况下不能满足实用的要求。另外,对于大型图像数据库, 手工标注耗时、工作量大的问题也很突出。 正是在这样的背景下,基于内容的图像检索应运而生。基于内容图 像检索( c b i r ,c o n t e n t b a s e di m a g er e t r i e v a l ) 借助于对图像从低层到 高层进行处理、分析和理解的过程来获取其内容并根据内容进行检索。 目前,由于图像理解技术的局限,基于内容图像检索主要采用颜色、纹 理等低层视觉特征来描述图像内容。这些特征通过一些数学和统计方法 从图像自动提取,克服了传统方法主观性强、工作量大等弊端。基于内 容图像检索因此受到越来越多地关注,成为一个热门的研究邻域。 基于内容图像检索技术有着广阔的应用前景。可以运用在很多领域, 例如:图像搜索引擎、数字图书馆、航空航天、新闻媒体、教育、娱乐 等领域和行业;用于各种图像数据的管理,如新闻图像、罪犯数据、病 理图像资料、卫星照片、遥感图像、商标图像、工程设计图纸等。基于 交互式图像检索中的相关反馈技术 内容图像检索技术的研究意义不仅体现在广阔的应用前景和巨大的实用 价值。作为多学科交叉的研究方向,它涉及图像处理、图像理解、信息 检索、机器学习、数据库和心理学等诸多领域,为这些学科提供了新的 研究内容,为它们的相互协作和渗透提供了契机。应用的巨大驱动作用 必将推动该方向以及相关学科更快的发展。我们相信随着技术的不断进 步和成熟,基于内容的图像检索技术将会大有用武之地。 我所在的研究小组承担了国家9 7 3 课题“图像、语音、自然语言理 解与知识挖掘”项目的三级课题“图像理解与图像库内容检索”,致力于 研究基于内容图像检索方面的理论和方法,开发各种算法和原型系统。 1 。2 研究现状 在过去的十多年里,基于内容图像数据检索一直是一个比较活跃的 研究方向。政府研究机构、工业界和大学都对此进行了大量的投入。国 际标准化组织( i s o i e c ) 还设立了一个新的工作组,m p e g 7 ,来定义 一个标准的媒体内容描述接口。每年都有许多综合性国际会议涉及该研 究方向,如a c mm u l t i m e d i a 、c v p r 、i c m e 、i c p r 、i c i p 、i c a s s p 等 等,还有一些专门性会议如i n t e r n a t i o n a lc o n f e r e n c eo ni m a g ea n dv i d e o r e t r i e v a l ,s p i e 的s t o r a g ea n dr e t r i e v a lf o ri m a g e a n dv i d e od a t a b a s e s 等。 许多重要的国际刊物如,i e e et r a n s o np a m i ,i e e et r a n s o ni m a g e p r o c e s s i n g ,p a t t e r nr e c o g n i t i o n ,i m a g ea n dv i s i o nc o m p u t i n g 等都为此出 过专刊【1 ,2 , 3 ,4 ,5 j ,以及这方面的综述 6 ,7 ,8 ,9 】。另外,也涌现出许多基于 内容的图像检索系统。可以看出,虽然基于内容图像检索技术还远未成 熟,但该方向的研究展现着勃勃生机。正如恩格斯的名言,社会一旦有 技术上的需求,则这种需求就会比十所大学更能把科学推向前进。 回顾该领域这十多年的研究工作,可以把基于内容图像检索的主要 研究内容归纳出如下。 1 1 特征提取 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义 上讲,图像的特征包括基于文本的特征( 如关键字、注释等) 和视觉特 征( 如色彩、纹理、形状等) 两类。由于基于文本的图像特征提取在数 第一章绪论 据库系统和信息检索等领域中已有深入的研究,本文中我们主要考虑图 像的视觉特征。而视觉特征还有通用和专用之分,通用的特征主要包括 颜色、纹理及形状等:专用的特征与具体的应用有关,例如用于人脸和 指纹识别的特征。本文中我们只涉及通用的视觉特征。对于每一种特征 来说,还存在着多种的表示方式,如颜色特征表示有颜色直方图和颜色 距等。对特征的初期研究主要集中在全局特征,但它们不能很好地刻画 图像的局部信息。之后有不少研究者致力于结合这些特征和空间信息来 设计新特征,如颜色连贯向量、颜色相关图等等:进一步的方法还有, 把图像分解为子图或对图像进行分割,再对各部分提取特征。我们将在 第二章对低层视觉特征做些介绍。 2 ) 高维特征索引 目前多数用于研究的基于内容图像检索系统都只处理几百到上万数 量级的图像库,因此把查询图像的特征与图像库中的图像特征依次进行 比较还是可行的。但当图像库比较大后,检索速度就会成为瓶颈。而由 于采用的低层特征通常都有上百维,传统的索引方式如h a s h 表、b 树 都不再适用,因此就需要高效的高维索引技术。目前研究者们提出了许 多高维索引方法,比较有代表性的有:k dt r e e 、r t r e e 、s s t r e e 、t v - t r e e 等等。另外在模式识别中应用的聚类技术和神经网络技术也可以作为有 效的索引技术。在本文中,我们将不涉及这方面的内容。 3 ) 图像检索中的人机交互 图像检索的初期研究工作致力于设计出全自动的检索系统。但当前 图像理解技术和计算机视觉技术的发展水平,极大地制约了这些全自动 检索系统的性能。于是更多的工作开始转入到设计交互式的系统,把人 的参与引入到检索系统的各个环节。在特征提取的环节,q b i c 研究组 1 0 采用了交互式区域分割技术。在检索的环节,一些工作 “,1 2 ,1 3 引入了 相关反馈技术,把检索模式从一次进行( o n e s h o ts e a r c h ) 变成交互式的 多次进行。相关反馈算法根据用户反馈进行学习以期更好地把握用户的 需求,提高系统的检索性能。在用户界面的设计上,一些工作致力于图 像库或检索结果的可视化。文献 1 4 ,l5 ,1 6 中的工作把检索结果图像投影 到2 维或3 维空间,并使它们问的位置和距离尽量反映它们在特征空间 交互式图像检索中的相关反馈技术 中的位置关系。目前已有的研究表明相关反馈技术能显著的提高检索性 能,因此相关反馈方法的研究正吸引着越来越多的注意。我们的研究工 作也主要集中在相关反馈方法的研究以及相应的用户界面设计方面。我 们将在第三章对一些有代表性的相关反馈算法做了一个回顾。 4 ) 低层特征到语义概念的映射 由于存在低层特征与语义概念的间隔,同时用户倾向于使用语义概 念进行图像检索,因此在基于低层特征的图像检索中结合语义信息是很 有益的。一些工作通过监督学习的方法把图像分类到一些简单的语义概 念。在 1 7 】中,把“度假”图像按室内室外的分类; 18 ,1 9 进一步把室 外图像分为城市或风景;有的工作( 2 0 】对图像按纹理非纹理、图画照片 等分类。另外一些方法【2 1 把低层特征和关键字结合。它们主要用于英 特网上的图像检索,从网页上环绕图像的文字提取关键字,作为对图像 的描述,然后以一定的策略把基于关键字的检索和基于低层特征的检索 相结合。 5 ) 图像检索系统 在过去的十几年里,人们开发出了许多图像检索系统,既有商业上 的、也有用于学术研究的、还有因特网上图像检索引擎。我们在这里列 举一些有代表性的系统。代表性的商业系统有:i b m 的q b i c 2 2 】、v i r a g e 公司的v i ri m a g ee n g i n e 2 3 】、e x c a l i b u r 的v i s u a lr e t r i e v a l w a r e 等。 些学术研究的系统有:m i t 的p h o t o b o o k 2 4 和f o u r e y e s 2 5 】、c o l u m b i a 大学的v i s u a l s e e k 2 6 、u i u c 的m a r s 12 】、i n r i a 的s u r f i m a g e 2 7 】、 u c s b 的n e t r a 2 8 以及u cb e r k e l e y 的b l o b w o r l d 2 9 等等。因特网上 的图像搜索引擎有a l t a v i s t a 、l y c o s ,还有越来越受欢迎的g o o g l e ( 见 h t t p :w w w g o o g l e c o r n ) ,y a l l o o 也采用了g o o g l e 的图像检索技术a 目前, 总的来说商业图像检索系统还不太成功;而针对不同研究目的的研究型 系统层出不穷;一些图像搜索引擎已有不错的性能,但主要是按文字检 索。 除了以上研究内容外,一个公认的评价标准和测试数据集对于该领 域的研究也非常重要,好的准则把技术的发展引入正确的方向,不好的 准则则可能起到谡导的作用。在图像检索领域,目前还不存在令人满意 第一章绪论 的评价标准和测试数据集。一个主要的原因就是对图像认知的主观性。 由于这种主观性,所以就很难定义一个客观的评价标准。 1 3 研究目标和主要贡献 本文的工作主要是针对一般性的图像,探索和研究交互式图像检索 方面的一些问题和难点,其中主要是相关反馈算法的研究。工作主要从 以下几个方面进行:尝试和探索在相关反馈中结合语义分类信息的方 法;探索可能的途径来应对相关反馈算法所面临的标记样本少这一困 难:研究与采用多级相关度量的相关反馈有关的问题,包括相关度量尺 度、相关反馈算法以及检索性能度量等;同时设计和实现一个图像检索 原型系统来验证多级相关度量的使用以及我们的算法,并使它成为新特 征、新算法的实验平台。本文的贡献可以归纳为以下几个方面: 1 论述了影响相关反馈算法设计的各种因素,并对近年来有代表性 的相关反馈算法进行了分类和综述。 2 提出了一种通过相关反馈技术把基于内容图像检索和图像语义分 类相结合的方法。该方法根据图像与语义类的类属关系来构成语义特 征与低层视觉特征一起用于图像检索,并在相关反馈方案中结合了两 个分别针对这两种特征的相关反馈算法。 3 提出了一种相关反馈的概率框架,它在利用标记样本的同时结合 了全体样本( 标记和未标记的样本) 的分布特点,从而有效地利用了未 标记数据来提高相关反馈算法的性能。 4 分析了在图像检索中使用多级相关度量的必要性创新性地把对 顺序回归问题的研究引入到图像检索领域,并从相关度量尺度、顺序回 归问题的特点及其求解思路、检索性能度量等方面对支持多级相关度量 的相关反馈作了详细的论述。 5 提出了用于顺序回归的级联线性模型( c l m ) ,并结合s v m 设计 了一种快速的顺序回归算法。该算法克服了经典支持向量顺序回归算法 速度慢的缺点,并能达到与其相当的检索精度。 6 设计了一种新颖易用的图形化相关度量工具,并结合我们提出的 相关反馈算法,开发了一个交互式图像检索原型系统一w i l l h u n t e r 。 交互式图像检索中的相关反馈技术 1 4 论文的组织 论文各章内容安排如下: 第二章,简要介绍了一些有代表性的低层视觉特征,相似性度量方 法,以及常用的检索性能度量。 第三章,、论述了相关反馈问题的特点、面临的困难以及影响算法设 计的其它因素,并对近年来的各种相关反馈算法进行了分类和综述。 第四章,提出了一种通过相关反馈技术把基于内容的图像检索和图 像的语义分类相结合方法。 第五章,提出了一种相关反馈的概率框架,在利用标记样本的同时 结合了全体样本的分布特点来提高检索性能。 从第六章到第八章的内容涉及支持多级相关度量的相关反馈。 第六章,分析了在图像检索中使用多级相关度量的必要性,提出把 支持多级用户相关判断的相关反馈看作一个顺序回归问题,并介绍了顺 序回归问题的特点及其求解思路,以及适应这种情况的检索性能度量。 第七章,先介绍了h e r b r i c h 提出的基于s v m 的顺序回归算法。鉴于 该算法速度慢的缺点,提出了用于顺序回归的级联线性模型,并基于该 模型提出了一种基于s v m 的快速相关反馈算法。 第八章,介绍支持多级相关度量的交互式图像检索原型系统一 w i l l h u n t e r 。并重点介绍其图形化的相关度量工具。 第九章,总结全文工作,并展望进一步的研究方向。 6 一 第二章基于内容图像检索简介 2 1 引言 第二章基于内容图像检索简介 基于内容图像检索的基本流程和主要功能模块可以概括如下,参见 图2 1 。在进行检索前,首先要提取图像的特征并存贮在图像库中,这 个过程可以离线地( o f f - l i n e ) 自动完成。图像的特征可以是关键字、标 注或视觉特征,在目前的基于内容图像检索系统中通常采用低层视觉特 征。为了提高对图像库中图像特征的读取速度,常常还需要建立高维索 引。在检索的时候,由用户根据自己的信息需求提出查询( q u e r y ) ,查 询可以是例子( e x a m p l e ) 图像或草图( s k e t c h ) 等形式。检索的中心问 题就是从图像库中找出与查询相关( r e l e v a n t ) 的图像,更常见的是把图 像按与查询的相关( r e l e v a n c e ) 程度进行排列,这通常依赖于一个排列 算法( r a n k i n ga l g o r i t h m ) 。排列算法为图像库中的图像计算出一个反映 与查询相关程度的数值,然后系统把图像按这些赋值从高到底的顺序排 序并把前k 幅返回给用户。在图像检索中通常采用的排列算法是计算图 像库中图像和查询图像的特征间的相似度( 或距离) 。在基于内容图像 检索中,低层视觉特征的表示和提取以及特征问的相似度度量是最基本 的环节。在本章中,我们将介绍一些常用的低层视觉特征,然后介绍几 种相似性度量方法,最后给出几种常用的检索性能度量。 o n ,l i n e o f f - l i n e 图2 1 基于内容图像检索的基本流程 r a n k e d i m a g e s 交互式图像检索中的相关反馈技术 2 。2 低层视觉特征 低层视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前 者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要 包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知 识( 或假设) 的基础上,与具体的应用紧密相关,例如人的面部特征或 指纹特征等。在本文中我们只考虑通用的视觉特征。 2 2 1 颜色特征 颜色是当前图像检索中最常用的视觉特征 3 0 。与其他的视觉特征相 比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有 较高的鲁棒性。 2 2 。1 1颜色空间 人类感知的颜色由红、绿、蓝组合而成,红、绿、蓝三色构成了 个颜色空间。通过把亮度信息和色度信息分开可以构造其它的颜色空 间。目前已提出的颜色空间有r g b 、y i q 、y u v 、l a b 、l u v 和h s v 等, 但没有一种颜色空间在所有应用中都占优势。r g b 是最广泛使用的一种 颜色空间,因为大部分的数字图像都是用这种颜色空问表达的。在所有 颜色空间中只有h s v 空间及其变种是视觉感知一致的,h s v 颜色空间 也是颜色直方图最常采用的颜色空间。它的三个分量分别代表色彩 ( h u e ) 、饱和度( s a t u r a t i o n ) 和值( v a l u e ) 。r g b 空间与h s v 空间之 间的转化公式如下: v2 m a x ( r g ,b ) 、 s = 【v m i n ( r , g ,b ) v r5 + b i fr = m a x ( r , g ,b ) a n d g = m i n ( r , g ,b ) i i 1 一g i fr = m a x ( r , g ,b ) a n dg c m i n ( g ,6 ) l ,:1 + r i f 譬2m a x ( r , g , b ) a n d b2 m i n ( g 6 ) i l3 一b i f g = m a x ( r , g ,b ) a n db :m i n ( r g ,b ) j3 + g i f 6 = m a x ( r g , b ) a n d ,= m i n ( r , g ,6 ) l l 5 一,o t h e r w i s el r = 【v r v - - m i n ( r , g ,6 ) 】i g = v - - g v - - m i n ( c g ,6 ) i b = 【v h i i v - - m i n ( g ,6 ) 】 ( 2 1 ) 第二章基于内容图像检索简介 另外,y u v 和y i q 彩色空间主要用于视频传输和编码,其中y 为亮度 分量,u v 或i q 为色差分量。l a b 和l u v 是均匀色度空间,其中色差可 以由欧氏空间距离度量。对颜色感知和颜色空间一些有代表性的研究可 以在文献 3 1 3 2 3 3 】中找到。 2 2 1 2 几种常用颜色特征 常用的颜色特征有一阶直方图方法【3 4 】、颜色矩【3 5 】、颜色连接向量 3 6 、颜色相关图 3 7 等。 由于计算速度上的优势以及对图像旋转和尺度变化的不变性,颜色 直方图是最常用的颜色特征。计算颜色直方图需要将颜色空间划分成若 干个小的颜色区间,每个小区间成为直方图的一个b i n 。这个过程称为 颜色量化( c o l o rq u a n t i z a t i o n ) 。然后,通过计算颜色落在每个小区间内 的像素数量可以得到颜色直方图。颜色量化有许多方法,例如向量量化、 聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量 ( 维度) 均匀地进行划分。 s t r i c k e r 和o r e n g o 3 5 提出采用颜色矩来描述图像中的颜色分布特 征。这种方法的数学依据是任何颜色分布均可用它的矩来刻划,并且大 部分信息集中在低阶矩上。因此通常使用的是一幅图像在每一个颜色分 量的前三阶中心矩:一阶矩( 均值) ,二阶中心矩( 方差) ,三阶中心 矩( 斜度) ,它们数学上的表达为: 1n u i = 专弓 ( 2 2 ) ,4 l 1n l q = ( 寺( 岛一u 1 ) 2 ) 2 ( 2 3 ) 1 j = 1 n i = 咕1 j ( 弓一u i 烀 ( 2 4 ) 1 ,= t 其中b 为第,个象素的第i 个颜色分量,为象素的总数。 为了体现像素颜色的空间分布信息,人们提出了多种方法。一些是 对颜色直方图提出了一些改进的方案,如颜色连接向量( c o l o r c o h e r e n c e v e c t o r ) 3 6 】。它是颜色直方图的一种演变其核心思想是将属于直方图 交互式图像检索中的相关反馈技术 每一个b i n 的像素进一步分为两部分:如果该b i n 内的某些像素所占据 的连续区域的面积大于给定的阈值,则该区域内的像素作为连接像素 ( c o h e r e n t ) ,否则作为非连接像素( i n c o h e r e n t ) 。由于包含了颜色分布的 空间信息,颜色连接向量相比颜色直方图可以达到更好的检索效果。在 3 7 】 中提出的颜色相关图( c o l o rc o r r e l o g r a m s ) 特征,该特征不但刻画了某 一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之间的空 间相关性。实验表明,颜色相关图比颜色直方图和颜色连接向量具有更 高的检索效率,特别是查询空间关系一致的图像。但该特征的计算量和 所占空间都很大。 为了有利于在大型图像库中的检索,s m i t h 和c h a n g 3 8 采用颜色集 的方法( c o l o rs e t s ) 来近似直方图。首先将r g b 颜色空间转换为与感知 一致的h s v 颜色空间,并将颜色空间量化成若干个b i n 。然后,他们用 色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某 个颜色分量来索引,从而将图像表达一个二值的颜色索引集。在图像匹 配中,比较不同图像颜色集之间的距离和色彩区域的空间关系。因为颜 色集表达为二值的特征向量,可以构造二分查找树来加快检索速度,这 对于大规模的图像集合十分有利。 在对颜色特征进行相似性度量时,通常采用直方图减、工,距离、上: 距离、二次距离或它们的变种。由于对颜色特征的研究工作很多,我们 在这里只是做一个简要的介绍,对这方面工作进一步的了解可以参考文 献 3 9 。 2 2 2 纹理特征 纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉 特征。它广泛地存在于现实世界中,是所有同类物体表面共有的内在特 性,例如云彩、树木、砖、织物等都有各自的纹理特征。纹理特征包含 了物体表面结构组织排列的重要信息以及它们与周围环境的联系。因 此,纹理特征在基于内容的图像检索中也得到了广泛的应用。选择符合 人的感知特性的纹理描述,是纹理检索方法研究的核心内容。人们提出 了多种纹理描述的方法用于内容检索,比较有代表性的有:基于共生矩 第二章基于内容图像检索简介 阵的方法 4 0 、t a m u r a 纹理特征【4 1 】、基于小波变换的纹理特征 4 2 】、基 于g a b o r 变换的纹理特征【4 3 和基于m a r k o v 随机场的纹理特征【4 4 等 等。在本节我们主要介绍t a m u r a 纹理特征和基于小波变换的纹理特征。 2 2 2 1t a m u r a 纹理特征 t a m u r a 等人【4 1 】提出了一组较好地符合人类视觉感知的纹理特征, 包括:粗糙度( c o a r s e n e s s ) 、对比度( c o n t r a s t ) 、方向度( d i r e c t i o n a l i t y ) 、 线性度( 1 i n e l i k e n e s s ) 、规整度( r e g u l a r i t y ) 和粗略度( r o u g h n e s s ) 。其 中前三个特征尤为重要,这里我们简要介绍它们的定义和数学表达。 粗糙度用来度量图像的粒度。对于两个结构相同只有尺度差别的纹 理,尺度大的纹理更粗糙;对于不同结构的纹理,纹理基元越大或者纹 理基元重复次数越少,纹理就越粗糙。粗糙度的计算可以按以下几个步 骤进行:首先,计算图像中大小为2 。x2 。个像素的活动窗口中像素的平 均灰度值, “车1 ,。1p ( f ,力 善,量等丛22 一一。o 卜一1 ( 2 5 ) 其中k = 0 ,l ,5 ,而p ( f t ,) 是位于( f ,j ) 的像素灰度值。然后,对于每 个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平均灰 度的差: e k ( i ,) = m a x 忆( f 一2 k - i ) 一a 。0 + 2 - l , j i ,k 0 ,j 一2 “- - a k ( f ,+ 2 “】) ( 2 6 ) 其中对于每个像素,能使e 值达到最大的( f ) 值用来设置最佳尺寸 ,( f ,) = 2 州,最后,粗糙度可以通过计算整幅图像( w h ) 上,的 平均值来得到, c n 。去善s b e s t ( f ) ( 2 - 6 ) 对比度是通过对像素灰度分布情况的统计得到的。具体的计算为, 一 盯 ,c ”2 河( 2 7 ) 交互式图像检索中的相关反馈技术 其中a 4 = u 4 t r 4 ,u 4 是图像灰度直方图分布的四阶中心矩,o - 2 是方差。 该值给出了接个图像或区域中对比度的全局度量。 方向性描述纹理是如何沿某些方向散布或集中的。方向度的计算需 要首先计算每个像素处的梯度向量,设梯度向量的模为i a g l ,方向为0 。 当所有像素的梯度向量都被计算出来后,一个直方图日。被构造以表达0 值。该直方图首先对目的值域范围进行离散化,然后统计了每个b i n 中 相应的l a g i 大于给定闽值的像素数量。这个直方图对于具有明显方向性 的图像会表现出峰值,对于无明显方向的图像则表现得比较平坦。最后, 图像总体的方向性可以通过计算直方图中峰值的尖锐程度获得,表示如 下: :1 一,兰( 妒一九) 2 h 。( p e w 9 ( 2 8 ) 其中的p 代表直方图中的峰值,n 。为直方图中峰值的数目。对于某个峰 值p ,w e 代表该峰值所包含的所有的b i n ,而如是具有最高值的b i n , r 是归一化因子。 由于t a m u r a 纹理特征全都对应视觉上的特定意义。因此在图像检索 中得到广泛的应用。如在q b i c 2 2 和m a r s 4 5 等系统中都采用了t a m u r a 纹理特征。 2 2 2 2 基于小波的纹理特征 小波变换( w a v e l e tt r a n s f o r m ) 也是一种常用的纹理分析和分类方法。 小波变换指的是将信号分解为一系列的基本函数矿,。b ) ,这些基本函数 都是通过对母函数y 工) 的变形得到,如下所示: y 。g ) = 2 - m 2 妒( 2 一x h )( 2 9 ) 其中m 和n 都是整数。这样信号f c x ) 可表示为 ,o ) = c ,。妒。b ) f 2 1 0 1 2 一d 小波变换的计算需要递进的滤波和子采样,在每一层次,2 一d 信号被分解成4 个子带:l l 、l h 、h l 和h h ( l 表示低频,h 表示高 频) 。有两种类型的小波变换可以用于纹理分析,金字塔形小波变换 一1 2 第二章基于内容图像检索简介 ( p y r a m i d s t r u c t u r e d w a v e l e t t r a n s f o r m ,p w t ) 和树结构小波变换( t r e e s t r u c t u r e dw a v e l e tt r a n s f o r m ,t w t ) 【4 2 】,树结构小波变换也称为小波 包变换。下图给出了两种结构对小波变换域分解的示意图。图( a ) 是一级 小波分解的示意图:图( b ) 是三级金字塔结构分解的情况;图( c ) 是三级树 结构分解的情况。p w t 递归地分解l l 频带,而t w t 还递归地分解其 它频带,如l h 、h l 。h h 频带一般认为包含较多的噪声信息,故不作 进一步分解。 l lh l l hh 刊 i llll 刖 ll i i ( a )( b )( c ) 图2 2 图像的小波分解和三层p w t 、y w y 分解 基于小波变换的纹理特征可通过计算每个分解层上各个子带能量分 布的均值和标准差得到。以3 层小波分解为例,经过p w t 变换后,可 计算1 0 个子带系数的标准方差得到长度为1 0 的特征矢量【1 2 ,或者在 每一层分解中,对得到的4 个子带都计算其均值和方差。这样得到一个 包含3 * 4 * 2 = 2 4 维分量的特征向量。对于t w t ,如果固定地对l l ,l h 和h l 三个频带层次分解的话,则得到一个包含5 2 2 = 1 0 4 维分量的特征 向量。 2 2 3 形状特征 物体和区域的形状是图像表达和图像检索中的另一重要特征。由于 形状常与目标联系在一起,有一定的语义含义,所以可以把它看作比颜 色和纹理更高层一些的特征。同时,对形状的表达也比颜色和纹理的表 达要复杂得多。形状的表达必须以对图像中物体或区域的分割为基础, 但由于当前的技术无法达到准确、鲁棒的自动图像分割,图像检索中的 形状特征只能用于某些特殊应用,如商标图像;或辅助以半自动的图像 交互式图像检索中的相关反馈技术 分割,如在q b i c 2 2 】、b l o b w o r l d 2 9 和n e t r a 2 8 等一些系统中,采用 人机结合的方式提取目标轮廓。另外,从不同视角获得的图像中目标形 状可能有很大差别,为了准确地进行形状匹配,需要解决形状特征的平 移、尺度、旋转变换不变性的问题。对这方面进一步的了解可以参考文 献 4 6 。 对形状的描述方法很多,在图像检索中通常采用特征方法,就是用 一组特征来表示。这样目标形状就对应于形状特征空间中的一个向量。 形状的特征表达又可分为两类:一种是轮廓特征( 外部参数法) ,一种 是区域特征( 内部参数法) 。前者只用到物体的外边界,而后者则用到 整个形状区域( 包括区域内的象素) 的信息。在本节我们介绍这两类的 几种形状特征。 2 2 3 1傅立叶子描述子 傅立叶描述子是一种常见的形状描述方法,其基本思想是用物体边 界的傅立叶变换作为其形状描述。假设一个二维物体的轮廓是由一系列 坐标为( ( z ( n ) ,y ( n ) ) 的像素组成,其中0 r l n - 1 ,而是轮廓上像素的 总数。把这些点表示成复数地形式,再进行离散傅立叶变换得: z ( 七)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国宠物香粒行业投资前景及策略咨询报告
- 2025至2030年中国外牙直通接头行业投资前景及策略咨询报告
- 2025至2030年中国圣诞节礼品行业投资前景及策略咨询报告
- 2025至2030年中国卷帘门窗电机行业投资前景及策略咨询报告
- 2025至2030年中国全自动充气熬糖机行业投资前景及策略咨询报告
- 2025至2030年中国充电摩托车高速轨道行业投资前景及策略咨询报告
- 2025至2030年中国丙二酰胺行业投资前景及策略咨询报告
- 阅览室安全管理制度
- 防尘工现场管理制度
- 集团供应链管理制度
- 豆制品厂退货管理制度
- DB21-T 4127-2025 石油化工产品检测分样技术规范
- 过单协议合同
- 行政事业单位内部控制工作中存在的问题与遇到的困难
- 体检中心质量控制指南
- DB13T 5927-2024地热资源开发监测技术规范
- 人工智能在医疗器械中的应用-全面剖析
- 卫生法律制度与监督学题库
- 超星尔雅学习通《数学大观(北京航空航天大学)》2025章节测试附答案
- 护理人员心理支持服务流程
- 智慧农旅综合体项目可行性研究报告(参考范文)
评论
0/150
提交评论