（信号与信息处理专业论文）应用于图像检索的用户兴趣模型的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：93 大小：5.34MB 积分：0 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要近年来，随着多媒体技术以及因特网的飞速发展，图像的数量爆炸式增长，使人们陷入了海量数据的困境当中，为了得到更准确的符合个人实际需求的检索结果，个性化图像检索成为研究热点。个性化的实质是针对不同的用户采用不同的服务策略，提供不同的服务内容。个性化图像检索则是根据用户对检索结果的反馈主动地学习和记录用户的兴趣，推测用户的兴趣需求。获取用户的兴趣所面临的巨大难题是视觉低层特征和高层语义之间存在语义鸿沟。针对个性化图像检索的语义鸿沟问题，本文提出了一种新的用户兴趣模型的构建方法，并将所构建的用户兴趣模型应用于图像检索。本文的主要工作包括以下几个方面： ( 1 ) 用户短期兴趣的获取。通过相关反馈算法，得到用户短期兴趣中的视觉特征矢量，继而由视觉特征矢量映射得到短期兴趣中的语义特征矢量。 ( 2 ) 用户长期兴趣的获取。将用户的短期兴趣经推理机推理后，得到用户的长期兴趣： ( 3 ) 构建基于用户长期兴趣和用户短期兴趣的用户兴趣模型，并将其应用于图像检索。实验结果表明，本文所构建的用户兴趣模型能够较为有效的记录用户的兴趣，并随着用户兴趣的变化而长期跟踪、自动更新。此外，经由本文所构建用户兴趣模型过滤的图像检索结果符合用户的个性化要求，相比已有方法在查准率和查全率上取得了明显的改善。关键词个性化图像检索；用户兴趣模型；推理机；相关反馈北京_ t a k 火学t 学硕十学位论文 a b s t r a c t t h ea d v e n ti nt h em u l t i m e d i at e c h n o l o g i e sa n dt h ei n t e m e tr e s u l ti nt h e s i g n i f i c a n te x p l o s i o no ft h ea m o u n to fi m a g e s ，w h i c hm a k e si td i f f i c u l tf o ru s e r st o s e a r c ht h ei n f o r m a t i o no fi n t e r e s t i no r d e rt op r o v i d et h ep e r s o n a l i z e ds e r v i c et o a c h i e v em o r ea c c u r a t es e a r c hr e s u l t s ，p e r s o n a l i z e di m a g er e t r i e v a lb e c o m e sah o t f o c u sr e s e a r c ht o p i ci nt h ed o m a i no fi m a g er e t r i e v a l p e r s o n a l i z a t i o na i m sa tp r o v i d i n gs p e c i a ls e r v i c ef o rap a r t i c u l a ru s e r b a s e do n u s e r - s y s t e mi n t e r a c t i o n , p e r s o n a l i z e di m a g er e t r i e v a ls y s t e mi s a b l et or e c o r da n d l e a mu s e ri n t e r e s t ss oa st op r e d i c tt h eu s e rd e m a n d s o n eo ft h em a j o rc h a l l e n g e st o c o l l e c tu s e ri n t e r e s t si st h es e m a n t i cg a pb e t w e e nl o w l e v e lv i s u a lf e a t u r e sa n d m g h l e v e ls e m a n t i c s an o v e la p p r o a c hf o rc o n s t r u c t i n gu s e rm o d e li np e r s o n a l i z e di m a g er e t r i e v a li s p r o p o s e dt om i n i m i z et h es e m a n t i cg a pi nt h et h e s i s t h em a i nc o n t r i b u t i o n so ft h e t h e s i sa r el i s t e da sf o l l o w s ： ( 1 )c o l l e c t i o no fs h o r t t e r mi n t e r e s t s s e m a n t i cf e a t u r ev e c t o r si ns h o r t t e r m i n t e r e s t sa r ec o n s t r u c t e db ym e a n so fb u i l d i n gt h ec o r r e l a t i o nb e t w e e ni m a g e l o w - l e v e lv i s u a lf e a t u r e sa n dh i 曲一l e v e ls e m a n t i c so nt h eb a s i so fs v ma f t e r t h ev i s u a lf e a t u r ev e c t o r si nt h es h o r t t e r mi n t e r e s tw i t hr e l e v a n c ef e e d b a c ka r e c o l l e c t e d ( 2 ) c o l l e c t i o no fl o n g t e r mi n t e r e s t s t h el o n g t e r mi n t e r e s tv e c t o r sa r ed e d u c e d b yi n f e r e n c ee n g i n eu s i n gt h ec o l l e c t e ds h o r t t e r mi n t e r e s t s ( 3 ) c o n s t r u c t i o no fu s e rm o d e li n p e r s o n a l i z e di m a g er e t r i e v a l ，w h i c h i s d e v e l o p e do nt h eb a s i so f s h o r t - t e mi n t e r e s t sa n dl o n g t e r mi n t e r e s t s a n dt h e n i ti sa p p l i e df o rt h ei m a g er e t r i e v a l e x p e r i m e n t a lr e s u l t ss h o wt h a tu s e rm o d e li sa b l et op r e s e n ta n dm a n a g et h eu s e r i n t e r e s t sa c c o r d i n gt ot h eu p d a t eo ft h eu s e r si n t e r e s t m o r e o v e r , t h ea v e r a g e r e c a l l p r e c i s i o na r es i g n i f i c a n t l yi m p r o v e da n dab e t t e r s a t i s f a c t i o n r a t eo fb y p e r s o n a l i z e du s e ri sa c h i e v e da sw e l l k e yw o r d s ：p e r s o n a l i z e di m a g er e t r i e v a l ；u s e rm o d e l ；i n f e r e n c ee n g i n e ； r e l e v a n c ef e e d b a c k u 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：塑显日期：2 三g 2 歹关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名：塑啦导师签名三日期：第t 章绪论 1 1 概述第1 章绪论近年来，随着多媒体技术以及因特网的飞速发展，信息的爆炸使人们面临着一个新的严峻问题，即如何管理这些日益增长的信息，以便快速准确地查询到所需要的信息。据统计，人们接受的外部信息，7 0 以上来自视觉。视觉信息可以自然、真实地反映周围景物的本来面貌，视觉信息的获取对于人们的学习工作至关重要。图像作为信息的重要表现形式，长期以来一直受到人们的青睐。医生诊病时，需要c t 、m 刚图像作为辅助；气象局通过卫星云图分析天气情况；购物网站通过商品实物图片向用户展示商品等。如何根据图像内容的描述，在图像集合中找到具有指定特征或包含所需内容的图像就显得尤为重要，这就是通常所说的图像检索( i m a g er e t r i e v a l ) 。图像的内容通常可以分为视觉内容和语义内容两类。视觉内容对应图像的物理表示，如颜色、形状、纹理等；语义内容对应图像的信息，如主题、人物、场景等。为了检索图像，首先要描述图像的内容，对图像的内容进行形式化表示，即建立图像索引。建立图像索引要用到图像处理、计算机视觉、人工智能、数据库等技术。由于图像内容的复杂性和人类的认知主观性，建立高效、通用的图像索引是一项很困难的工作。目前，视觉内容的索引一般可以通过特征提取得到，语义内容的索引则往往要通过人机交互的方式才能得到。针对这两方面的工作，图像检索经历了如下几个发展阶段。 1 1 1基于关键词的图像检索技术基于文本方式的图像检索( t e x t b a s e di m a g er e t r i e v a l ，简称t b i r ) ，可以追溯到上世纪7 0 年代，图像数据的管理是对图像赋予属性信息，并且在关系数据库中把这些属性看作格式化的数据，图像的检索仅仅局限于对这些属性字符串的匹配【l 】。其基本步骤如图l 一1 所示，首先对图像文件建立相应的关键字或文本标题以及一些附加信息对图像进行描述，并将图像的存储路径与关键字对应起来，然后用基于文本的数据库管理系统进行图像检索【2 】。该方法的实质是把图像检索转换为对图像的文本进行检索。这种方法的特点是简单、易于理解。但是存在以下缺点：北京t 业大学t 学硕上学位论文随着图像数据的不断增加，内容不断丰富，很难用文字标签准确表达其含义。目前的计算机视觉和人工智能技术都难以自动标注图像，大多数采用人工标注，工作量巨大，费时费力。图像注释受主观因素影响大，不同的观察者或同一观察者在不同条件下对同一幅图像可能做出不同的描述。不同的应用可能需要对图像进行不同的描述，应用改变就要重新制作整个数据库。图1 - 1 基于关键词的图像检索技术实现框图 f i g u r e l - 1t h eg e n e r a la r c h i t e c t u r eo f t b i r 1 1 2 基于内容的图像检索技术进入了上世纪9 0 年代，信息处理技术和因特网飞速发展，出现了大规模的图像数据库。图像逐渐渗入到社会的各个行业，文本检索的种种缺点越来越不适应图像检索的要求。为了克服文本标注检索的弊端，研究者提出了基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ，简称c b i r ) ，工作原理如图1 2 所示。首先根据图像的颜色、纹理、形状以及空间关系等特征建立索引，再计算查询图像和目标图像之间的相似距离，然后按相似度匹配进行检索。这种方法实质上是一种近似匹配的技术。这一点与普通数据库检索的精确匹配方法有明显不同。这种方法的特点是：基于内容的图像检索，突破了传统的基于关键词检索的局限，它直接对图像进行分析和提取特征。利用这些描述图像内容的特征建立索引【3 】。特征提取和索引建立由计算机自动实现，避免了人工描述的主观性，也大大减少了工作量。图像特征提取图像特征查询数据库特征索引数据库用户检索图1 2 基于内容的图像检索技术实现框图 f i g u r e l - 2t h eg e n e r a la r c h i t e c t u r eo f c b i r 第1 审绪论 1 2 个性化图像检索技术随着图像检索技术的发展，人们对检索系统有了更高的要求，希望能得到更符合个人需求的检索结果。由此“个性化图像检索”越来越引起人们的重视，今天已成为人们的一个研究热点。 1 2 1个性化图像检索的必然性随着因特网的发展，图像作为一种数字信息的重要表现形式，已经为人们所熟知，并广泛使用。面对用户个性化的信息需求，传统的图像检索系统日益显现其不足，具体表现为：传统的图像检索系统基本上都是“一个检索适用所有用户”，对所有用户其检索结果都一样，无法满足用户的个性化需求，这也就导致了有些用户需要花费大量时间浏览许多无关的图像信息。为了更好地满足用户个性化的查询需求，在检索过程中我们应考虑用户的个人兴趣，建立一种用户兴趣模型，实现下列目标：图像检索系统会根据用户兴趣模型将用户感兴趣的图像自动推荐给用户。图像检索系统为用户提供的信息具有针对性，检索结果的排序与用户需求一致，这样，用户就不必浪费时间浏览大量的不相关图像。这种基于个性化的图像检索方法，不仅较好的解决了多媒体信息发展所带来的“信息过载问题，而且，更可以实现检索结果客观化和用户意图的主观化。 1 。2 。2 个性化图像检索系统的原理个性图像检索包括个性化和主动性两个方面。个性化的实质是针对不同的用户采用不同的服务策略，提供不同的服务内容。主动性则表现为图像检索过程中系统的主动参与性，系统不只是被动地根据用户的查询返回相应的结果，而是主动地学习和记录用户的兴趣，根据用户对检索结果的反馈推测用户的兴趣需求。个性化图像检索的工作过程如图1 3 所示，用户提出查询请求，如选择示例图像；系统根据用户兴趣进行图像检索；经过信息过滤，按统一的相关度评级排序返回给用户；在检索过程中，系统根据用户提交的查询给出初始检索结果，用户对检索结果进行评价和标记，并反馈给系统，系统对这些反馈的相关信息进行学习，不断修正用户兴趣文件。北京t 业大学t 学硕十学位论文图1 3 个性化图像检索的工作过程 f i g u r e l - 3t h eg e n e r a la r c h i t e c t u r eo f p e r s o n a l i z e di m a g er e t r i e v a l 1 2 3 语义鸿沟问题目前，大多数的图像检索系统是根据低层视觉特征进行图像间的相似性判断。而人们对图像相似性的判断，是建立在对图像语义理解的基础之上，这种理解是需要人们的经验和知识进行推理矛i - 乒i 断的，其中，可能涉及到一些高层次的抽象的概念，这些都是难以从低层视觉特征中直接获得的。因此，人对图像相似性的判断与计算机对相似性的判断之间存在着很大的差距，这也就是我们通常所说的“语义鸿沟”( s e m a n t i cg a p ) 。个性化图像检索中的“语义鸿沟是由于计算机获取的图像视觉信息与用户所理解的语义信息的不一致性而导致的低层和高层检索需求间的距离【4 j 。 1 3 弥补语义鸿沟的主要技术如何弥补语义鸿沟是图像检索系统所面临的一个重大难题。目前，解决这个问题主要有感兴趣区检测和相关反馈两种方法【5 1 。 1 3 1 感兴趣区检测传统的图像检索系统一般是对整幅图像进行特征提取，并将提取的全局特征用于相似度比较以获得检索结果。基于全局特征的图像检索复杂度较低，但检索结果很难令人满意，例如，两幅在外观上完全不同的图像，提取的全局特征却可能是相同或相似的。因此，全局特征难以准确地表达图像中的语义信息。基于以上原因，近年来许多研究者提出了基于感兴趣区的图像检索【6 - - 1 0 。感兴趣区的概念最早是在机器人领域中提出的i j ，用于物体识别。所谓的感兴趣区是指图像中最i i i i 起用户兴趣，最能表现图像内容的区域。这种基于感兴趣区域第1 章绪论的图像表示方法区分了区域的重要程度，在一定程度上消除了图像的冗余信息，突出了图像的主要内容，从而在一定程度上弥补了语义鸿沟。但是由于图像内容的不确定性以及图像分割技术的不完善，使得这种方法在实现上还存在相当的难度。现有的感兴趣区检测方法主要分为基于交互的方法：基于低层特征的方法；基于视觉注意的方法三大类。基于交互的方法基于交互的方法通过人机界面让用户选择图像的若干区域作为感兴趣区域，然后在图像库中搜索与所选区域相似的图像。如m o g h a d d a m 等人【1 2 】提出用颜色直方图、边缘强度、边缘方向等特征表示用户选取的感兴趣区，然后在目标图像中搜索相同大小的相似区域。当同时查询多个感兴趣区时，以区域为单位并行地进行多次查询，然后合并查询结果。该方法根据区域在图像中的水平位置定义图像之间的布局相似度，查询的是具有相同区域布局的图像。这类方法以用户为中心，让用户自己定义图像的内容，因而，对于医学图像等比较单一的图像库来说，有着较好的检索效果，但由于该类方法中的区域搜索以及特征提取等步骤都需要实时完成，需要用户等待一段时间。基于低层特征的方法基于变换的方法把图像的灰度变化较大的区域作为图像的重要部分。使用拐点检测器【1 3 】、小波变换1 4 1 等方法找出图像中灰度梯度较大的部分作为感兴趣区。一般来说，人对图像的观察过程是一个多特征融合的过程，人的注视点通常会落在颜色、纹理、形状等特征变化显著的区域。而该类方法只利用了图像的灰度信息，因此所提取的感兴趣区域和人的主观评价有一定的差距。基于视觉注意的方法该方法的基本思想是：依据人类视觉系统模拟人眼观察图像的过程，得到图像中最容易引起人们注意的部分，将其作为感兴趣区。比较有代表性的是显著图方法【l 引。这种方法综合考虑颜色、亮度、方向等多种特征；然后，通过中央周边算子得到各个特征的度量结果，并合成一幅显著图；最后，通过赢者取全神经网络相互竞争吸引注意焦点，使得最显著的区域胜出，即可得到感兴趣区。该类方法在目标检测的效果以及运算速度方面都有着较好的表现，因而，近年来受到研究者的广泛关注【1 6 1 。从前面的分析可以看出，感兴趣区检测的本质是图像区域分割问题。但是到目前为止，尚未有面向语义目标区域提取的通用的、有效的自动图像分割方法。北京工业人学工学硕f ：学位论文 1 3 2 相关反馈相关反馈( r e l e v a n c ef e e d b a c k ，r f ) 1 7 2 1 j 产生于文本检索领域，是一种让系统具有学习功能的技术。在基于内容的图像检索中，反馈是调整相似性度量准则以适应用户需求和提高检索精度的常用方法。相关反馈是一个逐步求精的过程，它通过人机交互，让系统能够根据用户的选择了解用户的意图，并能自动地调整相似性度量准则以弥补语义鸿沟。相关反馈技术大体可以分为两类：一类是，基于修改查询向量或相似度度量权重的相关反馈方法。这种方法的基本思想是通过动态调整图像特征矢量权重来实现相关反馈。另一种方法是，基于修改图像数据库点分布的相关反馈方法。它的基本思路是：首先初始化图像分类，然后通过用户的反馈信息改变数据库中每幅图像与当前查询的距离，使相似的图像靠近查询图像，不相似图像远离查询图像，最终输出那些符合用户感知特性的图像。上述方法都是在图像低层视觉特征基础上的相关反馈应用。然而，由于图像低层的视觉特征是对图像统计信息进行描述，它很难完全描述一幅图像，因此仅仅利用低层视觉特征的反馈难以提高检索的效果。人们在检索时关心的是图像的语义描述。所以，为了克服以上缺点，必须考虑实现高层语义的相关反馈。文献 2 2 】从机器学习的角度出发，用支撑向量机对每次反馈样本进行学习，从而建立了语义与特征空间之间的联系。文献 2 3 介绍了一个融入了语义特征的图像检索系统，该方法结合了基于关键词图像检索的基本原理，在系统中建立了一个关键词与图像相关联的语义网络，对图像库中每幅图像都以不同的关键词和权重加以描述，然后，随着反馈次数地增多，逐步建立起一个低层视觉特征到高层语义特征之间的映射关系。相关反馈技术研究的重点从最初的启发式反馈到完整反馈系统的建立，再到各种机器学习方法的引入，越来越多的相关反馈被引入检索系统来改善检索的结果。但这类方法仅仅是捕捉到用户在检索中的意图，却无法记忆学习到的知识，即后续的检索不能应用前面检索中学习到的知识，也就是说，即使是完全相同的检索过程，用户也必须从头开始，让系统进行和前次相同的学习，得到相同的结果。严格的说，这个过程并不是学习，因为这个过程没有知识的积累。 1 4 研究内容为了解决弥补语义鸿沟问题，我们提出了一种构建用户兴趣模型的方法，并实现一个个性化的图像检索平台。主要研究内容包括：第1 章绪论 1 提出了一种用户兴趣模型的构建方法。 2 对基于语义的图像检索进行了初探。 3 研究了用户短期兴趣的获取方法。 4 研究了基于推理机的用户长期兴趣获取方法。 5 构建了基于用户兴趣模型的个性化图像检索系统。 1 5 论文的安排本论文的结构安排如下：第1 章为绪论，包括课题的提出，研究内容以及论文的安排。第2 章从个性化图像检索的角度出发，介绍了图像特征提取方法、相关反馈算法、信息过滤、分类技术、相似性度量准则、评价准则等个性化图像检索的关键技术。第3 章介绍了用户兴趣模型的研究进展以及现有图像用户兴趣模型的构建方法，并给出了本文用户兴趣模型的构建方法。第4 章介绍了用户短期兴趣的获取方法。包括图像视觉特征的提取、相关反馈算法、图像语义特征的获取。第5 章介绍了本文用户兴趣模型中，用户长期兴趣的获取方法，即推理机的设计与实现。第6 章将本文所构建的用户兴趣模型应用于图像检索，实验结果表明，平均查准率和平均查全率都有了明显的提高；用户兴趣模型能够较为准确的表征用户的兴趣，在一定程度上弥补了语义鸿沟。最后一部分对本文工作进行了总结，并对今后工作做出展望。第2 章个悱化图像检索中的关键技术第2 章个性化图像检索中的关键技术个性化图像检索的实现框架如图2 1 所示。从图2 1 可以看出，个性化图像检索包含特征提取、相关反馈、信息过滤、相似性度量等关键技术。下面将分别对这些关键技术进行介绍。图2 1 个性化图像检索的实现框架 f i g u r e2 - 1t h eg e n e r a la r c h i t e c t u r eo fap e r s o n a l i z e di m a g er e t r i e v a l 2 1图像特征的分析与提取图像特征的分析与提取是基于内容图像检索技术的基础。有效的特征应该具有直观、区分能力强、计算简单，且对平移、缩放、旋转都具有不变性瞰】。从广义上讲，特征可以包括文本特征( 如关键词，注释等) 和视觉特征( 如颜色，纹理，形状等) 。本节中仅对图像视觉特征的分析与提取技术进行介绍，下面将分别介绍颜色特征、纹理特征、形状特征的提取过程。 2 1 1 颜色特征的分析和提取颜色特征是图像检索系统中应用最为广泛的视觉特征【2 5 1 ，与图像包含的物体北京工业大学t 学硕：f j 学位论文或场景极为相关。它是图像最低层，最直观的物理特征，通常对旋转、平移、尺度变化都不敏感，从而具有较强的鲁棒性。从统计角度上分析，颜色特征有颜色直方图、颜色矩、颜色聚合矢量、颜色相关图、颜色集等描述方法。颜色直方图( c o l o rh i s t o g r a m ) 1 9 9 1 年，s w a i n 和b a l l a r d 2 6 】等人利用颜色直方图对图像进行颜色统计，提出了颜色直方图相交法。这是一种全局颜色特征提取方法，基本思想是用颜色直方图表示每种颜色在图像中出现的概率，两幅图像的相似性用直方图的交和直方图相似性度量。其优点是算法简单，计算效率高，不随物体平移、旋转、伸缩的变化而变化，而且与图像大小无关。但同时也存在着存储量过大、对光照和噪声比较敏感等弊端，而且不能有效的表达颜色分布的空间信息。为了解决上述问题，人们提出了许多改进算法。比如说1 9 9 5 年，s t r i c k e r 和 o r e n g o 例等人提出了累计颜色直方图法，以减少噪声的影响。1 9 9 6 年，g o n g 2 8 】等人考虑到传统颜色直方图对光照非常敏感，不同的图像可能有相同的颜色直方图这一弊端，提出了基于子块的颜色直方图法，但该方法只是将图像分割成若干个大小相等的子区域，这些区域只是简单等间距分割而成，并非主观意义上的目标对象。到2 0 0 2 年，s r i d a h a r 【2 9 1 等人将简单的区域分割变为了目标分割，该方法结合了空问位置信息，但是运算时间也会随之增长。颜色矩( c o l o rm o m e n t s ) 颜色分布可以用矩表示，颜色信息主要集中在图像颜色的低阶矩中，1 9 9 5 年，s t r i c k e r 和o r e n g o 3 0 】提出了颜色矩的方法。该方法对每种颜色分量的一阶( 均值) ，二阶( 方差) 和三阶( 斜度) 矩进行统计，表达图像的颜色分布。对于图像检索来说，颜色矩是一种简单有效的颜色特征表示方法，特别是只包含目标的时候。图像的颜色矩一共只需要九个分量，与其他颜色特征相比，更为简单。但颜色矩的分辨能力相对较低，因此，颜色矩需要和其它特征结合使用，如在其他特征前使用，起到缩小范围的作用。颜色聚合矢量( c o l o rc o h e r e n c ev e c t o r ，c c v ) 为了克服颜色矩无法表达图像色彩空间位置的缺点，p a s s 3 q 等人提出了以图像的颜色聚合矢量作为图像索引的方法，该方法是颜色直方图在空间上的一种延伸，它考虑到颜色分布的连续性，当图像中颜色相似的像素占据的连续区域的面积大于一定的阈值时，该区域中的像素为聚合像素，否则为不聚合像素。统计图像所包含的每种颜色的聚合像素和不聚合像素的比率称为该图像的颜色聚合矢量，聚合矢量中的聚合信息在某种程度上保留了图像颜色的空间信息。正是由于该方法包含了颜色分布的空间信息，因此，该方法能够达到比颜色直方图更好的第2 章个性化图像柃索中的关键技术检索效果，但是该方法的算法复杂度较高。颜色相关图( c o l o rc o r r e l o g r a m ) 为了综合全局特征和局部特征的优点，h u a n g 等人i j z j 提出了基于颜色相关图的方法，其基本思想是利用颜色对于距离的分布来描述信息，因此，该特征不仅刻画了某一种颜色的像素数量占整个图像的比例，同时也反映了颜色对空间的相关性。相对于颜色直方图法和颜色聚合矢量法而言，颜色相关图提高了检索效率，但由于该方法考虑到了所有颜色之间的相关性，因此算法复杂度较高。颜色集( c o l o rs e t s ) 为支持大规模图像库中的快速查找，s m i t h 和c h a n g 3 3 j 提出利用颜色集作为颜色直方图近似的方法。该方法将颜色空间量化成若干个小的颜色区间，然后，用色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达成一个二进制的颜色索引集。在图像匹配中，通过比较不同图像颜色集之间的距离和色彩区域的空间关系来判断两幅图像间的相似性。这样做可以大大减少颜色特征矢量的维数，在大型数据库中实现快速匹配。同时，由于颜色集以二进制特征矢量的形式来表示，因此，可以构造二分查找树来加快检索速度，这对于大规模的图像集合十分有利。 2 1 2 纹理特征的分析和提取纹理是图像的重要特征之一，它是一种不依赖于颜色或者亮度的反映图像中同质现象的视觉特征【3 4 1 。在图像检索中，纹理通常被定义为图像某种局部性质，或是对局部区域中像素之间的邻域灰度空间分布规律的一种度量，其基本单位是纹理元。目前常用的纹理分析方法有灰度共生矩阵法、t a m u r a 纹理表示法、小波变换等。下面将分别进行介绍。灰度共生矩阵法在上个世纪7 0 年代，h a r a l i c k 等人【3 5 】提出了纹理特性的灰度共生矩阵表示法( c o o c c u r r e n c em a t r i xr e p r e s e n t a t i o n ) ，它是在估计图像的二阶联合条件概率密度函数的基础上，提取其纹理灰度级空间的相关性。该方法的基本思想是：首先基于像素之间的距离和方向建立灰度共生矩阵，然后由这个矩阵提取有意义的统计量作为纹理特征的描述，并用这些特征量的加权距离度量纹理之间的相似性。该方法的缺点是计算量大，且不能区分复杂的纹理。 q t a m u r a 纹理表示法在人类视觉对纹理特征辨别的心理学实验的推动下，t a m u r a 等人【3 6 】从另外的角度对纹理特征进行了描述，提出了一种心理学中重要的纹理视觉特征计算方北京工业人学工学硕十学位论文法。该方法得到的特征可以模拟纹理视觉模型中的6 个纹理属性，分别是粒度、对比度、方向性、线形、均匀性和粗糙度。与灰度共生矩阵不同的是，这些纹理特征的描述都是具有视觉意义的，此外，这些特征中前三个特征在心理学测试中具有很好的一致性，因此是最重要的特征。但该方法对整幅图像进行处理，效果较差【3 7 1 。小波变换法在上个世纪9 0 年代初期，当小波变换( w a v e l e tt r a n s f o r m ) 理论在很多领域得到广泛应用之后，许多研究者开始研究如何用小波变换表示纹理特征。小波变换提供了一种纹理分解和分类的多分辨率方法。小波变换是将信号分解为一系列基本函数，图像的纹理特征可以用每个波段在每个分解层上能量分布的均值和方差表示。s m i t h 和c h a n g 3 8 1 n n a d , 波子带中提取的统计量( 均值和方差) 作为纹理特征。为了利用中间带特征，c h a n g 和k u o 3 9 1 利用一种树型结构的小波变化进一步提高分类精度。他们不仅将小波分解后的低频部分做迸一步的小波分解，而且对高频部分也做小波分解，并形成树状结构。t h y a g a r a j a n 等人【4 0 j 结合小波变换和共生矩阵也取得了良好的效果。由于纹理特征没有明确的定义，目前还没有一个精确的较好的特征描述方法。人对纹理特征的认识也非常主观，因此，如何度量纹理特征之间的相似性也是一个难题。 2 1 3 形状特征的分析和提取形状是最能刻画物体本质的特征。研究人的感知就会发现，人仅由物体的轮廓就可以准确的识别出物体，因而，使用形状特征进行查询，是基于内容的图像检索具有语义查询能力的重要手段。但由于图像分割技术的局限性，也就限制了形状特征的应用。形状特征表示法可以分成基于边界的方法和基于区域特征的方法两类。基于边界的方法这类方法主要考虑利用边缘曲线、曲率、傅立叶描述子等来描述边缘信息，从而利用边缘信息来表征图像的形状特征。其中，最典型的方法是傅立叶形状描述符。它的主要思想是利用傅立叶变换的外边界作为形状特征。为了去除在图像区域中的噪声点，r u i 等人【4 1 】提出了改进的傅立叶描述符，不仅对噪声具有鲁棒性，也对几何变形具有不变性。基于区域特征的方法这类方法使用目标在图像内所覆盖的区域来描述形状，如不变矩、区域面积、第2 章个性化图像榆索中的父键技术形状参数等，其中不变矩是最常用的方法。不变矩的主要思想是使用对变换不敏感的基于区域的几个矩作为形状特征，h u 4 2 1 提出了7 个这样的矩。不变矩具有对平移、旋转及缩放的不变性，易于实现，且适用面较广，对输入图像的质量要求不是很高，不需对图像进行预处理，降低了整个算法的复杂度。 2 2 相关反馈算法低层视觉特征与高层语义之间的语义鸿沟是c b i r 系统的一个关键问题。这一问题的根源在于这样一个事实，即视觉相似性度量未必与图像在人类主观定义的语义相匹配。更为糟糕的是，对同一幅图像，不同的人们往往有不同的语义解释，甚至同一个人对同一幅图像在不同时间会有不同的理解。为解决这一问题，人们提出了交互式相关反馈技术，即用户反馈。其核心思想是将人类理解的主观性融入图像检索过程，并且给用户以评价检索结果的机会，在用户评估的基础上再进一步改进检索过程。用户反馈是一种以提高信息系统有效性为目的的学习技术，也是一种查询修正技术【4 3 1 ，应用到图像检索领域中，其步骤如图2 2 所示：首先，用户提交一幅示例图像；然后，系统获取示例图像的特征，按照一定的算法与图像库中图像进行特征的相似性比较，并将相似程度按由高到低排序，然后把排序结果返回给用户；此时，若查询结果令用户感到满意，则查询结束。否则，由用户从结果中选择相关与不相关的图像提交给系统，系统根据用户的交互信息转入下一个查询状态，直到用户找到令自己满意的图像为止。用户图2 2 相关反馈实现框图 f i g u r e2 - 2t h eg e n e r a la r c h i t e c t u r eo fr e l e v a n c ef e e d b a c k 北京t 业大学工学硕一l j 学位论文相关反馈技术大致可以分为特征权重调整算法、查询向量优化算法、基于机器学习的方法以及基于统计学习理论的方法四类。 2 2 1 权重调整算法权重调整算法脚1 定义两图像之间的相似距离如式( 2 1 ) 所示：。= 军q ( 莩乃 c 2 一，) 其中，q 为颜色、纹理、形状等视觉特征权重；为特征矢量内各特征分量的权重；i ，为特征矢量内的特征分量。该方法的基本思想是，对不同的图像特征赋予不同的权重，系统根据用户的反馈信息，把用户认为与示例图像相似的特征赋予较大的权重，而不相似的特征则赋予较小的权重。 2 2 2 查询向量转移算法查询向量转移算法【4 5 】原理示意图如图2 3 所示，其基本思想是：根据用户的反馈信息，改变数据库中每幅图像与示例图像之间的距离，使相似的点更加靠近示例图像，而不相似的点远离示例图像，再用调整后的查询点重新计算检索结果。这类相关反馈的基本过程是：用户先提交一个或多个查询，系统首先按特征矢量的相似程度给出最相似的图像，然后由用户确定与查询相关或不相关的图像( 即所谓的反馈正例和反馈负例) ，并将这些信息反馈给系统，系统根据反馈信息移动查询点，使之更加靠近反馈正例在特征空间中对应的点，同时远离反馈负例对应的点，从而接近理想查询点。该算法从传统的文本信息检索领域中借鉴而来。图2 3 查询向量转移算法示意图 f i g u r e2 - 3p r o c e s so fq u e r yp o i n tm o v e m e n t 第2 章个件化图像柃索中的关键技术 2 2 3 基于机器学习的方法随着相关反馈技术研究的不断深入，许多学者将相关反馈看作模式识别中的学习或分类问题，并针对该学习问题的特点把各种机器学习方法引入到相关反馈算法的研究当中。通过利用成熟的机器学习理论，如：神经网络、支撑向量机 ( s v m ) 等，对样本集进行学习，得出用户查询目的与图像特征之间的对应模型，然后根据模型指导新一轮的检索。 1 9 9 5 年，f r e u n d 和s c h a p i r e 4 6 】提出了a d a b o o s t 的机器学 - j 算法，它通过整合一些弱分类器的判定结果得到效果较好的分类器，具有很好的拓展性，因此得到了很大的发展。在a d a b o o s t 算法的每一步中，表现最好的分类器被选择出来，被误分的训练数据被赋予更高的权重，通过这种方式，分类器逐渐将注意力集中到较难正确分类的数据上。a d a b o o s t 算法正受到日益广泛的重视，人们对其不断提出新的改进，并在计算机视觉领域的很多问题上取得了很好的效果。但这一算法应用到图像检索的相关反馈中会遇到如下问题：首先是计算复杂度过高，其次是没有足够量的数据提供学习，获取统计信息，最后是用于分类的特征均是图像的低层视觉特征，很难反映图像的高层语义。 m a c a r t h u r 4 7 】等人采用决策树来解决两分类问题。首先用一个决策树顺序地划分特征空间，然后用得到的决策树划分数据库中的所有图像分类，最后再把落到相关叶子节点的图像按它们到示例图像的距离排序返回。 s v m 也是在图像检索领域广受重视的一种机器学习算法，该理论指出分类界面并不是由全部i t i i 练样本决定的，它只与一些所谓的支撑向量相关。t o n 9 1 4 列设计了基于s v m 的主动学习算法，学习机器可以控制它接受的信息，通过主动选择含有信息量最多的样本让用户提供标记，以减少需要标记的样本数量。但是 s v m 方法也面临计算开销大、特征如何选择以及核函数如何选择等问题。此外，z h o u 等人【4 9 】提出了一种把主动学习和半监督学习结合起来的相关反馈技术。在半监督学习部分采用了协同学习的方法；再把通过两种学习获得的结果相反或都没有把握的图像作为反馈图像，用来询问用户。他们的工作表明把主动学习和半监督学习相结合能更有效地利用未标记样本的信息。 2 2 4 基于统计学习理论的方法在2 2 1 节中讨论的特征权重的调整方法是在图像类几何可分( 线性或非线性) 的前提下提出的，但现实中的图像内容丰富，干差万别，几何分类不能满足用户的要求，而且用户对图像分类的标准也是多种多样的，对于那些不满足图像北京二业火学工学硕：l j 学俯论文类几何可分的情况，可用概率统计的方法进行图像分类。基于概率模型的相关反馈是以概率学习理论为基础，根据用户的反馈信息进行统计推算，估计每一幅图像与示例图像的相关概率，将高概率的图像检索出来。这种方法不是通过细化查询或距离测量，而是采用更新数据库中所有图像的概率分布来实现的。 n a s t a r 等人【5 0 】利用用户的反馈信息来估计相关图像的概率分布。他们假设各特征分量相互独立，在通过各特征分量估计相关图像的分布时，采用一种经验性的策略来考虑负例，并采用非参数的密度估计和贝叶斯推断的方法把所有图像分为两类，即相关和不相关，然后根据两类密度似然比的大小来检索图像。 v a s c o n c e l o s 等人【5 1 】贝0 在图像的局部特征上采用基于区域的b a y e s 学习方法，通过d c t 系数上的混合高斯模型作为特征，这种方法的优点是在不进行图像分割的情况下仍可支持对区域的查询，但同时也存在着计算复杂度较高，在图像数据库不断增大的过程中，需要重新估计高斯模型的参数等缺点。 z h o n g 等人掺2 j 基于b a y e s 估计算法，计算每幅图像在某个图像类的概率，建立分类器把图像库分成更接近于用户思维的不同的类。此系统的缺点在于b a y e s 估计分类方法是建立在假设特征矢量分布为混合高斯分布的基础上，这种假设对小概率事件会造成判断错误，影响结果的精确度，此外，该算法也没有考虑反馈负例所引起的作用。概率统计算法是一种理论上的理想算法，利用最大似然估计作为图像之间距离的度量方法，在一定程度上比利用欧氏距离和聚类等几何划分图像类的方法要优越，但b a y e s 估计分类方法是建立在假设特征矢量分布为混合高斯分布的基础上，这种假设对小概率事件往往会造成错误判断，影响结果的精确度。 2 3 信息过滤技术信息过滤( i n f o h n a t i o nf i l t e r i n g ，i f ) 【5 3 】是一种系统化的方法，用来从动态的信息流中提取出符合用户个性化需求的信息。信息过滤是实现信息的个性化主动服务的前提，它能够使系统自动按照用户的信息需求进行推荐，并提供相应的服务。信息过滤的方法主要有基于内容过滤和基于协作过滤等。 2 3 1 基于内容的过滤基于内容的过滤源于信息检索，采用了与信息检索相类似的技术，信息对象第2 章个件化图像拎索中的关键技术的过滤是建立在内容与用户兴趣文件相比较的基础上的【5 训。基于内容的过滤通过计算用户兴趣模型和图像特征矢量之间的相似性，来向用户推荐信息，此外，系统还要求用户给出反馈信息以利于维护用户兴趣文件。基于内容的过滤技术对图像库中的图像基于矢量相似性进行内容过滤，每个用户都独立操作，不需要考虑别人的兴趣爱好，不存在评价级别多少的问题，只要相似性高就能被过滤出推荐给用户。这种过滤技术易于实施，适合于

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）应用于图像检索的用户兴趣模型的研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）应用于图像检索的用户兴趣模型的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档