




已阅读5页,还剩54页未读, 继续免费阅读
(管理科学与工程专业论文)基于相关反馈的图像检索技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术人学研究生院学位论文 摘要 随着计算机以及通信技术的发展,多媒体信息出现了急剧增长的趋势。同传 统的文字信息相比较,图像具有信息量大、内容难以准确描述的特点。这样, 一方面图像信息以指数级增长,而另一方面人们却很难从大量的图像信息中找 到自己所需的,从而形成了大海捞针的局面。因此,如何对大量的图像进行有 效管理和检索,已成为信息时代人们迫切需要解决的问题。 基于内容的图像检索和相关反馈技术,是当前研究的热点之一,是解决图 像检索问题的有效手段,检索精度和语义检索仍然是需要继续研究的问题。对 用于内容检索的图像内容描述和数据模型,高维的图像特征向量的计算,图像 数据库的结构和索引都需要进行研究。 针对基于内容的图像检索研究的现状和发展趋势,本文主要对基于内容的 图像检索中相关反馈算法以及利用相关反馈提取图像语义作深入研究,同时研 究了与其相互关联的几个问题。通过分析图像检索的层次和相关反馈的基本概 念与思想,提出了图像数据模型及基于内容与相关反馈的图像检索模型;设计 了基于内容图像检索算法及相关反馈算法,包括基于图像视觉特征的检索及相 关反馈算法、语义提取与检索算法:实现了图像检索系统f i s h i p 。 关键字基于内容图像检索,相关反馈,图像检索模型,视觉特征,贝叶斯分 类器,语义网络,查询接口,检索引擎 第1 页 国防科学技术人学研究生院学位论文 a b s tr a c t a l o n gw i t ht h ed e v e l o p m e n to fc o m p u t e ra n dc o m m u n i c a t i o nt e c h n o l o g y , t h em u l t i m e d i aa p p e a r st ot h et r e n do fi n f o r m a t i o ni n c r e a s i n gr a p i d l y c o m p a r i n gw i t ht h et r a d it i o n a l _ t e x ti n f o r m a t i o n ,i m a g eh a s t h ec h a r a c t e r o f1 a r g ei n f o r m a t i o na n di t sd i f f i c u l tt od e s c r i b ee x a c t l y i nt h i sw a y 。 o n es i d e ,t h ei m a g ei n f o r m a t i o narei n c r e a s i n ga te x p o n e n tl e v e l ,o n e o t h e rs i d e ,p e o p l eh a v ed i f f i c u l tt of i n dw h a tt h e yn e e df r o mv a s ti m a g e s i n f o r m a t i o n a c c o r d i n g l y ,i tf o r m st h ep h a s et h a tl o o k sf o ran e e d l ei n ab o t t l eo fh a y s o ,h o wt om a n a g ee f f i c i e n t i ya n dr e t r i e v et h en e e do f i m a g ei st h ep r o b l e mc r y i n gf o rs e t t l i n gf o rp e o p l ei ni n f o r m a t i o na g e c o n t e n t b a s e d i m a g er e t r i e v a l ( c b i r ) a n dt e l e v a n c ef e e d b a c k t e c h n o l o g y ,i st h eoneo ft o pr e s e a r c hd o m a i n s ,w h i c hi st h es o l u t i o no f i m a g er e t r i e v a lp r o b l e m b u tr e t r i e v a lp r e c i s i o na n dr e t r i e v a lb y s e m a n t i ci sy e tt h ep r o b l e mr e q u i r i n gt or e s e a r c h ,t h e ya r es o m e t h i n g r e q u i r e dt or e s e a r c ht h a ti m a g ec o n t e n td e s c r i p t i o nf o rc o n t e n t r e t r i e v a la n dd a t am o d e l ,h i g hd i m e n s i o ni m a g ef e a t u r ev e c t o r c a l c u l a t i o n ,t h es t r u c t u r ea n di n d e xo fi m a g ed a t a b a s e ,e t c c o n t r a p o s i n gt ot h ea c t u a lit ya n dd e v e l o p i n gt r e n do fc o n t e n t b a s e d i m a g er e t r i e v a lr e s e a r c h ,w e1 u c u b r a t eo nc b i r 。r e l e v a n c ef e e d b a c k a r i t h m e t i ca n ds e m a n t i c so fi m a g ee x t r a c t ,s i m u l t a n e o u s l yr e s e a r c h a s s o c i a t e dp r o b l e m s v i aa n a l y s i so ft h eh i b e r a r c h yo fi m a g er e t r i e v a l a n dt h ee s s e n t i a lc o n c e p t i o no fr e l e v a n c ef e e d b a c k ,i m a g ed a t am o d e la n d m o d e lo fc o n t e n t b a s e d r e l e v a n c ef e e d b a c ki m a g er e t r i e v a lw e r ep u t f o r w a r d :w ed e s i g nt h ec o n t e n t b a s e dr e t r i e v a la r i t h m e t i ca n dr e l e v a n c e f e e d b a c ka r i t h m e t i c ,i n c l u d i n gt h ea r i t h m e t i co ff e e d b a c ka n ds e m a t i c s e x t r a c t r e t r i e v a l :w eh a v em a d ea s y s t e m :f i s h i pw h i c h r e a l i z e c o n t e n t b a s e da n df e l e v a n c ef e e d b a c ki m a g er e t f i e v a l k e yw o r d sc b i r ( c o n t e n tb a s e di m a g er e t r i e v a l ) ,r e l e v a n c ef e e d b a c k , m o d e lo fi m a g er e t r i e v a l ,v :s i o nf e a t u r e ,b a y e s i a nc l a s s i f i e r ,s e m a t i c n e t w o r k ,q u e r yi n t e r f a c e ,r e t r i e v a le n g i d e 页 独创性声明 、专l 7 巴l 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:基士塑羞丛筮盟图堡捡室篮盔丛窥当塞理 学雠文作者虢班止魄扣年月哕日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查魔幸= 告阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影习、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在箪着后适用本授权书。) 学位论文题目: 叁主塑羞丞堡塑图篮捡室撞苤亟究生塞煎 学位论文作者签名: q 霆:! 芒: 作者指导教师签名: 塑扬 日期:扣2 ,年,月。9 日 日期:2 p 2 年7 月2 彩日 国防科学技术人学研究生院学位论文 第一章绪论 “信息在你的指尖上葡数据的沼泽在你的脚下“ 信息及数据管理是多媒体信息系统的核心问题之一。信息管理的重要性和 数据管理的困难又是同时存在的一对矛盾,多媒体、网络的发展更加剧了这种 状况。随着人类迈入信息社会,信息量和信息媒体的种类不断增加,信息的洪 水会继续泛滥,我们要用什么样的方法来改变这一现状呢,使得人们能够更加 方便的获取更多、更精确的信息。多媒体数据库和基于内容的信息检索技术将 扮演非常重要的角色。图像就是信息海洋中最美丽的浪花之一,我们将在图像 检索方面进行一些研究。 1 1引言 随着人类进入知识社会,我们所面临的要处理的信息也越来越多,越来越 复杂,以图像、视频、音频为代表的多媒体信息出现了急剧增长的趋势。同时 计算机以及通信技术的迅速发展,也为我们提供了解决信息处理的工具。但是 由于多媒体数据具有信息关联度大、数据结构复杂、数据量巨大、媒体处理要 求高等特点,因此,迫切需要研究不同于传统数据库的多媒体数据库系统以及 管理查询方法,以支持各类多媒体数据的管理和检索。图像是信息载体中最活 跃和重要的媒体之一,它的管理和检索应用是我们要研究的内容。 随着技术的发展,用户可以越来越精确地搜索到自己所需的图片。如美国一 家新公司e r e o ,它将图像搜索技术用于商务网站中商品的搜索。有些产品如椅 子等,用户比较难以用关键词描述出明确的查询,但是利用基于内容的图像搜 索技术,却可以解决此类问题:用户首先点选画面中随机产生的产品图片中较 符合需求的产品图片,e r e o 爱碉基于内容的搜索技术,找到与用户选择的图片 较为相似的图片。经过数次互动后,用户可以愈来愈接近所要的产品。 另外一种与图像搜索技术密切相关的技术是敏感图像的过滤。这种技术可以 在大量的图片数据库中,搜索出敏感图片( 如色情图片过滤) 。这种技术非常适 合在许多允许用户上传图片的环境中,如b b s 、论坛、免费个人网页,个人拍 卖网站的产品图片搜索,个,、q 册等网络服务:而政府部门、i s p 、公安部门及 教育单位等也都需要自动化迄东用户使用不当的情况。来自欧洲的l o o k t h a t u p 及c o b i 0 1 3 都推出了这种相关的产品。 图像检索将更多走进我r :! ? 生活,随着数码相机的普及和扫描仪进入家庭, 越来越多的家庭将家庭相旺季了计算机:而且进行各种特殊图像处理都非常 方便。其实,还有一个很大e :寻处就是方便检索,当然这是建立在检索技术成 熟的基础上的。你可能经常为戎到一张想要的照片在一大堆相册里翻来翻去, 特别是年代久的相片,史是? i 连找到。如果家庭的所有相片都存在计算机中, 我们就町以方便地j j 图像怂誊i :l 一具简单输入一些诸如人名、时问或地点信息, 很快就能找到你想要的那些一了。 闩立公司推出了一种l 筝孳;! 索新技术。该技术以”相似性”为基础检索静止 国防科学技术人学研究生院学位论文 图像,尽可能地筛选出相似数据,用户可以察看所有的检索结果,最后自己判 断选择出所要寻找的图像。该技术是日本通商产业省实施的下一代信息处理技 术开发计划:r e a lw o r l dc o m p u t i n g ( r w c ) 的一部分,同立打算在该计划结束时, 利用该技术开发出图像数据检索引擎并产品化,主要用于检索数码相机拍摄的 图像,及将电脑图像( c g ) 数据的数据库化。 随着现代影像和图像处理技术的深入发展,可供医学临床、教学和研究使 用的医学图像数量以指数速度膨胀。用户如何能方便地找到所需要的图像? 这 就需要创建可供检索的图像数据库,它应该具有检索的实时性。现代化医院信 息系统发展迅速,电子病历将成为不可缺少的组成部分。据预测,五年内,美 国将有一半以上的医院配备电子病历系统,同时将配有高级图像检索数据库。 它可以按日期、特征、疾病、症状、解剖部位、图像类型、医疗仪器等属性进 行布尔检索( 基于是非判断的检索) 。基于i n t e r n e t 的全球虚拟病历系统已经在 丌发之中。这个项目完成之日,到地球上任何地方旅行的人发病时可以通过 i n t e r n e t 调出他们自己的病历。 其实图像检索已经运用在很多领域,例如公安的罪犯数据、医学研究机构 的病理图像资料管理,气象局的卫星照片管理等等方面,随着各行业信息化水 平的逐步提高,图像检索技术的日趋成熟,将来会有更多的运用,定会给我们 的工作和生活带来更多的方便和快乐。 同时网络已经成为信息的重要载体,其发展速度非常之快,网络上的信息 也朝着多媒体化发展,对于i n t e r n e t 上的图像的检索也是当前研究的重点。 对于如此多的用途,图像检索技术还有很多值得研究的工作。在图像管理 系统中,基于内容检索和相关反馈( c o n t e n tb a s e dr e t r i e v a l ,c b r :r e l e v a n t f e e d b a c k ) 是一项关键技术。和传统的基于文字检索( t e x tb a s e dr e t r i e v a l , t b r ) 相比,c b r 不仅不需要人工额外添加大量的文字注解信息,而且可以克服 t b r 的主观性和不完备性,所以很快成为了研究的热点。 基于内容图像检索对海量图像的查找带来了方便,但它也存在弱点,查找 的准确率不是很高,对图像语义级的检索还显得力不从心。因为图像检索是个 人查找所需要的图像,人的主观性在图像检索中具有重要的指导性作用,因此 把人的作用放到图像检索过程中就显得非常重要,从而使得计算机从人的反馈 中学习,以提高检索的精度:基于这一点,相关反馈被引入基于内容的图像检 索中,并发挥了重要作用。 1 2 图像检索技术的发展和现状 1 2 1 图像检索技术的发展 基于内容的检索系统,根据其处理的对象可将其分为静止图像检索和活动视 频检索,根据图像库的内容和检索要求又可分为通用检索系统和专用检索系统。 专用检索系统是由图像库和检索要求的特殊性而研究的专门检索技术,而通用 检索系统所采用的技术则较为普遍目前,对于通用的静止图像检索,用于检 索的特征主要有颜色( c o l 0 1 、纹理( t e x t u r e ) 、草图( s k e t c h ) 、形状( s h a p e ) 等,其中颜色、形状、纹理喧马最为普遍由于不同的应用背景,不同的基于 内容检索系统在其检索实现中采用的技术也各有侧重,但一般都能在传统的计 国防科。学技术人学聊f 究生院1 7 :佗论文 算机视觉和图像处理技术中找到其出处,所以基于内容的图像检索可以说是图 像处理和计算机视觉各种技术应用的综合。 图像检索自7 0 年代始便成为一个非常活跃的研究领域,其推动力来源于两 大研究团体:数据库系统和计算机视觉,它们从基于文本以及基于内容这二个 不同的角度,对图像检索作了研究。 基于文本的图像检索,其研究主要在数据库领域中进行。图像检索的一个典 型框架是,首先对图像用文本进行注解,根据其内容手工将其标注为一系列关 键字,并对关键字建立索引,这样,图像检索就转化为文本检索的问题。然后 用基于文本的数据库管理系统( d b m s ) 来进行图像检索,诸如数据模型、多维 度索引、查询评阶等的研究进展均是沿着这一领域所作的。但是,基于文本的 图像检索存在两大困难,尤其是当图像的数量非常大的时候,一是必须由人工 完整地标注所有图像,对于小图像集合也许问题不大,但随着图像数目的增加, 特别是网络上的图像是无穷无尽的,这种方法显然不可行;第二个问题在于图 像所包含的信息量庞大,不同用户对于同一张图像的看法不尽相同,这就导致 对图像的标注没有一个统一标准,检索出的结果不能很好符合用户的需求。 90 年代早朝,由于大规模图像数据库的出现,由手工进行图像注解这一方 法所带来的困难变得十分尖锐,为了克服这一困难,研究者们提出了基于内容 的图像检索,其思路是,不同于基于关键字的手工注解,图像是由其自身的视 觉内容,如颜色、纹理等索引的,这便是基于内容的索引。在这一思路的指导 下,无论是在研究方面还是在商业方面,在短时间内,发展了许多技术,并开 发了不少研究和商用系统,其中有代表性的有: ( 1 ) q b i c 1 。它是第一个商用的基于内容的图像查询系统,由i b m 公司推出, 支持示例查询和草图查询,采用了颜色、纹理和形状特征,进而结合关 键词进行查询,并采用r 树作为高维索引结构。 ( 2 ) v i s u a l s e e k f 3 和w e b s e e k 。由哥伦比亚大学( c o l u m b i au n i v e r s i t y ) 推出的特征查找系统以及面向i n t e r n e t 的文字图像查找器。其特色在 于图像区域及其空间关系特征和从压缩域提取的视觉特征,后者包括颜 色集和纹理的小波变换特征。 ( 3 ) m a r s 9 。由伊利诺思大学( u i u c ,u n i v e r s i t yo f1 1 l i n o i sa tu r b a n a c h a m p a i g n ) 开发的多媒锋分析和检索系统。从特征抽取到建立适当的存 储和检索结构,集成了汁算机视觉、数据库管理和信息检索三个学科。 特色在于支持按用户反渍查询。 ( 4 ) p h o t o b o o k 2 。由m i t 多媒体实验室推出的图像浏览和查找工具集,提 供基于形状、纹理和面部特征的查询。由于特征对于图像及其领域很难 说是最佳的,在探讨将人主观观念模型社会化的基础上,最近在其新的 系统f o u r e y e s 中又引入了交互式的图像注释功能。 基于内容的检索不需要目白的手工标注,而利用图像自身的特征,如颜色、 纹理、形状等特征来进行检索具有较强的客观性。通常,可以抽取图像库中 所有图像的特征,用户检索的适程一般是提供一个样例图像,系统抽取该样例 图像的特征,然后同数据库中日亍有的特征进行比较,并将与样例特征相似的图 像返回给用户,这个过程称之勺基于样例的图像检索。当前研究图像检索的重 点和难点集中在如何d :抽耳( i :衰罢特征和图像内容所表示的语义特征问建立很 好的联系,直到今天,这仍然芝基于内容图像检索的一个没有解决的问题。也 就是说, l 于我们所棚仃的特三并不能很好地体现图像真正的语义信息,以至 筇3 页 国防科学技术人学研究生院学位论文 于检索的结果往往不能令人满意。 如何解决上述问题,相关反馈和图像的自动标注技术是重要的突破。相关反 馈是在信息检索系统中的一种指导性学习的技术,用以提高系统的检索能力。 在基于内容的图像检索中,通常检索的结果不能令人满意,这时用户可以告诉 系统哪些是符合用户需求的正反馈图片,哪些是不符合检索内容的负反馈图片, 系统根据用户提交的指导信息,对内部检索参数进行调整,从而优化检索结果 并提供给用户新的检索结果。对于图像的标注问题,可以手工标定很小一部分 图,利用相关反馈的方法,将用户因为反馈而标定的信息不断加入数据库,同 时对这些信息进行扩展,使具有相似内容的图像因为这些图的相似性而得到标 注。试验表明,此方法使检索精度得到了很大提高。 1 2 2 基于内容与相关反馈的图像检索研究现状 基于内容的图像检索已经成为一个研究热点,并成为数字图书馆等重大研究 项目中的关键技术。 1 3 一些图像检索系统被相继推出,如q b i c 、p h o t o b o o k 、 v i s u a l s e e k 等 1 ,2 ,3 ,这些系统存在一个主要问题是检索过程以计算机为中 心,使得一些查询结果并不能满足用户的要求。究其原因,主要为:( 1 ) 计算 机视觉对色彩特征的表示、相似度定义和人对色彩的感知存在着一定差距。( 2 ) 人们在日常生活中总是用一些高层次的概念,而计算机视觉技术从图像中提取 的特征主要是低层次特征,除了人脸识别和指纹识别等特别领域,在大多数情 况下,很难直接得到低层特征和高层特征之问的联系。 7 ( 3 ) 有一些图像检 索系统采用了多特征检索,出于度量方法的差异,很难找到一个比较合适的各 种特征综合距离以符合人对匿像的相似度判别。 图像检索系统的最终用户是人,因此通过交互手段来捕获人对图像内容的认 知是相当重要的。为了把用户模型嵌入到图像检索系统,最近几年在基于内容 的图像检索领域引入了相关反馈机制。基于内容的相关反馈是一个逐步求精的 过程。 目前,美国麻省理工学院、尹利诺斯大学、荷兰阿姆斯特丹大学等相继开展 了相关反馈在图像检索系统中的应用,其典型代表是r u i 1 4 提出的调整权的 方法和v a s c o n c e l o s 1 j ,1 6 一提出的贝叶斯方法。 相关反馈的方法主要分为3 类: 修改查询矢量或者距离判别标准; 调整图像数据库的各类或者类问关系: 基于贝叶斯理论的方注: 在图像检索中,第一类方法应用比较广泛,主要代表系统有m a r s 9 , m i n d r e a d e r 1 7 ,p i c t o s e e k :1 5 :。r u i 在图像检索系统m a r s 中采用了多层图 像表示方法和动态调整权的专壬。r u i 提出了一个多层的图像表示方法,一个 图像有k 个特征,每个特砭育多种表示,每种特征表示是一个高维矢量,对于 一次查询就是从最低层特 正瞳毒一维丌始比较,然后进行加权求和,直到检索 到最高层的每种特征之问的:二取和。为改进检索结果,r u i 提出了动态调整权 的思路,即求正反馈图像的导一维特征的标准差,标准差越小权越大,反之则 越小。当某些查询可以用颤墨、纹理等特征的组合来表示的时候,这种方法非 常有效,但是如果用户关心! :;是图像中的某个对象,就很难用这些视觉特征 的组合术表示查询请求卜 := 毫洵结果会很不理想。 国防科学技术人学。研究生院等:位论文 调整图像数据库的分类或类间关系的主要思想是:首先用聚类方法对图像数 据库作初步分类,然后根据用户的反馈信息对这些初始分类结果进行合并或拆 分 7 。 ” 第三类系统的基本思想是根据用户反馈的信息( 样本) ,进行统计推断 1 5 。 c o x 5 最早把这一理论运用到图像检索系统p i c h u n t e r 5 ,此系统的缺点是没 有考虑反例所起的作用。v a s c o n c e l o s 提出了一种基于区域的贝叶斯学习方法, 由于采用高斯混合模型求先验概率,检索复杂度比较高,尤其是当图像数据库 不断增大的时候,需要从新估计高斯混合模型参数。 1 3 本文研究的主要问题与论文结构 1 3 1 本文研究的主要问题 我们进行的研究首先应明确研究的目标( 侧如:进行通用检索系统) ,因为 只有明确了研究的目标,才能进行有效的方法选择,现在基于内容的检索方法 处于百家争鸣阶段,一种通用的有效的一般方法还没有出现或者根本就不存在, 如果要进行系统的研究,就必须从基本的研究对象开始,如果想赶超别人的系 统,就必须研究别人的系统,然后在别人的系统基础上进行改进。 作为一个新兴的研究领域,同时由于其所检索对象和范围的多样性,基于内 容图像检索的研究具有广泛的内容。目前基于内容图像检索还要解决多种检索 手段相结合的问题,以提高检索的效率。对于单一检索手段,由于其约束信息 不足,在返回目标图像的同时在往会返回大量其它也满足此检索要求的图像。 采用多种检索手段相结合的方法无疑可提供更多的约束而使得返回图像中目标 图像的比率得到提高,但检索手段间的融合是所要解决的问题。此外,使系统 在与操作者的检索交互中进行学习,更好地理解检索的内容,以及使检索性能 更接近人类视觉的特性,也是研究中所要解决的问题。 虽然基于内容的图像检索算法已经有了很多种,也有几种图像检索原型系 统,但检索精度和语义检索方面仍然是需要研究的问题,对用于检索的图像内 容描述和数据模型,高维的图像特征向量的计算,图像数据库的结构和索引都 需要进行研究。 针对基于内容的图像检索研究的现状和发展趋势,本文主要对基于内容的 图像检索和相关反馈算法作深入研究,同时研究了与其相互关连的几个问题。 主要包括以下几个方面: 夺图像检索与相关反馈模型和方法 主要是图像检索的层:天分析,图像检索模型和加入相关反馈后的检索模 型,支持图像基于内容检索的图像数据模型。 令基于内容的图像特征提取和检索算法 图像的视觉特征主要是颓色特征的表达和量化方法,针对这些特征的检 索算法以及相关反馈尊法。 令基于相关反馈的图像善义提取方法 稿:图像视觉特征的基圣上,研究通过反馈算法来获取语义特征或者分类 图像。 夺设汁实现了基于内容与喟关反馈的图像检索系统f i s h i p 第5 兜 国防科学技术人学研究生院学位论文 系统实现了图像分类浏览与检索,基于内容检索,相关反馈,基于语义 检索及组合检索。 1 3 2 论文结构 本文第二章提出基于内容的相关反馈图像检索模型,统领全文。介绍了相 关性和相关反馈的基本思想。总结出基于内容图像检索系统的一般结构。 第三章是在第二章研究的基础上,结合具体实验工作,讨论图像视觉特征 等的提取方法,并研究了几种基于内容的图像检索算法,以及基于视觉特征的 相关反馈算法。 第四章详细阐述基于相关反馈的图像高层语义的提取。分析了图像的语义 层次,比较现在图像语义提取的方法和不足之处。讨论语义网络的概念和其在 图像语义检索中的应用。 第五章讨论基于内容图像检索系统的用户接口、图像数据库的设计与实现 和图像检索的应用问题。介绍了本文的试验系统f i s h i p 及其相关工作。进行了 大量的试验,并对试验结果分析讨论。 第六章,总结本文的工作并展望今后的研究热点与方向。 筇6 贝 国防科学技术人学研究生院学位论文 第二章相关反馈与图像检索模型 数学模型是使复杂阃题简单纯的有效手段 相关性问题是信息检索中一个比较难以定义的概念,基于内容图像检索中 为了提高人的作用,同时也提高系统检索的精度,而引入了相关反馈概念和算 法,在本章中简单的介绍相关反馈的基本思想。我们提出基于内容和相关反馈 的图像检索模型,它是全文的总纲,表达了本文所要研究的内容和他们之间的 关系。 “ 2 1基于内容与相关反馈的图像检索系统 2 1 1图像检索系统的一般结构 基于内容图像检索系统,一般由图像添加子系统、特征分析与提取子系统、 用户查询与交互子系统、数据唪支持予系统、图像表现等主要模块组成。如图 2 一l 所示。 图2 i 基丁f j x 剖像检索系统的结构 ( 1 ) 用户查询和浏览接口 提供给用户方便易用的交三最面,提供多特征融合的金询方式,支持关键字 的语义检索( 该部分要在经迂一定使用次数的反馈并睦语义网络已经建立的基 础卜) 。允r :用户以示例查询莨糊描述等方式对整幅图像、特定对象或多种方 国防科学技术人学研究生院学何论文 式的组合进行查询。返回用户指定大于一定相似度的若干幅图像,提供分类浏 览功能。 ( 2 ) 检索匹配与相关反馈子系统 对用户提交的查询请求进行相似度计算,并返回符合条件的结果。对用户的 相关反馈作出反映,调整数据库中相关参数和权重。 ( 3 ) 图像添加与特征分析子系统 把新的图像添加入库,并分析其内容,提取其特征和语义,存入数据库。这 部分是基于内容图像检索的核心,是不反映在界面中的内部算法。 ( 4 ) 数据库及其索引和过滤器 索引过滤模块可以提高检索的速度,从而可以应用到海量图像数据库中。 在进行向量运算之前先滤除那些不符合要求的图像,过滤出的数据集合再用高 维特征匹配来检索,索引则用于低维特征,可以利用b + 树方式以加快检索。过 滤器作用于全部数据,索引结构根据图像特征数据的高维特征来建立。 2 1 2 基于内容与相关反馈的图像检索 目前,基于内容的图像检索技术中所抽取的图像特征基本上是图像的底层视 觉特征,它们与图像的实际语义是脱离的,底层视觉特征目前尚无能力辨别出 图像中所包含的物体。因此,无论采用何种特征,无论使用何种距离测度,最 终决定两幅图像是否相似还取决于实际用户。我们认为:基于内容的图像检索 系统应该尽可能地做到以用户为中心,而不是以计算机为中心。另外,由于侧 重点的不同,不同的用户对图像的相似性的判断也存在不同的标准。为此需要 研究如何使系统自动适应这种特定的需求,从而实现更好的查询效果。相关反 馈是提高系统查询效果的一种强有力的方法。 在基于内容图像检索中,查询得到的结果应该是一组和用户提交的查询请求 相似的图像集合,然而由于基于内容图像检索还无法达到非常精确的匹配,结 果中必然含有非用户想要查询的图像。因而,用户在结果中再次选择与其检索 目标最接近的图像作为示例图像进行二次查询,系统将根据用户的反馈信息对 图像库进行相应的修改,并重新反回一组结果,这样的过程就是图像检索中的 用户相关反馈问题。 相关反馈可以让用户的个性化反映到结果中,并提高系统的适应性。在一组 结果中,用户对其满意的图像赋予f 反馈,对其不满意的赋予负反馈,使得系 统能够逐步细化其检索结果,从而提高检索精度。系统还可以从示例图像的语 义特征中推导出检索结果中正反馈和负反馈图像的语义信息,在第四章中将具 体讲述这个问题。 当前的相关反馈研究可以分或两大类:查询点移动和重新计算权重。当前基 于系统估计的相关反馈,这种查询仅仅依赖图像低层特征如颜色,纹理,形状。 如果特征向量可以代表查询的本质,系统的工作将很好。 查询点移动方法本质上是试蕾提高查询点的估计,向正例点移动,而远离反 例。提高这种估计常用的是r o c c h i 0 的公式: 卧口g + ( 古,;一y ( 寿羞川 ( 2 - t ) 反馈集文档d 。和悱反馈文哨d 、是用户给定。其中g t ,p ,y 是常量,、n 、 第8 页 国防科学技术人学研究生院学位论文 是反馈集文档d 。和非反馈文档d 。的个数。这种技术在m a r s 9 系统中实现。 试验显示检索性能可以通过相关反馈得到相当的提高。 权重计算方法的中心思想非常简单和直观。m a r s 系统实现了称为标准偏差 9 方法的权重计算优化。因为每个图像用n 维特征向量来表示,我们可以把它 看成n 维空间的一个点。因此,如果正例的变化主要沿着主轴j ,我们可以推 导出在这个轴上的值对于输入查询不是非常相关因此我们赋予它一个小的权重 w ,。因此,特征矩阵的第j 个特征值的标准偏差的倒数被用来作为根新权重w 。 的基本思想。 最近,更多的具有计算鲁棒性和全程优化的方法已经提出来。i s h i k a w a 等 设计的m i n d r e a d e r 检索系统阐明了参数估计过程的最小问题。和传统的检索系 统不同,它们的距离函数可以用沿坐标轴排列的椭圆来表示,m i n d r e a d e r 系统 提出一种不必沿坐标轴排列的距离函数。因此,它考虑到在每个元素之间属性 的相关性。这种方法的更好的改进是由r u i 和h u a n g 7 提出来的,在他们的c b i r 系统中,不仅阐明了优化问题,也考虑到了图像多层模型。 2 2 相关反馈的基本思想 相关反馈的目标是从用户与查询系统的实际交互过程中进行学习,发现并 捕捉用户的实际查询意图,并以此修正系统的查询策略,从而得到与用户实际 需求尽可能相吻合的查询结果。由于相关反馈可以实时地修改系统的查询策略, 从而为检索系统增加了自适应功能。 2 2 1 相关反馈的概念与发展 相关性是信息学中最基本也最有争议的概念之一。它是最终用户对信息检索 结果输出的默认或明确的判定。早期信息学家认为相关性的概念是与信息系统 设计、开发及评价相关联的。然而对于相关性的确切性质的认识很少一致,它 在系统中被集成为一个操作部分或被用于系统评价的更少。 由于自然语言的模糊性,用户的信息检索需求不可能充分表达,即便是经 过专门检索训练的用户,也很难完全用基于系统语言的提问来表达自己的检索 需求。换言之,在丌始进行信息查找行为时,用户的信息需求是模糊的。而传 统的信息检索理论认为,信息需求决定信息检索,检索结果满足信息需求。这 也是信息检索系统或信息交流系统的指导思想,在系统内部,检索行为是以明 确的提问,如主题词、分类号、或者明确的数学表示等为前提的,并认为这些 提问即是用户的信息需求。因此,可想而知这类模型与现实的差距较大 3 8 。 对于用户而言,判断篇文献或一条信息的相关性比清晰地表达他的需求更为 容易,即使不能清楚地知道需要什么,但用户能够识别什么信息可以满足其需 求,因此通过对检索到的文献的相关性进行判断,用户逐渐接近其需求,最终 能得到满意的结果。 在检索系统中,加入相关反馈机制的目的,是通过检索策略的调整来增强 对相关文献的响应而抑制非相关文献。v a nr i j b e o g a n 指出了仅对用户的仞始 提问提供更多更好的十h 关文献的排序结果,对提高检索效果具有局限性,指出 修正提问的必要性 1 9 。许多年以来,相关反馈被用来解决修证提问的问题。 第9 页 国防科学技术入学研究生院学位论文 早期的s m a r t 系统( s a l t o n ,1 9 7 1 ) 和概率模型,都显示加入相关反馈后,在小 的测试样本集合上检索性能有显著的改进。 2 2 2 相关反馈的基本思想 顺序检索的情况下,系统将那些查询相关性( 即系统认为的文献对提问的 相关性) 大于某个阈值的文献输出,而丢弃其他的文献。不妨以向量空间模型 为例,其检索策略是由匹配函数的计算而实施的。对给定提问q ,相关性阈值 t ,检索结果是集合f d lm ( q ,d ) t 。对于一个已给定的用户需求,被检索的 文献集合事实上已经被潜在地划分成两大部分,一部分是用户认为与其需求相 关的文献( 相关文献集合记为r ) ,另一部分则不相关( 无关文献集合记为 i ) 。这种划分是不可预知的。我们希望的最理想结果是一个检索过程检出的相 关文献最多,而不相关文献最少。这种理想状态当然很难实现,尤其不可能一 次实现。在若干次反馈和修正后,可以达到用户满意的程度,并处于最优的范 围之内。最理想的提问应满足: m ( q 。d ) t ,d r m ( q o 。o ) t ,d i( 2 - 2 ) 用户提出的初始提问与最优提问往往有较大距离。n i s s o n 证明的定理指出 q 。是存在的,而且可以通过有限步调整,可以使初始提问与最优提问达到 非常接近的程度。其调整如下: q = q 一l + c d , 彳( q 一1 d ) 一丁s0 ,a n d d r ,。m q = q h c d ,m ( q 十d ) 一t 0 ,a n d d , 这里仅仅得到最优提问所满足的条件,以及它的存在性与可接近性,而实 际情况还要复杂得多。 2 2 3 提问修正 向量空间模型是一种基于词加权的方法,它将提问、文献都表示为等长的加 权词向量。假设对某次提问q 的加权词向量j 检索到m 篇文献,其中 d j ,d i ,被用户判定为相关文献,d _ ,d ? 。为无关文献,这样可用 下式修正提问的加权词向量。相关反馈可以有一个迭代的过程,从初始提问, 第j + 1 个修正提问的加权词向量为 亘川= 砸,+ 等喜西i ,一i g e q - n ,( 2 4 ) 亘川= 砸,+ 西;,一y y b ;j ( 2j ) - l= 。 其中q 、b 、y 为可选定眭苇数,修l f 过的第( j + 1 ) 个提问应能检索到更多 的与第j 次提问相关的文献i 口与d 。,d 。,棚似的文献。 在这个迭代过程中,每多对提问的修i f ,都是通过凋整提问的词加权向 国防科学技术人学研究生院学位论文 量来实现的,我们逐渐地增加了“重要”的词的权重,减低了不重要的提问词 的权重。在采用潜在语义标引方法( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 的向量空 间检索系统中,由于l s i 方法可以捕捉到文献的语义结构特征,因此以上的修 正过程增加了与检到的相关文献具有相似语义的文献的权重,降低与非相关文 献类似的文献的权重。 。 采用以上计算公式的反馈机制,在交互式的文献检索系统中,还存在一个 问题,就是用修正过的提问得到的检索结果怎样被组合在先前的提问结果中, 尽管已提出了许多解决办法,但是都有缺点:简单地将它们连接起来,会引起 无关文献还保留在整个结果列表中,因为先前的提问结果中可能会包含与修正 过的提问无关的文献:单纯地覆盖会使以前的结果列表丢失。a a l b e r s b e r g 提 出了一个用户界面,绕过了这一问题,同时也具有较小的计算量 1 9 。这个反 馈接口仅提供给用户系统认为是与提问最相关的文献,用户只须指出其是否真 正相关,这些信息就会被输入一个提问修正和重新执行处理系统,并计算出下 一个假定的最相关文献。从初始提问和与其对应的加权词向量开始,可以得出, 第j + 1 个修正提问的加权词向量为: 亘川: 哩,+ 粤一,叫 ( 2 _ 6 ) 。 i 蛔,+ 归,d j i d j 是提问q j + i 的检索结果中最相关的文献,d j 不同于d l d j 一1 。 2 2 4 标引词权重的确定与调整 在词加权捡索系统中,一个词的权重与出现在这个文本中的每个词有关。这 里的文本可以是一个文献数据库中的一篇文献,一个媒体数据库中的一种媒体 或用户提问的文本。文本w 中的词s i 的权重w i 表示了k 与s i 的相关性。 词的权重表示最终用于计算每篇文献和用户提问的文本相似性。对于提问的响 应是将文献库中的所有文献按对提问的文本相似性降序输出。标引词的权重计 算有不同方法,下面介绍两种: 1 向量空问模型 提问和文献都被看作文本用等长的向量表示。对词域 s = s i ,s ,s 。 文本w 在s 上的加权词向量为 w = ( 0 w t t ,w i ,) w i 是词s i 的权重。 定义提问q 和文本w 的相似性为它们向量表示的内积。 一一 三 一 s i m ( q ,r ) = q ,9 = ( q 一,g 。) ( 2 7 ) 若亘、w 一为标准向量,s i m ( o ,旷) 【o ,l 】 其中,0 代表最小相似性! 为最大相似性 国防科学技术人学研究生院学位论文 w 。: 丝些竺些丝( 2 - 8 )2 1 亍三一 j z ( f r q ( s , , 矿) 1 0 9 ( n n 。) ) 2 l 比是词s 对提问或文献文本w 的权重,f r q ( s ,w ) 是s 在文本w 中的词 频,n 是文献总数,n ,是文本w 中词s 出现的频数,n 。是词s 出现的频数。 2 概率模型 一 概率模型是基于提问词在相关和非相关文献中的分布概率的,表示成提问 词权重为 驴b g : ( 击) ( 志丢 。, 其中,w ,是标引词i 在提问j 中的权重,r 是提问j 所得到的相关文献中 包含标引词i 的文献数量,r 是与提问j 相关的文献总数,r l 是用于检索的所 有文献中包含标引词i 的文献数量,n 是文献总集包含的文献数目。s p a r c k j o n e s ( 1 9 7 9 ) 的实验中所使用的相关反馈机制仅从较少的相关文献计算调整标 引词权重,达到显著的性能改进。将上式变形并定义了i d f 项,调整标引词权 重时仅用了i d f 度量,表明概率模型对于相关反馈中调整词权这一方面是一种 很有用的方法。初始化时,标引词的权重用p r i s e 系统的标准词加权算法计算。 w e i g h t m = ( 1 0 9 2 ( 啪* + 1 ) ,d f ) l 0 9 2m ( 2 - 1 0 ) w e i g h t 。是标引词i 在文献k 中的权重,f r q 。是词i 在文献k 中的出现频 数,是文献k 中的词的总量( 文献长度) 。 m f , = l o g ,( n u m d , ) + l ( 2 1 1 ) n 是文献集合中的文献总数,n u m d i 是文献集合中包含标引词i 的文献总 数。 为了在相关反馈过程中对提问词重新加权,下式是c r o f t ( 1 9 8 3 ) 重新描述 的r o b e r t s o n s p a r c kj o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人贷款个人管理办法
- 设计师方案管理办法
- 自营交易室管理办法
- 舞蹈兴趣班管理办法
- 贷款重组相关管理办法
- 装载机安全管理办法
- 三库管理平台管理办法
- bt项目资金管理办法
- 上市公司证券管理办法
- 营销管理办法如何制定
- 实习生劳务合作合同6篇
- 2025《义务教育信息科技课程标准(2022年版)》测试题库及答案(共4套)
- 环境监测业务流程
- 房屋提前移交免责协议书5篇
- (完整版)小学1-6年级英语单词(人教版)
- DB36-T 954-2024 低产低效林改造技术规程
- 《环境保护法》知识参考试题库200题(含答案)
- 食堂食材配送采购投标方案(技术标)
- 交通安全防御性驾驶
- 护理情景模拟演练脚本
- 征信异议申诉合同(2篇)
评论
0/150
提交评论