




已阅读5页,还剩121页未读, 继续免费阅读
(信号与信息处理专业论文)图像检索中自动标注技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据迅速增 长。面对海量图像资源,基于内容图像检索( c o n t e n tb a s e di m a g er e t r i e v a l 。c b i r ) 技术能够有效地分析、组织和管理图像数据,因此成为多媒体领域的研究热点。 然而由于受到“语义鸿沟 瓶颈的制约,也就是低层视觉特征( 如颜色、纹理、形 状等) 不能完全反映和匹配用户的查询意图,导致c b i r 技术遇到了前所未有的巨大 挑战。近几年发展起来的自动图像标注技术就着手于建立起高层语义与低层特征 之间的桥接,是解决“语义鸿沟问题的有效途径之一。 针对当前自动图像标注技术中存在的问题和不足,本文尝试和探索从不同的 角度挖掘图像内容的语义概念,即半监督模式、小样本学习、伪相关反馈机制与 多视角的语义关联性分析,以此强化对图像内容的语义理解,改善自动图像标注 的性能。主要成果和创新之处包括以下几个方面: ( 1 ) 半监督模式下的自动图像标注 本文首先探讨了自动图像标注问题本身的特点,即由于一幅图像被标注多个 关键词,同时一幅图像又包含多个区域,因此其属于一个多类多示例学习问题, 据此提出了在半监督模式下完成自动图像标注任务。通过在多示例学习框架下对 语义关键词进行独立分析,将多类分类问题转化为半监督模式下的二类分类问题, 实现语义粒度的层次化描述,以期有效挖掘图像的内在语义概念。实验结果验证 了该图像标注框架的有效性。 ( 2 ) 自动图像标注中小样本学习问题 虽然图像标注工作已经取得了很大的进展,但是由于关键词语义类别的多样 性,用于图像标注任务的训练图像数量相对不足,即小样本学习问题,导致了图 像标注的效果不甚理想。为了解决自动图像标注中小样本学习问题,本文着重研 究了在最小参考集( m i n i m u mr e f e r e n c es e t ,m r s ) 框架下的多示例学习策略。通过 采用具有最小m r s 的代表示例集合表征关键词的语义信息,提高了多示例学习的 鲁棒性,从而使得在训练样本不足时自动图像标注的性能得到显著改善。 ( 3 ) 伪相关反馈框架下的自动图像标注 从数据挖掘的角度分析可知,图像检索与图像标注两种技术在某种程度上具 有一致性及互补性。针对现有基于s e a r c h 的图像标注中存在的不足,如相关图像 集合的精度低、用户负担重等,本文尝试通过有效融合伪相关反馈机制,建立伪 相关条件概率标注模型。在避免人工干预的同时实现自动迭代搜索,以期获得更 为可靠的相关图像集合;而且利用基于文本分析技术获取关键词之间的语义关联, 从而更好地服务于图像标注任务。 ( 4 ) 多视角的语义关联性分析 如何挖掘基于语义的多视角相关模型是当前自动图像标注技术中一项重要而 迫切的研究课题。本文从概率关联模型角度,分析了隐马尔科夫模型解决自动图 像标注任务的可行性。在直推式支持向量机的框架下,有效地建立图像关键词之 间的对应关系:而且通过融合关键词的共生关系与语义词典,高效地获取关键词 关键词之间的语义关联,建立了图像关键词与关键词关键词的多视角相关模型, 有助于解决自动图像标注任务。 关键词:图像检索,自动图像标注,半监督学习,多示例学习,伪相关反馈,隐 马尔科夫模型,直推式学习 分类号:t p 3 9 1 a b s t r a c t a b s t r a c t :w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya n dc o m p u t e rn e t w o r k , c o n t e n t - b a s e di m a g er e t r i e v a l ( c b m ) b e c o m e sm o r ea n dm o r ei m p o r t a n tt oo r g a n i z e , i n d e xa n dr e t r i e v et h em a s s i v ei m a g ei n f o r m a t i o ni nm a n ya p p l i c a t i o ns c e n a r i o s t h u s , c b i rh a se m e r g e da sah o tt o p i ci nr e c e n ty e a r s h o w e v e r , t h ei m p r o v e m e n to fc b i ri s h i n d e r e db yt h ew e l l k n o w ns e m a n t i cg a pb e t w e e nl o w - l e v e lv i s u a lf e a t u r e s ,e g c o l o r , t e x t u r e ,s h a p e ,a n dh i g h - l e v e ls e m a n t i cc o n c e p t s a u t o m a t i ci m a g ea n n o t a t i o n ( a i a ) i s af e a s i b l ew a yt on a r r o wd o w nt h es e m a n t i cg a ps i n c ei ta t t e m p t st oe s t a b l i s ht h eb r i d g e b e t w e e nl o w - l e v e lv i s u a lf e a t u r e sa n dh i g h - l e v e ls e m a n t i cc o n c e p t s a i m i n ga tt h ep r o b l e m sa n dt h ed i f f i c u l t i e si n t h ef i e l do fa i a ,t h es e m a n t i cc o n c e p t s o fi m a g e sa r em i n e df r o md i f f e r e n tv i e w s ,i e t h em a n n e ro fs e m i - s u p e r v i s e dl e a r n i n g , t h el e a r n i n go fs m a l ls a m p l e s ,t h es c h e m eo fp s e u d or e l e v a n c ef e e d b a c ka n ds e m a n t i c r e l a t i o n s h i pb a s e do nm u l t i p l ev i e w s s i n c et h e s e m a n t i cu n d e r s t a n d i n go fi m a g e c o n t e n ti sa d d r e s s e db a s e do nt h ef o u rv i e w s ,t h ep e r f o r m a n c eo f 砧a c a r la l s ob e l a r g e l yi m p r o v e d t h em a i nc o n t r i b u t i o n so ft h ed i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) a u t o m a t i ci m a g ea n n o t a t i o ni na m a n n e ro fs e m i - s u p e r v i s e dl e a r n i n g t h ed i s c u s s i o na n da n a l y s i so fa i ai sg i v e ni nt h i sd i s s e r t a t i o n ,i e o n ei m a g ei s a n n o t a t e db ys e v e r a lk e y w o r d sa n di ss e g m e n t e di n t om a n yr e g i o n s t h e r e f o r e ,t h et a s k o fa i aa t t r i b u t e st ob o t ht h e p r o b l e m o fm u l t i p l e - c l a s s i f i c a t i o nl e a m i n ga n d m u l t i p l e i n s t a n c el e a r n i n g ( m i l ) f o rt h i s ,t h ed i s s e r t a t i o np r o p o s e st h a ta i a i sr e s o l v e d i nam a n n e ro fs e m i s u p e r v i s e dl e a r n i n g b yi n d e p e n d e n t l ya n a l y z i n gt h ek e y w o r d s u n d e rt h ef r a m e w o r ko fm i l t h em u l t i p l e c l a s s i f i c a t i o ni sa b l et ob et r a n s f c i r m e di n t o b i n a r y c l a s s i f i c a t i o n s ot h a tt h eh i e r a r c h i c a ld e s c r i p t i o no fs e m a n t i cg r a n u l a r i t yi s i m p l e m e n t e da n dt h ei n t r i n s i cs e m a n t i cc o n c e p ti se f f e c t i v e l ym i n e d t h ee x p e r i m e n t a l r e s u l t sv e r i f yt h ee f f e c t i v e n e s so ft h ep r o p o s e df r a m e w o r k ( 2 ) s m a l ls a m p l el e a r n i n gi na u t o m a t i ci m a g ea n n o t a t i o n a l t h o u g hm a n yi m p r o v e m e n t sa r em a d ei nr e c e n tr e s e a r c h e s ,t h ep r o b l e mo fs m a l l s a m p l e si sm o r ea n dm o r es a l i e n ti nt h ed o m a i no fa i a ,w h i c hd e g r a d e sg r e a t l yt h e p e r f o r m a n c eo fi m a g ea n n o t a t i o n i no r d e rt of o c u s0 i it h ep r o b l e mo fs m a l ls a m p l e s , t h em i ls t r a t e g yb a s e do nm i n i m u mr e f e r e n c es e t ( m r s ) i si n v e s t i g a t e di nt h i s v d i s s e r t a t i o n t h e n ,t h es a l i e n ti n s t a n c es e tw i t ht h es m a l l e s ts i z eo fm r sc a nb e a c c u r a t e l ye x p l o i t e dt oc h a r a c t e r i z et h e s e m a n t i cc o n t e n to fk e y w o r d s s i n c et h e r o b u s t n e s so fm i li sp r o m o t e d ,t h eq u a l i t yo f a i ac a na l s ob ei n c r e a s e dg r e a t l y ( 3 ) p s e u d or e l e v a n c ef e e d b a c ko r i e n t e da u t o m a t i ci m a g ea n n o t a t i o n a n a l y z e df r o mt h ev i e wo fd a t am i n i n g ,t h ei m a g ea n n o t a t i o nt e c h n o l o g yp o s s e s s e s t h e c o n s i s t e n c ya n dt h ec o m p l e m e n t a r i t i e sw i t ht h ei m a g es e a r c ht e c h n o l o g y t o o v e r c o m et h ed i f f i c u l t i e si ns e a r c hb a s e di m a g ea n n o t a t i o n , e g 1 0 w e ra c c u r a c yo f r e l e v a n ti m a g e s ,m o r eb u r d e n so nh u m a n ,t h ed i s s e r t a t i o na t t e m p t st oi n t e g r a t et h e s c h e m eo fp s e u d or e l e v a n c ef e e d b a c ki n t ot h et a s ko fa i aa n dc r e a t et h ep s e u d o r e l e v a n c ep r o b a b i l i t ym o d e lo fa u t o m a t i ci m a g ea n n o t a t i o n h e n c e ,m o r er e l i a b l e r e l e v a n ti m a g e sa l ee x p l o r e dw i t h o u th u m a n si n t e r r u p t i o na n dt h es e m a n t i cc o r r e l a t i o n s a m o n gk e y w o r d sa r em i n e db yt h et e c h n o l o g yo f t e x t u a la n a l y s i s , w h i c hl e a d st ob e t t e r a n n o t a t i o np e r f o r m a n c e ( 4 ) s e m a n t i cr e l a t i o n s h i pa n a l y s i sf r o mm u l t i p l ev i e w s a p o p u l a rt e c h n o l o g yi sf o c u s e do nh o w t ob u i l dt h es e m a n t i cr e l a t i o no fr e l e v a n c e m o d e lb a s e do nm u l t i p l ev i e w sr e c e n t l y f r o mt h ev i e wo fp r o b a b i l i t yr e l e v a n c em o d e l , i ti sf e a s i b l ef o rh i d d e nm a r k o vm o d e l ( h m m ) t od e a lw i t l lt h et a s ko fa i a u n d e rt h e f r a m e w o r ko ft r a n s d u c t i v e s u p p o r t v e c t o rm a c h i n e ,t h e c o r r e s p o n d e n c e o f i m a g e - k e y w o r di sa b l et ob ec o n s t r u c t e de f f e c t i v e l y m o r e o v e r ,t h es e m a n t i cr e l a t i o no f k e y w o r d - k e y w o r di sc o r r e c t l ym i n e db yc o m b i n i n gt h ec 0 o c c u r r e n c ea n dt h et o o lo f w o r d n e t t h e n ,t h em u l t i p l e v i e w sb a s e dr e l e v a n c em o d e l ,i e i m a g e k e y w o r da n d k e y w o r d - k e y w o r d ,c a l lb eb u i l tt op r o m o t et h eq u a l i t yo f a i a k e y w o r d s :i m a g er e t r i e v a l ,a u t o m a t i ci m a g ea n n o t a t i o n ,s e m i s u p e r v i s e d l e a r n i n g ,m u l t i p l e i n s t a n c el e a r n i n g ,p s e u d or e l e v a n c ef e e d b a c k ,h i d d e nm a r k o v m o d e l ,t r a n s d u c t i v el e a r n i n g c l a s s n 0 :t p 3 9 1 致谢 f 值此论文完成之际,首先谨向我尊敬的导师赵耀教授表示衷心的感谢! 感谢 导师几年来的辛勤培养,感谢导师为我们取得的每一点进步所付出的大量心血。 导师以他渊博的学识、深邃的思想给予我不倦的教诲和悉心的指导,使我的博士 论文得以顺利地完成。导师严谨的治学态度、勤勉的工作精神、务实的生活作风 和睿智的学者风范给我留下了深刻的印象;他对科学的热情和对自己信念的执著 将对我今后的学习、工作和生活产生潜移默化的长远影响,令我终身受益。导师 不仅为我创造了良好的学习和科研环境,同时,在日常生活中给予了我无微不至 的关怀和照顾,从师五年的学习经历使我受益颇多,我将终生难忘。我会永远记 住赵老师为我所获得的每一次成功而露出的欣慰笑容。 在本文的研究与撰写过程中,得到了朱振峰副教授热心的指导和无私的帮助, 在此表示深深的谢意。同时还要感谢袁保宗教授、阮秋琦教授、梁满贵教授、裘 正定教授、肖扬教授、苗振江教授、胡绍海教授、倪蓉蓉副教授以及讲师郭神华、 鲁凌云、白慧慧、刘美琴给予的大力帮助,他们热情和深刻而富有洞察力的见解 使我获益良多。 在博士学习期间,还得到许多同学的帮助,与各位同学的讨论和交流使我受 益匪浅,使我得到了很多有价值的启示和建议,他们是:韦世奎、林春雨、王安 红、张志远、翁韶伟、刘楠、曹刚、黄晗、顾广华、田华伟、孟丽丽、于丽芳、 肖延辉、秦伦明等。他们的真诚合作与帮助使我度过了五年愉快而充实的学习生 活,在此一并向他们表示诚挚的谢意! 另外,特别感谢在做博士论文过程中得到 了冯松鹤、李兵同学的许多帮助,在此表示深深的谢意。 特别要感谢我的父母、丈夫和公婆及其他的亲人,正是他们真诚无私的奉献 和持之以恒的支持与鼓励,才使得我能够没有后顾之忧地专注于学业,没有他们 全身心的支持和巨大的付出,我将难以完成本论文。本论文凝聚了他们的大量心 血,再次对他们表示深深的谢意。 最后,谨以本文献给所有关心、帮助和支持我的老师、亲人和朋友们! 第一章绪论 随着多媒体、计算机、通信技术与i n t e m e t 网络的迅速发展,以及社会需要的 变化,每天从政府机构、军方、民间都产生出大量数据。其中有很大一部分是图 像、视频和音频等多媒体数据。面对如此大量的数据,如何对它们进行有效的组 织、管理,并从中检索出用户需要的信息就成为一个非常重要的问题,其核心技 术即为多媒体信息检索( m u l t i m e d i ai n f o r m a t i o nr e t r i e v a l ,m i 鼬技术。在众多的多媒 体形式中,视觉媒体在其中占据着重要的地位。相关研究表明,人类在对物质世 界的感知过程中,有8 0 以上的信息来源于视觉。图像作为一种重要的视觉信息 载体,具有形象直观、内容丰富等特点,是组成视觉媒体的重要内容。图像不仅 是除文本外在网络上使用最多的媒体形式,也是表示其他多媒体信息最方便的方 式,为此图像检索( i m a g er e t r i e v a l ,i r ) 技术从2 0 世纪7 0 年代以来逐渐成为了一个 非常活跃的研究领域。 1 1 图像检索的发展及现状 近年来,在数据库系统和计算机视觉两大研究领域的推动下,图像检索技术 按照检索方式的不同可以分为两大类:一类是基于文本的图像检索( t e x t b a s e d i m a g er e t r i e v a l ,t b i r ) ,而另一类是基于内容的图像检索。 1 1 1 基于文本的图像检索 早期图像检索使用的是基于文本标注的方式,即基于文本的图像检索【l 】,它的 历史可以追溯到2 0 世纪7 0 年代。这种方式是采用手工标注好的关键词或自由文本 来索引图像数据库中的每幅图像,使得对图像的检索转化为对关键词的相关性匹 配与查找,从而发展相对成熟的文本检索技术可以有效的运用到图像检索中。目 前,计算机技术和数据库管理系统的发展,已经使文本检索方式可以支持超大规 模数据集( 数十亿或更多记录) 的快速查询。基于文本信息的检索系统易于使用,检 索速度快,用户只需输入关键词就可以进行查询并得到相应的检索结果。因此这 种便捷特性使基于文本标注的图像检索成为当前重要的图像检索方式,并且得到 了广泛的应用。与早期基于文本的图像检索方式中需要人工进行标注不同,目前 多数商业w 曲图片搜索引擎,女n g o o g l e t 2 1 、a l t a v i s t a 【3 1 、t y c o s 4 、b a i d u 5 1 等( 如图1 1 所示) ,采用的是一种半自动方式获取图像标注,通过自动地分析网页中图像的环 绕文本( s u r r o u n d i n gt e x t ) 、标题( t i t l e ) 、锚文本( a n c h o rt e x t ) 等元数据( m e t ad a t a ) 进行检索。 0 p 自山一c t q l l 。曩砖奠翟t 蓉疆茹蕊高1 茗守斛蠹- 即忉l 脚喇瞄i - t 7 * 考。 l 穗堕咖嚼融掣:”嘲* 唧,? 必t 二簪畸蠛;一。 。一一j 二 i 一薅t 0 碧爹西澎孕 翁移。翁黧 。瓣i 磊:谥赢舔珊- 7 j。一。? “:爰。 o 鬻 圈圈圈圈 急:等嚣。黑。p a :甾苗谲。徽。墨:雾:急禳 r i :c :- a a 。r m a | m n jr d 。凰。黑凰。 回箧圉圈 。m u 矾m 斗舭l u 睁- “m _ m 上见到的p n 如b 确,- 在 b a b yp a n d ai ni h ec e n l t rm b 曲,p - 8 e p h o l a c 吣鲋0 凸制曲f 砷帅“ 4 舯j 5 0 0 5 k 铆醉母 c 蚋卿1 驺 2 5 - j p g 蛳x h 一 1 t 铀i f , 3 一一, x t2 4 km3 7 0 x2 7 8 2 8 k 。j 呻 m ”y o 工瞄五l j h i 盛三础翻直苴盘酗旺畦上j 黜眩矗蔓扫也钆盘灶幺h 瞌t 出酗k = 生巨翻自洼坛=l o i 堪舻- o 毋嚣j 鸯酷1 图1 - 1g o o g l e 基于文本的图像检索 f i g 1 1t e x tb a s e di m a g er e t r i e v a lb yg o o g l e 随着w e b 图像的激增,采用对图像标注关键词等文本描述信息的方式已不能适 应网络信息检索的要求,其局限性也愈加突出:( 1 ) 早期需要由人工完成图像的文 本标注信息,不仅工作量大、乏味冗长,而且人工标注速度无法适应多媒体信息 爆炸式的增长以及网络的传播速度:( 2 ) 一方面,一些图像所包涵的内容远非少量 标注文本所能完整表达的,即所谓的“一图胜千言”,或者如抽象图像等,其内容很 难用文字来表达;另一方面,由于不同的人对同一幅图像可能有不同的理解,同 一个人在不同环境条件下对同一幅图像也可能会有不同的理解,因此人工标注的 结果也是千差万别。以上两个方面导致了手工文本标注不可避免的主观性和不完 整性;( 3 ) 对于已标注文本注释的网页图像,由于难以断定其周围文字是否为该图 像内容的描述和解释,有时反而会加深检索难度;( 4 ) 世界上存在许多语种,囚而 在全球共享的网络环境下,采用不同语言对图像进行标注而建立的索引在应用中 也会造成一定障碍;( 5 ) 目前的网络图像搜索引擎分析网页的元数据而获得文本标 注,虽然其中含有一定的无关内容,但通过一些w e b 分析技术已得到大幅提高,如 g o o g l e 所采用的著名i 基j p a g e r a n k 技术【6 l 。然而它们都往往只分析了文本信息而没 2 有考虑图像的视觉信息,导致网络图像检索的性能不尽如人意。至2 0 世纪9 0 年代, 随着网络资源的迅速增长和大规模图像库的出现,上述问题变得越来越尖锐,基 于内容的图像检索技术应运而生。 1 1 2 基于内容的图像检索 基于内容图像检索的概念最早i 主l k a t o 于1 9 9 2 年提出【7 1 。应该认识到,基于内容 的图像检索系统与传统基于文本的图像检索系统具有完全不同的构架。具体而言, 基于内容图像检索系统依赖于图像的视觉内容( 如颜色、纹理和形状等) 而非文本描 述进行索引,而且查询是根据图像之间的视觉相似性度量来实现。用户通过选择 具有代表性的一幅示例图像或轮廓草图来构造查询,然后由系统查找与用户查询 在视觉内容上比较相似的图像,按相似度大小排列并取前面的多幅图像作为检索 结果返回给用户( 如图1 2 所示) 。由于图像视觉特征的抽取和匹配可完全由计算机 自动完成,基于内容的图像检索技术克服了人工标注的低效性、主观性和工作量 大等弊端,得到了广泛的研究与应用。近年来,作为一个极具挑战性的课题,基 于内容的图像检索技术已经成为一个热门的研究领域。它融合了图像理解、模式 识别和计算机视觉等理论,并且综合了人工智能、面向对象技术、认知心理学以 及数据库等多领域的知识。它的应用前景包括:图像搜索引擎、数字图书馆、航 空航天、新闻媒体、教育、娱乐等众多领域。 检索结果显示 图1 2 基于内容的图像检索示例 f i g 1 2e x a m p l eo fc o n t e n tb a s e di m a g er e t r i e v a l 似 似 似 国内外众多研究机构和商业组织对基于内容的图像检索技术进行了深入研 究,在过去十几年中取得了大量的科研成果,并开发出许多有价值的研究性或者 商用性图像检索原型系统。国外比较著名的有i b m 公司开发的q b i c ( q u e r yb y i m a g ec o n t e n t ) 系统t 引、v i r a g e 公司开发的v i r a g e 系统【9 】、m i t 媒体实验室开发的 p h o t o b o o k 系统【、美国哥伦比亚大学开发i 拘v i s u a l s e e k 系统f l l j 以及美国伊利诺伊 大学u r b a n a - c h a m p a i g n 分校( u i u c ) 的m a r s ( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a l s y s t e m ) 系统【1 2 】等。国内比较有代表性的如微软亚洲研究院开发的i f i n d 系统【1 4 】、中 国科学院计算技术研究所与北京图书馆联合开发的m i l 也s 系统【1 3 】以及中国科学院 自动化研究所开发的w i l l h u n t e r 系统【1 5 】等。特定领域的一些研究性或商用图像检索 系统有医学图像检索系统【1 6 1 、商标检索系统【1 7 1 与人脸识别与检索系统【1 8 l 等。图1 3 给出了一个基于内容图像检索的基本流程。 广1 广1 广1 用户请求_ i 特征提取l _ l 相似度量i l 图像排序输出l 一竺o f f 堕- m - l i n e! 一圆一 图l 3 基于内容图像检累的基本流程 f i g 1 3f l o w - c h a r to fc o n t e n tb a s e di m a g er e t r i e v a l 在基于内容图像检索技术的研究初期,研究方向主要围绕如何有效地提取图 像的全局视觉特征( 如纹理、颜色、形状等) ,以及采取何种适当的相似性度量进行 图像匹配,提高图像检索的精确度。基于内容的图像检索原型系统如q b i c 嗍、 p h o t o b o o k 【l o l 、v i s u a l s e e k t 等,均采用基于全局特征表示的检索模式。通常来说, 图像全局特征表达一般只适用于简单的图像或者背景较为单一的图像,如纹理图 像、自然场景图像、建筑物图像等。这是因为,当人眼在观察一幅图像时,总是 很自然地将图像分为前景目标和背景区域,因此用户查询时更注重图像内具有一 定语义信息的特定目标或者区域,而不是背景。换句话说,在进行图像检索时, 用户关心的是图像概念层次上的内容,即图像的语义内容。然而图像的全局特征 只提供粗粒度的语义描述,未考虑到图像中前景物体与背景的差异,因而不能反 映图像丰富的细节语义,使得检索性能不如人意。如果能够把目标从背景中分割 出来,完成对象级的语义描述,则可以减少由于目标物体在图像中背景变化和场 景变化带来的影响,从而接近语义检索的目标i l9 1 。因此提取区域级的低层视觉特 4 征比全局的视觉特征更加贴近人对图像的语义理解,基于区域的图像检索( r e g i o n b a s e di m a g er e t r i e v a l ) 技术也就应运而生。 图像的语义内容通常是与图像中目标区域紧密联系的,因而有效地提取图像 中的语义目标区域,是实现基于语义图像检索的一条重要途径。首先通过自适应 的图像分割技术,将一幅图像分割为若干个同质区域( h o m o g e n o u sr e g i o n ) 。每个 同质区域的语义相对比较单一,这样能较为准确地刻画图像的语义内容;其次在 每一个区域使用局部的特征来描述,综合每个区域的特征得到图像的特征描述; 最后使用固定的相似性度量标准来检索图像。基于区域特征表示的原型系统包括 n e t r a l 2 0 j 、b l o b w o r l d 【2 1 1 、s i m p l i c 毋圜等,文献【2 3 2 6 】也针对基于区域的图像检索 做了大量的研究工作。虽然基于区域的图像检索相较于基于全局的图像检索更加 贴近用户的查询思路,但其也存在一些问题。首先,由于图像分割仍然是计算机 视觉领域一个相当困难的课题,现有的图像分割技术无法保证准确地提取图像中 的语义目标,很难使分割区域与语义对象较好地对应起来;其次,由于图像检索 问题本质上是一个歧义性问题,即用户只对图像中的部分区域感兴趣,这部分感 兴趣的区域代表了用户的查询意图,而多数剩余的不感兴趣区域则与用户查询意 图无关1 2 7 1 。因此文献【2 0 一2 6 】提出的基于全区域匹配的检索策略不但无法体现用户 的检索意图,而且这些无关的区域往往难以正确的匹配,导致检索性能降低。针 对这种情况,文献【2 8 3 0 和文献 3 1 3 5 1 试图分别从考虑用户在检索时的心理感知 和从多示例学习的角度出发获取具有代表性的区域,进而提高检索的精度。 无论是基于全局特征还是基于区域特征的图像检索技术都是依据图像的低层 视觉特征做相似性判断,而人们判断图像的相似性并非仅仅建立在图像视觉特征 的相似性上。实际上,图像检索系统的用户往往事先对所需图像只存在一个大致 的概念,这个概念建立在图像所描述的对象、实践以及表达的情感等含义上。理 想状况下,用户主要根据返回图像的含义,而不是颜色、纹理、形状等特征,直 观地进行分类并判别其满足自己的需要程度。这些图像含义就是图像的高层语义 特征,它包含了人对图像内容的理解,这种理解是无法直接从图像的视觉特征获 得,而是要根据人的知识来判断,这也就意味着图像低层特征( l o w - l e v e lv i s u a l f e a t u r e ) 和高层语义信息( h i g h l e v e ls e m a n t i ci n f o r m a t i o n ) 之间存在很大的“语义鸿 沟( s e m a n t i cg a p ) ”问题。通常来说,人与计算机本质的不同在于人观察图像时结合 了日常生活中积累的大量经验,观察图像的过程同时也是一个利用图像语义知识 进行推理的过程。使计算机对图像的理解能力达到人的理解水平,这就是语义图 像检索的目的。然而由于基于全局特征和基于区域特征的图像检索方式均以图像 为中心进行客观的分析,并未考虑不同用户的主观检索需求,因此无法有效地克 服图像所蕴含的高层语义和用户主观判断之间的差异。图像检索系统的最终用户 5 是人,而不同用户对图像语义的理解不同,因此在图像检索过程中引入用户的查 询意图是将低层视觉特征与高层语义联系起来的一个重要桥接( b r i d g e ) 。在此背景 下,文本检索中得到广泛应用的相关反馈( r e l e v a n c ef e e d b a c k ,l 强) 技术被引入到基 于内容的图像检索系统中,试图弥补这个“语义鸿沟”问题,以期获得更好的检索效 果【3 删。 在基于相关反馈的交互式图像检索过程中,只要求用户根据自身的查询意图 对系统当前的检索结果给出是否相关或者相关程度多少的判断,然后系统根据用 户的反馈进行学习,获得比前一轮更好的检索结果。基于相关反馈的交互式图像 检索系统框图如图1 4 所示。在一个相关反馈系统中,用户相关判断的度量方式和 反馈中的用户模式是两个重要的环节,它们不仅决定了用户与系统交互过程的基 本特征,也大大地影响着相关反馈算法的设计。在基于相关反馈技术的图像检索 系统中,根据相关反馈算法采用检索模型的不同,可以把算法分为查询点移动 4 0 l 、 基于距离度量的方法【3 9 1 【4 1 4 3 】、基于概率框架的方法 4 4 4 7 】与基于机器学习的方法 p s - l 。目前的主流研究都着眼于将相关反馈技术与机器学习理论有机结合起来, 将图像检索问题转化为模式识别中的监督学习或者分类问题,利用成熟的或者较 为新兴的机器学习算法来解决图像检索问题。此外,由于基于区域的图像特征描 述通常更符合用户的语义理解,因此现有基于全局表示的相关反馈算法不再适用。 近年来,景等人1 6 l - 6 3 1 将基于区域的图像特征描述、匹配方法与相关反馈技术相结 合,利用用户的多次反馈不断更新相似性度量方法来逐步改进图像检索的结果。 图l - 4 基于相关反馈的图像检索框图 f i g 1 - 4f r a m e w o r ko fr e l e v a n c ef e e d b a c kb a s e di m a g er e t r i e v a l 近年来,如何有效地融合图像检索技术中现有的两种基本查询方式,即基于 文本的图像检索与基于内容的图像检索,是解决“语义鸿沟”问题的另一种有效途 径。其中的关键就是自动图像标注( a u t o m a t i ci m a g e a n n o t a t i o n ,a i a ) 技术,改进传 统半自动获取图像的文本标注信息方式,表达图像更丰富的语义概念。 6 1 1 3 自动图像标注的研究背景及现状 虽然各国的科研人员在基于内容图像检索的研究方面取得了一些研究成果, 但令人遗憾的是,由于受到“语义鸿沟”瓶颈的制约,也就是低层视觉特征( 如颜色、 纹理、形状等) 不能完全反映和匹配用户的查询意图,导致基于内容图像检索技术 的研究遇到了前所未有的巨大挑战,如何真正实现基于语义的图像检索仍旧是一 个难题。如前所述,作为图像检索的两种基本方式,即基于文本标注的图像检索 与基于视觉内容的图像检索,都各自存在着比较明显的优点和缺点。于是,一种 自然的想法就是将两者结合起来,发挥各自的优点,使得图像检索更加易于使用, 能够在一定程度上弥补这个“语义鸿沟”,也是实现基于语义图像检索的一种有效途 径。在融合基于文本标注和基于视觉内容的图像检索中,一项核心技术就是通过 图像的视觉内容有效地获得图像的标注信息。然而正如前述,以往获取图像文本 标注信息的方法存在着很大局限性,为此许多研究工作着眼于采取完全自动的方 法从图像视觉信息本身来获得图像对应的文本信息。在这种情况下,自动图像标 注技术也就应运而生,其目的就是让计算机自动地给无标注的图像加上能够反映 其内容的文字( 如图1 5 所示) 。 图1 - 5 自动图像标注的不例 f i g 1 5e x a m p l e so fa u t o m a t i ci m a g e a n n o t a t i o n 自动图像标注通过对图像视觉内容进行语义分析、建立文本索引,从而将现 有的图像检索问题转化为已经相当成熟的文本检索或者融合文本与视觉内容的检 索问题。它利用小规模的已标注图像集以及其它可获得的语义关联信息自动建立 语义概念空间与视觉特征空间的关系模型,并用此模型完成对图像的自动语义标 注任务。事实上,这个过程可以看作是把相关反馈中在线( o n l i n e ) i , 吾义概念学习由 离线( o f f l i n e ) 来完成,从而避免相关反馈中的小样本及在线学习中的复杂度问题。 7 此外,自动图像标注不仅克服了从网页中正确提取与图像内容相关的文本信息的 困难刚,也克服了在线学习复杂度高、人工标注的劳动量大及主观性强等缺点。 由于自动图像标注技术试图在高层语义和低层特征之间建立一座桥梁,因此在一 定程度上解决了“语义鸿沟”问题f 6 5 1 。自动图像标注是实现基于语义图像检索的关 键,并且在互联网搜索、军事、数字图书馆、商业、生物医学等领域得到广泛的 应用。目前,国内外许多研究机构和单位都开展了相应研究,并取得了一定的成 绩。特别是随着机器学习理论的不断发展,一些学者利用机器学习相关理论设计 出各种不同的自动图像标注模型。大体上讲,可以分为三大类:基于分类的方法 喁5 鹋l 、基于s e a r c h 的方法【6 5 】【7 螂4 1 和基于概率关联的方法陋7 引。基于分类的图像标注 算法【跖挪】是通过将每个语义关键词看成一个类别标签,将标注问题转化为图像分 类问题进行处理;而基于s e a r c h 的标注方法f 6 5 】【7 9 - s 4 1 是从相关图像的已标注关键词中 学习最终标注结果,将标注过程与s e a r c h 过程相融合,实现可伸缩的自动图像标注; 基于概率关联的标注方法 6 6 - 7 8 】贝i j 是在概率统计模型的基础上,分析图像区域特征 与语义关键词之间的共生概率关系,并以此为待标注图像进行语义标注。尽管上 述方法解决的角度不同,但自动图像标注的核心思想却是一致的:即利用已知的 标注图像建立某种模型来描述文本关键词与图像特征之间的潜在关联或者映射关 系,并据此预测图像的未知标注。 近些年来,w e b2 0 的概念已经深入人心,由这一概念衍生出的网站也形式多 样,但最根本的一点就是要借助网络的力量发掘大众的智慧,将每个用户的个人 资源为大家所共享,如在f l i c l ( r 例、f o t o l i a 啪1 等图像网上,图像的语义标注是通过 网络用户的共同协作完成的。网站允许图像的上载者提供一组能够描述该图像的 关键词,然后系统利用这些关键词来索引图像。还有一些研究机构设计开发了一 些图像标注的小游戏,如m i t 开发的l a b e l m e 【l 、c m u 开发的e s p l l 叫和 p e e k a b o o m l l 0 3 】等,将它们发布到互联网上,让用户在享受娱乐的同时也为开发者 提供了大量较为准确的图像语义信息。这些标注信息一方面可以直接作为w e b 图像 索引,同时也可被用于自动图像标注技术研究中的训练样本。在把对图像的语义 标注运用到图像检索方面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 2940-2025柴油机用喷油泵、调速器、喷油器弹簧技术规范
- 滴滴包车司机考试题目及答案
- 天津小学考试试题及答案
- 土壤修复风险评估方法-洞察及研究
- 2025年高压电工基础知识考试试题集及解析
- 2025年高校教师资格证之《高等教育心理学》试题及答案详解
- 2025年高级会计师考试《高级会计实务》真题及答案解析
- 学生考试奇葩试题及答案
- 魔法史题库大全及答案
- 规范扶贫贷款管理办法
- JCT2425-2017 坐便器安装规范
- 非遗文化创意产品设计 课件全套 第1-5章 概述- 非遗文创产品设计案例解析
- 商丘市金马药业有限公司年产60万件中成药品生产项目环境影响报告
- 员工上下班交通安全培训
- PTN原理、PTN设备和工程维护
- 钢结构分包单位考察文件(项目考察表及生产厂考察内容提示要点)
- 《老年人多重用药安全管理专家共识》解读课件
- “条块结合”、创新学校管理的实践与思考
- QCC报告参考模板
- 西门子数控系统调试
- 经济法说课稿
评论
0/150
提交评论