已阅读5页,还剩113页未读, 继续免费阅读
(计算机科学与技术专业论文)基于内容图像检索中图像语义分类技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 图像语义分类是基于内容图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b l r ) 研 究领域中一个重要而又有挑战性的问题。图像和视频正在成为多媒体的主要表现 形式,将图像数据库划分为有意义的语义类别成为迫切的需要。传统c b i r 技术 试图通过分析图像视觉特征的相似性来检索图像,这不能满足普通人按语义检索 图像的需求。基于低级图像特征将图像集合按语义进行合理的分类,会极大提高 c b i r 系统的性能。本文主要研究基于图像低级视觉特征的图像语义分类。 奉文首先介绍传统c b l r 的研究内容、系统组成和实际系统。详细阐述作为 图像语义分类基础的颜色、纹理、形状、空间关系等低级图像特征,并讨论图像 语义分类的主流技术。针对传统c b i r 的不足,介绍了图像语义检索的主要技术。 图像语义模型是对图像整个语义表示和处理过程的抽象,也提供可行的研究 方向。贝叶斯概率框架是一种将先验概率转化为后验概率的理论框架,通过形式 化的图像分类概率框架可以将低级图像特征映射到已有的高层语义。 图像全局特征的表现形式多种多样,是图像语义分类的重要基础。本文基于 单个图像全局特征提出一种新的图像语义分类方法,借鉴相关反馈机制的基本思 想获得候选图像全局特征集合中具有最优“判别能力”的单个特征,还应用基于 传统摄影学理论的空间分块策略。本文实现室内室外和城市风景两个图像分类 器,并结合在大型图像数据库上的试验结果深入分析该图像语义分类算法。 多种图像全局特征也可以同时应用于图像语义分类。在分析使用多种图像全 局特征优点的基础上,本文提出基于多种图像全局特征并和图像特征空间分布信 息相融合的图像语义分类方法。结合多种图像特征和空间分布信息产生新的图像 特征表示,并应用一种增量学习方法改进算法的性能。试验结果表明该算法特别 适用于特征空间分布相对固定的室内室外等具体图像语义分类问题。 图像局部特征往往对应着特定的语义类别。本文提出利用动态外观模型 ( a c t i v ea p p e a r a n c em o d e l ) 来描述同一语义类别图像中外观相似物体的方法。 通过搜索图像中外观相似的“物体”进而分类和检索语义图像。针对人脸检测和 红眼检测问题在家庭数字影集上进行试验,结果表明算法具有相当高的检索正确 率。 最后开发原型系统t o p a l b u m ,并介绍一些具体实现细节,论证了本文研究 的实用价值。 关键词:基于内容的图像检索,图像语义分类,图像低级特征,高层语义映射, 贝叶斯概率框架,空间分布信息,图像局部特征,动态外形模板,图像语义检索 a b s t r a c t i m a g es e m a n t i cc l a s s i f i c a t i o ni sa ni m p o r t a n ta n d c h a l l e n g i n gt a s k i n t h ef i e l do f c o n t e n t - b a s e di m a g er e t r i e v a l ( c b i r ) s i n c ed i g i t a li m a g e sa n dv i d e o sa r eb e c o m i n gam a j o r s o u mo fm u l t i m e d i ad a t a ,g r o u p i n gi m a g e si n t os e m a n t i c a l l ym e a n i n g f u lc a t e g o r i e si s av e r y i m p e r i o u sd e m a n dt r a d i t i o n a lt e c h n i q u e so fc b i rt r yt or e t r i e v ei m a g e st h r o u g ha n a l y z i n gt h e s i m i l a r i t yo fi m a g ev i s u a lf e a t u r e s ,b u tc b i rc a n n o tm e e tt h er e q u i r e m e n t so fs e m a n t i ci m a g e r e t r i e v a l c l a s s i f y i n gi m a g ed a t a b a s ei n t or e a s o n a b l ec a t e g o r i e su s i n gl o w l e v e li m a g ef e a t u r e s , w i l lg r e a t l yi m p r o v et h ep e r f o r m a n c eo f c b i rs y s t e m s f i r s t l yt h i st h e s i si n t r o d u c e st h ec o n t e n t s ,a r c h i t e c t u r e s ,a n ds e v e r a lp r a c t i c a ls y s t e m so f c l a s s i c a lc b i r t h ee x t r a c t i o nt e c h n i q u e so fv i s u a li m a g ef e a t u r e sa r e s p e c i a l l yd i s c u s s e da s r e s e a r c hf u n d a m e n t a l ,a n dt h e s e t e c h n i q u e si n c l u d ee x t r a c t i o no fc o l o ls h a p e ,t e x t u r e ,a n d s p a t i a l r e l a t i o n s h i pf e a t u r e se t c t h ep r i m a r yt e c h n i q u e so fi m a g es e m a n t i cc l a s s i f i c a t i o na r ea l s o m e n t i o n e d d i s c u s s i o n sa b o u ti m a g es e m a n t i cr e t r i e v a la r eg i v e nw i t ht h ea n a l y s e so fc b i r ,s d r a w b a c k s i m a g es e m a n t i cm o d e li sa na b s t r a c to fi m a g e ss e m a n t i cr e p r e s e n t a t i o na n dp r o c e s s ,a n di t a l s op r o v i d e st h er e a s o n a b l er e s e a r c hd i r e c t i o n s b a y e s i a np r o b a b i l i t yf r a m e w o r ki sa t h e o r yt o t r a n s f e rap r i o r ip r o b a b i l i t yt op o s t e r i o rp r o b a b i l i t y t h i st h e s i s p r o v i d e saf o r m a lb a y e s i a n f r a m e w o r kf o ri m a g ec l a s s i f i c a t i o np r o b l e m s ,w h i c hm a p st h el o w l e v e l i m a g ef e a t u r e st ot h e i n t r i n s i ch i 曲一l e v e ls e m a n t i c s t h e r ea r eav a r i e t yo fr e p r e s e n t a t i o n sf o rg l o b a l i m a g ef e a t u r e s ,a n dt h e ym - ea 1 11 l i e i m p o r a n tb a s e so f i m a g ec l a s s i f i c a t i o nr e s e a r c h a ni m a g es e m a n t i cc l a s s i f i c a t i o na p p r o a c hb a s e d o ns i n g l eg l o b a li m a g ef e a t u r ei sp r o p o s e d am o s t - d i s c r i m i n a t i n gs i n g l eg l o b a lf e a t u r ei ss e l e c t e d b a s e do nt h et h e o r yo fr e l e v a n tf e e d b a c k a tt h es a m et i m e ,t h i sa l g o r i t h m a d o p t st h ei m a g e d i v i s i o n s t r a t e g yf r o mc o n v e n t i o n a lp h o t o g r a p h yt h e o r y c l a s s i f i e r sa l ei m p l e m e n t e df o r l n d o o r o u 怔l o o ra n dc i t y l a n d s c a p ec l a s s i f i c a t i o n p r o b l e m s ,a n di n t e n s i v ea l i a l y s i so ft h e a l g o r i t h mi sg i v e nw i t ht h ee x p e r i m e n t a lr a s u l mo nl a r g ei m a g ed a t a b a s e s m u l t i p l eg l o b a li m a g ef e a t u r e sc a na l s ob ei n c o r p o r a t e dt o g e t h e rt oc a t e g o r i z ei m a g e s t h e a d v a n t a g e so fu s i n gm u l t i p l eg l o b a li m a g ef e a t u r e si sd i s c u s s e d , a n dan o v e li m a g es e m a n t i c c l a s s i f i c a t i o na l g o r i t h mi sp r o p o s e db a s e do nt h ei n t e g r a t i o no f m u l t i p l eg l o b a li m a g ef e a t u r e sa n d s p a c ed i s t r i b u t i o n i n f o r m a t i o no ff e a t u r e s an e wf c a t u r er e p r e s e n t a t i o ni sp r o p o s e d a n da n i n c r e m e n t a ll e a r n i n gs c h e m ei sa d o p t e dt oi m p r o v et h ec l a s s i f i c a t i o np e r f o r m a n c ee x p e r i m e n t a l r e s u l t ss h o wt h en e wa l g o r i t h mi se s p e c i a l l ys u i t a b l ef o ri n d o o r o u t d o o rc l a s s i f i c a t i o np r o b l e mt h a t h a sr e l a t i v e l ys t a b l es p a c ed i s t r i b u t i o no f f e a m r e s t h el o c a li m a g ef e a t u r e sa ma l w a y sc o r r e s p o n d i n gt os p e c i f i cs e m a n t i cc l a s s e sa c t i v e a p p e a r a n c em o d e l sa l g o r i t h m ( a a m ) i su t i l i z e dt od e s c r i b es i m i l a ra p p e a r a n c e so fo b j e c t si n m a g e st h a tf a l li n t ot h es a i x l ec l a s sb e c a u s eo ft h es i m i l a ro b j e c t s a i m i n ga tt h ef a m i l i a rh u m a n f a c e sa n dr e d - e y e sd e t e c t i o np r o b l e m s ,e x p e r i m e n t sa r cp e r f o r m e do nr e a lh o u s e h o l dd i g i t a la l b u m r e s u l t ss h o wt h a tt h ea p p r o a c hh a sv e r yh i g hr e t r i e v a la c c u r a c y f i n a l l y , ap r o t o t y p es y s t e mi sd e v e l o p e db a s e do nt h i st h e s i s sr c s e a r c h s o m ed e t a i l so f i m p l e m e n t a t i o na l ed i s c u s s e da n dt h ep r a c t i c a b i l i t yo f t h i st h e s i s sr e s e a r c hi sd e m o n s t r a t e d k e y w o r d s :c b l r ,i m a g es e m a n t i cc l a s s i f i c a t i o n ,i m a g e l o w l e v e lf e a t u r e s ,h i g h - l e v e l s e m a n t i cm a p p i n g s ,b a y e s i a np r o b a b i l i t yf r a m e w o r k ,s p a c ed i s t r i b u t i o ni n f o r m a t i o n ,i m a g e l o c a lf e a t u r e s ,a c t i v ea p p e a r a n c em o d e l ( a a m ) ,i m a g es e m a n t i cr e t r i e v a l 奉文工作受下列项目资助 国家自然科学基金项日 “真实感三维人脸的实时重建与语音驱动的表情交互” ( 项目批准号:6 0 2 0 3 0 1 3 ) 第一章绪论浙江人学博士学位论文 第一章绪论 本章介绍本论文的研究背景、研究工作、论文的贡献以及整篇文章的组织结构。 1 1 研究背景 图像语义分类是近几年来的研究热点,也是基于内容图像检索研究领域中重要的组成 部分和新的突破口。信息本质上是多模式的,人类自身对信息的处理也是多模式的。进入信 息时代后,易于人们理解的多媒体信息按其特点可以分为语音、音频、图像、视频和文本数 据等。常言道:“百闻不如一见”,图像和视频正在成为多媒体的主要表现形式。 从近 年的数字技术发展来看,数字存储、数字检索和数字传输已经吸引各方面的巨 大的兴趣。这主要是归功于数字技术的巨大突破,诸如更强计算能力的处理器、更高速的计 算机网络、超高容量的存储设备、压缩算法的新进展,以及语音、音频、图像和视频信号处 理的发展等等。这些新进展使人们可以用更有效、更高效率的方法来数字化、存储、检索和 传输令人感* 趣的视听内容,进一步加强人类对多媒体系统的需求和依赖。时至今日,多媒 体系统不仅仅是在经济上具有巨大优势,更是成为充分满足人类需求的必需品。 大量的组织和机构都有非常庞大的图像和视频收藏,这些收藏往往都足以数字化的形 式被存储的,并且可以通过计算机网络存取。数码摄影和数码摄像等数字化技术的出现也使 得越来越多的普通人能够拥有个人的数字多媒体集合。这些大小各异、形式多样的数宁化视 听集不仪会长期存在,而且会越来越多地产生于各种场合。因特网中的令人感兴趣的图像的 数量正以极高的速度增长。参照i n t e x n e ts u r v e y 1 y 6 n 全球互联网统计信息跟踪报告 2 】提供的 统讣数据,在i n t e m e t 上有超过1 6 8 亿台主机( 截止2 0 0 1 年9 月2 8 日) 并且1 2 7 的世界 入口在使用i n t e m e t ( 截止2 0 0 5 年1 月2 1 日) ,而且使用i n t e r n c t 的人口比率和人们希望快 速获得有效图像、视频信息的需求都在不断增长。第十五次中国互联网络发展状况统计报告 【3 】的数据显示,截至2 0 0 5 年1 月,搜索引擎已经成为我国罔民最常用的网络服务之一( 仅 次子电子邮件服务) ,有6 5 的网民会使用搜索引擎查找有用信息。面对如此巨量的数字化 信息,搜索和查询相关联的信息会变得越来越困难。将这些数字化的视听集划分为一些有意 义的语义类别,并且提供有效的语义索引成为越来越迫切的需求。原因有两个,一是将图像 检索的范围限定在某一语义类别的图像中,会提高检索速度和正确率;二是直接按用户的感 知( 语义) 检索图像会极大地满足用户的需求。 图像是多媒体中一种重要的信息载体,具有直观、便于理解和交流等特点。而当今世 界上的主流搜索工具主要还是基于文本的检索,这些i n t e m e t 搜索引擎包括g o o g l e 、y a h o o 、 第1 页 第一章绪论 浙江大学博士学位论文 a s kj e e v e s 等等。虽然大多数搜索引擎都币独提供“检索图像”功能,但基本都足基于图 像文件名或简单的颜色、结构相似性来进行检索的,没有深入到图像的语义层面。通过 g o o g l er 搜索包含有“r e d e y e ”图像的结果( 2 0 0 5 年3 月1 2 日) 可以看出,当今丰要搜索 引擎的确还是通过基于文本的字符串匹配来检索相关图像的,还不能充分理解图像所包含的 人类语义,检索图像性能不佳。 同时,在一个普通家庭中,计算机内存放着数以千计的数字照片已是常事。单个讣算 机内巨量的图像数据常让用户很难快速找到需要的图像,也使用户必须进行繁琐的手工管 理。如何有效地管理、检索单个计算机或局域网中存在的巨嚣图像信息已成为一个相当重要 的、紧迫的问题。当前虽然存在有许多方便用户管理、查询训算机本地文件的软件,如y a h o o ! d e s k t o ps e a r c h 、g o o g l ed e s k t o ps e a r c h 、a s kj e e v e sd e s k t o ps e a r c h 、m s nd e s k t o ps e a r c h t o o l b a r 等等,但他们都是以计算机本地存储的文件作为基本管理和检索的对象,并没有对 图像数据进行特殊处理,也不能按人类的语义来管理、检索图像文件对象。用户使用它们来 管理图像数据,还是有许多繁琐的手工操作要傲。总体看来,当今人们检索图像的需求还没 有被很好的满足。 近十几年来c b l r 技术的出现,从一定程度上解决基于文本图像检索的局限性与人们 图像检索需求之间的矛盾。c b i r 使用可以直接从图像中获得的客观的视觉内容特征,如颜 色、纹理、形状等来判断图像之间的相似性( 4 】。它的主要研究内容是在数字图像处理基础 上的视觉特征提取、多维索引以及检索系统设计【5 】。就图像特征的作用域而言,c b l r 系统 可分为:基丁二全局特征的检索和基于区域特征及其空间关系的检索【6 】。总的来说,c b i r 使 用在用户接口上用例子查询( q u e r y b y e x a m p l e ) j 7 、指定图像各种特征属性的方式【8 】以及草 图、相关反馈等多种可视化的查询方法来代替关键词进行检索【9 】,是一种直观的检索方式。 但是传统的c b i r 系统并不试图了解图像表达的语义知识,只是直观地比较图像特征 问的相似度,不能完全满足普通人按语义分类和检索图像的需求。因此c b i r 中语义图像分 类及检索技术是一个值得深入研究的新兴领域。近年来,语义图像分类和检索技术已经成为 和c b i r 密切相关的研究热点,并成为数字化图书馆等重大研究项目中的关键技术。从近几 年计算机视觉最项级的国际会议i e e ei n t e r n a t i o n a lc o n f e r e n c eo nc o m p u t e rv i s i o n ( 1 c c v ) 和 1 e e ec o m p u t e rs o c i e t yc o n f e r e n c eo nc o m p u t e rv i s i o na n dp a r e mr e c o g n i t i o nf c v p r ) 上发表 的文章可以看出,每年都有相关的文章发表,足见基于人类语义的图像分类、检索等领域在 国际上是一些值得研究的问题。 c b i r 中基于人类语义的图像分类的应用十分广泛。虽然没有广泛接受的语义表示标 准,但是对于一些已有的公认语义类别以及个人主观语义类别的映射问题还是有很大的研究 空间。具体而言,图像语义分类应用前景包括: ( 】) 数字化图书馆的建立和管理。随着数字化设备的普及,越来越多的图书馆开始把已 有的馆藏数字化成图像数据,如此大量的图像数据的存储和检索可以利用本文的研究成果。 第2 页 第章绪论 浙江人学博士学位论文 ( 2 ) 家庭数字照片的自动分类。近几年,照片的自动分类成为计算机视觉与图像处理学 科热门耐f 究课题之_ 【1 0 ,1 1 ,1 2 ,1 3 】,本研究内容也能够自动对数字n ) q + 进行按用户主观定制 的语义分类。 ( 3 ) 医学图像分类。如内窥镜图像的分类等等 1 4 ,】5 1 6 。 ( 4 ) 图像检索。图像按语义进行分类后,图像打上语义标签后可以方便的按语义进行检 索【1 7 】。 ( 5 ) 视频检索。图像检索也是视频检索的基础,如果将视频看成一系列图像的集合,那 么视频检索就成为以关键帧为图像库的图像检索。图像分类和检索技术也为视频内容分析 如视频分割,运动分析等提供有力的支持 1 8 】。 ( 6 ) 卫星遥感图像处理。对多光潜的卫星遥感图像使用不同的分类算子进行处理,可以 区分不同的陆地 1 9 1 。 ( 7 ) 下一代万维网:语义网的构建。图像语义分类也是其理论重要基础。 本文的主要目的是把图像中的低级图像特征提取出来,并用一种有效的、成体系的方 法把这些低级图像特征映射到人类通用的高级语义中去,在此基础上可以产生高效的、基于 人类语义的图像检索系统。 1 2 本文的工作 本文的研究工作包括基于单个图像全局特征的图像语义分类、基于多种图像全局特征 和特征空间分布信息相融和的图像语义分类以及基于图像局部特征的图像语义分类及检索 三项内容,它们是基于内容图像检索研究中非常重要和前沿的研究之一。其中,前两项内容 是通过对图像整体内容的研究来推断图像的语义类别,都是基于贝叶斯概率框架的应用。第 三项是通过对图像的局部特定模式的研究来获取图像的语义类别。本文关于图像数据库中语 义分类的研究是在不涉及昂贵的设备,仅由普通个人计算机对数字图像的操作和有限的人机 交互完成的。图像包含的语义知识是通过贝叶斯框架和对应于特定语义类别的局部模式来映 射获得的,这样可以在吸收用户语义知识后自动推断新图像的语义类别。具体来说,包括如 下内容: ( 1 ) 基于贝叶斯框架的图像语义分类; ( 2 ) 基于单个图像全局特征的图像语义分类; 第3 页 第一章绪论 浙;r i = 大学博十学位论文 ( 3 ) 基于多种图像全局特征和特征空刚分布信息相融和的图像语义分类 ( 4 ) 基于图像局部特征的图像语义分类及检索。 本文的工作由第三章、第四章、第五章、第六章及第七章详细描述。 1 3 本文的贡献 全文的贡献表现在以下几点: ( 1 ) 提出一种基于不同的图像空问分块策略的自适应图像分类算法。该方法以多媒体检索中 常用的低级图像特征为基础。通过贝叶斯概率框架构造出分类映射函数g x ) 。针对不同 的图像分类问题,取得一个“最优”的“空间分块策略”,由空间分块策略和原始图像 特征相结合的方法,计算出测试图像属于不同类别的概率大小最终获得具有最大类属 概率的语义类别。 ( 2 ) 提出一种利用相关反馈机制的基本思想,针对不同分类问题自适应地选择具有最大“判 别能力”的单一全局图像特征的算法。计算每一种候选全局图像特征单独的贝叶斯先验 概率密度函数,并计算训练图像集合的“所属类别”和“非所属类别”的平均后验概率。 当“所属类别”的平均后验概率和“非所属类别”的平均后验概率之差虽大时,对应着 训练图像集合类别内部的样本具有虽大的内聚性,并且不同类别间的样本有最大的分离 性。可以得到该全局图像特征具有最大“判别能力”。 ( 3 ) 提出一种基于多种图像全局特征和特征空间分布信息相融合的数字照片分类算法。选取 所用的图像全局特征向量子集,按图像的大小和质量自动捌分图像为适宜的等分空间子 块。通过贝叶斯概率框架训练得到先验概率,同时构建新的包含图像特征空问分布信息 的特征矩阵计算后验概率,并应用一种增量学习方法改进性能。该分类算法特别适用于 空间分布信息相对固定的室内室外等图像分类问题,试验结果表明该算法是相当满意 的。 ( 4 ) 提出一种利用动态外观模型算法的模式匹配方法来分类和检索可归纳为特定语义类别 图像的思想。采用由动态形状模型( a c t i v es h a p em o d e l ) 发展而来的动态外观模型 ( a c t i v ea p p e a r a n c em o d e l ) 来描述可归纳为同一语义类别图像中外观相似的物体,例 第4 页 第一章绪论 浙江大学博士学位论文 如“红眼”、特定的人脸。对不同的语义图像类别研究发现,同一图像类别的图像往往 包含有同样性质、外观相似的“物体”。可以通过搜索图像中的同质“4 自体”进而分类 和检索语义图像, 1 4 文章的组织结构 第一章,提出本论文的研究背景及研究内容。 第二章,回顾经典的基于内容图像检索,并讨论c b i r 中图像语义分类和图像基义检 索的理论和技术,详细阐述作为图像语义分类基础的低级图像特征。 在第三章中,讨论应用贝叶斯概率公式将先验概率( 在某一类别中图像出现的概率) 转换为后验概率( 图像属于某一类别的概率) 的形式化的贝叶斯图像分类概率框架。 在第四章中给出一种基于单个图像全局特征进行图像语义分类。利用相关反馈机制 基本思想计算候选特征集中具有最优“判别能力”的单个图像全局特征,同时采用基于传统 摄影学理论的空间分块策略。应用贝叶斯概率框架实现室内室外和城市风景两个图像分类 器,结合在大型图像数据库上的良好试验结果深入分析该图像语义分类算法。 在第五章中,多种图像全局特征也可以同时应用于图像语义分类。详细分析同时使用 多种图像全局特征的优点,提出多种图像全局特征和图像特征空问分布信息相融合的图像语 义分类方法。选取所用的图像全局特征向量子集,根据图像大小划分空间子块,通过贝叶斯 概率框架训练得到类别先验概率,同时构建新的包含特征空间分布信息的特征矩阵应用于类 别后验概率的计算,并应用一种增量学习方法改进性能。针对室内,室外和城和风景两个分 类问题在同一大型图像数据库上进行试验,结果表明该算法特别适用于特征空间分布信息相 对固定的室内室外等图像语义分类问题。 第六章,图像的局部特征往往对应着特定的语义类别。相对前两章利用贝叶斯概率框 架来对图像的整体特征进行知识存储和转换,这一章提出利用动态外观模型( a c t i v e a p p e a r a n c em o d e l ) 来描述同一语义类别图像中外观相似物体的方法。通过搜索图像中外观 相似的“物体”进而分类和检索语义图像。针对常见的人脸及红眼检索问题在实际的家庭影 第5 页 第章绪论浙江大学博士学舒谂文 如“红眼”、特定的人脸。对小间的语义图像类别研究发现,同一图像类别的图像往往 包含有同样性质、外观相似的“物体”。可以通过搜索图像中的i 可质“物体”进而分类 和检索语义图像。 1 4 文章的组织结构 第一章,提出奉论文的研究背景及研究内容。 第二章,蚓顾经典的基于内容图像检索,并讨论c b i r 中图像语义分类和图像语义检 索的理论和技术,详细阐述作为图像浯义分类基础的低级图像特征。 在第三章中讨论应用贝叶斯概率公式将先验概率( 在某一类别中图像出现的概率) 转换为后验概率( 图像属于某一类别的概率) 的影式化的贝叶斯图像分类概率框架。 在第四章中,给出一种基于单个图像全局特征进行图像语义分类。利用相关反馈机制 基本思想计算候选特征集中具有最优“判别能力”的单个图像全局特征,同时采用基于传统 摄影学理论的空问分块策略。应用贝 斯概率框架实现室内,塞外和城市九扎景两个图像分类 器,结台在大型图像数据库上的良好试验结果深入分析该图像语义分类算法。 在第五章中,多种图像全局特征也可咀同时成用于图像语义分类。详细分析同时使用 多种翻像全局特征的优点,提出多种图像全局特征和图像特征空间分布信息相融台的图像语 义分类方法。选取所用的图像夸局特征向最子集,根据图像大小划分空问子块,通过贝叶斯 概率框架训练得到类别先验概率,同时构建新的包含特征空间分布信息的特征矩阵应用下类 别后验概率的计算,井应用种增量学习方法改进性能。针对室内室外和城市风景两个分 类问题在同一大型图像数据库上进行试验结果袁明该算法特别适用于特征空间分布信息相 对固定的室内廛外等图像语义分类问题。 第六章图像的局部特征往往对应着特定的语义类别。相对前两章利用扒叶斯概率框 架来对图像的整体特征进行知识存储和转换,这一章提出利用动吝外观模型( a c t i v e a p p e a r a n c em o d e l ) 来描述同一语义类别图像中外观相似物体的方法。通过搜索图像中补观 相似的“物体”进而分类和检索语义图像。针对常见的人脸及红眼检索问题在实际的家庭影 相似的“物体”进而分类和检索语义图像。针对常见的人脸及红眼检索问题在实际的家庭影 第5 更 第一章绪论 浙江大学博十学位论文 集上进行试验,结果显不相当高的检索正确率。 第七章,在前面四章研究的基础上,给出原型系统t o p a l b m ,进一步论证r 本文研究 的实用性。 第八章,总结本文的工作和创新点,指出要进一步进行的研究工作和可行的研究方向。 第6 贞 第,二章丰| 关研究工作综述 浙江人学博士学位论文 第二章相关研究工作综述 从上个世纪九十年代初开始c b i r 作为一种新的信息检索技术得到了j “泛的关注和相 当的应用。c b i r 发展至今,已成为图像检索的主流技术,也出现了许多实际的c b l r 系统 【9 , 2 0 ,2 1 】。c b i r 是针对传统数据库系统使用关键词检索数据的不足【2 2 ,2 3 ,在全世界的数 宁图像容量以惊人的速度增长的背景下产生的一种检索技术。传统c b i r 直接使用图像的视 觉特征和语义特征作为索引,在一定程度上解决文本检索的不足 2 4 1 。图像语义分类是c b i r 研究领域中一个重要的、新兴的研究方向,也是与传统的c b i r 技术紧密相关的。本章综述 了传统c b i r 、图像语义分类及图像语义检索三方面内容。 2 1c b i r 简介 c b i r 将图像处理和模式识别等一些领域和数据库技术结合起来,直接提取图像内容 建立非精确的相似性匹配方法,扩展了图像数据库的检索能力和应用领域。目前c b i r 研究 系统j 泛使用图像的视觉低级特征来描述图像内容,利用高维数据索引结构来构建图像数据 库,并引入交互式学习方法等提高图像检索的性能【4 】。c b i r 的主要特点是它只利用了图像 本身乜含的客观的视觉特征,图像的相似性不需要人来解释,体现在视觉相似性上。这导致 ,它4 i 需要或者仪仅需要少量的人工干预,在需要自动化的场合取得了大量的应用,也获得 了很大的成功。 2 1 1 c b i r 概论 c b l r 研究的主要目的是构造一个基于圈像本身内容的检索系统,以克服基于文本的图 像检索技术( t e x t b a s e di m a g er e t r i e v a l ) 的缺点和局限。基于文本的图像检索技术的历史可 以追溯到2 0 世纪7 0 年代末期,它使用文件名、标题、关键词等文本信息来标注和检索图像。 它作为数据库系统的新技术在当时具有很大的实用性,但是完全基于文本的图像检索技术存 在许多的问题。首先,它完全依赖于人工标注图像内容,耗费人力。其次,不同的人对同一 幅图像有不同的理解方法,这种主观性差异将导致图像检索中的不匹配错误。晟后,图像中 所包含的丰富的视觉特征( 颜色、纹理、空间关系等) 往往无法用文本进行客观地描述的 1 4 , 2 5 1 。总而言之,关键词本质上是主观的和不充分的,并不能很好的表示图像信息。 鉴于基于文本图像检索的许多缺陷,c b i r 一般系统要求能够提供图像浏览、相似图像 检索、根据图像属性查询和匹配图像等功能 2 6 1 。绝大部分c b i r 系统都是用一系列的图像 低级特征来表示图像内容,如颜色、纹理、形状、格局( 1 a y o u t ) 等等,这些低级特征同时存 第7 页 第二章相关研究工作综述 浙江人学博士学位论文 档 二多媒体数据库中。一次图像检索是通过匹配查询图像( q u e r y j m a g e ) 的低级特征和已存档 于多媒体数据库中的低级特征来进行的。 图像检索的研究是一个综合了众多领域的交叉学科,主要包括了图像处理、计算机视 觉、图像理解、模式识别、数据库、心理学等学科的理论、技术和方法。从图像理解的角度 来看,图像内容应当是用层次结构来描述的 2 7 】。为了弥补视觉特征和语义之间没有一一对 应的关系,图像检索的研究中还引入了用户交互和机器学习的功能,使系统能更好地反映用 户的检索要求 5 ,2 4 】。但是通常人们在查询图像数据库时不是按图像低级特征来思考的,而 是基于语义的。例如人们会查询包含“红眼”的照片,而不是查询包含“中间有红色块椭圆 形器官”的照片。而且图像数据库按语义分类后能更有效地进行图像检索,这样就产生了基 于图像内容进行高级语义分类的需求,这也正是本文所重点研究的内容。 2 1 2c b i r 的系统组成 c b i r 有着广泛的应用领域1 2 3 ,2 8 1 ,包括数字图书馆、博物馆管理、图像搜索引擎、电 子商务、遥感信息和航天数据管理、织物和时装设计、地理信息系统、商标数据管理、指纹 和人脸识别、医学图片处理等等。一般来说,图像检索的技术包括涉及计算机视觉的技术和 数据库管理技术两个部分,主流的系统主要由5 个子系统构成,包括图像数据的存储、特征 提取、相似性度量、高维特征索引过滤技术,用户杳询和浏览接口等。图2 1 是c b i r 系统 组成的基本框网,并表明了备子系统之间的关系。此外还有一些基于模糊集( f u z z y s e t ) 2 9 3 0 的系统方法,具有自己独特的优点。 乓计颜色k 艮:尽n 形状k j i 商询让躺i i 【 、 卜1 纹理 | 空阔k = 焉了引弋 l lj i 关系i c 户 二叁 少 = 蚪j 户 索引特征提取 r 最统子鬟统于系统 图2 - 1c b i r 系统的基本组成 第8 页 第二章相关研究工作综述 浙江太学博 。学位论文 用户子系统主要包含接收用户查询和显示查询结果的功能。用户可以通过指定例图 ( q u e r y b ye x a m p l e ) j 7 来提交查询,其缺陷足用户和c b i r 系统对例图的理解可能不尽相同。 草图查询( q u e r y b y s k e t c h ) j 3 1 方式的出现,在一定程度上弥补了例圈查询的不足。用户使用 系统自带的绘图工具描绘查询草图,缺点足兼容性较差,用户有额外的负担。而直接指定图 像的属性特征有时会比较方便和直观,如用文字检索图像 3 2 】、选择主色调的检索【8 】和使用 奄询语言的检素【3 3 】。另外【3 4 】还介绍_ 一种三维查询接l 的系统,用户可以通过漫游、编 辑三维虚拟环境来提交查询例子,原型系统的试验结果证明三维查询接口在某些方面更有效 率。 相似性度量子系统是c b i r 系统的核一t l , 之一,它利用图像的特征来计算图像闻的相似 性,并按相似性的大小排序结果图像集。由于被检索的图像集合往往很大,而相似性的计算 又是两两进行的,导致相似性的计算很耗时。因此需要采用索引过滤的技术,加快计算速度, 使用户在台理的时间内得到响应。 索引子系统主要功能是对图像数据作索引,减少相似性比较的计算量。一般使用图像 的高维特征向量作为索引,计算相似性后获得相似结果集合。高维矢量索引技术有k d b 树 【3 5 tr 树 3 6 1 ,”树【3 7 】,t v 树【3 8 】,s o m 3 9 等等。 特征提取子系统就像一个过滤层,从原始图像提取有效的图像特征输出给索引子系统。 主要以视觉特征为主,包括颜色特征、形状特征、纹理特征、物体的空间关系特征等。更高 层次的语义特征和概念特征正是本文研究的重点。 存储子系统则负责存储和管理原始图像数据。原始图像数据包括图像数据、特征索引 数据和其它文本描述信息等等。关键技术包括图像预处理技术和压缩技术等。 2 1 3c b i r 典型系统 大量的c b i r 系统和原型已经被开发出来,通常可按查询的目标分为三类。第一类, 精确查询:用户明确知道自己要找的图像,虽然可能有些记忆偏差。第二类,类别查询:用 户对需要查询的图像不太确定但知道它所属的类别。第三类,浏览查询:用户对自己要找 的图像很模糊,甚至在看到图像的时候才能确定是不是目标。第一类是客观目标查询,后两 类则足主观目标查询。主流的c b i r 系统之问的区别主要在于选择的图像特征不同、设计的 用户查询接口不同以及用来测评系统性能的方法不同,下面将从这三个方面介绍一些经典的 c b i r 系统。 q b i c ( q u e r yb yi m a g ec o n t e n t ) j 7 ,8 删可以说是最有名的c b i r 系统和最早的商用 c b i r 系统,它选择的图像特征包括颜色、纹理、形状、文本;设计得用户查询接u 支持按 倒查询( b ye x a m p l e ) 、按用户草图查询、按被选择的颜色特征或纹理模式查询等三种可视化 语 言( v i s u a ll a n g u a g e ) : q b t c 引擎的 一 个 应用 在 第9 页 第二章相关研究工作综述 浙江大学博士学位论文 h t t p :w w w h e r m i t a g e m u s e u m o r g f c g i - b i r d d b 2 w w w a d v a n c e d , m a c s t e p l ? s e l l a n g = e n g l i s h 。 p i c s o m 4 1 4 2 1 是一个基于s o m 的图像浏览系统,它选择的图像特征包括颜色、纹理、 边界信息、形状;设计得用户查询接口支持按例查询( b ye x a m p l e ) , h l 用户相关反馈( r e l e v a n c e f e e d b a c k ) 相结合的可视化语言( v i s u a ll a n g u a g e ) ;d e m o 在h t t p :w w w c i s h u t f i p i c s o m 。 a s s e r t ( a u t o m a t i cs e a r c ha n ds e l e c t i o ne n g i n ew i t hr e t r i e v a lt o o l s ) 4 3 、4 4 是专用于分 析x 光片的医学图像系统,它选择的图像特征包括颜色、纹理、位置、分割区域形状;设 计得用户查询接1 3 支持按例查询(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 描绘人物的肖像作文5篇
- 国际贸易信用服务承诺函6篇
- 企业风险管理识别与评估清单
- 全面预算编制与控制工作表
- 产品研发过程质量检查与控制模板
- 市场调查与需求分析工具
- 2026届湖北省武汉市新洲三中化学高二第一学期期中学业水平测试试题含解析
- 2026年高端民宿运营公司应收账款催收管理制度
- 2026年纺织科技公司公务车辆GPS监控管理制度
- 儿科护理实操课件
- 影视剧本保密协议
- 学生实习家长知情同意书(完美版)
- 胸外心脏按压培训课件
- 校服招标方案
- 萧朴生的红色故事
- 会展概论-来逢波-习题答案
- 地质勘查类题库
- 小班-数学-爱跳的棉花糖(上下、前后、里外方位)-课件(互动版)
- 新能源充电站项目可行性研究报告
- 2023年武汉市水务集团限公司招聘50人笔试参考题库(共500题)答案详解版
- 2023室内冰雪场馆保温及制冷系统设计规程
评论
0/150
提交评论