(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf_第1页
(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf_第2页
(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf_第3页
(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf_第4页
(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(通信与信息系统专业论文)基于显著区域提取和plsa的图像检索方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着多媒体技术和互联网技术的不断进步,数字图像资源正以几何级的速度增长, 这就对如何进行大量图像数据的快速检索与浏览提出了新的技术挑战。在基于内容的图 像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 中,相当多的情况下用户并不关心图像全局 相似与否,而更多关注的是图像中具有一定语义的区域是否相似。为了弥补全局特征在 描述图像内容上的不足,本文提出了一种基于显著区域语义特征的图像检索方法。首先, 利用谱残差和多分辨率分析方法提取图像的显著区域;然后,用概率潜在语义分析 ( p r o b a b i l i s t i cl a t e n ts e m a n t i c a n a l y s i s ,p l s a ) 从图像的区域集合中发现潜在语义模型;最 后,根据潜在语义模型得到所有图像区域中潜在语义出现概率来构建显著区域的潜在语 义特征,并使用该特征构建s v m 分类器模型进行图像检索。 本文以谱残差模型为出发点,阐述了显著区域提取、区域潜在语义特征构建以及基 于显著区域图像检索的方法,主要研究成果如下: ( 1 ) 显著区域的提取。根据人类视觉系统的特点,提出了一种融合谱残差和多分辨率 分析的显著目标检测方法。该方法通过在不同尺度上计算图像的亮度、颜色以及方向特 征的谱残差,构建多分辨率显著性图谱序列,然后用线性插值方法将不同分辨率的特征 显著图叠加得到三个特征显著图,再利用k 均值聚类算法将每个特征显著图聚为两类, 选择聚类中心距离最大的特征显著图作为最终的显著图,最后经过动态阈值处理获得图 像的显著目标区域。融合谱残差和多分辨率分析的显著目标检测方法是本文的创新点。 ( 2 ) 区域潜在语义特征构建。在得到图像的显著区域之后,使用无监督的p l s a 对这 些图像区域所构成的集合进行潜在语义挖掘,以此构建区域潜在语义特征。 ( 3 ) 基于显著区域的图像检索。将正负样本看作两类,图像检索可看作一个实时分类 问题。使用支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 对训练图像的区域潜在语义特征 进行学习,得出训练样本集中每个样本对于决策的影响,即训练得到的支持向量,再 以这些支持向量对测试图像进行分类检索,得到最终的图像检索结果。 本文将显著区域提取方法和p l s a 方法相结合,获得区域潜在语义特征,并将其应 用于图像检索中,在一定程度上弥补了底层特征和高层语义之间的语义鸿沟。对比本文 方法和基于全局特征的图像检索方法,实验结果表明,基于显著区域的图像检索结果更 加准确。 关键词:显著区域,谱残差,p l s a ,s v m ,图像检索 a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g ya n di n t o - n e tt e c h n o l o g y , d i g i t a li m a g e r e s o u r c e sa r eg r o w i n ga tag e o m e t r i cl e v e l ,t h a tp o s e sn e wt e c h n o l o g yc h a l l e n g e st oh o wt o a c h i e v eal a r g en u m b e ro fi m a g ed a t a sf a s tr e t r i e v a la n db r o w s i n g i nc o n t e n t - b a s e di m a g e r e t r i e v a l ( c b i r ) ,a tm o s tc a s e su s e r sd on o tc a r ea b o u tw h e t h e rt h ew h o l ei m a g e sa r es i m i l a r o rn o t ,b u tm o r ec o n c e r na b o u tt h ec e r t a i ns e m a n t i ca r e ao ft h ei m a g e t oc o m p e n s a t et h el a c k o fu s i n gg l o b a lf e a t u r e st od e s c r i b et h ei m a g ec o n t e n t ,t h i sp a p e rp r o p o s e sa ni m a g er e t r i e v a l m e t h o db a s e do ns e m a n t i cf e a t u r eo fs a l i e n tr e g i o n s f i r s t ,w eu s es p e c t r a lr e s i d u a la n d m u l t i - r e s o l u t i o na n a l y s i st od e t e c tt h es a l i e n tr e g i o n s t h e nl a t e n ts e m a n t i cm o d e li sa c h i e v e d b yu s i n gp r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ( p l s a ) f i n a l l y , r e g i o nl a t e n ts e m a n t i cf e a t u r e i so b t a i n e db ya p p l y i n gp l s am o d e lt oe a c hs a l i e n tr e g i o ni na l li m a g e , a n dt h i ss e m a n t i c f e a t u r ec a l lb eu s e dt oc o n s t r u c tas v mm o d e lt of u l f i l lt h ei m a g er e t r i e v a l b a s e do nt h es p e c t r a lr e s i d u a lm o d e l ,t h i sp a p e rd i s c u s s e st h es a l i e n tr e g i o nd e t e c t i o n t e c h n o l o g i e s ,r e g i o n l a t e n ts e m a n t i cf e a t u r ec o n s t r u c t i o nt e c h n o l o g i e s ,a sw e l la si m a g e r e t r i e v a lb a s e do ns a l i e n tr e g i o nt e c h n o l o g i e s t h ea c h i e v e m e n t so ft h er e s e a r c ha r ea sb e l o w : ( 1 ) s a l i e n tr e g i o nd e t e c t i o n :a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fh u m a n v i s u a ls y s t e m ,a s a l i e n tr e g i o nd e t e c t i o nm e t h o db a s e d0 1 1s p e c t r a lr e s i d u a la n dm u l t i r e s o l u t i o ni s p r o p o s e d w ef i r s tc o m p u t et h es p e c t r a lr e s i d u a lo ft h r e ef e a t u r e si e i n t e n s i t y , c o l o ra n d o r i e n t a t i o nu n d e rd i f f e r e n ts c a l e st ob u i l ds e r i e so fm u l t i - r e s o l u t i o ns a l i e n c ym a p s ,w h i c hc a n b ec o m b i n e dt h r o u g hl i n e a ri n t e r p o l a t i o nt og e n e r a t et h r e ef e a t u r e - s a l i e n c ym a p s t h e nw eu s e k - m e a n sc l u s t e r i n gf o rb i n a r yc l u s t e r i n ga n ds e l e c tt h ef e a t u r e s a l i e n c ym a pw i t ht h el a r g e s t d i s t a n c eb e t w e e nt w oc e n t r o i d s f i n a l l yw ea p p l yd y n a m i ct h r e s h o l ds e g m e n t a t i o nt og e t s a l i e n tr e g i o n si na ni m a g e t h ei n n o v a t i o no ft h i st h e s i si st h es a l i e n tr e g i o nd e t e c t i o n m e t h o d ( 2 ) r e g i o nl a t e n ts e m a n t i cf e a t u r ec o n s t r u c t i o n :a f t e rd e t e c t i n gt h es a l i e n tr e g i o n s ,w e c a r r yo nl a t e n ts e m a n t i cm i n i n go f t h es e to ft h i si m a g er e g i o n sa ta nu n s u p e r v i s e dw a yb y a p p l y i n gp l s a ,t h u st oc o n s t r u c tt h er e g i o nl a t e n ts e m a n t i cf e a t u r e ( 3 ) i m a g er e t r i e v a lb a s e do ns a l i e n tr e g i o nd e t e c t i o n :i m a g er e t r i e v a lc a l lb er e g a r d e da sa r e a l t i m ec l a s s i f i c a t i o ni fw ec o n s i d e rt h ep o s i t i v ea n dn e g a t i v es a m p l e sa st w ot y p e s u s i n g l l l s u p p o r tv e c t o rm a c h i n ef o rl e a r n i n go ft h er e g i o nl a t e n ts e m a n t i cf e a t u r e s ,a n dw ec a ng e t e a c h s a m p l e si m p a c t o ft h e d e c i s i o n - m a k i n g ,n a m e l y , t h et r a i n i n g r e c e i v e d s u p p o r t v e c t o r s ,a n dt h e nu s et h o s es u p p o r tv e c t o r st oc l a s s i f yt h et e s ti m a g e s ,s ow ec a ng e tt h ef i n a l i m a g er e t r i e v a lr e s u l t s t h i sp a p e rc o m b i n e ss a l i e n tr e g i o nd e t e c t i o nm e t h o dw i t hp l s at og e tt h er e g i o nl a t e n t s e m a n t i cf e a t u r e ,w h i c hw i l lb ea p p l i e dt oi m a g er e t r i e v a l t h i sr e d u c e st h es e m a n t i cg a p b e t w e e nl o w l e v e lf e a t u r e sa n dh i g h l e v e ls e m a n t i c s f r o mt h ed i f f e r e n c e so ft h eg l o b a lb a s e d m e t h o da n do u ri m a g er e t r i e v a lm e t h o d ,w ec o u l do b t a i nt h er e s u l tt h a tt h ea c c u r a c yo fl a t t e r i m a g er e t r i e v a lm e t h o di sh i g h e rt h a nt h ep r e v i o u sm e t h o d k e y w o r d s :s a l i e n tr e g i o n ,s p e c t r a lr e s i d u a l ,p l s a ,s v m ,i m a g er e t r i e v a l l v 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名: 盔幽拖 指导教师签名 切矽年月7 日 妒扣 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:训曲抚 讼f o 年月 西北大学硕士学位论文 1 1 研究背景 第一章绪论 随着多媒体技术的飞速发展,数字图像的容量正以惊人的速度增长。信息的快速增 长促进了社会的发展,但在很多情况下,信息膨胀却给人类带来了过多的信息量以至于 超过了人的接受能力。如何有效地组织和管理这些多媒体数据,并从中检索出自己所需 要的信息成为当前迫切需要解决的问题。数据库技术的发展为存储和管理海量的多媒体 信息提供了技术上的保证,然而急剧增多的信息使得检索问题变得非常困难。因此,信 息检索技术尤其是图像检索成为研究者们关注的热点。 目前广泛使用的图像检索方法是基于文本关键字,这种检索方法速度快,过程简单, 基本能够满足查询要求;但是人工对图像进行分类和标注需要大量的人力,而新的图像 资料却在不断出现,而且人为注释难以准确描述图像内容。为了解决关键字图像检索存 在的问题,基于内容的图像检索应运而生。c b i r 突破了传统的基于关键字检索的局限, 直接对图像内容进行分析和特征提取,利用这些描述图像内容的特征建立索引。这里所 指的内容是广义的,一般可分为两个层次,一个是图像的底层视觉特征,如颜色、形状、 纹理等,另一个是图像的高层语义特征,又分为一般语义和情感语义两个层次,如图像 中包含什么样的事物属于一般语义,图像中描述了什么样的氛围属于情感语义。 c b i r 利用图像的颜色、纹理、形状等底层视觉特征进行检索。由于图像的全局统 计特征,如全局颜色直方图、全局纹理直方图等,在一定程度上符合用户的检索意图, 因而在c b i r 中获得了广泛的应用。c b i r 系统一般都包括特征提取、索引、相似性度 量、数据库管理等几个模块。因此,基于内容的图像检索主要有以下几个特点: ( 1 ) 利用视觉特征来描述图像的内容,直接对图像的内容进行分析。由于现有的技 术水平达不到使计算机像人类那样智能的理解图像内容的要求,因此,让计算机给图像 加上客观而准确的语义标注是不现实的。基于内容的图像表示方法通过种信息压缩过 程,将图像的内容用一些具有较强区分能力、与语义紧密结合的特征来代表。所以,基 于内容的图像表示和检索方法可以认为是一种中间层次的图像内容的描述方式。 ( 2 ) 特征向量具有定的物理意义,c b i r 通过度量特征向量之间的距离来实现 图像的相似性比较,这实质上是一种近似匹配的技术。因为,首先图像的内容是用特征 向量近似描述的,其次特征向量之间的差别也是通过距离测度函数近似度量的。这区别 第一章绪论 于传统数据库精确匹配的检索方法,也与计算机视觉中的物体识别问题有所不同。 ( 3 ) 由于近似匹配方法的缺陷,图像检索效果需要通过相关反馈等人机交互学习方 法来改善。图像内容具有丰富性和多义性,而图像的相似性很大程度上只是一种主观感 受,因此单纯运用底层特征和图像相似性方法难以满足不同用户的需要,所以需要引入 相关反馈等人机交互学习方式让计算机学习人的主观相似性度量标准,从而优化检索结 果并提高系统的检索能力。 1 2 显著区域检测概述 1 2 1 显著区域的概念 所谓显著区域,通常包含人类感兴趣的重要目标,最能表达图像的内容,是人的视 觉能够在较短时间内将注意力集中到图像中某个能引起人们关注的区域。如果对于不同 的图像区域赋予不同的处理优先级,不仪能降低分析过程的复杂度,而且能提高分析计 算的效率。 1 2 2 显著区域检测技术的研究现状 显著区域检测作为物体识别的前提,多年来得到了国内外研究者的广泛关注。到目 前为止,已经相继提出了许多检测算法。按照视觉信息处理过程可以分为两种:与任务 相关的t o p d o w n 方式【1 , 2 1 的算法和与任务无关的b o r o m u p 方式【3 4 ,5 1 的算法。其中,后 者是显著区域检测研究的核心,也是本节的讨论重点。 显著区域检测过程中的关键技术是如何选择和提取一组能够准确衡量候选区域视 觉显著性的图像特征。目前的方法大致可以分为以下两类: ( 1 ) 基于局部特征的方法。这类方法认为视觉显著性是由视觉对象自身所具有的能 够激发观察者兴趣的某种特殊属性产生的,往往对某些特定的目标或图像效果比较好。 例如,k a d i r 【6 】提出的基于像素邻域复杂度的显著性检测算法和g e s u 7 1 提出的基于像素邻 域对称性的显著性检测算法。 ( 2 ) 基于视觉对比的方法。这类方法通过计算目标区域和周围区域的差异来表示显 著性。最具代表性的是i t t i t 8 , 9 提出的算法。该算法借鉴了视觉心理学中有关人类视觉注 意机制的研究成果,通过c e n t e r - s u r r o u n d 算子比较目标区域和周围区域在多种特征、多 种尺度上的差异从而获得一幅显著图。这幅显著图表明了图像中各个像素点的显著性, 越亮表明该点的显著性越大。i t t i 算法的检测效果表现突出,因此受到广泛关注并应用 2 西北大学硕士学位论文 到图像压缩和场景分类等领域。 近年来,基于能量谱【陀1 的方法开始得到了关注。与i t t i 模型不同的是,这种方法不 需要目标的特征、类别以及其他先验知识。它是通过分析输入图像的频谱发现能量的变 化,并以此来构建显著图的一种快速算法。该方法被证明可以应用在自然场景中【1 3 1 4 】。 本文是在这种方法的基础上进行改进来实现显著区域检测的。 1 3 基于内容的图像检索 1 3 1 图像检索的核心问题 目前,图像检索研究的核心问题主要集中在以下几个方面: 1 图像特征的提取。图像内容描述的准确与否依赖于特征的类型和提取方法,只有 具有较强区分能力、与语义紧密结合的特征才能更好地描述图像的内容,将图像的特征 和语义紧密的联系起来。但是这个问题直到现在还没有找到有效的解决办法,仍然是制 约图像检索效果的瓶颈问题。所以如何根据现有的特征更好地描述图像的内容是在现有 技术下最值得探讨的问题。 2 相似性度量方法。对于人来说,图像之间的相似度是一种定性的、模糊的相似度, 然而计算机要模拟人的视觉系统去进行图像相似性判断的话,就必须将这种定性的判断 转换为特征之间定量的距离比较。选择适当的距离测度公式实现特征向量之间定量的比 较需要结合人的主观感受以及特征分量代表的实际物理意义。一般图像检索时都会提取 多种视觉特征来共同描述图像的内容,因此将多种特征之间的距离进行融合,可以从不 同方面衡量图像之间存在的差别。 3 多维索引技术。在图像特征提取和相似性度量方法确定后,基于内容的图像检索 就变成了在图像数据库中查找与给定的查询图像最相似的图像。一个显然的方法是采用 顺序扫描,即计算每个图像对象和查询对象的距离,并返回与查询对象的距离小于阂值 的部分或全部图像。但是,顺序扫描搜索效率较低,因此,需要研究快速搜索方法。 4 相关反馈策略。由于图像内容的丰富性和多义性,单纯依赖于底层特征和图像相 似性方法很难满足不同用户的需要。因此结合相关反馈技术,让检索系统在人机交互中 主动地学习人的评价习惯。系统根据用户提交的指导信息,对内部检索参数进行调整, 从而优化检索结果并提供给用户新的检索结果,最终提高系统的检索能力。 本文的研究工作是针对前两个问题展开的。在此基础上实现了一种基于显著区域潜 在语义特征的图像检索方法。 3 第一章绪论 1 3 2 图像检索现有研究方法 从图像内容的描述方法来看,当前的图像检索方法可以分为基于底层特征和基于中 间语义特征两大类。图像的底层特征通常是指颜色、纹理和形状等特征,使用图像底层 特征的检索方法已经在图像和视频检索领域研究了多年。其中的代表技术包括 p h o t o b o o k 1 蜘,q b i c t l 6 】和v i s u a l s e e k 【m 。 众所周知,底层特征和高层语义之间的语义鸿沟是限制c b i r 检索效果的主要原因。 为了弥补语义鸿沟,使用基于区域的特征以及中间语义特征替代全局特征来描述图像视 觉内容的方法得到了广泛的关注。文献 1 8 】中首先定义一组局部语义概念,然后通过训 练样本来生成局部语义概念模型,最后使用这些语义概念模型计算相应局部语义概念在 图像中的出现频率来构建区域语义特征。在这类方法中,中间语义特征的生成往往需要 对大量的样本进行手工标注。为了减少所需的样本数量,文本分析中的主题模型 1 9 , 2 0 被用来获取中间语义特征。这种方法首先将图像的局部不变特征聚类为一组视觉单词, 然后用词袋( b a go fw o r d ,b o w ) 的方式来表示图像,最后用p l s a 或者l d a ( l a t e :n t d i r i c h l e = ta l l o c a t i o n ) e 2 l 】等主题分析模型来找出图像最可能属于的主题,从而完成图像的 分类及检索。许多学者在图像语义获取、表达等方面做了大量工作,已经出现了一些基 于语义的图像检索2 2 2 3 】方法。 1 3 3 基于显著区域和p l s a 的图像检索 在基于显著区域的图像检索【2 4 2 5 2 6 】中,显著区域的自动确定和图像相似性判定准则 是系统设计的两个重要方面。显著区域检测方法在前面已经进行了详细的描述,这里不 在赘述。而如何进行图像相似性比较是影响基于区域的图像检索( r e g i o n b a s e di m a g e r e t r i e v a l r b i r ) 的关键问题。 目前大多数r b i r c 27 】系统采用区域区域间逐个进行相似性比较。由于图像视觉内容 难以准确描述,要想精确地自动提取图像的显著目标仍然是一件困难的事情,因此这些 检索系统可能导致一个完整的目标被分割为几个区域而没有一个区域能代表这个目标; 同时,对用户来说,决定哪些区域对检索有效也是一大难题。 为了解决这些问题,有研究者提出了一些综合所有区域信息的图像一图像间的相似 性度量方法。 2 8 】中s i m p l i c i t y 系统使用了一种整合的区域匹配技术来进行图像间的相 似性度量,这种方法对分割不精确的图像具有鲁棒性。 然而,上述方法均没有明确的将提取的底层特征和视觉内容所表达的语义信息结合 4 西北大学硕士学位论文 在一起,即使区域,区域间或图像图像间的相似性度量试图近似语义问的相似性,但是 这种方法仅仅是探索性的并没有可靠的理论依据,因此其检索精度受到一定的限制。 鉴于上述原因,本文提出了一种基于显著区域和p l s a 相结合的图像检索方法。该 方法的基本思想是根据图像显著区域的潜在语义特征实现图像检索。 1 4 本文的主要研究工作 本文针对目前基于内容的图像检索中存在的一些问题,对图像检索技术中如下方面 进行了探索和研究。 ( 1 ) 显著区域提取方法的研究 本文提出了一个融合图像底层特征( 亮度、颜色、方向) 谱残差和多分辨率分析的 显著目标检测算法。首先,提取图像的亮度、颜色、方向特征,然后进行金字塔式分解, 将每个特征分为三层,在每个尺度层上分别计算特征的谱残差,即对特征进行傅里叶变 换后所得幅度的对数值与其进行均值滤波后的差;其次,用此幅度差值和原相位值重构 可得不同分辨率的显著性度量图;再者,利用线性插值将各层显著性度量图进行叠加得 到三个特征显著图;最后利用k 均值聚类算法将每个显著图聚为两类,选择聚类中心距 离最大的特征显著图作为最终的显著图,并进一步对其进行动态阈值处理提取出图像中 的显著目标区域。 ( 2 ) 区域潜在语义特征构建方法的研究 区域潜在语义特征的生成过程主要包括视觉词汇表的生成,构建图像的b o w 描述 和基于p l s a 模型的区域潜在语义特征提取三个步骤。首先,通过k 均值聚类方法对显著 区域的颜色和纹理特征进行向量量化( v e c t o rq u a n t i z a t i o n ,v q ) 来获得视觉词汇表,然后使 用t f i d f 权重统计视觉单词的出现频率来描述每幅图像,接着应用文本分析中的p l s a 方法从所有图像的区域集合中发现潜在语义模型,最后根据这个潜在语义模型就可以得 到每个图像区域中潜在语义出现的概率,从而构建显著区域的潜在语义特征。 ( 3 ) 基于显著区域的图像检索方法的研究 首先,通过谱残差和多分辨率分析获得图像的显著区域,然后在图像显著区域集合 上应用p l s a 方法获得区域潜在语义模型,最后综合图像中所有显著区域潜在语义出现 情况构建区域潜在语义特征,并以此构建s v m 分类器模型,进而实现图像的分类检索。 5 第一章绪论 1 5 文章的组织结构 第一章:概括介绍了c b i r 的研究背景、研究现状以及存在的主要问题,同时,阐 述了本文研究的主要内容。 第二章:在详细介绍了显著目标检测的理论基础上,提出了一种基于谱残差和多分 辨率分析的显著目标检测方法,并给出了这种方法的实验结果和讨论分析。 第三章:阐述了概率潜在语义分析方法的原理和优点,实现了一种基于概率潜在语 义分析的区域潜在语义特征构建方法,最后给出实验结果和分析。 第四章:首先简单介绍s v m 分类器的原理,然后分析构建多类支持向量机的方法, 最后实现了本文的图像检索方法。在实验的基础上,针对基于全局的图像检索和本文方 法进行了对比和分析。 第五章:对论文工作的总结和进一步工作的展望。 6 西北大学硕士学位论文 第二章基于谱残差和多分辨率分析的显著目标检测 2 1 人类视觉注意机制 人类的视觉系统既要求其具有处理大量输入信息的能力,又要求具有实时反应能 力,两者实际上是相互矛盾的。研究者发现,在分析复杂的场景中,人类视觉系统( h u m a n v i s u a ls y s t e m ,h s v ) 采取了一种串行的计算策略,它能够迅速地将注意力停留在少数几 个显著的目标上,优先对其进行处理,这个过程就是视觉注意。具体地说,我们在观察 一个场景时,总是有选择地将注意力集中在场景中某些最具吸引力的内容上。从人的角 度来看,这是一个从场景中选择内容进行观察的过程,可以称之为视觉选择性( v i s u a l s e l e c t i o n ) ;从场景的角度来看,场景中的某些内容比其他内容更能引起观察者的注意, 可以称之为视觉显著性( v i s u a ls a l i e n c y ) 。两者其实都是从不同的角度对选择性视觉注意 ( s e l e c t i v e a t t e n t i o n ) 过程的描述。 人类视觉系统的选择性注意机制是利用快速的眼动扫描,以图像的局部特征为依 据,选择景象的特定区域,这样就可以利用高分辨率的视网膜中央凹区对该区域进行注 意,从而对其进行更精细的观察与分析。这种注意机制使视觉感知过程具有了选择能力, 这正好符合计算机图像分析的要求。因此,将h s v 中的视觉注意机制引入到计算机图 像分析过程中,优先处理容易引起观察者注意的区域,可以极大地提高现有图像分析系 统的工作效率。显著目标检测正是在这种思想的基础上提出并发展起来的。 2 1 1 视觉显著性 图2 1 视觉显著性实例 在图2 1 中,a 能够迅速引起我们的注意,它比其它部分更突出。之所以会出现这 样的反应,正是由于视觉注意机制在发生作用。 这种突出性就是视觉显著性,突出性较强的a 部分就是该图像的显著区域。心理 学研究发现,那些能够产生较强的刺激、新异的刺激和人所期待的刺激的场景区域容易 7 第二章基于谱残差和多分辨率分析的显著目标检测 引起观察者的注意。 2 1 2 视觉信息处理过程 视觉心理学研究表明,可以用两个子过程来描述人类视觉系统选择性注意机n - ( 1 ) 是在不考虑特定认知任务对注意的影响的前提下,采用自底向上控制策略,快速的对目 标进行预注意,该机制是基于输入景象的显著性计算的,属于低级的认知过程。( 2 ) 是 在考虑了先验知识对注视点选取的影响后,采用自顶向下控制策略,慢速的对目标进行 注意,为适应外界命令的需要,它会自动调整选择准则,将注意力集中于特定的目标, 属于高级的认知过程。 自底向上的注意模型是指由视觉刺激驱动的信息处理过程,和认知任务的内容无 关。这是因为有些刺激可能由于本身的特点或是外部环境的衬托,具有较强的显著性, 并且以一种快速的、数据驱动的方式起作用,因此更容易吸引观察者的注意力,例如图 2 1 中的a 。自底向上的注意模型对这种显著性进行建模,选出显著值大的点作为注视 点。例如:提取场景中的不同特征( 颜色,纹理,形状等) 可以通过选择合适的滤波器进 行滤波,这样得到的特征响应就是显著值。本文的研究就是属于这种情况。 自顶向下的注意模型是指由观察任务驱动的信息处理过程,采用这种注意机制,可 以提高视觉识别的能力和效率。由于考虑了先验知识对注视点选取的影响,在观察任务 目标时,眼睛运动的模式由特定的任务决定。图像的辨认或者识别只有在高级中枢形成 模型后才能产生。所以,当潜意识中已经具有了目标物体的模型后,即使所得的信息不 够全,也能够由该模型近似来估计图像,再由自顶向下方式来进行确认。 2 2 图像内容的描述方法 图像在人脑中是以语义的形式存储的,语义概念的形成可以通过视觉注意过程把图 像信号进行分割和处理得到。简单的说,人的图像认知过程就是一个特征提取、特征融 合、抽象和理解的过程。通过这个过程,我们可以把图像从信号压缩为概念和知识;相 比较而言,计算机还不具备像人脑一样对图像进行感性认识的能力,因而它不能理解其 中的语义信息。计算机理解的数字图像仅仅是一些非结构化和无序的像素点阵,因而这 些图像信号只是原封不动的存储在计算机中。 图像处理和分析领域的研究者使用图像的底层特征来描述图像的内容,这样计算机 就能够在一定程度上对图像的语义进行提取、融合和理解。因此,计算机在理解数字图 8 西北大学硕士学位论文 像时,就不会局限于像素的表示,而是以介于像素表示和语义表示之间的一种智能的方 式来理解图像的内容。 在这个过程中,逐步形成了三种特征提取和图像表示的方法: ( 1 ) 全局特征全局特征是图像内容的一种宏观表示,它不考虑像素之间的相关性 和空间分布,而是以统计的形式表现了图像中颜色或纹理的分布,这样就对图像内容有 了一个总体描述。也就是说,全局特征是关于图像整体的印象,不具备较强的区分和描 述能力。一般情况下,全局特征不能有效剔除图像中包含的冗余信息,这也是它的一个 主要缺点。 ( 2 ) 区域分割与全局特征相比,区域分割则是一种微观的表达方法,这种方法试 图在物体层次表示图像的内容。它看到了图像的所有区域和细节。理想的图像分割可以 把图像分割成为语义区域,这些区域是由图像中物体的边界确定的。受现有的计算机视 觉和模式识别技术的限制,目前的图像分割方法在分割图像时可能出现对目标物体过分 割或者欠分割的情况,这样就不能完整准确的描述物体。 分割区域中,有些区域是表达图像主题的重要区域,而有些区域是补充和丰富图像 内容的背景区域,它们具有不同的重要性。因此,在描述图像内容时,应该区分这种重 要性上的差别,将一些不影响图像基本主题的细节区域忽略掉。然而现有的图像分割方 法达不到这样的技术水平,因此也不能突出图像中最能表述图像语义特征的部分。 ( 3 ) 显著区域顾名思义,显著区域就是人的视觉能够在较短时间内将注意力集中 到图像中某个能引起人们关注的区域。通常包含人类感兴趣的重要目标,最能表达图像 的内容。理想情况下,图像的显著区域是以用户的主观评价为标准来选取的,由于用户 任务和知识背景的不同,对于同一幅图像,不同用户选择的感兴趣区域也不尽相同。由 于显著区域的选择带有很大主观性。因此,可行的方法只能是根据某种标准,利用图像 的底层特征近似地区分图像各区域的重要程度。 认知心理学的研究表明,图像中有些区域能显著的吸引人的注意,这些区域一般来 说是图像的重要区域,含有较大的信息量,所以用这些区域足以描述图像的主要内容。 目前,模拟人眼注视点的转换进行显著区域检测的数学模型有很多,由于这些方法利用 了图像认知过程中的一般规律,所以提取的显著区域是视觉上重要的区域。因此,我们 采用这样的模型,提取注视区域作为显著区域。这样不仅符合人的主观评价,而且能较 好地表达图像的内容。 由于在图像检索这个特定的应用领域中,并不需要对图像作精确的分割,因此使用 9 第二章基于谱残差和多分辨率分析的显著目标检测 基于显著区域的图像内容表示方法可以回避图像精确分割所带来的困难。由于图像检索 是一个相似性判别问题,而不是识别问题,因此与物体识别时进行的图像分割相比,图 像检索中区域分割的特点是分割后所获得的区域并不要求能精确地匹配原始图像中语 义实体的轮廓边界,而只需要在物体层次表示图像,然后利用图像的局部特征来描述检 索图像的内容。因此我们要尽可能地保证图像中的实体在同一区域内,并且应有效的区 分开图像中在视觉上具有明显差异的区域,这样通过综合的多种特征就可能让相似区域 表达相同或相近的语义。所以基于显著区域的图像表示方法比较适合于图像检索。 显著区域的提取方法是基于显著区域的图像表示方法的核心。下面几节就介绍本文 显著区域提取方法的理论基础和实现方法。 2 3 有效编码假说 有效编码假说是一种能够合理解释复杂的外部环境和有限的神经元数量之间矛盾 的理论工具。这种假说的正确性已经被很多具体的实验所证明。因此,在有效编码假说 提出之后,很多研究人员以它的理论思想为依据,获得了很多有价值的理论成果。 a t t n e a v e l 2 9 1 和b a r l o w 【3 0 】提出有效编码假说到现在己经有4 0 多年的时间了,但是直 到上世纪9 0 年代,随着人工智能和机器视觉技术的进步,有效编码假说才得到了迅猛 发展,并成为国内外研究人工智能、神经计算和神经网络等方面的一个新的热点,吸引 了很多优秀的研究人员涌入该领域。所以,为了使计算机能更好的模拟大脑,完成各种 复杂的任务,研究人类感知系统的有效编码并将其成果应用到计算机视觉领域是非常必 要的。 人们一直认为在自然选择和神经学习的共同作用下,人类的初级视觉系统能够自适 应于输入刺激的统计特性,但是还没有确切的证据证明生物感知系统的信息处理过程受 到外界信号统计模型的影响。a t t n e a v e 指出视觉感知系统的作用是产生输入信号的有效 表示。b a r l o w 以香农的信息论为依据,也提出了相似的理论,他认为信息的有效性在 神经计算的过程中具有十分重要的约束作用。初级感知系统的作用就是去除输入信号的 统计冗余。因此,为了利用较少的资源尽可能有效地表达更多的信息,大脑在处理接收 到的复杂的外界刺激时,它的神经元能够对信息进行筛选,剔除无关紧要的冗余信息, 实现对外界环境自适应。研究者利用有效编码假说合理地解决了复杂的外部环境和有限 的神经元数量之间的矛盾,其正确性已经得到很多具体实验的证明,所以有效编码假说 理论已经成为一种有效理解人类神经系统的理论工具。 l o 西北大学硕士学位论文 从信息论的角度来看,有效编码假说将图像信息h ( i m a g e ) 分解为两部分: h ( i ma g e ) = h ( i n n o v a t i o n ) + h ( p r i o r k n o w l e d g e ) ( 2 1 ) 其中h ( i n n o v a t i o n ) 代表图像中与众不同的部分;h ( p r i o r k n o w l e d g e ) 代表背景,是多余的 信息,可以在频率域用图像的统计不变性1 3 3 来描述。通过去除图像的背景信息,就可以 获得图像与众不同的部分,即显著目标。 2 4 谱残差模型 2 4 1 自然图像的统计特性 自然图像是指人类视觉在自然环境中观察到的图像,也就是自然环境在人类视觉系 统中产生的直观图像,它的统计特性与人工制造出来的图像的统计特性不同。很多研究 表明自然图像在统计特性上具有很大的冗余性。现代多媒体技术中的图像视频压缩、 图像视频传输技术都很好的体现和应用了这种特性。 ( 1 ) 空间相关性是自然图像的一个重要特征。直观上,我们就可以发现空间相邻区 域的灰度值具有很强的相关性,而且这种相关性随着距离的增长而减少。在图像处理中, 我们通常通过傅立叶变换把图像从空间域转换到频率域,分析图像的空间相关性。自然 图像的统计特性具有变换不变性:即将图像从原来的空间坐标变换到频率坐标系中后, 图像在空间中具有的统计特性在频域中仍然保留,这种不变性恰好保证了采用相位谱来 刻画自然图像空间相关性的可靠性。 自然图像中点与点之间的相关性用傅立叶变换的能量谱来刻画,空间局部结构用傅 立叶变换的相位谱来表示。用能量谱结合固定相位进行傅立叶反变换形成的图像基本不 能刻画原图像的特征;而相反,用相位谱结合固定振幅进行傅立叶反变换形成的图像基 本上反映了图像的空间结构特征。 ( 2 ) 自然图像还具有自相似性和尺度不变性。所谓自相似性是指自然图像的局部和 全局较为相似,例如海岸线的局部经过放大之后和全局基本相近;而尺度不变性表达类 似的概念,是指自然图像的统计规律并不随图像尺寸的变化而变化。 2 4 2l o g 谱表示 在自然图像的统计特性中尺度不变性是最经典也是研究最广泛的特性,这种特性也 被称为1 f 法则1 3 】,即自然图像集合的平均傅里叶谱的幅值a ( 1 c i 服从( 2 2 ) 式的分布,如 图2 2 ( a ) ( b ) 所示。 第= 常基十谱磕差自多分辨率分析的靠著i | 标检 叵 取,) 】o c l f 奠目 f o o | - 日yn l _ t y 0 l o g i 哩谱棚) 哑诺 图22 自然图像及其傅里叶频谱曲线 图22 所示反映了自然图像的l o g - l o g 谱和l o g 谱的区别。图22 ( a 1 为原始图像,躅 22 ( b ) 为原始图像的频率一幅值曲线,图22 ( c ) 为( b ) 的l o g l o g 曲线,图2 2 ( d ) 为频率幅 值对数曲线,即l o g 谱。由图可见,l o g - l o g 曲线近似为一条直线而l o g 曲线基本符合 1 f 法则。由于单幅图像不具有尺度不变性m 1 以及l o g 1 0 9 谱的数据分布不均衡( 低频部 分数据跨度大,高频部分数据汇集) f 1 4 1 , 所以本文采用l o g 谱l ( o 表示图像。 l o g 谱表示方法已经被许多文献用来进行场景统计分析叭”i 。在下面几节将重点介 绍l o g 谱分析在显著性检测方面的优势。图23 列举了一些自然图像的l o g 谱,从图中 我们可以发现不同图像的l o g 谱虽然包含统计奇点但是它们的大致分布趋势是相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论