毕业设计(论文)-基于视觉感知的图像检索_第1页
毕业设计(论文)-基于视觉感知的图像检索_第2页
毕业设计(论文)-基于视觉感知的图像检索_第3页
毕业设计(论文)-基于视觉感知的图像检索_第4页
毕业设计(论文)-基于视觉感知的图像检索_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要多媒体技术的快速发展与互联网技术的日益普及,使我们拥有越来越多的数字图像数据。为了能够准确、快速和人性化地从浩瀚的图像数据库中找到用户所需内容,基于内容的图像检索CONTENTBASEDIMAGERETRIEVAL,CBIR技术应运而生,并已成为国际学术界研究的一个热点。随着基于内容的图像检索技术的渐渐研究深入,一种基于视觉感知的图像检索技术逐渐活跃起来,它是根据人眼的视觉注意机制特点进行检索的,因而可以提高图像检索的精准率。本论文重点围绕基于视觉感知的图像检索进行研究,并提出了一种基于视觉感知的图像检索方法。该方法使用ITTI的视觉注意模型计算得到一个关注度图,在关注度图基础上,使用种子区域增长技术实现对图像中感兴趣物体的自动提取。与一般的图像分割技术不同,种子点的选取和区域增长过程都融合了个体视觉注意程度的信息。最后,本论文通过MATLAB的图形用户界面,构架了一个GUI检索界面,实现了基于视觉感知的图像检索平台。关键词基于内容图像检索高斯金字塔种子区域增长算法感兴趣区ABSTRACTABSTRACTWITHTHEDEVELOPMENTOFMULTIMEDIATECHNOLOGY,THEAPPLICATIONOFINTERNETANDTHERAPIDINCREMENTOFMULTIMEDIADATABASE,WEHAVEMOREANDMOREDIGITALIMAGESINORDERTOMANAGEANDRETRIEVETHOSEINFORMATION,THECBIRCONTENTBASEDIMAGERETRIEVALHASCAMEINTOBEINGANDEMERGEDTOBEONEOFTHEHOTRESEARCHAREASINDIGITALIMAGEDOMAINASTHECBIRTECHNOLOGYIMPROVED,VISUALPERCEPTIONBASEDIMAGERETRIEVALTECHNOLOGYGRADUALLYBECAMEACTIVITYITISRETRIEVEDBASEDONHUMANVISUALATTENTIONMECHANISMCHARACTERISTICSSOITCANENHANCETHEACCURACYOFIMAGERETRIEVALTHISPAPERFOCUSONIMAGERETRIEVALBASEDONVISUALPERCEPTIONANDPROPOSESAMETHODTOMAKEITCOMETRUETHESEPAPERUSEITTISVISUALATTENTIONMODELTOGETTHEATTENTIONDEGREEOFTHEWHOLEIMAGEWHICHSHOWSTHELEVELOFINDIVIDUALATTENTIONTOEVERYPARTSOFTHEIMAGEONTHEBASEOFTHECONCERNDEGREEMAP,IEXTRACTTHEINTERESTEDOBJECTSINTHEIMAGEAUTOMATICALLYWITHSEEDREGIONGROWINGTECHNIQUEANDDIFFERENTWITHTHEGENERALIMAGESEGMENTATIONTECHNOLOGIES,THEPROCESSOFSEEDPOINTSSELECTIONANDREGIONALGROWTHCOMBINESTHEINFORMATIONOFINDIVIDUALVISUALATTENTIONDEGREEATTHEENDOFTHEPAPER,IMAKEAGUISEARCHINTERFACEWITHTHEMATLABGRAPHICALUSERINTERFACEANDMAKETHESEARCHPLATFORMBASEDONTHEVISUALPERCEPTIONOFTHEIMAGECOMETRUEKEYWORDSCONTENTBASEDIMAGERETRIEVALGAUSSIANPYRAMIDSEEDREGIONGROWINGALGORITHMREGIONSOFINTEREST目录I目录摘要1第一章绪论111图像检索的应用和技术背景112国内外研究和发展现状213本文的研究内容及章节安排3第二章基于内容图像检索的预备知识及关键技术521图像检索中常用的低层特征描述方法522图像检索中的相似性度量方法623图像检索算法的评价准则8第三章视觉感知技术和ITTI视觉注意模型1131视觉注意机制1132视觉注意计算模型和关注度图12321初级视觉特征的提取14322多特征图的计算与合并17第四章基于视觉感知的图像检索技术2341算法主要流程2342感兴趣物体的自动提取算法24421关注度图的生成24422种子区域增长和图像分割2543基于感兴趣物体的特征提取与表达29431HSV颜色空间的直方图特征提取29432TAMURA纹理特征提取3044相似性度量3345实验结果与分析34第五章图形用户界面GUI的生成37第六章总结与展望4161已完成工作的总结41II目录62对图像检索技术未来的展望41致谢43参考文献45第一章绪论1第一章绪论近年来,由于图像、视频和音频采集设备的广泛应用,计算、存储设备的性能的飞速提升,以及互联网络的兴起和迅速普及,人们正在快速地进入信息化的社会。各种多媒体信息层出不穷、数据量急剧增加,成为了人们获取信息的重要来源,其形式包括图像、图形、动画、视频、文本以及音频等。在很多应用领域中都出现了大容量的图像视频数据库然而,相对于多媒体数据的爆炸性增长,相应的管理手段却相对滞后,海量图像数据库的有效地存储、管理和检索成为一种亟需的应用技术,因而也成为了多媒体领域近十几年来的研究热点。本文对图像检索系统的结构、功能以及该领域相关技术进行了较为深入的研究,重点讨论如何利用、反映视觉感知特性,提高基于内容的图像检索CONTENTBASEDIMAGERETRIEVAL,CBIR系统【1】【2】的性能。主要工作集中在视觉注意模型的建立、感兴趣目标的自动提取、颜色空间的量化、底层特征提取、相似度量设计五个方面。本章内容安排如下11节,简述图像检索的应用和技术背景12节,国内外研究和发展现状;13节,本文的研究内容及章节安排;11图像检索的应用和技术背景随着多媒体技术、计算机技术、通信技术以及互联网技术的高速发展,信息数量和信息媒体种类在不断增加,各种各样的信息被人们更多的接触。每天,无论是军用还是民用领域都会产生十亿比特的图像/视频数据。这些图像/视频数据中包含大量的信息。在如此之多的信息中,人们很容易就迷失方向,所以如何从中发现有用的信息是一个严峻的问题,对多媒体数据进行高效的管理、存取、检索已经成为一种比较迫切的需求。所以面对大量的各式各样的图像数据库,对图像数据库的管理工作成了一个迫在眉睫的研究课题,图像检索技术就是其中的核心技术之一。所谓的图像检索技术,就是从图像库中查找用户所需要的图像的这样一门技术。传统的基于文本的图像检索技术TEXTBASEDIMAGERETRIEVAL是将图像作为2基于视觉感知的图像检索数据库中存储的一个对象,然后利用人工对其进行人工标注,在系统检索时,使用标注以后得到的关键字进行匹配,这种做法本身存在着许多缺陷首先,每一幅图像都需要人工进行注释,因此标注较大的图像数据库就需要大量的人力。其次,图像内容非常丰富,人工注释所采用的少量文字很难充分表达图像的内涵。更为重要的是,人们对于一幅图像的理解有着强烈的主观性,所以在其注释的过程中完全可能出现理解上的偏差,这就直接导致了在检索的过程中不可避免的出现错误。随着大规模数据库的出现,上述问题变得越来越尖锐,为了克服基于文本的图像检索技术带来的困难,上世纪90年代早期提出基于内容图像检索技术CONTENTBASEDIMAGERETRIEVAL,简称CBIR,所谓的基于内容图像检索技术,是指直接根据描述媒体对象内容的各种特征,从数据库中查找出具有指定特征或含有特定内容的图像。基于内容图像检索技术是建立在计算机视觉和图像理解理论基础之上,其综合了人工智能、面向对象技术、认知心理学、数据库等多学科的知识。它突破了传统的基于文本检索的局限,从媒体内容中提取信息线索,实现了自动化、智能化图像检索和管理方式,便于快速、准确的查找。CBIR与传统的基于文本的检索方法相比,克服了人工描述的各种缺点,减少了工作量,适用于现在大规模的图像数据的检索。这项新技术具有客观、节省人力、可建立复杂描述、通用性好和应用前景广阔等许多优点,正受到了越来越广泛的重视,并得到了迅速的发展,CBIR已经代替了基于文本的图像检索成了图像检索技术的重心。12国内外研究和发展现状基于内容的图像检索技术始于90年代初期,目前己有十年的发展历史,由于此技术涉及的领域很多,因此迅速成为研究的热点,各大研究机构和公司如IBM、MIT、COLUMBIA、STANFORD、UIUC、UCSB、BERKELEY、MICROSOFT等都推出了它们的系统,各大著名杂志IEEETRANSONPAMI、IEEETRANSONIMAGEPROCESSING、IEEETRANSONMULTIMEDIA、IEEETRANSONCSVT、COMPUTERVISIONANDIMAGEUNDERSTANDING、INTERNATIONALJOURALOFCOMPUTERVISION、PATTERNRECOGNITION、SIGNALPROCESSINGIMAGECOMMUNICATION、JOURALOFELECTRONICIMAGING、MULTIMEDIASYSTEMS等纷纷设专刊介绍该领域研究的成果,著名的国际第一章绪论3会议如IEEECONFERENCEONCVPR、IEEECONFERENCEONICME、IEEECONFERENCEONICIP、ACMCONFERENCEONMULTIMEDIA、SPIECONFERENCEONELECTRONICIMAGING等纷纷设专题交流最新的研究成果【2】。基于区域REGIONBASED的检索方法是目前基于内容的图像检索研究的热点之一。它的目的是为了克服使用全局图像特征无法满足用户在物体层OBJECTLEVEL完成检索的愿望。相对于全局图像特征,使用基于区域或者物体的特征可以对图像进行更进一步的理解和分析,而且也更容易获取图像的语义信息。此外,基于区域的图像检索方法的另一个突出优点是它更贴近于用户进行检索时的思路,用户在寻找图像时,往往是想查询与例子图像中包含的物体相似的图像。目前,己经出现了一些基于区域的图像检索方法,这类方法大致的思路是利用经典的图像分割技术,首先将图像分成不同的区域,然后对于每一个区域提取一些特征,如颜色、纹理、形状等,并且结合基于区域的视觉特征与区域的位置等约束条件生成特征矢量,最后进行基于区域的特征匹配,输出最为相似的图像集合。然而,现有的这些基于区域的图像检索方法仍然具有以下几个没有解决的问题(1)由于图像分割仍然是图像处理和计算机视觉领域一个相当困难的课题,目前的技术还无法保证准确地提取到图像中的物体(2)用户对多数提取出的区域不感兴趣,因此使用用户不感兴趣的区域进行检索不但无法体现用户的检索目的,而且,这些无关的区域往往难以正确的匹配,导致检索准确率的降低。尽管有些方法让用户来手工选择感兴趣的区域,但这又增加了用户的工作量,这种查询方式,用户并不习惯。其实,我们可以分析用户在使用举例查询时的具体过程来得到一些有用的信息,或许通过这些有用的信息能够总结出有效的方案。一般地,用户在检索之前应当有自己希望检索的物体,如一只老虎、一条鱼等,然后他寻找一幅或多幅图像包含他感兴趣的物体或者能够代表其检索目的,然后将这些图像作为例子提供给图像检索系统,系统按照一定的特征描述和相似度度量方法给出与之相似的图像集合。从用户的查询过程不难看出,用户一般只对例子图像中的某些物体感4基于视觉感知的图像检索兴趣,因此,从用户的角度出发,使用全局的图像特征很难满足用户的希望,而基于区域的方法提取的区域大多用户根本不感兴趣,也不是最佳的方案。13本文的研究内容及章节安排充分地考虑到用户检索时的实际过程,结合目前的技术发展,本文提出一个基于用户感兴趣物体的图像检索方法中。此方法的关键技术有两个其一,结合用户感兴趣模型ATTENTIONMODEL和种子区域增长技术SEEDEDREGIONGROWING来自动提取图像中用户感兴趣的物体其二,对提取出的用户感兴趣物体进行特征描述,并用它们的特征来代表图像,完成图像匹配。本文的方法具有以下两个较大的特点(1)提出了一种图像检索的新思路,即并不是图像中的所有区域都对检索有贡献,真正起作用的应该是能够引起用户兴趣的物体。所以,本文的算法首先提取图像中用户感兴趣的物体,用它们来代表图像特征,进而检索图像。这种思路与用户检索的要求相吻合(2)提出了一个感兴趣物体自动提取算法,此方法有效地结合了感兴趣模型和图像分割技术,实现过程相当简单,但效果很好本文的结构安排如下第二章,介绍基于内容图像检索的预备知识及关键技术;第三章,介绍视觉感知技术和ITTI视觉注意模型【9】【10】【11】;第四章,基于视觉感知的图像检索技术,详细介绍本文算法的技术细节、模拟实验和最后的检索平台的展示;第五章,最后给出本文的总结和对图像检索未来的展望。第二章基于内容图像检索的预备知识及关键技术5第二章基于内容图像检索的预备知识及关键技术为了后续各章内容的展开,本章将系统地介绍基于内容图像检索领域研究的一些预备知识和若干关键技术。本章的结构安排如下第一节介绍基本的图像低层特征描述方法第二节介绍在图像匹配中一些常用的相似性度量准则第三节介绍图像检索算法的评价方法。21图像检索中常用的低层特征描述方法目前,用于图像检索的低层视觉特征主要有三种颜色、形状和纹理【3】【4】【5】。本节将简要地一一介绍,较为详细地介绍分布于本文后续的相关章节。一、颜色特征描述颜色是彩色图像最显著的、最直观的物理特征,因此颜色特征的描述方法很多。颜色直方图COLORHISTOGRAM颜色直方图具有与生俱来的旋转不变性ROTATIONINVARIANCE、尺度不变性SEALEINVARIANCE和平移不变性TRANSLATIONINVARIANCE,因此它被被广泛的应用到图像检索中。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一各量化通道在整幅图像颜色中所占的比重。常用的颜色空间有RGB和HSI空间,量化的方法有均匀量化方法、基于主观感知的量化、参考颜色表法、颜色聚类量化颜色矩COLORMOMENT类似于描述形状的区域矩不变量,颜色矩的主要思想是在颜色直方图的基础上计算出一些统计量如一阶中心矩、二阶矩等,用这些统计量来表示颜色特征包含空间信息的颜色描述方法SPATIALCOLOR颜色直方图的缺点是失去了象素点的位置信息,为了克服此缺点,许多方法在描述颜色的同时考虑了空间信息。HUANG提出了一种COLORCORRELOGRAM的描述子,它的本质是用颜色对相对于距离的分布来描述颜色信息6基于视觉感知的图像检索颜色不变量COLORCONSTANT由十颜色通常随着光照的变化发生变化,一些学者试图提取出一些颜色不变量来进行图像检索,利用每一象素点周围小邻域中颜色的分布信息,通过差分或相比来获得颜色不变量。二、形状特征描述形状是刻画物体的最本质的特征,也是最难描述的图像特征之一,目前用于图像检索的形状描述方法大致分为两类基于边缘和基于区域的形状方法基于边缘的形状描述方法利用图像的边缘信息,如边缘曲线、边缘方向直方图、角点、兴趣点等来描述物体的形状基于区域的形状描述方法利用区域内的灰度分布信息,包括不变矩法、小波重要系数法等。三、纹理特征描述纹理是图像的重要特征之一,其本质是刻画象素的邻域灰度空间分布规律。纹理特征描述方法主要有四类基于统计的方法、几何的方法、基于模型和基于信号处理的方法。基于统计的方法其主要思想是通过统计图像中灰度的分布来描述纹理特有文献提出了一种以灰度级空间相关矩阵即共生矩阵为基础描述纹理信息的方法,也有文献提出了一种利用象素灰度间的自相关函数来提取纹理特征几何方法将纹理看作是纹理基元按照一定的几何规则排列的组合。这种方法的代表工作有利用V氏图剖分提取纹理特征和利用结构法提取纹理基元基于模型的方法利用一些成熟的图像模型来描述纹理,如基于随机场RANDOMFIELD的方法、分形FRACTALS的方法和多尺度子回归的方法MULTIRESOLUTIONSIMULTANEOUSAUTOREGRESSIVE,MRSA等。基于信号处理的方法利用信号处理的频率分析理论来提取纹理特征,包括基于傅立叶变换域FOURIERDOMAIN的方法、基于加博滤波器GABORFILTER的方法、基于小波域WAVELET的方法。22图像检索中的相似性度量方法相似性度量方法【1】用来计算两幅图像之间的相似程度,其模型是多种多样的,但没有一个适用于任何情况,主要原因是相似性具有特征依赖的特点,不同的特第二章基于内容图像检索的预备知识及关键技术7征应该应用不同的度量方法。以下是目前图像检索中用到的若干相似性度量方法。1距离度量方法图像特征抽取后,最直观的方法是直接利用特征向量的距离来衡量两幅图像的相似性,下面列举了一些CBIR系统中常用的距离公式,其中用X,Y代表两幅图像对应的特征矢量,代表特征分量。MINKKOWSKY距离,1|121MANHATTAN距离,1|22EUCLIDEAN距离,121223EUCLIDEAN距离没有考虑到向量各维之间的关系,各维分量同等重要。加权EUCLIDEAN距离,121224加权EUCLIDEAN距离考虑不同维分量的重要性,而一般的系统抽CBIR取的特征的重要性是不同的,因此此距离应用范围很广。MAHALANOBIS距离,00,,,258基于视觉感知的图像检索A矩阵是相应的协方差矩阵,此距离考虑了样品的统计一性和样品之间的相关性。直方图交,0,0,026该距离只能用于以直方图为特征矢量的相似性度量。2人类视觉相似性模型距离度量模型的公式应受以下四条计量公理的限制DA,ADB,B0自相似常数公理DA,BDA,A最小公理DA,BDB,A对称性公理DA,BDB,CDA,C三角不等公理然而,这四条公理对于图像检索来说并不完全成立,实验证明,这四条公理都有反例。如在认知试验中,人们容易把某种特征不太显著的物体认为象特征显著的物体,却不认为显著的物体象不显著的物体,这就违反了对称性公理。所以,有文献提出了模糊特征对照FFCFUZZYFEATURECONTRAST模型,其相似性计算公式如下,1,1,01,027在FFC中,图像的特征向量的各维分量的取值是模糊的,只要各个特征取值范围有限,FFC度量比传统的距离度量更为接近人类对相似性衡量的心理上的特点。第二章基于内容图像检索的预备知识及关键技术923图像检索算法的评价准则由于图像检索具有很强的主观性,因此,评价一个图像检索算法性能的优劣并不容易。下面列举的是几个公认的图像检索算法的评价准则。准确率PRECISIONRATE和回想率RECALLRATE对于一幅查询图像Q,其准确率和回想率分别定义为PRN/TRRN/N其中N人眼主观从图像库中找出域图像Q相似的图像数目N图像检索系统自动检索输出的包含在N中的图像数目T图像检索系统自动检索输出的总的图像数目。回想率相当于在一定范围内的查全率,而准确率相当于在一定范围内的查准率。这两个指标都是越大越好。可以统计多幅查询图像的平均检索准确率和回想率,直接分别用它们来衡量图像检索算法的性能,也可以使用准确率对回想率的曲线来评价算法的性能,另外,还可以根据准确率和回想率计算出检索效率来评价检索算法,检索效率定义为,28命中准确率准确率和回想率需要用户在图像库中人工找出与查询图像相似的图像集,这将耗费大量的人工劳动,因此这种度量准则仅适用于小型的图像数据库。如果图像库测试集已经提前进行了分类,如CORELIMAGEGALLERY等,就可以简单的将每一个图像类作为其中每一幅图像的GROUNDTRUTH,由此来度量算法的检索准确率。设图像Q所在的GROUNDTRUTH图像集为G,图像检索算法自动输出了T个相似图像,其中命中G的有N图像,此次检索的准确率定义为/29由此,平均多个查询的检索准确率就可以度量算法的检索性能。排序值评测法10基于视觉感知的图像检索设Q为一幅查询图像,,,为图像检索算法输出与Q相关的一且12从主观上认为相似的图像等同于上公式中的,I1,2,N是NRANK它们在检索结果中对应的排序值,则有两个指标可以衡量检索算法的性能1121011211其中,第一个指标定义了所有相关图像在检索结果中的平均排序,显然,此指标越小,检索算法的准确率越高。第二个指标定义了所有相关图像在靠前排列的紧密程度,此值越大越好,如果所有的相关图像都排在最前面,则此指标取值为1。应当指出,除了主观因素,图像检索的准确率与图像数据库有很大的关系,即使同一算法根据相同的评价方法在不同的数据库中计算出的检索准确率都可能会存在较大的差异。目前流行的评价策略是根据具体的实验环境,采用上述三种评价方法之一,在图像数据库中任意挑选若干个图像进行检索,用平均检索准确率来衡量算法的效率。本章简单介绍了基于内容图像检索研究中的一些预备知识和关键技术,主要包括三个方面的内容描述图像的低层视觉特征、图像的相似度度量方法和图像检索算法的评价准则。通过这些预备知识的介绍,让我能够从整体上了解该领域研究的主要问题和己有的工作基础,同时也为后续章节的展开作了铺垫。但是,每一部分介绍的都比较概括,详细的应用将在下一章节进行展开介绍。第三章视觉感知技术和ITTI视觉注意模型11第三章视觉感知技术和ITTI视觉注意模型31视觉注意机制视觉注意VISUALATTENTION是人类视觉HUMANVISION研究领域的重要课题,通俗地讲,视觉注意就是研究人在观看图像时,到底对什么更加注意。从本质上讲,视觉注意是属于神经生物学范畴的概念,它意味着人具有精神或者观察能量能够集中的技能。从事视觉注意机制研究的学者大多是心理学家或生物神经学家,因此,图像处理和计算机视觉领域并没有对此产生很大的研究兴趣,但是近几年来,己经有一些学者将注意机制的一些方法应用到图像处理应用中。研究视觉注意机制的一个重要实验被称为眼动实验EYEMOVEMENT,即通过大量实验样本人在观察图像时眼睛的转动频率和视点位置的移动归纳出若干能够影响视觉注意的低层因素和高层因素。目前,总结出来的低层视觉特征有对比度CONTRAST人往往会更加关注图像中颜色或亮度反差较大的地方;尺寸SIZE尺寸一大的物体更能吸引人的注意;形状SHAPE细长条的物体更能引起人的注意;颜色COLOR人类视觉对某些颜色较为敏感,如红色;运动MOTION运动的区域能够强烈地吸引人的注意。影响视觉注意的高层因素包括位置LOCATION人往往对位于图像中心的区域更加关注;前景和背景FOREGROUND目前己有的工作,包括视觉注意的计算模型建立和在目标识别、视频分析等方面的应用多数都是近几年才开展起来的,这说明此领域的研究开始升温已有的工作中还没有根据视觉注意模型提取图像中用户感兴趣物体的研究,更没有将其应用到基于内容的图像检索中,而这些正是本文研究的创新点。32视觉注意计算模型和关注度图ITTI提出的基于显著度的空间视觉注意模型,是当前视觉注意机制领域中具有主导地位的自底向上的视觉注意模型,为实现本文相关功能提供了必要的理论基础和指导。在数字图像处理领域内,在缺乏先验信息的情况下对图像进行理解,由于没第三章视觉感知技术和ITTI视觉注意模型13有明确的目标和目的,大多数的传统方法都会采取对图像进行全面分析的方式。这意味着,在图像中,兴趣区域和非兴趣区域享有相同的计算资源,分配到同样的计算时间。一般情况下,最能反映图像内容的信息或者数据,仅仅占据完整图像的很小一部分。因此对全图进行全面、相同的处理不但增加了分析过程的复杂性和数据冗余度,而且浪费了宝贵的计算资源。自底向上的基于显著度的空间视觉注意模型能够很好地解决这一问题。尽管没有事先给定任何先验信息,模型仍然能够根据来源于图像的底层数据,分析视觉刺激、分配计算资源,按照不同位置显著度高低顺序有选择地对各个场景区域进行局部分析处理,所以自底向上的视觉注意模型通常也被称作数据驱动DATADRIVEN的视觉注意模型。尽管更为普遍的观点是自顶向下和自底向上的信息综合处理结果影响人类的行为。但是,目前将这种自底向上的数据驱动的视觉注意机制引入到图像信息处理过程是非常有意义的。通过计算机建模,场景中的突出目标因其特殊的视觉特征分布模式而具有较高的显著性,根据显著性的优先级计算程序就能够快速准确地认知场景内容,进行逻辑推理和决策。同时,自底向上的视觉注意模型的研究能够推动自顶向下视觉注意模型的研究进一步深入,并且和神经生物学方面的视觉注意机制研究工作相互促进、相辅相成。图31描述了基于显著度的空间视觉注意模型框架。通过对图像进行多尺度处理、初级视觉特征提取、注意焦点确定与转移三个部分的协同工作,能够从输入图像中提取出感兴趣的待注意目标。输入一幅彩色图像,首先使用线性滤波器将图像分解为多个特征通道,提取颜色、亮度和方向等多个维度的特征然后使用高斯金字塔对不同维度特征进行多尺度采样,经过中央周边差操作提取初级特征图接着,采取有效的特征合并策略,将不同维度的多幅特征图合并得到突出图和显著图最后,根据得到的显著图定位待注意目标,完成对目标的关注。模型中使用胜者为王WIA竞争网络寻找显著图中存在的最显著的点同时返回其坐标。同时,使用禁止返回IOR机制使注意力不返回已经关注过的区域。进一步的迭代保证注意力能够以显著性降序为标志关注其它目标。14基于视觉感知的图像检索图31基于显著度的视觉注意模型框架321初级视觉特征的提取输入一幅彩色图像,首先使用现行滤波器将输入信号分解为孤立的通道,包括亮度、颜色和局部方向等。将不同通道的信号之和与高斯低通滤波器进行卷积,获得滤波结果并以2为步长进行横行和纵向的减抽样操作,建立高斯金字塔。显著性模型中设置金字塔尺度级别分别为1,2,9尺度级别1,代表当前图第三章视觉感知技术和ITTI视觉注意模型15像和原始图像的比例为11,尺度级别9,代表经过8次高斯平滑和8次抽样操作,当前图像和原始图像的比例是1256,如图42所示。图32高斯金字塔图例使用R,G和B表示彩色图像的红、绿和蓝三色通道值。使用以下公式计算亮度331使用,来计算亮度高斯金字塔为了突出不同颜色通道产生的反差效果,模型计算对应红绿RG对比通道以及蓝黄BY对比通道的颜色图16基于视觉感知的图像检索,32,33使用和构建颜色高斯金字塔和。然后,使用GARBOR滤波器对亮度金字塔进行滤波,滤波器设定四个主要的方向0,45,90,135,得到局部方向高斯金字塔图。局M部方向高斯金字塔图是对图像中方向朝向信息的直观反映,该图给定区域内的能量反映了该区域内的灰度对比程度,进而反映了GABOR滤波后区域内的纹线清晰程度。如果输入图像该区域内的纹线方向接近滤波器方向,则GABOR滤波后该区域内的纹线结构相对清晰,亮度高,和周围环境对比反常大。例如,对同一区域进行0,45,90,135四个方向的GABOR滤波,该区域45方向滤波结果灰度亮度最高,表示该区域在45方向具有明显的朝向特征,该特征可能是45方向的一条直线或者规则纹理引起的。GABOR滤波器与人类初级视皮层的简单细胞的生物作用相仿。JDAUGMAN在1985年提出了二维GABOR滤波器理论,并指出二维GABOR滤波器可以同时在空域、频域和方向上获得最佳的分辨率,可以在频域不同尺度、不同方向上提取相关的特征。利用GABOR小波的尺度函数和对应的小波函数构成一对奇偶滤波器,它具有很好的时空域局部化特点,可较好地模拟人类视皮层简单细胞的信号处理特点。在模型中,可设置任意方向数目,但是太多的方向数对系统运行表现并无明显改进,因此,模型设置四个方向进行GABOR滤波。图33显示了一个多尺度和多方向GABOR滤波器和测试图片的滤波结果。第三章视觉感知技术和ITTI视觉注意模型17图33多方向多尺度GABOR滤波器和测试图片滤波结果322多特征图的计算与合并对颜色、亮度和方向多维特征,在其图像金字塔上,应用中央周边差操作CENTERSURROUNDDIFFERENCE。中央周边差操作根据人眼的生理结构设计。人眼感受野对于反差大的视觉信息输入反应强烈,例如中央暗周边亮的情况,中央是红色周边是绿色的情况,这都属于反差较大的视觉信息。对每维特征进行中央周边差操作,以探测场景或图像中的空间不连续性,很好地模仿了视网膜上探测突出目标的机制。对于每维特征,中央尺度。为金字塔的3,4,5尺度级别,周边尺度,其中3,4,从而产生六对尺度,36,37,47,48,58,59。通过将周边尺度S的图像进行线性插值,使之和中央尺度C的图像具有相同大小,然后进行点对点的减操作,获得中央周边差图,这样的跨尺度的减操作用符号表示。18基于视觉感知的图像检索对亮度特征而言,为了捕捉在较暗背景中的明亮对比信息以及在较亮背景中的灰暗对比信息,对中央周边差操作后的结果取绝对值,获得亮度特征图,|34这里,C3,4,5,表示中央尺度,S表示周边尺度,3,4,I表示亮度。同理可计算得到红绿对比颜色通道和黄蓝对比颜色通道的特征图,|35,|36这里,RG表示红绿颜色对比通道,BY表示蓝黄颜色对比通道。类似地,局部方向通道的特征图定义为,|37这里,0,45,90,135,后产生的四个方向特征通道。模型共计算亮度特征图42张特征图。表示使用GABOR滤波器对亮度金字塔进行四个方向滤波6张,颜色特征图26张,局部方向图46张,总共42张特征图。基于显著度的视觉注意模型认为视觉注意力在一张二维显著图的指导下转移,而显著图反映了场景不同位置的显著性,所以必须合并以上计算所得的多张特征图。模型使用不同机制提取不同通道的特征,如何衡量颜色、亮度或者方向特征图中的显著点的重要性,进而合并形成一张图,其合并策略非常重要。同时,显著目标可能在某一通道对应的特征图中引起强烈的响应,但是这种响应往往会被其它特征通道中的噪声所湮没。使用合适的合并策略,能凸现真正显著的目标,有效地抑制噪声。显著性视觉注意模型,使用一个非线性的标准化算子N对图像进行迭代操作,抑制噪声,突出显著目标,为特征图的合并打下良好基础,使合并后的结果更加直观地反映图像不同位置的显著性。算子N的操作步骤如下为了避免由特征提取方法不同造成的特征强度差异,首先将每张特征图的特征值归一化到固定的O至1的数值区间内得到M然第三章视觉感知技术和ITTI视觉注意模型19后将M与二维高斯差分函数进行卷积,将结果和输入进行叠加,迭代中产生的负值设置为零见图34,公式定义如下|038,2222222222222239这里,是二维高斯差分函数表示抛弃负值和是兴奋和抑制DOG|0。带宽文中取经验值,和分别为输入图像宽度的2和25和为兴和抑制常量文中取经验值,05和15为了避免将具有均匀纹理的区域当成显著的目标,公式中引入了一个偏置常量,抑制相应的区域文中取经验值02。图34使用标准化算子进行局部迭代的流程图迭代的次数可以是任意的,对于输入的二维非空特征图,过多的迭代次数最终导致在特征图中形成一个单峰。过少的迭代次数,会造成激励和抑制不足,目标突出和噪声抑制不明显。利用标准化算子对特征图进行局部迭代的这种中央自激励、领域范围内抑制的方法,促成相邻显著点之间的局部竞争。虽然迭代的次数需要人为设定,但是计算过程中一般到特征图中大多数位置的特征值收敛接近20基于视觉感知的图像检索于O时就停止迭代,图35是对两幅不同特征图使用标准化算子进行不同次数迭代产生的中间数据结果。模型使用高斯差分函数进行局部迭代,模拟了人脑视皮层的中央自激励、领域范围内抑制的长程连接LONGRANGECONNECTIONS组织方式,从而避免了只能检测到一个突出的显著目标的情况,从生物角度考虑具有合理性。使用标准化算子进行局部迭代后产生的特征图更接近稀疏分布,显著目标周边的区域能够得到很好的抑制。使用标准化算子进行局部迭代的方法,具有对非显著目标强烈抑制的特点,同样适用于自然场景图像中的目标检测,表现出对噪声的鲁棒性。第三章视觉感知技术和ITTI视觉注意模型21图35对两幅图像使用标准化算子进行不同次数迭代产生的中间数据结果经过迭代标准化操作后,将不同尺度上的亮度、颜色和方向特征图叠加起来,形成各个维度对应的突出图CMCONSPICUITYMAPS。这里使用到跨尺度加操作,22基于视觉感知的图像检索将特征图约减到尺度级别4金字塔图的大小,然后将特征图做点对点加操作。亮度突出图为5343,310颜色突出图为5343,311方向突出图为0,45,90,1355343,312最后,将不同特征下的突出图做加权叠加得到显著图SMSALIENCYMAP,前模型中设置每个特征的权值都是一样的。13,313上文方案是一个有效的视觉注意计算模型。此模型在九个尺度上分别计算三个特征通道的注意程度定量值,然后线性组合它们,通过迭代过程形成最终的关注度图,此关注图记录了图像中每一个点受关注的程度,亮度越大的点意味着受关注的程度也越大。模型使用的三个特征通道是亮度对比度、颜色对比度和方位朝向对比度。本文算法仅仅使用此模型中的关注度图。但是,需要指出的是,此模型的目的是计算出每一个点受关注程度的定量值,而本文的目的是提取受关注的物体,物体具有整体的特征,因此,考虑到物体局部的整体信息,我们使用一个高斯滤波器来滤除掉关注图中的“噪声”点,其目的是为了降低后面选取种子点出错的可能性。第四章基于视觉感知的图像检索技术23第四章基于视觉感知的图像检索技术41算法主要流程用户在检索图像中,往往只想利用例子图像中的他们感兴趣的物体来检索,因此,本章算法的核心思想与用户检索过程相吻合。图41给出了算法的基本流程图。图41本文算法流程图首先使用ITTI提出的视觉注意计算模型对待查询图像进行处理,得到图像中每一点受关注程度的定量描述值,有理由认为受关注程度越高则观察者对其的兴趣也就越大。然后结合视觉注意计算模型和用来图像分割的种子区域增长算法来提取图像中感兴趣的物体,此过程包括了种子区域的选择,区域的增长和相似且相邻区域的合并等技术环节。当提取到预定数目的感兴趣物体后,使用颜色和纹理特征来描述每一个感兴趣物体。在度量图像间的相似性时,依据图像中感兴趣物体受关注程度对应地进行匹配。最后,按照相似度进行排序,输出相似图像集合。相似度计算颜色纹理特征提取示例图像图像数据特征库检索结果感兴趣区颜色量化视觉注意模型感兴趣区自动提取24基于视觉感知的图像检索整个算法的核心技术是图像中感兴趣物体的自动提取。我们利用了视觉注意计算模型,假设某个物体引起视觉注意越强烈,就越可能成为用户感兴趣的物体。在感兴趣物体的提取过程中,使用了种子区域增长技术,与一般的图像分割技术不同,种子点的选取和区域增长过程都融合了视觉注意程度的信息。42感兴趣物体的自动提取算法421关注度图的生成本小节将结合关注度图和种子区域增长算法来自动提取图像中感兴趣的物体。种子区域增长SEEDEDREGIONGROWING是一项相当有效的图像分割技术【19】,很多的文献介绍了相关的工作。一般地,种子区域增长开始于一个种子区域,然后不断地将相邻的点赋予此区域,而增长的过程被一些相似度准则所控制,只有通过相似度测试的点才能属于此区域。该方法有两个优点其一,它简单、快速、鲁棒性好另一个优点是种子点的选取过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论