




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于svm的图像分类与检索技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 随着网络的普及和多媒体技术的发展,图像分类与检索技术成为近来需求和研 究的热点。本文研究了基于内容的图像检索的相关技术,主要包括颜色和纹理两方 面的视觉特征描述和提取算法,相似度度量,归一化等,并在进一步研究灰度直方 图的基础上提出了改进的灰度直方面积图的检索方法。然后通过研究支持向量机的 原理和技术,构造s v m 多类分类器,实现了一个基于s v m 的图像分类和检索实验 系统,并针对基于s v m 的相关反馈中反馈样本不足的问题进行了算法改进和实现。 实验证明:在基于s v m 图像库预分类的基础上,采用本文的综合特征提取算法和 相关反馈算法进行检索得到的结果能更好的满足用户的要求。 关键词:基于内容的图像检索,支持向量机,图像分类,相关反馈 a bs t r a c t w i t ht h ep o p u l a r i t y0 ft h ei n t e m e ta n dm u l t i m e d i at e c h n o l o g y ,t h et e c h n i q u e s0 f i m a g ec l a s s i f i c a t i o na n dr e t r i e v a lt e c h n o l o g yh a sr e c e n t l yb e c o m eah o tn e e d sa n d r e s e a r c h n i sp a p e rs t u d i c st h ec o n t e n t - b a di n l a g cr e t r i e v a l ( c b i r ) t e c 量l i l o l o g i e s , i n c l u d i n gc o l o ra n dt e x t u r eo ft h ev i s u a lc h a r a c t e r i s t i c s0 fe x l i a c t i o na n dd e s c r i p t i o n a l g o r i t h m ,t h es i m i l a r i t ym e a s u r e ,n o m a l i z e d ,a n d o nt h eb a s i so ff u r t h e rs t u d i n go nt h e h i s t o g r a m ,w ep u tf o r w a r dt h ei m p r o v e dg r a ya r e ah i s t o g r a ma l g o r i t h m t h e nt h r o u g h t h er e s e a r c ho ft h ep r i n c i p l e so fs u p p o r tv e c t o rm a c h i n e ( s v m ) t oa c h i e v eas v m - b a s e d i m a g ec l a s s i f i c a t i o na n dr e t r i e v a lo fe x p e r i m e n t a ls y s t e m ,a n dw eh a v em a d es o m e m o d i f i c a t i o n st ot h er e l a t e df e e d b a c k ( r f ) a l g o r i t h m e x p e r i m e n t ss h o wt h a to nt h e b a s i so fp r e c l a s s i f i c a t i o ns v m b a s e di m a g ed a t a b a s e s ,u s i n gt h ei n t e g r a t e df e a t u r ee x t r a c t i o n a l g o r i t h m sw i t hr fa p p r o a c hp r o d u c e db yt h i sp a p e rg e t sm o r ei m p r o v e m e n to nt h e e f f 色c t ,a n dc a nb e t t e rm e e tt h en e e d s0 fu s e r s z h o uy i n g ( c o m p u t e ra p p l i e d7 r e c h n 0 1 0 9 y ) d i r e c t e db yp r o f w a n gc u i r u k e yw o r d s :c b i r ,s v m , i m a g ec l a s s i f i c a t i o n , r e i e v a n c ef e e d b a c k 华北电力大学硕士学位论文摘要 摘要 随着网络的普及和多媒体技术的发展,图像分类与检索技术成为近来需求和研 究的热点。本文研究了基于内容的图像检索的相关技术,主要包括颜色和纹理两方 面的视觉特征描述和提取算法,相似度度量,归一化等,并在进一步研究灰度直方 图的基础上提出了改进的灰度直方面积图的检索方法。然后通过研究支持向量机的 原理和技术,构造s v m 多类分类器,实现了一个基于s v m 的图像分类和检索实验 系统,并针对基于s v m 的相关反馈中反馈样本不足的问题进行了算法改进和实现。 实验证明:在基于s v m 图像库预分类的基础上,采用本文的综合特征提取算法和 相关反馈算法进行检索得到的结果能更好的满足用户的要求。 关键词:基于内容的图像检索,支持向量机,图像分类,相关反馈 a bs t r a c t w i t ht h ep o p u l a r i t y0 ft h ei n t e m e ta n dm u l t i m e d i at e c h n o l o g y ,t h et e c h n i q u e s0 f i m a g ec l a s s i f i c a t i o na n dr e t r i e v a lt e c h n o l o g yh a sr e c e n t l yb e c o m eah o tn e e d sa n d r e s e a r c h n i sp a p e rs t u d i c st h ec o n t e n t - b a di n l a g cr e t r i e v a l ( c b i r ) t e c 量l i l o l o g i e s , i n c l u d i n gc o l o ra n dt e x t u r eo ft h ev i s u a lc h a r a c t e r i s t i c so fe x l 眦t i o na n dd e s c r i p t i o n a l g o r i t h m ,t h es i m i l a r i t ym e a s u r e ,n o m a l i z e d ,a n do nt h eb a s i so ff u r t h e rs t u d i n go nt h e h i s t o g r a m ,w ep u tf o r w a r dt h ei m p r o v e dg r a ya r e ah i s t o g r a ma l g o r i t h m t h e nt h r o u g h t h er e s e a r c ho ft h ep r i n c i p l e so fs u p p o r tv e c t o rm a c h i n e ( s v m ) t oa c h i e v eas v m - b a s e d i m a g ec l a s s i f i c a t i o na n dr e t r i e v a lo fe x p e r i m e n t a ls y s t e m ,a n dw eh a v em a d es o m e m o d i f i c a t i o n st ot h er e l a t e df e e d b a c k ( r f ) a l g o r i t h m e x p e r i m e n t ss h o wt h a to nt h e b a s i so fp r e c l a s s i f i c a t i o ns v m b a s e di m a g ed a t a b a s e s ,u s i n gt h ei n t e g r a t e df e a t u r ee x t r a c t i o n a l g o r i t h m sw i t hr fa p p r o a c hp r o d u c e db yt h i sp a p e rg e t sm o r ei m p r o v e m e n to nt h e e f f e c t ,a n dc a nb e t t e rm e e tt h en e e d s0 fu s e r s z h o uy j n g ( c o m p u t e ra p p l i e d7 r e c h n 0 1 0 9 y ) d i r e c t e db yp r o f w a n gc u i r u k e yw o r d s :c b i r ,s v m , i m a g ec l a s s i f i c a t i o n , r e i e v a n c ef e e d b a c k 声明尸明 本人郑重声明:此处所提交的硕士学位论文基于s v m 的图像分类与检索技术的 研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取 得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 2 虱堕: 日期: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播 学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日期: 导师签名: 日期: 盐产逝半 华北电力大学硕士学位论文 1 1 研究背景和意义 第一章引言 伴随网络和多媒体技术的飞速发展,包括声音、图形、图像、视频和动画等数 字信息急剧膨胀。图像作为一种内容丰富、表现直观的媒体信息,受到人们的关注。 在现实生活中时时刻刻都有大量的图像产生,如何从这些图像信息中找出符合用户 要求的图像,是研究者需要解决的问题。图像检索就是在这样的背景下产生的。图 像分类就是模式识别的过程,利用计算机对图像进行定量分析,把图像中的每个像 元或区域划归为若干类别中的一种,以代替人的视觉判读。 图像的内容丰富多彩,其所包含的内容抽象复杂。由于目前图像理解和计算机 视觉发展的水平所限,人对图像的理解与计算机对图像的描述存在较大差异。而且 不同的人对同一幅图像的理解和描述也存在差距,甚至大相径庭,诸如此类问题, 都是图像分类和检索技术需要考虑和解决的难题。传统的图像检索是基于文本的检 索,其典型框架是,首先对图像用文本进行注解,然后用基于文本的数据库管理系 统( d b m s ) 来进行图像检索【1 2 l 。这种方式依赖于文件i d ( 1 d e n t i f i c a t i o n ) ,一般性信息 ( 作者、时间、主题等) 以及用关键词表示的与图像相关的文本信息。早期的数据 库如k 0 d a kp i c t u r ee x c h a n g es y s t e m 、t h ep r e s sl i n kl i b r a r y 等就采用这种检索方式, 采用描述性文本进行检索。文本检索的发展比较成熟。如今文本检索已经是i i i t e r n e t 上检索工具不可缺少的组成部分,如y a h 0 0 和a l t a v i s t a 。基于文本的图像检索的缺 陷十分明显,其一是手工对图像进行注释所需的工作量大,其二是图像注解的主观 性和不精确性可能导致的检索过程中的失误。 为了克服这些困难,基于内容的图像检索( c b i r ) 应运而生,其思路不同于基于 关键字的手工注解,图像由其自身的视觉内容,如颜色、纹理,形状等进行索引, 这便是基于内容的索引。其主要的思想是根据图像所包含的色彩、纹理、形状以及 对象的空间关系等信息,建立图像的特征矢量,检索方法主要是基于图像的多维特 征进行相似性查询。基于内容的图像检索有以下几方面优势。一、不需要人工对每 一幅图像进行标注,节省了人力劳动;二、利用图像本身的内容来描述图像,避免 了人工标注的主观性;三、为用户提供了更多的检索方式,如:基于颜色、形状、 纹理、草图等。此项技术的研究结合了计算机视觉( c o m p u t e rv i s i o n ) ,图像处理( i m a g e p r o c e s s i n g ) ,图像理解( i m a g eu n d e r s t a n d i n g ) 和数据库( d a t a b a s e ) 等多个领域的技术 成果,是一个很有前途的发展方向,而且随着该研究的深入必将推动其它相关领域 的发展关于其详细的内容将在第二章论述。图像的应用领域范围很广,几乎各行各 业或多或少的与图像有关。目前,主要应用领域有:搜索引擎、医学图像检索、商 华北电力大学硕士学位论文 标检索、犯罪和安全预防、个人相册管理等等。其中,有些应用领域对图像检索的 效率要求很高。致力提高图像检索的性能,将对这些行业的发展起到推波助澜的作 用。 支持向量机【1 7 l ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是v a p n i k 等人根据统计学 习理论提出的一种学习方法,近年来在模式识别、回归分析、图像处理和数据挖掘 等方面得到了广泛应用。支持向量机方法根据v a p n i k 的结构风险最小化原则,尽量 提高学习机的泛化能力,即由有限训练样本得到的决策规则对独立的测试集仍能够 得到小的误差。此外,支持向量机算法是一个凸二次优化问题,能够保证找到的极 值解就是全局最优解。这些特点使支持向量机成为一种优秀的学习算法。近年来由 于支持向量机基于小样本训练的优越性,被广泛应用于模式识别的各个领域,在图 像检索,人脸识别等中都涌现了许多新的算法和改进,越来越受到广泛的关注和重 视。但支持向量机方法也存在一些问题,如对一般函数的v c 维( v a p n i k c h e r v o n e n k i s d i m e n s i o n 简称v c ) 确定问题、训练算法的改进问题及核函数的选择及参数的确定 问题,以及多分类应用等尚未有很好的确定办法。 以上讨论可知,对基于s v m 的图像分类和检索技术的研究对于促进s v m 在图 像检索上的应用,改善图像分类和检索的性能具有实际的应用价值,是个很有意义 的研究课题。 1 2 国内外研究现状 自二十世纪九十年代起,世界各国的图像和多媒体领域的研究者和爱好者投入 图像检索领域。在经过十年的发展之后,已取得一些成果。这些系统或作为商业用 途或作为学习交流之用,是目前典型的系统。下文将对这些系统作简单的介绍。 1 2 1 国外著名的图像检索系统 ( 1 ) q b i c q b i c ( q u e r yb yi m a g ec o n t e n t ) 是由i b m 提出的、在基于内容图像检索领域应用 最早的商用产品1 1 6 。q b i c 系统提供了多种查询方式,包括:支持用户使用例子 ( 系统自身提供) 查询、用户素描草图查询、扫描输入图像查询、指定特征( 纹理、 颜色等) 查询方式、用户输入动态影像片段和前景中运动的对象等查询方式。在此 系统中,颜色主要使用在( r g b ) 、( l 木a 袖t ) 等颜色空间的颜色直方图。纹理特征 主要基于文献的纹理描述方法;形状信息主要采用面积、圆形度、偏心度、矩不变 量等。另外,q b i c 系统还考虑到了高维特征的索引,采用r 木树作为索引结构。q b l c 系统建立较早,技术成熟,功能全面,为基于内容的图像检索技术的验证和推广做 出了很大贡献。q b l c 的演示在: h t t p :w w w q b i c a l m a d e n i b m c o m 2 华北电力大学硕士学位论文 ( 2 ) p h o t o b o o k 系统 p h o t o b 0 0 k 系统是m i t 媒体实验室在1 9 9 4 年开发的。它是一套交互式图像数据 库浏览和查询工具【2 1 。它包含应用于四种领域的子部分:纹理识别,形状识别,人 脸识别和大脑形状识别。用户可以在每个子系统中按照对应的特征进行查询。在 p h o t o b o o k 的扩展版本中,引入了相关反馈技术,突出了交互式语义查询和系统学 习能力,极大地提高了系统性能【1 2 ,1 4 】。 ( 3 ) s u a l s e e k 和w c b s e e k 由美国哥伦比亚大学开发的姊妹系统。s u a l s e e k 和w e b s e e k 的主要特点是研 究利用图像区域空间关系进行查询和从压缩域提取视觉特征来进行检索。系统中主 要使用的特征是颜色特征和基于小波变换的纹理特征,并且使用基于q u a d t r e e 和 r t f e e 的索引结构以提高检索速度。支持基于视觉特征及其相互之间空间关系的检 索。w 曲s e e k 主要是面向w e b 的搜索引擎,它包括3 个模块,图像视频收集,分类 与索引和搜索,浏览和检索。支持关键词检索,并使用用户相关反馈技术来改善检 索结果【4 ,6 3 1 。 ( 4 ) n e t r a 系统 n e t r a 系统1 1 5 】是由加利福尼亚大学s a n t ab a r b a r a 分校开发的图像检索系统。该 系统是基于区域的,即对图像的检索是建立在对图像的对象分割,并提取这些分割 区域特征的基础上的。相比于其他系统,它考虑了图像中的对象概念,贴近用户查 询时的思路。它的关键技术主要有:基于g a b o f 滤波器的纹理分析,基于神经网络 的图像辞典结构,基于边缘增长的区域分割技术。不过,由于目前图像分割的技术 不高,所以,该系统的检索准确率并不高。 ( 5 ) m a r s 系统 m a r s ( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m ) 是u i u c 开发的支持图像底层特 征的复合检索的图像检索系统。其特点是使用比较全面的图像底层特征,提供基于 树结构的多特征组合检索。在图像特征方面:使用h s v 颜色空间的h s 上的色彩直 方图来描述图像的颜色;抽取图像纹理的粗糙度和方向性以及对比度等特征描述纹 理;采用图像的规则分割( 5 5 ) 的方法对图像特征的空间分布进行描述;根据纹 理对图像进行分割来实现图像中的对象的描述;并对分割后的对象区域按照敏感性 进行分组;使用f o u r i e r 描述子对图像中对象的形状进行描述。检索时对上述特征分 别采用相应的相似性度量方法,最后给出综合排序。由于采用多方面的图像特征描 述和相应的相似性度量方法,该系统可以提供比较复杂的检索功能,如可以通过布 尔表达式进行组合查询。这个系统的突出特点在于引入了相关反馈机制,能够根据 用户的交互,动态的组织和优化查询,提高检索效率【6 1 。 3 华北电力大学硕士学位论文 ( 6 ) s i m p l i c i t y 系统 由j a m e sz 、a n g 等人开发的s i m p l i c l t y 系统【7 l ,是一个结合了图像语义的 图像检索系统。它的关键技术有:语义分类技术,基于小波变换的特征提取,基于 图像分割的联合区域匹配。与其他基于区域的图像检索相似,系统中的图像由粗略 对应于对象的区域集合组成。这些区域由颜色、纹理、形状和位置等特征表示。系 统分类器将图像分成不同的语义类别。它应用区域匹配策略将图像所有区域的属性 联合起来,以用作图像相似性度量。这减小了由于错误图像分割所带来的负面影响。 除上文介绍的几个典型系统之外,还有很多其他图像检索系统,例如 p i c h u n t e r 【8 1 ,r a g e 公司的r a g e 【9 1 ,微软亚洲研究院的w a l r u s 系统【1 0 j 等。 1 2 2 国内研究现状 近几年来,国内的大专院校和研究机构也开展了对图像检索领域的研究,经过 多年的努力取得了一些成就。 中科院计算机研究所【1 1 l 开发的图像检索系统i m a g e s e e k ,该系统实现了图像的 颜色、纹理特征的自动提取及在此基础上的图像检索,同时还具有基于文本的图像 检索及标注功能,该系统还利用相关反馈技术优化系统性能。 清华大学研发的i n t e r n e t 上静态图像的基于内容图像检索的原型系统,该系统 在i n t e r n e t i n t r a n e t 环境下,通过友好的人机界面,以颜色、纹理等图像特征或样本 图像进行检索。 云南大学开发的基于内容的商标图像检索系统,此外,浙江大学、上海交通大 学、吉林大学等也在图像检索领域进行并取得了一些研究成果。 1 3 本文主要工作 论文实现了对图像库基于s v m 的图像分类、图像检索以及相关反馈。主要工 作如下: 1 建立图像库。本文所选用的图像是从c o r e l 图像库以及互联网下载的自然图 像,图像库的规模为3 0 5 幅。图像入库前,进行了图像预处理。 2 图像视觉特征的提取。为了能够更好的表示图像的内容,本文提取了图像 的h s v 非均匀量化直方图,改进的灰度直方面积图以及共生矩阵三种特征,并将其 组合成能够表示图像内容的综合特征。 3 分类器的构建。论文采用支持向量机( s u p p o nv c c t o rm a c h i n e ,s v m ) 作为 图像分类的工具,其构建的主要工作是s v m 的核函数选择以及最优参数的确定。 4 图像分类。对图像库中多个类别的图像,应用构建的s v m 对其分类。 4 华北电力大学硕士学位论文 5 图像反馈。论文利用支持向量机的二分类特性,对相关反馈算法进行了研 究,针对反馈样本不足及图像库已分类特点作了算法改进。 6 图像检索。在对图像分类的基础上,论文实现了基于s v m 的检索和反馈, 改善了图像检索的性能。 1 4 本文的组织结构 本文的章节安排: 第一章引言 主要是明确本文研究的问题,综述了图像分类和检索技术的发展和现状以及不 足,重点介绍了基于内容的图像检索概念,并对支持向量机做了简要的介绍,由此 引出了本文的研究意义和内容。最后说明了本文的工作和安排。 第二章图像检索的体系结构和关键技术 对基于内容的图像检索的关键技术进行了详细介绍,重点集中在图像视觉特征 的描述和提取、基于相关反馈技术的图像检索和检索系统的概要设计三个关键技术 方面。 第三章支持向量机原理和应用 主要介绍支持向量机原理方法,特别是小样本学习问题的理论基础,并针对支 持向量机的训练算法进行了理论和实验的研究,为第五章基于s v m 的核函数和多 分类实验奠定了基础。 第四章图像内容的描述及特征提取 本章给出了图像的描述模型,并从颜色,纹理两方面介绍了图像可视信息的特 征描述和提取方法以及相似度量和综合特征的归一化。 第五章基于支持向量机的图像分类与检索实验 这部分是本文研究的一个主要内容。本章对支持向量机核函数的选择和多分类 问题进行了研究。与此同时,从图像特征选择的角度分析了其对图像分类效果的影 响。在此基础上提出了图像相关反馈的算法进一步提高检索精度,同时做了大量实 验,通过实验数据分析该方法的优越性。 第六章结论与展望 本论文的工作总结,并讨论对此课题进一步研究的方向。 5 华北电力大学硕士学位论文 第二章图像检索的体系结构和关键技术 2 1 基于内容图像检索的体系结构 基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) ,是一种利用图像 的颜色、纹理、形状或其他内在特征等进行检索的技术。它融合了模式识别技术与 多媒体等良好的人机交互技术,有着广泛的应用前景。 本章主要研究c b i r 检索系统中关键性技术问题。下图2 1 是从系统设计角度 考虑的检索系统的一般框图,是面向系统设计人员的。 相似 或索弓 宙 图2 1 c b i r 检索系统 基于内容图像检索的体系结构划分为两个子系统:匹配模块和查找模块。 1 匹配模块是用户提交查询请求和接收浏览查询结果的接口。用户提交的查 询可以是多种方式:指定样图查询是一种友好的方式,不足之处是样图可能不能充 分表达用户的查询意愿,用户对样图的理解和实际系统对样图的理解可能不同,因 此有时要添加附加属性。在某些情况下,直接指定图像的属性特征比较方便和直观, 如用文字检索图像,选择主色调的检索和使用查询语言的检索。 2 查找模块是检索引擎,利用图像的特征来度量图像之间的相似性,并按相 似性的大小对结果图像集合排序,并返回给用户。 2 2 基于内容的图像检索的关键技术 基于内容的图像检索是一种新的图像检索技术,要想成功的实现一个c b i r 系 统必须解决多方面的问题,它主要包括以下四个关键技术【4 】【5 】: 6 华北电力大学硕士学位论文 1 图像数据描述模型。它是指采用图像理解技术实现图像内容描述的方法。 选择合适的图像数据模型表示图像内容特征是进行基于内容的图像检索的基础。图 像存在各种视觉特征,如颜色、形状、纹理、空间特征等。图像的特征集合构成了 它的内容描述集。图像特征的提取是基于内容的图像检索技术中的一个必不可少的 关键步骤。一个好的图像特征应具有以下特点:特征对用户而言具有直观的含义, 换句话说,特征表达的信息和用户的需求之间存在清晰联系。用户易于指定查询, 系统也可以进行有效的检索。特征能够明确地区分相关图像和非相关图像。图像的 颜色、形状、纹理和轮廓等特征适用于各种图像内容的描述,在图像数据描述模型 中具有较好的通用性。 2 特征索引结构。一般情况下,描述图像内容的特征集合可看作是高维空间 中的一个向量,这样,基于内容的图像检索就转化为高维空间点集的最近邻搜索问 题。由于c b i r 系统中往往含有海量图像数据,单纯的线性搜索方法难以满足实时 检索的需要,有必要在特征库中使用相似索引技术来建立特征索引结构,以支持对 中、高维特征向量的基于相似性的查询。在特征匹配时。c b i r 系统将计算出来的 向量距离由小到大排序,以确定返回的结果【3 l 。 3 相似性度量。在c b i r 系统中,查询的结果是一系列的图像,按照相似的程 度依次排列。一般来说,图像的内容含有语义信息和视觉特征。在语义信息上的相 似性度量需要专家系统的支持,这不属于c b i r 系统的范围,因此c b i r 系统对相 似性的度量应建立在图像视觉特征的基础上。通常基于图像特征相似性的度量可分 为几何模型和集合理论模型。几何模型使用距离表示两点之间的相似程度。而距离 度量函数的定义需要满足距离公理的自相似性、对称性、三角不等性条件。 4 查询方式的表达形式。这是因为在多数情况下,用户的查询目标很难通过 一幅或几幅查询图像来精确表达。具体地讲,用户在开始查询时无法准确预知自己 所需要的图像,同时,目前还不存在通用的数据模型来描述所有类型的图像。此外, 语义表达与视觉特征存在明显差异,因此,特征相似的图像有可能完全不是用户所 要的结果。 2 2 1 图像数据库结构 作为传统数据库检索的拓展,基于内容的图像检索系统主要是根据图像的内容 进行检索,同传统的关系数据库检索系统相比,它主要有以下的特点: 1 传统的数据库中,符号数据可以用基本数据类型精确地表示,检索匹配是 精确匹配。而图像数据是一段二进制数据流,对图像进行像素和像素的精确匹配是 不科学的。事实上,人对两个图像的相似和不相似的判断是根据图像中所包含的内 容,很难将其精确描述,因此内容的表达是近似的。 华北电力大学硕士学位论文 2 图像数据的表达不是单一的,多种表达方式并存是可能的,表达方法的选 择要依赖于特定的用户和特定的应用领域。随着识别技术的发展,还可能采用更新 或更好的表达方法。 3 符号数据本身就具有语义信息,在符号数据命名的过程中就赋予了特定的 信息。图像中的内容本身不包含语义信息,对图像的匹配主要是对图像中的内容特 征进行相似匹配。 4 由于对内容表达的不精确,因此检索得到的结果可能包含一些不相关的图 像,这种情况对基于内容的检索是允许的,但更重要的一点是在检索中不要将相关 的图像漏掉。 结合c b i r 系统本身的特点,对图像建模时考虑到图像数据的特征表达、特征 匹配、特征综合和系统可扩展性等诸多因素,在参考文献【1 0 】的多媒体对象模型的基 础上建立图像数据库模型如下: l m = i m ,f ,r ,m ,v 、) 其中的各个符号所代表的涵义如下: d 代表图像数据,比如类型( 例如j p e g ,b m p 格式) 、尺寸等数据。 f = f i ) 与图像数据相关联的特征集合,比如颜色、纹理和形状特征。 r = r i j ) 是给定特征f i 的表示的集合,如颜色直方图和颜色矩都是颜色特征的表 达方式。每一种特征表达r i i 本身可能就是由许多分量组成的向量,可以写成如下形 式: 勺= h 1 ,】 ( 2 1 ) 其中k 是这个向量的维数。为充分表达图像的丰富内容,该对象模型允许采用 多个特征( 及特征表达) 对图像进行描述,每个特征都有动态权值与之对应。图像特 征权值存在于上述模型的每一级上,有w i ,w i j 和w i j k 分别对应于图像特征f i ,特 征表达r i i 和特征表达的每一分量r i i k 。 m = m k 】是相似性度量方法的集合,比如余弦法,欧式距离法,直方图相交法 等,给定一个特征f i 由( r j ,m k ) ( 特征表达,特征匹配) 共同决定这一特征的观察方 法。 v = v j 】- 是相应的特征向量,对于每一个r j 存在一个v j 来存储该表示r j 的实际值, 也就是说v i 是相应r i 的一个实例。 当该数据模型应用于基于内容的图像检索中时,可以有多个特征参与检索,一 个特征可以有多种表达方法,每一种表达方法可以采取不同的距离度量。图像数据 库是图像处理技术和传统数据库技术相结合的产物,图像数据库的产生拓展了传统 数据库技术,又为图像处理技术提供了有力的支持。 8 华北电力大学硕士学位论文 2 2 2 图像的视觉特征 理想的基于内容的图像检索希望采用图像处理与计算机视觉技术自动的从图 像中获得语义内容。由于图像语义的内在复杂性,目前还难以实现对图像语义的自 动提取。但是图像的视觉特征与图像的语义内容存在着一定的内在联系f 尽管目前还 难以把握) ,比如人类就是通过对图像视觉特征的感知来获得图像的语义信息。而且 在一些特定的应用领域,如医学图像诊断和石油地质勘探中,图像的底层视觉特征 如纹理、形状等就是检索的依据和判断标准【1 1 l 。所以目前的基于内容的图像数据库 检索系统是建立在基于图像的底层视觉特征对比基础上的。图像的视觉特征是多方 面的,一般可以分为色彩,纹理、形状和图像的空间位置信息等。 2 2 2 1 色彩 色彩是描述视觉信息的有效特征,它具有复杂度、尺寸和方向的不变性【”】。在 图像检索中颜色是最常用到的图像特征1 1 5 】1 2 1 】: 颜色空间图像的每一个像素都可以用3 维颜色空间中的点来表示。通常采用的 颜色空间包括r g b ,c i e l 宰a 宰b 半,c i e l u v ,h s v 等。一般情况下要求颜色空间具有 一致性的特点,表现为观测者对颜色空间中的相似像素的感知也是相似的。常用的 r g b ,c m y 颜色空间都不是一致的。l a b ,l u v ,h s v 是具有一致性特点的颜色空 间并且可以由r g b 转换得到。 颜色描述子最常用的颜色特征是彩色直方图,颜色一致性向量,颜色矩等。颜 色直方图是对图像中像素按照颜色在不同的量化区间的分布数量的统计。其优点 是:计算简便,易于统计且具有较强的抗图像变幻和旋转能力;缺点是缺乏对图像 中颜色的空间分布的描述。一般通过对图像进行区域分割得到局部颜色直方图的方 法来增强颜色直方图对图像颜色的空间分布信息的描述能力。颜色一致性向量【1 6 l 是对颜色直方图方法的一种扩展,它把颜色直方图中每一个颜色量化区间中的像素 分成两类:一致性像素和不一致性像素。颜色一致性向量比颜色直方图更好的描述 了图像中颜色的空间分布,因而能带来更好的检索效果。颜色矩:是图像检索系统 中使用的最为广泛的颜色描述子。颜色一阶矩、二阶矩和三阶矩较好地描述了图像 中颜色的分布。由于颜色矩参数过于紧凑( 一般只需9 个数值) ,往往需要和别的图 像特征描述子结合使用以克服区分力不强的问题。 2 2 2 2 纹理 纹理是图像的视觉信息中一个重要的特征1 1 9 】,并且在图像检索系统中被普遍使 用。纹理是指由多种颜色或亮度产生的呈现共同视觉特点的一种模式,如木料与石 材的表面、水纹、织物等通常具有纹理特征。纹理在很多应用中占有重要的地位。 例如,卫星图像和航拍图片中,纹理可以帮助人们判别地表的植被情况和地形地貌。 9 华北电力大学硕士学位论文 正因为如此,纹理在这些领域中被用作图像的主要特征。按照人的感知,纹理通常 表现为亮度,均匀度,粗糙度,杂乱度,频度,密度和方向性【1 8 1 。纹理描述子一般 分为两类:基于统计模型的和基于变换的。 统计模型纹理描述子通过分析纹理在灰度上的空间关系,抽取一些有意义的统 计参数来对纹理进行描述。基于统计模型的空间灰度共生矩阵方法建立在估计图像 的二阶组合条件概率密度函数基础上,是目前公认的一种重要的纹理分析方法【2 2 1 。 此外,根据单像素及其邻域的灰度分布或某种属性测量纹理的一阶统计分析方法也 是较常用的纹理分析方法。基于变换的纹理描述方法主要有:g a b o r 变换【1 9 】和小波 变换【1 3 l 【2 1 】等常用的基本变换方法。 2 2 2 3 形状 不少图像检索系统中都使用形状特征对图像进行描述1 2 5 】【2 8 1 。但是,由于自然图 像中的对象或区域的分割原本就比较困难,因此一般情形下图像的形状特征是难以 自动提取的,形状特征通常用于特定的应用领域。形状特征的提取方法一般分为4 类:基于边界【1 5 】f 2 3 1 ,基于有限元模型,基于f 0 u r i e f 变换和基于区域的方法。理想 的图像形状描述应该具有对变换、旋转和缩放的不变性。 2 2 3 图像特征的索引 图像的底层视觉特征一般用多维向量来描述,因此图像之间的相似性可以通过 计算多维特征空间中的特征向量间的相似距离来度量。当数据库中图像的数量比较 少时,顺序搜索是可以接受的。但是当数据库需要支持对大量图像进行相似性检索 时,就需要对图像的特征建立适当的索引。传统数据库中最流行的索引技术是b 树 ( b + 树) 【2 。对于标量数据的检索,b 树具有非常好的性能,但是它不适合于高维数 据的索引。高维数据索引是数据库,信息检索等多个领域的研究热点,高维索引方 法一般分为向量空间方法和度量空间方法。 虽然采用高维索引技术有助于提高高维数据检索的效率,但是目前的高维索引 结构的性能在数据维数增加到一定程度后通常会有明显的下降。因此对高维数据的 降维处理是十分必要的,数据降维是高维索引研究的一个重要方向1 2 2 j 。 2 2 4 相似性度量算法 在基于内容的图像检索中,我们说两幅图像是否相似,是指它们的特征是否相 似。特征相似关系的理论研究通常使用的是几何模型,将图像的特征看作是坐标空 间中的点,两个点的接近程度通常用它们之间的距离表示,也即它们之间的不相似 程度。关于距离度量函数的定义通常要满足距离公理的自相似性、最小性、对称性、 三角不等性等条件。最常用的方法是阈值法,如果特征的距离小于预先设定的阈值, l o 华北电力大学硕士学位论文 那么就认为两个特征相似。相似度不但可以用在特征比较上,还可以用在聚类上。 特征聚类是建立在“等价”的基础上的,等价与否是由特征在多维空间上的距离定义。 最经典的距离量度标准有欧氏( e u c l i d e a n ) 距离、马氏( m a h a l a n o b i s ) 距离等。 ( 1 ) 欧氏( e u c l i d e a n ) 距离【3 8 】 x , y 是n 维的模式样本向量,它们之间的欧式距离定义为 f 一 d o ,y ) 一y i l i j i 墨一x 1 2 ( 2 - 2 ) , if l 由上式可知,若样本x , y 位于同一类型区域里,欧式距离式比较小的;若 是位于不同的类型区域里,欧式距离则比较大。判断距离的大小就要定义一个门限。 门限的选择式是正确分类的关键。若门限选取过大,则全部样本被视为同一类型; 若门限选取的过小,可能会出现每个样本都是为一种类型的情况。欧式距离具有旋 转不变的特性。 ( 2 ) 直方图距离度量 图像的颜色特征用直方图来表征时,图像间的距离度量问题就相应地转化为直 方图间距离度量问题,常用的度量方法有以下几种: 1 直方图相交法 令胁( f ) 和胁( f ) 分别代表查询图像q 和数据库图像,的直方图,则两图之间的 匹配值为: m i n 胁o ) ,胁( f ) ) p ( q ,) 一盥i 广一 ( 2 - 3 ) 凰( f ) 推论:当图像和模型直方图缩放到相同尺寸时,颜色直方图相交公式等价于直 方图差的绝对值的和。 2 直方图匹配法 直方图间的距离可以使用一般欧式距离来衡量,令胁( f ) 和胁( f ) 分别代表查询 图像q 和数据库图像,的直方图带入2 2 式得: d ( 心( f ) ,h ,( f ) ) 一 2 3 基于相关反馈的图像检索 ( 2 4 ) 一般的c b i r 系统是以为以计算机为中心的系统,图像检索过程是以计算机的 华北电力大学硕士学位论文 算法为中心,虽然它奠定了基于内容图像检索的基础,但由于以下两个方面的原因, 使得检索效果并不十分令人满意【3 0 】。 1 高层语义与低层特征的鸿沟。这主要是由于人和机器的“思维”方式不同造成 的。差别就在于人在日常生活中总是用一些高层次的概念,这些概念大都是较为抽 象即是有语义的。因此人在进行查找图像时考虑的也是从语义信息出发的,而计算 机视觉则是从图像内容中提取低层的视觉特征,除了人脸识别、指纹识别等专门领 域,在大多数情况下,很难直接得到高层语义与低层特征之间的映射。 2 人类感知的主观性。人类感受事物都是从表层开始感知的,不同的人对于相 同的事物认知方面也存在差异,也就是说人看东西都是带着“有色眼镜”的,经过了 大脑的处理和分析得出对事物的认识和看法,因此这个过程具有很强的主观性。而 计算机视觉对图像的理解和图像间相似度的看法与人对图像的理解和图像间相似 度的看法存在着不小的差距,对不同的人这个差距就更为难以衡量。 目前,基于内容图像检索技术中所抽取的图像特征基本上是图像的底层视觉特 征,它们与图像的实际语义是脱离的,底层视觉特征尚无能力辨别出图像中所包含 的物体。无论采用何种特征,无论使用何种度量测度,最终决定两幅图像是否相似 还取决于实际用户。基于内容的图像检索系统应该尽可能地做到以用户为中心,而 不是以计算机为中心。另外,由于侧重点的不同,不同的用户对图像的相似性的判 断也存在不同的标准,为此需要研究如何使系统自动适应这种特定的需求,从而实 现更好的查询效果。 相关反馈是传统的基于文本信息检索中的一项有力技术。它根据用户对前一次 检索结果的相关性反馈,自动地调整查询,使调整后的查询更加接近用户的信息需 求。在此将该技术借鉴到图像检索的领域中使用。具体过程是:系统首先返回给用 户一组结果图像,用户对这些结果进行评价,系统从用户反馈信息中自动分析最能 表征用户查询目标的特征,自动调整相似度的度量方法,然后进行新的查询。经过 多次反馈,最终得到满意的结果。事实上,利用相关性反馈的方法是通过用户的反 馈加入底层特征与高层语义进行关联的知识,只不过这个知识是由用户来提供。 【3 2 1 1 3 3 l 无论是文本检索还是图像检索中采用最多的都是向量模型,即将文本或者图像 都表示为特征空间中的向量形式。现有各种检索技术大多是以向量模型为基础,包 括相关反馈技术在内。由于所有文本( 图像) 都可以表示为向量形式,我们可以把它 们看作是特征空间中的点,而检索过程实质上是寻找特征空间中离查询向量最近的 那些点所对应的文本( 图像) 。从向量模型的角度出发,我们可以将相关反馈技术分 成两大类:查询向量优化算法和特征权重调整算法。 在向量模型中,查询都可以表达为特征空间中的向量,也即点的形式,我们称 1 2 华北电力大学硕士学位论文 为查询点。假设每次用户进行查询时,他心目中都有一个理想的查询点恰好能够准 确地表达他的信息需求,我们称之为理想查询点。但实际上,用户必须借助某些其 它对象或手段才能够表达他的查询请求,比如输入查询文本或者提交范例图像等, 这些查询文本或范例图像在特征空间中对应的点就是查询点。查询点应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年内蒙古呼伦贝尔农垦集团有限公司招聘考试笔试试卷含答案附答案详解(模拟题)
- 2025公益性岗位试题及答案解析
- 2025年工业互联网平台流量整形技术产业政策与市场前景分析
- 2025年新能源汽车电池回收利用技术市场前景与发展前景报告
- 2025年新能源物流车推广应用与充电桩建设成本优化策略与绿色物流成本控制报告001
- 合肥市经济开发区产业结构优化路径与策略研究
- 量子通信(第二版) 课件汇 第11-24讲 QKD原理与实现(I)-量子通信网络-拓扑与路由、复习
- 2025年教师招聘之《小学教师招聘》题库综合试卷带答案详解(巩固)
- 2025年教师招聘之《幼儿教师招聘》通关练习题和答案及参考答案详解(精练)
- 基于2025年智能制造产业孵化基地建设的产业科技创新体系建设建议
- 2023北京市高级中等学校招生考试英语答题卡A4版word版可以编辑
- 《草帽是父亲的徽饰》阅读练习
- 输变电工程钢管杆吊装组立工程施工方案和措施方案
- 工贸企业主要负责人和安全管理人员安全培训演示文稿
- 狮子王中英文台词对照(超全的完整版)(英语口语练习必备)
- HP碗式中速磨煤机检修教程
- 办公室一族常见病预防
- 精神科诊疗常规及技术操作规范-
- 人教版小学六年级上册语文单元测试卷全册
- DB37T 3842-2019 铁矿绿色矿山建设规范
- 《农业园区规划与管理》课件第一部分 03
评论
0/150
提交评论