(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf_第1页
(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf_第2页
(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf_第3页
(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf_第4页
(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机科学与技术专业论文)基于综合特征的图像语义分类技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基f 综合特征的图像语义分类技术的研究 摘要 随着多媒体技术的发展,图像信息应用越来越广泛,人们对于图像等多媒体 数据的需求也越来越强烈。图像具有丰富的高层语义,高层语义概念更符合人们 对图像的理解,基于语义的图像分类和理解技术便应运而生。在多媒体和模式识 别领域相关知识指导下,基于语义的图像分类技术代表着图像理解发展的方向。 本文结合支持向量机研究了基于综合特征的图像语义分类方法。 本文首先介绍了图像分类技术的发展和研究现状,研究了图像内容的描述方 式以及支持向量机的基本原理和核函数模型,为后续的研究提供了理论基础。 然后,本文研究了图像综合特征的提取问题。核主成分分析法是一种常用的 综合特征提取方法,这种方法的缺点是求解图像特征核矩阵的计算十分耗时,针 对这个问题,我们提出了一种基于施密特正交化的核主成分分析法。该方法改进 了核主成分分析方法中耗时的特征分解过程,通过施密特正交化核矩阵,避免了 原始方法中直接求解特征值和特征向量的过程,具有较低的计算复杂度。实验证 明这两种方法提取出的特征与原始特征的均方误差( 即波动程度) 相差不大,但 是改进算法的计算时间明显少于原来的算法。 接着本文研究了多类分类器的构造问题,由于支持向量机最初是用于解决二 类分类问题的,由此需要一定的策略组合这些二类分类支持向量机。一对一多类 分类方法具有训练时间短、错误率低的优点,但是当某些二类分类器分类效果不 佳时会严重影响分类性能。针对这个问题,本文引入了交叉验证正确率作为分量 分类器的权值,交叉验证是一种基于重采样技术评估分类器的分类正确率和泛化 能力的数学方法,因此采用交叉验证正确率作为权值能够保证具有最高分类性能 的分量分类器对最终的分类结果作的贡献最大。实验证明改进的算法分类正确率 要高于原来的算法。 在以上研究基础上,本文建立了一个基于语义的图像分类系统,系统可以提 取图像的底层特征和选择支持向量机的参数,主要功能是检验不同条件下的图像 分类性能,为前述的研究作出实验结果验证。本文介绍了系统的组成和框架,给 出了一些图像分类的实例和实验数据。在实验部分,我们根据实验结果分析了具 有较优分类性能的特征表示方法和支持向量机核函数选取方式,采用这些参数能 够使得图像分类具有更高的准确率。 关键词:图像分类;特征提取;多类分类器;支持向量机 i i 硕一l 二学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h em u l t i m e d i at e c h n o l o g y ,t h ea p p “c a t i o no fi m a g ei s s p r e a d i n gw i d e l y ;a n dp e o p l eb e c o m ed e s i r e d l yd e m a n d i n go nm u l t i m e d i ai n f o 啪a t i o n i m a g e sh a v ea b u n d a n th i g h - l e v e ls e m a n t i ci n f o m a t i o n ,w h i c hi sm o r es u i t a b l ef o r p e o p l e t ou n d e r s t a n d a sa r e s u l t , s e m a n t i c - b a s e d i m a g e c l a s s i f j c a t i o na n d u n d e r s t a n d i n gt e c h n o l o g y s h o w s u p g u i d e db yt h em u l t i m e d i aa n d p a t t e r n r e c o g n i t i o nk n o w l e d g e ,s e m a n t i c b a s e di m a g ec l a s s i f i c a t i o nt e c h n o l o g yr 印r e s e n t st h e f u t u r ed i r e c t i o no ft h ei m a g eu n d e r s t a n d i n g t h et h e s i si n t r o d u c e ss u p p o r tv e c t o r m a c h i n ea sat o o l ,a n dr e s e a r c h e so nc o m b i n e d f e a t u r e - b a s e ds e m a n t i c i m a g e c l a s s i f i c a t i o n i nt h et h e s i s ,w ef i r s t l yr e v i e w e dt h ed e v e l o p m e n ta n ds t a t e o f - a r to ft h ei m a g e c l a s s i f i c a t i o nr e s e a r c h w er e s e a r c ho nt h ed e s c r i p t i o no f i m a g ec o n t e n ta n dt h eb a s i c f o u n d a t i o na n dk e r n e lf u n c t i o no f s u p p o r tv e c t o rm a c h i n e t h e s et w om e o r i e sp r o v i d e f b u n d a t i o ns t o n eo fr e s e a r c h e sb e h i n d t h e nw er e s e a r c h e do nt h ei s s u eo fh o wt oe x t r a c ti m a g e sc o m b i n e d f e a t u r e k p c ai sac o m m o nw a yt oe x t r a c tc o m b i n e d - f e a t u r e h o w e v e r i t ss h o w c o m i n gi s o b v i o u s t h ep r o c e s so fc o m p u t i n gt h ek e r n e lm a t r i xi se x t r e m e l y t i m e - c o n s u m i n g i n o r d e rt o i m p r o v et h ep r o c e s s , w eb r i n gan e wk p c ab a s e do ng r a m s c h m i d t o r t h o n o r m a l i z a t i o n t h em e t h o dm o d i 6 e st h et i m e c o n s u m i n g p r o c e s so ff e a t u r e e x t r a c t i o ni nk p c a i tm a k e su s eo fg r a m - s c h m i d to r t h o n o m a l i z a t i o nt od i a g o n a l i z e t h ek e r n e lm a t r i x ,a n da v o i dc o m p u t i n gt h er e s u l td i r e c t l y s oi to w n sm o f ee m c i e n t c o m p u t i n gp e r f o m a n c e t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h em s eo ft h et w o m e t h o d si ss i m i l a r ,w h i l et h em o d i f i e dm e t h o di sm u c hl e s st i m e c o n s u m i n gt h a nt h e o l do n e t h e nw er e s e a r c h e do nt h ec o n s t r u c t i o np r o b l e mo fm u l t i c l a s sc l a s s m e r a st h e o r g i n i n a ls v mi su s e dt os o l v et w o c l a s si s s u e ,w en e e ds o m es t r a t e 西e st oc o m b i n e t h o s et w o c l a s s - b a s e ds v m o n e a g a i n s t - o n eo w n st h ea d v a n t a g e so f1 0 wt r a i n i n g c o s t ,b u tw h e ns o m ec o m p o n e n ts v mh a sb a dp e r f o r m a n c ei nc l a s s i f i c a t i o n ,i tc o u l d s e r i o u s l yi n f l u e n c et h ew h 0 1 ep e r f o n n a n c e a sar e s u l t ,w ei n t r o d u c ec r o s s - v a l i d a t i o n a c c u r a c ya st h ew e i g h to ft h ec o m p o n e n ts v m c r o s s v a l i d a t i o ni sam a t h e m a t i c m e t h o dt oa c c e s st h ep e r f 6 啪a n c ea n dg e n e r a l i z a t i o na l b l 订i t yo fc l a s s i f i c a t i o nb a s e d o nr e s a m p l i n gt e c h n o l o g y w eu s ec r o s s v a l i d a t i o na c c u r a c y a st h ew e i g h ti no r d e rt o i 基于综合特征的图像语义分类技术的研究 g a u r a n t e et h a tt h em o s te 伍c i e n ts v mc o n t r i b u t e st h em o s tt ot h ef i n a ld e c i s i o n t h e e x p e r i m e n tr e s u l t ss h o w t h a tt h em o d i f i e d a l g o “t h mh a sh i g h e r c l a s s i 行c a t i o n a c c u r a c yt h a nt h eo l do n e b a s e do nt h er e s e a r c ha b o v e ,w eb u i l das e m e n t c - b a s e di m a g ec l a s s i f i c a t i o n s y s t e m i tc a nb eu s e dt oe x t r a c tl o w - l e v e lf e a t u r ea n dc h o o s es v m sp a r a m e t e r s i t s m a i n 如n c t i o ni st ot e s tt h ec l a s s i f i c a t i o np e r f b 咖a n c eu n d e rd i f 诧r e n tc o n d i t i o n s ,s o a st op r o v i d ec e r t i f i c a t i o nf o rt h er e s e a r c ha b o v e w ed e s c r i b e dt h ec o m p o n e n t sa n d f r a m e w o r ko ft h es y s t e ma n dp r e s e n tf e a li m a g ec l a s s i c a t i o ne x p e r i m e n t sw i t hd a t a w ea n a l y z e dt h eb e s tw a yt or e p r e s e n tt h ef e a t u r ea n dc h o s s es v m sp a r a m e t e rb a s e d o nt h e e x p e r i m e n tr e s u l t s t h e s e p a r a m e t e r s w eg a i n e dc o u l dr e c e i v eh i g h e r c l a s s if i c a t i o na c c u r a c yi nt h es v s t e m k e yw o r d s :i m a g ec 1 a s s i 6 c a t i o n ;f e a t u r ee x t r a c t i o n ;m u l t i c l a s sc l a s s i f i e r ;s u p p o r t v e c t o rm a c h i n e i v 硕 j 学位论文 插图索引 图1 1 课题研究内容2 图2 1 线性可分最优分类面1 2 图2 2 输入空间和特征空间的非线性映射1 3 图3 1 早期特征融合1 7 图3 2 晚期特征融合1 8 图3 3 基于综合特征语义分类实验流程2 4 图3 4 两种算法的均方误差比较2 6 图3 5 两种算法的计算时间比较2 6 图4 1 带权值的多类分类器投票示意图3 2 图4 2 多类分类实验训练部分流程图3 4 图4 3 多类分类实验测试部分流程图3 5 图5 1 图像分类系统框架图3 8 图5 2 图像训练界面4 0 图5 3 图像分类界面4 0 图5 4 图像集示例4 l 图5 5 无明显区分的“草地和“天空 4 2 图5 6 径向基核函数的学习曲线4 5 图5 7 多项式核函数的学习曲线4 5 图5 8s i g m o i d 核函数的学习曲线4 6 v i i 基于综含特征的图像语义分类技术的研究 附表索引 表3 1 改进的k p c a 算法复杂度2 4 表3 2 两种算法的计算时间比较2 7 表4 1 改进的一对一投票算法复杂度3 4 表4 2 交叉验证正确率3 6 表4 3 多类分类算法分类正确率比较3 6 表5 1 实验采用的图像数据集4 l 表5 2 单一特征与综合特征分类正确率的比较4 3 表5 3 神经网络的分类正确率4 3 表5 4s v m 的分类正确率4 4 v i i i 硕f j 学位论文 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:侄辞日期: o f 年厂月27 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“”) 作者签名:侄寺 刷磁名锄- 极 v 厶- ,、 日期: 口 年罗月2 日 日期: d 7 年r 月;1 日 硕上学位论文 1 1 研究背景与意义 第1 章绪论 近年来,随着网络技术和多媒体技术的发展,全世界的图像数量以惊人的速 度增长。由于图像能表达丰富、直观的信息,各个领域对图像的使用越来越广泛, 越来越多的人能够方便快捷地接触到图像信息。人们面临的问题不再是缺少图像 信息,而是如何在浩瀚的图像世界中准确找到自己所需要的图像信息,这就要求 有一种能够快速准确查询访问图像的技术,这也就是图像搜索技术。 9 0 年代以来,对非文字信息的基于内容的检索成为一个非常活跃的研究领 域。所谓基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) ,是指由计 算机对图像的颜色、纹理、形状等特征进行自动分析,制成索引,用户可以针对 自己所需要的内容提出查询要求,而不仅仅是根据人工注释的文本关键字进行图 像检索。c b i r 克服了传统的人工注释方法的不足,整合了图像识别和数据库技 术,从而在需要自动化的场合取得了大量应用。 然而,在理想状况下,人们并不希望通过颜色、纹理、形状等特征检索图像, 而是希望通过图像所描述的对象、事件以及表达的情感等来检索图像。这些图像 的含义就是图像的高层语义特征,它包含了人们对图像内容的理解,这种理解无 法直接从图像底层特征获得,而是需要人的知识来判断。图像必须附加上包括语 义在内的各种内容信息,才能真正支持语义检索。利用计算机视觉和机器学习中 的方法,可以让计算机模拟人的知识推理过程,让计算机对于某些特定情况做出 特定反应,这是长期以来很多专家学者致力于研究的方向。使计算机检索图像的 能力接近人的理解水平,这就是语义图像检索的目的【l 】。 遗憾的是,由于计算机视觉以及人工智能、模式识别技术还不够完善,从图 像的底层特征到高层语义之间存在着巨大差别,称为“语义鸿沟 ( s e m a n t i cg a p ) 。 “语义鸿沟”的存在说明了仅利用图像的底层特征很难满足人们对图像检索多方 面的复杂需求。为了提高检索的效率和准确率,基于内容的图像检索研究领域的 焦点,已经从设计复杂的底层特征算法转移到如何缩小图像检索的“语义鸿沟 上。 基于内容的图像检索有着广泛的应用前景。但在如何消除“语义鸿沟”方面, 尚有许多关键技术没有解决或不完善,因此研究该技术有着深远的意义,同时也 面临着巨大的挑战。 基于综合特缸的圈像舀义分类技术的研究 1 2 本文主要研究内容 本文主要研究在图像识别、图像分类、图像检索这一特定领域,利用支持向 量机良好的泛化能力,借助图像的底层特征表示,学习图像的高层类别属性,并 以此为基础,尝试构建能表达高层语义的图像综合特征表示,从而提高图像分类 系统的识别能力,使其能够真正达到实用。课题研究的主要内容如下图所示: 图像语义 图1 1 课题研究内容 课题的具体研究主要包含以下几个方面: ( 1 ) 图像底层特征的提取 研究现有特征提取算法,在此基础上提取图像的颜色( 颜色累积直方图、颜 色矩等) 、纹理特征( 灰度共生矩阵等) ,找到最优的图像特征表征方式应用于基 于语义的分类研究中。 ( 2 ) 图像综合特征的提取 研究现有的特征融合和特征提取技术,在此基础上实现一种利用图像的综合 特征进行图像语义分类的方式,改进综合特征的提取方式使其应用于以支持向量 机为工具的分类系统中是本文研究的重要内容。 ( 3 ) 图像语义多类分类器设计 融合图像多个的底层特征,利用支持向量机学习图像的高层语义概念是本文 的重点研究目标。由于支持向量机最初是为了解决二类分类的问题,而图像的语 义概念是十分丰富的,因此需要研究支持向量机的多类分类方式,并在此基础上 2 硕十学位论文 实现一种改进的多类分类方式。 ( 4 ) 支持向量机模型的选择 比较支持向量机与其他分类器之间的性能,比较其数学模型中核函数的特 性,探讨核函数与支持向量机分类性能的关系,使得我们能够把性能最高、泛 化能力最强的支持向量机作为图像的语义分类的工具。 1 3 本文组织安排 本文的组织结构如下: 第一章是本文的绪论,介绍了本文的研究背景与意义,概述了文中主要的研 究工作和本文的组织安排。 第二章首先介绍了关于图像分类技术的国内外研究现状,然后介绍了图像分 类领域的知识基础,包括图像的内容表示模型( 图像的颜色和纹理两个底层特征 及其提取方法) 和支持向量机理论( 基本原理和数学模型) 。 第三章介绍了基于图像综合特征的提取方法,首先概述了现有的特征融合方 法,然后在核主成分分析方法的基础上,提出了一种基于施密特正交化的核主成 分分析方法,最后给出了改进算法的实现、复杂度分析和实验对比结果。 第四章介绍了多类分类器的构造方式,首先概述了现有的多类分类方法,然 后在一对一方法的基础上,提出了一种基于交叉验证的核主成分分析方法,最后 给出了改进算法的实现、复杂度分析和实验对比结果。 第五章介绍了为本文实验设计的图像分类系统的框架,介绍了采用此系统进 行图像分类实验的过程和比较结果,并做出了相应分析。 基于综合特征的图像语义分类技术的研究 第2 章图像分类相关技术概述 2 1 引言 本章是关于图像分类相关技术的概述,是后续章节的理论基础。文章先介绍 了图像分类相关技术的国内外文献综述,然后分别介绍了图像分类两个方面的技 术:图像的内容描述技术以及图像分类的数学模型。 首先,由于图像必须先处理为计算机可以理解的形式,这就需要用到图像的 内容描述技术。图像常用的特征为图像的颜色、纹理和形状等特征,由于本文实 验主要用于风景图像的分类,因此在图像的底层特征表示上,我们选择了图像最 基本的颜色和纹理特征,本章对我们采用的特征提取方法进行了详细介绍。 在图像分类的数学模型方面,由于统计学习方法具有坚实的数学基础和良好 的推广能力,因此本文采用支持向量机作为图像分类工具。本章对支持向量机在 图像分类中的应用作了全面的研究,介绍了其统计学习理论原理、参数模型和分 类方法。 2 2 国内外文献综述 基于语义的图像分类技术发展到今天,在取得一定成功的同时,也面临着极 大的挑战。文献 2 分析了图像检索中的“语义鸿沟 问题,“语义鸿沟 的存在 是由于通过图像底层特征很难自动推导出高层语义。如何提取能充分表达图像内 容的底层特征,以及如何在图像的底层特征和高层语义之间建立关联一直是学者 们关注的问题。 图像分类研究的是图像底层特征空间与语义概念空间的映射关系。这两个空 间的变换和映射很难用数学方法描述并建立模型,因此产生了“语义鸿沟 。尽管 计算技术不断发展,但让计算机准确地理解图像中的语义概念仍然是个难题。目 前提取图像语义的主要方法包括概率( p r o b a b i l i s t i c ) 统计方法、统计学习 ( s t a t i s t i c a ll e a m i n g ) 方法、语义模板( s e m a n t i ct e m p l a t e ) 方法等【3 】。 2 2 1 概率统计方法 概率统计方法将图像语义对象提取看作是待提取图像语义对象( 此对象类别 未知) 的分类问题,利用模式分类的方法来尝试跨越语义鸿沟【4 1 。多媒体对象利 用概率结构模型作为中介,使低层次特征和高层次语义概念产生联系。一般可以 采用贝叶斯决策理论( b a y e s i a nd e c i s i o nt h e o r y ) 建立的贝叶斯分类器作为语义 4 硕十学位论文 对象分类模型。 文献 5 】采用贝叶斯分类器来减少底层特征与高层语义之间的语义鸿沟。作者 首先利用图像的光谱、纹理等辅助特征的自动融合技术对图像像素点建模,再采 用迭代的分割合并算法分割图像区域,作者把场景分割成区域原型来表示场景, 然后通过比较图像区域与区域原型的空间关系来对图像类别建模。作者采用了贝 叶斯分类器作为区域分割和建模的工具,通过学习用户自定义的语义进行预测。 这种方法通过组合图像像素和区域进行分类,只需少量的训练样本即可达到较高 的分类正确率。但是,这种方法只适用于空间关系较为固定的图像类别,对于构 图较复杂或物体位置容易发生变化的图像类别识别率较低。 文献 6 使用两类贝叶斯分类器实现自然场景的高层语义分类,图像数据库中 的图像可以自动划分为室内和室外两类,室外图像又可以进一步划分为城市和风 景两类,风景图像又再划分为日落、森林和高山。在分类图像语义的时候,采用 的输入特征是高层语义信息而不是底层特征,通过向量量化的技术来学习特征的 类条件概率,这样的方法使得图像的多个特征通过类条件概率得以整合。作者组 合多个两类贝叶斯分类器成为一个分层分类器,使得风景图像分类正确率有所提 高。但用这种方法构造的分类器很大程度上依赖特征的选择和训练样本的大小, 采用高层语义作为图像的特征在量化时没有统一的标准,只有在特征量化足够有 效的情况下才能达到较高的分类精度。 贝叶斯网络( b a y e s i a nn e t w o r k ) 也是人工智能领域一种有效的知识表达和推 理工具,通过整合领域知识,它将联合概率分布的计算简化成独立的条件概率计 算,从而有效地应用于图像语义分类【7 】。 文献 8 提出了一种通用的知识整合框架,框架采用贝叶斯网络作为图像底层 特征与高层语义的整合工具。作者通过三个图像语义理解的应用场景证明了框架 的实用性,这三个场景分别为对象探测、显著物体选择和室内室外图像分类。 由于框架整合了图像的底层特征和高层语义知识来理解图像,在特定领域知识的 指导下,框架能够有效地解决图像中的非确定性问题。但这种方法需要领域知识 的配合,而领域知识建模领域本身还值得进一步研究。 文献 9 】采用贝叶斯网络对室内室外的用户照片进行分类,作者指出由于底 层特征不能完全表征图像的特征,因此他提出了图像中层特征的概念,在分类的 过程中,通过贝叶斯网络对图像的底层特征、中层特征和高层语义特征进行建模 和分析。这种方法有效地提高了用户照片的分类性能,但是在分类器学习的过程 中,需要引入中层特征分类的步骤,具有较大的计算代价。 语义概率方法研究的是样本数趋向无穷大时的极限特性,是一种渐进理论, 其性能在样本数足够多的前提下才能达到理想效果。 5 基卜综合特征的图像语义分类技术的形究 2 2 2 统计学习方法 与语义概率方法相比,统计学习的方法可以应用于有限样本数目的情况下 【1 0 】。支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是近年来兴起的一种基于统计 学习理论的机器学习方法,在模式识别的许多领域都有很好的应用。支持向量机 方法主要的优点在于只需要较少的训练样例就可以估计和决定分类器,并且较少 产生过学习现象【1 1 】。 目前,将基于支持向量机的机器自学习算法引入到图像检索领域,构造行之 有效的核函数,以提高其检索速度及分类的准确率,成为这一领域的前沿课题【i 引。 文献【1 3 】使用量化后的图像颜色纹理综合特征来分类图像的场景,支持向量 机的输入是图像的兴趣点区域的综合特征。作者采用了两种特征综合方法来分类 图像,方法一在特征层融合图像的颜色和纹理信息,即对描述符进行合并形成统 一格式的综合特征向量;方法二对图像的颜色和纹理信息分别抽取和表示,获得 两个特征的独立分类结果然后再进行整合。支持向量机对综合特征进行分类的结 果表明,综合特征方法具有很高的分类正确率,但是这种方法是基于兴趣点区域 的,并没有考虑图像的空间特征。 文献 1 4 】使用s v m 检索图像,在训练阶段,使用二类s v m 训练2 3 个概念; 在测试阶段,对图像未标记区域进行反馈,模型对此区域的概念分类具有最高的 准确率。作者采用了两层区域分割方法,这种方法可以有效地将图像分割成有意 义的单元,每一个单元都由有区分能力的底层特征表示。实验证明这种方法比其 他图像分割方法能更加有效地表示图像的特点,更加有效地标记图像语义概念。 文献【l5 集成纹理、边缘直方图作为图像的特征向量,用支持向量机实现图 像的语义分类。作者提出了一种新的综合描述图像颜色和边缘的直方图方法,实 验结果表明,集成的图像特征表示在图像分类实验中取得了很好的效果,具有比 其他特征( 如g a b o r 纹理、颜色直方图) 更好的分类性能。但是,文献中的方法 并没有结合图像的颜色信息,作为图像的重要特征,结合颜色信息可以提高分类 效率。 文献 16 】使用支持向量机学习自然图像的类别,作者认为缩窄图像的领域可 以减小图像的底层特征与高层语义之间的语义鸿沟,所以作者使用支持向量机学 习方法自动建立图像类别的模型,从而提供用户概念化的图像查询方法。实验结 果表明使用支持向量机学习的模型用于自然图像的分类和检索具有可行性。但是 这种方法只选用了图像的全局特征,还需要进一步引入图像分割等工作,并且方 法在宽领域下的语义间隔问题仍然无法解决。 文献 17 】在底层特征提取的基础上提出了一个基于s v m 的图像分类系统的 设计。作者认为高层语义信息的学习和建模必须来源于底层特征,所以作者提取 6 硕十学位论文 了与图像的感知属性、抽象化概念和与感知特征结合体相关的印象、情绪和含义 等视觉信息有关的特征,建立了一个基于支持向量机的图像分类引擎和图像库, 系统具有方便易用的特点,但是作者只关注了两类图像分类的问题,如果能够利 用多类分类器进行分类,系统的分类效率将更高。 另外,研究人员已经开始多级s v m 分类器构建方面的研究。文献【1 8 】提出了 一种简化结构的多类目标分类器,使得分量分类器数目大大减少,而且分类速度 明显提高。文献【1 9 采用多类s v m 分类器融合图像的颜色和g a b o r 纹理信息来区 分不同的场景图像,实验证明多类分类器分类性能较高。利用多级s v m 分类器 对图像进行分类,图像分类系统的使用范围将会更广,效率将会更高。 2 2 3 语义模板方法 语义模板法尽管还没有上述两种方法使用得广泛,但是这种方法在基于语义 的图像搜索中十分具有潜力。语义模板是低层可视特征与高层语义概念之间的映 射,它通常定义为具有相同语义概念的一系列样本图像的具有代表性的特征。 文献 2 0 使用组合区域模板( c o m p o s i t er e 百o nt e m p l a t e s ,c l 玎) 来解释图像 语义,c l 玎定义了图像中域的空间排列原型。作者通过c i 汀库将图像的信息抽取 到模板中,然后通过一系统的模板区域匹配未知图像。这种方法根据图像的颜色 自动分割图像信息,从而进一步形成语义区域。在实验中,作者分类了十个语义 类别,性能较优越,并且在较大的集合中搜索图像的性能也较高。 文献 2 1 】要求用户深入了解图像特征,从而通过与用户的交互生成语义模板。 作者提出一个新的概念:语义视觉模板( s e m a n t i cv i s u a lt e m p l a t e s ,s v t ) ,每一 个模板都表达了用户定制的语义概念( 如滑雪、会议、日落等) 。当用户与系统进 行交互时,系统记录下交互信息,s v t 则是通过这一系列执行成功的查询生成的。 s v t 图像查询系统在小样本范围内能够获得较高的召回率和准备率,但是是大样 本范围内的图像查询还有待推广。 w b r d n e t 经常应用于语义模板网络的构建,当用户输入关键字后,w b r d n e t 可以联想到其它相关的关键词,从而找到更多相似图像。 文献【2 2 提出了一种新的从相关性反馈中自动生成语义模板的方法,并且利 用w 6 r d n e t 在检索系统中构建了一个语义模板网络,使得用户可以完成语义层的 图像检索。根据作者的方法,用户在输入查询关键字后,系统根据语义模板集合 返回相关图像。由于w b r d n e t 的存在,那些尚未被标记的图像也可以成功返回, 实验结果证明将这种用户反馈技术应用在图像检索中是可行并且高效的。 文献【2 3 通过w o r d n e t 将用户查询关键字与图像标记的关键字关联起来,作 者称之为关键字概念化的过程,查询图像时不再通过简单比对关键字字符的相似 性,而是通过计算关键字之间的概念相关性进行匹配。概念化完成以后,图像查 7 基f 综含特征的图像语义分类技术的研究 询系统通过提取主要或次要的关键字进行基于内容的图像处理,具有较高的查全 率和查准率。但系统的一个缺点在于图像关键字很大程度上与人的主观看法有关, 很难有统一标准进行规范。 2 2 4 其他方法 其它用于分类概念学习的方法还有神经网络、决策树等。 神经网络是一种机器识别领域的一种经典算法,在统计学习方法之前经常用 于图像分类的应用中。文献 2 4 应用神经网络将图像底层特征与高层语义进行关 联,可以识别出1 1 个概念,这种方法通过图像的显著特征来分类语义,对于诸如 草地、天空等高层语义具有较高的识别率。但是,神经网络算法的缺点是需要大 量的训练样例和计算时间。 决策树也是模式识别领域常用的一种方法,其基本思想是每次选取训练样本 中一个最能区分不同类别的样本的作为父节点,依此类推,直到所有的叶节点都 只包括一类样本时终止,构造好的树即为决策树。 文献【2 5 介绍了三种决策树的构造方法,分别为i d 3 ,c 4 5 ( i d 3 的改进版本) 和c a r t ,决策树递归地将输入特征空间划分为一系列不重合的空间,决策规则 从根节点沿路径向叶子节点传达。作者认为决策树的优点在于其概念简单,在特 征数据不完备或有噪声输入的情况下鲁棒性较强,并且决策树很容易转化为一系 列决策规则,这些规则可以整合到用于自动决策的专家系统中。 文献 2 6 】应用c a i 玎决策树方法来生成全局颜色分布与语义映射的决策规 则,这种有监督的学习方法可以将图像的颜色特征与文字描述符关联起来。通过 颜色生成决策树的方法具有一定的可行性,但是颜色特征相对片面,如果可以综 合图像的其他特征分类性能会更佳。 文献 2 7 】提出了一种基于决策树的智能代理方式来生成决策规则,这种方法 能适用于数据集很大情况,智能代理通过自动识别图像中用户有可能感兴趣的数 据从而节省了用户搜索的时间。作者认为决策树的缺点在于将其应用于图像概念 学习中时缺少模块性,通过引入代理机制,能够解决决策冲突的问题,实验证明 这种方式能够有效地应用于大数据集中。 2 3 图像内容的描述 图像内容的描述,即图像特征的提取与表达。它是基于语义的图像分类技术 的基础,也是人们研究基于内容的图像检索的切入点。因此,在研究之前,必须 选择好图像特征与相应的特征提取方法。颜色特征和纹理特征是图像的两个最基 本的特征【28 1 。总体来说,颜色特征侧重于描述图像的整体信息,而纹理特征更侧 重于描述图像的局部信息,本章介绍了图像的颜色和纹理特征的提取方法。 8 硕 j 学位论文 2 3 1 颜色直方图 颜色直方图是常用的一种直观地表达图像内容的方式,是对图像中每个像素 的颜色在色彩空间中出现频率的统计。它描述的是图像中色彩的组成,以及不同 色彩在图像中所占的比例。颜色直方图计算简单,对于以观察轴为轴心的图像旋 转、幅度不大的图像平移以及图像尺寸的变化不敏感,对于图像质量的变化也不 敏感,这种特性使得颜色直方图比较适用于提取图像全局特征的场合。但是因为 不包含色彩的空间及位置信息,因此颜色直方图无法表示图像中的物体或对象。 颜色直方图可以基于不同的颜色模型,最常用的颜色模型是r g b 模型。颜 色直方图数学表示如下: h ( 尼) = 等后= o ,l ,2 ,三一1 ( 2 1 ) v 其中后代表图像的特征取值,代表特征可取值的个数,z 七代表图像中具有 特征值为后的像素的个数,代表图像像素的总个数。 颜色直方图表现的是图像的一种全局特征,其本身存在诸多缺陷。作为一种 图像全局特征表示方法,不同的图像可以具有相同或相似的颜色直方图。 2 3 2 颜色累积直方图 当图像的特征中有些值为空时,颜色直方图中会出现一些零值。这些零值的 出现会对直方图相交的计算带来很大的影响,使得得出的值不能正确反映两幅图 像之间的颜色差别。采用累积颜色直方图的方法可以减少一般直方图中零值的数 量,这个概念是由文献 2 9 提出来的。假设颜色直方图中共有三种颜色并且按照 一定的顺序排列,记在第f 种颜色上像素的数目为日( f ) ,则累积颜色直方图的数 学表示为: 正 c ( 后) = h ( f ) 后= o ,l ,2 ,l 一1 ( 2 2 ) 忙i 基于实验结果的对比,使用累积颜色直方图的效果要优于全局颜色直方图。 因此,在本文实验中,我们采用累积颜色直方图作为图像的颜色特征之一。在颜 色的表示方法上,我们选择的了符合人的视觉感受的h s v 颜色空间模型,它由三 个分量组成,分别代表色调h ( h u e ) 、饱和度s ( s a t u r a t i o n ) 和纯度v ( v a l u e ) 。 我们分别对h 、s 、v 三个分量进行了1 8 、3 、3 级量化,从而形成一个1 6 2 维的 特征向量。 2 3 3 颜色矩 无论是颜色直方图还是累积颜色直方图,在特征提取的过程中都丢失了颜色 的空间分布信息,而且也不考虑像素点之间的关系。而颜色的空间分布信息往往 9 肇十综合特征的图像语义分类技术的研究 是决定图像内容的一个重要的因素,例如,图像中一片连续的蓝色与一些分散的 蓝色小点在视觉上的造成的差异是很明显的,但对于直方图来说,基于频率的统 计无法显示出这种区别。于是,人们开始关注可以表示颜色的空间分布与像素之 间关系的特征。 颜色矩很好地解决了这个问题,它是一种计算颜色的空间分布和像素的相关 关系的特征,其数学基础是图像中任何的颜色分布都可以用它的矩表示 29 1 。颜色 矩方法对图像中所有像素统计其在每种颜色分量上的一阶矩( m e a n ) 、二阶矩 ( v a r i a n c e ) 和三阶矩( s k e w n e s s ) ,低阶矩表达了图像的颜色分布信息。与颜色 直方图相比较,颜色矩的优点在于不需要对特征进行向量化,颜色矩的三阶矩数 学表示为: 阶矩: 骂2 专善殇 3 ) 二阶矩: 吲专善( 岛硼2 ) 尼 ( 2 4 ) 三阶矩: 1 旦 乃 墨= ( 专丢( 鳓一e ) 3 ) ( 2 5 ) 其中,岛表示图像中第个像素点的第f 个颜色分量,代表图像像素的总 个数。 一般来说,只要9 维就可以表示图像的颜色矩特征。因此,在本文实验中, 我们在计算图像颜色矩时,在h s v 空间中分别对h 、s 、v 三个分量计算一阶、 二阶和三阶矩,从而形成一个9 维的特征向量。 2 3 4 灰度共生矩阵 纹理特征是除颜色特征之外,另一种应用广泛的图像视觉特征。一般将图像 在局部区域内呈现不规则性,而在整体上表现出某种规律性的特性称为纹理。纹 理特征的比较有效的提取方法都以灰度共生矩阵法为基础,灰度共生矩阵是一种 有效的图像纹理特征表示方法,用这种方法来描述图像的纹理特征,能够很好地 利用各灰度级的空间依赖关系,因此在图像处理领域灰度共生矩阵得到了广泛的 应用【30 1 。 灰度共生矩阵方法主要研究纹理的空间灰度级相关性,构造一个共生矩阵表 示图像中相距( 缸,匈) 的两个灰度像素同时出现的联合概率分布。如果图像的灰度 级为级,则共生矩阵为矩阵,可以表示为m ( 缸川( ,七) ,其中位于( ,七) 的 l o 硕上学位论文 元素。表示一个灰度为j l l 的像素和另一个相距为( 血,缈) 的灰度为后的像素对出 现的次数。从灰度共生矩阵抽取出的纹理特征参数有以下几种。 ( 1 ) 方差 z = ( j i l 一尼) 2 。 ( 2 6 ) ( 2 ) 能量 以= 嚷 ( 2 7 ) ( 3 ) 熵 六= 一。l o g :。 ( 2 。8 ) ( 4 ) 相关 工= 降慨一 卢巳 9 , l 七 j , 由于基于灰度共生矩阵的纹理特征具有明确的意义,并且相对于其他特征更 容易计算,因此在图像处理和识别领域经常作为图像的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论