




已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)基于概率潜在语义分析的图像场景分类.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 图像的场景类别不仅包含了人们对一幅图像的总体认识,而且还提供了图 像中对象出现的上下文环境,正确的场景分类为图像识别和检索提供了基础。 因此图像场景分类就成为当前计算机视觉领域的热点问题。 跟文档相似,图像可以由视觉词汇描述,这些词汇表达了一个或多个主 题,这些主题反映了图像的场景。本文目的是研究合适的视觉词汇和主题生成 模型,用以实现图像的场景分类。具体的,论文做了以下的研究工作: 1 、通过研究不同的视觉词汇和潜在主题数目对场景分类性能的影响,我们 选择基于图像的灰度特征、颜色特征和s i f t 特征生成视觉词汇,构建词汇表。 然后在此基础上对上述算法进行改进,采用由彩色s i f t 特征生成视觉词汇的方 法,实验表明,论文研究的方法,分类效果提高明显。 2 、采用概率潜在语义分析( p l s a ) 模型对词汇表进行分析,发现图像中的潜 在语义主题。把图像视为一篇由若干“视觉词汇”所组成的文档,把图像中的 物体看成该图像文档所包含的潜在主题,利用p l s a 模型发现图像中潜在语义主 题的概率分布。 3 、利用k 一最近邻( k - n e a r e s tn e ig h b o u r sc l a s s ie r ,k n n ) 分类算法实现基 于概率潜在语义分析的场景分类。实验表明,结合p l s a 模型和k n n 分类器的图 像场景分类系统,可获得比其它场景分类方法更加理想的场景分类效果。 关键词:场景分类;概论潜在语义分析( p l s a ) ;k n n 分类器;视觉词汇; s i f t 特征;颜色特征 a b s t r a c t 1 1 1 ec a t e g o r i e so fi m a g es c e n e sn o to n l yc o n t a i np e o p l e so v e r a l lu n d e r s t a n d i n go f a l li m a g e ,b u ta l s op r o v i d et h ec o n t e x to ft h eo b j e c t si nt h ei m a g e ,a n dt h ec o n e c t c l a s s i f i c a t i o no ft h es c e n ei st h eb a s i sf o ri m a g er e c o g n i t i o na n dr e t r i e v a l t h e r e f o r e ,i t h a sb e c o m eah o tt o p i ci nt h ef i e l do fc o m p u t e rv i s i o n a si ss i m i l a rt od o c u m e n t ,w ec a nd e s c r i b ei m a g ew i t hv i s u a lv o c a b u l a r i e sw h i c h c a ne x p r e s so n eo rm o r et o p i c sr e f l e c t i n gt h ei m a g es c e n e s w ea i mt or e s e a r c hp r o p e r v i s u a lv o c a b u l a r i e sa n dt o p i c g e n e r a t i o nm o d e lt o i m p l e m e n tt h ei m a g es c e n e c l a s s i f i c a t i o n c o n c r e t e l y ,t h ew o r ko ft h et h e s i si sa sf o l l o w s : 1 b ys t u d y i n gt h ei n f l u e n c e so nt h ep e r f o r m a n c eo fs c e n ec l a s s i f i c a t i o nf r o m d i f f e r e n tv i s u a lv o c a b u l a r i e sa n dt h en u m b e ro fp o t e n t i a lt h e m e s ,w ec h o o s et h e v i s u a lv o c a b u l a r i e sg e n e r a t e do nt h eb a s eo ff e a t u r e so fg r a y s c a l ec o l o ra n ds i f t , a n db u i l dag l o s s a r yo fp l s am o d e l t oi m p r o v et h ea l g o r i t h m ,c o l o rs i f tf e a t u r e s a r e a p p l i e d t o g e n e r a t e v i s u a lw o r d s e x p e r i m e n t sr e s u l t s s h o wt h a tb e t t e r c l a s s i f i c a t i o nr e s u l t sa l eo b t a i n e da f t e rt h ei m p r o v e m e n to fm e t h o d s 2 b ya n a l y z i n gt h eg l o s s a r yw i t hp l s am o d e l ,w ef r e dt h el a t e n ts e m a n t i ct o p i c i ni m a g e s ,a n dv i e wai m a g ea sad o c u m e n tm a d eb yan u m b e ro f ”v i s u a lv o c a b u l a r y ” a n dt h eo b j e c t si nt h ei m a g ea st h el a t e n tt o p i c sc o n t a i n e di nt h ed o c u m e n t s ot h a tt h e p r o b a b i l i t yd i s t r i b u t i o no ft h el a t e n tt o p i cc a nb ef o u n dw i t hp l s a 3 w eu s et h ek - n e a r e s tn e i g h b o r ( k - n e a r e s tn e i g h b o r sc l a s s f i e r , r e f e r r e dt oa s k 小心nc l a s s i f i c a t i o na l g o r i t h mt oi m p l e m e n tt h es c e n ec l a s s i f i c a t i o nb a s e do nt h e p r o b a b i l i t yd i s t r i b u t i o no f l a t e n ts e m a n t i c t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e i m a g es c e n ec l a s s i f i c a t i o ns y s t e mc o m b i n i n gt h ep l s am o d e la n dt h ek n nc l a s s i f i e r o b t a i n sb e t t e rc l a s s i f i c a t i o nr e s u l t sc o m p a r e dw i t hp r e v i o u sm e t h o d s k e yw o r d s : k - n e a r e s tn e i g h b o u r s s c e n ec l a s s i f i c a t i o n ;p r o b a b i l i t yl a t e n ts e m a n t i c a n a l y s i s ; c l a s s i e r ;v i s u a lw o r d s ;s i f tf e a t u r e ;c o l o u rf e a t u r e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:豫红娟 签字r 期: 2 o o i 箩月多f 日 学位论文版权使用授权书 本学位论文作者完全了解叁生盘堂有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 际红螭 导师签名:危秀午 签字同期:姐叩年乡月弓f 同 签字日期:认,叩年5 月弓f 日 第一章绪论 1 1 本文研究背景和意义 第一章绪论 随着多媒体图像数量迅猛增长,对于数量巨大的图像数据,如何快速访问用 户需要的图像就变得尤为重要。传统的依靠人工来对图像进行分类与标注的管理 方式,需要耗费大量的人力资源和时间资源,所以很难满足现实需要。因此,如 何利用计算机来自动将图像按照人们理解的方式分类到不同的语义类别就变得 十分重要。 场景分析【l 】是图像理解的重要研究内容之一,体现了场景与目标之间的包含 关系,具有很强的认知结构。生物学和心理学研究表明,人类进行视觉感知时, 首先是对场景全局特征的感知,无需进行目标的判断分析便可进行场景分类,再 根据先验知识结合视觉局部信息,指导图像理解过程。因此场景分析为图像理解 提供了先验知识的整体机制。在人们对图像理解的众多语义内容中,图像的场景 类别( 例如:海洋、山脉、街道、建筑物) 不仅包含了人们对一幅图像的总体认 识,而且还提供了图像中物体出现的上下文环境,是实现基于内容的图像管理和 检索的有效方法,当前是一个非常具有挑战性的课题。图像的场景分类在很多领 域有着非常重要的应用: 1 图像检索:图像检索【2 】是场景分类的一个最直接应用,通过场景分类人们 可以利用图像搜索引擎比较快速的对世界上所有图像进行检索,或者对个人计算 机上的图像进行搜索。目前网络图像搜索引擎在检索时效性和准确率方面还不尽 如人意,这主要是因为目前的网络图像搜索引擎还是基于图像关键字的搜索而不 是基于图像内容的。所以,最直接的搜索图像的方式就是利用计算机视觉方式, 基于图像内容去对图像进行检索。 2 视频检索:最近几年很多视频数据迅猛增长,而现在很多视频通过人工标 注的方式存储在数据库中,从而造成人们寻找自己感兴趣的视频文件变得越来越 困难,所以基于视频内容的搜索技术就成为目前研究热点。 3 医学应用:现在在医学领域,每天也有很多图像产生,例如:x 光线图像, 脑皮层电图,因此对医生来说提供一个系统让他们更加迅速的访问他们想访问的 图像而不必去查询所有的图像,是非常有意义的。 4 旅游导航:当今,出游的人与日俱增,如果我们使用存储在移动电话里的 数字旅游导航地图,就可以方便的检索该地相关旅游信息。 第一章绪论 5 机器人:在计算机视觉领域,如何给机器人提供眼睛是一件非常困难的事, 如果能够快速图像识别那么机器人就能快速的代替人自动完成很多工作,从而 大大推进人工智能的发展。 鉴于上述原因图像场景分类成为当今一个研究热点其有很高的理论研究 价值和广泛的应用前景。 1 2 本文研究目的 本文研宄的目的是,把在文本分类中得到广泛应用的p l s a 模型应用于图像 场景分娄中,并且在视觉词汇的串成算法、实验设计等方面加以改进,以提高 系统性能。通过本文的研究,最终目标是设计一个基于概率潜在语义分析的场景 分类系统,能够对给定的一纽图像,利剧图像中包含的物体来对其进行分类。图 1 - 1 表示了几种不同的场景。 亨曷篱b k 釜国霾国鐾 ( a 1 水面场景 苗i 彦, :j t 器叫 ! : 二: 譬_ 翻&盘豳k ( b 1 山脉场景 鞫器诩圃 f c l 事内场景 图1 一】场景分类示例 这里我们想区分多个图像场景,目标就是创建一个图像分类系统,井使得该 系统具有良好的性能,分类器计算量少,同时分类过程中有较少的人工操作或者 不用人工操作,在效率、监督和性能上找出一个平衡,从而让该系统达到高效、 快速、无监督、准确的目标。另外图像种类繁多,图像内容更是千变万化,仅 仅利用图像的一个特征( 例如:颜色特征) 来进行分类就变得越来越困难了,考 第章绪论 虑采用一种新型的图像特征或多种特征综合利用以提高系统的性能,也是本文研 究和实现的目标。 1 3 图像场景分类技术所面临的挑战 当前,根据描述图像方式的不同,现有的场景分类方法可以归为两类:一类 是基于底层特征的场景分类方法,另一类是基于中间语义特征的方法。使用图像 底层特征来对场景进行分娄的问题已经存图像和视频检索领域研究了多年。这些 工作通常使用颜色、纹理和形状等图像的底层特征来直接与监督学习方法结台, 从而将图像分类到不同的语义类别中,如室内、室外、城市、乡村、山脉、森林 等。近年来,为了克服图像底层视觉特征与个高层语义之间的语义鸿淘,使用中 间语义特征来对场景建模的方法得到了广泛的关注。例如文献嗍中就使j 1 j 组视 觉感知属性( 自然度、宽阔度、粗糙度、伸展度和险峻度) 来描述场景的主要空 问结构。 尽管目前有很多图像场景分类的方法,但是分类性能对不同的数据库仍然不 尽满意。这和物体识别领域一样,是计算机视觉领域中的一个非常有挑战性的课 题。例如识别一棵树,不管这棵树是远是近,对于同一棵树来说不同的季节就有 不同的表现形式( 春天的叶子是叶芽状的夏天是茂密的绿叶,被天是褐色的叶 子,而冬天就没有叶子了) 。所以我们要识别这棵树就必颓考虑所有的情况, 对于其他的物体来说也是如此。显然在这些复杂的情况下让计算机自动准确的 识别物体是一个巨大的挑战具体来说,目前场景分类技术所面临的挑战主要有以 下几十方面: 1 光照的可变性:对于图像分类的研究,光照变化对图像质量的影响是一 个关键问题。同一个物体在不同光照条件下的变化往往比不同物体在同 一光照条件下的变化更大。因此在图像分类中一件非常重要的事情就 足考虑图像的光照变化。例如,图1 2 给出了不同光照条件影响下的四幅 海洋场景。我们的1 7 标就是设计一个场景分类系统,不管图像的光照条 件如何变化,系统都可咀准确地识别出海洋场景。 图卜2 不同光照条件下的海洋场景 第章绪论 2类内部的不一致性:由于同一类别或对象有不同的表现形式因此识别 同类场景或对象也变得困难。如图1 3 ( a 1 中给出了一个北极地带企鹅 的场景,三幅图像中场景和对象都相同但是表现形式却不同,图1 - 3 ( b ) 给出的是一个海洋场景三幅图分别是有沙滩的海洋,有悬崖的海洋, 和仅仅有海水的海洋。这组海洋场景中表现出了巨大的类内部的不一致 性,这对于图像分类柬说是一个挑战。面对这样的挑战就意味着我们 必须找到一种方法,该方法可以概括某一类场景的所有情况。 十 ( b ) 海洋场景 图卜3 类内部的不一致性 3 类之间的一致性:我们知道不同类别的图像往往表现形式相似,比如图 l _ 4 ( a ) 中的月季花和图l - 4 ( b ) 中的玫瑰花是完全不同的类别,但看起来是 根相似的,这种连人都不容易区分的类别,计算机识别起来就更加困难, 系统往往会把这种不同类别的图像归为类,我们可不想把玫瑰与月季 归为一类,如何解决这一问题就成了场景分类研究所面临的又一挑。 ( a ) 月季花场景 造,鄹建 ( b ) 玫瑰花场景 图1 - 4 娄之间的不一致性 第章绪论 4 物体姿态的可变性:对于场景分类,这是另一个要考虑的情况,图像中 物体的姿态变化是很大的,例如图1 5 ( 砷中秘们有四幅关于汽车的图像 图中的汽车有正面景,也有背面景和侧面景,差别很大。另外图1 - 5 是关于笔记本电脑的场景,各个图像的姿态变化也是很大的,利于这种 情况场景分娄系统又该如何区分呢9 磊:;誊 ( 8 ) 汽车场景 谚瓢影曼 ( b ) 电脑场景 圈1 5 尺度的可变性 5 其他:场景的旋转、观察角度等也是必须考虑的问题。 除了上面所提到的几个问题,其他关于人类感知方面的因素、观察者的 不确定性和主观性等因素,灯于场景分类任务来说也是不小的挑战。在已经 得到的场景分娄中很大程度上是依靠人工标注的主观判断性,其实有时候人 工标注本身就有很人的模糊性,例如图1 6 的四幅图像,都有树林和河流。 那这四幅图是属于树林场景呢还是该归娄为河流场景? 对于这个模棱两可 的问题,似乎应该完全取决于人的主观判断。 图1 书主观判断不统一性 第一章绪论 1 4 本文的研究工作 本篇论文的主要工作在于将解决文本主题分类的概率潜在语义分析 p l s a ( p r o b a b i f i s f i cl a t e n ts a m e n t i ca n a l y s i s ,p l s a ) 模型应用到图像场景分类【3 】 中。在图像场景分类研究中,提取图像特征作为输入,就等同于文本分类中的单 词,而这些图像特征跟文本单词一样具有同义词、多义词的特点。例如:在一张 以太阳为主的图像中,提取的特征必定是相似的,但它们所表达的场景意义就不 一定相同了,因为有太阳的场景既可以是日出场景,也可以是日落场景,这就类 似于文本中的多义词。另外,不同的图像特征也可以表示相同的场景。例如:在 办公室场景中,可以出现办公桌、电脑、电话和打印机等物体,这些目标物体的 特征显然是不相同的,却都可以用来表示办公室场景,这一点就相当于文本中的 同义词。在图像的诸多特征中,我们除了提取颜色特征,灰度信息,还利用s i f t 算法来提取图像的显著区域,从而得到图像的s i f t 特征,由于s i f t 特征是图像 的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变 换、噪声也保持一定程度的稳定性,实验也证明s i f t 特征能很好的满足场景分类 的要求,在本文的实验分析章节我们对实验结果做了详细分析。s i f t 特征提取以 后,我们使用k - 均值聚类算法对训练图像集上的所有网格采样点上的s i f t 特征进 行聚类。每个聚类中心对应一个视觉词汇,从而生成一个由若干个视觉词汇构成 的视觉词汇表。图像如同一篇由视觉词汇所组成的文档,图像中的物体则相当于 文档中所包含的潜在主题。这样,利用p l s a 模型就可以发现图像中潜在对象的 概率分布,即完成对视觉词汇表的语义主题提取,并最终以此来实现对图像的场 景分类。 1 5 论文的组织结构 围绕上述研究工作,本论文由五章内容组成,安排如下: 第一章:绪论。简单介绍了图像场景分类的研究背景和意义,国内外的研究 现状,以及所面临的技术性挑战,并介绍了论文的主要工作。 第二章:对场景分类进行综述。包括现有的图像场景分类方法介绍,图像场 景分类的特征,图像分类算法等。 第三章:归纳总结了基于p l s a 模型的图像场景分类理论。主要内容有p l s a 模型的原理,p l s a 模型在文本分类中的应用,基于p l s a 模型的场景分类的过 程等。 6 第一章绪论 第四章:实验结果与分析。通过系列的实验,验证了基于p l s a 模型的图 像场景分类的系统性能。 第五章:论文总结与展望。对论文的工作进行了小结,并展望了论文下一步 的研究内容和工作。 第二章图像场景分类理论基础 第二章图像场景分类理论基础 图像场景分类是图像理解中对整体场景的判断和理解,对图形理解中场景分 类的研究刚刚起步。2 0 0 6 年在m i t 首次召开了场景理解研讨会( s c e n e u n d e r s t a n d i n gs y m p o s i u m ) ,指出场景分类将会是图像理解中有前途的研究热点。 场景是语义的一种,一幅图像所要表达的语义包含所描述的物体、事件、场 所及所表达的感情。一般的场景类别包括:室内、室外、自然、人造等。再具体 点还可以分为城市、建筑物、夜晚、白天、乡村、街道等。场景分类是一个高 层语义理解的过程,本章将详细介绍场景分类的理论基础包括场景分类现有的 实现方法,图像底层特征的提取,以及圈像的分类算法等内容。 2 1 场景分类研究的基本问题 场景的语义分类是对图像的整体分析和理解,所以场景分类研究的一个基本 问题是对图像全局信息的把握和研究。以前的研宄通常认为目标分析是场景分类 的基本任务,只有通过对场景中的目标进行有效的分析才能从得到的信息中进行 场景的整体认知:但近几年的快速场景感知试验”壤明人类视觉注视的过程中, 无需感知场景中的目标便可以通过空间布局分析语义场景内容。如图2 - i 所示, 尽管左圈模糊,缺乏很明显的局部信息,但仍然可以理解整个场景的内容,说明 仅仅提供区域的空间布局便可实现场景的语义理解,而局部信息对目标的分析则 受限。因此全局信息对场景分类起着至关重要的作用,继而会直接影响到对图 像的认知理解,场景的正确判断给图像的局部分析提供了合理的上下文约束机 制,如在室外出现汽车可能性远远大于室内场景。 二 e a ) 模糊的全局图像( b ) 清晰的全局图像 图2 - 1 全局信息在场最分类中的作用 第二章图像场景分类理论基础 场景分类研究探讨的另一个基本问题是:如何在生物学和心理学研究的基础 上,建立合理的实现场景分类的计算模型。大量的场景分析生物学和心理学试验 表明,场景的全局特性分析往往发生在视觉注意的前期,建立合理的计算模型实 现场景分类是体现场景分析约束机制的主要途径。传统的场景分类方法在场景图 像实域或频域空间中提取局部信息【1 0 】( 强光谱,颜色直方图等) ,这种局部信息 类似于纹理分卡斤【】中的“基元”,“基元 的聚类组成了“基元”簇,每一类别 对应了不同的“基元”簇分布。将这些“基元”簇叠加得到不同场景的全局信息, 形成不同类别的场景描述,这种信息就是人的视觉感受器最先获取到的信息。对 场景语义标记、区域空间布局以及与场景函数有关的语义特征进行频率统计分析 得到最终的分类结果,这些方法均采用了中层复杂度的表述方法提高场景识别的 可执行度,但场景分析中的每类样本过多,需要手工进行标记给场景分析带来了 一定的困难。本文将借鉴现有方法的思想,实现利用统计分析模型进行图像场景 分类,在一定程度上克服场景分类的瓶颈,提高分类精度。 2 2 现有图像场景分类研究方法 从实现过程来看,图像场景分类可以分为两个步骤。如图2 - 2 ,第一步,从 图像中提取图像特征;第二步,利用获得的图像特征设计语义分类器,用以实现 从图像底层特征到高层语义的映射。 卜 提取图像特征分类器 图2 2 图像场景分类的步骤 根据是否建立图像底层特征与高层语义对象之间的一一映射关系,可以将图 像场景分类研究分为两类,即利用图像底层特征和图像中层语义建模两种方式。 下面将简要介绍这两建模方式发展情况。 2 2 1 利用图像底层特征 对于利用图像底层特征这类方法而言,又可以分为基于图像全局底层特征和 基于区域( 子块) 底层特征两种方法。早期的图像场景分类技术主要是通过提取 9 第二章图像场景分类理论基础 图像的底层视觉特征( 如:颜色特征、纹理特征、形状特征等) ,并结合有监督 的机器学习方法,例如贝叶斯理论、s v m ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 、 州( k - n e a r e s tn e i g h b o u r sc l a s s i e r ,k n n ) 等,对某些类别的图像场景进行识别。 这种方法的理论基础在于,不同类别的场景可以直接由图像的颜色、纹理、形状 信息区分开来。因此,该方法不需要识别出图像场景中的具体对象的信息,计算 复杂度相对较低。但是该方法的缺点也是很明显的:对于场景较为复杂的图像, 其识别效果并不理想。这是因为图像底层特征和高层语义之间存在着语义鸿沟, 仅凭借图像底层特征信息,而不考虑跨越语义鸿沟的方法显然是有很大局限性 的。早期的图像场景识别研究主要借由该方法,可识别的场景类别很有限,主要 是户内户外,城市乡村等区分度较大的场景类别。这方面的代表性工作主要有 v a i l a y a 等的研究成果。 2 2 2 利用图像的中层语义 图像语义化研究是图像处理领域的热点。为了缩小语义鸿沟以及应对复杂场 景的图像识别问题,研究者转而通过对图像的场景进行语义建模,来达到图像场 景识别的目的。目前,这类建模方法已经成为图像场景分类研究领域的热点和主 流,就中层语义建模而言,下面介绍四种主要研究方法: 第一种是以b a m a r d 等【5 棚为代表的语义描述的泛化分析法,是将广泛的概念 名词进行了层次划分。高层节点描述出现频繁较为通用的词语,而低层节点描述 较为特殊的词组,将每一类概念区域得到的特征向量进行聚类。通过建立离散概 率模型描述每个聚类和每个词语之间的对应关系,分析得到的目标概率直方图。 取出最大概率对应的“聚类词组”对,实现数据和知识的转换和场景的语义化 过程。c a r b o n e t t o 刀在此基础上将图结构模型融入语义化的标记过程,建立语义 化标记过程。整个语义化标记过程是无监督的过程,但由于千变万化样本获取非 常困难,因此语义化的理解结果正确性非常有限。 第二种中层语义建模的方法是构建语义物体 8 l ( s e m a n t i co b j e c t s ) ,通过检测或 识别出图像中的语义物体来描述整幅场景。主要思想是通过图像的初始化分割, 把图像分割成若干区域,通过自动或人工标记出每一个区域所属的物体类别,对 每个物体类别分别构建训练样本,再结合机器学习方法实现图像中的语义物体识 别,并最终达到图像场景识别的目的。这种方法可以处理较为复杂的图像场景, 且由于对语义物体分别建模,图像场景识别精度较高。但是缺点在于需要用户手 工标注收集每个物体类别的样本信息,增加了人力付出和用户的负担,相对操作 起来麻烦,也不适用于大型的数据库。这方面的代表性工作主要有北卡卅i 立大学 1 0 第二章图像场景分类理论基础 的f a nj i n 1 2 】以及罗切斯特大学的l u oj i e b o ”1 等。 第三种中层语义建模的方法是建立图像的局部语义概念( 1 0 c a ls e m a n t i c c o n c e p t s ) 。与上种方法不同,这种方法通常不依赖于图像分割的结果,而是在 图像中自动地检测出感兴趣点,并采用“局部描述子”描述这些点,随后建立起 局部描述子到某种局部语义概念的映射,再利用图像中局部语义概念的分布来实 现图像场景的分类识别。这种方法的基本思想类似于文本分析中的b a g o f - w o r d s 模型,在场景分类中,将感兴趣点的描述子集合看成是一组关键字的集合,通过 概率潜在语义分析( p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ,p l s a ) 推理得到图像 场景的正确识别。该类方法究其本质可归结为物体识别问题,这类方法也是目前 图像场景识别的研究热点。这方面的代表性工作主要包括西班牙g i r o n a 大学的 a i i i l ab o s c h 和加州理工学院的f e i f e il i t 9 】等人。 第四种中层语义建模的方法是研究者主观设计的图像场景的全局语义性质。 它们通常是图像的全局统计特征,如自然性、开放性和粗糙性等。与前面所述三 种方法截然不同的是,该方法不考虑图像的局部特征。由于是研究者主观设定的 全局统计特征,其泛化性不太理想,且对于待识别图像场景的鲁棒性较差,识别 精度不够理想,因此这个方向的研究较少。该方面的代表性工作主要包括o l i v a 和 t o r r a l b a 1 0 】等。 从上述分析可知,现有的图像场景识别研究工作多是开始于简单局部性质的 提取,像第四种方法中的全局特征的提取仍然属于图像底层特征统计特征。这类 方法都是通过渐进地整合图像的局部性质来不断地重建场景中的物体,而最终的 场景语义则是视觉系统所产生的最终整体内容表征。可见现有的工作都是基于 m a r r 的视觉计算理论【2 2 1 ,受其影响,大多数研究者注重于提取图像的底层特征或 中间层的语义特征,几乎没有研究者把图像场景作为视觉初期就能够感知到的完 整语义对象来对待。尽管基于全局语义性质的场景识别方法考虑整幅图像的全局 统计特性,但它往往凭借研究者的主观想象设计全局语义性质,致使系统的延展 性和鲁棒性较差,所以以上这些研究的思路,其结果是不能令人满意的。 本文的研究重点是放在对图像场景进行中层语义建模中建立图像的局部语 义概念上,提取s i f t 特征再加上底层颜色特征,利用k 均值聚类算法构建视觉 词汇表,然后再利用建立p l s a 模型对每一幅测试图像提取潜在语义,获得潜在 语义主题的概率分布,最后通过k - 最近邻( k - n e a r e s tn e i g h b o u r sc l a s s i e r ,k n n l 分类算法实现对图像的场景分类。 第二章图像场景分类理论基础 2 3 场景分类的图像特征 图像的特征信息是进行图像场景分类最基本的处理和分析对象,信息表示和 特征提取是完成图像场景分类的先决条件。颜色、形状和纹理是图像场景中目标 的基本特征,本节围绕这些图像特征的提取开展研究工作,介绍图像基本特征包 括颜色特征、纹理特征和边缘特征的提取算法,同时在最后的小节还将重点介绍 图像的s i f t 特征。 2 3 1 图像的颜色特征 颜色是图像分类中应用最广泛,也是最重要的视觉特征。颜色特征【2 m 3 】定 义明确,而且提取也相对容易些。下面将介绍与颜色特征密切相关的颜色空间模 型和几种最基本的颜色特征提取算法。 要解决利用颜色特征进行场景分类这个问题,首先要了解与颜色特征密切相 关的颜色空间模型。所谓空间颜色模型指的是某个三维颜色空间中的一个可见光 子集。它包含某个颜色区域的所有颜色。区分颜色常用到三种基本特征量:亮度、 饱和度和色调。亮度与物体的反射率成正比,如果没有彩色,则只有亮度( 灰度 级) 这一维量的变化。对于彩色来说,颜色中掺入白色越多就越明亮,掺入黑色 越多亮度就越小。色调则与混合光谱中的主要光波长相联系。饱和度与一定色调 的纯度有关,纯光谱色是完全饱和度,随着白光的加入饱和度逐渐减少。主要的 空间模型有r g b 模型、h s v 模型、y u v 模型、h s i 模型等,下面就较两种常用 的模型作介绍。 l 、r g b 颜色模型 2 7 - 2 8 r g b 空间模型是通常选用的空间。根据人眼结构,所有颜色都可以看作是 三个基本颜色的不同组合,利用三基色叠加可产生光的三补色:品红( m a g e n t a ) , 青( c y a n ) 和黄( y e l l o w ) 。按一定比例混合三基色或将个补色与相对的基色混合 就可以产生白色。 每个像素,实际上任何可能要量化的颜色都能用三维空间中的个点来表 示。如图2 3 的立方体所示。 1 2 第二章图像场景分类理论基础 b 图2 3r g b 颜色模型 三色图像的灰度级直方图是r g b 空间的点分布。在r g b 颜色空间的原点上, 任一基色均没有亮度,即原点为黑色。三基色都达到最高亮度时变现为白色。亮 度较低的等量的三种基色产生灰色的影调。所有这些点均落在彩色立方体的对角 线上,该对角线被称为灰色线。彩色立方体中有三个角对应于三基色。红色、绿 色和蓝色。剩下的三个角对应于二次色,黄色、青色( 蓝绿色) 和品红色( 紫色) 。 数字图像一般用r g b 颜色空间来表示。r g b 颜色空间便于c r t 设备显示 图像,使用最广泛,但它并不是以一致的尺度表示色彩,不符合人的感知心理。 在r g b 颜色空间中改变一个颜色时,三个通道全部需要修改,由于不是一个均 匀视觉的颜色空间,r g b 颜色空间上的距离并不代表人眼视觉上的颜色相似性。 2 、h s v 颜色模型 h s v 颜色模型是从人的视觉系统出发,用色调( h u e ) 、饱和度( s a t u r a t i o n ) s 1 亮 度( v a l u e ) 来描述色彩。h s v 模型的色调h 是由颜色名称来区分的,比如红、橙、 绿,它用色度0 - 3 6 0 度量;两度v 是颜色的明暗程度,通常用百分比度量,从 黑( o ) 到白( 1 0 0 ) ;饱和度s 指颜色深浅,例如同样是红色,可分为深红和浅红, 用百分比来度量从0 到完全饱和的1 0 0 。 r g b 到h s v 的转换关系如下: ,r + g + b 1 := 一 3 日= f 6 0 e 9 。一a r c t a n ( ,压) + o g 列8 0 g 占) s :1 一些! 墨:堡:型 i h s v 到r g b 的转换关系: 1 3 ( 2 一1 ) ( 2 2 ) ( 2 - 3 ) 第二章图像场景分类理论基础 ( 1 ) 当0 h 1 2 0 “时: r = 去 + o o 瓣s c 。8 ( 日) ) 1 j ,曰= 二苦( 一s ) ,g = 豇一r b ( 2 4 ) ( 2 ) 当1 2 0 。日 2 4 0 时: g = 出搿卜扣s 弘= 西一g 陋5 , ( 3 ) 当2 4 0 。h 3 6 0 。时: b = 扯筠 ,g = 扣趴r = 西一召倍6 , 目前,已有很多基于颜色特征的图像分类方法,下面简单介绍最基本的几 种颜色特征。 l 、颜色直方图 颜色直方图是最简单也是最常用的颜色特征,是对图像中每个像素的颜色在 色彩空间中出现频率的统计。它描述的是不同色彩在图像中所占的比例。由于颜 色直方图是像素颜色统计信息,并不涉及像素的空间位置排列,因而具有旋转不 变性、尺度不变性和平移不变性,是一种应用广泛的颜色特征,其函数表达式如 下: h ( 尼) = 专( 露- o ,”一,一1 ) ( 2 7 ) 其中,k 代表图像的特征取值,三是特征可取值的个数,咒。是图像中具有特 征值为k 的像素个数,是图像像素的总数。显然,颜色直方图并不关心每种色 彩所处的位置,即无法描述图像中的对象和物体。颜色直方图特别适合于描述那 些难以进行自动分割的图像。 计算颜色直方图需要将颜色空间划分为若干个小的颜色空间,每个小区间成 为直方图的一个b i n ,这个过程称为颜色量化( c o l o rq u a n t i z a t i o n ) 。然后,通过计 算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方 1 4 第二章图像场景分类理论基础 法,例如向量量化、聚类方法或神经网络方法。在应用中对直方图进行量化是 必要,比如在r g b 色彩空间模型中,每个彩色通道的取值范围为0 , - - 2 5 5 共2 5 6 级,直方图量化可以减少计算量和存储空间。 2 、颜色矩 颜色矩是一种特征量少、处理简单的颜色特征,它是对颜色直方图的一种 改善。颜色矩的数学基础是:任何图像的颜色分布都可以由其各阶矩表示。研 究表明,图像的颜色信息主要集中在图像的低阶矩:一阶矩( 均值) 、二阶矩( 方 差) 和三阶矩( 偏度) 。图像颜色的前三阶中心距公式如下: 一阶矩: 吩2 专善乃( 2 - 8 ) 二阶矩: 三阶矩: q = 嗾( 刊丁 驴嗾( 刊3 ) _ ( 2 9 ) ( 2 - l o ) 其中,p ,为图像第,个像素的第i 个颜色分量。一般只需要9 维就可以表示 图像的颜色矩特征。当然,颜色矩也适用于多种颜色空间模型。 3 、其他颜色特征 除了颜色直方图和颜色矩之外,还有很多其他的颜色特征。它们有些是颜色 直方图的演变方法,如颜色集【2 7 1 、颜色聚合矢量等,这些方法分类准确率要比 直方图方法高,但是计算量也增加很多。 颜色相关图的主要思想是利用颜色对相对于距离的分布来描述信息它反映 了像素对的空间相关性,以及局部像素分布和总体像素分布的相关性。它具有 特征范围小,分类效果好的特点。 第二章图像场景分类理论基础 2 3 2 图像的纹理特征 纹理特征是除颜色特征之外,另一种应用广泛的图像视觉特征。纹理的本 质是刻画像素的邻域灰度空间分布规律。它通常定义为图像的某种局部性质, 或者对局部区域中像素之间关系的一种度量。纹理存在于物体的表面。含有表 面的组织结构和它们与背景的相互关系。 纹理特征d 4 - 1 5 1 的提取方法可分为4 类,即结构法、模型法、频谱法和统计 法,其中,统计方法占主导地位。结构法分析纹理的基本思想是假定纹理模式由 纹理基元以一定的有规律的形式排列组合而成,特征的提取即是确定这些基元 并找出它们的排列规律,它只适用于规则的结构纹理分析。模型法主要是利用 一些成熟的图像模型来描述纹理,如马尔可夫随机场、子回归场等。频谱法借 助频率特性来描述图像的纹理特征,它主要的方法有:傅立叶功率谱法、g a b o r 变换和小波变换。下面主要介绍统计法。其典型的代表方法是灰度共生矩阵和 t a m u r a 纹理。 ( 1 ) 灰度共生矩阵 h a r a l i c k 等人提出的共生矩阵,不仅借助了灰度直方图的矩,而且考虑了像 素相对位置的空间信息。该方法研究了纹理的空间灰度级相关性,构造一个基 于图像像素间方向和距离的共生矩阵。 灰度共生矩阵记录了图像中相距( 缸,) ,) 的两个灰度像素同时出现的联合概 率分布。对于灰度级为的图像,共生矩阵为n xn 的矩阵,一般表示为 m 缈) ( 五,k ) ,矩阵m 的元素。的值表示灰度值为h 和k 的相距为( a x ,a y ) 的像 素对出现的次数。常用如下几种统计量作为纹理特征的度量。 方差: 能量: 熵: c d = ( 而一七) 2 m 触_ j 、 ,m h k a s m = ( 。) 2 hk 肿= 一m k 。l o g m 船 j - 一j “ hk 1 6 ( 2 1 1 ) ( 2 1 2 ) ( 2 一1 3 ) 第二章图像场景分类理论基础 相关: c o r = i 歹 h l o n h t 飞l i c rc r y ( 2 1 4 ) hk 其中,虬、u yo x 、q 分别为、m y 的均值和标准差。m ,= 是矩阵 k m 中每行元素之和,m 。= m h 。是矩阵中每列元素之和。相关量是用来描述矩 。 7 阵中行元素或列元素之间相似程度的,它是灰度线性关系的度量。 在图像纹理特征的提取过程中,构造4 个方向的灰度共生矩阵,分别为 肘i 。,o ) ,m ( o 1 ) ,m l u ) , m ( 1 ,一i ) ,然后对构造的4 个共生矩阵分别计算上述4 个参数:反 差、能量、熵和相关,共1 6 个参数值。文献还对获得的参数值进行了处理,以 各参数的均值和标准差作为纹理向量的各个分量。由于这些分量的物理意义不同 和取值范围不同,文献进行了内部归一化,以便在计算相似性度量时具有相同的 权值。 ( 2 ) t a m u r a 纹理特征 t a m u r a 等人在研究基于人类视觉的心理学之后,提出了一些新颖的方法来描 述纹理特征。t a m u r a 纹理特征的6 个分量对应于心理学角度上纹理特征的6 种属 性【l5 1 ,分布是:粗糙度( c o a r s e n e s s ) 、对比度( c o n t r a s t ) 、方向度( d i r e c t i o n a l i t y ) 、 线像度( l i n e - l i k e n e s s ) 、规则度( r e g u l a r i t y ) 和粗略度( r o u g h n e s s ) 。其中,前三个分 量对于基于纹理的图像分类尤为重要。 a ) 粗糙度:图像的粗糙度与图像的分辨率有关,它测量纹理的粒度。分辨率 大的图像其纹理比较粗糙,即组成纹理的元素的尺寸较大。计算公式如下: c o a t s e n e s s = 土m n ;2 巾,) ( 2 1 5 ) b ) 对比度:对比度测量图像中局部的灰度变化,常用作为图像整体感知的 一种描述,它依赖于像素的灰度分布,通常,对比度与图像灰度的动态范围及图 像中边缘的尖锐程度有关。 c o n t r a s t = ( u 4 盯4 ) _ 公式中盯是图像灰度的标准方差,u 。是图像灰度的四阶中心距。 1 7 ( 2 一1 6 ) 第二章图像场景分类理论基础 c ) 方向度:图像的方向度描述了图像的全局纹理特征,即纹理是任何沿某 些方向散布或集中的。一般而言,方向度与纹理基元的形状及如何将这些纹理基 元排列的规则有关。 t a m u r a 纹理与灰度共生矩阵的主要区别在于:t a m u r a 纹理的所有纹理属性 都是视觉意义上的,而灰度共生矩阵的某些属性则与人类视觉无关,例如熵、能 量等。 ( 3 ) 边缘特征 边缘特征是纹理特征中最重要的特征也是一种应用广泛的图像特征。 p o g g i o 曾说“边缘或许对应着图像中物体的边界或许没有对应图像中物体的边 界,但是边缘具有十分令人满意的性质,它能大大减少所要处理的信息但是又 保留了图像中物体的形状信息”。图像的边缘特征包括边缘的共线、平行及交 汇点。利用这些信息可以解决遭到干扰的图像边界的断裂问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广西梧州学院高层次人才引进模拟试卷附答案详解(模拟题)
- 2025河南洛阳市洛宁县招聘看护队伍劳务派遣人员45名考前自测高频考点模拟试题及答案详解(各地真题)
- 2025第二季度重庆万盛经开区创业就业和人才中心招聘1人考前自测高频考点模拟试题及答案详解(典优)
- 安全培训教师决心书课件
- 2025湖南邵阳学院招聘22人模拟试卷及答案详解(网校专用)
- 2025年中职高考对口升学(理论考试)真题卷【医药卫生大类】模拟练习
- 2025福建生态工程职业技术学校招聘4人模拟试卷及答案详解(名校卷)
- 2025年甘肃省平凉市博物馆公益性岗位人员招聘模拟试卷及答案详解(新)
- 2025广东广州市海珠区招聘事业单位工作人员19人模拟试卷及完整答案详解1套
- Ibufenac-13C6-Dytransin-sup-13-sup-C-sub-6-sub-生命科学试剂-MCE
- 谐波齿轮减速器选型资料-图文
- 藏文基础教你轻轻松松学藏语-知到答案、智慧树答案
- 大冶市大垴山金矿千家湾矿区铜矿矿产资源开发利用与生态复绿方案
- 试运行专项方案模板
- 3d打印实训小结
- 心内科科室运营分析报告
- 《肠道疾病解决方案》课件
- 人工智能辅助病理诊断
- 《统计学-基于Python》 课件 第7章 假设检验(Python-1)
- 回力品牌广告史
- 高考英语备考经验交流课件
评论
0/150
提交评论