




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义的图像分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 ll 页 摘要 随着计算机技术、通信技术和多媒体技术的飞速发展,数字图像广泛应用 到社会生活的方方面面,数字图像的分类和检索技术也随之发展。传统的基于文 本关键词的数字图像分类和检索技术,由于其低效率和非标准化等缺点已经不 能满足人们的需要;基于内容的图像分类和检索技术,从底层视觉特征度量图 像的相似性,实现对图像的理解。然而,图像的底层视觉特征与人对图像的理 解之间存在巨大的差异,基于内容的图像分类和检索并未沟通图像的底层视觉 特征与高层语义,跨越“语义鸿沟”;基于语义的图像分类和检索技术正成为 研究的热点。 论文首先介绍了图像语义的层次模型和图像语义提取的几种方法,重点介 绍了基于机器学习的图像语义提取方法。在底层特征上,提取了颜色、纹理和 形状三类特征。特征选择可以加速数据挖掘,提高数据挖掘的性能和效率,论 文对一种改进的顺序前向浮动搜索特征选择算法进行了研究,以底层特征数据 为基础实验对比了顺序前向搜索、顺序前向浮动搜索和改进的顺序前向浮动搜 索三种算法的时间效率和选择结果。 支持向量机是基于统计学习理论的新型机器学习方法,它能在小样本下得 到很好的分类效果并具有较好的泛化能力。论文选择支持向量机作为图像语义 的分类器,研究了不同特征子集下支持向量机的分类性能,实验结果证实了特 征选择的有效性。基于结构风险最小化原理的支持向量机不会产生传统方法中 的过学习和局部最小等问题,基于支持向量机的增量学习具有重要的应用价值。 论文对比了支持向量集加错分样本和历史训练数据加错分样本两种增量s v m 学 习算法。实验证明后者的分类准确性和稳定性更好。 关键词图像语义特征选择支持向量机增量学习 西南交通大学硕士研究生学位论文第1 v 页 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o f c o m p u t e rt e c h n o l o g y , c o m m u n i c a t i o n t e c h n o l o g ya n dm u l t i m e d i at e c h n o l o g ya n dw i d ea p p l i c a t i o no fd i g i t a li m a g e si na l l a s p e c t so fs o c i a ll i f e ,t e c h n o l o g y o fc l a s s i f i c a t i o na n dr e t r i e v a lo fd i g i t a li m a g e s d e v e l o p t r a d i t i o n a lk e y w o r d b a s e dt e c h n o l o g yo fc l a s s i f i c a t i o na n dr e t r i e v a l o f d i g i t a li m a g ec a nn ol o n g e rm e e tt h en e e d s o fp e o p l ef o ri t sl o we f f i c i e n c ya n d n o n s t a n d a r d i z a t i o n ;c o n t e n t - b a s e dt e c h n o l o g yo fi m a g ec l a s s i f i c a t i o na n dr e t r i e v a l a c h i e v eu n d e r s t a n d i n go ft h ei m a g et h r o u g hm e a s u r e m e n to ft h es i m i l a r i t yf r o mt h e b o t t o mv i s u a lf e a t u r e s h o w e v e r , c o n s i d e r a b l ed i f f e r e n c e se x i s tb e t w e e nt h eb o t t o m v i s u a lf e a t u r e sa n dh u m a nu n d e r s t a n d i n go fi m a g e s c o n t e n t - b a s e dt e c h n o l o g yo f i m a g ec l a s s i f i c a t i o na n dr e t r i e v a ld o e sn o tl i n ku pt h eb o t t o mv i s u a lf e a t u r e sw i t h h i g h l e v e ls e m a n t i c s ,c r o s st h e ”s e m a n t i cg a p ”;s e m a n t i c s b a s e dc l a s s i f i c a t i o na n d r e t r i e v a lt e c h n o l o g yo fd i g i t a li m a g ei sb e c o m i n gar e s e a r c hh o t s p o t t h et h e s i si n t r o d u c e st h el a y e rm o d e lo fs e m a n t i c sa n ds e v e r a lm e t h o d st o e x t r a c ti m a g es e m a n t i c s ,f o c u s i n go nt h em a c h i n el e a r n i n g b a s e de x t r a c t i o nm e t h o d t h r e eb o t t o mf e a t u r e sh a v eb e e ne x t r a c t e di n c l u d i n gc o l o r , t e x t u r ea n ds h a p e f e a t u r es e l e c t i o nc o u l ds p e e du pa n di m p r o v et h ep e r f o r m a n c ea n de f f i c i e n c yo fd a t a m i n i n g a ni m p r o v e ds e q u e n t i a lf o r w a r df l o a t i n gs e a r c hf e a t u r es e l e c t i o na l g o r i t h m i ss t u d i e d ,a n dt h et i m ee f f i c i e n c ya n do u t c o m eo fs e q u e n t i a lf o r w a r ds e a r c h a l g o r i t h m ,s e q u e n t i a lf o r w a r df l o a t i n gs e a r c ha l g o r i t h ma n di m p r o v e ds e q u e n t i a l f o r w a r df l o a t i n gs e a r c ha l g o r i t h ma r ec o m p a r e db y e x p e r i m e n tb a s e d o nb o t t o m f e a t u r e s s u p p o r tv e c t o rm a c h i n ei s an e wt y p em a c h i n el e a r n i n gm e t h o db a s e do n s t a t i s t i c a ll e a r n i n gt h e o r y i th a sg o o dg e n e r a l i z a t i o na b i l i t ya n dc o u l da c h i e v en i c e c l a s s i f i c a t i o nr e s u l t so ns m a l ls a m p l e t h et h e s i sc h o o s e ss u p p o r tv e c t o rm a c h i n ea s ac l a s s i f i e ro fi m a g es e m a n t i c s ,a n ds t u d i e sc l a s s i f i c a t i o np e r f o r m a n c e so fs u p p o r t v e c t o rm a c h i n eo nd i f f e r e n tf e a t u r es u b s e t s t h ee x p e r i m e n tr e s u l ts h o w st h a tt h e f e a t u r es e l e c t i o ni se f f e c t i v ea n dt h ei n c r e m e n t a ll e a r n i n gb a s e do ns u p p o r tv e c t o r m a c h i n ei ss i g n i f i c a n ti na p p l i c a t i o n i ti sa l s on o t e st h a tt h es u p p o r tv e c t o rm a c h i n e b a s e do ns t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l ew o u l dn o tc a u s ep r o b l e m su s u a l l y c a u s e db yt r a d i t i o n a lm e t h o d ss u c ha so v e r - l e a r n i n ga n dl o c a lm i n i m u m t h i st h e s i s c o m p a r e st w oi n c r e m e n t a ls v ml e a r n i n ga l g o r i t h m :s u p p o r t v e c t o rs e tw i t h 西南交通大学硕士研究生学位论文第v 页 m i s c l a s s i f i e d s a m p l e s a n dh i s t o r i c a l t r a i n i n g d a t a w i t hm i s c l a s s i f i e d s a m p l e s e x p e r i m e n tr e s u l t ss h o wt h a tt h el a t t e ri sm o r ea c c u r a t ea n ds t a b l e k e y w o r d :i m a g es e m a n t i c ;f e a t u r es e l e c t i o n ;s u p p o r t v e c t o rm a c h i n e ; i n c r e m e n t a ll e a r n i n g 西南交通大学硕士研究生学位论文第1 页 西南交通大学曲南父遗大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密田,使用本授权书。 ( 请在以上方框内打“ ) 学位论文作者签名:豆哪编 日期:唧亨名 艚挪繇磷 同期:,沁9 西南交通大学硕士研究生学位论文第f i 页 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所 得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 1 对一种改进的顺序前向浮动搜索特征选择算法进行了研究,实验证明改 进的算法选出了更好的特征子集,在分类实验中基于改进的特征选择算法特征 子集的分类效果比改进前的分类效果更好。 2 对增量支持向量机算法中训练样本的选择进行了研究,对比了支持向量 集加错分样本和历史训练数据加错分样本两种增量支持向量机学习算法,实验 证明后者的分类准确性和稳定性更好。 郧为 川步名 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景和意义 第1 章绪论 据统计,人类接受的外部信息有7 0 到8 0 来自视觉刺激,近十几年来,随 着计算机技术、通信技术和多媒体技术的飞速发展,数字图像与视频等视觉信 息越来越多的涌现,我们正迎来一个基于多媒体信息服务的信息时代。进入二 十一世纪以来,数字照相机、数字摄像机更加普及,多媒体内容以指数级的速 度飞速膨胀。几乎所有的数字化设备包括个人计算机、数字电视、手机、p d a ( 个 人数字助理) 都保存着各种形式的数字图像和数字视频并通过各自的网络获取 和传播各种视觉信息。互联网上的信息也从单一的文本信息变成了集合文字、 图形、图像、动画、音视频等的多媒体信息。这些不同形式的视觉信息在人们 的工作、生活、教育、娱乐等方面发挥着越来越大的作用。 与此同时,人们在巨大的多媒体信息中迷失了,如何有效地组织、管理和 利用图像和视频资源? 视频资源在某种意义上可以看作连续的图片序列,因而 解决图像信息的利用问题是解决视频资源利用问题的基础。如何对海量的图像 资源进行分类、查询? 以往对数字图像信息的查询更多的是通过手工标注,或 者其底层视觉特征,例如颜色、纹理、形状等特征。然而,这两种方式面临着 极大的挑战。手工标注图像是一件费时费力的事情,要完成海量数字图像资源 的完全手工标注是不可能的;同时,人们标注图像时必然带有自己的主观色彩, 标注内容的完整性、客观性难以保证。图像的底层视觉特征所代表图像的视觉 信息与图像的高层语义之间存在着较大的差异,即所谓“语义鸿沟( s e m a n t i c g a p ) 。因而,通过图像的底层视觉特征查询图像也难以达到理想的效果。图 像的语义理解在医学、军事、商业、教育、网络安全等很多领域都有巨大的应 用潜力。如何跨越语义鸿沟,提取图像中的语义信息,实现通过语义查询图像 己经成为目前一个极具挑战性的研究课题。 1 2 图像检索技术的发展 1 2 1 基于文本的图像检索 基于文本的图像检索( t e x tb a s e di m a g er e t r i e v a l ,t b i r ) 建立在标注 索引基础上。图像标注即描述图像内容的文本信息,分为语句标注和关键词标 西南交通大学硕士研究生学位论文第2 页 注。语句标注可以详细描述图像的内容,但随意性较大。关键词标注就是用一 组预先定义的关键词描述图像的内容,规范化,但不够灵活,难以充分表达图 像的内容。早期的图像检索系统都使用自行定义的关键词和标注结构,缺少描 述图像的统一方案,难以实现数据共享。有两个标准的制定给图像标注起到了 指导作用,其一是1 9 9 5 年3 月制定的都柏林核心元数据集n 1 ( d u b l i nc o r e ,d c ) , 其目的是建立一套描述网络电子文献的方法,以便网上信息检索,它的内核是 一个包含1 3 个核心元素的应用集合,具有易于理解、简洁和可扩展的特性。对 数字图像,必须的标注信息包括图像的种类、格式、压缩策略、维数、动态范 围等项目,并可根据需要进行扩展。其二是国际标准化组织制定的m p e g 一7 ,它 的正式名称是“多媒体内容描述接口”( m u l t i m e d i ac o n t e n td e s c r i p t i o n i n t e r f a c e ) ,它对各种不同类型的多媒体信息进行标准化描述,并将该描述与 所描述的内容相联系,以实现快速有效的搜索。 t b i r 沿用了传统的文本检索技术,先用文本来描述图像的语义,然后在这 些图像文本标注的基础上应用成熟的文本搜索算法实现图片搜索。一般通过关 键词查询的方式检索图像,它技术实现简单,符合人们检索习惯。这种检索方 法的主要问题:手工添加注释,不易自动表达图像的语义信息,对于人的工作 量要求非常大,标引速度慢;对图像的文本描述具有很强的主观性,人对同一 幅图像的理解各有不同;文本标引效果也不能很好地满足用户对图像原始特征 信息的检索;对于图像的诸如纹理、形状等可视属性很难描述;难以实现图像 外观的相似性检索。尽管如此,由于图像的低层可视特征不能有效地表示图像 的高层语义特征,基于文本标注的图像检索技术仍然起着不可替代的作用。目 前各大搜索引擎的图像检索都是基于这种方式,其中的代表有: g o o g l e ,它通过关键字检索,同时可以指定内容类型、图片大小、文件类 型、图片颜色等限定搜索范围。 y a h o o ,通过关键字检索图片,同时可以指定图片类别限定搜索范围;另外 还可以根据网站提供的分类目录检索图片。 百度,通过关键字检索图片,同时可以指定图片类型、图片大小、图片格 式、来源站点等进一步限定搜索范围。 1 2 2 基于内容的图像检索 基于文本的图像检索不能表现图像视觉特征的差异,2 0 世纪9 0 年代初出 现了基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 。所谓基 于内容的图像检索,是指利用图像处理技术,提取图像的颜色、纹理、形状等 西南交通大学硕士研究生学位论文第3 页 低层视觉特征,并建立图像特征矢量以描述图像内容,通过图像特征匹配算法 实现对图像的查询。 v e l t k a m p 和t a n a s e 在他们的报告乜儿3 1 中详细介绍了一系列的c b i r 系统其 中比较有代表性的有q b i c 、v i r a g e 、p h o t o b o o k 、v i s u a l s e e k 等。 q b i c ( q u e r yb yi m a g ec o n t e n t ) h 1 由i b m 公司于2 0 世纪9 0 年代开发, 是第一个商业化的基于内容的图像检索系统,支持基于示例图像、用户构造略 图、颜色、纹理等特征的查询。该系统由d a t ap o p u l a t i o n 和d a t a b a s eq u e r y 两部分构成。d a t ap o p u l a t i o n 负责对系统存储的图像进行多特征抽取和维护特 征索引库。d a t a b a s eq u e r y 负责对用户查询输入的图像进行同样的特征抽取, 并将特征信息输入匹配引擎,检索出具有相似性特征的图像。两部分中间使用 一个过滤索引生成器相连。所有的查询、反馈过程都必须经过过滤索引生成器, 才能进入匹配引擎,这样提高了系统的总体速度。q b i c 系统是极少数考虑到高 维特征索引问题的系统之一。在它的新系统中,基于文本的关键字查询与基于 内容的相似性查询结合在一起。 v i r a g e 5 3 是由v i r a g e 公司开发的基于内容的图像检索引擎,同q b i c 系统 一样,它也支持基于色彩、颜色布局、纹理和结构等视觉特征的图像检索。v i r a g e 支持以上原子查询的任意组合,用户还可以根据需要来调整图像特征的权重以 优化查询乙 p h o t o b o o k 阳1 是美国麻省理工学院的多媒体实验室所开发的用于图像查询 和浏览的交互工具。它由三个子系统组成,分别负责提取形状、纹理、面部特 征。因此,用户可以在这三个子系统中分别进行基于形状、基于纹理和基于面 部特征的图像检索。在p h o t o b o o k 的最新版本f o u r e y e s 中,p i c a r d 等人提 出了把用户加入到图像注注释和检索过程中的思想。同时由于人的感知是主观 的,他们又提出了“模型集合来结合人的因素。实验结果表明,这种方法对 于交互式图像注释来说非常有效。 v i s u a l s e e k 口3 是基于视觉特征的检索工具,由哥伦比亚大学开发。它的主 要特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征。系统所 采用的视觉特征是利用颜色集和基于小波变换的纹理特征。v i s u a l s e e k 同时支 持基于视觉特征的查询和基于空间关系的查询。 1 2 3 基于语义的图像检索 c b i r 从底层视觉特征度量图像的相似性,实现对图像的理解。但图像的底 层视觉特征与人对图像的理解之间存在巨大的差异,c b i r 并未沟通图像的底层 西南交通大学硕士研究生学位论文第4 页 视觉特征与高层语义,跨越“语义鸿沟? 。基于语义的图像检索( s e m a n t i cb a s e d i m a g er e t r i e v a l ,s b i r ) 是c b i r 发展的个方向,s b i r 是在基于特征的检索 技术基础上发展而来,用以解决c b i r 中用户检索意图难以被正确表达并用于检 索的问题。研究的目的在于实现底层视觉特征到高层语义之i 日j 的映射,真正跨 越“语义鸿沟”。众多学者在图像语义获取、表达等方面做了大量工作,目前 已经出现了一些基于语义的图像检索引擎和系统原型: 多媒体分析和检索系统( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m , m a r v e l ) 阳1 是i b m 公司于2 0 0 4 年发起的图像、视频搜索项目,使用s v m 或h m m 的方法为语义概念建模和学习训练。它们是以整幅图像作为基本单位。他们使 用的特征有颜色直方图、边缘直方图、小波纹理,颜色相关图等。主要使用的 分类方法是支持向量机。2 0 0 7 年,英国b b c 广播公司宣布与i b m 合作,利用其 新的视频搜索系统“m a r v e l ”,为b b c 内容发布及版权管理等服务提供技术支 持。“m a r v e l ”将首先用于少儿频道c b e e b i e s 和c b b c 节目,进行图像及视频 的分析和以分类。 图像库的语义敏感集成匹配( s e m a n t i c s s e n s i t i v ei n t e g r a t e dm a t c h i n g f o rp i c t u r el i b r a r i e s ,s i m p l i c i t y ) ,由j a m e sz w a n g ,j i al i 等w 1 建立。 它使用基于小波的方法进行特征提取,集成区域匹配进行图像分割,从而进行 语义分类;提出了基于区域匹配的图像整体相似性方法( i r m ) ,该方法对所有图 像区域的性质进行集成。与其它只对单个区域的检索方法相比,整体相似性的 方法,该方法能减少了分割不精确所带来的负面影响;也能帮助阐明特定区域 的语义;还能提供了更简便的基于区域的图像检索界面。随后u 川,他们又基于 此提出了自动语义标注的方法,首先提取图像的小波特征,使用多分辨率统计 模型( 2 d m h 删) 的方法学习图像的语义信息。计算小波特征是在4 4 的小块 上进行,使用d a u b e c h i e s 一4 或者h a a r 小波变换方法。一共得到了l l ,l h ,h l 和 h h 中小波系数,最终特征中采用的为l h 和h l 系数,因为局部的纹理在这两个 系数中有较高的能量。实验数据集是6 0 0 0 0 幅c o r e l 图像,概念集是6 0 0 个名 词概念。h t t p :a l i p r c o m 和h t t p :w w w a i r li n e r s n e t 这两个网站使用了该 系统进行图像检索。 1 3 论文的主要工作 本文是对基于语义的图像分类问题的研究。首先介绍了图像的底层视觉特 征包括颜色特征、纹理特征和形状特征的提取方法,并实现了特征选择;给出 西南交通大学硕士研究生学位论文第5 页 了图像语义和支持向量机的基本概念。全文的主要贡献有: 1 ) 对一种改进的顺序前向浮动搜索特征选择算法进行了研究。 2 ) 分析了不同特征子集对支持向量机分类器性能的影响,验证了特征选择 的有效性。 3 ) 分析了基于支持向量集的增量s v m 算法和基于训练样本的增量s v m 算法, 实验证明基于训练样本的增量s v m 算法具有较高的分类准确性和稳定性,这种 现象在小样本情况下更突出。 4 ) 实现了一个基于语义的图像分类原型系统。 1 4 论文的组织结构 全文的章节安排: 第1 章绪论阐述了选题的意义及其国内外研究现状。 第2 章概述了图像语义的基本概念,包括图像语义的层次、表示方法和常 用的图像语义获取方法。 第3 章分析了图像底层视觉特征的提取方法,确定了提取图像颜色、纹理 和形状的方法 第4 章对特征选择进行了介绍,重点研究了一种改进的顺序前向浮动搜索 特征选择算法,并实验比较了几种选择算法的效果。 第5 章首先介绍了支持向量机的概念,然后在第4 章特征选择的基础上, 实验对比了各种特征集合下支持向量机分类器的性能,验证了特征选择的有效 性;最后研究了增量式s v m 算法。 第6 章介绍了为验证本文算法构建的图像语义分类原型系统。 西南交通大学硕士研究生学位论文第6 页 第2 章图像语义概述 图形语义提取和表示是图像语义研究中的重要问题,是能够有效利用图像 语义信息的关键。 2 1 图像的语义层次 图像的语义是层次化的,不同层次的语义描述的粒度不同,一般采用多层 结构对图像语义进行分析和描述。 e a k i n s 口把语义分成三个级别。第一级为特征语义,描述图像的底层视觉 特征,如颜色、纹理、形状等,是基于内容图像分析的基础。第二级涉及由底 层视觉特征推理得到的特征,对应于对象语义和空间关系语义。第三级是对对 象和空间关系进行更高层推理得到的语义,包括场景语义、行为语义和情感语 义等。第一级和第二级之间的差距称作“语义鸿沟 ,是语义和非语义之间的 真正差异所在。 王慧锋等n 2 ,给出了一个包含六个层次的语义层次模型,自下而上依次为特 征语义、对象语义、空间关系语义、场景语义、行为语义和情感语义。特征语 义值底层视觉特征及其组合所得到的语义,如“橙色圆形、“白色椭圆 等。 对象语义是针对图像中的对象所给出的语义,如“马 、“大象 、“人 等。 空间关系语义指对象之间存在的空间关系,如“在山上的树”。场景语义是整 幅图像所处的场景,如“海滩”、“街道”。行为语义指图像所代表的行为或 活动,如一场足球比赛中的各种行为。情感语义是指图像带给人的主观感受, 如让人喜悦、使人兴奋、令人沮丧等。每一个层次都比其下一个层次包含了更 高级更抽象的语义。 h o n g 等人n 羽将图像内容从传统的仅由视觉特征集合组成延伸至三层结构, 即特征层( b a s i cv i s u a lc o n t e n t ) 、对象层( o b j e c tc o n t e n t ) 和场景层( s c e n e c o n t e n t ) ,如图2 1 ( a ) 所示。第一层为特征层,由图像的视觉特征集合组成, 如颜色、纹理、边缘等特征。该层的语义主要对应于特征语义。第二层为对象 层,是通过对图像中的对象的视觉特征分析理解得到的对对象的语义描述。这 一层需要先获取图像中的对象,如“帆船”、“树”、“水 等,然后从对象 的视觉特征、空问关系、位置等信息中推导出对象语义。该层主要对应于对象 语义和空间关系语义。第三层是对多个对象和场景的语义描述,称为场景层, 例如“城市”、“乡村等。该层是对一组对象语义进行分析得到整个场景的 西南交通大学硕士研究生学位论文第7 页 语义,。对应于场景语义。从实质上而言,特征层对应的并非真j 下的图像语义, 过去对图像的分析处理多集中在这个层次上。而对象层和场景层则真正利用了 图像的语义,是图像语义研究关注的重点。 j a i m e s 和c h a n g n 钔把图像内容概括成五层,包括区域层( r e g i o n ) ,感知区 域层( p e r c e p t u a 卜a r e a ) 、对象部件层( o b j e c t p a r t ) 、对象层( o b j e c t ) 以及 场景层( s c e n e ) ,如图2 1 ( c ) 所示。其对象层和场景层的含义与h o n g 等人的 类似。区域层是指图像中分割出来的连通的区域。感知区域层是相邻且感知相 似的区域的集合。对象部件层由多个感知区域组成。该模型的前四个层次大致 对应于对象语义和空间关系语义,而场景层则对应于场景语义。 高永英等n 鲫也提出了一个五层结构,依次为原始图像层、有效区域层、视 觉感知层、目标层和场景层。 场景层 l i l 对象屡 l i l i 特征层 l ii 情感语义 t 行为语义 t 场景语义 l 空间关系语义i 亍 对象语义 t 特征语义 场景层 ? 对象屡 t 对象部件层 t 感知区域层 ? 区域层 ( i ) 三层结构( b ) 语义层次模型 ( c ) 五层终构 图2 1 图像语义层次模型 2 2 图像语义表示 图像语义的表示本质上是一种知识的表示,表达的是对图像内容的理解。 图像中包含的内容非常丰富,对图像的理解又不可避免的带有主观性。因而, 西南交通大学硕士研究生学位论文第8 页 人们常说,一图胜千言。如何有效的表达图像的语义信息,是图像语义研究的 重要内容。 图像语义表示的一种简单的方法是采用文本表示,即用文本对图像或图像 区域进行解释。文本描述的优点是直观、易处理,且可以表达一些抽象概念, 缺点是难以自动获取图像内容的文本描述,且文本描述对于概念之间的复杂关 系缺乏足够的表达能力,难以独立完成语义描述的任务。在文本表达的基础上 引入计算机语言学等信息处理方法能使文本表示方法具有一定的模糊匹配能 力,增强表达能力。有很多的图像语义分析系统使用文本表达图像的语义概念。 文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 专门针对视频检索的t r e c v i d 评估基准集n 町定义了室内、人、建筑、道路、植被、动物、飞机、汽车卡车 公共汽车等十多个个语义概念,而i b m 的多媒体分析与检索系统m a r v e l 能分类 和标注上千个语义概念。 第二种图像语义的表示方式是基于人工智能的知识表示方法,如语义网络、 数理逻辑、框架和框架网、基于a g e n t 表示等。这种方法能够表达较为复杂的 关系,并且具备模糊匹配能力,但是还不存在通用的适于各种背景的知识表示 模型。 2 3 图像语义提取 提取图像语义是有效利用图像语义信息的一个关键也是难点。理想的图像 语义提取过程应该类似于人对图像的理解过程:首先,对图像进行分割,识别 出图像中的对象;其次,获得对象问的空间关系以及图像的背景;最后,结合 场景语义的知识理解图像,提取出图像的语义。然而由于现实图像场景的复杂 性,以及目前通用对象识别技术还不成熟,这种方法还只在一些有限的领域得 到运用。 目前,图像语义提取的方法主要分三类:基于机器学习的方法;利用人机 交互的方法;利用外部信息的方法。其中利用外部信息的图像语义提取方法是 从图像的环境信息中获取与图像相关的语义信息。s h e n 铂提取网页中的文本内 容作为该网页中图像的潜在内容描述。s r i h a r i n 踟利用图像的标题标注图像。 g o o g l e 等搜索引擎提供的图片搜索,就应用了这类方法。下面重点介绍前两种 方法。 ( 1 ) 基于机器学习的图像语义提取 获取图像语义某种程度上可以看成是模式识别问题的延伸,通常的做法是 西南交通大学硕士研究生学位论文第9 页 对提取到的底层特征进行有监督的分类或无监督的聚类从而获取图像语义。 有监督的图像分类 有监督的分类是指以一组做好语义标注的图像作为训练样本,在对训练样 本进行学习的基础上得到图像语义分类器。该分类器可以把未标注或未归类的 图像作为分类归并到某一语义类,从而获取该图像的语义信息。常用于图像语 义分类的有监督机器学习方法有:人工神经网络、贝叶斯( b a y e s i a n ) 分类器、 支持向量机等。 v a i l a y a u 训提出了等级分类法,利用了一系列二类贝叶斯分类器的组合,通 过全局的视觉信息获取简单的分类信息,使用的视觉特征包括颜色直方图、颜 色一致性向量、边缘方向直方图以及边缘方向一致性向量。系统根据颜色和亮 度分布区分图片是室内还是室外,室外又分为城市和风景,再根据颜色分布和 饱和度分为日出、森林和山川。使用2 7 1 6 幅包括城市和乡村图像在内的图像库, 分类精确性达到9 5 3 ;在5 2 8 幅乡村图像中,系统对落日相对森林和山峰的分 类率达到了9 4 9 ,对森林相对于山峰的分类率达到9 3 6 。 t o w n 乜们采用神经网络的分类方法,将图像按照语义类别组织成目录,目录 内有云朵、草地、砖块等类别,每个目录内图像的训练样本区域,用神经网络 的学习方法平级区分。其中每个语义类别都有它自己的分类器,而不是层次性 的分类。 支持向量机( s u p p o r tv e c t o rm a c h i n es v m ) 是建立在统计学习理论的结构 风险最小化原则基础上的,其原理是在高维空间中寻找一个超平面对样本进行 分类,使得分类错误率最小。它能在小样本下得到很好的分类效果并具有较好 的泛化能力。h a n 和q i 比利用m i l - b a s e ds v m 和g l o b a 卜f e a t u r e b a s e ds v m 来 标注图像语义。王上飞等堙即采用支持向量机建立图像内容和情感语义之间的联 系,从而获取图像情感语义注释。 无监督的图像聚类 图像聚类就是在给出的图像集合中,根据图像的内容,在无先验知识的条 件下,将图像分成有意义的簇。聚类与有分类的区别在于:分类学习的样本有 类别标记,而要聚类的样本则没有任何标记,由聚类学习算法按照一定的规则 自动确定。目前有很多有效的聚类技术应用到图像聚类的研究上,如层次聚类 算法、最近相邻聚类、模糊聚类和进化聚类方法。 ( 2 ) 利用人机交互的图像语义提取方法 人机交互的语义提取包括图像预处理和反馈学习两个方面。早期的对图像 库中的图像进行人工标注就是一种简单的图像预处理方式。反馈学习是在提取 西南交通大学硕士研究生学位论文第1 0 页 语义的过程中加入人工干预,常用的是相关反馈( r e l e v a n c ef e e d b a c k ,r f ) 方法。相关反馈是一种尝试学习用户意图的在线学习过程。它根据用户先前的 检索结果与需求的相关性反馈来自动调整当前的查询,使之更好的吻合用户的 要求。 主要的相关反馈技术是移动查询点方法晗3 1 和权重调整方法。移动查询点方 法是试图将查询点移向好的范例,远离不好的范例来调整检索。实现这种调整 的一个典型的迭代公式是: q i + l = a q + p 善呙一y 三南 c 2 叫 其中,q :f 和q i + 。分别对应查询迭代中的第f 次和第i + 1 次的查询点位置,q 是特征向量,l d l 是n 的基数,口,声,y 是加权常数。f = 1 时,q j 表示最初的查 询实例的特征向量。每次检索时,用当前查询向量得到查询结果,p 倍的标准 化正相关图像集表示有助于检索的信息加强到查询向量中,用标准化负相关图 像集的穸倍弱化不相关部分,保留原有向量的口倍到新的查询向量中。随着用 户反馈,有助于检索的信息在迭代中不断累加,查询向量逐渐趋于用户的意图。 权重调整方法是指根据用户的反馈调整图像语义的权重,朱兴全等啦刮通过 用户的反馈来调整每幅图对应的关键词的权值以提高检索准确度。 西南交通大学硕士研究生学位论文第11 页 第3 章数字图像特征提取 图像特征的提取是图像分类技术的基础。数字图像的底层特征包括颜色、 纹特征和形状等特征,其中每一种特征都有多种表达方式。 3 1 颜色特征提取 颜色特征是图像的基本特征之一,颜色特征也是图像检索中应用最为广泛 的视觉特征。与其他视觉特征相比,颜色特征对于旋转、平移、尺度变化以及 各种形变都不敏感,颜色特征的提取也相对容易。 颜色特征表达依赖于所用的色彩模型,并不是所有的颜色空间都与人的感 觉想一致。在图像检索中,研究较多的颜色模型有:r g b 模型、h s v 模型、y c b c r 模型和h m m d 模型。r g b 是一种面向硬件设备的最常用模型,也是计算机和图像 处理领域最常用的颜色空间。h s v 是一种面向视觉感知的颜色模型,其中v ( v a l u e ) 表示颜色的亮度,s ( s a t u r a t i o n ) 表示色度,h ( h u e ) 表示颜色的 主色调,用0 到3 6 0 度的角度表示。 h s v 模型有两个重要的特点:其一,亮度分量与色度分量是分开的,亮度 分量与图像的彩色信息无关。其二,色调和饱和度分量与人感受彩色的方式紧 密相连。这些特点使得h s v 颜色模型非常适合于借助人的视觉系统来感知彩色 特性进行图像处理分析的算法。所以本文选择h s v 模型进行讨论。 数字图像大多使用了面向硬件设备的r g b 颜色空间模型,为了用适合人的 视觉系统感知彩色特性的图像处理算法来处理图像,因此需要将图像的颜色值 由r g b 模型转换至h s v 模型。 给定r g b 颜色空间的值( ,g ,扫) ,r ,g ,b e o ,1 】,转换到h s v 空间的 ,s ,v 值按 如下公式乜5 1 计算: 1 v = 【,+ g + 6 】 ( 3 1 ) v j 仄 s 一1 一 手m i n ( r + g + 6 ) ( 3 2 ) y h ;尸如b(3-3) i 劢一pg r ,则该算法是自下而上的方法。用 s f s 方法将1 个特征加入到当前特征集中,然后再用s b s 方法删除r 个最差的特 征。如果l 3 ) 。如果没有找到更好的s 。,则跳到“添 加 继续添加新的特征。 终止当前特征子集维数达到规定的阈值( 通常是指定的特征子集维数加 上一个常数) 时,终止算法。 ( 2 ) 对s f f s 算法的改进 与s f f s 方法相似,改进的s f f s 算法从空特征集开始搜索,利用s f s 添加 新特征到特征子集中,终止条件也相同。不同的是,在每次向s 。添加新特征f 生成s 。+ 后,如果回溯后s 。没有变动,则依次删除s 中原s 。中的元素,生成k 个新的s 。( 即用f 替换s 。中的元素,生成新的s 。) 。在这k 个特征子集上, 利用s f s 方法添加新特征以寻找更好的s n 。 改进的s f f s 算法流程 添加利用s f s 方法选择一个使特征子集j 值最大化的特征加入特征子集 s 。,形成新的特征子集s h 。 回溯s f f s 方法尝试有条件地从s 中移除一个特征形成s 。,寻找一个 更好的含k 个特征的子集( j 值更大) 。如果找到这样的s 。,则该s 。成为新 的s 。,在此s 。基础上回溯( 如果k 3 ) 。如果没有找到更好的s 。,则跳到“替 换” 替换依次删除s 中原s 。中的特征,生成k 个新的s 。( 即用f 替换s 。 中的特征,生成新的s k ) ,跳到“回溯”。重复“回溯”和“替换直到无法 西南交通大学硕士研究生学位论文第2 4 页 找到更好的s 。跳到“添加 。 终止同s f f s 。 改进的s f f s 方法中j 的计算次数比s f f s 方法要多,但远远少于最优特征 选择算法。改进的s f f s 方法增大了搜索的特征空间,因而搜索更彻底,搜索效 果要比s f f s 好。举例来说。当k = 5 ,s e t = f 。,f ,f 5 ,f 6 ,f 9 ,j = 1 5 ,回溯没找到 更好的s e t 时,s f f s 算法会加入特征寻找含六个特征的s e t ;改进的s f f s 会构 建四个含四个特征的s e t ( 其中f 9 是最后加入的特征) : f 7 ,f 5 ,f 6 ,f 9 f 。,f 5 ,f 6 ,f 9 ) f 。,f ,f 6 ,f 9 ) f l ,f ,f 5 ,f 9 。在这四个s e t 上添加特征,寻 找更好的五个特征的s e t 。如果寻找到更好的s e t ,如 f ,f 。,f 6 ,f 9 ,f 。 , j = 1 7 ,则更新当前s 。在s f f s 方法中,这个特征子集不会被搜索到。 改进的s f f s 算法增大了特征选择时的搜索空间,相比s f f s 算法能够搜索 到更优的特征子集。 4 3 实验和结论 实验数据选用宾夕法尼亚大学s i m p l i c i t y 测试图片库h 2 1 ,该图片库含公共 汽车、恐龙、马、花、大象等十个类共1 0 0 0 幅图片,每个类各含1 0 0 幅图片。 本实验中选取其中的非洲土著、海滩、大象、食物、古建筑和山山脉六类图片 进行特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年初创企业资金筹措策略模拟题集与答案
- 2025年人民防空伪装遮障员招聘考试模拟题及解析
- 2025年华为技术有限公司全球招聘笔试模拟题及解析
- 2025年初级厨师烹饪技能面试模拟题与答案
- 2025年乡村手工艺合作社招聘统计员考试模拟试题及答案全解析
- 2025年外贸英语翻译师专业训练模拟题及参考答案详解手册版
- 2025年市场营销岗位面试攻略模拟题答案详解及案例解析
- 2025年上海市房屋租赁合同样本范文
- 2025年央企海外校招面试模拟题及解析
- 2025年公务员行政职业能力测试全真模拟题集
- 建设工程项目协同作业方案
- GB/T 45972-2025装配式建筑用混凝土板材生产成套装备技术要求
- 变频及伺服应用技术(郭艳萍 钟立)全套教案课件
- 秋冬季安全知识培训
- 2024新译林版英语八年级上单词汉译英默写表(开学版)
- 美的集团工作流程体系
- 2025年中国冷冻治疗仪市场调查研究报告
- 新学期+心动力+课件-2025-2026学年高二上学期开学第一课主题班会
- (2025年标准)出资收车协议书
- 2025-2026学年外研版(三起)(2024)小学英语四年级上册教学计划及进度表
- 电力营销稽查培训课件
评论
0/150
提交评论