(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf_第1页
(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf_第2页
(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf_第3页
(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf_第4页
(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)基于区域特征的有监督图像语义标注.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 乙 il 7 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在年_ 月解密后适用本规定。 非涉密论文口 论文作者签名:垫蓝苴 e l 导师签名:v z 幼i i ! 匕塾 盲 期:兰! ! :匆:! ! 基于区域特征的有监督图像语义标注中文摘要 基于区域特征的有监督图像语义标注 中文摘要 随着数字图像以及图像数据库数量的快速增长,图像检索已成为信息检索领域中 的一个重要研究方向,它的目的是从图像数据库中快速提取出与查询相关的图像或者 图像序列,使用户能迅速获取需要的特定图像。基于内容的图像检索建立在对图像底 层特征的提取和分析、匹配的基础之上,无法解决图像底层特征与高层的语义概念表 达之间存在着巨大的差异的问题,即“语义鸿沟 的问题。因而图像语义检索成为了 图像检索技术研究的热点。基于语义的图像标注是基于语义的图像检索的关键组成部 分。本论文详细阐述了图像标注的发展历程,并提出了几种基于区域特征的有监督图 像语义标注算法。本文的主要贡献在以下几点: 首先,提出一种改进的基于高斯混合模型的有监督图像语义标注方法。该方法主 要包括图像分割( j v a l u es e g m e n t a t i o n ,j s e g ) 、底层颜色和纹理特征的提取、利用期 望最大化( e x p e c t a t i o nm a x i m i z a t i o n ,e m ) 算法训练基于高斯混合模型的概念分类器、 去除噪声区域更新概念分类器和对测试图像进行语义概念标注等步骤。对于每一个概 念均获得两个基于高斯混合模型的分类器,即颜色分类器和纹理分类器,并结合去除 与概念无关的噪声区域的方法更新概念分类器,在标注阶段采取决策级融合技术。在 t r e c v i d 2 0 0 5 视频图像库上的实验证明,利用本文算法获得的标注结果较传统的对每 一个概念都建立一个概念分类器的方法所得的图像标注性能有较大的提高。 其次,提出一种基于区域间关系的有监督图像语义标注方法。图像的某一语义概 念往往与图像的许多区域特征有关系,这些区域间也存在着语义相关性,因而本方法 在对测试图像进行语义标注时,提出了考虑测试图像区域间相关性的算法,且通过在 t r e c v i d 2 0 0 5 视频库和c o r e l 5 k 库上的实验证明了该算法的可靠性和有效性。另外也 分析比较了图像均匀分割和j s e g 分割算法,使用均匀分割代替j s e g 分割,并结合 考虑图像区域之间相关性的方法,进一步提高了图像的语义标注性能。 关键词:图像语义检索,图像标注,高斯混合模型,监督学习,区域间相关性。 作者:杨芳芳 指导老师:王加俊石霏 a b s t r a c t r e g i o n - b a s e ds u p e r v i s e ds e m a n t i ci m a g ea n n o t a t i o n r e g i o n - b a s e ds u p e r v i s e ds e m a n t i ci m a g e a n n o t a t i o n a b s t r a c t w i t ht h eg r o w t ho fi m a g e sa n di m a g ed a t aa ta nu n p r e c e d e n t e dr a t e ,i m a g er e t r i e v a l , a i m i n gt or e t r i e v ed a t ae f f e c t i v e l yf r o mm a s sd a t ao fi m a g e st h a ts a t i s f yt h eu s e rr e q u e s t , h a sb e c o m ea ni m p o r t a n tr e s e a r c ht o p i ci nt h ef i e l do fi n f o r m a t i o nr e t r i e v a l i nt r a d i t i o n a l c o n t e n tb a s e di m a g er e t r i e v a l ,t h eq u e r i e sa r ep r o v i d e di nt h ef o r mo fe x a m p l ei m a g e so r l o w - l e v e lf e a t u r e sa n dt h er e t r i e v a lp e r f o r m a n c ei si m p a i r e db yt h ep r o b l e mo f “s e m a n t i c g a p ”b e t w e e nt h el o w - l e v e lv i s u a lf e a t u r e sa n dt h eh i g h l e v e ls e m a n t i cc o n c e p t s t h e r e f o r e , h o wt op r e c i s e l y r e p r e s e n tt h ei m a g es e m a n t i cc o n t e n th a sb e c o m eah o tr e s e a r c ha r e a ,a n d t h ek e yo fs e m a n t i c b a s e di m a g er e t r i e v a li ss e m a n t i c b a s e di m a g ea n n o t a t i o n i nt h i s d i s s e r t a t i o nt h e d e v e l o p m e n to fi m a g i n g a n n o t a t i o ni s p r e s e n t e d ,a n d af e wn e w r e g i o n b a s e ds u p e r v i s e ds e m a n t i ci m a g ea n n o t a t i o nm e t h o d sa r ep r o p o s e d t h em a i n c o n t r i b u t i o n so ft h ed i s s e r t a t i o na r ea sf o l l o w s : f i r s t l y ,w ep r o p o s ea ni m p r o v e da l g o r i t h mf o rs u p e r v i s e ds e m a n t i ci m a g ea n n o t a t i o n t h i sa l g o r i t h mi n c l u d e st h ef o l l o w i n gp r o c e s s e s :t h ei m a g e ss e g m e n t a t i o n 、析t l lj s e g a l g o r i t h m ,t h e c o l o ra n dt e x t u r ef e a t u r e se x t r a c t i o n ,t h eg a u s s i a nm i x t u r em o d e l r e p r e s e n t a t i o no ft h ei m a g e su s i n gt h ee ma l g o r i t h m ,t h eu p d a t i n go ft h ec l a s s i f i e rb y e x c l u d i n go ft h en o i s yg a u s s i a nc o m p o n e n t sa n dt h ec o n c e p t sa n n o t a t i o n c o l o ra n d t e x t u r ef e a t u r e sf o r mt w os e p a r a t ev e c t o r s ,f o rw h i c ht w oi n d e p e n d e n tg a u s s i a nm i x t u r e m o d e l sa r ee s t i m a t e df r o mt h et r a i n i n gs e ta sc l a s sd e n s i t i e sc o m b i n e d 、i mad e n o i s i n g t e c h n i q u e t w op o s t e r i o rp r o b a b i l i t i e sa r ec a l c u l a t e d ,a n db o t l lt h e i rr a n k sa m o n gd i f f e r e n t c o n c e p t sa r eu s e dt od e t e r m i n et h el a b e l sf o rt h ei m a g et ob ea n n o t a t e d b e t t e ra n n o t a t i o n p e r f o r m a n c ei sa c h i e v e da sc o m p a r e d 、析t l lm e t h o d st h a tt r e a tc o l o ra n dt e x t u r ea so n e f e a t u r ev e c t o ro nt h et r e c v i d 2 0 0 5d a t a s e t s e c o n d l y ,a na l g o r i t h mf o rs u p e r v i s e ds e m a n t i ci m a g ea n n o t a t i o nu s i n gr e g i o n r e l e v a n c ei sp r o p o s e d t h ei m a g e - l e v e lp o s t e r i o rp r o b a b i l i t i e sa r eo b t a i n e db yc o m b i n i n g t h er e g i o n a lp o s t e r i o rp r o b a b i l i t i e sw h i c ha r em o d i f i e du s i n gr e l e v a n c ew i t l lt h eo t h e r r e g i o n si nt h es a l t l ei m a g e ,s i n c er e g i o nf e a t u r e sc o n t r i b u t et oi m a g ec o n c e p t sa n dc o n c e p t s l i r e g i o n b a s e ds u p e r v i s e ds e m a n t i ci m a g ea n n o t a t i o n a b s t r a c t o fn e i g h b o rr e g i o n sa r ec o r r e l a t e d t h ep r o p o s e da l g o r i t h ma c h i e v e sg o o da n n o t a t i o n p e r f o r m a n c eo nt h et r e c v i d 2 0 0 5a n dc o r e l 5 k b e n c h m a r kd a t a s e t u s i n gas e g m e n t a t i o n m e t h o dw h i c hs p l i t st h ei m a g ei n t os m a l lb l o c k so fr e g u l a rs i z ei n s t e a do fj s e ga l g o r i t h m , t h ep e r f o r m a n c eo fi m a g ea n n o t a t i o nh a sb e e nf u r t h e ri m p r o v e d k e yw o r d s :s e m a n t i ci m a g er e t r i e v a l ,i m a g ea n n o t a t i o n ,g a u s s i a nm i x t u r em o d e l , s u p e r v i s e dl e a r n i n g ,r e g i o nr e l e v a n c e i i i w r i t t e nb y :f a n g f a n gy a n g s u p e r v i s e db y :j i a j u nw a n g ,f e is h i 目录 第一章绪论l 1 1 图像标注的研究背景和意义。l 1 2 研究现状3 1 3 论文的主要研究内容4 1 4 论文的章节安排4 第二章图像语义标注的相关技术概述6 2 1 图像标注的发展历程6 2 2 图像语义描述模型。8 2 3 图像语义检索的组成模块9 2 3 1 底层特征提取与表达9 2 3 2 相似性度量方法。1 1 2 3 3 “语义鸿沟”缩减1 2 2 4 本章小结1 4 第三章基于g m m 的有监督图像语义标注1 5 3 1 基于图像区域的监督语义概念标注1 5 3 2 基于g m m 的有监督图像语义标注方法1 7 3 2 1 图像分割和底层特征提取1 7 3 2 2 利用e m 算法和g m m 表示图像的语义1 9 3 2 3 基于决策融合和去噪的监督图像语义学习算法。2 1 3 2 4 图像语义概念的自动标注2 2 3 3 实验配置和标注性能评价标准2 3 3 3 1 实验设置一2 3 3 3 2 实验标注性能评价标准2 7 3 4 实验结果与分析2 8 :;4 1t r e c v i d 2 0 0 5 2 8 3 4 2c o r e l 5 k 3 0 3 5 本章小结3 1 第四章基于区域间关系的有监督图像语义标注3 2 4 1 基于区域间关系的方法的基本理论3 2 4 2 一种基于图像区域间关系的图像标注方法3 3 4 2 1 图像分割方法和底层特征的提取。3 3 4 2 2 图像区域间关系的表示方法3 4 4 2 3 考虑图像区域间关系的图像标注方法。3 5 4 3 实验结果3 6 4 3 1 实验配置3 6 4 3 2 实验结果及分析比较3 6 4 4 本章小结3 9 第五章总结和展望4 0 5 1 总结4 0 5 2 今后的工作和展望4 0 参考文献4 2 攻读硕士学位期间发表的论文4 8 缩略词表4 9 致 射5 0 基于区域特征的有监督图像语义标注第一章绪论 第一章绪论 1 1 图像标注的研究背景和意义 近年来,随着科学技术的进步发展和推广应用,特别是多媒体硬件和软件技术、 计算机网络等技术的迅速发展,多媒体数据库的使用变得越来越普遍,已广泛应用于 多媒体搜索:医疗卫生、国防军事、广告等多个领域。以图像、音乐、视频形式的多 媒体信息对人们的生活和社会发展具有重要的影响,由此产生的多媒体数据,尤其是 图像数据也在急速增长。面对海量的数据信息,如何更好地对信息进行组织、表达、 存储、管理,实现方便、快速、准确地查询和检索到用户所需的图像信息变得越来越 困难。因此,如何将数字图像处理、模式识别技术、计算机视觉技术与传统的数据库 技术结合起来,建立有效的图像描述和检索机制必然成为迫切需要解决的问题【l 】。 传统的基于文本的图像检索( t e x t b a s e di m a g er e t r i e v a l ,t b i r ) 在2 0 世纪7 0 年 代末就已经产生,它需要专业人员对每幅图像进行文本注释,使文本与图像建立联系, 然后通过对文本关键词进行匹配得到检索结果。但是这种基于文本的图像检索存在很 多问题:首先,当对海量的图像库进行处理时,人工注释费时费力,工作量巨大;其 次,不同的人对同一幅图像的理解会不一样,致使对图像进行文本标注没有一个统一 的标准,用户的检索结果存在不确定性;再者,人们对图像的需求不仅仅是图像本身, 还应包括图像所包含的更深层次的含义。 进入2 0 世纪9 0 年代后,基于内容的图像检索( c o n t e n t - b a s e di m a g er e t r i e v a l , c b i r ) 成为一个研究热点,也成为多媒体数据库、数字图书馆等重大研究项目中的 关键技术。c b i r 从一定程度上解决了基于文本的图像检索的局限性,它通过计算图 像视觉特征( 如颜色、纹理、形状等) 间的相似度来匹配图像,以及运用可视化的查 询方式来代替基于文本的图像检索。实现了使用颜色、纹理、形状及区域等图像视觉 内容特征的检索和“以图找图”的检索模式的飞跃。基于内容的图像检索融合了图像 理解、模式识别信息技术等领域知识,是多种高新技术的合成。一些研究者重点对图 像底层视觉特征提取及表示进行研究,并取得了一定的成果。 第一章绪论基于区域特征的有监督图像语义标注 然而,在实际应用中,传统的c b i r 系统的检索结果往往难以令人满意,不能满 足人们按照语义检索图像的需求,这主要因为用户往往对所需的图像只存在有关图像 描述的对象、事件以及表达的情感等含义上的一些高层概念( 如度假、城市、肖像等) , 用户需要的是图像语义的查询,而不是图像的底层视觉特征。这里提到的图像的含义 就是图像的高层语义特征,它包含了人们对图像内容的理解,这种理解要根据人的认 知知识来判断,并不能够直接从图像的底层特征获得。这就产生了基于内容的图像检 索系统中存在的“语义鸿沟 问题,即人对图像内容的理解与计算机自动提取的图像 视觉特征间存在的巨大的差异。 进入2 1 世纪,图像检索围绕图像语义( i m a g es e m a n t i c ) 这一热点展开,其目 的是使计算机检索图像的能力达到人的理解水平,实现更为贴近用户理解能力的自然 而简洁的查询方式,并提高图像检索的精度。基于语义的图像检索( s e m a n t i c b a s e d i m a g er e t r i e v a l ,s b i r ) 立足于图像的语义特征,研究如何将图像的底层视觉特征映 射到图像高层语义,以及如何描述这些高层语义。随着2 0 0 1 年9 月“多媒体内容描 述接口m p e g 7 标准【2 】的推出和逐渐完善,数字化图像将具有统一的视觉特征描述 参数和表达复杂语义关系的描述定义语言,这将有利于基于语义的图像检索技术取得 突破性进展,并走向实用化和通用化。 图像语义自动标注是基于语义的图像检索的关键环节,已经成为图像检索中的研 究热点。图像语义的自动标注就是为图像添加关键字来表示图像的语义内容,能够将 图像的视觉特征转化为图像的标注字信息,继承了关键字检索的高效率,也克服了手 工标注费时费力的缺点。算法的步骤一般有两个方面:首先对标注了同一语义的所有 图像底层特征组成的集合进行统计学习,得到该语义类的训练模型;其次对于一幅待 标注的图像,同样提取图像底层特征,根据已求得的语义类的训练模型,获得属于该 图像语义的概率,因而可以求得在待标注的图像中,所有语义概念或者说文本关键字 出现的概率。对图像的语义概率按序排列,选择概率最高的若干个关键词作为此图像 的语义标签。 图像语义的自动标注作为图像检索领域研究的热点,具有广泛的应用前景,主要 包括医学图像分类、数字化图书馆的建立和管理、数码照片的检索和管理、视频检索、 卫星遥感图像处理等方面。 2 基于区域特征的有监督图像语义标注第一章绪论 1 2 研究现状 根据图像标注方法的发展进程,目前文献中用于解决“语义鸿沟 问题的方法按 其侧重点大致可分为三类:基于机器学习的方法【3 。1 8 】;基于相关反馈的方法【1 9 。2 3 】;基 于本体的方法 2 4 - 2 5 。 ( 1 ) 基于机器学习的方法 目前采用机器学习和统计模型学习进行图像自动语义标注大体上可分为有监督 语义标注和无监督语义标注两大类。 有监督的分类方法首先通过学习、训练事先给定的经过语义标注的一组样本图 像,获得图像语义分类器,然后利用分类器将未标注或未归类的图像归并到某一语义 类。最常用的有监督学习技术有贝叶斯分类器和支持向量机( s u p p o r tv e c t o rm a c h i n e , s v m ) 技术。无监督语义标注根据图像内容将库中图像( 或图像区域) 聚类到某些有 意义的集合,使得位于同一聚类内的图像的相似度尽可能大,而位于不同聚类的图像 的相似度尽可能小。然后利用统计方法为每个聚类加一个类标签,以获得各个图像聚 类中的语义信息。简单来说它的目标在于对输入数据进行合理有效的组织或聚类。该 方法对于手工标注的训练集要求较低,训练数据和语义概念具有可扩展性。但是严格 地说,单纯的图像聚类并不能为一个新的图像获取显式的语义标签,需要与其他技术 结合使用来进行图像的自动语义标注,充分发挥其效率,并达到较高的检索精度。 ( 2 ) 基于相关反馈的方法 相关反馈( r e l e v a n c ef e e d b a c k ,i 强) 的基本思想是指在检索过程中,用户根据先 前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直接的信息,从而 使系统更好地满足用户的要求。简单的说,反馈的过程是用户和检索系统之间的一个 交互过程,系统根据用户对当前检索结果的评价来调整用户的初始查询以及匹配模型 的参数,从而达到对检索结果的优化。相关反馈在本质上还是一个学习过程,它的方 法具有与人类学习方法类似的思路,是一种很有价值的研究语义映射的方法,在视觉 特征层次和语义层次都能获得较好的检索效果。其具有样本数少、实时性要求强等特 点,但是有可能产生检索时间过长,结果振荡等问题。 ( 3 ) 基于对象本体的方法 本体( o n t o l o g y ) 在文本信息检索中有广泛的应用,但在图像检索领域起步较晚。 第一章绪论基于区域特征的有监督图像语义标注 本体指的是特定领域公认的关于该领域的对象( 实际对象和逻辑对象) 及其关系的概 念化表述。它指出图像中不同的对象可以用简单描述词的集合来定义,如“天空”定 义为“在上方的、均匀的、蓝色的 区域。通过将颜色、位置、大小和形状等底层特 征离散化后与映射到这些简单语义上,最终可以得到对象语义。对于类型比较单一的 图像库,基于本体的方法能得到较好的效果。而对大型图像数据库而言,这一方法效 果不佳。 综上所述,近年来基于图像语义的图像分类、标注和检索的研究大都利用机器学 习和统计模型的方法来获取语义,并且取得了不错的效果。 1 3 论文的主要研究内容 图像语义自动标注目的是使图像和关键词建立联系,从而缩小了图像底层视觉特 征和高层语义概念之间的“语义鸿沟,这一方向已成为目前基于语义的图像检索技 术的研究热点。由于关键词可作为每一个图像类的标签,图像的标注问题通常作为一 个分类问题来处理,并且可以通过有监督3 , 6 , 1 1 , 1 9 , 2 9 或者无监督3 0 。3 2 】的学习方法解决。 但是两种方法各自存在优点和缺点,本论文深入研究有监督语义的图像标注,并做出 了改进。论文第三部分提出了一种改进的基于高斯混合模型( g a u s s i a nm i x t u r em o d e l , g m m ) 的有监督图像语义标注方法,即通过监督贝叶斯学习得到图像的底层视觉特 征和语义概念间关系,利用e m 算法对每一图像语义概念建立两个g m m ,并增加去 除噪声区域的步骤,进一步提高了概念分类器的标注性能。论文第四部分提出了在考 虑图像区域间关系的情况下,对图像进行语义标注的算法,获得了较好的图像标注性 能。最后也分析和比较了图像均匀分割方法和j s e g 分割方法对图像语义标注的影响, 并结合考虑区域间关系的算法进一步提高图像的语义标注性能。 1 4 论文的章节安排 全文的章节安排如下: 第一章绪论:简要介绍了基于语义的图像标注研究背景和意义,概述了目前国 内外研究的现状和主要研究方法,并概括了论文的主要工作和改进点。 第二章基于语义的图像标注:首先回顾了图像检索领域发展的几个主要研究段, 4 基于区域特征的有监督图像语义标注第一章绪论 即基于文本的图像检索、基于内容的图像检索和基于语义的图像检索。接着详细说明 了图像语义描述模型的三个层次。最后概述了图像语义检索的组成模块,重点阐述了 实现“语义鸿沟 缩减的相关技术中有监督图像语义标注的概念及相关技术。 第三章基于g m m 的有监督图像语义标注:本章重点介绍了一种基于g m m 的 有监督图像语义标注方法,包括图像分割、图像区域底层特征的提取、图像的g m m 模型表示、概念类的颜色和纹理g m m 训练方法以及通过去除噪声区域来更新概念类 模型和对图像进行概念标注。最后通过比较本文改进算法和原算法的标注性能,证明 了本章提出的算法较优。 第四章基于区域间关系的有监督图像语义标注:本章首先概述了基于区域特征 间关系的方法基本理论,然后详细说明一种基于图像区域问关系的图像标注方法,主 要包括图像分割方法、图像区域底层特征的提取、图像语义的表示方法、考虑图像区 域间关系的图像标注等部分。最后通过在不同的标准数据库上的实验结果证明了本章 算法的有效性和可靠性。 第五章总结和展望:对本文的工作进行总结,并展望了今后的研究方向。 第二章图像语义标注的相关技术概述基于区域特征的有监督图像语义标注 第二章图像语义标注的相关技术概述 2 1 图像标注的发展历程 随着计算机、多媒体和网络技术的迅速发展,互联网上出现了海量的数字图像信 息资源。近几年来全球几大搜索引擎的图像搜索次数均成倍增长,而且图像搜索是增 长速度最快的分类搜索应用,图像检索技术已经成为国内外研究的热点。那么如何高 效地组织、管理和检索大规模的图像数据库,也成为未来信息高速公路、数字图书馆 等重大项目中的关键技术。图像检索是多媒体信息检索技术的一个主要组成部分,也 是视频信息检索的理论基础之一,在信息检索领域占有举足轻重的地位。从图像检索 的发展来看,它经历了三个阶段:基于文本的图像检索、基于内容的图像检索和基于 语义的图像检索。图像语义标注是基于语义的图像检索的关键环节,也是图像理解的 关键技术。 早期的图像检索主要是通过对图像进行人工文字注释,利用文本信息( 图像名称、 作者、年代、注解文字等) 检索实现对图像特征的查找。目前g o o g l e 、百度等搜索 引擎就是基于网页信息自动采集和标注技术对图像进行文本标注和检索。但是这种自 动标注所采集的图像标识是很粗糙的,准确性不高,有时甚至是不准确的。基于文本 的图像检索技术中存在难于克服的问题,即手动标注关键词描述信息的方式费时费 力,并且不可避免地会带有个人的主观性和不确定性。一般来说,基于文本的图像检 索过程可以用下图2 1 表示: 匝夏壅,呵巫丑坚叵墨笔 l 输入文本关键字卜二_ l 标引库卜i 图像库卜_ 叫结果l 图2 - 1 基于文本的图像检索过程 随着多媒体检索技术的发展与广泛应用,早期的文本检索技术已不能满足用户的 需求。2 0 世纪9 0 年代初,研究者提出了基于内容的图像检索( c o n t e n t b a s e di m a g e r e t r i e v a l ,c b i r ) 思想,使用图像本身的颜色、纹理、形状及区域等来描述图像,实 现了图像视觉内容特征的检索和“以图找图的检索模式的飞跃。当用户提交查询时, 将被要求给出一幅范例图像,系统会根据此图像的视觉特征,在数据库中找出具有相 6 基于区域特征的有监督图像语义标注第二章图像语义标注的相关技术概述 似视觉特征的图像,按相似度排序,返回给用户。为了提高查询的准确度,许多基于 内容的图像检索系统还支持用户的相关反馈,通过用户对前一次查询结果的评价,系 统自动修正各个视觉特征的权重或是查询参数,使得下一次返回的结果符合用户的期 望高。一个典型的基于内容的图像检索系统框架【3 3 】如下图2 - 2 所示,系统主要包括用 户系统、匹配检索、特征提取和存储系统四个部分。其中图像特征索引和相似度匹配 技术是系统的核心部分,直接影响检索系统的性能。 颜色 :i 竺塑鲞至f r : i : l i i i :特症建取: 用 户h 用 接 户 口 图2 2 一个典型的基于内容的图像检索系统框架 与传统的基于文本的图像检索相比,基于内容的图像检索具有以下特点:( 1 ) 直 接由计算机自动实现从媒体内容中提取特征,并通过相似性匹配来检索图像,突破了 关键词检索基于文本特征的局限,避免了人工描述的主观性,也大大减少了工作量; ( 2 ) 基于内容的图像检索可以提供基于实例的检索方式、浏览方式以及基于草图的检 索方式等,检索方式更加多样化。 在图像检索领域,用户所认为的检索得到的好的结果必然是与用户查询在语义上 ( 而不是在其它方面) 高度相关的。但是传统的c b i r 系统过于关注图像的底层视觉 特征,如颜色、纹理、形状等,无法深入表达图像的语义内涵,不能在大量图像特征 和丰富图像语义之间建立一种成功的映射,以缩小“语义鸿沟 对检索带来的障碍, 让用户能够方便的使用高层的语义概念进行检索。解决这类问题的办法是在图像检索 中结合图像高层的含义即“语义 ,如山脉、旅游、肖像等。因此研究图像高层语义 7 第二章图像语义标注的相关技术概述基于区域特征的有监督图像语义标注 和底层视觉特征关系的基于语义的图像内容检索成为图形检索的一种必然趋势。图 2 - 3 为基于语义的图像检索的过程,它需要综合应用多媒体技术、人工智能、信息科 学、认知科学等多学科知识来实现图像语义特征的提取、表示和检索。而如何提取图 像的语义、如何将图像语义特征结合到检索中也得到越来越多的关注。 2 2 图像语义描述模型 图2 - 3 基于语义的图像检索过程 基于语义的图像检索需要提取图像的语义特征( 对象类别与空间关系、场景与行 为、情感语义等) ,根据语义来检索图像更能满足用户的需求。考虑到图像语义具有 模糊性、复杂性、抽象性,一般建立的图像语义都是分层次的。图像语义大致可分为 特征语义、对象语义、场景语义、行为语义和情感语义等,用以对不同层次的图像内 容进行描述。基于e a k i n s 等【3 4 】的理论,将图像内容进一步分成一个简单的三个层次 语义模型如下图2 4 所示。 场景语义 目标语义 语义鸿沟 某太棚带媾杯 ;圆圆圆回圆圈; 二i i i _ i i i i i i i i i i 一一i i i i i i i i i 憩i i i i _ i i i i i i i i 一| | i i i i i i _ i i i i ;圆圆团圆团回i :;j;j;j;j;j;j;j;j;j;j;jjj;j;j;j;霜j;j;j;j;jjj;j;j;j;j;j;jjj;j;j;三 圆团圆圆圆圆; 第一层为原始特征层,包括描述图像的底层视觉特征,如颜色、纹理、边缘、形 状等,反映的是图像的一些具有客观统计特性的内容,对应于图像的特征语义,但是 该层没有包含图像的高层语义信息。传统的基于内容的图像检索利用的就是这一层信 息的相似性。 第二层为目标语义层,目标语义是指图像中出现的具体事物。它涉及由图像的底 r 基于区域特征的有监督图像语义标注第二章图像语义标注的相关技术概述 层视觉特征推导而得到的属性,即根据一定的逻辑推理等以识别图像中描绘的对象 ( 如“建筑、“天空 、“飞机”等) ,对应于图像的对象语义,例如“找到一幅飞机 的图像”。 第三层为抽象的语义层,包括对对象和场景进行更高层次的推理而得到的抽象属 性,即将图像内容和抽象概念联系起来,对应图像的场景语义( 如海边、日出等) 、 行为语义( 如足球比赛、跑步等) 和情感语义( 如令人振奋的高山图像、赏心悦目的 花卉图像等) 等。 许多研究者将第二和第三层次的图像检索称为图像语义检索,将第一层与第二层 之间的差距称为“语义鸿沟”,图像检索是否真正使用了语义主要体现在是否获取了 第二层的图像对象内容。这三个层次是自下向上支撑的,从下层特征可以提取出上层 特征。图像语义的自动标注就是要实现“语义鸿沟”的跨越。目前研究较多的是从底 层特征到某一特定语义层的关联。 2 3 图像语义检索的组成模块 “语义鸿沟”是基于语义的图像检索技术的瓶颈,是需要重点研究解决的关键问 题。基于语义的图像检索一般由三个模块组成:图像底层特征的提取、相似性度量以 及“语义鸿沟 缩减。其中底层特征的提取和相似性度量方面在基于内容的图像检索 中已经有广泛研究,而“语义鸿沟 的缩减则尤为重要,其结果将影响到整个语义检 索系统的成败。 2 3 1 底层特征提取与表达 图像底层视觉特征的提取和表达是基于内容的图像检索技术和图像语义标注的 基础,它从各方面描述了图像的内在语义,从而可以作为图像的抽象表示。图像的视 觉特征可以分为领域相关的视觉特征和通用的视觉特征。前者是建立在对所描述图像 内容的某些先验知识( 或假设) 的基础上,与具体的应用紧密有关,例如人的面部特 征或指纹特征等;后者主要用于描述所有图像共有的特征,与图像的具体类型或内容 无关,主要包括颜色、纹理、形状和空间关系。本文只考虑后者通用的颜色、纹理、 形状等视觉特征。 9 第二章图像语义标注的相关技术概述 基于区域特征的有监督图像语义标注 颜色特征是图像最直观而明显的、最具有表现力的特征,每种物体都有其特有的 颜色特征。颜色是图像内容组成的基本要素,是人识别图像的主要感知特征之一。因 为同一类的物体往往具有相似或相同的颜色,因此可以利用颜色特征来区分不同的物 体。相对于其他特征,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形 变都不敏感,表现出相当强的鲁棒性,而且颜色特征计算简单,因此成为现有检索系 统中应用最广泛的特征。目前几乎所有的基于内容检索的图像数据库系统都把颜色检 索方法作为检索的一个重要手段。 颜色特征与图像中所包含的物体有很紧密的关联。而且颜色特征对图像的尺寸、 方向、视角的依赖性小,能比较稳定的表达图像的视觉感受。图像检索中颜色特征表 达涉及若干问题,首先需要选择合适的颜色空间来描述颜色特征,其次要用一定的量 化方法将颜色特征表达为向量形式,最后要定义一种相似性度量准衡量图像之间颜色 特征上的相似性。而颜色特征的主要表示方法包括颜色直方图、颜色矩、颜色集、颜 色聚合向量以及颜色相关图等。 纹理特征也是重要的而又难以描述物体的视觉特征之一。在图像分类中,纹理特 征在描述比如树,砖,织物等这些真实世界的图像时,能提供重要的信息。纹理特征 是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,它包含了图像表面的 结构安排及与周围环境的关系【3 5 1 。纹理特征己经在基于内容的图像检索中得到广泛的 应用,它常用于相同或相似颜色的图像之间的匹配。 目前,对纹理图像的描述常借助纹理的统计特性或者结构特性进行,对基于空域 的性质也常可转换变换到频域进行研究。常用的表达纹理特征的方法包括统计分析 法、频谱分析法、结构分析法和模型分析法等。虽然关于图像纹理迄今为止仍无一个 公认的、一致的严格定义。但是灰度共生矩阵、t a m u r a 参数、g a b o r 参数等主要的纹 理特征已经被有效地应用到图像检索当中。 形状特征也是描述物体的基本特征之一。人的视觉系统对于景物的最初认识是物 体的形状,进而从二维图像中识别出许多物体。在人的视觉感知、识别和理解中,形 状是一个重要参数。形状是刻画物体的本质特征之一,也是描述图像内容的一个重要 特征。形状作为物体的外形,它不会随图像目标颜色的改变而发生变化,因此在以查 询与图像具有相似形状为主要目的的检索中,形状特征显示出颜色、纹理特征所不能 l o 基于区域特征的有监督图像语义标注第二章图像语义标注的相关技术概述 比拟的优越性能。 对形状分析和分类的方法技术有许多。通常来说,形状特征有基于边界的和基于 区域的两种表示方法。其中前者是基于边界轮廓特征包括:边缘直方图、链编码、曲 率尺度空间、傅立叶描述符等,其中最典型的方法是傅立叶描述符,此方法只用到物 体的外边界,而后者则基于区域特征如尺度不变特征变换,关系到整个对象所在的区 域。 在进行图像检索时,一般使用的是图像的综合特征向量,它由不同的底层特征组 合得到。对于底层特征提取方法通常分为特征区域提取和特征向量提取两个步骤。区 域形状包括矩形、椭圆形及分割算法得到的不规则形状等。在检测到的特征区域内提 取颜色、纹理和形状等的描述形成特征向量。如c a r n e i r o 等【3 】采用每次平移两个象素 的重叠的8 8 窗口,在y b r 空间中计算窗口的d c t 系数,得到长度为1 9 2 的特征向 量。曾璞等 4 1 也采用类似的中心为均匀分布采样点的1 6 1 6 窗口作为特征区域,然 后用尺度不变特征描述器( s c a l ei n v a r i a n tf e a t u r et r a n s f o r m ,s i f t ) 描述这些感兴趣 区域。b o s c h 等【5 】比较了s i f t 用在不同形状和不同稠密度的特征区域上的结果。l i u 等6 1 采用j s e g 分割算法【3 6 1 并在分割后的区域中提取颜色和纹理特征。m o n a y 等【3 7 】 比较了三类特征,即图像分割算法得到的大区域中提取的颜色、纹理、形状位置特 征、在较小的均匀矩形区域中提取的h s 颜色特征、用角点检测法获得的圆形区域中 的s i f t 特征在语义检索中的作用,其中h s + s i f t 特征取得了最好效果。近阶段空 间位置特征也得到了重视【1 8 3 引。底层特征提取要解决的问题是寻找集中表现语义特性 的区域,去除杂点的影响,并选择最能够区分不同语义的描述方式。 2 3 2 相似性度量方法 图像的颜色、纹理、形状等特征被提取出来之后便形成了特征向量,用来表示对 应的图像。在图像检索阶段,判断两幅图像是否相似可以通过比较它们之间的特征向 量来进行。相似性度量既是图像检索技术中的一个关键问题,也是其中的一个难点, 它包括区域之间的相似性及图像问的相似性。 区域之间的相似性通常用区域中提取的特征向量间的距离衡量。最常用的基本距 离计算方式为m i n k o w s k i 类距离:两个一维向量x 和y 间距离计算公式为 第二章图像语义标注的相关技术概述基于区域特征的有监督图像语义标注 d ( x ,d = ( it y ,i ) 7 ,= 2 时即为欧氏距离,= l 时即为曼哈顿距离。其他距 百 离度量方式有c a n b e r r a 距离、角距离、c z e k a n o w s k i 系数、内积等。也有学者提出了 一些更适合图像检索的距离计算方式【3 9 4 1 1 。 在语义标注的前提下,图像间的相似性用标注好的语义文字之间的相似性定义。 最基本的匹配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论