(计算机软件与理论专业论文)基于分层图像文档模型的图像语义自动标注.pdf_第1页
(计算机软件与理论专业论文)基于分层图像文档模型的图像语义自动标注.pdf_第2页
(计算机软件与理论专业论文)基于分层图像文档模型的图像语义自动标注.pdf_第3页
(计算机软件与理论专业论文)基于分层图像文档模型的图像语义自动标注.pdf_第4页
(计算机软件与理论专业论文)基于分层图像文档模型的图像语义自动标注.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的 研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明 并表示了谢意。 作者签名: i 童:銎日期:盘2 :盘:z 作者签名: l 竖:查 日期: 盘2 :盘:z 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此 规定。 作者签名: 导师签名:二跫逸盘垒二_ 一日期:兰华 摘要 摘要 多媒体信息检索中的图像检索问题一直是研究领域中的热点。9 0 年代初,人们提出 了基于内容的图像检索方法( c o n t e n t - b a s e di m a g er e t r i e v a l ,简称c b i r ) 。该方法摒弃了 传统手工给图像标注文本关键字的方法,直接根据图像的视觉信息来进行检索,节省了 手工标注非常昂贵地开销。但是基于内容的图像检索方法也有着明显的缺点,它需要用 户提供一幅样例图像或是描述图像的视觉特征,如各颜色分量的分布。与传统的关键词 检索相比,用户使用检索系统的复杂性大大增加了。 图像语义的自动标注的提出就是为了克服人工标注的高代价低效率以及c b i r 系统 的复杂性这两个问题,但是图像底层视觉信息与其所蕴含的上层语义信息并不存在显式 的映射关系( 简称“语言鸿沟”) ,这一问题就是图像语义标注领域的核心问题。 图像语义自动标注方法一般通过对一组已人工标注关键字的图像训练集,来学习文 本关键词与图像视觉信息之间的关系。本文的方法首先把训练集图像分割成区域,每个 区域用一个特征向量来表示,然后我们采用一种基于熵最小化的决策树特征离散方法来 得到离散的视觉特征( 视觉单词) ,建立视觉单词库,用视觉单词来描述图像的视觉信 息。提出图像文档模型的概念,以图像、区域、视觉单词三层结构的方式来表达一幅图 像,在此基础上使用文本检索中的向量空间模型进行图像的自动语义标注。 在通用的5 0 0 0 幅实验图像上进行的对比实验显示,该方法的标注性能明显超过了 c o o c c u r r e n c e 模型,c m r m 模型,t r a n s l a t i o n 模型等已知的基于离散化方法的图像标 注模型,标注的时间开销明显小于连续模型c r m 。 关键字:图像语义的自动标注;多媒体数据库;基于熵最小化的离散方法;图像文档模 型:向量模型 基于分层图像文档模型的图像语义自动标注 第1 页 复旦大学硕士学位论文 a b s t r a c t a b s t r a c t i m a g er e t r i e v a lh a sa l w a y sb e e na na c t i v er e s e a r c hp r o b l e mi nm u l t i m e d i ai n f o r m a t i o n r e t r i e v a l t h et r a d i t i o n a lw a yt od e a lw i t ht h i sp r o b l e mw a sb a s e do nm a n u a lk e y w o r d a n n o t a t i o no fi m a g e i ne a r l y9 0 s t h eo c c u n r c n c co fc o n t e n t - b a s e di m a g er e t r i e v a ls h o w s g r e a ta d v a n t a g ea g a i n s tm a n u a la n n o t a t i o no hc o s ta n de f f i c i e n c y b u tt op e r f o r maq u e r yi n c b i rs y s t e m s ,u s e r sh a v et op r o v i d eas a m p l ei m a g eo rd e s c r i b ev i s u a lf e a t u r e so ft h ed e s i r e i m a g e s ,s u c ha sac o l o rd i s t r i b u t i o n c o m p a r e dw i t hk e y w o r d b a s e dr e t r i e v a l ,t h eq u e r y i n t e r f a c ei sn o tv e r yu s e r - f r i e n d l y t oo v e r c o m ed i s a d v a n t a g e si nc b i rs y s t e m s ,r e s e a r c h e r sb e g i nt of i n d i n gs o l u t i o no fo n a u t o m a t i ci m a g ea n n o t a t i o n t h em a j o rc h a l l e n g ei st h es o - c a l l e d s e m a n t i cg a p ,w h i e h d e n o t e st h em a p p i n gd i f f i c u r yb e t w e e nl o w l e v e lv i s u a lf e a t u r ea n dh i 【g i l 。l e v e ls e m a n t i c c o n c e p t s w ep r o p o s ean o v e ls t r a t i f i c a t i o n - b a s e da u t o m a t i ci m a g ea n n o t a t i o na p p r o a c hw h i c hc 柚 b eu s e di nm u l t i m e d i ad a t a b a s e i no u ra p p r o a c h w ef i r s ts e g m e n ti m a g e si n t or e g i o n s e a c h r e g i o ni sr e p r e s e n t e db yaf e a t u r ev e c t o r t h e nw ee m p l o yam i n i m a l 。e n t r o p yb a s e df e a t u r e d i s c r e t i z a t i o nm e t h o dt og e td i s c r e t i z e dv i s u a lf e a t u r e s w ep r o p o s eac o n c e p to fi m a g e d o c u m e n tm o d e l ,l o o k i n ga tt h es t r u c t u r eo fi m a g e sf r o mas p e c i f i cv i e wa n dp r o v i d i n ga m o r er e a s o n a b l ee x p r e s s i o no fi m a g e s f i n a l l y , am e t h o db a s e do nc l a s s i cv e c t o rm o d e li s u s e dt oe n a b l ea u t o m a t i ci m a g ea n n o t a t i o na c c o r d i n gt ot h es i m i l a r i t yo fi m a g ed o c u m e n t s o u re x p e r i m e n tu s i n gr e a ld a t a s e t ss h o w st h a to u rm o d e lo u t p e r f o r m st h ec o - o c c u r r e n c e m o d e l ,t h et r a n s l a t i o nm o d e la n dc r o s s m e d i ar e l e v a n c em o d e ls i g n i f i c a n t l y o u rm o d e l p e r f o r m sb e t t e rt h a nt h es t a t e o f - t h e a r tc o n t i n u o u s - s p a c er e l e v a n c em o d e l ( c r m ) i nr e c a l l a n di ti sn e a r l y4 0 0t i m e sf a s t e r k e y w o r d s :a u t o m a t i ci m a g ea n n o t a t i o n ;m u l t i - m e d i ad a t a b a s e ;m i n i m a l e n t r o p yb a s e d f e a t u r ed i s c r e t i z a t i o nm e t h o d ;i m a g ed o c u m e n tm o d e l ;v e c t o rm o d e l 基于分层图像文档模型的图像语义自动标注 第2 页 复旦大学硕士学位论文 第一章引言 第一章引言 1 1 图像标注的研究背景 近年来,数码照片正在成为热点,万维网上图片的数目飞速增长,各个专业领域内 的用户都在寻求一种有效的方式获取以及操纵远程存储的图像。但是用户普遍都感觉从 庞大、种类繁多的图像库中找到自己想要的特定图片并不容易,所以。图像检索的问题 被广泛关注。 对多媒体信息的有效获取需要对信息的有效检索和管理,而对文本信息的检索技术 相对比较成熟,并且已经被使用了相当一段时间,比如大家熟知的网络搜索引擎g o o g l e 、 b a i d u 等,所以图像检索的问题也就引发转化成了图像标注的问题。但是图像和视频的 检索标注更有挑战性,很多研究者开发基于内容图像检索的技术,往往都需要用户输入 一些他们并不熟悉的图像概念,如颜色、纹理等作为查询关键词。用户通常都希望能够 输入一些语义信息明确的检索词,比如“在天上飞的鸟”。这个要求是很多图像检索系 统不能够实现的,这也直接导致了这些系统并没有被广泛使用。而这个问题也是图像检 索标注中最难以逾越的图像底层特征和高级图像语义之间的鸿沟问题( s e m a n t i cg a p ) 。 早期的图像数据库系统对“语义鸿沟”通过对图像进行人工标注、主题提取以及分 类来实现图像检索功能。然而,不管是传统人工标注还是分类的方法都存在着两大问题, 第一,效率太低,标注的速度远远跟不上图像生产速度。第二,语义标注的一致性难以 保证,不同标注者对同一幅图像标注的内容可能大相径庭,也就是说人工标注非常依赖 主观,标注的结果不能成为图像检索的可靠依据。为了克服人工标注的局限性,图像语 义的自动标注正成为新的研究热点。 对图像进行离散化处理,然后应用文本信息处理与统计模型进行图像标注的思想出 现在d u y g u l u 1 ,j e o ne 2 等的工作中。他们使用统计模型的图像语义标注的直观方法 1 ,5 ,7 将图像分割成一些更基本的图像单元( 子区域) ,通过对训练集中的图像单元的 视觉特征的相似性度量( 通常采用聚类方法) 可以根据各子类中心生成一个类似单词表 的图像单元符号表,则每一幅图像都可以用该表中的一些对应的图像单元符号表示。理 想情形下,每个图像单元符号都代表一类明确的语义对象。d u y g u l u 等 1 在此基础上提 出基于语言翻译模型的图像语义标注方法,j e o n 等 2 通过估计关键词与图像单元的联 合概率来完成图像的自动语义标注。 由于图像的视觉特征通常是在一些连续特征空间中取值,因此把图像分割成一些子 区域,并映射到对应的图像单元符号是一个离散化过程。但是,通过聚类分析的方法对 图像单元进行离散化 1 。2 存在如下问题:( 1 ) 根据图像单元的视觉特征进行一般的聚 基于分层图像文档模型的图像语义自动标注复旦大学硕士学位论文 第3 页 第一章引言 类分析难以保证语义分类的效果;( 2 ) 一般情形下,一幅图像可分割出的图像单元的个 数比较少( 卜1 0 个 1 ,2 ) ,图像单元个数过于稀少会造成在概率估计时产生大量的零概 率项,影响模型估计的准确性;( 3 ) 离散化后的图像单元完全丢失了图像的视觉内容信 息。为此,l a v r e n k o 等提出了c r m 3 基于连续模型的图像标注方法,但由于采用基于 高斯核函数的非参数概率估计使得图像标注的效率受到较大影响。 由于连续变量的离散化可以减少后续数据处理的计算开销,提高系统运行效率,并 且可以方便地利用已有的大量文本信息处理的研究成果。因此本文提出图像的分层离散 化描述方法,并在此基础上提出使用文本检索中的向量空间检索模型的图像标注方法, 在保持标注效率的同时大幅度提高图像标注的效果。 1 2 本文的研究成果 本文使用文本检索中的向量空间检索模型实现了图像语义自动标注,主要研究成果 如下: 提出基于决策树的图像离散化描述方法。在图像分割的基础上,根据训练集中 所有图像分割出的局部区域的特征及相关的语义标注信息,采用基于最小熵的 决策树方法对图像视觉特征向量的每一维进行划分,然后,用一组离散化的符 号来表示各个划分区段,这些符号就构成了具有一定的图像语义描述能力的图 像视觉单词表。根据图像视觉单词表,每一幅图像都可以用一组图像视觉单词 来描述。 提出关键词图像文档模型,采用向量空间模型实现图像的自动语义标注。把训 练集中的图像按关键词分组( 具有相同关键词的图像分为同一组,具有多个关 键词的图像可以分到相应的多个组中) 。这样,训练集中的每个关键诃都可以用 一组图像的离散化向量表示,通过对相关图像的视觉单词向量的聚集可以得到 关于该关键词的图像文档。整个训练集可以视为一个文档库。对新图像进行标 注时,采用基于向量模型的文档相似性度量方法,在图像文档库中找出与待标 图像最相关的前k 个图像文档,用其相应的关键词对新图像进行标注。 与多种图像标注方法进行了详细的标注性能对比实验。在具有5 0 0 0 幅图像的实 验数据集 1 上与c o - o c c u r r e n c e 模型、t r a n s l a t i o n 模型、c m r m 模型和c j i 】i l 模 型等已知标注方法进行了对比实验,结果显示基于本标注方法的图像检索的查 全率与查准率都有大幅度提高,查全率比c o o c c u r r e n c e 模型提高了1 0 0 6 ,比 t r a n s l a t i o n 模型提高了4 5 3 ,比c m r m 提高了1 4 6 ,比c r m 提高了1 6 。查准 率比c o o c c u r r e n c e 模型提高了3 1 6 ,比t r a n s l a t i o n 模型提高了1 0 8 ,比c m r m 提高了2 5 ,其标注运行时间是c m 刚的1 5 ,是c r m 的1 3 7 3 。 基于分层图像文档模型的图像语义自动标注 第4 页 复旦大学硕士学位论文 第一章引言 1 3 本文组织 本文的主要研究方向是基于内容的图像标注问题。 本文首先在第二章中介绍了基于内容图像检索概述,检索结果的评价标准以及比较 著名的几个基于内容图像搜索引擎。 为了本文使用的方法进行深入探讨和分析,第三章的3 1 节介绍了信息检索中常用 的向量模型。3 2 - 3 5 节则介绍了本文用于对比实验的三个模型。3 6 节介绍了其他一 些图像检索和标注的模型。 第四章的4 1 节详细介绍了图像的分层离散化方法。4 2 节是基于向量模型的图像 自动标注模型介绍。随后再对其复杂度进行了分析,最后是实际的实验测试和小结。 文章最后对全文进行了总结并提出了一些该问题上值得进一步研究的方向。 基于分层图像文档模型的图像语义自动标注 第5 页 复旦大学硕士学位论文 第二章基于内容图像检索概述 第二章基于内容图像检索概述 2 1 基于内容图像检索概述 “基于内容图像检索”( c b i r ) 这个词最早出现在1 9 9 2 年,当时,k a t o 介绍他的依 靠颜色和形状从图像库中自动检索图像的实验时用到了这个词,从此以后,这个词被广 泛用于描述基于从图像中自动提取的颜色、纹理、形状等特征来从大的图像库中检索图 像的过程。而根据标注的关键词,对图像的文本描述或者索引词来检索图片并不叫做基 于内容图像检索,即使关键词确实是描述图片内容的。 图像数据库与文本数据库有着根本的区别,计算机图像文件从根本上来说是没有结 构性的,因为图像只是像素的序列,这些像素之问并没有内在的联系。所以,从这些像 素中提取有用的信息是非常重要的,比如从图像中提取一些纹理或者形状信息,以供进 一步处理使用。如果成功做到了这一步,那么图像就可以用数学性的语言来描述定义了, 也可以用数学的方法来比较图像,判断它们是不是在视觉上具有相似性。而在文本数据 库中,单词文本可以通过索引形成具有结构性的数据。 基于内容的图像检索系统在架构上也与传统基于文本的检索系统完全不同。首先, 由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进 行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例 子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓的通 过例子图像的检索( q u e r yb yi m a g ee x a m p l e ) 。另外,基于内容的检索系统一般通过 可视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和 改进检索结果。 基于内容图像检索的研究和发展涵盖了很多研究领域,其中有相当一部分是和传统 的图像处理及信息检索相似的,比如1 理解用户的需求和信息检索行为习惯2 寻找合 适的方法方式来描述图像内容3 用能够反应人类相似性判断观的方法来匹配用户查询 和图像库中的图像。4 给c b i r 系统提供可用并且方便的用户界面。 2 1 1 基于内容图像检索的流程 图1 表示了基于内容的图像检索系统的最顶层的体系结构。系统的核心是图像特征数据 库。图像特征既可以从图像本身提取得到,又可以通过用户交互获得,并用于计算图像 基于分层图像文档模型的图像语义自动标注 第6 页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 之间的相似度。用户和系统之间的关系是双向的:用户可以向系统提出查询要求,系统 根据查询要求返回查询结果,用户还通过对查询结果的相关反馈来改进查询结果。图中 还标出了基于内容的图像检索中的一些关键环节: 1 ) 选择、提取和索引能够充分表达图像的视觉特征。 2 ) 处理基于相似度的图像检索。 3 ) 处理用户对检索结果的相关反馈,改善检索结果。 詈国棚户 如果我们对上图进行一些细化,便会得到一个更为清楚的流程图 1 2 ,如图2 所示: 一 一蔺一 |l 网习 1一 图2 基于内容图像检索系统大致框架 绝大部分的图像检索系统都可以用上图来的框架来描述。在这个框架中我们需要关 注的是用户查询是如何形成的,相关反馈如何做到有效可行,在对图像的处理中提取了 哪些特征,用户查询和图像库中的图像是如何做特征匹配的,哪些数据索引结构被使用 基于分层图像文档模型的图像语义自动标注 第7 页 复旦大学硕士学位论文 圄l 第二章基于内容图像检索概述 了,以及检索结果是如何呈现给用户的。 典型的用户界面包含两部分内容,一部分是查询需求描述,一部分是结果图像的呈 现。用户描述想要从图像库中寻找哪类图像有很多种方法。一种方法是一张图片一张图 片地浏览图像库。一种方法是用关键词或者特定的图像特征( 如颜色直方图) 来描述想要 的图像,还可以提供一张样图,希望能从图像库中找到类似的图像。 相关反馈主要是用户对系统检索出来的结果给予一定评价,认为其是自己想要的图 片( 正例) 或者与需求并不吻合( 负例) 。系统收集了这些信息会进一步完善查询结果提交 给甩户, 下面两节将详细描述用户查询的分类和一系列图像视觉特征的提取、表达和索引方 法。 2 1 2 图像查询的分类 用户的需求影响着用户在图像库中输入的查询条件,他们为什么查找图像,找到图 像的用途和他们如何评价一幅图像的相关与否。在图像库中找到一幅特定的图像可能意 味着找到描述某件特定物体的图像,也可能意味着找到能引起某种情绪的场景图片,也 可能只是找一幅有着特定的纹理或者图案的图像。图像有很多属性可以用来检索,比如 1 特定的颜色、纹理或者形状特征( 例如:红色的圆太阳) 。 2 特定种类的物体或者物体呈某种形状的排列( 例如:被椅子环绕的桌子) 3 特定种类的事件( 例如:足球赛) 4 特定的人,地点或事件( 例如:美国总统布什访问我国) 5 与图像相关联的某种特定情绪( 例如:喜悦) 6 与图像相关联的元数据( 例如:图像的作者是谁,图像在何时何地出现) 以上6 种查询类型除了最后一种,每一种都比前一种更为抽象,也就更难以找到令 人满意的图像,系统地,我们可以把用户查询分成复杂度递增的三个层次。( e a k i n s ,1 9 9 8 ) 第一层:用图像特征,例如颜色、纹理、形状或者空间位置等构成查询条件。 这些特征都是最原始的图像特征,这种类型的查询包括“找到有个圆形的红色物体 在画面中央的图像”“找到图像包含呈网状排列的黄色圆点”或者,更加通用的“找 到跟这幅图像相似的更多图像”。这种级别的检索使用客观而且可以从图像种直接得 到的特征。它的使用仅限于某些特定的应用,比如商标检索等。 第二层:用衍生的特征来构成查询条件。衍生的特征也称为逻辑特征,包含着对图 像描绘物体一定程度的逻辑推理。它可以被进一步细分为:a ) 特定类型的物体,例 如:找到双层公共汽车的图片。b ) 特定的物体或者人,例如:找关于卢浮宫的图片。 基于分层图像文档模型的图像语义自动标注 第8 页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 应答这类查询的时候,需要涉及到超越图像本身的附加知识。在第一个例子中,需 要先验知识来判定一个物体是公共汽车,而不是卡车。在第二个例子中,需要有一 个特定的建筑有特定的名字“卢浮宫”的先验知识。查询条件在这一层,特别是在 第二种情况下也是比较客观的。一般来说,这一层次的查询比第一层次使用得频繁, 例如对新闻图像库中图像的查询大都属于这一层。 第三层;用抽象的属性来构成查询条件,这些属性往往包含着对图像中物体或者场 景被描绘的意义和目的的高层次的解读。这一层的检索可以被细分为a ) 检索被命名 的事件或者被命名的活动类型,例如:找到关于苏格兰民族舞蹈的图片。b ) 检索包 含情感因素的图片,例如:找到描绘痛苦的图片。应答这一层的查询需要复杂的推 理和主观的判断,需要找到图像内容和抽象概念之间的关联。这一层的查询在对新 闻图片和对艺术图书馆图像的查询中颇为常见。 当前,这些层中最重要的鸿沟在于第一层和第二层之间。很多学者把第二层和第三 层统称为“语义图像检索”,所以在第一层和第二层之间的鸿沟就是“语义鸿沟” ( s e m a n t i cg a p ) 。这里需要指出的是,对查询条件的三层分类并没有把基于元数据例如 图像的作者,产生时间等的查询考虑在内,并不是说这种检索不重要,这种检索对博物 馆馆藏查询等领域是非常重要的。但是因为元数据具有文本性质,所以对其的管理主要 采用的是文本检索方式。 2 1 3 图像视觉特征的提取、表达和索引方法 视觉特征可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共 有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在 对所描述图像内容的某些先验知识( 或假设) 的基础上,与具体的应用紧密有关,例如 人的面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别的研究范围, 并涉及许多专业的领域知识,在此我们就只考虑通用的视觉特征。 2 1 3 1 颜色特征 颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像 中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身 的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。 面向图像检索的颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间 基于分层图像文档模型的图像语义自动标注 第9 页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向量的形式:最 后,还要定义一种相似度( 距离) 标准用来衡量图像之间在颜色上的相似性。 我们首先来看颜色空间问题,最常用的颜色空间为r g b 颜色空间,它包括三个分量 r ( 红) g ( 绿) 和b ( 蓝) ,取值范围都为 0 ,2 5 5 ,比如:白色的r g b 值为( 2 5 5 ,2 5 5 ,2 5 5 ) ,黑 色的r g b 值为( 0 ,0 ,0 ) 。大部分的数字图像都是用这种颜色空间表达的。然而,r g b 空间 结构并不符合人们对颜色相似性的主观判断。也就是说,r g b 空间上两个颜色的空间距 离与人们对颜色的主观相似性判断并不一致。因为评价图像检索系统完全是依赖于人类 的主观判断,如果我们使用r g b 颜色空间来聚拢相似的颜色,得到的聚类结果可能并不 理想,从而严重影响检索结果的质量。 为了考虑到人类对于色彩的感知,l u v 空间、h s v 空间等颜色空间便应运而生,因为 它们更接近于人们对颜色的主观认识。 l u v 空间 c i e ( i n t e r n a t i o n a lc o m m i s s i o no ni l l u m i n a t i o n ) 用亮度参数y 和两个在颜色 表中的坐标x 和z 来定义一个颜色。这个系统在衡量颜色上要比r g b 系统更为精确, 更为贴近人眼对色彩的感知。1 9 7 6 年c i e 定义了两个新的颜色空间,其中一个就是 l u v 颜色空间。其中三个参数便为l :i c ,u 术a n dv 木。h 分量定义亮度( 1 u m i n a n c y ) 。 u 木和v 爿c 定义色彩( c h r o m i n a n c y ) 。b 分量的范围为 0 ,1 0 0 ,u 幸分量的取值空问为 一1 3 4 。2 2 0 ,v 丰分量的取值空间为 - 1 4 0 ,1 2 2 。l u v 颜色空间的一个优秀的性质就 是它与x y z 颜色空间一样,色彩在此色彩空间中的距离与人们对色彩的感知是一致 的。 r g b 颜色空间和l u v 颜色空间的相互转换也非常方便。首先我们需要用下面的公 式c i e 标准的) ( 1 z 值: r g b 一 c l ex y z : x = 0 4 3 1 * r e d + o 3 4 2 * g r e e n + o 1 7 8 * b l u e y = 0 2 2 2 * r e d + o 7 0 7 * g r e e n + o 0 7 1 * b l u e z = 0 0 2 0 * r e d + o 1 3 0 * g r e e n + o 9 3 9 * b l u e 在我们把x y z 转成l u v 值之前,我们首先要确定白色参考点( o m ,y n ,a ) ,白色点 是从r g b 空间的( 2 5 5 ,2 5 5 ,2 5 5 ) 点转换来的,所以: x n = 0 4 3 1 2 5 5 + 0 3 4 2 * 2 5 5 + 0 1 7 8 2 5 5 基于分层图像文档模型的图像语义自动标注 第1 0 页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 y n = 0 2 2 2 * 2 5 5 + 0 7 0 7 * 2 5 5 + 0 0 71 2 5 5 z n = 0 0 2 0 * 2 5 5 + 0 1 3 0 2 5 5 + 0 9 3 9 * 2 5 5 然后我们可以从x y z 空间得到l u v 空间的值: c i ex y z 一 c i el u v 协= 1 1 6 ( ( y y n ) ( 1 3 ) ) w h e t h e ry 1 n o 0 0 8 8 5 6 l 幸= 9 0 3 3 * y y nw h e t h e ry y n 粗糙度 粗糙度是对于图像的颗粒度的衡量。粗糙度的计算可以分为以下四个步骤进行: 1 首先,计算图像中大小为2 。x2 。个像素的活动窗口中像素的平均强度值。 a k ( f ,) = 其中k = 0 ,l ,5 而p ( i ,j ) 是位于( i ,j ) 的像素强度值。 2 然后,对于每个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的平 均强度差。 c 。( f ,j ) = m a x 忙k ( f 一2 k - ij ) - a k 0 + 2 k - ! j 】,i a k ( f ,一2 一l - - a k f ,j + 2 一1 】) 3 对于每个像素,能使c 值达到最大( 无论方向) 的k 值用来设置最佳尺寸。 七0 ,)= a r g m a x c 女( f ,j ) 4 最后,粗糙度可以通过计算整幅图像中后( f ,j ) 的平均值来得到。 。:上x 2 缸j - ) 咖白 对比度 对比度是用来描述模式的变化程度,它随着黑色和白色两极化程度或是不同程度的 灰色的使用而变化。以下公式可以计算对比度。 盯 c o n t r a s t = = = = 吖口4 去磊) 一对 ,一p 4 去蔷) 一i ) ”= 型 方向度 基于分层图像文档模型的图像语义自动标注 第1 3 页 复旦大学硕士学位论文 一 w g一 p a d 一 卜班三 第二章 基于内容图像检索概述 方向度是用来衡量图像中灰度值的方向。计算方向度需要以下四步: 1 首先计算每个像素的梯度向量。梯度值表示了灰度值在此像素周围变化得最快的 方向。水平方向的梯度值是此像素左右三个像素的灰度值的差异。而垂直方向的梯 度值则是上侧和下侧的差异。 梯度 g = a s 水平梯度 a 。= x e l i + 1 ,+ 露) 一p ( f l ,+ 七) 旌h 2 0 ,1 垂直梯度 a ,= p ( f + 七,j + 1 ) 一p ( f + 七,一1 ) k 胄知,l 2 然后计算梯度向量的极坐标,即模和方向。 3 当所有像素的梯度向量都被计算出来后,一个直方图被构造用来表达由值。该 直方图首先对巾的值域范围进行离散化,然后统计了每个b i n 中相应的1 9 i 大于给定阈 值的像素数量。这个直方图对于具有明显方向性的图像会表现出峰值,对于无明显方向 的图像则表现得比较平坦。最后,图像总体的方向性可以通过计算直方图中峰值的尖锐 程度获得。 2 1 4 检索结果评价 在本小节中,我们将讨论如何评价一个图像检索系统性能的好坏。对于传统算法好 坏的评价,是由正确性,时间复杂度,空间复杂度三部分组成的。对一个图像检索算法, 它相同具有计算的时间代价与空间代价。但是与一般算法不同,我们需要花更多的精力 在正确性的评价上。图像检索系统的正确性并不能简单的用“正确”或“错误”来做为 结论,需要根据它的检索结果与人们的期望结果的相似度来给出一个评分值。 通常检索系统的评价都是基于一个测试参考集。测试参考集是一组真实的数据集合。 在这个集合上有若干个预定义的查询,以及每个查询的相关文档( 由邻域专家提供) 。 检索系统在测试参考集上执行指定的预定义查询,评价系统对检索统返回的文档与专家 指定的相关文档的相似度进行比较,给出一个检索效果好坏的评分。 基于分层图像文档模型的图像语义自动标注 第“页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 2 1 4 1 查准率( p r e c i s i o n ) 与查全率( r e c a l l ) 对于一个指定的查询i 以及数据中的相关文档集合r ,l r i 为相关文档的个数。对于 同一个查询,检索系统返回的文档集合为a ,i a | 为返回的文档个数。特别地,记r a 为 r 与a 的交集,即检索系统返回文档中的相关文档集合,l r a i 为返回集中相关文档的个 数。那么系统在这个查询上的查准率( p ) 与查全率( r ) 分别为: p = 谢尺;倒 查准率描述了一个系统准确查找相关文档的能力,而查全率则描述了一个系统查找全部 相关文档的能力。通常通过调整检索系统的参数值,对于一个用户请求执行若干次查询, 得到一组查准率查全率值,这些值可以组成一条查准率,查全率曲线。( 缺图) 例如对于多个不同的查询,通过限制检索系统返回文档的数量,使检索查全率分别等于 0 ,1 0 ,2 0 ,1 0 0 。计算在这不同查全率水平上多个查询的平均查准率: 石m 怠只( r ) 如) - 善哿 其中n a 为查询的个数,v i ( r ) 为第i 个查询且查全率r 水平上的查准率。特别的,0 查全 率水平上的查准率是由插值得到的。 2 1 4 2 检索的单值评价( s i n g l ev a l u es u m m a r y ) 查准率,查全率曲线虽然能详细地描述一个检索系统的查询效果,但是很多情况下人 们希望用一个简单的值来大致评价查询的效果。常用的方法有以下几种: 相关文档出现时的查准率平均值( a v e r a g e p r e c i s i o na ts e e nr e l e v a n td o c u m e n t s ) :这 种方法的基本思想是,依据返回结果中文档的r a n k 值从高到低依次考察各文档, 如果发现当前考察的文档是相关文档,则计算目前为止的查准率,即当前已考察的 文档中的相关文档数量与当前已考察的文档总数的比值。在遍历整个返回结果后, 计算查准率的平均值: 僻j id 芦;y l 白l 兄l 其中p j 为在返回结果中第i 个相关文档出现时的查准率。当然,对于一些算法可能 会有相关文档出现时的查准率平均值较高,但整体查全率却很低的情况。 r - p r e c i s i o n :这种方法的计算相当简单,直接计算返回结果中前| r 1 个文档的查准率。 第1 5 页 第= 章基于内容图像检索概述 例如,对于一个查询,系统一共返回了1 0 0 个文档,而实际数据库中有5 0 个相关文 档,那么仅对返回结果中r a n k 值最高的5 0 个文档计算查准率。r p r e c i s i o n 非常适 合对单个的查询结果做评价。当然也可以对多个查询的r p r e c i s i o n 取平均值,但是 用这个平均值来评价一个检索系统的整体性能往往不够准确。 f - m e a s u r e :这种方法对于查准率与查全率做综合的考虑。对于某个查询,若查准率 为p ,查全率为r ,那么有: 。2 煦 2 p + 尺1 1 p尺 与r p r e c i s i o n 类似,f - m e a s u r e 也很适合评价单个查询的效果。e - m e a s u r e 是在 f - m e a s u r e 的基础上加入了权重,它的计算公式是: e ;r ( 1 + f 1 2 ) p r ;卫乓 p 1 p + r1 p 。 p r 当b 1 时,查准率的权重较大:当b b l o b w o r l d 开发者:c o m p u t e rs c i e n c ed i v i s i o n ,u n i v e r s i t yo fc a l i f o r n i a ,b e r k e l e y u r l :h t t p :e l i b , c s b e r k e l e y , e d u p h o t o s b l o b w o r l d 。 b l o b w o r l d 的d e m ou r l : b 主童仑;旦! i 坠:墨:坠垒! k 金i 皇y :垒鱼坠乜b q 主q 墨坠! q 垒! q ! ! 垡兰羔垒! 羔:b 兰堡! 。 所用特征: 查询需求: 匹配规则: 索引: 结果显示: 应用: 使用的图像特征为颜色、纹理,位置以及区域和背景的形状。颜色使用 l a b 空间的2 1 8 b i n 的颜色直方图描述颜色。纹理由区域的平均对比度和 各向异性来描述。区域的形状由面积,偏心率和方向性来描述。 用户首先选择一个分类,缩小检索的空间。在样图中,用户选择一个区 域( b l o b ) ,指明这个区域的重要程度,然后用户指明这个区域的颜色, 纹理,位置和形状的重要程度。用户可以反复选择多个区域同时进行查 询。 对各个特征的相似性度量分别采用欧式距和加权欧式距进行,最后给出 统一的相似性距离。 采用奇异值分解方法( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 把2 1 8 维 的颜色直方图向量降到低维自空间中。并采用胁树进行索引提高检索效 率。 检索到的图像按相关性有序线性排列,并标出划分的区域。 网上的d e m o 提供了1 0 0 0 0 幅c o r e l 图像集中的图片检索。 m a r s ( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m ) 开发者:d e p a r t m e n to fc o m p u t e rs c i e n c e ,u n i v e r s i t y o fi i l i n o i sa t u r b a n a - c h a m p a i g n ,后期研究在d e p a r t m e n to fi n f o r m a t i o n a n d c o m p u t e rs c i e n c e ,u n i v e r s i t yo fc a li f o r n i ai r v i n e ,c a u r l :h t t p :肿- d b , i c s u c i e d u p a g e s r e s e a r c h m a r s , s h t m l m a r s 的d e m ou r l :h ! 仑;! ! ! 型= d b :i :丛i :! d ! p 垒g ! ! d ! 堡q ! z i b 4 二:垒! 里! 所用特征:支持图像底层复合特征的检索。颜色方面:在h s v 空间的h s 上的色彩直 方图。抽取图像纹理的粗糙度和方向性以及对比度。采用图像网格分割 ( 5 x 5 ) 的方法对图像特征的空间分布进行描述( 颜色直方图和小波变换 系数) ,并且考虑了图像中的对象分割的问题,根据颜色纹理对图像进行 分割。分割后的区域按照敏感性分组。图像中的对象的的形状由f o u r i e r 系数描述。 查询需求:由于采用了多方面的图像特征描述方法,所以该系统提供复杂的的检索 功能,如通过布尔表达式进行组合检索。用户希望的目标图像的特征可 基于分层图像文档模型的图像语义自动标注 第1 8 页 复旦大学硕士学位论文 第二章 基于内容图像检索概述 匹配规则: 索引: 结果显示: 应用: 以通过例图方式( 提供一幅具有此特征的图像) 来描述,也可以通过直接 的方式( 从调色板中选取颜色或者从供选择的模式中选择纹理) 来描述。 两个颜色直方图的相似程度可以通过两个直方图的交集来衡量。两个图 像的纹理相似度是通过带权欧式距离公式来得到的。首先计算5 x 5 的子 图像的颜色纹理的相似度,然后用带权加的形式来得到整张图的相似 度。 查询没有用数据结构索引。这个系统的一个新版本w e b m a r s 中的特征向 量用结合多种索引树的混合索引树方法建立索引。 按照相关程度递减排列显示图像。有相关反馈机制。 所用的图像库为f o w l e r 博物馆的关于古代非洲工艺品的图像库。 2 3 本章小结 本章介绍了基于内容图像检索的基本概念、图像检索的大致流程、用户查询的分类、 图像视觉特征的提取以及三个比较著名的基于内容图像检索系统。通过本章的论述, 形成了对基于内容图像检索系统的整体概念,为下文介绍比较具体的工作做好准备。 基于分层图像文档模型的图像语义自动标注 第1 9 页 复旦大学硕士学位论文 第三章 图像语义自动标注 第三章图像语义自动标注 自动图像语义标注目前比较流行的方法是在基于对一些训练集图像学习的基础上 建立一个统计模型来学习得到图像的语义内容的。这种方法标注一幅图像的过程是,首 先把这幅图像按照语义内容分割成几个区域( 这些区域也可以通过简单的网格划分得 到) 。然后在每个区域上计算得到特征值,形成特征向量。根据已有的标注好的图像训 练集,我们可以建立一个概率模型,这个概率模型可以基于图像各个区域的特征值来估 计产生各个标注关键词的概率,概率最高的几个关键词即可成为这幅图像的标注关键 词。 图像的自动语义标注的关键是学习得到图像区域r 和关键词w 的联合概率分布 p ( r 。w ) 。如果得到这个联合概率分布,则既可以实现图像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论