(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf_第1页
(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf_第2页
(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf_第3页
(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf_第4页
(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)mpeg7在基于内容的图像检索中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

肝e g 一7 在基予内容的图像检索中的应用研究 摘要 随着计算技术和国际互联网的飞速发展,包括图像在内的各种多媒体数据 的数量正以惊人的速度增长。人们很容易在互联网杂乱无序的信息海洋中迷失 方向,如何从中尽快地发现有用的信息是一个富有挑战性的问题。另外,信息 数字化技术给人们带来方便的同时,也面临着如何有效地对海量数据,尤其是 是图像类数据进行分析、存储和检索的问题。 本文对基于内容的图像检索的关键技术展开研究。首先全面分析了目前基 于内容的图像检索的各种技术,重点讨论了图像内容的表示方法,同时介绍图 像检索的一些共性技术以及其他一些相关的研究方向。在分析图像颜色特征的 提取方法基础上,对图像内容的表示采用了基于颜色的量化和d c d 信息提取的 方法,从而实现用最少信息表达主要图像特征的图像检索方法。 相似度匹配算法和相关反馈两方面的研究。在文中,相似度匹配算法是以 x m 算法为基础,进一步研究了改进的e m d 和m p h s m 算法。本文还以颜色特 征为基础,对相关反馈技术进行了研究。研究了相关反馈的设计思想,并以此 实现了基于统一直方图的相关反馈方法。 同时,探讨了m p e g 一7 与数字水印技术在基于内容的图像检索中的综合应 用。 关键词:基于内容的图像检索,m p e g 7 主体颜色描述,相关反馈,数 字水印 r e s e a r c ho na p p l i c a t i o no fm p e g 一7 i nc o n t e n t - b a s e di m a g er e t r i e v a l a b s t r a c t w i t hm er a p i da d v a l l c e m e n to fm ec o m p u t i n ga n di n t e m e tt e c h n o l o g y 血e a i i l o u n to fv a r i o u sm u l t i m e d i ad a t ai n c l u d i n gd i g i t a li m a g e si n c r e a s e si nas u r p r i s h g s p e e d d u et om en a t u r ef o rm o s ed a t a ,i ti sv e r yd i m c u l tf o rp e o p l et os e a r c hf o r r c l e v 姐ti n f o r n l a t i o no v e rm ei n t e m e t 帆i l ep e o p l eb e n e ma1 0 tf r o mt h ea d v e n to f i n f o n n a t i o nd i g i t i z e dt e c h n o l o g y ,m e ya l s oh a v et of k em ec h a l l e n g ea b o u th o wt o a n a l y z c ,s t o r ea i l dr e t r i e v et h eh u g e 锄o u n to fd a 恤e f f i c i e n t l ya n de 船c t i v e l y , e s p e c i a l l yf o r t l l ei m a g ea n dv i d e od a 协 n l i sd i s s e n a t i o ni sd e d i c a t e dt ot h es t t l d yo nt h ek e yt e c h n i q u e so fc o n t e m b a s e d i m a g er e t r i e v a l w ef i r s tg i v ea ni n t m d u c t i o nt ot l l es t a t eo ft h ea r to fc o m e n t - b 嬲e d i m a g er e t r i e v a lt c c h n 0 1 0 9 y w er c v i e wt h ea n a l y s i sa 1 1 dr 印r e s e n t a t i o no fi m a g e c o n t e n t ,s o m ec o m m o nt e c h n i q u e sf o rc o m e n tb a s e di m a g er e t r i “a l ,a 1 1 do t l l e rr e l a t e d i s s u e s b a s e do nt h e “t r a c t i o no fc o l o rf b a t i 】r e sf o ra ni m a g e ,t h ei m a g ec o n t e n t r c p r e s e r l t a t i o ni s b a s e do nc o l o rq u a n t i t ya n dt h ee x 仃a c t i o nm e 也o do fd c d i 州 o m l a t i o n a f t e r 也ee x n a c t i o no fc o l o rf e 栅e s ,w ei n l p l e m e n ta ne f f 已c t i v ec o l o r r e t r i e v a la p p r o a c h ,w h i c hc a n u s er e p r e s e n t a t i o no fc o l o r st op r e s e n t 也e 、地o l er e g i o n o fi n t e r e s t a sf o rt h es i m i l a r i t ym e a s u r e sa i l dr e l e v a l l c ef e e d b a c kt e c l l l l 0 1 0 9 yi nr e t r i e v a l ,i n 也ed i s s e r t a t i o n ,t l l es i m i l a r i t ym e a s u r e s 盯eb a s e do nx ma l g o 也m ,a n ds t i l d yt h e 衄p m v e de m d 锄dm p h s ma l g o r i t h m 删1 e r 1 1 1 es t u d yo fr e l e v a n c ef e e d b a c ki s b a s e do nt h ec o l o rf e a t u r e w bg i v eab l u ep r i n to f r e l e v a n c ef e e d b a c kw h i c hb a s e do n m e r g e dp a l e t t eh i s t o f 吼 f l l n h e 衄o r e ,w ed i s c u s san e wa p p l i c a t i o no fc b i rw h i c hc o m b i n e 血em p e g 一7 、v i t hd i g i t a lw a t e 门n a r k i n g k e y w o r d s :c o n t e mb a s e di m a g er e t r i e v a l ,m p e g - 7 ,d o m m 姐tc o l o rd e s c r i p t o r , r e l e v a i l c ef e e d b a c k ,d i g i t a lw a t e m l a r k i n g i l 插图清单 图1 1 基于内容的图像检索系统基本框图2 图1 2m p e g 7 与基于内容的图像检索的联系7 图2 1 图像采集系统1 0 图2 2 改进的h s v 颜色模型1 2 图2 3 彩色图像提取的d c d 直方图1 8 图3 ,1图像一和图像二的统一直方图,对应颜色的欧式距离小于掰一2 4 图3 2 图像一和图像三的统一直方图,只有其中一种颜色完全相似2 4 图3 3 图像检索系统功能模块图2 5 图3 4m p h s m 方法检索实验结果一( 树林) 2 6 图3 5m p h s m 方法检索实验结果二( 球场) 2 7 图3 。6m p h s m 方法检索实验结果三( 街道与房屋) 2 8 图3 7 分别采用两种检索方法的实验比较结果( 天空与海洋) t 2 9 图3 8d c d 直方图的合并3 1 图3 9 相关反馈实验3 3 图4 1 数字水印系统框架3 5 图4 2m p e g 7 元数据嵌入过程3 8 图4 3 数字水印信息的嵌入实验4 0 图4 4 嵌入数字水印的c b i r 系统框图4 1 图4 5 嵌入数字水印的c b i r 系统功能模块图4 2 v i 表格清单 表2 一l7 2 色和2 5 色量化相似度比较结果对比表 v i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得 金b 王些杰堂 或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 姗躲两哥 期:砸嘲力日 学位论文版权使用授权书 本学位论文作者完全了解垒胆王些盘堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒 卫兰些态堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 黜躲两前 撇名: 签字日期:舸年占月罗。曰 学位论文作者毕业后去向 工作单位: 通讯地址: 蹈秒骂 狲白 签字日期:幺r 年月;0 日 电话:o ,晒矽j 7 邮编:7 旁缈砂 办秽 芳炮辄纵 致谢 首先向我的导师张佑生教授表示深深的谢意,本论文是张教授的悉心指导 下完成的。张教授不仅有广博的知识,而且他严谨的治学态度,诲人不倦的精 神,使我深深受益。他以他缜密的思维,敏锐的洞察力把握住了当前图像检索 领域的研究方向,给我的论文构建了一个框架,使我始终没有偏离自己的研究 方向,没有走弯路。特别是他给我创造了很多的机会让我来表达自己的思想, 使我的表达能力得到很好的锻炼,比以前有了很大的飞跃,使我终生受益。在 此,谨向张教授表示最诚挚的敬意。 衷心感谢胡敏老师、汪荣贵老师,偶春生老师、王焕宝老师和薛峰老师, 在本课题的研究过程中和本论文的撰写过程中,得到了他们的大力协作,以及 顾红飞同学、孙光灵同学、王伟同学、师弟、师妹们的大力帮助,在此,向他 们表示最衷心的感谢,使我在研究以及学习过程中,得到了无穷的快乐,获得 了无穷的收益。 感谢研2 0 0 2 届1 4 班的所有同学,我们在一起度过了三年的美好时光,三年 中我们相互关心、相互帮助、共同学习和共同成长,度过了一段难忘的学习生 涯。 感谢我的父母多年来对我的关怀、支持和鼓励。没有他们永远无私的奉献, 我不可能顺利完成学业。 亲情友情之爱永远是我在人生旅途中奋斗拼搏的动力。最后感谢所有关心、 帮助过我的前辈、同仁和朋友,谢谢你们! i i i 作者:屠菁 2 0 0 5 年6 月1 6 日 第一章绪论 1 1 引言 随着多媒体技术和i n t c m c t 网络的发展,图像信息越来越得到重视。包括图 像在内的各种数据的数量正以惊人的速度增长,人们很容易在互联网杂乱无序 的信息海洋中迷失方向。因此。如何从中尽快地发现有用的信息是一个严峻的 问题。 许多行业对专用图像的检索提出了新的要求,如多媒体数字图书馆系统、 卫星遥感图像、医疗图像的分析和检索。图像数据库的r 益庞大使得对图像内 容的组织、表达、存储、管理、查询和检索都面临前所未有的挑战。如何将数 字图像处理、计算机视觉、模式识别和数据库技术结合起来建立高效的图像检 索机制是目前迫切需要解决的课题。m p e g 7 1 】作为新型的多媒体内容描述标准, 从诞生之r 起就与信息检索有着干丝万缕的联系,对于图像检索技术的芨展和 一些相关问题的解决都起到了积极的推动作用。 1 1 2 基于内容的图像检索 1 2 1 图像检索及其发展 “信息检索”( i n f o r m a t i o nr e t r i e v a 】) 1 2 一词早在半个世纪前( 1 9 5 1 年) 就已 l 现,人们用它来描述信息用户将一个对信息的要求转换为一个参考集合的过程 吼 用户对图像库的访问,往往是根据关于所需图像的描述( 或给定幅特定 的图像) ,从图像库中找到一些与该图像十分相似的图像。为此目的,需要对图 像库建立有效的索引,并提供有效的检索方法和工具。 对于图像的管理,对于图像数量不太多时可采用文件系统方式。用户可通 过图像浏览来查找所需的图像。但是,随着图像数量的大幅增加,查找效率急 剧下降,这种方式也就不再适用。 到了上个世纪7 0 年代,数据库专家把图像文件与其关键词、文本标题等描 述信息联系起来,用数据库对所有图像的关键词等信息进行管理,并在图像的 存储路径和其关键词之间建立联系n ”,在一定程度上缓解了图像管理与查找的 问题。但是,这种方法在应用过程中也暴露了一些弊端,比如说:关键词描述 的信息量有限少量关键词未必能准确描述图像的特征;再说,描述图像的关 键词是由人来加入的,不同的人对同一图像的理解可能不同,所选的关键词也 就不同。 8 0 年代,多媒体技术得到了长足的发展,特别是图像的获取、创作、存储 技术都取得了举世瞩目的成就。9 0 年代以后随着w e b 技术的应用和发展,网 络上多媒体信息的产生、存储、传输、分析以及访问数量呈指数级增长,其中 络上多媒体信息的产生、存储、传输、分析以及访问数量呈指数级增长,其中 第一章绪论 1 1 引言 随着多媒体技术和i n t e m e t 网络的发展,图像信息越来越得到重视,包括图 像在内的各种数据的数量正以惊人的速度增长,人们很容易在互联网杂乱无序 的信息海洋中迷失方向。因此,如何从中尽快地发现有用的信息是一个严峻的 问题。 许多行业对专用图像的检索提出了新的要求,如多媒体数字图书馆系统、 卫星遥感图像、医疗图像的分析和检索。图像数据库的日益庞大使得对图像内 容的组织、表达、存储、管理、查询和检索都面临前所未有的挑战。如何将数 字图像处理、计算机视觉、模式识别和数据库技术结合起来建立高效的图像检 索机制是目前迫切需要解决的课题。m p e g 7 【i 】作为新型的多媒体内容描述标准, 从诞生之日起就与信息检索有着千丝万缕的联系,对于图像检索技术的发展和 一些相关问题的解决都起到了积极的推动作用。 1 2 基于内容的图像检索 1 2 1 图像检索及其发展 “信息检索”( i n f o r r n a t i o nr e t r i c v a l ) 【2 l 一词早在半个世纪前( 1 9 5 1 年) 就已出 现,人们用它来描述信息用户将一个对信息的要求转换为一个参考集合的过程 【3 】a 用户对图像库的访问,往往是根据关于所需图像的描述( 或给定一幅特定 的图像) ,从图像库中找到一些与该图像十分相似的图像。为此目的,需要对图 像库建立有效的索引,并提供有效的检索方法和工具。 对于图像的管理,对于图像数量不太多时可采用文件系统方式。用户可通 过图像浏览来查找所需的图像。但是,随着图像数量的大幅增加,查找效率急 剧下降,这种方式也就不再适用。 到了上个世纪7 0 年代。数据库专家把图像文件与其关键词、文本标题等描 述信息联系起来,用数据库对所有图像的关键词等信息进行管理,并在图像的 存储路径和其关键词之间建立联系【4 5 l ,在一定程度上缓解了图像管理与查找的 问题。但是,这种方法在应用过程中也暴露了一些弊端,比如说:关键词描述 的信息量有限,少量关键词未必能准确描述图像的特征;再说,描述图像的关 键词是由人来加入的,不同的人对同一图像的理解可能不同,所选的关键词也 就不同。 8 0 年代,多媒体技术得到了长足的发展,特别是图像的获取、创作、存储 技术都取得了举世瞩目的成就。9 0 年代以后,随着w e b 技术的应用和发展,网 络上多媒体信息的产生、存储、传输、分析以及访问数量呈指数级增长,其中 图像占据着重要的地位。根据加州大学伯克利分校p e t e rl y m a l l 和h a lv 撕锄的报 告,全球每年产生的信息量约1 到2 e b 字节( e x a b ”e ,1 0 0 亿亿) ,这些信息的绝 大多数以图像、声音和数据的形态存在,印刷文档只占总量的o 0 0 3 ,新出现 的信息超过9 0 均采用数字方式存储。对图像建立关键词等文本描述信息的方式 已越来越不能适应网络信息检索的要求。 基于内容的图像检索( c o n t e n t b a s e di m g er e 仃i c v a l ,简写为c b i r ) 在这种情 况下应运而生,成为了数字媒体高速检索的研究热点之一。这种技术融合了传 统的模式识别技术与人机交互技术,将图像的颜色、纹理、形状及空间关系等 特征作为图像的索引,计算图像库的图像和目标图像的相似距离,通过相似性 匹配进行检索。由于c b i r 检索是基于图像本身的内容,可避免用关键词描述不 够准确的问题,同时也不受图像转移存储位置的影响。这种检索方法具有以下 四个特点: 1 、用图像的特征描述图像 c b i r 通过对图像进行分析,提取其中的特征信息来描述图像,作为检索的 依据。突破了以往基于关键词检索的局限,可更好地满足用户的检索要求。 2 、图像特征多种多样 图像特征可以是颜色特征、形状特征、纹理特征、轮廓特征、空间关系特 征等低层特征,也可以是人们对图像中内容的概念语义反映等高层语义特征。 3 、人机交互方式的应用 虽然人善长于识别图像的特征但靠人工方法从大量数据中查找目标,效率非 常低;而计算机的长处是查找速度快,但查找出的图像不一定都符合人的意图。 因此,基于内容的图像检索往往利用人机交互来进行。 4 、近似匹配与逐步求精 基于内容的检索是一种近似匹配和逐步求精的迭代过程,每次迭代产生的 中间结果都是一个集合,经过人机交互可最终找到所要的目标图像。 1 2 2 基于内容的图像检索的基本技术 基于内容的图像检索是一种重要的和关键的多媒体信息处理技术。一般可 以把c b i r 系统看作是介于信息用户和多媒体数据库之间的一种信息服务系统, 用户可以通过它按自然的方式从库中提取满足所需的图像信息。图1 1 示出这类 系统的一个通用框架。 蹲善竺雪搁 图卜1 基于内容的图像检索系统基本框图 2 由图可见,c b i r 系统主要由五个模块【6 】组成:查询、描述、匹配、提取和 验证。这五个模块也分别对应了基于内容的图像检索中的五项基本技术,下面 分别对此进行介绍: 1 2 2 1 查询模块 该模块的主要功能是对用户提供多种查询手段,以支持用户根据不同应用 进行各种类型的查询工作。对图像的查询方法主要有: ( 1 ) 利用采样图像 即选择图像数据库中的图像作为查询图像m 。用户在检索中可以先从图像数 据库中的采样图像出发,也可以利用上次检索的结果。 ( 2 ) 利用范例图像 即借助与期望图像类似的图像【8 1 。在很多应用中,检索工作是在给定一个范 例的情况下找出所有类似的图像,与( 1 ) 不同之处在于范例图像来自于数据库 外。 ( 3 ) 利用局部图像 即先提取采样图像或范例图像中的一个区域作为查询图像来查询全图【9 】,也 可以将不同图像的不同区域拼接组合成查询图像。 ( 4 ) 利用用户绘制的图形 用户利用制图工具绘制出一幅图,以反映他们期望查找的目标形状或彩色 图案区域及区域分布情况,以此作为查询依据。 ( 5 ) 利用图标组合 根据预先定义的视觉语言,将图标用布尔连接符组合起来,构造一个视觉 语句,用分析器验证其正确性,然后转化为一个查询。该方法比较适合于高层 概念的检索。 ( 6 ) 利用语言文字 这是最为抽象的方法,常用关键词或自然语言的语句表达图像的语义,利 用语义或目标种类进行搜索。 在上述方法中,前四种都利用了视觉范例来表达图像中韵低层或中层特征, 利用特征匹配进行检索,而不需要用户对查询对象提供详细描述。 1 2 2 2 描述模块 该模块的主要功能是将用户的查询要求转化为关于图像内容的比较抽象的 描述。对图像内容的描述技术包括图像分割和特征提取。用于描述图像的特征 主要有如下几种: l 、颜色特征 颜色是图像内容最直接的视觉特征。常见的表达颜色特征的方法有颜色直 方图法、累积直方图法、局部累加直方图法、颜色布局法、中心矩法等。 2 、形状特征 用户通过勾勒图像中目标的形状或轮廓,表达其检索的意图。基于此特征 的检索方法有两种:( 1 ) 图像经过分割和边缘提取后,得到目标图像的轮廓线, 利用这种轮廓线进行图像检索;( 2 ) 直接针对图形寻找适当的矢量特征用于检索 算法。 这种结构化检索方法,需进行很多复杂的预处理。 3 、纹理特征 纹理特征是所有视觉表面( 包括树木、织物等) 都具有的,包含图像质地 和结构等重要信息,它反映了图像或物体本身的属性。一个纹理元素就是具有 重复性、形状简单和强度一致的区域。对纹理的定义和量化方法主要有两种: 一种是结构方法,一种是统计方法。前者将图像中非常具有结构规律的特征加 以分析,后者则对图像中色彩强烈的空间分布信息进行统计。 4 、空间关系特征 用空间关系特征进行图像检索一直是重要研究方向之一,目前已有不少方 法,如二位字符串( 2 d s t r i n g ) 方法,2 d c s t r i n g 方法、2 d b - s t r i n g 方法等。 1 2 2 3 匹配模块 该模块的重要功能是根据查询图像的描述对数据库中图像进行内容匹配, 从而确定它们在内容上的一致性或相似性。一般有如下几种方法: l 、欧拉距离如果图像特征的各分量之间是正交无关的,而且各维度的重 要性相同,则两个特征向量4 和雷之间的距离可以用d ,距离或者眈距离( 叫欧拉 距离) 来度量,如式( 卜1 ) 所示: d 。= :,阻一ei j d := :,( ,一b 。) 2 ( 1 - 1 ) 2 、直方图相交( h i s t o g r a mi n t e r s e c t i o n ) 通过度量两个图像对应直方图相似 性来判断图像之间的相似性,假设瘌q 是两个含有个b i n 的颜色直方图,则: s ( j ,q ) = 二。m 试,q j ) :。q j ( 1 _ 2 ) 3 、马氏距离如果特征向量的各个分量间具有相关性或者具有不同的权 重,可以采用马氏距离( m a h a l 吼o b i s d i 咖n c e ) 来计算特征之间的相似度,如式 ( 1 3 ) 所示: d 。“= ( 爿一b ) c 一1 ( 4 一占) ,c 是协方差矩阵 ( 1 - 3 ) 4 、余弦距离若用户提交例子图像q 用于查询与之相似的图像, q = w 小,w 柙,w 州】,则q 与数据库中所有图像之间的相似度可通过如下的余 弦距离来定义: 4 义,f ,q ) = 赢,式中l | | l 表示向量的模。( 1 4 ) 1 2 2 4 图像提取模块和技术 该模块的主要功能是对根据匹配的结果在图像数据库中对感兴趣的图像定 位,并将图像自动提取出来让用户使用。根据用户的要求不同,查询可以分为 如下三种: 1 准确查询正确的提取结果是准确一致的图像。 2 范围查询正确的提取结果是参数或特征满足一定取值范围的所有图 像。 3 k 一最近邻查询正确的提取结果是满足一定取值范围且根据相似测度 排序后的一组图像。 1 2 2 5 验证模块和技术 该模块的主要功能是验证提取的图像是否满足用户要求。衡量图像检索性 能的主要标准是精度( p r e c i s i o n ) 和招回率( r c c a l l ) 两个指标【1 0 】。 精度的含义是在一次查询过程中,系统返回的查询结果中有关联的正确检 索图像的数目占所有返回图像数目( 包括正确检索和误检的) 的比例。在检索 结果集合中,正确检索的图像所占比例越大则精度就越高。 招回率则指系统返回的有关联的正确检索图像的数目占图像库中所有相关 图像数目( 包括正确检索和漏检的) 的比例。 在本文中,我们主要运用精度、招回率这两个参数来衡量本文中所提供系 统的检索性能。 1 2 3 基于内容的图像检索的研究现状 近年来,基于内容的图像检索技术已成为热门研究课题,在国际上每年召 开的许多有关多媒体技术的学术会议,如i c a s s p 、c i p 、i c p r 等,都开辟了基 于内容的视觉信息检索主题,i e e e 和s p i e 都组织了专门的基于内容的多媒体信 息检索会议。现在在i n t e m e t 上有许多关于基于内容的图像检索系统,最为著名 的系统有i b m 的q b i c n u 系统、哥伦比亚大学开发的s u a ls e e k 【1 2 1 和 w 曲s e e k 【13 1 、m i t 实验室开发的p h o t 0 b o o k 【1 4 1 系统、u i u c 大学的m a r s p 2 1 系统、 c m u 的i n f o r n l e d i a 【l 等。c b i r 技术己广泛应用于w w w 上的图像搜索、图像过 滤、数字图书馆、视频内容检索、预防犯罪( 指纹识别) 、军事、知识产权( 商 标等) 保护、建筑与工程设计、文化遗产、医疗诊断、地理信息系统和遥感等。 我国从1 9 9 4 年开始逐步开展了相关研究,现已取得了长足的发展。浙江大 学开发的“多媒体分析与检索”系统,有一定的代表性。在软件学报、计算机 学报、中国图像图形学报等高级杂志上,每年都有相当数量的关于基于内 容的图像检索的论文,越来越多的学术会议也对这方面进行专题讨论,中国中 文信息学会就专门组织了“全国信息检索与内容安全学术会议”来进行相关学术 与技术研讨。 不过,基于内容的图像检索还是一门发展中的技术,仍然存在着许多问题尚 待进一步研究解决。现有的检索系统大都还是基于图像底层视觉特征的提取和 分析的。由于底层特征并不能很好地表达图像的语义,如何解决高层语义和底 层视觉特征差距问题是现在研究的热点。此外高维数据的索引、医学图像的检 索、m p e g - 7 在图像检索中的应用以及文本图像的检索等都还有待进行进一步的 深入研究。 1 3m p e g 7 在c b i r 中的应用 m p e g 一7 是国际标准化组织i s o ,i e c 下的m p e g 委员会制订的个关于信息 内容表达描述的国际标准,也称为多媒体内容描述界面( m u l t i m e d i ac o m e n t d e s c r i p t i o ni n t c 血c e ) 。它试图规范对不同种类多媒体信息的描述,而不受表达形 式( 如模拟或数字等) 的限制。 在此之前,i s o i e c 组织已制定完成了一系列的m p e g 标准( m p e g 1 , m p e g 2 ,m p e g 4 ) ,它们主要和多媒体数据编码有关。而m p e g 7 是一种全新 的标准,一定意义上补充了前几个m p e g 标准没有的功能,但并不是取代它们, 更不是对它们向下兼容。它完全可以独立于前几个m p e g 标准使用,其目的和功 能都和前几个标准有较大的区别。 m p e g 7 标准的目的是建立对不同多媒体信息的标准描述( 包括指定一组描 述符和描述方案) ,以便能用来快速和有效地查询和访问多种媒体信息。同时为 了使m p e g 7 的结构更具有弹性和延展性,在格式上包含了其它在国际上具有领 导地位的一些格式,如:t va n y t i m e d u b l mc 0 r e 、s m p t em e 协d a 诅d i c t i o n a r y 和e b up n “e t a 等等,并以x 】ls c h e m a 当作d d l ( 描述定义语言) 的基础。使其 结构更具有延展性。 1 3 1m p e g 7 与c b i r m p e g 7 能够提供实现高效浏览、查询以及检索操作的基于内容的描述符, 这就有可能实现由于信息量的爆炸性增长对c b i r 提出的高效率检索的要求。因 此,m p e g 7 对基于内容的图像检索的发展具有促进作用,并将产生深远的影响。 m p e g 7 与c b i r 的联系如图1 2 所示。从图可见,m p e g _ 7 运用于基于内容的 图像检索系统( c b i r ) 里的中心位置内容描述,内容描述的前端是对图像信 息分析的结果,后端则提供了图像信息提取的基础。从这样的关系可以看出, m p e g 7 标准可借助于现有的特征提取技术,灵活而有效地提取图像特征信息供 特征匹配所用。 6 图卜2m p e g 一7 与基于内容的图像检索的联系 1 3 2m p e g 7 在c b i r 上的应用 国外已经推出的c b i r 系统普遍采用低层次的图像信息( 如图像颜色、纹理、 形状等) 来实现图像内容查询。例如: i b m 的q b i c 支持基于样本图像、用户构画草图、用户绘制图形、用户选 择希望的纹理和颜色等查询方式,采用改进的t a m u r a 模型进行纹理检 索,采用k l 变换降低维数,并利用r + 树建立索引进行检索。 v ,p h o t o b o o k 系统包括轮廓、纹理、脸部特征查询,根据用户反馈采用不同 模型进行检索。 m a r s 从计算机视觉、d b m s 、信息查询三个领域进行研究,提出了相 关反馈的体系结构。 r a g e 系统通过对不同单特征空间中的距离赋予权重,构成总特征空间 中的复合距离,通过调节权重和检索的特征值,表达不同的检索请求。 在m p e g 7 标准中,对图像的视觉信息,如颜色、形状、纹理、空间关系等 均定义了特定的描述符进行描述。例如对颜色就提供了四种颜色描述符: d o m i n a n t c 0 1 0 r ( 主体颜色) 、s c a l a b l e c 0 1 0 r ( 可伸缩颜色) 、c o l o r l a y o u t ( 颜色 布局) 和c o l o r s t r u m ( 颜色结构) 。每一个描述符都可以用来描述任意大小的 图像的颜色特征。再比如用h o m o g e n e o u st e x t u r e ( 相似纹理) 、e d g eh i s t o 盯锄 ( 边缘直方图) 和t e x t 珊- eb r o w s i n gd e s c r i p t o r s ( 纹理浏览描述子) 来描述图像 的纹理信息。 由于m p e g 7 具有这样对低层特征进行描述的特性使得其在c b i r 上进行应 用成为可能。目前研究的热点主要有描述颜色特征信息的d c d 【1 6 】和纹理信息的 e h d 描述符,在i e e e 上可以检索到很多关于m p e g 7 在基于内容的图像检索中应 用的论文。 1 4 本论文的工作及内容组织 1 4 1 本论文的研究内容 本论文主要研究m p e g 7 在基于内容的图像检索中的应用。c b i r 系统要求 检索具有高效率和高可靠性而m p e g 7 标准本身并不包括特征提取的工具和算 法,也不包括搜索引擎这就需要通过研究比较选择一种合适的特征提取方法 和匹配方法,论文研究的主要内容有: 、d c d 在基于内容的图像检索中的应用 m p e g 7 的主体颜色描述子( d o m i n a n tc o l o rd e s c r i p t o r ,d c d ) 提供了对图像 感兴趣区域的显著颜色描述。诣在对图像区域主体颜色特征进行直接并有效地 表示。这种特征表示方式不仅包含显著颜色的特性,也包含其在该区域的颜色 比例情况。这种方法能够提高图像检索的正确性。论文将在介绍m p e g 一7 以及 d c d 的基础上,通过d c d 在统一直方图( m e 唱e dh i s t o g r 锄) 【1 7 】和e m d l 2 9 】等方 法上的应用,讨论该方法在c b i r 中应用的可行性和执行效率。 2 、相关反馈技术的研究 相关反馈技术【1 引是图像检索研究中的新发展,它通过人机交瓦来提高图像 检索的正确性和效率。论文将在基于d c d 的图像检索中应用这种技术,研究其 应用的方式,并对其效率进行评估。 3 、数字水印技术的应用研究 数字水印技术口叫是当今图形图像研究的新热点,本文将m p e g - 7 元数据以水 印方式嵌入图像中,并通过检索水印信息实现基于内容的图像检索。论文将就 嵌入的信息结构内容问题和嵌入位置问题进行研究。 1 4 2 本论文的内容安排 全文共分五章,具体安排如下: 第一章对国内外图像检索技术的研究作了综述,指出基于内容的图像检索 的研究现状和意义,并根据其未来的发展方向指出m p e g - 7 在c b i & 上的应用。 第二章针对d c d 主体颜色描述符,介绍了图像视觉特征的提取机制。 第三章研究d c d 应用于图像检索的具体算法,并给出相关反馈的改进算法。 第四章探讨将m p e g 7 元数据嵌入图像数字水印进行检索的可行性。 第五章总结全文并说明进一步研究的方向。 第二章图像颜色特征及其提取技术 图像检索的基础是对图像内容的描述。图像内容的描述有高层语义和低层 特征两个层次。低层特征主要包括图像的颜色特征、形状特征、纹理特征和空 间关系特征等。基于内容的图像检索( c b i r ) 技术就是由机器自动提取图像的 视觉低层特征( 颜色、纹理、形状、位置等) 及它们之间的相互关系,对数据 库中的图像和查询样本图像在特征空间进行相似匹配的过程。该技术不同于以 往的基于文本方式的检索,不依赖于人为的图像描述,避免了插述不准确、费 时费工等弊端。基于内容的图像检索的一个核心问题就是图像特征的提取。 颜色是图像最重要的视觉特性,也是在c b i r 中最便于应用的视觉特征,其 应用范围也最为广泛。合适的颜色描述可以准确、紧凑地表达自然图像信息。 例如,人们经常使用的h s v 颜色空间,对彩色的描述能力相对来说与人的视觉 接近。颜色直方图也由于其表达方式有效,在c b i i 己中得到了广泛的应用。此外, 颜色矩和颜色相关图也是广为应用的图像特征表达方式。随着应用研究的不断 深入,人们提出了更高效率的颜色描述方法主体颜色描述子( d o m i n a i l t c o l o rd e s c r i p t i ) r ,d c d ) ,这种描述符对于颜色的分配给出了更加有效和紧凑的描 述,且具有存储量和计算量小的优点。 本文研究m p e g 7 在基于内容的图像检索中的应用,力求在图像检索过程 的五大模块( 查询、描述、匹配、提取、验证) 中应用m p e g - 7 标准。本章将 针对检索过程中的特征提取技术,讨论如何提取满足m p e g 一7 标准的图像颜色 特征。 2 1 数字图像的颜色表示方法 2 1 1 模拟图像和数字图像的描述 人眼看到的任何自然界的图像都是连续的模拟图像,其形状和形态表现由 图像各部位的颜色所决定。色度学理论认为,任何颜色都可由红、绿、蓝三种 基本颜色( 也称三原色) 按不同比例混合得到。因此,自然界的图像都可用如 下三维函数来表示: b 弘力= ( 允d ( 五乃力,胁弘力,屯( 1 弘z ) ) ( 2 1 ) 其中,表示空间坐标为( 玉只功位置点的颜色,厶、k 。、五。分别表示 该点的红、绿、蓝的颜色分量值。它们都是空间的连续函数。 为了研究的方便,我们主要考虑平面图像。平面上每一点仅包括两个坐标 值,因此,平面图像函数是连续的二维函数,即: 触力= 危。 力,k ,“力,五k 力) ( 2 - 2 ) 为了用计算机来处理图像,必须将这种连续的图像函数转化为数字图像, 图像采集一般由图2 1 所示的图像采集系统完成,其中包括三个基本单元,即成 9 像系统、采样系统和量化器。采样实际上就是一个空间坐标的量化过程,量化 则是对图像函数值的离散化过程。采样和量化系统统称为数字化。 哺叫遂鋈卜叫鎏鋈卜叫i 麟卜黼+ 一景物叫成像系统l 卜幽像叫采样系统l _ _ 采样图像一量化器”鬻卜数字l 萼l 像一 i 一魏缓l 凌黎li 耨缀露攀攀黪刘i 嬲戳l 图2 1 图像采集系统 数字图像是连续图像厂( x ,y ) 的一种近似表示 矩阵来表示: i 厂( o ,o )厂( o ,1 ) ,( o ,m 一1 ) i ,( 1 ,o ),( 1 ,1 ) 厂( 1 ,m 一1 ) l l ,( 一l ,o ) ,( 一1 ,1 ) ,( 一l , ,一1 ) 通常由采样点的值所组成的 ( 2 3 ) 其中。每个采样点叫做一个像素( p i x e l ) ; 厶分别为数字图像在横、纵 方向上的像素数。数字化图像的精度包括两个部分,即分辨率和颜色深度。分 辨率是指其空间精细度,可分为显示分辨率和图像分辨率两种。颜色深度是指 表示每一像素的颜色值的二进制位数。颜色深度越大,则能表现的颜色数目越 多,它们之间的关系取决于数字图像采用的颜色表示法。考虑到颜色模型的用 途,可分为面向硬件和面向用户两种。面向硬件的颜色空间包括r g b 、c m y 、 y i q 等;面向用户的颜色空间包括h s i 、h c v 、h s v 、h s b 以及m t m 等,更 适合于以颜色处理分析为目的的应用。 2 1 2 颜色模型的表示方法 1 、r g b 模型 i 沁b 模型是最常用的颜色模型,是一种与人的视觉系统结构密切相联系的 模型。根据人眼结构,所有颜色都可看作是3 个基本颜色红( r ,陀d ) ,绿 ( g ,g 陀e n ) 和蓝( 口,6 z “e ) 的不同组合。r g b 模型可以建立在笛卡尔坐标系 统里,其中3 个轴分别为胄、g 、b 。在这个模型中,从黑到白的灰度值分布在 从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色, 可用从原点到该点的向量表示。 2 、c m y k 模型 c m y k ( c y a l l m a g e n t ay e l l o w b l a c k ,青、紫红、黄、黑) 法多用于印刷。物 理上,青光吸收红光反射绿光和蓝光;紫红光吸收绿光,反射蓝光和红光;黄 光吸收藏光,反射红光和绿光。数字图像文件在内存中的存储方式是r g b 的值, 但由r g b 值转化为c m y 值时,颜色并不与原来相同。因此,为了产生正确的 c m y 的值,必须找到隐含在r g b 值中的灰度,并转为黑色,所以k 值是必不 可少的。 3 、h s i 模型 1 0 面向彩色处理的最常用的模型是h s i 模型,其中h 表示色调,s 表示饱和 度,i 表示密度( 对应亮度或灰度) 。色调表示基本的纯色,饱和度的数值表示 颜色中掺入白光的比例,亮度则表示颜色中掺入黑光的比例。此方法适合于人 的直觉的配色方案,只需要选择色调、色度、亮度,就可以方便的配出所需要 的颜色。 在r g b 空间的彩色图像可以方便地转换到h s i 空间,对任何3 个归一化到 【o ,l 】范围内的r 、g 、b 值,其对应h s i 模型中的h ,s ,1 分量可由下面的公式 计算【1 9 】: h = r g 或r b 县 g s - l 一丽干言两商n g ,固 ,:( r + g + 励3 ( 2 4 ) 当黔0 时,对应无色,此时h 没有意义,定义月为o ;当,- 0 或卢1 时,s 无意义。 4 、h s v 模型 h s v 颜色模型是一种适合肉眼分辨的模型,与h s i 模型相比,更接近于人 类对颜色的感知。它把彩色信号表示为3 种属性:色调、饱和度和亮度h s v ( “e , 册r r 日,f d ”,z “e ) ,用m u n s e l l 三维空间坐标系统表示。因坐标之间的心理感知 独立性,因此可以独立感知各颜色分量的变化:且这种颜色模型具有线性伸缩 性,可感知的颜色差与颜色分量的相应样值上的欧几里德距离成正比。而r g b 颜色空间与人眼的感知差异较大。例如:距离为5 0 的( o ,0 ,o ) 与( 5 0 ,0 ,0 ) 两种r g b 颜 色认为是同一黑色,而距离为5 0 的( 2 0 0 ,1 5 0 ,0 ) 和( 2 0 0 ,2 0 0 ,0 ) 两种颜色则是差别很 大的两种颜色( 黄色和绿色) 。而h s v 模型对应于画家配色模型,能较好反映人 对色彩的感知和鉴别能力,非常适合基于色彩的图像相似比较。 本文研究的图像检索问题。与人类的色彩感知密切相关,故我们选用h s v 颜色模型【2 0 1 。 h s v 模型的色调h 是由颜色名称来辨别的,如红、橙、绿,它用角度 一1 8 0 0 一1 8 0 0 或0 0 - 3 6 0 0 度量;亮度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论