(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf_第1页
(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf_第2页
(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf_第3页
(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf_第4页
(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于mpeg7图像检索系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔演理t 人学t 学硕i j 学位论义 基于m p e g 7 图像检索系统的研究 摘要 随着多媒体和网络技术的飞速发展,基于内容的图像检索c b i r 成为当 前多媒体信息检索研究的热点之一。它的主要思想是根据图像所包含的颜 色、纹理、形状以及对象的空f n j 关系等低层图像特征和语义等高层特征来分 析图像信息,m p e g 7 正式为规范多媒体内容描述而启动的国际标准,它将 描述与信息内容相联系,使快速有效的实现图像检索成为可能。 本文主要围绕m p e g 7 颜色、纹理、形状等底层特征以及语义高层特 征来分析图像信息,并结合相关反馈技术对图像进行检索和实验分析。论文 的主要研究有以下几点: 1 本文提出了通过m p e g 7 主颜色和颜色布局来提取颜色描述符; g a b o r 小波和边缘直方图提取纹理描述符;a r t 和c s s 来分别提取m p e g 7 的区域形状和轮廓形状描述符;动态调整多特征权值实现图像的多特征检 索:并根据m p e g 7 的底层描述符进行实验分析,实验结果表明综合多特 征检索效率的查全率和查准率最好。 2 结合支持向量机s v m 的反馈技术,提出了s v m 增量学习方法。结 合颜色、纹理、形状和多特征对图像进行相关反馈实验分析,并比较s v m 增量相关学习算法。实验表明s v m 渐进增量学习算法能够较好地改善图像 的检索效率。 3 通过m p e g 7 图像描述定义语言d l l 和x m l 语言对图像语义进行 提取,结合x m l 语义分类训练实现对m p e g 7 图像的语义进行检索,相比 于传统的关键字检索,m p e g 一7 语义检索提高了图像的检索效率。 关键词基于内容图像检索;m p e g 7 ;语义检索;相关反馈:支持向量机 哈尔滨理丁人学t 学硕i :学位论文 r e s e a r c ho fi m a g er e t r i e v a ls y s t e m b a s e do nm p e g 7 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i aa n dn e t w o r kt e c h n o l o g y ,c o n t e n t b a s e di m a g er e t r i e v a lc b i rh a sb e c o m eo n eo ft h eh o ts p o t si nt h em u l t i m e d i a i n f o r m a t i o nr e t r i e v a lr e s e a r c h t h em a i ni d e ab a s e do ni m a g er e t r i e v a lc o n t a i n e d i nc o l o r , t e x t u r e ,s h a p ea n ds p a t i a lr e l a t i o n s h i p so fo b j e c t sa sl o w - l e v e li m a g e f e a t u r e sa n ds e m a n t i cf e a t u r e so fh i g h - l e v e li n f o r m a t i o nt oa n a l y z et h ei m a g e s , m p e g - 7 f o r m a l l yr e g u l a t et h ed e s c r i p t i o no fm u l t i m e d i a c o n t e n ta n dt h e i n t e r n a t i o n a l s t a n d a r d s ,i t d e s c r i b et h e r e l a t i o n s h i p b e t w e e nc o n t e n ta n d i n f o r m a t i o n m a k et h ea c h i e v e m e n to fr a p i da n de f f i c i e n ti m a g er e t r i e v a lp o s s i b l e t h i sd i s s e r t a t i o nm a i n l yf o c u s e so nm p e g - 7c o l o r ,t e x t u r e ,s h a p ea n dt h e h i g h - l e v e ls e m a n t i cf e a t u r e s t o a n a l y z et h ei m a g e ,c o m b i n e dw i t hr e l e v a n c e f e e d b a c ki m a g er e t r i e v a lt e c h n i q u e sa n da n a l y s i st h e i m a g er e t r i e v a l ,m a j o r r e s e a r c hh a st h ef o l l o w i n gp o i n t s : f i r s t l y ,a c c o r d i n gt om p e g - 7s t a n d a r dp u tf o r w a r dm p e g - 7d o m a i nc o l o r a n dc o l o rl a y o u tt oe x t r a c tt h ec o l o rd e s c r i p t o r s ;g a b o rw a v e l e ta n de d g e h i s t o g r a mt oe x t r a c t t h et e x t u r ed e s c r i p t o r s ;u s ea r ta n dc s st oe x t r a c tt h e m p e g 一7r e g i o na n dc o n t o u rs h a p ed e s c r i p t o r s ;d y n a m i c a l l ya d j u s tt h ew e i g h to f m u l t i p l yf e a t u r e st or e a l i z et h em u l t i p l yf e a t u r e so fi m a g er e t r i e v a l ;t h r o u g ht h e b o t t o mo fm p e g 一7d e s c r i p t o r st oa n a l y s i si m a g er e t r i e v a le x p e r i m e n t ss h o wt h a t a d j u s tt h ew e i g h to fm u l t i p l yc h a r a c t e r i s t i c si st h em o s te f f i c i e n c yi m a g er e t r i e v a l m e t h o d s e c o n d l y ,t h r o u g hs u p p o r t v e c t o rm a c h i n es v mf e e d b a c kt e c h n o l o g y , p r o p o s e di n c r e m e n t a ls v ml e a r n i n ga l g o r i t h m c o m b i n e dw i t hc o l o r ,t e x t u r e , s h a p ea n dm u l t i p l yc h a r a c t e r i s t i c so fi m a g e st oa n a l y s i ss v m r e l e v a n c ef e e d b a c k , a n dt h ee x p e r i m e n ta l s oc o m p a r et h ei n c r e m e n t a ls v ml e a r n i n gr e l a t e da l g o r i t h m t h ee x p e r i m e n t ss h o wt h a tg r a d u a li n c r e m e n t a ls v ml e a r n i n ga l g o r i t h mi m p r o v e i i 哈尔滨理t 大学t 学硕i 学位论文 t h ee f f i c i e n c yo fi m a g er e t r i e v a lb e s t t h i r d l y ,a c c o r d i n gt om p e g 一7i m a g ed e s c r i p t i o nd e f i n i t i o nl a n g u a g ed l l a n dx m l l a n g u a g et oe x t r a c tm p e g - 7i m a g es e m a n t i c ,a n dt h e nc o m b i n e dw i t h x m ls e m a n t i cc l a s s i f i c a t i o no ft r a i n i n gt or e a l i z et h em p e g 一7s e m a n t i ci m a g e r e t r i e v a l t h i si m a g er e t r i e v a lw a yc a ni m p r o v er e t r i e v a le f f i c i e n c yb e t t e rt h a n t r a d i t i o n a lk e y w o r dr e t r i e v a l k e y w o r d sc o n t e n t - b a s e di m a g er e t r i e v a l ,m p e g 一7 ,s e m a n t i cr e t r i e v a l ,r e l e v a n c e f e e d b a c k ,s u p p o r tv e c t o rm a c h i n e i i i 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于m p e g 7 图像检索系统的 研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研 究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人己发表或 撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均己在文中以明确 方式注明。本声明的法律结果将完全由本人承担。 作者虢勃晶嗍z o o q 年岁月f7 日 哈尔滨理工大学硕士学位论文使用授权书 基于m p e g 7 图像检索系统的研究系本人在哈尔滨理工大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学 所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工 大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文和电 子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影印、缩印 或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密 口, 在年解密后适用授权书。 不保密日。 ( 请在以上相应方框内打) 作者签名: 导师签名: 勤品吼b p 丫年3 月( 7 日 芥泰易嗍丑哆年弓月7 日 哈尔滨珲t 久学t 学硕 学位论文 1 1 研究背景及意义 第1 章绪论 随着计算机和网络技术的迅速发展,图像、视频和音频等多媒体信息技术 的同新月异,人们可以随心所欲的利用各种网络和多媒体资源来改善自己丰富 多彩的生活。当今社会信息技术的进步已经超出了人们的想象,人们如何利用 各种各样的图像资源来进一步提取自己感兴趣的图像成了关注的焦点。为了能 够准确和方便的检索和访问图像资源,图像检索技术便孕育而生。早在2 0 世 纪7 0 年代,在图像处理和数掘库两大技术领域的共同推动下,图像检索技术 就成为了一个非常活跃的研究领域。 根据前人的研究情况来看,信息检索技术大致可以分为基于文本的检索和 内容的检索。早期的文本检索是通过匹配关键字来实现对信息进行查询,对进 行文字搜索比较方便。而对多媒体信息显然就不是很适合。多媒体信息内容丰 富很难用文字完全表达,文字的注释工作不能有效的反映图像的真实数据。基 于内容的图像检索技术( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 1 的研究就是在这 种现实需要的自订提下提出并展丌的。 在互联网技术发展的促动下,基于内容的图像检索已经得到了广泛的关 注,当前的研究都是根据图像的可视化特征展开的,基于内容的图像检索技术 有以下三方面的优势。首先,不需要人工对每一幅图像进行标注,节省了人力 劳动;其次,利用图像本身的内容来描述图像,避免了人工标注的主观性;最 后,可以为用户提供更多的检索方式,如:基于颜色、形状、纹理”“等。但 是,尽管基于内容的图像检索技术已经研究了十多年,并且有了很大的发展, 它仍然无法满足人们的检索要求。其最大的困难就是:系统提取出的图像底层 特征与用户检索时具有的高层语义之间无法对应起来,也就是说图像的底层特 征根本无法表达用户的高层语义1 4 1 。其实,这也一直是计算机视觉、图像理解 以及模式识别等领域的一个难点问题。 运动图像专家组( m p e g ) 提供了解决方案,即多媒体内容描述接口 ( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) ,简称m p e g 7 【5 1 ,它对不同类型的多 媒体信息建立一种标准化的描述,并将该描述与信息内容相联系,以便能用来 快速和有效的查询和访问各种多媒体。 哈尔滨理丁人学t 学坝i j 学位论义 因此,我们可以将国际标准m p e g 7 对图像内容的标准描述应用到实际的 c b i r 系统中,从而改善检索系统的通用性,并提高资源的重复利用率。目前 c b i r 技术主要集中在颜色、纹理、形状等低层视觉特征提取上,但是由于特 征提取和相似性测度的复杂性,其技术仍相当不成熟,如何快速提取有效的图 像特征,是面向网络和实时性要求较高的c b i r 系统的研究热点之一。为了规 范对多媒体信息的内容描述而启动的m p e g 7 标准也在不断完善中,利用它所 建议的有效描述符是c b i r 系统通用性的保证。基于这两项技术的研究既有深 远的意义,也将面临巨大的挑战。 1 2 国内外研究现状 基于内容的图像检索的主要思想是根据图像所包含的颜色、纹理、形状以 及对象的空间关系等m 7 1 信息,建立图像的特征矢量,检索方法主要是基于图像 的多维特征进行相似性查询。通过分析图像的内容,如图像的颜色、纹理、形 状等,建立特征索引,存储在图像特征库中。用户在检索查询时,只要把自己 对图像的模糊印象描述出来,就可以在大量的图像数据库中找到所需的图像。 基于内容的检索是最具有本质性的图像检索,已成为国内外研究的热点。在图 像检索过程中,用户一般对图像的颜色,纹理,形状以及目标的空间关系等比 较感兴趣,根据这些特征研究者提出了多种检索方法。 基于颜色特征的图像检索方法旧1 。颜色特征是图像检索中使用的最可靠的 视觉特征,而颜色直方图是最通常的颜色特征表示方法,所谓颜色直方图其实表 征的就是图片中各种颜色的比例关系。直方图的横轴表示颜色等级,纵轴表示 在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例。由于颜色直 方图简单且对图像的大小、旋转变化不敏感等特点,得到了研究人员的广泛关 注,目前几乎所有基于内容检索的图像数据库系统都把基于颜色的检索方法作 为检索的一个重要手段,并提出了许多改进方法。 基于纹理特征的图像检索方法阳1 。纹理是图像的一个重要属性。很多图像 在局部区域内可能呈现出不规则性,而在整体上却表现出某种规律性。习惯上把 图像中这种局部不规则而整体有规律的特性称之为纹理。显然当某个区域图片 具有相同的颜色时,纹理是其相区别的一个重要特征。通过匹配图片之间的对比 度、粗糙度、方向性、规则性或者周期性、随意性来检索图片。对纹理的分析 有统计方法和结构方法。而当我们进行检索时因为其纹理的难以描述性,所以一 般采用示例方法进行检索。 哈尔滨理t 人学t 学硕i j 学位论文 基于形状特征的图像检索方法“。形状是图像的重要可视化内容之一。在 原始特征检索这个层次,应该说基于形状特征的检索是用户最为需求的。形状是 对象的基本特征之一,而且它不像纹理等特征一样,形状是一个内涵和外延都很 清楚的概念,自然界的对象大部分可以通过其形状特征来加以识别。人工智能、 信息检索、模式识别等领域的专家这方面做了大量的工作,也取得了很多成就。 到目前为止,国内外对c b i r 的研究已经有许多年的历史了,许多大学、 研究单位和公司都投入了大量的人力、物力和财力进行研究和开发。无论是在 研究方面还是在商业方面,他们都取得了可喜的成就,发展了许多技术,同时 也引出了c b i r 中许多值得研究的课题。在这些基础上也产生了一些c b i r 系 统,他们的处理框架大致相同,只是在特征的选取、查询算法以及用户接口的 设计等方面各有不同而己。他们共同的弱点就是通用性不好并且不利于扩展。 下面介绍一些比较有代表性的c b i r 系统。 q b i c ( q u e r yb yi m a g ec o n t e n t ) 相对比较成熟,它可以作为独立的软件产品 使用,也可以作为i b m 公司的d b 2 数字图书馆的一个组成部分。在q b i c 中,建立数据可有三个步骤:采集图像,制作缩略图,加入文字信息。用户可 以有选择的以手工或者半自动方法指定图像中的目标或者区域,当采用手工方 法的时候主要是勾勒边界,使用半自动方法的时候主要是勾画一个范围,系统 自动提取边界。图像库建立之后提取特征,q b i c 的颜色特征主要有颜色直方 图和平均值;纹理特征主要有粗糙度、对比度和方向性等;形状特征主要有目 标的面积、各阶矩、圆形性、离心率和主轴方向等。q b i c 系统实现了基于颜 色、纹理或形状的组合查询,以及基于文字关键字的查询。查询方式实现了基 于模板图像( 例图) 的查找,基于调色板的查找,基于草图的查找。q b i c 是少 数考虑了高维特征索引的系统之一,其索引模块先使用k l 变换降低特征信息 维数,再用r + 树构造多维索引结构,进一步提高了检索速度。q b i c 已经在一 些场合试用,并且在不断更新改进中。 e x c a l i b u r 提供基于6 种图像属性的检索,分别是颜色、形状、纹理、 颜色结构、亮度结构和纵横比。颜色属性是对图像的颜色及其所占的比率进行 测定,但并不包括对颜色的结构或位置的测定,这一项是由颜色结构属性控制 的;形状属性指图像中物体的轮廓或线条的相对方位、弯曲度及对比度;纹理 属性是指图像的平滑度或粗糙度,一幅图的表面特性;亮度属性是指构成图像 的象素组合的亮度。每一个属性值范围从0 到5 。例如,主要以形状属性进行 检索时,将形状属性的权值设为5 ,而将其它属性的权值设为0 或l 。不同的 权值设定产生的结果不同,图像的形状相似性与该图像中的物体是什么没有关 哈尔滨理丁人学t 学顾f :学位论文 系。 麻省理工大学的p h o t o b o o k 项目是其媒体实验室开发的一套交互式图像数 据库浏览和查询工具。在它放在网上的演示版本中给出了四种应用领域的示 范:纹理识别、形状识别、人脸识别和大脑形状识别。纹理识别主要针对以纹 理为主体内容的图像;形状识别给出了一些具有简单形状物体( i n 扳手) 的检索 示例;人脸识别是麻省理工大学基于他们研究的技术基础上开发的重要应用: 大脑识别则是p h o t o b o o k 的一个新的应用领域,它在检索过程中处理图像的 3 d 数据。还有更进一级的版本会允许用户通过动态的加载代码来定义匹配算 法。 v i s u a l s e e k 是基于视觉特征的搜索引擎,w e b s e e k 是一种面向w w w 的 文本或图像搜索引擎。它们都是由哥伦比亚大学丌发的。这两个系统的主要技 术特点是采用了图像区域之i b j 空间关系和从压缩域中提取的视觉特征。系统所 采用的视觉特征是颜色集和基于小波变换的纹理特征。为了加快检索速度,系 统采用基于二叉树的索引算法。v i s u a l s e e k 同时支持基于视觉特征的查询和 基于空间关系的查询。 m a r s 是多媒体分析和检索系统( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m ) 的英文缩写,是伊利诺斯大学分校开发的。m a r s 无论在研究角度还是应用领 域都和其它的图像检索系统有很大的差异。这主要体现在m a r s 一个多交叉 学科融合的产物,包括计算机视觉、数据库管理系统以及传统的信息检索技 术。m a r s 在科研方面的主要特点包括数据库管理系统d b m s 和信息检索技 术i r 的结合( 如何进行分级的精确匹配) ,索引和检索技术的融合( 即检索算法 如何发挥底层索引结构的优点) ,以及计算机和人的融合( 相关反馈技术) 。 m a r s 系统的重点并不在于找到所谓最好的图像特征,而在于根据实际的应用 环境和用户需要在检索框架中动态地组合调整各种不同的图像特征。m a r s 在 图像检索领域正式提出了相关反馈的体系结构。 i f i n d 是微软亚洲研究院开发的图像检索系统。针对c b i r 检索效率较低, i f i n d 系统中增加了一套基于关键字的检索系统;而针对一般相关反馈系统的 短期学习的缺陷,i f i n d 提出并构建了一套关键词扩散网络,用于长期学习用 户业已提供的图像间的相关评价。 与国外在这方面的研究相比,国内的研究主要集中在对理论和算法改进的 基础上,也已经开发出来一些初步实用的图像检索系统。近年来,国内在基于 内容的图像检索方面也得到了很大的发展。例如,浙江大学计算机系研究的基 于图像颜色的检索系统和基于图像形状的检索系统、清华大学的i n t e r n e t 上静 哈尔滨理- c 人学t 学硕l :学位论文 态图像的基于内容的检索的原型系统,中国科学院计算机技术研究正在研究的 多媒体信息检索系统,可以在i n t e m e t 上按内容对图像影像信息或文本信息进 行检索。 从以上的国内外动态可以看出,这些基于内容的图像检索系统主要分为两 大类:一类是按提供的图像例子检索。这种系统首先提取例子图像的特征矢 量,然后再与图像库中的图像的特征矢量进行比较来寻找相似的图像。另类 则按指定的图像视觉特征检索。这种系统将颜色、纹理、形状等视觉特征转化 为特征矢量后与图像库中事先提取的图像视觉特征矢量进行匹配。但是无论哪 种类型,其核心都是对图像内容特征的处理。 随着基于内容的图像检索技术研究的不断深入,需要针对图像低层特征的 提取和描述制订新的标准,m p e g 组织制定了m p e g 7 国际标准。m p e g 7 标 准的全称为:多媒体内容描述接口( m u l t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) 1 1 ,主 要是对多种媒体如:视频、图像、音频等的内容描述进行研究。它将制定一组 能充分有效地描述各种多媒体信息的标准描述器,并且包含相应的内联关系, 最终形成一种描述定义语言。其中的视觉特征描述子部分就是专门针对图像低 层特征如:颜色、纹理和形状进行研究。各大研究机构所提出的特征描述子均 要通过m p e g 7 组织专门的实验测试,具有良好性能的描述子将被列为国际标 准。m p e g 7 的这种描述与多媒体信息的内容一起支持用户对其感兴趣的各种 “资料进行快速有效地检索,不管多媒体资料的表示格式如何,或采用何种 压缩形式,加上这种标准化描述的多媒体数据就可以被索引和检索了。 1 3 本文的主要工作 基于内容的图像检索技术己得到广泛的研究,并取得了较大的进展,本文 在总结他人研究成果的基础上,研究了m p e g 7 图像检索的颜色和形状特征, 并进行了相关的试验工作,下面介绍一下本文的结构安排。 第l 章主要介绍了论文研究的背景,介绍了基于内容的图像检索的发展情 况及研究现状,由此提出了基于m p e g 7 标准的图像检索的研究问题,阐述了 本文的主要研究工作。 第2 章主要介绍m p e g 7 标准及其与基于内容图像检索的联系。首先介绍 了m p e g 7 标准,包括m p e g 7 标准内容和组成部分,重点介绍与本论文研究 工作密切相关的描述符,最后介绍m p e g 7 与c b i r 系统的联系,为论文后续 的工作展开提供了方便。 哈尔滨理t 人学t 学硕i 学位论丈 第3 章主要研究m p e g 一7 颜色、纹理、形状和多特征的提取方法。在颜色 描述符的选取上介绍了主颜色和颜色布局描述符;纹理描述符选介绍了g a b o r 小波和共生矩阵进行提取:形状描述符选用基于区域形状的a r t 和曲率尺度 空间;多特征融合技术选用动态调整多特征权值并结合颜色、纹理、形状等特 征进行检索,最后给出了底层描述符和多特征图像检索实验分析。 第4 章主要研究将相关反馈引入到图像检索系统中。提出了一种基于 s v m 反馈技术,并对s v m 相关反馈算法进行增量学习,并且结合颜色、纹 理、形状和多特征对图像进行相关反馈实验分析。实验表明s v m 增量学习反 馈算法能提高图像的检索性能。 第5 章主要介绍m p e g 7 的语义检索技术,并引入x m l 技术进行检索分 析。与传统的的关键字相比x m l 实现图像语义检索检索效率更佳。x m l 是 m p e g 7 图像语义检索系统的关键。 n 尔演理t 人学t 学顾l 学位论文 第2 章基于内容的图像检索与m p e g 7 标准 2 1m p e g 7 标准 在活动图像专家组( m o v i n gp i c t u r ee x p e l sg r o u p ,m p e g ) 已经制定的国际 标准中,m p e g 1 用来解决声音图像信息在c d r o m 上的存储,m p e g 2 解决 了数字电视、高清晰度电视及其伴音的压缩编码。1 9 9 3 年提出的m p e g 4 用 以解决在多媒体环境下高效存储、传输和处理声音图像信息问题,在1 9 9 8 年 1 1 月形成最终的正式国际标准。但在现有的国际标准中还没有能够解决多媒体 信息定位问题的工具。活动图像专家组的成员们认识到这一现状和实际的需 求,决定在这一应用领域发展一个新的国际标准一m p e g 7 1 1 2 1 ,旨在解决对多 媒体信息描述的标准问题,并将该描述与所描述的内容相联系,以实现快速有 效的搜索。只有首先解决了多媒体信息的规范化描述之后,才能更好地实现信 息定位。它的正式名称是“多媒体内容描述接口”。m p e g 7 标准可以独立于其 它m p e g 标准使用。 m p e g 7 定义了信息的描述格式和语法,提供一套标准化的描述多媒体内 容的工具,可以用它创建多媒体内容的描述,这些描述将成为内容访问类应用 的基础。m p e g 7 为图像检索中的信息描述提供了标准,使得图像检索系统有 了好的架构,同时的通用性和重用性得到了很大的提高。 为了让m p e g 7 标准能够更好地描述多媒体信息,m p e g 7 中主要有下面 八个概念组成,下面分别介绍这些基本概念: ( 1 ) 数据( d a t a ) 用m p e g 7 描述的音频视频信息。例如:一幅彩色图像。 ( 2 ) 特征( f e a t u r e ) 描述数据本身特色的特性。例如:图像的颜色。 ( 3 ) 描述符( d e s c r i p t o r , d ) 定义特征表示句法和语义的表示与结构。例如:颜色的直方图。 ( 4 ) 描述符值( d e s c r i p t o rv a l u e ) 描述符对特定数据的取值。例如:直方图各元素的值。 ( 5 ) 描述方案( d e s c r i p t i o ns c h e m e ,d s ) 指定其元素( 描述符和描述方案) 关系的结构和语义。 哈尔滨理- e 人学t 学硕l j 学位论文 ( 6 ) 描述( d e s c r i p t i o n ) 用描述方案和描述符值描述数据。例如:用颜色直方图描述图像。 ( 7 ) 编码描述( c o d e dd e s c r i p t i o n ) 为满足一定需要而已编码的描述。例如:直方图的矩。 ( 8 ) 描述定义语言( d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ,d d l ) ”3 1 用以产生新的描述方案和描述符的语言,允许修改描述方案和描述符。 m p e g 7 描述定义的语言主要元素与组成部分包括以下几个部分。描述工 具:包括描述符( d ) 和描述方案( d s ) 。描述定义语言( d d l ) :定义m p e g 一7 描述 工具的语法。系统工具( s y s t e mt o o l s ) :支持二进制编码表示以实现有效的存储 和传输、传输机制( 满足文本和二进制两种格式) 、描述复用、描述同步、 m p e g 7 描述中知识产权的管理和保护等等。 m p e g 7 主要元素的关系可参见图2 1 ,其中有些描述方案和描述符是标 准中定义的,有些描述方案和描述符在标准中并没有确定。 描述疗案 图2 - 1m p e g - 7 主要元素的芙系 f i g 2 - 1t h er e l a t i o n s h i po fm p e g - 7 m a i ne l e m e n t s 从图2 1 可以看出,d d l 定义了m p e g 7 中描述符和描述方案的语法,描 述符用于构造描述方案,在m p e g 7 中采用分层描述,描述方案可能既是描述 符又是描述方案。描述方案被实例化成文档或流的形式,最后得到的描述可以 用文本的形式( 例如,用于编辑、搜索和过滤的人类易读的x m l ) 或二进制的形 哈尔滨理t 人学t 学硕i j 学位论文 式( 例如,用于存储和传输) 表示1 。 2 2m p e g 7 视觉描述工具 m p e g 7 标准中的视觉描述工具包括基本结构和描述符”引。 2 2 1 基本结构 共有五种与视觉相关的基本结构:网格布局、时间序列、多重视图、空间 二维坐标和时间插值。 ( 1 ) 网格布局 网格布局是将图像分成一组大小相等的矩形区域,这样就可以对每个区域 独立的进行描述。每个网格区域可以使用其它描述符,例如颜色或纹理进行描 述。此外,网格布局允许分配子描述符给所有的矩形区域,或者矩形区域的任 意一个子集。 ( 2 ) 时间序列 时间序列定义视频片断中描述符的一个时间序列,它能提供图像与视频帧 的匹配,以及视频帧与视频帧的匹配。时间序列有两种可用类型:规则时l 日j 序 列和不规则时间序列,前者描述符规则地位于给定的时间区间内( 有固定的时 间间隔) ,这样可以得到一些简单的表示方法以满足低复杂性的应用;后者描 述符不规则地位于给定的时间区间内( 有变化的时间间隔) ,这样可以得到有效 的表示方法以满足窄带宽传输或低存储性能的应用。 ( 3 ) 二维和三维多重视图 2 d 3 d 多重视图指定一种结构,将一些2 d 描述符结合起来,表示一个从 不同视角观察的3 d 对象的视觉特征。它构造了一个完全基于3 d 视图的对象 表示,可以使用任何2 d 视觉描述符,例如轮廓形状、区域形状、颜色或纹 理。2 d 3 d 描述符支持2 d 描述符( 用在图像平面上) 的集成,来描述3 d ( 真实世 界) 对象的特征。它既允许通过3 d 对象的纯2 d 视图,又允许通过3 d 对象视 图的比较,来进行3 d 对象之间的匹配。 ( 4 ) 空间二维坐标 空间2 d 坐标定义了一个在其它描述符中可以使用的2 d 空间坐标系统。 它用图像和坐标系统之间的一个映射定义,其优势在于:即使改变图像大小或 剪辑图像的一部分,也不需要修改m p e g 7 描述,仅仅要求从最初的图像到编 辑的图像的映射描述。 哈尔滨理t 人学t 学硕f j 学位论文 空间2 d 坐标支持局部和综合的两种坐标系统。在一个局部的坐标系统中 所有图像都被映射到相同位置;在一个综合的坐标系统中每个图像( 帧) 可以被 映射到不同的区域。 ( 5 ) 时间插值 时间插值描述使用连接的多项式的时阳j 插值。这可以用于表现随时间变化 的多维变量值,例如视频中某个对象的位置。时间插值描述所占用的空间通常 远远小于描述所有变量值所占用的空间。 2 2 2 颜色描述符 m p e g 7 定义的颜色特征包括7 种颜色描述符n 引,分别是颜色空间f c o l o r s p a c e ) 、颜色量化( c o l o rq u a n t i z a t i o n ) 、主颜色( d o m i n a n tc o l o r s ) 、可伸缩颜色 ( s c a l a b l ec o l o r ) 、颜色御) 蜀( c o l o rl a y o u t ) 、颜色结构( c o l o rs t r u c t u r e ) 和帧组图 像组颜色( g o f g o pc o l o r ) 。图2 2 给出了m p e g 7 中颜色描述符示意图。 图2 2m p e g 7 颜色描述符 f i g 2 - 2t h ec o l o rd e s c r i p t o ro fm p e g 一7 ( 1 ) 颜色空间 这个描述符主要用于其它基于颜色的描述,当前描述所支持的颜色空间 有:r g b 、y c b c r 、h s v 、h m m d 、关于r g b 的线性变换矩阵、单色。绝大 多数的可视数据是使用r g b ( 计算机) 和y c b c r ( 视频) 表示的,因此,这两种颜 色空间是默认支持的。另外,h s v 和h m m d 在查找和检索应用中可以达到了 更好的结果,因为它们更接近人类对颜色的感知方式。通过支持r g b 的任意 线性变换,就可以支持很多传统的颜色空间。单色空间可以补充其它描述符要 使用的上下文,比如单色图像的直方图等。 ( 2 ) 颜色量化 哈尔滨理t 大学t 学顾i :学位论文 该描述符定义了颜色空间的均匀量化。量化产生的维( b i n ) 的数目是可配置 的,这样使得各种应用具有更大的灵活性。要使这个描述符在m p e g 一7 背景下 有应用意义,例如表示主颜色值的含义,必须结合其它颜色描述符。 ( 3 ) 主颜色 该描述符最适用于表示局部( 对象或图像区域) 特征,几种颜色就足以表达 我们感兴趣区域的颜色信息。当然,它也可以用于整个图像,例如旗帜图像或 彩色商标图像。颜色量化用于提取每个区域图像的少数代表颜色,并相应的 计算出区域中每种量化颜色所占的百分比。同时还定义了整个描述符的空间相 关性,用于相似性检索。 ( 4 ) 可伸缩颜色 可伸缩颜色描述符是h s v 颜色空间的颜色直方图用( h a a r 变换编码) 。根 据维的数目和比特表示的精度,它的二进制表示在一定数据速率范围内是可伸 缩的。这个描述符主要用于图像与图像的匹配和基于颜色特征的检索,检索的 精度随着描述中使用的比特数目的增加而增加。 ( 5 ) 颜色布局 该描述符以一种紧凑的形式,有效的表达了颜色的空间分布。这种紧凑性 以很小的计算代价,带来高速的浏览和检索它提供图像与图像的匹配和超高速 的片断与片断的匹配,这些匹配要求大量相似性计算的重复。由于该描述符表 达了颜色特征的布局信息,因此它可以提供相当友好的用户接口,例如使用其 它颜色描述符中均不支持的手绘草图查询。 ( 6 ) 颜色结构 颜色结构描述符是一个颜色特征描述符,它既包括颜色内容信息( 类似于 颜色直方图) ,又包括内容的结构信息。它的主要功能是图像与图像的匹配, 主要用于静态图像检索,在这罩一幅图像可能由一个单一矩形或者任意形状、 可能是非连通的区域组成。提取方法是:通过考虑一个8 x 8 像素的结构化元素 中的所有颜色,将颜色结构信息加入到该描述符中,而不是单独考虑每个像 素。 ( 7 ) 帧组图组颜色 帧组图组颜色描述符将用于静态图像的可伸缩颜色描述符扩展到对视频 片断或静态图像集合的颜色描述。在h a a r 变换之前,用附加的两个比特定义 如何计算颜色直方图,是均值、中值还是相交。 哈尔滨理工大学工学碗十学位论立 2 2 3 纹理描述符 m p e g 一7 建议了三种纹理描述符”“:同质纹理描述符( h o m o g e n o u st e x t u r e d e s c r i p t o r s ) 、纹理浏览描述符( t e x t u r eb r o w s i n gd e s c r i p t o r s ) 和边缘直方图描述 符( e d g eh i s t o g r a md e s c r i p t o r s ) a ( 1 ) 同质纹理 同质纹理作为一个重要的视觉基本特征,主要用于大量相似图案的搜索和 浏览。一幅图像可看作由规则纹理以马赛克形式拼接而成的,所以与这些区域 关联的纹理特征可以作为索引来检索图像。例如,用户浏览一个航空图像数据 库,可能想识别图像集合中的停车场。当从远处观察时,汽车规则以相等间隔 停放的停车场就是一个极好的同质纹理图案的例子。同样的,从空中或是卫星 拍摄的农田和植被图像也是规则纹理的示例。该描述符可以支持诸如“检索吉 林省的所有陆地卫星图像,找出云量少于2 0 的图像”或者“找出一个看起来 与这个区域相似的植被”的查询。 ( 2 ) 纹理浏览 对于浏览类型的应用,纹理浏览描述符对于表示同质纹理非常有用,最多 只需要1 2 比特。它根据规则性、租糙度和方向性表达纹理的感知特性。该描 述符与同质纹理描述符相结合,为图像中同质纹理区域的表示提供了一个可伸 缩的解决办法。 ( 3 1 边缘直方图 边缘直方图描述符表示5 种类型边缘的空间分布图2 3 ,即4 种具有方向 性的边缘和一种无方向性的边缘图。对于图像感知边缘扮演了一个重要角色所 以它可以用于相似语义的图像检索,因此它的主要目标在于图像与图像的匹配 ( 通过示例或草图) ,特别是边缘分布不规则的自然图像。如果边缘直方图描述 符与其它描述符如颜色直方图描述符相结合,将可以显著提高图像检索的性 能。 j 一口f ( a ) 纵向( b ) 横向( c ) 4 5 度( d 1 3 5 度 i e ) 1 f 方向 图2 - 3m p e g 7 边缘直方幽 f i g2 - 3 t h ee d g e h i s t o g r a mo f m p e g 一7 哈尔滨理t 大学工学硕l 学位论文 2 2 4 形状描述符 m p e g - 7 定义了三种形状描述符“:基于区域的形状( r e g i o ns h a p e ) 、基于 轮廓的形状( c o n t o u rs h a p e ) 和三维形状( s h a p e3 d ) 。 ( 1 ) 基于区域的形状 一个对象的形状可能只包括一个单一区域,也可能包括多个区域,同时在 对象中还可能有一些孔见图2 - 4 。因为基于区域的形状描述符充分利用了一个 帧内组成形状的所有像素,所以它可以描述任何形状,不但可以描述有一个单 一连通区域的简单形状( 如( a ) 和( b ) ) ,而且可以描述由对象中一些孔或几个不相 连区域组成的复杂形状( 如( c ) 、( d ) 和( e ) ) 。基于区域的形状描述符不仅能够有效 描述这些不同的形状,而且对于沿对象边界的较小变形具有一定的健壮性。 q 薅 pp - 4 ) - 0 球)0 ) 圈2 _ 4 各种形状的例子 f 嘻2 4e x a m p l e so f v a r i o u ss h a p e s 图2 - 4 中的( g ) 、( h ) 和( i ) 是形状十分相似的图像,区别在于杯子的把手,( g ) 在把手较低处有条裂纹,而( i ) 中的把手是实心的。基于区域的形状描述符认为 ( 曲和m ) 相似而与( i ) 不同。类似的,图3 7 中的0 ) 、( k ) 和( i ) 是两个圆盘分丌的视 频序列的一部分,基于区域的形状描述符认为它们是相似的。 基于区域的形状描述符具有小的数据量、快速的提取时自j 和匹配等特点, 表示该描述符的数据大小固定为1 75 字节显然,特征提取和匹配过程能够拥 有较低的计算复杂度,因此适合于在视频数据处理中跟踪外形。 ( 2 ) 基于轮廓的形状 基于轮廓的形状描述符基于对象或区域的轮廓获得它的形状特征。它使用 曲率尺度空间( c u r v a t u r es c a l es p a c e ,c s s ) 表示,获得形状的感知特征。 ( 3 ) 三维形状 在描述三维物体的形状特征时,首先建立物体的三维网格( 3 dm e s h ) 模型, 爹 哈尔滨理下人学t 学硕i j 学位论文 然后在物体表面的局部区域计算出该处的形状指数( s h a p ei n d e x ) 。三维形状描 述子事实上就是基于形状指数的直方图。物体表面点p 处( 网格

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论