(计算机软件与理论专业论文)基于内容的图像检索研究.pdf_第1页
(计算机软件与理论专业论文)基于内容的图像检索研究.pdf_第2页
(计算机软件与理论专业论文)基于内容的图像检索研究.pdf_第3页
(计算机软件与理论专业论文)基于内容的图像检索研究.pdf_第4页
(计算机软件与理论专业论文)基于内容的图像检索研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机软件与理论专业论文)基于内容的图像检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘要 随着多媒体技术因特网络的迅速发展,图像来源不断扩大,大容量高速存 储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越广泛, 图像信息资源的组织、管理和检索显得日益重要。为提高图像资源的利用率, 如何有效地、快速地从大规模的图像数据库中检索出需要的图像是目前一个急 需解决的重要问题,基于内容的图像检索技术和基于语义的图像检索技术正是 解决这一问题的有效途径。 本文介绍了基于内容的图像检索的背景、应用、研究的现状和发展趋势以 及现有的图像检索系统;详细阐述了基于内容的图像检索研究的各个关键技 术。并在深入研究相关反馈技术的基础上,主要围绕图像内容的多义性展开详 细的研究。图像的可能性隶属度可以表示出图像的多义性。在分析图像可能性 隶属度的基础上设计了一种基于可能性聚类的自适应相关反馈的图像检索方 法。该方法首先利用可能性聚类算法将图像库中的图像分类,这样查询仅在已 分好的类中进行,然后通过相关反馈技术在线理解用户的查询意图,自动调整 相似度测量准则以符合用户需求。 基于对象的图像检索就是根据图像中是否包含某个( 或某些) 对象来决定 其是否为用户所需。基于人脸对象的图像检索具有极大实用价值,它的关键技 术之一是人脸识别。人脸识别可以描述为:在已知的入脸样本库中,利用图像 处理和模式识别技术从静态或动态场景中,识别或验证一个或多个人脸。对此 本文也研究了人脸检测与人脸识别的方法、分类器的设计以及多分类器融合的 识别方法。并且根据粗糙神经网络可以缩短训练时问和优化网络拓扑结构的特 性,提出了一种基于粗糙神经网络的多特征领域多分类器融合的人脸识别方 法 关键字:图像检索;可能性聚类算法;可能性隶属度;自适应相关反馈;特征 维;人脸识别:粗糙集;粗神经网络;特征领域;多分类器融合 基于内容的图象检索研究 a b s t r a c t w i t ht h e w i d e n i n gu s a g eo fi m a g e ,t h et e c h n o l o g yo fo r g a n i z a t i o na n d m a n a g e m e n ta n dr e t r i e v a lo fi m a g es o u r c ei sb e c o m i n gm o r ea n dm o r ei m p o r t a n t i no r d e rt oi m p r o v et h eu t i l i z a t i o no fi m a g es o u r c e ,i m a g er e t r i e v a lf r o mt h eh u g e i m a g ed a t a b a s ew i t hh i g hs p e e da n de f f i c i e n c yi sn e e d e dt ob es o l v e du r g e n t l y t h et e c h n o l o g yo fc o n t e n t b a s e di m a g er e t r i e v a l ( c b i r ) a n ds e m a n t i cb a s e di m a g e r e t r i e v a la r ee f f e c t i v ea p p r o a c h e st os o l v et h ep r o b l e m t h e p a p e r i n t r o d u c e st h e b a c k g r o u n d ,t h ea p p l i c a t i o n a n da n ds o m e r e p r e s e n t a t i v es y s t e m so fc b i r ,a n de x p a t i a t e st h ek e yt e c h n i q u eo fc o n t e n t b a s e d i m a g er e t r i e v a li nd e t a i l a f t e rr e s e a r c h i n gr e l e v a n c ef e e d b a c k , w ef i r s t l yf o c u so n t h ei m a g ec o n t e n tm u l t i p l ei n t e r p r e t a t i o n sa n dt h e nd or e s e a r c ha r o u n dt h i ss h b j e c t t h ei m a g ep o s s i b i l i t i s t i cm e m b e r s h i pc a ne x p r e s st h em u l t i p l ei n t e r p r e t a t i o n so f a ni m a g e i nl i g h to ft h ei m a g ep o s s i b i l i t i s t i cm e m b e r s h i p ,an e wi m a g er e t r i e v a l m e t h o dw i t hr e l e v a n c ef e e d b a c kb a s e do np o s s i b i l i s t i cc l u s t e ri sp r o p o s e di nt h i s p a p e r t h em e t h o df i r s t l yc l a s s i f y si m a g e s i n i m a g e d a t a b a s e u s i n gt h e p o s s i b i l i s t i c c l u s t e r a l g o r i t h m s ,t h e nj u s ti n q u i r i n gi m a g e s i nt h ee x i s t e n t c l a s s i f i c a t i o n t h ep a p e ra l s op r o p o s e san e wr e l e v a n c ef e e d b a c ki m a g er e t r i e v a l a l g o r i t h m ,f e a t u r e si nw h i c ht h eu s e ri se s p e c i a l l yi n t e r e s t e dw i l lb ec h o s e na st h e a t t r i b u t e si ni m a g er e t r i e v a la c c o r d i n gt ou s e r sp r e f e r e n c ef e e d b a c k i no b j e c tb a s e di m a g er e t r i e v a lm e t h o d ,w h e t h e rap i c t u r ei st h eu s e r s r e q u i r e m e n to rn o ti sd e t e r m i n e db yw h e t h e ri tc o n t a i n sas p e c i a lo b j e c to rn o t f a c eo b j e c tb a s e di m a g er e t r i e v a li sv a l u a b l ei na p p l i c a t i o n i t sk e yt e c h n i q u ei s f a c e r e c o g n i t i o n f a c er e c o g n i t i o nm e a n sr e c o g n i z i n go rv e r i f y i n go n ef a c e ( o r s e v e r a lf a c e s ) f r o mt h ef a c ei m a g ed a t a b a s eu s i n gi m a g ep r o c e s s i n ga n dp a t t e r n r e c o g n i t i o nt e c h n i q u e s ot h ep a p e ra l s od os o m er e s e a r c h e so nt h em e t h o do ff a c e d e t e c t i o na n df a c er e c o g n i t i o na n dt h ed e s i g nc l a s s i f i n gm e t h o d a c c o r d i n gt ot h e 硕士学位论文 a d v a n t a g ei nr e d u c i n gt r a i n i n gt i m ea n do p t i m i z i n gn e t w o r kt o p o l o g ya r c h i t e c t u r e o fr o u g hn e u r a ln e t w o r k ,an o v e lf a c er e c o g n i t i o nm e t h o di s p r e s e n t e db a s e do n m u l t i f e a t u r e su s i n gf u s i o no fm u l t i p l er o u g hn e u r a ln e t w o r k sc l a s s i f i e r s k e yw o r d s :i m a g er e t r i e v e ;p o s s i b i l i s t i cc l u s t e r i n ga l g o r i t h m s ;p o s s i b i l i s t i c m e m b e r s h i p ;a d a p t i v er e l e v a n c ef e e d b a c k ;c o m p o n e n to ff e a t u r e ;f a c er e c o g n i t i o n ; r o u g hs e t ;r o u g hn e u r a ln e t w o r k ;f e a t u r ed o m a i n ;f u s i o no fm u l t i p l ec l a s s i f i e r s 基于内容的图象榆索研究 插图索引 图4 1 人脸识别基本模型3 5 图5 1 粗糙集中各概念的图示关系5 4 图5 2b p 神经网络模型6 0 图5 3 自联想神经网络6 0 图5 4 粗糙神经网络6 1 图5 5 人脸识别系统的体系结构6 3 图5 6 原始人脸图象示例。6 4 附表索引 表3 1 两种算法测试结果比较3 3 表5 1 识别率( ) 比较6 5 兰州理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:扣) 锗么日期:叩年 月2 宫日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“”) 作者签名:“剀榴乞 导师签名5 如, , , 一| 日期:卵年期。日 日期叼年r 月西日 1 1 研究背景与意义 第1 章绪论 随着多媒体、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来 越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题。图像所 含的信息量很大,俗语一图值千字就说明了这个事实,但是由于图像信息数据量 大,抽象程度低,因此信息膨胀带来的问题很严重。而如何有效的表达、组织、 管理、查询和检索这些海量的视觉数据就成为信息时代人们迫切需要解决的问 题。 1 1 1 传统技术在图像检索中的局限性 在信息的组织、管理和检索方面,传统上应用最广泛的是数据库技术,它采 用基于关键词的检索方式,这对于处理结构化比较强的文本、数值信息效果比较 好,然而它对于图像和视频这些视觉信息的检索却具有相当大的局限性,这是由 视觉信息自身的特点决定的,它们与传统的文本、数值信息相比具有如下的特点 【l 】: 1 、非结构化特性在传统的文本、数值数据库中,记录信息具有明显的结 构特性,它是现实世界中对象间关系的反映,可通过实体一关系模型抽象得到。 与此相比,图像和视频对象具有较强的非结构化特性,许多多媒体信息以流的形 式存在( 例如视频流) ,这种媒体想要得到它的信息,必须对它先进行结构化处理, 而这种结构化不能通过简单的抽象来完成,而需要相应的媒体分割和组织技术。 2 、内容多义性。在传统的文本、数值数据库中,每一个记录所包含的语义 确定而且有限。而对于像图像或视频这样的多媒体对象来说,具体内容往往对不 同的用户、不同的应用具有不同的解释,即具有多义性的特点,这样其内容就很 难通过有限的属性来充分描述。此外,对多媒体对象的检索一般都是内容相似程 度的检索一即查找内容描述与检索要求最接近的对象。这就要求建立的内容描述 基于内容的图象检索研究 支持内容相似性程度的比较,这是在传统的文本、数值数据库中采用的定性描述 所不能满足的。 这些特点表明,传统的数据库模型已经不能满足对图像、视频等视觉信息的 管理和检索要求作为多媒体数据库研究的内容之一,基于内容的图像检索 ( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 的研究具有愈加重要的意义。随着数字化 多媒体数据的飞速增长,对于这些资料的快速查找也成为一个非常迫切的需求 因此,基于内容的多媒体信息检索己经成为一个热f - j 的研究领域,它是对基于文 本描述的检索方法的一个十分有益的补充。 1 1 2 基于内容的图像检索 图像检索自7 0 年代来就成为一个非常活跃的领域,其动力主要来源于两个领 域:计算机视觉和数据库系统。传统的基于文本的图像检索,研究主要在数据库 领域中进行,其典型框架是,首先对图像用文本进行注释,然后在基于文本的数 据库管理系统上进行图像检索。当图像库中的图像数目不大并且图像的内容比较 单一时这不失为一种简单可行的方法,但是当图像库非常大时,基于文本的图像 检索便存在着两大问题:其一是对图像标注所需的人工工作量太大:其二是由于 图像内容的丰富性,即使对同一幅图像,不同的人有不同的理解,图像注释的主 观性和不精确性可能影响到后继的检索过程乜1 为了克服基于文本方法的局限 性,2 0 世纪9 0 年代出现了基于内容的图像检索c b i r 系统,它是指直接针对图像 内容进行图像信息查询的检索系统。 基于内容的图像检索是由用户提交检索样本,系统根据样本对象的底层物理 特征生成特征集,然后在数据库中进行相似性匹配,得到检索结果的过程。由于 避开了人工分类等问题,基于内容的图像检索具有明显的优越性。目前,大部分 c b i r 是按照图像的原始视觉特征,在第一层次上进行检索。然而,从实际日常应 用的角度来说,语义图像检索的用途更加广泛当前主要研究的重点都是在己知 图像的类别上进行图像理解的例如,在遥感图像上找出目标,在机器人的视觉 图像上实时找出人脸,在人脸的图像中找出五官轮廓并进行匹配,在医学图像上 自动找出癌细胞等等。这些都能够很好地解决专业领域的问题,但是对于普通的 2 硕士学位论文 用户用不上。对于普通用户,如果可以使用类似于目前的文字搜索引擎的方式, 对要检索的内容进行基本的文字描述,“图像搜索引擎”则根据一些基本的词法 分析,得到搜索的要点,然后在图像库中根据要点分门别类的逐级搜索,最终得 到内容上最贴切的一系列图像,那样就很不错了这种搜索方式虽然类似于基于 关键字的搜索,但是他是在计算机理解了图像内容的基础上进行的。而这种基于 图像分类的图像检索的工作方式也与大多数在图像原始特征上进行的c b i r 有很 大的不同。但是由于图像内在语义( 用户的主观评价) 与系统自动提取的图像视觉 特征( 颜色、纹理等) 之间难以匹配( 即所谓的语义鸿沟) ,目前这种方法的检索效 果还不能满足实用的要求。 1 1 3 基于人脸对象的图像检索 很多情况下,用户仅仅对图像中的一个或几个对象感兴趣,基于对象的检索 能够满足这样的检索需求口1 “。本文选择基于人脸对象的图像检索这一研究方向 主要有以下三方面的原因: 1 、人作为自然界独立而又比较常见的对象,并作为人类社会的一个智能型 个体,其行为必然成为自然界中的核心,一举一动必然会引起周围环境的关注。 在视频图像中,人是最常见而又有明显特征的对象,通常也是人们感兴趣的对象 【5 】e 1 0 2 、在诸多能表示人类个体差异的特征中,如人脸、人的体形、衣服、发型、 走路姿势等等,人脸特征比较具有代表性和稳定性,并且不需要人的直接参与 3 、人脸是人类用来区分不同人类个体的主要途径之一,而且受观察条件、 表情、年龄、伪装( 如戴眼镜) 和发型改变等各种因素的影响较小,本文研究基于 人脸对象的图像检索与人类的认知规律比较一致。具体来讲,本文研究的问题是 。根据给定的一幅例子图像中的特定人脸对象,通过在图像库中找与该人脸对象 相似的人脸图像来识别” 3 基于内容的图象检索研究 _ _ _ _ 量暑墨墨墨量量曼曼曼曼! 置曼皇堂皇量曼曼曼曼曼曼曼量量量詈詈曼曼置曼量曼曼曼曼曼曼曼曼曼量置罾im 1 2 应用前景 基于内容的图像检索的研究对推动图像技术的发展和丰富信号与信息处理 的理论有重要意义。其应用对解决信息膨胀、多媒体信息的快速有效的利用也有 实际的价值:并成为多媒体数据库、数字图书馆、网上浏览检索、人脸识别、网 络信息安全等重大项目中的关键技术7 1 :同时也和国际标准m p e g 一7 密切相关n 1 。 人脸识别可以用于身份认证公共场合对人的监视,在提高人与计算机的交 互能力等方面起重要作用。近年来能在公共场合自动进行人脸识别的系统已成为 研制的热点曲1 。人脸识别在许多情况下与对人体和器官的检测密切相关,所以近 年来有关研究得到广泛重视。人脸识别已成为基于内容视觉信息检索中的重要研 究内容。 基于内容的图像检索是一种实用性很强的技术,可以应用在社会和生活等各 个领域,如: 数字图书馆; 夺医疗诊断; w e b 相关应用; 建筑、室内设计; 遥感和地球资源管理( 卫星农业分布、森林采伐、交通等) ; 军事( 雷达、空间、卫星目标识别) ; 文化( 画廊、博物馆) 等; 人脸识别等。 1 3 研究现状 在国外,基于内容的图像检索技术是随着数字图书馆的发展,而逐渐发展并 成为一个研究热点。1 9 9 4 年美国启动了持续4 年的“数字图书馆”项目1 9 9 8 年, 美国自然科学基金会( n s f ) ,国防部高级研究计划署( d a r p a ) ,国家航空航天 4 硕士学位论文 局( n a s a ) ,国家医学图书馆( n l m ) ,国会图书馆( l o c ) ,国家人文科学基金 会( n e h ) 和联邦调查局( f b i ) 联合自主d l i 第二期计划的( d l l 2 ) 的实施,掀起了 全球性的数字图书馆研究( d l i i ) 热潮“”。在数字图书馆中,一个关键的问题是 检索问题,集中在以下两个方面:一是解决目前i n t e r n e t 的信息检索问题;二是多 媒体信息的检索n ”因为图像属于一种视觉信息,所以图像检索问题在两个方 面中都存在。 虽然当前的c b i r 技术的研究还很不成熟,但是作为商业软件包的图像检索 系统已经问世,在网络上的演示版本也相应出现。具有商用价值的著名软件包系 统包括i b m 公司的q b i c 系统( f l i c k n e re ta l 。1 9 9 5 ) “”、v i r a g e 公i 拘v i r 像工 程系统( g u p t ae ta l ,1 9 9 6 ) “”、e x c a l i b u r 公司的e x c a l i b u r 视觉检索产品( f e d e r , 1 9 9 6 ) 】。 i b m 公司的q b i c 系统可能是最著名的产品,它可以作为独立的软件产品使 用,也可以作为i b m 公司的d b 2 数字图书馆的一个组成部分o b i c 系统实现了 基于颜色、纹理或形状的组合查询,以及基于关键字的查询。查询接口方式实现 了基于模板图像的查找,基于调色板的查找,基于草图的查找。v i r a g e 公司的v i r 图像工程系统也具有独立性及附属性,并且被应用于a l t a v i s t a 的网络图片查询工 具a vp h o t of i n d e r 中。e x c a l i b u r 公司的e x c a l i b u r 视觉检索产品( f e d e r ,1 9 9 6 ) 是在 公司长期研究的模式识别理论和数据库技术的基础上研制出来的,现已被成功地 应用于y a h o o 上,即图像冲浪组件,实现了基于内容的图像检索。这些产品共同 特征是:都是基于图像特征矢量的检索,数据库中的每一幅图像都由一个不超过 5 0 0 个元素的特征矢量描述。特征矢量一旦产生,就永久性地存储下来,查询时 的搜索只是基于特征矢量的查询。特征矢量之间的欧氏距离作为相似性度量的准 则,按照距离的大小给出查询结果。 为了演示新技术的可行性,许多研究机构研制了大量的演示软件,主要有 m i t ( m a s s a c h u s e t si n s t i t u t e o ft e c h n o l o g y ) 的p h o t o b o o k 系统( p e n t l a n de ta l 。 1 9 9 6 ) n 1 ,哥伦比亚大学的v i s u a l s e e k 系统( s m i t ha n d c h a n g ,1 9 9 7 a ) “1 ,美国伊 利诺斯大学的m a r s ( h u a n ge ta l ,1 9 9 7 ) “ 系统等。这些演示系统在应用已有的 商业软件中的技术的同时,进行了新理论的应用探讨。 5 基于内容的图象榆索研究 p h o t o b o o k 系统突出的特点是允许查询者根据应用的特点,选择某种恰当的 特征进行查询。虽然不是一个商业软件,但是它的人脸识别检索技术己被应用于 美国的警察机关v i s u a l s e e k 系统作为最早的演示软件,实现了基于颜色、形 状和空间位置,以及基于关键字的查询,它主要是为了实现基于网络的图像检索。 m a r s 系统使用不同的特征和不同的相似性度量准则比较模板图像和图像库中 的图像。针对查询者的反馈,调整各个图像相似性度量结果的权重,从而达到按 查询者要求修改检索结果的目的。 基于人脸对象的图像检索的关键技术之一是人脸识别。人脸识别技术在国内 外都有比较长时间的研究,并有一些研究成果。相对来讲,基于人脸对象的图像 检索技术方面的研究比较薄弱,尤其是针对复杂背景的图像的研究,包含了人脸 识别以外的许多相关技术,如精确的人脸检测、人脸分割等,有很大的难度 近十年来,人脸识别技术成为图像处理领域的研究热点,国内外许多学者都 进行了这方面的研究。国外许多著名的大学如m i t 、密西根州立大学、卡内基梅 隆大学、s u r r y 大学等在这一领域都有很深的研究积累,许多著名的方法如基于 本征脸的人脸识别方法、基于变形模板的眼睛和嘴的定位、弹性图匹配方法等等 都应用于目前的人脸识别和人脸处理中。国内也有许多大学和研究所如中科院计 算所、清华大学、中山大学、北方交通大学、北京工业大学等也在进行这方面的 研究目前常用的一类人脸识别方法是利用人脸图像的整体信息进行识别,另一 类是从人脸图像中提取特征信息用于人脸识别 1 4 本文的主要研究工作 对于像图像或视频这样的多媒体对象来说,具体内容往往对不同的用户、不 同的应用具有不同的解释,即具有多义性的特点。传统的图像分类方法是一幅图 像属于一个类中,图像的可能性隶属度可以表示出图像的多义性,在利用图像可 能性隶属度进行分类的基础上提出一种新的图像检索方法。该方法利用可能性聚 类算法( p o s s i b i l i s t i cc l u s t e r i n ga l g o r i t h m s ,简称p c a ) 将图像库中的图像分类,在 此基础上检索图像,检索仅在已分好的类中进行,还提出了一种新的相关反馈图 6 硕士学位论文 像检索算法,它依据用户的反馈信息,自适应选取用户感兴趣的特征维用于图象 检索系统和用户通过交互,逐步使识别向着用户期望的方向前进,并最终达到 用户的要求。 人脸识别是目前非常活跃的研究领域,它跨越了图像处理、模式识别、计算 机视觉和神经网络等诸多研究范畴,具有广泛的应用前景,如安全监控、身份确 认、图像检索等。神经网络中大量神经元并行分布运算的原理,高效的学习算法 以及对人认知系统的模仿能力等,使它极适于解决人脸识别问题国内外提出了 许多基于神经网络的人脸识别方法,在识别效果的准确率、容错性和健壮性等方 面取得了一定的进展。但是它不能确定数据样本中哪些知识是冗余的,哪些知识 是有用的,同样也存在规则获取的难题。粗糙集理论是一种新的处理模糊和不确 定信息的数学工具,它可以描绘知识表达中不同属性的重要性,通过约简去掉冗 余知识,进行知识表达空间约简,直接从训练数据中提取精简规则。将他们有机结 合起来构造粗糙神经网络,利用粗糙神经网络作为分类器进行识别。单一分类器 一般不能取得满意的识别率。近年来,多分类器融合的方法已成为模式识别的研 究热点,在生物特征识别领域也得到了应用。用单一特征领域进行识别不能兼顾 识别过程中多方面特征的权衡,所以单一特征领域的人脸识别率往往不高对此 本文利用粗糙神经网络作为分类器,提出了多特征领域多分类器融合的识别方 法。 1 5 本文的构成 本文的具体组织结构如下: 第一章、绪论。本章主要介绍了图像检索研究的目的和意义,国内外研究现 状,阐述了本文主要研究工作和组织结构安排。 第二章、基于内容图像检索的的概述。本章详细介绍了基于内容的图像检索 的特点、技术和采用的方法,以及基于内容图像检索系统构成。 第三章、可能性聚类算法( p c a ) 和相关反馈算法与图像检索。本章首先介 绍了聚类算法、改进的聚类算法以及相关反馈图像检索方法,在此基础上介绍了 7 基于内容的图象检索研究 一种新的基于p c a 的相关反馈图像检索方法 第四章、人脸图像识别的关键技术。本章介绍了人脸识别的发展阶段和基本 框架,并详细介绍了人脸检测技术、人脸识别的技术和分类器的设计方法 第五章、基于粗糙神经网络的人脸对象的图像检索。本章首先介绍了人脸的 特征领域、粗糙集与人脸识别中主要使用的神经网络,在此基础上介绍了粗糙神 经网络,以及基于粗糙神经网络的多特征领域多分类器融合的人脸识别方法。 最后,全文的总结和进一步的展望 8 硕士学位论文 第2 章基于内容图像检索的概述 2 1 图像检索技术的发展阶段 从2 0 世纪7 0 年代起开始对图像检索领域研究到现在,图像检索技术经历了四 个阶段“。1 :基于文本、基于内容、相关反馈和基于压缩域的图像检索 2 1 1 基于文本标注的图像检索阶段 自1 9 7 0 年以来,研究者在对图像库中的图像进行文本标注的基础上,对图像 进行了基于关键字的检索,这方面的研究主要从数据库技术的角度进行,但存在 人工标注工作量过大,主观性太强的缺陷,导致不同的人对图像注解的主观性和 不精确性而使检索匹配失败。 2 1 2 基于内容的图像检索阶段 进入9 0 年代初期,随着大规模图像数据库的出现,由手工进行图像标注这一 方法所带来的困难交得越来越突出,于是提出了基于内容的图像检索“”,它主 要针对图像自身的视觉内容特征进行提取和表征,然后进行相似度匹配检索。这 一方面的研究主要是以计算机视觉技术及图像处理技术进行的,其中的主要工作 是图像特征的抽取和表示。检索用到的特征既可以包括文本型( 关键字、注解等) , 也可包括视觉特征( 如颜色、纹理、形状等) 。另外,可视特征又分为领域相关的 如人脸特征、指纹特征等) 和领域无关的特征,领域相关的特征在模式识别相关 领域中有较多的研究,并且依赖于许多与领域相关的知识。 2 1 3 基于相关反馈技术的检索阶段 基于图像特征提取的研究方法极大的推动了c b i r 技术的研究,但是随着图像 库规模的扩大和研究的深入,这种模式的检索方法很难给出令人满意的结果,主 要原因是无法用低层特征更好地描述图像的概念和语义( 如图像描述的主题类 9 型、对象、表达的情绪等) 。 理领域研究更有效的 义概念之间的关联 基于相关反馈图 提交的查询给出第一 些相关与否的信息反 特征表 为了有效解决这一突出矛盾,一方面需要在图像处 示,另一方面就是试图捕捉和建立低层特征和高层语 像检索方法的基本思路是在检索过程中乜”,系统根据用户 轮检索结果,用户可以对检索结果进行评价和标记,并将这 馈给系统,系统通过对这些反馈的相关信息进行学习,进行 下一轮检索,直到检索结果能满足用户的要求为止。 2 1 4 基于图像压缩域特征的检索技术 目前图像多数以压缩格式存放,如果把图像解码成空域,再用现有的技术进 行检索,需要对整个数据库的图像进行解码,效率极低乜”,而直接在压缩域提取 图像特征,则避免了解码和重组编码的过程,极大地提高了检索效率。 2 2 基于内容的图像检索技术的特点 基于内容的视觉信息检索旨在对视觉信息提供强有力的描述,实现视觉信息 的结构化,最终达到用户对这些视觉信息内容自由访问的目标。它是一门涉及面 很广的 模式识 1 、 库中查 局限。 名称、 的检索 妨碍了 确地对 而有所 图像检 交叉学科,包括:信号处理、图像处理、机器视觉、数据库、信息检索、 别等相关技术。具有如下特点: 从图像内容中由计算机自动提取视觉特征,并根据这些特征从图像数据 找、检索出具有相似特征的图像数据。它突破基于文本的传统图像检索的 传统的图像检索主要是通过给图像赋予一组特征描述数据( 例如给图像起 建立多个关键词、加注释等) ,用来表示图像数据的内容,将对图像本身 转换为对特征数据的检索,根据字符匹配查找相应的图像。这个转换过程 有效的交互,难以满足用户的各种各样需求。在建立图像数据库时,要准 图像进行文本特征描述比较困难,往往会因个人的知识、经验、理解不同 差异,而且并不是所有的图像对象的特征都能用文字来描述。基于内容的 索直接对图像内容进行分析,抽取特征和语义信息,把检索过程与语义提 硕士学位论文 取直接联系起来,使得检索过程更加有效,适应性更强。 2 、使用相似匹配代替精确匹配在传统信息检索( 如基于文本的图像检索) 中,以精确匹配为主。在基于内容的图像检索中,由于相同内容的图像检索有不 同的表现方式,通常采用相似匹配方式,从而获得类似图像,不断缩小检索范围, 直至定位于所要求的目标,与传统数据库检索的精确匹配不同 3 、直观的可视化查询方式,交互性强。基于内容的图像检索通常采用范例 检索方式当用户不清楚检索提问要求,或不熟悉信息结构类型时,可通过浏览 选择例子或绘制草图,作为查询条件,并可以通过浏览结果来判断查询结果的好 坏,从而做必要的修改,然后再次与系统交互,直至得到满意的结果在许多现 存的基于内容的图像检索系统中都运用其中的一种或几种相结合的查询方式。就 今后的发展来看,交互式、特征与语义信息结合的查询更接近用户的需要。 4 、满足多层次的检索要求系统通常包含图像库、特征库和知识库,可满 足多方面的检索要求。用户可以向系统提交与所需查询的图像一致或类似的例 图、绘制草图或进行单个特征的检索、基于多个特征的综合检索、基于对象的检 索等。图像检索系统通过用户接口从用户处获取查询信息,并向用户提交查询结 果。 2 3 基于内容的图像检索系统的构成 基于内容的图像检索的基本方法是在建立图像库时,对输入的图像先进行图 像分析,提取图像或目标的特征向量并在将输入图像存入图像库的同时将其对应 的特征向量也存入与图像库相连的特征库。在进行图像检索时,对每一幅给定的 查询图,进行图像分析并提取该图的特征向量。通过将该图特征向量与特征库中 每幅图像的特征向量进行匹配,并将检索结果按照相似程度排列,返回最相似的 n 幅图像给用户,从而完成初次检索过程。用户根据自己的主观判断在界面上对 结果图像进行相关程度的标识后,再由系统将标识信息传递给相关反馈模块,由 相关反馈模块来调整特征的权重,从而得到新的检索结果;如此反复,直到得到 用户满意的结果。 l l 基于内容的图象检索研究 图像检索系统主要由两个子系统构成:图像库生成子系统和图像检索子系 统。图像库生成子系统完成的主要功能是图像预处理和特征提取。图像预处理包 括对入库前的图像进行一系列处理,如图像格式转换,图像区域的划分,色彩空 间的量化等等。基于内容的检索就是建立在图像视觉特征提取的基础之上的,特 征提取是库生成子系统的核心模块,它主要完成图像视觉特征的提取,包括对图 像的颜色、纹理、形状以及一些文本描述特征提取;图像检索予系统完成基于内 容的检索功能,由查询接口,相似匹配,结果浏览及相关反馈四个模块组成。查 询接口为用户提供一个窗口,让用户选择需要查询的关键图像;相似匹配完成关 键图像与图像库中其他图像的相似性匹配工作,并按照相似度的大小对图像进行 排序;结果浏览主要用来返回检索到的结果,并提供一个与用户交互的界面,让 用户对检索结果的相似性进行标识;相关反馈则负责通过用户的标识,调整区域 特征权重,并得到新的检索结果 2 4 图像内容分类 基于内容的图像检索( c b i r ) 可以简单分为基于物理特征的检索和基于语义 特征的检索,其中物理特征即图像基本特征如颜色、纹理、形状等,语义特征是 人们对图像内容概念级的反映。 根据图像内容特征的表现方式,我们将图像语义特征进一步细分为逻辑特征 和抽象特征两大类,总体上,图像内容特征分为三个层面。 第一层:图像基本特征( p r i m i t i v ef e a t u r e ) 。即与图像像素点的值直接相关的 特征如颜色、纹理、形状等,其特点是容易实现自动提取,但很难确切表征人们 的检索需求。 第二层:图像逻辑特征( l o g i c a lf e a t u r e ) 。即图像中具有一定语义的独立对象 及相互关系,包括广义对象( 如人、汽车、火车、足球、排球、草地、树林等) 、 狭义对象( 如奥黛丽赫本、奔驰汽车等) 和对象的位置关系等( 如奥黛丽赫本举 着大提琴、葛优打着一把伞) ,图像逻辑特征一般映射为多个图像基本特征,其 共同特点是在图像中可见,特征表达方式是语义级的,容易与人们的检索需求相 硕士学位论文 一致。 第三层:图像抽象特征( a b s t r a c tf e a t u r e ) 即图像所表征的抽象含义如过生 日的图像、风景图像等等,是对图像内容的抽象概括。抽象特征一般基于对象、 相互关系以及人们的先验知识来提取,如过生日的图像一般包括点燃的蜡烛、生 日蛋糕、人等,风景图像一般包括天空、绿树或草地等 目前,基于第一层特征( 图像基本特征) 的c b i r 研究已比较深入,出现了一 些商业应用系统如q b i c 、v i r a g e 像引擎等,但是这些系统的检索结果往往与 人们的检索需求有一定的距离,主要因为图像基本特征表达的图像内容与人们的 理解不完全相符,相比之下,图像语义特征表征的图像内容与人们的理解相一致, 因此,有必要对基于语义特征的图像检索技术进行深入研究。 2 5 基于内容的图像检索的关键技术 一个完整的基于内容的图像检索系统包括选择、提取和索引能够充分表达图 像的视觉特征,处理基于相似度的图像检索,处理用户对检索结果的相关反馈,改 善检索结果。因而基于内容的图像检索技术涉及了特征提取、相似性度量、相关 性反馈方法、图像数据库和检索性能评价等关键技术,下面就对这些关键技术进 行详细的说明和分析 2 5 。1 图像物理特征提取研究 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图 像的特征包括基于文本的特征( 如关键字、注释等) 和视觉特征( 如色彩、纹理、 形状、对象表面等) 两类。由于基于文本的图像特征提取在数据库系统和信息检 索等领域中已有深入的研究,这里主要介绍图像视觉特征的提取和表达。在图像 检索中,通常所说的视觉特征是指用于描述所有图像共有的特征,与图像的具体 类型无关,主要包括颜色、纹理和形状等。 而对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观 认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上, 基于内容的图象检索研究 蔓置舅舅量置目暖目置曩曼詈曼| 曼| 曼曼量曼曼量! 曼詈! 曼量曼! 鼍曼詈| 舅| e 皇皇葺皇罾曼奠量i 图像特征的不同表达方式从各个不同的角度刻画了该特征的某些性质。以下部分 我们主要介绍那些由实践证明对图像检索比较有效的特征和相应的表达方法 1 、颜色特征的提取 颜色特征最直观,最明显,是图像视觉最重要的感知特征之一。颜色往往和 图像中所包含的物体或场景十分相关。与其他的视觉特征相比,颜色特征对图像 本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性,并且计算简单, 所以目前应用最广泛。用户可以输入想要查询的颜色特征和颜色特征库中的信息 进行匹配。基于颜色的特征提取方法能较好的表示图像的颜色信息。目前颜色特 征的提取方法主要有:颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相 关图等颜色特征的表示方法。 最早采用颜色进行图像检索是由s w a i n 和b a l l a r d 提出的基于颜色直方图的检 索方法乜”,其核心思想是在一定的颜色空间中对图像各种颜色出现的频数进行 统计。颜色直方图描述了图像颜色的统计分布,直方图的横轴表示颜色等级,纵 轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例。有很多 人提出了改进的办法,例如何恒瞳钉提出了模糊直方图方法。 另一种非常简单而有效的颜色特征是由s t r i c k e r 和o r e n g o 所提出的颜色矩 ( c o l o rm o m e n t s ) 乜”。这种方法的数学基础在于图像中任何的颜色分布均可以用 它的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用色的 一阶矩( m e a n ) 、二阶矩( v a r i a n c e ) 和三阶矩( s k e w n e s s ) 就足以表达图像的颜色分 布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。而针 对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点,p a s s 他司等又提出了 图像的颜色聚合向量( c o l o rc o h e r e n c ev e c t o r ) 的方法,它是颜色直方图的一种演 变,也是一种有效的改进方法。 同时,为支持大规模图像库中的快速查找,s m i t h 和c h a n g 提出了用颜色集 ( c o l o rs e t s ) 作为对颜色直方图的一种近似啪1 他们首先将r g b 颜色空间转化成视 觉均衡的颜色空间( 如h s v 空间) ,并将颜色空间量化成若干个b i n 。然后,他们用 色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分 量来索引,从而将图像表达为一个二进制的颜色索引集。在图像匹配中,比较不 1 4 硕士学位论文 同图像颜色集之间的距离和色彩区域的空间关系( 包括区域的分离、包含、交等, 每种对应于不同的评分) 。因为颜色集表达为二进制的特征向量,可以构造二分 查找树来加快检索速度,这对于大规模的图像集合十分有利。 另外,颜色相关图( c o l o rc o r r e l o g r a m ) 是图像颜色分布的一种表达方式硼 这种特征不但刻画了某一种颜色的像素数量占整个图像的比例,还反映了不同颜 色之间的空间相关性实验表明,颜色相关图比颜色直方图和颜色聚合向量具有 更高的检索效率,特别是查询空间关系一致的图像。 2 、纹理特征的提取 纹理特征是所有的表面所具有的内在特征,它包含了关于表面结构的安排以 及周围环境的关系,是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特 征侣”。例如云彩、树木、砖、织物等都有各自的纹理特征。纹理特征在基于内 容的图像检索中得到了广泛的应用,用户可以通过提交包含有某种纹理的图像来 查找含有相似纹理的其他图像。纹理的分析方法可以分为统计方法、结构方法和 频域法 在7 0 年代早期,h a r a l i c k 等研究人员就提出了用共生矩阵( c o o c c u r r e n c e m a t r i x )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论