(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf_第1页
(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf_第2页
(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf_第3页
(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf_第4页
(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(信号与信息处理专业论文)基于webcam的照片检索技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着数字摄像机的普及以及大容量存贮设备的迅速发展,大规模的图像数据不断地涌 现,使得基于内容的图像检索成为目前国内外各研究机构的热门研究领域。本文基于这一研 究领域,提出了一项新的基于内容的图像检索的实用技术基于w e b e a m 的照片检索技 术。该技术旨在通过一个与计算机相连的普通摄像头,以用户手中任意一张打印的照片为示 例图像,对图像库进行检索,并找出与用户手中照片类似的照片图像,尤其是同一幅照片的 图像。 本文依据该技术的三个难点,将其分成三个部分进行介绍。 第一部分是基于内容的图像检索,主要介绍了图像特征提取、相似度匹配以及相关反馈 中所用到的各种算法。对于图像特征,我们主要是提取底层的视觉信息,如颜色、边缘、纹 理等,根据所提取的各特征向量的属性,分别选用了不同的匹配函数,并对各特征采用加权 组合的方式得出最终的匹配结果,在相关反馈中,根据用户对检索结果的评价,重新调整各 特征权重,给出更接近用户需求的检索结果。该部分同时还讨论了基于某个局部区域以及基 于图像子块的检索方式。 第二部分是快照处理部分,它将用户手中的照片变成幅可以用来做检索的示例图像。 不管实际的照片是否倾斜、模糊或者不完整,也不管用户在什么样的背景下操作,都希望计 算机能自动获得一幅理想的例子图像,用于检索系统中。 第三部分是颜色恒常性问题的解决,由于通过摄像头所拍摄的照片图像的色彩会受光照 变化以及各种外界环境的影响,使得运用颜色特征做检索的效果并不理想,因此必须找到不 受光照变化影响的恒定颜色。该部分通过对各种颜色恒常性算法的研究和试验,根据试验结 果,将最终确定一种最有效的解决方案。 试验结果表明,我们为该技术所设计的系统可以有效的检索到用户手中的照片,对该技 术的研究是成功的。 关键词:照片检索,图像检索,基于内容的检索,摄像头,快照,颜色恒常性 a b s t r a c t w i t ht h ef a s tp o p u l a r i z i n go fd i g i t a lc a m e r a sa n dr a p i di n c r e a s i n go fs t o r a g ec a p a c i t y , i ti sr i o t u n c o m m o nt os t o r et h o u s a n d so f i m a g e so nac o m p u t e r c o n t e n tb a s e di m a g er e t r i e v a l ( c n m ) i s t h e r e f o r eb e c o m i n gap o p u l a rr e s e a r c hf i e l di na l lk i n d so fa c a d e m i co rc o m m e r c i a li n s t i t u t i o u s i nm o s to fc b i rs y s t e m s ,q u e r yi m a g ei su s u a l l yo b t a i n e df r o mt h es a l v ei m a g ed a t a b a s et h a ti s b e i n gr e t r i e v e dt h i si sl e a s tu s e f u l i os o m ep r a c t i c a lc a s e si f u s e r sa r el o o k i n gf o rs o m es p e c i f i c i m a g e si na l li m a g ed a t a b a s e f o re x a m p l e ,u s e rm a yw a n tt or e p r i n ts o m ep h o t o sf r o mal a r g e d a t a b a s e h e s h eh a st h ep r e v i o u s l yp r i n t e dp h o t oo nh a n da n dw a n t st of i n dt h es a m ep h o t oi n d a t a b a s ea n dr e p r i n tm o r ec o p i e s i nt h i ss c e n a r i o ,t h eb e s tq u e r yi m a g ei so nu s e r sh a n da n d t h ee a s i e s tw a yt oi n p u tt h ei m a g ei su s i n ga no n l i n ev i d e oc a n l e r a t h i sp a p e ri st oi n t r o d u c ean e wt e c h n i q u ef o rt h er e a l - w o r l dp h o t os e a r c h i n g w i t ha na v e r a g e w e b c a m ,t h et e c h n i q u ei st oh a v eas n a p s h o ta tap r i n t e dp h o t o ,t h e na u t o m a t i c a l l yf i n do u tt h e m o s ts i m i l a rp h o t o s ,e s p e c i a l l yt h eo r i g i n a lp h o t oo ft h ep r i n t ,i nt h ed i g i t a lp h o t os t o r a g ei t i n c l u d e st h r e et e c h n i c a lp a r t s p a r t1i sc o n t e n tb a s e di m a g er e t r i e v a l w ee x t r a c tc o l o r , e d g e ,a n dt e x t u r ef e a t u r ef r o m i m a g e s w i t ht h e s ef e a t u r e sw ec a r ld e f i n et h es i m i l a r i t yb e t w e e ni m a g e sa n df i n dt h em o s t m a t c h i n go n e si nt h ei m a g ed a t a b a s e i nt h er e t r i e v a lr e s u l t ,u s e r sc a ns p e c i f yt h o s ei m a g e st h a t a r en o ts i m i l a rw i t hw h a tt h e yw a n t b a s e do nt h i si n f o r m a t i o n ,t h es y s t e mc a na u t o m a t i c a l l y a d j u s tt h ei m p o r t a n c eo f e a c hf e a t u r ea n dg i v ea ni m p r o v e dr e t r i e v a lr e s u l t p a r t2i ss n a p s h o tp r o c e s s i n g t h em a i nr o l eo ft h i sp a r ti st oe x t r a c tt h ep h o t of r o m 协e s n a p s h o ta n dm a k ei tt h ee x a m p l ef o rr e t r i e v a l i ts h o u l db ea b l et od e a lw i t hb l u r r e d ,t i l t e d ,a n d i n c o m p l e t e l yv i e w e di m a g e si nr e a lw o r l d p a r t3i st h ec o l o rc o n s t a n c yp r o b l e m i nc h a n g e dl i g h t i n gc o n d i t i o n ,t h ec o l o ro f t h es n a p s h o t w i l la l s oc h a n g e ,w h i c hi n f l u e n c e dt h ee f f e c to ft h er e t r i e v a lr e s u l t t h e r e f o r e ,w em u s tf i n dt h e c o n s t a n tc o l o r sw h i c ha r er o b o tt ot h ec h a n g eo ft h el i g h ta n da l lp o s s i b l ee x t e r n a lf a c t o r s b y a n a l y s i n ga n dt e s t i n gaq u a n t i t yo fa p p r o p r i a t ea l g o r i t h m s ,w ef i n a l l yd e t e r m i n e da no p t i m a l s o l u t i o n o u re x p e r i m e n t a lr e s u l t ss h o w e dt h a tw ec a ra c h i e v es a t i s f a c t o r yr e s u l t s ,w h i c hm e a n so u r a l g o r i t h m su s e di nt h i st e c h n i q u ea r es u c c e s s f u l k e y w o r d s :p h o t or e t r i e v a l ,i m a g er e t r i e v a l ,c o n t e n tb a s e di m a g er e t r i e v a l c b i r , w e b e a m ,s n a p s h o t ,c o l o rc o n s t a n c y i i 第一章绪论 浙江大学硕士学位论文 1 1 研究背景 第一章绪论 随着多媒体技术、计算机、通信技术及i n t e r n e t 网络的迅速发展,使得图像多媒体信息 来源不断扩大,各行业对图像的使用也越来越广泛。大容量高速存储系统为图像的海量存储 提供了基本保障,如何从如此海量的图像信息中获取有用的信息,即图像信息资源的管理和 检索,己显得日益重要。图像数据库的研究将对多媒体数字图书馆、医学图像管理、卫星遥 感图像、计算机辅助设计和制造、地理信息系统、犯罪识别系统、商标版权的管理等等方面 提供了有力的支持。 图像数据库研究的核心技术是图像检索是近年来海量信息处理所面临的“瓶颈”。图 像的传统管理方式是以文件系统进行的,当用户查询幅图像时,要逐一打开文件进行浏览 才能找到其目标图像,随图像文件数量的增加,查找效率急剧降低。但由于以文件存储方式 对图像的使用和操作较方便,因而以文件管理图像的方式一直延续至今。 早在7 0 年代,数据库专家就开始研究如何对图像数据进行有效的管理,其主要方法是 对图像文件建立关键词或文本标题以及一些附加描述信息,然后将图像的存储路径和图像关 键词之间建立联系,传统的关系数据库技术就可以满足这样的要求。现在数据库技术已经取 得了长足的进步,一些商用数据库系统都开始支持以二进制大对象( b l o b ) 存储图像,但对 图像的管理仍是通过二进制大对象和图像的关键词建立联系方法。由于直接在数据库中访问 图像的操作比较复杂,因此在数据库中以二进制大对象管理图像的方法在目前并没有流行起 来。 事实上,对图像视觉特征进行管理在7 0 年代就曾经引起了人工智能和模式识别等领域 的关注,并取得了一定的成就。这时的图像数据库主要是应用在某一特定的应用领域,往往 和其它信息系统结台在一起使用,主要涉及地理信息系统、病人x 照片的归档、检索和诊 断系统,以及人脸识别和指纹识别系统。在7 0 年代到8 0 年代初,匹兹堡大学的张系国教授 采用关系数据库子系统和图像存储管理子系统集成设计了图像数据库系统g r a i n o ,”,对图 像数据进行查询,主要包括属性检索、结构检索、相似检索以及这几种方式的综合检索。 r e d i 是普度大学傅京孙教授完成的,r e d i 是。一个综合数据库系统,它与一个图像数据理 解系统之间保留有接口,该系统通过图像处理和模式识别方法提取出图像的结构信息和特 征,查询操作采用关系查询语言,它涉及到空间关系和常规的查询。在随后张系国教授又提 出了用二维符号串( 2 d s t r i n g ) 口1 来表达一幅逻辑图像的空间关系,并将此方法用于图像检 索系统中。当时的图像数据库的典型应用是地理信息系统。随后一些人t 智能研究者在研究 和开发专家系统的过程中,采用图像数据来加强对问题的解释能力,运用了图像的一些模式 特征,并对这些特征进行一定的语义解释,如h s u 等人采用图像数据库技术来管理病人的 心脏照片。在现在的指纹识别系统和人脸的照片管理系统中已经取得了较成功的运用,这类 第一章绪论浙江大学硕士学位论文 具体系统已不胜枚举。这个时期的图像数据库规模小且仅应用在特定的领域,检索方面也大 都以精确模式匹配为主。 8 0 年代是多媒体技术发展的时代,图像的获取、创作、压缩、存储技术都取得了举世 瞩目的成就,丽对图像信息的管理尚未给予足够的重视。9 0 年代是计算机网络时代,特别 是9 0 年代中期以来以w w w 为代表的信息发布以及资源访问方式的广泛流行,信息的发布 方式也从单一文本方式转变为以图形、图像、动画、视频和音频等视听信息。整个i n t e m e t 网络环境就像一个大型的分布数据库,在其中寻找自己感兴趣的一种媒体犹如大海捞针,对 信息检索工具的依赖日益加强,而目前基于网络的检索工具( 如g o o g l e ,y a h o o ,i n f o s e e k 和l y c o s 等) 大多采用文本检索方式。这种采用对图像建立关键词等文本描述信息的方式已 越来越不适应网络信息检索的要求,究其原因主要存在一下局限性: ( 1 ) 对图像加注文本信息仍由手工完成,随着图像数据来源日益广泛,这种方法显得费时 费力。 ( 2 ) 文本描述信息是非常主观的,不同的人对同一幅图像数据可能有不同的理解,因此当 用户在查询时输入的关键词和数据库中的关键词不一致或这些关键词根本就不存在时,将导 致查询的失败: ( 3 ) “幅画胜过一千句话”,区区几个关键字很难将图像所反映的内容描述清楚: ( 4 ) 由于媒体信息是发布在,w w w 网络环境中,不同国家不同民族很难用同一种语言对 图像进行加注标识,而且对图像语义理解的差异很大。 为了突破文本检索方式的诸多弊端,人们又转向研究图像中所包含的内容信息作为图像 的索引,对这方面的研究要归功于模式识别研究者,其主要的方法是根据图像的色彩、纹理、 图像对象的形状以及它们的空间关系等内容特征作为图像的索引计算查询图像和目标图像 的相似距离,按相似度匹配进行检索,其目的是试图解决图像数据库系统中手工建立文本标 注信息的缺点。 作为传统数据库检索的拓展,基于内容的图像检索系统主要是根据图像的内容进行检 索。同传统的关系数据库检索系统相比,它主要具有以下的特点: ( 1 ) 传统的数据库中,符号数据可以用基本数据类型精确地表示,检索匹配是精确匹配。 而图像数据是一段二进制数据流,对图像进行像素和像素的精确匹配不科学。事实上人对两 个图像的相似和不相似的判断是根据图像中所包含的内容,很难将其精确描述因此内容的 表达是近似的。 ( 2 ) 图像数据的表达不是单一的,多种表达方法并存是可能的,表达方法的选择要依赖于 特定的用户和特定的应用领域,随着识别技术的发展还可能采用更新或更好的表达方法。 ( 3 ) 符号数据本身就具有语义信息,在符号数据命名的过程中就赋予了特定的信息。图像 中的内容本身不包含语义信息,对图像的匹配主要是对图像中的内容特征进行相似匹配。 ( 4 ) 由于对内容表达的不精确,因此检索得到的结果可能包含一些不相关的图像,这种情 况对基于内容的检索是允许的,但重要的一点是在检索中不要将相关的图像漏掉。 由于基于内容的检索有着广泛的需要,并有着较好的市场前景,因而也引起了国际标准 2 第一章绪论浙江大学硕士学位论文 化组织的关注,m p e g 专家组正在着手制定更高的版本m p e f 7 ( 又称为多媒体内容描述接 口) ,它主要是对各种类型的多媒体数据进行规范化描述,目的是便于快速和有效地查找用 户感兴趣的材料,现在还处在广泛征集建议之中。m p e g 7 的推出将产生广泛的应用前景, 包括:数字图书馆、多媒体目录服务、广播媒体的选择、多媒体编辑等。这些潜在的应用将 对下面的应用领域产生巨大的影响,如教育、娱乐、调查服务、地理信息系统、医疗应用、 电子购物、电影、视频和无线广播归档等。随着多媒体内容描述的标准化,图像内容的描述 也将随之而标准化。基于内容的图像检索将朝商业化方向而迈进。 综上所述,对图像的管理早期是采用文件的管理方式:在7 0 年代到8 0 年代期间是采用 关键词等描述方法建立图像的索引,这个时期主要以数据库学派的研究为主,同时出现了以 视觉特征为图像索引的面向特定应用的小规模图像数据库系统;9 0 年代以后,人们转向研 究以面向网络环境支持基于内容检索的大规模图像数据库系统,这个时期主要以模式识别学 派的研究为主;预计到2 0 0 1 年以后随着m p e g 7 的推出,图像检索将朝商业化发展。 1 2 现有的图像检索系统 自从9 0 年代早期以来,基于内容的图像检索已经成为一个非常活跃的领域。不管是在 商业上还是在研究领域,都出现了一些图像检索系统。其中大部分的图像检索系统都具有以 下的一个或几个功能特点: 随机浏览功能 基于例子的检索 基于草图的检索 基于文本的检索( 包括关键字和语音) 图片分类浏览 我们在这里列举了一些具有代表性的图像检索系统,并着重介绍它们的突出特点。 1 2 1q b i c q b i c 3 1 是基于图像内容查询的英文缩写( q u e r y b y i m a g e c o n t e n t ) 。q b i c 系统是由国 际商用机器公司i b m ( i n t e r n a t i o n a lb u s i n e s sm a c h i n e r y ) 第一个商业化的基于内容的图像检 索系统。该系统的框架和采用的技术对后来的图像检索系统产生了深刻的影响。 q b i c 系统支持基于例子图像的查询方式,也支持通过由用户构造的草图、轮廓和选定 的色彩和纹理样式的查找方式,以及其它一些查询方式。在q i b c 系统中,色彩特征用r g b ( 标准色彩显示标准) ,y i q ( n t s c 补色t v 标准) ,l a b 和m t m ( 孟塞尔数学变换) 坐标 和k 维颜色直方图等来表示。它所采用的纹理特征是用改进的t a m u r a 纹理表示法,其本质 是粗糙度、对比度和方向性三个特征的结合。它的形状特征主要包括形状区域、圆周率、离 心率、主轴方向和一些代数不变矩。q b i c 系统是极少数考虑到高维特征索引问题的系统之 一。在它的索引子系统中,首先用k l t 变换来完成维数缩减,然后采用r + 树来构造多维索 第一章绪论 浙江大学硕士学位论文 引结构。在q b i c 的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方 式相结合,共同完成查找功能。q b i c 演示程序可以在如下的网址中找到: h t t p :w w w q b i e a l m a d e n i b m ,c o n - d 。 1 2 2v i r a g e v i r a g e 是由v i r a g e 有限公司开发的基于内容的图像检索引擎。同q b i c 系统一样,它也 支持基于色彩、色彩布局、纹理和结构特征( 对象边缘) 的视觉查询功能h ”。但v i r a g e 要 比q b i c 在技术上向前迈了一步,它支持以上四种基本查询的任意组合后的查询方式。用户 还可以根据需要来调整一些基本图像特征的权重。在文献【4 】中,j e f f e r y 等人进一步提出了 图像管理的开放式框架。他们将图像的视觉特征分为两类:一类是通用特征( 如色彩、形状 或纹理) ,一类是领域相关的特征( 如用于人脸识别、癌细胞检测的特征) 。根据不同领域的 具体需要,各种有用的基本特征就可以加入到这个开放式结构中。在另一方面,除了提供基 于例子的查询方式以外,g u p t a 和j a i n 还提出了一种由9 种基本元素组成的查询语言框架。 v i r a g e 的演示程序位于h t t p :w w w v i r a g e c o m c g i - b i n q u e r y - e 1 2 3r e t r i e v a l w a r e r e t r e v a l w a r e 是由e x c 枷b u r 科技有限公司开发的一种基于内容的图像检索引擎【6 】。在 r e t r i e v a l w a r e 的早期版本中,我们可以看到该系统的重点在于运用神经网络算法实现图像检 索。在比较新的版本中,颜色、形状、纹理、明亮度、颜色布局等特征开始被用于检索中。 它还允许组合适用上述这些特征,并且用户可以自由调整每种特征的权重。r e t r i e v a l w a r e 系统的演示程序在如下的地址:_ h t t p :v r w e x c a l i b c o m e g i - b i n s d k c s t c s t 2 b a t 1 2 4p h o t o b o o k p h o t o b o o k p 是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互 式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户就可 以分别在这三个子系统中根据相应的特征来进行查找。 然而,对于不同的领域,没有哪一种“最好”的特征能够单独地描述一幅图像。所以, 在p h o t o b o o k 更新一些的版本f o u r e y e s 中,p i c a r d 等人提出了把用户加入到图像注释和检索 过程中的想法f 8 】。更进一步,由于人的感知是主观的,他们又提出了“模型集合来结合人 的因素。实验表明,这种方法对于交互式图像注释来说非常有效。 1 2 5v i s u a l s e e k 和w e b s e e k v i s u a l s e e k l 9 1 是基于视觉特征的搜索引擎,w e b s e e k t l 是一种面向w w w 的文本或图 像搜索引擎。它们都是由哥伦比亚大学开发的。这两个系统的主要技术特点是采用了图像区 域之间空间关系和从压缩域中提取的视觉特征。系统所采用的视觉特征是颜色集和基于小波 变换的纹理特征。为了加快检索速度,系统采用基于二叉树的索引算法。 4 第一章绪论浙江大学硕士学位论文 v i s u a l s e e k 同时支持基于视觉特征的查询和基于空间关系的查询。举例来说,用户如 果要查找一幅“日落”的图像,那么他可以通过提交这样一幅草图作为查询:草图的上半部 分是桔红色的区域,下半部分是蓝绿色的区域。w e b s e e k 是一个面向w w w 的搜索引擎。 它由三个主要模块组成,分别是图像视频采集模块,主题分类和索引模块,查找、浏览和 检索模块。该搜索引擎不仅支持基于关键字的查找,还支持基于视觉内容的查找。v i s u a l s e e k 和w e b s e e k 的演示程序的主页在h t t p :w w w e e c o l u m b i a e d u s f c h a n g d e m o s h t r n l 。 1 2 6n e t r a n e t r a 系统】是在u c s b 大学的a l e x a n d r i a 数字化图书馆项目f a l e x a n d r i a d i g i t a l l i b r a r y , 或a d l ) q b 用于图像检索的原型系统。它从分割后的图像区域中提取色彩、纹理、形状和空 间位置信息,并依靠这些信息从数据库中查找相似的吒域。n e t r a 在研究方面的主要特点包 括采用了基于g a b o r 滤波器的纹理特征,基于神经网的“图像词典”的构造和基于边缘流的 图像分割。n e t r a 所在的主页地址为:h t t p :v i v a l d i e c eu c s b e d u n e t r a 。 1 2 7m a r s m a r s 是多媒体分析和检索系统( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m ) 的英文 缩写,是伊利诺斯大学u r b a n a - c h a m p a i g n 分校开发的。m a r s 无论在研究角度还是应用领 域都和其它的图像检索系统有很大的差异。这主要体现在m a r s 一个多交叉学科融合的产 物,包括计算机视觉、数据库管理系统以及传统的信息检索技术。 m a r s 在科研方面的主要特点包括数据库管理系统d b m s 和信息检索技术i r 的结合( 如 何进行分级的精确匹配) ,索引和检索技术的融合( 即检索算法如何发挥底层索引结构的优 点) ,以及计算机和人的融合( 相关反馈技术) 。m a r s 系统的重点并不在于找到所谓“晟 好”的图像特征,而在于根据实际的应用环境和用户需要在检索框架中动态地组合调整各种 不同的图像特征。m a r s 在图像检索领域正式提出了相关反馈的体系结构。相关反馈的种 技术在各种层次上融合到检索的过程中,包括查询向量的优化,相似度算法的自动选择,以 及图像特征权重的调整。m a r s 系统的演示程序可以在如下的网址找到: h 业幽4 4 曼i 鱼:! i 竖:出;8 q q q 1 3 本文的工作 从以上列现有的各个图像检索系统的分析中可以看出,所有的系统都用到了基于例子的 查询功能。尽管还存在其它种类的查询方式,但是基于例子的查询方式是最容易被用户所接 受的一种方式,因为它只需要用户和计算机间的最少的交互性操作,而且示例图像比起其它 形式的查询( 如基于草图的查询) 来,包含有更多的信息,使得查询具有较高的准确率。 在大多数基于内容的图像检索系统中,示例图像通常是从被检索的图像数据库中获得 的,而在许多实际的应用中,示例图像并不能直接从数据库中获取。例如,用户手头上有一 张打印好的照片,这时他可能想重新打印这张照片,该照片是存贮在某个图像数据库中的, 5 第一章绪论 浙江大学硕士学位论文 但其存贮位置并不知道,在这种情况下,用户只能用他手中的照片作为示例图像来进彳亍检索 而最简单的图像输入方式就是使用一个在线的摄像头。 本文的主要工作就是引入了项新的、基于某个在线摄像头、( w e b c a m ) 的照片检索技 术。利用一个与计算机相连的普通的摄像头,该技术首先对一幅打印好的照片做一快照,然 后自动的在数字图像库中找到与该照片最相似的图像,尤其是同一幅照片图像的位置。该技 术的难点在于,首先,因为它是要查找某幅照片图像的位置,从而必须用到基于内容的图像 检索的相关技术,其次。它的示例图像的输入是从摄像头中来的,因此它必须能够处理真实 世界中模糊的、倾斜的甚至是不完全视图的图像,再次,随着光照的变化,快照图像的颜色 值也会随之改变,而颜色信息是基于内容的检索所用到的重要的信息,如何能从初始的快照 图像中提取出恒定的不随光照变化的颜色值。是该项技术必须解决的另一个难点。 1 4 论文的组织 本文依据基于w e b c a m 的照片检索技术的三个难点,将其分成三个部分,分别放到三个 章节中进行阐述,第二章中阐述基于内容的图像检索,包括图像特征的提取、相似度匹配, 以及相关反馈的算法和实现原理;第三章中叙述快照处理部分,即如何将真实世界的照片通 过一个在线摄像头转换成一幅规整的可以用于检索的示例图像;第四章中阐述颜色恒常性问 题的解决过程,首先对现有的计算颜色恒常性的算法做了分析,然后依据对各种算法的试验 结果,确定了一套适用于本系统的解决方案。接下来在第五章中,给出了各个部分的实验结 果和比较数据,并作了评价。第六章对全文做了一个总结,并介绍了接下去需要完成的工作 以及对未来的展望。 第二章基于内容的图像检索 浙江大学硕士学位论文 第二章基于内容的图像检索 2 1 引言 近年来,随着多媒体技术和计算机网络的1 _ 速发展,全世界的数字图像的容量正以惊 人的速度增长。无论是军用还是民用设备,每天都会产生容量相当于数干兆字节的图像。 这些数字图像中包含了大量有用的信息。然而,由于这些图像是无序地分布在世界各地, 图像中包含的信息无法被有效地访问和利用。这就要求有一种能够快速而且准确地查找访 问图像的技术,也就是所谓的图像检索技术。自从2 0 世纪7 0 年代以来,在数据库系统和 计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成为一个非常活跃的研究领 域。数据库和计算机视觉两大领域是从不同的角度来研究图像检索技术的,前者基于文本 的,而后者是基于视觉的。 基于文本的图像检索技术( t e x t b a s e di m a g er e t r i e v a l ) 的历史可以追溯到2 0 世纪7 0 年 代末期。当时流行的图像检索系统是将图像作为数据库中存储的一个对象,用关键字或自 由文本对其进行描述。查询操作是基于该图像的文本描述进行精确匹配或概率匹配,有些 系统的检索模型还是有词典支持的。另外,图像数据模型、多维索引、查询评价等技术都 在这样一个框架之下发展起来。然而,完全基于文本的图像检索技术存在着严重的问题。 首先,目前的计算机视觉和人工智能技术都无法自动对图像进行标注,而必须依赖于人工 对图像做出标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还 不可避免地带有主观偏差。也就是说,不同的人对同一幅图像有不同的理解方法,这种主 观理解的差异将导致图像检索中的失配错误。此外,图像中所包含的丰富的视觉特征( 颜 色或纹理等) 往往无法用文本进行客观地描述的。 9 0 年代初期,随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这 些问题,基于内容的图像检索技术( c o n t e n t - b a s e di m a g er e t r i e v a l ,简称c b i r ) 应运而生。 区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的 视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研究领域中的许多 技术发展起来,一大批研究性的或商用的图像检索系统被建立起来。这个领域的发展主要 归功于计算机视觉技术的进步。 应该认识到,基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构 架。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的 相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查 找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓 的通过例子图像的检索( q u e r yb yi m a g ee x a m p l e ) 。另外,基于内容的检索系统一般通过可 视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进 检索结果。 下图表示了基于内容的图像检索的体系结构。该结构的核心是图像特征数据库。图像 特征既可以从图像本身提取得到,又可以通过用户交互获得,并用于汁算图像之间的相似 度。用户和系统之间的关系是双向的:崩户可以向系统提出查询要求,系统根据查询要求 返回查询结果,用户还通过对查询结果的相关反馈来改进查询结果。图中还标出了基于内 容的图像检索中的一些关键环节: 1 )选择、提取和索引能够充分表达图像的视觉特征。 7 第二章基于内容的图像检索 浙江大学硕士学位论文 2 )处理基于相似度的图像检索。 3 )处理用户对检索结果的相关反馈,改善检索结果。 詈圈眇特礞引l 麒i 图2 1 基于内容的图像检索的体系结构 2 2 图像特征的提取与表达 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征 包括基于文本的特征( 如关键字、注释等) 和视觉特征( 如色彩、纹理、形状、对象表面 等) 两类,由于基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研 究,本章中我们主要介绍图像视觉特征的提取和表达。 视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共 有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对 所描述图像内容的某些先验知识( 或假设) 的基础上,与具体的应用紧密有关,例如人的 面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别的研究范围,并涉及 许多专业的领域知识,在此我们就不再详述,而只考虑通用的视觉特征。 对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千 差万别,对于某个特征并不存在一个所谓的最佳的表达方式。事实上,图像特征的不同表 达方式从各个不同的角度刻画了该特征的某些性质。在这里,我们主要介绍那些由实践证 明对图像检索比较有效的特征和相应的表达方法,即图像的颜色、边缘和纹理特征,然后 介绍包含有空间信息的图像特征。 2 2 1 颜色特征的提取 颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中 所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺 寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。 面向图像检索的颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空 间来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向量的形式;最 后,还要定义一种相似度( 距离) 标准用来衡量图像之间在颜色上的相似性。在本节中, 我们将主要讨论前两个问题,并介绍颜色直方图、颜色矩、主色调、颜色聚合向量以及颜 色相关图等颜色特征的表示方法。 2 2 1 1 颜色直方图 颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩 在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对 象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。 一一一橼 第二章基于内容的图像检索 浙江大学硕士学位论文 当然,颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是r g b 颜 色空间,原因在于大部分的数字图像都是用这种颜色空间表达的。然而,r g b 空间结构并 不符合人们对颜色相似性的主观判断。因此,有人提出了基于h s v 空间、l u v 空间和l a b 空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中h s v 空间是直方图最 常用的颜色空间。它的三个分量分别代表色彩( h u e ) 、饱和度( s a m r a t i o n ) 和值( v a l u e ) 。 从r g b 空间到h s v 空间的转化公式如下所示: v = m a x ( r ,g ,6 ) s = p - m i n ( r ,g ,咖一 5 + b i f ,= m a x ( r ,g ,b ) a n d g = m i n ( r ,g ,6 ) i g i fr = m a x ( r ,g ,b ) a n d g m i n ( r ,g ,6 ) 1 + r i f g = m a x ( r ,g ,b ) a n d b = m m ( r ,g ,6 ) 3 一b i f g = m a x ( ,g ,6 ) a n d b m i n ( r ,g ,6 ) 3 + g i f b = m a x ( r ,g ,6 ) a n d ,= m i n ( r ,g ,6 ) 5 一r o t h e r w i s e r = v - r v m i n ( r ,g ,】 g7 = 【v g 】 v m i n ( r ,g ,6 ) 】 b7 = v 一6 】p m i n ( r ,g ,6 ) 1 ( 2 1 ) 其中gb 0 1 ,h “0 6 】,a n d 只v 0 1 】。从r g b 空间到l u v 空间和到l a b 空 间的转化可以在文献 1 3 中找到。 计算h s v 空间中两种颜色的距离有多种不同的方法。例如在( 1 4 中提出了如下的颜色 距离计算公式: “( f ,) :1 1 矗i v 一叶) 2 + ( 叩。s ( ,) 一。s ( h s ) ) 2 + ( s ,s m ( h 。) 一s ,s i n ( h ,) ) 2 p ( 2 2 ) 其中阮品v a ;f h 阢墨桫分别代表两种h s v 空间中的颜色。这种相似度量方法相当于一个 圆柱形颜色空间中的欧拉距离,该空间中的颜色值表示为( s c o s h ,s s i n h ,v ) 。在 1 5 中这样的 圆柱空间被进一步变形称为圆锥性空间,其中的颜色表示为( s v c o s h ,s v s i n h ,v ) 。这些改变使 v 值较小的时候,降低了直方图对h 和s 分量的分辨能力。 计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小区间称为直方图 的一个b i n 。这个过程称为颜色量化( c o l o rq u a n f i z a t i o n ) 。然后,通过计算颜色落在每个小 区间内的像素数量可以得到颜色直方图。颜色量化有许多方法,例如向量量化、聚类方法 或者神经网络方法。最为常用的做法是将颜色空间的各个分量( 维度) 均匀地进行划分。 相比之下,聚类算法则会考虑到图像颜色特征在整个空间中的分布情况,从而避免出现某 些b i n 中的像素数量非常稀疏的情况,使量化更为有效。另外,如果图像是r g b 格式而直 方图是h s v 空间中的,我们可以预先建立从量化的r g b 空间到量化的h s v 空间之间的查 找表( 1 0 0 k u pt a b l e ) ,从而加快直方图的计算过程。 上述的颜色量化方法会产生一定的问题。设想两幅图像的颜色直方图几乎相同,只是 互相错开了一个b i n ,这时如果我们采用上,距离或者欧拉距离( 见2 3 节) 计算两者的相似 度,会得到很小的相似度值。为了克服这个缺陷,需要考虑到具有相似统计分布但绝对值 不同的颜色之间的相似度。一种方法是采用二次式距离”1 ( 见2 3 节) 。另一种方法是对颜 色直方图事先进行平滑过滤,即每个b i n 中的像素对于相邻的几个b i n 也有贡献。这样,统 9 第二章基于内容的图像检索浙江大学硕士学位论文 计分布相似但绝对值不相同的颜色之间的相似度对直方图的相似度也有所贡献。 选择合适的颜色小区间( 即直方图的b i n ) 数目和颜色量化方法与具体应用的性能和效 率要求有关。一般来说,颜色小区间的数目越多,直方图对颜色的分辨能力就越强。然而, b i n 的数目很大的颜色直方图不但会增加计算负担,也不利于在大型图像库中建立索引。而 且对于某些应用来说,使用非常精细的颜色空间划分方法不一定能够提高检索效果,特别 是对于不能容忍对相关图像错漏的那些应用。另一种有效减少直方图b i n 的数目的办法是只 选用那些数值最大( 即像素数目晟多) 的b i n 来构造图像特征,因为这些表示主要颜色的 b i n 能够表达图像中大部分像素的颜色。实验证明这种方法并不会降低颜色直方图的检索效 果。事实上,由于忽略了那些数值较小的b i n ,颜色直方图对噪声的敏感程度降低了,有时 会使检索效果更好。两种采用主要颜色构造直方图的方法可以在文献1 1 7 ,1 8 】中找到。 2 2 1 2 颜色矩 另一种非常简单而有效的颜色特征是由s l r i c k e r 和o r e n g o 所提出的颜色矩( c o l o r m o m e n t s ) 1 1 9 。这种方法的数学基础在于图像中任何颜色分布均可以用它的矩来表示。此 外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩( m e a n ) 、二阶矩 ( v a r i a n c e ) 和三阶矩( s k e w n e s s ) 就足以表达图像的颜色分布。与颜色直方图相比,该方 法的另一个好处在于无需对特征进行向量化。颜色的三个低次矩在数学上表达为: q :咕i n ( 毋 v 户l ( 2 3 ) 其中肋是图像中第j 个像素的第i 个颜色分量。因此,图像的颜色矩一共只需要9 个分量( 3 个颜色分量,每个分量上3 个低阶矩) ,与其他的颜色特征相比是非常简洁的。在实际应用 中为避免低次矩较弱的分辨能力,颜色矩常和其它特征结合使用,而且一般在使用其它特 征前起到过滤缩小范围( n a r r o w d o w n ) 的作用。 2 2 1 3 主色调 主色调即出现在图像中最多的颜色,也就是图像所呈现出的最主要的颜色。主色调可 通过颜色直方图来获取。颜色直方图中的波峰位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论