已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)基于网页关联特征的互联网图像自动标注系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕上学位论文摘要 摘要 随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊 人的速度增长。设计一个能够快速准确地检索用户需要的图像的方法有着巨大的 现实意义。目前主要有两种图像检索方式。一种是基于图像关键字的检索 ( t b i r ) ,另一种是基于内容的图像检索( c b i r ) ,它们之间的差别在于图像内 容的标注方式不同。 基于关键字进行图像标注目前主要有两种方法:一个或多个人手工选择的关 键字标注、图像关键字标注自动生成装置自动生成。第一种方法,有很大的缺点, 费时费力,标注的准确性和完整性不够,且往往带有主观偏差。第二种方法主要 应用于目前常见的互联网图像检索系统中,根据图像所处的上下文环境来判断图 像的主题内容,这种标注方式符合人们的检索习惯,实现简单。但由于互联网的 复杂性,使用这种标注方式的标注信息不够准确全面。 基于内容的图像检索,是直接从图像信息源中获得视觉内容特征,如颜色、 纹理、形状作为图像内容的标注,图像检索的时候查找出和被检索图像视觉特征 近似的一个或多个图像当作检索结果返回。这种方式需要进行大规模的计算,并 且最终将这种低层的视觉特征映射到高层的语义后,由于图像的复杂性、标注字 语义的不确定性,依然存在标注结果与用户理解之间的偏差。 为了克服以上方法的不足,提高互联网上检索图像的质量,本文提出一种新 的图像标注方法,综合运用自然语言,文本分类及自适应的网页正文提取等技术, 基于网页上图像的多种关联特征,包括:图像的u r l ,图像的上下文,图像所 在的网页主题等,对图像进行关键字标注。 本文的重点设计并实现了一个基于网页关联特征的互联网图像自动标注的 原型系统,主要内容包括:对网页中图像关联特征的提取和基于这些特征对图像 的标注两部分。在对图像关联特征进行提取时,利用本文提出的两种算法:基于 d o m 树图像上下文提取算法和基于视觉与规则的正文提取算法,能够准确地抽 取出网页中与图像相关的语义信息。在对图像进行标注部分,利用所提取的关联 特征和文本分类技术,实现对图像的语义标注。 关键词图像检索,图像标注,关联特征,d o m 树,正文抽取,自然语言处理 浙江大学硕士学位论文 a b s t r a c t i nr e e e n ty e a r s , d i g i t a li m a g eh a sb o c o l n em o r ea n dm o r ep o p u l a ra l o n gw i t ht h e i m p r o v i n gt e c h n o l o g yf o rd i g i t a lm e d i aa n dt h ec o n v e n i e n c eo fi n t e r n e t m a n yd i g i t a l i m a g e sb e c o m eu s a b l ee v e r ys i n g l ed a y i td o e sm a k es e n s et od e s i g na l li m a g e s e a r c h i n gs y s t e mt h a tc o u l ds a t i s f yu s e r s i m a g es e a r c h i n gr e q u i r e m e n t s n o wt h e r e a r et w ot e c h n i q u e so fi m a g es e a r c h i n g t h ef i r s ti sb a s e do nt h ek c y w o r d sk n o w n 鹤 t b i r ( t e x t - b a s e di m a g er e t r i e v a l ) t h es e c o n di sb a s e do nc o n t e n to ft h ei m a g e k n o w na sc b i r ( c u n t e n t - b a s e di m a g er e t r i e v a l ) t h ed i f f e r e n c eb e t w e e nt w o t e c h n i q u e si st h ea n n o t a t i o nm e t h o df o ri m a g e s t h ei m a g ea n n o t a t i o nm e t h o do ft b i rh a st w od i f f e r e n tw a y s :o n ew a yi st o a n n o t a t et h ei m a g eb ym a n u a l l ys e l e c t i n gk c y w o r d s ;t h eo t h e ri st og e n e r a t ek e y w o r d s f o ri m a g e su s i n ga u t o m a t i ca n n o t a t i o ns y s t e m t h ec o n t e n t - b a s e di m a g es e a r c h i n gi st oo b t a i nv i s u a lf e a t u r e sf r o mi m a g es o i u c e d i r e c t l y , s u c ha sc o l o r , t e x t u r e , s h a p et ol a b e lt h ec o n t e n to fi m a g e w h e nw es e a r c h a ni m a g e ,o n eo rm o r ei m a g e so fw h i c ht h ev i s u a lf e a t u r e sa r es i m i l a rt ot h ei m a g e s e a r c h e dw i l lb er e t u r n e da st h es e a r c h i n gr e s d t i ti n v o l v e sal o to fc o m p u t a t i o n m o r e o v e r , w h e nt h e s ev i s u a lf e a t u r e sa r ef i n a l l yr e f l e c t e dt os e m a n t i c , t h ea n n o t a t i o n r e s u l t sc a n n o ts a t i s f yu s e r s u n d e r s t a n d i n gb e c a u s eo fi m a g o s c o m p l i c a t i o na n d u n c e r t a i n t yo f t h es e m a n t i c so f t h ea n n o t a t i o nw o r d s t h i sp a p e rh a sb r o u g h tf o r w a r dan e wi m a g ea n n o t a t i o nm e t h o dt oo v e r c o m et h e d i s a d v a n t a g e so f t h ee x i s t i n gw a y sa b o v ea n di m p r o v et h eq u a l i t yo f i m a g es e a r c h i n g 0 1 1i n t e m e t t h en e w i m a g ea n n o t a t i o nm e t h o du t i l i z e st h et v c h n o l o g yo fn l p , t e x t c l a s s i f i c a t i o na n ds e l f - a d a p t i v ew e bt e x te x t r a c t i o na n dt h e na n n o t a t e st h ew e bi m a g e s b a s e d0 1 1t h em u l t ii m a g oc o r r e l a t i v ef e a t u r e s t h ec o r r e l a t i v ef e a t u r e si n c l u d e s :t h e u r lo f t h ei m a g e , t h ei m a g ec o n t e x t , t h et h e m eo f t h ew e b p a g ea n d e t o t h ee m p h a s i so ft h ew o r ki st od e s i g na n di m p l e m e n tam u l t i - f e a t u r eb a s e dw e b i m a g ea n n o t a t i o np r o t o t y p es y s t e m t h i si n c l u d e st w om a i np a r t s o n ei se x t r a c t i n g w e bp a g ef e a t u r e sp a r ti nw h i c ht w oa l g o r i t h m sa r ed e s i g n e d :d o m - t r e e - b a s e di m a g e c o n t e x te x t r a c t i o nm e t h o da n dv i s i o n - a n d - r u l e - b a s e dw e bc o n t e n te x t r a c t i o nm e t h o d t h eo t h e ri sg e n e r a t i n gi m a g ea n n o t a t i o np a r ti nw h i c hu s i n gt h ec o r r e l a t i v ef e a t u r e s i nt h ew e ba n dt e x tc l a s s i f i c a t i o nt e c h n i q u et og e n e r a t ea n n o t a t i o nc o r r e c t i v e l y k e y w o r d si m a g er e t r i e v a l ,i m a g ea n n o t a f i o n ,c o r r e l a t i v ef e a t u r e , d o mt r e e , i n f o r m a t i o ne x t r a c t i o n , n a t u r a ll a n g u a g ep r o c e s s 浙江大学硕十学位论文 图目录 图目录 图1 - 1 图像检索发展历史3 图2 1 基于内容的图像检索系统体系结构8 图2 2 图像检索系统工作流程图1 l 图3 1 图像检索系统架构图1 7 图3 2 图像标注系统的流程图1 8 图3 3 图像标注系统的技术架构1 9 图4 - l 图像关联特征提取模块流程图2 2 图4 2 网页常见布局图2 5 图4 3d o m 树示例2 6 图4 - 4 网易新闻首页2 8 图4 _ 5 网易新闻首页右侧部分信息2 9 图4 _ 6 网易新闻首页右侧的d o m 树2 9 图4 7 横向排列的图3 0 图4 8 横向排列图像的d o m 树信息。3 0 图4 - 9 y a h o o 页面的基于视觉的w e b 页面内容结构3 2 图4 - 1 0 基于视觉对网页进行切分结果的结构3 3 图4 - 1 1 切分粒度为5 时,g o o g l e 页面的切分情况3 4 图4 - 1 2 切分粒度为6 时,g o o g l e 页面的切分情况3 5 图4 - 1 3 网页切分类型示例图3 6 图4 - 1 4 w 3 c o t m t e r 于2 0 0 6 1 1 1 2 发布的浏览器和分辨率全球统计数据3 7 图5 1 图像标注器总体流程图4 2 图5 2 图像语义类型分析模块流程图4 5 图5 3 图像标注模块流程图4 6 图6 - l 上下型网页布局范例4 9 图6 2 上下型网页布局范例( 提取正文后) 4 9 图6 3 左右型网页布局范例5 0 图6 - 4 左右型网页布局范例( 提取正文后) 5 0 图6 5 “同”字型网页布局范例( 提取正文前后) 5 1 图6 - 6 拐角型网页布局范例( 提取正文| j 后) 5 2 图6 7 综合型网页布局范例( 提取正文前后) 5 3 图6 - 8 本分类的评测结果5 6 图6 - 9 原型系统界面5 7 图6 1 0v i p s 网页切分演示。5 7 图6 1 l 正文提取演示图5 8 图6 1 2g o o g l e 图像检索结果5 9 图6 1 3 图像所在网页5 9 闰6 1 4 原型系统标注结果6 0 图6 - 1 5 图像标注网页示例l 6 1 图6 1 6 示例1 部分图像的标注结果6 l 图6 - 1 7 图像标注网页示例2 6 2 图6 - 1 8 示例2 部分图像的标注结果6 2 i l l 浙江大学硕j 学位论文 表目录 表目录 表3 - 1 网页信息表w e b i n f o 表3 2 网页内容类型表w e b t y p e 1 9 表3 3 图像信息表i n l g l n f o 2 0 表4 - l 页面预处理中获取的图像关联信息2 3 表4 - 2 各浏览器有效可视区域( 单位:p x ) 3 8 表6 1 基于朴素贝叶斯分类算法的分类结果5 5 表6 - 2 基于朴素贝叶斯分类算法的f l 值5 5 i v 浙江大学硬上学位论文第l 章绪论 1 1 序言 第1 章绪论 近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容 量正以惊人的速度增长。无论是军用还是民用设备,每天都会产生容量相当于数 千兆字节的图像。一图胜千言,图像的表达能力,图像所包含的信息,比文字更 为丰富。如果人类能够充分的利用图像信息,必将加速社会信息化的进程。然而, 由于这些图像无序地分布在世界各地,图像中包含的信息无法被有效地访闯和利 用。这就要求有一种能够快速而且准确地查找访问图像的技术,这也就是所谓的 图像检索技术。 自从2 0 世纪7 0 年代以来,在数据库系统和计算机视觉两大研究领域的共同 推动下,图像检索技术己逐渐成为一个非常活跃的研究领域。研究者们在图像检 索领域已取得了很多突破性的进展,涌现了一批著名的图像检索系统。 图像标注作为图像检索系统的核心成份,对图像检索的发展起着至关重要的 重要,往往图像标注方法的进步,对图像检索系统检索效率、查询方式等方面都 会产生相当大的影响。 本论文将把研究的重点放在这一核心成分图像标注上。 1 2 图像检索的发展历史和现状 图像检索始于2 0 世纪7 0 年代中期,当时所采用的是基于文本的图像检索技 术( t e x t - b a s e di m a g er e t r i e v a l ) 。它是将图像作为数据库中存储的一个对象,用 关键字或自由文本对其进行描述。查询操作是基于该图像的文本描述进行精确匹 配或概率匹配,有些系统的检索模型还是有词典支持的。另外,图像数据模型、 多维索引、查询评价等技术都在这样一个框架之下发展起来【。 然而,完全基于文本的图像检索技术存在着两个严重的问题。一是需要手工 对图像进行注释,工作量相当大,当图片数据量非常大时,手工标注是不切实际 的;二是手工标注不可避免地会带来主观性和不准确性,因为不同的人对同一 幅图像的理解可能是不相同的1 2 l 。 照相机等摄影器材的发展,数字图像日益丰富,人们对数字图像的检索需求 也日益增长,基于文本的纯粹人工标注方式的缺点愈加突出,因此从图像本身发 掘信息来进行自动检索的需求日益迫切。2 0 世纪9 0 年代,人们提出了基于内容 的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ) 。其方法是从图像中自动提取颜色, 浙江大学硕 学位论文 第1 章绪论 纹理、形状等特征,然后再基于这些特征计算数据库中的图像与用户给出的查询 请求之间的距离并根据距离由小到大排序,排在前面的图像被认为是“相关图像” 而返回给用户p j 从这种方法的原理可见,图像内容特征的好坏直接制约了检索系统的性能。 为了提高检索性能,早期的研究工作主要围绕着从图像中提取有效的特征的方法 展开,经过一段时间的研究后人们发现,要定义出一种非常有效的特征是极其困 难的,因此研究者们开始寻求新的解决办法。在这种环境下,有了图像检索领域 的第二次突破,即提出了基于区域的图像检索( r e g i o n - b a s e di m a g er e t r i e v a l ) 州 r b i r 仍然没有跳出c b i r 的框架,它只是在更小的粒度上进行图像的检索。 首先,它采用分割算法根据图像低层特征把图像分割成许多同构( h o m o g e n e o u s ) 的区域,然后分别比较这些区域得到图像之间的相似度这一方法在大多数情况 下能取得比基于全图的图像检索更好的性能,但是它有两个缺点:1 ) 受到图像 分割技术的制约;而后者仍然是一个尚待研究的课题;2 ) 受到图像特征提取方 法的制约。 图像检索的第三个突破是将相关反馈引入c b i r 中。利用相关反馈进行图像 检索的流程是;用户提交给系统一个查询请求,系统比较查询请求与数据库中图 像特征的相似度并返回给用户一些最相似的图像,用户对这些图像标注其相关 性,系统再根据用户提供的反馈信息修改查询请求的特征向量,然后进行下一轮 检索直到用户满意为止【卯。这一方法的本质在于利用人来引导系统找到他她需要 的图像。其优点是大大提高了图像检索系统的性能,缺点是增加了用户的负担。 在利用相关反馈进行图像检索的一系列研究工作中,值得一提的是主动学习 方法【6 l 。这些方法有目标地选择要求用户标注的图像,使得用户找到目标图像所 可的反馈次数最少。自此之后,图像检索领域的研究工作虽然仍在积极地开展, 公认的标志性的工作却非常少。传统的基于内容的图像检索也由于语义鸿沟问题 走到了它的瓶颈。 随着因特网的飞速发展,研究者们开始把视野投向网络图像。由于网页上的 图像往往伴随着大量的文本描述和链接信息,研究者们希望能够利用这些信息帮 助图像检索。 2 浙江大学硕士学位论文 第1 章绪论 1 9 9 4 3 1 9 9 0引入相关反馈 1 9 9 2 r b i r 图1 - 1 图像检索发展历史 1 3 研究的意义与目的 基于内容的图像检索,目前由于语义鸿沟问题已成为抑制检索性能的瓶颈, 单纯基于图像内容的搜索引擎主要应用于一些专业领域,如:指纹扫描、人脸识 别等,面对w e b 上复杂的图像资源还没有一个有效的普适的检索技术。而基于 文本的图像检索,目前主要基于关键字索引,对网页的数掘挖掘不够充分,仍有 性能提高的余地。 设计新的图像标注方式,改进原有的基于文本的图像标注方法,充分利用 w e b 图像的特殊性,深度挖掘w e b 页上与图像相关的特征信息,以最大可能地 弥合语义鸿沟取得更高的图像检索系统性能,具有重要的意义。 1 4 本文的组织 本文研究了目前图像检索系统的常见实现方式,针对目前的图像标注方法上 存在的问题,提出了一个基于网页关联特征的图像标注新方法上,并围绕这个主 题进行特征的提取和图像的标注这两方面的工作 本文的篇章结构概括如下: 第一章简要回顾了图像检索的产生和发展的历史,提出了本文的研究内容和 意义; 第二章对图像检索系统目前常见的两种技术:基于文本的图像检索和基于内 容的图像检索进行了概述,并介绍了目前图像检索的研究热点和图像检索存在的 问题; 第三章提出一种新的图像标注方法,并以此方法为支持构建了一个基于网页 关联特征的互联网图像自动标注的原型系统,对系统的整体构架、技术架构和数 据存储表设计作了介绍。 第四章主要介绍了网页分析器的设计目标和模块具体实现,该章中重点介绍 本文提出的两个算法了基于d o m 树的图像上下文提取算法和基于视觉和规则的 3 浙江大学硕士学位论文 第1 章绪论 正文提取算法。 第五章主要介绍了图像标注生成器的设计目标和工作流程,并详细地描述了 标注生成器中每个子模块的具体实现方式。 第六章对图像标注原型系统的核心模块,即正文提取模块和文本分类模块, 进行了效果评测,并总体上演示了原型系统的基本功能,以p h p 的形式展现最 终的图像标注结果。 第七章总结了本文图像标注原型系统的实现方式及其优缺点,对本文提出的 图像标注方法的研究方向进行了展望。 4 浙江大学硕七学位论文 第2 章图像检索技术概述 第2 章图像检索技术概述 2 1 基于文本的图像检索 2 1 1t b i r 简介 t b i r 的基本思想是,用文本作为关键字索引,利用基于文本的数据库管理 系统( d b m s ) 管理图像的文本信息。其沿用了传统文本检索技术,回避对图像可 视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标 引图像【2 】。 早期对图像的标注一般采用人工识别图像主题的方式,对图像进行手动标 注,这种方法存在严重的缺点:首先,图像的标注必须依赖于人工,不但费时费 力,而且手工的标注往往是不准确或不完整的,还不可避免地带有主观偏差。也 就是说,不同的人对同一幅图像有不同的理解方法,这种主观理解的差异将导致 图像检索中的失配错误。此外,图像中所包含的丰富的视觉特征( 颜色或纹理等) 往往无法用文本进行客观地描述的。 基于文本的图像检索系统一般以关键词形式的提问查询图像,或者是根据等 级目录的形式浏览查找特定类目下的图像如g e t t y a a t ( h t t p :w w w g e t t y e d u r e s e a r c h c o n d u c t i n g使用近 个术语来描述艺术、艺术史、建筑以_及res其ea它rch文v化oc方ab面ula的rie对sa象at,)1330 0 0并推出3 0 多个等级目录,从7 方面描述图像的概念、物理属性、类型和刊号等。在图像数 字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。 2 1 2i n t e r n e t 环境下的t b i r 在i n t 锄e t 环境下,人工对网上的海量图像数据进行注释是不现实的随着 信息检索技术的不断成熟,网页信息自动采集和标引作为搜索引擎的重要组成部 分,得到了深入的研究,并广泛应用于文本搜索引擎中自动采集和标引技术同 样可以应用于图像搜索引擎。目前,i n t e m e t 上许多搜索引擎在提供文本检索的 同时,也提供图像检索服务,如g o o g l e ,y a h o o 和百度等,它们采用的都是t b i r 技术1 2 】。 对于w 曲图像而言,图像的物理特征信息一般可以自动识别,如图像的格式 类型、名称、尺寸大小,而网络环境下的图像资源区别于一般独立图像的特点, 在于它们与w d o 网页有着千丝万缕的关系,一般都是嵌入在w e b 文档中随之发 浙江大学硕士学位论文 第2 章图像检索技术概述 布的,处于一定的上下文环境( c o n t e x t ) 。因此,借助网络图像的文本上下文环 境,可以在一定程度上为图像分析、标引提供依据。一般的,图像所在页面的主 题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作 图像分析的依据,根据这些文本分析结果推断其中图像的特征。充分利用w e b 文档丰富的文本上下文以及超文本结构信息,有助于实现在一定程度避开可视化 元素的识别达到图像分析的目的川。 对w e b 图像主题的标识主要有两种方式: 人工分析的手动识别:人工识别图像的主题,这与早期文本的人工标引和 分类是相同的,由专业标引人员逐个图像进行审核和标引: 对上下文环境分析的自动识别:因为w e b 图像嵌入在w e b 页面中,根据 图像所处的上下文环境来判断图像的主题内容。 目前对w e b 文档的主题提取算法不少,因此结合这一成熟技术可以简化图像 主题人工标引的消耗以下是应用该技术的几种典型的图像搜索引擎 图像信息在数据库中的索引方式可有2 种,即全文索引和关键词索引。全文 索引是用图像所在网页的全部文字信息作为图像的注释,网页上出现的任何文字 信息都认为与图像相关显然,这样的图像标注是很粗糙的,准确性不高采用 这种机制的特点是具有很高的查全率,而查准率比较低。与其不同的是,基于关 键词的索引使用若干关键词来表示图像信息,这些关键词从图像所在的网页获 得一般地,图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内 容、图像的链接地址等都可以用作图像分析的依据,根据这些文本内容,生成描 述图像信息的关键词,实现图像的自动标注。采用关键词标注的特点是查准率相 对较高,而查全率较低。 在i n t e m e t 下,t b i r 技术能够用文本来表达图像的语义信息,符合人们的检 索习惯,实现简单,可以充分利用已有的成熟的文本检索技术和搜索引擎技术, 但t b i r 也存在许多缺点。首先,以图像所在的网页为依据,对图像进行自动标 注。这种标注往往是很不准确的。另外,用文本表示图像的方式也不能满足用户 对图像原始特征信息的检索。 2 1 3 常见的t b i r 工作原理 目前常见的图像搜索引擎,如:b a i d u ,g o o g l e 和y a h o o ,都是基于文本的 图像检索系统,使用传统的基于关键字的搜索引擎进行图像搜索,其原理与搜索 普通信息一样,区别只是搜索的内容不同。 传统的图像专用搜索引擎工作原理,其通用工作过程大致分为三步, 首先利用图像s p i d e r 对网上站点内的图片及页面信息进行自动抓取,并将文 档页面与图片信息返回搜索引擎数据库; 6 浙江丈学硕上学位论文 第2 章图像检索技术概述 然后,对搜索引擎返回的信息进行加工,抽取关键词、图像低层特征或者进 行加工分类,为数据库内的图像信息建立索引; 最后,通过w e b 页面访问接受用户的查询请求,按照相关性给出用户的需求 数据。 传统图像搜索引擎大致由四个部分构成:图像检索s p i d e r 、图像检索控制器、 图像检索数据库和用户查询服务界面。图像检索s p i d e r 是通过h t r p 协议的g e t 、 p o s t 、h e a d 读取页面并自动分析页面的超链,在互联网上自动进行漫游的程序。 在此过程中,s p i d e r 自动识别分析并抓取文档中的图像及图像相关的上下文,保 存入数据库。搜索控制器是整个搜索引擎的核心,它协调各个部分的工作,自动 分析得到的网页,并将分析后的图像数据添加到图像搜索引擎数据库。图像搜索 引擎数据库用于存放采集到的网页、抽取的描述信息,以及用于s p i d e r 抓取状态 记录的临时数据,包括网页的全部内容,或者图像的地址、标题、关键词、摘要 等。用户查询服务界面用来接受用户的查询请求,并将检索结果图像按相关度返 回给用户通常用户检索方式包括关键词主题检索和分类目录检索。 可见大多数搜索引擎提供的图像检索都通过图像所在网页的图像关键字,使 用关键词检索技术对图像进行搜索,建立所有的图像的关键字索引由于大多数 的网页制作时没有考虑图片的检索问题,因而相关的说明文字比较匮乏,不精确 甚至错误的描述文字经常会造成对图片索引的误导。 以下是几种典型的图像搜索引擎: ( 1 ) g o o g l e :在w e b 空间,g o o g l e 是最全面、好用的图像搜索工具。目前, 它拥有经过标引的图像3 3 亿幅。 其网址是:h t t p :i m a g e s g o o g l e t o m ( 2 ) d i t t o :d i t t o 是一个纯粹的图像搜索引擎,它的图像索引( p i c t u r ei n d e x ) 库 与日俱增。其来源:一是图像拥有者以页面u r l 地址提供,二是靠它的搜索软 件搜索w e b 空间的图像。 其网址是:h t t p :w w w d i t t o c a m ( 3 ) y a h o o ! p i c t i i r g a l l e r y :雅虎图像馆( y a h o o ! p i e t u r e g a i l e r y ) 目前有4 0 余万幅图 像。这些图像按动物、艺术、文化、娱乐、自然、科技、体育运动和旅游等进行 分类组织,供用户浏览、挑选。另外,用户可以在检索框输入关键词进行图像检 索。 其网址是:h t t p :g a l l e r y y a h o o c o m 7 浙江大学硬1 :学位论文 第2 章图像检索技术概述 2 2 基于内容的图像检索 为克服基于文本的图像检索的问题,基于内容的图像检索技术应运而生。区 别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅 图像的视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研 究领域中的许多技术发展起来,一大批研究性的或商用的图像检索系统被建立起 来。这个领域的发展主要来归功于计算机视觉技术的进步。 基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构架。 首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特 征的相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返 回给用户这就是所谓的通过例子图像的检索( q u e r yb yi m a g ee x a m p l e ) 。另外, 基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便于用户能 够方便地构造查询、评估检索结果和改进检索结果。 图2 1 表示了基于内容的图像检索系统的体系结构。 查询,反馈 ,、 检索结果 用户 图2 - 1 基于内容的图像检索系统体系结构 系统的核心是图像特征数据库。图像特征既可以从图像本身提取得到,又可 以通过用户交互获得,并用于计算图像之间的相似度。用户和系统之间的关系是 双向的;用户可以向系统提出查询要求,系统根据查询要求返回查询结果,用户 还通过对查询结果的相关反馈来改进查询结果【s 】。 图像视觉特征的提取与表达是基于内容的图像检索技术的基础。它是指利用 数字图像处理和计算机视觉技术,直接从图像中获得客观视觉内容特征,如颜色、 纹理、形状等,并依此来判断图像之间的相似性【9 l 。以下简要介绍三种图像特征 的提取与表达。 2 。2 1 颜色特征 颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往 和图像中所包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特 g 濒江大学硬上学位论文第2 章图像检索技术概述 征对图像本身的尺寸、方向,视角的依赖性较小,从而具有较高的鲁棒性【l 。 面向图像检索的颜色特征的表达涉及到若干问题。首先,需要选择合适的颜 色空间来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向 量的形式;最后,还要定义一种相似度( 距离) 标准用来衡量图像之间在颜色上 的相似性。以下介绍几种常用的颜色特征表示方法,包括颜色直方图、颜色矩、 颜色集、以及颜色相关图。 颜色直方图 颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是 不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无 法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的 图像。 颜色矩 另一种非常简单而有效的颜色特征使由s t r i c k e r 和o r e n g o 所提出的颜色矩 ( , x , l o r m o m e n t s ) 。这种方法的数学基础在于图像中任何的颜色分御均可以用它 的矩来表示。此外,由于颜色分布信息主要集中在低阶矩中,因此仅采用颜色的 一阶矩( m e a n ) 、二阶矩( v a r i a n c e ) 和三阶矩( s k 蹦n e s s ) 就足以表达图像的 颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。 颜色集 为支持大规模图像库中的快速查找,s m i t h 和c h a n g 提出了用颜色集( c o l o r s e t s ) 作为对颜色直方图的一种近似。他们首先将r o b 颜色空间转化成视觉均衡 的颜色空间( 如h s v 空问) ,并将颜色空间量化成若干个b i n 。然后,他们用色 彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量 来索引,从i 丽将图像表达一个二进制的颜色索引集。在图像匹配中比较不同图 像颜色集之间的距离和色彩区域的空间关系( 包括区域的分离、包含、交等,每 种对应于不同得评分) 。因为颜色集表达为二进制的特征向量,可以构造二分查 找树来加快检索速度,这对于大规模的图像集合十分有利。 颜色相关图 颜色相关图( c o l o rc o r r d o g r a m ) 是图像颜色分布的另一种表达方式。这种特 征不但刻画7 某一种颜色的像素数量占整个图像的比例,还反映了不同颜色对之 间的空间相关性。实验表明,颜色相关图比颜色直方图和颜色聚合向量具有更高 的检索效率,特别是查询空间关系一致的图像。 9 浙江大学硕l 学位论文第2 章图像检索技术概述 2 2 2 纹理特征 纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征。它 是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理 特征。纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的 联系。正因为如此,纹理特征在基于内容的图像检索中得到了广泛的应用,用户 可以通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像1 1 2 】 由于纹理特征对模式识别和计算机视觉等领域的重要意义,对纹理的分析研 究在过去的三十年中取得了重大的成果。基于内容的图像检索中所常用主要有 t a m u r a 纹理特征、自回归纹理模型、方向性特征、小波变换和共生矩阵等形式。 其中t a m u r a 等人从人类对纹理的视觉感知的心理学研究出发,提出了纹理特征 的表达的六种视觉属性,分别是粗糙度( c o a f a 圮1 l c s $ ) 、对比度( c o n t r a s t ) 、方 向度( d i r e c t i o n a l i t y ) 、线像度( 1 i n e l i k e n e s s ) 、规整度( r e g u l a r i t y ) 和粗略度 ( r o u g h n e s s ) 。其中,前三个分量对于图像检索尤其重要f 1 3 1 由于纹理很少能提供语义信息。描述比较困难。因此通常作为检索过程的辅 助手段或者和其他特征结合使用。一般对纹理的检索都采用示例查询( q u e r yb y e x a m p l e ) 方式。用户给出示例的全部或部分区域特征,从而找到类似图像。另外, 为了缩小纹理的查找范围,还可以考察纹理的颜色特征,以便把检索空问缩小到 某个颜色范围。 2 2 3 形状特征 物体和区域的形状是图像表达和图像检索中的另一重要的特征。但不同于颜 色或纹理等底层特征,形状特征的表达必须以对图像中物体或区域的划分为基 础。由于当前的技术无法做到准确而鲁棒的自动图像分割,图像检索中的形状特 征只能用于某些特殊应用,在这些应用中图像包含的物体或区域可以直接获得 另一方面,由于人们对物体形状的变换、旋转和缩放主观上不太敏感,合适的形 状特征必须满足对变换、旋转和缩放无关,这对形状相似度的计算也带来了难度。 通常来说,形状特征有两种表示方法,一种是轮廓特征的,一种是区域特征 的。前者只用到物体的外边界,而后者则关系到整个形状区域。这两类形状特征 的最典型方法分别是傅立叶描述符和形状无关矩【旧。 2 3 图像检索工作流程 一般来说,图像检索系统采用如下流程工作: 首先,用户提交查询请求。这有两种方式:1 ) 提交范例图像,要求找到与 l o 浙江大学硕l 学位论文第2 章盈像检索技术概述 之具有相同语义( s e m a n t i c s ,c o n c e p t ) 的其它图像。这种检索方式称为基于范例 的检索( q u e r y - b y - e x a m p l e ) ;2 ) 提交文本关键字( k e y w o r d s ) ,要求找到能用该关 键字代表的图像这种检索方式称为基于关键字的检索( q u e r y - b y - k e y w o r d ) 。 然后,系统根掘图像的特征向量( 如颜色、纹理、形状等) ,计算查询请求 与数据库中所有图像在某种距离测度( 如欧氏距离、m a h a l a n o b i s 距离等) 下的 相似度,并根据相似度的大小对图像排序,相似度大的图像排在前面,相似度小 的图像排在后面。 最后,系统返回前n 幅图像作为检索结果。 图2 2 是一般图像检索系统的工作流程图: 图2 - 2 图像检索系统工作流程图 浙江大学磺上学位论文 第2 章图像检索技术概述 2 4 图像检索研究的研究热点 面。 目前在图像检索方面存在一些有待研究的热点和难点问题,主要有以下几方 2 4 1 图像和语义鸿沟的研究 图像检索目前面临的最大困难就是语义鸿沟( s e m a n t i cg a p , 也称为c o g n i t i v e g a p ) 所谓语义鸿沟,指的是目前所定义的图像内容特征( c o m e n tf e a t u r e s ,o r l o w - l e v e lf e a t u r e s ,如颜色、纹理、形状等) 不足以代表图像的语义信息( s e m a n t i c s , o rc o n c e p t s ,如猴、天空、山1 ,因此基于这些特征检索的准确率可能会非常低, 比如检索老虎时系统返回豹子的图片【1 4 1 。 2 4 2 两类图像检索技术的结合 现有的图像搜索引擎主要侧重于对图像内容的语义描述,而图像库检索技术 则侧重于图像内容的特征提取,二者虽侧重不同但却互相补充。如果能将二者结 合起来取长补短,则网络的图像检索技术必有新的进展。已有的图像搜索引擎在 信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像 的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结 合,这是今后应该研究的一个课题而且,图像库检索技术也应面向网络,利用 网络技术进行改造,提供新的w w w 访问界面代替原来的应用系统界面。同时将 巨大的图像库资源利用网络实现共享。 2 4 3 对基于内容编码技术的研究 目前,国际上还没有通用的基于内容的编码标准。2 0 世纪9 0 年代初,国际上 就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索,到综合利 用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应 用中以检验其有效性。同时,m p e g 7 标准作为基于内容的多媒体编码标准也正 在制定当中,即将成为国际标准中的一员。因此,应尽快对m p e g 7 标准进行研 究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基 于内容的图像检索尽快走向实际应用阶段【1 6 1 。 2 4 4 对用户查询接口的研究 这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提 1 2 浙江丈学硕上学位论文 第2 章图像拎索技术概述 交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互 性,人在系统中是主动的。除了提供示例和描绘查询基本接口之外,用户的查询 接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感 知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是 直观易用的,底层的特征选择对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西饮料喷码机采购合同
- 学校教师开学防疫工作安排方案课件
- 2025年国考行测数量关系重点难点专项突破卷
- 2025年银行柜员年终工作总结(6篇)
- 2025年医学乡村全科试题及答案
- 2023年安全员资格考试A证培训试题(含答案)
- 2025年注册会计师(CPA)审计科目专项训练卷
- XX开放大学202X年学前教育专科实习报告(2025年)
- 11月建筑施工升降机司机模拟考试题与答案(附解析)
- 2025吉林成考专升本医学影像学试题与答案
- 创伤急救模拟教学的高仿真情景构建方法
- 半导体后端封装测试片及测试设备零部件生产项目环境影响报告书
- 消防队的考试题库及答案
- 2025年度XX市妇幼保健院党支部书记抓基层党建工作述职报告
- 2024年万宁市事业单位招聘笔试真题
- 2025昆明市石林国有资本投资集团有限公司及下属公司招聘(30人)考试笔试备考题库及答案解析
- 木地板安装施工方案
- 2025山东发展投资控股集团有限公司权属企业招聘249人考试笔试备考题库及答案解析
- 安全管理工作汇报
- 7月电子商务四级测试题与参考答案
- 一顶温暖的帽子课件
评论
0/150
提交评论