




已阅读5页,还剩100页未读, 继续免费阅读
(信号与信息处理专业论文)图像检索中自动标注与快速相似搜索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学博士论文摘要 摘要 当前成像技术的快速发展,使数码相机、可拍照手机等设备日益普及,各种 各样的图像数量飞速增长。同时,互联网的诞生与发展极大地促进了人们之间的 信息交流,也使图像传播变得更加方便快捷。越来越丰富的图像资源使用户难以 在浩如烟海的数据中找到其真正需要的信息。从而,各种各样的图像检索技术得 到了广泛的关注。 现有的图像检索主要依赖于图像对应的标注信息,随着图像数量的快速增 加,手工进行图像标注方法由于费用太过昂贵,已经不能满足人们的需要。所以, 人们寻找能够自动生成图像标注的方法,近些年来己成为了研究热点。目前研究 中遇到的问题主要是“语义鸿沟”问题以及巨大的图像数量带来的效率问题等。 同时,基于图像视觉内容的检索也在许多领域具有非常重要的作用,如指纹 检索、医学图像检索等等。而且,自动图像标注算法中也经常需要进行基于图像 内容的检索。这类检索的一个关键问题是如何快速、准确地寻找到与查询酎像相 似或近似的图像集合。由于图像具有巨大的数据量,般表示为商维空间中的矢 量,所以其索引和检索变得十分困难。当需要处理的图像数目达到上百万甚至上 亿张时,快速搜索近似图像将成为非常具有挑战性的任务。 本文主要针对图像检索中的自动图像标注以及快速搜索相似图像等方面进 行研究,主要研究内容和创新之处为: 1 , 对自动图像标注算法进行了介绍,重点讨论了基于相关模型、生成式模型, 传播式模型等几类得到广泛研究的标注方法。传统的图像标注算法主要研 究图像与词汇之间的关系,而近期受到普遍关注的一类方法是利用词汇之 间存在的统计和语义关系对已有的标注进行改善,我们也对这方面的代表 性工作进行了介绍 2 、本文详细分析了图像自动标注问题中的目标与涉及到的可用信息,提出了 一种统一的自动图像标注的模型框架,将传统的自动图像标注问题扩展到 包括自动标注与标注改善两个子问题。该框架可以清晰地解释现有的多种 自动标注方法,帮助人们更好地理解自动图像标注问题。 中国科学技术大学博士论文摘要 3 、基于本文所提框架,我们提出了若干种有效的图像标注改进算法,分别改 进了相应的图像关系计算方法、词汇闯关系计算以及学习算法等部分。实 验表明,本文提出的算法取得了明显效果,也说明了所提统一自动标注框 架的有效性。 4 、基于内容的图像检索其核心问题是相似图像的检索问题,同时,在自动图 像标注中经常需要寻找与待标注图像相似的图像集合。所以,我们探讨了 快速搜索相似图像的算法。为了简化问题,我们首先讨论了如何在大规模 图像库中快速进行重复图像的检测。针对此问题,我们提出了一种高效的 图像表示和索引方法,该方法计算复杂度低,准确度高,所需存储量小, 具有很好的检测性能。 5 , 我们将该重复图像检测的方法进一步扩展到相似图像的搜索中,联合利用 多种图像特征的表示和索引,通过机器学习的方法以最佳方式对这些信息 进行组合,实现了对大规模图像集快速寻找相似图像的功能。 关键词:自动图像标注,图像标注改善,重复图像检测,相似图像检索 中国科学技术大学博士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi m a g i n gt e c h n o l o g y , d i g i t a lc a m e r a sa n do t h e r i m a 西n gd e v i c e sa r eb e c o m i n gm o r ea n dm o r ep o p u l a r s ot h en u m b e ro fa v a i l a b l e i m a g e si n c r e a s e sa ta ne x p l o s i v es p e e d f u r t h e r , t h ei n t e m e tg r e a t l yf a c i l i t a t e st h e c o m m u n i c a t i o nb e t w e e np e o p l e t h ee x c h a n g ea n dd e l i v e r e ro fd i g i t a li m a g e sa r e v e r yc h e a pa n dc o n v e n i e n t m e a n w h i l e ,t h ee v e ri n c r e a s i n gn u m b e ro fi m a g e sb r i n g s p r o b l e m st oe n du s e r s it h e yc a n n o tf i n dw h a tt h e yr e a l l yn e e df r o mh u g ea m o u n to f a v a i l a b l ed a t a t h e r e f o r e ,al o to fi m a g er e t r i e v a la n ds e a r c h t e c h n o l o g i e sa r e d e v e l o p e d p r e s e n ti m a g er e t r i e v a lu s u a l l yd e p e n d s0 1 1t h ea n n o t a t i o ni n f o r m a t i o n ,w h i c hi s t h et e x t u a ld e s c r i p t i o no fa ni m a g e w h i l et h en u m b e ro fi m a g e si sf a s ti n c r e a s i n g , m a n u a l l yl a b e l i n g a l l i m a g e sb e c o m e si n f e s i b l e t h e r e f o r e ,a u t o m a t i ci m a g e a n n o t a t i o nr e c e i v e sg r e a ta t t e n t i o na n dr e s e a r c he f f o r ti nr e c e n ty e a r s t h em o s t d i f f i c u l tp r o b l e m sa r e “s e m a n t i cg a p ”a n de f f i c i e n c yp r o b l e m sd u et ot h eh u g e n u m b e ro f i m a g e s b e s i d e s ,c o n t e n t - b a s e di m a g er e t r i e v a l ( c b i r ) i sn e c e s s a r yi nm a n ya p p l i c a t i o n a r e a s ,s u c ha sm e d i c i a li m a g er e t r i e v a l a u t o m a t i ci m a g ea n n o t a t i o na l s on e e d st o p e r f o r mc b i ri nm a n yo a s e s t h ek e yp r o b l e mi nc b i ri st oq u i c k l ya n dp r e c i s e l y f i n di m a g e ss i m i l a rt ot h eq u e r yo n e b e c a u s ei m a g e sa r eo f t e nr e p r e s e n t e da s h i g h - d i m e n s i o n a lv e c t o r sa n dt h e i rh u g em a l o u n t b o t l lt h ei n d e xa n ds e a r c ha l ev e r y d i f f i c u l t w h e nt h en u m b e ro fi m a g e si n c r e a s e st om i l l i o n so rb i l l i o n s ,s u c hf a s t s i m i l a ri m a g es e a r c hw i l lb eav e r yc h a l l e n g i n gr e s e a r c hp r o b l e m t h i sd i s s e r t a t i o nf o c u s e so nt h ea u t o m a t i ci m a g ea n n o t a t i o na n df a s ts i m i l a r i m a g es e a r c h t om a k ei tc l e a r , t h em a i nc o n t e n ta n dc o n t r i b u t i o na r el i s t e db e l o w : 1 。i n t r o d u t i o u st ot h ea u t o m a t i ci m a g ea n n o t a t i o na l g o r i t h m s t h ee m p h a s i si sp u t o nt h er e l e v a n c e - b a s e dm o d e l s ,g e n e r a t i v em o d e l s ,a n dl a b e lp r o p a g a t i o n m e t h o d s s o m er e c e n tr e s e a r c hu t i l i z et h ec o r r e l a t i o nb e t w e e nw o r d s ,e i t h e r h i 中固科学技术大学博士学位论文a b s t r a c t s t a t i s t i c a lo rs e m a n t i c ,t or e f i n et h ei m a g ea n n o t a t i o n s o m eo f t h i st y p eo f w o r k i sa i s od i s c u s s e d 2 t h i sd i s s e r t a t i o nm a k e sa i la n a l y s i st ot h eg o a la n da v a i l a b l ei n f o r m a t i o ni nt h e a u t o m a t i ci m a g ea n n o t a t i o n t h e n ,au n i f i e da n n o t a t i o nf i a m e w o r ki s p r o p o s e d t h et r a d i t i o n a la n n o t a t i o ni se x t e n d e dt oi n c l u d et w os u b - p r o b l e m s : b a s i c i m a g ea n n o t a t i o na n da n n o t a t i o nr e f i n e m e n t w i t ht h e p r o p o s e d f r a m e w o r k ,m a n yp r e v i o u sa n n o t a t i o nm e t h o d sc a n b ec l e a r l yu n d e t s t o o d 3 b a s e do nt h ep r o p o s e df r a m e w o r k , t h i sd i s s e r t a t i o np r e s e n t ss e v e r a le f f e c t i v e i m p r o v e di m a g ea n n o t a t i o nm e t h o d s t h e s em e t h o d si m p r o v et h ei m a g e r e l a t i o n , w o r dr e l a t i o na n dl e r n i n gp r o c e s s ,r e s p e c t i v e l y t h ee x p e r i m e n t s s h o wt h ei m p r o v e m e n t sa r ee f f e c t i v e i ta l s oh e l p sv a l i d a t et h ep r o p o s e d a n n o t a t i o nf r a m e w o r k 4 t h i sd i s s e r t a t i o na l s od i s c u s s e st h es i m i l a ri m a g es e a r c h f i r s t , w er e s t r i c to i l r f o c u so nt h ed e t e c t i o no fd u p l i c a t ei m a g e sw i t h i na ni m a g es e t w ep r o p o s ea n e f f i c i e n ta n dc o n c i s er e p r e s e n t a t i o no fa ni m a g e t h ep r o p o s e dm e t h o dh a sl o w c o m p u t a t i o n a lc o m p l e x i t y , n e e d s l i t t l e s t o r a g e c o s ta n dc a l la c h i e v e h i g h d e t e c t i o np e r f o r m a n c e 5 t h em e t h o di nd u p l i c a t i o ni m a g ed e t e c t i o ni sf u i s h e rg e n e r a l i z e dt oc o n d u c t s i m i l a ri m a g es e a r c h w ep r o p o s et ou s em u l t i p l ek i n d so fi m a g ef e a t u r e sa n d e x p l o i ta d a b o o s tm e t h o dt oc o m b i n et h ec o n c i s er e p r e s e n t a t i o n so ft h e s e f e a t u r e s s ot h es i m i l a ri m a g es e a r c hi nl a r g ei m a g ed a t a b a s ec a nb eq u i c l o y p e r f o r m e dw i t hg o o dp e r f o r m a n c e k e y w o r d s :a u t o m a t i ci m a g ea n n o t a t i o n ,a n n o t a t i o nr e f i n e m e n t , d u p l i c a t ei m a g e d e t e c t i o n ,s i m i l a ri m a g es e a r c h i v 中田科学技术大学博士擘位论文目录 插图目录 圈1 1 网络图像及其对应文本信息示例一4 - 圈1 - 2 图像搜索引擎提供的基于内容的搜索选项 圈2 - 1 连续相关模型 图2 - 2 高斯一多项式混合模型示意图 图2 - 3 高斯一l d a 模型示意图 圈2 4 相关l d a 模型示意图 1 7 - 圈2 - 5 采用迭代方法的基于流形的学习。 图2 - 6 互相关标记传播示意图 一2 6 , 一2 7 - 图3 - 1 标注改善随不同图像变化示意图一3 8 一 图3 - 2 自动图像标注的两种媒体与四种关系一3 9 一 图3 - 3 统一的自动图像标注框架流程图。 图3 4 基本图像标注中图学习模型示意图 图3 5 图像标注改普的图学习模型- 4 3 图3 - 6 训练图像与铡试图像间关系- 4 8 图3 7 渐进式图像标注示意图5 4 一 圈4 - l 图像搜索结果示例图- 6 6 - 图4 - 2 基于h a s h 的重复图像检测算法流程图一6 9 图4 - 3 分块灰度均值计算示意图 一6 9 图4 4 重复图像组中图像数目的分布情况7 6 图4 _ 5 利用h a s h 值进行归组操作的耗时7 9 - 图4 6 对查询词“b r i t n e ys p e a r s ”的搜索结果进行重复图像检测的结果8 0 - 中国科学技术大学博士论文 学位论文相关声明 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:j 兰荜 岬年月文日 中蛋科学技术大学博士学位论文 第1 章绪论 第1 章绪论 随着电子技术和成像技术的快速发展,数字图像成为一种获得广泛利用的媒 体。最近十几年来,数码相机和可拍照移动设备的迅速普及,使数字图像更加易 于获取,其应用范围也大大扩展。而计算机技术以及互联网的兴起使各种信息( 包 括图像) 的传播速度大大加快,人们可以访问和获取的数据量呈现出爆炸式的增 长。但是,海量的数据在带给人们各种便利的同时,也带来了极大的问题:人们 容易迷失在浩如烟海的数据中而难以找到自己真正需要的信息。从而,信息检索 得到了广泛的关注,而图像检索由于其具有的丰富内容形式及广泛应用前景而得 到了大量的研究。 1 1 图像检索的发展 按照检索方式的不同,目前的图像检索主要可以分为两类:种是基于标注 信息的图像检索( a n n o t a t i o n b a s e di m a g er e t r i e v a l ) ,而另一种是基于图像视觉内 容的图像检索( c o n t e a t - b a s e di m a g er e t r i e v a l ,c b i r ) 。基于标注信息的图像检索 也称为基于文本或基于关键词的图像检索。在这种方式下,每幅图像都由与其对 应的文本信息表示,例如图像的分类信息、描述图像内容的关键词等。从而,对 图像的索引转化为对这些文本信息的索引,而且对应的搜索等操作也对文本进 行,可以利用比较成熟的文本信息处理方法,快速而高效地实现。而在基于内容 的图像检索中,图像用其本身视觉信息进行描述。目前常用的方法是根据图像内 容提取出各种特征,如颜色分布直方图、纹理描述特征、边缘形状特征等等【1 】 这些特征往往表示为高维矢量。检索时,由于用户难以直接输入目标图像对应的 特征矢量,系统一般需要用户提供一幅示例图像或手绘的草图,然后利用该图像 的特征矢量对数据库中图像集合进行搜索,以找到用户期望的目标图像。两种检 索方式都有其各自的特点及应用场合,下面,我们分别对它们进行介绍。 中田科学技术大学博士学位论文第l 章绪论 1 1 1 基于标注的图像检索 当标注信息可以获取时,基于标注信息的图像检索能够直接利用现有的文本 信息检索技术,比较容易快速高效地实现。计算机技术和数据库系统的发展,使 传统的文本检索方式可以通过计算机系统简单快捷地进行。目前的文本搜索系统 可以很好地支持极大规模数据集( 数十亿或更多记录) 上多种不同方式的快速查 询。由于文本标注信息可以比较准确地包含各种语义,检索结果往往能够符合人 们的检索要求,速度也较快。 但是,当图像数据量快速增长时,如何获得高质量的标注信息成为了一个难 题。主要的困难来自于两个方面。首先是手工标注的代价难以接受。目前,g o o g l e 、 y a h o o 、m s n 等搜索引擎都提供了图像搜索的功能,其索引的图像数目均达到上 十亿张。对所有这些图像进行手工标注所需人工花费将十分巨大,耗时很长。人 们难以接受。而且,新图像不断出现,手工标注的方式无法满足及时产生和更新 对应标注的要求,所以试图一劳永逸地对所有图像进行标注是不可能的。第二是 标注的不一致性问题,由于一幅图像本身往往包含着非常丰富的信息,所以不同 的人对同一幅图像会出现不同的理解 2 1 。此外,对于同一语义信息,不同的人 可能使用不同的词汇进行描述( 3 】。例如,用户在查询时使用的词汇就可能与标 注时的词汇不同,这进一步加重了标注的不一致性带来的影响。 虽然存在以上问题,但是基于文本信息的检索系统易于使用,用户只需输入 词汇就可以进行检索并得到相应结果。这种便捷特性使基于标注的图像检索依然 是当前最重要的图像检索方式,并且得到了广泛的应用【4 】,例如,目前的网络 图像搜索引擎基本都采用了基于文本信息的检索。下面,我们按照标注信息的来 源方式分别介绍若干基于标注的图像检索系统。 首先,相当多的系统,尤其是一些商业图像网站或专业图像供应者,依赖于 手工标注信息对图像进行索弓1 1 5 。早期的图书馆系统中,图像基本通过与其相 关的文本信息,如作者、时代、类别等分门别类存放。在这些数字图书馆或商业 图像库中,图像的标注者往往是专业人员。与此相对,网络上图像的极大丰富使 这种依赖专业人员的标注方式变得不可行。在f l i c l a 6 、f o t o l i a 7 等图像网站上, 对图像的标注是通过网络用户的共同协作完成。网站允许图像的上载者提供一组 中置科学技术大学博士学位论文 第1 章绪论 能够描述该图像的关键字,系统根据这些关键字来索引图像 其次,目前的网络图像搜索引擎及相当数量的网络图像库采用了一种半自动 获取图像标注的方法。网络图像的一个重要特点是它是被包含在某一文本网页当 中的,因此总是可以获得一些对应的文本信息,例如,图像的文件名及u r l 、 a l t 标签文本( a l t t a g ) 、锚文本以及图像周围的环绕文本等信息,其中的a l t 文本是当图像不能被正确显示时用以替代图像的文本信息【8 j ,所以它往往是图 像内容的直接描述。如图1 1 所示,网页中的标题、环绕文本以及a l t 标签包 含了与图像内容相关的文本信息。虽然其中有一定的无关内容,但是合理利用这 些信息可以获得对应这幅图像的、具有一定质量的文本标注。由于网络上的网页 是千千万万不同的用户自由建立的,形式、内容都有着非常大的变化,对应文本 质量参差不齐,而且其中与图像相关的文本信息经常是非常有限的,即偏重于图 像于网页内容相关的那一部分。所以,如何从网页中正确提取与图像内容相关的 文本信息是一个非常困难的任务【9 】。利用这种方式得到的文本信息质量没有手 工标注的文本质量高,但是人们可以期望大多数的文本信息是有益的。现有的 g o o g l e 1 0 、y a h o o 1 1 、m s n 1 2 等网络图像搜索引擎大都采用这种方式来获得 一幄图像对应的文本信息并建立索引,它们的成功说明这种方法得到的结果能够 在一定程度上满足用户的需求。与网络图像搜索引擎需要分析各种各样的网页不 同,许多网络图像库借助于用户的评论信息来改善图像的索引。例如 p h o t o s i g 1 3 ,除了用户上载图像时可以附加一段描述文字外,其他用户也可以 在浏览图像时给出自己的评论,这些评论信息也可以被用来改善图像的索引与检 索性能。 最后,许多研究工作着眼于采用完全自动的方法从图像的视觉信息本身来获 得图像对应的文本信息。这种方法自动化程度最高,也是目前最具有研究意义的 方法。受限于多种困难,该领域现有的研究成果与实际应用还有比较大的距离, 当数据集规模较大时大多数算法的性能会急剧下降。近些年来,人们尝试着从各 种不同的方向进行探索,做出了大量的尝试,是收到普遍关注的研究热点。在后 面的第二和第三章中,我们还会对自动图像标注问题做比较详细的讨论 中田科学技术大学博士学位论文 第1 章绪论 图1 - 1 网络图像及其对应文本信息示例 1 1 2 基于内容的图像检索 基于内容的图像搜索( c o n t e n t - b a s e di m a g er e t r i e v a l ,c b i r ) 是近年来得 到许多关注和重点研究的一个领域d 3 1 。在许多应用环境下,c b i r 有着不可替 代的作用。例如,在医学图像领域,人们往往需要根据病人的透视图像来进行诊 断【1 4 】。这时候,利用基于内容的图像检索可以找出类似的图像与相应的诊断信 息供医生参考。此外,指纹鉴别、人脸识别等等也是基于内容的图像搜索得到广 泛应用的例子。在此类应用中,用户需要提供目标图像的某种描述,检索系统按 照一定的方式从图像数据库中找出与目标最相关或是最近似的图像返回给用户 根据用户输入目标图像描述的方式,基于内容的图像检索又可以分为基于图 例的查询( q u e r yb ye x a m p l e ,q b e ) 和基于草图的查询( q u e r yb ys k e t c h ,q b s ) 两种。在q b e 系统中,用户提交一幅实际的示例图像,系统根据该图像的颜色、 纹理、形状等等信息在数据库中进行查询。但是如何获取该示例图像在许多情况 下并不易解决,所以人们提出了利用草图的查询方式q b s 。系统向用户提供幅 画板,用户可以用笔或鼠标在该画板上描绘出期望图像的主要内容和结构特征 中目科学技术大学博士学位论文 第l 章绪论 在利用q b s 的搜索中,从草图中提取出来的各个元素之间的相对位置等结构特 征具有更加重要的作用 与基于标注的图像检索相比,基于内容的图像检索更加直观,这是由于图像 本身是一种视觉媒体,许多信息难以用文本表达,而图像本身的视觉内容则可以 描述相当复杂的信息。但是相对来讲,基于内容的图像检索系统在用户交互的友 好性上远不如基于标注信息的检索系统。 基于内容的图像检索系统涉及到许多方面,主要包括图像的表示方式( 如各 种特征) 及其计算、相似目标的检索( 在文本检索中,检索结果往往是利用精确 匹配得到的) 1 5 1 、高维索引、查询处理( 文本查询中常用的与、或等操作在图 像查询中的使用) ,用户界面( 包括用户的输入界面和将结果呈现给用户的界面) 等等其中许多的问题如高维索引等是非常困难、需要进行更多研究的课题 1 6 1 。 最显著的问题是“语义鸿沟”( s e m a a t i cg a p ) 问题。目前的图像分析方法只 能从图像中抽取出一些表示其底层视觉性质的特征,如颜色分布、空间纹理、区 域形状等等。而人们在描述图像内容时往往使用代表语义的概念,如“大海”、 “沙滩”、“人群”等等。现有的方法难以在这两种图像的表达方式之间建立起比 较明确,稳定的对应关系f 1 7 】。由于用户一般是根据语义信息进行检索,这种语 义鸿沟往往造成检索结果难以满足人们的期望。从现有的研究来看,这一问题还 需要进行比较长期和大量的研究工作。 其次。数字图像本身是基于像素表示的,这种形式对应的数据量非常大,不 能够直接进行索引和搜索。普遍做法是从图像中提取出具有一定含义的特征 ( f e a t u r e ) ,包含了该图像中具有代表性的信息,同时数据量大为降低,简化了 后续的处理复杂度。这些特征往往表示为具有很高维数的特征向量,从而,基于 内容的图像检索就转化成为了高维向量空间的搜索。当图像的数量快速增长时, 如何快速、准确地搜索高维空间是一个非常困难的问题,在数据库领域,高维矢 量空阃索引也是目前非常有挑战性的一个研究方向。所以,基于内容的图像检索 难以扩充到大型图像库( 如上百万或上亿张图像) 上。 第三,类似于图像标注中的一致性问题,同幅图像可能会被不同人用来进 行不同目的的检索,而检索系统往往需要对图像进行统一的处理并按照某种相对 中田科学技术大学博士学位论文第1 章绪论 固定的方式进行索引和处理,难以根据人们随时变化的主观愿望进行调整和变 化,这使得基于内容的图像检索往往达不到人们期望的性能。 虽然基于内容的图像检索遇到了种种困难,但是,相关的研究在过去几年里 还是取得了相当大的进展,人们设计出了许多算法,并且研究和开发出来多种系 统。这些研究也进一步促进了图像分析和计算机视觉等方向的进展 q b i c 1 8 i 是早期的基于内容的图像检索系统之一,它支持用户利用颜色、纹 理、形状等等进行检索,也支持对手绘草图的检索。q b i c 中已经具有了当今图 像检索系统的许多基础特征,但是受限于当时的技术条件,q b i c 中索引的图像 数量只有1 0 0 0 幅。 早期的图像检索系统使用的图像内容特征往往是图像整体的描述特征,尤其 是颜色特征。后来,人们希望能够将图像进行合理分割,希望其中的物体对象等 可以比较清晰、明确地表示为各个不同的图像区域,并进步对内容比较一致的 区域进行处理。n e t r a 1 9 提出的一种比较鲁棒( r o b u s t ) 的图像分割算法,从而 能够支持基于区域颜色,纹理等特征的查询。同时,n e t r a 还利用聚类及矢量量 化的方法对颜色特征进行处理,使其索引和检索可以快速、高效地完成。虽然基 于区域的方法比较合理,也取得了相当大的成果,但是图像分割本身的不稳定特 性使得基于区域的检索比较难以应用到实际系统当中。 文献【2 0 提出将图像首先按照其语义进行分类,如“室内室外” ( i n d o r r o u t d o o r ) 、“城市g t 景”( c i t y l a n d s c a p e ) 及“有人无人”( w i t h p e o p l e w i t h o u t p e o p l e ) 等等。根据分类的结果,系统可以根据不同的类别使用不 同的图像特征或距离函数进行检索。 此外,c b l r 还有许多的研究工作 2 1 1 - 2 s 1 。在 1 3 1 与【2 6 1 中,对相关的工作 有比较详细的介绍。 传统上,受限于在高维矢量空间建立有效索引的困难,基于内容的图像检索 很少在大规模数据集上得到实现。但是,近年来也出现了一些这方面的探索,它 们往往利用聚类等方式来降低图像内容索引的维数,从而使检索可以在比较快的 时间内完成。c o r t i n a 2 7 是现有的能够对较大规模图像库进行基于内容检索的图 像检索系统之一,索引数据量达到了3 百万幅图像。图像主要来源于互联网,每 中田科学技术大学博士学位论文第1 章绪论 幅图像都提取了四种m p e g - 7 中描述的图像全局特征 2 8 】。利用聚类的方式,【2 7 】 将图像检索的范围限制在若干类别之中而且,该系统对于每次检索都需要指定 一种特征作为主要特征( p r i m a r yd e s c r i p t o r ) ,再以该特征对应的聚类索引进行 检索,大大减小了搜索范围,提高了速度。但是,这种方法要求每种图像特征存 储多次,降低了空间利用率。【2 9 提出将图像区域进行层次聚类,以生成视觉词 汇树。得益于其树状结构,对于一幅图像的索引和检索处理都可以快速完成。在 百万图像量级的数据集上,该方法取得了较好的性能。 在基于内容的图像检索中还有一类很重要的方法,称为“相关反馈” ( r e l e v a n c ef e e d b a c k ) 【2 1 。用户首先开始一次查询,检索系统返回包含多幅图像 的检索结果,但是其中可能并不包括用户期望的图像。用户可以对这些图像进行 标记,指明哪些图像是与期望图像相关的( r e l e v a n t ) ,哪些图像是不相关的 ( i r r e l e v a n t ) 从而,系统可以根据用户的标注结果分析出期望图像的部分视觉 内容特征,并利用这些特征来改善后续的检索过程。这种反馈可以多次进行,直 到用户获得满意的图像为止。 1 1 3 两种检索方式的结合 ( 如前所述,基于文本标注和基于视觉内容是图像检索现有的有两种基本查询 方式。它们都有着比较明显的优点和缺点,于是,一种自然的想法就是将两者结 合起来,发挥各自的优点,使图像检索更加易于使用。 由于基于内容的图像检索一般适宜于较小的数据量,而基于标注的检索方法 本身易于应用于大规模的数据集。所以,一种比较简单而有效的综合方法是首先 利用文本在大规模图像库中进行搜索,得到的搜索结果往往是一个相对较小的图 像集合。然后利用基于内容的检索方法对搜索结果图像进行检索和处理。此外, 在c o o g l e 图像搜索中,用户可以指定图像的大小( 大、中或小) 、颜色( 彩色或 黑白) 等少数几个特征来帮助搜索,如图1 2 图像搜索引擎提供的基于内容的搜 索选项所示。在y a h o o 、m s n 等图像搜索中也有类似的查询选项。 中田科学技术大学博士学位论文第1 章绪论 图1 - 2 固像攫震引擎提供的基于内容的搜泵选项 另外一种综合方法是同时利用文本信息和内容信息进行检索。此时图像的内 容信息往往经过了一定程度的离教化处理,使其可以按照传统的文本处理方式进 行索引和搜索。例如,f o t o l i a 7 将颜色空间进行了层次量化,用户在搜索时可以 指定一幅图像中的重要颜色以帮助搜索。 最后一种综合方法即利用“相关反馈”的方法。此时,系统可以综合利用基 于内容的图像检索方法来改善基于文本的图像检索结果。在实现了大规模网络图 像检索的c o r t i n a 2 7 中就实现了利用相关反馈改善检索结果的功能。此时,文本 信息不仅用来做为第一次查询的输入,而且也是后续相关反馈过程中确定图像聚 类的根据。 1 2 论文的研究目标和内容 本论文主要研究改善图像检索性能的问题,首先讨论了如何根据图像的视觉 内容建立起对应的标注信息,提出一种统一的图像自动标注模型,并根据此模型, 展开了多项相关的研究。由于在自动图像标注中经常需要寻找与待标注图像相似 的图像集合,所以,我们探讨了快速搜索相似图像的算法。本文研究了一种在大 规模图像库中快速寻找重复,相似图像的方法。 中固科学技术大学博士学位论文 第l 章绪论 一种统一的自动图像标注框架 图像自动标注已经得到了广泛研究,人们提出了了多种不同方法并取得了相 当多的成果。但是,这些方法有着各自不同的出发点和学习方法,十分繁杂本 文首先探讨了自动图像标注问题本身的特点及其可用信息;在此基础上,提出了 一种统一的图像自动标注的算法框架。该框架不仅可以用来解释和分析许多相关 的图像自动标注工作,而且能够明确地指出可能的图像自动标注研究方向。它将 原本复杂的图像自动标注问题分解为多个相对独立、易于解决的子问题。基于该 算法框架,本文提出了若干种不同的改进算法,都取得了较好的效果。这也证明 了所体算法框架的有效性。 一种快速的基于内容的重复,相似图像检索 无论是在图像的自动标注,还是在基于内容的图像检索中,如何在一个规 模比较大的图像数据库中快速、准确地找到与查询图像近似的图像集合是一个非 常重要的问题。本文提出了一种根据图像的视觉特征建立其对应简洁描述形式的 方法。它类似于传统的文本检索中的文件散列值,具有计算简单,易于索引等特 性。基于该算法,本文提出利用机器学习的方法将多种不同特征对应的散列值进 行综合,以快速搜索相似图像。 1 3 本论文的组织结构 本论文的其余章节组织如下: 第二章自动标注方法综述 这一章主要讨论了自动图像标注的方法,对其中基于相关模型( r e l e v a n c e m o d e l ) 、生成式模型( g e n e r a t i v em o d e l ) 、传播式模型以及基于词汇间关系进行 标注改善的工作做了比较详细的讨论。 第三章图像的自动标注及其改善 在这一章中,我们首先分析了自动图像标注问题。在此基础上,提出了一种 统一的图像自动标注的体系框架。在这个框架下,详细分析了图像自动标注中所 涉及的四种关系以及学习算法,并且从此出发,提出了几种有效的改进算法。 q 中田科学技术大学博士学位论文第1 章绪论 第四章重复,相似图像搜索 基于内容的图像检索的一个重要目标是能够快速、准确地搜索到与查询图像 尽可能近似的图像。这种近似性可能是视觉上的,也可能是语义上的。我们在此 讨论了一种在大规模数据库中如何对图像的视觉内容进行索引,并能够完成实时 搜索的方法。我们首先详细介绍了利用所提算法检测重复图像的方法。以此为基 础,我们进一步研究了如何利用该方法搜索相似的图像。 第五章总结和展望 这一章总结了前面各章的工作,指出本文主要的贡献,对全文的研究成果作 了全面的总结,并对未来需要继续开展的工作做了展望。 中田科学技术大学博士学位论文第2 章自动图像标注算法 第2 章自动图像标注算法 自动图像标注( a u t o m a t i ci m a g e a n n o t a t i o n ) 是指根据图像的视觉内容,由 计算机系统自动产生图像对应的文本标注信息。一般来讲,标注可以是图像的类 别,也可以是关键词。从而,人们可以利用比较成熟的文本处理技术对图像进行 索引和检索。由于目前图像数量的快速增长,手工生成图像标注信息变得越来 越昂贵,所以自动图像标注算法对于基于标注的图像检索系统具有非常重要的意 义。在本章中,我们介绍了当前已有的图像自动标注算法,重点讨论了采用了相 关性模型的一系列算法以及基于生成式模型的方法。然后,本文介绍了利用图模 型的传播式算法进行图像标注的工作。最后,我们讨论了利用词汇语义信息进行 标注的工作。 2 1 概述 在自动图像标注中,待标注的信息往往是若干文本词汇或者有限的类别信 息一种简单而直观的方法是对每一个词汇或类另i j i jj l 练对应的二元分类器,当系 统遇到一幅新的图像时,只要利用这些分类器来判断每一个词汇或类别是否应该 作为该图像的标注,就可以生成图像的标注。文献【2 8 】尝试了利用支持向量机 ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 对图像区域进行分类的方法。文献【2 8 】首先利 用一定的图像分割算法将图像分割为多个互不重叠的区域并识别出其中的显著 区域( s a l i e n tr e g i o n ) ,然后对该显著区域手工标记出其分类信息,作为训练数 据。每一区域被细分为许多互相可以重叠的小片( t i l e ) ,每一个小片包含4 x 4 个像素,以h s v 颜色空间 3 h 的分布信息以及对应的梯度信息作为该小片的特 征描述在训练每一词汇对应的二元分类器时,系统分别采用多个来自正例区域 和负例区域的小片训练s 订模型。这样,对于测试图像中的每个区域,也可以 用对应的s v m 进行对区域中的小片进行分类,以判断是否将该词汇标注到该区 域。将测试图像中各区域的标注信息进行综合,就可以得到该图像的标注信息。 但是,由于这种方法需要训练大量的分类器,而且在训练集中需要手工标注图像 中国科学技术大学博士学位论文第2 章自动图像标注算法 区域信息,所以难以推广到类别数较多的情况。 文献【3 2 】将自动图像标注的问题看成是两种语言之间的翻译问题;一种语言 由文本词汇构成,另一种语言由描述图像内容的视觉词汇构成。由于语言翻译模 型要求两种语言都用离散符号表示,所以文献【3 2 】将图像区域通过聚类的方法得 到有限种类别,以此作为视觉词汇。文献 3 2 1 首先用正则割( n o r m a l i z e d c u t ) 【3 3 】 将每幅图像分割为互不重叠的多个区域,对于所有图像中的所有区域,利用 k - m e a n s 方法进行聚类,得到的每一类别称为一种b l o b ,即相应的视觉词汇类别。 然后文献1 3 2 1 利用种传统的机器语言翻译方法 4 6 1 建立图像区域类别与文本词 汇的对应关系,这方法称为翻译模型( t r a n s l a t i o nm o d e l ,t m ) 。通过实验, 文献 3 2 1 发现简单地利用词汇进行标注其性能并不令人满意,于是,作者对文本 词汇也进行聚类,例如,“l e a f f l o w e r sp l a n t sv e g e t a b l e s ”这四个词汇经过聚类组成 了一个类别,它们共同表示出一个更加明确的概念,然后,作者将其t m 模型应 用到这些概念与b l o b 的对应翻译上,得到的结果有了较大的改善。 文献【3 4 】进一步拓展了文献 3 2 1 的工作。相比于t m 模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农产品销售合同
- 26.1.1反比例函数 说课稿2024-2025学年人教版数学九年级下册
- Unit 1 Water说课稿-2025-2026学年小学英语五年级上册牛津上海版(试用本)
- Unit 7 Food Festival Topic 2 Section C 说课稿 -2024-2025学年仁爱版英语八年级下册
- 1.1 地球和地球仪 说课稿 2023-2024学年七年级地理上册人教版
- 养成良好卫生习惯主题演讲稿
- 重难点突破03 直线与圆的综合应用(七大题型)(解析版)
- 耕地承包权流转合同纠纷解决协议
- 多层次金融借贷担保人上诉状处理细则
- 2025园林景观租赁合同
- 外科学-第十一章-外科感染(含案例分析)课件
- 《ch棘皮动物》课件
- 急诊科岗位职责
- 中国服用过兴奋剂运动员名单 兴奋剂真的是毒品吗
- 小学英语语法时态讲解与归纳
- 《生存与修炼》熊厚音讲《道德经》教学文案
- 淘宝新店运营计划书文献
- 产教融合校企合作[可修改版ppt]课件
- ICH Q6B 生物技术产品和生物制品的检验方法和可接受标准
- 12贮水花盆案例总结-2015天津中心修改43
- (精心整理)六方最密堆积空间利用率和密度的计算
评论
0/150
提交评论