基于内容的视觉信息检索译文_第1页
基于内容的视觉信息检索译文_第2页
基于内容的视觉信息检索译文_第3页
基于内容的视觉信息检索译文_第4页
基于内容的视觉信息检索译文_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于内容的视觉信息检索Oge Marques , Borko FurhtFlorida Atlantic University, USA本章主要对视觉信息检索(Visual Information Retrieval,简写为 VIR)系统特别是基于内容的视觉信息检索(Content-Based Visual Information Retrieval, 简写为CBVIR)系统领域作了一个综述。本章阐述了该领域的一些主要概念以及系统设计时所面临的主要问题,并回顾评价了当前已有的一些系统原型以及商业上的解决方案,同时指出了该领域中比较有前途的研究方向。绪论近年来,数字化格式的视听信息量成指数级增长

2、,每天都会有成G字节级的新的图像、声音和视频产生和存储,这些构成了一个巨大的、分布式的、未组织的多媒体信息库,其中的大部分信息可以通过互联网访问到。多媒体信息的数字化、压缩和存储已经变得很普及、很简单,而且成本也大大降低了,这些都可以通过现存的大量的硬件和软件来完成,但是如果以后要对这些信息进行高效率的检索则需要进行大量的额外工作。对多媒体库中多媒体数据的检索主要有三种方法:1、自由浏览(Free browsing):用户顺序浏览图像、声音和视频文件集,当发现所想要的信息时便停止浏览。2、基于文本的检索(Text-based retrieval):在编目阶段(cataloguing stage

3、)给视听文件加上文本信息(元数据),在检索阶段,这些附加的文本信息被用来引导常规的基于文本的搜索引擎查找所需要的数据。3、基于内容的检索(Content-based retrieval):用户搜索多媒体库中有关图像、声音或者视频片断的实际内容的信息。基于内容的搜索引擎将这些信息按照某种方式进行转换以便对数据库进行查询,检索出能尽量满足用户要求的结果。 前两种方法都有严重的局限性和可扩展性问题。自由浏览只适用于临时用户使用,而不适用于那些经常要获取具体的多媒体信息以进行专业应用的用户。这是一个冗长、效率低下而且耗时的过程,对大型的数据库而言,这是完全不实用的。 基于文本的检索在编目阶段存在着两个

4、重大的问题: a)需要花费相当多的时间和精力手工对每一幅独立的图像或者视频片断进行标注; b)对内容进行标注时由于人的主观性而带来了不精确性。这两个问题随着多媒体信息的搜集量的增大而更加严重,很可能会使得后期的检索出现错误。基于文本的检索需要前期对多媒体数据进行标注,这样导致它的效率低下且具有很大的局限性,为了解决这些问题,来自于图像处理和计算机视觉方向的研究人员开始研究更可行的多媒体信息(特别是图像和视频片断)检索方法基于内容的检索方法,即图像和视频将根据它们的视觉内容(如:颜色、纹理、对象的形状和运动,等等)建立索引,而不是手工用关键字进行标注。基于内容的视觉信息检索(CBVIR)的研究始

5、于上个世纪九十年代早期,而且很有可能在二十一世纪的最初十年里持续下去。目前,许多大学和大公司的研究小组都在这个领域积极地进行研究,许多系统原型和商业产品也已经研制成功,但是目前的解决方案与视觉信息检索的最终目标,即使用户以快速、高效、语义上有意义的(semantically meaningful)、友好的且位置相对独立(location-independent)的方式从海量的视觉信息中检索出图像或者视频片断,仍有很大的差距。 本章下面的内容组织如下:在第二节我们将回顾CBVIR系统的基本原理;第三节将讨论设计一个CBVIR系统的主要问题;第四节概述现存的(包括商业性的和研究性的在内)一些CBV

6、IR系统;第五节叙述在这一领域出现的的一些open研究问题(open research problems);第六节描述了作者们开发的一个CBVIR系统MUSE的主要特征;最后,第七节是对本章的总结评论。CBVIR系统基本原理预备知识视觉信息检索(VIR)是计算机科学与工程学科中一个相对比较新的研究领域。与传统的信息检索类似,VIR系统的主要目标是检索出所有的与用户的查询相关的图像(或图像序列),同时在检索的结果中应尽可能的去掉不相关的图像。对信息的检索与对数据的检索的着重点恰恰相反。视觉信息检索系统必须能够解释文档(图像)的内容并将它们按照与用户查询的相关程度进行排列。这个解释过程包括从文档(

7、图像)里抽取(语义)信息并用这些信息与用户要求进行匹配。视觉信息检索研究的发展得到了多个研究领域的支持(如图1所示),尤其是:基于文本的信息检索,图像处理和计算机视觉,模式识别,多媒体数据库组织,多维索引(multidimensional indexing),psychological modeling of user behavior,人机交互,等等。图1 视觉信息检索结合了许多研究方向VIR系统根据用于查询检索图像或视频文件的属性的不同可以大体上可以分为两代(Del Bimbo ,1999): 第一代VIR系统:使用文本进行查询,例如查询“红色的法拉利”或者“凡高的作品”。它们非常依赖于元

8、数据(字符串,关键字,或者完整的脚本full scripts) 第二代(CB)VIR系统:支持基于内容的查询,对图像而言,其中内容的概念包含:感觉属性(例如:颜色、形状、纹理),语义上的基本要素(例如:对象、角色、场景),还有主观的属性(例如:印象、情绪和与感觉属性相关的意图)。许多的第二代系统都将基于内容的技术作为一个补充,而不是选择代替基于文本的方法。一个典型CBVIR系统的体系结构图二显示了一般CBVIR系统的结构图,系统的主要组成部分有: 用户界面(User interface):友好的图形化用户界面,用于向数据库提出查询,浏览结果,查看选中的图像或者视频片断; 查询/搜索引擎(Que

9、ry / search engine):负责根据用户提交的参数在数据库中进行搜索; 数字图像和视频存储器(Digital image and video archive):数字化、压缩的图像和视频片断的存储库; 视觉信息摘要(Visual summaries):图像和视频内容的简单表示,例如图像的索引图像或视频的关键帧; 索引(Indexes):图像或视频片断的指针; 数字化和压缩(Digitization and compression):将图像和视频片断转化为压缩的数字化格式的硬件和软件; 编目(Cataloguing):从原始图像和视频中抽取特征建立相应的索引。图2:CBVIR系统结构图

10、由于大量现成的硬件和软件的存在,数字化和压缩过程已经变得相当简单。许多情况下,图像和视频的生成和存储都直接使用压缩的数字化格式。编目阶段的工作主要是从图像和视频片段的视觉内容中抽取特征。特别的,在处理视频的情况下,原始的视频片断被分成若干块,这些块被成为场景(scenes),它们还可以被进一步细分为镜头(shots)。每一个有意义的视频单位都被编上索引,同时系统存储一个相对应的视觉信息摘要,代表性的为一个关键帧(keyframe)。在处理图像的情况下,相对应的过程为对象的分割过程,该过程已在少数系统中得到实现。在两种情况下,元数据都是在编目阶段中被加入到视觉内容中。基于文本的视觉信息检索系统必

11、须要用手工给图像和视频文件添加元语言,而CBVIR系统则最低限度或者根本不使用元语言。数字化、压缩和编目一般而言都是离线完成的。一旦这三个步骤完成,数据库中不但包含了这些图像和视频文件本身,还可能包含这些文件或片段的简化表示以及用作相应图像或视频的指针的索引集。用户与CBVIR系统的在线交互如图2的上半部分所示。用户通过图形用户界面(GUI)提出查询,系统根据用户所提交的查询由搜索引擎查找与所需图像或视频文件相对应的索引,最终的结果将通过一种易于浏览查看的方式返回给用户,同时还应当可以根据部分返回结果来改进查询。用户观点(Perspective)用户接口是CBVIR系统的一个极为重要的组成部分

12、。理想的用户接口应当是简单的、容易的、友好的、功能的(functional)并且是可定制的。它应当以一种清楚直觉的方式提供用户浏览、查看、搜索和检索的能力。这种集成是非常重要的,因为用户不会一直只是由查询搜索引擎得到最佳匹配,有时用户需要检查最初少数的最佳匹配,浏览它们,查看它们的内容,改进查询,最终检索到所要的图像或视频片断。大多数VIR系统允许使用如下所述的多种不同的方式中的一种或多种对视觉信息数据库进行搜索: 交互式浏览(Interactive browsing):方便那些对要搜索的图像或视频没什么了解的用户使用。聚类技术可以用来将视觉上相似的图像组织成组,同时可以最小化显示给用户的图像

13、中非用户要求的图像数量。 Navigation with customized categories:(leisure users often find it very convenient to navigate through a subject hierarchy to get to the target subject and then browse or search that limited subset of images.)使用户方便地对主题层次进行导航以找到目标主题,然后浏览或搜索这个图像的子集。 使用X进行查询(Query by X)其中X可能为: 一幅实例图像(an im

14、age example):许多系统允许用户指定一幅图像作为实例并且搜索与它最相似的图像,按照相似度评分的递减顺序进行排列; 一幅草图(a visual sketch):一些系统提供用户一系列的工具,用户可以将头脑中的图像或视频片断用草图画出来; 视觉特征的详细说明(specification of visual features):视觉特征的详细说明都直接给出,这样可能会吸引到更多有机数的用户; 一个关键字或者完整的文本(a keyword or complete text):第一代VIR系统依赖于用户输入的关键字,用户查找那些事先用关键字标注过的视觉信息。我们希望查询操作应该尽可能的简单、直

15、观而且尽量接近与人对相似性的感知。用户会更喜欢系统提供像“显示更多与此图像相似的图像”这样的功能选项,而不是提供一个复杂的交互工具来编辑图像的颜色直方图并执行新的搜索。后一种方式可能会有利于有经验且有图像处理方面知识的用户,但它并不适合一般用户所以具有一定的局限性。我们认为,理想的CBVIR系统查询应当对用户隐藏复杂的查询处理技术内幕。对视觉媒体的搜索应当像“当我看到它时,我便知道它”那样具有不精确性(A search through visual media should be as imprecise as “I know it when I see it.”)。设计者的观点设计一个CBV

16、IR系统的一些主要方面有:特征的抽取和表示,降低维数处理(dimension reduction)和多维索引的建立,图像语义的抽取,以及用户相关反馈机制的设计。下面的章节将会对这些要点进行更为详细的研究。特征的抽取和表示CBVIR系统应该能够自动地抽取用于描述图像或视频内容的视觉特征。这些特征包括颜色、纹理、大小、形状和运动信息。在特定的上下文中,特征的抽取过程可以被扩展,以发现其它专门的属性,例如:人脸或者对象。由于感知的主观性,已知的特征并不存在着最好的表示方法。举个例子说,颜色信息可以用不同的颜色模型(如:RGB、 HSV、 YcbCr)和数学结构(如颜色直方图、颜色矩color mom

17、ents、color sets或者颜色相关曲线图color correlograms)来表示。与此类似的,纹理可以使用共生矩阵、Tamura纹理特征或者小波(Wavelets)来表示。降低维数处理(Dimension Reduction) 和多维索引的建立抽取出的特征聚合成某种合适的数据结构或者数学结构(例如:标准化特征向量),另外选择合适的度量标准(例如:欧几里德距离)来度量一幅图像与任何其它图像之间的相似度。在这个阶段,主要的问题有:特征向量的维数比较高;欧几里德距离度量具有局限性,虽然它在数学方面是比较完美的,但是它不能有效地模拟人的视觉感知。高维索引的解决方案包括:降低特征向量的维数以

18、及使用高效的多维索引技术。降低维数一般而言或者用Karhunen-Loeve转换或者使用聚类技术。多维索引技术的实例包括使用专门的数据结构(例如:k-d树、R-树和它们的变形)。为了解决欧几里德相似度量的局限性,研究人员提出了使用聚类和神经网络的方法。图像语义的抽取人对视觉内容的感知很大程度上依赖于场景的高层语义信息。如今的计算机视觉技术只是低层次的(单个象素级的)研究。基于低层特征的CBVIR系统只能提供如下的一些查询:查询所有的含有30的红色、10的橙色以及60的白色象素点的图像,其中橙色的RGB定义为:R255,G130,B0。查询所有的图像,特征为蓝蓝的天空下一片绿色的草地。查询所有的

19、图像,它们是某特定图像的旋转样式。在通常情况下,用户都试图寻找所需图像的高层语义特征,例如:“一个漂亮的玫瑰花园”,“一个击球手打中一个棒球”或者“一辆贵重的赛车”。在低层特征与高层语义之间并不存在一个简单直接的映射。这两者之间的距离通常被称作“语义鸿沟”。如今有两种方法可以用来最大程度的缩小语义鸿沟。第一种是给图像加入尽可能多的元语言,这种方法早已被讨论过而且被认为是很不现实的;第二种是结合学习算法使用用户相关反馈技术进行大量的用户交互,使得系统能够学习理解查询操作的语义上下文。相关反馈早期在CBVIR领域努力要实现的主要目标是开发全自动、开放循环(open-loop)的系统。研究者们希望当

20、前的计算机视觉和图像处理技术能足够应付图像的查询和检索。这些系统的成功率也鼓舞了研究者们开始尝试另一种不同的途径,即强调交互性以及比较明确地将用户考虑到处理循环中。这种改变的例子可以从MIT多媒体实验室研究人员在该领域的研究工作中看出,他们从对“自动的” Photobook的研究转入到对“交互式的”FourEyes的研究。“相关反馈”主要指的是这样的一个过程:系统从用户那里搜集关于特征、图像、图像区域或者局部的返回结果的相关性信息。这种反馈可以用许多种方法来实现,每一种系统都可以按某种特定的方式使用反馈来提高系统的性能。相关反馈的作用在于将查询向相关图像的方向“转移”,避开不相关的图像(Gev

21、ers ,Smeulders ,1999)。相关反馈机制已经在当前的CBVIR系统中得到应用,例如:MIT的FourEyes系统,UIUC的MARS系统和NEC的PicHunter系统,等等。在支持相关反馈的CBVIR系统中,一个典型的搜索包括查询以及后续重复进行的用户反馈。相关反馈的使用使得用户与系统的交互更加简单,更加自然。通过选择图像、图像区域或者图像特征,用户可以用这样那样的方式告诉系统他的要求,而没有使用草图或者关键字等方式来描述用户要求时系统所承受的负担。如何使用用户交互得到的信息以及如何提炼CBVIR系统要返回的结果有许多种方法。有一种途径着重于查询阶段,试图使用相关反馈得到的信

22、息来改进查询;另一种选择是使用相关反馈来修改特征的权重,例如MARS中使用的方案;第三种思路是使用相关反馈来构造新的特征;第四种可能性是使用相关反馈信息来更新数据库中的每幅图像就是目标图像的概率,也就是通过用户与系统进行交互来预测目标图像。后一种方案已经在PicHunter系统中得到采用。系统设计要点CBVIR系统的设计过程中出现了很多问题和挑战,其中的一些已经得到了总结(Marques ,Furht ,1999)。基于我们开发MUSE系统的经验,我们总结了CBVIR系统设计者在开始实现CBVIR原型之前所必须要解决的一系列的问题。系统将要使用哪些特征以及如何引入?特征抽取阶段是这个难题中相当

23、重要的一块。好的特征抽取算法单方面并不能保证CBVIR系统完全成功。但是,一个系统中如果关于图像的低层内容的知识不足以建立图像之间视觉相似性的概念,那么该系统也不会表现出很好的性能。(However, no system will exhibit a good performance if its knowledge about the images low-level contents is less than the minimum required to establish the notion of visual similarity between images.)大多数系统会抽取颜

24、色和纹理信息进行编码,有的系统也会抽取频率相关的信息,例如使用数学变换。特殊的应用往往需要专门的特征和算法,例如人脸识别。抽取出的特征信息往往被组织成特征向量的形式,图像之间的相似度由距离度量标准来表示,距离越大,相似度越小。系统如何知道使用可哪些特征以及如何给某个特殊的查询优先权?如果系统工作在一个无约束的图像库下,那么找出哪些特征应当被考虑到以及根据这些特征的重要程度来为每个特征分配特定的权重将不是一件很简单的事。在某一个查询中很重要的到了下一个查询中可能会毫不相关。处理这个问题由两种方法:(a)在提交查询前让用户明确指出哪些特征是重要的;(b)基于用户交互和相关反馈,使用机器学习技术来推

25、断每个特征的重要性。QBIC使用了前一种方法,MARS则使用了后一种方法。选择什么样的相似度量方法?最广泛采用的相似性模型是度量,假定人的相似性感知可以被近似的通过度量特征向量之间的距离(代表性的使用欧几里德距离)估计出。非欧几里德的度量方法尚未进行深入研究(Rui, Huang, Chang ,1999),更好的相似模型正在研究中。降维和索引过程应该使用什么技术?Karhunen-Loeve变换(KLT)是对特征向量进行降维处理的较为完善的技术,同时研究人员正在寻找一种最佳的多维索引技术,近些年一种新的基于树的方法被提出来。在Rui、 Huang 和 Chang (Rui,,Huang, C

26、hang ,1999)所作的调查中包含了许多特殊的算法。系统应该支持什么样的查询?决定选用什么样的查询方式应该考虑到用户的需要以及实现每种模式的复杂度的折衷。例如支持基于文本的搜索,需要花费额外的精力对每幅进入数据库的图像进行注释,同时支持基于实例的查询(QBE)操作需要更复杂的图像相似度度量。一些研究者们提出根据类别的导航与基于内容的检索之间可以着到一个有意义的平衡。当用户提交了一个视觉信息查询时,图像的子集已经被限定到以个特定的类别中去,这样作可以提高速度(需要考虑的图像变少了)而且还可以加入关于查询的语义信息(层次树中的类别和它的父类会告知用户关注的主题)。如何评价结果的质量?Bench

27、marking视觉信息检索解决方案是an open problem,研究人员仍然在争论如何为这个目的找出一套图像、一个查询集以及评价标准。用标准化的方法比较两种解决方案之间的差别仍然是不可行的,每一个系统都具有它本身的数量上的和质量上的度量标准。 .图像文件应该存放到哪里?图像文件实际存放位置的不同(在本地硬盘上还是在互联网上)会给系统的设计带来很大的差异。当图像文件不是存放在本地时,设计者应该考虑到众多的问题,我们指出其中的一些如下:需要在本地存储远程数据库中图像的索引图或者镜像副本;实际图象可能会变得不可用(临时地或永久地);网络拥塞可能会带来性能的下降;根据图像库的变动使用不同的策略更新

28、索引。用户怎样提出相关反馈以及与之对应系统应该完成什么工作?CBVIR系统要支持用户相关反馈存在着许多重要问题。第一个就是于用户的接口问题以及系统要求用户如何与之交互,如何使用例子来表达他们对图形的看法,使用哪些特征来度量相似度以及部分的返回结果。 一些系统只需要最低限度的用户操作(例如用户评价结果时好的、坏的或者都不对),其它的系统需要用户对结果的质量给出一个具体的数值。第二个问题关于复杂的数学计算,主要是由下面的情况所带来:用户相关反馈信息以及根据它来调整查询,计算每个特征的重要性,计算每幅图像是目标图像的概率,等等。 如果需要的话,系统应该具有哪些学习能力?CBVIR系统有许多的理由使用

29、无人管理的学习算法:学习特征向量如何于图像的自然组相关联,如何标注这些组;找出要将图像归为特定的类中时有用的特征;根据一系列的先验概率以及计算对每幅图像是所需要的图像的概率进行修正,同时还要考虑到相关反馈的信息。在CBVIR系统中贝叶斯学习和聚类技术是最常用的学习技术之一。系统中还要包括哪些支持工具?一系列的支持工具的引入可以增强CBVIR系统的性能。一组基础的图像处理函数即使这种工具的一个例子,这些函数允许基于实例查询系统的用户在提交查询前对样本图象进行简单的编辑(如:裁剪等等)。CBVIR系统实例近年来,不管在商业上还是在研究领域,都出现了大量的CBVIR系统。下面会对现存的一些CBVIR

30、系统作一个简要的介绍,具体细节可以从文中所给出的互联网站点和文献目录中获取。QBICQBIC (Query By Image Content 基于图像内容查询) 系统是由国际商用机器公司(IBM)研制成功的。该系统的设计框架和采用的技术对后来的图像系统产生了深刻的影响。QBIC系统基于例子图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩和纹理样式的查找方式。在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成查找功能。QBIC演示程序可以在如下的网址中找到:。PhotobookPhotobook是美国麻省理工大学的多媒体实验室所开发的用于图像

31、查询和浏览的交互式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户可以分别在这三个子系统中根据相应的特征来进行查找。另外的关于Photobook的资料可以在下面的网址中找到:。FourEyesFourEyes相当于是Photobook的一个改良版本,它包括了相关反馈机制。通过给出一组正的和负的例子,系统决定使用哪个模型或者几个模型的组合并学习哪个组合能最好的解决特殊类别的问题。当系统遇到一个与它以前所解决的问题类似的新问题时,FourEyes能在比第一次更快的时间内解决问题。更多的关于系统的细节可以从如下的网址获取:.NetraNetra系统是在UCSB大学的Alex

32、andria数字化图书馆(Alexandria Digital Library 缩写为ADL )项目中。它从分割后的图像区域中提取颜色、形状、纹理和空间位置信息,并依靠这些信息从数据库中查找相似的区域。在线演示网址为:。Netra的新版本Netra2着重于组最后处理的颜色图像区域和本地的颜色特征,演示网址为:.。MARSMARS (Multimedia Analysis and Retrieval System,多媒体分析和检索系统)是伊利诺斯大学Urbana-Champaign分校开发的。MARS系统的重点不在于找到所谓“最好”的图像特征,而在于根据实际的应用环境和用户需要在检索框架中动态地

33、组合调整各种不同的图像特征。MARS在图像检索领域正式提出了相关反馈的体系结构。相关反馈的技术在各种层次上融合到检索的过程中,包括查询向量的优化,相似度算法的自动选择,以及图像特征权重的调整。MARS系统的更多信息可以在下面的网址找到:。PicToSeekPicToSeek是由阿姆斯特但大学开发的一个图像搜索引擎。PicToSeek使用autonomous Web crawlers从互联网搜集图像。然后系统对搜集的图像自动地进行编目并按照预先定义的类别进行分类,系统还抽取这些图像的相关特征。用户可以使用多种方法对PicToSeek系统进行查询,可以使用图像特征、实例图像或者简单地浏览预计算的图

34、像目录。PicToSeek的演示版可在如下的网址找到: isis/zomax/ 。VisualSEEkVisualSEEk是由哥伦比亚大学开发的一系列CBVIR系统中的一部分。它同时支持基于视觉特征的查询和基于空间关系的查询。它的在线演示程序可以在下面的网址中找到:k/ 。PicHunterPicHunter是由NEC新泽西研究所开发的一个CBVIR系统。PicHunter使用了相关反馈和贝叶斯准则来预测目标图像。ImageRoverImageRover是由波士顿大学开发的一个CBVIR系统。这是一个基于Web的工具,它通过一系列的自动化仪器搜集关于HTML页面的信息。这些仪器使用向量的格式收

35、集、处理和存储图像元数据,用户对系统进行查询时搜索这些向量格式的元数据,然后系统以索引图像的形式向用户返回相关反馈的结果,用户选择与他们搜索要求相关的图像,这样便可以利用系统的基于内容的搜索能力直到用户找到所需的图像。更多的细节内容可以从如下的网址找到:。WebSEEkWebSEEk在通过Web robots对 HTML进行收集处理上与ImageRover类似,虽然它也有视频搜索和收集的优点。它是由哥伦比亚大学开发的,相应演示程序的站点为:。VirageVirage是由Virage有限公司开发的商业化的基于内容的图像检索引擎。Virage支持基于颜色、颜色布局、纹理和结构特征(对象边缘)的查询

36、功能,而且还支持以上四种基本查询的任意组合的查询方式。用户还可以根据需要来调整基本图像特征的权重。更多的关于Virage产品的信息可以在如下的网址找到:。Visual RetrievalWareVisual RetrievalWare是由Excalibur Technologies Corp开发的CBVIR系统。与Virage类似,它支持多种视觉查询特征的组合,这些特征的权重由用户设定。在2000年底,Excalibur改名为Convera.。Convera公司的产品信息可以在如下网址找到:。AMOREAmore (Advanced Multimedia Oriented Retrieval

37、Engine,高级面向多媒体检索引擎)是由NEC USA的一个分支机构C & C Research Laboratories (CCRL)开发的具有图像检索能力的一个搜索引擎。它并不能够通过自动仪器对整个Web进行搜索,但是它有一个自动仪器(他们叫它harvest gatherer)用来对来自用户给定的URL的图像进行scour和分类。系统使用Harvest Information Discovery and Access System进行文本编目(indexing)和搜索,使用面向内容的图象检索(COIR)对图像进行标引(index)并对这些图像进行检索。COIR使用基于区域的方式,

38、使用颜色、纹理和位置进行indexing。对用户而言,除了URL地址,所有的事都是自动完成。关于AMORE的更多信息可以在如下网址找到:BlobworldBlobworld是由U.C. Berkeley开发的CBVIR系统。程序自动地将图像分割为不同的区域,这些区域大体上与对象或对象的一部分相对应,系统支持用户基于照片或图像所包含的对象的查询。他们在查找特定对象方面的做法是有效的,不足之处是,正如大多数的系统一样,改系统只关注于“低层”特征而很少关心这些特征的空间组织关系。Blobworld系统同时支持基于文本和基于内容的搜索。该系统在对用户相关反馈的支持方面也是很有效的,因为它展示了提交图像

39、的内部表示以及查询的结果。因此,与其它的一些考虑颜色直方图相似度量的系统有所不同的是,该系统能够帮助用户理解为什么他们得到了某个结果。其他的公司和产品在过去的一些年里许多公司进入了视觉搜索解决方案的这片新开辟的市场。这些公司包括:Ereo (), Cobion (), LookThatU,和 ImageLock ()。OPEN研究问题以及未来发展方向视觉信息检索是一个比较活跃的研究领域,许多open问题仍然处于研究阶段,其中的一些最突出的技术挑战和研究机遇包括:用户与系统之间更好的协作大家公认CBVIR系统如果在处理循环中允许用户的介入且允许他们提供相关反馈信息,则系统将只会达到可接受的性能。

40、研究人员仍在研究用户如何给出相关反馈的信息以及系统如何进行相应的处理的细节。最小化图像低层特征与人对图象内容的解释之间的语义鸿沟视觉信息查询的高层的概念与使用计算机视觉技术从图像中抽取的低层的特征之间的区别用文字表述为“语义鸿沟”。最小化这个语义鸿沟的最有希望的方法是结合联机的相关反馈信息使用脱机学习算法。使系统面向Web基于Web的搜索时使用的基于文本的搜索引擎还没有相应的能力完成对视觉信息的搜索。元数据的表示还没有一个标准,缩短系统的最大可承受的响应时间,是目前需要克服的两大困难。 高维索引目前,对高效的支持非欧几里德的相似度度量方法的高维索引技术以及相似性函数功能运行时它们自适应进行改动

41、的研究很活跃,但还没有找到最终的解决方案。性能评价的标准化以及标准化基准套件和实验台的创造人们一致公认需要一系列标准化的的图像、查询和性能度量方法来对不同的解决方案之间进行比较。国际模式识别联合会(IAPR)的一个技术委员会(TC)正试图解决这个问题,到目前位置还未有一个最终的结果。人对图像内容的感知对人的视觉感知的心理物理特征(psychophysical aspects of human visual perception)的深入研究能够使得我们对人如何进行视觉相似性判断有进一步的了解,同时也会帮助提高CBVIR系统的性能help improve the performance of CB

42、VIR systems without precluding the inclusion of the human user in the loop。 访问图像视频数据库的新的visual interfaces查询、浏览以及视觉信息图像库的定位方法都需要进行改进,尤其是视频信息引入后。计算机视觉与其他学科和媒体相集合图像数据库系统的成功离不开计算机视觉领域、数据库领域以及其它一些研究领域研究人员的通力协作。MUSE:具有相关反馈机制的基于内容的图象检索系统相关背景过去的两年中作者一直在研究MUSE,这是一个具有相关反馈机制和学习能力的CBVIR系统。这个项目的目的是建立一个从大型的库中检索视觉

43、信息的智能化系统。其中的一些目标包括:图3:MUSE:结构示意图 简洁、简单、友好的用户接口 从用户交互学习的能力 用户透明度:对用户隐藏检索引擎复杂的低层细节 对其他媒体种类的可扩展性,尤其是视频系统综述图3显示了MUSE的主要组成部分。部分的系统操作是脱机状态下完成的,还有一些操作是联机执行的。脱机阶段的工作包括:特征抽取、图像的表示以及库中每幅图像的组织。联机交互由用户通过GUI命令执行。系统抽取用户选出的相关图像的特征并与所有其它的图像特征相比较。根据相似度比较的结果来更新图像是目标图像的概率并进行排列。根据这些,系统存储学习信息并决定下一步将显示哪一张候选图像。经过一系列的循环重复,

44、目标图像将会在屏幕上显示出来。用户的观点MUSE的用户接口比较简单、简洁,而且还很直观(如图4)。它包括一个菜单,两个工具条和一个工作区,工作区被分为两个部分:左边包括一个选定的图像(可选的);右边作为一个浏览器,它的具体细节依赖于操作模式。MUSE支持四种操作模式:自由浏览,随机浏览,根据实例查询以及相关反馈(不需要实例图像)。在自由浏览模式下(如图5),浏览器显示当前用户所选择的目录下图像的索引图像。随机模式下(如图6),在显示索引图像之前打乱了目录的内容,working as a baseline against which the fourth mode (relevance feed

45、back) can be compared。基于实例的查询模式(如图7)已经被实现用于当做特征抽取和相似度度量阶段的实验台。使用一个图像(左边)作为例子,最好的匹配显示在浏览器。最后,相关反馈模式起始于一个随机的图像的子集,基于用户的输入(指定每幅图像是好的、坏的或者两者都不是)系统来理解哪幅图像是目标图像。在一个典型的使用相关反馈模式的交互中,用户最初会在浏览器部分看见一个图像的子集(如图8)。图4 MUSE:用户界面根据每幅图像与目标图像(例如:加拿大国旗)的相似与相异程度,在点击GO按钮之前,用户可以不选或者选择多个当前显示的图像标上“好”(good)或者“坏”(bad)标记。与每幅图像

46、相对应的选择按钮会相应的变为绿色(该图被认为是好的例子)或者红色(该图被认为是坏的例子)。在系统使用中,用户所要做的也仅仅是选择图像和点击GO按钮这两件事。一旦检测到用户已经点击了GO按钮,系统首先检验是否有图像被选中。如果有如象被选中,系统重新计算每幅图像就是目标图像的概率,并显示一个新的更接近与目标图像的图像子集(如图9)。如果用户开始并没有选择任何的图像,系统会显示四张新的随机选择的图像。经过一系列的重复操作,系统最终会得到目标图像(在本例中只需要进行一次重复工作)。图5 MUSE:自由浏览模式图6 MUSE:随机浏览模式图7 MUSE:实例查询模式图8 MUSE:相关反馈模式:初始屏幕

47、图9 MUSE:相关反馈模式:最优结果BEHIND THE SCENES目前的MUSE原型仅仅支持基于颜色特征的检索,将来MUSE的最终版预期将支持颜色相关特征组、纹理相关特征组和形状相关特征组的检索。颜色信息使用颜色相关曲线图(color correlograms)进行抽取,两幅图像的颜色相关曲线图之间的比较使用L1距离度量方法。作为结果的特征向量使用PAM算法的一种变形组织成为组(clusters)。MUSE使用的是基于图像相似性的信息检索的一种概率模型。在这种模型下,给每幅图像赋一个概率值,即这幅图像是目标图像的概率。在用户每次根据图像间相似度选择标注图像后系统重新计算这些概率值。在每次

48、迭代的最后,数据库中的每幅图像的概率值都被校正过,系统将根据这些概率值显示那些最佳的图像。MUSE支持两种方式的学习。在会话(session)中修改图像概率的过程从本质上来讲是一种学习理解用户参数选择以及相应回答的方法。这种学习我们叫它“会话内学习”(intra-session learning)。MUSE系统已经扩展到支持“会话内学习”方法,也就是,使用对在某次会话过程中的用户交互进行学习所得到的信息,来提高系统在以后的会话中遇到类似情况时的性能。允许用户保存恢复profiles就是完成这个目标的一种方法。每次用户登录系统时,用户可以选择检索已经存在的登录profiles,或者建立一个新的p

49、rofile,或者也可以忽略所有的profiles。Profiles的例子可以是多样的,如:“赛车爱好者”,“莎朗斯通的影迷”或者“世界上的旗帜”。通过存储profiles用户可以花费最小的额外代价间接地向系统提供语义层次的信息,即在每次的会话中保存或者恢复一次profile。MUSE使用贝叶斯网络模型来估计assess用户的要求和基于用户与系统的交互的profiles。可能的应用在本系统中所提出的绝大多数思想都能够满足任意其它的视觉信息检索系统的需要。在MUSE系统开发过程中,系统使用了通用的图像文件和专门的图象库进行测试。由于扫描仪和数码相机的普及以及相应价格的降低,家庭照片也越来越多的以

50、数字格式进行存储,为了能够使得家庭用户能够简单、智能化的管理这些照片并对这些照片进行编目,家庭照片管理可以成为本项目结果的一个具体应用,在这方面潜在着一个很大的市场。Such a system would help minimizing the well-known phenomenon of pictures that are never retrieved, organized, and therefore enjoyed, ending up in a shoe box, or its digital equivalent, a folder in the home PCs hard d

51、isk.如何提高系统处理家庭照片相关处理的能力,如人脸识别,室内与室外的分类,等等,这可能是我们在以后的MUSE版本中所要考虑的研究方向。结束语本章中我们对基于内容的图像检索系统进行了回顾和评价。我们介绍了一个CBVIR系统的体系结构,列出了设计开发这些系统的open问题。CBVIR领域的潜在市场已经吸引了许多公司和大学的关注,也出现了一些商业性和研究性的系统原型。有兴趣的读者可以从本章中所提供的地址找到更多的信息。在本章的最后我们详细介绍了由作者开发的一个CBVIR系统原型。参考: 毕 业 论 文论文题目学 院专 业年 级姓 名指导教师职 称(200 年 月)教务处制毕业设计说明书与毕业论文

52、撰写的规范化要求一篇完整的毕业设计说明书或毕业论文有题目、摘要及关键词、目录、引言(前言)、正文、结论、谢辞、参考文献、附录等几部分构成。要求理工科专业不少于4000字,文科专业不少于6000字。一、毕业设计说明书撰写的主要内容与基本要求一份完整的毕业设计说明书应包括如下主要内容:1题目设计课题名称,要求简洁、确切、鲜明。2中外文摘要及关键词应扼要叙述本设计的主要内容、特点,文字要简练。中文摘要约300字左右;外文摘要约250个实词左右。关键词35个。3目录主要内容的目录。4前言应说明本设计的目的、意义、范围及应达到的技术要求;简述本课题在国内(外)的发展概况及存在的问题;本设计的指导思想;阐

53、述本设计应解决的主要问题。 5正文(1)设计方案论证:应说明设计原理并进行方案选择。应说明为什么要选择这个方案(包括各种方案的分析、比较);还应阐述所采用方案的特点(如采用了何种新技术、新措施、提高了什么性能等)。(2)设计及计算部分:这是设计说明书的重要组成部分,应详细写明设计结果及计算结果。(3)样机或试件的各种实验及测试情况:包括实验方法、线路及数据处理等。(4)方案的校验:说明所设计的系统是否满足各项性能指标的要求,能否达到预期效果。校验的方法可以是理论分析(即反推算),包括系统分析;也可以是实验测试及计算机的上机运算等。6结论概括说明本设计的情况和价值 ,分析其优点、特色,有何创新,

54、性能达到何水平,并指出其中存在的问题和今后的改进方向。7谢辞简述自己通过本设计的体会,并对指导老师和协助完成设计的有关人员表示谢意。8参考文献应列出主要参考文献。9附录将各种篇幅较大的图纸、数据表格、计算机程序等作为附录附于说明书之后。二、毕业论文撰写的主要内容与基本要求1题目题目应该简短、明确,要有概括性,让人看后能大致了解文章的确切内容、专业的特点和学科的范畴。题目的字数要适当,一般不宜超过20字。字体为2中外文摘要及关键词摘要也称内容提要,应当以浓缩的形式概括研究课题的主要内容、方法和观点,以及取得的主要成果和结论,应反映整个论文的精华。中文摘要约300字左右为宜,同时要求写出250个实

55、词左右的外文摘要。关键词3-5个。摘要应写得扼要、准确,一般在毕业论文全文完成后再写摘要。在写作中要注意以下几点:(1)用精练、概括的语言表达,每项内容均不宜展开论证。(2)要客观陈述,不宜加主观评价。(3)成果和结论性意见是摘要的重点内容,在文字上用量较多,以加深读者的印象。(4)要独立成文,选词用语要避免与全文尤其是前言和结论雷同。(5)既要写得简短扼要,又要行文活泼,在词语润色、表达方法和章法结构上要尽可能写得有文采,以唤起读者对全文的阅读的兴趣。3目录(必要时)论文编写完成后,为了醒目和便于读者阅读,可为论文编写一个目录。目录可分章节,每一章节之后应编写页码。4前言前言是全篇论文的开场白,它包括:(1)选题的缘由。(2)对本课题已有研究情况的评述。(3)说明所要解决的问题和采用的手段、方法。(4)概括成果及意义。作为摘要和前言,虽然所定的内容大体相同,但仍有很大的区别。区别主要在于:摘要一般要写得高度概括、简略,前言则可以稍微具体些;摘要的某些内容,如结论意见,可以作为笼统的表达,而前言中所有的内容则必须明确表达;摘要不写选题的缘由,前言则明确反映;在文字量上前言一般多于摘要。5正文正文是作者对自己研究工作的详细表述。它占全文的较多篇幅。主要内容包括研究工作的基本前提、假设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论