版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于内容的视觉信息检索姓名高福娜院系信息与电气工程学院专业计算机科学与技术年级计本2班学号20122212611指导教师周树森2014年12月1日基于内容的视觉信息检索高福娜(信息与电气工程学院,计算机科学与技术,12级计本2班,20122212611) 摘要:随着多媒体技术及计算机网络技术的迅速发展,多媒体已广泛地应用于如公共信息业、广告、教育、医学、商业及娱乐等多个领域。数字视频的传播也变得越来越容易,数字电视、多媒体广播、视频会议已经开始逐步走入人们的日常生活中,视频也己经逐渐成为人类信息传播的主流载体之一。当今,人们面临的问题已不再是视频内容的匮乏,而是面对浩如烟海的视频信息,如何快速
2、、有效地找到自己需要的内容,已经成为了迫切的需求。故本文分析了现有的视频检索理论框架,对以文字信息为主要特征的视频检索系统关键技术进行了研究。 关键词: 基于内容的检索;视频检索技术;检索系统1 前言 本文主要对视觉信息检索(Visual Information Retrieval,简写为 VIR)系统特别是基于内容的视觉信息检索(简写为CBVIR)系统领域作了一个综述。阐述了视觉信息检索和基于内容的视觉信息检索的概念,基本原理,发展方向,该领域的一些主要概念以及系统设计时所面临的主要问题等等,并回顾评价了当前已有的一些系统原型以及商业上的解决方案,同时
3、指出了该领域中比较有前途的研究方向。二本论 随着数字存储和网络技术的发展,要生成、分析、存储和转换的多媒体信息量急剧增加,越来越多的数字文档中包含着文本、图像、音频和视频等多种媒体类型。当前,多媒体信息已成为人类信息的主要表示方式和内容,在这种形势下,信息访问和查询方式将向着以多媒体信息检索为主的方向发展。以图像和视频为主的视觉信息是多媒体信息的重要组成部分,因此,对大型图像和视频数据库进行有效、快速的检索已经成为一个亟待研究的问题。2.1什么是视觉信息检索 视觉信息检索(VIR)是计算机科学与工程学科中一个相对比较新的研究领域。与传统的信息检索类似,VIR系统的主要目标是检索出所有的与用户的
4、查询相关的图像(或图像序列),同时在检索的结果中应尽可能的去掉不相关的图像。对信息的检索与对数据的检索的着重点恰恰相反。视觉信息检索系统必须能够解释文档(图像)的内容并将它们按照与用户查询的相关程度进行排列。这个解释过程包括从文档(图像)里抽取(语义)信息并用这些信息与用户要求进行匹配。2.2视觉信息检索的分类 VIR系统根据用于查询检索图像或视频文件的属性的不同可以大体上可以分为两代: 第一代VIR系统:使用文本进行查询,例如查询“黑色的帽子”或者“莫扎特的作品”。它们非常依赖于元数据(字符串,关键字,或者完整的脚本full scripts)
5、60;第二代(CB)VIR系统:支持基于内容的查询,对图像而言,其中内容的概念包含:感觉属性(例如:颜色、形状、纹理),语义上的基本要素(例如:对象、角色、场景),还有主观的属性(例如:印象、情绪和与感觉属性相关的意图)。许多的第二代系统都将基于内容的技术作为一个补充,而不是选择代替基于文本的方法。2.3视频信息检索技术 2.3.1视频镜头检测技术 由于视频内容丰富,不易建立索引,可以将其从大到小划分为视频、场景、镜头及关键帧4个层次,其中,镜头是视频检索的基本单位,是摄像机一次操作所拍摄的图像序列。对视频建立索引,首先要将视频分割为镜头。镜头检测即找到镜头与
6、镜头之间的切换,并找到切换前后的差异。镜头切换包括渐变和突变,针对不同的情况需使用不同的检测技术。常用的镜头检测方法有: 2.3.1.1模板匹配法 该方法将两帧对应像素差的绝对值之和作为帧间差,若大于某阈值便认为有镜头切换。这种方法对检测镜头突变很有效,但对镜头中的运动物体,也可能计算出大于阈值的帧间差,造成错误判断,所以阈值较难确定,该方法也容易受噪声影响。 2.3.1.2直方图法 该方法利用帧与帧的直方图比较来检测镜头,是使用得较多的计算帧问差的方法。它将颜色空间分为一个个离散的颜色小区,计算落入每个小区的像素数目。这种方法不考虑像素的位置信息,
7、因此抗噪声能力比模板匹配法强。它的缺点是两幅结构完全不同的图像其直方图也可能相近,因而检测不出镜头切换。 2.3.1.3基于边缘的方法 该方法将两幅图的边缘提取,利用镜头切换时出现的新边缘与消失的旧边缘的像素比例,若两者最大值大于某阈值,则认为有镜头切换。这种方法在边缘不明显时识别效果比较差。2.3.1.4基于模型的方法 基于模型的方法对于检测镜头渐变有很好的效果,它可建立一套基于数学模型的系统方法,对特定领域视频可通过数学模型上加一定的限制条件来提高方法有效性。这种方法建立数学模型过程较复杂,适用于专业领域。2.3.1.5压缩域法 目前越来越多的
8、视频数据以压缩形式保存,这就需要对压缩视频进行镜头检测。压缩域的方法就是基于这种思想出现的。可以利用运动向量及运动补偿宏块等信息进行。 2.3.2关键帧提取技术 检测出镜头之后,要进行镜头关键帧的提取。镜头关键帧是反映镜头主要内容的一帧或几帧图像,因而需要它描述准确且存储数据量尽量小,计算不宜太复杂。 2.3.2.1基于镜头的提取法 该类方法主要通过在固定位置或计算平均值的方法提取关键帧。如可以将镜头固定位置的帧,如第一帧、中间帧或最后一帧作为关键帧;或者利用帧平均法,先计算所有帧在某个位置上像素的平均值,若某帧在这个位置上的像素值等于这个平均值,就
9、把该帧确定为关键帧;或利用直方图平均法,对镜头中所有帧的统计直方图取平均值,再选择与该平均直方图最接近的帧作为关键帧。这类方法实现起来容易,但选取的关键帧未必反映镜头的主要内容,不具代表性。 2.3.2.2基于镜头内容的提取法 该方法利用每帧的颜色、纹理等信息的改变来提取关键帧。先把镜头第一帧作为关键帧,再计算前一关键帧与剩余帧之差,若差值大于某一阈值,则选取一关键帧。这种方法的缺点是选取的帧不一定具代表性,且在镜头运动时,容易选取过多的关键帧,关键帧数目不确定。 2.3.2.3基于光流的提取法 通常视频数据中的静止或停留表示强调某一动作的重要性。通
10、过光流分析来计算镜头中的运动量,在运动量取局部最小值处选取关键帧。这种方法根据镜头的结构选择相应的关键帧数,若能先将运动对象从背景中取出再计算对象所在位置的光流,可取得更好效果。 2.3.3视频检索 在视频检索中,为提高检索效率及质量,查询模块在检索前应先调用历史记录和知识库,引导用户查询。此外,为使索引特征能体现用户查询需要,系统将用户反馈信息进行登记,自动更新数据库实现自我调整和适应。基于内容的视频检索需要解决的另一关键问题是怎样判断特征之间的相似性。现有的视频检索系统提交的查询结果和用户的查询需求往往有一定偏差,这是由于视频信息包含复杂的底层特征和高层语义特征,与用
11、户的表达有很大差异。为更好的判断相似性,需要用户在查询过程中与系统不断交互,通过不断反馈信息来调整检索内容以便逐步靠近用户查询需求,同时系统根据反馈信息更新数据库进行自我学习2.3视觉信息检索的研究方向 视觉信息检索研究的发展得到了多个研究领域的支持,尤其是:基于文本的信息检索,图像处理和计算机视觉,模式识别,多媒体数据库组织,多维索引,人机交互,等等。2.4基于内容的视觉信息检索 传统的视觉信息检索是基于关键词描述的检索,其描述能力有限,需要手工标注,主观性强。图像和视频信息与传统的文本信息有很大的不同,主要表现在以下两点:一方面,由于图像和视频具有不同的感知,使得保存其内容信息
12、非常困难;另一方面,在检索视觉信息时,用户很难准确表达他们真正所需的信息。因此,用户希望只要给出示例或特征描述,系统就能自动检索出相对应的信息。基于内容的检索既能向用户提供基于颜色、纹理、形状及运动等视觉特征的检索,又能提供基于高级语义信息的检索,对于视频,具有在镜头、场景、情节等不同层次上进行检索的功能,能满足用户基于例子和特征描述的检索要求。2.5一个典型CBVIR系统的体系结构 图1显示了一般CBVIR系统的结构图,系统的主要组成部分有: 用户界面(User interface):友好的图形化用户界面,用于向数据库提出查询,浏览结果,查看选中的
13、图像或者视频片断; 查询/搜索引擎(Query / search engine):负责根据用户提交的参数在数据库中进行搜索; 数字图像和视频存储器(Digital image and video archive):数字化、压缩的图像和视频片断的存储库; 视觉信息摘要(Visual summaries):图像和视频内容的简单表示,例如图像的索引图像或视频的关键帧; 索引(Indexes):图像或视频片断的指针;
14、0;数字化和压缩(Digitization and compression):将图像和视频片断转化为压缩的数字化格式的硬件和软件; 编目(Cataloguing):从原始图像和视频中抽取特征建立相应的索引。图1 由于大量现成的硬件和软件的存在,数字化和压缩过程已经变得相当简单。许多情况下,图像和视频的生成和存储都直接使用压缩的数字化格式。编目阶段的工作主要是从图像和视频片段的视觉内容中抽取特征。特别的,在处理视频的情况下,原始的视频片断被分成若干块,这些块被成为场景(scenes),它们还可以被进一步细分为镜头(shots)。每一个有意义的视频单位都被
15、编上索引,同时系统存储一个相对应的视觉信息摘要,代表性的为一个关键帧(keyframe)。在处理图像的情况下,相对应的过程为对象的分割过程,该过程已在少数系统中得到实现。在两种情况下,元数据都是在编目阶段中被加入到视觉内容中。基于文本的视觉信息检索系统必须要用手工给图像和视频文件添加元语言,而CBVIR系统则最低限度或者根本不使用元语言。 数字化、压缩和编目一般而言都是离线完成的。一旦这三个步骤完成,数据库中不但包含了这些图像和视频文件本身,还可能包含这些文件或片段的简化表示以及用作相应图像或视频的指针的索引集。 用户与CBVIR系统的在线交互如图1的上半部
16、分所示。用户通过图形用户界面(GUI)提出查询,系统根据用户所提交的查询由搜索引擎查找与所需图像或视频文件相对应的索引,最终的结果将通过一种易于浏览查看的方式返回给用户,同时还应当可以根据部分返回结果来改进查询。 用户观点(Perspective) 用户接口是CBVIR系统的一个极为重要的组成部分。理想的用户接口应当是简单的、容易的、友好的、功能的(functional)并且是可定制的。它应当以一种清楚直觉的方式提供用户浏览、查看、搜索和检索的能力。这种集成是非常重要的,因为用户不会一直只是由查询搜索引擎得到最佳匹配,有时用户需要检查最初少数的最佳匹配,浏览它们,查看它们
17、的内容,改进查询,最终检索到所要的图像或视频片断。 大多数VIR系统允许使用如下所述的多种不同的方式中的一种或多种对视觉信息数据库进行搜索: 交互式浏览(Interactive browsing):方便那些对要搜索的图像或视频没什么了解的用户使用。聚类技术可以用来将视觉上相似的图像组织成组,同时可以最小化显示给用户的图像中非用户要求的图像数量。 使用X进行查询(Query by X)其中”X”可能为: 一幅实例图像(an image example):许多
18、系统允许用户指定一幅图像作为实例并且搜索与它最相似的图像,按照相似度评分的递减顺序进行排列; 一幅草图(a visual sketch):一些系统提供用户一系列的工具,用户可以将头脑中的图像或视频片断用草图画出来; 视觉特征的详细说明(specification of visual features):视觉特征的详细说明都直接给出,这样可能会吸引到更多有机数的用户; 一个关键字或者完整的文本(a keyword or complete text):第一
19、代VIR系统依赖于用户输入的关键字,用户查找那些事先用关键字标注过的视觉信息。 我们希望查询操作应该尽可能的简单、直观而且尽量接近与人对相似性的感知。用户会更喜欢系统提供像“显示更多与此图像相似的图像”这样的功能选项,而不是提供一个复杂的交互工具来编辑图像的颜色直方图并执行新的搜索。后一种方式可能会有利于有经验且有图像处理方面知识的用户,但它并不适合一般用户所以具有一定的局限性。我们认为,理想的CBVIR系统查询应当对用户隐藏复杂的查询处理技术内幕。对视觉媒体的搜索应当像“当我看到它时,我便知道它”那样具有不精确性。 设计者的观点 设计一个CBVIR系统的一些主
20、要方面有:特征的抽取和表示,降低维数处理(dimension reduction)和多维索引的建立,图像语义的抽取,以及用户相关反馈机制的设计。 特征的抽取和表示 CBVIR系统应该能够自动地抽取用于描述图像或视频内容的视觉特征。这些特征包括颜色、纹理、大小、形状和运动信息。在特定的上下文中,特征的抽取过程可以被扩展,以发现其它专门的属性,例如:人脸或者对象。由于感知的主观性,已知的特征并不存在着最好的表示方法。举个例子说,颜色信息可以用不同的颜色模型(如:RGB、 HSV、 YcbCr)和数学结构(如颜色直方图、颜色矩color
21、moments、color sets或者颜色相关曲线图color correlograms)来表示。与此类似的,纹理可以使用共生矩阵、Tamura纹理特征或者小波(Wavelets)来表示。 降低维数处理(Dimension Reduction) 和多维索引的建立 抽取出的特征聚合成某种合适的数据结构或者数学结构(例如:标准化特征向量),另外选择合适的度量标准(例如:欧几里德距离)来度量一幅图像与任何其它图像之间的相似度。在这个阶段,主要的问题有:特征向量的维数比较高;欧几里德距离度量具有局限性,虽然它在数学方面是比较完美的,但是它不
22、能有效地模拟人的视觉感知。 高维索引的解决方案包括:降低特征向量的维数以及使用高效的多维索引技术。降低维数一般而言或者用Karhunen-Loeve转换或者使用聚类技术。多维索引技术的实例包括使用专门的数据结构(例如:k-d树、R-树和它们的变形)。为了解决欧几里德相似度量的局限性,研究人员提出了使用聚类和神经网络的方法。 图像语义的抽取 人对视觉内容的感知很大程度上依赖于场景的高层语义信息。如今的计算机视觉技术只是低层次的(单个象素级的)研究。基于低层特征的CBVIR系统只能提供如下的一些查询: 查询所有的含有30的红色、10的橙色以及60的白色象素
23、点的图像,其中橙色的RGB定义为:R255,G130,B0。 查询所有的图像,特征为蓝蓝的天空下一片绿色的草地。 查询所有的图像,它们是某特定图像的旋转样式。 在通常情况下,用户都试图寻找所需图像的高层语义特征,例如:“一个漂亮的玫瑰花园”,“一个击球手打中一个棒球”或者“一辆贵重的赛车”。在低层特征与高层语义之间并不存在一个简单直接的映射。这两者之间的距离通常被称作“语义鸿沟”。 如今有两种方法可以用来最大程度的缩小语义鸿沟。第一种是给图像加入尽可能多的元语言,这种方法早已被讨论过而且被认为是很不现实的;第二种是结合学习算法使用用户相关反馈技术进行大量
24、的用户交互,使得系统能够学习理解查询操作的语义上下文。 相关反馈 早期在CBVIR领域努力要实现的主要目标是开发全自动、开放循环(open-loop)的系统。研究者们希望当前的计算机视觉和图像处理技术能足够应付图像的查询和检索。这些系统的成功率也鼓舞了研究者们开始尝试另一种不同的途径,即强调交互性以及比较明确地将用户考虑到处理循环中。这种改变的例子可以从MIT多媒体实验室研究人员在该领域的研究工作中看出,他们从对“自动的” Photobook的研究转入到对“交互式的”FourEyes的研究。 “相关反馈”主要指的是这样的一个过程:系统从用户那里搜集关
25、于特征、图像、图像区域或者局部的返回结果的相关性信息。这种反馈可以用许多种方法来实现,每一种系统都可以按某种特定的方式使用反馈来提高系统的性能。相关反馈的作用在于将查询向相关图像的方向“转移”,避开不相关的图像(Gevers ,Smeulders ,1999)。相关反馈机制已经在当前的CBVIR系统中得到应用,例如:MIT的FourEyes系统,UIUC的MARS系统和NEC的PicHunter系统,等等。 在支持相关反馈的CBVIR系统中,一个典型的搜索包括查询以及后续重复进行的用户反馈。相关反馈的使用使得用户与系统的交互更加简单,更加自然。通过选择图像、图像
26、区域或者图像特征,用户可以用这样那样的方式告诉系统他的要求,而没有使用草图或者关键字等方式来描述用户要求时系统所承受的负担。 如何使用用户交互得到的信息以及如何提炼CBVIR系统要返回的结果有许多种方法。有一种途径着重于查询阶段,试图使用相关反馈得到的信息来改进查询;另一种选择是使用相关反馈来修改特征的权重,例如MARS中使用的方案;第三种思路是使用相关反馈来构造新的特征;第四种可能性是使用相关反馈信息来更新数据库中的每幅图像就是目标图像的概率,也就是通过用户与系统进行交互来预测目标图像。后一种方案已经在PicHunter系统中得到采用。系统设计要点 CBVIR系统的设
27、计过程中出现了很多问题和挑战,其中的一些已经得到了总结(Marques ,Furht,1999)。基于我们开发MUSE系统的经验,我们总结了CBVIR系统设计者在开始实现CBVIR原型之前所必须要解决的一系列的问题。 系统将要使用哪些特征以及如何引入? 特征抽取阶段是这个难题中相当重要的一块。好的特征抽取算法单方面并不能保证CBVIR系统完全成功。但是,一个系统中如果关于图像的低层内容的知识不足以建立图像之间视觉相似性的概念,那么该系统也不会表现出很好的性能。大多数系统会抽取颜色和纹理信息进行编码,有的系统也会抽取频率相关的信息,例如使用数学变换。特
28、殊的应用往往需要专门的特征和算法,例如人脸识别。抽取出的特征信息往往被组织成特征向量的形式,图像之间的相似度由距离度量标准来表示,距离越大,相似度越小。 系统如何知道使用可哪些特征以及如何给某个特殊的查询优先权? 如果系统工作 在一个无约束的图像库下,那么找出哪些特征应当被考虑到以及根据这些特征的重要程度来为每个特征分配特定的权重将不是一件很简单的事。在某一个查询中很重要的到了下一个查询中可能会毫不相关。处理这个问题由两种方法:(a) 在提交查询前让用户明确指出哪些特征是重要的;(b)基于用户交互和相关反馈,使用机器学习技术来推断每个特征的重要性。QBIC使用了
29、前一种方法,MARS则使用了后一种方法。 选择什么样的相似度量方法? 最广泛采用的相似性模型是度量,假定人的相似性感知可以被近似的通过度量特征向量之间的距离(代表性的使用欧几里德距离)估计出。非欧几里德的度量方法尚未进行深入研究(Rui, Huang, Chang,1999),更好的相似模型正在研究中。 降维和索引过程应该使用什么技术? Karhunen-Loeve变换(KLT)是对特征向量进行降维处理的较为完善的技术,同时研究人员正在寻找一种最佳的多维索引技术,近些年一种新的基于树的方法被提出来。在Rui
30、、 Huang 和 Chang (Rui,,Huang, Chang ,1999)所作的调查中包含了许多特殊的算法。 系统应该支持什么样的查询? 决定选用什么样的查询方式应该考虑到用户的需要以及实现每种模式的复杂度的折衷。例如支持基于文本的搜索,需要花费额外的精力对每幅进入数据库的图像进行注释,同时支持基于实例的查询(QBE)操作需要更复杂的图像相似度度量。一些研究者们提出根据类别的导航与基于内容的检索之间可以着到一个有意义的平衡。当用户提交了一个视觉信息查询时,图像的子集已经被限定到以个特定的类别中
31、去,这样作可以提高速度(需要考虑的图像变少了)而且还可以加入关于查询的语义信息(层次树中的类别和它的父类会告知用户关注的主题)。 如何评价结果的质量? Benchmarking视觉信息检索解决方案是an open problem,研究人员仍然在争论如何为这个目的找出一套图像、一个查询集以及评价标准。用标准化的方法比较两种解决方案之间的差别仍然是不可行的,每一个系统都具有它本身的数量上的和质量上的度量标准。 图像文件应该存放到哪里? 图像文件实际存放位置的不同(在本地硬盘上还是在互联网上)会给系统的设计带来很
32、大的差异。当图像文件不是存放在本地时,设计者应该考虑到众多的问题,我们指出其中的一些如下: a) 需要在本地存储远程数据库中图像的索引图或者镜像副本; b) 实际图象可能会变得不可用(临时地或永久地); c) 网络拥塞可能会带来性能的下降; d) 根据图像库的变动使用不同的策略更新索引。 用户怎样提出相关反馈以及与之对应系统应该完成什么工作? CBVIR系统要支持用户相关反馈存在着许多重要问题。第一个就是于用户的接口问题以及系统要求用户如何与之交互,如何使用例子来表达他们对图形的
33、看法,使用哪些特征来度量相似度以及部分的返回结果。 一些系统只需要最低限度的用户操作(例如用户评价结果时好的、坏的或者都不对),其它的系统需要用户对结果的质量给出一个具体的数值。第二个问题关于复杂的数学计算,主要是由下面的情况所带来:用户相关反馈信息以及根据它来调整查询,计算每个特征的重要性,计算每幅图像是目标图像的概率,等等。 如果需要的话,系统应该具有哪些学习能力? CBVIR系统有许多的理由使用无人管理的学习算法: a) 学习特征向量如何于图像的自然组相关联,如何标注这些组; b) 找出要将图像归为特定的类中时有用
34、的特征; c) 根据一系列的先验概率以及计算对每幅图像是所需要的图像的概率进行修正,同时还要考虑到相关反馈的信息。在CBVIR系统中贝叶斯学习和聚类技术是最常用的学习技术之一。 系统中还要包括哪些支持工具? 一系列的支持工具的引入可以增强CBVIR系统的性能。一组基础的图像处理函数即使这种工具的一个例子,这些函数允许基于实例查询系统的用户在提交查询前对样本图象进行简单的编辑(如:裁剪等等)。2.6.OPEN研究问题以及未来发展方向 视觉信息检索是一个比较活跃的研究领域,许多open问题仍然处于研究阶段,其中的一些最突出的技术挑战
35、和研究机遇包括: 用户与系统之间更好的协作 大家公认CBVIR系统如果在处理循环中允许用户的介入且允许他们提供相关反馈信息,则系统将只会达到可接受的性能。研究人员仍在研究用户如何给出相关反馈的信息以及系统如何进行相应的处理的细节。 最小化图像低层特征与人对图象内容的解释之间的语义鸿沟 视觉信息查询的高层的概念与使用计算机视觉技术从图像中抽取的低层的特征之间的区别用文字表述为“语义鸿沟”。最小化这个语义鸿沟的最有希望的方法是结合联机的相关反馈信息使用脱机学习算法。 使系统面向Web 基于Web的搜索时使用的基于文本的搜索引擎还没有
36、相应的能力完成对视觉信息的搜索。元数据的表示还没有一个标准,缩短系统的最大可承受的响应时间,是目前需要克服的两大困难。 高维索引 目前,对高效的支持非欧几里德的相似度度量方法的高维索引技术以及相似性函数功能运行时它们自适应进行改动的研究很活跃,但还没有找到最终的解决方案。 性能评价的标准化以及标准化基准套件和实验台的创造 人们一致公认需要一系列标准化的的图像、查询和性能度量方法来对不同的解决方案之间进行比较。国际模式识别联合会(IAPR)的一个技术委员会(TC)正试图解决这个问题,到目前位置还未有一个最终的结果。 人对图像内容的
37、感知 对人的视觉感知的心理物理特征的深入研究能够使得我们对人如何进行视觉相似性判断有进一步的了解,同时也会帮助提高CBVIR系统的性能。 访问图像视频数据库的新的visual interfaces 查询、浏览以及视觉信息图像库的定位方法都需要进行改进,尤其是视频信息引入后。 计算机视觉与其他学科和媒体相集合 图像数据库系统的成功离不开计算机视觉领域、数据库领域以及其它一些研究领域研究人员的通力协作。2.7.CBVIR系统实例 近年来,不管在商业上还是在研究领域,都出现了大量的CBVIR系统。下面会对现存的
38、一些CBVIR系统作一个简要的介绍,具体细节可以从文中所给出的互联网站点和文献目录中获取。 ·QBIC QBIC (Query By Image Content 基于图像内容查询) 系统是由国际商用机器公司(IBM)研制成功的。该系统的设计框架和采用的技术对后来的图像系统产生了深刻的影响。QBIC系统基于例子图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩和纹理样式的查找方式。在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成
39、查找功能。·Photobook Photobook是美国麻省理工大学的多媒体实验室所开发的用于图像查询和浏览的交互式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户可以分别在这三个子系统中根据相应的特征来进行查找。·FourEyes FourEyes相当于是Photobook的一个改良版本,它包括了相关反馈机制。通过给出一组正的和负的例子,系统决定使用哪个模型或者几个模型的组合并学习哪个组合能最好的解决特殊类别的问题。当系统遇到一个与它以前所解决的问题类似的新问题时,FourEyes能在比第一次更快的时间内解决问题。
40、3;Netra Netra系统是在UCSB大学的Alexandria数字化图书馆(Alexandria Digital Library 缩写为ADL )项目中。它从分割后的图像区域中提取颜色、形状、纹理和空间位置信息,并依靠这些信息从数据库中查找相似的区域。2.8.检索系统实例研究 在对基于内容视觉信息检索的研究过程中,研究者开发出了多种检索系统,这些系统各有优势和不足。一般的检索系统都具有两个子系统:数据库生成子系统和数据库查询子系统。生成子系统的输入是图像和视频数据,并从这些数据中提取必要的特征,然后经过聚合生成索引被查询子系统所利用;查
41、询子系统利用数据库中索引元素的特征来匹配用户查询。如图2所示:图2 数字图书馆中基于内容的图像检索(C-BIRD)系统 C-BIRD系统不仅提供了依据颜色、纹理、形状及其组合等一般特征来检索的方法,还能让用户依据亮度进行检索。系统采用的特征定位和三步匹配算法(颜色假设、纹理支撑、形状验证)使对象检索更高效,并促进了依据对象模型来检索图像/视频数据库的发展;把原来的三位面颜色信息映射缩减为RGB坐标空间中的单位面信息,用直方图的交集来匹配图像,通过离散余弦变换来减少直方图的存储空间;图像的纹理则是由预计算出来的边缘和方向决定的,而形状由哈夫变换来表征。系统已经在UNIX系统和PC平台上做了实现。在这些平台上,系统利用相同的搜索引擎和C+编写的预处理程序。用户接口
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建漳州南靖县消防救援大队招聘政府专职消防员6人备考题库完整答案详解
- 2026福建省面向中国海洋大学选调生选拔工作备考题库及一套答案详解
- 2025上海市松江区数据局外聘法律顾问选聘1人备考题库附答案解析(夺冠)
- 2025年平凉市选调公务员笔试真题汇编及答案解析(夺冠)
- 2026年陕西省选调生招录备考题库(面向华东师范大学)附答案详解
- 2026年中国建设银行总部校园招聘备考题库(130人)附答案详解(模拟题)
- 2025年宣城市特岗教师招聘考试真题汇编附答案解析(夺冠)
- 2026福建省面向西北农林科技大学选调生选拔工作备考题库含答案详解(轻巧夺冠)
- 2025年常州市特岗教师招聘考试真题题库带答案解析
- 2023年邢台市遴选公务员考试真题汇编及答案解析(夺冠)
- 办公室安全生产管理
- 2024年06月莱商银行泰安分行社会招考笔试历年参考题库附带答案详解
- 2025年华润燃气集团招聘笔试参考题库含答案解析
- 汽车配件仓库的规划
- 业主大会和业主委员会工作指导手册
- 防暴叉产品生产技术现状
- 中草药栽培生涯发展展示
- 曙光天阔A620r-G用户手册
- 烹调营养学:科学烹调
- 《水利工程施工监理规范》SL288-2014
- 2024年关于律师委托代理合同范本
评论
0/150
提交评论