版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3章 检索技术3.1 传统检索技术3.2 现代检索技术3.1 传统检索技术3.1.1 布尔检索3.1.2 截词检索3.1.3 限制检索3.1.4 位置检索3.1.5 聚类检索3.1.6 加权检索3.1.7 扩展检索3.1.8 反馈检索3.1.1 布尔检索布尔逻辑算符运算次序及注意事项算符AND(逻辑与):常用*来表示,相当于英文中“bothand”,要求AND所连接的检索词必须同时出现在一个记录中。算符OR(逻辑或):常用+来表示,相当于英文“eitheror”,OR连接的检索词中有一个出现即为命中文献。算符 NOT(逻辑非):常用-来表示,要求包含NOT所连接的左边检索词而不包含其右检索词
2、的文献为命中文献。3.1.2 截词检索截词(Truncation)检索,就是把检索词截断,取其中的一部分片段,再加上截词符号一起输入检索,系统按照词的片段与数据库里的索引词对比匹配,凡是包含这些词的片段的文献均被检索出来。按截断的位置分为前截断、中截断和后截断。按截断的字符数量分为有限截断和无限截断。 *,: (无限截词符) comput* ?,# (有限截词符) colo?r3.1.2 截词检索brows* 1. browse 2.browser 3.browsers 4.browsing brows*=1 OR 2 OR 3 OR 4 OR3.1.2 截词检索acid? acid acid
3、ic acids acidicity acidify acidity3.1.2 截词检索后截断主要使用在以下四个方面:词的单复数,例如:book?, potato?年代,例如:199? 19?作者,例如:Lancaster*同根词,例如:biolog*、physic*3.1.2 截词检索*magnetic electromagnetic paramagnetic thermomagnetic3.1.2 截词检索*chemi* chemical chemist chemistry electrochemical electrochemistry physicochemical physicoch
4、emistry thermochemical thermochemistry 3.1.2 截词检索defense defence defen?esulphur sulfur sul?urorganization organisation organi?ationwoman women wom?n3.1.3 限制检索字段限制检索二次检索3.1.3 限制检索3.1.3 限制检索将检索词限定在某一个字段或某几个字段的检索。多数系统采用“检索词 in 字段标识”的输入格式进行字段限定 例如:leukemia in ti 有些限制字段也可采用“字段标识=检索词”的输入格式 例如:la=chinese其他
5、格式:检索词字段标识(PubMed) 例如:leukemiati 检索词.字段标识.(OVID) 例如:leukemia.ti. 位置检索也称为原文检索,是一类针对自然语言文本中检索词与检索词之间特定位置关系而进行得检索匹配技术。四个级别:同记录同字段同句具体的词位置3.1.4 位置检索(W)与(nW)(N)与(nN)(S)(F)3.1.4 位置检索WITH:同字段检索 例如:smoking with lung-neoplasms 表示:要求smoking 与lung-neoplasms同 时出现在同一字段中,无论语序。NEAR:同句检索(Same) 例如:dislexia nearn chi
6、ld 表示:要求dislexia与child同时出现同一句子中,无论语序,且两者之间最多可以相隔n-1个单词。ADJn:表示检索结果中含有的两个检索词必须相邻,且两个词之间最多可插入n个词。3.1.4 位置检索W/ nn(相隔):表示检索词之间允许插入nn个其它词,前后词序可变。 一般来说,两个检索词在同一个短语中,可用W/3, W/4, 或W/5;两个检索词在同一个句子中,可用W/15;两个检索在同一个段落中,可用W/50。如:pain W/15 morphine。PRE/nn(邻接):表示两个词前后顺序不变,而且两个词之间相隔nn个以内的词。 如:behavior PRE/3 distur
7、bances。3.1.4 位置检索3.1.5 聚类检索1.定义 文献聚类是指针对对系统中的全部和文献向量,使用一定的相似性度量指标和聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献聚集在一起,形成一个个的文献类目,进而生成文献的聚类文档。2. 聚类与分类的联系与区别联系:均基于类的思想区别:分类检索式基于分类法,它的类目体系主要是先组式先的、有系统性的、类目和文献之间具有相对独立性;而聚类检索则是先有文献后有类,类的性质及整个类目体系完全由系统中的文献所决定。 从类目的形成过程上看,分类过程是从总到分,而聚类却通常表现为从分到总的。 3.1.6 加权检索 加权检索是某些检索系统中提
8、供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。 加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。 运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权
9、检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。3.1.7 扩展检索系统基于词表,自动或半自动地对多个检索词执行逻辑或(OR)的检索。基于词表的扩展检索(Explode)主要有下位词扩展检索、同义词扩展检索等功能。3.1.8 相关反馈技术在检索过程中如果发现某一检索结果非常符合自己的需要,则希望进一步检索到与该结果类似的信息,这就是相关信息反馈检索。在数据库检索和网络信息检索中,相关信息反馈检索由检索系统自动进行,例如PubMed的“Related Articles”、Google的“Similar Pages”、“Web o
10、f Science”中的“Related Records”。利用相关反馈检索获得的检索结果,像滚雪球似的越检越多。但其效果有赖于第一次检索的结果。3.2 现代检索技术3.2.1 全文检索技术3.2.2 超文本检索技术3.2.3 多媒体检索技术3.2.4 分布式信息检索技术3.2.5 跨语言信息检索技术3.2.1 全文检索技术1.全文检索系统及其功能2.全文检索系统的实现技术3.全文检索系统存在的问题及解决方法 4.全文检索系统的发展 全文检索以全文数据库存储为基础。所谓全文数据库即是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。而且,全文检索系统还必须对全文
11、数据库进行词(字)、句、段落等更深层次的编辑、加工,同时,允许用户采用自然语言表达,借助截词、邻词等匹配方法直接查阅文献原文信息。 全文检索系统的基本功能可以从系统设计与检索两个方面看:系统设计角度(1)全文本规模的处理功能,包括:全文本的标引、抽词、排序及索引编制;(2)设置二级检索机制,其中第一级满足作为标引词的检索,查找模式为布尔逻辑检索;第二级检索为二次检索,其对象可以是未经标引的词或字符串,采用顺序扫描方式,找出与输入词匹配的段落或记录;(3)具备二级词表机制,即关键词表与后控词表。前者利用文本中已有标识,通过加注标引,提取关键词的词表形式显示出来;后者由专家事先准备,由系统自动捕捉
12、,在自然语言标引的同时备有后控词表机制,满足族性检索要求。(4)多级输出方式,即屏幕显示、打印机打印、机读形式数据的套录,甚至可以配备格式化语言供用户控制输出格式等。 全文检索系统的基本功能可以从系统设计与检索两个方面看:从检索角度看(1)内容与外表特征组合检索,即满足某一外部特征或某一内容特征的单独检索,也可以是两种特征的组合检索,还可以进行外部特征和内容特征各自之间或更多组合的检索;(2)全文分类专题检索和二次检索,即用户可以在某一分类专题表中选择专题号进行检索,凡被赋予该号的文献均被命中输出;还可以在专题检索基础上进行二次检索,即由用户通过输入的某一关键词,利用在专题检索中获得的有限文献
13、集合内直接进行文中的扫描匹配检索; 全文检索系统的基本功能可以从系统设计与检索两个方面看:从检索角度看(3)全文关键词单汉字检索,即当用户需要检索的关键词未在标引短句库和后控制词表中出现时,可以通过全文关键词单汉字检索,将所包含关键词的文献检索出来;(4)位置限定检索,即包括同句、同段、同篇位置的限定检索;(5)后控词表检索,是指具备后控关键词智能检索及后控关键词分类检索的功能。3.2.1 全文检索技术1.全文检索系统及其功能2.全文检索系统的实现技术3.全文检索系统存在的问题及解决方法 4.全文检索系统的发展 全文检索系统的基本问题是怎么处理全文本数据,即如何在计算机中存储表示各个知识项。通
14、常进行的“全文分割处理”或“电子文本格式化”就属于这一范畴,这涉及到全文检索系统在概念层次上的构建模型。关系型全文检索系统 关系模型用于处理结构化、线性的数据,表示实体与实体之间的联系。它采用表格表示数据,表达模型简单,易于处理,由此构建的数据库即是关系型数据库。 针对全文文献固有的多样性、结构的不规范性、篇幅的大小不一等特点,目前在构建关系型全文检索系统时有如下几种选择: (1)从文本内容出发,将文本中相对独立、完整的内容单元作为一个记录单位,如一个标题下的文本作为一条记录,一个小节作为一个记录,一个百科全书条目作为一个记录单元等,除人工加注标识符外,行之有效的途径是由软件自动识别印刷文本中
15、的特殊排版符,抽取所需字段入库; (2)从文本外部形式划分自然段,一个自然段作为一个记录。此方法简单,由计算机自动完成,但缺点是不能将一个前后彼此相关联的有始而终的事件有机地结合在一起,容易造成分割现象,甚至断章取义。因此,关系型数据格式化的优化方案是上述两种选择的结合。层次型全文检索系统 全文本文献有着复杂的层次结构体系。如在一篇文章中的每个标题之下可以派生出若干子标题,每个标题又有多个观点等,常见的自然段划分就是层次结构最明显的反映。全文数据适合于用层次模型描述,可以将层次模型组织的全文检索系统的数据结构分为三种类型:逻辑文档、文本文档、倒排文档。 逻辑文档用于提取整个文本的框架,便于向上
16、、下、平行移动,以确保文本在显示过程中的连续性,即实际上的浏览性文本。文本文档存储文献的内容,如以ASCII码源文本的形式存在,根据逻辑文档中的位置指针建立起逻辑文档与文本文档之间的联系。倒排文档决定层次模型的检索机制。 面向对象的全文检索系统(1)支持不同层次的数据抽象概念化,可将特定数据模型或类型的所有操作集中起来,增加数据库的模块化程度,易于理解一类对象的共同性质;(2)支持继承性,即一个类可以成为另一个类的子类,因而不仅继承了超类的所有特性,同时可以定义自己的特性,由此,方便地形成树型结构的层次体系;(3)支持多继承性,即允许对象属于不同的类,即任意类的交叉。这一特点在结构中表现为每个
17、节点允许多个交节点的存在;(4)允许对象间通过定义适当的过程和消息来表达相互间的复杂关系。 可见,对象模型是一种以自然的方式再现客观世界中事物的逻辑关系,直观显示文献数据库极为复杂的层次结构体现,目前面向对象的方法正被用于超文本系统的研制中。只有借助超文本技术,才能研制出集关系模型、层次模型、对象模型的一体化的全文检索系统。 自动标引技术(1)计算机辅助标引:人工为主、计算机为辅 (2)词典标引 :主题词表法、部件词典法(3)单汉字标引:单汉字机助标引、单汉字位置标引、首字直接匹配法3.2.1 全文检索技术1.全文检索系统及其功能2.全文检索系统的实现技术3.全文检索系统存在的问题及解决方法
18、4.全文检索系统的发展 存在问题文检索系统存储的对象是信息源本身,而不是信息的线索,因而占用空间大;系统响应速度慢;全文检索系统采用自然语言标引与检索,因而假联系、错组配在所难免。解决办法对存储空间问题,开展对适用于全文数据库的压缩技术以及与之相关的代码技术的研究;超高密度磁盘、光盘及芯片技术的研究等。对上述第2、3问题的解决办法是提高标引质量,引进后控机制,标引短句加权,减少误检,提高查准率。3.2.1 全文检索技术1.全文检索系统及其功能2.全文检索系统的实现技术3.全文检索系统存在的问题及解决方法 4.全文检索系统的发展 全文检索系统的发展与超文本技术的融合 专家系统智能化检索语言系统
19、3.2 现代检索技术3.2.1 全文检索技术3.2.2 超文本检索技术3.2.3 多媒体检索技术3.2.4 分布式信息检索技术3.2.5 跨语言信息检索技术3.2.2 超文本检索技术 超文本技术概述 超文本的功能及结构 动态超文本生成技术 超文本技术概述超文本技术既是一种信息单元的组织和检索技术,也是一种软件设计技术,它利用计算机技术、通信技术、知识表达技术、多媒体技术等,将包含文字、图像、声音、视频等电子信息按其相互之间的关联性和可能出现的连续性进行非线性编排,使得只要两个信息单元之间存在着直接或间接的关联,就可以从其一顺着关系链到达另一个信息单元。 超文本技术概述超文本技术与全文检索和布尔
20、逻辑检索相比,具有如下几个特点:(1)非线性的组织结构(2)以信息单元为检索对象(3)体现了信息层次关系(4)交互更加友好(5)信息内容丰富多样(6)避免了检索语言的复杂性 超文本的功能及结构 超文本的主要功能在于对信息的表示、信息的组织、信息的浏览以及信息的检索。这些功能的实现主要取决于超文本的组织结构,超文本是在文本中定义了大量超链使其变成了非线性结构。 超文本的功能及结构信息的表示是通过超文本结构把图形或文本、知识概念、组织结构以及知识概念间的关系表示出来,从信息表示的角度出发,超文本结构表示为层次结构和交叉链接结构。层次结构交叉链接结构信息表示超文本的主要结构 超文本的功能及结构浏览与
21、检索型的超文本强调信息间的充分关联,注重信息的分级和聚类,为用户选择信息源提供导航和检索范围,以保证在浏览时快速选准目标,检索时有效缩小检索范围。表现这两种类型的超文本结构主要为层次-交叉结构和簇网结构。层次-交叉链接结构簇网结构浏览与检索型超文本主要结构图 动态超文本生成技术超文本中信息节点通常在创建超文本文件时预设链接标记,以保证浏览时的跳跃阅读。然而,对于大容量的文本信息或已建立好的全文数据库创建超链,不但其工作量巨大,而且对以后全文中发生变化的链接(锚点)进行修改也是极其困难的,可见这种预置链接锚点的做法在全文检索系统中是不现实的。因此,动态的自动生成全文信息中的链接,应该说是对全文检
22、索技术的补充。 动态超文本生成技术(1) 动态生成文本链接锚点(2)锚点信息的激活(3)锚点词的全文检索(1) 动态生成文本链接锚点所谓动态生成文本链接锚点,是指在检索过程中,系统自动为检索结果(文本)建立链接锚点,使检索者在阅读检索结果时,能够通过链接锚点实现跳跃式阅读.锚点的动态生成应体现在两个方面:一是即时性,即只在检索结果临时生成链接锚点;二是可变性,即随着锚点词库中内容的增加,文本中即时生成的链接锚点也将相应增多。实现上述目标的研究重点是两个方面:锚点词库的构建和链接锚点自动生成算法。 影响因子 文献半衰期 普赖斯指数 普赖斯指数 F 文献半衰期 T map-filename 影响因
23、子 F 图形文件集合图形文件1图形文件2图形文件n全文锚点词库图形文件全文与锚点词库的关系结构图(2)锚点信息的激活动态锚点生成以后,人们所看到的检索结果将是一个带有锚点的全文或文本信息。用户点击这些锚点词后,系统可以激活“锚点词检索程序”,将被点击的锚点词作为检索词对锚点词库进行检索,所获得的锚点词解释信息显示在一个新的浏览窗口中。锚点词解释信息输出时,依然可采用对全文结果的处理方法对它们进行动态锚点的生成,这样可以确保在任何文本信息输出时,均能获得其中语词的解释信息。(3)锚点词的全文检索在阅读检索出的全文信息时,有时读者要求能够直接、快速阅读包含某些关键词的段落。这种要求在常规的全文检索
24、系统和超文本检索中极少见到,但这一方式确实能大大提高阅读效率和阅读的针对性。在自动生成锚点的过程中我们又得到了一个副产品(文本中所含锚点词集合),可以通过在阅读界面设计一个窗口(锚点此列表窗口),用于列出全文中出现的锚点词。通过点击锚点词列表窗口中的词汇,阅读时光标可直接跳跃到全文中第一个拥有该词的段落,光标所在段落即为当前阅读段落,然后还可以顺序阅读出现在其他位置上的该锚点词段落,这有点类似于word软件中的“查找”命令。 动态锚点生成以后,人们所看到的检索结果将是一个带有锚点的全文或文本信息。用户点击这些锚点词后,系统可以激活“锚点词检索程序”,将被点击的锚点词作为检索词对锚点词库进行检索
25、,所获得的锚点词解释信息显示在一个新的浏览窗口中。锚点词解释信息输出时,依然可采用对全文结果的处理方法对它们进行动态锚点的生成,这样可以确保在任何文本信息输出时,均能获得其中语词的解释信息。解释锚点全文文本锚点词的全文检索示例(3)锚点词的全文检索锚点词列表窗口中信息的产生是在对检索结果创建锚点时记录下来的,不必专门整理。为了扩大锚点词窗口中的信息量,可针对不同的数据库增加一些关键词。例如,在历史类全文数据库中增加重要的地名、人名、年代等。这样可为用户在阅读过程中,增加全文搜索点。有时,用户甚至可根据列表词汇来确定该文献是否是自己所需要的检索结果。在全文检索系统中嵌入超文本技术是信息检索领域中
26、的一个新课题,对网络环境的检索系统更加具有意义。它的应用将改变全文检索系统中只能顺序阅读检索结果文本的状况,保证了能够在浏览检索结果过程中同时获取资料 中的专用知识信息,提高了检索系统的阅读效率和效果。3.2 现代检索技术3.2.1 全文检索技术3.2.2 超文本检索技术3.2.3 多媒体检索技术3.2.4 分布式信息检索技术3.2.5 跨语言信息检索技术3.2.3 多媒体检索技术 多媒体信息检索概念与类型 视频检索技术 声音检索技术 图像检索技术 实例分析 多媒体信息检索概念与类型多媒体信息检索技术是把文字、声音、图像、图形等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术
27、。目前有基于文本和基于内容特征的两种多媒体信息检索方式。基于文本的多媒体信息检索技术(TBR)由于计算机技术及其他相关技术的限制,早期的多媒体信息检索是基于文本方式的(Text Based Retrieval,TBR )。当Internet逐渐发展起来以后,这种技术被直接引入到网络的多媒体信息检索领域。这种技术的特点是以关键词的形式来反映多媒体物理特征和内容特征,并对抽取出的关键词按某种顺序进行著录或标引,建立类似于文本文献的索引数据库,这样,多媒体信息检索实际上就转化成为对多媒体进行描述的关键词的检索。目前常用的关键词索引字段有: 文件名或目录名,如.gif或.jpg表示一个可显示的图像,.
28、wav表示声音文件; 多媒体标题、周围文本信息或解说文字; 其他,如Web页的页标题。基于内容特征的多媒体信息检索技术(CBR)基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据中进行检索。 目前,基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。 视频检索就是要在大量的视频数据中查找所需要的视频片段。目前采用的技术主要有:(1)框架检索:对一个数据对象类似于传统数据库中的记录进行结构层次处理,可按视频主题或按内容特点安排;(2)特征描述检索:针对视频的局部特征
29、(事物的颜色、形状、纹理等)及视频中目标的运动情况的检索;(3)浏览检索:利用分层场景转移图进行浏览,获得整段视频的场景图后,再用分层方法对代表帧聚类,并将每类选取的代表帧作为浏览节点依次向下一层浏览。 视频检索技术 (1)特征描述法 :包括自然语言描述法和声音解释法;(2)内容检索法 :包括赋值检索,示例匹配检索,浏览检索,语言识别与合成方式的检索。 声音检索技术 (1)基于颜色特征的检索 :包括矢量距离法,直方图交叉法,直接差值法和主色调扩展法; (2)基于纹理特征的检索 :QBE方式,对粗糙行、方向性和对比度进行确定,逐渐逼近检索目标; (3)基于形状特征的检索:以形状或轮廓作为检索出发
30、点的检索,包括模板匹配法和特征矢量法; (4)相关反馈技术 图像检索技术 (1) Scour () (2) WebSEEK (/webseek/) (3) Image Surfer () (4) QBIC (/) (5) VisualSEEK ( /visualseek) 实例分析(1)Scour () Scour成立于1998年,自称是第一个基于Web的多媒体搜索引擎。主要是针对声音和图像的检索,而且主要集中在艺术和娱乐类目中。其工作原理是在文件名、路径名或ALT标签中搜索用户的检索词。提供的检索技术主要是基于文本方式的检索,即采用关键词进行检索,支持“+”(包括其后的关键词)和“-”(排除
31、其后的关键词),并可以在高级检索中将检索结果限制在gif ,bmp,jpeg等形式中。但因其标引深度不够,使用尽可能少的关键词检索效果明显,故不适于查找详细的主题。检索结果极具信息量,如图像类信息包括:一张简图、图像类型、大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度、图像的URL、源站点的URL,另外还提供“搜索类似的图像”和“特定结果请求帮助”两个选项,如找到的是jpeg文件,可获得怎样下载此类文件以及如何观看和编辑它们的建议。(2)WebSEEK (/webseek/) WebSEEK是由哥伦比亚大学开发的一种实验性系统。其信息来源是WWW上的图像和影像,
32、因而是真正意义上的因特网多媒体信息检索工具。采用代理自动搜索可视信息并对其进行分类,目前已分类的图像有66万多幅,形成了一个极富创新性的图像目录,包括动物、建筑、艺术、地理等46个主题的分类目录是它的主要优点。检索方式有三种,一是关键词的全文检索;二是利用不同的类目等级进行主题浏览;三是在检出图像的基础上利用可视属性进一步检索,其中可视属性包括从图像的颜色、高度、纹理、色彩构成等方面入手,并运用形状识别和相似形计算等方法为用户提供更多的相关信息,这也是WebSEEK很具特色的一方面。结果虽只包括简图和图像大小,但提供三个连接:col根据该图颜色在检出图像列表中搜索相关图像;web在整个WebS
33、EEK目录中根据该图颜色再次检索相近图像;his通过手动调整该图像的颜色直方图进行新的检索。(3) Image Surfer()Image Surfer是Yahoo!公司提供的基于文本方式进行图像检索的多媒体信息检索服务,主题集中在流行文化方面,也包括其它一些主题,如科学、车辆、旅游、计算机等。检索途径主要有三种:分类目录浏览、关键词检索和可视属性检索。使用关键词检索时,Image Surfer主要在页面标题、目录、文件名或通向图像的链路中查找检索词,并支持截词检索。例如,查找“tree”也会找到路径名中含有“trees”的图像。但只是使用较宽泛的主题词才能检出结果,例如,用“petunia”
34、(牵牛花)或“basset”(矮脚猎犬)检不出什么结果,但用“flower”或“dog”却可以检出很多图片。此外,还可以利用“例图”的颜色、形状、纹理特征或这些项目的组合执行可视属性检索。但这种检索只能在预先定义的类目内且只有在浏览时才能进行。浏览结果包括简图、图像的URL及存放该图的页面URL。(4)QBIC() QBIC(Query By Image Content)是IBM Almaden研究中心研制的。是第一个真正的功能齐全的CBR系统。同时,它对于基于内容检索技术的发展也产生了深远的影响。QBIC系统可支持因特网上的图像和动态影响的基于内容的检索。另外,QBIC提供多个图像数据库供检
35、索实验,如美国1995年以前发行的邮票图案、世界著名商标、旧金山美术博物馆图像数据库等。系统提供了多种检索方式,在静止图像检索中,QBIC通过友好的图形界面,为使用者提供了颜色、纹理、草图、形状、多个对象等多种检索方法,并提供了根据样本图像进行相似性检索的方法;在视频检索中,包括了分镜头检测、主运动估计、建立层描述、通过拼接完成代表帧(representative frame)生成等多种视频处理手段,并在此基础上提供通过物体运动、摄像机运动的附加视频检索手段。(5)VisualSEEK()由美国哥伦比亚大学图像和高级电视实验室开发的。它实现了互联网上的基于内容的图像/视频检索,提供了一套供人们
36、在Web上搜索和检索图像和视频的有效工具。 另外还有许多类似的系统,例如加利福尼亚大学Santa Barbara分校的Netra、伊利诺依大学的MARS、CMU的Infomedia以及哥伦比亚大学的VideoQ等。 3.2 现代检索技术3.2.1 全文检索技术3.2.2 超文本检索技术3.2.3 多媒体检索技术3.2.4 分布式信息检索技术3.2.5 跨语言信息检索技术3.2.4 分布式信息检索技术 产生背景 分布式信息检索原理 分布式检索处理技术 分布式信息检索模式 随着计算机技术的发展,继从单机处理到C/S(客户端/服务器)双层结构的发展之后,计算机应用体系结构正在经历从C/S双层结构到分
37、布式的多层结构方向发展.这种分布式的多层结构是在C/S结构和分布式技术的基础上,将业务逻辑从客户端分离出来移到一个或多个中间层,通过对中间层的有效组织和管理,采用负载平衡、动态伸缩和标准接口等技术,将客户机与服务器高效地组合在一起。目前,这种分布式多层结构已经广泛地应用在数据库系统的研究与开发中,在网络环境下应用分布式技术解决海量信息的检索也已经成为人们研究的重点。 产生背景网络环境中传统的搜索引擎采用集中式的检索系统与检索方法,这种搜索引擎都有自己的信息库,用户利用它进行信息搜索时也只限于在它自己的信息库的范围内进行搜索,虽然有些搜索引擎提供其他搜索引擎的链接,但这并不能解决用户同时对网络上
38、的多种分布式信息的检索和利用问题。集中式(centralized index)检索系统有着很多的局限性。首先,网络信息量呈指数增长,集中式的检索方法不能适应信息急剧增长的需要;其次,虽然目前的网络搜索引擎都在努力地增加对网络信息的覆盖率,但要想覆盖整个网络上的信息,在目前几乎是不可能的;最后,检索系统之间通常没有分工协作,各自独立搜索和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。 分布式信息检索原理分布式信息检索主要指在分布式的环境中,利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程。分布式环境指的是信息资源在物理上分布于各地,小到一个办公系统,大到跨越国家。这些分布式的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统。但是,不同的信息资源具有不同的数据库结构,即分布式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备租赁合同2026年保密合作协议
- 2026年电影制作投资合同协议
- 2026年美食探店剪辑合作合同
- 网络维护合同协议2026年服务承诺条款
- 广告合同争议解决方式协议
- 2026年艺术表演合作合同
- 2026年保险合同保险合同通知协议
- 2026年物流仓储行业标准化合同协议
- 2026年火车站垃圾清运协议合同
- 2026年古董赠与合同协议
- 小型手持式采茶机
- 太空交通管理规则-洞察及研究
- 化学反应原理大题集训(含解析)-2026届高中化学一轮复习讲义
- 腹腔镜手术应用推广方案与技术指南
- 北京市西城区中学课余训练:现状洞察与发展探究
- 规划展馆改造项目方案(3篇)
- 玉米dh育种技术
- 头孢曲松钠过敏的观察与急救
- 幼儿园后勤人员培训会议记录2025
- 广告材料供货方案(3篇)
- 四上语文《快乐读书吧》作品导读《世界经典神话与传说》
评论
0/150
提交评论