版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 绪论,授课教师:张起荣,信息存储与检索,本章目录,第一节 信息检索基本理论 第二节 信息检索系统 第三节 信息检索研究,信息存储与检索,第一节 信息检索基本理论,1.1.3 信息检索的类型,3,信息存储与检索,1.1.1 信息检索的概念,“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯(C.W.Mooers)提出,从1961年开始在学术界和实践领域中得到广泛的应用1。信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过
2、程。对信息项的表示和组织应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。,信息存储与检索,1.1.1 信息检索的概念,在万维网环境中考察以下假设的用户信息需求: 找到包含能满足以下两个条件的有关某一学院网球队相关信息的所有网页(即文献): (1)该网球队隶属于美国的一所大学; (2)该网球队参加过美国大学生体育协会(NCAA)举办的网球锦标赛。 为了保证查找结果的相关性,检索到的网页必须包括该网球队在过去3年里在全国比赛中的名次及其教练的电子邮箱,地址或电话号码等信息。,信息存储与检索,1.1.1 信息检索的概念,在目前的Web搜索
3、引擎界面中,人们不可能直接采用这种对用户信息需求进行完整描述的方式来检索信息,用户必须首先将这些信息需求转换为搜索引擎(或IR系统)能够处理的查询式来查询。 这种转换以其最普遍的形式生成一组关键词(或索引词),而这些关键词能够对用户信息需求的描述进行概述。,信息存储与检索,1.1.1 信息检索的概念,随着Internet的形成、发展和普及,信息检索才被越来越多的人所知。就信息检索这个概念而言,不同的使用者对它有着不同的理解和解释,大体可以分为两类: 第一类是广义的。对于专门从事信息检索及其系统的研究、开发和设计的少数人来说,“信息检索”的完整含义是“信息存储与检索”。也就是说,把“信息检索”当
4、做“信息存储与检索”的简称。这里所谓的信息检索,包括存储和检索两个过程。信息存储是指将有用信息按照一定的方式组织和存放起来;信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。因此,对于广义的信息检索来说,存储和检索缺一不可。本书采取信息检索的广义用法,这就要求不仅要知道如何检索,也要知道如何存储,因为如何存储决定了如何检索。,信息存储与检索,1.1.1 信息检索的概念,第二类是狭义的。对于普通用户来说,在大多数情况下,“信息检索”可以用英文Information Searching来表达,其准确的含义是“信息查询”或“信息搜索”。也就是说,所谓信息检索,是指按照一定的方式从
5、现有的信息集合或数据库中,找出并提取所需要的信息。可见,狭义的信息检索仅指检索这一个过程,而不关心信息是如何存储的。,信息存储与检索,1.1.2 信息检索的原理,信息检索的基本原理可以用下图表示,信息存储与检索,1.1.2 信息检索的原理,从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。,信息存储与检索,从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此
6、形成了信息检索的一致性匹配作用机理,如图1-2所示。,1.1.2 信息检索的原理,信息检索的一致性匹配作用机理包括5个机理: (1)提取机理 (2)表示机理 (3)比较机理 (4)判断机理 (5)选择机理,信息存储与检索,(1)提取机理。从现实的信息和现实的需求中提取出能够揭示特定信息和特定需求的语法特征和语义特征。这些特征可以归纳成内容(内部)特征和形式(外部)特征,前者包括特定信息和特定需求的类别(如学科、专业)、主题等;后者包括信息和需求的名称(提名)、作者(责任者)、时间、编号等。 (2)表示机理。用适当的符号表示信息和需求的各种特征。符号是广义的,可以是文字、数字和符号,也可以是图形
7、、图像、视频和音频。比如,用分类号表示信息和需求的类别,用关键字表示信息和需求的主题。,1.1.2 信息检索的原理,信息存储与检索,(3)比较机理。在检索项类型(如提名、作者、分类、关键词)相同的情况下,对代表特定信息的特征符号与代表特定需求符号进行对比。比较的实质是相似性比较或一致性比较,即包括完全一致、部分一致和不一致,也包括等于、不等于、大于、小于。比如,对于两个词或词组来说,它们可以是完全一致、前方一致、后方一致、中间一致;对于两个编号来说,它们可以是相等、大于、小于。 (4)判断机理。在比较的基础上,对信息是否符合需求以及符合的程度加以判断。两者相符合的信息被检索出来(命中),不相符
8、合的信息被拒绝(不命中)。从符合程度来看,可以是完全符合,也可以是部分符合。在部分符合中,还可以进一步细化。原则上,凡是符合需求的,尽管它们符合的程度有所不同。,1.1.2 信息检索的原理,信息存储与检索,(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值和(加权检索),1.1.2 信息检索的原理,(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值和(加权检索) 、时间(新颖性)、重要作者或单位等。 信息检索
9、的一致性匹配作用机理的实质是简化现实的信息和现实的需求之间的匹配。把内容与形式都非常复杂的信息简化成信息特征的符号化表示,再把内容与形式都非常复杂的需求也简化成需求特征的符号化表示,将这两个非常简单的特征符号化表示进行比较、判断和选择,从而变复杂为简单,化模糊为清晰,大大提高了匹配效率。然而,这种简化也会带来一些弊病,造成误检和漏检。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分 (1)文献检索 。文献检索的对象是文献。 例如:检索有关“太阳能电池”方面的文献。这里所说的“文献”是指文献单元,即包含一个完整内容的单元,如一篇论文、一本图书、一份报告等,而忽略其物
10、理载体(如一次文献、二次文献、三次文献)等。进一步说,这里的“文献”可以是完整的原始文献,也可以是原始文献的替代品,如一条目录款目、一条文献款目或一条索引款目。归根结底,文献检索的目标是检索出原始文献或原始文献的替代品。供文献检索使用的数据库是文献数据库,包括目录、文献、索引、全文等数据库。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分 (1)文献检索 。文献检索的对象是文献。 按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。 书目检索,是指检索对象为原始文献的替代品,即文献线索,而不是原始文献本身,要想阅读原始文献,还必须依据文献线索去进一步
11、找到和获取原始文献。书目检索通常借助于文献数据库、索引数据库、目录数据库来完成。书目检索的首要目标是检索出包含用户所需信息的书目记录,其数据库则由被存储文献的书目记录构成。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分 (1)文献检索 。文献检索的对象是文献。 按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。 全文检索,是指检索对象为原始文献本身,主要是对全文中的字、词、句、段等进行检索,检索出来的结果就是原始文献,进而可以直接阅读和使用原始文献。全文检索通常借助于全文数据库来完成,其首要目标是找出能满足用户所需信息的某个实际文本。全文数据库包
12、含文献的实际文本,最终的检索结果也是实际文本。全文检索的完整含义不限于检索结果是全文,而是使用全文中的各种元素(如字、词、句、段)进行检索。因此,如果只使用题名、作者、关键词、摘要等进行检索,而不是使用全文中的各种元素进行检索,即使检索结果同样是全文,也不是严格意义上的全文检索。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分 (2)数值检索 (3)事实检索 (二)按照计算机检索技术划分 (1)脱机检索(Off-line Retrieval) (2)联机检索(On-line Retrieval) (3)光盘检索(CD-ROM Retrieval) (4)网络检索(
13、Internet Retrieval),信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分 (2)数值检索 (3)事实检索 (二)按照计算机检索技术划分 (1)脱机检索(Off-line Retrieval) (2)联机检索(On-line Retrieval) (3)光盘检索(CD-ROM Retrieval) (4)网络检索(Internet Retrieval),信息存储与检索,第二节 信息检索系统,1.2.3 信息检索系统的物理结构,3,信息存储与检索,1.2.1 信息检索系统的概念,信息检索过程的实现要依靠特定的系统,这个系统就是信息检索系统。系统是由两个或
14、两个以上既相互区别又互相影响的各种要素构成的统一整体,信息检索系统的构成包括六个要素: (1)目标 (2)功能 (3)资源 (4)设备 (5)方法 (6)人员,信息存储与检索,1.2.1 信息检索系统的概念,由此可见,信息检索系统由若干个相互作用的部分构成,各部分的功能互异,设计的目的也各不相同,但它们之间相互联系,共同实现系统的目标。狭义地讲,这个目标就是检索信息;广义地讲,则是提升用户的知识水平。通常认为,信息检索系统的任务是告知用户他所需要的信息在哪里。也就是说,信息检索系统并不告诉用户他所询问的主题(即不改变用户的知识结构),它只是告诉用户这一主题是否存在于数据库中,相关的文献都存在哪
15、里。,信息存储与检索,1.2.2 信息检索系统的类型,(1)书本式检索系统。 (2)卡片式检索系统。 (3)机械式检索系统。 (4)缩微式检索系统。 (5)计算机检索系统。 (6)网络检索系统。,信息存储与检索,1.2.3 信息检索系统的物理结构,(1)联机检索系统的物理结构 所谓联机检索,是指用户利用终端设备,通过通信网络或通信线路与分布在世界各地的检索系统中心的中央计算机连接,通过人机对话的方式,运用特定的检索指令和检索策略,访问中央数据库,从中检索出所需信息的过程。 联机检索系统也称国际联机检索系统,通常采用相对封闭的客户机/服务器模式,属于典型的主从式结构。如图1-3所示,联机检索系统
16、通常由联机检索中心、通信设施、检索终端3个主要部分组成。,信息存储与检索,1.2.3 信息检索系统的物理结构,信息存储与检索,1.2.3 信息检索系统的物理结构,联机检索系统的特点是: 检索范围广,数据库数量多,几乎涉及到各个学科领域,世界上公开出版发行文献的90%都可以通过几种主要的联机检索系统查到。 检索内容新,数据库更新及时,基本上是同步,能够检索到最新信息。 检索功能强,一个联机检索系统中的所有数据库通常使用统一的检索命令,检索途径多、检索效率高、检索质量好。,信息存储与检索,1.2.3 信息检索系统的物理结构,数据库质量高,都是经过严格加工、处理和组织的,通常是各个领域中核心的和权威
17、的数据库。 检索较复杂,专业性太强,一般用户不容易掌握检索指令、规则和方法,通常依赖于专业检索人员。 检索费用高,要求熟练掌握检索技巧和经验,普通用户难以承受。 人机界面比较单一、呆板。,信息存储与检索,1.2.3 信息检索系统的物理结构,目前,随着光盘检索和网络检索的兴起,联机检索系统的最终用户数量减少,大部分最终用户都委托专业检索人员进行代理检索,但这种检索方式和系统仍然存在,特别是对于科学研究更为重要。比较著名的联机检索系统有Dialog、ORBIT、BRS、ESA-IRS、STN、MEDLINE、DataStar、OCLC等。,信息存储与检索,1.2.3 信息检索系统的物理结构,(2)
18、光盘检索系统的物理结构 光盘检索系统有两种类型:单机光盘检索系统和光盘网络检索系统。 单机光盘检索系统比较简单,通常由计算机、光盘驱动器、光盘数据库等硬件设备组成,自成一体,系统结构简单,数据量少,利用率低,一次只能供一个用户检索,通常供单用户、单机使用。,信息存储与检索,1.2.3 信息检索系统的物理结构,光盘网络检索系统可以分为面向特定范围对象的局域网的系统和依托Internet的面向所有用户开放的系统,其实质是将光盘资源上网,允许局域网、广域网甚至Internet上的众多用户在同一时间、不同地点同时访问一个或多个光盘数据库。其局域网系统的物理结构如图1-4所示。,信息存储与检索,1.2.
19、3 信息检索系统的物理结构,光盘检索系统的特点是: 方便快捷,不受通信线路和网络等因素的影响和限制,可以随时启动使用。 检索费用低,一次购买、多次使用,不涉及远程通信,分摊成本低,用户心理上没有费用的压力。 操作界面友好,帮助信息、功能键、窗口式对话框、鼠标控制等,简单易学,直接面向最终用户,不需要对用户进行专门的培训。,信息存储与检索,1.2.3 信息检索系统的物理结构,输出灵活,可以有拷盘、打印、套录建库以及网上传输等多种输出形式。 融多种媒体为一身,结合激光技术、计算机技术和多媒体技术,将文字、声音、图像、视频等多种媒体信息存储在一起。 数据更新慢,周期较长,时效性差。 数据量有限,受到
20、光盘容量的限制,通常局限于专业领域,范围不够广泛。,信息存储与检索,1.2.3 信息检索系统的物理结构,(3)网络检索系统的物理结构,信息存储与检索,1.2.3 信息检索系统的物理结构,信息存储与检索,1.2.3 信息检索系统的物理结构,信息存储与检索,1.2.3 信息检索系统的物理结构,信息存储与检索,1.2.3 信息检索系统的物理结构,网络检索系统的特点是: 检索空间无限,检索范围覆盖了全球性、开放性Internet所能延伸到的世界各地,用户不必知道某种资源的具体地址。 检索内容极其丰富,包括网上所有领域、各种类型、各种媒体(文本、图像、声音、视频、动画等)的信息资源,如Web、FTP、T
21、elnet、Usenet、Gopher等。 超文本浏览,检索结果是完全可以直接阅读的Web页面,可以非线性地随时从一个页面跳到另一个页面。,信息存储与检索,1.2.3 信息检索系统的物理结构,界面最友好,屏蔽了各个局域网之间的各种物理差异(如硬件系统、软件平台、地理位置、存储方式、通信协议等),极大地提高了系统的透明度,用户使用通用的图形窗口检索界面,即可访问和检索各种异构系统的数据库,在通过Web浏览器访问过程中,无需关心一些技术细节。 操作最简便,良好的交互式作业、多种导航和编辑功能、及时获得在线帮助和指导以及符合大多数用户检索习惯的用户接口使得检索简单易行,不必经过太多的培训即可操作。 检索效率不高,网络信息缺乏规范和统一管理,动态性强,重复率、冗余度高,无用信息较多,查准率差。,信息存储与检索,1.2.4 信息检索系统的逻辑结构,系统的逻辑结构主要是指该系统所包括的子系统或功能模块及其相互之间的逻辑关系。不管信息检索系统的物理结构如何,它们的逻
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓储管理租赁合同(2026年)
- 现场人员疏散逃生演练方案
- 农贸市场快检室运行管理制度
- 苹果树腐烂病春季防治技术标准
- 经络疏通技术操作规范
- 葡萄霜霉病药剂防治操作规范
- 果蔬采摘分级包装标准作业指引
- 更年期女性激素平衡膳食指南
- 肉牛犊牛早期断奶管理技术标准
- 绿色有机水稻栽培技术规程
- TCALC 003-2023 手术室患者人文关怀管理规范
- 银行保安服务 投标方案(技术标)
- DZ∕T 0368-2021 岩矿石标本物性测量技术规程(正式版)
- 项目投资的风险分析课件
- 伍德密封强度计算
- 幼儿园一日常规安全培训
- 01K403 风机盘管安装
- 流行病学试题-流行病学题库及答案
- YS/T 967-2014电池级磷酸二氢锂
- LY/T 2372-2014活动地板基材用石膏纤维板
- GB/T 12586-2003橡胶或塑料涂覆织物耐屈挠破坏性的测定
评论
0/150
提交评论