计算机检索基础_第1页
计算机检索基础_第2页
计算机检索基础_第3页
计算机检索基础_第4页
计算机检索基础_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 文献信息资源是知识的宝库 文献检索是开启知识宝库的钥匙 美国化学文摘封面上醒目的印着: Key To The Worlds Chemical Literature 自称是“打开世界化学文献的钥匙” 形象地说明文献检索的“钥匙”作用 计算机信息检索基础 医学文献检索与利用 第三讲郑州大学图书馆王槐深一、计算机信息检索概述(一)概念 计算机信息检索,即利用计算机存贮和检索信息的过程。 信息存贮是将大量的文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。 信息检索是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的

2、数据按要求的格式输出。(二)产生与发展 计算机信息检索始于1954年,由美国海军军械中心(NOTS)图书馆在IBM-701型计算机上建立了世界上第一个计算机检索系统。我国自1975年开始从国外引进磁带式数据库,开展计算机信息检索服务,次年中国科学院计算机所研制成第一个国产计算机信息检索系统QJ-111并于1981年投入使用。计算机信息检索在世界范围内的发展大致经历了以下五个阶段:脱机检索阶段(19541964年) 由于受计算机技术的限制,存贮在磁带上的文献数据,只能按顺序查找有关信息,速度很慢,用户不直接参与检索,不介入与机器的对话,由专职检索人员把许多用户的检索课题汇总,批处理检索提问要求,

3、然后将检索结果提供给用户。所以称“脱机检索”。 优点:批处理可同时进行多项检索,适用于过期文献的回溯检索和新文献的定题检索。 缺点:用户不能参与检索过程,无法适时地修改检索策略,使检准率降低; 用户不能及时浏览结果以及无法快速地获取结果。联机检索阶段(19651972年) 随着计算机处理能力的提高和大容量存贮介质的出现,计算机信息检索进入联机检索阶段。在此时期,单台贮存信息的主机可通过通信线路连接多个计算机检索终端,利用分时技术,多个计算机用户终端可以同时与主机“对话”,实现联机信息检索。但由于计算机网络主要是通过电话线路连接,联机检索受到地域的限制,主要是一个国家内部的联机检索。国际联机检索

4、阶段(1973年至今): 通信卫星技术的发展与应用,使联机检索不再受地区、国界的限制,实现跨国界的远距离联机检索,即国际联机检索。用户可以通过国际联机检索终端,与远隔重洋的联机检索系统直接进行人机对话,实时、在线的直接检索其拥有的各种数据库,获取所需的文献信息。 随着Internet(国际互联网)的出现与普及,传统的相对独立的联机检索系统纷纷作为Internet网络中的一个节点,只要进入Internet网络并取得一定权限,就可以随意地从一个联机检索系统方便地连接到另一个联机检索系统,在更大的范围内检索获取所需要的信息资源。联机检索的优点:检索速度快,检索范围广,检索途径多,检索精度高,检索内容

5、新,检索辅助功能完善。 联机检索的缺点: 传统联机检索系统的检索指令复杂,多由掌握检索技术、熟悉命令的有经验的人员来操作,检索费用较高,普通用户难以负担。Internet信息检索的冲击: 带来传统联机检索系统的改革,如今,以Web为界面的联机检索系统,秉承了原来检索系统的优点,又兼具用户界面友好、操作简单灵活、链接便利等优势。光盘检索阶段(1985年至今): 1985年CD-ROM检索系统的研制成功,为信息处理、存贮和检索展示了新的前景。 光盘检索的优点: 光盘数据库存储容量大,便于长期保存,检索环境要求低,利用微机就能在本地进行信息检索,而且不受时间、通信费用、打印篇数的限制,检索界面友好。

6、光盘检索的缺点: 由于数据更新只能定期进行,所以检索时效较差。网络检索阶段(1990年至今): Internet于20世纪80年代中期诞生于美国,直到90年代初期World Wide Web(WWW)的出现才使其真正风靡起来。由于WWW良好的界面大大简化了Internet的操作难度,同时微软“视窗操作系统”的巨大贡献,使Internet从高不可攀的专业网络进入千家万户。促使人类社会信息的存贮、传递、交流和利用产生了革命性的变化。 网络检索的特点是:信息检索范围广,信息量大,信息类型多样,时效性强,但是通过搜索引擎检索的结果往往是检准率较低,信息冗余大。 二、计算机信息检索系统的构成二、计算机信

7、息检索系统的构成 计算机信息检索系统通常由计算机硬件、检索软件、数据库和作用于系统的专业人员组成。其中数据库是计算机信息检索系统的核心。数据库的质量直接影响计算机信息检索系统的功能和效率。对数据库的了解是掌握计算机信息检索技术的前提。(一)数据库的概念与结构 数据库是指在计算机存贮设备上按一定方式存贮的相互关联的文献信息集合,它可以由一个或多个文档(File)组成。 文献信息数据库主要由文档、记录、字段三个层次构成。 1、文档(File) 文档是数据库中若干记录的集合。许多大型数据库往往包含数以万计的记录,为了方便用户检索,常被分成若干个文档。例如:中国生物医学文献数据库(CBMdisc)按收

8、录文献的年限将数据库划分为若干文档。截止2003年,CBMdisc共分为6个文档。2、记录(Record) 记录是由若干字段组成的文献单元,是数据库中的基本文献单元。一条记录在数据库中记录着一篇文献的相关信息。 例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其他类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。3、字段(Field) 字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描述的结果。 例如:题名、作者、作者地址、出版年、来源(出处)、主题词、文摘等字段是书目数据库中必备字段。

9、为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符为TI,作者字段的标识符为AU等。 字段标识符具有检索的功能,参与编制检索式,因此,对它要有所了解和掌握。(二)数据库的类型 依据数据库中存贮的信息内容可将其分为以下三种类型:1、文献型数据库: 文献型数据库是指以各种文献信息为存贮内容的数据库。 书目数据库 全文数据库 图像数据库 多媒体数据库 文献型数据库具有结构复杂、数据量大、制作要求高、使用广泛等特点,是人们获取文献信息的主要信息源。2、数值型数据库: 数值型数据库是以数值方式表示的数据为存贮内容的数据库。包括各种统计数据、科学实验

10、数据、科学测量数据等。例如,医学上使用的化学制剂或药物的各种理化参数、人体生理上的各种数值等均可建立数值型数据库。 这类数据库除存贮数值之外,还存贮对应的运算公式和规则, 系统按用户的要求作某些必要的计算,为用户提供能够直接使用的数值型信息。3、事实型数据库: 事实型数据库是以事物发展过程中产生的事实性信息为存贮内容的数据库。如自然资源数据库、人口数据库、名人数据库和机构名录数据库等。 这类数据库除存贮基本事实数据外,也存贮数学运算和逻辑运算规则,能同时提供文本信息和数值数据。用户只要通过人物、机构或事物名称及有关事项进行检索,就可获得特定的事实或数值信息。三、计算机信息检索技术三、计算机信息

11、检索技术 计算机信息检索技术,是指由计算机将输入的检索表达式(用户检索提问)与系统中存储的文献信息特征标识及其逻辑组配关系进行类比、匹配的运算方式与规则。 常用的文本信息检索技术有布尔逻辑检索、位置检索、截词检索、限制检索等, 1、布尔逻辑检索技术 是利用布尔逻辑运算符来表达检索词之间的逻辑运算关系的检索方法。常用的有逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)三种类型。 逻辑与:用于表达概念相交关系的一种组配。检索式写成A AND B,表示检索的文献中必须同时包含检索词A和检索词B的文献才是命中文献。其作用是对检索词加以限定,用于缩小检索范围,减少命中文献量,提高查准率。 逻辑或:用于

12、表达概念并列关系的一种组配。检索式写成A OR B,表示检索的文献中包含检索词A或包含检索词B,或者同时包含检索词A或检索词B的文献为命中文献。其作用是扩大检索范围,增加命中文献量,提高查全率。逻辑非:用于表达概念排斥关系的一种组配。检索式写成A NOT B,表示检索的文献中包含检索词A同时不包含检索词B的文献为命中文献。其作用也是缩小检索范围,提高查准率。逻辑非运算在实际应用中要慎用,因其将文献中涉及检索词A,同时也涉及检索词B的文献也排斥在外。 逻辑运算符的运算优先级: 为了表达复杂的逻辑关系,在一个检索式中可同时使用多个逻辑运算符,构成一个复合逻辑检索式。为了控制最终的检索结果,规定了逻

13、辑运算符的运算次序,即运算优先级。依次为:括号的运算优级最高(绝大多数检索系统优先处理括号内的检索式)、NOT次之、AND再次之、OR最低,即( )NOTANDOR。例如: (心脏瓣膜疾病OR心力衰竭)AND手术并发症 (2)位置算符检索 位置算符 是指表示词与词之间位置关系的算符,又称邻近度算符。常用位置算符有 near、with、(nW)、(W)等 。 作用:是限制词与词之间的位置关系,弥补布尔逻辑算符只是定性规定检索词的范围,更加明确检索词之间的逻辑关系,缩小检索范围,提高检索的查准率。 A with B , 表示要求检索词A和B必须同时出现在同一字段中。 A (nW) B ,表示A和B

14、两词相隔n个单词且前后次序不变;n=0时格式为A(W)B。 例如:例如: A near BA near B ,表示要求检索词A和B必须同时出现在同一句子中,并且两词出现的前后顺序不限。(3)截词算符 检索 是指在检索词的合适位置进行截断,保留相同的部分,用相应的截词算符代替可变化部分进行检索 。常用的截词算符(又称通配符)有“?”和“*”两种,也有采用其他符号表示的。 作用: 主要是解决一个检索词的单复数、词性的词尾变化,词干相同而词尾不同以及英美词汇拼写差异的问题等。 按截断的字符数量可分为有限截断和无限截断两种: 无限截断是指检索词与被检索词实现部分一致,被截断部分的字符不限。常用“*”表

15、示(*=0-n个字母)。 有限截断是指检索词与被检索词只能在指定的位置可以不一致。常用“?”表示(?=0-1个字母)。例如,输入leukemi?可同时检出leukemia、leukemic、leukemid等词的记录;输入Wom?n,可同时检出Woman和women这两个词的记录。 按照截词的位置: 无限截断可分为左截断(后方一致)、右截断(前方一致)、左右截断(中间一致)、中间截断(前后一致)等四种方式。不同的检索系统有不同的截词方式,但以右截断和中间截断比较常见。 右截断是指检索词与被检索词的词干相同而后缀不同。例如,输入 c compute*,可同时检索出compute、computer

16、、computerized、computerization等词的记录。 中间截断是指检索词与被检索词的词头和词尾相同而中间部分不同。 例如,输入leuk*ic可同时检索出leukemic、leukamic、leukemogenic等词的记录。 截词检索是隐含的布尔“逻辑或”(OR)检索,其功能是减少检索词的输入量、简化检索程序、扩大检索范围、防止漏检、提高查全率。在西方语言信息检索系统中得到广泛应用。 (4)限制符检索 限制符检索 是将检索词或检索式限制在数据库记录中出现的字段位置。又称为“字段检索”。 作用:是缩小检索范围,提高查准率。 常用限制符有“in”和“=”。例如,gene in T

17、I,表示检索题名中含有gene一词的文献。其中“TI”是题名字段标识符。又如,py=2002,表示检索2002年发表的文献。其中“py”是出版年字段标识符。一般情况下,数据库中记录的所有字段均可做限定字段检索。在进行字段限制检索时,应参阅有关数据库的使用说明,避免产生误检。四、检索策略的编制与调整四、检索策略的编制与调整 检索策略 是指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。由于计算机信息检索是由计算机程序来控制和执行检索匹配操作,检索者与具体的检索过程是分离的,因此,事前制定适宜的检索策略,是成功检索的关键。 广义的检索策略包括信息需求分析、选择数据库、确定检索途

18、径和标识、编制检索提问表达式并准备多种检索方案和步骤等。 狭义的检索策略主要是确定检索词并根据需要用各种运算符一起编制检索表达式的构思。 检索策略编制流程图检索策略编制流程图信息需求分析选择数据库概念分析换成系统检索用词拟定检索策略检索检索结果是否满意输出检索结果Yes No调整检索策略(一)信息需求分析 信息需求分析是制定检索策略的依据。信息需 求按范围和程度的不同,大体可分成三种类型: 普查型:需要全面收集有关某一主题的文献资料。具有普查、回溯的特点,要求尽可能高的查全率。 攻关型:需要收集有关某一主题的某一特定方面的文献资料,不强调查得文献的数量,但需要查得的文献具有较强的专指性。 探索

19、型:需要了解和掌握某一领域的最新研究动向或研究成果,要求文献具有新颖性和及时性,而对查全率和查准率的要求不高。 在明确课题对查新、查全和查准要求的同时 ,还要明确对信息形式和内容的需求。 形式需求:包括所需文献的类型、数量、语种、年限等。 内容需求:包括检索课题涉及的学科范围、主题内容和有关主题词、分类号等,以及它们之间的逻辑关系。 在上述基础上,确定检索主题,形成若干能代表信息需求而且具有检索意义的主题概念。为制定检索策略做好准备。(二)选择数据库 选择数据库时要充分考虑其是否与信息需求结合紧密、学科专业是否对口、信息覆盖面是否广泛、揭示信息内容是否及时、检索功能是否完善等方面的问题。 选择

20、合适的数据库,除事先对各数据库的来源、主题内容结构作充分的调查研究外,还需要通过对各数据库实际检索结果的对比评价,选择出对某一课题最为合适的数据库。(三)编制检索策略 编制检索策略包括选择检索词和编制检索式两方面的内容。 1、选择检索词:检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得恰当与否,会直接影响着检索效果。 (1)选择检索词要遵循以下两个原则: 一是根据检索课题所涉及的学科专业和技术内容选词。 二是要使用主题词表选用规范化的词汇作为检索词。 (2)处理好检索词切题性和匹配性的关系: 选择较上位的概念词作为检索词,有利于提高检索的

21、匹配性,但却降低了切题性。相反,选择较下位的概念词,会提高切题性,但却降低了匹配性。因此,要强调哪一方,需要根据信息需求的类型和检索的具体情况,合理利用主题词的上、下位的关系,正确选择检索词。 2、编制检索表达式 检索表达式是计算机信息检索的依据。编制检索表达式主要是使用布尔逻辑算符、位置算符、截词算符、限制符等,将检索词进行组配,确定检索词之间的概念关系或位置关系,准确地表达课题需求的内容,以保证和提高检索的查全率和查准率。 常用的文本信息检索表达式编制方法有以下三种:(1)概念积木法 概念积木法的含义是:把检索课题剖析成若干个不同的概念面,先分别对这几个概念面进行检索,并在每个概念面中尽可

22、能全和多地列举相关词、同义词、近义词,并用逻辑或(OR)连接成子检索式, 然后再用逻辑与(AND)把所有子检索式连接起来,构成一个总检索式。 这种方法能提供比较明确的检索逻辑过程,容易理解和执行,还可部分或全部地用作保留检索。适用于较复杂的检索课题。(2)引文珠形增长法 引文珠形增长法的含义是:从已知的关于检索课题的少数几个专指词开始检索,以便至少检出一篇命中文献或一条相关信息,然后浏览检出的文献或信息条目,从中选出一些新的相关检索词,补充到检索式中去,重新进行检索,获得新的命中结果。这样反复进行,直到找不到其他适合包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果。 这种方法具有很强的人机交互性,可以使检索式以比较生动的方式生成并得到不断丰富。(3)逐次分馏法(或逐步缩小法) 这种方法的含义是:先确定一个相当大的、范围较广的初始检索概念进行检索,然后提高检索的专指度,得到一个较小的命中结果,继续提高检索式的专指度,逐步缩小命中结果,直到得到满意的命中结果。 逐次分馏法的特点是检索操作比较主动,漏检较少。(四)实施与调整检索策略 实施检索策略:即将编制好的检索提问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论