计算机检索基础知识_第1页
计算机检索基础知识_第2页
计算机检索基础知识_第3页
计算机检索基础知识_第4页
计算机检索基础知识_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,计算机检索基础知识,东北大学图书馆,2,一、计算机检索的概念,计算机检索就是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示、下载和打印的过程。广义的计算机信息检索包括两个过程。 (1)对原始信息加工处理并存贮在各种信息载体上 一是对待加工的信息进行著录,即按一定的规则进行描述,如文献信息的名称、责任者、语种、提要等,以便用户识别信息。二是对待加工的信息进行标引,利用主题词表、分类表等工具,标识出文献信息的内容特征,形成从内容角度查找文献信息的检索点。 (2)信息查询过程 就是用户对检索需求加以分析,明

2、确检索范围,弄清主题概念,然后用系统语言或自然语言表示主题概念,形成检索标识及检索策略,输入计算机进行查找。这个过程实际上是计算机自动将用户的检索表达与数据库中信息标识进行比较匹配的过程。,3,二、计算机信息检索的分类,1、按内容和功能划分 参考型数据库 以文档的形式组织起来,提供文献的题录、文摘等书目信息。如:OCLC、CSA、EI 全文型数据库 存储文献全文或其中的主要部分的源数据库。KLUWER、ACM、中国学术期刊网 事实型数据库 供查询某一客体的基本事实或简况,包括名录、传记等数据库 数值型数据库 提供各类数值型数据 图象数据库 以图形、图象为记录单位,4,2.根据检索方式分:,(1

3、)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)网络检索,5,1、脱机检索,是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委托性检索。,6,联机检索,联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到及时修改。 缺点:检索费用高。,7,3、国际联机检索,该系统是70年代出现

4、的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。 特点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。,8,.OCLC:联机计算机图书馆中心,是世界上最大的为读者提供文献信息机构。有60个数据库,提供会议录、工业通告、图书评论等信息。 DIALOG有900多个数据库,其中广泛使用的有600多个,内容涉及多个学科领域,文献存储量超过3亿篇。,9,4、光盘数据库检索,光盘 是80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、

5、图像、声音、动画等各种信息。,10,光盘检索数据库的定义和分类,定义:光盘数据库是文献信息内容记录在光盘上(一般为只读光盘),由于光盘容量大、成本低,越来越多的数据库以光盘的形式存储、制作和销售。图书馆通常使用光盘柜、光盘库、光盘塔、光盘镜像服务器等将数十、上百张光盘放在局域网上供特定的用户共享使用。 根据使用权限光盘数据库可分为单机版和网络版 单机版光盘数据库:适用于配备一台光盘驱动器的单个计算机。 网络版光盘数据库:适用于共享光盘塔(库)数据的局域网。,11,光盘检索的系统组成,单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示

6、屏、打印机等 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器,12,5、网络检索,NFSnet(美国国家科学基金会网)于1990年彻底取代了美国国防部的计算机实验网ARPANET而成为internet的主干网,标志互联网时代的真正到来。进入互联网时代,不但计算机及软件技术、数字化技术、信息存贮技术、卫星通信和网络通信技术有了惊人的发展,而且超文本技术、WWW技术、网络浏览等技术为信息的存贮、传播、检索提供了极大的便利。各类文献信息数据库纷纷进入通信网络,众多的局域网、城域网、广域网通过万维网互联,网络上的任何一个终端都可联机检索所有数据库的数据,使信息资源共享得以

7、实现。,13,这个阶段文献信息数据库不论从种类还是规模上都远远超过了以往各个阶段,全文数据库、多媒体数据库更是其中的佼佼者;文献信息检索不再是单位内部联机检索,价格昂贵的国际联机检索,而是通过各个接入网、交换网检索互联网各结点上的服务器的各类信息。,14,15,16,17,18,19,20,21,三、计算机信息检索的服务方式,计算机检索系统按其服务功能可分为回溯检索、定题检索、人机对话和联机订购等服务方式。 1、回溯检索(Retrospective Searching,RS) 回溯检索服务是指追溯查找过去的信息,帮助信息用户查找过去几年甚至几十年的文献信息,使用户一次检索就可以全面了解某一课题

8、在某一段时间中的发展情况。回溯检索服务适合申请专利、科研课题立项、科研成果鉴定时的查新,以及撰写综述性论文和编写教材时信息的收集等。,22,2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务对于长期追踪某一领域的新颖信息很适合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实时进行的检索。用户一旦输入检索提问,计算机检索系统就可立即

9、执行,并在用户终端显示屏上输出检索结果。,23,4、联机订购 用户通过联机检索得到的结果一般都是二次文献,如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。现在多数大型检索系统都提供这项服务。如:OCLC,24,四、计算机检索表达式检索表达式,是计算机检索中用来表达用户提问的一种逻辑运算式。它由检索词和各种布尔逻辑算符、位置算符、截词符、限制符等系统允许使用的各种符号组合而成。,1、布尔逻辑算符 布尔逻辑算符的作用是把检索词连接起来,构成一个检索式的基本框架。常用的有3种。 (1)逻辑与 :用 AND 或 * 表示,25,例:air pollution AND control,26

10、,(2)逻辑或 :用OR 或 + 表示 例如: Solar OR sun,27,(3)逻辑非 :用NOT或 表示, 例如:energy NOT nuclear,28,() 用布尔逻辑算符组配检索词构成的检索表达式,逻辑算符AND、OR、NOT的运算次序,在有括号的情况下,括号内的逻辑运算先执行,在无括号的情况下,不同的检索系统中有不同的规定。用户需要事先了解检索系统的规定,避免逻辑运算次序处理不当而造成错误的检索结果,因为对同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。 cake not( strawberry and apple) Cake not strawberry and a

11、pple,29,2、位置算符 位置逻辑符的作用是对复合检索词进行加工修饰,限定词与词之间位置关系,可弥补布尔逻辑算符只是规定检索词的范围,使检索结果的查准率提高。位置算符常用的有6种。,(1)(W)算符含义为“with” 表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示 例如:communication(W)satellite 或“communication()satellite” 系统将只检索含有communication satellite 词组的记录。,30,(2)(nW)算符含义为“Word” 它允许两词间插入最多为n个其他词,

12、包括实词和系统禁用词,词序不可颠倒。 如:“COMMUNICATION(2W)SATELLITE”时,系统将只检索含有communication satellite,communication though satellite,communication in the satellite,31,(3)(N)算符含义为“Near” 表示两个检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。 (4)(nN)算符是(N)算符的变形不同之处为允许两词间插入最多为n个其他词包括实词和系统禁用词,且两词的词序可以颠倒,32,举例说明,检索策略为: “COTTON(2N)P

13、ROCESSING”时, 凡含有cotton processing,processing of cotton和processing of Egyptian cotton的文献记录都算命中。,33,(5)(F)算符含义为“Field” 这个算符表示其两侧的检索词必须在同一字段(文献著录的基本单元,反映文献外部特征或内容特征的某一个项目,如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。 如:检索策略:POLLUTION(F)CONTROL 可查出control and management of industrial pollution一检索词在同一题目字段中。,34,(6)(S

14、)算符含义为“Sentence” 这个算符表示其两侧的检索词必须在同一句子(子字段)中出现,两词的词序可以颠倒。 如:检索策略:COMMUNICATION(S)SATELLITE 将检出含有communication satellite和satellite communication词组的记录。,35,3、截词算符,它是使计算机保留检索词的相同词干部分,允许检索词可有一定范围的变化。 截词符一般有“?”、“ * ”(不同数据库有不同的截词符) (1)按截断的字符数划分: 有限截词截词符“?”代表一个字符。 如:base?可检索出含有 based,bases等词的文献。 无限截词截词符“ * ”

15、代表任意个字符。 如:adsor* 可检索出含有adsorb ,adsorption,adsorbate等词的文献。,36,(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可同时检出含有有Homopolymer,Copolymer等词的文献。 中间一致:词头、词尾都可变化。如:“*Wave*”可检出含有wave,waves,wavelet,microwave,wavelength等词的文献。 中间屏蔽:允许中间的某些字母有变化。如:“Fib?s”相当于查出含有F

16、ibers和Fibres的文献,37,使用截词应注意的几个问题,一是截词符要紧接在词干后面,截词符和词干之间不能有空格。 二是避免将检索词的词干截得过短,一般应在三个字母以上。 三是截词应该使用得合理。一般不可能出现词尾变化的单词,其后不必再使用截词。 四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率,38,4、限制检索,限制检索是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如:进行字段检索、使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则不中。例如:查找微型机和个人计

17、算机方面的文章。要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab,39,又如:查找wang wei写的文章,可以输入检索式:au=wang wei(有时检索词须放在双引号内) /TI篇名;如:S control(w)pollution/ti /DE叙词;如:S aluminum compounds/de /ID标引词;如:S soap/id /AB文摘词;如:S computer/ab AU作者字段 CS著者单位字段 如:CS=

18、JIAO TONG UNIVERSITY,40,2)使用限制符,用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如:要查找1999年出版的英文或法文的微型机或个人计算机方面的期刊,则检索式为(microcomputer? OR personal computer) AND PY=1999 AND (LA=EN OR LA=FR) AND DT=Serial,41,3)、使用范围符号,如:Less than 、Greater than 、From to等,例:查找19891999年的文献,可表示为:PY=1989:1999或者PY=1989 to PY=1999 例:查找

19、2000年以来的计算机方面的文献,可表示为computer? AND Greater than 1999,42,4)、使用限制指令,限制指令可以分为:一般限制指令(Limit,它对事先生成的检索集合进行限制)、全限制指令(Limit all,它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内) 例:Limit S5/328000560000表示把先前生成的第5个检索集合限定在指定的文摘号内。 例:Limit all/de,ti表示将后续检索限定在叙词和题名字段。,43,检索词的扩展方法,1.基于同物异名的名称扩展法 1) 寻找同一事物的学名和俗名、商品名和代号等 如:贸易

20、与商业,便携式录音机和walkman, 涉外与对外,刊物与杂志, (2) 寻找同一事物的简称、全称、音译和意译等 如:外语与外国语言,world wide web、WWW、互联网与因特网、科技与科学技术,培养与教育,44,(3) 寻找同一事物名称的近义词和反义词 如:教学与培训、教育,研究与分析、比较、理论、变化,翻译与直译、意译,美术与艺术,英汉与汉英,否定与肯定 与smoking相关的词有:smoker,smokers,tobacco等; heart disease的同义词有heart trouble, heart attack. (4) 如果是英语,寻找同一事物名词的单复数、不同词性、英

21、美语的不同形式 如:cheque与check,colour和color,stock和share等,45,2.基于内容分析的概念扩展法,(1) 上位概念扩展法,分析检索对象的学科归属。如:英语与外语,蒸汽锅炉与热力机械、上海图书馆与公共图书馆,词法与语法、专利与知识产权、继承法与民法、唐诗与古诗、词法与语法等 (2)下位概念扩展法,又称概念分析的树形展开法。如: 应用文 翻译 书信 函电 公文 口译 笔译,46,(3) 隐含概念扩展法 如:“投资管理”的显见主题是“投资管理”,隐含主题还有“投资法规”、“投资法律”。,47,检索表达式,“吸烟与心脏病的关系” (smok* OR tobacco)

22、 AND (heart disease OR heart trouble OR heart attack),48,五、检索途径组配,1、高级检索 高级检索是可以同时选择多个不同检索途径、输入不同检索条件、两个检索条件的关系可用布尔逻辑算符表示的一种组合检索,49,2、二次检索 在简单检索或高级检索基础上开展的、选用新的检索词旨在进一步缩小检索范围进行逐次逼近的检索,称为二次检索。二次检索可以多次使用。,50,六、计算机信息检索的步骤,1 分析课题: (1)一般课题概念分析方法; (2)关于隐含概念的分析; (3)核心概念的选取。 2 选择数据库 原则 (1)按照课题的检索要求和目的,选择收录文献种类,专业覆盖面,年代跨度对口的数据库。(2)当需要查找最新文献信息时,选择数据更新周期短的数据库。(3)当还需要获取原文时,选取原文获取较容易的数据库。(4)要选好数据库,就要弄清所选数据库的标引特征,不同检索特点等。,51,3、确定检索途径和检索词 检索途径主要根据分析课题时确定的已知条件,以及所选定的检索工具能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论