李静药学信息资源检索(2)课件_第1页
李静药学信息资源检索(2)课件_第2页
李静药学信息资源检索(2)课件_第3页
李静药学信息资源检索(2)课件_第4页
李静药学信息资源检索(2)课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲上,计算机检索基础,第一节 计算机检索的相关知识 第二节 计算机检索的基本方法 第三节 计算机检索的策略与评价,第一节 计算机检索相关知识,计算机检索的原理 计算机检索的基本过程 计算机检索的特点 计算机检索系统的构成 计算机检索的类型,1、计算机检索的原理,计算机检索,就是利用计算机对信息进行存贮和检索,包括信息的存贮过程和信息的检索过程。 存贮过程:把分散的信息进行搜集、整理、分析、标引,以描述信息内容及特征,输入到计算机中,建立相应的数据库。 检索过程:将用户的需求转化为检索系统可识别的提问标识,并与系统内信息进行比对,将满足用户需求的信息输出给用户,2、计算机检索的基本过程,计算

2、机检索的基本过程分为三个阶段 1、提出问题阶段 2、检索阶段 3、结果输出与反馈阶段,用户需求分析与构造检索式,将用户需求与数据库进行比对,查找所需信息,对输出结果不满意,则调整检索策略与检索式,继续检索,3、计算机检索的特点,检索速度快 信息量大、内容更新快 检索点多、检出率高 能充分达到资源共享的目的 能满足多元检索的需求 服务方式灵活,4、计算机检索系统的构成,逻辑组成:指计算机信息检索系统所包含的功能模块或子系统及其相互关系。包括:数据源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、系统用户接口子系统、提问处理子系统 物理组成:主要包括硬件部分、软件部分、数据库,5、计算机

3、检索的类型,1、按检索设备及工作方式分类 脱机检索、联机检索、光盘检索、网络检索 2、按检索内容分类 文献检索、数值检索、事实检索、全文检索 3、按计算机检索提供的服务方式分类 定题检索、回溯检索、日常检索,第二节 计算机检索的基本方法,布尔逻辑检索 截词检索 位置运算符检索 限制检索,1、布尔逻辑检索,布尔逻辑检索: 是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。其常用运算符有逻辑与、逻辑或、逻辑非,逻辑与:用“AND” 或者“*”来表示相交关系 如:A and B 表示检索结果要同时含有A和B所代表的检索词,用于缩检,逻辑或:用“OR”或者“+”来

4、表示并列关系 如A OR B 表示检索结果要含有检索词A或者检索词B或者同时含有检索词A和B,用于扩检,逻辑非:用“NOT” 或者“-”来表示排斥关系 如:A NOT B 表示检索结果要含有检索词A而不能含有检索词B,用于缩检,布尔逻辑运算的次序问题 (1)在计算机检索系统中,默认从左到右依次运算; (2)在不同的检索系统中,逻辑与、逻辑或、逻辑非的运算次序不相同; (3)为明确运算次序,可以用小括号()来限定,多层括号的时候,先算内层括号,再算外层,概念:截词检索就是在检索中保留相同的部分(即词干),用相应的截词符代替可变化部分,以检索出具有相同词干部分并满足相应截词规则的一种检索方法。 截

5、词符:*为无限截词符,代表多个字符;?为有限截词符,代表一个字符,2、截词检索,截词检索的几种截断方式,1)前截断(左截断、后方一致) 如:*学生,可检索出:中学生、大学生、三好学生 等 (2)后截断(右截断、前方一致) 如:人*,可检索出:人民、人民币、人文 等 (3)前后截断(左右截断、中间一致) 如:*om*,可检索出:come、home、domo等 (4)中间截断(前后一致,一般只允许有限截断) 如:m?n,可检索出:men,man 等,3、位置运算符检索,概念:位置运算是单词之间的位置比较运算,只有当记录中单词的位置关系符合检索式的指定时候,文献才会被命中输出。单词之间的位置关系包括

6、词距和词序两个方面。词距指两个单词之间的间隔距离,词序指两个单词之间的先后顺序,1)(W) 与(nW)算符,W),即With,表示算符两侧的检索词必须紧密相连(除了空格与标点符号外),且词序不可颠倒; 如:biological(W)control相当于检索biological control CD(W)ROM相当于检索CD ROM或CD-ROM。 (nW),W的含义为Word,n为数字,如A(5W)B,表示A和B之间最多允许有5个单词间隔,A和B之间的词序不可颠倒。 如:wear(1W)materials相当于检索wear of materials,2)、(N)与( nN)算符,N),即Nea

7、r,表示算符两侧的检索词必须紧密相连(除了空格与标点符号外),且词序可以颠倒; Information(N)retrieval 可检出: information retrieval retrieval information,nN),n为数字,如A(5N)B,表示A和B之间最多允许有5个单词间隔,A和B之间的词序可以颠倒。 如:检索式environment(2N)protection 就可检索出包含 “environment protection”、 “environment of the protection ”、“environment of water protection”、“prot

8、ection of forest environment,3)、(F)算符,F)算符中的“F”的含义为“Field”,表示该算符两侧的检索词必须在同一字段(如:标题、著者等)中出现,且词序可以颠倒。 如:digital (F) computer/TI 表示在题名字段(TI)中同时出现这两个检索词的才算命中信息,4)、 (S)算符,S)算符中的“S”的含义为“Sentence”,表示该算符两侧的检索词必须在同一句子中出现,且词序可以颠倒 如:检索式High(W)strength(S)steel表示只要在同一个句子中检出含有High strength和steel形式的均为命中记录,比较上述的运算符

9、,按照限制程度的大小排序,依次为: (W)与(nW)最强 (N)与(nN)次之 (S)再次之 (F)最弱,强 弱,4、限制检索,字段限制检索 限定检索词在数据库记录中出现的字段范围的一种方法,用于缩小查找范围。 范围限制检索 主要用于出版年、记录号、专利号等字段,使用各种比较关系符来限定其与检索词的比较范围。常用比较关系有: ,=, , ,,TI(题名)、AB(摘要)、DE(主题词)、ID(标识词)、SU(主题词)、KW(关键词) AU(著者)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、JN(刊名)或JA(刊号)、LA(语

10、种)、PY(出版年)、SO(来源出版物) 注意:不同的数据库其字段代码可能不同,数据库中的字段包括,三、计算机检索的策略与检索效率评价,计算机检索的策略制定 计算机检索的效率评价,1、计算机检索的策略制定,分析检索课题 选择合适的信息数据库 检索词的选取 编制检索提问式 试检索与调整检索策略 输出检索结果,2、计算机检索的效率评价,评价检索效果的常用指标有: 查全率(Recall ratio) 查准率(Precision ratio) 漏检率(Omission ratio) 误检率(Fall-out ratio) 高查全率和查准率是人们在检索活动中通常所追求的目标,查全率是指被检出的相关文献量

11、与系统文档中实有的相关文献量之间的比率。它是衡量信息检索系统收录内容及其用户检索结果的完整程度的指标。可用下式表示: 被检出相关文献量 查全率(R)= 100% 系统中相关文献总量 漏检率,查准率是指检出的相关文献量与检出文献总量之间的比率。它是衡量信息检索系统收录内容及用户检索结果精确度的尺度。可用下式表示: 检出相关文献量 查准率(P)= 100% 检出文献总量 误检率,影响查全率的因素,所选检索词不符合检索系统所用的词表规范 检索词专指性太强 相关词数量不够 信息数据库选择不当 没有将同义词作为检索词,影响查准率的因素,检索词的专指度不够 检索词选择不规范,提高查全率的方法,1) 准确把握检索对象及目的,选择合适的数据库。 (2) 降低检索词或分类号的专指度。 (3) 更多地采用学科分类途径来扩大检索范围。 (4) 减少逻辑“与”及逻辑“非”的使用。 (5) 增加逻辑“或”及截词检索技术的使用。 (6) 不限定检索对象的文献类型、时间段、文种等。 (7) 注意同义词的合理使用,适当使用近义词扩检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论