《文献检索技术》PPT课件.ppt_第1页
《文献检索技术》PPT课件.ppt_第2页
《文献检索技术》PPT课件.ppt_第3页
《文献检索技术》PPT课件.ppt_第4页
《文献检索技术》PPT课件.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3讲 文献检索技术,2005.7,一、布尔逻辑检索技术,在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。 为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。,1 逻辑“与”,含义:检出的记录必须同时含有所有的检索词。 基本作用:一种用于交叉概念或限定关系的组配,可以缩小检索范围,有利于提高检索的专指性。 用and 或*表示 例如:查找同时含有概念A 和概念B 的文献,可表 示为:“A and B”或“A*B”,2 逻辑“或”,含义:检出的记录中,至少含有两个检索词中的一个。 基本作用:用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。可以避免了命中文献的重复出现。 用OR 或“+”表示 例如:检索含有检索项A 或检索项B 的文献,可表 示为:“A OR B”或“A+B”,3 逻辑“非”,含义:排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。 基本作用:用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。 用“NOT”或“-”表示,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。 例如:在含有概念A 的文献集合中,排除同时含有 概念B 的文献,可表示为:“A NOT B”或 “A-B”。,4 运算优先级,运算优选级顺序为(),NOT,OR ,AND ; 可以用括号改变它们之间的运算顺序。通常在有括号的情况下,括号内的逻辑运算先执行,有多层括号时,先执行最内层的括号。 例如:(A OR D) AND B,表示先执行“A OR D”的 检索,再与B进行AND运算。,5 注意事项,1)有的检索工具以符号形象地表达布尔检索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“match all terms”表示逻辑与,以“match any term”表示逻辑或。绝大多数检索工具的高级检索完全用表格和文字来表达布尔关系,如,Excite以“必须包括(MUST contain)”表示逻辑与,用“一定不含”(MUST NOT contain)表示逻辑非。 有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。,2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多。 OR逻辑 有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。 NOT逻辑 在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为, 如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。,6 小结,检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。 用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。 另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。,示例:使用布尔逻辑运算符,表明查询结果中必须同时包含intelligent robot和control,表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或control,表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容,Intelligent robot and control(intelligent robot*control),Intelligent robot or control(intelligent robot+control),Intelligent robot not control(intelligent robot-control),注:英文数据库通常用字母,中文数据库要用符号。,二、位置检索(邻近检索)技术,表明两或多个检索词之间关系的符号。 适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。可以看成特殊功能的AND算符。AND算符不限制两个检索词的位置和出现顺序。 例如:communication AND satellite 命中的文献可能有 communication satellite; satellite communication; communicaticn devices for satellites; communicaticn links without satellites; 位置算符可以改进AND算符的这种不足,它是特殊功能的AND算符。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一位置算符,检索系统不同,规定的位置算符也不同。,1)“(W)” 含义: “(W)”算符中的W含义为“With”。表示其两侧的检索词必须紧密相连,除开空格和标点号外,不得插入其他词或字母,两词的词序不可颠倒。其简略形式为()。 例如: communication (W) satellite communication () satellite 两者相同,2)“(nw)” “(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。 例如: communication (2W) satellite 则会检出 communication satellite communication though satellite communication on the satellite,3)“(N)” 含义:“(N)”中的N含义为“Near”。表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。,4)“(nN)” 含义:“(nN)”是“(N)”算符的变形,不同之处为允许两词间插入最多为n个其他词,包括实词和系统禁用词。 例如: COTTON (2N) PROCESSING 则命中: Cotton processing; processing of cotton; processing of Egyptian cotton,5)“(F)” 同字段检索 含义:“(F)”算符中F的含义为“Field”。这个算符表示其两侧的检索词必须在同一个词段中出现,(例如;同在题目字段或文摘字段)词序不限,中间可插任意检索词项。 例如: POLLUTION (F) CONTRON 可命中 Contron and management of industrial pollution 同在题目中 (F)邻近算符与AND布尔逻辑主要区别在于:(F)使两个检索项在同一字段,AND布尔逻辑中两个检索词会发生在不同字段中。,6)“(s)”同句检索 含义: “(s)”算符中的S含义为“Sentence”。这个算符表示其两侧的检索词必须在同一自然句子(子字段)中出现,两词的词序可以颠倒。 放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。,以上介绍的各种位置算符,按照限制程度的大小,(W)、(nW)最强,(N)、(nN)次之,(S)再次之。 当(nN)的n 10时,其作用已经相当于(S)。,三、 截词检索技术,含义:用截断的词(词的片段)的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。 检索者将检索词在合适的地方截断,然后截出的片断进行检索。, 原因: 由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。 为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。,截词的方式,(1)按截断的字符数量来分:有限截断和无限截断 有限截断:有具体截去的字符数。 无限截断:不指明具体截去的字符数。 (2)按截断的位置区分:后截断、前截断以及中间截断。 (3)截断常使用截断符号,各检索系统所使用的截断符号有所不同,常用的符号有 “?”,“”,“”以及“ *” 。以下举例中用“?”来表示有限截断,用“*”表示无限截断。 注意:不同的数据库所用的截词符不一样,使用应先查 一下各数据库的帮助加以确认。,1 后方截词(前方一致或右截断),含义:将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。 (1)词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个“?”,常用来表示检索词的单复数变化。 例如:用system?可以查出sytem 和systems 的文献。 相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。 例如:?表示两个字符,?表示三个字符,以此类推。,(2)词尾的无限截断,相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找出含有相同字符串的所有检索词。 例如: comput? 可查出compute , computer , computing,computation,computerisation 等。,(3)后截词主要使用在如下4个方面,词的单复数,如book?,potato?; 年代,如198?(80年代),19?(20世纪); 作者,如用Lancaster*可检出所有姓Lancaster的作者; 同根词,如用biolog*,可检出biological、biologist、biology等同根词。,注意,(1)有限截断比较精确,只检索出用户需要的词汇; (2)使用时无限截断必须注意:词干不要太短,否则会检出许多无关的文献; (3)应尽量选用不会引起误检的截断词。,2 中间截词(中间屏蔽),将提问字符串中间的字符用符号代替,主要用于英式美式不同拼法的英文单词,或单复数不同的单词。 截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。 例如:“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 检索时为防止漏检可用中间屏蔽的检索方法: m?n wom?n organi?ation defen?e 当然使用中间屏蔽的方法也要注意是否可能误检其它词汇的 文献。,3 前截断(后方一致或左截断),前截断检索常用于复合词。 例如:?computer表示minicomputer,microcomputers等。 前截断与后截断也可以组合起来使用。 例如: *chemi* 可以检出下列词汇 chemical、chemistry、chemist、 eletrochemical、electrochemistry、 physicochemistry、thermochemistry等。,四、字段限定检索,含义:限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。(规定的字段范围内出现的信息方为命中信息的一种检索方法。) 适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率。由于字段限制采用前缀和后缀的形式,又可称为前缀限制和后缀限制。,限制检索主要有两种方式: 字段检索利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名关键词摘要全文 二次检索在前一次检索的结果中进行另一概念的检索,通常数据库中可供检索的字段分为主题字段和非主题字段。 主题字段:题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等; 非主题字段:作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。 注意:各个检索系统所设立的字段是互不相同的,即使使用同一字段,也可能采用不同的字段代码,在进行字段检索时,应事先参阅系统及有关数据库的说明。,实例: 字段限定在DIALOG联机检索系统中应用,1)基本字段限制 含义:基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定字段的检索词后加上后缀运算符“/”和段码。 例如: OPTICAL/TI AND FIBER/TI 指在题目字段中含这两个词的记录。 字段段码可以多个连用,中间加“,”例如: FIB?/TI,DE 指在题目和叙词中查找“fib”为词干的所有记录。,2)辅助字段限制 除基本字段以外的可检索字段都可成为辅助字段。辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。 例如: AU=“Robert,S” 在作者字段中含人名为Robert,S的记录。 CS= 作者单位字段; LA=语言字段,例如LA=ENGLISH 英语字段 JN= 刊物名称字段; PY= 年份字段 例如PY=1999,字段限定符 in 对某一指定数据项进行检索 如:computer in TI = 用于限定性字段的检索 如:LA=ENGLISH 通配符 * 代替任意一个或多个字符 如: comput* in AB 范围运算 =, , = 如:PY=1997; PY1996; PY=1994,五、原文检索技术,含义:“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的检索。 原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。,原文检索的运算符可以通称为位置运算符,其运算符主要是以下4个级别: 1)记录级检索 要求检索词出现在同一记录中 2)字段级检索 要求检索词出现在同一字段中 3)子字段或自然句级检索 要求检索词出现在同一字段或同一自然句中 4)词位置检索 要求检索词之间的相互位置满足某些条件,原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。,原文检索的位置算符从检索的越来越宽泛的次序可依次排列如下: (W)(N)(S)(F) 原文检索的位置算符可以单独使用,也可以混合在一起使用,并且可 以与布尔逻辑算符一起混合使用,以组成比较复杂的检索提问表达式。 系统在处理检索式时时,位置算符是从左到右运算的,因此用户在编 制检索式时,应将最专指的位置算符放在前面。 例如:redwood (w) deck? (f) patio 先处理(w),再处理(f)位置算符。 与逻辑算符结合在一起时,如果没有括号(括号优先处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论