三章、精准获取信息方法——编写检索式_第1页
三章、精准获取信息方法——编写检索式_第2页
三章、精准获取信息方法——编写检索式_第3页
三章、精准获取信息方法——编写检索式_第4页
三章、精准获取信息方法——编写检索式_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精准获取信息的方法编写检索式,主要内容,检索策略和步骤如何编写检索式,制定检索策略,什么是检索式检索式:检索式是指计算机检索中用来表达用户检索提问的逻辑表达式,由检索词、检索算符以及系统规定的其他连接符号等构成运算符又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,它是复合检索式中必不可缺的构件。包括逻辑算符、截词符、位置算符等字段检索,如何编制检索式,编制检索式,用逻辑算符说明词间的逻辑关系用位置算符指定词间的位置关系用截词符描述词尾变化检索字段分析检索结果,调整检索式,直至满意试解释检索式:S(speckleandnondestruc?(w)test?)/ab,ti,de,确定检索词的基本准则,检索词的选定,确定检索词的基本准则必须能正确反映检索要求;必须符合数据库的检索用词规则;优先选用具有检索意义学科名词术语;多选常用的基本词汇进行组配。,主题词选择要领,进行文献的主题分析,包括审读文献,划分主题类型和分析主题结构,选直接表达文献主题概念的词表中的正式专指叙词;,要利用概念之间的属种关系和相关关系增加检索线索,选择主题词要领,把握概念的含义,注意利用词表,属种关系又称上下位关系,包括概念是属概念,被包括的概念是种概念。利用属概念扩大检索途径,可提高查全率,利用种概念缩小查找范围,可提高查准率。相关关系指属种关系以外的具有交叉、并列、对立关系的概念,以及形式与内容、本质与现象、原因与结果等关系。善于利用这些关系,有利于提高查全率。,词表是文献检索的重要辅助工具,使用时要注意从多角度查词,要充分利用辅助表。当查不到与某个具体概念相对应的专指叙词时,可以把该概念分解为几个较一般的概念(外延相对宽的),然后再去查表。,1。直接选词法,1直接选词法,当检索题目中使用的自由词与规范词相一致时,可直接选取。例如:“光缆(opticalfiber)”、“计算机辅助设计(computeraideddesign)”等,这些词属于范围大、命中率高的选词,检索人员可直接进行检索。这种方法的结果最为接近主题。,2。转换选词法,2转换选词法,检索词的确定必须经过对检索主题的正确分析得到。选词过程中还经常会遇到不能直接查到所需文献的词,这中间就需要有一个转变过程。例如:检索COBOL语言设计课题,若不加分析就选用“COBOLlanguagedesign”,则必然碰壁。而通过正确分析理解就会知道COBOL语言是一种用来编制计算机程序的语言,所以应先确定检索词为“计算机程序语言(computerprogramminglanguages)”,然后再进一步与COBOL组配,定能得到满意结果。,3.通配符的运用,3通配符的运用,(1)“?”代表检索词中的一个汉字、西文字符或其他字符。例如:“计算?”,表示“计算机”、“计算器”等词;“航?器”,表示“航空器”、“航天器”等词;“int?net”,表示“internet”、“intranet”等词。,通配符的运用,(2)“#”代表检索词中的一个汉字、西文字符或其他字符,也可不代表任何汉字、西文字符或其他字符。例如:“微#机”,表示“微机”、“微型机”等词;“missile#”,表示“missile”、“missiles”等词;“colo#r”,表示“color”、“colour”等词。,通配符$的运用,(3)“$”代表检索词中的任意多个汉字、西文字符或其他字符,也可不代表任何汉字、西文字符或其他字符。例如:“网络$”,代表“网络”、“网络软件”、“网络计算机”、“网络操作系统”等词;“electron$”,代表“electron”、“electrons”、“electronic”、“electronics”等词。,3个符号比较,“?”、“#”和“$”的相同点与不同点:(1)“?”与“#”均代表一个汉字、西文字符或其他字符;“#”与“$”均可以不代表任何汉字、西文字符或其他字符,检出的词均包括词干本身。(2)不同点:使用“?”,检出的词不包括词干本身;使用“$”,可代表多个汉字、西文字符或其他字符检出的词包括词干本身。,运算符检索技术,使用运算符的检索技术,布尔逻辑检索技术位置检索技术截词检索技术字段限定检索技术原文检索技术,布尔逻辑,一、布尔逻辑检索技术,在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。,逻辑“与”,1逻辑“与”,含义:检出的记录必须同时含有所有的检索词。基本作用:一种用于交叉概念或限定关系的组配,可以缩小检索范围,有利于提高检索的专指性。用“and”或“*”表示例如:查找同时含有概念A和概念B的文献,可表示为:“AandB”或“A*B”,逻辑“或”,2逻辑“或”,含义:检出的记录中,至少含有两个检索词中的一个。基本作用:用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。可以避免了命中文献的重复出现。用“OR”或“+”表示例如:检索含有检索项A或检索项B的文献,可表示为:“AORB”或“A+B”,逻辑“非”,3逻辑“非”,含义:排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。基本作用:用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。用“NOT”或“-”表示,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。例如:在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“ANOTB”或“A-B”。,运算优先级,4运算优先级,运算优选级顺序为(),NOT,OR,AND;可以用括号改变它们之间的运算顺序。通常在有括号的情况下,括号内的逻辑运算先执行,有多层括号时,先执行最内层的括号。例如:(AORD)ANDB,表示先执行“AORD”的检索,再与B进行AND运算。,注意事项,5注意事项,1)有的检索工具以符号形象地表达布尔检索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“matchallterms”表示逻辑与,以“matchanyterm”表示逻辑或。绝大多数检索工具的高级检索完全用表格和文字来表达布尔关系,如,Excite以“必须包括(MUSTcontain)”表示逻辑与,用“一定不含”(MUSTNOTcontain)表示逻辑非。有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。,2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多。OR逻辑有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。NOT逻辑在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为,如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。,布尔运算符实例,示例:使用布尔逻辑运算符,表明查询结果中必须同时包含intelligentrobot和control,表明查询结果中至少包含两个检索词中的任意一个,intelligentrobot或control,表明检索结果包含intelligentrobot,但同时必须去掉和control相关的内容,Intelligentrobotandcontrol(intelligentrobot*control),Intelligentrobotorcontrol(intelligentrobot+control),Intelligentrobotnotcontrol(intelligentrobot-control),注:英文数据库通常用字母,中文数据库要用符号。,二、位置检索,二、位置检索(邻近检索)技术,表明两或多个检索词之间关系的符号。适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。可以看成特殊功能的AND算符。AND算符不限制两个检索词的位置和出现顺序。例如:communicationANDsatellite命中的文献可能有communicationsatellite;satellitecommunication;communicaticndevicesforsatellites;communicaticnlinkswithoutsatellites;位置算符可以改进AND算符的这种不足,它是特殊功能的AND算符。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一位置算符,检索系统不同,规定的位置算符也不同。,1)“(W)”含义:“(W)”算符中的W含义为“With”。表示其两侧的检索词必须紧密相连,除开空格和标点号外,不得插入其他词或字母,两词的词序不可颠倒。其简略形式为()。例如:communication(W)satellitecommunication()satellite两者相同,2)“(nw)”“(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。例如:communication(2W)satellite则会检出communicationsatellitecommunicationthoughsatellitecommunicationonthesatellite,3)“(N)”含义:“(N)”中的N含义为“Near”。表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。,4)“(nN)”含义:“(nN)”是“(N)”算符的变形,不同之处为允许两词间插入最多为n个其他词,包括实词和系统禁用词。例如:COTTON(2N)PROCESSING则命中:Cottonprocessing;processingofcotton;processingofEgyptiancotton,5)“(F)”同字段检索含义:“(F)”算符中F的含义为“Field”。这个算符表示其两侧的检索词必须在同一个词段中出现,(例如;同在题目字段或文摘字段)词序不限,中间可插任意检索词项。例如:POLLUTION(F)CONTROL可命中Controlandmanagementofindustrialpollution同在题目中(F)邻近算符与AND布尔逻辑主要区别在于:(F)使两个检索项在同一字段,AND布尔逻辑中两个检索词会发生在不同字段中。,6)“(s)”同句检索含义:“(s)”算符中的S含义为“Sentence”。这个算符表示其两侧的检索词必须在同一自然句子(子字段)中出现,两词的词序可以颠倒。放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。,以上介绍的各种位置算符,按照限制程度的大小,(W)、(nW)最强,(N)、(nN)次之,(S)再次之。当(nN)的n10时,其作用已经相当于(S)。,S(speckleandnondestruc?(w)test?)/ab,ti,de,检索字符总结,三、截词检索,三、截词检索技术,含义:用截断的词(词的片段)的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。检索者将检索词在合适的地方截断,然后截出的片断进行检索。,原因:由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。,截词方式,截词的方式,(1)按截断的字符数量来分:有限截断和无限截断有限截断:有具体截去的字符数。无限截断:不指明具体截去的字符数。(2)按截断的位置区分:后截断、前截断以及中间截断。(3)截断常使用截断符号,各检索系统所使用的截断符号有所不同,常用的符号有“?”,“”,“”以及“*”。以下举例中用“?”来表示有限截断,用“*”表示无限截断。注意:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。,1后方截词(前方一致或右截断),含义:将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。(1)词尾的截断相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个“?”,常用来表示检索词的单复数变化。例如:用system?可以查出sytem和systems的文献。相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如:?表示两个字符,?表示三个字符,以此类推。,(2)后截词主要使用在如下4个方面,词的单复数,如book?,potato?;年代,如198?(80年代),19?(20世纪);作者,如用Lancaster*可检出所有姓Lancaster的作者;同根词,如用biolog*,可检出biological、biologist、biology等同根词。,注意问题,注意,(1)有限截断比较精确,只检索出用户需要的词汇;(2)使用时无限截断必须注意:词干不要太短,否则会检出许多无关的文献;(3)应尽量选用不会引起误检的截断词。,中间截词,2中间截词(中间屏蔽),将提问字符串中间的字符用符号代替,主要用于英式美式不同拼法的英文单词,或单复数不同的单词。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。例如:“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。检索时为防止漏检可用中间屏蔽的检索方法:m?nwom?norgani?ationdefen?e当然使用中间屏蔽的方法也要注意是否可能误检其它词汇的文献。,前截词,3前截断(后方一致或左截断),前截断检索常用于复合词。例如:?computer表示minicomputer,microcomputers等。前截断与后截断也可以组合起来使用。例如:*chemi*可以检出下列词汇chemical、chemistry、chemist、eletrochemical、electrochemistry、physicochemistry、thermochemistry等。,四、字段限定检索,四、字段限定检索,含义:限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。(规定的字段范围内出现的信息方为命中信息的一种检索方法。)适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率。由于字段限制采用前缀和后缀的形式,又可称为前缀限制和后缀限制。,限制检索主要有两种方式,限制检索主要有两种方式:字段检索利用字段进行限制,如题名、摘要、全文等通常的字段限制范围的大小顺序是:题名关键词=1994,五、原文检索技术,五、原文检索技术,含义:“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的检索。原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。,原文检索的运算符有4个级别,原文检索的运算符可以通称为位置运算符,其运算符主要是以下4个级别:1)记录级检索要求检索词出现在同一记录中2)字段级检索要求检索词出现在同一字段中3)子字段或自然句级检索要求检索词出现在同一字段或同一自然句中4)词位置检索要求检索词之间的相互位置满足某些条件,位置算符的顺序,原文检索的位置算符从检索的越来越宽泛的次序可依次排列如下:(W)(N)(S)(F)原文检索的位置算符可以单独使用,也可以混合在一起使用,并且可以与布尔逻辑算符一起混合使用,以组成比较复杂的检索提问表达式。系统在处理检索式时时,位置算符是从左到右运算的,因此用户在编制检索式时,应将最专指的位置算符放在前面。例如:redwood(w)deck?(f)patio先处理(w),再处理(f)位置算符。与逻辑算符结合在一起时,如果没有括号(括号优先处理),则位置算符先于逻辑算符执行。例如:talent(w)childAndschool(w)education先处理(w)算符,再处理”And”算符。例如:(giftedortalent)(w)(ChildorChildren)则先处理括号中“Or”的运算,再处理(w)的运算。,总结,总结:构造专业检索式,选择检索字段(以CNKI为例)跨库专业检索支持对以下检索字段的检索:SU=主题,TI=题名,KY=关键词,AB=摘要,FT=全文,AU=作者,FI=第一责任人,AF=机构,JN=中文刊名&英文刊名,RF=引文,YE=年,FU=基金,CLC=中图分类号,SN=ISSN,CN=统一刊号,IB=ISBN,CF=被引频次,总结:构造专业检索式,使用运算符构造表达式(以CNKI为例),总结:构造专业检索式,使用运算符构造表达式(以CNKI为例),使用“AND”、“OR”、“NOT”等逻辑运算符,“()”符号将表达式按照检索目标组合起来。,总结:构造专业检索式,在CNKI中的注意事项,所有符号和英文字母,都必须使用英文半角字符;“AND”、“OR”、“NOT”三种逻辑运算符的优先级相同;如要改变组合的顺序,请使用英文半角圆括号“()”将条件括起;逻辑关系符号(与(AND)、或(OR)非(NOT)前后要空一个字节;使用“同句”、“同段”、“词频”时,需用一组西文单引号将多个检索词及其运算符括起,如:流体#力学;,实例,检索实例,例1要求检索钱伟长在清华大学或上海大学时发表的文章。检索式:AU=钱伟长and(AF=清华大学orAF=上海大学)例2要求检索钱伟长在清华大学期间发表的题名或摘要中都包含“物理”的文章。检索式:AU=钱伟长andAF=清华大学and(TI=物理orAB=物理),引出Google,Google文献检索知识,Google的使用偏好设置网址:.hk/,我要检索,学前教育,一次成功的搜索,应该找到我们真正想要的信息,并排除我们不想要的信息。这就必须要求使用者掌握一定的方法和技巧。解决办法如下:,1、重新选择合适的检索词;2、利用搜索引擎提供的高级搜索功能和人性化提示重新进行搜索;3、使用逻辑语法辅助查找;4、使用双引号进行精确查找;5、有针对性地选择搜索引擎。下面我们将通过实例说明怎样通过Google有效地搜索,这些方法多数情况下也适用于其它搜索引擎。,1.逻辑“与”搜索结果要求包含两个及两个以上关键词,用“+”连接,Google可用“空格”代替“+”。注意:这里的“+”号,是英文字符,而不是中文字符的“”。此外,操作符与作用的关键词之间,不能有空格。举例:学前教育-进展或综述检索式:学前教育+综述2.逻辑“非”搜索结果要求不包含某些特定信息,用“-”连接关键词。注意:这里的“-”号,是英文字符,而不是中文字符的“”。此外,操作符与作用的关键词之间,不能有空格。举例:查找包括学前教育但不含基础教育的文献检索式:学前教育-基础教育,3.逻辑“或”:搜索结果至少包含多个关键词中的任意一个,用“OR”连接。注意:小写的“or”,在查询的时候将被忽略为“空格”,这样上述的操作实际上变成了一次“与”查询。举例:学前或特殊教育检索式:学前教育OR特殊教育4.其它语法强调短语用英文的“”,如上文的“学前教育。一般不支持通配符:如*?但除以*治国外检索词的大小写不敏感。如IVF与ivf,rat与RAT忽略极常见的英文单词。如i,com,www,标点符号、,.。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。如搜索:+www+的历史internet,Google搜索引擎高级语法,1.filetype:索引某一类文件(同一扩展名)文件扩展名:pdf、ppt、d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论