文献信息检索教学课件-图书馆-吉林建筑大学城建学院_第1页
文献信息检索教学课件-图书馆-吉林建筑大学城建学院_第2页
文献信息检索教学课件-图书馆-吉林建筑大学城建学院_第3页
文献信息检索教学课件-图书馆-吉林建筑大学城建学院_第4页
文献信息检索教学课件-图书馆-吉林建筑大学城建学院_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第四章第四章 计算机检索技术计算机检索技术 吉林建筑大学城建学院吉林建筑大学城建学院第四章第四章 计算机检索技术计算机检索技术v计算机检索的实质:匹配运算v计算机检索技术检索提问检索提问检索表达式检索表达式扫描、匹配扫描、匹配识别识别数据库数据库检索词的检索词的组配技术组配技术计算机检计算机检索技术索技术检索表达式检索表达式的构成规则的构成规则检索词:主题词、检索词:主题词、关键词、名称、分关键词、名称、分类号分子式等。类号分子式等。检索表达式:运用检索表达式:运用各种运算符,把检各种运算符,把检索词连接组配。索词连接组配。第四章第四章 计算机检索技术计算机检索技术4.2布尔布尔逻辑逻辑位置

2、位置逻辑逻辑截词截词字段字段限制限制加权加权计算机检索技术计算机检索技术其他其他4.14.34.44.64.54.1 布尔逻辑检索技术布尔逻辑检索技术v布尔逻辑检索技术布尔逻辑检索技术就是利用布尔逻辑算符进行检索项的逻辑组配,用以表达检索者的提问概念。v布尔逻辑算符布尔逻辑算符指规定检索词之间相互关系的运算符号,在检索表达式中起着逻辑组配的作用。组配简 单v常用的布尔逻辑运算符:常用的布尔逻辑运算符: 逻辑“与”(and) 逻辑“或”(or) 逻辑“非”(not)4.1.1 逻辑逻辑“与与”v运算符:AND 或 *用于交叉概念或限定关系的组配,实现检索词概念范围的交集。表达式:A and B

3、或或 A*BBAndAnd两侧的检索两侧的检索词必须同时出现词必须同时出现在检索字段中在检索字段中检出同时含有检检出同时含有检索词索词A和检索词和检索词B的记录的记录Av作用作用缩小检索范围,提高查准率。 v举例举例 检索“人口控制”或者“控制人口”方面的文献信息。 人口 and 控制4.1.1 逻辑逻辑“与与”4.1.2 逻辑逻辑“或或”v运算符:OR 或 + 用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集。表达式:A or B 或或 A+BB在文献记录中只要在文献记录中只要含有检索词含有检索词A A和检和检索词索词B B中的任何一中的任何一个即算命中个即算命中检索出的

4、记录含有检索词A或者检索词BAv作用作用扩大检索范围,防止漏检,提高查全率。 v举例举例 检索“计算机” 方面的文献信息。 计算机 or 电脑v使用的注意事项使用的注意事项 如果检索词涉及表达整体概念,要针对具体情况分别列出每个表达部分概念的检索词,否则将出现漏检。4.1.2 逻辑逻辑“或或”4.1.3 逻辑逻辑“非非”v运算符:NOT 或 - 一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。表达式:A not B 或或 A-BB适用于排除含有某个适用于排除含有某个指定检索词的记录指定检索词的记录A检索出的记录含有检检索出的记录含有检索词索词A A,但同时不含,但同时不含检索词检索

5、词B B4.1.3 逻辑逻辑“非非”v作用作用缩小检索范围,增强检索的准确性。但使用不当,易排除有用文献信息,从而导致漏检。 v举例举例 检索有关能源方面的文献信息,但不包括核能。 energy not nuclearv使用的注意事项使用的注意事项 两个关系紧密的检索词不宜用not4.1.4 运算顺序运算顺序优先级高优先级高优先级低优先级低NOTANDOR 布尔逻辑运算符的运算顺序布尔逻辑运算符的运算顺序如果要改变优先级可以在检索式中添加优先算符如果要改变优先级可以在检索式中添加优先算符()。()。在有括号的情况下,按优先顺序自动完成。在有括号的情况下,按优先顺序自动完成。举例举例v(A or

6、 B or C)+(X and Y)假定假定X and Y的部分为的部分为ZA,ZB,ZC,Z4.1.5 注意事项注意事项v(1)or 逻辑。有些检索词表达的概念,存在整词与部分的关系,要注意区别。 举例:欧洲 and 能源 (欧洲 or 英国 or 意大利 or 西班牙 or)and (能源 or 煤 or 石油 or )v(2)not 逻辑。使用not要慎重。如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用not逻辑会导致含另一个词的文献也会被排除。 举例(计算机 and 软件)not 硬件4.2 位置逻辑检索技术位置逻辑检索技术v位置逻辑检索位置逻辑检索 利用位置逻辑算符限定检

7、索词之间的位置,或指定检索词在记录中某一特定位置进行检索。位置算符又称邻接运算符。v位置逻辑检索的作用位置逻辑检索的作用 表达各个检索词之间的顺序与相对位置关系。v与布尔逻辑检索的区别与布尔逻辑检索的区别 使用布尔逻辑检索时,计算机只判断参加运算的检索词在数据库记录中出现与否,不能确定检索词之间的相对位置关系。而通过与位置算符配合使用可以减少检索误差。4.2 位置逻辑检索技术位置逻辑检索技术vDialogDialog系统中的几种位置算符系统中的几种位置算符 (1)同词位检索 (W)(With / Word)、 (nW) (N)(NEAR)、(nN) (2)同字段检索 (F)(Field) (L

8、)(Link) (3)其他位置算符 (S)(Subfield) (C)(Citation)4.2.1 同词位检索同词位检索允许在连接的两个词之允许在连接的两个词之间最多夹入间最多夹入n n个其他单个其他单元词,只强调插入单元元词,只强调插入单元词个数没限定插入单元词个数没限定插入单元词的具体范围,同时词词的具体范围,同时词序不能颠倒序不能颠倒此算符两侧的检索词必须此算符两侧的检索词必须按输入时的前后顺序排列按输入时的前后顺序排列,而且所连接的词之间除,而且所连接的词之间除可以有一个空格或一个标可以有一个空格或一个标点符号或一个链接号外不点符号或一个链接号外不得夹有任何其他单词或字得夹有任何其他

9、单词或字母母(W)/()()(nW)举例举例举例举例严密性强严密性强严密性差严密性差4.2.1 同词位检索同词位检索v举例:举例:(1)(W)/() American()Literature(2)(nW) knowledge(1W)economy有关有关American LiteratureAmerican Literature或或AmericanAmerican,LiteratureLiterature的文献的文献有关有关knowledge economyknowledge economy或或knowledge-based economyknowledge-based economy的文献的

10、文献4.2.1 同词位检索同词位检索允许两个检索词之间最允许两个检索词之间最多可以插入多可以插入n个单词,个单词,且这两个检索词的词序且这两个检索词的词序任意任意此算符两侧的检索词必此算符两侧的检索词必须紧密相连,所连接的须紧密相连,所连接的词间不允许插入任何其词间不允许插入任何其他单词或字母,但词序他单词或字母,但词序可以颠倒可以颠倒(N)(nN)举例举例举例举例4.2.1 同词位检索同词位检索v举例举例(1)(N)chemistry(N)physics(2) (nN)economic(2N)recovery含有含有chemistry physicschemistry physics或或ph

11、ysics chemistryphysics chemistry的文献的文献含有含有economic recoveryeconomic recovery或或recovery of the economicrecovery of the economic的文献的文献4.2.2 同字段检索同字段检索(L)(F)表示此算符两表示此算符两侧的检索词必侧的检索词必须同时出现在须同时出现在同一字段内。同一字段内。如:篇名字段如:篇名字段、文摘字段、文摘字段、叙词字段等,叙词字段等,但两词的词序但两词的词序中间插入的次中间插入的次数不限。数不限。表示两个检索表示两个检索词之间存在从词之间存在从属关系或限制属

12、关系或限制关系。如果其关系。如果其中一个为一级中一个为一级主题词,另一主题词,另一个就为二级主个就为二级主题词。题词。要求检索词同在叙词字段(DE)中出现,并具有词表规定的等级关系。因此该算符只适用于有正式词表、且词表中的词具有从属关系的数据库。4.2.2 同字段检索同字段检索v举例举例(1)(L) control(L)stability(2)(F)economic(F)knowledge标题含有标题含有controlcontrol和和stabilitystability两个检索词的文献记录。两个检索词的文献记录。标题为标题为“the Economic Impact the Economic

13、Impact of Knowledge-Based”of Knowledge-Based”的文献记的文献记录。录。4.2.3 其他位置逻辑检索其他位置逻辑检索v(S)(Subfield) 表示在此算符两侧的检索词必须出现在中,顺序不变,中间可插入词数不限。v举例举例 (basic or cobol or pascal)(S)(program* or compil*)Basic (S) program* basic (S) compil*Cobol (S) program* cobol (S) compil*Pascal (S) program* pascal (S) compil*4.2.3

14、其他位置逻辑检索其他位置逻辑检索v(C)(Citation) 表示两侧的检索词只能出现在中,且对它们的相对位置或次序没有任何限制,作用和布尔算符and完全相同位置逻辑算符位置逻辑算符的优先顺序的优先顺序C(S)(N)(W)(F)严谨严谨宽松宽松4.3 截词检索技术截词检索技术v实质实质 截词检索就是用截词符号将检索词截断,用检索词的片段进行匹配运算。v注意注意 在截断时,截断的词干不能太短,词干一般应在3个字符以上,以免增加检索时间,产生误检。4.3 截词检索技术截词检索技术v截词形式截词形式 按截词的字符数量按截词的字符数量有限截断、无限截断有限截断、无限截断按截词的位置按截词的位置右截断、

15、左截断、中间截断右截断、左截断、中间截断4.3.1 按截词数量截断按截词数量截断v有限截断有限截断 指限定截去有限个字符。指限定截去有限个字符。v截断符号截断符号 ?截断截断1 1个字符个字符 ?截断截断2 2个字符个字符 依此类推。依此类推。v举例举例 输入:输入:product?product? 结果:含有结果:含有productproduct、productsproducts的记录的记录4.3.1 按截词数量截断按截词数量截断v无限截断无限截断 检索词词干可变化两个以上字符时,检索词词干可变化两个以上字符时,连续使用若干个连续使用若干个“ ? ”? ”或或“ * * ” ”代替变代替变化

16、字符。化字符。v用法用法可同时查找含有该词干的所有文献记可同时查找含有该词干的所有文献记录,亦可用于年代的查找。录,亦可用于年代的查找。4.3.2 其他截断方式其他截断方式1.1.把截词把截词符号置符号置放在一放在一个检索个检索词的中词的中间;间;2.2.中截断中截断一般仅一般仅允许有允许有限截断限截断1.1.将截词符将截词符号放在一号放在一个字符串个字符串左方,表左方,表示其左的示其左的有限或无有限或无限个字符限个字符不影响该不影响该字符串的字符串的检索;检索;2.2.实质:后实质:后方一致检方一致检索索1.1.最常用的截最常用的截词检索技术;词检索技术;2.2.放在字符串放在字符串右方,表

17、示右方,表示其右有限或其右有限或无限个字符无限个字符不影响该字不影响该字符串的检索;符串的检索;3.3.实质:后截实质:后截断是前方一断是前方一致检索致检索后截断后截断前截断前截断 中截断中截断后截断举例后截断举例v输入: computer *v检索结果computeracycomputerisecomputerizationcomputers隐含隐含OROR运运算特性算特性后截断注意事项后截断注意事项v后截断主要使用于如下几种情况:后截断主要使用于如下几种情况: 检索词的单复数的描述;检索词的单复数的描述; 如:如:book?book? 同根词的表达;同根词的表达;如:如:chemichem

18、i* *可以检索出可以检索出chemicalchemical、 chemistrychemistry、chemistchemist等同根词等同根词 年代的表达;年代的表达;如:如:20?20?(2121世纪),世纪),199?199?(2020世纪世纪9090年代)年代) 作者作者如:如:MoyerMoyer* *可以检索出所有姓可以检索出所有姓MoyerMoyer的作者的作者前截断举例前截断举例v输入: *computerv检索结果microcomputerminicomputer中截断举例中截断举例v输入:v organi ? ationv检索结果organization organisa

19、tionv中截断主要使用于如下几种情况: 检索词的拼写方式存在美式、英式之分; 检索词在某个元音位置出现的单复数不同; 如:man与menv作用:扩大检索范围,提高检全率,减少检索词的输入量。4.4 字段限制检索技术字段限制检索技术v在检索系统中,通常有一些缩小或约束检索结果的方法,称为限制检索。v限制检索的方式字段限制检索字段限制检索1使用限制符检索使用限制符检索24.4.1 字段限制检索字段限制检索v特点及作用特点及作用使检索出的文献信息达到一定的专指度。将检索词限制在记录的某个特定字段内检索,不但可以减轻机器负担,提高运算速度,还可以使检索结果更准确。v用法用法将需要检索的内容限制在相关

20、的字段内。 如:作者姓名 作者字段 关键词 关键词或题名字段4.4.1 字段限制检索字段限制检索v字段种类字段种类基本字段:表达文献内容特征的字段基本字段:表达文献内容特征的字段辅助字段:表达文献外表特征的字段辅助字段:表达文献外表特征的字段v字段检索形式字段检索形式1. 1. 通过菜单选择检索字段通过菜单选择检索字段2. 2. 用命令的方式输入字段限制算符用命令的方式输入字段限制算符篇名字段、文摘字段、叙词字篇名字段、文摘字段、叙词字段、分类类目等段、分类类目等作者、机构、文献类型、语种等作者、机构、文献类型、语种等4.4.2 使用限制符检索使用限制符检索vWeb检索方式通常通过菜单选择检索

21、字段,在联机Web高级检索中,还可以用表示语种、文献类型、出版国家、出版年代等额字段标识符来限制检索范围。在Dialog系统中,用专门的字符表示不同字段。4.4.2 使用限制符检索使用限制符检索v前缀限制字符前缀限制字符AU=限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代v后缀限制符后缀限制符/TI 限在题目中查/AB限在文摘中查/DE限在叙词标引中查 查找查找20042004年出版的英文或法文的年出版的英文或法文的宏观经济学方面的期刊宏观经济学方面的期刊 检索式:检索式: (macroeconomics/de, ti, ab) AND PY=2004

22、AND (LA=EN OR FR) AND DT=Serial4.5 加权检索技术加权检索技术v与其他检索技术的区别与其他检索技术的区别其他检索技术其他检索技术加权检索技术加权检索技术侧重侧重点点判定检索词或字符串在数据库中,与别的检索词或字符串是什么关系判定检索词或字符串在满足检索逻辑后对文献信息命中与否的影响程度v1 1 词加权检索词加权检索 词加权系统是最常见的加权检索系统。 对信息提问中的每一个检索词(概念)给定一个数值表示其重要性程度,即权。 在检索中,首先查找这样的检索词在数据库记录中是否存在,对存在的检索词计算他们的权值总和。只有当数据库记录的权值之和达到或超过预先给定的值时,该

23、记录才算命中。4.5 加权检索技术加权检索技术v对词加权检索,需要说明的几点:(1)与定性检索一定要用提问式来表达提问要求相比,词加权检索有其优点:通过加权,明确了各检索词的重要程度,使检索更具有针对性;只要列出检索词,不需要写出提问式。(2)利用词加权检索,权值的确定标准是检索结果是否令人满意的关键所在,而这个过程中不可避免的带有一定的主观性。(3)加权是给概念加权,当用同义词等来扩检时,这些词应只具有和同一概念词相同的权值,在计算权和时,仅能计算其中一个词的权值。4.5 加权检索技术加权检索技术v2 2 词频加权检索词频加权检索 检索词的权值是由它在数据库记录中的词频特性决定的,而不是由检

24、索者指定的,词频加权没有了人工干预的因素。v3 3 聚类检索聚类检索 定义:在对文献进行自动标引的基础上,构造文献的形式化表示文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在了一起,而相异的则被区分开来。4.5 加权检索技术加权检索技术4.5 加权检索技术加权检索技术v注意:注意: 聚类检索和分类检索虽然都是基于类的思想,但二者之间有很大的差别。主要表现在:(1)分类检索是基于分类法的,它的类目体系是先组式的,有系统性的

25、,类目与文献之间具有相对独立性;而聚类检索则是先有文献后有类,类的性质及整个类目体系完全由系统中的文献所决定。(2)从类目形成过程上看,分类是从总到分,聚类是从分到总的。 总之,分类检索的类目体系是固定的、直观的,符合人们的科学思维习惯,而聚类检索形成的类目体系则是不稳定的,完全形式化和定量化的,不易为人们所直接理解。4.6 其他辅助检索技术其他辅助检索技术4.6.1 4.6.1 信息的浏览式检索与链接技术信息的浏览式检索与链接技术 4.6.2 4.6.2 检索结果的翻译和多语种检索结果的翻译和多语种( (或跨语种)检索技术或跨语种)检索技术 4.6.3 4.6.3 检索结果的后处理技术检索结

26、果的后处理技术4.6.1 信息的浏览式检索与链接技术信息的浏览式检索与链接技术用用 户户 在计算机检索系统中,在计算机检索系统中,“浏览浏览”方式的实现主要得益方式的实现主要得益于于的成功应用。的成功应用。某种信息组织某种信息组织结构结构(或导航机制)(或导航机制)链链 接接信信 息息系统预定义系统预定义相关或未曾预料相关或未曾预料的有用信息的有用信息访问、探寻访问、探寻提提 供供4.6.1 信息的浏览式检索与链接技术信息的浏览式检索与链接技术v搜索引擎搜索引擎目前,基于浏览式检索的技术方法已在网络搜索引擎中得到了广泛应用,以Yahoo为首创的一类网络搜索引擎就是通过实现对同络信息的浏览式检索

27、的。v此外,超文本链接技术在传统的基于关键词匹配的信息检索系统中,也越来越显现出重要的应用价值。4.6.1 信息的浏览式检索与链接技术信息的浏览式检索与链接技术参考文献链接参考文献链接(Cited Reference)相关记录链接相关记录链接(Related Records)被引次数链接被引次数链接(Times Cited)被引次数链接举例被引次数链接举例在系统检索结果列表中,该在系统检索结果列表中,该链接点首先给出该文献的被链接点首先给出该文献的被引用次数,单击该链接点,引用次数,单击该链接点,系统会进一步显示引用该篇系统会进一步显示引用该篇文献的所有其他文献;文献的所有其他文献;点击点击参考文献链接举例参考文献链接举例该链接点不仅可以显示该检该链接点不仅可以显示该检索结果文献所使用的参考文索结果文献所使用的参考文献数量,单击它还可显示这献数量,单击它还可显示这些参考文献的具体列表;些参考文献的具体列表;点击点击相关记录链接相关记录链接通过该链接点可以查看在不通过该链接点可以查看在不同年份中与当前所检索的记同年份中与当前所检索的记录共同引用同一篇录共同引用同一篇(或多篇或多篇)参考文献的一组文献,即相参考文献的一组文献,即相关记录,并按共同引用参考关记录,并按共同引用参考文献的多少排序。文献的多少排序。 4.6.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论