




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章计算机信息检索,第二节计算机信息检索基本原理及检索技术,一、计算机信息检索原理,计算机将输入机检系统的用户提问标识(检索词)与已存储在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。检索提问字符串匹配数据库中特征标识字符串。,二、计算机信息检索技术,计算机检索时采用的相关技术,主要有布尔检索、词位检索、截词检索、限制检索。,布尔检索,利用布尔逻辑算符对检索词或检索代码进行组配形成检索式,以此检索式作为匹配依据,进行检索。布尔检索逻辑算符及其运算含义:逻辑或(OR,+)逻辑与(AND,*)逻辑非(NOT,-),逻辑或(OR,+),表示它所连接的两个检索词只有其中任何一个出现在结果中就满足检索条件,即对于检索式“AORB”来说,数据库中的文献凡含有检索词A、或含有检索词B、或同时含有检索词A和B的均为命中文献。如COMPUTERANDLAW,逻辑与(AND,*),表示它所连接的两个检索词必须同时出现在结果中才满足检索条件,即对于检索式“AANDB”来说,数据库中同时含有检索词A和检索词B的文献才算命中文献。【例】CARORTRUCK,逻辑非(NOT,-),表示它所连接的两个检索词应该包含的一个检索词而不包含第二个检索词才满足检索条件,即即对于检索式“ANOTB”来说,数据库中凡含有检索词A而不含有检索词B的文献才算命中文献。【例】图书馆NOT公共图书馆,逻辑或检索范围扩大,提高检索结果数量,保证有较高的查全率。逻辑与检索结果范围缩小,增强检索的专指性,保证有较高的查准率。逻辑非与逻辑与的作用类似,有缩小检索范围,提高检索准确性的作用。,截词检索,截词是指检索者将检索词汇在他认为合适的地方截断。截词检索是使用被截断的词汇进行检索匹配,并认为凡满足这个词局部中所有字符(串)要求的记录,都为命中文献。因此,检索词的不变部分加上由截词符号(一般用*表示)所代表的任何变化形式所构成的词汇都是合法检索词。,截词检索基于:西方语言构词灵活,在词干上加上不同的前后缀,可派生出许多新词汇。词干相同,派生出的词在基本含义上通常是一致的,形态的差别多半只是语法上的意义。正是这个原因,检索者如果不在检索式中列举出一个词的所有派生形式,检索时容易出现漏检。截词检索是防止这种类型漏检的有力手段,作为一种后控制措施,目前,大多数检索系统都提供截词检索能力。,按截断的字符数量分:有限截断指要具体说明截去的字符数量无限截断指不具体说明截去多少个字符按截断位置分:后(右)截断、前(左)截断、中截断,后截断检索,将截词符号置放在一个字符串右方,以表示其右边的有限或无限个字符不影响该字符串的检索匹配。从检索匹配性质上讲,后截断检索属于“前方一致”检索。【例】检索式“Comput*”无限后截断检索,可检出词汇有:ComputingComputerComputerized,前截词检索,将截词符号置放在一个字符串左方,以表示其左边的有限个或无限个字符不影响该字符串的检索。从检索性质上讲,前截词检索是“后方一致检索”。【例】对于检索式“*magnetic”来说,能够检索出含有magneticelectromagnetic(电磁的)paramagnetic(顺磁的)thermomagnetic(热磁的),中截词检索,将截词符号置放在一个检索词的中间,而不是左右两侧。仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。【例】organi?ation可检索出含有organisation和organization的记录。Wom*n可检索出Woman、Women,截词检索具有隐含的“逻辑或(OR)”运算特性,检索式brows*等价于检索表达式:browseORbrowserORbowsersORbrowsingOR不同类型的截词检索方法不仅能扩大检索范围,提高查全率,而且还可以减少检索词的输入量,简化检索步骤。,限制检索(字段检索),在检索系统中,通常提供一些约束检索结果的检索技术,以提高查准率,称为限制检索。限制检索的方式很多,其中最主要的限制检索技术是通过限制检索词在命中结果记录中出现的位置(主要是指记录的不同字段位置)来实现的,因此也称为“字段检索”。,主题字段标题(Title)、主题词(Controlledterm)、关键词(Keyword)、文摘(Abstract)、分类号(Classificationcode)非主题字段作者(Author)、作者工作单位(Authoraffiliation)、连续出版物编号(ISSN)、文献类型(Document)、语言(Language)、出版者(Publisher)等,工程索引(EI)数据库检索系统中的字段及字段代码,字段名称字段代码AllfieldsALLAuthorAUSubject/Title/AbstractKYAuthoraffiliationAFPublisherPNLanguageLAAbstractABTitleTI,【例】在EI中查找篇名中含有“robot”的相关文献,使用检索命令方式可在检索文本框中输入以下检索表达式:robotwithinTI需要查找文摘中含有“北京大学”的相关资料时,则可将检索式表达为:北京大学wnABwithin、wn是EI中规定的字段检索符号,TI、AB为字段代码。,限制检索的另一种常见的形式是“二次检索”,即用户可在检索结果中进行再次检索,使检索结果更加准确、专指性更强。,词位检索,词位检索是以数据库原始记录中的检索词之间特定位置关系为对象的运算,是针对自然语言文本中检索词之间特定位置关系而进行的检索匹配技术,又称全文检索。词位检索特点是用一种特定的位置符来表达检索词与检索词之间的关系,并可以不受词表的限制直接使用自由词进行检索。,(1)邻位检索,常用位置逻辑算符有(以DIALOG系统为例介绍)(W)与(nW)算符两词之间使用“W”,表示其相邻关系,即词与词之间不允许有其他词或字母插入,但允许有一空格或标点符号,且词序不能颠倒,具有较强的严密性。【例】Gas(W)Chormatograph表示检索结果为GasChormatograph和Gas-Chormatograph形式的才为命中。,(nW)由(W)衍生而来,如果两词之间使用“nW”,表示两词间可插入n个词,但词序不能颠倒。例如:Laser(1w)Printer表示检索结果中具有“LaserPrinter”、“LaserColourPrinter”和“LaserandPrinter”形式的均为命中记录。,(N)与(nN)算符两词之间使用“N”,表示其相邻关系,即两词之间不能插入任何词,但两词词序可以颠倒。【例】Wastewater(N)Treatment表示检索结果中具有WastewaterTreatment和TreatmentWastewater形式的均为命中记录。(nN)除具备(N)算符的功能外,不同之处是允许两词之间可插入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湘阴县中考考试卷及答案
- 化验员中级考试试题库及答案
- 茂名初二月考试卷及答案
- 湖北防疫员考试题及答案
- 2025锦州社区考试真题及答案
- 陇南一中考试题目及答案
- 标志设计协议书与标识系统设计合同5篇
- 高二新乡期中考试试卷及答案
- 赵一鸣项目经理考试题目及答案
- 2025年一级消防工程师《消防安全案例分析》考试真题及答案解析
- 2025年网格员考试真题及答案
- 铁路工作安全培训课件
- 2025黑龙江佳木斯市卫生健康委事业单位招聘编外聘用人员162人笔试参考题库附答案解析
- 2.1《地形》(课件)-八年级地理上册人教版
- 装载机培训教材
- 2025年有限空间作业安全操作规程模拟试题卷
- 中国企业供应链金融白皮书(2025)-清华五道口
- 浙江名校协作体(G12)2025年9月2026届高三返校联考英语(含答案)
- 2025至2030年中国养生馆行业市场调查研究及投资前景预测报告
- 3单元4 彩虹 课件 2025-2026学年统编版小学语文二年级上册
- 2025年度医保政策试题含答案
评论
0/150
提交评论