计算机检索基础_第1页
计算机检索基础_第2页
计算机检索基础_第3页
计算机检索基础_第4页
计算机检索基础_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索

计算机检索概述计算机检索工具计算机资源检索的基本技术计算机检索的基本步骤一计算机检索概述

计算机检索的定义计算机检索的特点计算机系统的组成和工作原理计算机检索的基本步骤(一)计算机检索的定义计算机检索是指在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从数据库或网络信息资源中检索出所需要的信息,并由终端设备显示或打印的检索系统。

(二)计算机检索的特点

1使用方便

2检索途径多

3检索速度快

4检索范围广

5检索内容新、时效性强计算机检索与手工检索的异同项目手工检索计算机检索总体特征手翻、眼看、大脑判断检索策略、与机器匹配否、检索结果与课题匹配否检索点及途径少多检索速度较慢较快检索要求专业知识、外语知识检索工具知识专业知识、外语知识检索系统知识检索效果查准率高查全率高综合效率较低较高(三)计算机检索系统组成和工作原理1.计算机检索系统的组成1)计算机2)数据库3)通讯网络4)检索终端5)辅助设备2计算机检索的工作原理三计算机检索工具计算机检索日益发展的今天,计算机检索工具主要有:光盘数据库或镜像数据库网络数据库大型联机检索系统数据库的结构1.文档排列方式:顺排文档:按记录号顺序排列的文档倒排文档:按照某一字段的值进行排列的文档。2.记录:

DIALOG检索系统的一条记录AN=DIALOGNo:03883137EIMonthlyNo:EIP94031231114/TITitle:Laser/LightimagingforunderwateruseAU=Author:Caimin.FrankM.CS=CorporateSource:……Inst.Inc.SO=Source:SeaTechnology,V.34No.12Dec.1993.P.22-27PY=PublicationYear:1993CO,SN=CODEN:SEATADISSN:0993-3651LA=Language.EnglishDT,TC=DocumentType:JA(JournalArticle);Treatment

Code:A(Applications);X(Experimental);/ABAbstract:…………/DEDescription:imagingtechniques;…叙词………/IDIdentifiers:Laserlightimaging;…….标引词.……CC=EiClassificationCodes;分类代码

741.3……744.9……四计算机资源检索的基本技术布尔逻辑算符截词符位置运算符字段限定符(一)布尔逻辑算符布尔逻辑算符是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。逻辑与AND

逻辑或OR

逻辑非NOT运算优先级顺序:()>NOT>AND>OR常用*或&表示。可缩小检索范围,提高查准率,降低查全率。常用+或/表示,可扩大检索范围,提高查全率,降低查准率。常用“-”表示,排除不需要的检索词,提高查准率。(二)截词符为了减少检索输入量、扩大检索范围而使用的特有的符号称为截词符。截词符一般有两种:?和*。使用截词符进行检索称为截词检索。截词符在西文数据库中广泛使用截词符的使用环境:

1.检索词的单复数形式不同

2.同一词英、美不同拼法

3.词根相同的词可用截词检索截词符的分类:1.按截词的位置划分:1)前截断(与后同):左截断,截词符在词的左边。例如:*hood,可检到childhood和neighborhood2)中截断:截词符在词的中间。例如:organi?ation,可检到organisation和organization。一般中截断仅允许有限截断。3)后截断(与前同):右截断,截词符在被截词的右边,是最常用的检索技术。例如:librar*,可检到library和librarian(三)位置运算符为了提高检索的广度和准确度,常需要对检索词之间的位置关系加以限定。1.w-with

表示with两侧的检索词必须按输入时的前后顺序排列,不可颠倒。所连接的词之间除可以有一个空格、标点或连接符外,不得有任何单词或字母。例如:intelligent(w)robot

可检到intelligentrobot

2.N-Near表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其它单词或字母,但词序可以颠倒。例如:intelligentNearrobot

可检到intelligentrobot

或robot

intelligent。3.F-Field

表示两个检索词必须同时出现在记录的同一字段内,如篇名字段、文摘字段、叙词字段等。但它们的顺序不限,且夹在其间的其它词的数量也不限。

例如:Pollution(F)ControlControlandManagementofIndustryPollution(四)字段限定符字段限定符:

是用来指定检索词出现的字段的符号。检索时,系统只对指定的字段进行匹配运算,提高了检索效率和查准率。西文数据库中,字段检索常用代码来表示,如下表所示:常用的字段:4计算机检索的基本步骤

分析检索课题1.主题概念2.信息类型3.时间范围4.检索目的构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式调整检索策略(正式检索)1,信息量过多时2.信息量太少时输出检索结果1.文摘2.全文选择检索系统1.学科范围2.系统类型3.系统功能

确定检索词

1.切分2.删除3.替补4.组合5.增加用户评价

1分析检索课题

例如:查找有关消防的文献。所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的)需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类型)需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围)——需要系统地掌握某学科的知识,可以选择图书;——需要撰写研究项目的开题报告、论文,开展技术攻关,可以选择研究报告、科技论文、学位论文、会议文献等;——需要进行发明创造、工艺改革、新产品设计、引进设备、签订合同,可以选择专利说明书、标准文献、产品资料等。2选择检索系统

学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。例如,石油和矿业工程的力学计算方面的课题,也可以考虑数学、物理学、计算机信息科学、机械工程方面的数据库。扩大检索系统的学科范围有时会带来意外的收获。系统类型。首先,在不同的文献类型系统中选择。其次,要在文摘、索引系统和全文数据库系统之间选择。第三,在专业性数据库中去查找。系统功能。一般说来,使用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。3确定检索词

1.切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院”、“电子邮件”不可再切分。确定检索词2.删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究”。确定检索词3.替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severeacuterespiratorysyndrome);确定检索词4.组合

①概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。②概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化=数字电视机。以上两种组配方式,所得到的新概念,都是原组合概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高检准率的目的。③概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。④概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。确定检索词5.增加分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:烟、癌症、恶性肿瘤。确定检索词从上述可以看出,提取检索词首先是切分、删除,其次是进行替补、组合和增加。在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。4构造检索式所谓的检索提问式,是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论