计算机信息检索_第1页
计算机信息检索_第2页
计算机信息检索_第3页
计算机信息检索_第4页
计算机信息检索_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《文献检索与科技写作》生命科学学院:常菊花第三章中文数据库检索

第一部分文献检索第五章搜索引擎检索

第二章计算机检索基本原理第六章数字信息资源综合利用

第四章英文数据库检索第一章概述第二章计算机信息检索常菊花计算机信息检索[教学目的和要求]要求学生了解计算机检索的基本原理和方法,机检服务方式,掌握光盘数据库的检索技能,网络信息检索方面的知识。

主要内容:

第一节计算机检索概述

第二节计算机检索原理和检索技术

一、计算机信息检索的定义二、计算机检索系统的构成三、数据库数据库的基本类型(按内容性质分)数据库的结构:以书目数据库为例第一节计算机检索概述一、计算机信息检索的定义

计算机信息检索就是利用计算机对信息进行存贮与检索。特点:

相对于手工检索,计算机检索无论在检索途径、检索速度,还是在检索范围、检索时差方面,均有很大的优势,因而得到了广泛的应用。计算机信息检索大体经历了三个发展阶段(一)脱机检索阶段从50年代中期到60年代中期。

1954年,美国海军兵器中心首先采用IBM-701型计算机建立了世界上第一个科技文献检索系统,实现了单元词组配检索,检索逻辑只采用“逻辑与”,检索结果只是文献号,1958年,美国通用电器公司将其加以改进,输出结果增加了题名、作者和文献摘要等项目。1964年,美国化学文摘服务社建立了文献处理自动化系统,使编制文摘的大部分工作实现了计算机化,以后又实现了计算机检索。(二)联机检索阶段

从60年代中期到70年代初。由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以进行人机对话,从而实现对远距离之外的数据库进行检索的目的,即实现了联机信息检索。这个时期,由于计算机处理功能的加强,数据存贮容量的扩大和磁盘机的应用,为建立大型的文献数据库创造了条件。例如美国的DIALOG系统、ORBIT系统(书目情报分析联机检索系统)、BRS系统(存贮和信息检索系统)等都是在此时期发展起来的,并且均得到实际应用。(三)网络化联机检索阶段

从70年代初到现在。由于电话网、公共数据通信网都可为情报检索传输数据。特别是卫星通信技术的应用,信息用户可借助国际通讯网络直接与检索系统联机,从而实现不受地域限制的国际联机信息检索。尤其是世界各大检索系统纷纷进入各种通信网络,每个系统的计算机成为网络上的节点,每个节点联接多个检索终端,各节点之间以通信线路彼此相连,网络上的任何一个终端都可联机检索所有数据库的数据。这种联机信息系统网络的实现,使人们可以在很短的时间内查遍世界各国的信息资料,使信息资源共享成为可能。二、计算机检索系统的构成

计算机信息检索系统主要由三个部分构成,即硬件部分、软件部分和信息数据库。

(一)硬件部分主机、外围设备以及与数据处理或数据传送有关的其他设备。(二)软件部分计算机软件又称计算机程序,是指控制计算机进行各种作业的一系列指令和进行“人机对话”及各种数据的存贮和传输的“翻译”规则。(三)数据库数据库是计算机信息检索的重要组成部分。

数据库的基本类型(按内容性质分)1、文献型数据库(fulltextdatabase;bibliographicdatabase)

如:中国学术期刊(光盘版)

2、非文献型数据库(factdatabase;datadatabase;概念型数据库、图像型数据库等。)

datadatabase:存贮有科学数据,统计资料等数据。

Factdatabase:存贮有企业名录、百科全书、人名录等有利用价值的信息。概念型数据库:存贮有各种名词属于或语言资料,一般来源于词典等。图像型数据库:存贮有某些图象信息,如图片、云图、工程设计图等。由字段、记录、文档组成字段:字段的构成=字段标识符+字段值字段的类型:三种检索系统存取号AN(AccessionNumber)基本索引字段(Basicindexfields)如Ti、Ab、De等(表达文献的内容特征)辅助索引字段(AdditionIndexFields)如:

Au、Py、Jn、La、Dt等,表达的是文献的外部特征。

常用字段代码及其表示法(见下页)

数据库的结构:以书目数据库为例

字段代码字段名表示方法TITitleapple?intiABAbstractmachineinab

DEDescriptorsbuildingindeAUAuthorau=liuBNISBNbn=0-5635-0144-4CCCALClassification(分类号)cc=921CDConferenceDatecd=19960501CLConferenceLocation(会址)cl=hangzhouCTConferenceTitlect=roboticsandautomationCYConferenceYearcy=1996DTDocumentTypedt=bookLALanguagela=englishPYPublicationYearpy>=1990SNISSNsn=1060=9857SOSourcePublicationso=power记录:见下页举例

文档:根据记录在文档内的组织方式和存取方法,文档分为:顺排文档(也称主档):按文献存取号先后顺序排列的,相当于检索工具正文部分。倒排文档:相当于检索工具中根据需要而编制的各种索引。数据库是由若干文档构成。分类号:TH122文章编号:1004-132X(2003)10-0828-04著者:周思柱等篇名:金刚石钻头复合片模具设计机理探讨刊名:中国机械工程信息出处:2003.5(10).828-831主题词:金刚石钻头模具应力设计第二节计算机检索原理和检索技术一、计算机检索原理二、计算机检索步骤三、计算机检索技术四、检索策略的制定五、检索举例六、检索技巧打开数据库输入检索提问(检索式)在索引词典文档中比较和匹配从记录号倒排文档中调取记录号集合记录号集合间的逻辑运算顺排文档中调取记录输出命中记录结束检索

记录内容不合要求重新调整检索策略

篇数不合要求

结果不匹配重新输入检索标识

另选数据库关于计算机文献信息数据库的检索原理我们可参考下图:第二节计算机检索原理和检索技术一、计算机检索原理*二、计算机检索步骤三、计算机检索技术四、检索策略的制定五、检索举例六、检索技巧

二、计算机检索步骤

1、分析、理解课题2、选择检索系统和数据库3、选择检索词、构造检索式

1、分析、理解课题(1)了解用户信息需求的目的和意图目的和意图不同,检索式、范围就不同(2)分析主题要求分析检索课题涉及的学科范围、以便选定合适的检索系统和数据库。分析主题内容:主题的广度和深度。(3)时间要求

(4)检索效果的要求即检索结果的查全率、查准率。所需文献的大概数量是否提供原始文献等。查全率要求较高时:选择检索词的主题概念范围要宽一些。查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。对于同时提供原文:选用全文数据库(5) 检索费用及其他要求:2、选择检索系统和数据库光盘检索系统比联机检索系统数据库更新周期长,INTERNET网上的各种信息查询工具,对网上许多免费的数据库进行检索和下载。

3、选检索词、构造检索式(1)检索词:是表达文献信息需求的基本元素,是计算机检索系统中有关数据库进行匹配的基本单元。

(2)检索式的构造检索式:就是指计算机信息检索系统中用来表达检索提问的逻辑表,由检索词和各种运算符及系统规定的其它组配符构成。第二节计算机检索原理和检索技术一、计算机检索原理二、计算机检索步骤*三、计算机检索技术四、检索策略的制定五、检索举例六、检索技巧三、计算机检索技术

1、布尔逻辑检索功能

2、词间位置检索功能

3、截词检索功能

4、字段限定检索功能

1、布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。

逻辑与(逻辑乘)

逻辑或

异或关系

“逻辑非”的“逻辑或”关系

“逻辑或”的“逻辑非”逻辑非被标引在该词下的

(1)“逻辑与”(逻辑乘)

用运算符号:AND或*连接检索词例查“有关计算机在图书馆中的应用”的文献,检索式=计算机*图书馆例查“材料的性质”检索式=材料*性质用文氏图表示:图1-1

AANDB

A

B

(2)“逻辑或”

用运算符号“OR”或“+”连接两检索词

例1查“苹果或梨”方面的文献

检索式=苹果+梨它在同义词检索中使用,能提高查全率。

例2查“计算机或机器人”方面的文献

检索式=计算机+机器人用文氏图表示如下:

AORB

A

B

(3)“逻辑非”

用运算符号“NOT”或“—”连接两检索词ANOTB

有的书上也称为“与非”关系,即“逻辑乘”与“逻辑非”例1查“玉米但不是甜玉米”方面的文献。检索式=玉米—甜玉米

例2查“不是铬的合金”方面的文献。检索式=合金—铬用文氏图表示:图1-3

ANOTB

A

B

(4)“异或”关系

(AORB)ANDNOT(AANDB)“异或”排除掉的是AANDB部分例A=水上运输工具,B=陆上运输工而“异或”的关系则排除了AANDB的那部分,即“水陆两栖运输工具”不能被命中。这同AORB

是有区别的。用文氏图表示如下:

(AORB)NOT(AANDB)

A

B(5)“逻辑非”的“逻辑或”关系即:

NOTAORNOTB

两检索词的。

例:查除俄文、法文两种文字之外的其它各语种的文献。用文氏图表示:图1-5

NOTAORNOTB

A

B(6)“逻辑或”与“逻辑非”

即:AORNOTB

检索A但否定B后的逻辑或,例:检索焊接(A)方面的资料,但不要技术标准(B)。

这样,结果是“焊接标准”的资料被排除了。但是其它一切课题的资料(除标准外)的资料均被命中。用文氏图表示:图1-6

因此,AANDNOTB和AORNOTB是不同的其效果相差很远。

AORNOTB

A

B(7)A即标引在A检索词下的文献,(8)NOTA检索不是检索词A下文献。

总结:布尔逻辑检索是把任何检索课题加工成可以进行逻辑运算的表达式,这是计算机检索的一种被广泛采用的匹配方式。布尔逻辑运算的优点是简单明确、易于理解、符合人们的思维习惯。

A

A

NOTAA三、计算机检索技术

1、布尔逻辑检索功能*2、词间位置检索功能

3、截词检索功能

4、字段限定检索功能2、词间位置检索功能

文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样。用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只定性规定检索词的范围,而不限定检索词位置关系,易造成误检的不足。

词间位置检索技术就是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。这种检索在利用TI和AB途径检索时,对检索质量影响很大。

2、词间位置检索功能

例:检索“小麦中氨基酸”(determinationofaminoacidsinwheat)检索式:determinationwithaminoacidswithwheat

位置算符的应用,能缩小检索范围,提高查准率。

三、计算机检索技术

1、布尔逻辑检索功能

2、词间位置检索功能*3、截词检索功能

4、字段限定检索功能3、截词检索功能

截词运算符号有两个:“?、*”

L在SPIRS系统(SilverPlatterInformationRetrievalSystem是美国著名的学术数据库出版商银盘信息公司的检索系统)中?为有限截断、*为无限截断;例:1、teen*teen,teens,teenage,teenager等。

2、teen???Teen,teens,teenage(在词尾加?号,以?号的个数表示词后最多可跟字母的个数)

L截词方式有很多,按截词位置可以分为:L前截断(后方一直检索):?Chemistry:chemistry、biochemistry、Electrochemistry、

physicochemistry(物理化学)等。L后截断(前方一直检索)例:chem*

chemical(化学制品)、chemism(化学机理)、chemomorphosis(化学诱变)、chemosynthesis(化学合成)等。L中间截断:wom?n

分别检出了woman,women两词fib?board

分别检出了fiberboard,,fibreboard两词。L截词检索在中文数据库中截的是词意,例:西北?分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。L在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。例“金属”metal*metal

、metals、metaled、metalist等。L利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。

三、计算机检索技术

1、布尔逻辑检索功能

2、词间位置检索功能

3、截词检索功能*4、字段限定检索功能4、

字段限定检索功能

(1)将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有:

in、=、<、>、≤、≥

例1:Englishinla例2:py≥1992

(2)在一个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序、以及体现概念的完整性。例3:查“玉米方面的英文”文献

检索式=(maizeorzea-maysorcorn)indeand(Englishinla)

l

所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。第二节计算机检索原理和检索技术一、计算机检索原理二、计算机检索步骤三、计算机检索技术*四、检索策略的制定五、检索举例六、检索技巧四、检索策略的制定:

(一)检索策略:是全盘计划与方案(1)首先要了解用户的检索目的和要求,列出待检课题的学科范围、主题范围等。(2)确定检索词和词的截断部位,调整词之间的位置关系及组配关系。(3)选择相关数据库,确定检索途径。(4)拟定检索式。(5)实检与反馈调节。根据检索的具体情况及时调整检索策略,使检索结果符合用户的要求。(一)检索策略(二)、选择检索词应注意问题。(1)该词的所有拼写形式和方法(包括同义词,元素和元素符号、缩写和全称等)(2)该词的广义词、狭义词、相关词及多义词等。(3)

该词的最佳截断部位(4)应包括那些非主题的词。如;LA,PY等。(5)参考有关的叙词表

(6)对于泛指的主题概念词,应选用其包容特性的具体内容来表达:例:水果贮藏方面的文献:(appleorpearor……)andstorage

例:哺乳动物胚胎发育方面的文献(sheeporpigorcowor…….)代替

mammalanimal(7)具有层次结构或等级关系的主题概念,应用其包容特性的名称来表达:例:谷类作物真菌方面的文献

cerealandfungi(二)、选择检索词应注意问题。

(8)当课题面窄,提问专指度高,而数据库中对文献的标引深度可能不足时,对检索词可进行粗化,取其上位检索词例:玉米同功酶方面的文献:

isozymesenzymes(三)、拟定检索式要求:(1)表达课题要求(2)必须与数据库文献标识相匹配(3)简单明了

(二)、选择检索词应注意问题。第二节计算机检索原理和检索技术一、计算机检索原理二、计算机检索步骤三、计算机检索技术四、检索策略的制定*五、检索技巧六、检索举例五、检索技巧检索技巧主要是对逻辑运算符、词间位置算符、检索主题概念的提取方法等的综合应用,其目的是保证查全和查准率.(1)输出篇数过多此时多数是由误检造成,原因可能有以下两点:

1)主题词本身的多义性导致误检,例如,使用仅“DNP”(邻苯二甲酸二壬酯)作为检索词查找,结果找出的文献含有“DNP邻苯二甲酸二壬酯”、“DNP动态核极化”、“DNP糖尿病患者”、“DNP防老剂”和“DNP表面活性剂”等多种内容。

2)对所选的检索词的截词截得过短,例如,使用“CAT?”甚至“CA?”查找“CATALYST,又如,使用“PREP?”查找“PREPARATION”,都会造成误检。(1)输出篇数过多策略调整方法:

①减少同义词或同族相关词;

②增加限制概念,用逻辑“与”(AND)将它们连接起来。例如,将DNP*DETERGENT(洗涤剂)组配,就可将DNP表示的另四种含义的文献删去;

③使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;

④使用适当的位置算符;

⑤使用“非(NOT)”算符,排除无关概念。

(2)输出篇数过少此时多数是由漏检造成,原因可能有以下几点:1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词例如,没有使用“泡沫塑料”或“泡沫橡胶”,而使用了俗名“海绵”。(2)输出篇数过少

2)同义词没能运用全例如,希望查找“设备”时,只使用“APPARATUS”,没有使“EQUIPMENT”和“DEVICE”等;查找“品牌”时,没有考虑到还有“名牌”、“牌号”以及“商标”也都可以使用。

(2)输出篇数过少

3)上位概念或下位概念没有完整运用,

如,“燃料”是上位概念,下位概念“固体燃料”,“液体燃料”,“气体燃料”,甚至“煤”,“油”,“煤气”,“天然气”等,这些概念在查找“燃料”时,都应考虑。

(2)输出篇数过少4)其他造成漏检的原因位置算符用得过严

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论