第二章-信息检索理论基础课件_第1页
第二章-信息检索理论基础课件_第2页
第二章-信息检索理论基础课件_第3页
第二章-信息检索理论基础课件_第4页
第二章-信息检索理论基础课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章信息检索基础理论

本章要点

·信息检索的概念及类型

·信息检索语言和工具·信息检索技术及策略本章主要讲述信息与信息资源的基本内容;信息检索的含义及主要类型;

信息检索语言和常用工具;

信息检索的方法、步骤、途径及信息检索的策略与效果评价。

第二章信息检索基础理论目录:

2.1信息检索的含义及类型

2.3信息检索技术与策略2.2信息检索语言和工具

2.1信息检索的含义及类型

2.1.1信息检索的含义

广义的信息检索(信息存储与检索,informationstorageandretrieval),包含了将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的全过程。狭义的信息检索,即根据需要,借助于检索工具,从信息集合中找出所需要信息的过程,相当于人们所说的信息查寻(informationsearch)。

2.1信息检索的含义及类型

2.1.1信息检索的含义1.信息标引和存储过程标引:根据文献的主题内容,按照某种规范化主题词典或词表,给予主题词和副主题词作为检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。

信息标引是对大量无序的信息特征进行著录、组织,使之有序化。

信息存储是对有关信息进行选择,并按科学的方法组成检索工具和检索文档,建立信息数据库;即组织检索系统的过程。

2.信息的需求分析和检索过程分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问制定策略和表达式,利用信息数据库获取相关信息。信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。2.1.2信息检索类型划分示意图依检索结果内容

划分依信息存储与

检索方式划分手工检索计算机检索事实信息检索文献信息检索数据信息检索信息检索类型文献线索检索全文检索

2.2信息检索的语言和工具

2.2.1信息检索语言

信息存储

信息检索

1、信息检索语言的概念信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与检索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言。2、信息检索语言的作用

检索系统

信息检索语言检索结果文献信息主题主题标引主题标引检索

标引标引用户信息

2.2信息检索的语言和工具

2.2.1信息检索语言信息检索语言

分类语言★3.信息检索语言的种类就其结构原理来划分,信息检索语言主要有

:

主题语言

代号语言

引文语言

等级体系分类语言

分面组配分类语言

标题词语言

元词语言

叙词语言

关键词语言

2.2信息检索的语言和工具

2.2.1信息检索语言信息检索语言

描述文献外部特征的语言★3.信息检索语言的种类按照信息特征描述划分,信息检索语言主要有

:

书名、刊名、篇名等文献类型文献出版类型分类语言

描述文献内部特征的语言著者、编者、译者等号码(报告号、专利号、标准号等)主题语言

标题词语言

关键词语言

2.2信息检索的语言和工具

2.2.1信息检索语言

1)构成4.信息检索语言的构成及其要素

表达基本概念意义的词汇控制语言使用的语法,据此把基本的词汇组合起来表达更为复杂的概念意义,主要体现为各种标引规则、组配规则、引用次序等

从语言学的角度分析信息检索语言的构成应分为三个部分用于组成词汇的形式化符号,通常有字母、数字或文字等。

2.2信息检索的语言和工具

2.2.1信息检索语言2)要求4.信息检索语言的构成及其要素

专指性

检索语言应该能够描述文献和提问的特征,即要有充分的表达能力,能全面、准确地描述任何复杂的文献信息以及提问内容。具体要求如下:唯一性

灵活性

2.2信息检索的语言和工具

2.2.2检索工具

1.检索工具的定义与类型

检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。按照检索手段的不同,可分为手工检索工具和计算机检索系统。按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。

2.2信息检索的语言和工具

2.2.2检索工具

题录报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国《化学题录》、《中文科技期刊题录数据库》等。

目录通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道.例如:《全国新书目》、《全国总书目》、《全国报刊简明目录》等。

文摘是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并注明其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:《新华文摘》、《经济学文摘》等。文摘按著录内容划分题录目录索引

索引是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并注明出处,按一定的规则编排起来的一种检索工具。例如:《经济科学论文索引》《社会科学引文索引》等。2.2信息检索的语言和工具

2.2.2检索工具2.数据库1)数据库的概念数据库(DB,Database)是长期储存在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。

数据库管理系统(DBMS,DatabaseManagementSystem)是位于用户与操作系统之间的一个数据管理软件。①数据定义,用户通过它可以定义数据库中的数据对象;②数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;③数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;④数据库的建立和维护等。基本功能●

数据库系统(DBS,Database

system)是指在计算机系统中引入数据库后构成的计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、应用系统、数据库管理员和用户构成。●书目数据库2.2信息检索的语言和工具

2.2.2检索工具2)数据库的类型按服务模式划分图像数据库全文数据库按信息处理层次划分文摘数据库按收录的文献类型划分

期刊论文数据库书目及图书全文数据库专利数据库学位论文数据库产品数据库按收录文献信息的范围划分综合性数据库专业性数据库文本数据库数值数据库声音数据库视频数据库多媒体数据库单机数据库联机数据库网络数据库按媒体信息划分

是数据库中数据组织存储的基本形式,是数据和信息的有序集合,由若干条记录组成,一个或若干个文档构成一个数据库。通常一个数据库至少包括一个顺排文档和一个或多个倒排文档。

2.2信息检索的语言和工具

2.2.2检索工具3)数据库的结构文档

记录

字段

是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有一个或多个文档,一个文档由若干条记录构成,而一条记录由若干字段组成。在文摘数据库中,一条记录相当于检索刊物中的—条文摘款目。

是记录的基本组成单元,是有关一篇文献或称一条记录的基本数据单元,每一个字段都反映该篇文献的一个方面的信息,组合在一起形成对一篇文献信息的内容特征和外表特征的完整描述。在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。

2.2信息检索的语言和工具

2.2.2检索工具4.计算机检索系统

检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力。

计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。

1)光盘检索系统

光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检索系统,由计算机、光盘数据库、检索软件等组成。

目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。

与手工检索相比,光盘检索的可检信息量大,一套《四库全书》印刷版有3000多册,而光盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快者1个月,慢者1年),因此信息的获得比国际联机检索慢。2.2信息检索的语言和工具

2.2.2检索工具

2)联机检索系统

回溯检索是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。

是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息被称为国际联机检索。

联机检索系统主要有以下四种服务方式:定题检索是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。

联机订购。联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。

电子邮件联机检索系统为用户提供E-mail和电子邮政的功能。用户输入E-mail号码和通信内容,就可以在几秒钟内接收到本需耗时几天的信件投递。2.2信息检索的语言和工具

2.2.2检索工具网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方法简单、灵活、方便、时效性强、费用低。3)网络检索系统

发出检索请求

返回检索结果

数据库服务器客户机

客户机/服务器请求与响应示意图

返回检索结果

匹配检索2.2信息检索的语言和工具

2.2.2检索工具

早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(E—mail)、电子公告栏(BBS)、新闻组(USENET)等。

具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络数据库检索系统、搜索引擎、多媒体信息检索系统等。3)网络检索系统

收录质量,收录信息收录范围与信息质量标引质量,著录的详略,著录、标引的质量检索功能,检索语言易用性和效果满意度报道速度,信息报道的时效检索工具评价标准另外可读性和权威性可作为选择百科全书和词典等参考型工具的辅助指标,而网络检索必须考虑速度和检索费用。2.3信息检索方法顺查法:时间上,远近查全率高倒查法:时间上,近远查准率高抽查法:研究的高级阶段检索效率高追溯法(引文法):

A.一次文献参考文献一次信息参考文献……近远

B.一次文献引用该一次信息的文献新的一次文献……实际是由“远近”越查文献越新交替法(综合法)常规法(工具法)2.3信息检索的技术与策略

2.3.1信息检索基本技术

在计算机信息检索系统中,比较通用的有浏览、简单检索和高级检索等功能。

浏览功能是由信息工作者将各种信息按一定的方式组织起来,按信息的主题、分类等方式编制成树状结构体系,供用户层层点击,进入不同分支查看检索结果列表。

简单检索和高级检索是利用检索词(或检索式)进行检索,返回与之相符的检索结果。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检索、词间位置检索和限定字段检索等检索技术。精确与模糊检索

2.3信息检索的技术与策略

2.3.1信息检索基本技术

基本技术词间位置检索

加权检索

布尔逻辑检索

限定字段检索

限定范围检索截词检索1234567检索技术及其实现

1、布尔逻辑组配检索技术

布尔逻辑组配检索:是指利用标准的布尔逻辑关系词来限定检索词之间的逻辑关系的检索技术,它是现行计算机检索的基本技术。主要的布尔逻辑关系词有3种:与(AND)、或(OR)、非(NOT),其优先级依次为NOT、AND和OR,改变优先级的方法是使用括号(),括号内的逻辑式优先执行。

用A和B表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:1.AandB2.AorB3.AnotB

①逻辑与(逻辑乘)

用关系词AND或“*”表示,表示它所连接的两个检索词必须同时出现在结果中才满足检索条件。例如:“东南亚*经济危机”或

“东南亚AND经济危机”

“聚乙烯*复合材料*制备”

Intelligentrobotandcontrol

逻辑与用来缩小文献检索范围,提高查准率,是具有概念交叉和限定关系的一种组配。

②逻辑或(逻辑加)用关系词OR或“+”表示,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件。例如:“金融危机OR金融风暴”

“自行车+单车+脚踏车”

“计算机or电脑or微机”

“airplaneoraircraftorplane”

逻辑或用来扩大文献检索范围,提高查全率,是具有概念并列关系的一种组配。

③逻辑非(逻辑减)用关系词not或“-”表示,表示它所连接的两个检索词中应从第一个概念中排除第二个概念。例如:“beveragenotalcohol”

“高等教育-成人教育”

逻辑非用来缩小文献检索范围,提高查准率。

2、截词检索技术所谓截词检索,是指在检索式中用专门的截词符号(如“?”、“*”或“!”)表示检索词的某一部分允许有一定的词形变化,因此检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词,结果中只要包含其中任意一个就满足检索要求。截词检索的作用是对检索词进行截词处理,解决一个检索词的单、复数问题,不同词性的问题以及英美词汇拼写差异的问题等。由于截词检索是隐含的布尔逻辑或的检索,因此能够防止漏检,提高查全率。

(1)按截断部位可分为:右截词中间截词左截词右截词(后端截词、前端一致):允许检索词尾部有若干变化形式,例如“edit*”

就检出包含edit、editing、edition

、editor、editorial、editorialist

、editorialize、editorship

、editorially等词汇的结果等;

中间截词:允许检索词中间有若干变化形式,例如“wom*n”就可以同时检索到含有woman和women的结果,又如“defen*e”就可以同时检索到defence和defense的结果;

左截词(前端截词、后端一致):允许检索词的前端有若干变化形式,例如“*magnetic”就能检得包含magnetic、electro-magnetic、paramagnetic、thermo-magnetic等结果。

3、词位限定检索技术

词位限定检索:也叫邻近检索,它主要是通过检索式中的专门符号(位置算符)来规定检索词在结果中的相对位置,主要用于词组检索和短语检索。常用的位置算符有(W)、(nW)、(N)、(nN)。(W)算符:(W)是with的缩写,它表示在此算符两侧的检索词必须严格按输入时的前后顺序出现在记录中,在两词之间不允许插入其他词或字母,只可有空格或一个标点符号。

如:x(W)ray检索命中的记录中将有“x

ray”或“x-ray”等形式。(nW)算符:表示该算符两侧检索词的词序不变,但允许两词中间最多可插入n个其他检索词。

如:state(2W)art在命中记录可能检出:“stateart”、“stateofart”

、“stateoftheart”。

如智能机器人(w/3)控制,可检出:“智能机器人控制”、“智能机器人行为控制”等(N)算符:N是near的缩写,它表示其两侧的检索词的词序可以颠倒,但在两词之间不能插入任何其他词。

如:environment(N)protection可能检出:environmentprotection和protectionenvironment两个词组。(nN)算符:表示在两个检索词之间最多允许插入n个其他检索词,两个检索词的词序可以颠倒。如:

environment(2N)protection可能检出:environmentprotection;

protectionoftheenvironment;protectionofwaterenvironment;protectionofforestenvironment等。

如智能机器人(n/3)控制,可检出:“智能机器人控制”,“..控制算法对智能机器人的影响”等

4、字段限定检索技术

字段限定符(标识符):通常是两个缩写的字母,代表在数据库中的记录字段。

如:TI代表题名(Title),

AU代表著者(Author)等。

TI=美学*AU=朱光潜;

通常的字段限制范围的大小顺序是:

题名<关键词<摘要<全文

限定检索字段,其作用是限制检索词在数据库记录中出现的字段位置。检索时,机器只对限定字段进行运算,这是提高检索效率的又一措施。

2.3信息检索的技术与策略

2.3.2信息检索策略

2、检索途径世界三大图书分类法《杜威十进分类法》(DDC)(DeweydecimalClassification)《国际十进分类法》(UDC)(UniversalDecimalClassification)《国会图书馆图书分类法》(LCC)(Librarycongressclassification)中国图书分类法《中国图书馆分类法》(中图法)《中国科学院图书馆分类法》(科图法)《中国人民大学图书馆分类法》(人大法)

图书期刊分类法

中图法五大部类A.马列毛、邓小平理论B.哲学、宗教C.社会科学总论N.自然科学Z.综合类表2-1《中国图书馆分类法》基本大类表A马克思主义、列宁主义、毛泽东思想N自然科学总论B哲学法律O数理科学和化学C社会科学总论P天文学D政治Q生物科学E军事R医药、卫生F经济S农业科学G文化、科学、教育、体育T工业技术H语言U交通运输I文学V航空航天J艺术X环境科学K历史地理Z综合性图书T工业技术

TB一般工业技术-工业技术

TD矿业工程

TE石油、天然气工业

TF冶金工业

TG金属学与金属工艺

TH机械、仪表工业

TJ武器工业

TK能源与动力工程

TL原子能技术

TM电子技术

TN无线电电子学、电信技术

TP自动化技术、计算机技术

TQ化学工业

TS轻工业、手工业

TU建筑科学

TV水利工程表2-2文学类的类目设置

Ⅰ文学Ⅰ0文学理论Ⅰ1世界文学Ⅰ2中国文学Ⅰ3/7各国文学Ⅰ22诗歌、韵文Ⅰ23戏剧文学Ⅰ24小说Ⅰ25报告文学Ⅰ26散文Ⅰ27民间文学……………..Ⅰ222古代至近代作品(~1919年)Ⅰ226当代作品(1919~1949年)Ⅰ227现代作品(1949年~)Ⅰ227.1自由诗Ⅰ227.2抒情诗Ⅰ227.3叙事诗Ⅰ227.7格律诗Ⅰ227.8词Ⅰ227.9其他F经济《中图法》层层隶属、逐级展开的逻辑体系

F0政治经济学F1世界各国经济概况F2经济计划与管理F3农业经济F4工业经济F5交通运输经济F6邮电经济F7贸易经济F8财政经济F71贸易经济理论方法F72中国贸易经济F73各国贸易经济F74国际贸易F75各国对外贸易F76商品学F761一般性著作F762农产品F763医疗用品F764重工业产品F765建筑器材F766交通运输器材F767化学工业产品F768轻工业产品分类途径的优缺点1)优点(1)族性检索,查全率较高。(2)按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用【例题】检索英语会话类辞典,例如《美国语会话百科》、《英语会话大全》、《现代英汉生活用语图解词典》,请选择,哪种检索途径才能够同时查出这3本书?

【选项】A.用关键词“会话”和“词典”

B.用中国图书分类号H319.9-61C.用书名“英语会话”和“大全”

D.用书名“英语会话”和“词典”分类途径的优缺点2)缺点

(1)不适用于特性检索,查准率比主题词低

【例题】论文《活菌制剂与抗生素对仔猪饲料消化率和肠道微生物数量的影响》适合用分类途径还是主题途径检索?

【题解】这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且分到两个类目,不易归类,适宜用主题途径检索。

(2)不能适应学科发展中的变化,难以反映新学科和新名词术语

【实例】食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文章在分类上暂时归入[R155.5]食品卫生与检验和[TS201.6]食品安全与卫生。没有一个专门的“食品风险分析”分类号。

(3)人们认识的不统一,往往造成分类不一致及排检的错误,不易反映交叉学科。

【实例】例如管理心理学,它是心理学的一个分支,主要是研究企业中人的心理活动规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们很可能误解为归入管理学。

常见的号码索引:ISBN号、索书号、ISSN号、专利号、入藏号、报告号、标准编号常见的专用符号代码索引:元素符号、分子式、结构式等常见的专用名词术语索引地名、机构名、商品名、生物属名等注:索书号:由两部分组成,中间用空格或/隔开。第一部分是根据图书的学科主题所取用的分类号码。第二部分是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。

2.3信息检索的技术与策略

2.3.2信息检索策略

信息需求分析确定检索要求

选择检索工具确定检索词和检索途径

编制检索式、执行检索优化策略检索结果的整理

1、检索策略的制定信息检索的一般步骤获取原文

1、信息需求分析,

信息需求分析是让检索者了解检索目的,明确课题的主题或主要内容,课题所涉及的学科范围,所需信息的数量、出版类型、年代范围、涉及语种、已知的有关作者、机构,课题对查新、查准和查全的指标要求等。

如:查找2006-2008年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文2006-2008年度(时间范围)报刊论文(文献类型)邓伟志(著者姓名)社会学(所属学科)家庭婚姻(主题内容)如:查找2006-2008年江凤益先生在报刊上发表的有关蓝色发光材料的论文2006-2008年(时间区间)

报刊论文(文献类型)

江凤益(著者)

材料学(所属学科)

蓝色发光材料(主题内容)各个数据库都有其不同的收集范围(如学科范围、文献类型、国别或语种等),检索者应根据自己课题的需要,选择相应的信息数据库。但任何数据库都不可能及时地将相关的信息收录齐全。因此,如有条件在指定检索策略时,应考虑多选几个相关的数据库。

2、选择适用的检索工具

3、确定检索词、检索途径

检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得恰当与否,会直接影响着检索效果。

选择检索词的原则:

(1)选择规范词。

(2)尽量使用代码。

(3)注意选用国外惯用的技术术语。

(4)避免使用低频词或高频词。

(5)同义词尽量选全。

课题检索词分析方法:概念提取和扩展方法汉语词语切分方法课题:当前我国民营企业家族化管理的研究检索词:(概念提取和扩展方法)

民营企业、个体私营企业、私营企业、家族企业、家族化管理、家族式管理、家族管理、家族管理、家族化检索限定:(时间范围;(当前)2-3年内)(地域范围;(我国)中国大陆范围)(学科范围;管理学、企业经济)课题:查找有关吸烟致癌的文献检索词:(概念提取和扩展方法)

中文:吸(抽)烟、烟草、香烟、烟、尼古丁(烟碱)英文:Smoking、tobacco、cigarette、nicotine中文:癌、瘤(肿瘤)、毒素、肺癌、口腔癌英文:cancer、neoplasm、toxin、lungcancer、mouthcancer学科:医学(R)→肿瘤学(R73)相关学科:生物科学确定检索途径根据分析出的主题的外表与内容特征确定检索的途径。题名、责任者、分类等途径

4、编制检索式;优化检索策略

编制检索式的核心是编制一个既能表达检索课题需求,又能为计算机识别的检索式。

检索式是检索策略的具体表现,它的质量直接影响到检索结果的质量。编制检索式(检索提问式、检索表达式、逻辑式)是将各检索单元或检索词之间用逻辑算符、位置算符、截词、优先符等系统规定的组配符连接起来,确定检索词之间的关系,准确地表达课题需求的内容,以保证和提高检索的查全率和查准率例:编写检索式(中文)

课题:民营企业家族化管理的研究民营企业and家族化管理(或民营企业*家族化管理)民营企业*家族*管理(民营企业or

个体私营企业or

私营企业or

家族企业)and

家族and管理(民营企业+私营企业)*(家族化+家族管理)课题:计算机网络病毒防治计算机*网络*病毒*防治计算机网络and病毒防治计算机网络病毒*

(防治+防护)网络病毒防治or网络安全(计算机+电脑+微机)*网络病毒*(

防治+防护)优化检索策略注意事项:(1)检索词尽可能使用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌将整个题名输入到检索框中。如:网络数据库的安全性研究检索式:网络*数据库*安全√☺网络数据库*安全√☺网络数据库安全×网络数据库的安全性研究×注意事项:(2)要提炼关键的、核心的词作为检索词去掉意义太泛或“无所谓有”的词例1网络数据库的安全性研究关键词1:网络数据库——

研究对象☺关键词2:安全——研究目的☺而意义太泛的词“研究”不应作为检索词例2基于代理技术的网络入侵检测关键词1:(网络)入侵检测,但入侵检测一般即指网络中的入侵检测,意义重复,网络可不要。关键词2:代理(技术),在入侵检测中使用“代理”,

“代理”本身就是指的一项技术,因而技术也可不要。注意事项:

(3)避免使用“的、地、得、着、了、过”等无意义的虚词或禁用词,注:如一些固定表达的检索词中包括了禁用词,这时可用“”将其引起来,如“journalofadvancedmaterial”在编制检索式之前,一定要弄清所使用数据库的检索功能和所采用的操作算符,这样才能有效地进行信息的检索。如截词符,在EiCompendex中用“*”表示,在PQDD中用“?”表示。

传统的检索过程在获得一批相关检索结果后便算检索任务完成,而现代的检索强调的不只是获得知识信息,更注重对结果的分析、整理、组织与重组,因为获得的检索结果往往是凌乱的、不系统的,存在交叉和重复甚至是互相矛盾的情况,这就要求对它们加以分析,去粗取精、去伪存真,提取有用的信息。

1.对资料进行鉴别、比较对搜集来的原始资料进行质量上的评价和核实:

·一是要判断结果与查找主题的真伪,若资料本身不真实则应舍去,当然有时也可作为反证的证据;

·二是判断是否全面,若不全则调整检索策略,进行二次或三次检索;

·三是判断相关的程度,对最相关信息加以详细研究,部分相关的取相关部分,不相关的则舍去。

判断的过程也是一种研究学习的过程,可以产生许多新的灵感。5、检索结果的整理

2.对结果的整理最简单也最常用的资料整理方法是利用分类的方法,我们可就以下几方面对结果加以分类:·一是将与主题相关的信息内容集中,不相关信息作为备用记录或舍去;.二是将论点与论据信息分别汇总,便于调用信息;.三是将马上要用到的信息与以后可能用的信息分开,这样形成检索结果资料的汇编与检索资料笔记,并作简要说明。3.比较分析即运用科学的分析方法和研究方法对所占有的信息资料进行分析,研究特定课题的现象、过程及内外各种联系,找出规律性的东西,构成理论框架,把所占有的信息转化成为自己的东西。检索的过程是对信息综合查找与分析利用的过程,在不具备很高检索技巧的情况下通常需经过多次反复实践以上五个步骤才能获得比较满意的检索结果,因此检索中我们要实践、实践、再实践。6、获取原文

1.识别原文的特征信息尽管我们有时需要的是关于原文的线索与综述,但从普遍的检索目的来讲是为了获得原文信息。通过检索工具处理加工过的信息具有一些特定的标识、格式与特征,要想获取原文首先要能认识与识别各种检索工具的著录格式以及打印输出格式。在手检工具中不同的工具均有自已固定的格式,如SA、CA、EI对期刊的著录格式均不相同。在网络数据库检索中不同的库其输出的格式也不同。获得原文关键性的特征:

(1)出版物名,在检索工具中,出版物名通常以缩写的形式出现,要获取原文需利用附录中或者单独出版的出版物一览表(出版物索引、摘引期刊一览表、来源索引等)来转换为全称。中文、日文、俄文刊名在英文文摘中一律采用拉丁文音译著录,故在翻译时应首先将缩写刊名还原为全称,然后查阅有关音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论