文献信息检索与利用_第1页
文献信息检索与利用_第2页
文献信息检索与利用_第3页
文献信息检索与利用_第4页
文献信息检索与利用_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文献信息检索与利用,基本概念篇,第一章,绪,论,第一节,信息检索的意义和作用,第二节,文献、信息基本知识,第三节,文献检索系统,第一节,信息检索的意义和作用,1,信息检索是现代人才的基本生存技能,2,信息检索是现代人才信息素质的重要方面,3,信息检索是科学交流的重要途径,4,信息检索是开发信息资源的工具,5,信息检索是管理决策的基础,6,信息检索是避免重复研究的必由之路,7,信息检索是治学之道,第二节,文献、信息基本知识,一,基本概念,1,信息,消除对客观事物认识的不定性的东西,是符号、信号或消,息所包含的内容,2,知识,人们对自然和社会的认识和描述的总和,3,文献,记载有知识的载体,4,出版

2、物,可以理解为文献的表现形式或承载物,大多,数情况下等,同于文献,5,信息源,产生信息的事物,在本课程中,指文献信息源,6,信息资源,可以理解为信息源所含的信息本身,是信息源的内含,在大多数场合,信息源、信息资源、文献信息资源是同义的,7,信息检索:利用一定的工具从大量的信息资源中迅速、准确地查,找出与特定的要求有关的信息,本课程中,信息检索、文献检索、文献信息检索,视为同一概念,二)文献的构成要素,知识内容,符号系统,文献中记录信息和知识,这是文献的灵魂,表达知识信息的手段,包括语言、文字、图画,表格、公式、编码、音响、图象、声像等,信息内容存储的依附体,包括印刷型文献、音像,制品、机读资料

3、等,文献载体,记录方式,刻划、手写、机械印刷、拍摄和电脑录入、扫描,等生产方式,三)、文献的类型:按载体划分,按,载,体,划,分,印刷型文献,感光型文献,机读型文献,说明:多数著作把文献分为印刷型、缩微型、视听型,机读型四种,而以甲骨、竹简、金石、帛等为载体的文献较,少见,这里不讨论,印刷型文献(纸本文献,载体:纸张,实例:图书、杂志、报纸,记录手段:印刷、抄写,特点:可直接阅读,方便,使用;不利于检索和保存,收藏文献占用空间大,感光型文献,载体,感光材料,实例,缩微平片、电影胶片、幻灯片,记录手段,缩微技术、摄影技术,特点,体积小;价格低;不能直接阅读,机读型文献(电子文献,载体,磁性材料、

4、光盘,实例,磁盘、光盘、磁带,记录手段,磁记录、编码技术,特点,存储密度高、速度快,便,于远距离传输;易复制,成本高,不能直接阅读,三)、按出版形式划分,十大信息源,按,出,版,形,式,的,不,同,图,书,连续出版物,期刊,报纸,研究报告,会议文献,专利文献,技术标准,学位论文,产品样本,技术档案,特种文献,图书的含义,凡篇幅达,49,页以,上并构一个书目单元,的文献称为图书。未,达到,49,页的,可称为,小册子,图书的特征,主题突出,内容系统全面,论述全面深入,知识成熟稳定。适合于学习型读者,出版的周期长,因而其内容一般就缺乏,最新的研究成果,期,定义,刊,期刊又称杂志,它是指,围绕某个专题

5、的定期或不定,期连续出版的出版物。名称,统一、开本固定、有连续的,序号、汇集了多位作者分别,撰写的多篇文章,期刊的特点,A,期刊以品种为单位形成知识流,B,出版周期短,内容新颖、及时、广泛,专深,C,内容不全面系统,不成熟,论题窄,D,文献中数量最多,使用量最大,核心期刊,少数刊载某一学科大量高质量专业论文的期刊,特点,1,刊载专业文献密度高,信息含量高,2,水平较高,代表本学科的最新发展水平,3,出版相对稳定,所载文献寿命较长,4,利用率和被引率较高,目前,许多单位核心期刊的判定是以,中文核心期刊要目总览为标准,报,纸,形式特征,有统一的名称,定期连续出,版,每期汇集许多篇文章、报道、消息,

6、等,多为对开或四开,以单张散页形式,出版,报,纸,内容特征,时间性强,能以最快的速度报道国内外,发生的最新事件和科学技术的最新研究成果,内容,广泛,类型,按出版周期分,有日报、双日报、周报、旬,报等;按范围划分,有全国性报纸、地方性报纸,系统性报纸等;按内容划分,有综合性报纸、专业,性报纸,研,究,报,告,科技报告的特点,研究报告是单位和,个人向上级或委托单位,撰写的关于某个课题研,究成果的正式报告,1,内容新颖,选题尖端实用,2,不公开发行或少量发行,3,质量参差不齐,4,保密性强,5,每份报告独立成册,有连续编号,会,议,文,献,会议文献是指在各,种会议上宣读、交流的,论文、报告、会议录等

7、,文献。定期召开的会议,录或论文集其实相当于,连续出版物,专,利,文,献,专利文献主要由专利说明书构成,所谓专利说明书是指专利申请人,向专利局递交的有关发明目的,构成和效果的技术文件,科技报告的特点,1,包括发明专利、实用新型专利和外观设计专利三种,2,内容比较具体,有的还有附图,通过它可以了解该项,专利的主要技术内容,3,新颖性、创造性和实用性,有重大参考价值,4,经审核可向全世界发行,获取容易,标,准,文,献,标准具有一定的法律约束,力,对技术的规定详尽、完整,可靠,更新频繁,检索时必须,注意是否最新标准,标准,是按规定程序制订,经权威机构公认或主管部门批,准的在特定范围内执行的规格,规则

8、、技术要求等规范性文件,学,位,论,文,学位论文,是指高等院校和科研单位中的本,科生、研究生为获得学位,在导师指导下完成,的科学研究、科学试验成果的书面报告,学位论文一般不对外发行,印数少,不,容易获得,质量参差不齐,其中硕士、博士论文较,为专深,对研究工作有较大参考价值,三)、文献的类型:按文献级别划分,一次文献,二次文献,按文献,的级别,三次文献,零次文献,1,一次文献,作者以自己的研究成果为基础创作或撰写的文献,对知识的第一次加工;具有创造性,大多数期刊论文、科技报告、学术论文,2,二次文献,对一次文献进行加工整理而成的具有报道和检索,作用的文献,对知识的第二次加工;有序化;提供一次文献

9、线索,目录、题录、文摘等检索工具,3,三次文献,利用二次文献系统地检索出一批有关的文献,对,其内容进行比较分析,综合述评而编撰的文献,对知识的再加工;提供文献检索,综述、专著,字词典、百科全书,4,零次文献,还未形成一次文献的非出版物,论文草稿、谈话记录、实验记录、书信,从检索的角度来看,一次文献是检索的对象(目标,二次文献是检索的工具(手段,三次文献是情报研究的成果(检索目标,检索手段,从知识加工角度来看,一次文献是对知识的第一次加工,创造性,二次文献是对知识的第二次加工,有序化,三次文献是对知识的再加工,有序化,创造性,四)现代文献的整体特点,1,数量激增,2,类型复杂,3,文种多样,4,

10、内容交叉重复,5,文献聚散有序,6,新陈代谢频繁,第三节,一)概念,文献信息检索系统,文献信息检索,广义:将文献信息按一定方式组,织和存储起来,并针对信息用户的特点需求查找出,所需信息内容的过程。狭义,P9,职能,存储、检索,二)检索工具,参考工具书,字典、词典、百,科全书、手册、指南、名录,年表、数据、统计资料,检索工具书,书目、索引,文摘,文,献,信,息,检,索,工,具,手工检索工具,机械检索工具,计算机检索,三)信息检索的类型,文献检索,数据检索,信息检索的主要形式,通过二次文献,包括手工检索工具,和计算机检索系统,找出所需的一次文献或三次文献,以数据为对象的检索,如查找数学公式、数据图

11、表、某一,材料的成分、性能等,是一种确定性检索,是以特定的事实为检索对象。事实内容包括大量的科学事,件和社会事件,事实检索,概念检索,就是查找特定概念的含义、作用、原理或使用范围等解释,性内容或说明,三)信息检索的类型,全文检索,图像检索,多媒体检索,检索系统存储的是整篇文章或整本图书。还有另一,层意义:即从文献的全文中进行某项检索,即以图形、图像或图文信息为检索内容的信息检索,是以文字、图像、声音等多媒体信息为检索内容的,信息检索,四)检索效果评介,查全率,R,检出的符合要求的相关文献占全部相关文献的,比例,R=b/a*100,a,为符合要求的全部文献,b,为检出的符合要,求的相关文献,漏检

12、率,O,未被检出的符合要求的相关文献占全部相关文,献的比例,O,1-R,100,查准率,P,检出的符合条件的相关文献占检出的全部文献的比,例,P=b/c *100%(c,为检出的全部文献,误检率,N,检出的未符合条件的文献占检出的全部文献的,比例,N=(1-P)*100,以上四个检索评介参数只适用于内涵清楚的机检系统,习题,1,文献及文献的构成要素,2,按文献级别区分,文献可分为几种,3,在一个具有,1000,篇文献的试验性机检系统,中检索某课题,用一特定检索策略查该课,题时输出文献,60,篇。经分析评估,发现该,系统中共有该课题相关文献,50,篇,检出的,文献中实际相关文献只有,30,篇,求

13、查全率,查准率、误检率和漏检率,第二章,第一节,文献信息检索基础,检索技术及其实现,第二节,检索途径和语言,第三节,检索步骤,第一节,信息检索技术及实现,一、检索方式,1,命令式检索:用逻辑运算符、位置算符,及其他检索符号,把不同的检索词连接起来,进行检索的一个种方式。适用于专业人员,如,经济,WTO,世界贸易组织,企业,发展,2,菜单式检索:一种通过窗口菜单进行检,索的简单、易操作的检索方式。适用于一般,读者检索。如图,第一节,信息检索技术及实现,一、逻辑提问式(布尔逻辑组配,计算机检索的,基本技术,主要通过逻辑运算符(布尔算符)“与,and,*,或,or,非,not,等将检索词连接的提问式

14、,注意:优生级为,not,and,or,用括号保证优先权;运算符两侧必须各有,一个空格(半角,对、两词而言其,AND,OR,NOT,的逻辑含义如下,A and B,A * B,表示提问要求命中文献同时包含,A,B,两个特征,例:图书馆信息资源建设,提问式:图书馆,信息资源,建设,A or B,表示提问要求命中文献包含,A,B,两个特征中的任何一个即可,A + B,例:数据挖掘在信息检索与信息分析中的应用,提问式:数据挖掘,信息检索,信息分析,A not B,表示提问要求命中文献包含特征,A,但不能包含特征,B,A,B,例:自由分配方面的文献(排除海南大学师生的著作,提问式,关键词,自由分配,n

15、ot,单位,海南大学,命令式检索的组配,菜单式检索的组配,检索结果,第二章第一节,二、位置算符,在检索词之间使用,规定算符两边的检索词出现在记录,中的的位置,以提高检准率,常见的位置算符如下,位置算符,表示方法,W,或,说明,两个词在命中结果中相邻(可有空格、标点和连,字符),词序不得颠倒,两个词之间最多可夹入,n,个词,词序不得颠倒,两个词在命中结果中相邻,词序可颠倒,两个词之间最多可夹入,n,个词,词序可颠倒,两个词在同一字段出现,位置不固定,with,near,field,nW,N,nN,F,subfield,S,L,link,两个词在同一子字段出现,位置不固定,两个词在同一规范词单元内

16、出现,位置不固定,第二章第一节,三、通配符(截词检索,截词检索是利用检索词的词干或不完整的词形进行检索。其,方法是在词干后可能变化的字符处加上通配符,可减少检索词的,输入量,简化检索步骤,提高查全率,1,无限截词,检索词的词干后(前)加一个“?”(有的系统为加,表示词干后(前)可以有任意个字符。当通配符在词干后方,时,我们称为,前方一致或右截断,如,apple,可代替,apple,apples + apple-pie + applesauce,通配符在词干前方时,我们,称为,后方一致或左截断,如,economics,可代替,economics,micro economics + macro e

17、conomics,同时采用以上两种方式,为,复合截断,如,count,来代替,count + account +counter,accounting,也可截去中间部分,使词的两边一致,称为,两边,一致,如,wom?n,代替,woman + women + womyn,2,有限截词,检索词的词干后加一个或一个以上(最多,4,个)的,”,空格后再加一个“?”,则空格前的,个数表示词干,后允许有的最多字符数。如,apple? ,只能代替,apple,apples,applet,而不能代替,applejack,注意:不同的系统有不同的通配符,以上是,DIALOG,的截词方法,在,EBSCO,中,无限截

18、词符号为,,有限截词符号为“,另外,截词的部位要适当,截得太短(输入的字符不得少于,3,个),会增加误检,截得太长,会出现漏检,注意:由于文字结构方面的原因,中文检索系统极少,使用截词检索和位置算符检索,四,禁用词,在绝大多数的检索系统中,介词、代词、等单独使用,无实际意义的词以及使用频率很高的词不能作为检索词,被称为,禁用词,如,an,and,by,for,from,of,the,to,with,等等,第二章第一节,五、限制检索,在命令式检索中,通常要用字段代码来限定检索的字段,不同的数,据库使用的字段代码略有不同,全国报刊索引”的字段标识为,A,分类,B,题名,C,著者,D,单位,E,刊名

19、,F,年份,G,主题,H,文摘,I,全字段,例,B,图书馆,D,海南大学,DIALOG,的基本索引字段标识为,AB,文摘,DE,叙词,ID,自由词,SH,分类标题,TI,题目,CO,公司),检索形式,为“检索词,字段代码”。辅助索引有,AU,著作,JN,期刊,PY,年,代,检索形式为“字段标识符,检索词,例,personal (w) computer/de or network/ti) and la = english and,py = 2002,或,personal (w) computer/de, ti, id or network/ti, ab) and la,english and p

20、y = 2002,CNKI,直接用字段名称标识,如:题名,计算机,and,机构,海南大学,除字段限制外,有些检索系统还提供一类限制检索,如,EBSCO,检,索中可限制时间、全文、出版物类型、文章类型、同行评介、封,面文章、图像等,第二章第二节,检索途径和语言,一、检索途径:检索途径又称为检索点、检索入口或检索,标识,指用户进行信息检索的出发点和依据,它是由信息,的内部特征和外部特征构成的。不同的检索途径,需要采,用不同的检索语言进行检索,文,献,信,息,检,索,途,径,外部特征,题名:书名、刊名、篇名、引文等,责任者:著者,译者,出版者,专利权人等,号码,ISBN,专利号、报告号、标准号等,内

21、部特征,分类,主题:包括叙词、主题词、关键词等,第二章第二节,检索途径和语言,二、检索语言,用来描述检索提问主题、学科分类等内容的,语言,它和检索途径是相对应的。常见的检索语言有,主题语,言,和,分类语言,表述文献外表,特征的语言,题名,责任者,号码,引文,检,索,语,言,的,类,型,分类法,表述文献内容,特征的语言,主题法,1,主题词语言,标题词语言,是从文献的题目和内容中抽出来,经过规范化处理的主题,语言。是一种先组式的自然语言,叙词语言:又称主题词,是以表达文献主题内容的概念单元为基础,经,过规范化处理,可以进行逻辑组配的一种主语语言。是一种后组式的人,工语言,以上两种语言,都是规范化的

22、检索,语言,其检索词从,相关词表中得出,标题语言和叙词语,言界限日益模糊,逐步向叙词语言转,化,因此,叙词语,言是规范化词语检,索的基本方法,图,EBSCO,的主题词表,中国主题词表,天象,光行差,临边黄昏,临边增亮,天象图,考古,Z,耆那教教派,Y,石刻天文图,C,白衣派,天象仪,天应穴,Z,天文仪器,Y,阿是穴,天衣派,D,祼衣派,关键词语言,从文献的题名、摘要和正文中抽出的具有实际意,义的非规范化自然语言。其优点是,1,简捷,降低对检索人员的要求,2,易用,易于计算机编制和检索,3,及时,能及时更新词汇,缺点,1,不规范,有大量的同义词、近义词,影响查全率和查准率,如“高速公路”有,au

23、tobahn,autoroute,freeway,speedway,thruway,等,“图形图像”和“图形图象,同义,检索时如果不能全部记住,会出现漏检;而,cell,既指,细胞又指电池,检索时会出现误检,2,词汇量大,给存取带来困难,由于关键词是未经人工干预的自然语言,符合大众的检索,习惯,大多数检索系统都有关键词检索,2,分类语言,是一种按学科范畴和体系来划分事物的检索语言,以分类表的形式体现。它展示了学科的系统性,反映了事物的从,属、派生关系,从上至下,从总体到局部层层划分展开,是一种,等级体系。由类目和相对应的类号来表达各种概念,构成一个完,整的分类类目表,如,中国图书馆分类法,I2

24、,中国文字,I24,小说,I247,当代作品,1949,I247.5,新体长篇、中篇小说,58,武侠小说,如果我们要查找“天龙八部”,分类号为,I247.58,使用分类法进行检索,能准确全面查找某一学科的文献信息,但会漏检同一主题的文献信息,分类语言是一种人工语言,多数检索系统都是用分类号检索,的,普通用户难以掌握,一些数据库分类过粗,一个类目下面汇,集大量文献。而且分类法一般是数年才修订一次,不能反映最新,的科学成果,第二节,检索步骤,检索步骤,根据既定课题要求,利用检索工具查找有关文献资料的,具体过程,实际是信息检索的具体化。为实现检索而制定的计划或,方案称之为,检索策略,主要有以下步骤,

25、1,进行课题分析,明确课题需求,检索文献信息前对课题内容进行分析,明确文献检索的目的,课题需求可以分为三种类型,a,普查型,需要全面收集有关某一主题的文献资料,如以课题开,题、教材编写等。具有普查、回溯的特点,要求尽可能高的查全,率,b,攻关型,需要收集有关某一主题某一特定方面的文献,其目的,在于解决科研、生产中的关键问题,这类需求不强调查询的文献,数量,但需要查得的文献具有较强的专指性,c,学习型,需要了解掌握某一领域的研究动向、研究成果或相关,知识,要求查到的文献具有新颖及时的特点,而对查全率和查准,率不一定有很高的要求,2,选择检索系统,选择检索工具时要考虑是否与文献需求,紧密结合、学科

26、专业对口、覆盖信息面广、报道及时、揭示,信息内容准确、有一定深度的工具以及检索系统的检索功能,是否完善等,主要有几个方面,全面性,即是否与课题相关的内容都要检索,包括的工具有,一次文献和二次文献数据库,以及网上相关资源等,针对性,保证选择的检索工具与检索课题的学科一致,专业性,即选择与学科专业相关的工具,特别注意跨学科领,域内容,权威性,尽量选用该学科的权威性检索工具,了解检索工具收录的范围,包括时间跨度、地理范围、文献,语种、类型等,检索工具的检索方法和系统功能是否全面有效,3,检索词的选择,检索词是表达信息需求和检索课,题内容的基本单元,选择恰当与否,会直接影响检,索效果,检索词包括主题、作者、分类、号码等,检索词的选择与确定要注意,根据检索课题所涉及的学科专业和技术内容选词,根据检索目的选词,如:“屠宰场含脂水的处理,目的是富含脂肪的污水处理,因此并不在乎是屠宰,厂还是肉联厂。再如:盐碱地改良。进一步和读者,沟通后得知盐碱地改良是通过生物技术实现的,所,以,加上生物技术更能体现出检索目的,考虑相应的同义词,对同一事物,人们对其有不同,的称呼和表达,如“计算机”又称“电脑”、“图,形图像与图形图象“,“污水处理、污水控制与水,净化”,“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论