第一章信息检索教材_第1页
第一章信息检索教材_第2页
第一章信息检索教材_第3页
第一章信息检索教材_第4页
第一章信息检索教材_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索与利用

图书馆教研室教学目的和任务

1.了解文献信息的基本知识;2.了解信息类型和信息源分布;3.掌握信息检索的基本原理和方法;4.熟练使用本领域常用检索工具;5.掌握网络学术资源的检索方法;6.掌握获取全文的方法;7.学会分析、整理、正确使用信息的方法。基本内容1.信息与信息检索的基本理论2.计算机检索基本知识3.常用中文检索系统4.常用外文检索系统5.特种文献信息的检索6.中外文传统文献的检索7.文献信息的利用第一章信息检索基础第一节信息资源概述第二节信息资源构成第三节

信息检索概述第四节

信息检索工具第五节

信息检索语言第六节信息检索程序与策略第七节信息检索效果评价第一节信息资源概述一、信息1.信息的概念信息作为一个科学术语最早出现于通讯领域,20世纪中叶后被引入哲学、信息论、系统论、控制论、情报学、经济学、管理学、计算机等领域。信息不是事物本身,而是由事物发出的、体现它存在和运动状态的信号、消息、指令和数据等所包含的内容。广义的信息可定义为“信息是事物属性的表征”。狭义的信息可定义为“信息是指系统传输和处理的对象”2.信息的属性(信息是事物属性的表征)

1)客观性与普遍性2)多样性与综合性3)流动性与传递性4)相对性与有效性5)积累性与价值性6)中介性与共享性3.信息的类型(1)按客体性质来划分,分为自然信息与社会信息。(2)按社会属性划分,分为政治信息、军事信息、经济信息、科技信息、管理信息和生活信息等。(3)按传递范围划分,分为公开信息、半公开信息和非公开信息。(4)按加工程度划分,分为一次信息、二次信息、三次信息和高次信息。(5)按价值观念划分,分为有价值信息和无价值信息。(6)按运动状态划分,分为动态信息和静态信息。(7)按依附的载体形式划分,分为文献信息、口头信息、电子信息等。二、知识1.知识的概念知识是人们通过实践对客观事物及运动过程和规律的认识。人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性认识或经验,通过大脑对这些感性认识进行加工处理,形成理性认识,即知识。知识形成的过程就是人脑对客观事物传来的信息进行加工的过程。

客观事物--->感性认识--->知识2.知识的属性主要有

意识性、信息性、规律性、实践性、继承性、渗透性。三、文献1.文献的含义在《文献情报术语国际标准(草案)》(ISO/DIS5127)中对文献是这样定义的,即“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存储在磁盘上。这种附着在各种载体上的记录统称为文献”。在《信息与文献术语》(GB/T4894—2009)中对文献是这样定义的,即“文献,在文献工作过程中作为一个单位的记录信息或实物对象”。这里文献工作指的是为了存储、分类检索、利用或传递而对记录信息所进行的连续和系统的汇编和处理。2.文献的构成文献的四要素:知识信息、物质载体、符号系统、记录方式。构成文献的四个基本要素:(1)构成文献内核的知识信息。(2)负载知识信息的物质载体。(3)记录知识信息的符号系统。(4)记载知识信息的记录方式。其中:

a.知识决定文献的内容,

b.载体决定文献的形态,

c.记录则是构成文献的手段。

3.文献的属性知识信息性、客观物质性、人工记录性、动态发展性。信息、知识、文献三者关系信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识信息的载体。四、信息资源

大量的客观存在的人们直接或间接开发利用的信息集合总称为信息资源。数字信息资源是信息资源的一种,是数字化了的信息资源,按不同的标准可分为若干类型。

1.按信息的载体分:

(1)联机网络信息资源(2)单独发行的信息资源

2.按信息的媒体形式分(1)文本信息资源(2)超文本信息资源(3)多媒体信息资源(4)超媒体信息资源五、信息素质信息素质(InformationLiteracy)一词最早是由美国信息产业协会主席PaulZurkowski

在1974年给美国政府报告中提出来的。他认为信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。1、定义美国图书馆协会认为:信息素质是人们知道什么时候需要信息并找到、评价及有效地利用所需信息的能力。

2、具有信息素质的人应具备的能力运用信息工具、获取信息、处理信息、生成信息、创造信息、信息增效、信息协作、信息免疫.第二节信息资源构成一、按照信息的出版或加工形式划分信息出版类型一般是指记录有知识的文献出版类型。一般将出版物文献划分为图书、报刊、会议文献、专利文献、科技报告、学位论文、技术档案、产品资料、标准文献和政府出版物。1、图书图书大多是对已发表的成果、生产技术和经验或者基本知识领域系统的论述或概括,它往往以期刊论文、会议论文、研究报告及其他第一手资料为基本素材,经过作者的分析、归纳、组织而编写成的。特点:内容比较系统、全面、成熟、可靠,有一定新颖性;是综合、积累和传递科技知识的一种重要信息源。2、报刊报刊是一种以印刷形式或其它形式逐次刊行的,通常有数字或年月日顺序编号的,并打算无限期地连续出版下去的出版物。广义的报刊则包括一切定期刊行或不定期刊行的连续性出版物,如杂志、报纸、年度报告、年鉴、丛书以及学会的会议录、学报和纪要等。

报刊特点:数量大、品种多、内容丰富多样;出版周期短,报道速度较快;发行、流通广泛、连续性强,伴随着相应的学科领域发展而发展。

在检索工具的文摘中,往往有卷、期、页的标志(如Vol.10,No.2,201-209)3、会议文献定义:在国内外各种学术会议上交流的论文,以及由此汇编成册、内部交流或公开出版的文献。特点:传递信息及时,针对性较强,能反映当代科技最新水平和发展趋势,是科技人员的主要参考资料。会议论文信息中有会议时间(年\月\日)具体的会议地点(即地名)4、专利文献专利是用法律来保护科学技术发明创造的制度。专利文献是专利制度的产物,一切与工业产权有关的文献统称为专利文献。广义解释包括:专利说明书、专利公报、专利检索工具及与专利有关的法律文件等狭义的专利文献一般指专利局颁布出版的各种发明说明书或专利说明书及其所派生的各种二次文献。专利文献的特点:数量巨大,覆盖面广;格式统一,措词严谨;描述对象具体,单一;技术内容新颖、可靠;文件类型多,重复量大,是重要的技术经济信息源。5、科技报告科技报告是研究或设计单位向提供经费的上级部门提供的关于某项研究或设计任务完成情况及财务消耗情况的总结报告。特点:内容比较新颖、详尽、专深。科技报告又分专题报告、专人报告、年度科技报告等,在检索工具的文摘中常有“Report”标志。国际上著名的科技报告是美国政府四大报告:PB(政府部门)、AD(军事系统)、NASA(国家航空与宇航局,)、DOE(能源部)。具有一定保密性。6、学位论文高等学校或研究机构培养的学生为获得某种学位而撰写的科学论文。学士(Bachelor)、硕士(Master)、博士(Doctor)毕业论文常有“Diss.”(Dissertation的缩写)标志,而且有学位论文编号。学位论文中除了少数可能发表在期刊或其他出版物以外,多数是不出版的。每篇学位论文有一复本保存在授予学位的学校的图书馆里,可供查阅。7、技术档案在科研和生产过程中形成的、有一定对象的技术文件的总称。其内容包括:任务书、协议书、技术经济指标和审批文件、研究计划、方案、大纲和技术措施、有关的技术调查材料(原始记录、分析报告)、设计计算、试验项目、方案、数据和报告、设计图纸、工艺卡片以及应入档文件。8、产品资料国内外各厂商为推销产品而印发的商业宣传品,包括产品样本、产品目录、产品说明书、厂商介绍、厂刊或外贸刊物、技术座谈资料等。9、标准文献标准文献是以文件形式出现的标准化工作成果。经过公认的权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固化下来的文件。标准文献的特点:制订、审批有一定的程序;适用范围非常明确专一;编排格式、叙述方法严谨统一,措词准确;技术上具有较充分的可靠性和现实性;对有关各方有约束性,在一定条件下具有某种法律效率;有一定的有效时间,需要随着技术发展而不断修订、补充或废除。ISO/IEC14772-2-200410、政府出版物政府出版物是各国政府部门及其所属机构所发表的文件。它的内容广泛,概括起来可分为行政性文件和科技文献两大类。行政文件包括国会记录、司法资料、方针政策、规章制度、决议、指示以及调查统计资料等等。科技文献包括各部门的研究报告、技术政策文件等。上述十种类型的文献,基本上包括了主要的文献类型,是我们获得科技信息的主要来源,即人们常说的十大信息源。我们现在检索用的数据库基本上都按着文献出版类型来划分的,下面以中国知网为例进行说明。二、按信息加工层次划分按加工程度可将信息分为一次文献、二次文献、三次文献。1、一次文献:(PrimaryDocument)以作者本人的生产与科研工作成果为依据而撰写的、并已公开发行进入社会流通使用的原始文献。如阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准及部分学位论文等。特点是具有学术上的新观点、新发明、新技术、新成果,提供了新的知识信息,是创造性劳动的结晶,有直接参考、借鉴和使用的价值,是人们检索和利用的主要目标。2、二次文献(SecondaryDocument)二次文献即将大量的、分散的、无序的一次文献收集起来,按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘。即编制成具有多种检索途径的检索工具。二次文献仅是对一次文献进行系统化的压缩,无新的知识产生,具有汇集性、检索性的特点。它的重要性在于提供了检索一次文献的线索。因此,二次文献又称为检索性文献。3、三次文献三次文献即根据一定的目的和需求,在大量利用一、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。如词典、手册、百科全书、年鉴、各种教科书及综述等。三次文献具有综合性高、针对性强、系统性好、知识信息面广的特点。三次文献又称为参考性文献,有较高的使用价值,可直接参考、借鉴和利用。三次文献源于一次文献,又高于一次文献,是一种再创性文献。4、一、二、三次文献之间的关系

一次文献带有创造性;二次文献是在一次文献基础上形成的,具有选择性、浓缩性;三次文献是在一、二次文献基础上经过分析、提炼、总结形成的,具有概括性。从一次文献到三次文献,是一个由分散到集中、由无序到有序的过程。三、按信息的表现形式划分1、文献型信息源存储语言文字形式信息的各种载体的集合。2、非文献型信息源数值型信息源、声像型信息源、多媒体信息源、实物及口头信息源。四、按信息内容的保密程度划分有公开信息源、半公开信息源和非公开信息源。五、按信息内容的应用范围划分分为科技信息源、经济信息源、管理信息源及生活信息源。六、按信息传输形式划分(1)网络信息源:各种网络上的信息集合。(2)非网络信息源:不用通信设施就能获得的信息集合。第三节信息检索概述一、信息检索概念信息检索(InformationRetrieval):是指将信息按一定的方式组织、存储起来,并根据用户的需要找出有关信息的过程。它的全称又叫做“信息存储与检索”(InformationStorageandRetrieval),这是广义的信息检索。狭义的信息检索仅指该过程的后半部分,从信息集合中找出所需信息的过程。二、信息检索原理人类的信息需求千差万别,获取信息的方法也各种各样,但信息检索的基本原理却是相同的,可以把它最本质的部分概括为一句话:对信息集合与需求集合的匹配与选择。信息检索的基本方式有。1.传统信息检索传统信息检索是检索人员利用手工检索工具手翻、眼看、大脑思维判别、索取原始文献的一种方式。优点:①检索条件简单,成本低;②在检索过程中可以随时获取反馈信息,及时调整检索策略;③可对不同的检索工具同时进行对比,从而提高检索质量;④可以参阅检索工具中的附图。缺点:①速度慢、效率低、检出的文献款目必须抄录;②手工检索工具提供的检索点有限,很难进行多元检索;③对于涉及几个概念组合的多主题的文献难于找到。2.现代信息检索现代信息检索是检索人员利用计算机检索系统查找文献的一种检索方式。所谓计算机检索系统包括数据库技术、计算机技术和网络通讯技术等。机检可以克服手检的缺点,但机检对设备条件的要求比较高,所需的投资比较大。计算机检索已从单机检索、联机检索发展到今天的网络检索,并向着智能化的方向发展。三、信息检索的研究范围和研究对象1、信息检索的研究范围信息检索的研究范围包括一切与信息存贮与检索有关的系统、过程、理论和方法。

2、信息检索研究对象(1)信息检索理论。(2)信息检索系统。(3)计算机信息检索。(4)检索策略与方法。(5)用户研究与培训。四、信息检索系统

信息检索系统是由一定的设备和信息集合构成,面向一定的用户,具有信息采集、组织、存储、选择和传播等功能。

1、按照信息存储与检索使用的设备划分(1)手工信息检索系统(2)计算机信息检索系统2、按信息检索功能划分文献检索系统数据库检索系统自动问答系统管理信息系统决策支持系统五、信息检索系统作用

检索系统的作用是由于它具备的存储与检索两个基本职能,各种类型的原始文献,经过加工整理成为二次文献。这是文献由无序到有序化的过程。第四节信息检索工具信息检索工具是用来查找有关文献资料的工具与设备。如图书馆目录、期刊目录、计算机检索用的文献数据库等都是检索工具。它们是图书情报部门对原始文献加工整理后编制成的二次文献或三次文献,人们学会利用检索工具既能了解和掌握学科发展状况,又能及时准确全面地选择自己所需要的文献。划分标准名称举例按载体手工检索工具各种手工检索目录卡、各种书本式检索刊物计算机检索工具各种类型的计算机检索软件按出版形式卡片式书目卡、分类卡书本式期刊式各种定期或不定期出版的检索刊物单卷式按专业、专题出版的检索刊物附录式附于书刊后的参考文献和引用文献目录缩微式缩微胶片磁性材料、磁带、磁卡、磁盘、光盘记录各种信息的计算机用载体按收录文献类型单一型各种专题目录(索引)各种单一型检索工具,如专利、报告、标准、样本等的检索工具综合型各种含多种文献类型、各种专业的检索工具如CA、BA、SA、EI等按编著方式目录国家书目各国国家书目馆藏、联合目录为资源共享而编制的目录出版商目录出版商报道、宣传用目录题录最新期刊目次页汇编直接采用最新出版的重要期刊的目次页或校样加以编辑而成期刊论文题录将期刊文章按篇名关键词轮排而成分类性题录型检索工具按某种分类体系来组织全部题录款目而成文摘指示性文摘简单概述原文主题内容的文摘如日本《科技文献述报》报道性文摘含定性、定量信息的文摘参考价值较高,大多数文摘属于此类评述性文摘带有文摘员个人观点的文摘索引篇名索引一般附在各种文摘后面内容索引一、检索工具的类型检索工具的种类很多,从不同角度划分,检索工具的类型亦不同,可按用途分为两大类,即提供线索的指示型检索工具(二次文献)和提供具体信息的参考型检索工具(三次文献)。教材中表1-1所示的是指示型检索工具的种类。按编著方式来划分检索工具的类型,这里对此进行详细说明。目录型检索工具:题录型检索工具:文摘型检索工具:索引型检索工具:1、目录型检索工具目录定义:目录主要报道实有的文献或收藏文献的情况,以一个完整的出版(或收藏)单位作为著录的基本单位。此类检索工具对于查找、索取原始文献具有重要作用。目录特点:目录只描述出版物的基本特征,对内容揭示非常浅,因此它主要应用于查找出版单位或收藏单位是否拥有自己所需要的图书、期刊等单位出版物,难以检索出版物所包含的情报内容。从情报检索角度来讲,它不是主要的检索工具,但它是其他检索工具的基础。2、题录型检索工具题录定义:题录是用来描述某一文献的外表特征并由一组著录项目构成的一条文献记录,题录通常以一个内容上独立的文献单元(如一篇文献,图书中的一部分,但有时也是整体出版物)为基本著录单位,这是它于目录的主要区别。两者的相同点是他们都只限于描述文献的外表特征。特点:虽然对文献内容的揭示深度不如文摘型检索工具,但加工容易、出版迅速,可以缩短检索工具的时差,使科技人员尽快获得最新情报,它往往是文摘型检索工具的先导和重要补充。3、文摘型检索工具文摘(abstract):是指对文献的内容简洁而又正确的摘录,供人们浏览和查用,使读者能以较少的时间与精力掌握有关文献的基本内容进行系统查找。文摘型检索工具是系统报道、积累和检索科技文献的主要工具。文摘型检索工具按文献的压缩程度,可划分为指示性文摘、报道性文摘和评述文摘。(文摘型检索工具的)文摘款目=题录部分+文摘正文目录和题录型检索工具的相同点是他们都只限于描述文献的外部特征,题录实质上是一种不含文摘正文的文摘款目。在揭示文献内容的深度方面,题录比目录深一些,但又比文摘浅。4、索引型检索工具索引是将文献中各种知识单元,如主题、著者、地名分子式、号码等,按一定的原则和方法排列起来并指明其出处的一种检索工具。科技文献的索引型检索工具一般是一种辅助工具,是检索工具的组成部分。索引在检索工具中起重要作用,掌握各种检索工具的实质是掌握各种索引的使用方法。检索工具中经常使用的索引类型包括分类索引,主题索引,著者索引等。篇名索引主要是指题录式检索工具,以一篇文献为基本著录单位,它的著录比较简单,仅限于描述文献的外表特征。其主要特点是加工简单,报道量大,以快和全占有一定的优势。二、检索工具的结构每种检索工具的内容结构大体上都是由:1、编辑说明与使用凡例2、分类表与主题词表3、正文部分4、索引部分5、附录部分三、文献特征的描述文献由无序到有序化的过程。这一过程主要是描述文献外表和内容特征,给定标识并进行排序。所谓标识,即指表征文献外表或内容特征的词语或符号。词语标识有关键词、叙词、单元词等;符号标识有分类号、专利号、标准号、化学符号等。1文献的符号标识(1)文献中文字的缩写(2)文献中的代号(3)文献中文字的转换2文献的词语标识文献的词语标识主要有叙词、标题词、关键词,见检索语言部分。四、检索工具的查询利用检索工具是查找所需信息的快捷途径。随着文献数量的剧增,二次文献、三次文献的数量也已经发展到惊人的地步。因此,首先要了解检索工具的查找系统。查找系统包括检索工具指南、专业科技文献指南、工具书、教科书和研究专著、工具书书评刊物等。第五节信息检索语言一、检索语言(RetrievalLanguage)的概念

用来描述文献特征和表达检索提问,信息存储者和检索者共同采用、共同理解的语言就是信息检索语言。检索语言又称标引语言、索引语言、信息检索语言等,是根据检索需要而编制的一种人工语言。检索语言是信息检索与信息存储的一种约定语言。世界上的检索语言有很多种,如《中国图书馆分类法》、《美国十进位分类法》《英国十进位分类法》《杜威十进位分类法》等。特点检索语言是一种专门的人工语言,它表达的概念应具有唯一性,即一个词只表达一个概念,一个概念只用一个词表达,不能一词多义或多词一义,使概念表达模棱两可。正是由于检索语言具有这种性质,这就为检索标引、提问采用共同语言提供了可能性。而自然语言由于有多义词、同义词、近义词等,不宜用于文献检索。二、检索语言的组成实质上信息检索语言是表达、概括文献信息内容的概念及相互关系的概念标识系统。

检索语言=词汇+语法在这里词汇指的是登录在分类表、词表中的全部标识、一个标识(分类号、检索词、代码)就是它的一个语词,而分类表及词表则是它的词典,语法指的是如何创造和运用标识(单个标识或几个标识的组合)来正确表达文献内容和信息需要,以有效地实现信息检索一整套规则。三、检索语言分类各种检索语言基本原理是一致的,但是它们在表达各种概念及其相互关系与在解决对它们提出的那些共同需求时所采用的方法不同,因而形成了不同的类型。检索语言按信息内外部特征的不同分为分类语言、主题语言、名称语言和代码语言四大类。分类语言和主题语言是表示文献实质意义的内容特征标识;名称语言和代码语言是表示文献外表特征的标识。1.分类语言分类语言是用分类号码来表达各种概念,将各种概念按学科性质进行分类和系统排列,便于信息存储与信息检索双方进行交流的一种检索语言,直接体现知识分类等级结构的标识系统。它根据一定的观点,以科学分类为基础,以文献内容的科学性质为对象,运用概念划分与概括的方法,按照知识门类的逻辑次序,从一般到具体,从简单到复杂,进行层层划分;每划分一次,就产生许多类目;逐级划分,就产生许多不同级别的类目。所有不同级别的类目层层隶属,形成一个严格有序、直线性的知识门类的等级制体系。每个类目都用分类符号作为标记,每个分类号都是表达特定知识概念的词汇,这些词汇即是分类语言。特点(1)分类语言体现了学科的系统性,便于从学科门类出发,进行族性检索,查全一门学科中各种事物的所有文献。(2)体系分类法将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。(3)由于分类法不宜经常修订,类目不能随时改变,因此难以标引新兴学科的文献;此外,分类表中的类目不能无止境地细分,主题范围狭窄的文献,也可能找不到相应类目和分类号。(4)体系分类法用分类号。不熟悉分类法,转换时就可能发生误差,优点是不受作为检索标识,不能直接表达概念,检索时需要先将主题概念转换为文种限制。(5)分类法按直线式序列设置类目,遇到跨学科的课题时,由于相关文献只能标引在一门学科的类目下,容易漏检。(6)属于先组式检索语言,类目不能变动,不能按照课题需要组配检索。《中图法》这里介绍我国目前使用最广泛的分类法,中文检索工具常用的分类语言《中国图书馆分类法》,简称《中图法》。是以分类号和类目名称作为标识系统的一种分类语言。中图法=类目表(简表、详表、辅助表、编制说明)+索引部分。1.基本大类:是分类法中的一级类目、是《中》的分类大纲,共有22个概括性类目,并采用22个大写汉语拼音字母代表类目。2.简表:又称基本类目表,是在基本大类的基础上进一步区分出来的类目,由三级类目构成。浏览简表能了解分类概况,能引导用户快速、准确地查检详表。3.详表:又称主表或正表,是~的正文部分。由类目、类号、类目注释按层累制的编制原则组合而成,是标引和检索文献的直接依据。4.辅助表:又称复分表,由通用复分表和专用复分表组成,用以对主表中的类目进行细分。专用复分表插在主表中各有关部分,通用复分表附在主表之后,包括:总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、民族表、通用时间、地点表等。马克思主义、列宁主义、毛泽东思想、邓小平理论A马克思主义、列宁主义、毛泽东思想、邓小平理论哲学、宗教B哲学、宗教社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理自然科学N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学综合性图书Z综合性图书体系结构类目设置A马列主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育Q生物科学H语言、文化R医药、卫生I文学S农业科学J艺术T工业技术K历史、地理U交通运输N自然科学总论V航空、航天O数理科学和化学X环境科学、安全科学P天文学、地球科学Z综合性图书

T大类划分实例:T工业技术TB一般工业技术TD矿业工程TE石油、天然气工业TM电工技术TF冶金工业TN无线电电子学、电信技术TG金属学与金属工艺TP自动化技术、计算机技术TH机械、仪表工业TQ化学工业TJ武器工业TS轻工业、手工业TK能源与动力工程TU建筑科学TL原子能工业TV水利工程2主题语言主题语言是用语词来表达各种概念,将各种概念按字顺排列。主题语言类主要有标题词语言、叙词语言、关键词语言和单元词语言等。它们统称为主题法系统。(1)标题词语言标题词语言是规范化了的自然语言。它以经过标准化处理的名词术语作为标识,来直接表达文献所论及或涉及的事物———主题之间的相互关系(这种关系是借助于参照系统来间接显示的)。标题词是一种先组式检索语言,在检索前这些标题词已经固定组配。标题词表是标题词使用规则的汇编,是标引和检索文献的工具,是一部标题词典。标题词一般包括主标题词和副标题词两级。主标题词表示事物本身概念,一般是事物或过程的名称;副标题词表示事物的各个方面,如性质、部分、方法操作,副标题词是主标题词集合下的一个子集。因此,即使一个涉及众多学科或较深内容的专题,也可以通过标题词表,从一般的主题词集合的角度来检索,主标题词和副标题词固定组配、按字顺排列。标题词语言的特点:优点:利用标题词语言编制的检索工具质量较好,组配固定,不易混乱,有较好的通用性、直接性和专指性,并通过“见“和“参见”扩大检索途径,查全率高。缺点:缺点是系统性较差,内容相关的分散在多处,灵活性较差,不能任意组配进行自由检索。它适宜于从事物的主题概念出发进行检索,优于分类法(2)叙词语言叙词语言是经过词汇控制的,在标引中用来显示文献主题,在检索中用来构成表达式的一种检索语言。叙词语言可谓是博采各种信息检索语言之长,吸取了多种信息检索语言的原理和方法。叙词语言是一种采用规范化的单词或词组由标引人员或读者自行组配,来表达文献(或课题)主题概念的一种后组式索引语言,或者叫做后组式的检索语言。

叙词语言采用规范化的检索语言,标识直观,按字顺排列,序列明确,使用方便;同时一个叙词与一个概念严格对应,因此叙词具有单一性。组配又是叙词的主要特征,叙词优异的检索功能主要来自组配这一特征。检索人员在检索时,只要根据检索需要,临时从词表中选出相应的叙词,按照组配原则,临时任意组配检索概念,即可达到扩大或缩小检索范围的目的。叙词语言两种概念组配类型:①概念交叉。这是两个或两个以上具有概念交叉关系的同级叙词间的组配,组配结果形成一个新的概念。②概念并列。这是两个或两个以上具有概念并列关系的同级叙词间的组配。由于叙词语言优异的组配性能,词汇控制技术完善,实现了多维标引和检索,专指度高,标引深度大,能适应多种检索要求和各科检索系统的需要,广泛应用于各种主题索引、主题目录和计算机信息检索系统中。叙词语言的特点:(1)叙词语言是后组式检索语言,概念组配是其核心。(2)叙词表不是等级结构,便于增删、修订叙词。(3)直接使用叙词作为检索标识,不必转换,具有语言直接性。(4)有一套完整的参照系统,可供扩建或缩检。(5)利用词族索引和范畴索引可以按学科分类进行族性检索。(6)用叙词语言标引和检索机读数据库中的文献,是其应用的最主要方面。与其他检索语言相比,叙词语言是较完善的检索语言。(3)关键词语言关键词语言是为适应主题目录、主题索引编制自动化的需要而产生的一种主题语言型检索语言。关键词是指在文献的标题、摘要或正文中出现的,对表达文献内容具有实质意义,能作为检索入口的,起关键性描述作用的词汇。按字顺排列,从而提供检索途径的一种检索语言。

特点:

优点:是自然语言,未经规范处理,不受词表控制,方便易掌握,可降低标引难度,节约人力。利用计算机自动标引文献,编制关键词索引非常迅速,可大大缩短检索刊物的报道时差。缺点:未经规范化,标引人员和检索人员用词不一致时,容易漏检,降低查全率。(4)单元词语言单元词语言又称为元词语言,它是从文献中抽取出来并经过控制处理的,能表达文献主题的最小、最基本的词汇单位。它可以是一个单纯词,也可以是一个合成词。这些词具有一个共同的特点是:它们在概念上不能再进一步分解,如再分解,就再也不能表达原来所代表的特定概念,从而失去检索本意。优点:(1)采用单元词组配,表达概念的灵活性大,可使检索达到任意专指度。(2)适用于各种载体的检索工具和检索系统,尤其适用于自动化检索系统。缺点:(1)过分强调索引词的单元化,否定词组的作用。(2)仅限于对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论