文献信息检索基本原理及方法.ppt_第1页
文献信息检索基本原理及方法.ppt_第2页
文献信息检索基本原理及方法.ppt_第3页
文献信息检索基本原理及方法.ppt_第4页
文献信息检索基本原理及方法.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章文献信息检索基本原理及方法,3.1.1 文献信息检索的基本含义,一、文献信息检索的基本含义,“检索”即“查找”之意。信息检索,是将信息按照一定的方式组织、存储起来,并针对用户的需要查找所需信息的过程。因此信息检索包含了信息的存储和检索两个不可分的部分。我们通常所说的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找所需信息的过程及其所采取的一系列方法和策略。,3.1.2 文献信息检索的类型,手工检索和计算机检索的关系:手检是基础,机检是发展方向。,3.1.2 文献信息检索的类型,按检索要求划分:,相关性检索是系统不直接回答用户所提出的技术问题本身,而是只提供与之相关的文献供用户参考。 确定性检索是以数据或事实为检索对象,系统要直接问答用户提出的技术问题,即直接提供用户需要的确切的数据或事实。,文献信息检索的类型,根据检索对象划分 书目检索:是以文献线索为检索对象的文献检索,即检索检索系统存储的是以二次文献为对象(目录、索引、文摘)的信息,他们是文献信息的外部特征与内容特征的描述集合体,信息用户通过检索,获取的是原文的“替代物”。用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。 全文检索:是以文献所含的全部信息作为检索内容的文献检索,即检索系统提供的是整篇文章或整部图书的全部内容,检索时可以查找到原文以及有关的句、段、接、章等文字,并可进行各种频率统计和内容分析。全文检索主要是用自然语言表达检索课题。较适用于某些参考价值大的典据性文献。全文检索是当前计算机检索的发展方向之一。 数据信息检索:数据信息是指检索系统中存储的是数值型数据,如科学技术常数、各种统计数据等,信息用户可用通过检索获得的经过核实、整理的数值信息再做定量分析。 事实信息检索:又称事项检索。是指系以事实为检索内容的情报检索,其检索对象包括事实、概念、思想、知识、人物的基本信息等内容,事实检索也是一种确定性检索,用户获得的是有关某一事物的具体答案。,3.2 文献信息检索原理,文献信息检索的基本原理:就是用户根据课题需要,将代 表需要查找的检索提问标识与文献库中所存储的文献特征标识 进行比较,当文献库中所存储的文献特征标识与检索提问标识 相一致,或文献特征标识包含了检索提问标识时,那么具有这 些特征的标识就被检出,即是命中的结果。,文献信息,信息存储与检索原理流程图,文献信息,检索课题,文献信息特征,检索课题信息,检索语言和名称规范,文献信息标识,检索提问标识,文 献 信 息 检 索 系 统,检 索 结 果,分 析,标 引,形 成,输 入,匹配 输出,输 入,形成,选 用,分析,检索语言,在信息检索工作中,检索语言亦称情报检索语言,在存储和检索过程中,检索语言起着重要的作用。它把信息的内容特征和外表特征简明而有效的揭示出来,并保证了文献存储的集中化和系统化,使有规律的检索成为可能;沟通检索人员和标引人员的思想,引导检索人员和标引人员理解一致,避免检索的漏误。具体而言:它能够保证不同标引人员表达文献的一致性,保证不同检索人员检索提问的一致性,保证检索提问与文献标引的一致性。,检索语言的定义:检索语言是从自然语言精选出来的 一整套词汇、符号,用以对文献内容和信息特征进行 概括和规范。它是文献的标引系统,也是读者检索使 用的一种符号系统,是检索工具和参考工具书的重要 组成部分。,检索语言,检 索 语 言,词汇,语法,词汇是指收录在类表和词表中的所有标识,如分类号、检索词、代码等,是可识别词汇。,语法是指如何创造和运用标识来准确表达信息内容特征,以有效实现信息检索的一整套规则。,检索语言,检索语言须具备三个基本要素: 有一套专用字符来构建词汇; 有一定数量的基本词汇用来表达基本概念; 有一套专用语法规则,用严格的句法手段和词法对词汇 进行控制,以准确表达各种各样的概念。,一种较好的检索语言应具有对多种检索要求的 广泛适应性,保证有较高的查全率和查准率; 具有对多种学科和多种信息类型的适应性;具 有与其他检索语言的兼容性和国际通用性。,检索语言,检索语言的分类划分,检索语言,分类语言,概 念,是指以数字、字母或数字与字母结合作为基本字 符,以基本类目为基本词汇,以类目的从属关系 来表达概念间相互关系的一类检索语言。,分类原理:分类是对知识概念的划分。分类语言是用分类号来表达学科体 系的各种概念,将各种知识要领按学科性质进行分类和系统排列。即以学 科分类为基础,按照概念划分的原理,将知识分门别类地按一定的逻辑次 序,从总到分,从具体到一般,从简单到复杂、进行层层划分,层层隶属, 形成一个严格有序、层次分明的知识门类体系,以便从知识分类的角度按 学科、分专业地集中信息,揭示各类信息在内容上的联系与区别,提供从 学科分类角度检索信息的途径。,检索语言,是一种描述概念性语言,它用语词直接表达文献的主题, 这些语词就是表达主题概念的标识。将这些作标识的语 词按字顺序排列并使用参照系统来间接表达各种概念之 间的关系,这就是主题语言。,主题语言,检索语言,又称标题词语言,是最早使用的一种主题词语言,以标题词作为表达文献内容和检索依据、完全先组式规范化的检索语言。 标题词主标题词和副标题词。 利用标题词语言编制的检索工具质量较好,组配固定,不易混乱,有较好通用性、直接性和专指性。可通过“见”和“参见”扩大检索范围,提高查全率。 缺点是系统性差,内容相关的分散在多处,灵活性差,不能任意组配检索。,是从文献标题或文章正文中抽出来的,对表达文献主题具有实质意义的词汇,它对能否检索到文献起着关键性的作用,故称为关键词。关键词语言也是主题词语言之一,但和标题词语言、叙词语言不同,它是一种用自然语言作标识的检索语言。,是以单元词作为文献内容标识和检索依据的一种主题语言。单元词是从文献正文、摘要或题目中抽取出来的、最基本的、其概念不可再分的词。,叙词语言是在分类语言、标题词语言、关键词语言和单元词语言的基础上发展起来的,它是以自然语言为基础,其基本性质是采用表示单元概念的规范化词汇进行组培,用它来描述文献主题的概念。 叙词语言是主题词语言的高级形式,是一种后组式信息检索语言,现已占据了主题词语言的主导地位,特别适用于计算机检索。,检索语言,主题语言,叙 词 的 组 配,概念的相交组配,概念并列组配,概念限定组配,由于不同概念相交就会 形成一个新概念,这个 新概念是组配前各概念的 下位概念。如:“电子”和 “信息”组配产生电子信息。 组配结果,可提高查准率。,同级词间不同概念并 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 如“数字计算机”和“模 拟计算机”组培后得 到“计算机”这一新的 上位概念。组配结果, 提高查全率。,是不同级词间的组配,是用 时间、空间和学科范围某一 方面的属性进行限定的一种 概念关系。如:“建筑物”为 主体事物,“设计”为某个方 面,组配结果被限定为“建 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。,检索语言,按规范化程度划分:规范化语言(受控语言) 和非规范化语言(自然语言) 规范化语言(人工语言):是人为地对标引词和检索词 的词义进行控制和规范,使每一个词只能表达一个概念。 如:分类语言、标题词语言、叙词语言。 非规范化语言(自然语言):在信息检索系统中使用 直接从原始信息中抽取出来的未经规范化处理、用以揭 示信息主题概念的自由词,如:关键词语言。,检索语言,按组配方式划分:先组式语言和后组式语言 先组式语言:指描述文献主题概念的标识在检索之前就已经 事先固定好了的标识系统。如:分类语言、标题词语言。 后组式的检索语言:指描述文献的标识在检索之前未固定组配, 而是在检索时根据检索的实际需要,按照组培规则临时进行组 配的标识系统,如叙词语言、关键词语言。,检索语言,检索语言的功能: 保证标引的一致性 保证检索提问和文献标引的一致性 保证检索结果和检索要求的一致性 对内容相同或相关的信息,加以集中或揭示,表述 其相关性。 便于对大量信息加以系统化或组织的有序化,并力争 从多方面揭示文献信息。,检索原理、方法、途径和步骤,反映文献外部特征 检索标识,反映文献内容特征 检索标识,文献序号,篇名 出版社,分类号,主题词,关键词,人工语言,自然语言,分类语言,检索标识种类,著者,检索原理、方法、途径和步骤,检索方法,检 索 方 法,常用法,顺查法,倒查法,抽查法,追溯法,循环法,浏览法,根据检索课题的起始年代,利用选定的检索工按照从旧到新、由远及近、由过去到现在顺时序逐年查找,直至满足课题要求为止的查检方法。 这种方法费力、费时,工作量大,多在缺少评述文献采取此法。因此可用于事实性检索。,倒查法与顺查法相反。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。此法查处的信息新颖,但查全率不高。,是利用检索工具进行重点抽查检索的方法。针对某学科的发展重点和发展阶段,拟出一定时间范围,进行逐年检索的一种方法。此法检索效率较高,但漏检的可能性大,检索人员必须熟悉学科的发展特点。,又称追溯法、引文法、引证法、是一种跟踪查找的方法。即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。在没有检索工具或检索工具不齐美的情况下,利用此法能够获取一些所需要的文献资料,但往往查全率不高,回溯年代越远,所获取的文献越成旧。 这类检索工具著名的有美国的科学引文索引社会科学引文索引艺术和人文科学索引,中国的有中国科学引文索引、中国社会科学引文索引。,又称综合法、交替法、或分段法,是交替使用 常用法和追溯法来进行检索的综合方法。在查找文献时,一般先用常用法,即利用检索工具查出一批文献资料,然后再选择出与检索课题针对性较强的文献,利用这些文献所附的参考文献追溯查找,交替、循环使用常用法和循环法,不断扩检,直到满足检索需求为止。,是指直接利用检索工具进行信息检索的方法。 这种方法多用于查找一些内容概念较稳定较成熟、有定论可依的指示性问题的答案。即可解决事实性的检索和数据性的检索。,检索原理、方法、途径和步骤,检索途径:文献信息检索有两类不同的检索途径。 根据文献的特征检索文献信息是最简捷的途径。其特 征有两个,一是根据文献的外部特征,二是按照文献 的内部特征。,检索原理、方法、途径和步骤,分类途径:分类途径是以课题的学科属性为出发点,按学科分类 体系来查找文献信息,以分类作为检索点,利用学科分类表、 分类目录、分类索引等按学科体系编排的检索工具来查找有关 某一学科或相关学科领域的文献信息。 主题途径:以课题的主题内容为出发点,按主题词、关键词、 叙词、标题词等来查找文献。以主题作为检索点, 利用主题词表、主题目录、主题索引等按主题词的 字顺编排的检索工具来查找有关某一主题或某一事物 的文献信息,能满足特性检索的需求。适合查找比较 具体的课题。,检索原理、方法、途径和步骤,关键词途径:是按照文献题目或内容中具有实际意义并能表述 文献的主要内容、起关键作用的词或词组按照关键词的字顺在 检索系统中使用的检索途径。 题名途径:可查找图书、期刊、单篇文献。检索工具中的书名 索引、会议名称索引、书目索引、刊名索引等都提供了从题名 进行文献检索的途径。,检索原理、方法、途径和步骤,著者途径:包含个人责任者、团体责任者、专利发明人、专利权 人、合同户、学术会议主办单位等。利用责任者检索文献,主要 利用的是作者索引、作者目录、个人作者索引、团体作者索引、 专利权人索引等。 序号途径:据文献信息出版时所编的号码顺序来检索文献信息 的途径。特定编号如:技术标准的标准号、 专利说明书的专利号、科技报告的报告好、 合同号、任务号、馆藏单位编的馆藏号、 索取号、排架号等。,检索原理、方法、途径和步骤,分子式途径:以化学物质的分子式作为检索标识来检索文献信息 的一种检索途径。使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论