第二章信息检索技术_第1页
第二章信息检索技术_第2页
第二章信息检索技术_第3页
第二章信息检索技术_第4页
第二章信息检索技术_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 信息检索技术第一节 信息检索的概念第二节 信息检索数据库第三节 检索语言和检索效果评价第四节 科技信息检索的基本流程 第五节 原文获取第一节 信息检索的概念v1、检索的意义v信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。 v信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。 2、检索的基本原理信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择 , 是两者匹配(match)的过程。一方面是用户的信息需求 , 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出 (search, locate, hit) 相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:3、检索点检索点( access point)是检索的出发点,以前常用 “检索途径 ”( approach)这一术语。 每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索;反映文献外部特征:作者、名称和号码检索等。 1)分类检索 ( classification)分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系( classification system)。分类体系按文献内容特征的相互关系加以组织,并以一定的标记 (类号 )作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有 :中国图书馆图书分类法美国国会图书馆分类法 (Library of Congress Classification)杜威十进分类法( Dewey decimal Classification system) 2)主题检索主题( subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。 3)作者检索作者( author)检索是从文献的作者姓名出发来检索其文献。 “作者 ”广义上还应包括:汇编者( compiler)、编者( editor)、主办者(sponsoring body)、译者( translator)等此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(authors affiliation)。4)名称检索名称( title)检索点是从各种事物的名称出发来检索文献信息。 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿( white pages)或公司电话簿( yellow pages),查找的是号码信息。5)号码检索号码包括文献的编号( number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。图书期刊的号码国际标准书号 ISBN: International Standard Book Number国际标准刊号 ISSN: International Standard Serial NumberISBN号: 十位分四段构成,例如: 0 471 81086 x其中: 0: 组号 (语种、地区 ),组号有: 0 (英、美、加拿大、南非等英语区 ), 1(其它英语区), 2(法语区 ), 3(德语区 ), 4(日本 ), 5(俄语区), 7(中国 ), 8(印度等 ), 9(新加坡等东南亚地区 )。471: 出版社编号81086: 图书序号x: 一位效验码 (x代表 10)。 ISSN号:ISSN有八位数字组成,例如: 1005 8230其中: 1005-823: 前七位为出版物序号,0: 最后一位为校验码。由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。 EI的检索实例4、检索手段从技术手段上分:手工检索(手检)和计算机检索(机检)手工检索 (manual retrieval)使用的多为印刷型或书本型检索( paper-based retrieval) 工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。 计算机检索( computer-based retrieval)它通过数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的( real time)、交互的( interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。计算机检索的优势计算机检索明显优于手工检索,主要表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。第二节 信息检索数据库(工具)v检索工具(数据库)的功能 v检索工具(数据库)的分类v检索工具(数据库)的构成检索工具(数据库)的功能事实检索、目录检索、文摘索引检索。其关联关系如下图: 1)事实检索事实检索是对包括事实( fact)、数值( numeric data)与全文( full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如:“我国最近一年在 SCI 上被收录的文献量是多少? ” “有哪些海外华人得过诺贝尔奖? ” 工具: 字典、词典( dictionary)百科全书( encyclopedia)年鉴( annual, yearbook, almanac)手册( handbook, manual)名录( biography)和书目指南( directory)数据库属于源数据库:全文数据库、数值数据库、文本数值数据库、术语数据库、图象数据库、多媒体数据库2)目录检索: 目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。按性质:登记书目(出版、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁带目录和机读目录等。目录检索系统数据库属参考数据库。 经常使用的目录有:馆藏目录、联合目录、机读目录等 3)文摘索引检索文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处( source),也常带有文献的内容摘要,但不是文献原文。 EI、 SCI、 INSPEC等文摘索引检索是能揭示到文章、论文级( article-level)的检索,这些文章大量的是来自期刊及会议论文集。按其报道的学科范围:综合性和专业性检索工具;按其取材范围:多种出版物类型和单一出版物类型工具;按其著录方式:题录型和文摘型检索工具;按其媒体:书本型、电子型检索工具等。3、检索工具(数据库)的构成第三节 检索语言和检索效果评价v检索语言检索语言( retrieval language)概念检索语言的分类人工语言和自然语言 分类语言和主题语言 v检索效果评价检索效果( retrieval effectiveness)查全率和查准率提高检索质量的措施 检索语言的概念语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言( retrieval language)。 检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。 检索语言的分类按文献信息的特征:描述信息内容特征的语言和描述信息外部特征的语言;按检索工具编排体系:分类语言和主题词语言;按词汇的类型:关键词语言、单元词语言、标题词语言和叙词语言。按其规范的情况:人工语言 (规范语言 )和自然语言 (非规范语言 );按检索语言的词汇组配方式:先组式语言和后组式语言。不同的检索语言构成不同的标目及其索引系统,提供各种检索点。 人工语言 (规范语言 ) 和自然语言 (非规范语言 )artificial language: 受信息检索的控制,使用控制、规范词( controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。natural language : 自然语言是取其自然形态,不受控,使用非规范词( uncontrolled term)或称自由词( free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论