




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章 信息检索与检索系统,2.1 信息检索的含义和作用 2.2 检索工具的基本功能及类型 2.3 检索系统的构成 2.4 检索语言,2.1 信息检索的含义和作用,1. 信息检索的含义,(1)“信息检索”(Information Retrieval)是指将信息按一定方式组织和存贮起来,并针对信息用户的需求找出所需要的信息的过程。信息检索的广义概念包括两个部分,即信息存储和信息检索,狭义则仅指该过程的后一部分,即信息的查找过程。信息检索的目的是为了解决特定的信息需求和满足信息用户的需要。它根据检索(查找)对象的不同,又可以分为文献检索、事实检索和数据检索。 信息检索的本质是信息用户的需求和一定的信息集合的比较和选择的过程,即“匹配”的过程,也就是用户需求的主题概念或提问表达式同一定信息系统的检索语言相适应的过程。,(2)科技信息检索 是应用现代信息检索理论并借助一定的检索工具和技术,从浩如烟海的科技信息资源中查找所需信息的过程。 (3)信息检索方式 按照信息存储手段和载体形式,可以分为手工检索(手检)和计算机检索(机检)。 手工检索是针对印刷型检索工具的,计算机检索使用的对象是计算机检索系统(包括各种数据库、检索软件及相关应用软件、计算机硬件和通信设施等)。 无论是手检还是机检,按检索过程和最终结果的关系可分为直接检索和间接检索两种方式。直接检索是指查阅一次信息(或一次文献)直接获取所需信息的方法,其效率很低(手检)。间接检索主要是指利用各种检索工具或检索系统获取信息线索的方法,再通过信息线索获取原始信息,这种方式效率要高得多,因而是现代信息检索的主要方式。,(4)信息检索入口 又称检索点或检索标识,是指信息内部特征或外部特征的属性值的集合。检索标识是系统标引员和信息用户所共同遵循的“接口”,是信息用户检索信息的出发点和依据。检索标识主要包括主题词、关键词、分类号、著者、标题、机构名称或代码等。 (5)信息检索的类型 按检索结果的内容来划分,可以划分为文献检索、数据检索、事实检索和概念检索。 文献检索(Documents Retrieval)是目前信息检索的主要类型,它是通过二次文献查找所需的一次文献或(和)三次文献。 数据检索(Data Retrieval)是满足数据需求的检索过程,如数理化等科学数据、经济数据、历史地理数据等。这里的数据指大量的数值、数字和相应的在逻辑层次结构上紧密相关的信息内容,它不等同于狭义的数学上的含义。,事实检索(Fact Retrieval)是对特定事实或事件的检索。事实内容包括大量的科学事件和社会事件,例如传统的报刊检索和现代的网络新闻检索就是查找“何时何地发生的具体事件”。 概念检索(Concept Retrieval)是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手册、指南等参考工具书。,2. 信息检索的作用,(1)信息检索是信息社会个人素质的一个重要组成部分 (2)信息检索是实现信息资源共享的重要途径 (3)信息检索是科学研究和技术创新的重要组成部分 (4)信息检索是提高个人竞争力的重要因素,2.2 检索工具的基本功能及类型,1. 检索工具的基本功能,信息检索工具的主要功能表现在存储和检索两个方面。报道及时全面、存储规范有序、检索方便准确是对检索工具的基本要求。因此,检索工具应具备下列基本功能: (1)报道功能 以高度压缩的形式简要揭示信息的内容特征(如标题、主题、摘要和分类等)和外部特征(如书刊名、著者和号码等)。,(2)标识功能 对著录信息进行多种标识,如序号、代码号、主题词、关键词、学科类目等。 (3)辅助检索功能 检索工具须提供多种辅助检索手段,如分类索引、主题索引、著者索引、机构索引和代码索引等。辅助检索功能的完善程度不仅是检索工具的主要质量指标,而且也是影响信息用户能否充分实现信息资源共享的一个关键因素。,2. 检索工具的基本类型,(1)按载体形式划分 书刊型检索工具,即以图书或期刊形式出版的常用检索工具。又可分为期刊式、单卷式和附录式等形式。 卡片型检索工具,将文献的各种检索标识著录在卡片上并按一定方法排列组织而成的传统检索工具。 缩微型检索工具,以缩微胶卷或平片的形式报道文献线索的检索工具,需要专用的缩微阅读设备。 机读型检索工具,以计算机为主要手段进行信息存储和信息检索的工具。它是信息检索工具(系统)发展的主导形式和方向。,(2)按著录信息的特征划分 目录(Contents) 以文献的外部特征为著录依据,记录具体出版事项及其收藏信息的报道性检索工具。按组织形式和范围可划分为国家书目、联合目录、馆藏目录、报刊目录、联机性和网络性目录等多种类型,按报道信息的学科范围可将目录划分为专题目录和综合目录。 索引(index) 将文献的一些外部特征和内容特征作为著录依据,并依此线索揭示文献原始信息内容的检索工具,如著者索引、主题索引、分类索引、关键词索引等。,文摘(abstract) 在著录文献外部特征的基础上,另外增加揭示内容特征的摘要部分,它是系统地报道、积累和检索文献信息的主要工具,是传统检索工具的核心。根据文摘揭示信息内容的深度,可以分为指示性文摘和报道性文摘。 参考工具书(reference) 是分析和著录大量具体而常用的科学数据与事实、以备查用的各种常用工具书的总称。 搜索引擎(searching engine) 将网络信息按一定分类方法组织起来,通过检索网址的方式来检索信息的检索工具。如百度、Google、搜狐、yahoo等。,(3)检索工具的其它分类方法 按检索手段可分为手工检索工具和计算机检索工具; 按报道的信息来源可分为单一型和多类型检索工具; 按收录信息的学科范围可分为综合型和专业型检索 工具; 按检索的对象和结果可分为文献信息和事实数据检索 工具。,2.3 检索系统的构成,1. 检索系统的构成,信息检索系统是由存储在一定载体上的有序化信息集合,相应的检索技术和设备,以及配套协调机制共同构成的具有信息存储和检索功能的共享信息环境。,(1)检索文档 经过有序化处理并附有检索标识的信息集合。如各种手检工具和机检数据库。检索文档包括顺排文档和倒排文档,顺排文档的检索是对库中主文档的检索,倒排文档是抽取具有检索意义的字段再重新组成的索引文档(检索属性和信息地址的有序集合)。,(2)检索设备 用以存储信息和检索标识、实现信息查询及其结果传递的技术手段。如主机、终端及通信设施等。 (3)系统规则 规范信息采集分析、标引著录、组织管理、检索与传输等过程的各种标准体系。 (4)作用于系统的人 包括信息采集、分析和标引人员,系统管理和维护人员,信息用户和信息检索服务人员等。 以上四要素是针对广义的信息检索系统而言的。狭义的检索系统仅指软件环境的核心部分,即:手工检索系统由正文、辅助索引、分类表和主题词表、说明、文献来源目录等5部分组成;计算机检索系统由数据库的字段、记录、文档、主题与分类索引、辅助咨询等部分组成。,良好的信息检索系统须具备以下特征: 须有规范的检索语言作环境支持(包括适宜的操作系统); 须有一部数据字典或词表作后盾; 对信息特征的标引和著录务求详细准确; 须具备多种系统检索标识; 全部检索标识必须有序化并相互协调; 提供多种检索方法和途径; 检索过程简易高效,符合“用户努力最小”原则; 准确的信息传递和信息输出; 多种检索系统之间须具有兼容性和通用性。,2. 检索系统的基本原理,采集,转换,信息存储过程,信息检索过程,录入,输出,信息检索系统基本原理框图,2.4 检 索 语 言,1.检索语言的概念,检索语言是用于描述信息系统中信息的内部特征和外部特征及其表达信息用户需求提问的一种专门语言。 或者说,检索语言是信息存储和信息检索共同遵循的一种约定性语言。 检索语言又称为标引语言、索引语言、存储语言等。 信息检索的匹配过程就是通过检索语言的匹配过程实现的。,2. 检索语言的基本要求和特点,(1)易于标引和检索:这是衡量检索语言的首要指标。其基本因素有:词语或符号的含义必须明确,不能有歧义或交叉语言概念丰富,概括面广,让各种文献信息都能有类可归(即有词或有号)标识的简洁直观性检索语言的语法必须严密规范; (2)检索语言须具有实用性; (3)具有较高的查全率和查准率; (4)满足多种检索要求,提供多种检索途径; (5)检索语言之间的通用性和兼容性。,3. 检索语言的类型,(1)检索语言按是否受控划分为人工语言和自然语言 人工语言:对检索语言的概念加以规范和控制,把各种同义词、多义词、同形异义词等进行规范化处理,使每一个检索词只能表达一个概念,分类语言、标题词和主题词(叙词)语言都属于人工规范语言; 自然语言:对检索语言中的同义词、多义词等不加处理,取其自然状态,单元词和关键词属于这一类。 (2)按检索时的组配实施状况划分为先组式和后组式检索语言 先组式检索语言:在检索前,检索词已被预先组配好,检索时用户只能严格按照预先设定的检索词去查找信息而不能任意组配。如分类索引中的各级分类款目、标题索引中的标题词都是如此。,后组式检索语言:在检索前检索词没有被预先组配,检索时可以对检索词任意组配,构成所需要的检索概念。其组配的基本原理是:具体概念可通过一般概念组配而成。单元词、叙词、关键词都属于这一类。 (3)按内容性质划分为分类语言和主题语言 分类语言:是用分类号和相应分类款目来表达各种概念,以学科体系为基础,将各种概念按学科性质和逻辑层次结构进行分类和系统排序。其特点是能集中体现学科的系统性,反映事物的从属派生关系,便于按学科门类进行族性检索。按照分类方式的不同,又可分为体系分类语言、组配分类语言和混合分类语言。,主题语言:是对信息主题内容特征的主题词汇概念,经规范化处理所形成的检索语言。由于主题词表达概念准确,所以主题途径是检索信息的主要途径。主题词汇按一定规则构成主题词表,词表通过参照方式揭示词汇之间的相互关系,用作信息标引和信息检索的参考依据。主题语言按照主题性质的不同,可以分为标题词(subject heading)语言、单元词(uniterm)语言、叙词(descriptor)语言、关键词(keyword)语言等。,4. 体系分类语言,体系分类语言是目前世界上最流行的检索语言,常见的有杜威十进制分类法(DDC)、国际专利分类法(IPC)、美国国会图书馆分类法(LC)、英国国会图书馆分类法(LCC)、中国图书馆图书分类法(中图法)、中国科学院图书馆图书分类法(科图法)等。体系分类语言的具体表现形式就是分类表及其辅助说明,一部完整的分类法由三个部分组成,即:分类表、辅助表和使用说明。现以中图法和科图法为例予以简单说明。,(1)中图法分类表的构成 分类表:是选择、类分、组织和检索信息的依据,分为: 编制说明:对类的设置与排序、标引和查阅方法等问题的说明。 基本部类:将全部知识划分为马列毛邓、哲学、社会科学、自然科学和综合性图书五个部分。又称基本序列。 大纲:也称基本大类,构成分类表的一级类目。中图法把知识体系分为22个基本大类。,简表:即基本类目表,是整个分类表的骨架。 详表:又称主表,即分类表的正文,由类号、类目和注释组成。 复分表:是祥表的一系列标准子目表,用于对祥表中指定需要划分的类目作进一步的细分。 辅助表:即中国图书馆图书分类法索引,用于引导用户从信息主题的角度迅速准确地确定分类号。 使用说明:是中图法的配套使用手册。 图22(P.34)列出了中图法各级类目展开的示例。 (2)科图法简介:中科院系统图书情报机构几乎全部采用科图法。 科图法与中图法都属于体系分类语言,其编排体例与结构类似于中图法,如图23所示。,5. 主题词语言,主题词语言是以概念为基础(包括正式主题词和非正式主题词)、经过规范化处理的具有检索意义和组配性能的单词或词组的有机集合。主题词是从主题途径组织信息和检索信息的依据。非正式主题词是用来指引正式主题词的一种措施,即引导词,正式主题词是用于主题标引和检索的受控词。主题词语言的具体表现形式是主题词表和主题索引,几乎所有检索系统或检索工具均提供主题检索途径。常见的比较重要的主题词表有汉语主题词表和英国科学文摘主题词表(INSPEC Thesaurus)。 示例见教材P3942。,汉语拼音 Dianshi xianxiangguan 款目主题词 电视显象管 56CE 范畴号 英文译名 Kinescope Television tube 用项符号 Y 显象管 同义词 (正式主题词) 汉语拼音 Gaowenfa 款目主题词 高温阀 67G 范畴号 含义注释(温度450) 英文译名 High temperature valves 属项符号 S 阀门* 族首词符号 广义词、族首词 汉语主题词表的主表主题词款目举例 1,汉语拼音 Xianxiangguan 款目主题词 显像管 56E 范畴号 英文译名 Kenescope Picture tube 代项符号 D 电视显像管 同义词 监视管 (非正式主题词) 分项符号 F 彩色显像管 狭义词 固体显像管 黑白显像管 属项符号 S 电子束管 广义词 族项符号 Z 电子管* 族首词符号 族首词 参项符号 C 显示管 相关词 指示管 汉语主题词表的主表主题词款目举例 2,acoustic wave velocity UF acoustic velocity NT ultrasonic velocity BT velocity TT velocity RT acoustic dispersion acoustic impedance acoustic wave propagation
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玛丽波尔卡打击乐课件
- 市场监管放心码信息归集和公示规范编制说明
- 安全教育活动培训制度内容课件
- 狼和鸭子课件
- 高校青蓝工程方案(3篇)
- 电池碰撞实验工程方案(3篇)
- 牧场安全规范培训内容
- 农业品牌创新驱动:2025年资金申请战略研究报告
- 历年保研面试题库及答案
- 安全教育培训通知书课件
- 脓毒症指南课件
- 生产副总经理岗位职责标准版本(五篇)
- 对颈椎概念和命名的再认识
- 淀粉与变性淀粉知识
- 华为信息安全宣传
- 物业管理供方管理程序
- GB/T 37642-2019聚己内酯(PCL)
- GB/T 3730.2-1996道路车辆质量词汇和代码
- GB 25585-2010食品安全国家标准食品添加剂氯化钾
- 国防科技大学介绍
- 设计文件审核记录表(模本)
评论
0/150
提交评论