信息检索的基本原理与方法_第1页
信息检索的基本原理与方法_第2页
信息检索的基本原理与方法_第3页
信息检索的基本原理与方法_第4页
信息检索的基本原理与方法_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节第一节 信息检索的基本原理信息检索的基本原理 1 1、信息检索的概念、信息检索的概念 信息检索信息检索(Information Retrieval) :是指将信息按一定的方式是指将信息按一定的方式组织组织和和存储存储起来,并起来,并 根据用户的需要找出有关信息的根据用户的需要找出有关信息的过程过程,所以它的全称又叫,所以它的全称又叫“信息的存储与检索信息的存储与检索。 狭义的信息检索狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 也就是我们常说也就是我们常说的的信息查询信息查询(Informati

2、on Search 或或Information Seek) 。 可见可见, ,信息检索的全过程应包括两个主要方面信息检索的全过程应包括两个主要方面: (1)(1)、信息标引和存储过程。、信息标引和存储过程。标引是用检索语言和分类号、主题词等标识符号标引是用检索语言和分类号、主题词等标识符号 来表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按来表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按 科学的方法存储起来,并组成检索工具或检索文档科学的方法存储起来,并组成检索工具或检索文档组织检索系统的过程;组织检索系统的过程; (2)(2)、信息的需求分析和检索过程。、信

3、息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索分析用户的信息需求,利用组织好的检索 系统,按照系统提供的检索方法和途径检索有关信息系统,按照系统提供的检索方法和途径检索有关信息检索系统的应用过检索系统的应用过 程。程。 因此,因此,信息检索的实质是将描述用户所需信息的提问特征与信息存信息检索的实质是将描述用户所需信息的提问特征与信息存 储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。储的检索标识进行比较,从中找出与提问特征一致或基本一致的信息。 所谓提问特征就是对信息的需求分析后,从中选出能代表信息需求所谓提问特征就是对信息的需求分析后,从中选出能代表信息需求 的主

4、题词、分类号或其它符号。的主题词、分类号或其它符号。 例如:要查找例如:要查找“硅藻土在塑料工业中的应用硅藻土在塑料工业中的应用”方面的信息,根据信方面的信息,根据信 息需求的范围和深度,可选择息需求的范围和深度,可选择“硅藻土硅藻土”和和“塑料塑料”为第一层的提问特为第一层的提问特 征,征,“硅藻土硅藻土”和和“通用塑料、工程塑料、特种塑料等通用塑料、工程塑料、特种塑料等”为第二层面的为第二层面的 提问特征,提问特征,“硅藻土硅藻土”、“聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰 亚胺、聚酯,玻璃钢亚胺、聚酯,玻璃钢”等塑料品种名称作为第三层面的提问特征。等

5、塑料品种名称作为第三层面的提问特征。 检索标识是信息存储时,对信息内容进行分析提出能代表信息内容检索标识是信息存储时,对信息内容进行分析提出能代表信息内容 实质的主题词、分类号或其它符号,硅藻土、通用塑料、工程塑料、特实质的主题词、分类号或其它符号,硅藻土、通用塑料、工程塑料、特 种塑料等、聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、聚酯、玻种塑料等、聚氯乙烯、聚乙烯、聚丙烯、聚酰胺、聚酰亚胺、聚酯、玻 璃钢等都是检索标识。璃钢等都是检索标识。 检索时,将提问特征与检索标识进行对比匹配,若达到一致或部分检索时,将提问特征与检索标识进行对比匹配,若达到一致或部分 一致,即为所需信息。一致,即为所

6、需信息。 2、信息检索的起源、信息检索的起源 信息检索起源于图书馆的参考咨询和文摘索引工作,从信息检索起源于图书馆的参考咨询和文摘索引工作,从1919世纪下半叶首世纪下半叶首 先开始发展,至先开始发展,至2020世纪世纪4040年代,索引和检索成已为图书馆独立的工具和年代,索引和检索成已为图书馆独立的工具和 用户服务项目。用户服务项目。 随着随着19461946年年世界上第一台电子世界上第一台电子计算机计算机问世,计算机技问世,计算机技 术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量 情报检索系统、联机实时情报检索系

7、统情报检索系统、联机实时情报检索系统 ,相继研制成功并商业化,相继研制成功并商业化,2020 世纪世纪6060年代到年代到8080年代,在信息处理技术、通讯技术、计算机和数据库技年代,在信息处理技术、通讯技术、计算机和数据库技 术的推动下,信息检索在术的推动下,信息检索在教育教育、军事军事和和商业商业等各领域高速发展,得到了等各领域高速发展,得到了 广泛的应用。广泛的应用。DialogDialog国际联机情报检索系统是这一时期的信息检索领域国际联机情报检索系统是这一时期的信息检索领域 的代表,至今仍是世界上最著名的系统之一。的代表,至今仍是世界上最著名的系统之一。 3、信息检索的类型、信息检索

8、的类型 (一)、按检索对象划分,信息检索可以分为:(一)、按检索对象划分,信息检索可以分为:文献检索文献检索 、数据检索数据检索 、事实检索事实检索 (1 1)、文献检索:)、文献检索:文献检索的概念就是信息检索的概念。 (2)、数据检索(data retrieval):是从文件、数据库或存储装置中查找和选取所需数据的操 作或过程。 (3)、事实检索:是情报检索的一种类型。广义的事实检索既包括数值数据的检索、算术运 算、比较和数学推导,也包括非数值数据 (如事实、概念、思想、知识等) 的检索、比较、演绎和 逻辑推理。 它要求检索系统不仅能够从数据 (事实) 集合中查出原来存入的数据或事实,还能

9、够从已有的 基本数据或事实中推导、演绎出新的数据或事实。 例如,该系统中存储有如下事实:李明是A校的学生。A 校的学生都学外语。如果该系统 是一个事实检索系统,则它应当能回答某用户提出的“李明学外语吗?”这种问题。事实检索是情 报检索中最复杂的一种。它要求系统中的数据和事实以自然语言或接近于自然语言的方式存储。 不仅要存入各种数据或事实单元,还要存入各单元之间的语义关系、句法关系以及各种有关的背 景知识。允许用户用自然语言提问,并能用自然语言作答。更重要的是,系统必须具有一定的逻 辑推理能力和自然语言理解功能。 以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信

10、息本身,而文献检索则检索出包含所需要信息的文献即可。 (二)按检索手段划分:(二)按检索手段划分:手工检索 、机械检索 、计算机检索 (1 1)、手工检索()、手工检索(manual retrievalmanual retrieval):):是一种传统的检索方法,即以手工翻 检的方式,利用工具(包括图书、期刊、目录卡片等)来检索信息的一种检 索手段。 手工检索不需要特殊的设备,用户根据所检索的对象,利用相关的检索工具就可 进行。手工检索的方法比较简单、灵活,容易掌握。但是,手工检索费时、费力, 特别是进行专题检索和回溯性检索时,需要翻检大量的检索工具反复查询,花费大 量的人力和时间,而且很容易

11、造成误检和漏检。 (2 2)、机械检索:)、机械检索:即利用探针或检索器件,对代表检索标识的穿孔卡片进行 选取。这种机械的扫描大大提高了检索效率。 (3 3)、光电检索:)、光电检索:即把检索标识变成黑白点矩阵或条形码,存储在缩微胶片 (卷)上,利用光电效应, 通过检索机械进行查找。 (4 4)、计算机检索:)、计算机检索:即把情报及其检索标识转换成电子计算机可以 阅读的二进制编码,存储在磁性载体上,由计算机根据程序进 行查找与输出。根据检索者同计算机进行的不同通信方式,计 算机检索又可以分为脱机检索、联机检索及多机网络化检索等。 计算机检索的特点: 检索方便快捷; 检索 功能强大; 获得信息

12、类型多; 检索范围广 泛。 其中现在发展比较迅速的计算机检索是 “网络信息检索”,也即网络信息搜索,是 指互联网用户在网络终端,通过特定的网络 搜索工具或是通过浏览的方式,查找并获取 信息的行为。 4、检索的基本原理、检索的基本原理 信息检索基本原理的核心信息检索基本原理的核心是用户信息需求与文献信息集合的是用户信息需求与文献信息集合的 比较和选择比较和选择, , 是两者匹配是两者匹配(match)(match)的过程。的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集 合,检索就是从用户特定的信息需求出发,对特定的信息集 合采用一定的方法、技术手段,根据一定的线索与规则从中 找

13、出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、相关度等问题, 按一定的标准筛选出符合要求的信息。 信息检索的过程往往需要一个评价反馈途径,多次比信息检索的过程往往需要一个评价反馈途径,多次比 较匹配,以获得最终的检索结果。其图示如下:较匹配,以获得最终的检索结果。其图示如下: 5、信息检索信息检索的意义 本世纪以来,人类创造的信息量高速增长,据估算,本世纪以来,人类创造的信息量高速增长,据估算,19501950年年 前后,人类知识总量翻一番大约需要前后,人类知识总量翻一番大约需要5050年,到年,到20202020年时,人年时,人 类知识总

14、量翻一番只需类知识总量翻一番只需7373天。天。7070年代以来全世界每年出版图年代以来全世界每年出版图 书书5050万种以上、期刊万种以上、期刊1010万种以上、专利约万种以上、专利约5050万件、科技报告万件、科技报告 约约9090万件、会议文献万件、会议文献1010多万篇、产品样本多万篇、产品样本5050多万种,每年发多万种,每年发 表的科技论文总数近表的科技论文总数近500500万篇,并呈指数式增长。万篇,并呈指数式增长。 信息检索的意义和作用主要是能有效提高人们检索信息和利信息检索的意义和作用主要是能有效提高人们检索信息和利 用信息的效率。用信息的效率。对大学生来说,文献信息检索是培

15、养学生能对大学生来说,文献信息检索是培养学生能 力的基本技能和方法之一,最主要的是自学能力、研究能力、力的基本技能和方法之一,最主要的是自学能力、研究能力、 思维能力、表达能力和组织管理能力的培养,是科学研究不思维能力、表达能力和组织管理能力的培养,是科学研究不 可缺少的一项工作。可缺少的一项工作。 具体地说信息检索有下面三个方面的作用:具体地说信息检索有下面三个方面的作用: (1).信息检索是获取知识的捷径 美国普林斯顿大学物理系一个年轻大学生名叫约瀚菲利普,在图书馆 里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。 他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)

16、、威力大(相当广 岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、 巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。 二十世纪七十年代,美国核专家泰勒收到一份题为制造核弹的方法 的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报 告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟 出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全 部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获 得的。 (2) .信息检索是科学研究的向导信息检索是科学研究的向导 美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力

17、实验时, 发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题, 事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇 中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里, 重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所 造成的损失,约占全年研究经费的38,达20亿美元之巨。日本有关化学化 工方面的研究课题与国外重复的,大学占40、民间占47、国家研究机构 占40,平均重复率在40以上;我国的重复率则更高。 (3 3). .信息检索是终身教育的基础信息检索是终身教育的基础 学校培养学生的目标是学生的智能:包括自学能力、研究能力、思

18、维能 力、表达能力和组织管理能力。 联合国教文组织提出,教育已扩大到一个人的整个一生,认为唯有全面 的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应 当代信息社会发展的需求。 第二节第二节 信息检索系统信息检索系统 1 1、信息检索系统的概念、信息检索系统的概念 信息检索系统是指根据一定的需要,为进行信息传递而建立的一种有序信息检索系统是指根据一定的需要,为进行信息传递而建立的一种有序 化的信息集合体,并能向用户提供信息服务的多功能开放系统。任何具化的信息集合体,并能向用户提供信息服务的多功能开放系统。任何具 有信息存贮与检索功能的系统,均可以称为信息检索系统。有信息存贮与检

19、索功能的系统,均可以称为信息检索系统。 检索系统应具备下述三个条件:(检索系统应具备下述三个条件:(1 1)详细记录所著录文献线索,读者)详细记录所著录文献线索,读者 可根据这些线索查找所需文献。(可根据这些线索查找所需文献。(2)2)根据检索标识,如分类号、主题词、根据检索标识,如分类号、主题词、 文献号代码等寻找所需文献。(文献号代码等寻找所需文献。(3 3)提供检索的必要手段,如分类索引、)提供检索的必要手段,如分类索引、 主题索引等,便于读者检索。主题索引等,便于读者检索。 2 2、信息检索系统的功能:、信息检索系统的功能: 报道文献信息、存储文献信息、检索文献信息报道文献信息、存储文

20、献信息、检索文献信息 3、信息检索系统的类型信息检索系统的类型 (1 1)、按照信息检索所采用的设备和手段划分:)、按照信息检索所采用的设备和手段划分:可分为手工信息检索系统和计可分为手工信息检索系统和计 算机信息检索系统算机信息检索系统 A A、手工信息检索系统、手工信息检索系统:手工检索系统是以手工方式存贮和检索信息的系统。检索时使用各种纸手工检索系统是以手工方式存贮和检索信息的系统。检索时使用各种纸 质工具,检索入口少、速度慢、效率较低。质工具,检索入口少、速度慢、效率较低。 手工信息检索系统又可分为:书本式检索系统和卡片式检索系统手工信息检索系统又可分为:书本式检索系统和卡片式检索系统

21、 B B、计算、计算机信息检索系统机信息检索系统:计算机检索系统是用计算机进行信息存贮和检索的系统。检索时使用计算机检索系统是用计算机进行信息存贮和检索的系统。检索时使用 各种数据库,检索灵活、检索入口多、速度快、效率高。各种数据库,检索灵活、检索入口多、速度快、效率高。计算机信息检索系统又可分为:光盘计算机信息检索系统又可分为:光盘 检索系统、联机检索系统和网络检索系统。检索系统、联机检索系统和网络检索系统。 (2 2)、按收录范围划分划分,)、按收录范围划分划分,可以分为:综合性检索系统、专业性检索系可以分为:综合性检索系统、专业性检索系 统和单一性检索系统统和单一性检索系统 A A、综合

22、性检索系统:综合性检索系统:收录范围是多学科的,适用于检索不同学科专业文献,如美国医学索 引、中文科技资料目录系列分册。 B B、专业性检索系统:专业性检索系统:收录范围仅限于某一学科或专业,专业性强,如荷兰医学文摘、中 国医学文摘,按学科分类检索,如科技人员检索特定专业,内容更集中、系统。 C、单一性检索系统单一性检索系统 :收录文献只限于某一特定类型的范围,如专利文献,以新技术发明作为 检索对象。 (3 3)、)、按照描述文献信息特征的方式不同、按照描述文献信息特征的方式不同、 用途不同,又可分为:用途不同,又可分为: J目录目录 J题录题录 J文摘文摘 J索引索引 A A、目录:、目录:

23、 目录的定义:目录的定义: 目录目录(Catalog)(Catalog)是以完整的出版单元是以完整的出版单元( (如一种图书、一种期刊如一种图书、一种期刊) )为单位,按照为单位,按照 一定次序编排的对文献信息进行描述和报道的工具,也称书目。目录对文一定次序编排的对文献信息进行描述和报道的工具,也称书目。目录对文 献的描述比较简单,每条记录的字段主要包括:文献题名、责任者、出版献的描述比较简单,每条记录的字段主要包括:文献题名、责任者、出版 事项、分类号、主题词等。一种出版物经过如此描述后形成一条记录,将事项、分类号、主题词等。一种出版物经过如此描述后形成一条记录,将 所有的记录组织起来就形成

24、了目录。所有的记录组织起来就形成了目录。 目录是对出版物按其外表特征进行著录而成,以书或刊作为目录的基本单目录是对出版物按其外表特征进行著录而成,以书或刊作为目录的基本单 位。位。 揭示与报道文献的外表特征和内容梗概,为学习、生产和科研工作者提供揭示与报道文献的外表特征和内容梗概,为学习、生产和科研工作者提供 有关文献的信息,是有关文献的信息,是目录的基本社会职能目录的基本社会职能。 目录类型目录类型: 图书馆目录种类繁多。其职图书馆目录种类繁多。其职 能各异,可以从不同角度进能各异,可以从不同角度进 行区分:行区分: 按目录反映的按目录反映的藏书范围区藏书范围区 分为:分为: 馆藏目录馆藏目

25、录 :反映一个图书反映一个图书 馆全部馆藏的目录。馆全部馆藏的目录。如中国如中国 国家图书馆馆藏目录国家图书馆馆藏目录 联合目录:联合目录:反映一个地区或反映一个地区或 一个系统甚至全国或世界范一个系统甚至全国或世界范 围的图书馆、信息服务机构围的图书馆、信息服务机构 文献收藏情况的一种统一目文献收藏情况的一种统一目 录录 。如如CALISCALIS联合目录联合目录 按目录的按目录的组织方法区分组织方法区分为字顺目录和分类目录。字顺目录又分题名目为字顺目录和分类目录。字顺目录又分题名目 录、责任者录、责任者( (著者著者) )目录、主题目录等。目录、主题目录等。 按目录的按目录的使用对象区分使

26、用对象区分为读者目录和公务目录。为读者目录和公务目录。 按目录反映的按目录反映的文献类型区分文献类型区分为图书目录、期刊目录、报纸目录、地图为图书目录、期刊目录、报纸目录、地图 目录、视听资料目录等。目录、视听资料目录等。 按目录的按目录的语言文字区分语言文字区分为中文目录、西文目录、俄文目录、日文目录为中文目录、西文目录、俄文目录、日文目录 等。等。 按目录的按目录的物质载体区分物质载体区分为卡片式目录、书本式目录、为卡片式目录、书本式目录、机读目录机读目录(MARC)(MARC)、 联机公共检索目录联机公共检索目录(OPAC (OPAC ,Online Public Access Cata

27、log )Online Public Access Catalog )等。等。 OPAC:是指以计算机编码形式存贮在计算机是指以计算机编码形式存贮在计算机 系统内,供读者通过终端设备进行联机检索的系统内,供读者通过终端设备进行联机检索的 图书馆目录,即图书馆目录,即书目数据库的一种形式书目数据库的一种形式。 题录:题录: 题录题录(Bibliography)是描述文献各种特征的一条记录,通常由文是描述文献各种特征的一条记录,通常由文 献的分类号、文献篇名、著者及其单位、文献来源、主题词等项献的分类号、文献篇名、著者及其单位、文献来源、主题词等项 组成。题录型检索工具组成。题录型检索工具(简称题

28、录简称题录)是以单篇文献是以单篇文献(如一篇论文、书如一篇论文、书 中的一章中的一章)为报道单位。这是它与目录的主要区别,题录揭示文为报道单位。这是它与目录的主要区别,题录揭示文 献比目录更为详细。献比目录更为详细。 题录反映了一定的内容特征,这就是它的加工所在。个别题录还题录反映了一定的内容特征,这就是它的加工所在。个别题录还 设有设有“修饰语修饰语”,即对文献的篇名稍加释义的自然语言。特别是,即对文献的篇名稍加释义的自然语言。特别是 科技文献有时题名过于文学艺术色彩,这时便需稍作解释,以防科技文献有时题名过于文学艺术色彩,这时便需稍作解释,以防 误解。如一篇题为误解。如一篇题为“不宁静的夜

29、晚不宁静的夜晚”,实则是,实则是“讨论猫头鹰生态讨论猫头鹰生态” 的学术论文,如不作些说明,那么原来科学论文的篇名是毫无这的学术论文,如不作些说明,那么原来科学论文的篇名是毫无这 方面信息的。方面信息的。 文摘:文摘: 文摘文摘(Abstract)(Abstract)是指通过描述文献的各种特征,并介绍文献是指通过描述文献的各种特征,并介绍文献 主要内容来报道文献的工具。主要内容来报道文献的工具。 它与题录型检索工具的报道单位一样,也是单篇文献,只是它与题录型检索工具的报道单位一样,也是单篇文献,只是 著录项目著录项目( (字段字段) )比题录多了一个摘要项。比题录多了一个摘要项。 文摘型检索工

30、具文摘型检索工具( (简称文摘简称文摘) )是书目检索系统的核心,是书目是书目检索系统的核心,是书目 检索的主要工具检索的主要工具。 索引索引(Index) (Index) : 所谓索引,所谓索引,就是将某种信息集合就是将某种信息集合( (如目录、题录、文摘如目录、题录、文摘) )中的一组相关信息,中的一组相关信息, 按照某种顺序组织并指引给用户的一种指南。按照某种顺序组织并指引给用户的一种指南。它具有便于检索,揭示文献信它具有便于检索,揭示文献信 息深入、详细的优点。通常,索引从属于特定的信息集合,为其提供多种不息深入、详细的优点。通常,索引从属于特定的信息集合,为其提供多种不 同的检索途径

31、同的检索途径( (入口入口) ),在检索系统中占有重要地位。索引条目一般由检索标,在检索系统中占有重要地位。索引条目一般由检索标 识和存贮地址组成。标识是索引条目所指示的文献信息某方面的特征,如主识和存贮地址组成。标识是索引条目所指示的文献信息某方面的特征,如主 题词、著者姓名、分类号等;存贮地址是指明标识所表达的特定信息在信息题词、著者姓名、分类号等;存贮地址是指明标识所表达的特定信息在信息 集合中的地址,它通常是文献存取号集合中的地址,它通常是文献存取号( (文摘号文摘号) )。 借助于索引的指引,人们可以借助于索引的指引,人们可以“按图索骥按图索骥”地获得地获得“隐藏隐藏”在文献中的各种

32、在文献中的各种 资料的出处。因此,索引是揭示包含在文献中的情报的钥匙。资料的出处。因此,索引是揭示包含在文献中的情报的钥匙。 索引和目录,有时容易混淆,其实二者是不同的。一般说来,索引和目录,有时容易混淆,其实二者是不同的。一般说来,目录所著录的目录所著录的 是一个完整的出版单位是一个完整的出版单位,例如一种书、一种期刊、一种报纸、一篇科技报告、,例如一种书、一种期刊、一种报纸、一篇科技报告、 一份标准等。一份标准等。而索引所著录的则是一个完整出版物的某一部分、某一观点、而索引所著录的则是一个完整出版物的某一部分、某一观点、 某一知识单元等。某一知识单元等。例如揭示期刊中所刊载的论文的期刊论文

33、索引,不同于期例如揭示期刊中所刊载的论文的期刊论文索引,不同于期 刊目录;揭示某一图书中的各方面的内容的图书内容索引,不同于图书目录,刊目录;揭示某一图书中的各方面的内容的图书内容索引,不同于图书目录, 相对来说,相对来说,索引揭示文献的内容比目录更为深入和细致。索引揭示文献的内容比目录更为深入和细致。这是它和目录比较这是它和目录比较 的一个非常主要的不同点。的一个非常主要的不同点。 不同的标识系统构成不同的索引,常见的索引有以下几种:不同的标识系统构成不同的索引,常见的索引有以下几种: (1)分类索引:是以分类号或类目名称作为索引标识,按照分类号排)分类索引:是以分类号或类目名称作为索引标识

34、,按照分类号排 列形成的索引。列形成的索引。 (2)主题索引:是以主题词)主题索引:是以主题词(叙词或关键词叙词或关键词)作为索引标识,按其字顺排作为索引标识,按其字顺排 列形成的索引。列形成的索引。 (3)著者索引:是以文献上署名的著者、译者、编者等责任者的姓名)著者索引:是以文献上署名的著者、译者、编者等责任者的姓名 或机关团体名称作为索引标识,按其字顺排列形成的索引。或机关团体名称作为索引标识,按其字顺排列形成的索引。 (4)专用索引:是以某些领域专用的名词术语或符号作为索引标识编)专用索引:是以某些领域专用的名词术语或符号作为索引标识编 排形成的索引。排形成的索引。 (5)引文索引:是

35、以引文著者和引文的其余题录部分作为标识编制成)引文索引:是以引文著者和引文的其余题录部分作为标识编制成 的索引。的索引。 4、检索系统的结构 它主要由以下几部分组成。它主要由以下几部分组成。 A A、编辑使用编辑使用说明:说明:介绍检索工具的编辑方针、收录范围、介绍检索工具的编辑方针、收录范围、 总体结构、各部分的功能、体例以及使用方法等。它是使用总体结构、各部分的功能、体例以及使用方法等。它是使用 检索工具的指南。检索工具的指南。 B B、正文、正文( (主文档主文档) ):是文献条目是文献条目( (也称记录也称记录) )的有序集合,是的有序集合,是 检索工具的主体。条目检索工具的主体。条目

36、( (记录记录) )通常由文献的顺序号、篇名、通常由文献的顺序号、篇名、 著者、来源等著录项目著者、来源等著录项目( (也称字段也称字段) )组成。组成。 为便于计算机识别记录的各个字段,每个字段都设有字段标识为便于计算机识别记录的各个字段,每个字段都设有字段标识 符,常见的字段标识符如下表:符,常见的字段标识符如下表: 字段名 标识 符 全称字段名 标识 符 全称字段名 标识 符 全称 文献题名TITitle著者AUAuthor著者单位AFAuthor affiliation 摘要ABAbstract出版者PBPublisher出版国CPCountry of publication 叙词DE

37、Descriptor文献来源SOSource出版年PYPublication year 关键词IDIdentifier语种LALanguage分类号CCClassification code 文献类型DTDocument type 国际标准 刊号 ISISSN 记录存贮 号 ANAccession number C C、索引:、索引:由各种不同的索引组成,数据库中称索引文档或 倒排档。它提供多种检索途径(检索入口),满足用户不同的 检索需要,提高检索的速度与准确性。常见的辅助索引有著 者索引、主题索引、文献号码索引等。 D D、附录:、附录:由来源期刊一览表、缩略语与全称对照表、不同 语种音译

38、对照表等组成。它是正文的必要补充,有利于用户 进一步理解正文的著录内容,了解文献来源情况,根据缩写 查找全称等。 E E、词表:、词表:是检索系统中文献信息整序的依据,如分类表、 主题词表等。它通常独立存在,是准确选择检索的分类号和 主题词的依据。 第三节第三节 信息检索语言信息检索语言 (1 1)、定义:)、定义: 检索语言是根据信息检索的需要而创造的专供信息存储检索语言是根据信息检索的需要而创造的专供信息存储 和信息检索使用的和信息检索使用的规范化规范化的一种的一种人工语言人工语言,它贯穿于信,它贯穿于信 息存储和检索的全过程。息存储和检索的全过程。 信息检索语言是沟通信息存储和信息检索的

39、一种约定语信息检索语言是沟通信息存储和信息检索的一种约定语 言。言。 (2 2)、检索语言的种类)、检索语言的种类 检索语言的类型检索语言的类型 表述文献外表表述文献外表 特征的语言特征的语言 表述文献内容表述文献内容 特征的语言特征的语言 题名题名 责任者责任者 号码号码 引文引文 分类法分类法 主题法主题法 标题词法标题词法 叙词法叙词法 关键词法关键词法 检索语言可分为:检索语言可分为: (1)(1)、分类语言:、分类语言:按知识门类的逻辑次序将信息系统地组织和划分的语言,具按知识门类的逻辑次序将信息系统地组织和划分的语言,具 体体现为用分类号和类名来表达信息的主题概念。如体体现为用分类

40、号和类名来表达信息的主题概念。如中图法中图法、国际十国际十 进分类法进分类法、 美国国会图书馆图书分类法美国国会图书馆图书分类法等。等。 (2)(2)、主题语言:、主题语言:是一种描述性语言,还可细分为标题词语言、叙词语言和关是一种描述性语言,还可细分为标题词语言、叙词语言和关 键词语言。键词语言。 标题词语言:标题词语言:是从文献的题目和内容中抽出来,经过规范化处理的主题语言。是从文献的题目和内容中抽出来,经过规范化处理的主题语言。 关键词语言:关键词语言:直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息 主题内容的自由词。

41、主题内容的自由词。 叙词语言:叙词语言:是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进 行逻辑组配的一种主语语言。行逻辑组配的一种主语语言。 (3)(3)、名称语言:、名称语言:人名、地名、书刊名等。人名、地名、书刊名等。 (4)(4)、代号语言:、代号语言:专利号、标准号、合同号等。专利号、标准号、合同号等。 第四节第四节 信息检信息检索的基本技术索的基本技术 (1)、布尔逻辑检索)、布尔逻辑检索 (2)、截词检索)、截词检索 (3)、位置运算检索)、位置运算检索 (4)、限定检索)、限定检索 1 1 、布尔逻辑检索、

42、布尔逻辑检索 在计算机文献检索中,用户的检索需求是通过检索提问式检索提问式表达 的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一 些具有简单概念的检索词(或检索项)组配成为一个具有复杂 概念的检索式,用以表达用户的检索需求。 布尔逻辑(组配)算符:布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔 代数中的逻辑运算符AND/*(与)、(与)、OR/+(或)、(或)、NOT/ (非)(非)。 布尔逻辑检索:布尔逻辑检索: 即运用布尔逻辑算符布尔逻辑算符对检索词检索词进行逻辑组 配,表达两个概念之间的逻辑关系。 (1) (1) AND AND 或或 * * 算符算符 实现逻辑实现逻辑“与与

43、”组配组配 也可用也可用“* *”表示,用来组配不同的概念的检索词。表示,用来组配不同的概念的检索词。是一种概念相交和限定关系的组配。是一种概念相交和限定关系的组配。 例如:例如:“A AND B”A AND B”或或“A A * * B” B” 其含义是:检出的信息中必须同时含有其含义是:检出的信息中必须同时含有“A”A”和和“B”B”两个检索词两个检索词(如图中阴影部分所(如图中阴影部分所 示)。示)。 其基本作用是其基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。 例如,检索例如,检索“计算机在图书馆中的应

44、用计算机在图书馆中的应用”方面的文献,其提问式可写成:方面的文献,其提问式可写成: 计算机计算机 and 图书馆图书馆 或或 计算机计算机*图书馆图书馆 (2 2) OR OR 或或 + + 算符算符 实现逻辑实现逻辑“或或”组配组配 逻辑逻辑“或或”,是用来组配具有同义或同族概念的检索词。是用来组配具有同义或同族概念的检索词。 如:检索提问式:如:检索提问式:“A OR B”A OR B”或或“A + B”A + B” 其含义是数据库记录中任何一条记录,只要含有其含义是数据库记录中任何一条记录,只要含有“A”A”或或“B”B”中任何一个检索中任何一个检索 词即为命中的文献词即为命中的文献(如

45、下图阴影部分)。如下图阴影部分)。 (3 3) NOT NOT 或或 算符算符 实现逻辑实现逻辑“非非”组配组配 逻辑逻辑“非非” ,“NOT”“NOT”算符是排除含有某些词的记录,算符是排除含有某些词的记录,其逻辑提问表达式为其逻辑提问表达式为 “A NOT B”“A NOT B”或或 “A “A - - B” B”,即检出的记录中只能含有即检出的记录中只能含有“NOT”“NOT”算符前的检算符前的检 索词索词 A A,但不能同时含有,但不能同时含有“NOT”“NOT”后的检索词后的检索词 B B(如图中阴影部分)。(如图中阴影部分)。 其基本作用其基本作用是缩小检索范围,但并不一定能提高文

46、献命中的准确性,一般只起到是缩小检索范围,但并不一定能提高文献命中的准确性,一般只起到 减少文献输出量的作用。在联机检索中可降低检索费用。减少文献输出量的作用。在联机检索中可降低检索费用。 优先级运算优先级运算 ()()NOTANDORNOTANDOR 2、截词检索与通配检索 截词检索的定义:截词检索的定义:用截词符号用截词符号“?”、“* *”或或“$ $”加在检索词的前后或中加在检索词的前后或中 间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范 围,提高查全率,围,提高查全率,主要用于西文数据库检索。中文数据库

47、通常不使用这种主要用于西文数据库检索。中文数据库通常不使用这种 技术。技术。 截词检索类型:截词检索类型: 截词方式根据截词的截词方式根据截词的位置位置不同,分为不同,分为前截断、后截断、中截断前截断、后截断、中截断; 根据截断的根据截断的数量数量不同,分为不同,分为有限截断和无限截断有限截断和无限截断。 前截断:前截断:截词符放在被截词的左边,可与后截断一同使用。目前这种检索技截词符放在被截词的左边,可与后截断一同使用。目前这种检索技 术应用已经极少。术应用已经极少。 后截断:后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常是前方一致检索,又称右截断,截词符放在被截词的右边

48、,是最常 用的截词检索技术。后截断主要用于下列检索:词的单复数检索;用的截词检索技术。后截断主要用于下列检索:词的单复数检索; 中截断:中截断:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。 截词举例截词举例 符号:符号:* *,?,?,$ $ 前截断:前截断:* *magnetic magnetic magnetic, electro-magnetic magnetic, electro-magnetic, , electromagnetic, thermo-magnetic, electromagnetic, the

49、rmo-magnetic, 后截断:后截断:librarlibrar* * library, libraries, librarian,library, libraries, librarian, 中截断:中截断:organiorgani? ?ation ation organization, organisation organization, organisation 无限截断:无限截断:不限制被截断的字符数量,不限制被截断的字符数量, 例如例如输入输入educateducat? ?,可以检索,可以检索educatoreducator,educatorseducators, educate

50、deducated,educatingeducating,educationeducation,educationaleducational,等等。,等等。 有限截断:有限截断:限制被截断的字符数量,限制被截断的字符数量, 例如例如输入输入educateducat* * *,表示被截断的字符只有两个,可以检索,表示被截断的字符只有两个,可以检索 educatoreducator,educatededucated两个词。两个词。 3 、位置算符检索 定义:定义:运用位置算符表示两个检索词间的位置邻运用位置算符表示两个检索词间的位置邻 近关系,又叫邻接检索。近关系,又叫邻接检索。 这种检索技术通常

51、只出现在西文数据库中,在全这种检索技术通常只出现在西文数据库中,在全 文检索中应用较多。文检索中应用较多。 如果说布尔逻辑算符是表示两个概念之间的逻辑如果说布尔逻辑算符是表示两个概念之间的逻辑 关系的话,位置算符表示的是两个概念在信息中关系的话,位置算符表示的是两个概念在信息中 的的实际物理位置关系实际物理位置关系 。 w常用的位置算符有 算符算符 功能功能 表达式表达式 检索结果检索结果 W, with 两词相邻,按输入时两词相邻,按输入时 顺序排列顺序排列 (也有数据库允许顺(也有数据库允许顺 序颠倒)序颠倒) Education(W)school, 或或 Education with s

52、chool Education school Education schools (school of education schools of education) nW 同上,两词中间允许同上,两词中间允许 插入插入n个词个词 Education (1W) school Education school Education schools Education and music school School of continued education Pre 两词相邻,按输入顺两词相邻,按输入顺 序排列序排列 Education Pre school Education school Ed

53、ucation schools N, near 两词紧密相邻,中间不两词紧密相邻,中间不 能插入其他词,顺序可能插入其他词,顺序可 以颠倒以颠倒 Education (N) school, 或或 Education near school Education school Education schools School of education nN 同上,两词中间可以插同上,两词中间可以插 入入n个词个词 Education (1N) school Education school School of education Education and music school F 两个词同在

54、一个标引字两个词同在一个标引字 段中段中 Education (F) school例如同时出现在题名或文摘字段中例如同时出现在题名或文摘字段中 Same 两个词同在一个段落中两个词同在一个段落中 Education Same school 同时出现在一个段落中同时出现在一个段落中 4 、限定检索 为了缩小检索范围,可利用为了缩小检索范围,可利用字段代码字段代码来限制检索词出现来限制检索词出现 的字段,以提高检索速度和命中率。的字段,以提高检索速度和命中率。 如:如:riceinti(表示只在题目字段中查找文献)(表示只在题目字段中查找文献) riceinde(只在主题词中查找)(只在主题词中查

55、找) riceinab(只在文摘中查找)(只在文摘中查找) au=Smith,J.C(查作者为查作者为Smith,J.C的文章的文章) py=1998(只查只查1998年的文章年的文章) la=Chinese(只查语种为中文的文献只查语种为中文的文献) 第五节第五节 信息检索的方法和步骤信息检索的方法和步骤 1 1、信息检索的常用途径、信息检索的常用途径 (1 1). . 题名题名 :注意题名关键词的排序特征注意题名关键词的排序特征 (2 2). . 作者作者 :通常按姓在前名在后方式检索通常按姓在前名在后方式检索 (3 3). . 分类分类 :我国高校与公共图书馆的文献资料,我国高校与公共图

56、书馆的文献资料, 一般采用一般采用中国图书馆图书分类法中国图书馆图书分类法(简称(简称中图中图 法法)进行分类。)进行分类。 (4). (4). 主题词:主题词:主题是指表征文献内容特征、经过规范化的名词主题是指表征文献内容特征、经过规范化的名词 术语。检索者通过检索这些规范的词语来找到所要的文献和情报。术语。检索者通过检索这些规范的词语来找到所要的文献和情报。 现代汉语主题词表现代汉语主题词表 (5). (5). 关键词:关键词:直接从文献的篇名或文摘或全文中抽取出来的非直接从文献的篇名或文摘或全文中抽取出来的非 规范化检索词。规范化检索词。 (6). (6). 顺序号检索:顺序号检索:专利

57、号,标准号,研究报告号。专利号,标准号,研究报告号。 (7). (7). 引文检索:引文检索:利用被引文献来查找原文献的检索方法。如:利用被引文献来查找原文献的检索方法。如: CNKICNKI中国期刊网被引用字段,维普中文期刊数据库引文检索途径。中国期刊网被引用字段,维普中文期刊数据库引文检索途径。 (8). (8). 其它:其它:超文本检索,基于概念的自然语言检索,图象等。超文本检索,基于概念的自然语言检索,图象等。 2 2、信息检索的方法、信息检索的方法 (1 1). . 追溯法(引文法):追溯法(引文法): 又称回溯法,是从已有的文献后面所附的又称回溯法,是从已有的文献后面所附的参考文献

58、参考文献入手,逐一查入手,逐一查 找全文,再从这些原文后面所列的参考文献逐一追查,不断扩大找全文,再从这些原文后面所列的参考文献逐一追查,不断扩大 检索线索,从而获得一批相关文献信息的查找方法。检索线索,从而获得一批相关文献信息的查找方法。 (2 2). . 工具法(常用法):工具法(常用法): 利用目录、索引、题录或文摘等检索工具来查找文献的方法。利用目录、索引、题录或文摘等检索工具来查找文献的方法。 按所查文献的顺序,可分为按所查文献的顺序,可分为顺查法、倒查法和抽查法顺查法、倒查法和抽查法三三种。种。 顺查法顺查法由远而近,从问题发生的年代开始逐年往近由远而近,从问题发生的年代开始逐年往

59、近 查,适用于无综述性文献可参考时使用。查的文献较完查,适用于无综述性文献可参考时使用。查的文献较完 整,查全率较高,但工作量大,效率不高。整,查全率较高,但工作量大,效率不高。 倒查法倒查法由近到远,重点放在近期的文献,多用于新由近到远,重点放在近期的文献,多用于新 课题,或老技术的新发展,从新情况开始查到一定的基课题,或老技术的新发展,从新情况开始查到一定的基 本资料时为止。本资料时为止。 抽查法抽查法根据课题的特点和需要,选查发展旺盛时期根据课题的特点和需要,选查发展旺盛时期 的文献,可节约时间,但可能会漏检。的文献,可节约时间,但可能会漏检。 (3). 综合法:综合法: 结合追溯法和常

60、用法,先利用检索工具查结合追溯法和常用法,先利用检索工具查 出一定时期内的一批有用文献,在利用这出一定时期内的一批有用文献,在利用这 些文献后面的参考文献,追溯查出前一时些文献后面的参考文献,追溯查出前一时 期内的文献,如此循环交替的使用两种方期内的文献,如此循环交替的使用两种方 法直到满足要求为止。也称交替法。法直到满足要求为止。也称交替法。 4 4、信息检索的技巧和方法、信息检索的技巧和方法 (1 1)检索策略)检索策略 检索策略检索策略是科学地运用检索词和逻辑运算是科学地运用检索词和逻辑运算 符正确地构造逻辑提问式的原则和方法。符正确地构造逻辑提问式的原则和方法。 其核心内容在于检索策略

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论