文献信息检索技术_第1页
文献信息检索技术_第2页
文献信息检索技术_第3页
文献信息检索技术_第4页
文献信息检索技术_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物学文献检索 文献信息检索技术,常民 ,检索的概念,信息检索是指将信息按一定方式组织和储存起来,并针对信息用户的特定需求查找出所需信息内容的过程。 文献检索(Retrieval):就是通过一种科学的方法 和途径,在一定的文献信息集合中迅速、全面、准确的获取自己所需要的那部分信息。,数据库:由计算机进行处理的一定数量同类信息的有序集合,是用来存储和查找文献的信息的电子化检索工具。,信息检索示意图:,信息检索的实质是信息用户的需求和一定的信息集合的比较和选择的过程,即匹配的过程。也既是用户需求的主题概念和提问表达式同一定信息系统的系统语言相适应的过程,如果两者相适应取得一致,则所需信息被检中,否

2、则,检索失败。 文献检索重要的一种信息检索。,信息检索的实质,信息检索的类型,文献检索(书目信息检索):即检索结果是关于某主题知识的文献线索,它是通过二次文献,包括传统的以纸张为存储介质的现代计算机检索系统,找出所需的一次文献或三次文献。 数据检索:就是满足数据需求的检索过程,如数理化等科学数据,经济数据,历史数据,地理数据等。 事实检索:就是对特定的事件或事实的检索。事实内容包括大量的科学事件和社会事件。例如:我国建成最早的高速公路是哪条?何时建设? 概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手

3、册、指南等参考工具书。,信息检索类型图:,信息 检索,直接答案(数据、事实),间接答案(文献线索),参考性工具书,检索性工具书,文献检索,数据检索,事实检索,概念检索,信息检索的意义 信息与现代科技的发展 现代科技发展特点:高速化、综合化、专业化。,信息检索意义,信息量急剧增长。 信息的使用寿命缩短。,充分利用信息资源,避免重复劳动。 为人们更新知识、实现终身学习提供门径。,检索系统的著录,检索系统是有序的信息集合。每个信息都需要经过加工,把信息的特征著录即描述下来,成为一个条目,亦称记录。将一个个记录按一定序列编排起来便组成一个可供检索的系统。 *按著录方式划分如下: 目录 题录或索引 文摘

4、 全文,目录(Catalogue),含义: 目录是对文献的外表特征的著录。它通常以完整出版物(如一本书或一种刊或一个会议录的名称)作为著录的基本单位来报道和记录文献。 著录内容: 文献名称、著者、出版项与馆藏信息等内容。,按职能划分目录种类: 出版发行目录 馆藏目录:按检索标目划分为 书名目录(Title Catalogue) 著者目录(Author Catalogue ) 分类目录(Classified Catalogue) 主题目录(Subject Catalogue ) 联合目录 资料来源目录,如IM、CA、BA,目录(Catalogue),题录(Title)或索引(Index),概念:

5、 其一,是指检索工具,它揭示文献的外表特征和内容特征,即著录文献是以一个完整出版物的某一部分(如书的章节或刊中一篇论文题目)为著录单位。 其二,是指检索途径(附录式索引),如,分类索引、主题索引、生物体索引、著者索引等。 著录内容: 论文题目、著者、文献出处(刊名、发表年月、卷、期、页码)及文种等。如,中目、IM、CNKI免费题录等。,文摘(Abstract,Excerpta,Digest),含义: 文摘是指对文献内容选择重要部分以简练的形式作为摘要,并按一定的原则和方法编排而成的一种检索工具。 著录内容: 同 文摘。 如,中国医学文摘,中国药学文摘, 中国生物学文摘,CA,BA,CBM,CM

6、CC,MEDLINE/PubMed等。,根据摘要详简程度,文摘可分为: 指示性文摘(简介,Indicative Abstract) 是以最简短的语言,概略指示原文的研究对象、内容范围、研究目的及方法,一般在50-150个字。 报道性文摘(Informative Abstract)内容详细,反映文献的中心内容、观点、数据及结论,一般在200300,500,1000字左右。,文摘(Abstract,Excerpta,Digest),全文(Full-text),全文检索是指以文献所含的全部信息作为检索内容的文献检索。 中文:CNKI数据库、万方数据库、维普数据库 外文:Sciencedirect数据

7、库 wiley数据库 blackwell数据库 EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊,检索系统的构成,手工检索系统 计算机(网络)检索系统 篇名字段 文摘字段 基本索引字段 叙词字段 自由标引字段 辅助索引字段,记录 有多个字段组成记录,使数据库的信息单元 文档 数据库中一部分记录的集合,也使数据库的结构。一个数据库至少包括一个顺排文档和一个倒排文档。 检索语言,检索系统的构成,顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。 例排档:是将顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒

8、排文档。,顺排文档 倒排文档(主题),001 汽车尾气中的 铅对环境的污染 主题词:汽车 、尾气、 铅、环境污染 002 汽车的维修 主题词:汽车、维修 003 汽车与运输 主题词:汽车、运输 004 汽车噪音对环境的污染 主题词 :汽车、 噪音、环境污染,环境污染 001 004 汽车 001 002 003 004 铅 001 维修 002 尾气 001 运输 003 噪音 004,环境污染,汽车,001 004,001 002 003 004,001 004,数据库、文档、记录、字段之间的关系,数据库,文档1 (顺排档) 文档2 (倒排档、 索引) 文档n (倒排档),记录1 记录2 记

9、录n,字段1 字段2 字段n,子字段1 子字段2 子字段n,Internet用户的增长(1994-2003),万人,用户获取信息的主要途径,电子资源的产生与发展:数据库增长情况,1975-1999 数据库:301 - 11,681,增长39倍 数据库生产者:200 - 3,674,增长18倍 vendor:105 - 2,454,增长23倍 数据条数: 52 million - 12.86 billion records,增长242倍 (Martha E. Williams),电子资源(electronic resources),传统上也称为电子出版物,指一切以电子方式或机读方式生产和发行的信

10、息资源。电子资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。 网络资源在电子资源中占的比例越来越大。,电子资源的概念与类型,参考数据库 全文数据库 事实数据库 电子期刊 电子图书 电子报纸 其它:FTP,新闻组、搜索引擎、各种网站,全文数据库,full-text database,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、各类统计报告、法律条文和案例、商业信息等为主 按学科收录,综合性强,范围广,事实数据库,factual databases,指包含大量数据、

11、事实的数据库,分为数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。,电子期刊,electronic journals或简称e-journal,包括:与纸本期刊并行的电子期刊,如著名的科学(Science)、自然(Nature)、中国电子期刊杂志社的期刊等;纯电子期刊,如数字图书馆杂志(D-Lib Magazine) 周期短,可检索,服务功能多,电子图书与报纸,Electronic book 或e-book Electronic newspaper,电子资源的产生与发展,计算机检索主要经历了以下四个阶段:

12、 脱机检索阶段 联机检索阶段 光盘检索阶段 网络化检索阶段,脱机检索阶段脱机检索(Offline Retrieval):即批处理检索(50年代-60年代) 检索要求 检索系统 检索结果检索人员检索策略成批检索用户三点不足:1. 地理上的障碍,指用户与检索人员距离较远时,不便于检索要求的表达,也不便于检索结果的获取。2. 时间上的迟滞,指检索人员定期检索,用户不能及时获取所需信息。3. 封闭式的检索,指检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式,联机检索阶段联机检索(Online Retrieval):(60年代-80年代)终端设备 通讯网络检索系统 运行检索软件用户

13、 检索策略“人机对话” 获取所需信息 三个时期:60年代对联机信息检索进行了研究开发试验;70年代末进入了联机检索地区性应用阶段;80年代以后,随着空间技术和远程通讯技术的发展,使计算机检索进入信息计算机卫星通信三维一体的新阶段,即以信息、文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。,著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200

14、多个数据库,其中包括美国的医学索引、荷兰医学文摘、美国生物学文摘、美国化学文摘等,如今此联机检索系统仍然是世界上最有影响的联机检索系统。,光盘检索阶段1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点,因而至今仍被世界各地广泛应用。,国内外最常用的医学光盘数据库有: MEDLINE光盘 Biological Abstracts光盘Biological Abstracts/RRM光盘 Excerpta Medica光盘 C

15、hemical Abstracts Index光盘 Life Sciences Collection光盘(生命科学数据库) Science Citation Index(SCI)光盘(科学引文索引) 全国报刊索引光盘 CAJ(中国学术期刊),网络化检索阶段 目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源,网络传输速度不断提高,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。,顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。 例排档:是将

16、顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒排文档。,顺排文档 倒排文档(主题),001 汽车尾气中的 铅对环境的污染 主题词:汽车 、尾气、 铅、环境污染 002 汽车的维修 主题词:汽车、维修 003 汽车与运输 主题词:汽车、运输 004 汽车噪音对环境的污染 主题词 :汽车、 噪音、环境污染,环境污染 001 004 汽车 001 002 003 004 铅 001 维修 002 尾气 001 运输 003 噪音 004,环境污染,汽车,001 004,001 002 003 004,001 004,数据库、文档、记录、字段之间的关系,数据库,文档1 (顺排档) 文档2

17、(倒排档、 索引) 文档n (倒排档),记录1 记录2 记录n,字段1 字段2 字段n,子字段1 子字段2 子字段n,信息检索语言 检索语言概念,检索的基本原理: 是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。 检索语言: 是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。,检索语言(检索标识,Retrieval Language),检索语言是一种在文献存储和检索过程中共同使用的语言。它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。

18、 可分为规范化语言(受控语言)和非规范化语言(自然语言)。,规范化语言:是指对文献检索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念。 例:IM的Subject Index;CA的CS、GS;中目的分类目次 非规范化语言:它对检索用语中的各种同义词、多义词、近义词、同形异义词等不加处理,所以也叫自然语言,如关键词。 例:CAKeyword Index,检索语言,检索语言的类型划分:,分类语言 是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。,国内一般高校图书馆使用的分类语言表是中国图书馆图书分类法(第

19、四版),简称中图法,是我国图书馆和情报单位普遍使用的一部综合性的分类法。,主题语言 主题语言是以语词作为概念标识,按字顺编排的检索语言。 主题语言包括:,标题词语言最早使用的一种主题语言。它以规范化的自然语义作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。表达主题的词语称为标题词。 单元词语言是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。 叙词语言从自然语言中优选出来并经过规范化处理的名词术语。叙词语言是采用表示单元概念的规范化语词的组配来对文献内容主题进行描述的检索语言,也是目前使用最广泛的主题语言。 关键词语言

20、直接从文献题名、文摘或正文中抽取出来的未经规范化处理的词。是一种用自然语言做标识的检索语言。,文献信息检索步骤 分析检索课题,明确检索要求 选择检索工具,选择检索途径 确定检索标识,确定检索运算 构筑检索提问,实施检索操作 获取初步信息,调整检索策略 获得满意结果。,用户评价,结果输出,具体操作,制定检索表达式,检索结果,选择检索途径,确定检索工具,选择检索系统,主题分析,需求课题,用户,文献信息需求,主攻型 需要解决某一关键问题,只要求检出某一主题、某一方面的文献信息资料。 普查型 需要全面系统收集某一个主题范围的文献资料。 探索型 对选择新课题与应用新技术的科技人员,需要掌握动态。,分析检

21、索课题,确定检索词,使用本学科国际上通用的、国外文献出现的术语。 分析出检索课题的内容实质,找出隐性的主题概念。 以课题核心概念为主,排除无关概念,把重复概念进行归并。 从相应的规范词表中选定所需要的检索词,选择检索系统,网络数据库 中文:CNKI数据库、万方数据库、维普数据库 外文:pubmed、Highwire Sciencedirect数据库 wiley数据库 blackwell数据库 EBSCO数据库、Ovid系统 Springer电子全文期刊 Nature电子全文期刊,逻辑算符(Logical Operator),逻辑算符也称布尔算符(Boolean),该运算符由英国数学家乔治布尔提

22、出,用来表示两个检索词之间的逻辑关系,常用的有三种:与(AND)、或(OR)、非(NOT),如果一个检索式中含有多个逻辑算符,则它们的执行顺序将是“NOT” 、“AND”和“OR”,需要先执行的部分可用括号标出,如(A+B)*C,常用文献检索算符,逻辑“与” and /* & 检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。 如:查找“胰岛素治疗糖尿病”的检索式为 insulin (胰岛素) and diabetes(糖尿病)。,A AND B,逻辑“或” OR/+ 检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献

23、为命中文献。 如:查找“肿瘤”的检索式为cancer(癌) or tumor(瘤)or carcinoma(癌) or neoplasm(新生物)。,A OR B,常用文献检索算符,逻辑“非” NOT/- ! 检索式“A not B”表示包含检索词A同时不包含检索词B的文献为命中文献。 如:查“动物的乙肝病毒(不要人的)”的文献的检索式为hepatitis B virus(乙肝病毒) not human(人类)。,A NOT B,常用文献检索算符,邻近度算符 With 检索式“A with B”表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献. 如:“drug with abuse”检索出的是同一个字段中同时出现这两个词的记录。,常用文献检索算符,邻近度算符Near 检索式“A near B”表示检索词A和检索词B不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的文献才是命中文献。 如:drug near abuse检索出的是同一句话中同时出现这两个词的记录。(也可说成是两个词之间没有句号的文献)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论