电子信息检索第一章-信息检索概述课件_第1页
电子信息检索第一章-信息检索概述课件_第2页
电子信息检索第一章-信息检索概述课件_第3页
电子信息检索第一章-信息检索概述课件_第4页
电子信息检索第一章-信息检索概述课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子信息检索第一章信息检索概述2023/7/292二、信息检索的类型按存储和检索的内容分为:文献检索(DocumentRetrieval)以文献(包括文摘、题录或全文)为检索对象,分为手工式检索和计算机化的文献检索。数据检索(DataRetrieval)

数据检索的对象是数值性数据,即具有数量性质并以数值形式表示的量化信息。事实检索(FactRetrieval)

事实检索的对象是已经存在的各种事实的有关资料。文献检索是一种相关性检索,数据检索是一种确定性检索。

2023/7/293按系统中信息的组织方式分为:全文检索指检索系统中存储的是整篇文章乃至整本书。超文本检索从信息在系统中的组织方式不同而言,提供浏览式查询。超媒体检索对超文本检索的补充,存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多媒体信息。2023/7/294三、信息检索研究的核心问题检索语言兼容与整合的研究数据库与文档的研究有关检索系统的研究检索策略的研究网络搜索工具研究检索服务的研究2023/7/295四、信息检索的地位和作用促进信息资源的开发和利用协助管理者做出正确的决策便于继承和借鉴前人的成果,避免重复研究或走弯路节省研究人员查找文献的时间2023/7/296第二节信息检索的原理一、信息检索的原理就是检索提问标识与存储在检索工具中的标引标识进行比较,两者一致或者信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。简单的讲,就是匹配。

各检索系统的检索原理基本相同。2023/7/297信息检索的全过程包括存储和检索两个过程。存储过程就是按照主题词表或分类表及使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序的信息集合的过程。具体来说,信息的存储包括对信息的著录、标引以及编排正文和所附索引等。所谓信息的著录是按照一定的规则对信息的外表特征和内容特征加以简单明确的表述。信息外表特征包括信息的著者、题名、来源、卷期、页次、年月、号码、文种等。信息内容特征包括主题词、关键词和文摘。信息的标引就是就信息的内容按一定的分类表或主题词表给出分类号或主题词。检索过程则是按照同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据存储所提供的检索途径,从信息集合中查获与检索提问标识相符的信息特征标识的过程。2023/7/298信息存储与检索原理2023/7/299二、检索语言定义:检索语言,又称标引语言、索引语言、信息检索语言等,是根据检索需要而编制的一种人工语言。世界上的检索语言很多,如《中国图书馆分类法》、《杜威十进位分类法》、《中国科学院图书馆图书分类法》、《INSPEC叙词表》等。

2023/7/29101.检索语言的功能:简单明了而又规范化地标引文献的主题内容及其外表特征

对内容相同及相关的文献信息加以集中或揭示其相关性,使大量分散的文献存贮系统化、组织化,便于进行有规律的检索

便于将标引用语与检索用语进行相符性比较

2023/7/29112.检索语言的类型

根据是否规范化,分为规范化的语言(人工语言,如主题词语言)和非规范化的语言(自然语言)。根据包括的专业范围,分为综合性和专用性语言。根据描述文献的特征,分为表达文献外表特征的检索语言和表达文献内容特征的检索语言。2023/7/2912

2023/7/29133.分类语言分类语言以学科体系为基础,将各种概念按照学科性质进行分类和系统排列,并按分类编排组织成一个完整的体系。它按照知识门类的逻辑次序,运用概念划分和归属的方法,由总到分,由一般到个别,由抽象到具体,由低级到高级,由简单到复杂这样层层划分,逐级展开,形成一个严格有序的等级制体系。

2023/7/2914(1)分类语言的特点体系分类语言是以学科划分类目,符合人们认识事物的规律和处理事物的习惯

体系分类语言强调知识的系统性,方便人们按学科、专业系统检索有关文献资料,能够达到族性检索,可以获得较高的查全率

便于组织图书馆资料排架2023/7/2915不足之处检索者检索课题时首先必须了解课题的学科体系才能顺利查找到相应的类目,如果不熟悉学科体系,会带来一定的困难。体系分类语言采用尽量列举类目的方法,但是受到类目数量的限制,缺乏专指性,查准率不高。

由于分类表的结构是固定的,不便于随时修订和增设新的类目。

体系分类语言采用分类号作为检索标识,检索文献时,需要将检索文献的主题内容转换成分类号,转换过程中,容易产生误差,造成误检。2023/7/2916体系分类语言广泛应用于图书、资料的分类、排架和检索,如在我国应用较广的《中国图书馆图书分类法》(简称中图法)、《中国科学院图书馆图书分类法》(简称科图法)、《人民大学图书馆图书分类法》(简称人大法)以及国外的《杜威十进分类法》(DeweyDecimalClassification,简称杜威法,DDC或DC)、《美国国会图书馆图书分类法》(LibraryQfCongressClassification,简称国会法或LC分类法)都属于这一类。2023/7/2917

基本部类

基本大类马克思主义、列宁主义毛泽东思想、邓小平理论——A马克思主义、列宁主义、毛泽东思想、邓小平理论哲学———————------------B哲学、宗教社会科学—————------------C社会科学总论

D政治、法律

E军事

F经济

G文化、科学、教育、体育

H语言、文字

I文学

J艺术

K历史、地理自然科学————————------N自然科学总论

O数理科学和化学

P天文学、地球科学

Q生物科学

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学、安全科学综合性图书————————--Z综合性图书2023/7/2918《中图法》Q生物科学………………一级类目Ql普通生物学…………二级类目Qll生物演化与发展……三级类目Q111进化论、生物系统发育…………四级类目Qlll.2达尔文学说与研究……………五级类目2023/7/2919《杜威十进制分类法》《杜威十进分类法》(DeweyDecimalClassification)简称DDC或DC,由美国图书馆学家杜威(MelvilDewey)创制,是目前全世界使用最广泛、影响最大的图书资料分类法,至少有135个国家和地区的20多万个图书馆在采用。

2023/7/2920下面是杜威法的十个大类:

000Generalities(总论)100Philosophyandrelateddisciplines(哲学及相关科学)200Religion(宗教)300SocialScience(社会科学)400Language(语言)500Purescience(纯科学)600Technologiesandappliedscience(技术或应用科学)700Thearts(艺术)800Literature(文学)·900Generalgeographyandhistory(普通地理和历史)2023/7/2921600类之下又分为:

600技术或应用科学610医学620工程学630农业640家政650管理与辅助服务660化学工业670制造业680各用途产品制造690建筑工程2023/7/2922在620类目之下,又分为许多小类目

620工程学621应用物理学621.1蒸汽工程621.2水力工程621.3电力工程2023/7/2923四、主题语言

主题语言是一种描述语言,是用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物的概念。这些名词或名词性词组就是主题词。主题语言又可以分为标题词语言、关键词语言和叙词语言等等。2023/7/29241.标题词语言

标题词是指从文献的题目和内容中抽出来的,经过规范处理的表达文献内容特征的词或词组。2.关键词语言关键词(keyword),又称键词,是指从文献的题名、文摘甚至正文中抽出的具有检索意义的词,对揭示文献内容比较关键。3.叙词语言

叙词语言是以自然语言为基础的一种检索语言,综合了多种语言的优点。2023/7/2925例:查找“艾滋病的药物疗法”方面的文献体系分类语言:R512.910.5叙词语言:获得性免疫缺陷综合症/药物疗法关键词语言:AIDS,艾滋病,爱滋病,药物2023/7/2926第三节科技文献概述一、文献定义文献,是用文字、符号或图形等方式记录人类活动或知识的一种信息载体,是人类脑力劳动成果的一种表现形式。科技文献就是记录有科学技术信息或知识的一种载体,是人们从事科学技术活动的劳动成果的表现形式之一。

2023/7/29271.科技文献的物质形式文献以其载体的物理形态可分为四种类型,即:纸介型、缩微型、声像型和电子型。纸介型(paper-based)文献是以纸张为载体。它又可分为手抄型和印刷型两种。缩微型(microforms)文献以感光材料为载体,通过光学摄影方式将文献的影像固化在感光材料上形成的一类文献。2023/7/2928

声像型(audio-visualform)文献,也称视听型文献,是指通过特定设备,使用声、光、磁、电等技术将信息转换为声音、图像、影视和动画(sound,image,video&animadon)等形式,给人以直观、形象感受的知识载体。电子型(electronicform)文献,原称机读型(machinereadableform)文献。它通过计算机对电子格式的信息进行存取和处理。

2023/7/2929二、科技文献的结构等级

一般来说,科技文献划分为两个等级一次文献:(primarydocument).是指作者以本人的研究成果为基本素材而创作的文献,无论创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现。一般,一次文献记录的信息比较具体、详尽和系统化。习惯上也称一次文献为原始文献或第一手资料。阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准以及部分学位论文等公开发表的文献,都属于一次文献。另外,他还包括一些不公开发表的文献,如:实验记录、日记、备忘录、内部报告、技术档案、信件等等。

2023/7/2930二次文献(secondarydocument)

是指文献工作者对一次文献进行加工、提炼和压缩之后得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。它一般包括:目录、题录、文摘、索引、百科年鉴、手册、名录等。2023/7/2931其它分法:三次文献(tertiarysources)零次文献(non-printedsources)2023/7/2932三、文献的其他概念白色文献是指一切正式出版并在社会上公开流通的文献。包括图书、报纸、期刊等。这类文献通过出版社、书店、邮局等正规渠道公开发行,向社会所有成员公开,人人均可利用。灰色文献是指非公开发行的内部文献或限制流通的文献。因从正常采购途径难以获得,故又称为“非常见文献”。其范围包括社会非公开传播的内部刊物、内部技术报告、内部教材和会议资料等。这类文献出版量小、发行渠道复杂、流通范围有一定限制,不易收集。黑色文献包括两个方面:一是人们未破译或未辨识其中信息的文献。二是处于保密状态或不愿公布其内容的文献。这类文献除作者及特定人员外,一般社会成员极难获得和利用。

2023/7/2933四、核心文献、相关文献和边缘文献核心文献通常只与本学科发展水平、发展动向的密切相关的一些文献。

相关文献和边缘文献使之所含内容与学科的关系相对疏远一些的那些文献。

根据相对利用率的多少来分类2023/7/2934第四节科技信息检索方法一、检索方法1.直接法指科技人员直接阅读原始论文,从中获取所需资料的方法。

2.间接法(常用法)利用文摘、题录、索引等各种检索工具查找文献信息的方法。它又分为顺查法、倒查法和抽查法。

2023/7/2935(1)顺查法按照时间顺序,由远而近地利用检索工具检索的方法。

这种方法能收集到某一课题的系统文献,适用于较大课题的检索。优点是所查资料系统、全面,漏检、误检率低,但劳动量大,效率低。

2023/7/2936(2)倒查法由近及远,从新到旧,逆着时间顺序利用检索工具进行文献信息检索的方法。

使用这种方法可以最快地获得新资料,而且近期资料广泛均引用、论证和概述早期的技术资料,从而能够了解课题早期的发展情况。方法灵活、节约时间、劳动量较小,但易造成漏检,可以用于新课题立项前的调研。

2023/7/2937(3)抽查法针对检索课题的特点,选择有关该课题的文献、信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。

花费时间少,效率高,但前提是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论