计算机信息检索概述PPT课件.pptx_第1页
计算机信息检索概述PPT课件.pptx_第2页
计算机信息检索概述PPT课件.pptx_第3页
计算机信息检索概述PPT课件.pptx_第4页
计算机信息检索概述PPT课件.pptx_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论,1,1、信息的客观性2、信息的价值性3、信息的时效性4、信息的传递性5、信息的共享性6、信息的可存储性,2,文献概念,文献是记录有知识的一切载体。,3,文献的构成要素,信息内容,载体材料,信息符号,载体形态,生产方式,4,文献的属性,知识信息性,物质实体性,人工记录性,动态发展性,5,文献的功能,1、认识功能2、存储功能3、传递功能,6,文献的载体类型,印刷型文献,缩微型文献,声像型文献,电子型文献,7,印刷型文献,载体:纸张实例:教科书记录手段:油印、石印、铅印、胶印、复印特点:可直接阅读,方便使用;但难于实现机械化和自动化;收藏文献占用空间大。,8,缩微型文献,载体:感光材料实例:缩微平片、缩微胶片记录手段:光学缩微技术特点:体积小;价格低;不能直接阅读,9,声像型文献,载体:磁性材料、感光材料实例:录像带、幻灯片记录手段:磁记录、光学技术特点:直观、生动、形象;成本高;不易检索和更新。,10,电子型文献,载体:磁性材料实例:磁盘、光盘记录手段:计算机输入特点:存储密度高、速度快;易复制;成本高;不能直接阅读。,11,按出版形式的不同,图书,连续出版物,特种文献,会议文献专利文献标准文献学位论文政府出版物科技报告产品样本,期刊报纸年鉴,12,图书的含义,凡篇幅达49页以上并构一个书目单元的文献称为图书。,13,图书的特征,*主题突出,内容系统,论述全面深入,知识成熟稳定。*出版的周期长,因而其内容一般就缺乏最新的研究成果。,14,期刊,定义期刊又称杂志,它是指定期或不定期连续出版的、有统一的名称、固定的开本、版式、有连续的序号、汇集了多位作者分别撰写的多篇文章,并由专门的机构编辑出版的连续性出版物。,15,期刊的特点,A、期刊以品种为单位形成知识流;B、内容新颖、及时、广泛,但不如图书成熟;C、期刊一般不修订再版。D、科技期刊是最重要的一次文献。,16,核心期刊,*少数刊载某一学科大量高质量专业论文的期刊。*特点(1)刊载专业文献密度高,信息含量高;2)水平较高,代表本学科的最新发展水平;3)出版相对稳定,所载文献寿命较长;4)利用率和被引率较高。目前,许多单位核心期刊的判定是以中文核心期刊要目总览为标准,17,形式特征:有统一的名称,定期连续出版,每期汇集许多篇文章、报道、消息等,多为对开或四开,以单张散页形式出版。,报纸,18,内容特征:时间性强,能以最快的速度报道国内外发生的最新事件和科学技术的最新研究成果,内容广泛。类型:按出版周期分,有日报、双日报、周报、旬报等;按范围划分,有全国性报纸、地方性报纸、系统性报纸等;按内容划分,有综合性报纸、专业性报纸。,报纸,19,科技报告,科技报告是科技工作者对科学、技术研究结果或研究进展的记录,科技报告的特点(1)反映新的科研成果迅速;(2)内容多样化;(3)质量参差不齐;(4)保密性强;(5)每份报告独立成册,有连续编号。,20,会议文献,会议文献是指在各种会议上宣读、交流的论文、报告及其它有关文献。,21,政府出版物,政府出版物是指由政府机构制作出版或由政府指定出版商出版的文献。,22,政府出版物的类型(1)行政性文件(2)科技文献,政府出版物,23,政府出版物,政府出版物的特点(1)内容广泛,涉及各学科领域;(2)数量巨大;(3)资料可靠性强;(4)出版发行方式多样,有重复现象;(5)保密性;(6)售价低廉。,24,标准文献,与标准化活动有关的一切文献都称为标准文献。其主体是标准,还包括标准形成过程的各种档案、宣传推广标准的手册及其它出版物。,标准是按规定程序制订,经权威机构公认或主管部门批准的在特定范围内执行的规格、规则、技术要求等规范性文件。,25,标准的主要特点,(1)标准的制订、审批程序有专门规定,并有固定的代号,格式整齐划一;(2)一个标准一般只能解决一个问题;(3)时效性强;(4)不同种类、不同级别的标准在不同范围内执行;(5)有一定的法律效力和约束力;(6)有自身的检索系统。,26,中国标准概况,*1957年中国成立了国家标准局,并于1958年颁布了第一批国家标准;*1978年成立国家标准总局,1979年颁布“中华人民共和国标准管理条例”*1978年中国标准化协会(CAS)加入了国际标准化组织(ISO)*中国标准的等级:国家标准、行业标准、地方标准、企业标准*中国标准的分类:按中国标准文献分类法,27,学位论文,学位论文是指高等院校和科研单位中的本科生、研究生为获得学士、硕士和博士学位,在导师指导下完成的科学研究、科学试验成果的书面报告。*1180年巴黎大学授予了第一批神学博士学位。*学位论文答辩制度是由德语国家首创的。,28,按文献的加工深度分,一次文献,二次文献,三次文献,零次文献,29,一次文献,*作者以自己的研究成果为基础创作或撰写的文献;*对知识的第一次加工;具有创造性;*大多数期刊论文、科技报告、学术论文,30,*对一次文献进行加工整理而成的具有报道和检索作用的文献;*对知识的第二次加工;有序化;提供一次文献线索;*目录、题录、文摘等检索工具。,二次文献,31,*利用二次文献系统地检索出一批有关的文献,对其内容进行比较分析,综合述评而编撰的文献。*对知识的再加工;提供文献检索;*综述、专著;字词典、百科全书,三次文献,32,*还未形成一次文献的非出版物;*论文草稿、谈话记录、实验记录、书信,零次文献,33,一次文献是检索的对象(目标)二次文献是检索的工具(手段)三次文献是情报研究的成果(检索目标+检索手段),从检索的角度来看:,34,一次文献是对知识的第一次加工(创造性)二次文献是对知识的第二次加工(有序化)三次文献是对知识的再加工(有序化+创造性),从知识加工角度来看:,35,现代文献的整体特征,1、数量激剧增加2、载体形式和文种多样3、内容交叉重复4、文献聚散有序5、新陈代谢加快,36,信息资源,凡是能够产生、储存以及传递信息的一切事物。,信息资源,文献信息源,非文献信息源,通过文献而获得情报信息,文献是获取情报信息的来源,即非记录性信息资源,如实物信息资源、口头信息资源、智力信息资源等。,37,文献信息系统,定义文献信息系统主要是指在一定的范围内,有计划、有组织地建立起的合理的多层次的文献信息资源保障体系。其目的在于使文献信息收藏相对完备、保证最大限度地满足社会对文献信息的需求。,38,我国信息系统的体系结构,(1)图书馆系统(2)科学技术研究所及其系统(3)档案系统(4)专利系统(5)标准系统,39,学习电子检索的目的与意义,电子检索是培养学生综合能力的基本技能和方法之一。学习电子检索的目的与意义在于:1、节省查找文献的时间2、避免重复别人的劳动3、促进专业学习4、克服自然语言和学科专业语言障碍,40,学习电子检索的目的与意义(续),5、更好地借鉴先进国家的科学技术6、现代科研的需要7、适应我国不完善的检索环境的需要,41,文献检索的步骤,1、明确检索要求2、选择检索工具:根据课题要求及检索工具的特点和检索者的外语水平选择最合适的检索工具。3、选择检索途径:一般检索工具都有分类目次、著者、主题词等检索标志。4、查找文献线索:将检索词与检索工具中的文献标志进行比较而决定文献的取舍过程。5、找到原始文献:根据文献线索提供的文献出处,再利用馆藏目录查找文献收藏单位,而后复制。,42,第一章计算机信息检索概述,一、计算机信息检索概述计算机诞生于20世纪40年代中期,而信息检索(又称情报检索)这个术语则出现在20世纪40年代末。除了科学计算外,计算机最擅长于各种信息的加工和处理,因此计算机很早就应用于信息检索。早在1954年,美国海军兵器中心就已研制出基于IBM701计算机的情报检索系统,从此产生了计算机信息检索这一新的领域。,43,信息检索是将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,即人类信息活动的一种过程,都包括存与取两个环节。存是指一种面向来自各种渠道的大量信息而进行的高度组织化的存贮;即对这些信息迸行序化,在序化的基础上进行存贮:取就是面向随机出现的信息需求而进行的高度选择性的检索,强调快速便利地检出与需求相关的信息,即根据用户的需要,查出所需的信息。信息管理专业人员,应当熟悉存与取两个环节,而最终的信息用户,主要关心的是取,取什么,如何取。,44,信息检索,从本质上讲,信息检索也是一个通讯过程,信息检索涉及一切有目的和组织化的信息存取活动。随着计算机多媒体技术、数据库技术、网络通信技术和信息存贮技术的发展,各种信息都可纳入计算机系统,成为数字化的信息。利用计算机存取数字化信息,就是计算机信息检索。与传统形式的信息相比,数字化信息存取的效率会大大提高,它代表着信息检索的方向。,45,第一节计算机信息检索基本概念,一、什么是计算机信息检索计算机信息检索就是在人和计算机的共同作用下去完成信息存取操作,从机器存贮的大量数据中自动分拣出用户所需要的信息的过程。,46,在检索过程中,用计算机可以识别的代码来表示信息,用便于计算机快速存取的方式存贮信息,表达概念的语词符号为没有内涵的字符串。检索过程就是字符串匹配和逻辑运算的过程,即表示用户需求的字符串与计算机内存贮的大量字符串(信息集合)的比较和运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。,47,二、计算机信息检索的服务方式,(一)定题服务定题服务,简称SDI,是根据用户信息需求,将预先确定的检索策略长期保留在检索系统中,每当数据库更新时,检索系统便自动输出检索结果,定期向用户提供某一课题的最新研究成果、动向和发展趋势。SDI检索还可以作为累积专题资料的手段,相当于订阅了一种定期的专业刊物。这种检索方式可以大大节省用户的时间,同时又便于他们及时掌握学科发展的最新动向。,重点理解,48,(二)回溯检索,简称RS,也称追溯检索。用户若要查找一定时间之内或特定时间以前的文献信息可采用回溯检索方式,这种检索方式不仅允许用户查找最新资料,而且允许用户查找数据库存储的全部文献信息。这种检索对于着手研究新课题、申报科研成果、申请专利者尤为适用。,49,(三)联机订购原文一般情况下联机检索到的是二次文献,即原始文献的题录、索引、文摘,如果需要原始文献,而又无馆藏时,则可通过检索终端向检索系统订购原文的复制品、缩微胶卷或缩微平片。(四)全文检索在全文检索系统中存储的是文献全文,这种检索系统具有多种功能,除了获取原文文字外,还可获得声音、图片、图像和视频等多媒体信息还可以提供文献中某个同的出处、某个词出现的频率等。基于任意字符串的全文检索方式是当前计算机信息检索的发展方向之一。,50,第二节计算机信息检索原理,一、计算机信息检索原理信息检索是将信息按照一定的体系排列存贮在某种介质上,并按照用户的提问要求查找出所需信息的过程,包括存贮和检索两部分。信息检索按检索对象划分,有文献检索、数据检索和事实检索,其中文献检索尤为重要,目前在信息检索领域仍处于主要地位。下面以文献检索为例,来说明计算机信息检索的基本原理。,51,信息存贮是把信息按照一定的体系和格式加以整理后记录在计算机专用介质(如磁带、磁盘、光盘)上,信息存贮通常分为三个环节,如下所述:(1)文献主题分析:标引人员浏览文献摘要或正文,确定它的主题内容,用若干个能表征其内容的概念来揭示文献的主题内容。(2)转换:利用系统使用的词表把信息提问转换成检索词,再把检索词加上较严格的条件限制后用逻辑运算符连接起来,编成检索提问式输入计算机中。(3)输出:检索提问式输入计算机后,在数据库中自动进行检索,只要数据库中的文献特征标识及其逻辑组配关系与检索提问相匹配,则属检索命中,即找到了符合要求的信息,将检索结果存盘或打印输出。,重点记忆、理解、掌握,52,(二)计算机信息检索系统数据库的特点,为了能够进行随机检索,每个数据库都存有一个顺排文档和两个倒排文档。顺排文档存入了数据库的全部记录;倒排文档存入了数据库全部记录的文献特征标识(即索引单元)。1、顺排文档:将数据库中全部完整记录按一定格式和顺序排列而成的文献记录集合,其中一条文献记录信息是由记录号、文献内容特征及文献外部特征标识构成。,53,信息检索系统数据库的特点(续),2、倒排文档:将顺排文档记录中的全部文献特征标识分门别类地按一定的顺序排列而成的信息集合,其中的一条记录信息是由特征标识、含这些特征的文献号集合及文献号集合地址所构成。在实际的检索系统中,为了提高检索速度,把索引倒排文档分成两个文档:索引文档和存取号倒排文档。,54,信息检索系统数据库的特点(续),1)索引文档中主要存入:数据库的索引单元(按字母或数字顺序排列)索引单元的字段或字段位置标识符数据库中含有索引单元的记录篇数与索引单元对应的存取号集合的地址指针2)存取号倒排文档中存入:上一文档中的地址包含上一文档中索引单元的记录的存取号,对每一索引单元都有一组相应的存取号集,55,第三节数据库的类型,数据库(database)被定义为:“至少由一种文档组成,并能满足基本数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存贮设备上按一定方式存贮的相互关联的数据集合。在欧洲,多用“databank”一词表示数据库,且一般指非文献型的数值型数据库。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源管理工具,也是计算机信息检索的基础。,56,数据库的类型(续),划分数据库类型有多种标准,按照国际上通用的分类方法,数据库通常划分为以下三种类型:(l)参考数据库(referencedatabases):指引用户到某一信息源以获得原文或其它细节的一类数据库。曾经占主流地位的联机信息检索系统就以文摘数据库为主。如:中国科技期刊篇名数据库,57,(2)源数据库(sourcedatabases)能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其它信息源。目前最流行的全文数据库和多媒体数据库就是典型的源数据库,如人民日报全文光盘,中国学术期刊光盘。(3)混合型数据库(mixeddatabases)能同时存贮多种不同类型信息的数据库,可能包括全文文本、多媒体信息或文摘、题录性信息。许多专题数据库系统都是混合型的。另外,还可按其载体形式区分为磁媒体数据库和光盘数据库,也可根据是否适用于网络环境来分成单机版数据库和网络版数据库。值得一提的是,近几年涌现的多媒体数据库是一种新型的数据库,能将文字、数值、声音、图像等性质不同的信息存贮于不同媒体上进行一体化处理和管理。,58,数据库的类型(续),在实际应用中,我们往往按内容来划分数据库类型:一、书目数据库书目数据库只存贮有关主题领域各类文献资料的书目信息,为用户鉴别和获得有关文献提供必要的文献属性信息和来源指示。所以,人们通常把它归入参考数据库的范畴,它的内容、结构和使用方法都有别于其它数据库。,59,书目数据库(续),书目数据库中的数据来源于期刊论文、会议论文、研究报告、专利文献、学位论文、图书、政府出版物、报纸等各种不同类型的一次文献,是经过加工、压缩的派生性数据。书目数据库通常都是文摘索引期刊和图书目录实现计算机化生产的产物,故每个数据库一般都有相应的书本式检索工具或卡片式目录。图书馆自建的馆藏书目数据库是一种特殊的书目数据库,也是图书馆信息检索系统的基本组成部分。,60,二、全文数据库,目前,一些报纸、法律文本、百科全书以及辞典等,以电子出版物的形式存贮在联机检索系统中,可以通过某些信息检索系统进行检索。全文数据库允许用户查找的是整个文献,而不象书目数据库那样只提供文献的题录或文摘;许多系统允许检索出现于文献中任何地方的文字,而并非只能检索主题标目中所用的文字。,61,全文数据库(续),在这里,全文数据库的定义只限于那些以机读形式出现的文章、图书、报纸资料、百科全书等等的文本。通过某些检索系统,可以联机检索这些文本中的每一个字,此类检索通常称为自由文本检索,也称全文检索。这里所说的全文数据库不包括以全文形式存在,而不具备检索功能的全文数据库。全文数据库的种类比较丰富。,62,全文数据库(续),按出版方式划分,全文数据库可分为两类:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。按存贮内容划分,全文数据库有直接原文型和文摘型。前者直接存贮文献的正文,有时甚至还包括正文以外的其它信息,如脚注、参考文献目录、文摘等。文摘型就是原文经过压缩提炼,改写成若干篇一定长度的摘要。现在的全文数据库多为直接原文型。,63,按应用领域划分全文数据库类型,按应用领域划分,目前主要有以下类型:1、法律法规全文库或条例库。法律信息多年来一直是全文检索的领先者。众所周知,法律条文中的每句话甚至每个字都是很重要的。有的甚至可以说是一言九鼎,而实际生活中各种法律多如牛毛,手工查找非常困难,书目数据库又不能直接提供原文。所以,法律界对全文数据库的需求最为迫切。国内比较有影响的是法律之星和中国法律法规数据库。,64,按应用领域划分全文数据库类型(续),2、新闻资料数据库。在商业性的信息检索系统中,也广泛提供报纸、新闻公报之类的材料。3、杂志和参考书数据库。从1983年起,DIALOG信息检索服务公司和书目检索服务公司(BRS)开始将专业杂志和参考书增加到它们的服务中来。我国也出现了这种检索方式,如清华大学出版的中国学术期刊(光盘版)全文数据库。,65,按应用领域划分全文数据库类型(续),4、商情全文库。如英国Datasolve公司的市场新闻和研究报告全文库,美国哈佛商业评论全文库。5、医学文献全文库。全文数据库是一个发展中的领域,市场潜力很大。自上世纪60年代末以来,已有越来越多的公司、政府机构、专业图书馆、信息中心、档案馆及其他研究机构利用它来管理科技报告、试验记录、专利申请、预印本等。,66,三、数值数据库,数值数据库是一种以自然数值形式表示、计算机可读的数据集合。与它相类似的是文本数值数据库。后者除含有数值性数据外,还包括文本数据。数值型数据是人们从文献资料中分析提取出来的,或是从实验、观测或统计工作中直接得到的。数据库生产者把这些数据收集起来,经过核实、检验和加工整理,按一定方式组织起来,利用计算机进行存贮和检索,就成了数值数据库。如果数据库中还含有定义数值和说明这些数据项所必需的文字(文本数据),那它就是文本数值数据库。它可以直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策和预测的重要工具。,67,目前世界上200多个联机信息检索系统所用的数据库中,以数值数据库为主的源数据库占91。数值数据库主要涉及科学技术和社会科学,科技领域的数值数据库有两个明显特征:一是学科特性,即每一库都涉及到某一科学技术领域的专门化语言,如化合物数据库的化学结构图就是一例;二是国际性,许多数值库的建设都要依赖于国际合作。社会科学领域的数值库,主要分布在经济和商业领域,即有关经济统计与预测、财政金融及商务等方面的数据库。这类数据库的内容覆盖着广泛的主题和地理区域以及较长的历史时期,能回答有关物价、利率、金融、贸易、产值、就业、住房、人口、工资等许多方面的问题。如北京市的人口数据库。,68,四、指南数据库,指南数据库是存贮有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库。有人称之为“指示性数据库”或“事实数据库”(factdatabase),它的主要用途是供用户查询有关某一事物的发生时间、地点、过程或简要情况,主要包括名录数据库、传记数据库等。指南数据库可分为以下几种类型:l、人物传记数据库,69,l、人物传记数据库,收录各种人物的传记信息,大多是传记词典的机读版。如马奎斯传记词典的机读版“MARQUISWHOSWHO”就是一种较有代表性的传记数据库。它存贮有75000名来自政界、商界、科学界、体育与艺术界及娱乐界的知名人士的传记信息,包括他们的职业、教育、成就、政见、宗教信仰、工作单位、家庭住址等方面,有50多个可检字段。,70,2、公司名录数据库,收录各种公司的生产与经营活动信息。较重要的有“电子黄页”、“TRINET机构数据库”等。“电子黄页”(ElectronicYellowPages)是美国市场数据检索公司,根据全美4800部电话簿中所夹印的“黄页”(广告页)中提供的公司信息而生产的一种名录数据库。它提供有各公司企业的内部组织机构、雇员数量、公司资产等内容。用户可以通过公司名称、地址、标准工业分类表(SIC)、邮政号码等途径进行检索。“TRINET机构数据库”由“TRINET”公司生产。它提供美国各产业部门拥有雇员20人以上的公私营机构40万个,包括机构的名称、地址、SIC号、销售额、市场份额、电话号码等数据。,71,3、基金指南库存贮各种基金信息。如美国“基金指南数据库”(FoundationDirectory)存贮有3500种基金的名录信息和细节描述,包括基金的用途,每年拨款数额,基金会的活

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论