




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,信息存储与检索InformationStorageandRetrieval,信息管理系徐晓芳副教授2013.2,.,课程主要内容,第一章绪论第一节信息与信息检索简介主要介绍信息、信息检索、信息检索语言、检索工具及检索系统的定义;简单介绍信息检索的发展第二节信息资源第三节信息检索的类型,.,第二章信息检索的理论与基本方法第一节信息检索语言与检索途径(1)分类语言(2)主题语言(3)分类主题一体化语言(4)代码语言(5)引文语言,1、内容特征检索途径(1)分类途径(2)主题途径(3)分类主题途径2、外部特征检索途径(1)责任者途径(2)题名途径(3)序号途径(4)引文途径,.,第二节事实数据信息的检索工具一、字典、词典(辞典)二、百科全书三、手册四、年鉴五、名录第三节文献检索工具简介一、目录型检索工具二、题录型检索工具三、文摘型检索工具第四节索引介绍著者索引、主题索引(关键词索引)、分类索引、题名索引、其他索引第五节计算机信息检索基础,.,第三章中文文献信息检索中国学术期刊数据库(中知库)维普科技期刊数据库万方资源数据库中国资讯行人大复印资料,.,第四章外文文献信息检索一、EiVillage数据库EiCompendexWeb(EI网络版)INSPEC是科学文摘(ScienceAbstracts,简称SA)的电子版,专利(Patents):USPTOPatents为美国专利和商标局的全文专利数据库。Techstreet标准(TechstreetStandards)世界上最大的工业标准集之一Scirus是迄今为止因特网上最全面的科技专用搜索引擎,.,二、ISIWebofKnowledge平台信息资源组成,WebofScience(WOS)INSPECMEDLINEDerwentInnovationsIndexCurrentContentsConnectISIeSearch,ISTP(IndextoScientific复数概念的信息资源是指支持工具,包括供给、设备、环境、人员、资金等。中国乌家培教授:狭义的是指信息内容本身;广义的是指除信息内容外,还包括与其紧密相关的信息设备、信息人员、信息系统、信息网络等。中科院霍国庆:信息资源是可利用的信息的集合,是经过人类开发与组织的信息集合。联合国教科文组织出版的文献术语中把信息资源定义为:“个人为满足其信息需要而获得信息的来源。”,.,具体讲,凡能产生、生产、载有、储存、加工、传递信息的社会活动场所、机构、人物、产品和自然物质都是信息资源。,.,2、特性(1)普遍性:为人们获取信息提供了广泛的来源(2)潜在性:指一些具有使用价值的信息往往潜伏在信息资源中,人们欲获得价值的信息,必须对信息资源的特点、变化规律进行认真分析,寻求获取信息的途径和方法。(3)运动性:一切信息资源都处于运动和变动中,欲获得信息资源中的有用信息,必须擅于捕捉获取信息的机会,以达到开发利用有价值信息的目的。,.,二、信息资源的分类:,1、信息源可分为自然信息源和社会信息源。自然信息源广泛存在于自然界中,是物质运动和生物生存活动的结果。如山川、土地、气候、能源、动物、植物、微生物等,它们是人类生存最基本的自然环境和物质条件,是自然信息的发生源。社会信息源则存在于人类活动中,是社会的直接产物。无论是自然信息源还是社会信息源,其开发利用均在社会中进行,社会信息源是信息源的主体。,.,2、按信息资源所依附的载体划分(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。(2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段与形式的信息资源。,.,3、按信息资源传递的范围划分:(1)公开信息资源:又称共享信息资源或白色信息资源(whiteinformation),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。(2)半公开信息资源:又称灰色信息资源(greyinformation),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、仁义资料等。(3)非公开信息资源:又称黑色信息资源(blackinformation),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。,.,4、信息可分为可检信息和不可检信息。问:哪些信息源是可检索的或不可检索的?,.,自然信息均属于不可检信息。社会信息中,人类以口头方式表述但未被记录下来的口语信息,以及表情、手势、姿态等方式表述的体语信息,存储在人的大脑中的思维过程和各种思想都属于不可检信息,这些信息是在特定时间、地点产生,通过直接交流、接触获取并进行传播的。可检信息是指人类用文字、图像、声频、视频等方式加工记录在一定载体上的信息,通过学习一定的手段和方法可以检索,我们也称为文献。可检信息可以跨时空进行传播并被人类利用,信息检索实际是就是对这些信息的检索。,.,三、文献信息资源,1、按信息资源所依附的载体的物质形态划分(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。(2)印刷型:主要是指以纸张为载体,以印刷、手写为记录手段,把信息内容固化在纸张上的形式。其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。(3)缩微型:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。,.,(4)声像型:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。,.,(5)电子型:电子文献是指经过数字化技术处理后以电子形式存在,利用计算机及现代通讯方式提供信息的一种新兴载体。其优点是存储密度高,读取速度快,更新及时,并利用电子手段随时对内容进行增、删、改,可以高速度、远距离传递信息,具有交互性,便于信息交流和共享。电子文献种类很多,按出版类型划分有电子教科书、电子专著、电子工具书、电子杂志、电子报纸、电子版书目数据、计算机软件等。按电子文献载体形式划分其类型有磁性型文献、光盘型文献和网络型文献。按信息结构组织形式划分有文本型、多媒体型、超文本型及超媒体型。,.,文本型:指的只包含纯文字的文件。多媒体型:指的是能传播文字、声音、图形、图象、动画和电视等多种类型信息的手段、方式或载体。超文本型(Hypertext):是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。超媒体型(hypermedia):如果超文本节点中的信息除文本块以外,还有图形、图像、声音、视频等多媒体信息,则称为超媒体(hypermedia)。,.,2、按信息资源的加工深度和结构等级划分(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、原始录音、原始录像、谈话记录。(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。,.,一次文献是二次文献和三次文献的基础,是文献检索的主要对象;二次文献具有浓缩性,是一次文献的简略及有序化,是文献检索的工具;三次文献具有综合性,既是检索对象,又可提供一定的检索途径与检索手段。总之,文献经过加工、压缩,从零次信息到三次信息,使科技信息由分散到集中,由无序到有序,由无组织到系统化,由博而精的对知识信息进行不同层次的加工的过程。,.,3、信息的不同出版类型划分(1)图书:包括专著、教科书、各种科普读物及专业参考工具书等,特点是:内容系统、成熟、定型、信息经筛选,可靠性强,出版周期长,更新速度慢,从检索角度,图书一般不作为主要检索对象。(2)期刊:定期或不定期刊行的连续出版物,如杂志、年度报告、年鉴、丛书、学会的会议录、学报和纪要等,特点是:数量大、品种多,内容丰富多样、出版周期短、报道速度较快、发行、流通面很广泛,连续性强,伴随着相应的学科领域发展前进。职能:记录正式的公开的科学技术活动,传播科技信息的主要工具。,.,(3)科技报告scientificandtechnicalreport:报道(记录)研究工作和开发调查工作的成果或进展情况的一种文献类型。又称研究报告、报告文献。出现于20世纪初,第二次世界大战后迅速发展,成为科技文献中的一大门类。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。查寻科技报告有专门的检索工具。特点:反映新的科研成果迅速。以科技报告形式反映科研成果比这些成果在期刊上发表,一般要早一年左右,有的则不在期刊上发表。内容多样化。它几乎涉及整个科学、技术领域和社会科学、行为科学以及部分人文科学领域。保密性。大量科技报告都与政府的研究活动、高新技术有关,使用范围控制较严。报告质量参差不齐。大部分科技报告是合同研究计划的产物,由工程技术人员编写,由于撰写受时间限制、因保密需要以工作文件形式出现等因素影响,使报告的质量相差很大。每份报告自成一册,装订简单,一般都有连续编号,出版发行不规则。通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。,.,附:美国四大科技报告(AD,PB,NASA,DOE)1、AD报告1951年开始出版。现由美国国防技术情报中心负责收集整理和出版。报告内容以国防部各个合同户的研究报告为主,其报告号冠以AD,A原先为Armed、D则为Document之意,现在则可理解为入藏报告(AccessionDocument)。ADA000001A表示公开报告,占45ADB000001B表示非密限制报告,占39ADC000001C表示秘密报告,占16ADD000001D表示美军专利文献,.,2、PB报告产生于二战结束之后,当时美国政府为了整理和利用从战败国获得的数以千吨计的秘密科技资料,于1945年6月成立了一个专门的出版局,即美国商务部出版局(PublicationBoard),负责收集、整理、报导利用这些资料3、NASA报告是美国国家航空航天局NASA科技情报处编辑、出版的专业性检索刊物,它是检索航空航天科技报告的重要工具。4、DOE报告,是美国能源部DOE技术情报中心编辑出版的半月刊。收录能源部部属科研机构和各大学等一切与能源有关的科技文献,以科技报告为主。,.,(4)会议文献:在学术会议上宣读和交流的论文、报告及其他有关资料。会议文献的特点是传递情报比较及时,内容新颖,专业性和针对性强,种类繁多,出版形式多样。它是科技文献的重要组成部分,同一会议上的文献论题集中、新颖、丰富、专深、学术性强,一般是经过挑选的,质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是了解各国科技发展水平和动向的重要文献来源。会议文献没有固定的出版形式,有的刊载在学会协会的期刊上,作为专号、特辑或增刊,有些则发表在专门刊载会议录或会议论文摘要的期刊上。一些会议文献还常常汇编成专题论文集或出版会议丛刊、丛书。还有些会议文献以科技报告的形式出版。此外,有的会议文献以录音带、录像带或缩微品等形式出版。,.,(5)专利文献:一切与专利制度有关的在专利申请和授权各阶段产生的文献。概括地讲,专利文献是各国专利局及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。作为公开出版物的专利文献主要有:专利说明书、专利公报、专利文摘、专利索引和专利分类表等。特点是:内容具体、可靠、详尽,具有新颖性、创造性和实用性。能反映科学技术最新的水平,大量重复,增加用户信息识别和去掉重复的负担。(6)技术标准和规范:对工农业产品和工程建设的质量、规格、参数及其检验方法等方面所作的技术灰顶,是从事生产和建设应当共同遵守的一种技术依据和规范,每一件技术标准都是独完整的技术资源。特点是:制定、审批有程序,适用范围明确专一,叙述严谨,可靠性和现实性,新陈代谢频繁。,.,(7)政府出版物:政府出版物是由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的文献。可分两类:一类是行政性文献(包括宪法、司法文献),主要涉及政府法律、经济方面的国会和议会记录、议案、决议、司法资料、听证记录、法律、法令、规章制度、政策、调查统计资料等;另一类是科学技术文献,主要指政府部门出版的科技报告、标准、专利文献、科技政策文件,公开后的科技档案、经济规划、气象资料等。政府出版物的内容涉及人类生活的各个领域:政治、社会、经济、财政、工农业生产、教育、历史,也有自然科学和应用科学的各个领域。政府出版物是了解一个国家方计、政策、科学技术和经济、生活现状的权威性信息来源。特点:政策性、综合性、指导性强,对经济、科技发展政策导向明显、可靠。,.,(8)学位论文:学位论文是指为了获得学位,要求被授予学位的人所撰写的论文。根据中华人民共和国学位条例的规定,学位论文分为学士论文、硕士论文、博士论文三种。特点:质量参差不齐,内容专深,有独到见解,较难获取。(9)产品资料:产品目录、产品说明书、产品样本等,是对产品的性能、结构、原理、用途、使用方法、技术规范及产品规格等进行描述或说明的文献。特点:图文并茂,形象直观,出版及时,更新迅速,反映的技术信息可靠。,.,(10)技术档案:在生产或科研过程中形成的,是具体工程和研究对象的技术文件的总称,包括任务书、技术经济指标、研究计划、方案、试验设计、实验记录、调查材料、总结报告等应入档的资料。它是生产和科研中用以积累经验、吸取教训和提高质量的重要依据,具体较高的参考价值。技术档案有一定的保密性,一般在内部控制使用。(11)报纸:报纸指以刊载新闻和新闻评论为主,通常散页印刷,不装订、没有封面的纸质出版物。有固定名称,面向公众,定期、连续发行。现在多数报纸每日出版一次或数次,也有每周出版几次或每周出版一次的。特点:传播信息快,传播信息量大,现实感强,传播面广,具有群众性和通俗性,是重要的社会舆论工具和信息源。,.,第三节信息检索的类型,一、按检索对象的内容区分:(1)文献检索(documentretrieval)(2)数据检索(dataretrieval)(3)事实检索(factretrieval),.,二、按检索方式区分;(1)手工检索:以手工操作的方式,利用检索工具书进行信息检索。手工信息检索是信息检索的传统方式,已经历经了一个多世纪的发展历程。其优点是直观、灵活,便于控制检索的准确性。缺点是查找比较复杂,检索速度慢,工作量较大。(2)机器信息检索:主要是指计算机检索,是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分类,有脱机检索、联机检索;按照存储的方式分类,可分为光盘检索、网络检索。优点:大大提高了检索效率和检索的全面性,而且拓展信息检索领域,丰富了信息检索的研究内容。,.,手检和机检的比较,手检:检索点少,通常只有分类、主题、号码、著者等几个途径;查准率高,查全率低,直接性灵活性差,浏览功能强,检索效率低机检:检索点多:除虚词外的所有词汇;查全率高,查准率高,检索效率高;直接性灵活性好,浏览功能差附:查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。查全率=(检出相关文献量/系统中相关文献总量)*100%查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。查准率=(检出相关文献量/检出文献总量)*100%计算机检索是在手工检索的基础上发展地上起来的。已成为检索的主流形式。但手工信息检索工具的价廉、灵活、便携等特征使其仍有存在和发展的空间。两者共同存在,互相补充、互相促进。,.,三、按检索对象区分:(1)文本检索:查找含有特定信息的文本文献的检索,其结果是以文本形式反映特信息反映的文献。这是一种传统的信息检索类型,在信息检索中至今占据主要地位。(2)多媒体检索:多媒体是指将声音、图像、通信等在内的多种媒体的功能有机结合在一起,并用某种新媒体代替传统媒体的多种媒体。多媒体检索是指根据用户的需求,对文字、声音、图像、图形等多种媒体信息进行组织、存储从而识别、查找并获取所需信息的过程。在因特网上存在着大量的多媒体文献,用户常常需要查找特定的声音、图像、动画等。多媒体文献的信息组织与处理传统文本的处理截然不同,其检索要求和检索途径也别具特色,这是现代信息检索的新课题。,.,四、按检索对象的信息组织方式区分(1)全文检索(fulltextretrieval)是将存储于数据库中的整本书、整篇文章中的任意内容找出来的检索。它可以根据需要获得全文中的有关章、节、段、句、词等的信息,也可以进行各种统计与分析。如某个词在文章中出现的次数。以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。(2)超文本检索(hypertextretrieval):超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。,.,超文本检索系统是以超文本网络为基础的文献检索系统。在检索文献时,各节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信息的需要,通过链接从一个节点跳到另一个节点,由此形成随着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。,.,(3)超媒体检索(hypermediaretrieval)如果超文本节点中的信息除文本块以外,还有图形、图像、声音、视频等多媒体信息,则称为超媒体(hypermedia)。即存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。(同样具有超文本检索的优点,并且检索内容与形式更为丰富),.,五、按检索要求区分:(1)强相关检索:强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的文献信息能满足用户的需求就行,对于检索结果的数量多少不作要求。(2)弱相关检索:强调检索的全面性,向用户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出一段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。要注意的是,这是两种检索要求比较极端的检索类型。实际上是介于两者之间,保证一定的查全率和查准率。,.,六、按时间跨度区分:(1)定题检索SDI(selectivedisseminationofinformation)查找有关特定主题最新信息的检索。其特点:只检索最新的信息,时间跨度小。定题检索在文献信息库更新时运行,即每当信息库加入新的文献信息时,就用根据用户检索需求拟定的提问检索一遍,查找出特定主题的最新信息,分析整理检索结果并以一定的方式提供给用户。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。(2)回溯检索RS(retrospectivesearch)查找一段时期内有关特定主题信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南建业房子的施工方案
- 女神节形体活动策划方案
- 天猫运动营销方案设计
- 拆阳台施工方案怎么写
- 农安医疗建筑方案设计服务
- 减垄增地施工方案
- 城市红色建筑调色方案设计
- 榆林聚仙禄宾馆专线项目竣工报告
- 水果甜品店营销方案模板
- 教师资格证考试(高中数学)教育知识与能力专项训练试卷2025
- 医德医风护理培训
- 钢筋修复方案
- 《危险货物港口作业重大事故隐患判定标准》知识培训
- 海外优青-申请书模板(3篇)
- 农村废弃物综合利用资源化利用方式与路径
- 销售技巧培训(完整)
- 悬浮地板施工方案
- 中药白芷简介
- 核保考试非车险试题库完整
- 2024-2030年中国电船行业趋势预测及投融资分析报告
- 【桂科版】《综合实践活动》五上 第4课《平安伴我行·常见的安全事故》课件
评论
0/150
提交评论