信息检索第一章PPT.ppt_第1页
信息检索第一章PPT.ppt_第2页
信息检索第一章PPT.ppt_第3页
信息检索第一章PPT.ppt_第4页
信息检索第一章PPT.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,科技文献检索,教材: 信息检索 主编:符绍宏,考核方式:平时成绩(出勤+作业+课堂讨论)+ 期末论文,教师: 杨 琛,电气自动化系,“鱼” and “渔”,“Give me a fish, Ill eat for a day; teach me to fish and Ill eat for a life time.“,“授人以鱼,不如授人以渔”,Iformation Retrieval,信息素质,美国2000年1月18日批准的高等教育信息素养能力标准认为,一个具备信息素养的人应该达到如下目标:(1)确定所需信息的范围;(2)有效地获取所需的信息;(3)鉴别信息及其来源; (4)将检索的信息融入自己的知识范围;(5)有效地利用信息去完成一个具体的任务;(6)了解信息所涉及的经济、法律和社会问题,合理合法地检索、搜集和利用信息。 (1)至(3)与本课程有直接的关系,而(4)至(5)是以(1)至(3)的知识为基础所能够开展的工作,(6)所涉及的是如何合法使用信息的问题。,Iformation Retrieval,信息检索的意义,信息素质是人类素质的重要组成部分,它大致包括信息意识、信息观念、信息心理、信息道德、信息知识、信息政策、信息法律、信息技能等内容。 成为现代信息人的基本条件是:(l)敏锐的信息意识;(2)良好的信息技能;(3)合理的知识结构 科技文献检索则是每个大学生和科研人员必须具备的一种基本技能 , 主要有以下几点作用:,启迪创造性思维(创新问题),提高自学能力,节省时间,加快科研步伐,继承前人研究成果,避免重复劳动,科技人员80%的知识在学校毕业后获得,科研工作时间分配: 计划与思考 7.7%; 信息收集 50.9%;实验研究 32.1%; 数据处理 9.3%,查找文献资料的能力 使用工具书的能力 科学有效的阅读各种文献的能力,Iformation Retrieval,课程概况,课程目的: 为了培养大学生的综合能力和综合素质 而开设的。它以培养大学生的自学能力 和独立研究能力主要目的,为今后顺利 地进行毕业设计或毕业论文写作打好基 础,为毕业后更新知识适应社会需求、 从事科学研究以及技术开发打好基础。,课程性质: 本课程是研究文献信息的获取与利用 方面的方法和技能的应用性课程、是 一门技术基础课。,授课方法: 本课程采用多媒体授课与上机、手工实习为 主要教学方法,坚持理论与实践紧密结合, 以达到教学目标。,Iformation Retrieval,课程考核,出勤 有缺勤成绩不通过!,认真完成期末论文 考核,课后多实践,第一章,绪 论,信息检索(Information Retrieval)就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。,1.1 信息检索,研究内容,信息检索理论,信息检索语言,信息检索工具或信息检索系统的构建及评价,信息检索技术与方法,Iformation Retrieval,1.1.1 信息检索的概念,随着信息检索理论的不断发展,人们对信息检索的认识不断深入。国内外有关专家从不同的角度解释信息检索,主要代表性观点有:,1、从通信的角度认识信息检索 基本问题在于,如何把一个可能的用户指引向所存 储的信息。莫尔斯首次提出”信息检索这一概念,并 认为”信息检索是一种时间性的通信形式“。,4、全息检索 王永成:全息检索就是”可以从任何角度,从 “存储的多种形式的信息中高速准确地查找, 并可以任意要求的形式和组织方式输出,也可 仅输出人门所需要的一切相关信息的电脑活动”,5、概念信息检索 基于自然语言处理中对知识在语义层次上的析 取,并由此形成知识库,再根据对用户提问的 理解检索其中的相关信息。系统组成部分:记 忆机制、语义分析机制、知识库、人机接口等。,2、从信息处理角度认识信息检索 基本问题是如何处理信息和信息的结构。偏重于信 息管理领域,视信息检索为计算机科学的一分支。 有利于信息检索工具的设计和组建。,3、从信息检索过程的角度认识信息检索 信息检索即是查找出含有用户所需信息的文献的过 程。这是一种传统的主流观点。兰卡斯特”信息检索 系统并不检索信息“,表明检索对象是文献。,Iformation Retrieval,Iformation Retrieval,上述观点是从理论角度对信息检索进行定义,但根据实际检索工作的经验,信息检索有广义和狭义之分:,广义信息检索 信息检索是指将信息按一定的方式组织和存贮起来, 并根据用户的需要找出相关信息的过程。其中包括信 息存储与信息查找两部分。,狭义信息检索 即信息查找的过程,文献检索是以文献作为检索对象,查找含有用户所需信息内容的文献。文献检索是一种相关性检索而非确定醒检索。检索对象是包含特定性信息的给类文献。 这是我们这门课着重探讨的内容,按照检索对象的内容区分,信息检索可分为文献检索、数据检索和事实检索。,数据检索是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。数据检索是一种确定性的检索。有些数据检索不仅能查出数据,还能提供一定的运算、推导能力。,Iformation Retrieval,1.1.2 信息检索的类型,事实检索是存储关于某些客体(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息并将其查找出来的检索。 事实检索也可以归为数据检索,是数值信息和系统数据信息混合的检索。,Iformation Retrieval,以手工操作的方式,利用检索工具书进行信息检索。优点:直观、灵活,便于控制检索的准确性。,指计算机信息检索,通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。目前成为主流方式。,Iformation Retrieval,强调检索的准确性,向用户提供高度对口信息的检索,也称为特性检索。,强调检索的全面性,向用户提供系统完整的信息检索,也称为族性检索。,Iformation Retrieval,查找有关特定主题最新信息的检索,又称SDI检索。特点是只检索最新的信息,时间跨度小。 该检索在文献信息库更新时运行,适合信息跟踪,便于及时了解有关主题领域的最新发展动态。,查找一段时间内有关特定主题信息的检索,也称为追溯检索。特点是既可查找过去某一段时间的特定主题信息,也可以查找最近的特定主题信息。用户利用最多的检索方式。,Iformation Retrieval,Iformation Retrieval,1.2 信息、知识、情报,Iformation Retrieval,信 息,信息是物质存在的反映,是通过人的感官获得的各种有用的思维异动,影响或支配人的活动的目的性,即人们通过感觉器官与外界进行交换的一切内容。,1.2.1 信息、知识、情报,信息具有差异和传递两要素。 根据发生源不同分为自然信息、生物信息、机器信息和人类信息四大类。 必须依附一定物质形式,即载体。,Iformation Retrieval,知 识,一切经智力加工了的信息概称为知识,是信息的有序结晶;是指人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。知识的产生来源于信息,是信息的一部分。,意识性 ; 实践性 性息性 ; 规律性 继承性 ; 渗透性,情 报,有用情况的报道;指传递着的有特定效用的知识;是具有时效性和对象性的传递着的信息。 就是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。 情报是对搜集到信息经过整序、分析和深化认识之后得出的解决特定问题的知识,是我们对于所搜集到的信息进行分析研究从而获得最大价值的能力。,知识性; 传递性 效用性; 可塑性时间性; 保密性,Iformation Retrieval,信息、知识、情报的关系,信息是情报处理的原材料,是一种未予以评估和分析的数据资料 ; 情报是一种信息,或者说是一种特殊的信息,是由信息转化和加工提炼出来的 信息、知识和情报之间的关系:信息知识情报,三者 是同心圆的关系。,1.3 信息资源,信息及信息资源是信息检索的主要对象,本节主要介绍信息资源的定义及其类型,并对当前信息检索的主要检索对象文献信息资源做较为详细的描述。,Iformation Retrieval,1.3.1 信息资源的概念,信息与信息资源的定义,目前仍是众说纷坛。但国内外多数专家都认为应该从狭义和广义 两种角度来认识和理解信息资源的涵义:,是指人类社会经济活动中经过加工处理的、有序化并大量累积后的有用信息的集合。,是信息和它的生产者以及信息技术的集合 。,本书的陈述是基于狭义信息资源概念基础上的。,Iformation Retrieval,1.3.2 信息资源的分类,按照不同的标准可以将信息资源划分为不同的种类, 常见的划分标准及其类型有:,按信息资源所依附的载体划分,1,体裁信息资源指以人体为载体并能为他 人识别的信息资源。按其表述方式分为 口语信息资源(谈话、授课、演讲、唱 歌等)和体语信息资源(表情、手势、 姿态、舞蹈等)。,实物裁信息资源指以实物为载体的信息 资源。 可分为天然实物资源、人工实物资源,指以文字、图形、符号、声频等方式记 录在各种载体上的知识和信息资源,是 目前利用最多的信息资源。,指以网络为纽带连接起来的信息资源和 以网络为主要交流、传递、存储的手段 与形式的信息资源。,Iformation Retrieval,Iformation Retrieval,一次信息: 指未加工或粗略加工的原始信息资源。 如:各种著作、期刊文章、会议记录、 研究报告、统计报表、专利等。,二次信息: 指对大量一次信息资源加工、整理、标 引、著录、浓缩,并予以有序化编排而 形成的结果,主要指各种目录、题录、 索引、文摘等。,三次信息资源: 指通过二次信息资源提供的线索,对某 范围内的一次信息资源进行分析、研究、 加工而成的信息资源。,1.3.3 文献信息资源,记录有知识的一切载体;指以一定物质形态固定下来,以便于保存和传播的知识。,文献是用各种形式的载体记录下来的一切有价值的人类知识,是以文字、图形、符号、声频、视频等手段记录和传播人类最宝贵的物质和精神财富的载体。现代文献囊括了各种信息载体,如传统的书刊、文稿,如今的音像制品、机读资料、电子出版物等。,文献信息是从文献实体结构中抽象出来的内容,它借助于文献这种载体显示出知识的信息,通过文献进行存贮和传播,无论是自然信息还是社会信息,只要借助于文献来传递内容,都属于文献信息。,Iformation Retrieval,知识信息性、 物质实体性、人工记录性、动态发展性,(1) 文献的定义,(2) 科技文献的特点,在过去200多年,期刊的增长与时间成指数函数关系,差不多每隔15年翻一番,一些热门尖端学科更快,23年就是翻一番。 量大,面广,更新快。 科技文献可以帮助人们更全面、系统的了解某一特定领域中的历史和现状,可以将人们正确地领入自己所不熟悉的领域,也可以作为一种经常性的参考工具。,(3) 各文献级别间关系,由零次文献经过写作正式发表变成一次文献,一次文献再经过有关专业出版机构加工变成有序的二次文献,大量的二次文献再作了大量工作的基础上可以 变成三次文献。查阅文献则是通过二次文献检索 到一次文献的过程。所以二次文献是最重要的检 索手段和工具,一次文献是最终的检索对象。,Iformation Retrieval,1)刻写型文献;(2)印刷型文献;(3)缩微型文献 ;(4)电子型文献;(5)视听型文献,图书 、期刊 、科技报告 、会议文献 、专利文献 、标准文献 、政府出版物 、学位论文 产品样本 、技术档案,(4) 文献的物质形态,印刷型指通过油印、铅印、胶印等各种印刷手段将信息记录在纸张上的文献,这是沿用了近千年的传统载体形式,是各类信息载体的主体。其优点是用途较广、读取方便、流传不受时空限制等。其缺点是存储密度低、较笨重、占据空间大。,电子型又称机读型,指通过计算机存储和阅读的文献类型。主要包括磁带、磁盘、光盘等。其优点是:存 储容量大,存取速度快,原记 录可以修改、删除或更新等 。 其缺点是设备投资高、价格昂 贵。,电子型文献种类划分标准多样,与印刷型文献比有众多不同之处。,按出版类型划分十大情报源 (人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称),图书 期刊 专利文献 标准文献 会议文献 学位论文 科技报告 政府出版物 技术档案 产品样本,图书:一种论章成册的出版物,是对已有研究成果、生产技术、实践经验或某一知识体系的论述或概括。 图书的基本素材来自期刊论文、会议论文、研究报告、学位论文等一次文献和著者本人的研究和学术成果。 图书的特点:内容系统、全面、成熟、可靠,有一定的新颖性,一般只反映3-5年以前的研究水平;编辑出版时间较长,传递信息的速度太慢。 出版收藏情况:目前全世界每年出版图书月70万种以上,其中科技图书约占1/4左右。大型图书馆有广泛的收藏,多数图书较容易获得。 图书的识别方法:著录的特征除了书名、著者外,还有出版社、出版地、总页数,有时还有国际标准书号:ISBN号。,ISBN (International Standard Book Number) 说明:ISBN号是国际标准书号的简称,它是国际标准化组织于1972年公布的一项国际通用的出版物统一编号方法。 ISBN号是由10位数字组成,共分四段: 1、组号:代表出版者的国家,地理区域,语种等。我国的组号为“7”。 2、出版者号:代表组内所属的一个具体出版者(出版社,出版公司等)。 3、书名号:代表某出版社所出版的一种具体出版物的书名。 4、校验位:是ISBN号的最后一位数字,用以检查ISBN号转录过程中有无差错。例如:Frontpage 98网页设计一书的ISBN号是:7-118-01984-4,所代表的意思是: 7,代表中国;118,代表国防工业出版社;01984,是书名号;4,是检验码。,期刊又称杂志,是一种有固定名称,有一定的出版规律,每期有多篇论文组成的连续出版物。 特点(科技期刊):出版周期短,报道速度快;数量大,品种多,内容丰富新颖,能及时反映当代社会和科技的发展水平和动向;发行流通面很广;连续性强,它所刊载的科学事实、数据、理论、技术、方法、构思和猜想,都是科学研究的重要参考信息。 出版收藏情况:目前全世界出版的期刊约10万余种,而且正以每年1500种的速度递增。国内公共图书馆和省级以上的科技信息情报所都有收藏,期刊原文比较容易获得。,识别期刊的主要依据有:期刊名称,期刊出版的年、卷、期,国际标准刊号(ISSN)等。ISSN由8位数字分两段组成,如1000-0135,前7位是期刊代号,末位是校验号。 我国正式出版的期刊都有国内统一刊号(CN),它由地区号、报刊登记号和中图法分类号组成,如CN11-2257/G3。,又称“重点期刊”、“重要期刊”、“常用期刊”等。一般是指少数刊载某一学科或某一 专业大量、高质量的文献的期刊。通常情报密度较大,代表某学科或专业领域的较高的学术 水平,借阅率和被引用率较高,出版较稳定,所载文献的使用寿命较长的期刊。,科技期刊,科技期刊,*,又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论