《信息检索与利用》课件信息检索基础知识_第1页
《信息检索与利用》课件信息检索基础知识_第2页
《信息检索与利用》课件信息检索基础知识_第3页
《信息检索与利用》课件信息检索基础知识_第4页
《信息检索与利用》课件信息检索基础知识_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索

InformationRetrieval本课程的教学目的和教学安排目的:使大学生获得一定的信息收集、整理、加工与利用能力,以顺利完成其课程设计或毕业设计/毕业论文;同时,促进大学生在信息意识、信息价值、信息道德与信息安全等方面观念的形成与发展,使大学生综合信息素质有所提高,以适应信息社会发展的需要。本课程的教学目的和教学安排教学内容安排:本课程教学内容包括三个部分:(1)基础知识——介绍一些相关概念及基础理论;(2)网络信息资源及网络数据库检索——主要以常用网站及国内著名数据库为对象,介绍有关信息资源及其检索方法,安排学生上机检索并独立完成检索作业,上交检索报告;(3)信息检索的实际应用——科技论文写作/科技查新/求职就业信息搜索。授课计划

第一章绪论第二章文献信息检索基础第三章图书馆信息资源利用第四章网络信息资源检索第五章常用中文数据库检索第六章事实、数据检索第七章科技论文写作注意事项1学习方法:理论+实践理论课6次,实习3次(上机实习)2成绩评定:

平时:10%(作业+出勤实习)实习:20%

期末:70%(开卷考试)绪论信息社会

信息素养1)信息意识2)信息能力3)信息知识4)信息道德2024/4/147第二章文献信息检索基础2.1文献信息概述 2.1.1信息、知识、情报、文献 2.1.2文献分类 2.1.3文献信息服务系统 2.2文献信息检索 2.2.1文献信息检索概念 2.2.2文献信息检索语言 2.2.3文献信息检索工具 2.2.4文献信息检索过程 2.2.5文献信息检索方法与技术2024/4/148

2.1文献信息概述一、信息、知识、情报、文献1.信息的定义、特征和分类信息的基本含义(1)信息是世界上一切事物的状态和特征的反映。(2)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性。利用文字、符号、声音、图形、图像等形式,通过各种渠道传播的信号、消息、情报或报道等内容,都可以称之为信息。

2024/4/149

信息的主要特征(1)传递性(2)时效性(3)共享性(4)客观性此外,信息还有开发性、存储性、价值的不定性、变换性、可伪性等特征。2024/4/1410知识情报2024/4/1411二、文献1.文献的定义文献是记录有知识和信息的一切载体。

具体讲,文献就是将知识、信息用文字、符号、图像、音频等记录在一定的物质载体上的结合体。可以说,文献是信息的有形载体,是将游离流动的信息固化在物质载体上而形成的,因此我们通常也将文献和文献信息理解为同一概念。2024/4/14122.文献的构成要素信息内容:文献中所记录的知识和信息,这是文献的灵魂。符号系统:表达知识信息的手段,包括语言、文字、图画、表格、公式、编码、图像、声像等。载体材料:信息内容所依附的物质媒介,包括简牍、纸张、录音带、光盘、录像带、磁盘等。记录手段:刻画、手写、印刷、拍摄、录制、复制、电脑录入、扫描等生产方式。

2024/4/14133.文献的分类根据其内容性质和加工程度可分为以下四个级别:

(1)零次文献

定义:指未经正式发表或尚未形成正规载体的一种文献形式。

如论文草稿、谈话记录、实验记录、书信、手稿、会议记录、笔记等。

特点:客观性、零散性、不成熟性,不公开交流,难以获得2024/4/1414(2)一次文献(也称原始文献)

指作者以本人在生产、科研或理论探讨中所获得的第一手资料为基本素材撰写的用于正式发表交流的文献。是对知识的第一次加工,具有创造性。

如大多数阅读性图书、期刊论文、科技报告、专利文献、会议文献、学位论文、技术档案等都是一次文献

特点:①创造性②新颖性③系统性④数量庞大、分散2024/4/1415(3)二次文献(也称检索工具)

定义:指将分散、无序的一次文献进行搜集、提炼、浓缩、加工、整理,并按一定的方法组织编排、编辑出版的文献。

如目录、文摘、索引等,各种书目数据库是二次信息的核心特点:①浓缩性②汇集性③系统性。2024/4/1416(4)三次文献定义:根据特定的需求和目的,利用二次文献查得一次文献,对其内容进行深入分析、研究、对比、综合、评述、概括而撰写的文献。

如综述、述评、年度进展报告、百科全书、手册、年鉴等.我们使用的各种教科书也属三次文献。特点:①综合性②针对性强③参考价值高。

2024/4/1417文献结构示意图2024/4/1418从检索的角度来看

一次文献是检索的对象(目标)二次文献是检索的工具(手段)三次文献是情报研究的成果(检索目标+检索手段)2024/4/1419一、二、三次文献的相互关系三者之间的关系:一次文献是二次、三次文献的来源和基础;二次、三次文献是对一次文献进行组织、加工、综合的结果。一次文献是文献信息检索的终极目标,二次文献是人们对一次文献进行有效的管理、控制和利用的工具。我们查找科技文献,主要利用的就是属于二次文献范畴的检索工具和属于三次文献范畴的参考工具。

2024/4/1420按信息的物质载体和记录形式划分印刷型文献声像型文献机读型文献缩微型文献手写型文献甲骨、竹简、金石、帛等为载体的文献;手稿、档案等2024/4/1421

图书连续出版物

特种文献研究报告会议文献专利文献技术标准学位论文产品样本技术档案期刊报纸年度出版物集刊按出版形式分2024/4/1422(1)图书

定义:凡篇幅达49页以上并构成一个书目单元的文献称为图书。未达到49页的,可称为小册子。2024/4/1423图书的特征

*主题突出,内容系统,论述全面深入,知识成熟稳定。适合于学习型读者

*出版周期长,内容一般缺乏最新的研究成果。2024/4/1424

识别图书的主要依据有:书名、著者、出版地、出版社、出版时间、总页数、国际标准书号(ISBN,注:具有唯一性)等。2007年前,ISBN由10位数字分成4段组成,各段依次是:地区或语种号-出版商代号-书名号-校验号自2007年起,ISBN由13位数字分5段组成,各段依次是:978-地区或语种号-出版商代号-书名号-校验号。978是国际物品编码协会分配给图书的代码。2024/4/1425

例如:7-302-02372-7表示中国大陆代号为302的(清华大学)出版社,出版的一种图书,其书号为02372、该书的校验码为7(x代表10)。其中:组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。

2024/4/1426(2)连续出版物

定义:印有编号或年月标识,定期或不断更新,并计划无限期地连续出版的出版物。包括期刊、报纸、年度出版物等。--GB/T9999-2001《中国标准连续出版物号》

2024/4/1427①期刊(也称杂志)

一种以印刷或其他形式逐次出版发行的出版物,通常有连续的数字编号和发行的顺序时间,并打算无限期地连续出版下去。一般是指定期或不定期连续出版的刊物。2024/4/1428期刊的特点:A、期刊以品种为单位形成知识流;B、出版周期短,内容新颖、及时、广泛、专深;C、内容不全面系统,不成熟,论题窄;D、期刊一般不修订再版。

E、文献中数量最多,使用量最大。2024/4/1429

核心期刊

刊载某一学科大量高质量专业论文的期刊。特点(1)刊载专业文献密度高,信息含量高;(2)水平较高,代表本学科的最新发展水平;(3)出版相对稳定,所载文献寿命较长;(4)利用率和被引率较高。目前,许多单位核心期刊的判定是以

《中文核心期刊要目总览》为标准2024/4/1430②报纸

定义:报纸是一种以刊载新闻和评论为主的定期出版物。它比期刊时间性更强,出版周期更短,报道信息更快;报纸的学术内容较少,但与人们的日常生活关系很密切,所以拥有大量读者。

2024/4/1431(3)特种文献――通常指那些出版发行方式或获取途径比较特殊的文献。

①科技报告

是有关某项科技研究的阶段性进展的总结报告或研究成果的正式报告。

2024/4/1432

科技报告的特点

(1)内容新颖,选题尖端实用;(2)不公开发行或少量发行;(3)质量参差不齐;(4)保密性强;(5)每份报告独立成册,有连续编号。识别科技报告的主要依据有:报告名称、报告号、研究机构、完成时间。2024/4/1433②会议文献会议文献是指在各种会议上宣读、交流的论文、报告、会议录等文献。会议文献反映了某学科、专业的最新成果和发展水平动向。2024/4/1434③专利文献

定义:专利文献是指有关专利申请说明书、批准公报及分类、文摘索引等记录载体材料的总称。主要是指专利说明书。

特点:

1)内容新颖、出版迅速;

2)涉及技术领域广泛、实用性强;

3)具有法律效力;

4)技术上具有单一性和保守性;

5)重复量大。

2024/4/1435④学位论文

定义:是指高等院校或研究机构的学生为获取学位在导师的指导下撰写的学术论文。

类型:学士论文、硕士论文、博士论文。

特点学位论文一般不对外发行,印数少,不容易获得。质量参差不齐,其中硕士、博士论文较为专深,对研究工作有较大参考价值。2024/4/1436⑤标准文献对工农业产品和工程建设的质量、规格、检验方法及其技术要求等方面所做出的技术规定的文献。标准是按规定程序制订,经权威机构公认或主管部门批准的在特定范围内执行的规格、规则、技术要求等规范性文件。主要指技术规范、技术标准、操作规程、建议、准则、术语、专门名词等在内的各种技术文件。

特点:

标准具有一定的法律约束力,对技术的规定详尽、完整、可靠,更新频繁。检索时必须注意是否最新标准。2024/4/1437

基础标准产品标准方法标准安全卫生标准国际标准:ISO3297-1986

区域标准:指世界某一地区通过的标准,如

“全欧标准”国家标准:GB18187-2000

地方标准:DB31/T

行业标准

法定标准推荐标准试行标准内容使用范围2024/4/1438我国标准一般分为以下几种类型:国家标准。强制性国家标准用“GB”为代号,推荐性国家标准用“GB/T”为代号。部(行业、专业)标准。强制性行业标准的代号,用行业名称的两个汉语拼音字母表示;推荐性行业标准的代号,则在该拼音字母后加斜线“/”加“T”表示。

NY农业标准,农业部SC水产标准,农业部LY林业标准,林业部QB轻工标准,轻工业部FZ纺织标准,纺织工业部YY医药标准,国家医药管理局HG化工标准,化学工业部JB机械标准,机械电子工业部YD通信标准,邮电部2024/4/1439指导性技术文件。用部(行业、专业)标准代号为分子,以“Z”为分母表示。如NY/Z

企业标准。企业标准的代号,用“Q”加斜线“/”加企业的数字代号表示。地方标准。强制性地方标准的代号用“DB”加省、市、自治区代码前两位数加斜线“/”表示,推荐性地方标准的代号在斜线后再加上“T”表示。例如:DB31/上海市强制执行的地方标准

DB31/T上海市推荐性地方标准2024/4/1440⑥政府出版物

是指各国政府部门及其所属机构出版发行的文献,又称官方出版物。

行政性文献(包括立法、司法文献),主要有政府法令、方针政策、规章制度、决议、指示、统计资料等,涉及政治、法律、经济等方面。

科技文献主要是政府部门的研究报告、标准、专利文献、科技政策文件、公开后的科技档案等。2024/4/1441用途:对了解各国的方针政策、经济状况及科技水平,有较高的参考价值。特点:内容范围广泛;具有权威性;一些非正式出版的文献不易收集。2024/4/1442⑦产品资料厂商为推销产品而印发的介绍产品情况的文献,包括产品样本、产品说明书、产品目录、厂商介绍等。特点:反映的技术比较成熟,数据也较为可靠,内容具体、通俗易懂,常附较多的外观照片和结构简图,形象、直观。但产品样本的时间性强,使用寿命较短,且多不提供详细数据和理论依据。2024/4/1443用途:1、作为技术人员设计、制造新产品的一种有价值的参考资料。2、了解各厂商出厂产品现状、掌握产品市场情况及发展动向。2024/4/14442.2文献信息检索狭义:是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取所需文献信息的过程。广义:将文献信息按一定方式组织和存储起来,并针对信息用户的特点需求查找出所需信息内容的过程。信息检索的全过程包括存储和检索两个过程。2024/4/1445一、文献信息检索原理将用户的信息需求和信息的存储标识进行比较和选择,从中找出与用户需求一致或基本一致的信息。2024/4/1446二、文献信息检索语言与检索途径1.定义检索语言是根据信息检索的需要,为标引和检索信息而使用的一种专用语言。检索语言也称索引语言、标引语言。这是从检索系统的标引角度出发的,而前者是从用户信息检索的角度出发的。就其实质来说,检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。2024/4/14472.检索语言的类型按描述文献信息的特征分检索语言的类型描述文献外表特征的语言描述文献内容特征的语言题名责任者号码文献类型文献出版事项分类语言主题语言标题词法单元词法叙词法关键词法引文语言代码语言分子式索引合金号索引2024/4/1448按语言的结构原理分(1)分类语言所谓分类,是按事物的性质将客观事物加以区别,并按逻辑顺序将其排列,用以区别事物、认识事物的一种方法。文献分类:以文献为对象的分类。

目前,我国文献信息的分类与检索,主要根据三种分类语言,即《中国图书馆分类法》(简称《中图法》)、《中国人民大学图书馆图书分类法》(简称《人大法》)和《科学院图书馆图书分类法》(简称《科图法》)2024/4/1449(2)主题语言①标题词语言:是从文献的题目和内容中抽出来,经过规范化处理的主题语言。它以规范化的自然语言作为标识,来表达文献论及或涉及的主题,并将全部标识按字顺排列。是主题法中最早出现的一种检索语言。标题词,亦称标题,是从科技工作者熟悉的大量科技名词中,选出具有实质意义的科技名词术语,经过规范化处理,使之能够直接地、准确地表达文献的主题内容。标题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主标题和副标题加以组配,作为标引和检索使用中的依据。2024/4/1450②叙词语言是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。

叙词语言以规范化的标引词形成词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的复杂概念,属后组配式,适用于机检和手检;叙词,国内亦称主题词,是经过规范化处理的、以基本概念为基础的表达文献主题的词和词组。2024/4/1451③关键词语言。将文献中的一些主要关键词抽出作为检索标识,按字顺排列以提供检索途径的方法。关键词是指从文献的标题、摘要乃至正文中抽取的对描述文献主题内容具有实质意义的词语。是一种无词表的自然语言。关键词选自文献的题目和内容,属于非规范的后组配式;2024/4/1452④单元词语言。是以单元词作为主题标识,通过字面组配的方式表达文献主题的一种主题语言。以文献中的单元词表达文献信息的内容性质,一般无词表。单元词(uniterm),是指用来标引文献主题的、最基本的、字面上不能再分的语词。单元词之间可以进行组配,属后组配式;⑤引文语言。利用文献的引文关系而建立的一种自然语言,无词表,标引词为文献中的主要著录项目,属后组配式。2024/4/14533.检索途径

检索途径就是指从文献信息的哪些特征去检索文献。常用的有以下几种检索途径:(1)题名途径:包括书名、刊名、文献篇名。(2)责任者途径:包括个人、团体作者,编者,译者等。(3)号码途径:检索有号码标识的文献信息,如:《CA》中的物质登记号、标准文献的标准号、报告号、资料号、ISBN。2024/4/1454(4)分类途径:即分类检索,根据文献信息内容的学科分类来进行检索。优点是:能保证信息的系统性,且检索结果按学科内容集中,族性检索较强。(5)主题途径:即使用用户所熟悉的检索词汇直接检索的方法。其中关键词突破了分类检索需要依靠分类表来检索的局限,由用户自己决定所使用的检索词,因而容易掌握,是目前最常用、最受欢迎的检索方法。(6)引文途径:根据文后参考文献或引用文献查找相关文献的检索方法。2024/4/14554.信息检索的类型1.文献检索2.数据检索

3.事实检索是以文献线索为检索内容的信息检索。以数据为对象的检索,如查找数学公式、数据图表、某一材料的成分、性能等,是一种确定性检索。是以特定的事实为检索对象。事实内容包括大量的科学事件和社会事件。

根据检索对象不同,信息检索可分为以下几种:2024/4/14565.全文检索6.图像检索

7.多媒体检索检索系统中存储的整篇文章或整本图书。还有另一层意义:即从文献的全文中进行某项检索。以图形、图像或图文信息为检索内容的信息检索。是以文字、图像、声音等多媒体信息为检索内容的信息检索。4.概念检索查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。2024/4/14575.文献信息检索工具手工检索工具

机械检索工具

计算机检索系统

2024/4/1458机检、手检比较项目手检机检总体特征手翻、眼看、大脑判断策略、查寻、机器匹配标引及索引特点检索点较少检索点较多检索时间较慢较快检索要求专业知识、外语知识、检索工具知识专业知识、外语知识、机检系统知识查全查准率查准率较高查全率较高综合效率较低较高2024/4/14596.文献信息检索步骤1课题分析,明确检索范围2选择检索系统和检索工具3制订检索策略5实施检索操作6索取原始文献2024/4/1460检索效果评价(1)检索的方便性(2)收录全面性(3)检索效率检索效率主要用查全率和查准率两个指标来衡量。(4)报导的及时性2024/4/1461查全率(Recallratio)与漏检率

查全率是指检索出的相关文献量占系统中所有相关文献总量的百分比,用来反映检索的全面性。

查全率R=检索出的相关文献量数据库中的全部相关文献x100%查全率的互补数就是漏检率漏检率O=1-R2024/4/1462查准率(precisionratio)与误检率查准率是指检索出的相关文献量占所有检出文献总量的百分比,用来反映检索的准确性。查准率P=检索出的相关文献量检出的文献总量x100%查准率的互补数就是误检率误检率F=1-P2024/4/1463R0P查全率R与查准率P的关系曲线CADB查全率R与查准率P之间存在着互逆关系

在一个特定的检索系统中,当查全率不断提高的同时,查准率就会降低;而当查准率提高的同时,查全率又会降低。但当查全率和查准率都很低的时候,两者可以通过检索策略的改善同时得到提高。

无论怎样调整检索策略和改进系统效率,都无法使P和R同时接近100%。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论