版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索讲义第1页,共57页,2022年,5月20日,0点54分,星期一1.1 信息检索概念及其意义1.2 信息文献基本知识1.3 信息检索语言1.4 信息检索基本方法及步骤第一章 信息检索概论第2页,共57页,2022年,5月20日,0点54分,星期一1.1.1 信息检索含义 信息检索(Information Retrieval)指从大量的信息集合中找出所需信息的过程与方法。广义:包含信息储存和查找两部分(Information Storage and Retrieval)狭义:信息查找(Information Search) 1.1 信息检索含义及意义第3页,共57页,2022年,5月20
2、日,0点54分,星期一1.1.2 信息检索能力培养的意义 信息检索能力与信息素质信息素质概念 :1974年美国信息工程协会主席Paul, Zurkowski首次定义为: “利用大量的信息工具及主要信息源使问题得到解答的技术和技能” 第4页,共57页,2022年,5月20日,0点54分,星期一具备明确信息需求的内容与范围的能力高效获取所需信息 能客观、审慎地评估信息与信息源 个人或作为群体的一员能有效地利用信息以完成特定的任务 获取与使用信息要符合道德与法律规范 美国 高等教育信息素质标准(1998)第5页,共57页,2022年,5月20日,0点54分,星期一 能够定义、并明确地表述信息需求 能
3、够识别各种潜在的信息资源的类型和形式 能够考虑获取所需信息的代价和受益 重新评估所需信息的性质和范围标准一具备明确信息需求的内容与范围的能力第6页,共57页,2022年,5月20日,0点54分,星期一标准二高效获取所需信息 信息源分布(图书馆、网络资源、专业协会、研究机构等) 选用恰当的调查研究方法 信息检索系统中利用有效方法和检索策略(如关键词、相关术语、规范化语言、逻辑算符、命令语言)第7页,共57页,2022年,5月20日,0点54分,星期一 概括信息源的适用性 评价和比较信息的可靠性、权威性、时 效性 综合主要观点的逻辑统一、可查实性能客观、审慎地评估信息与信息源标准三第8页,共57页
4、,2022年,5月20日,0点54分,星期一个人或作为群体的一员能有效地利用信息以完成特定的任务标准四应用信息创造成果、完成项目(如完成课题报告、学位论文等)为实现成果和目标修正学习过程选用最有力的交流媒体和形式第9页,共57页,2022年,5月20日,0点54分,星期一标准五获取与使用信息要符合道德与法律规范 识别并研究印刷型、电子型信息环境的 隐私和安全 免费和收费信息 知识产权、版权 合适的文献格式,引用格式等第10页,共57页,2022年,5月20日,0点54分,星期一1 信息意识教育2 信息能力教育3 信息道德教育信息素质教育包括的内容信息与经济、科技、生活的关系第11页,共57页,
5、2022年,5月20日,0点54分,星期一 信息: 1 音讯、消息 2 通讯系统传输和处理的对象 3 客观事物存在的方式及运动状态的表征。 信息的基本属性: 普遍性、客观性、传递性、共享性、中介性、可储性、可知性、无限性。 1.2 信息、文献基本知识1.2 .1 信息、文献概念第12页,共57页,2022年,5月20日,0点54分,星期一 文献:是人们用以记录和传播各种知识信息载体。载体形态如纸张、磁盘、光盘。缩微平片等。情报:被激活的那部分信息。第13页,共57页,2022年,5月20日,0点54分,星期一信息知识情报文献1.2 .2 信息、知识、情报、文献的关系第14页,共57页,2022
6、年,5月20日,0点54分,星期一一次文献(primary document):指作者以本人的研究成果为基本素材而创作或撰写的文献。 二次文献(secondary document):指对一次文献进行加工、提炼和压缩后所得到的报道性产物。检索工具书和网上引擎是典型的二次文献。三次文献(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的具体知识、数据。如大百科全书、辞典等。1.2.3 文献等级第15页,共57页,2022年,5月20日,0点54分,星期一知识产生记录一次文献传播利用新知识的产生研究、实验、实践、综合三次文献二次文献第16页,共
7、57页,2022年,5月20日,0点54分,星期一 a.科技图书:世界年出版50万种。 b.科技期刊(periodical):年出版10万种,500万篇。 c.科技报告:报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构。 报告是一种典型的机关团体出版物。如美国政府工作报告: PB报告,NASA报告、 AD报告、DOE报告。年90万篇。1.2.4 文献型科技信息源(一次文献)第17页,共57页,2022年,5月20日,0点54分,星期一d.会议文献:指学术会议文献。年十万余篇。e.学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的
8、学术性论文博士学位论文中,常含有独创性的学术性文献资料第18页,共57页,2022年,5月20日,0点54分,星期一f.专利文献:专利是与产业活动密切相关的,因而其实用性非常强。根据专利的技术水平和应用情况,其类型有invention(发明)、utility patent(实用新型)、和design patent(外观设计)等。年50万件。g.标准文献:标准化主要包括三个方面:产品标准化,即产品质量要符合技术规定;零部件通用化;产品规格化和系列化。 第19页,共57页,2022年,5月20日,0点54分,星期一1.2.5 二次文献类型(检索工具)1)目录。以书名、刊名、会议名等为单位编写。2)
9、题录。如:200008568 我国食品与包装机械市场预测刊田恒真(中国农机院食品研究所)/包装与食品机械。-2000, 18(1) 。-1-53)索引。如: 机械加工 00003 00395 11009 14561 -模型 00375 -误差 18007 11456 -发展 131754)文摘。如第20页,共57页,2022年,5月20日,0点54分,星期一037840 Algorithm for fuzzy multi-criteria decision-making. This paper presents a new algorithm for solving the general f
10、uzzy multi-criteria decision making(MCDM) problem involving fuzzy data expressed by means of linguistic terms. (Author abstract) 14 Refs,English.Yeh,Chung-hsing(Monash Univ,Clayton,Aust);Deng,Hepu. Proc IEEE Int Conf Intell Process Syst ICIP v.2.1998 Proceeding of Systems,ICIPS. Part 2(of 2),Beijing
11、,China,IEEE,Piscataway,NJ,USA,p1564-1568.第21页,共57页,2022年,5月20日,0点54分,星期一1.2.6 三次文献(参考工具书)概述一 中国古代工具书简介1)字词典 使用部首法排序。如说文解字、康熙字典。2)韵书 按韵编排汉字的字书称为韵书。如佩文韵府。3)类书 类书是采集古代文献资料,按类别或韵母编排,以供寻检、征引使用的工具书。第22页,共57页,2022年,5月20日,0点54分,星期一如宋太平御览、明永乐大典。4)政书 政书是记载历代典章制度的史书。它搜集我国历代或某一朝代政治、经济、文化、军事等史料,分门别类,按时代先后顺序编排。如唐
12、.杜右通典、元典章、明会典、清会典等。第23页,共57页,2022年,5月20日,0点54分,星期一二 近代参考工具书类型1、字词典 近代 词源、辞海、汉语大词典 上海辞书出版社,1986年第一卷,自第二卷起改由汉语大词典出版社出版,共出12卷。共收词语37万条, 5 000余万字。2、百科全书 百科全书是概述一切学科领域或者某一学 科领域基本知识的具有权威性、知识性、 检索性的大型工具书,被称为“工具书之王”。第24页,共57页,2022年,5月20日,0点54分,星期一二 近代参考工具书类型中国大百科全书 19781993年编,全书按学科或知识领域分为74卷,其中正文学科分73卷,总索引1
13、卷。总条目7.8万条,总字数1.26亿字总插图近5万幅,其中彩图1.5万幅。不列颠百科全书3、年鉴、年刊、年报4、手册第25页,共57页,2022年,5月20日,0点54分,星期一二 近代参考工具书类型5、名录经济机构名录 如世界企业500强。 商品名录 如美国进出口商品名录。 地名录 如世界地名录。 人名录 如当代中国经济学家录。6、资料汇编7、表谱8、图录第26页,共57页,2022年,5月20日,0点54分,星期一三 工具书的主要排检方法1、字顺排检法 形序法:部首法、笔画法、笔顺法、号码法 音序排检法:汉语拼音字母顺序排列法;西文字母顺序排列法;韵部排列法,中国古代按音编制的汉字检字法
14、大都是按韵部排列的。第27页,共57页,2022年,5月20日,0点54分,星期一2、分类排检法 分类法是将图书资料按学科、事物性质等系统加以排列的一种方法,也是目前 世界各国应用最广泛的一种方法。 七分法,又称七略。产生于东汉时期的刘向、刘歆所编,定本13219卷。全部分为:六艺略、诸子略、诗赋略、兵书略、数术略、方技略和辑略,略下分38种。第28页,共57页,2022年,5月20日,0点54分,星期一 四分法,清代以来古籍编目常用的方法。以经、史、子、集四部排,经部下分10类,史部下分15类,子部下分14类,集部下分5类。总共四部,44大类,67子目,如四库全书总目200卷。 中国图书馆图
15、书分类法第29页,共57页,2022年,5月20日,0点54分,星期一三 工具书的主要排检方法杜威十进分类法国际十进分类法国际专利分类法3、主题排检法 以代表文献主题内容的主题词为标识检索文献的途径,这类索引以主题词(标题词、关键词、叙词等)的字顺编排。第30页,共57页,2022年,5月20日,0点54分,星期一三 工具书的主要排检方法4、时序排检法 常用于编制年表、历表、年谱等工具书方面。它按时间顺序先后排列的一种方法。5、地序排检法 常用于编制考查地理和地方资料工具书。第31页,共57页,2022年,5月20日,0点54分,星期一检索语言描述文献外表特征的语言A 作者B 号码C 其他(书
16、名、引文、出版社、出版日期等)描述文献内容特征的语言a 分类语言b 主题语言1.3 信息检索语言第32页,共57页,2022年,5月20日,0点54分,星期一1 、杜威十进分类法 (DDC)( Dawey Decimal Classification and Related Index ) 是世界上比较流行,也比较权威的一种图书分类方法。由美国图书馆学家麦维尔杜威于1876年首创,它由大类、门、纲、目、子目等组成。它将全部学科的书刊分为九大类,用1到9间的数字表示,不属于这九类中的图书为第0类。每一大类下再分1到9个子类,依此类分下去。1.3.1 文献分类方法(分类语言)000 总论 100
17、哲学 宗教 社会科学 语言学 纯粹科学 技术科学 美术 800 文学 900 历史第33页,共57页,2022年,5月20日,0点54分,星期一2、国际十进分类法(UDC)UDC已有23种语言的版本。UDC的类目表主要由主表与辅助符号、辅助表组成。UDC的主表把全部知识分为十大门类,每一类下分大纲、目、分目。UDC基本分类如 0 总论 1 哲学、心理学 2 宗教、神学 3 社会科学、法律、行政 4 语言学 5 数学、自然科学 6 应用科学、医学、工学、农学7 艺术、美术、摄影、音乐、娱乐、竞技8 语言学、文学9 地理、传记、历史第34页,共57页,2022年,5月20日,0点54分,星期一 A
18、 马克思主义、列宁主义、毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理社 会 科 学 3、中国图书馆分类法第35页,共57页,2022年,5月20日,0点54分,星期一N 自然科学总论O 数学科学和化学 P 天文学、地球科学 Q 生物科学R 药学、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、劳动保护科学Z 综合性图书自 然 科 学第36页,共57页,2022年,5月20日,0点54分,星期一TTBTGTHTETUTB1TB9TB2TB3TB4TVTB1T
19、B4TB3TB2TB5TB9TB41TB42TB48TB49TB47TB482TB488TB489第37页,共57页,2022年,5月20日,0点54分,星期一以T-工业技术大类下的TP类展开下位类如下:T 工业技术TP 自动化技术、计算机技术TP3 计算技术、计算机技术TP39 计算机应用TP393 计算机网络TP393.0 一般性问题TP393.01 计算机网络理论TP393.02 计算机网络结构与设计T工业技术类中国分类法举例第38页,共57页,2022年,5月20日,0点54分,星期一 从上表看出分类号的变化体现了各学科体系的从属关系,分类号位数每增加一位,则分类级别便低一级。如TP3
20、9代表计算机应用,TP393类目是计算机网络,是TP39的下位类。第39页,共57页,2022年,5月20日,0点54分,星期一 直接查找法 熟悉分类表,按学科体系从大类开始逐级查找l 对于只存在一个主题的课题,方法就较简单。如“机械手”。当要求的主题过于狭窄,没有相应类目存在,可归属在其上位类。l 对于包含有两个以上主题内容的课题,如“机械手的控制系统”涉及“机械手”和“控制系统”两个主题概念,这时应考虑它们的主从关系,在这个课题中研究的是仅针对机械手而言的控制系统,可以说是控制系统在机械手中的应用,当研究某种理论、方法、工艺等在某领域的应用时,应分在其应用的类目,即“机械手”所在类目。 确
21、定分类号的方法有以下二种:第40页,共57页,2022年,5月20日,0点54分,星期一l 对有两个主题,又没有主次或应用关系的课题,则在检索相关文献时应分别在两个分类号或两个主题领域中查找。如加入WTO对我国纺织业的影响。 间接获取分类号法 当手头有现成的对口文献或通过其它方法如主题方法查到的对口文献,则可利用该文献标出的分类号,进行分类查找。 第41页,共57页,2022年,5月20日,0点54分,星期一第42页,共57页,2022年,5月20日,0点54分,星期一1.3.2 主题检索方法1 关键词2 叙词3 标题词属规范化词汇属自然语言第43页,共57页,2022年,5月20日,0点54
22、分,星期一 关键词关键词检索为大多数计算机检索系统采用。使用直接来自文献或用户提问的一类检索语言。优点:关键词检索文献既方便又准确,不受词表控制,能及时检索到最新概念的各类文献。可任意选取专指性强的词语,提高查准率。词量大。缺点:容易产生的误检、漏检。原因有:1.取名的多样:同物异名、全名与简称、异称(学名、俗名、音译名。2. 构词的多样:派生词、单复数、拼写变体3. 大量的复合词第44页,共57页,2022年,5月20日,0点54分,星期一 规范化主题词(叙词、标题词)检索 叙词是主题语言的高级形式。是以较正规和正式的科学名称为基础组织而成一种主题法检索标识系统。由在概念上不可再分的基本概念
23、单元词汇组成,检索时可以利用这些单元词进行组配,以表达一个复杂的概念。叙词表作为检索过程必不可少的辅助工具,由检索工具出版单位编制,专书专用。是由二次文献编撰单位出版的限制使用的主题词体系。如:课题: 太阳能热水器研究 汉语主题词表中正式主题是太阳能利用、太阳能加热等代替。 第45页,共57页,2022年,5月20日,0点54分,星期一 叙词表(字顺表、等级表) 字顺表如:acoustic wave velocity UF acoustic velocity NT ultrasonic velocity (Narrower Term) BT velocity (Broader Term) TT
24、 velocity Top Term RT acoustic dispersion Related Term acoustic impedance CC A4300 A5140 Classification Code DI January 1973 Date of Input第46页,共57页,2022年,5月20日,0点54分,星期一 与叙词一样是以较正规和正式的科学名称为基础的一种主题法检索标识,但存在主、副标题词固定搭配,即属于先组式检索语言。如: MOTORS -control -manufacture 标题词第47页,共57页,2022年,5月20日,0点54分,星期一 规范词汇优缺
25、点规范化词主要对词义、词形和词的组合方式进行控制.优点:选择宽广的概念,查全率高。避免由于同义词、近义词的存在而产生的漏检。 缺点:使用词表,带有间接性。由于受控语言被限制在预先制定的概念或类目内,不能表示新的概念。词量有限,影响查准率。第48页,共57页,2022年,5月20日,0点54分,星期一 1 一般为事物的名称或过程 2 具有实质意义的词 3 适度专指性。避免泛指性词 4 通用性 有时不能只从字面上选词。需要时进行必要的替换、补充。如“运用计算机程序建立气候模式”应选计算机摸拟和气候模拟。选择规范主题词过程中应注意:第49页,共57页,2022年,5月20日,0点54分,星期一1.4
26、 信息检索基本方法及步骤1.4.1 文献检索基本方法工具法:也就是利用检索工具或计算机检索系统查找。它可分为顺查和倒查法两种。追溯法:以文献后所附参考文献为检索起点的检索 方法。 循环法:工具法和追溯法交替使用。 第50页,共57页,2022年,5月20日,0点54分,星期一1.4.2 文献检索步骤:1 分析研究课题:分析研究课题的主题内容,所属学科及起始年代。2 确定检索工具或检索系统。3 确定检索语言。 主题途径:切忌仅依据课题名称确定主题词,应根据课题涉及地主要对象,研究手段,使用的方法、材料、条件、设备、研究的目的、用途作深入的分析,提取课题研究的主要事物概念(整理出主题词)。如绿色包
27、装研究;可持续发展若使用的检索工具要求规范化主题词,则查表选词。第51页,共57页,2022年,5月20日,0点54分,星期一 分类途径:根据检索工具使用的分类法查找合适的类目。 作者、引文。 以上途径如能多种配合,效果更好。 5 查找原始文献线索及获取文献第52页,共57页,2022年,5月20日,0点54分,星期一委 托 人: 须文波 潘丰委托单位:江南大学信息学院针对流程、离散或混合型的轻化工生产过程,开发生产过程设备运行的动态监控、生产过程优化控制、生产状态远程监控系统、远程故障诊断的成套控制装备。“轻化工生产过程集成优化控制系统”立足于开放性、以优化技术为主,构成现场控制级、监控优化级和生产管理级的三级过程集成优
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 译林版英语四年级下册 Unit 5 (Lead-in Cartoon time)
- 厦门2026年一级建造师《建筑工程管理与实务》真题解析版
- 译林版英语五年级下册Project1试卷
- 2026年研究生入学考试历史学基础真题及详解
- 生产设备日常维护与安全巡检自查报告
- 2026年证券从业资格证券市场基本法律法规真题解析版
- 2026年英语六级《翻译》考前冲刺卷
- 智能安全帽应用方案
- 2026年水产品生产运营管理计划
- 南宁市专职消防员招聘笔试题及答案
- 2026年高考上海卷历史试题(附答案)
- 双心医学讲座课件
- 浅谈输水管道设计技术要求
- 2025年项目合作协议终止及风险评估
- 智能时代需要工匠精神
- 2025版肺癌常见症状及护理护理原则
- 幼儿园食堂从业人员食品安全知识培训考核试题附答案
- 手术室进修总结及汇报
- 病历书写与管理基本规范2025年版
- 部队手榴弹使用课件
- 老年人权益保障课件
评论
0/150
提交评论