




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课题二信息检索基础理论,1、教学内容(1)信息检索的概念、特点、类型(2)信息检索的基本原理(3)信息检索语言的概念及类型(4)信息检索系统的概念、基本类型、结构(5)信息检索的方法、步骤、评价2、重点、难点重点:信息检索的基本原理难点:信息检索的方法、步骤、评价3、教学基本要求(1)了解信息检索的概念、特点、类型(2)掌握信息检索的方法、步骤、评价,第一节信息检索概述,一、信息检索及特性1.信息检索涵义信息检索(InformationRetrieval),亦称情报检索、文献检索。信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。信息检索包括两个层次的涵义:信息的存储和信息的查找。即包含了广义的信息检索和狭义的信息检索。本章所讲的主要是狭义的信息检索,即信息的查找过程。,What?Where?How?,信息检索的要领,2.信息检索特性信息检索的相关性相关性表明用户是否认为一文献与一提问吻合。信息检索的不确定性标引(见下页)和检索词选用存在不确定性信息检索的逻辑性,标引:通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。,标引举例阿斯匹林引起胃溃疡分类标引:R573.1溃疡病主题标引:阿斯匹林/副作用消化性溃疡/化学诱导,二、信息检索的类型1.按照检索对象的内容可分为数据信息检索、事实信息检索及文献信息检索。设计人行天桥的参考文献有哪些属于文献检索“世界上最长的斜拉桥是哪座?该桥位于什么地方?何时建成?”属于事实检索某一新型载货汽车的载重量是多少?百公里油耗是多少就属于数据检索.2.按照存贮载体及检索手段方式可分为手工检索、机械检索及自动化检索。,三、信息检索的作用有利于减少课题的重复研究、提高科研成功率有助于节约时间、提高科研效率有利于培养复合型、开拓型人才,三、信息检索的基本原理信息检索的基本原理即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。,信息检索原理图*,一次信息,信息特征,检索语言,信息特征标识,检索结果,信息需求,检索提问,检索提问标识,分析,分析,标引,标引,输入,检索,输出,信息检索工具(系统),存储过程,检索过程,第二节信息检索语言,一、检索语言及特征1.检索语言概述检索语言是一种专门用于各种手工和计算机化的文献情报检索与存贮系统、用以表达文献主题概念和研究课题主题概念的人工语言,亦可称为索引语言、标引语言、文献工作语言等。如中国图书馆图书分类法、中国科学院图书分类法、INSPEC叙词表等都是检索语言,其分类号或检索词就是检索语言的词语。检索语言词义单一性,可以保证表达概念的唯一性,进而保证了标引与检索的一致性。检索语言作为标引人员与检索人员的共同语言,2.检索语言的特征检索语言是连接信息用户、信息工作人员及信息资源的非常重要的一环,因此具有鲜明的特征。它必须满足以下三个基本条件:必须具有必要的语义和语法规则;必须具有表达概念的唯一性;必须具有将检索标识和提问特征进行比较和识别的方便性。,二、检索语言的基本类型检索语言按描述文献的有关特征,可分为描述文献外表特征的语言和描述文献的内容特征的语言。,叙词语言,等级体系,混合分类,1.分类语言(1)体系分类语言。体系分类语言是一种直接体现分类等级概念的标识系统。它以科学分类为基础,以文献内容的学科性质为对象,运用概念的划分与概括的方法,按照知识门类的逻辑次序,从上到下、从总到分,进行层层划分。分类表则是这种语言的具体体现。(2)组配分类语言。它用科技术语进行组配的方式来描述文献内容。如印度阮冈纳赞的冒号分类法(ColonClassification,CC)。(3)混合分类语言。它是组配分类和体系分类语言的结合,两者有所侧重,因而又有组配体系分类语言和体系组配分类语言之分。如国际十进分类法(UniversalDecimalClassification,UDC),例:中图法是一部大型综合性图书分类法,其分类表也称主表,由五个基本部类、二十二个基本大类、简表、详表和复分表组成。基本部类和基本大类。基本部类,又称基本序列,由五大部类组成。基本大类,又称大纲,是在基本部类的基础上展开的第一级类目,由22个大类组成。,简表是在基本大类上展开的二级类目表,通过简表可了解分类概貌。T工业技术大类的简表。,详表,是分类表的主体,它依次详细列出类号、类目和注释。此处以“分时操作系统”说明其类号、类目展开示例,TP3计算技术、计算机技术TP31计算机软件TP316操作系统TP316.1分时操作系统表,复分表,又称为辅助表,或附表。是对主表中列举的类目进行细分,以辅助详表中的不足。通用复分表由总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表和通用时间、地点表组成,附在详表之后。如英国油画集为J233(561),“(561)”为英国复分号,近二年来的肿瘤疗法经验为R730.5=5,“=5”为时间复分号。,中国图书馆图书分类法,书刊的排架,信息检索概论祁延莉编.G252.7/Q231AutoCAD2005建筑制图曾维富,陈良等编著.TU204-39/Z053台球速成:新编张宝荣编著G893/Z107,图书馆书刊排架按索书号排列,索书号由分类号和著者号构成。索书号的构成(分类号+著者号),2.主题语言(1)关键词语言。它是以关键词作为文献内容检索入口的一种主题语言。关键词,是指从文献的标题、正文或摘要中直接抽取出来,未经规范化处理的自由词汇。如:“电脑在信息工作中的应用”其关键词为“电脑”“信息工作”“应用”。关键词是未经规范化,可以根据需要直接从文献的题名或内容中抽取,因此无须建关键词表,但须建一种非关键词表(stoplist)。非关键词是指那些没有实质意义的和没有专业独立检索意义的语词:包括冠词、连词、介词、助动词、某些通用词(如设计、报告、方法、分析)等。,(2)标题词语言。它是以标题词作为文献内容标识和检索依据的一种主题语言。所谓标题词,是从文献的内容或题目中抽选出来,经过规范化处理,用以描述文献内容特征的词和词组。标题词不是指图书的书名或文献的篇名,而是从自然语言中选取的经过规范化处理的、表示事物概念的完整的名词术语,如“农业”、“物理学”标题词表是由标题词按字顺排列组成的。使用时,用所选标题词,在词表中按字顺查找,即可查到。,(3)叙词语言。它是以叙词作为文献内容标识和检索依据的一种主题语言。也称主题词语言所谓叙词,是从文献题目、正文或摘要中抽取出来的、用以表达文献基本内容的概念单元。叙词是从自然语言中优选出的、并经规范化处理、最基本的概念单元,即在概念上不能再分的名词术语,如;“电脑在信息工作中的应用”其叙词为“电子计算机应用”“信息检索”。叙词受词表控制,词表中词与词之间无从属关系,都是相互独立的概念单元。我国编制的汉语主题词表就是典型的叙词语言。检索时,可根据需要选出相应的叙词,按照组配原则任意组配检索概念。因此,它特别适用于电子计算机检索。,(4)单元词语言。它是以单元词作为文献内容标识和检索依据的一种主题语言。所谓单元词,是从文献正文、摘要或题目中抽取出来的最基本的、其概念不可再分的词。它一般未经规范化,也无词表。如:“信息”、“文献”,而“数学分析”、“信息理论”不是单元词,他们有“数学”和“分析”,“信息”和“理论”组成。,第三节信息检索系统,一、检索系统的概念检索系统是用以存储和检索文献线索或报道、累积和查找文献线索的工具,它是在一次文献的基础上经过加工、整理、编辑形成的二次文献。根据检索方式的不同,可分为手工检索系统和机械检索系统。手工检索系统主要指各种目录、题录、文摘和索引。机械检索系统主要指利用力学、光学、电子学等手段帮助查寻的工具,如机检穿孔卡片、光电检索系统、计算机检索系统等。检索系统的基本功能是存储和检索信息,主要体现在四个方面:一是根据学科和主题集中信息。二是缩短了检索过程,节省了查找时间。三是便于按分类或主题等不同的检索途径,灵活地从多个角度进行检索。四是有助于消除语言文字障碍。,二、检索系统的基本类型1.按其正文的内容性质,可分完全二次信息检索系统和部分二次信息检索系统。完全二次信息检索系统主要有目录、题录、索引、文摘等类型。这些检索系统仅提供信息的线索,包括各种印刷性检索系统和检索性文摘数据库。部分二次信息检索系统主要包含以参考工具书为代表的准检索系统书和全文数据库资源。,完全二次信息检索系统的主要类型有:目录(Bibliogrphy,Catalogue)。目录一般以整本的图书、期刊等作为报道单元,描述比较简单,每一个条目的著录项有:书(刊)名、卷(册)数、作者、出版年月、出版地及书(刊)收藏情况等,主要用于查找出版物的出版或收藏单位。根据编制目的及社会职能,目录可以分为国家目录、馆藏目录、联合目录和出版社与书商目录等。,题录(Title)。题录是在目录的基础上发展起来的、以出版物中的“篇”作为著录单元的检索系统。在揭示文献信息的内容上比目录更进一步。题录的特点是“快”和“全”。题录一般不做过多的加工,不做内容摘要,仅列出篇名、著者、出处。我国的全国报刊索引就是典型的题录型检索系统。,索引(Index)索引是指按照一定信息构成如题名、人名、地名、主题词、分子式和各种号码(如专利号、报告号等)对一组信息集合的系统化的指引。索引条目通常有三个著录项目:标目(标识)、说明语和存储地址。标目是索引条目所指示的信息某方面的特征,其属性值有著者名、主题词等,存储地址是所指示的属性值对应的特定信息内容在信息集合中的地址,多数是流水号。主题索引、著者索引是最常用的索引。,文摘(Abstract)文摘是将论文或专著的内容加以浓缩,以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索系统。其实质就是题录加上内容摘要。,2.按其物质形态可分为印刷型、电子型和其它类型的检索系统。3.按收录范围可分为综合性检索系统、专业性检索系统和单一性检索系统。三、检索系统的一般结构一部完善的检索系统一般由使用说明、目次表、正文、索引、附表等五个部分组成。,第四节信息检索的方法、途径及评价,一、检索方法1.浏览法2.追溯法3.常用法顺查法。倒查法。抽查法。引文法。4.分段法,二、检索途径1.分类途径2.主题途径3.著者途径4.其它途径篇名途径。篇名途径包括书名、刊名和篇名等途径。序号途径。分子式途径。,三、信息检索效果的评价1.信息检索效果评价的指标查全率。它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。查全率=检出相关信息量系统中相关信息总量100%=a(a+c)100%查准率。它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。查准率=检出相关信息量检出信息总量100%=a(a+b)100%查全率与查准率之间存在互逆的关系,即提高系统的查全率,会使查准率下降,反之亦然。,漏检率。它是指漏检相关信息量与在检索系统中相关信息总量的比率,是衡量信息检索系统漏检信息的尺度。漏检率=漏检相关信息量系统中相关信息总量100%=c(a+c)100%误检率。它是指误检(检索出不相关)信息量与检出信息总量的比率,是衡量信息检索系统误检信息程度的尺度。误检率=误检信息量检出信息总量100%=b(a+b)100%,2.影响检索效果的因素(1)影响查全率和查准率的主要因素人为因素主要包括两类人为错误因素:一是在编制检索系统时收录文献不全面、不明确,在文献标引工作中人为造成的各种错误;二是在检索时对课题内容分析的错误和对检索提问错误。人为错误往往会引起查全率和查准率的同时下降。客观因素各种知识之间的相互渗透、相互包容是影响查全率和查准率不可能同时达到100%,而成为反比关系的客观因素。这些因素称为“合理影响因素”,由其造成的误检和漏检称为“合理误检”和“合理漏检”。,(2)影响检索效率的因素标引的网罗性标引的网罗性是指标引时揭示文献主题的基本概念的广度而言的。检索标识的专指性所谓检索标识的专指性是指检索标识表达主题的基本概念的专指度而言的。,3、提高检索效率的措施选择好检索系统。准确使用检索语言检索者所用的检索语言应能准确地表达信息需求。用泛指性强的检索语言以提高查全率。用专指性强的检索语言以提高查准率。善于利用各种辅助索引。,第五节信息检索的一般程序,一、分析研究课题明确检索要求和范围。通过分析课题,明确查找要求(时间、文献类型等)后,还要根据课题的学科性质,确定检索的学科范围。分析主题内容。分析问题类型。分析查找年代。,二、确定检索系统(选择检索系统)选择检索系统或工具应该考虑以下四个方面的因素:一,学科、专业范围;二、信息类型;三,文种;四,课题内容。三、选择检索方法1.检索系统的条件2.检索课题的要求3.学科发展特点(1)检索课题属于年轻新兴学科,起始年代不太长,一般采用顺查法(也可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 硕士毕业论文会计专业
- 2024年食品安全法考试试题题库及答案
- 2025年幼儿园与家长入园幼儿综合素质评价及教育引导协议
- 防涝管网洪水调度与控制方案
- 风电场风电机组性能测试方案
- 冷链物流园风险防控与应急预案
- 零售行业数字化门店运营与营销方案
- 预检分诊管理制度就诊流程培训考核试题(附答案)
- 汽车维修转向系毕业论文
- 人力资源管理师证考试试题及答案
- 人教版七、八年级(共4册)英语单词默写表
- 山地光伏除草施工方案
- 医院培训课件:《查对制度》
- 2024防爆轮式巡检机器人技术规范
- TB10104-2003 铁路工程水质分析规程
- 08J333 建筑防腐蚀构造
- DL∕ T 802.7-2010 电力电缆用导管技术条件 第7部分:非开挖用改性聚丙烯塑料电缆导管
- 突发环境事件应急预案编制要点及风险隐患排查重点课件
- 香港朗文1A-6B全部单词(音标版)
- CJJ57-2012 城乡规划工程地质勘察规范
- 入厂燃料验收管理验收统一标准
评论
0/150
提交评论