版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二节信息检索的基础知识2.1信息检索的概念广义:指将信息按一定的方式组织和存储起来,并根据用户的需要检出所需信息的过程。包括信息存储和信息检索两个过程。信息存储:将大量无序的信息集中起来,根据其外表特征和内容特征,经过加工,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或系统。
外表特征:题名、著者、出版事项等内容特征:分类号、主题词等信息检索:指运用编制好的检索工具或系统,从信息集合中查找并获取与用户提问相关的信息的过程
。——狭义信息源筛选信息概念分析概念转换成检索语言-标引信息检索系统概念转换成检索语言-提问概念分析需求分析信息用户检索策略存储过程检索过程信息检索原理检索结果指以数值或数据为对象的检索,也称为数值检索。如:某地方2017年GDP增长情况、某种材料的电阻系数、计算公式、数据图表等。数据检索指以某一客观事实为对象的检索。如:查找某一名人、机构的基本情况;某一事件发生的时间、地点、过程等。事实检索指以文献线索或文献原文为对象的检索。如:查找哪里有关于“信息检索”的书?查找有关“图书馆资源整合”方面的文章等。
文献检索2.2信息检索的类型
根据检索对象的不同,信息检索分为:信息检索的类型文献检索与数据检索、事实检索的关系文献检索:相关性检索,只检索出包含所需知识信息的文献,不直接解答用户所提出的具体问题。数据检索、事实检索:确定性检索,检索出包含在文献中的知识信息,检索结果可供用户直接利用。通常,文献检索通过二次文献来实现,是信息检索中最基本、最主要的形式。而数据与事实检索则一般是通过三次文献来完成。2.3信息检索工具2.3.1概述指用来存储、报道和查找各类信息线索或特定数据和事实的工具或系统。主要包括:(1)二次、三次印刷型手工检索工具(2)面向计算机和网络的各种数据库检索系统(3)搜索引擎等网络检索工具2.3.2检索工具的作用
a.报道作用:报道已经公开或发表的相关领域的信息及线索。
b.存储作用:将已经公开或发表的信息及线索按一定方式存储起来,供用户检索利用。
c.检索作用:供读者查找信息及线索。
信息检索工具2.4二次文献的分类分类:目录、题录、文摘、索引(1)
目录(Catalog):是以“本”为报道单位,它主要用于反映文献(图书、期刊等)的出版情况或收藏情况,揭示文献外部特征(题名、著者、出版事项等)的检索工具。例:馆藏目录:反映一个图书馆文献收藏情况的目录。联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、信息服务机构文献收藏情况的一种统一目录。石家庄铁道大学图书馆馆藏目录,点击题名可查看馆藏地址。二次文献中国高等教育文献保障系统(Calis)联合目录,点击题名可查看该文献信息及收藏单位。(2)
题录(Title):是以“篇”为报道单位,揭示文献(期刊论文、会议论文、学位论文、图书章节等)外部特征(篇名、作者、出处等)的检索工具。《中国学术期刊网络出版总库》中的部分题录信息《CCC》中的部分题录信息二次文献(3)
文摘(Abstract):也是以“篇”作为报道单位,描述文献外部特征和内容特征的检索工具。比题录多了一个内容摘要项。《中国学术期刊网络出版总库》中的部分文摘信息《SCI》中的部分文摘信息二次文献(4)
索引(Index):是将文献中具有检索意义的事项,按照一定方式有序编排起来,供读者查检使用的一种附属性的检索工具,通常称为辅助索引,起指引作用。常用的索引类型有:分类索引、主题索引、著者索引、引文索引等。二次文献超星数字图书馆的分类索引EI的主题词(受控词)索引EI的作者索引SCI的某篇文章的引文索引2.5文献检索的方法(1)
追溯法指以已有的文献后面所附的参考文献为线索查找相关文献的方法。向前追溯法:从一篇有价值的论文出发,利用其后所附的参考文献,查找其引用了哪些文献。由近及远的回溯,越查越深,获取更多相关文献。——来龙
向后追溯法:找到一篇有价值的论文后,进一步查找该论文被哪些其它文献引用过。由远及近地追寻,越查资料越新,研究也就越深入。——去脉美国《科学引文索引(SCI)》通过揭示文献的引用与被引用关系来报道文献。文献检索方法(2)
常用法:利用常规检索工具查找有关文献的方法顺查法
按课题的起始年代,按时间顺序由远及近逐年查找。用于掌握课题研究的进展及过程,一般用于撰写研究综述。倒查法以当前时间为起点,由近及远逐年查找文献。一般用于新开课题,以便掌握最近一段时间该课题达到的水平及研究动向。抽查法根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集中查找。文献检索方法(3)
综合法(循环法或分段法)常用法+追溯法。即利用常用法检索出一批有用文献,然后利用这些文献所附的参考文献由近及远,或这些文献被引用情况由远及近地查找。如此分段交替循环进行,从而可得到大量相关文献。文献检索方法2.6文献检索的途径指利用文献的各种特征——检索标识,通过检索工具查找所需文献的过程。(1)分类途径按文献内容所属的学科类别来检索文献,使用的检索语言是分类语言。分类法体现知识的系统性,它能把同一学科的信息集中在一起。中国知网:分类号TU37——混凝土结构方面的文章
(2)主题途径
从文献内容的主题概念出发,按确定的主题词来检索文献
主题法打破了传统的学科分类的框框,把分散于各个学科的有关信息集中于同一主题词之下。文献检索途径EI:主题词CivilEngineering——土木工程方面的文章文献检索途径(3)题名途径书名、刊名、篇名等(4)关键词途径(5)作者途径(5)机构途径(6)引文途径从文献的引用和被引用关系查找相关文献。(7)代码途径文献号码(报告号、专利号、标准号等)
(8)其他途径例:美国《化学文摘》中的“分子式索引”一、概述二、分类语言三、关键词语言四、主题词语言第三节检索语言
3.1概述检索语言是根据文献信息的存储和检索的需要而创制的一种人工语言,又称检索标识。信息存储:用来描述文献的内容特征和外部特征,形成检索标识。信息检索:用来描述检索提问,形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,即可命中所需文献信息。检索语言
自然语言检索语言的分类描述内容特征语言分类号检索语言主题词(叙词)描述外表特征语言关键词检索语言人工语言
分类语言
题名(书名/刊名/篇名)著者(作者)出版事项(出版者、出版地)代码(标准号、专利号、报告号、ISBN号、ISSN号)3.2分类语言检索语言按学科范畴从上至下、从总体到局部层层划分、展开,形成一种直接体现知识分类的等级制概念的标识系统。每个学科类目都用相对固定的代码作为标识——分类号每一个分类号代表一个特定的知识概念。
特点:集中体现学科的系统性,反应事物的从属、派生关系,便于按学科门类进行族性检索。最常见的是体系分类语言3.2.1体系分类语言
国内:
《中国图书馆分类法》(简称“中图法”)
《中国科学院图书馆分类法》(简称“科图法”)
《中国人民大学图书馆分类法》(简称“人大法”)。国外:
《杜威十进分类法》
《国际十进分类法》等
《中国图书馆分类法》是国家推荐统一使用的分类法分类语言3.2.2中图分类表的结构(1)
基本部类(5个)(2)
基本大类(22个)(3)
简表(4)
详表(5)
辅助表分类语言《中国图书馆分类法》基本部类(5)基本大类(22)
一、马、列、毛、邓A马、列、毛泽东、邓小平理论
二、哲学B哲学、宗教
三、社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理分类语言基本部类(5)基本大类(22)
四、自然科学
N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学
五、综合性图书Z综合性图书《中国图书馆分类法》分类语言其中“T工业技术”大类范围广泛,内容繁多,故又在该类基础上采用了双位拉丁字母标记其所属的16个二级类目。TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程分类语言
简表:又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。
如:O数理科学和化学
一度划分:
O1数学O3力学O4物理学O6化学O7晶体学分类语言O1数学,二度划分:
O11古典数学
O12初等数学
O13高等数学
O14数理逻辑、数学基础
O15代数、数论、组合理论
O17数学分析
O18几何、拓扑
O19动力系统理论
……分类语言
详表:整个分类法的正文,亦称正表,由简表进一步细分而成的最小概念性分类表,是类分信息资料的依据,两万个。
O17数学分析
O171分析基础
O172微积分
O172.1微分学
O172.2积分学分类语言
《中国图书馆分类法》
比如:《房屋建筑工程》索书号:TU22/61=分类号TU22+种次号61TU22/61T:工业技术TU:建筑科学TU2:建筑设计TU22:房屋构造设计61:种次号,即属于本馆房屋构造设计类第61种图书分类语言3.2.3杜威十进分类法(DDC)世界上流传最广影响最大的分类法在美国有95%的公共图书馆在使用分类语言DDC第21版的类目共有10大类000计算机、信息与总类100哲学和心理学200宗教300社会科学400语言500科学(指自然科学)600技术应用科学700艺术和娱乐800文学900历史、地理分类语言3.3主题词语言定义:国外称叙词,是以概念为基础,经过严格规范化,通过概念组配方式表达文献主题的规范化的词或词组。属于人工语言,经规范化处理。(由文献加工者提取)如:电脑、微机(不规范词)——计算机(规范词)。受主题词表(叙词表)控制优点:检索结果准确而全面缺点:需要查阅主题词表常用INSPEC的词表《INSPECThesaurus》、EI的《EIThesaurus》及我国编辑出版的《汉语主题词表》等。主题词语言从文献的题名和内容中抽取出来的,能够表达主题内容的具有检索意义的关键性词汇。属于自然语言,未经过规范处理。(由文献作者提取)
没有固定词表,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。优点:一是有利于计算机自动抽词标引,适合于电子信息资源的标引和检索。二是符合习惯、容易接受。3.4关键词语言关键词语言
缺点:查全率、准确率较差。同义词标引——引起漏检;多义词标引——引起误检例:同义词,飞机:Airplane、Aircraft、Planes
多义词,cell:电池、细胞关键词语言主题词是经过人工规范的词汇关键词是没有经过规范的自然语言词汇如:图书馆在标引“土豆”、“洋芋”等方面的文献时用“马铃薯”这一规范词。主顾、顾客、购物者、消费者、使用者、读者等用“用户”这一规范词来表达。主题词可以很好地避免漏检,提高检全率。主题词与关键词的区别
分类法与主题法的区别分类法以学科性质类分文献,它以学科集中文献,属于族性检索,可能造成事物主题文献的分散。主题法以主题词概括文献内容,以事物主题集中文献,属于特性检索,它可能造成学科文献的分散。例如:《地下工程系统分析与设计》这本书进行标引分类标引:考虑本文主题内容所属学科及隶属关系:“工业技术—建筑科学—地下建筑”,相应分类号TU92。主题标引:不需考虑其所属学科专业,直接用描述内容主题词“地下工程“、”系统分析”标引即可。第四节计算机检索技术一、计算机检索系统二、检索提问式三、计算机检索步骤
依检索手段,信息检索分为:手工检索:使用印刷型(书本式)的检索工具计算机检索:运用计算机技术、网络通信技术,通过数据库系统实现检索。检索手段信息载体存储方式检索途径检索策略实现检索效率手工检索纸张印刷型较少人脑低计算机检索磁盘光盘等电子型较多计算机高4.1计算机检索系统4.1.1发展历程脱机批处理信息检索联机检索系统
光盘检索系统Internet网络检索
脱机批处理检索阶段(50年代中期至60年代中后期)1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统。20世纪50年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”系统。利用单台计算机进行检索。过程:检索机构把多个用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户。特点:委托专业人员批量检索,用户不能在检索过程中与主机进行“对话”和浏览文献,不能及时修改检索策略,不能及时获得检索结果。发展历程
联机检索阶段(60年代中后期——80年代)20世纪60年代末,数据通讯网络出现,大容量计算机分时操作系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。终端/主机结构,由联机检索中心、通讯网、检索终端等三部分组成。特点:(1)
无需委托。检索过程是“人—机对话”式,用户直接检索,及时修改检索策略。(2)
检索指令复杂,多为专业检索人员才能熟练使用。(3)
只对授权用户开放。按时计费,检索费用昂贵。发展历程
光盘检索阶段(80年代中期开始)1985年出现CD-ROM数据库,利用计算机设备对只读式光盘数据库进行检索。单机光盘检索系统:提供单用户、单机的使用,系统结构简单,但数据量少。光盘网络系统:将光盘放在光盘塔或光盘库中,由服务器管理运行。一般只提供在局域网上检索,如图书馆网、校园网等,网上用户可以分时共享光盘数据库的资源。特点:(1)
系统配置简单,实行菜单检索,系统操作简单。(2)
光盘数据库具有容量小的局限性、数据更新慢。发展历程Internet网络检索阶段(从90年代开始)随着互联网的迅速发展及超文本技术的出现,基于B/S(浏览器/服务器)的检索软件的开发,将原来的主机系统转移到Web服务器上,使B/S(浏览器/服务器)联机检索模式开始取代以往的终端/主机结构。特点:(1)实现了任何时间、任何地点的检索。(2)操作简单,适合大众检索。
发展历程DIALOG国际联机检索系统简介
是目前世界上最大的国际联机情报检索系统,覆盖各行业的900多个数据库。内容涉及自然科学、社会科学、工程技术、人文科学、时事报道及商业经济等各个领域。是全球最大的专业信息供应商。功能
利用DIALOG系统,可进行项目查新、文献调研、课题立项、申报专利、了解市场动态和竞争对手、新产品开发、公司的背景情况、经济预测等等信息。OCLC国际联机检索系统OCLC,即联机计算机图书馆中心,创立于1967年,是一个不以盈利为目的、提供图书馆服务的会员制研究组织。1991年,OCLC推出FirstSearch数据库,把原有的联机检索服务扩展为综合的、基于Web的联机参考服务系统,目前发展成为全世界使用量最大的交互式联机检索系统。面向最终用户,界面直观、操作简单、提供多种语言界面、多种辅助检索工具,方便非专业检索人员使用。当前利用FirstSearch可以检索到86个数据库,内容覆盖15个主题范畴的各个学科领域。http:///asiapacific/zhcn/default.htm4.1.2数据库(1)
概念数据库:指长期存储在计算机存储设备上的、可供计算机快速检索的、有组织的、可共享的数据集合。本课程所指数据库是指包含文献信息有关数据的机读记录的有序集合。计算机检索系统数据库:一定专业范围内信息记录及其索引的集合体。
(2)
数据库结构由字段——记录——文档三个层次构成字段(Fields):组成记录的数据项(检索项),一个字段代表一项特征。
计算机检索就是通过字段检索,查找满足条件的记录。记录(Record):数据库的基本信息单元,每条记录都描述了原始信息的各项外表特征和内容特征。
计算机检索的目的就是查找符合条件的记录。文档记录字段文档(File)
:是机读记录的有序集合,由记录及其索引组成。各文档的集合数据库(Database):是文档的集合。综合性数据库:多按学科划分文档(3)
数据库的记录格式数据库4.2检索提问式采用计算机信息检索系统规定使用的组配符号(也称为算符)将反映不同检索途径的检索单元组合在一起而形成的一种逻辑运算表达式。
1、布尔逻辑运算符
2、位置运算符
3、精确检索符
4、限制符号(截词符)举例:查“计算机”方面的文章计算机or电脑or微机计算机+电脑+微机检索提问式4.2.1布尔逻辑算符把一些具有简单概念的检索词通过布尔逻辑算符组配成为一个具有复杂概念的检索式,用来准确表达检索提问。(1)
逻辑“或”:并列概念关系的一种组配,通常用
or或
+表示,有助于扩大检索范围,提高查全率,防止漏检。如:AorB、A+B表示它所连接的两个检索词(A、B)中有任何一个出现在检索结果中就满足检索条件。举例:查“分布式网络系统”方面的文章分布式and网络系统分布式*网络系统检索提问式
(2)
逻辑“与”:交叉概念关系和限定关系的一种组配。通常用and或*表示,可以缩小检索范围,提高查准率,防止误检。如:AandB、A*B表示它所连接的两个检索词(A、B)必须同时出现在检索结果中才满足检索条件。举例:查不含公路运输的交通运输方面的文章交通运输not公路交通运输-公路检索提问式
(3)
逻辑“非”:不包含某种概念关系的一种组配。通常用not或-表示。如:AnotB、A-B表示它所连接的两个检索词中,应从第一个概念中排除第二个概念。检索提问式
(4)
优先算符:(
)
可以改变布尔逻辑的正常运算次序。布尔逻辑运算次序为:非(not)——与(and)——或(or)
例如:大学生or研究生not就业(大学生or研究生)not就业两者检索结果不同。检索提问式
4.2.2位置运算符限定“位置算符”两边的检索词出现在记录中的位置。(1)(W)算符With:要求检索词必须按指定顺序紧密相连,词序不可变,词之间除允许有空格、标点、连字符外,不得夹单词或字母。(nW):表示连接的两个词之间最多可加入n个词,词序不可颠倒。
例如:building(W)construction:可检出:“buildingconstruction”“building-construction”
又如:air(2W)Pollution
:可检出:“airpollution”“airenvironmentpollution”“airandnoisepollution”检索提问式检索提问式(2)
(N)算符Near:要求被连接的检索词必须紧密相连,词序任意,词之间除允许有空格、标点、连字符外,不得夹单词或字母。(nN)表示两个检索词之间最多可加入N个词,词序任意。例如:
internet(N)accessing可以检出“internetaccessing”互联网接入“accessinginternet”访问因特网又如:environment(2N)protection,可检出:
“environmentprotection”
“environmentresourceprotection”
“protectionof
environment”
“protectionofwaterenvironment”检索提问式
(3)F算符(Field)
表示两个检索词必须同时出现在同一个字段内,两词的词序和中间插入的词数不限。
例如:pollution(F)control/Ti
表示检索同一字段中含有pollution和control的文献。如题名字段、文摘字段、关键词字段
检索提问式(4)Same算符
检索词必须出现在同一句子中(指两个句号之间的字符串),检索词在句子中的顺序和位置是任意的。
例如:educationSameschool
表示检索某一句子中education和school的文献。使用位置算符要注意的问题:主要应用于英文数据库多数用于数据库的专业检索方式(需输入检索指令的检索)不同的数据库用到的位置算符不一样,使用前查看检索提示或相关帮助检索提问式4.2.3精确(exact)检索:两个或多个词不能拆开,不能互换位置,中间不能插入任何字符。提示:不同的数据库对精确检索的规定不一样。有的使用“”、{},如EI:“intelligentcontrol”有的使用空格,如IEE/IEEE:凵intelligentcontrol凵;还有一些数据库通过特定程序控制。检索提问式4.2.4截词符是指用给定的词干做检索词,查找含有该词干的全部检索词的记录。“*”,或“?”,防止漏检,提高查全率。(1)
无限制截词“*”一般用于词尾,即“词干*”,——后截断,表示词干后面的字符位数不受限制。如economic*,可检索:economic
、economics、economicst、economicalism,…。也有用于词中间的,——中间截断,如sul*ur,可检索:sulfur、sulphur,…也有用于词前的,——前截断,如*magnetic,可检索:magnetic,electro-magnetic,electromagnetic,…检索提问式(2)
有限制截词“?”在词尾、词中加有限个“?”号。
n个“?”号表示添加的字符数少于等于n个。如:smok??,可检索:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 雨课堂学堂在线学堂云《管理沟通(西安财经)》单元测试考核答案
- 分拣员培训与技能提升计划
- 企业行政管理部门工作安排
- 汽车行业商务经理招聘面试指南
- 新希望乳品事业部销售策略分析报告
- 电视台新闻记者岗位面试技巧集
- 迈瑞医疗设备销售策略及市场分析
- 酒店业人力资源部的服务质量管理与提升计划
- 房地产经纪资深经纪人面试经验
- 楼梯施工方案定制(3篇)
- 北师大版初二下册英语期末试卷附参考答案
- 高空作业承揽合同范本
- 2026年苏州工业园区职业技术学院单招职业适应性考试题库及答案1套
- 2026年苏州工业职业技术学院单招综合素质考试题库附答案
- GB/T 30341-2025机动车驾驶员培训教练场技术要求
- DB41∕T 2571-2023 桂花盆栽技术规程
- 宁夏回族自治区突发事件总体应急预案
- 游戏角色设计建模课件
- 人工智能+跨界融合跨境电商新业态发展分析报告
- 西藏高标准农田施工方案
- GB/T 10454-2025包装非危险货物用柔性中型散装容器
评论
0/150
提交评论