信息检索基础PPT课件.ppt_第1页
信息检索基础PPT课件.ppt_第2页
信息检索基础PPT课件.ppt_第3页
信息检索基础PPT课件.ppt_第4页
信息检索基础PPT课件.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索基础,本章要求,1.了解信息检索系统的发展及组成;2.理解分类语言和主题语言;3.掌握各种检索途径的利用及其区别;4.掌握常用的信息检索技术;5.掌握信息检索策略的制定;6.掌握查全率、查准率的概念及提高检索效果的措施。,信息检索就是充分利用信息检索系统,按照一定的检索语言和规则对文献信息进行标引,按照检索系统提供的检索途径,采用先进的信息检索技术,制定合理有效的检索策略,快速、准确、全面地检索出所需的文献信息。,第一节信息检索系统,一、信息检索系统是根据特定的信息需求而建立起来的一种有关信息收集、加工、存储和检索的服务工作系统。可分为手工检索系统计算机检索系统,脱机检索联机检索网络检索(光盘检索),一、信息检索系统,手工检索系统,计算机检索系统,按信息检索系统的实施手段可分为:,1.脱机检索阶段20世纪5060年代,又称脱机批处理检索,用户提出的信息需求是委托式的,交专业人员统一安排,必须等待成批或定期处理。缺点:检索结果延误。优点:无网络通讯费,检索费用由用户平摊,价格便宜。,2.联机检索阶段20世纪6070年代,是用户利用终端设备,通过通信网络或通信线路与检索系统联机,采用分时技术,多个用户可以同时与主机“对话”,从检索中心的数据库查找所需要的文献信息过程。优点:检索的速度快,检索质量高。缺点:检索费用高,技术复杂。,3.网络信息检索阶段20世纪80年代末,光盘检索20世纪80年代中期优点:存储量大、使用方便、费用低、利用微机就可以进行检索,支持多用户。,二、信息检索系统的组成,包括:计算机硬件包括计算机、存储器、检索终端、网络、通讯设备等计算机软件包括操作系统、数据库管理系统、通讯管理程序、输入输出程序、应用程序等数据库是按一定方式存储在光盘、磁盘、磁带上的相互关联的数据集合,1.数据库的结构,数据库文档记录字段数据库的本质是可以提供共享的有一定组织方式的相关数据。每个数据库由若干个不同类型的文档组成,文档是由许许多多条记录组成,而每一条记录又有许多不同的字段构成。,文档(file):文档是按一定结构组织的相关记录的信息集合。一个数据库可按年代和学科分割成若干个文档。记录(record):构成文档的基本数据单元。它是对某一实体的全部属性进行描述的结果。它描述原始信息的外部特征和内部特征,每条记录有许多个字段组成,一条记录代表一篇原始文献的相关信息。字段(field):比记录更小的单元,是组成记录的基本要素。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。,数据库的组成,2.数据库类型(按内容分型),(一)书目数据库(BibliographicDatabases)(二)事实数据库(NumericDatabases)(三)数值数据库(FactDatabases)(四)全文数据库(FullTextDatabases)(五)图像数据库(ImageDatabases),数据库类型(按内容分型),(一)书目数据库(BibliographicDatabases)是机读形式的二次文献数据库,包括:目录、题录、文摘等书目线索。(二)事实数据库(NumericDatabases)也称指南数据库,存储描述人物、机构、事物的等非文献信息源的数据库。(三)数值数据库(FactDatabases):为用户直接提供所需的数据信息,无需再追查原文。,(四)全文数据库(FullTextDatabases):存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。(五)图像数据库(ImageDatabases):以图像为信息主体,配有文字解释。,数据库类型(按内容分型),文献信息,文献信息特征,检索语言和名称规范,文献信息特征标识(检索点),检索课题,检索提问特征,检索提问标识(检索词),检索结果,分析,标引著录,形成,输入,输出,检索系统,分析,选用,形成,检索,2.1.3检索语言,又称标引语言、索引语言、概念标识系统等检索语言是为信息的加工、存储和检索的共同需要而编制的专业语言。是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储和检索的一致性,提高检索效率。检索语言是检索系统的重要组成部分,是沟通文献贮存和检索两个过程及标引人员与检索人员双方思想的桥梁。,检索语言,分类语言,主题语言,描述信息内容特征的语言,描述信息外表特征的语言,书/刊名,著者/团体著者,出版事项,代码/序号,1.分类语言,是按文献的学科性质给予相应的分类号,用分类号来表达文献的主题概念,根据分类表中的顺序编排成分类索引,提供分类途径供检索文献使用。,我国古代第一部成型的图书分类法是西汉刘向、刘歆(xin)父子编制的七略。西晋,荀勖(xu)创立了四部分类法,即甲、乙、丙、丁四大部。从隋唐起,图书的四部分类法已经基本定型。皇家图书馆及秘书省、翰林院等重要典藏图书之所,都是按照经、史、子、集分四库贮藏图书的,名为四库书。,辑略六艺略诸子略诗赋略兵书略数术略方技略,分类语言,分类语言是用分类号作标识,具有学科系统性的人工语言。提供分类检索途径,具有族性检索的特点,但专指性较差。分类语言的特点:分类语言较好地体现了学科和专业的系统性,反映了事物的隶属、平行和派生的关系,提供的分类检索途径,具有族性检索的特点,能获得较高的查全率,但专指性较差,不适合专深主题和多位概念的检索。,国内常见的分类法有:,中国图书馆分类法,简称中图法中国人民大学图书馆图书分类法中国科学院图书馆图书分类法,中国图书馆分类法是我国建国后编制出版的一部具有代表性的大型综合性分类法,简称中图法。英文译名为ChineseLibraryClassification,英文缩写为CLC。将学科划分为5个基本部类,22个基本大类,再进行层层划分,逐级展开,形成一个严格有序的直线性知识门类等级体系。,体系结构,R医药、卫生,R1预防医学、卫生学2中国医学3基础医学4临床医学5内科学6外科学71妇产科学72儿科学73肿瘤学,R74神经病学与精神病学75皮肤病学与性病学76耳鼻咽喉科学77眼科学78口腔科学79外国民族医学8特种医学9药学,R44诊断学R441症状诊断学R443物理诊断学(体检诊断)R444电诊断R445影像诊断学R446实验室诊断R447鉴别诊断学R448机能诊断学R45治疗学R47护理学R48临终关怀学R49康复医学,R441症状诊断学R443物理诊断学(体检诊断)R444电诊断R445影像诊断学R446实验室诊断R447鉴别诊断学R448机能诊断学R449预后及劳动鉴定,R4临床医学,R441.1疼痛R441.2眩晕R441.3发热R441.4心动过速R441.5咳嗽、咳痰R441.6呕血、黑便R441.7咯血R441.8呼吸困难R441.9休克R442.1厌食、恶心、呕吐R442.2便秘、腹胀、腹泻R442.3肝脾肿大R442.4黄疸R442.5腹水、水肿R442.6痉挛R442.7出血R442.8综合征R442.9其他,R44诊断学R441症状诊断学R443物理诊断学(体检诊断)R444电诊断R445影像诊断学R446实验室诊断R447鉴别诊断学R448机能诊断学R45治疗学R47护理学R48临终关怀学R49康复医学,R441症状诊断学R443物理诊断学(体检诊断)R444电诊断R445影像诊断学R446实验室诊断R447鉴别诊断学R448机能诊断学R449预后及劳动鉴定,R4临床医学,R446.1生物化学检验、临床检验R446.5微生物学检验R446.6免疫学检验R446.8组织学检验R446.9其他,R446.11血液学检验R446.12尿液检验R446.13粪便检验R446.14脑脊髓液检验R446.19其他,R446.111血液一般(常规)检验R446.112血液生物化学检验R446.113血液细胞学检验R446.119其他,缺点:,专指性较差,不能充分揭示信息资源中大量存在的细小专深主题。分类表中的类目不能随时更改,因而不能及时反映新的科学技术。按照直线序列设置类目,对边缘学科课题只能标引在一门学科的类目之下,检索时可能漏检。,体现了学科和专业的系统性,便于族性检索,提高查全率。,优点:,分类号基本知识介绍:以R563.1为例,2、主题语言,主题语言是以高度概括的语词揭示文献的主题,并以此为标识组织检索系统的语言。特点:直观性强,专指度高,适合特性检索,查准率高。提供主题检索途径,适用于特性检索,查准率高,但不能集中同一学科、专业或族性事物的文献。根据抽词原则、编制方法及使用规则不同,可分为标题词、元词、叙词、关键词。,叙词,是能表达文献主题并经过严格规范化处理的词语,又称主题词。特点:具有概念性、描述性、组配性。如我国汉语主题词表(1980出版)、美国医学主题词表等。,美国医学主题词表(MeSH,MedicalSubjectHeadings)特点:词义、词类、词形规范保证词语与概念的唯一对应关系,具有专指性采用参照系统显示词语之间的相关关系采用主题词分类索引(范畴表或树状结构)显示词语之间的等级(从属)关系,增强了族性检索能力。,关键词语言,是直接从文献的标题、文摘或全文中抽选具有实质意义、能表达文献主题概念,未经规范化处理的自然语言词汇。优点:易于实现自动抽词和编制索引;表达主题直观,检索入口多,能及时反映新事物新概念。缺点:检索质量难以保证,容易漏检。,一、分类途径,是按文献内容所属的学科类别来检索文献的途径,检索标识是分类号或分类词。检索方法:检索时先确定所查文献的学科类别。需掌握一定的分类法。了解分类表或分类目次,从中确定所查文献的学科类别,找到相应类目的分类号,即可。,第三节信息检索途径,分类途径有利于从学科和专业角度进行族性检索。但因体系是直线序列和层垒性结构,难以反映学科之间交叉渗透而产生的多维性知识空间,不适合跨学科主题检索。查全率高,但查准率低。,二、主题途径,是通过反映文献内容主题的语词来检索文献的途径。检索方法:利用主题索引,按语词字顺查找,即可找到相应主题的文献。主题途径查找文献专指性强,可直接获得分散在各学科之间的同一主题的文献,查准率高,能够解决多学科、交叉学科、边缘学科之间文献交叉分散的矛盾,同时利于新课题检索(词表每年修改)。缺点是不能集中同一学科、专业或类族事物的文献,三、关键词途径是最常用的一种检索途径。优点:利于新课题、新事物的检索。缺点:没有严格的语法规范,个人使用的爱好不同自由词选择不同,要查全,需考虑同义词等。,检索举例:冠心病的治疗,自由词-关键词,冠心病,冠状动脉疾病,冠状动脉粥样硬化性心脏病,冠状动脉心脏病,冠状动脉疾病,主题词,文献,治疗,治疗,四、著者检索,是按文献的著者、编者、译者的姓名或机构团体名称字顺检索文献的途径。书写格式中文:姓名全称外文:姓前(全称)、名后(缩写,即用首字母)如:WillianHenryHarrisonHarrisonWHRenShuMinRenSM,五、题名检索按书名、刊名或文章篇名的字顺进行检索,检索时按题名字顺查找。六、号码途径利用文献代码、序号编排成的“号码索引”检索文献。如ISBN、ISSN等。七、其他检索途径化学物质登记号检索、分子式检索等。,第四节信息检索技术,计算机检索过程中,用户检索提问的逻辑表达式由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。,一、布尔逻辑检索(Booleansearching),布尔逻辑运算是18世纪美国数学家GiorgeBoole利用代数表达式推导出组合的一种方法。其表达式由布尔逻辑运算符连接各个检索词,用来表达检索词与检索词之间的不同关系。布尔逻辑的三个基本运算符是:OR(+)、AND(*)、NOT(-),分别称为逻辑或、逻辑与、逻辑非。,1、逻辑与运算符号:AND或*AANDB或者A*B检出记录中同时含有A检索词和B检索词,缩小检索范围,提高查准率。骨髓移植治疗白血病(白血病AND骨髓移植),A,B,我们所需要的,举例:逻辑运算AND,2、逻辑或:运算符号OR或+AORB或者A+B包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B的文献均为命中文献,扩大检索范围,提高查全率。糖尿病和消渴症(糖尿病OR消渴症),A,B,我们所需要的,举例:逻辑运算OR,A,3、逻辑非:符号NOT或ANOTB或者AB在含A检索词的记录中去掉含B检索词的记录,缩小范围,提高查准率。,B,我们所需要的,举例:逻辑运算NOT,检索有关老年痴呆的文献,检索式:老年痴呆,检索式:老年痴呆OR早老性痴呆OR阿尔茨海默病,全面检索有关老年痴呆的文献,检索头针治疗老年痴呆的文献,检索式:头针AND老年痴呆,全面检索有关头针治疗老年痴呆的文献,检索式:头针AND(老年痴呆OR早老性痴呆OR阿尔茨海默病),检索非更年期妇女内源性雌激素减少与冠心病发病的关系的文献,检索式:(雌激素减少AND冠心病)NOT更年期,二、截词检索(Truncationsearching),将检索词在合适的地方截断,取其中片段,加上截词符号,输入检索系统,凡包含该片段的字符(串),均为命中文献。不同的检索系统用不同的符号。截词符号:一般为:*、?、#、$等其中“?”代表有限截断,即一个“?”代表一个字符“*”代表无限截断,一个“*”可代表多个字符作用:扩大范围,避免漏检,避免了多次输入的麻烦,根据截断字符数量分:,无限截断:不限制被截断的字符数量有限截断:限制被截断的字符数量,例如educat*,可以检索educator、educated,后截断,将截词符号放在一个字符串的右方。例如:librar*,可查到library,libraries,librarian,涉及到词的单复数、同根词等方面的检索时,选用后截断技术。,前截断,将截词符号放在一个字符串的左方。例如:*physics,可以查到包含physics、astrophysics、biophysics、geophysics等词的结果。前截断只检索后缀相同的一类词。,中截断,也称“通用字符法”,将截词符号放在检索词的中间部分。例如:wom?n,可查到woman和women。,复合截断,指同时采用两种以上的截断方式。例如:*chemi*,可查到chemical、chemist、chemistry、electrochemistry等。,三、位置检索,通过检索式中的位置算符来规定检索词在结果文献中的相对位置,位置关系包括词距和词序。常用的关系符号是(W)、(N)、(F)、(S)。,四、限定字段检索,同样词出现在不同字段里,表达的文献主题概念不一样限定字段检索是缩小或约束检索结果的方法限制符多为:in对某一字段进行模糊检索肝炎inTI对某一字段进行精确检索、用于数字字段限制,多用于年限如:出版年2000指2000以后文献(包含2000年),第五节信息检索策略,1、分析检索课题,明确目的和要求2、检索系统和数据库的选择(年限、语种)3、选择检索途径,确定检索标识4、编制检索表达式,调整检索策略5、获取原始文献,1.分析检索课题,明确目的和要求检索目的:解决学习、生活等哪个领域的问题?年限、语种等检索需求:新、准、全,1)分析主题内容,确定检索词,方法:找出显性主题概念词(a)找出隐性主题概念词(b)排除无关和重复概念词(c)确定核心主题概念词(d)。,例:食管癌组织中人乳头瘤病毒的检测研究a食管癌组织人乳头瘤病毒检测b食管肿瘤C组织检测,注意:在主题词分析中,应排除那些检索意义不大而比较泛指的概念词,如展望、发展趋势、现状、近况、应用、利用、作用、方法、影响、效率、结构等,2)据检索的主题概念,确定课题涉及的学科范围当课题涉及多学科时,以主要学科为检索重点,次要学科为补充,以全面系统地检得所需文献。例:超声波技术在兽医上的应用应以兽医学为检索重点,医学科学作为次要学科来查。,3)分析文献类型提高检索的针对性若进行基础理论研究,侧重于图书和期刊论文;搞技术创新,侧重于专利文献;做定型产品设计,侧重于标准文献;探讨科学的最新发展及动向研究,侧重于科技报告和会议文献,4)分析查找年代:根据课题的历史背景和检索要求,确定检索的最有可能、最为适宜的时间范围申请专利的查新检索,回溯年限要长;了解课题的研究水平与动向等,回溯时间可短。,5)分析地区范围:以便针对性选择检索的语种、国别和地区检索“茶叶加工技术”的文献:以中文、日文为主要语种,主要在中国、日本及东南亚一些有饮茶习惯的国家和地区的文献中查找;检索“生物技术”的文献:以英文为主要语种,主要在美国等西方发达国家的文献中查找。,2.选择合适的检索工具根据课题的学科专业范围、主题内容,选择合适的数据库。选择受馆藏情况和读者语种的限制3.选择检索途径,确定检索标识注意几种检索途径的配合使用,以提高检索效果。检索标识是指确切表达文献信息内容及外表特征使用的符号或词语。,4.编制检索表达式,调整检索策略例:(食管癌OR食管肿瘤)AND人乳头瘤病毒5.浏览检索结果,获取原始文献。,检索步骤图示:,分析课题,明确检索需求,选择合适的检索工具,选择检索途径,确定检索标识,构筑检索提问式,输入计算机,浏览检索结果,调整、选出满意的结果,获取全文,查找有关肿瘤引起的贫血的非英文文献,确定检索词:肿瘤、贫血、English#1肿瘤/并发症#2贫血/病因学#3EnglishinLA(L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论