计算机信息检索基础PPT课件.ppt_第1页
计算机信息检索基础PPT课件.ppt_第2页
计算机信息检索基础PPT课件.ppt_第3页
计算机信息检索基础PPT课件.ppt_第4页
计算机信息检索基础PPT课件.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,文献信息检索InformationRetrieval,第二讲计算机信息检索基础,.,2,“信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异每日新增网页近百万张最新统计:全球网站数量愈突破2.5亿个文献增速70年代每7年翻一番1999年每1年半翻一番2010年每10小时翻一番,.,3,利用计算机对信息和数据的高速处理能力来实现信息的存储与检索。,.,4,一、计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,.,5,计算机信息检索特点,检索速度快效率高,检索方便实现资源共享,检索内容新数量大,手段灵活途径多样,快速准确地获得结果,.,6,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,.,7,二、检索软件类型,检索软件即用户与系统对话的界面,可分为以下两种:,.,8,指令检索示例,肝肿瘤and(铜or铁)andpy=2005,.,9,菜单检索示例,.,10,三、数据库,数据库定义,数据库结构,数据库类型,.,11,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,.,12,2、数据库结构FrameworkofDatabase,.,13,字段名称及代码,基本字段:字段名称段码文摘(Abstracts)AB题目(TitleWord)TI主题词(Descriptor)DE标识词(Identifier)ID辅助字段:作者(Authors)AU作者单位(CorporateSource)CS刊名(JournalName)JN年代(PublicationYear)PY,.,14,3、数据库类型typesofdatabases,.,15,文献数据库,.,16,书目数据库(bibliographicdatabase),存储二次文献,其检索结果是文献的线索而非原文。如BKSY,.,17,全文数据库(fulltextdatabase),存储一次文献提供原始文献全文,.,18,数值数据库(numericdatabase),主要存储用数值表达的量化信息WHO的世界卫生统计数据,.,19,事实数据库(factdatabase),主要存储三次文献(what、where、when、who、why、how)类信息中国大百科全书MarriamWebsterDictionary提供的大不列颠百科全书免费查询,.,20,.,21,多媒体/超文本数据库multimedia/hypertextdatabase,同时存储声音、图像、文字等的超文本信息。,.,22,检索者如何让计算机实现自己的检索意图?,.,23,四、检索提问表达式,检索提问表达式检索词运算符,.,24,(一)、检索词,数码类2007(年)C19H33NO2HCL(分子式)343.94(分子量)D665.2(分类号)GNGY(基因代码)54-16-089(化学物质登记号),字词类获得性免疫缺陷综合征AIDS刘伟中国行政管理云南大学3一乙酰基一5一羟甲基,.,25,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,.,26,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明”的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同,.,27,布尔逻辑运算符BooleanOperators,.,28,逻辑与,AANDBA*B,缩小检索范围,提高专指性。,.,29,示例,糖尿病与高血压,AANDB,.,30,逻辑或,AORBA+B,扩大检索范围,提高查全率。,.,31,示例,政治、经济、宗教与伦理学的关系,A,C,B,(AORBORC)ANDD(A+B+C)*D,D,政治,经济,宗教,伦理学,.,32,逻辑非,ANOTBA-B,缩小检索范围,提高查准率。,.,33,示例,非共产主义人生观B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学B:共产主义人生观,AnotBA-B,.,34,逻辑运算次序,布尔逻辑运算次序布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为:非(NOT)与(AND)或(OR)当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。如:信息+情报NOT经济(信息+情报)NOT经济检索结果不同。,.,35,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌的相关性(不要cagA,vagA),(胃炎or胃溃疡or胃肿瘤)and(幽门螺杆菌or幽门弯曲杆菌)not(cagAorvagA),.,36,布尔逻辑的运算可以进行同类项的合并。如:A*B+A*CA*(B+C)然而,在使用布尔逻辑时,必须注意以下几条交换规则:A*B=B*AA+B=B+AA-BB-A,.,37,2.截词检索,以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:截词符?中截一字符,后截断n个字符如wom?n可以检索出:woman,women又如computer?以computer词干开头的词可以检索出:computer、computers、computing、computerize、computerise注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,.,38,词中替代:,示例1,.,39,示例2,词尾截断:,computer、computers、computing、computerize、computerise,Comput*,.,40,3、限制检索,在信息检索系统中,为了满足某种检索条件或达到某种精确程度,通常使用一些缩小或限定检索结果的方法。针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:/TI限在题目中查/AB限在文摘中查/DE限在叙词标引中查,前缀限制符例如:AU=限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代,.,41,网络信息检索中可对文献信息类型进行限制如在谷歌和百度搜索引擎中检索特定的文献类型:“报告filetype:pdf”检索指定网址内的信息:“报告site:”以后会看到一些数据库通常都有年代/类型等的选择,.,42,4.短语检索符(phrase),检索符“”用于检索固定短语或专有名词在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。,.,43,示例,“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛)“文科文献信息检索”,.,44,运算符小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、短语检索、字段检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,.,45,五检索策略,什么是检索策略在分析检索课题需求的基础上明确检索范围,选择检索途径,确定检索词和构建检索式的逻辑组配方法,通过试检或反馈进行调整,使检索结果体现用户目标的整个计划过程。,.,46,编制检索策略的过程,1、分析课题,明确目的2、选择检索系统和数据库3、确定检索词及检索途径4、制定提问检索式5、调整检索策略,.,47,1、分析课题,明确目的,分析检索课题的基本方法与技巧:(1)分析检索课题的内容实质,界定范围必须准确充分地表达检索课题所需的实质性内容,如果表示的概念过大,必然造成大量误检;而表达的概念过小,则会发生大量漏检。例如,查找“中国新农村建设”方面的文献通过分析研究,检索人员了解到该课题实质上是要查找有关“农村医疗保障制度”的参考文献,如果按原题检索,由于概念太大,必然会造成大量误检。,.,48,1、分析课题,明确目的,(2)找出隐性的主题概念,并将抽象的主题概念转化成具体的概念如:“城市生活垃圾的处理”:处理一词在这包含了具体的处理方式:回收、再生等如:“中国-东盟自由贸易区成员国经济政策协调研究”协调一词也可以通过调和协和、妥洽、融合、调解、协作等来表示,同时还可以利用(文莱、菲律宾、印度尼西亚、马来西亚、泰国、新加坡、越南、老挝、柬埔寨、缅甸)等相关概念来查找文献信息,对于英文文献的查找还要考虑到同义或词性变化的问题,如:coordinate、coordinated、coordinating、co-ordinated、conpatible、keeping、gowith等,.,49,1、分析课题,明确目的,()找出核心概念,排除无关概念和重复概念,简化逻辑关系以提高检索效果。如:排除课题中那些检索意义不大而且比较泛指的概念词,如“展望”、“发展趋势”、“现状”、“近况”、“生产”、“研究”、“应用”、“作用”、“方法”、“影响”、“效率”、“制造”、“结果”等等。例如:“干洗剂的近况及其使用”课题其核心概念是干洗剂,.,50,1、分析课题,明确目的,(4)明确概念之间的逻辑关系分析出单元概念后,还要搞清它们之间的逻辑关系,即不同概念之间是逻辑与的关系,而相同概念之间为逻辑或的关系。例:协作联盟联手联动协同开发,.,51,2、选择检索系统和数据库,应根据课题分析结果、信息需求的各项要求,综合考虑检索系统的特点、学科范围、文献类型、数据库的专业范围、存储年限、检索费用、使用方法以及现有的检索系统和数据库资源,选用合适的检索系统和数据库。,.,52,3、确定检索词及检索途径,检索词是构成检索式的基本单元,是文献记录中的文献特征标识,可以说反映文献内容特征的主题词、自由词等。也可以是反映文献外表特征的作者、篇名等。检索途径即检索入口,计算机检索系统的检索途径也可分为反映文献信息内容特征和反映文献信息外部特征的两类检索途径。选择检索途径是与确定检索词相对应的,确定了检索词也就意味着选择检索途径。,.,53,4、制定提问检索式,检索式是检索策略的具体表述,是通过逻辑算符、位置算符、截词算符等把表达主题概念的各检索单元组配连接起来既能表达主题内容,又能为机器识别和执行的命令形式,也是决定检索策略的质量和检索效果的重要因素。,.,54,制定提问检索式实例,检索“电子商务中的税法研究”方面的资料检索词:电子商务electroniccommerce,e-commerce税法、税收taxlaw检索表达式:电子商务*(税法+税收)(electronicwcommerceORe-commerce)ANDtaxwlaw,.,55,制定提问检索式实例分析,检索“中国城乡收入差距”方面的文献检索词:城乡、城镇、区域:RuralandUrbanAreas,dualeconomicstructure收入差距:IncomeGap,IncomeInequality,incomedisparity,incomeallocation检索式:(城乡+城镇+区域)*收入差距(“RuralandUrbanAreas”OR“dualeconomicstructure”)AND(incomeGapORincomeInequalityORincomedisparityORincomeallocation),.,56,制定提问检索式小结,在编制中,应注意以下几点:第一,要仔细斟酌检索词。选词太专指,查全率低;太泛指则不能准确地表达提问的实质,查准率低。第二,根据检索词之间的逻辑关系和词之间关系,用适当的运算符把检索词连接组配起来。第三,要了解所查数据库的索引体系和检索用词规则。第四,要符合检索系统的功能及限制条件的规定。,.,57,制定提问检索式小结,第五,要注意概念的分析。(算符使用正确但不能达到应有检索效果的例子很多。)例如,一个查找欧洲政府行政体制改革的题目,在列出检索词时就存在整体与部分的关系,如果用Europeandreformofadministrativesystem去检索,就会有大量文献漏检原因在于“欧洲”指一个整体地理概念,无法代表通常意义上的英、法等各发达国家,而后者其他国家政府体制改革的情况正是我们所需要的。因此,检索时应用:(EuropeorBritainorFranceorItalyorSpainor)andreformofadministrativesystem。,.,58,5、调整检索策略,检索式的制定常常不是一蹴而就的,需要在检索的过程中根据检索的结果不断进行修正,以达到较好的检索效果。包括调整检索词(从某些文献中获取相关的和隐含的词汇、词组)检索词间的组配调整,.,59,(1).检出的结果记录过多,可能的原因,解决的办法,换用表达准确的单义词,检索词有多义词现象,某些检索词与人名、地名、刊名雷同,截词时词干留得太短,检索词太少,无关概念没有排除,所选的概念范畴太大,原来限制较宽松,使用“非(NOT)”排除不相关概念,调整括号的位置,考虑采用字段限制、位置算符,增加相关概念,用“与(And)”连接,.,60,(2)检出的命中记录过少或为零,可能的原因,漏掉有关的同义词,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论