信息检索的基本技巧与方法ppt课件.ppt_第1页
信息检索的基本技巧与方法ppt课件.ppt_第2页
信息检索的基本技巧与方法ppt课件.ppt_第3页
信息检索的基本技巧与方法ppt课件.ppt_第4页
信息检索的基本技巧与方法ppt课件.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索的基本技巧与方法,“新的力量源泉不是少数人手中的金钱,而是多数人手中的信息。”-约翰.奈斯比特,主讲:何艳平Email:hyp,避免重复研究,促进科技创新(查全),信息检索在科研中的作用,节省科研时间,提高工作效率(查准),提高自身的信息素养,据美国科学基金会统计,一个科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%,计划思考占8%,实验研究占32%,书面总结占9%。由上述统计数字可以看出,科研人员花费在科技出版物上的时间为全部科研时间的60%。美国科学基金会NSF(NationalScienceFoundation):,信息检索在科研中的作用,文献的类型,基本内容,检索词的选择,信息检索基本技术,信息检索案例分析,信息检索步骤,5,文献的基本类型,按文献的载体形式按文献信息内容加工的深浅按文献的出版类型,文献的类型,根据载体材料、存储技术和传递方式的不同,美国斯坦福大学胡佛研究中心珍藏的蒋介石日记的缩微胶卷样品,零次文献是指未以公开形式进入社会流通使用的实验记录、会议记录、内部档案、论文草稿、设计草稿等。具有信息内容新颖、不公开交流、难以获得、不成熟、不定型的特点。一次文献(原始文献):是科研人员根据科研成果撰写的文献,具有创造性,新颖性,先进性,是文献检索的主要对象。,按加工深度划分,二次文献:(参考性文献)对一次文献进行加工,归纳,简化,将其组织成为系统的、便于查找的资料,也就是目录,题录,文摘,索引等检索工具,以提供一次文献的线索。,三次文献(工具书):是根据一定的需要与目的对一次文献、二次文献进行深度加工、综合浓缩,提炼出来的成果,如百科全书、词典、年鉴、手册等工具书。,最基本的信息源,零次文献一次文献,二次文献,收集、整理,三次文献,高度浓缩,综合分析,书目、题录索引、文摘,检索工具,检索利用对象检索工具,综述性学科总结:综述、评论、述评、进展、动态、教材等,参考工具书:百科全书、手册、年鉴、指南等,图2:文献结构示意图,特种文献,科技报告会议文献专利文献学位论文标准文献政府出版物产品样本技术档案等,特种文献通常指那些出版发行方式或获取途径比较特殊的文献。,检索词的定义与类型定义:表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择洽当与否,直接影响检索效果。类型:常用的检索词包括表示主题的检索词(主题词关键词标题词叙词),表示作者的检索词,表示分类的检索词和表示特殊意义的检索词(ISBN、ISSN、引文标引词等).,检索词的选择,检索词选择技巧,项目名称:乙型病毒性肝炎的中医药研究篇名=乙型病毒性肝炎*(中医药+中药)乙型病毒性肝炎的同义词:乙型肝炎乙肝HB篇名=(乙型病毒性肝炎+乙型肝炎+乙肝+HB)*(中医药+中药),1.不忘全称与简称,项目名称:电阻焊在汽车生产中的应用篇名=电阻焊*汽车*生产电阻焊F点焊缝焊凸焊对焊篇名=(电阻焊+点焊+缝焊+凸焊+对焊)*(汽车+机动车+客车+轿车)*生产,2.注意检索词的上下位类扩展,波尔兹曼54欧几里德290玻耳兹曼109欧几里得197玻尔兹曼214欧基里德5波耳兹曼12欧几理德3波尔茨曼2欧氏几何135Boltzmann659Euclid351注意:上例中用英文名检索出的中文文献最多!,3.注意外来词的译写变化,4.注意检索词的词义变化,汉词与英语等西方语言的词汇相比较:汉词的字与词界线比较模糊,一个字也许就是一个词,英语基本上没有这种现象。汉词无固定的词头、词尾和性、数的变化。而英语构词时这种情况很多。汉语的构词一般与语义有关,一个词后加上一个字就派生出另一个新的词,而英语的情况与此有很大的不同,5.少用或不用对课题意义不大的词,不用词义泛指过大的词,如展望、趋势、现状、近况、动态,应用、作用、利用、用途、用法,开发、研究、影响、效率。少用词义延伸过大的词,若一定要用,必须将它们尽可能全地用“或”组合起来,以免漏检,如:“制造”制备(preparation)、生产(manufacture)、合成(synthesis)、加工、工艺;“提炼”精炼、提取、回收、利用、萃取;“性能”Property(ies),Performance,Behavior。,6.多主题概念的课题应以“简”为主,如:课题“利用基因工程的手段提高植物中淀粉含量”,基因工程*淀粉基因*淀粉利用“最专指面优先”(MostSpecificFaceFirst)方法,7.少用无法定性定量的词,如:课题“冷、温复合挤压连续成形技术”(冷挤压or温挤压)and连续and成型(冷or温)and挤压and连续and成型冷=常温以下温=45C600Cor800C处理结果:取消:冷、温二词深化处理:增加:挤压对象的词。如塑料、金属等词或其他如有助于限制范围的有效实词如:挤压时用的润滑材料:石墨。,应以课题提供的关键词为参考,根据检索要求复核、筛选、补充、精炼检索用词。选定的检索词应符合检索主题;确认检索词是否为规范词;并应列出常用中外文同义词、缩写词,以及核心词的上下位类词。应充分利用词表、辞海、术语标准、词典等工具书,以及从已检出的文献中,扩展检索用词。,小结:,信息检索的基本技术,查全率与查准率,查全率,指检出的相关文献量与检索系统中的相关文献总量之比,查准率,指检出的相关文献量和检出的文献总量之比,布尔逻辑检索通配符与截词符位置算符字段限制检索,常用信息检索技术,指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。,I.布尔逻辑检索(逻辑组配检索Booleanlogical),逻辑与,AND,逻辑或,OR,逻辑非,NOT,三种类型,运算符:AND或*检索式:AANDB或A*B含义:检出的信息中必须同时含有“A”和“B”两个检索词。提高检准率,增强检索专指性。,A,B,逻辑“与”,如:检索“汇率风险管理”方面的文献,运算符:OR或+检索式:AORB或A+B含义:数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。提高检全率,扩大检索范围如:“微机+电脑+计算机”“微机or电脑or计算机”,A,B,逻辑“或”,运算符:NOT或检索式:ANOTB或AB在含检索词A的记录中,去掉含检索词B的记录例如:“经济危机”亚洲,A,B,逻辑“非”,II.通配符与截词符,截词检索是在词干的不同位置添加截词符“?”、“*”或“$”,以此代表词的可变部位,以检索一组概念相关或同一词根的词,从而减少相同词干的检索词的输入数量,提高检全率的一种常用检索方法。,提高查全率防止漏检的有力手段,由于西文的构词特性:单复数形式不一致、英美拼写不一致、词干前缀、词干后缀。,前截断中截断后截断,按截词的位置划分,按截词的数量划分:,有限截断无限截断,注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。,前截段,表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信息,即为命中信息。,如:检索式:?computer,中间截段,中间截词是在一词中间出现若干个截词符号,表示可插入若干个字符,只允许有限截词。,如:检索式:analy?er,2019/12/15,35,可编辑,37,例如:检索式:comput?,后截段,是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。,38,有限截段,放在词中间或末尾,限制被截断的字符数量,一个符号表示一个字符。,例如:检索式:educat?表示截断处有0-2个字母变化,可检出educate、educated、educator,例如:检索式:comput*,无限截词,放在词的末尾,不限制被截断的字符数量,一个符号表示任意多个字符。,检索字段符(字段代码)是对检索词出现的字段范围(检索点)进行限定,执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。,常见的检索字段:题名(Title,TI)著者(Author,AU)文摘(Abstract,AB)关键词(Keyword,KW)文献类型(DocumentType,DT)主题词(DE)刊名(Journal,JN)语种(Language,LA)全文(Full-text)等,IV、限制检索,如:“TI”表示Title(篇名)“AB”表示Abstract(文摘)“KY”表示keyword(关键词)“electronti”“electronti,ab”,后缀式,后缀式是将字段代码放在检索词之后,并用“”号或“in”、或“within”连接,字段代码符号:前缀式与后缀式,前缀式是将前缀代码放在检索词之前,用=号连接,常见的前缀代码“:”、“=”等,前缀式,如:查找李光耀发表在湖南大学学报上的文献AU=李光耀*JN=湖南大学学报,检索式:(minicomputer/kwORpersonalcomputer/TI)ANDPY=2008ANDLA=English,举例,这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的关键词字段,“个人电脑”一词在命中文献的题名字段出现。,在互联网搜索引擎中,限定字段也是常用的语法。例如,“filetype:”表示在某种文件类型(如doc、pdf)中查找资料。详细的介绍请参见搜索引擎部分。,V.词组检索(精确匹配和模糊检索),不同的数据库,检索途径设定的检索规则有所不同.中文数据库中“任意一致”、“模糊检索”、“前方一致”类似外文数据库中的截词检索;”完全一致”、“精确匹配”类似于词组检索。,“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。一般在使用网上搜索引擎进行检索时,可以用双引号“”,把输入的检索词括起来,就可以达到“完全一致”的检索效果。,嵌套检索技术大小写敏感禁用词扩检缩检,包括介词、冠词、代词、连接词、某些形容词或副词等,如a、and、for、in、she、should、the、well、only,其它检索技术,优先级运算:()NOTANDOR,学习目标掌握文献信息检索的基本步骤,并能运用于实践。,文献信息检索的基本步骤,文献信息检索的基本步骤,图3:文献信息检索分析示意图,课题分析,选择检索系统与检索手段,确定检索途径与拟定检索式,实施试检索,检索结果的评价与获取原始文献,确定检索方法:手工检索?计算机检索?选择信息源(检索系统),查找文献,做好记录,进行再分析,再分析的过程,课题的专业、主题词;所需信息的类型(数据?事实)、时间范围、语种范围、检索目的等,主题途径?分类途径?著者途径?书名途径?布尔逻辑关系,信息检索步骤,主题分析和检索目的信息类型:需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?时间范围:需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?语种范围,第一步:分析研究课题,明确检索要求,检索误区1过分依赖搜索引擎。检索误区2忽略摘要数据库。,第二步:选择检索系统,检索文献目前来说最主要的来源还应是专业数据库,即正规的出版物上发表的文献。原则是:以商业数据库为主,搜索引擎和网上其他的免费资源作补充,先找到文章线索再根据线索查找印刷版的全文是一项不错的组合。,第三步:提炼检索词,制定检索式,1.切忌把整个题名输入到检索框中。如:网络数据库的安全性研究,提练检索词遵循“五步法”:切分、删除、替补、组合与增加,第三步:提炼检索词,制定检索式,第三步:提炼检索词,制定检索式,第三步:提炼检索词,制定检索式,第三步:提炼检索词,制定检索式,检索式:,检索式:,特点:思路清晰,检索全面适用:每个检索词的专指度都不太高,都可检索出较多的文献。,第三步:提炼检索词,制定检索式,第四步:试检索,再分析,再检索第五步:检索结果的评价与获取原始文献,计算机信息检索的策略,成功!,例如:有关“企业知识产权研究”检索式检索结果(*表示AND,+表示OR,限定篇名字段)(2004-2006)1.企业知识产权191篇(准确度最高漏检大)2.企业*知识产权404篇(漏检率较高)3.(企业+集团+公司)*知识产权466篇(适合综述性文献)4.(企业+集团+公司)*(知识产权+专利权+商标权+著作权+名称权)520篇(查全率查准率较高)5.(企业+集团+公司)*(知识产权+专利权)137篇(缩小范围效果最佳),信息检索案例分析,1.查找课题“乙型病毒性肝炎的中医药研究”相关文献,请列出最佳检索式。,检索式1:篇名=乙型病毒性肝炎*(中医药+中药)分析:乙型病毒性肝炎的同义词:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论