《论文7检索技术、检索策 略与检索评价(定稿)》.doc_第1页
《论文7检索技术、检索策 略与检索评价(定稿)》.doc_第2页
《论文7检索技术、检索策 略与检索评价(定稿)》.doc_第3页
《论文7检索技术、检索策 略与检索评价(定稿)》.doc_第4页
《论文7检索技术、检索策 略与检索评价(定稿)》.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文7检索技术、检索策 略与检索评价(定稿) 文献信息检索与利用课程教案授课时间第周星期第节星期第节课次6授课方式(请打)理论课讨论课实验课习题课课时安排2授课题目(教学章、节或主题)文献信息检索技术及方法步骤教学目的、要求使学生学习认识文献检索的基本原理,掌握检索方法、途径与检索的基本步骤。 教学重点及难点重点文献检索的方法步骤难点文献检索原理授课内容:第七讲检索技术与检索的策略一.计算机检索的主要技术逻辑组配检索将多个检索词用布尔运算符组合在一起来进行检索,我们称之为布尔逻辑检索。 是为处理多个不同的检索项,根据布尔逻辑代数的原理,使用特定的运算符将多个检索词、短语、代码进行合并处理,制定所需检索结果的命中条件与组配次序的技术方法。 布尔逻辑有三种方式:类型方式意思运算符检索表达式逻辑与并且、和*、AND A*B逻辑或或者+、OR A+B逻辑非不包含、排除、NOT AB逻辑与“A*B”表达式,假设A和B是两个检索词,则表示检索结果的文献中A与B的检索词必须同时存在。 有助于明确限定检索范围,提高查准率,增强专指性,又能防止漏检。 逻辑或“A+B”表达式,表示检索结果中A或B中任何一个词存在都可以,A和B同时存在也可以。 有助于提高查全率,同一关系词相关关系词宜采用。 逻辑非“A-B”表达式,表示检索结果中必定不包含某一检索词,排除包含特定检索词的记录信息。 表示检索的文献中A词必须存在,但不能有B。 “逻辑非”表达式,主要用于排除那些与检索意图无关的文献。 截词检索在词干的不同位置添加截词符,减少相同词干的检索词的输入数量,提高检索率。 截词符常用外文中用“*”或“?”,中文信息检索系统采用“前方一致、后方一致、前向匹配”等表示。 划为四种右有限截词、右截词、左截词、中间截词。 位置运算符检索因逻辑算符未对检索词之间的位置作出具体规定,造成检索系统在识别、理解检索式时有可能产生歧义,则用位置运算符来弥补,将检索词归于相同的字段子字段并体现限制它们之间的连接关系。 常用于外文数据库。 限制检索A年代时间B期刊范围重要期刊、全部期刊、核心期刊C词义同义词选择可提高检索概念的准确度。 二辅助性检索技术方法加权检索与聚类检索加权检索是某些检索系统中提供的一种定量的检索技术,对检索词给处权值以其大小体现重要程度。 聚类检索是通过一定的聚类方法,将相似度较高的文献集中在一起提供检索的技术。 如数据库中的引文检索、相关文献、跨库检索都属于聚类检索。 具体地讲“引文”就是从一部著作引用某一章节,对于该著作的或对于一项陈述或主张作为权威依据的某些资料的参考注释”。 这是一种简短的参考性的记载,用以指明引用的文字,公式,结论等的,或指明含有类似资料的出版物章、节。 由于科学劳动的继续性和科技论文的整体性,所以引文是普遍存在的。 通过对引文的研究能找到文献之间的内在联系,通过对引文的检索能获取同一问题的更多文献。 二次检索可反复进行,选择二次检索功能,改选检索词再次检索。 被检文献范围是在上一次检索出的结果中进行,起到了筛选文献缩小范围的作用。 题录标记检索是对检索出的文献题录进行筛选,再批量的阅读文摘选择所需文献的过程。 匹配检索前向检索,精确检索,模糊检索不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。 “完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。 如要查找作者“罗章”的文献,则必须准确输入“罗章”二字,如输入“罗”或“章罗”,则不能命中。 “前方一致”属于模糊检索的一种。 如以关键词为检索途径,输入“建筑?”,便可查到“建筑”、“建筑环境”、“建筑设计”、“建筑材料”、“建筑施工”等等。 (注意,匹配符通常用“?”,但也有的数据库用“*”)“任意一致”是模糊检索中的最为自由者。 如用篇名作为检索途径,输入“出版”,则可检出篇名中任一处含有“出版”一词的文献,如出版系统探讨、广东出版史概述、商务印书馆与近代教科书的出版等。 同义词库的使用该库把关键词中具有同义、近义关系以及中英文、大小写等不同形式的词,归并成同义词组。 检索时,只以同义词组中的任一词作为检索词,即可查出该库中此概念下的所有同义词,对同义词筛选后检索,以获得较高的命中率。 首先将辅助功能区的同义词库打钩选中,选择检索入口为关键词,输入检索词(如CAD),点击检索按钮后系统自动打开同义词库选择所要的同义词后单击确定按钮即可得检索结果利用索引工具索引是检索工具中的辅助性工具,利用各种专题索引,寻找到文摘或全文的线索去向。 三、数据库的检索方式不同数据库的检索方式是不同的,简单检索(快速检索),传统检索(专业分类导航检索),高级检索,分类检索,期刊检索,字段检索,全文检索,。 检索举例确定检索途径后,就可以在检索式输入窗口中输入检索表达式。 检索表达式可以是一个检索词或者是一个逻辑表达式。 简单的检索只要输入一个检索词即可,复杂的检索则需要输入检索表达式。 将多个检索词用布尔运算符组合在一起来进行检索,我们称之为布尔逻辑检索。 检索举例检索题为“检索有关新闻美学的文献”。 分析出检索词新闻,美学,新闻美学1单条件检索检索途径-题名,输入“新闻”或“美学”-命中文献太多,且有许多不是自己所要的。 2逻辑组配检索逻辑与,检索表达式A*B输入“新闻*美学”-检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。 输入“新闻美学”,只命中戈公振的新闻美学实践这样的文献,但漏检了新闻的美学属性、新闻标题中的美学这些文献。 如果用“新闻*美学”来进行检索,则三篇文献都检中。 逻辑或,检索表达式A+B举例查找“研究杜甫的文献”。 分析检索词杜甫,杜诗,李杜检索途径题名,输入“杜甫”-命中540篇。 但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。 逻辑非,检索表达式A-B举例检索题“合资企业的财务管理”检索词企业管理,合资企业,财务管理,国营企业管理,民营企业检索途径关键词检索式K=合资企业+财务管理(国营企业管理+民营企业)3.怎样构造检索式检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。 在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。 1.合理的检索提问式应达到以下两个基本要求 (1)能充分而准确地反映信息需求的内容。 (2)能适应所查数据库的索引体系、用词和匹配规则,即与数据库中的信息标识相匹配。 编制检索提问式时须注意的问题在构造检索提问式时,要弄清所使用的数据库的检索功能和所采用的操作算符。 检索词之间用“逻辑或”连接,可扩大检索式概念的外延,有利于提高检全率。 为提高检索速度,在使用布尔算符时,应把估计出现频率低的词放在“AND”的左边,把频率高的词放在“OR”的左边,同时使用“AND”和“OR”时,应把“OR”放在“AND”的左边。 综合利用各种算符,提高检索效率,应避免可能产生多种逻辑判断的组配。 可利用逻辑非“NOT”剔除不符合要求的信息,限制与用户提问不相关信息的检出。 检索提问式要精炼明了。 举例1查找有关高校文检课改革的文章,写出简要检索过程高级检索任意字段(高校+大学)*(文检+文献检索)*改革查询结果共找到387条举例2查找有关“企业资产重组中的财务或会计问题“的资料高级检索企业*资产重组*财务或者企业*资产重组*会计关键词命中4篇,题名命中2篇,中文摘要命中932篇,全文途径命中60291篇。 举例3第一部有声电影是什么时候第一次放映的?百度高级搜索输入:世界*第一部*有声电影,检索结果为唐璜1926年8月6日上映 四、关于逻辑算符的“优先级”问题当布尔运算符在一个检索式中连续出现时,它们的“级别”是不同的。 大部分数据库是这样规定的-优先级最高,*次之,+最低,括号内优先。 例如要查找研究唐宋诗歌的文献,可以用“(唐+宋)*诗”、“唐*诗+宋*诗”,而不能用“唐+宋*诗”。 “唐+宋*诗”查找的是含有“唐”的文献或者同时含有“宋”和“诗”的文献,这样就把涉及到的唐代、唐姓的文献都找出来了。 五常用的评价指标:查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 可用下式表示查全率=检出的相关文献量/检索系统中相关文献总量检准率是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 可用下式表示查准率检出的相关文献量/检出文献总量然而,由于许多因素的影响,在实际检索中,检全率和检准率是不可能达到100的,实践表明查全率和查准率之间存在互逆关系,即提高查全率会降低查准率,反之亦然。 例如数据库中有10万篇记录,其中有100篇相关文献记录,查到20篇文献记录,其中只有10篇记录是相关文献,即查全率1010010%查准率102050%信息检索效果就是利用检索系统进行检索服务时所获得的有效结果。 评价信息检索效果,目的是为了准确掌握检索系统的各种性能水平,分析影响检索效果的因素,调节检索策略,改进检索系统的性能,提高检索效果,满足用户信息检索的需求。 六影响检索效果的主要原因1.检索语言不能全面地显示文献主题概念之间的等级和相关关系,没有排除检索语言中的同义现象,造成同一主题文献分散而致漏检;检索系统收录文献不全,检索途径不齐全;文献的标引深度不够,前后不一致或遗漏了原文的重要概念或选词不当等;检索人员不具备选择检索词以表达文献主题的能力以及把选出的检索词逻辑地完整地组合在一起的能力等等。 我们可以把产生漏检和误检的原因分成主观和客观两个方面,客观方面是指检索工具,主观方面是指标引人员和检索人员,因此,从这两方面人手才能降低漏检率和误检率。 七调整检索策略,提高检索效果的措施1检索策略是为实现检索目标而制定的全盘计划或方案,是对查找文献所作出的科学安排。 如何制定和调整检索策略?其主要措施有1选择质量好的检索工具或检索系统。 既要注意选择质量较高的检索工具,又要选用适合检索课题需要的检索工具。 2准确使用检索语言。 所用检索语言应能准确表达情报需求,灵活运用泛指性较强和专指性较强的检索语言。 使用泛指性较强的检索语言(如上位类号、上位主题词)能提高检全率,但检准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)能提高检准率,但检全率下降。 3善于利用各种辅助索引。 一种检索工具通常有许多辅助索引,提供多种检索途径,应根据检索需要综合运用,选用相应的索引进行检索。 4通过扩检与缩检提高查准率与查全率。 根据检索课题的需要,适当调整对查全率和查准率的要求。 如申请专利、科技查新、立项等要求查全率高,不遗漏任何一篇重要文献,应选用泛指性的检索词来提高查全率。 而检索新的课题,要求查准率高,则要选用专指性的检索词提高查准率,特别是若干个检索词组配而成的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论