计算机信息检索的策略和方法_第1页
计算机信息检索的策略和方法_第2页
计算机信息检索的策略和方法_第3页
计算机信息检索的策略和方法_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.4 计算机信息检索的方法与策略2.4.1 计算机信息检索过程中的相关概念(1)数据库:数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合” 。通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。根据载体的不同,数据库可分为:联机数据库(online-database),光盘数据库(CD-ROM-database)和网络数据库(networked-database)三种。(2)检索界面:指在进行计算机检索时,检索者与计算机交互对话的界面。(3)检索方式:以检索过程的繁简程度或从何入手来区分的不同检索过程。在数据库中往往设有初级检索/简单检索 /基本检索(单途径检索) ;高级检索(多途径组合检索) ;专业检索(构造检索式) ;按类检索;按刊检索(刊物查询、刊名导航) ,篇目检索/论文查询;引文检索等方式供选择。(4)检索途径 :又叫检索入口、检索项,也有的数据库称之为检索字段。指输入的检索条件所查询的数据区域。不同数据库所设的途径并不相同。一般都设有篇名、作者、关键词、全文等途径。(5)检索词:检索词是检索者给出的字、词、字符或短语,用于查找含有它(它们)的记录。(6)排序:指检索结果输出时的排列顺序。输出结果按相关度排序时,则检索结果按检索词在检索字段中发现的频度由高到低依次排列。无相关度时,输出结果则按文献的出版日期逆序排列或随机排列。(7)二次检索:指在前一次检索结果的基础上,进一步限定检索条件所进行的再次检索。二次检索可以多次使用,逐步缩小检索范围。(8)限制条件:在检索对象的时间、文献类型、语种、同义词等方面做限制,与检索途径配合使用,以精化检索结果。(9)检索词匹配:指输入的检索词在数据库的可检索字段值中的位置关系。一般表示为前方一致、后方一致、完全一致(精确匹配) 、任意一致(模糊匹配)等。2.4.2 信息检索方法为了迅速、准确地查找所需要的文献信息,必须了解和掌握一定的检索方法。常用的检索方法有下列三种:(1)常用法利用检索工具或检索系统来查找文献的方法,这是文献检索中最常用的一种检索方法。常用法又可以分为顺查法、倒查法和抽查法三种。顺查法这是一种由远及近的检索方法, 从课题分析所得出的该课题研究的起始年代起, 由远及近地进行逐年查找。顺查法有较高的查全率。用顺查法逐年检出的文献可以在一定程度上反映出该课题研究发展的全过程。但是这种方法耗时费力, 效率较低。倒查法倒查法与顺查法正相反, 是利用选定的检索工具, 由近及远地逐年逐卷地进行查找。根据课题需求获取近期文献, 即以“查准”为主时, 最好采用倒查法。对于一些新的研究课题可以采用倒查法, 这样比顺查法节省时间, 效率较高。抽查法抽查法是在课题研究所处的发展高峰期的若干年中进行查找。抽查法往往是用来解决要求快速检索的课题。抽查法有较高的检索效率,但使用这种方法的前提是必须事先了解课题研究发展的历史背景。(2)回溯法回溯法又称追溯法、引文法,是利用文献末所附的参考文献或引用文献,由近及远地进行追踪查找。这种检索方法,可以从已经掌握的一篇最新文献入手,查找到它所引用的文献,再依据这些查出的文献,查找到它们所引用的文献。如此反复,即可获得大量的文献信息。通过追溯法所获得的文献,有助于对论文的主题背景和立论依据等内容有更深的理解。但由于是由近及远追溯,年代越远与原文关系越少。(3)循环法实际上就是常用法与回溯法的结合,即先利用检索工具查找出一批有用的文献,然后利用这些文献所附的参考文献或原文中涉及的重要线索进行追溯查找。通过对已有的相关文献的主题分析,提出新的检索项,再利用检索工具检索,如此循环(分段)使用常用法和追溯法进行检索,直到检索结果满足检索提问需要为止。在检索实践中,要根据检索课题的具体目的和要求,有针对性地采用适当的检索方法。2.4.3 检索策略的含义和作用信息需求产生之后,如何在茫茫的信息海洋中查找需要的信息?利用哪些信息检索系统?检索提问怎么设计?才能得到好的检索效果,信息检索策略对于解决这些问题具有重要的意义。所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划,其中关键在于构造能够确切表达信息需求的检索式。依据信息检索手段,可以分为手工检索策略和计算机检索策略。影响检索效果的因素有很多,但对于己经建成的信息检索系统而言,检索策略的优劣则是非常重要的因素。正确的检索策略会优化检索过程,有助于取得最佳的检索效果。2.4.4 检索表达式检索表达式是检索策略的具体体现之一,简称检索式。检索式一般由检索词和各种逻辑运算符组成。具体来说,它是用检索系统规定的各种算符将检索词之间的逻辑关系、位置关系等连接起来,构成的计算机可以识别和执行的检索命令式。检索式构造的优劣关系到检索策略的成败。检索表达式主要有逻辑表达式、截词表达式等,其中,最为常用的是逻辑表达式。2.4.4.1 逻辑表达式逻辑表达式是指利用布尔逻辑算符,对检索词的关系进行表达,又称布尔逻辑表达式。布尔逻辑是目前计算机检索最简单、最基本的匹配模式,也是计算机检索领域广泛采用的逻辑表达方式。布尔算符有“逻辑与” (“AND” ) 、 “逻辑或 ”(“OR ”) 、 “逻辑非”(“NOT ”)等。(1)逻辑“与”:表示它所连接的两个检索词必须同时出现在结果中,逻辑检索式可写为:A AND B。也有些数据库中用“*”或其他符号表示。例如,要查找关于“计算机检索”方面的信息,检索需求可以表述为:“计算机 AND 检索” 。目前,在一些数据库(如中国期刊网)中提供的二次检索,实质上也是逻辑“与”的运算。逻辑“与”的检索能增强检索的专指性,使检索范围缩小。A AND B A OR B A NOT B图 21 布尔逻辑算符示意图(2)逻辑“或”:表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件,检索式可写为:A OR B。在一些中文数据库中,用“+”表示逻辑“或” 。例如,想检索关于“计算机”的信息,可以表达为:计算机+电脑。逻辑“或”主要用于表达检索词的近义词、同义词、全称和缩写等,以便全面、完整地表达相关的概念。(3)逻辑“非”:表示它所连接的两个检索词中,应从第一个概念中排除第二个概念,检索式可写为:A NOT B。在一些中文数据库中用 “-”表示逻辑 “非” 。例如,想查找关于“研究生教育”的资料,但要求不包括在职研究生,可以将检索式写为:“(研究生*教育)- 在职研究生”或“研究生 -在职研究生*教育” 。逻辑 “非”表示具有不包含某种概念关系的一组组配,用来缩小检索范围。但在实际检索中要慎重使用。逻辑表达式在实际检索过程中,易于理解,便于使用。例如,想检索“中国高等教育的发展趋势” ,用逻辑表达式可写成:中国*高等教育*发展趋势。表示要求查找的文献的相应字段中同时包含“中国” 、 “高等教育” 、 “趋势”这三个词,而排列形式不限。以上逻辑运算符中,其运算优先级顺序为“非” 、 “与” 、 “或” ,但是可以用括号改变它们之间的运算顺序。还要注意的就是对于同一个逻辑运算式来说,不同的运算顺序有不同的运算结果。2.4.4.2 截词检索表达式截词检索表达式指在检索式中用专门符号(截词符号)表示检索词的某一部分,检索词允许有部分变化,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。采用截词检索表达式,既能防止漏检,又能节省时间,是提高检索效率的有力措施。不同检索系统采用的截词符不完全相同,一般常采用“?” 、 “*”等。截词方式有多种,按截断的位置来分,截词有前截断、中间截断、后截断等;按截断的字符数量来分,可分为有限截断和无限截断两种。后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如检索式“Comput?”将检出包含 Computer、Computing、Computed、Computerization 等词汇的结果。检索式“交际?” ,表示检索以“交际”打头的信息,可以检索出 “交际艺术” 、 “交际语言” 、 “交际行为”等。中间截词,允许检索词中间有若干变化形式,例如“wom * n”就可同时检索到含有woman 和 women 的结果。前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索 “*physics”就可检得包含 physics、astrophysics、biophysics、chemicophysics 等词的结果。截词检索表达式在使用时,一定要合理使用,截断部分要适当,不要截得太短,以免增加检索噪音,查出很多无关的文献。2.4.5 检索策略的构造步骤信息检索策略的构造一般包括分析用户信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。具体过程如下:分析信息需求,明确检索要求 选择检索系统 选择检索途径和方法,确定检索词或检索式 实施信息检索 获取原始文献。(1)分析信息需求(检索课题) ,明确检索要求这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。在分析课题的基础上,要清楚自己检索信息的类型,是查文献,或是查事实,还是查数据,以及要求查找文献信息的时间范围、学科范围等。通过以上分析,对检索需求作出全面的认识。(2)选择检索系统在手工检索中选择相应的工具书,在计算机检索中主要是利用数据库,包括搜索引擎。依据对信息需求的分析,选择与检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统收录的信息所涉及的学科领域、收录的文献信息类型、时间范围、检索途径和检索方法、检索费用等等。(3)选择检索途径和检索方法,确定检索词或检索式检索系统选定后,要对检索途径和方法做出判别和选择。大部分数据库可以提供篇名、作者、主题词、关键词以及全文检索等途径,而且还能利用多种途径的组配进行复合检索。检索词的确定是建立在检索课题概念分析的基础上,有时,检索课题会包含较复杂的主题内容,应明确组成课题内容的直接概念和相关概念,通过一定的逻辑组配或其它方式形成一定的复合概念或概念关系来表达信息需求。(4)实施信息检索确定了检索词或检索式之后,即可开始实质性检索。在实施检索的过程中根据已

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论