计算机文献检索策略.ppt_第1页
计算机文献检索策略.ppt_第2页
计算机文献检索策略.ppt_第3页
计算机文献检索策略.ppt_第4页
计算机文献检索策略.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节 计算机文献检索策略 n计算机文献信息检索包含制定检索表达式 、制定合理的检索策略、检索策略的调整 三个过程 n一、检索表达式及构成要素 n二、计算机检索策略的制定 n三、调整计算机检索策略 n检索表达式的基本含义:检索表达式是一 个既能反映检索课题内容、又能为计算机 识别的式子,是进行计算机文献信息检索 的依据 n它主要是运用各种逻运算符号、逻辑位置 符号及逻辑限制符号,把检索词连接组配 起来,确定检索词之间的关系,准确表达 检索课题的内容 n构成检索表达式的基本要素 n(一)检索词 n(二)运算符 n检索词:表达检索课题主题概念的名词术 语,包括叙词和自由词。叙词是规范词, 大型数据库都有自己专用的词表,检索者 可以从选择合适的词进行检索。 n关键词:是未经过规范化的人工语言,往 往是各学科通用的专业名词术语、惯用语 及新出现的专有名词,所以在检索时应从 有关专业文献或专业词典中选取关键词。 n构成检索表达式的基本要素 n(一)检索词 n(二)运算符 n1.布尔逻辑算符 n常用的布尔逻辑算符有三种,分别是逻辑 或OR,逻辑与AND,逻辑非NOT。下面 分别简释它们各自的含义与用法。 n(1)逻辑或“OR” n逻辑或“OR”可以扩大信息的检索范围,使 用它相当于增加检索词主题的同义词与近 义词,能提高检索的查全率。 n(2)逻辑与“AND” n逻辑与“AND”可以缩小信息的检索范围, 提高检索的查准率。 n(3)逻辑非“NOT” n逻辑非“NOT”可以用来排除不希望出现的 检索词,它与逻辑与“AND”的作用类似, 能够缩小命中信息的范围,提高检索的查 准率。 新浪的使用(/tools/help.html) 搜狐的使用(/help/jiqiao.htm#02) 百度的使用(/search/zhinan.html#n2) 雅虎的使用(/help.html) n2邻近检索 n位置检索也叫全文检索、邻近检索。所谓 全文检索,就是利用记录中的自然语言进 行检索,词与词之间的逻辑关系用位置算 符组配,对检索词之间的相对位置进行限 制。 n这是一种可以不依赖主题词表而直接使用 自由词进行检索的技术方法。不同的检索 系统其位置算符的表示方法不尽相同,美 国DIALOG 检索系统的位置算符的用法意 义如下: n(1)(W)With n(W)表示该算符两侧的检索词相邻,且两者 之间只允许只有一个空格或标点符号,不 允许有任何字母或词,顺序不能颠倒。(W) 也可以简写为( )。 n例如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。 nComputer( )aided( )design 可检索出含有 Computer aided design 的文献记录。 n(2) (nW)nWords n(nW)表示在此算符两侧的检索词之间最多 允许间隔n 个词(实词或虚词),且两者的相 对位置不能颠倒。 n例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献记录。 n(3) (N)Near n(N)表示该算符两侧的检索词相邻,但两者 的相对位置可以颠倒。 n例如:computer(N)network 可检出含有 computer network、network computer 形式 的文献记录。 n(4)(nN)nNear n(nN)表示此算符两侧的检索词之间允许间 隔最多n 个词,且两者的顺序可以颠倒。 n例如 computer(2N)system 可检出含有 computer system,computer code system, ncomputer aided design system,system using modern computer 等形式的文献记录 。 n(5)(S)Subfield n(S)表示其两侧的检索词必须是在文献记录 的同一子字段中,而不限定它们在该子字 段中的相对次序和相对位置的距离。在文 摘字段中,一个句子就是一个子字段。 n例如computer( )control(s)system 可检出文 摘中含有“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记 录。 n这样的文献记录也是可以被检索到的 “Design of a System for Data Acquisition and Computer Control of a Pulmonary Physiology Lab” n(6)(F)Field n(F)表示其两侧的检索词必须是在文献记录 的同一字段中,而它们在该字段中的相对 次序和相对位置的距离不限。 n例如:water( )pollution(F)control 表示在同 一个字段中(如篇名、文摘、叙词等)同时含 有water pollution 和control 的文献记录均可 检索出来。 n3截词检索 n截词检索是计算机检索系统中应用非常普 遍的一种技术。由于西文的构词特性,在 检索中经常会遇到名词的单复数形式不一致 ;同一个意思的词,英美拼法不一致;词 干加上不同性质的前缀和后缀就可以派生 出许多意义相近的词等等。 n所谓截词,就是指在检索词的适当位置截 断。不同的检索系统其截词检索的表示是 不同的。 n例如,美国Dialog 系统用“?”表示截词符。 有以下截词方式: n1) 后方截词 n后方截词,也称前方一致。它是将截词符 放在一串字符的后面,用以表示以相同字 符串开头,而结尾不同的所有词。 n后方截词又分为词尾的有限截断和词尾的 无限截断两种情况。 n(1)词尾的有限截断 n相同字符串后可能变化一个字符时,则在 其后使用一个“?” n例如用system? 可以查出sytem 和systems 的 文献。 n相同字符串后可能变化两个以上字符时, 则在其后连续使用若干个“?”代替可能变 化的字符。例如,?表示两个字符,?表 示三个字符,以此类推。 n(2)词尾的无限截断 n相同字符串后可能变化任何字符串时,则 在其后使用一个“*”。这种方法可以查找出 含有相同字符串的所有检索词。 n例如, comput* 可查出compute , computer ,computing,computation, computerisation 等等。 n2) 中间截词 n中间截词又称中间屏蔽, 是一种用截词符 屏蔽词中不同字符的方法。 n例如:“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 n截词符具有“OR”运算符的功能,能够扩大 检索范围,而且减少了输入检索词的时 间,节约了机时。 n4字段限制检索 n1)检索系统中的限制检索 n在检索系统中,使用缩小和限定检索范围 的方法称为限制检索。限定检索条件多种 多样,主要和常用的是字段限制。 n通常数据库中可供检索的字段分为主题字 段和非主题字段。其中,主题字段如题名 (Title)、叙词(Descriptor)、标识词( Identifier)、文摘(Abstract)等,非主题 字段如作者(Author)、文献类型( Document Type)、语种(Language)、 出版年份(Publication Year)等。 n2)搜索引擎中的限制检索 n搜索引擎中的字段检索多表现为前缀符限 制形式。 n其中,表示内容特征的主题字段有Title, Keywords,Subject,Summary等,表示外 部特征的非主题字段限制有image,text等 。 n此外,搜索引擎还提供了带有典型网络检 索特征的字段限制类型,如主机名限制( host),URL限制(url),E-mail限制( from),新闻组限制(newsgroups), Link限制(link),网址限制(site)等。 这些字段限定了检索词在记录中出现的位 置,用来控制检索结果的相关性。 n5短语检索 n短语用“”表示,检索出与“”内形式完全相同 的短语,以提高检索的精度和准确度,因 而也有人称之为“精确检索”(exact search )。 n6括号检索 n用于改变运算的先后次序,括号内的运算 优先进行。 n7自然语言检索 n即直接采用自然语言中的字、词、句进行 提问式检索,同一般口语一样。如“布什是 谁?流星是什么?”这种基于自然语言的检 索方式又被称为“智能检索”(intelligent search),特别适合不太熟悉网络检索技术 的人士使用。支持自然语言检索的又中文 的baidu,英文的google、AltaVista、Excite 、Infoseek、HotBot、Ask Jeeves等。 n8多语种检索 n提供多种语言的检索环境供用户选择,系 统按用户选定的语种进行检索并反馈结果 ,支持多语种检索的如中文天网,英文 AltaVista等。 n9模糊检索 n又称概念检索。当我们输入一个检索词时 ,搜索引擎不仅反馈包括了该关键词的网 址,同时也发来与关键词意义相近的内容 。 n例如,我们查找“查询”一词时,模糊检索 会反馈来包含了“查询”、“查找”、“查一查” 、“寻找”、“搜索”等内容的网址。反馈网址 的排列,一般是完全符合关键词的在最前 边,其次是相近的。现在大多数搜索引擎 都有这种功能,只是模糊的程度不同。 n10区分大小写的检索 n输入时,如果用户的检索式用小写字母表 示,搜索工具既匹配大写又匹配小写,如 china,将检索出china(瓷器),China( 中国):但如果用大写字母表示,搜索工 具认为用户指定了只要大写,就只会查找 那些与用户键入的输入形式完全相同的结 果,如China,只检索出China。 n以上十种检索方法中,自然语言检索、模 糊检索、多语种检索和区分大小写的检索 是网络检索所特有的。 n在实际的检索中,往往将上述多种检索技 术混合使用,如要查找标题中含有“网络营 销”的资料,可以利用布尔逻辑运算符AND 、OR和截词检索、区分大小写检索,并将 检索结果限制在题名字段:ti:(Web OR Internet OR WWW) AND market*。 n一、检索表达式及构成要素 n二、计算机检索策略的制定 n三、调整计算机检索策略 n计算机检索策略,又称计算机检索提问逻 辑,是对计算机检索的全面规划。 n在操作上主要指检索系统和文献数据库的 选择和检索表达式的编制。 n1.分析检索课题,明确检索目的 n2.选择检索系统和文献数据库 n3.确定检索词及检索途径 n4.制定检索表达式和检索顺序 n一、检索表达式及构成要素 n二、计算机检索策略的制定 n三、调整计算机检索策略 n调整策略之间,首先分析造成检索结果不 理想的原因 n对于检索出文献数量较多的情况,应分析是 否可能是如下原因造成: na选用了多个多义性的检索词 nb 截词截得过短 nc输入的检索词 nd应该使用“与”(AND)却使用了“或”(OR ) ne优先运算符“()”使用错误 n对于检索出文献数量较少的情况,应分享 是否是如下原因造成: na 检索词输入错误 nb 遗漏重要的同义词或隐含概念 nc 检索词过于具体 nd 没有使用截词算符 ne位置算符和字段算符号使用的过多 nf使用过多的“与”(AND)算符 n针对上述原因,如果属于需要扩大检索范 围,提高检索结果检全率的,调整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论