2013信息检索课件第2章.ppt_第1页
2013信息检索课件第2章.ppt_第2页
2013信息检索课件第2章.ppt_第3页
2013信息检索课件第2章.ppt_第4页
2013信息检索课件第2章.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11 第二章第二章 文献信息检索文献信息检索 基础基础 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 目录 2.1信息资源检索技术信息资源检索技术 2.2信息资源检索的方法、途径和步骤信息资源检索的方法、途径和步骤 2.3信息资源检索效果的评价信息资源检索效果的评价 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1信息资源检索技术信息资源检索技术 2.1.1 传统的信息资源检索技术 2.1.2 新型的网络资源检索技术 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 1 检索技术 检索技术是指应用于信息检索过程的原理、技术、方法、 策略的总称,是检索系统为了提高检索效率,从概念相关 性、位置相关性等方面对检索提问进行组配、加权、扩展 、截词、邻近、限定的比较和运算处理技术。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 2传统检索技术 (1)布尔检索 布尔检索(boolean retrieval)是用布尔逻辑算符将检 索词、短语或代码进行逻辑组配的一种技术,也是目前最 常用的一种检索技术。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 逻辑“与” 具有概念交叉或概念限定关系的组配,用“*”或“AND”算 符表示(少数工具用“+”或空格表示)。 检索词A和检索词B用“与”组配,检索式为: A AND B,或者 A * B 它表示检出同时含有A、B两个检索词的记录。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 逻辑“或” 逻辑“或”是一种具有概念并列关系的组配,用“+”或 “OR”算符表示(也有用“| ”或“/”表示)。 检索词A和检索词B用“或”组配,检索式为: A OR B,或者 AB 它表示检出所有含有A词或者B词的记录。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 逻辑“非” 逻辑“非”是一种具有概念排除关系的组配,用“”或 “NOT”算符表示。 检索词A和检索词B用“非”组配,检索式为: A Not B,或者 A-B 它表示检出含有A词,但同时不含B词的记录。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 布尔逻辑运算符优先级 布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时:NOT AND OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式: (唐 OR 宋)AND 诗歌; 唐 AND 诗歌 OR 宋 AND 诗歌 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (2)截词检索 截词检索(truncation retrieval)是指在检索词的适当 位置截断,用截断的词的一个局部进行的检索。由于检索 词与数据库所存储信息字符是部分一致性匹配,所以又称 部分一致检索。 由于西文的构词特性:单复数形式不一致、英美拼写不一 致 、词干前缀、词干后缀。 检索时,计算机会将所有含有相同部分标识的记录全部检 索出来。在西文检索系统中,使用截词符处理自由词,对 提高查全率的效果非常显著。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (3)位置检索 位置检索,也称临近检索,主要是通过位置运算符来规定和 限制检索词之间的相对位置或者检索词在记录中的特定位 置来实施检索的技术。位置检索主要有以下几个级别。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (3)位置检索 (1)词位置检索 词位置检索主要是利用位置逻辑算符限定检索 词之间的位置,来反映要检索的信息概念。常用的词位置 算符有(W)与(nW)、(N)与(nN)以及(X)与(nX )3类。 (W)算符与(nW)算符 例如, “VISUAL(W)FOXPRO”可以检出 “VISUALFOXPRO”或“VISUAL FOXPRO”; “control( 1W)system”可以检出含有“control system”、 “control of system”和“control in system”文献 。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (3)位置检索 (1)词位置检索 (N)算符与(nN)算符 例如,“control(1N)system”不仅可以检 出含有“control system”、“control of system”和 “control in system”的文献,还可以检出含有 “system of control”、“system without control” 等的文献。 (X)算符与(nX)算符 例如,“side(1X)side”可以检索到含有 “side by side”的文献。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (3) 位置检索 (2)同句检索 同句检索要求参加检索运算的2个词必须在同一自然 句或者全文数据库的一个段落中出现,检索词的先后顺序 和插入词的个数不受限制。同句检索中用到的位置算符主 要是(S),是“Sentence”或“subfield”的缩写。 例如,“electronic(S)optical”,可以检索到题名为 “Cutting and Polishing Optical and Electronic Materials”的 文献。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (3) 位置检索 (3)同字段检索 同字段检索是对同句检索条件的进一步放宽,表示在此运算符两 侧的检索词必须同时出现在文献记录的同一字段内,其运算符有两种 。 (F)算符 例如,“information(F)retrieval/DE,TI”表示“information” 和“retrieval”两个词必须同时出现在叙词字段或篇名字段内。 (L)算符 例如,“information system(L)system design”,表示“system design”是“information system”的下一级主题词。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (4) 限制检索 (1)字段检索 数据库记录是由若干个字段组成的,字段检索是把检索词 限定在数据库记录的特定字段中的检索方法,如果记录的相应字段中 含有输入的检索词则为命中记录。 数据库中提供的可供检索的字段通常分为基本索引字段和 辅助索引字段2大类。基本索引字段表示文献的内容特征,有TI(篇 名、题目)、AB(摘要)、DE(叙词)、ID(自由标引词)等;辅助 索引字段表示文献的外部特征,有AU(作者)、CS(作者单位)、JN (刊物名称)、PY(出版年份)、LA(语言)等。在检索提问式中, 可以利用后缀符“/”对基本索引字段进行限制,利用前缀符“=”对 辅助索引字段加以限制。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (4) 限制检索 (1)字段检索 例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表达的检索要求是,查找 2006年出版的关于信息检索或数字图书馆方面的文献,并 要求“information retrieval”一词在命中文献的 “TI”(篇名)字段中出现,“digital library”一词 在“DE”(叙词)字段中出现。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 (4) 限制检索 (2)限制符检索 限制符检索是使用AU(作者)、CS(作者单位)、JN(刊 物名称)、PY(出版年份)、LA(语言)等限制符号从文献的外部特 征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符 相同,而它的作用则与前缀符相同。 例如,“aircraft/TI,PAT”表示的检索结果只要 “aircraft”这一主题的专利文献。 限制符还可以与前、后缀符同时使用,这时字段代码与限 制符之间的关系是逻辑“与”,即最终的检索结果应同时满足字段检 索和限制符检索两方面的要求。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.2 新型的网络资源检索技 术 1 全文检索技术 全文检索技术是以信息资料的内容,如文字、声音、图像等为 主要的处理对象,而不是以其外部特征来实现信息检索的技术。全文 检索技术通过提供快捷的数据管理工具和强大的数据查询手段,为人 们快速方便地获取文献原文而非文献线索提供了一条有效途径。目前 ,全文检索技术已经从最初的字符串匹配层面演进到能对超大文本、 语音、图像、视频影响等非结构化数据进行综合处理,成为全文数据 库系统和搜索引擎的核心支撑技术。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 2 多媒体信息检索技术 基于内容的多媒体信息检索技术是对图像、音频、 视频等媒体对象进行内容语义的分析和特征的提取,并基 于这些特征进行相似性匹配的检索技术,其核心技术是对 多媒体信息内容特征的识别和描述技术、对特征的相似性 匹配技术。目前多媒体技术按照检索内容可分为图像检索 技术、视频检索技术和音频检索技术3种。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 3 智能信息检索技术 智能检索技术就是采用人工智能计算机技术进行信息 检索的技术,它可以模拟人脑的思维方式,分析用户以自 然语言表达的检索请求,自动形成检索策略进行智能、快 速、高效的信息检索。它包含了自然语言理解技术、智能 代理技术、机器学习、知识发现等技术。 (1)自然语言理解技术 (2)智能代理技术 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 4 数据挖掘技术 数据挖掘技术是指从大型数据库或者数据仓 库中提取人们感兴趣的知识,这些知识是隐含的 、事先未知的潜在有用信息,提取的知识一般可 表示为概念、规则、规律、模式等形式,用于信 息管理、查询优化、决策支持、过程控制等。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.1.1 传统的信息资源检索技术 5 自动分类和标引技术 (1)自动标引技术 自动标引技术是指由计算机代理人工完成文本的主题内容 分析,并赋予词语标识的技术,可分为抽词标引和赋词标引2种。 (2)自动分类技术 自动分类技术是指利用计算机信息技术对信息按照一定的 分类体系或标准进行自动分类和标记,将具有相同或相近特征的信息 对象集中在一起,而将不同特征者归于不同的类别中,形成不同的类 目,从而实现快速检索。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2 信息资源检索的方法、途径 和步骤 2.2.1 信息资源检索方法 2 .2.2 信息资源检索途径 2.2.3 计算机信息检索策略的制定与实施 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.1 信息资源检索方法 1. 常规法 常规法也称工具法,是目前最为常用的一种 信息资源检索方法。它是指利用文摘、题录、索 引等各类检索工具或者各类计算机检索系统,直 接查找文献信息的方法。常规法在实际检索应用 过程中,依据课题对时限的要求,又可分为顺查 、倒查、抽查3种情况。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.1 信息资源检索方法 是针对检索课题的 特点,选择与该课 题的有关的文献信 息最可能出现或最 多出现的时间段, 进行重点检索的方 法。 抽查法 是一种依照时间顺序 由近及远地进行查找 ,直到满足信息检索 的需要为止。此法多 用于检索新课题或有 新内容的老课题,或 对某课题研究已有一 定基础,需要了解其 最新研究动态的检索 课题。 倒查法 是一种依照时间顺 序,按照检索课题 涉及的起始年代, 由远及近地查找信 息的方法。顺差法 适合于检索理论性 或学术性的课题。 顺差法 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.1 信息资源检索方法 2. 回溯法 回溯法又称引文法,是指在已获得所 需文献的基础上,再利用文献末尾所附的 参考文献、相关书目、推荐文章和引文注 释作为检索入口,依据文献之间的引证和 被引证关系,揭示了文献之间的某种内在 联系,进而查找到更多的相关文献的方法 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.1 信息资源检索方法 综合法 综合法也称交替法或循环法,是综合常规法 和回溯法的检索方法,即在查找文献信息时,既 利用一般的检索途径,又利用原始文献后所附的 参考引用文献作为检索入口,分阶段按周期地交 替使用两种方法。综合法对检索效率的提高很有 帮助。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.2 信息资源检索途径 信息检索的实施必须依赖于检索前已经掌握的信息线索,现 有的检索系统或检索工具的情况以及选择合适的检索途径 。检索途径(Retrieval Approach)主要是指信息检索的角 度和渠道。选择检索途径的依据有两点:一是检索者已经 掌握的信息线索;二是选用的检索系统可以提供的检索途 径。 根据检索系统对文献特征的揭示主要分文献外部特征 和文献内容特征2种,因此,信息检索途径可分为内容特 征检索途径和外部特征检索途径。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.2 信息资源检索途径 1. 内容特征检索途径 (1)分类途径 分类途径是按信息内容,利用分类检索语言 实施检索的途径。分类检索是从文献内容所属的 学科类别来检索,它依据的是一个可参照的分类 体系。其基本过程为:首先分析提问的主题概念 ,选择能够表达这些概念的分类类目(包括类名 和类号),然后按照分类类目的类号或字顺,从 分类体系中进行查找,进而得到所需的文献信息 。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.2 信息资源检索途径 (2)主题途径 主题途径是按信息内容,利用主题检 索语言实施检索的途径。主题途径的实施 需要使用各种主题词索引,如主题索引、 关键词索引、叙词索引等。其基本过程为 :首先分析提问的主题概念,选择能够表 达这些概念的主题词。然后按照主题词的 字顺,从主题词索引中进行查找,进而得 到所需要的文献信息。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.2 信息资源检索途径 2. 外部特征检索途径 (1)题名途径 按照已知的文献的题名进行文献信息检索的途径。文献题名主要 是指书名、篇名、刊名等。题名检索途径符合读者的检索习惯,对已 确知名称的文献,使用题名途径直接查找最为便捷,可以快速准确地 获得所需文献。 (2)作者途径 作者途径是按已知的文献责任者的名称检索文献信息的途径。文 献责任者包括个人作者责任者、团体责任者、编者、专利权人等。作 者途径可以系统地发现和掌握同一作者名称下的学科内容相近或有内 在联系的文献,有利于系统研究某一方面的问题或某一著者的全部著 作和学术思想,在一定程度上满足了族性检索的要求。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.2 信息资源检索途径 2. 外部特征检索途径 (3)代码途径 代码途径是指利用有些文献所具有的独特的编序号码或标识号码 ,如专利号、标准号,索书号等,来查找文献相关信息的检索途径。 利用代码途径检索文献信息简便、快捷,但人们难于准确理解代码的 含义和具体文献的代码特点,此方法的局限性很大。 (4)引文途径 使用引文途径进行信息检索采用2种操作方法:一是通过被引用文 献,即来源文献,来查找引用文献;二是通过引用文献,直接利用文 献结尾所附的参考文献,查找被引用文献。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.3 计算机信息检索策略的制定与 实施 1. 计算机信息检索策略的含义 狭义上的信息检索策略是指检索表达式(检索提问式)的构造, 即运用检索系统特定的检索技术,确定检索词之间的逻辑关系,形成 表达用户信息需求的检索表达式(检索提问式)。 广义上的信息检索策略是指在分析检索课题的实质内容、明确检 索目标的基础上,选择检索系统和检索工具,明确检索途径和检索方 法,确定检索词之间的逻辑关系以及查找步骤最佳方案的一系列科学 安排。 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.3 计算机信息检索策略的制定与 实施 2. 计算机信息检索策略的制定与实施 检索策略的构造涉及多方面的知识和技术。 检索者只有了解各个检索系统的特性和功能,熟 悉系统数据库的结构和内容、特定的文献标引规 则、检索方法和检索技术,才能制定一个科学合 理的检索策略。计算机信息检索策略的制定与实 施,要在进行充分的检索课题分析的前提下进行 2.2.3 计算机信息检索策略的制定与 实施 2.2.3 计算机信息检索策略的制定与 实施 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.2.3 计算机信息检索策略的制定与实施 计算机检索步骤 修改检索策略 构造检索表达式 实施检索策略 确定检索词 选择检索系统 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.3信息资源检索效果的评价信息资源检索效果的评价 2.3.1信息资源检索效果的评价 2.3.2信息检索的意义 单击此处编辑母版标题样式 单击此处编辑母版文本样式 第二级 第三级 第四级 第五级 2011-11-25 LOGO 2.3.2信息检索效果的评价 1. 检索效果的评价指标 目前采用最为普遍的检索效果量化评价指标包括:查全率( Recall Factor,R)、查准率(Pertinence Factor,P) 、漏检率(Omission Factor,O)、误检率(Noise Factor,N)等。 查全率是对所需信息被检出程度的量化,用来表示信息系统 能满足用户需求的完备程度,可以用检索文献中合乎需要 的文献数量占检索系统中存在的合乎需要的文献总量的比 率来表示; 查准率是衡量信息系统拒绝非相关信息的能力的量度,可以 用检出文献中合乎需要的文献数量占被检出文献总量的比 率来表示; 查全率的误差是漏检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论