《信息检索基础》PPT课件.ppt_第1页
《信息检索基础》PPT课件.ppt_第2页
《信息检索基础》PPT课件.ppt_第3页
《信息检索基础》PPT课件.ppt_第4页
《信息检索基础》PPT课件.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章 信息检索基础,3.1 信息检索概述 3.2 信息检索技术 3.3 信息检索效果评价,从信息资源开发与利用的角度讲,信息检索是将信息按一定的方式组织和存储起来,并根据信息用户的需求找出有关信息的过程; 从信息用户的角度讲,信息检索就是从已存储的信息资源中检索出与用户提问的相关的文献、知识、事实、数据的逻辑运算和技术造作过程; 从社会角度讲,检索广泛存在于人们的日常生活行为当中,比如去实验室、图书馆、食堂、超市等找到个人所需要的物质,精神物品等。,3.1 信息检索概述,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富,人们必须通过一种科学的方法从取之不尽的信息源中区识别和获取所需要的那部分信息,这个过程就是检索(retrieval)。,3.1.1 信息检索的特征,有确定的目标 有一个可能的信息解的集合 有一定的线索可依 搜索的过程是针对一定的目标、遵循一定的线索,不断缩小范围的求解过程。,3.1.2 信息检索与查找,信息检索:从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。简单说就是从信息集合中迅速,准确地查找出所需信息的过程和方法。 信息集合:指有组织的信息资源总体,可以是:馆藏目录,数据库、(印本)检索工具等。,目录 索引 正文,信息检索与查字典类比:,快速定位,检索与查找的区别:,注意,如果不加可以区分,检索和查找就没有区别,3.1.3 信息检索原理,从技术上讲,信息检索是以信息的存储和检索之间的相符性为基础的,检索的全过程包括两个子系统:存储子系统和检索子系统。如下图为“信息检索原理图”。,3.1.4 信息检索的类型(如下图:信息检索分类示意图),2000以前有关某课题检索的期刊有多少?,黄河有多长?,2008奥运会竞技项目有多少?,注意:,数据检索和事实检索是要检索包含在文献中的具体情报,是确定的检索,可以直接利用;文献检索则是要检索出包含所需要情报的文献。,万方数据资源,3.1.5 信息检索的意义及步骤,意义: 避免重复研究,提高研究效率 节省查找资料时间,提高信息获取效率 获取新知识的捷径,培养创新型人才,步骤: 分析检索课题,明确信息需求 选择检索工具,了解检索系统 确定检索途径,选定检索方法 实施检索策略。浏览检索结果 调整检索策略,获得检索信息,信息检索步骤示意图,分析检索课题 1.主题内容 2.时间范围 3.信息类型 4.检索语种,主 题 概 念,确定检索途径 1.分类途径 2.主题途径 3.题名途径 4.著者途径 5.其它途径,选择检索方法 1.顺查法 2.倒查法 3.抽查法 4.追溯法 5.交替法,信 息 线 索,确定一次信息出处 1.缩写还原为全称 2.音译转换成原名 3.信息类型,选择检索工具 1.馆藏目录 2.图书馆 信息检索系统,获取一次信息,选择检索工具 1.索引、文摘 2. 全文数据库,3.1 信息检索概述 3.2 信息检索技术 3.3 信息检索效果评价,3.2 信息检索技术 检索技术是指利用光盘数据库、联机数据库、网络数据库、搜索引擎等进行信息检索时采用的相关技术,主要包括布尔检索、截词检索、字段检索、限制检索、临近检索等。,计算机信息检索系统的类型,检索系统存储的内容,文献信息检索系统 事实信息检索系统 数值信息检索系统 图像信息检索系统 多媒体信息检索系统,检索系统工作方式,脱机信息检索系统(20世纪5060年代) 联机信息检索系统(20世纪70年代 光盘信息检索系统(20世纪80年代 网络信息检索系统(20世纪90年代,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求和信息集合之间匹配的依据,所以信息检索技术是信息提问式的构造技术。 目前,计算机检索已经从基本的布尔逻辑检索、截词检索、临近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,3.2.1 选择合适的检索词,头脑风暴法: 在开始检索之前,写出一些详细描写主题的句子,用下划线将句子的关键词和短语划出来。 有了最初的关键词列表之后,要尽可能地列举出更多的关键词或短语。请记下你的任何想法,甚至是一些看上去还没有考虑成熟的想法,但有时是最有用的。,例如:飞机(飞行器包括飞机,飞机包括航天飞机),我们用下面这个例子来了解头脑风暴法如何帮助我们找到合适的检索词。,检索主题1:提高电子邮件的安全可以通过改善邮件程序、对邮件地址进行认证以提高用户的警惕性。,首先利用头脑风暴列出关键词和短语:电子邮件Email,e-mail,安全,认证,程序,警惕性。 短语:网络安全,电子邮件系统,软件。,检索词一旦确定,我们需要到哪里去检索呢?图书馆拥有的数据库是最好的选择,我校拥有的数据资源如万方数据资源,超星图书资源将在数据库检索这一讲中具体讲解。,检索主题2:通过对上网者的研究,发现长时间使用网络将影响人的心理健康。有调查显示,上网时间过长会导致人抑郁和孤独。 1,主题词:网络,internet,上网者,上网,影响,健康,沉溺,调查,抑郁,孤独。 2,找到主要关键词的同义词:(internet)网络,互联网,电脑,信息高速公路,在线,web,world wide web等 3,列出其他词的同义词或可替代词(如心理健康)高兴,愉悦,健康,沮丧,郁闷,孤独,孤单,难过,悲伤,情绪低落等。,3.2.2 布尔逻辑检索,AND(*)(&)(空格) A and B 逻辑与 A和B都为真时才为真,即A&B。逻辑含义用图表示为:,布尔逻辑检索组配是现行计算机检索的基本技术,主要通过布尔运算符“与(and),或(or),非(not)”进行检索。,OR(+)( ) A or B 逻辑或 A和B只要有一个为真,结果就为真,即A+B。逻辑含义用图表示为:,NOT(!) (-) A not B 逻辑非 A为真,B为假时,结果才为真,即A-B。逻辑含义用图表示为:,注意:,布尔运算符的优先次序为:notandor,分析实例:,郑州零售业的现状及发展趋势 郑州,零售业,现状,发展趋势 郑州and 零售业and(现状or发展趋势),3.2.3 截词检索,截词符就是用一个符号来代替单词的一部分或某个字母,截词符只用于英文检索。,按截词位置分:前截断,后截段,中截段 按截词字符数量分:非限制阶段,限制阶段,通常*表示截词符号,不同的系统有不同的用法。,后截断 例:comput* 表示其后可带任何字符,并且数量不限,如computer,computing等 fib?表示其后只能带两个字符,如fiber,fibre等。,中截断(通配符或屏蔽) 例:colo?R,可检索到包含color,colour等记录 Colo?1r,只能检索到包含colour的记录。,3.2.4 字段检索(range searching) 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码表示。,3.2.5 限制检索,针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如: /TI 限在题目中查 /AB 限在文摘中查 /DE 限在叙词标引中查,前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代,3.2.6 邻近检索,邻近检索用于规定检索词相互之间的邻近关系的检索,包括在记录中的顺序的相对位置。常用的位置算符有(W)、(nW)、(N)、(nN)、(F)、(S)等,各个检索系统中位置算符有所不同,具体查看其使用说明。,3.2.7 网络检索,短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索,3.2.8 其他表述:,二次检索/在结果中检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专业检索 还有什么检索?,第3章 信息检索基础,3.1 信息检索概述 3.2 信息检索技术 3.3 信息检索效果评价,3.3 信息检索效果评价,检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力。 也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。 包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(precision ratio),分别用 R 和 P 大写字母表示。,查全率(Recall Ratio): R= a/(a+c) * 100 % 查准率(Precision Ratio): P= a/(a+b) * 100 % 一系列的实验结果表明查全率与查准率之间存在互逆关系 。,小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索 网络信息检索 检索与查找的区别 信息检索的含义、原理、类型、意义 信息检索工具、方法、步骤 信息检索类型划分示意图 能通过“信息检索原理图”理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论