计算机信息检索理论.ppt_第1页
计算机信息检索理论.ppt_第2页
计算机信息检索理论.ppt_第3页
计算机信息检索理论.ppt_第4页
计算机信息检索理论.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息资源检索与利用 第二 部分,计算机信息检索,内容,1、计算机信息检索的基本理论 2、网络检索的基本知识 3、如何检索中外文数据库 中文主要数据库的使用方法 国外主要数据库的检索方法 4、信息检索与运用实例,一 概述,手工检索工具过去是检索文献的唯一途径 最早的印刷型检索工具距今已有100多年了,例如:美国工程索引(Ei)创刊于1884。手工检索工具经过多年发展体系已非常完善,这为以后的计算机检索奠定了基础。 计算机检索成为文献检索的主要途径 随着Internet的广泛应用以及计算机技术与存储技术发展,光盘数据库检索、联机数据库检索和网络信息检索是计算机检索的主要形式,网络检索成为信息检索的

2、重点。,一 概述,1、计算机信息检索的发展 经历了四个发展阶段: 脱机批处理检索(1954-1965) 联机检索(1965-1985) 光盘检索(1985-1991) 网络检索(1991-),一 概述,2、计算机信息检索含义及原理 含义: 广义的计算机信息检索实际上包括计算机信息的存储和计算机信息的检索两个相互依存的过程。 原理: 通过计算机作为工具,将信息的特征标识与用户的提问标识相匹配,从而来完成信息检索。,二 计算机检索系统构成,从整体上讲,计算机信息检索系统由硬件、软件和数据库三部分构成。,二 计算机检索系统构成,数据库是计算机信息检索系统的信息源和核心。他是以某种特定方式组织和存储数

3、据资料的仓库。 数据库的构成:数据库包含若干个文档,文档又有若干个记录构成,记录又由若干个字段组成。,三 计算机信息检索技术,计算机信息检索的过程实际上使检索词与标引词比较的过程。单个检索词比较简单,两个或两个以上的检索词则需要先根据检索课题的要求对检索词进行组配。基本的检索技术有逻辑检索、截词检索、邻近位置检索、限制 检索等。,三 计算机信息检索技术,1逻辑检索 逻辑检索是一种比较成熟、比较流行的检索技术,现代信息检索系统都支持这种技术。逻辑检索的基础是布尔逻辑运算,其关系符为:“与(AND)”、“或(OR)”、“非(NOT)”,此外还有大于、小于、等于、不等于等运算。,图中:A表示检索词1

4、命中文献 B表示检索词2命中文献 共同部分(斜线)表示逻辑式的命中文献,布尔逻辑检索,例如,要查找儿童教育( children education)方面的文献,检索逻辑式为: 儿童 并且 教育或儿童 AND 教育 “education*children”或者“education AND children”。 例如,要查找“汽车”方面的文献,检索逻辑式为:“car+automobile”或者“car OR automobile”。 例如,要查找有关能源( energy),但又不涉及核能( nuclear)方面的文献,检索逻辑式为: 能源 NOT 核能 “energy NOT nuclear”或者

5、“energy-nuclear”。,布尔逻辑检索,“逻辑与”,将会缩小检索范围,提高检索信息的查准率。 “逻辑或”,可扩大检索范围,能够提高检索信息的查全率。 “逻辑非”剔除了不需要的概念,可提高查准率,但有时影响查全率。,布尔逻辑检索,复杂逻辑提问举例: (A*B+C)*(D+E)+F 在一个检索式中如果含有两个以上的布尔逻辑符就要注意运算次序: ()NOTANDOR, 即先算括号内的逻辑关系,再依次算“非”、“与”、“或”关系。,布尔逻辑检索,三 计算机信息检索技术,2. 截词检索 截词符有一般用 “?”、“*” 1)按截断的位置分: 右截断 (前方一致) 左截断 (后方一致) 中间截 (

6、中间屏蔽): 例analys?s,检出含有analysis和analyses的文献 2)按截断的字符数量分: 有限截词: process? 检出 process、processes 无限截词:如prevent* 检出prevent,prevents,prevented,preventing,prevention,preventable,三 计算机信息检索技术,3. 位置检索 以DIALOG系统常用的一种位置运算符相邻位置算符为例: (W)“with” 例ice(w)cream (nW)“nwords” 例ice(3w)cream (N)Near 例ice(N)cream (nN)“nNear”

7、 例ice(4N)cream,三 计算机信息检索技术,4. 限制检索 限制检索通过限制检索范围,优化检索结果。 一般限制检索限制符可分为两类:后缀方式和前缀方式。 常用符号有:后缀方式 “/”或“in”, 前缀方式“=”、“”、“=”、“=” 例如:在DIALOG系统中,字段限制可分为两类:后缀限制符和前缀限制符。 前缀符用“=”表示 :AU=限查特定著者 后缀符用“/“表示 :/TI 限在题目中查 例如:computer/TI,AB,三 计算机信息检索技术,检索式编制实例: 课题(1):查英国和加拿大有关环境污染以及环境保护方面的文献 检索式: (England+Canada)*enviro

8、nment?*(pollut?十protect?) 或 (England+Canada)*environment*(pollution+protecttion) 课题(2):查王平和李楠两人合写的关于高层建筑设计与施工的文献 检索式:王平*李楠*高层建筑*(设计+施工),四 制定检索策略的步骤,检索策略就是在分析课题内容实质的基础上,选择检索系统、决定检索途径,确定检索词及其相互间的逻辑关系,且不断调整直至找出最佳实施方案的一系列科学措施。 检索策略的好坏对检索效果起着关键性的作用。,1、课题需求分析 (1)分析检索目的,制定检索目标 检索目的不同,检索目标也不同。只有明确了检索目的,才能正确

9、分析和判断检索策略执行的结果,得到满意的检索结果。 (2)分析检索课题,确定所涉及的学科范围和技术领域 一个课题可能涉及多个学科,从属于多个技术领域,只有针对学科范围和技术领域恰当地选择检索所用的数据库,才能得到相对准确而全面的检索结果。 (3)分析检索的要求,提高检索效率 根据检索具体要求, 选择需要检索文献的种类(专利、期刊、论文等)、时间范围和国家限制等,有针对性地进行检索。,第四节 检索策略的构造,2 、确定检索词 (1)找出课题夫所包含的显性的主题概念和隐性的主题概念。例:检索肺癌查吸烟 (2)找出核心概念,排除无关概念和重复概念。 例:“芸豆中天然色素的提取” 五个概念:芸豆、天然

10、、食用、色素、提取,只选取芸豆与色素。 (3)从待检数据库和检索工具的词表中选取规范化的词或词组。 例:艾滋病的规范词为获得性免疫缺陷综合症。 (4)选用同义词、近义词、相关词,上位词、下位词作为检索词。 例:检索彩色电视机用电视机。,四 制定检索策略的步骤,3、选择数据库和检索方式 (1)数据库的类型和所收录的文献内容是否满足检索需要。 (2)数据库的学科范围是否与检索课题的学科相吻合。 (3)数据库收录文献收录年限、更新周期、以及国别和语种是否满足检索要求。 (4)数据库提供检索方式是否满足检索课题的已知线索。,四 制定检索策略的步骤,四 制定检索策略的步骤,4、检索式的构造 在编制检索式

11、时,准确、合理地运用逻辑算符、字段符等检索技术是编制检索符的基本要求。 (1)检索式要简单明了,在能准确完整表达信息需求的基础上尽量简化。同时,应事先考虑到各种情况,多准备几个检索提问式,以便上机调试使用。 (2)避免可能产生多种逻辑判断的组配。如果产生两种及以上的含义,就应采取相应的措施加以限制。 (3)弄清所使用的数据库的检索功能和所采用的操作算符,不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。如截词符,PQDD中用“?,Ei中用“*”。,四 制定检索策略的步骤,5、检索效果的评价 两个重要的指标: 查全率 查全率P=a/(a+c)*100% 查准率 查准率R=a/(a+b) )*100% 注:a:检出的相关文献 b:检出的非相关文献 c:系统中未检出的相关文献,调整查全率和查准率的措施,分析误检漏检的原因 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论