




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
科技信息检索,第2章 信息检索原理 及检索技术,第2章 信息检索原理及检索技术,2.1 信息检索概述 2.2 信息检索原理 2.3 信息检索方法 2.4 信息检索技术,2.1 信息检索概述,2.1.1信息检索的含义 2.1.2信息检索的实质 2.1.3信息检索的类型和特点,2.1.1 信息检索的含义,信息检索通常是指从任何方式组成的信息集合中,查找特定用户在特定时间和条件下所需信息的方法与过程。因此,完整的信息检索应包括以下两个方面: . 信息标引和存储过程 . 信息的检索过程,2.1.2 信息检索的实质,将描述特定用户所需信息的提问特 征,与信息存储的检索标识进行异同 的比较,从中找出与提问特征一致或 基本一致的信息。提问特征是指从欲 检索课题中选择出能代表信息需求的 主题词、关键词或分类号等。,示 例 一,研究课题名称 计算机辅助工艺设计系统 提问特征 1.计算机 2.辅助工艺 3.设计系统,2.1.3 信息检索的类型和特点,. 书目信息检索 . 全文信息检索 . 数据信息检索 . 事实信息检索 5. 小结,1.书目信息检索,以标题、作者、原文来源、摘要及收藏地 点为检索对象,是一种相关性检索。 特点:检索结果不直接解答课题用户提出 的技术问题,只提供与之相关的线索。 一般以目录、索引、文摘为检索工具。 例如:查找有关“复杂环境下机器人研究”方面的国内外信息有哪些? 检索工具: 中文科技期刊数据库、EI、SCI 等。,2.全文信息检索,以论文或专利说明书的全文为检索对象, 也是相关性检索。 特点:书目信息检索基础上更深层次的内容检索 例如:检索由陆小龙,赵世平,廖俊必,曹志 华撰写的,发表在四川大学学报(工程科学版),2010,(6)“电力铁塔攀爬机器人夹持机构设计与分析”一文 检索工具:中国期刊全文数据库,3.数据信息检索,以具有数量性质并以数值形式表示的数据 为检索对象,是一种确定性检索。 特点:检索的结果是经过测试和评价过的 各种数据,可用于比较分析和定量分析。 一般以数据大全、手册、年鉴等为检索工具。 例如:2010年全国行政区划数据? 检索工具 中国统计年鉴 2011,4.事实信息检索,以事项为检索对象,检索结果是有关 某一事物的具体答案,也是一种确定 性检索。一般利用字词典、年鉴、百 科全书、手册等为检索工具。,小 结,书目信息检索是利用各种目录、题录和文摘工具获取有关信息的线索。 例如:各种图书目录、期刊题录、文摘 国内外著名的题录和文摘有中国期刊全文数据库、中文期刊数据库、万方数据 、工程索引(EI)、科学引文索引(SCI)等。,全文信息检索是利用各种全文系统获取有 关的全文信息。 例如:中国期刊全文数据库 数据和事实检索是利用各种参考工具书获 取有关的确定性数据或事实信息。 例如:各种百科全书、年鉴、手册等。,2.2 信息检索原理,2.2.1 信息检索效率 2.2.2 信息检索系统 2.2.3 信息检索语言,2.2.1 信息检索效率,信息检索效率是评价一个检索系统性能优劣的质量标准,它贯穿于信息的存储和检索的全过程。其评价指标主要是: 查全率 查准率,2.2.2 信息检索系统,信息检索系统是拥有一定的存储、检索技术装备、存储有各种信息,并能为用户检索所需信息的服务工作系统。目前常用的是手工检索系统和计算机检索系统。,2.2.2 信息检索系统,计算机检索系统 又称现代化检索系统,是用计算机技术、电子技术、远程通信技术、光盘技术、网络技术等构成的存储和检索信息的系统。存储时,将大量的各种信息以一定的格式输入到系统中,加工处理成可供检索的 数据库,2.2.2 信息检索系统,计算机检索系统 检索时,将符合检索需求的提问式输入计算机,在数据库中进行匹配运算,然后将检索结果按要求的格式输出。特点是:检索速度快,节省人力和时间;便于进行多元概念检索;能提供远程检索。,2.2.2 信息检索系统,数据库类型 按所提供的信息内容,数据库主要可分为参考数据库和源数据库。,2.2.2 信息检索系统,参考数据库 主要存储一系列描述性信息内容,指 引用户到另一信息源以获得完整的原 始信息的一类数据库,主要包括 书目数据库和指南数据库。,2.2.2 信息检索系统,书目数据库 内容特征:存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类。 作用:指出了获取原始信息的线索,2.2.2 信息检索系统,指南数据库 内容特征: 存储描述关于机构、人物、产品、活动等对象的数据库。 作用:指引用户从其它有关信息源获取更详细的信息。,2.2.2 信息检索系统,源数据库主要存储全文、数值、结构 式等信息,能直接提供原始信息或具 体数据,不必再转查其它信息源的数 据库。主要包括: 全文数据库和数值数据库,2.2.2 信息检索系统,全文数据库 内容特征:存储原始信息全文或主要部分 的一种源数据库。如期刊全文数据库、专 利全文数据库、百科全书全文数据库。 作用:用户使用某一词汇或短语,便可直 接检索出含有该词汇或短语的原始信息的 全文。,2.2.2 信息检索系统,数值数据库 内容特征:存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。 作用:数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息,如: 各种统计数据库、科学技术数据库,2.2.2 信息检索系统,数据库结构 书目数据库的结构 书目数据库是以文档形式组织一系列数据,这些数据被称为记录,一个记录又包含若干字段。,2.2.3 信息检索语言,检索语言又称标引语言,是系统存储和检索时共同使用的一种约定语言,以达到信息存储和检索的一致性,提高检索效率。,检索语言的类型,体系分类语言 分类语言 组配分类语言 混合分类语言 标题词语言 主题语言 关键词语言 叙词语言 单元词语言,按表述信息内容特征划分,关键词语言,关键词语言是一种主题语言,它是直接从原文的标题、摘要、全文和检索课题中抽选出来的具有实质意义的、未经规范化处理的自然语言词汇作为存储和检索依据的一种检索语言。,示 例,课题:光纤传感器在测量中的应用 关键词: 光纤、传感器、测量 光纤传感器、测量,2.3 信息检索方法,2.3.1 信息需求分析 2.3.2 制定检索策略 2.3.3 实施检索策略获取原始 信息,2.3.1 信息需求分析,信息需求是人们在客观或主观上就课题所需信息的要求,是人们检索信息的基本出发点,也是评价检索效果的依据。它包括两个方面: 1. 明确检索的目的和要求 2. 对主题进行分析,课题:现代居室污染水平与装饰材料关系研究,一、检索目的和要求 目的:科技立项 要求:国内外有无 1. 装饰材料的污染性研究 2.居室污染水平与装饰材料关系研究,二、主题分析,第一层面: 装饰材料木材、涂料、花岗石等 第二层面: 污染放射污染、化学污染 第三层面: 居室、室内,2.3.2 制定检索策略,检索策略是为了达到检索目标而制定的具体检索方案。包括选择检索系统、确定检索途径或检索词、拟定检索程序。按检索手段分为手工检索策略和上机检索策略。,2.3.3 实施检索策略,分获取信息线索和索取原始信息两步 获取信息线索实质上是实现书目信息检索 索取原始信息实质上是实现全文信息检索,. 信息检索技术及其应用,信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有布尔检索、词位检索、截词检索和限制检索。,2.4.1 布尔检索,布尔检索技术使用的逻辑算符及含义 (1)逻辑与 (2)逻辑或 (3)逻辑非,逻辑与,1. 概念:逻辑与是一种具有概念交叉或概念限定关系的组配。 2. 算符:“ * ” 或 “ AND ”或“并且” 3. 特点:增强专指度,提高查准率。 4.举例: 液压机 AND 结构优化,表 示两个概念应同时包含在一条记录中,逻辑与,结构优化,液压机,AND,逻辑或,1. 概念:逻辑或是一种具有概念相同或概念相关关系的组配。 2. 算符: “ + ” 或 “ OR ”或“或者” 3. 特点:扩大检索范围,提高查全率。 4.举例: 废水 OR 污水 ,表示这两个相关概念分别在一条记录中出现或同时在一条记录中出现。,逻辑或,废水,污水,OR,废水,逻辑非,1. 概念:逻辑非是一种具有概念排除关系的组配。 2. 算符: “ - ” 或 “ NOT ” 3. 特点:提高查准率,影响查全率。 4. 举例: 机器人 NOT 蛇形,表示检索出的记录中要排除含有“蛇形机器人 ”的记录。,2.4.2 词位检索,词位检索具有限定检索词词间位置关系的功能,可弥补布尔逻辑算符只是定性规定检索词的范围,达到提高检准率的效果。常用的词位检索是:邻近检索,邻近检索,用于网络数据库,常用的位置逻辑算符有:同句、同段(中文系统);NERA、WITHIN n、SAME等(英文系统)。 NERA表示两词之间不得多于9个词,词前后位置任意; WITHIN n表示两个检索词之间可包含其他词,两词间距最多“n1”个词,词的顺序任意; SAME要求检索词在同一个句子中,检索词在句子中的顺序任意。 例如:air NEAR pollution 、 air WITHIN 5 pollution、 air SAME pollution。,2.4.3 截词检索,截词检索是预防漏检提高查全率的一 种常用检索技术,大多数系统都提供 截词检索的功能。截词是指在检索词 的合适位置进行截断,然后使用截词 符进行处理,可节省输入的字符,又 可达到较高的查全率。尤其在西文检 索系统中,使用截词符处理自由词, 对提高查全率的效果非常显著。,2.4.3 截词检索,在截词检索技术中,较常用的是后截 词和中截词。按所截断的字符数分, 有无限截词和有限截词两种,截词算 符在不同的系统中有不同的表达形式。,2.4.3 截词检索,1后截词 后截词,从检索性质上,是满足前方一致的检索。 (1)有限后截词。主要用于词的单、复数,动词的词尾变化等。如book 用book$处理,表示截一个词,可检索出含有book和 books的记录,“$”为有限截词符号。,2.4.3 截词检索,1后截词 (2)无限后截词。 主要用于同根词。如solubilit用solub*处理,可检索出含有solubilize,solubilization,soluble等同根词的记录, “*”为无限截词符号。,2.4.3 截词检索,2.中截词 中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为“?”,即用“?”代替那个不同拼写的字符。,2.4.3 截词检索,从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。,2.4.4 限制检索,为了确定检索词在数据库记录中出现的字段位置,可采用字段限制查找的范围。常用的字段代码有: 标题(TI)、文摘(AB)、作者(AU)、 语种(LA)、刊名(JN)等。 限制检索在网络数据库中一般使用下拉菜单进行选择限制。,限制篇名(标题),2.4.5信息检索方法及技术应用实例,检索课题:高层建筑的优化设计 1信息需求分析 (1)明确检索目的与要求 1)检索目的:学位论文开题查新 2)检索要求:国内外高层建筑的优化设计的相关信息。 (2)进行主题分析,确定主题范围。根据检索目的与要求,该课题涉及的主题范围重点为:高层建筑、优化设计。,2制定检索策略,(1) 选择检索词。根据主题分析确定的主题范围,选择检索词如下: 1 高层建筑 tall building 2 高层建筑 high rise building 3 结构设计 structural design 4 优化 optimization,(2)使用相关检索技术构造提问式,提问式1:高层建筑 and 结构设计 提问式2:高层建筑 and 结构设计/篇名 提问式3:高层建筑 and 结构设计and 优化 提问式4:高层建筑 and 结构设计and 优化/篇名,(2)使用相关检索技术构造提问式,提问式5:(tall or high rise) and building and
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 管改造建设方案范本
- 四川省巴中市普通高中2023级“零诊”考试历史试题(含答案)
- 幼儿园音乐游戏培训
- 客户管理岗年度工作总结
- 新教师培训常规培训
- 2026届江西省抚州市临川二中学、崇仁二中学化学九上期中经典试题含解析
- 荷尔蒙培训课件
- 培训父母的课件
- 改善改良制度培训
- 2026届广西壮族自治区防城港四校联考英语九上期末监测试题含解析
- 2024年“学宪法、讲宪法”应知应会题库
- DL∕T 5372-2017 水电水利工程金属结构与机电设备安装安全技术规程
- 平安产险建筑工程团体意外伤害保险条款
- 基于人工智能的药物不良反应预测与预警系统
- 指导青年教师赛课工作方案
- 胃镜室进修汇报
- 农村特岗教师聘用合同书
- 10.1 抵制校园欺凌和暴力(高效教案)-【中职专用】中职思想政治《心理健康与职业生涯》(高教版2023·基础模块)
- 大学语文(第三版)课件 渔父
- 队列训练齐步的行进与立定
- 人教版小学六年级数学上册单元课后练习题 全册
评论
0/150
提交评论