信息检索概述[优质.ppt_第1页
信息检索概述[优质.ppt_第2页
信息检索概述[优质.ppt_第3页
信息检索概述[优质.ppt_第4页
信息检索概述[优质.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章第一章 概概 述述 2021-4-22信息检索系统开发与设计 第一章2 本章主要内容本章主要内容 l信息检索基本原理 l信息检索系统 l信息检索发展历史与趋势 l信息检索学科研究范围 2021-4-22信息检索系统开发与设计 第一章3 1.1 信息检索基本原理信息检索基本原理 lInformation Retrieval 信息检索 将情报按一定的方式组织和存贮起来,并根据用户 的需要找出有关情报的过程。(赖) 一种延时性通讯形式,在时间上从一个时刻通往一 个较晚的时刻,而空间上可能还在同一地点。 (Calvin W, Mooers, 1949) 是对信息条目(Information It

2、ems)进行表示、存 贮、组织和存取(Access)的过程。 lInformation Access 信息存取 2021-4-22信息检索系统开发与设计 第一章4 1.1 信息检索基本原理信息检索基本原理 l信息检索的基本目标: 检索出所有与用户提问相关的文献,同时尽可能检 出更少的不相关文献。 l相关信息的有效检索涉及两个方面 l用户任务 l文献的逻辑表示 2021-4-22信息检索系统开发与设计 第一章5 1.1 .1 信息检索中用户任务信息检索中用户任务 检索检索 浏览浏览 数据库数据库 图 1-1 信息检索中用户任务 2021-4-22信息检索系统开发与设计 第一章6 1.1 .1 信

3、息检索中用户任务信息检索中用户任务 l检索 retrieval 用户将其信息需求和问题翻译成检索系统要求的提 问式(query),系统匹配后,提交相关文献。 l浏览 browsing 使用交互式界面翻阅整个文献集合,以找出感兴趣 的相关文献。 2021-4-22信息检索系统开发与设计 第一章7 1.1 .1 信息检索中用户任务信息检索中用户任务 l传统检索系统:数据检索或信息检索 l超文本系统:快速浏览 l电子图书馆与Web搜索引擎系统:检索与浏览 的结合。 2021-4-22信息检索系统开发与设计 第一章8 1.1 .2 文献的逻辑表示文献的逻辑表示 l全文本 标引词的集合 l目的:降低文献

4、表示的复杂性,和计算机处理 的难度。 2021-4-22信息检索系统开发与设计 第一章9 图1-2 文献的逻辑 表示 文 本 结 构 文献 结构识别 着重空格 标点等 处理 停用词 处理 名词 集合 词根 处理 自动或 手工标引 标引 词 结 构 全 文 本 标 引 词 2021-4-22信息检索系统开发与设计 第一章10 1.1 .2 文献的逻辑表示文献的逻辑表示 l传统: 一个集合中的文献常常通过标引词或关键词 的集合来表示。 l现代: 用文献的所有词集合以及结构来表示成为可 能,检索系统采用文献的全文本(full-text view) 视图逻辑表示。 2021-4-22信息检索系统开发与

5、设计 第一章11 1. 2 信息检索系统信息检索系统 l信息检索系统是由一定的设备和信息集合构成, 面向一定的用户,具有信息采集、组织、存贮、 选择和传播等功能的信息服务设施。 2021-4-22信息检索系统开发与设计 第一章12 1. 2 .1 信息检索处理过程信息检索处理过程 l定义和建立文本数据库 l用户提问操作 l匹配处理 用户界面 文本操作 提问操作 逻辑视图逻辑视图 数据库管理 者模块 标引 查询 排序 检索得文献检索得文献 用户反馈用户反馈 倒排文档倒排文档 索引索引 排序文献排序文献 文本文本 数据库数据库 文本文本 图1-3 检索处理过程 文本文本 2021-4-22信息检索

6、系统开发与设计 第一章14 1. 2 .1 信息检索处理过程信息检索处理过程 l文本数据库由数据库管理者模块建立 确定使用的信息条目范围 文本操作处理 定义文本的逻辑视图, 建立索引 2021-4-22信息检索系统开发与设计 第一章15 1. 2 .1 信息检索处理过程信息检索处理过程 2021-4-22信息检索系统开发与设计 第一章16 1. 2 .1 信息检索处理过程信息检索处理过程 2021-4-22信息检索系统开发与设计 第一章17 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l信息检索系统的逻辑构成主要是指它所包括的功能模 块或子系统及其相互关系。 l一个完整的信息

7、检索系统,通常由以下几个功能模块 组成: 信息源选择采集子系统 标引子系统 建库子系统 词表管理子系统 用户接口子系统 提问处理子系统 2021-4-22信息检索系统开发与设计 第一章18 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l信息源选择采集子系统 信息源是检索系统的信息或数据来源,目前,信息 检索系统 中的数据主要来自各种公开文献,如一次文献中的期刊、图 书、研究报告、会议论文、专利文献、政府出版物、学位论 文、二次文献中的文摘、索引和目录,三次文献中的百科全 书、专科词典,名录、指南、手册等,有些系统还收录各种 机构的内部资料,如实验记录、测试或观测结果、工程设计

8、 资料、统计资料等。 本功能模块任务:根据系统的经营方针和服务对象的需要, 以快速、经济的手段,广泛地、连续不断地采集各种信息源, 为系统提供充足而适用的数据来源。 2021-4-22信息检索系统开发与设计 第一章19 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l标引子系统 标引,就是根据一定的规则和程序,对文献内容进 行分析,然后赋予每篇文献以一定数量的内容标识 (分类号、主题词、关键词等),作为存贮与检索 的依据。 标引作业通常与文献编目和文摘工作一起进行,然 后把标引结果和其他描述事项填入工作单,交录入 员去录入计算机中。 2021-4-22信息检索系统开发与设计 第

9、一章20 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l建库子系统 任务是建立和维护可直接用于计算机检索的数据库。 作业内容主要包括数据录入、错误检查与处理、数 据格式转换、生成并定期更新各种文档。 2021-4-22信息检索系统开发与设计 第一章21 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l词表管理子系统 功能是管理维护系统中已有的主题词表,使它与标 引、建库等子系统相连接,支持用户的各种词汇查 询操作,从提问、对话或其它文本中采集词汇、信 息,以及输出各种形式的词汇数据或词表产品(从 个别词目、词间关系、词频数据到整部词表)。 2021-4-22信

10、息检索系统开发与设计 第一章22 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l用户接口子系统 System-user interface,是面向系统用户的一种人-机接口。它承担 用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接 系统(软硬件)。 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口 的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工 程学因素。 命令语言:是指系统提供给用户的检索命令集合,包括基本命令 (如检索开始、结束、选词、组配、显示、打印等)和扩充集(如 截词、位置运算、限制检索、暂存检索策略、套录下载等)。 信息显示:指系统以

11、屏幕显示形式提供给用户的各种信息,如菜单、 窗口、帮助信息、错误信息等。 反馈机制,即系统 对用户反馈的信息所做出的反应或操作。 2021-4-22信息检索系统开发与设计 第一章23 1. 2 .2 信息检索系统的逻辑构成信息检索系统的逻辑构成 l提问处理子系统 负责处理用户输入的检索词或提问式,并将它们与数据库中 存贮的数据进行比较运算,然后把运算结果输出给用户。 该模块主要由检索程序构成: l接收提问 l提问校验:包括语法检查、格式检查和用词检查。 l提问加工:指对源提问式进行解释性或编译性的加工,生成便 于机器处理的目标提问式。 l检索,即从数据库中读入一批记录,与提问式进行比较,把满

12、足要求的记录记入输出文档。 2021-4-22信息检索系统开发与设计 第一章24 1. 2 .3 信息检索系统的物理构成信息检索系统的物理构成 l硬件部分 主计算机 外围设备 数据处理或传送相关设备 l软件部分 系统软件 应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引 程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等 l数据库 磁媒体数据库 光盘数据库 多媒体数据库 2021-4-22信息检索系统开发与设计 第一章25 1.3 信息检索简史与趋势信息检索简史与趋势 l信息检索发展分期 l信息检索发展趋势 2021-4-22信息检索系统开发与设计 第一章26 1.3.1

13、 信息检索发展分期信息检索发展分期 l50年代:探索与试验时期 l60年代:实用化时期 l70年代:联机服务市场化与网络化时期 l80年代:最终用户检索发展与多元化时期 l90年代:Web搜索引擎发展时期 l21世纪:网络化与智能信息检索时期 2021-4-22信息检索系统开发与设计 第一章27 1.3.1 信息检索发展分期信息检索发展分期 l图书馆中的信息检索为例 第一代:卡片目录自动化系统 OPAC online public access catalogue 第二代:增加按主题、关键词、复杂查询 第三代:图形界面、数字化、超文本、开放系统框 架、基于Web 2021-4-22信息检索系统

14、开发与设计 第一章28 1.3.2 信息检索发展趋势信息检索发展趋势 lWeb对信息检索系统的巨大影响 Low cost : 是最便宜的存取各类信息源的系统,因 而吸引更多的用户; Great access: 数字通信技术的进步提供了更强的 接入能力,无论是本地还是远程; Publishing freedom: 人类历史上第一次,能够自由 地发布和获取大量信息。 2021-4-22信息检索系统开发与设计 第一章29 1.3.2 信息检索发展趋势信息检索发展趋势 lIR面临的问题和挑战 相关性信息的获取; 更快速的提问响应; 基于用户行为的新检索系统开发和设计; 2021-4-22信息检索系统开

15、发与设计 第一章30 1.4 信息检索学科研究范围信息检索学科研究范围 l信息检索的研究范围包括一切与信息存储检索有关的 系统、过程、理论和方法。 l一切可供存贮和检索利用的信息类型,如文献、数据、 事实、知识、声音、图形等;各种细心你间作系统及 其运行过程,如信息采集、标引、组织、存贮、处理、 匹配、输出、传送等;各种过程中使用的方法,以及 在信息检索实践和研究的基础上形成的各种理论和假 设,均包括在这个范围内。 2021-4-22信息检索系统开发与设计 第一章31 1.4.1 信息检索的研究对象信息检索的研究对象 l信息检索理论 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论

16、,“相 关性”理论以及有关的哲学问题。 l信息检索系统 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护 技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。 l数据库 l联机信息检索与网络信息检索 是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设 备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术 等。 l检索策略与方法 任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的 更有效的策略和方法。 2021-4-22信息检索系统开发与设计 第一章32 1.4.1 信息检索的研究对象信息检索的研究对象 l用户研究与培训 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立 响应的用户模型,作为系统设计以及制定系统营销策略的依据。 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非 常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。 l自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论