




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 概 述,2020/8/26,信息检索系统开发与设计 第一章,2,本章主要内容,信息检索基本原理 信息检索系统 信息检索发展历史与趋势 信息检索学科研究范围,2020/8/26,信息检索系统开发与设计 第一章,3,1.1 信息检索基本原理,Information Retrieval 信息检索 将情报按一定的方式组织和存贮起来,并根据用户的需要找出有关情报的过程。(赖) 一种延时性通讯形式,在时间上从一个时刻通往一个较晚的时刻,而空间上可能还在同一地点。(Calvin W, Mooers, 1949) 是对信息条目(Information Items)进行表示、存贮、组织和存取(Acces
2、s)的过程。 Information Access 信息存取,2020/8/26,信息检索系统开发与设计 第一章,4,1.1 信息检索基本原理,信息检索的基本目标: 检索出所有与用户提问相关的文献,同时尽可能检出更少的不相关文献。 相关信息的有效检索涉及两个方面 用户任务 文献的逻辑表示,2020/8/26,信息检索系统开发与设计 第一章,5,1.1 .1 信息检索中用户任务,2020/8/26,信息检索系统开发与设计 第一章,6,1.1 .1 信息检索中用户任务,检索 retrieval 用户将其信息需求和问题翻译成检索系统要求的提问式(query),系统匹配后,提交相关文献。 浏览 bro
3、wsing 使用交互式界面翻阅整个文献集合,以找出感兴趣的相关文献。,2020/8/26,信息检索系统开发与设计 第一章,7,1.1 .1 信息检索中用户任务,传统检索系统:数据检索或信息检索 超文本系统:快速浏览 电子图书馆与Web搜索引擎系统:检索与浏览的结合。,2020/8/26,信息检索系统开发与设计 第一章,8,1.1 .2 文献的逻辑表示,全文本 标引词的集合 目的:降低文献表示的复杂性,和计算机处理的难度。,2020/8/26,信息检索系统开发与设计 第一章,9,图1-2 文献的逻辑表示,文本结构,2020/8/26,信息检索系统开发与设计 第一章,10,1.1 .2 文献的逻辑
4、表示,传统: 一个集合中的文献常常通过标引词或关键词的集合来表示。 现代: 用文献的所有词集合以及结构来表示成为可能,检索系统采用文献的全文本(full-text view)视图逻辑表示。,2020/8/26,信息检索系统开发与设计 第一章,11,1. 2 信息检索系统,信息检索系统是由一定的设备和信息集合构成,面向一定的用户,具有信息采集、组织、存贮、选择和传播等功能的信息服务设施。,2020/8/26,信息检索系统开发与设计 第一章,12,1. 2 .1 信息检索处理过程,定义和建立文本数据库 用户提问操作 匹配处理,2020/8/26,信息检索系统开发与设计 第一章,13,2020/8/
5、26,信息检索系统开发与设计 第一章,14,1. 2 .1 信息检索处理过程,文本数据库由数据库管理者模块建立 确定使用的信息条目范围 文本操作处理 定义文本的逻辑视图, 建立索引,2020/8/26,信息检索系统开发与设计 第一章,15,1. 2 .1 信息检索处理过程,2020/8/26,信息检索系统开发与设计 第一章,16,1. 2 .1 信息检索处理过程,2020/8/26,信息检索系统开发与设计 第一章,17,1. 2 .2 信息检索系统的逻辑构成,信息检索系统的逻辑构成主要是指它所包括的功能模块或子系统及其相互关系。 一个完整的信息检索系统,通常由以下几个功能模块组成: 信息源选择
6、采集子系统 标引子系统 建库子系统 词表管理子系统 用户接口子系统 提问处理子系统,2020/8/26,信息检索系统开发与设计 第一章,18,1. 2 .2 信息检索系统的逻辑构成,信息源选择采集子系统 信息源是检索系统的信息或数据来源,目前,信息 检索系统中的数据主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文、二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典,名录、指南、手册等,有些系统还收录各种机构的内部资料,如实验记录、测试或观测结果、工程设计资料、统计资料等。 本功能模块任务:根据系统的经营方针和服务对象的需要,以快速、经
7、济的手段,广泛地、连续不断地采集各种信息源,为系统提供充足而适用的数据来源。,2020/8/26,信息检索系统开发与设计 第一章,19,1. 2 .2 信息检索系统的逻辑构成,标引子系统 标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(分类号、主题词、关键词等),作为存贮与检索的依据。 标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项填入工作单,交录入员去录入计算机中。,2020/8/26,信息检索系统开发与设计 第一章,20,1. 2 .2 信息检索系统的逻辑构成,建库子系统 任务是建立和维护可直接用于计算机检索的数据库。 作业
8、内容主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。,2020/8/26,信息检索系统开发与设计 第一章,21,1. 2 .2 信息检索系统的逻辑构成,词表管理子系统 功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其它文本中采集词汇、信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。,2020/8/26,信息检索系统开发与设计 第一章,22,1. 2 .2 信息检索系统的逻辑构成,用户接口子系统 System-user interface,是面向系统用户的一种人-机接口
9、。它承担用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接系统(软硬件)。 用户模型:是系统建立的用户认知模型,可以用来增强人、机接口的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工程学因素。 命令语言:是指系统提供给用户的检索命令集合,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录下载等)。 信息显示:指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等。 反馈机制,即系统 对用户反馈的信息所做出的反应或操作。,2020/8/26,信息检索系统开发与设计 第一章,23,1. 2 .2
10、 信息检索系统的逻辑构成,提问处理子系统 负责处理用户输入的检索词或提问式,并将它们与数据库中存贮的数据进行比较运算,然后把运算结果输出给用户。 该模块主要由检索程序构成: 接收提问 提问校验:包括语法检查、格式检查和用词检查。 提问加工:指对源提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。 检索,即从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。,2020/8/26,信息检索系统开发与设计 第一章,24,1. 2 .3 信息检索系统的物理构成,硬件部分 主计算机 外围设备 数据处理或传送相关设备 软件部分 系统软件 应用软件:数据库管理系统,建库程序,
11、数据输入输出程序,自动标引程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等 数据库 磁媒体数据库 光盘数据库 多媒体数据库,2020/8/26,信息检索系统开发与设计 第一章,25,1.3 信息检索简史与趋势,信息检索发展分期 信息检索发展趋势,2020/8/26,信息检索系统开发与设计 第一章,26,1.3.1 信息检索发展分期,50年代:探索与试验时期 60年代:实用化时期 70年代:联机服务市场化与网络化时期 80年代:最终用户检索发展与多元化时期 90年代:Web搜索引擎发展时期 21世纪:网络化与智能信息检索时期,2020/8/26,信息检索系统开发与设计 第一章,27,1
12、.3.1 信息检索发展分期,图书馆中的信息检索为例 第一代:卡片目录自动化系统 OPAC online public access catalogue 第二代:增加按主题、关键词、复杂查询 第三代:图形界面、数字化、超文本、开放系统框架、基于Web,2020/8/26,信息检索系统开发与设计 第一章,28,1.3.2 信息检索发展趋势,Web对信息检索系统的巨大影响 Low cost : 是最便宜的存取各类信息源的系统,因而吸引更多的用户; Great access: 数字通信技术的进步提供了更强的接入能力,无论是本地还是远程; Publishing freedom: 人类历史上第一次,能够自
13、由地发布和获取大量信息。,2020/8/26,信息检索系统开发与设计 第一章,29,1.3.2 信息检索发展趋势,IR面临的问题和挑战 相关性信息的获取; 更快速的提问响应; 基于用户行为的新检索系统开发和设计;,2020/8/26,信息检索系统开发与设计 第一章,30,1.4 信息检索学科研究范围,信息检索的研究范围包括一切与信息存储检索有关的系统、过程、理论和方法。 一切可供存贮和检索利用的信息类型,如文献、数据、事实、知识、声音、图形等;各种细心你间作系统及其运行过程,如信息采集、标引、组织、存贮、处理、匹配、输出、传送等;各种过程中使用的方法,以及在信息检索实践和研究的基础上形成的各种
14、理论和假设,均包括在这个范围内。,2020/8/26,信息检索系统开发与设计 第一章,31,1.4.1 信息检索的研究对象,信息检索理论 主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相关性”理论以及有关的哲学问题。 信息检索系统 主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。 数据库 联机信息检索与网络信息检索 是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术等。 检索策略与方法 任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的更有效的策略和方法。,2020/8/26,信息检索系统开发与设计 第一章,32,1.4.1 信息检索的研究对象,用户研究与培训 研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立响应的用户模型,作为系统设计以及制定系统营销策略的依据。 用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。 自动标引、自动分类和自动摘录
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版健身房及游泳馆专业保洁服务合同
- 2025年高空桥梁施工设备搬运合同范本
- 二零二五年餐饮业员工职业发展与技能培训合同
- 2025版标准化第三方担保借款合同标准化模板
- 2025版材料采购合同(含产品优化)规范范本
- 二零二五年度企业协同办公SaaS定制化销售合同
- 2025年财务人员担保责任书范本
- 二零二五年度XX工业园区污水厂综合治理技术服务合同
- 二零二五年度房产车辆转让与子女婚后共同财产协议
- 二零二五餐饮合伙企业股份分配管理合同
- 虚拟货币行业分析及未来展望研究报告
- 农业水利考试试题及答案
- 2025中国核工业集团公司招聘(300人)笔试参考题库附带答案详解
- 肺结核患者护理课件
- 商业房屋租赁合同协议书
- 弘扬教育家精神做新时代大学教师
- 生态环境执法案件培训
- 孕期健康方式课件
- 暑假的一次冒险经历记事作文4篇范文
- 煤炭工业矿井建设岩土工程勘察规范
- 2024慢性、重大疾病、肢体伤残疾病中医康复方案
评论
0/150
提交评论