信息存储与检索复习资料PPT课件.ppt_第1页
信息存储与检索复习资料PPT课件.ppt_第2页
信息存储与检索复习资料PPT课件.ppt_第3页
信息存储与检索复习资料PPT课件.ppt_第4页
信息存储与检索复习资料PPT课件.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论 可编辑 本章目录 第一节信息检索基本理论第二节信息检索系统第三节信息检索研究 2 可编辑 第一节信息检索基本理论 1 1 3信息检索的类型 3 3 可编辑 1 1 1信息检索的概念 信息检索 InformationRetrieval IR 广义地说 就是 信息存储与检索 InformationStorageandRetrieval 将信息按照一定的方式组织和存储起来 利用一定的检索算法 借助于特定的检索工具 并针对用户的检索需求找出有关信息的过程 信息检索的两个基本环节 存 是一种面向来自各种渠道的大量甚至海量信息资源而进行的高度组织化的存贮 取 就是面向随机出现的各种用户信息需求所进行的高度选择性的查找 Search 尤其强调查找的快速与便利 注意 在信息检索系统中的存储和检索之间存在着得失互换的规律 存 取 广义的信息检索 IR 取 狭义的信息检索 InformationSearch 4 可编辑 1 1 2信息检索的原理 信息检索的基本原理 对信息集合和需求集合的匹配与选择 5 可编辑 1 1 2信息检索的原理 1 信息集合信息集合是指有关某一领域的 经过选择性采集和组织加工的信息集合体 信息集合的形成过程通常需要以下几个步骤 1 信息搜集 首先明确采集范围 其次 采用人工或自动方法采集信息 2 信息分析 对信息的外表和内容特征进行分析 3 信息表达和词语转换 特征化表示 4 数据库 形成信息检索系统的各种文档组织 2 需求集合信息需求是用户在一定的客观环境下 向往获得某种知识或信息 因而产生的对信息的探索和利用 用户提出的信息需求 问题或检索课题 也需要做类似的加工整理 1 需求分析 用户必须对自己的需求的外表特征和主题内容进行分析 找出能全面 准确地表达该需求的概念 2 需求表达和词语转换 特征化表示 6 可编辑 1 1 2信息检索的原理 特征化表示 信息的特征化表示 对信息进行分析和标引 使每件信息都获得某种特征化表示 让原来隐含的 不易识别的特征显性化 并获得相应的标识 例如分类号 主题词等 需求的特征化表示 分析需求的内容 提取出主题概念或其它属性 并利用与信息集合相同的标识系统 检索语言 来表示需求中所包含的概念和属性 从而得到用户需求的特征化表示结果 提问式 Query 特征化的目的 确保存储用词和检索用词都统一到同一个检索语言体系 7 可编辑 1 1 2信息检索的原理 3 匹配与选择匹配和选择则是一种机制 它负责把需求集合与信息集合进行相似性比较 然后根据一定的标准选出符合需求的信息 这种匹配机制包括比较 判断和选择 P3 1 比较机制 相似性比较和一致性比较 2 判断机制 对信息是否符合需求以及符合的程度加以判断 3 选择机制 对检索出来的结果 按照一定的标准加以选择 其实质就是排序 最常见的如相关性排序 注意 因为特征化处理 信息需求和信息集合的匹配就简化为提问式与有序的 经过特征化表示的信息集合之间的匹配 即两组有限的语词符号化特征之间的匹配和比较 8 可编辑 1 1 2信息检索的原理 4 注意事项在理解和掌握上述信息检索的基本原理时 需要特别注意以下几点 1 信息存储和信息检索有两个交汇点 P3 直接交汇点 表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇 间接交汇点 通过检索语言进行沟通 确保把存储用词和检索用词都统一到同一个检索语言体系中 2 信息检索模型上述信息处理 提问处理和匹配过程中 核心问题是信息表示 提问表示和两者之间的相似性算法 这三个要点的不同就构成了不同的信息检索模型 3 计算机信息检索的匹配方式匹配方式由人工比较变为机械匹配 匹配标准由隐式 基于知识概念 变为显式 机械的单纯字符串比较 检索过程就是字符串匹配和逻辑运算的过程 9 可编辑 1 1 2信息检索的原理 5 课程内容安排第一章信息检索概述 教材第一章 第二章信息检索模型 教材第二章 第三章文本信息处理技术 涉及到本教材第三章 第四章文本信息存储技术 涉及到本教材第三章 第五章文本信息检索技术 涉及到本教材第三章 第六章Web信息存储与检索 教材第五章 10 可编辑 1 1 3信息检索的类型 一 按照信息内容划分 旧三分法 文献检索 事实检索 数据检索 1 文献检索 是以文献 包括文摘 题录或全文 为检索对象的一类信息查询活动 一般是某一主题等的文献线索或者全文 对应的信息检索系统可以分为 书目检索系统 全文检索系统 2 事实检索主要针对的是从文献中提取出来的各种事实 或知识项 所进行的检索活动 3 数据检索主要以经过选择 整理 鉴定的各种数据信息文献检索和事实 数据检索之间还是存在着本质的不同 主要表现在 文献检索是一种 相关性检索 事实 数据检索是一种 确定性检索 11 可编辑 1 1 3信息检索的类型 一 按照信息内容划分 新三分法 文本检索 数值检索 多媒体检索 1 文本检索 是指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检索活动 2 数值检索 主要是针对数字型数据的查询而发展起来的一类较有特色的信息检索 3 多媒体检索 也称为基于内容的检索 CBR Content BasedRetrieval 是主要针对各种数字化音频和视频信息进行查询的一类新兴的信息检索操作 12 可编辑 1 1 3信息检索的类型 二 按照计算机检索技术划分见P6 1 脱机检索 Off lineRetrieval 2 联机检索 On lineRetrieval 3 光盘检索 CD ROMRetrieval 4 网络检索 InternetRetrieval 13 可编辑 1 1 3信息检索的类型 一 从信息检索系统的服务方式划分从传统观点来说 可分为两种类型 1 定题信息服务 SDl 2 问答服务 Q A 从新的信息检索服务方式来说 信息检索分为基于 拉 的信息检索和基于 推 的信息检索 1 基于 拉 Pull 的信息检索 就是为用户找到所需的信息 2 基于 推 Push 的信息检索 也称信息过滤 就是为信息找到适当的用户 push模式的信息服务主要是通过两种方法来实现的 用户预先提交需求信息 由服务器定期或者在加入新数据时自动扫描用户需求 过滤出对特定用户有用的信息 通过智能化系统 自动挖掘用户的兴趣 特征 从而确定用户需求 14 可编辑 第二节信息检索系统 1 2 3信息检索系统的物理结构 3 15 可编辑 1 2 1信息检索系统的概念 定义 信息检索系统是由一定的设备和信息集合构成 面向一定的用户 具有信息采集 组织 存储 选择和传播等功能的信息服务设施 P26 信息检索系统的构成包括六个要素 P7 8 1 目标 2 功能 3 资源 4 设备 5 方法 6 人员概括地说 信息检索系统就是专门进行信息的收集 处理 存储 检索并满足用户信息需求的系统 16 可编辑 1 2 2信息检索系统的类型 见P9 1 书本式检索系统 2 卡片式检索系统 3 机械式检索系统 4 缩微式检索系统 5 计算机检索系统 6 网络检索系统 17 可编辑 1 2 3信息检索系统的物理结构 从物理构成的角度来考察 检索系统一般包括 硬件部分 软件部分 数据库1 硬件部分硬件部分是计算机检索系统采用的各种硬件设备的总称 这部分主要包括一定性能的主计算机和服务器 检索系统的外围设备和数据处理与传送中有关的其它设备 除了各种外围设备与通讯设备之外 各种信息检索系统的硬件特点有 联机检索系统 中央计算机 外设 通讯设备和检索终端 P11图1 3 光盘检索系统 光盘塔服务器 光盘库 终端服务器等 P11图1 4 网路信息检索系统 C S结构 P12图1 5 与B S结构 P13图1 6 18 可编辑 1 2 3信息检索系统的物理结构 2 软件部分软件部分包括与计算机信息检索相关的各种系统软件及相关应用软件 系统软件包括操作系统 编译程序等 应用软件则主要包括信息采集 存储 标引加工 词表管理 用户检索界面 提问处理 网络发布 数据库管理等模块 不同的检索系统在系统软件和应用软件方面具体构成也存在着不同 搜索引擎的软件系统构成一般如P13图1 7所示 搜索器 Spider或Robot 索引器 Indexer 检索器 Searcher 从检索效率上讲 联机检索与光盘检索的检索效率比较高 与网络检索 搜索引擎检索相比 它们的检索指令完备 检索功能强大 支持多种检索技术 提供跨库检索手段 查全率和查准率都比较高 但搜索引擎胜在用户界面友好 使用方便简单 19 可编辑 1 2 3信息检索系统的物理结构 3 数据库 DataBase Databank 根据ISO DIS5127标准 数据库定义 至少由一种文档组成 并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合 数据库就是在计算机存储设备上按照一定方式存储的相互关联的数据集合 数据库是计算机信息检索的基础 联机信息检索的数据库都是经过严格加工 处理和组织的 通常是各个领域中核心的和权威的数据库 学术性和专业性信息资源非常丰富 回溯性好 数据质量比较高 网络信息检索系统的检索空间无限 检索范围覆盖了Internet所能延伸到的世界各地 针对的是海量的信息 但大多为现实话题 当前事件和新闻 学术性和专业性远不及联机检索系统 数据质量不高 20 可编辑 1 2 4信息检索系统的逻辑结构 信息检索系统的逻辑结构主要是指它所包括的功能模块 或子系统 及其相互关系 信息检索系统的一般逻辑结构可以如P15图1 9所示 21 可编辑 1 2 4信息检索系统的逻辑结构 1 采选子系统 输入子系统 功能 根据系统经营方针和服务对象的需要 以快速 经济的手段 广泛 连续地从各种信息源或信息渠道完成信息资源的采集工作 为系统提供充足而适用的数据来源 信息采集模块决定了信息检索系统中数据库的类型及收录范围 信息资源及其采集是进行信息处理的前提与基础 采选过程由信息的采集 鉴别和筛选组成 具体的采选方法有三种 人工采选 信息资源的采集和录入均由人工完成 人机结合采选 人机合理分工 大量的采集任务可以通过计算机的扫描 复制 链接 合并 格式转换等处理来完成自动采选 即在无人工干预的情况下由计算机自动完成 22 可编辑 1 2 4信息检索系统的逻辑结构 2 词语子系统功能 对采用规范化词语的系统在标引和查询时所使用的词语进行规范化的控制和处理 根据检索系统是否使用控制词汇 可分为 控制词汇的检索系统 采用词表控制的检索系统 非控制词汇的检索系统 使用关键词 自由词等一些无词表控制的检索语言的检索系统 1 自然语言的检索系统 2 后控制的自然语言检索系统 即使是自然语言的检索系统 也会多少对语词进行一定程度的规范化控制 23 可编辑 1 2 4信息检索系统的逻辑结构 3 信息标引子系统功能 按照一定的词表 对信息赋予标引词 以表征信息的特征 形成信息的标识 标引处理模块承担的主要任务是 对信息资源中具有检索价值的特征信息 例如题名 作者 主题内容 类别等进行提取与标识 并组织成索引文档 为用户的查询和访问提供准确而有效的检索入口 标引 Indexing 是指对信息资源的各种检索特征进行分析并使之显性化 以便为存储和检索这两个环节提供某种连接的一种重要的信息加工操作 狭义的标引处理主要针对信息资源主题特征的分析与提取来进行 该子系统决定着揭示数据库记录内容的深度和检索入口并直接影响到信息检索系统的检索方式和检索途径 标引包括的过程 概念分析 概念转换 24 可编辑 1 2 4信息检索系统的逻辑结构 3 信息标引子系统相关的名词 1 标引的网络度和专指度 网罗度 Exhaustivity 也称标引深度 是衡量标引词对数据库每条记录各方面内容表达和识别的详尽程度 专指度 Specificity 用于衡量标引词对信息记录特定内容描述的精细程度 网络度越高 越有利于提高检索的查全率 专指度越高 则越有利于提高检索的查准率 2 人工标引和自动标引 3 无标引和全标引指对信息中的所有词语都进行标引 25 可编辑 1 2 4信息检索系统的逻辑结构 4 建库子系统功能 在信息收集和预处理的基础上 建立和维护可直接用于计算机检索的数据库 数据库 至少由一种文档 File 组成 能满足特定目的或特定数据处理系统需要的数据集合 文档组成一般包括 存储信息资源的数据库主文档 MF MasterFile 主文档索引 MI MasterIndex 倒排文档 IF InvertedFile 词典文档 IX Dictionary 等等配套文档 26 可编辑 1 2 4信息检索系统的逻辑结构 4 建库子系统数据库 文档 记录 字段相对应 建立数据库的主要任务是 1 数据库总体结构设计 确定库内文档数量 文档类型 各文档之间的逻辑联系以及数据流程 2 库内文档结构设计 是指要定义各文档的记录格式 包括字段组成 字段定义 划分可检字段和不可检字段等 3 存取路径选择 要确定检索途径和检索点 以便根据检索点来设定索引文档 4 文档物理组织方式设计 是指各种文档的物理存储方式设计 例如顺序存储 随机存储等 建立数据库的主要作业内容包括 数据录入或扫描 错误检查与校对 数据格式转换 文档更新维护 27 可编辑 1 2 4信息检索系统的逻辑结构 5 提问处理与检索匹配子系统功能 负责处理用户输入的检索词或提问式 并将它们与数据库中存储的数据进行比较运算 把运算结果输出给用户 该功能模块是信息检索系统的技术核心 其主要的操作流程 1 对用户提问进行概念分析和概念转换 构造提问式 2 提问校验 提问校验由程序自动完成 包括语法检查 格式检查和用词检查 3 提问加工 对源提问进行解释性或编译性的加工 生成便于机器处理的目标提问式 常用的提问加工方法有 表展开法 菊池敏典法 逆波兰法 福岛法 等 4 检索 从数据库中读入一批记录 与提问式进行比较 把满足要求的记录记入输出文档 28 可编辑 1 2 4信息检索系统的逻辑结构 6 交互子系统功能 保证系统和用户之间能够进行良好的沟通 具体内容 接收用户提问 如简单检索 高级检索 返回检索结果 如相关性排序 检索结果可视化 对检索系统的最终用户来讲 用户接口代表了信息检索系统的全部 他们正是通过这个接口及其界面来感知 认识和使用 评价检索系统的 29 可编辑 1 2 4信息检索系统的逻辑结构 注意 1 除了上述子系统外 还可能有 词典管理子系统 管理维护子系统 等等 2 搜索引擎软件系统的对应 搜索器 Robot或Spiser 采选子系统 索引器 Indexer 标引子系统 建库子系统 词典子系统 检索器 Searcher 提问处理与检索匹配子系统 交互子系统 30 可编辑 第三节信息检索研究 1 3 3信息检索的产生和发展 3 31 可编辑 1 3 1信息检索的研究内容 概括起来 信息检索的研究内容包括以下几个方面 1 信息检索理论检索语言 包括分类语言 主题语言 引文语言 代码语言等 检索模型 检索服务系统开发和设计的基础框架 标引理论 实现信息检索的重要前提 信息组织与表示理论 信息的形式化表示方法 信息单元之间的语义关联和逻辑推理等相关性理论 关于匹配标准的理论等等 32 可编辑 1 3 1信息检索的研究内容 2 信息检索技术与方法研究检索技术是实现信息检索有效性的手段和保障 从检索对象的不同表现媒体上来区分 检索技术分别有针对文本 数值 音频 视频等信息的不同检索技术与方法 网络搜索引擎技术 网络信息自动采集技术 网页 超链接分析技术 搜索结果排序技术 元搜索技术以及各种网络挖掘与个性化服务技术等 其他密切相关的自动化处理技术有 自动标引 自动摘要 自动分类 信息可视化 信息过滤 信息提取 机器翻译 人机交互等众多方面 33 可编辑 1 3 1信息检索的研究内容 3 信息检索服务研究信息用户研究 用户心理 需求 行为 认知行为模型建立以及用户满意度研究 各种服务方式和模式的开发 现有服务方式通常包括参考咨询服务 委托检索服务 定题检索服务 科技查新服务 培训辅导服务以及延伸服务 如在检索的基础上进行的三次信息服务 4 信息检索评价研究信息检索评价研究通常包括检索性能评价 检索效益评价 检索评价方法与步骤 检索评价指标体系以及指标实例研究等 34 可编辑 1 3 2信息检索的相关学科 与信息检索关系比较密切的相关学科和领域如下 1 计算机科学关系最为密切的和重要的计算机学科基础知识包括 程序设计语言 算法与数据结构 数据库原理 系统分析与设计 网络原理与技术等 2 数学数学的贡献与价值主要在于 信息检索模型的创建 检索算法的设计 检索系统的评价分析等 3 语言与计算语言学检索语言 分类语言和主题语言 计算语言学 主要目的是要通过建立形式化的数学模型来分析 理解人类自然语言 另外还有 系统科学 人工智能 认知心理学等等 35 可编辑 1 3 3信息检索的产生和发展 以10年为一个阶段 具体见P21 231 探索与实验时期 20世纪50年代 1951年 首次利用计算机进行文摘检索实验 单元词组配检索法 1954年 世界上第一个计算机信息检索系统的出现 1958年 KWIC索引的编制与应用 1959年 基于KWIC索引的计算机化定题检索服务 SDI SelectiveDisseminationofInformation 诞生 2 生产性开发与实用化时期 20世纪60年代 脱机批处理信息检索阶段 Off lineBatchProcessing 1964年 MEDLARS系统的研制 1966年 DIALOG联机系统的研制 1969年投入实用 1961年 SMART系统 G Salton VectorSpaceModel 简称VSM模型 脱机系统主要采用以菊池敏典算法为代表的顺排文档检索技术 36 可编辑 1 3 3信息检索的产生和发展 3 成熟发展时期 20世纪70年代 联机实时信息检索阶段 On lineRealTime 检索系统 一批联机检索服务系统的创建和应用 例如 DIALOG ORBIT等等 数据库 数量成倍增长 内容有许多面向社会科学 人文科学 经营管理和大众兴趣方面的数据库 检索技术 广泛使用了倒排文档检索方式 另外还对布尔逻辑检索 截词检索 位置检索等书目检索技术加以实验和运用 人机界面 依然时候命令驱动式系统为主 但已经开始把用户个体差异 新手 专家 考虑在系统接口设计中 系统的命令语言和反馈信息的形式 简单 复杂 与内容 少量 详细 都分别考虑这两类用户的需要 4 全面发展与多元化时期 20世纪80年代 家庭化检索的出现光盘检索的发展联机系统的购并与产权转移 37 可编辑 1 3 3信息检索的产生和发展 5 基于互联网的发展时期 20世纪90年代以后 1 网络搜索引擎的兴起与发展以Yahoo 为代表的搜索引擎 主要采用分类目录浏览方式服务于用户 它主要依靠人工方式收集网络信息 并对它们进行整理和分类 以AltaVista Google 百度等为代表的搜索引擎 则主要采用关键词检索方式提供信息查询 2 传统联机检索系统的网络化改造首先是改进和优化自身的联机服务功能与质量其次是数据库生产商由单纯的数据加工生产逐渐向集数据加工生产和联机检索服务于一身的方向发展 38 可编辑 1 3 4信息检索的趋势 1 跨语言信息检索 1 概念跨语言检索 Gross LanguageInformationRetrieval CLIR 是一种跨越语言界限进行检索的过程 也就是指用户用一种语言提问 检索出另一种语言或多种语言描述的相关信息 广义的跨语言检索包括 受控语言与非受控语言之间的跨越 不同的自然语言之间的跨越 跨语言检索的实质是统一检索界面 实现跨平台检索 用户可以用母语提交查询 系统在多语言数据库中进行检索 返回能够回答用户查询的所有语言的文档 如果能够结合机器翻译 就可以用母语返回检索结果 39 可编辑 1 3 4信息检索的趋势 1 跨语言信息检索 2 实现方式在CLIR中 提问式所使用的语言通常称为源语言 被检索的文档所使用的语言称为目标语言 提问式与文档语言相同的检索称为单语言检索 目前跨语言检索的主要实现方式有 提问式翻译法 文献翻译法 提问式 文献翻译法 中间翻译法 不翻译法 音译法 基于本体转换法等 跨语言检索中主要涉及的技术有 计算机信息检索技术 完成提问式与文档之间的匹配 机器翻译技术 完成不同语言之间的语义对等 语言歧义消解技术 解决翻译过程中的多义和歧义问题 40 可编辑 1 3 4信息检索的趋势 2 多媒体信息检索所谓多媒体信息是指集文字 声音 影像和动画等多种信息表示媒体于一体的信息形式 目前 多媒体信息检索主要有基于文本的信息检索和基于内容的两种方式 基于文本的信息检索 以关键词的形式来反映多媒体的物理特征和内容特征 基于内容的检索 Content BasedRetrieval CBR 就是从媒体中抽取出特定的信息线索 然后根据这些线索从大量存储在数据库中的媒体中进行查找 检索出具有相似特征的媒体数据 41 可编辑 1 3 4信息检索的趋势 2 多媒体信息检索从技术上讲 基于内容的多媒体信息检索具有以下特点 1 直接从媒体内容中提取特征线索 2 基于内容的检索是一种近似匹配 与传统信息检索的精确匹配方法有明显的不同 3 特征提取和索引建立可由计算机自动实现 避免了人工描述的主观性 也大大减少了工作量 4 整个过程是一个逐步筛选和不断求精的过程 42 可编辑 1 3 4信息检索的趋势 3 信息检索可视化递进的概念 可视化 信息可视化 信息检索可视化 1 可视化可视化是与人类认知能力的发展密切相关的 人类很早就会利用可视化来放大和延伸人类的认知能力 2 信息可视化信息可视化 InformationVisualization InfoVis或IV 信息可视化是对信息的人为转换 以便人们能够展示信息 理解信息和观察信息 信息可视化的必要性 动力和原因 1 二维的图像要比一维的文字能表达丰富得多的信息 2 图像可以通过人的视觉系统直接在人的记忆理解系统中建立相应的概念 它不需要经过语言文字系统然后在再在人的记忆理解系统中建立概念 这种方式建立的概念直接 保真 易于理解和记忆 43 可编辑 44 可编辑 1 3 4信息检索的趋势 3 信息检索可视化 3 信息检索可视化信息检索可视化 是指将信息检索系统中不可见文献以及文献之间的语义关系展示出来 并且显示出用户查询过程 信息检索可视化的研究成果主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论