第六章-数据库和信息检索系统PPT课件_第1页
第六章-数据库和信息检索系统PPT课件_第2页
第六章-数据库和信息检索系统PPT课件_第3页
第六章-数据库和信息检索系统PPT课件_第4页
第六章-数据库和信息检索系统PPT课件_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第六章数据库和信息检索系统 信息检索系统数据库 2 数据库技术是计算机技术的一个分支领域 主要研究如何有效地组织 存储和处理数据 信息 数据库在信息检索系统中的应用 3 数据库的发展过程 经历了三个主要发展阶段 初期的手工管理 无文件管理 文件系统管理数据库系统管理 4 5 数据库发展大事记 1951 Univac系统使用磁带和穿孔卡片作为数据存储 1956 IBM公司在其Model305RAMAC中第一次引入了磁盘驱动器 6 7 1961 GE的CharlesBachman开发了第一个数据库管理系统 IDS 集成数据存储 8 1973 由JohnJ Cullinane领导Cullinane公司开发了IDMS 针对IBM主机的基于网络模型的数据库 1969 E F Codd发明关系数据库 9 1976 Honeywell公司推出了MulticsRelationalDataStore 第一个商用关系数据库产品 10 1979 Oracle公司引入了第一个商用SQL关系数据库管理系统 1983 IBM推出了DB2数据库产品 11 数据库的分类 通常划分如下 1 按数据模型分 层次型数据库网状数据库关系型数据库面向对象数据库 12 2 按数据类型和功能分 文本数据库 TextDatabase 图形数据库 ImageDatabase 空间数据库 SpatialDatabase 地图数据库 GeographicDatabase 13 主动数据库 ActiveDatabase 演绎数据库 DeductiveDatabase 工程数据库 EngineeringDatabase 多媒体数据库 MultimediaDatabase 专家数据库 ExpertDatabase 智能数据库 IntelligentDatabase 14 3 按数据库结构分 集中式数据库分布式数据库多数据库系统 数据仓库 15 4 按数据库的信息内容分 文献数据库数值数据库事实数据库多媒体数据库 16 5 按存储介质分 磁带数据库磁盘数据库光盘数据库 17 6 按提供信息的级别分 参考数据库 目录库 咨询库等 源数据库 全文库 数值库 多媒体库等 混合数据库 18 7 按应用领域和行业分 经济信息数据库科技信息数据库生产控制数据库等 19 实时数据库 管理有时间限制的数据和有时间限制的事务 系统以事务为单位分配CPU 数据等资源 进行优先级的分配 调度处理等 20 时态数据库 管理时态信息的要求 管理有关被处理事件的时态信息 管理数据库系统元事件的时态信息 21 一般来说 具有管理上述两类时态信息或其中之一的数据库称为时态数据库 只管理第一类时态信息的数据库又称为历史数据库 22 面向对象数据库 ObjectOrientDataBase OODB 面向对象设计思想与数据库技术相结合的产物 能较好提供丰富的数据类型和支持对象 克服了关系数据库的局限性 23 OODB把现实世界中的所有概念抽象为对象 对象可以是任何实体 它由实体所包含的属性数据库及其定义在这些属性数据库之上的一组操作分装组成 24 分布式数据库 将分散存储在计算机网络中的多个节点上的数据库在逻辑上统一管理 它是建立在数据库技术与网络技术发展的基础之上的 25 设计分布式数据库系统必须达到的指标 能更快地回答用户的询问 成本要低 要减少通信时间 可靠性要好 某一站点故障不影响整个系统 26 使用率高 可将数据分布存放在使用频率最高的节点上 具有一定的可扩充性 更好的数据共享性 数据逻辑分布和物理数据对用户透明 27 并行数据库系统 在并行机上运行的具有并行处理能力的数据库系统 并行数据库系统既能发挥多处理机优势 同时又能够采用先进的并行查询技术和并行数据管理技术 28 并行数据库系统应实现的目标 高性能高可用性可扩充性 29 演绎数据库 具有演绎推理能力的数据库系统 是数据库理论与人工智能研究相结合的产物 30 演绎数据库 在传统的关系数据库管理系统的基础上增加一个推理机制 建立一组规则来实现 31 在演绎数据库系统中 一个数据库由两部分组成 外延数据库 将推理用的事实存放在数据库中 内涵数据库 用逻辑规则定义要导出的事实 32 模糊数据库 将模糊性和不完全性引进数据库 采用模糊数学的各种方法和工具来表征和处理数据库 在数据的静态结构和数据的操作上更确切地描述客观世界的本来面目 33 智能数据库系统 将人工智能技术应用于数据库便产生了智能数据库 将数据库的思想方法应用于人工智能领域产生了知识库 34 知识库 人工智能和据库技术相结合的产物 它是存贮知识的实体 是智能控制 智能决策支持系统 专家系统 网上咨询应答系统等现代计算机高技术系统的关键部分和基础 35 数据仓库 1 数据仓库的含义DataWarehouse DW一个作为决策支持系统和联机分析应用数据源的结构化数据环境 所要研究和解决的问题就是从数据库中获取信息的问题 36 2 数据仓库的关键技术从技术上可根据它的工作过程分为 数据的抽取存储和管理数据的表现 37 数据仓库的特点 1 面向主题 主题是指用户使用数据仓库进行决策时所关心的重点方面 一个主题通常与多个操作型信息系统相关 38 2 集成的 抽取原有分散的数据库数据 经过系统加工 汇总和整理 消除源数据中的不一致性 39 3 相对稳定的 数据主要是数据查询 一旦某个数据进入数据仓库以后将被长期保留 有大量的查询操作 但修改和删除操作很少 40 4 反映历史变化 数据仓库中的数据包含历史信息 41 传统数据库在信息系统中的应用 一 文献型数据库对以各类文献为载体的信息内容进行数据库方式的组织管理和检索服务 42 文献型数据库分类 根据数据库收录的具体内容 文献型数据库可分为 书目型数据库全文型数据库新闻报道型数据库 43 1 书目数据库 只存储相关主题领域各类文献资料的书目信息 为用户鉴别和获得有关的文献提供必要的属性信息和来源指示 起指引导向作用 44 用户通过书目数据库 检索出的仅是文献的题目 出处 作者 编号 摘要或主题内容等等 用户还需进一步查找一次文献 才能满足信息需求 45 国内有代表性的中文书目数据库 中国国家书目数据库 中国近现代期刊名目汇录 中文科技期刊篇名数据库 中国社科报刊篇名数据库 46 2 全文数据库 一种存储文献全文或其主要部分并能提供全文检索的源数据库 是一种高密集度的数据库 检索系统可向用户提供全文中的任何一个词 句 段 节 章等功能 47 全文数据库特点 包含信息的原始性 库中信息基本上是未加工的原始文献 具有客观性 48 信息检索的彻底性 任何词 句 字皆可检索 还有可能看到某些边缘信息 49 检索语言的自然性 可使用自然语言检索 并能使用布尔检索和位置检索 一般要涉及自然语言的理解 50 数据结构的非结构化除了某些可规范的数据外 大量文本属于非结构化的 不便于关系数据库处理 51 专业的全文数据库系统一般都采用 自动切词 技术 自动切词 系统按一定的要求对文章进行智能化分析 尽可能合理地寻找出最佳词组切分方式 52 好的全文数据库还备有知识库 可具有推理能力和联想检索 基本上是封闭性的 数据不需经常更新 具有较大的稳定性 53 占用庞大的存储空间 系统开销大 如何提高检索速度是一大难题 54 全文数据库的类型 根据库中信息内容呈现的形式划分 电子版图书电子杂志电子报纸 55 全文数据库的开发步骤 数据准备文本预处理数据加载数据检索数据维护 56 全文数据库的关键技术 数据结构 数据库一般由一个变长的主文件和一个在索引文件控制下的倒排文件组成 57 全文数据库的标引技术 自动标引 计算机利用自动标引程序对正文 摘要和标题自动抽取关键词的过程 58 全文数据库应具备多种检索功能 除应具备传统的布尔逻辑检索功能以外 还应提供位置逻辑检索 带后控词表检索 59 二 非文献型数据库 以数值 事实 术语 图像为存储和处理对象的数据库一般称为非文献型数据库 60 1 数值型数据库 以数值型数据为主的数据库 数据是从文献资料中分析型提取出来 或者是实验 观测 统计工作中得到的源数据 61 与文献数据库相比较 数值型数据库是人们对信息进行深度加工的产物 可直接提供解决问题所需的数据 是进行各种统计分析 定量研究 管理决策和预测的重要工具 62 数值型数据库的内容 根据数值型数据库的内容形式分为两种 纯数值型 收录的内容全是事物的相关数值 如化学分子式的构成等 文字 数值型 收录的内容包含数值字段及文字字段 但以数值为主 63 数值型数据库特点 必要工具 类型多样化 直观 便于运算 64 依赖专业知识 稳定性小 标准化困难 安全问题突出 兼容问题明显 65 世界上有影响的数值型数据库 加拿大的IPSHARP 收录了71个国家的经济与人口统计信息 法国的THERMODATA 自然科学 英国的SIA 收录了139个国家的财政信息 美国的ADP 收录了有关财政 经济 人口统计 外汇率等信息 66 美国的ESIS 地球科学信息 美国的BAFFELLE 工程技术信息 邓白氏集团 Dun Bradstreet 67 2 指南型数据库 存储实体为机构 人物等的一般指示性描述的一种参考数据库 通常又称为事实数据库 或名录字典数据库 68 指南型数据库的内容 主要存储能够提供用户参考 给予用户指南的各类非文献信息 商业或企业等机构的名称 地址 电话 产品 销售 人物等方面的数据信息 69 指南型数据库分类 信息来源十分广泛 按信息类型划分 公司名录数据库人物传记数据库技术标准数据库产品指南数据库大学指南数据库 70 指南型数据库的特点 它提供给用户的不是文献 而是提示性信息 记录长 字段多 通常还含有某些数值型字段 71 以名称检索为主 主题检索为辅 信息类型多 来源广 内容更新快 服务对象众多 72 3 术语数据库 术语数据库是一种计算机化的术语词典或词库 术语 指称作概念的词或词组 它具有认知功能 73 术语一方面表达概念 使概念具体化 另一方面 人们在交流思想和传播知识时 也需要以术语作为媒介 一门学科的术语就是在该学科内有专门意义的词汇 74 术语库一般由主文档及相应索引文档组成 字段结构应反映术语的各种属性 字段的划分详细程度决定了术语库的功能 75 多媒体数据库 传统的数据库技术中的数据类型 操作语言 存储结构 存取方式与检索机制都不能适应复杂对象的应用需求 这种需求促进了新技术的产生 多媒体数据库 76 多媒体数据的特点 复杂性时序性冗余性分布性等 77 多媒体数据的特点对数据模型提出了新的要求 1 聚集抽象在处理多媒体信息时 需分解与重组多媒体对象 78 2 概括对象需定义多媒体数据一定的层次关系 3 支持自定义数据类型 并将其视为不可分割的存储管理单位 实现组合信息存储与查询 79 4 强有力的对象访问手段除常规的对象访问外 还需通过层次结构 特征等进行访问以及浏览等 5 具有高度的数据独立性 提供描述性的查词语言和良好的图形用户界面 提供严格而简明的数据视图 80 2 多媒体数据库关键技术 1 数据模型技术 基于关系的模型 基于面向对象的模型 基于分布式超媒体的模型 新的数据模型 81 2 数据压缩和还原技术 目前常用的压缩编码标准JPEG MPEG H261 264 SC 29等 82 3 存取管理和存取方法 4 用户界面技术 5 分布式技术 6 多媒体信息的检索与查询技术 7 多媒体数据的输入技术 83 3 多媒体数据库的几种实现方法 1 从关系数据模型发展多媒体数据库 2 面向对象数据库 3 分布式超媒体数据库 84 非结构化数据库 信息大体可分为两类 一类能够用数据或统一的结构加以表示 称之为结构化数据 如数字 符号 另一类信息根本无法用数字或者统一的结构表示 例如 文本 图像 声音乃至网页等 称之为非结构化数据 85 非结构化数据包括结构化数据 但又不只是结构化数据 结构化数据是非结构化数据的特例 86 1 非结构化数据库 Un structureDatabase 指数据库的变长记录由若干不可重复和可重复 多值 的字段组成 而每个字段又可由若干不可重复和可重复的子字段 子项 组成 字段数和字段长度可变的数据库 87 非结构化数据库是网络广泛使用之后出现的 所有数据库结构都和因特网技术兼容 不仅可以建立深层次的目录数据库 还支持WEB层面的全文检索能力 88 iBASE非结构化数据库技术特点 1 强大的数据管理能力 2 灵活方便的数据维护能力 3 先进的索引算法 4 强大的全文检索功能 89 基于iBASE非结构化数据库的全文检索系统主要优势iBASE全文检索系统本身是一个数据库管理系统 其数据库内嵌全文检索系统是其最鲜明的技术特色 90 在数据库资源建设 索引实时更新 数据维护 二次开发 系统整体功能和应用领域等方面远远超过一般的全文检索系统 91 信息检索系统的设计 信息检索系统的构成 由硬件设备和软件设备两大部分组成 硬件部分是信息检索系统基础条件 包括 计算机 大容量的辅助存储设备 网络设备 输入设备 输出设备 软件设备是信息存取系统中各类程序和各种文件数据的总称 92 数据库的设计 在选定具体数据库类型的情况下 确定数据各表和各数据表的结构 确定每个表中的字段的名称 类型 宽度等 应注意数据库数据冗余问题 以达到要求 满足需要为目的 93 信息的组织 信息组织 将收集的信息予以结构化 采用一定的方式 将大量分散的 杂乱的信息经过加工 整理 提炼 优化后形成一个便于有效利用系统的过程 94 信息组织的理论基础 1 关于知识组织的理论 2 系统科学理论 3 耗散结构理论 4 协同论 5 信息自组织理论 6 突变理论 95 信息组织的方法基础 1 语言学 2 逻辑学 3 知识分类 96 信息的标引 通过对文献或信息资源的分析 选用确切的检索标识 如类号 主题词 关键词 人名 地名等 用以反映该文献或资源内容的过程 97 信息标引通常指选用检索语言词或自然语言词反映文献主题内容 标引是内容的主题分析和用词表达两个步骤的结合 98 信息存取系统的构成 输入子系统处理子系统存储子系统传输子系统输出子系统控制子系统 99 信息存取系统类型 按存取信息分类 文献型存取系统事实型存取系统数值型存取系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论