数据库技术发展动态_第1页
数据库技术发展动态_第2页
数据库技术发展动态_第3页
数据库技术发展动态_第4页
数据库技术发展动态_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库技术发展动态第8章数据库技术发展动态

本章导读数据库是计算机科学技术中发展最快,应用最广泛的重要分支之一,它已经成为计算机信息系统和计算机应用系统的重要技术基础和支柱。探究其发展的基础可以涉及到两种源动力。一种是方法论的发展,其中较为典型的代表是:面向对象数据库(OODB)技术、分布式数据库(DDB)技术和多媒体数据库(MDB)技术的发展和形成;另一种是数据库技术与相关技术的有机结合,如主动数据库、并行数据库、工程数据库、时态数据库、模糊数据库、演绎数据库、统计数据库、空间数据库、知识库和科学与文献数据库等,它们都是特定技术领域的知识通过数据库技术,实现对特定数据对象的计算机管理并实现对被管理数据对象的操作。仲恺农业工程学院第8章数据库技术发展动态本章要点数据库技术发展的主要特点新一代数据库技术的特点掌握数据模型的发展面向应用的数据库新技术仲恺农业工程学院第8章数据库技术发展动态8.1面向对象数据库系统

8.2分布式数据库系统8.3并行数据库系统

8.4其他数据库

8.5数据仓库

本章小结仲恺农业工程学院8.1面向对象数据库系统8.1.1面向对象数据库系统的基本概念8.1.2面向对象数据库系统的特征8.1.3面向对象数据库系统的查询8.1.4面向对象数据库系统的并发控制8.1.5面向对象数据库管理系统OODBMS仲恺农业工程学院8.2分布式数据库系统

8.2.1分布式数据库及其分类1.分布式数据库(DistributedDataBase,DDB)分布式数据库是计算机网络环境中各场地(Site)或节点(Node)上数据库的逻辑集合。它是一组结构化的数据集合,逻辑上属于同一系统,而物理上分布在计算机网络的不同节点上,具有分布性和逻辑协调性的特点。分布性是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个场地(节点)上。逻辑协调性是指各场地上的数据子集,相互间由严密的约束规则加以限定,而在逻辑上是一个整体。实际上,基于以上两个特性的DDB是虚拟的、逻辑的,即是由许多LDB逻辑组织而成的,它是针对于全体用户的、全局的数据库。仲恺农业工程学院8.2.1分布式数据库及其分类2.分布式数据库的分类分布式数据库的类型很多,根据不同的准则,有不同的分类方法。我们从数据冗余、全局数据库的构成、数据库分级结构和本地数据库的配置等方面对它们分类。(1)按数据冗余分类,全局分布数据库的数据分布到网络中各结点时,会有如下情况:完全复制型、完全分割型、子集复制型、子集分布型。(2)按全局数据库的构成分类:同构型分布数据库、异构型分布数据库。(3)按本地数据库的配置方式可分成:可分布访问的集中数据库、中心数据库加专用数据库、多级分布数据库、水平分布数据库。(4)按本地数据库的数据是否全部集成到全局数据库中分类:对等型分布数据库(Peer-to-PeerDBS)、多数据库系统(Multi-DBS)。仲恺农业工程学院8.2.2分布式数据库的分级结构1.对等型分布数据库的分级结构对等型的分级结构如图8-1,它的全局概念模式是所有结点本地概念模式的并集。图8-1ANSI/SPARC分布DB参考结构仲恺农业工程学院8.2.2分布式数据库的分级结构2.多数据库系统的分级结构多数据库放宽了分布数据库中所有数据从逻辑上看必须都在一个全局数据库中的要求,允许部分数据只供本地用户使用。这里又有两种参考结构:(1)带有全局要领模式的参考结构如图8-2所示。在此种结构中,全局概念模式是本地概念模式的集成。本地用户的外模式定义在本地概念模式上,不改变本地用户原来使用本地数据库的方式。全局用户的外模式定义在全局概念模式上,用统一的语言访问多数据库。仲恺农业工程学院2.多数据库系统的分级结构

图8-2有全局概念模式的MDBS结构仲恺农业工程学院2.多数据库系统的分级结构(2)无全局要领模式的参考结构如图8-3所示。在此种结构中,将MDBS分布为两层:本地系统层和多数据库层。本地系统层由各本地数据库组成;多数据库层由多数据库用户的外模式组成。这些外模式可以定义在一个或多个本地概念模式上。用户用编程通过外模式访问MDBS,而实现对各本地数据库访问的责任交给多数据库层与本地系统层之间的映射。仲恺农业工程学院2.多数据库系统的分级结构图8-3无全局概念模式的MDBS结构仲恺农业工程学院3.联邦式数据库的分级结构联邦数据库系统由一组既协同工作又独立自治的部件数据库系统组成。这些部件DBS可以是CDB、DDB、甚至是另一个FDBS。如图8-4所示,联邦数据库结构包含如下几个部分:图8-4联邦数据库结构仲恺农业工程学院3.联邦式数据库的分级结构(1)本地模式:它是部件DBS的概念模式。(2)部件模式:它是本地模式经转换器处理后变成FDBS公共数据模型的形式。(3)输出模式:它给出了部件模式可被FDBS使用的一个子集和一些访问控制信息。(4)联邦模式:它是各输出模式的并集,由各输出模式经构造器生成。(5)外模式:外模式由联邦模式经过滤器导出,其数据模型可以不同。(6)转换器:把一种数据模型(格式)转换为另一种数据模型(格式)。把一种数据语言转换为另一种数据语言。(7)过滤器:限制从一层处理器传送到另一层处理器的命令和相应的数据。(8)构造器:把单个处理器的操作,分解、复制成多个操作(查询分解)。把多个处理器产生的数据合并成单个数据集合(模式集成)。仲恺农业工程学院8.2.3数据分布在构成分布式数据库系统的运行环境时,必须考虑构成分布式数据库系统所应用的各个组成部分各自如何使用数据的问题,所以,分布式数据库系统同样存在着分布式数据库DDB的设计问题,这就是数据分布。它包括了分布式数据库的逻辑划分和物理分配,以及用户对分布式数据库的划分或分配的感知程度(透明度)。数据分布的主要目的是提高访问的局部性。即通过数据的合理分布,尽可能地使更多的数据能够就地存放,以减少远距离的数据访问,但在任何分布式数据库中,达到所有数据的访问都局部化是不可能的。即使多复本也只能达到读的完全局部化,对于数据的更新则需各个复本同步更新,因此仍然需要进行远程访问。一个成功的分布式数据库的设计应使访问的局部性能更好。数据分布的目的是为了就地访问而不是分布访问。仲恺农业工程学院8.2.3数据分布数据分布包括分割和分配两个方面,可以描述为以下两个步骤:先从逻辑上将全局概念模式,即全局关系模式,划分成若干逻辑片段(子关系)——分割;再按一定的冗余度将片段分配到各个节点上,这时逻辑片段就成为具体的物理片段——分配。对分布式数据库分割后,仍应保持DDB原有的特质,所以分割后的各逻辑关系之间应遵循下列原则:(1)完整性原则。全局关系的所有数据必须包括在任何一个片段中,不允许出现某个数据属于全局关系,但却不属于任何片段。(2)重构性原则。所有片段必须能重构(逆操作)成全局关系。(3)不相交原则。不允许一个全局关系的某些数据既属于该全局关系的某一个片段又属于该全局关系的另一个片段。即要求一个全局关系被分割后得到的各个数据片段必须是相互不重叠的。仲恺农业工程学院8.2.3数据分布分割后的工作便是分配,分配的目标是将已分割好的片段分配到不同的场地中去,使得某节点对某片段的访问尽量为本地访问。分配的过程是线性的,亦即分割的输出是分配的输入。显然,分割与分配有着天然的联系,二者的区别仅在于分割着眼于全局,分配则考虑片段关系。数据分配一般有以下几种方式:(1)集中型。数据虽经划分,但所有逻辑片段完全集中在一个场地上,仍然像一个集中数据库一样。(2)分割型。数据被划分后,所有逻辑片段各自分配在一个场地上,所有场地上分配的只是全局关系的一个子关系。(3)混合型。数据被划分后的逻辑片段根据需要分配,共享的片段在需要共享的场地上重复设置,高度私用的片段只设置在所需要的场地上。仲恺农业工程学院8.3并行数据库系统

8.3.1并行结构模型8.3.2数据分置与数据偏斜仲恺农业工程学院8.3.1并行结构模型并行计算机是并行数据库的基础。1986年,美国学者M.Stonebraker提出了并行计算机的3种并行结构模型。(1)共享主存结构(SharedMemory)简称SM结构,也称全共享结构(SE-SharedEverything)。在此种结构中,各处理机通过共享主存通信,每个处理机都能访问任一存储单元和任一磁盘单元,处理机与存储器之间通过高速总线或交叉开关连接,如图8-5(a)。这是目前较成熟的结构,居市场主流。采用该结构的机器有IBM的IBM3090,BULL的DPS8,Sequent和Encore公司的对称多处理机等。该结构的优点是:结构简单、负载均衡、通信效率高。缺点是:维护开销大、可扩充性受限制、可用性低。建立在这种结构上的并行数据库系统有:XPRS、DBS3、Volcalno、IBM3090上的DB2等。仲恺农业工程学院8.3.1并行结构模型(2)共享磁盘结构(Shared-Disk)简称SD结构,如图8-5(b)。在此种结构中,每个处理机有自己的内存,通过高速互连网,可以访问任何磁盘。这种结构的优点是可扩充性好,负载均衡,维护开销不大,可用性较高。缺点是复杂度较高,潜在性能较低的问题。建立在该类结构上的并行数据库系统有IBM的IMS/VS数据共享产品,DEC公司的VAXDBMS和Rdb产品,以及在DECcluster和NCUBE计算机上的ORACLE数据库实现等。仲恺农业工程学院8.3.1并行结构模型(3)无共享结构(SharedNothing)简称SN结构,如图8-5(c)。这是一种松耦合系统,每个计算机系统通过高速网络互连,各计算机系统独占自己的主存与磁盘,这种结构的并行数据库本质上是一种分布数据库。无共享结构的优点很突出:它的扩充性好,增加新结点系统可平衡地增长,线性加速比好,在多个结点上复制数据,可增加系统可用性、可靠性,资源竞争对系统的干扰小,系统维护开销不大。而该结构的缺点是复杂度高,负载平衡难于达到,因为它依赖于数据库中数据的分割与放置。建立在该结构上的并行数据库有Teradata的DBC、Tandem的NonStopSQL产品以及原型系统BUBBA、EDS、GAMMA、GRACE、PRISMA等。仲恺农业工程学院8.3.1并行结构模型

(a)共享主存(b)共享磁盘

(c)无共享

图8-5并行结构模型仲恺农业工程学院8.3.2数据分置与数据偏斜1.数据分置类似于分布数据库中的数据分布,并行数据库中的数据如何分布到各结点的存储设备上去呢?这就是数据分置(DataPlacement)问题。它由数据划分和分配两部分组成。要把数据分置到不同结点上,首先要对数据进行划分(Partitioning),这类似于分布数据库中的全局关系分段。分段与分布是以用户使用数据的方式以及在什么结点使用为依据的。与此不同,并行数据库的用户查询并不与特定结点相联系,数据分置不考虑特定用户的特定应用,它的目标是有利于用户查询的并行处理。基本的数据分置方法有:轮回分置法(Round-Robin)、哈希分置法(Hash)、范围分置法(Range)以及多维数据分置法(Multi-Dimension)等。仲恺农业工程学院8.3.2数据分置与数据偏斜2.数据偏斜(DataSkew)数据偏斜是对并行执行效果有影响的数据分布不均匀的总称。Walton等人将数据偏斜分类如下:(1)属性值偏斜。这是数据集本身固有的。如我国人口信息中,民族属性的值分布不均,汉族比少数民族多得多。(2)元组分置偏斜。数据初始分置时使用哈希分置或范围分置方法由分置属性分布不均引起的。(3)选择性偏斜。由选择谓词时对每个结点的选择率不同引起的,它使选择操作在每个结点产生的结果大小不均。仲恺农业工程学院8.3.2数据分置与数据偏斜(4)重分置偏斜。在两次操作中间,对第一次操作的结果重新分置,供第二次操作使用。与元组分置偏斜类似,重新分置也可能引起数据偏斜。(5)连接结果偏斜。由结点间数据分置偏斜,连接选择率不同造成的。数据偏斜不能很好地发挥操作的并行性、负载的均衡性,显著地降低了并行数据库系统的性能。有些文章研究了抗数据偏斜的方法,减少数据偏斜对并行数据库的影响。仲恺农业工程学院8.4其他数据库

8.4.1模糊数据库8.4.2模糊演绎数据库8.4.3空间数据库8.4.4统计与科学数据库8.4.5时态和历史数据库8.4.6实时数据库8.4.7主存数据库8.4.8移动数据库8.4.9多媒体数据库8.4.10主动数据库8.4.11工程数据库仲恺农业工程学院8.5数据仓库8.5.1数据仓库概念和特点数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:仲恺农业工程学院8.5.1数据仓库概念和特点(1)面向主题。主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。(2)集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。(4)反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。仲恺农业工程学院8.5.2数据仓库的体系结构整个数据仓库系统是一个包含四个层次的体系结构,具体如图8-10所示。

图8-10数据仓库系统体系结构仲恺农业工程学院8.5.2数据仓库的体系结构数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。仲恺农业工程学院8.5.2数据仓库的体系结构数据的存储与管理:是整个数据仓库系统的核心。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论