14-1杨梅-计算机等级考试-三级数据库技术-精讲班-第13章 大规模数据库架构_第1页
14-1杨梅-计算机等级考试-三级数据库技术-精讲班-第13章 大规模数据库架构_第2页
14-1杨梅-计算机等级考试-三级数据库技术-精讲班-第13章 大规模数据库架构_第3页
14-1杨梅-计算机等级考试-三级数据库技术-精讲班-第13章 大规模数据库架构_第4页
14-1杨梅-计算机等级考试-三级数据库技术-精讲班-第13章 大规模数据库架构_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机等级考试三级数据库技术精讲班主讲老师:杨梅,第十三章大规模数据库架构,内容提要:1、了解分布式数据库技术2、了解并行数据库技术3、了解云数据库技术4、了解XML数据库技术,第十三章大规模数据库架构,1、分布式数据库系统概述分布式数据库系统与分布式数据库的区别:分布式数据库系统数据分布存储于若干场地,并且每个场地由独立于其它场地的DBMS进行数据管理。物理上分散、逻辑上集中的数据库系统。分布式数据库分布式数据库系统中各场地上数据库的逻辑集合。,第一节分布式数据库,2、分布式数据库目标与数据分布策略分布式数据库目标:12个目标:本地自治、非集中式管理、高可用性。(最基本特征)位置独立性、数据分片独立性、数据复制独立性。(分布透明性)分布式查询、事务管理。(复杂性)硬件独立性、操作系统独立性、网络独立性、数据库管理系统独立性。,第一节分布式数据库,数据分布策略:从数据分片和数据分配考虑数据分片(对关系操作)按一定规则将某一个全局关系划分为多个片断。四种基本方法:水平分片每个分片是原始关系所有数据行的子集合。垂直分片每个分片是原始关系所有数据列的子集合。导出分片导出水平分片。混合分片以上三种的混合。,第一节分布式数据库,垂直划分id,name,水平划分例:来自同一个城市的雇员位于一个分片将Chicago数据存储于场地Chicago。相当多的查询是本地查询,第一节分布式数据库,数据分配(对分片结果操作)将分片产生的片断分配存储在各个场地上。解决数据分配的方法:集中式所有数据片断安排在一个场地上。分割式所有全局数据有且只有一份,分割成若干被分配在特定场地上的片断。全复制式全局数据有多个副本,每个场地上有一个完整的数据副本。混合式介于分割与全复制式之间。,第一节分布式数据库,3、分布式数据库系统的体系结构,参考模式结构图,分布透明性分片透明性。用户无需考虑数据分片。位置透明性。用户只需考虑数据分片情况,无需考虑数据分片位置。局部数据模型透明性。用户既要了解全局数据的分片情况,还要了解各片断的副本复制情况及位置分配情况。,第一节分布式数据库,分布式数据管理系统结构图,GDBMS全局数据库管理系统GDD全局数据字典LDBMS局部数据库管理系统CM通信管理,4、分布式数据库的相关技术分布式查询用户与分布式数库系统的接口。分布式查询优化需考虑:操作执行的顺序。操作的执行算法(连接操作和并操作)。不同场地间的数据流动的顺序。,第一节分布式数据库,分布式事务管理主要包括:恢复控制基于两阶段的提交协议。并发控制基于封锁协议。,第一节分布式数据库,1、并行数据库概述并行数据库系统通过并行实现各种数据操作,如数据载入、索引建立、数据查询等,可以提高系统的性能。优势:增强的可用性:当存储某个关系的场地系统崩溃时,可继续使用存储在别的场地的副本。,第二节并行数据库,2、并行数据库系统结构实现并行DBMS的三种硬件结构:(1)共享内存系统(SharedMemory)(2)共享磁盘系统(SharedDisk)(3)无共享资源系统(SharedNothing)(4)层次结构(Hierachical),第二节并行数据库,(1)共享内存系统:多个cpu通过连接网络进行通信,并能访问公共的主存。随着CPU增加,造成内存冲突。,第二节并行数据库,(2)共享磁盘系统:每个cpu拥有自己的私有内存,并通过连接网络直接访问所有磁盘。通过网络实现CPU之间的数据交换,增加了通信代价。,第二节并行数据库,(3)无共享资源系统:每个cpu拥有自己的内存和磁盘空间,并无公共区域,cpu之间所有通信通过连接网络来完成。存在通信代价,非本地磁盘访问代价高。,大型并行数据库系统的最优结构,第二节并行数据库,(4)层次结构:前三种体系的结合。分为两层,顶层是无共享结构,底层是共享内存或共享磁盘结构。集成了以上三种结构的优缺点。,第二节并行数据库,3、数据划分与并行算法一维数据划分:将大数据集水平划分到多个磁盘上,可以通过并行读写有效地利用多磁盘的I/O带宽。(1)轮转法如果系统有n个cpu,将第i条记录划分到第imodn处理器的方法称为轮转划分方法。(2)散列法使用特定的哈希函数,作用于选定的属性,将记录划分到不同的处理机。(3)范围划分法首先对记录进行排序,然后按照排序码将其划分成n个区域,使每个区域中近似含有相同数目的记录,处于第i个区域的记录分布于处理机i。,第二节并行数据库,优势劣势:(1)轮转法可有效应用于需要访问整个关系的查询处理,当需要访问部分记录时,散列法和范围更优。(2)范围法可能会导致数据偏斜,也就是不同分片含有的记录数目差别很大。数据偏斜会造成存有大片数据分片的处理机的性能瓶颈问题。(3)散列法优点是:即使数据随时间增加或减少,也能保持均匀分布。,第二节并行数据库,多维数据划分:CMD多维划分法BERD多维划分法MAGIC多维划分法。,第二节并行数据库,并行算法:(1)并行排序:a.用区域划分法先将关系的所有记录重新分布再进行排序。b.每个cpu使用排序算法对分配给它的记录排序。每个处理机得到分配给它的所有记录的有序序列。c.通过按照区域划分的对应次序访问处理机得到完整的有序关系。,第二节并行数据库,例:employee按属性salary排序,salary的取值范围从10210,处理机数目201020的所有记录分布于处理机12130220021020,第二节并行数据库,难点:如何进行区域划分来使得每个处理机分布的记录数目近似相等。否则,对具有大量记录的处理机排序时将产生性能瓶颈,从而限制并行排序的可扩展性。,第二节并行数据库,(2)并行连接:假设:对关系A和B进行划分时,连接属性为age,关系初始分布在若干磁盘上,但不是基于连接属性分布的。方法:对关系A和B重新划分:把连接属性age的取值分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论