分布式数据库系统(1)_第1页
分布式数据库系统(1)_第2页
分布式数据库系统(1)_第3页
分布式数据库系统(1)_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分布式数据库系统( 1)胡经国本文作者的话本文是根据有关文献和资料编写的漫话云计算系列文稿之一。以此作 为云计算学习笔录,供云计算业外读者进一步学习和研究参考。希望能够得到 大家的指教和喜欢!下面是正文一、分布式数据库系统概述1、概述一分布式数据库( Distributed Database, DDB )是指数据分散存储在计算机网 络中的各台计算机上的数据库。分布式数据库系统(Distributed DatabaseSystem, DDBS)通常使用较小的计算机系统,每台计算机可单独放在一个地方;每台计算机中都可能有DBMS(数据库管理系统)的一份完整拷贝副本,或者部分拷贝副本,并具有自己局

2、部的数据库;位于不同地点的许多计算机通过网络互相连接,共同组成一个完 整的、全局的、逻辑上集中、物理上分布的大型数据库系统。2、概述二分布式数据库,是指利用高速计算机网络,将物理上分散的多个数据存储 单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想,是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问 量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展。传统的关系型数据库开始从集中式模型向分布式架构发展。基于关系型的分布式数据库,在保留传统数据库的数据模型和基本特征前提下,从集中式存储走向分布式存储,从集中

3、式计算走向分布式计算。另一方面,随着数据量越来越大,关系型数据库开始暴露出一些难以克服的缺点。以NoSQL 为代表的、具有高可扩展性、高并发性等优势的非关系型数据库快速发展;一时间市场上出现了大量的key-value (键值)存储系统、文档型数据库等NoSQL 数据库产品。 NoSQL 类型数据库正日渐成为大数据时代下分布式数据库领域的主力。这种按分布式组织数据库的方法克服了物理中心数据库组织的弱点。首先,降低了数据传送代价。因为,大多数对数据库的访问操作都是针对局部数据库的,而不是针对其他位置的数据库访问。其次,系统的可靠性提高了很多。因为,当网络出现故障时,仍然允许对局部数据库的操作,而且

4、一个位置的故障不影响其他位置的处理工作。只有当访问出现故障位置的数据时,在某种程度上才受影响。第三,便于系统的扩充。增加一个新的局部数据库,或在某个位置扩充一台适当的小型计算机,都很容易实现。然而,有些功能要付出更高的代价。例如,为了调配在几个位置上的活动,事务管理的性能比在中心数据库时花费更高,而且甚至抵消许多其他的优点。二、分布式软件系统分布式软件系统(Distributed Software Systems, DSS),是支持分布式处 理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括:分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式

5、数据库系统等。、分布式操作系统分布式操作系统( Distributed Operating System, DOS ),负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别,在于资源管理、进程通信和系统结构等方面。、分布式程序设计语言分布式程序设计语言( Distributed Programming Language, DPL ),用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序,由若干个可以独立执行的程序模块组成;它们分布于一个分布式处理系统的多台计算机上被同时执行。它与集中式的程序设计语言相比,有以下三个特点:分布性、通信性和稳健性。、分布式文件系统分布式

6、文件系统(Distributed File System , DFS),具有执行远程文件存 取的能力,并以透明方式对分布在网络上的文件进行管理和存取。、分布式数据库系统分布式数据库系统(Distributed DatabaseSystem, DDBS),由分布于多个 计算机结点上的若干个数据库组成。它提供有效的存取手段来操纵这些结点上的子数据库。分布式数据库在使用上可视为一个完整的数据库,而实际上它是分布在地理上分散的各个结点上的。当然,分布在各个结点上的子数据库在逻辑上是相关的。Hadoop的分布式文件系统HDFS,作为开源的分布式平台,为目前流行的很多分布式数据库提供了支持,譬如 HBas

7、e 等。 Yonghong 的分布式文件系统ZFS,为分布式数据集市Z-DataMart提供了底层平台。链接: Hadoop 与 HDFS 和 MapReduceHadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以 在不了解该分布式系统基础架构的底层细节的情况下,开发分布式程序;充分利用集群的威力,进行高速运算和存储。Hadoop 实现了一个分布式文件系统( Hadoop Distributed File System, HDFS )。 HDFS 有高容错性的特点,并且设计用来部署在低廉的( low-cost) 硬件上;而且它提供高吞吐量(high throughp

8、ut:)来访问应用程序的数据,适合 那些有着超大数据集(large data set:)的应用程序。 HDFS放宽了( relax) POSIX的要求,可以以流的形式访问(streaming access流媒体访问)文件系 统中的数据。Hadoop 的架构最核心的设计就是: HDFS 和 MapReduce。 HDFS 为海量数 据提供了存储,而MapReduce则为海量数据提供了计算。MapReduce是一种编程模型,用于大规模数据集(大于仃B)的并行运算。概念« Map (映射)”和“ Reduce (归约)”,和它们的主要思想,都是 从函数式编程语言里借来的;还有从矢量编程语言

9、里借来的特性。它极大地方 便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系 统上。当前的软件实现是指定一个Map (映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的 Reduce (归约)函数,用来保证所有映射的键 值对中的每一个共享相同的键组。三、分布式数据库系统主要特点在大数据时代,面对海量数据量的井喷式增长和不断增长的用户需求,分 布式数据库系统必须具有如下特征,才能应对不断增长的海量数据。1、高可扩展性分布式数据库系统必须具有高可扩展性,能够动态地增添存储节点以实现 存储容量的线性扩展。2、高并发性分布式数据库系统必须及时响应大规模用户的读写请求,能对海

10、量数据 进行随机读写。3、高可用性分布式数据库系统必须提供容错机制,能够实现对数据的冗余备份,保证 数据和服务的高度可靠性。四、分布式数据库系统优点在大数据时代,面对日益增长的海量数据,传统的集中式数据库系统的弊 端日益显现,分布式数据库系统相对传统的集中式数据库系统具有如下优点:1、更高的数据访问速度分布式数据库系统为了保证数据的高可靠性,往往采用备份的策略实现容错机制。所以,在读取数据的时候,客户端可以并发地从多个备份服务器同时读取,从而提高了数据访问速度。2、更强的可扩展性分布式数据库系统可以通过增添存储节点来实现存储容量的线性扩展,而集中式数据库系统的可扩展性十分有限。3、更高的并发访问量分布式数据库系统由于采用多台主机组成存储集群,所以相对集中式数据库系统,它可以提供更高的用户并发访问量。五、分布式数据库系统功能结构分布式数据库管理系统( DBMS )软件结构包括AP 模块、 CM 模块和 DP模块。以下对各模块功能进行简要描述:1、 AP 模块功能包括用户接口、查询处理、全局事务管理及全局字典管理和全局恢复管理。、用户接口检查用户身份,接受用户命令,如 SQL 命令。、全局查询处理将用户命令翻译成数据库命令;生成全局查询的分布执行计划;收集局部执行结果并返回给用户。、全局事务管理调度、协调和监视AP 模块和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论