




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分布式数据库研究现状及发展趋势摘要 随着大数据、云时代的到来,数据库应用需求的拓展和计算机硬件环境的变化,使分布式数据库系统应运而生。为了符合当今信息系统的应用需求和企业组织的管理思想和管理模式。分布式数据库提供了解决整个信息资产被分裂所成的信息孤岛,为孤岛联系在一起提供桥梁。本文主要介绍数据库数据存储特点,以及分布式数据库灾备的实现方法。关键词 分布式数据库;发展趋势;现状及问题1. 引言当今社会已进入了信息时代,人们将越来越多的信息存储在网络中的计算机上。如何更有效地存储、管理、共享和提取信息,越来越引起人们的关注。随着大数据、云时代的到来,数据库应用需求的拓展和计算机硬件环境的变化,集中式数据库已经不能满足人们的需求,因此分布式数据库系统应运而生,并且得到迅速发展。分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。分布式数据库系统是由分布于多个计算机结点上的若干个数据库组成,,每个子数据库系统都是一个独立的数据库系统,它们都拥有各自的数据库、中央处理机、终端,以及各自的局部数据库管理系统,分布式数据库在使用上可视为一个完整的数据库 ,而实际上它是分布在地理分散的各个结点上,它的数据存储方式与集中式数据库系统不同,数据被分片并分散存储于网络中不同的存储节点之上,并且每一个分片都有2到3个副本,以保证数据可靠性,但每一个存储节点上都只有部分数据,没有一个存储节点存有这样将为分布式数据库灾备的实现带来挑战,传统的基于卷、基于集中存储、基于传统数据库的两地三中心解决方案将不再适用于分布式环境灾备的实现,本文将主要介绍分布式数据库数据存储特点,以及分布式数据库灾备的实现方法。 2. 分布式数据库数据存储特点分布式数据库是分布式数据库系统中各站点上数据库的逻辑集合。它对集中式操作系统进行了扩充。与集中式数据库一样,分布式数据库也是由两部分组成:一部分是关于应用所需要的数据的集合,称为应用数据库,它是分布式数据库的主体。另一部分是关于数据库中数据结构的定义,以及全局数据的分片、分布的描述、称为描述数据库,也称数据字典、数据目录或元数据。从分布式数据库的定义中,我们知道,所谓的分布式简单的说,就是把一个整体分成多个独立的个体,所以对于分布式数据库系统来讲,就是把一个大片数据分成多个独立的小数据存放在网络中的各个主机上,我们把这个过程就称为数据分片。在分布式数据库系统中 , 对数据的分片有以下几种方法:(1)水平分片所谓水平分片就是按一定的条件把全局关系的所有元组划分成若干不相交的子集 , 每个子集为关系的一个片段,简单地说,就是按关键字的特征来划分全局数据库。(2)垂直分片所谓垂直分片就是把一个全局关系的属性集分成若干子集,并在这些子集上作投影运算,每个投影称为垂直分片。在对数据库分片时,最好应避免出现过多的重复字段,但这种重复又是必要的,因为它们能够表达记特征,使局部数据库之间的记录能一一对应,这样的字段要求其值相对固,不要随意改动。(3)混合分片在分布式数据库应用中,仅仅进行单一的水平分片或垂直分片往往是不够的,在数据库设计的时候,一般都同时用到这两种方法,这就是混合分片的方法。所谓混合分片,简单地说就是以上两种方法的混合。可以先水平分片再垂直分片,或先垂直分片再水平分片,或其他形式,但他们的结果可能是不相同的。在对数据分片的过程中,并不是简单的水平,垂直分成多份就可以了,在分数据时必须有符合一定的要求和规则。比如:(1)完整性要求必须把全局关系的所有数据映射到片段中,决不允许有属于全局关系的数据却不属于它的任何一个片段 。(2)可重构要求必须保证能够由同一个全局关系的各个片段来重建该全局关系。对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系。即“化整为零”的数据,还要能够再“化零为整”。(3)不重复要求要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)。 数据分布是分布式数据库的又一特征,是指分布式数据库中的数据不是存储在一个站点的存储设备上,而是根据需要将数据划分成逻辑片段,按某种策略将这些片段分散在各个站点上。数据分布的策略主要有以下几种方法:(1)集中式:所有数据片段都安排在同一个场地上 。(2)分割式:所有数据只有一份,它被分割成若干逻辑片段,每个逻辑片段被指派在一个特定的场地上。(3)全复制式:数据在每个场地重复存储。也就是每个场地上都有一个完整的数据副本 。(4)混合式:这是一种介乎于分割式和全复制式之间的分配方式。3.分布式数据库灾备实现分布式数据库系统由分布于多个计算机结点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些结点上的子数据库。从分布式数据库数据存储方式可以看出,分布式在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个结点上。当然,分布在各个结点上的子数据库在逻辑上是相关的。由于分布式数据是分散存储的,整个数据库的数据被分散存储在不同的数据节点上,一份数据一般有三个副本,但对每一个存储节点来说,其数据并不完整,很难用传统的基于存储复制或CDP等技术来完成数据的实时复制,由于分布式数据库是近些年才发展起来的新技术,并没有通用软件可以完成不同分布式数据库数据复制的统一解决方案,需根据不同的分布式数据库采用相应的数据库复制软件来完成数据复制,但其原理基本相同,下面以达梦分布式数据库为例介绍分布式数据库实现两地三中心灾备的方法。3.1.两地三中心灾备架构针对两地三中心灾备建设的需求,达梦公司利用MPP集群架构系统和数据库同步软件(dmhs)软件同步数据,设计了典型的建设方案,能为海量数据核心业务生产系统,提供高可用解决方案,其两地三中心组网如下图所示。图:两地三中心架构图通过DMHS高效的数据同步可以以秒级的速度保持异地灾备中心的数据库系统(达梦)和同城灾备中心的同构备机数据库系统与生产数据库中心的主机数据库系统的数据一致性,并且符合实际的业务处理逻辑。当生产数据库中心的数据库系统无法提供服务时,可在异地灾备中心的数据库系统上及时接管业务,实现生产系统快速切换和恢复,保持业务连续并使数据损失最小化。DMHS采用从外部分析日志的方式,使得数据同步不需要对主机数据库进行复杂配置,对主机数据库系统几乎无影响,从而可以有效避免灾备系统对生产系统带来的性能影响。3.2两地三中心灾备实现原理达梦数据同步软件DMHS,通过秒级数据实时同步可以有效避免传统备份系统导致的无法完全满足企业对于信息系统不中断服务的问题;通过变化日志捕捉可以有效降低传统ETL工具因创建触发器、影子表等对业务系统带来的性能影响;通过可读写的备机数据库系统可以解决传统备机系统仅作为后备而无法对外提供数据服务的问题。DMHS的技术原理图如下所示。DMHS采用并行处理体系,能够实时读取主机源数据库日志,以较低的资源占用实现大批量的数据实时同步。在源端,DMHS采用优化的日志扫描算法实现目标数据的快速抽取。在目的端,DMHS使用数据库本地ODBC接口访问备机数据库系统,同时可以通过事务重组、分批加载等技术加快数据装载的速度和效率,降低备机数据库系统的资源占用。传输过程中,DMHS直接通过TCP/IP进行网络传输,无需依赖于数据库自身的传递方式,通过对传输对数据进行筛选和压缩,还可以进一步降低带宽需求。DMHS的数据同步以源数据库的事务为单位,严格按照主机业务系统事务顺序实施数据同步,保障备机数据库与主机数据库的事务级完整性和一致性,确保备机数据库符合主机业务系统事务逻辑。通过这种事务级粒度的数据一致性维护,使得备机数据库系统分担主机数据库系统上的业务负载成为可能。数据在传输过程中可能因为网络故障而导致传输中止。为保障数据传输的无丢失,DMHS使用检查点机制实现断点续传。断点包括两个部分,即DMHS前置的变化数据捕捉模块数据抽取位置检查点和DMHS主程序的数据装载模块的已装载位置检查点。DMHS的前置模块与主程序模块采取完备的消息应答机制来保障数据传输的可靠性和数据完整性。前置模块只有在得到确认消息后才认为数据传输完成,否则将自动重新传输数据。从而确保了灾备数据的完整性。3.3两地三中心灾备解决方案特点 可实现同城双活:与传统仅作为后备而无法对外提供数据服务的备机系统不同,DMHS的备机数据库系统是一套独立的可读写数据库系统。通过高可靠的数据传输,DMHS备机数据库系统中的数据可以在业务处理逻辑上与主机系统完全保持一致。应用系统通过简单配置,就可以使用DMHS的备机系统分担主机业务系统上的负载,提高业务系统效率。同时,根据实际业务需要,还通过DMHS的备机系统还可以实现生产型业务与分析型业务的完全隔离双业务中心,提高应用系统整体性能。 体系结构高可扩展:DMHS的开放式体系结构使其能够适应各种异构数据平台。系统安装部署简单但功能强大,可以根据用户需求采用非常灵活的方式配置出各种拓扑结构,包括一对一同步 、一对多广播型同步 、多对一聚合型同步 、多对多同步以及级联同步等多种数据同步形式,满足用户的各种复杂数据同步需求。 支持数据复制压缩和加密:DMHS支持同步数据可筛选、数据过滤和简单的数据转换,实现满足业务需求的按需同步,有效的降低网络通信代价和存储成本。DMHS数据筛选通过用户在需要同步的表上定义过滤和转换规则来实现。DMHS还可和DMETL结合,实现更为复杂的数据清洗。DMHS还
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 细胞分化与癌变衰老机制研究
- 小儿热性惊厥讲解
- 心脏结构图讲解
- 设施葡萄种植技术
- 学生特色发展汇报
- 社区协商案例汇报
- 小龙虾养殖技术
- 素描第一课讲解
- 医院火灾应急预案
- 2026届云南省昭通市化学高一第一学期期中检测模拟试题含解析
- 电影院财务管理制度
- 公司内部事故管理制度
- 2025年颁布的《政务数据共享条例》解读学习培训课件
- 外耳道冲洗技术课件
- 2025年风险管理师资格考试试题及答案
- 军区医院保密管理制度
- 异地恢复造林合同范本
- DB32/T+5124.5-2025+临床护理技术规范+第5部分:成人危重症患者有创机械通气气道湿化
- 香港借壳上市协议书
- 2025年医疗企业税收政策对企业数字化转型策略研究
- 三级高频词汇必背
评论
0/150
提交评论