《GreenPlum数据库》PPT课件.ppt_第1页
《GreenPlum数据库》PPT课件.ppt_第2页
《GreenPlum数据库》PPT课件.ppt_第3页
《GreenPlum数据库》PPT课件.ppt_第4页
《GreenPlum数据库》PPT课件.ppt_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

GreenPlum数据库介绍,杜波2015.03.30,GREENPLUM简介 大规模存储 GREENPLUM数据分布策略 并行加载数据 MapReduce&SQL一体环境 GREENPLUM中的高可用方案 分析型应用体系架构 GREENPLUM方案的优势 GREENPLUM的应用场景,目录,GREENPLUM简介,GREENPLUM简单的说它就是一个与ORACLE, DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。 本质上讲GREENPLUM是一个关系型数据库集群。它实际上是由数个独立的数据库服务组合成的逻辑数据库。与RAC(real application clusters实时应用集群)不同,这种数据库集群采取的是MPP(massively parallel processing大规模并行处理系统)模式。 Greenplum是一种基于postgresql(开源数据库)的分布式数据库。其采用shared nothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。,GREENPLUM简介,Network Interconnect,.,.,Master 节点 生成查询计划并派发 汇总执行结果,Segment 节点 执行查询计划及数据存储管理,SQL MapReduce,外部数据源 并行装载或导出,GreenPlum主要由master host,segment host,interconnect三大部分组成。,GREENPLUM简介,Master节点:是整个系统的控制中心和对外的服务接入点,它负责接收用户SQL请求,将SQL生成查询计划并进行并行处理优化,然后将查询计划分配(dispatch)到所有的Segment节点进行并行处理,协调组织各个Segment节点按照查询计划一步一步地进行并行处理,最后获取到Segment的计算结果,再返回给客户端;从用户的角度看Greenplum集群,看到的只是Master节点,无需关心集群内部的机制,所有的并行处理都是在Master控制下自动完成的。Master节点一般只有一个或两个(互为备份)。 Interconnect:是Master节点与Segment节点、Segment节点与Segment节点之间的数据传输组件,它基于千兆交换机或万兆交换机实现数据在节点间的高速传输。 Segment节点:是Greenplum执行并行任务的并行运算节点,它接收Master的指令进行MPP并行计算,因此所有Segment节点的计算性能总和就是整个集群的性能,通过增加Segment节点,可以线性化得增加集群的处理性能和存储容量,Segment节点可以是110000个节点。,GREENPLUM简介,Greenplum数据库通过将数据分布到多个节点上来实现大规模数据的存储。数据库的瓶颈经常发生在I/O方面,数据库的诸多性能问题最终总能归罪到I/O身上,久而久之,IO瓶颈成为了数据库性能的永恒的话题。 Greenplum采用分而治之的办法,将数据规律的分布到节点上,充分利用segment主机的IO能力,以此让系统达到最大的IO能力(主要是带宽)。 在greenplum中每个表都是分布在所有节点上的。Master host首先通过对表的某个或多个列进行hash运算,然后根据hash结果将表的数据分布到segment host中。整个过程中master host不存放任何用户数据,只是对客户端进行访问控制和存储表分布逻辑的元数据。,大规模存储,GreenPlum数据分布策略,随机分布:数据随机分布在数据库,每次查询都会查询所有的 segment,Hash分布:哈希值相同的记录在同一个Segment节点,并行数据加载,并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源 并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间 增加Segment和ETL Server,并行加载速度呈线性增长,MapReduce&SQL一体环境,GreenPlum将SQL和MAPREDUCE的功能整合到统一的数据处理框架中,当配置了segment mirror,当segment primary不能写的时候,greenplum会自动切换到mirror。当master不能连接到一个segment instance时,会把这个instance标记为invalid。 当主用Master出故障时,热备份Master节点承担它工作。热备份Master节点通过复制进程,保持与Master的交易日志同步,Segment的mirror,默认情况下,greenplum的失败操作模式是“read-only“模式,也就是说如果一个segment坏了,整个greenplum会变成只读,不能写了。如果模式是“continue”模式时,一个segment坏了的时候,数据库仍然可以继续工作。但由于segment的primary与mirror端的数据不同步了,所以恢复的时候需要花比较长的时间。对于Greenplum 3.X的版本,恢复时,需要把好的节点上的所有数据都copy到坏的机器上。而Greenplum4.0版本增加了功能,当备份节点坏的时候,主节点可以把增量数据记下来,这样当备份节点的主机恢复时,只需要恢复增量数据就可以了。 要让原先已offline的节点再加入集群中,需要重启集群。 对于Greenplum 3.X的版本,segment 的primary与mirror之间是做的逻辑同步,mirror端的数据库实际上也是可以读写的。而Greenplum4.0版本后,primary与mirror实际上是物理同步,这时mirror一直处于恢复状态,不能读也不能写。,Greenplum中的高可用方案,分析型应用体系架构,Greenplum方案的优势,现在的解决方案投资,Greenplum方案投资,易用性 - 并行处理由系统自动完成 无需人工干预 - 没有复杂的调优需求 只需加载数据库和查询 扩展性 - 可线性扩展到10,000个节点 - 每增加一个节点,查询、加载性能都成线性增长 灵活性 - 完全并行处理支持SQL92, SQL99, SQL2003 OLAP,列数据库,透明压缩, MapReduce - 支持任何schema (star, snowflake, 3NF, hybrid, etc) - 丰富的扩展性和语言支持(Java , Perl, Python, R, C, etc),Greenplum方案的优势,营销支撑、客户管理,数据仓库, BI,ODS,数据集市,数据挖掘,经营分析,网络分析,知识库管理,成本效益分析等项目 可以高效、低成本的存储、访问当前及历史数据 - 利用Greenplum最低的TB数据成本(高性价比) - 利用Greenplum高效的数据加载能力,迅速将长期积累的数据入库 - 利用Greenplum的并行数据流技术,将企业遗留的文件数据加工入库 - 利用Greenplum的并行数据流技术,进行统计、访问和加工分析 需要结合数据库并行处理外部数据 - 数据非常难以加工处理成数据库表数据来存放(非结构化数据) - 需要专用的处理程序处理(MapReduce) - 处理结果适合数据库保存,或者需要结合数据库数据进行分析,Greenplum的应用场景,16,16,王侃 说: (2010-09-16 14:05:40) 圆圆 部门规划给你弄了吗 时文鸿-北京 说: (2010-09-16 14:06:38) 正在弄。 时文鸿-北京 说: (2010-09

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论