MPP分布式数据库及应用场景分析课件_第1页
MPP分布式数据库及应用场景分析课件_第2页
MPP分布式数据库及应用场景分析课件_第3页
MPP分布式数据库及应用场景分析课件_第4页
MPP分布式数据库及应用场景分析课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LOGOMPP数据库及应用场景分析第1页,共24页。目录MPP数据库解决方案及应用场景分析03.MPP数据库架构02.MPP数据库概念01.第2页,共24页。01MPP数据库概念第3页,共24页。MPP数据库概念Interconnection Network传统关系型数据库MPP分布式数据库问题一:传统数据库无法处理不断增长的海量数据,5-10T基本是其能处理的最大量;问题二:传统数据库为事务处理而设计,记录数据的增删改查,无法应对不断增长的分析型应用需求;集中式架构分布式架构MPP数据库:MPP即大规模并行处理,将数据和任务并行的分散到多个独立的服务器节点上,在每个节点上计算完成后,将各自部

2、分的结果汇总在一起得到最终的结果,采用MPP架构的数据库称为MPP数据库。MPP核心思路:蚂蚁搬家,群策群力;分而治之处理海量数据,并行处理提高处理效率。数 据MPP数据库特点:易用,完美支持标准SQL和传统数据库用法一致;快,对结构化数据做查询与分析非常快。第4页,共24页。为大数据分析而生的关系型数据库传统关系型数据库MPP分布式分析型数据库CPUMemoryDisk纵向扩展挑战可扩展能力差,无法应对海量数据;分析能力偏弱;处理数据类型单一;MPP解决方案利用分布式技术支持横向扩展,对海量数据进行分而治之;专注分析业务,并行处理,提升性能;支持丰富的数据类型,结构化、半结构化、文本数据、G

3、IS数据;MPP的特点低硬件成本普通工业服务器(X86)即可,无需昂贵的专用设备;横向扩展能力可扩展到上千个节点,处理PB级海量数据;易用性好完美支持SQL,继承了关系型数据库的开发和运维使用习惯;高性能查询分析并行处理,列式存储提供高性能的查询分析能力;支持ACID特性第5页,共24页。MPP数据库定位分析数据类型:结构化和半结构化针对场景:OLAP实时性:要求高数据大小:TB到10PB之间ACID &实时性扩展能力结构化半结构化非结构化OldSQL(oracle/DB2/SQL Server)HadoopNoSQLNewSQL/MPP(MPP/Greenplum/Teradata)第6页,

4、共24页。02MPP数据库架构第7页,共24页。关系型数据库架构演变历程Share Everthing 架构Share Disk 架构Share Nothing 架构CPUMemoryDisk纵向扩展CPUMemoryDiskCPUMemoryCPUMemorySAN/共享存储概念:单机关系型数据库,CPU、内存、磁盘是完全共享的;优点:技术成熟、架构简单、部署运维便捷;缺点:可扩展性差,并行处理能力弱,高可用性不佳,处理数据量小;场景:适用于OLTP,小规模关系型数据OLAP;典型代表:Oracle、MySQL;概念:每台Server都有自己的CPU和内存,但共享磁盘系统;优点:高可用(负载

5、均衡、秒级故障切换、集群自动监控);缺点:可扩展性较差,通常不超过10节点,处理数据量较小;场景:适用于OLTP,小规模关系型数据OLAP;典型代表:Oracle RAC、DB2 PureScale;概念:各个处理单元都有自己私有的CPU/内存/硬盘等,不共享任何资源;优点:大规模横向扩展,并行处理能力强,高可用,处理大量数据;缺点:管理运维相对较复杂,对网络带宽要求高;场景:适用于高并发的OLTP业务,大数据的OLAP业务;典型代表:MPP,GreenPlum;第8页,共24页。MPP分布式数据库架构MPP架构横向扩展Interconnection Networkmemorymemoryme

6、mory数 据低硬件成本普通工业服务器(主要是X86)即可,无需昂贵的专用设备良好的横向扩展能力可以通过横向扩展服务器节点数,线性的提升处理能力易用性好完美支持标准SQL,大幅度降低大数据分析门槛高效的数据加载能力多节点并行加载数据,显著提升数据加载能力海量数据处理提供PB级大数据处理能力高性能查询分析并行处理,列式存储提供高性能的查询分析能力第9页,共24页。MPP 分布式数据库架构MPP分布式数据库采用Shared-Nothing架构,Master节点接收用户下发的命令生成执行计划后下发给存储Segment节点执行,节点间通过内部网络进行通信可扩展至数百节点,从而实现海量数据的高性能SQL

7、分析功能。物理拓扑逻辑架构第10页,共24页。MPP 分布式数据库横向扩展Shared Nothing + MPP集群性能随节点数增加呈近似线性关系,可轻松扩展到上千节点,处理PB级海量数据Scale out (MPP)Scale up (SMP)扁平,对等高扩展能力MPP集群更高性能节点高性能+高扩展能力第11页,共24页。列式存储和计算可节省近2个量级CPU和I/O资源消耗,分析查询性能比传统行式数据库快50到1000倍。同时,CPU和I/O资源的大幅节约,也大幅提升了数据装载、数据导出、数据处理和备份恢复等操作的性能。用户ID0000000100000002000000030000000

8、40000000500000006日期2019/04/022019/04/032019/04/042019/04/042019/04/052019/04/06价格120.34234.50345.21100.0099.99129.99编码信息323432453456643275443748746352584485933494532745第12页,共24页。主动压缩00000010224101019254950515267687012.3433.011.2777.223.4931.253444956.5024.5152.9274.26152.4989.232019/06/0

9、12019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/0112.3433.011.2777.223.4931.253444956.5024.5152.9274.26152.4989.23日期用户ID价格Run-lengthEncodingDeltaEncodingFloatCompression101062060203080% 10% 20% 30% 40% 50% 60% 70% 80%

10、 90% 100%ClickstreamAudiiTradingSNMPNetwork LogsMarketingConsumerCDR根据数据类型、基数、排序自动进行数据压缩第13页,共24页。多种排序和分布方式存储、实时和批量数据加载、实时聚合、自动宽表实时分析架构ABCDEFGHProjections排序、编码压缩(和分布)批量处理和快速分析批量数据实时流ABDCEABDDim1Dim2Dim3Dim4FactFlattened(自动宽表)实时分析高并发高性能实时聚合高并发高性能实时关联实时聚合Asumcnt第14页,共24页。分级存储为不同的Schema、表等对象、以及表分区指定不同的

11、存储策略,指定不同的存储位置。不同的存储位置的可以采用不同性能、成本和容量的存储介质,例如SSD、SAS、SATA磁盘或NAS、HDFS等分布式存储,从而优化存储成本。支持把部分表和表分区备份到离线存储,以及从离线存储中恢复,这大大加快了数据在在线存储与离线存储间的交换速度,提升了在线设备的利用率和业务价值第15页,共24页。大规模并行数据处理计算高速数据导入与导出主节点不是瓶颈线性扩展低延迟加载后立刻可以使用不需要中间存储不需要额外数据处理导入/导出 到&从:文件系统任意ETL产品Hadoop发行版ETLInformaticaKettleKafkaFile Systemsmemorymemo

12、rymemorymemory.Interconnection NetworkSQL 请求外部数据源数据节点存储数据&查询处理Interconnect主节点查询优化和调度第16页,共24页。MPP分布式数据库部署方式memorymemorymemorymemoryinterconnectMasterMaster Standby第17页,共24页。03MPP数据库解决方案及应用场景分析第18页,共24页。MPP分布式数据库解决方案本地文件系统Spark内存存储自定义存储HDFS其他关系型数据库ETLKafka结构化数据JSON、Apache AVRO、Apache Parquet、XML等 MPP

13、 +Share Nothing架构PB级大数据处理能力完美的SQL标准支持行列混存查询优化器工作负载管理库内机器学习GIS数据处理ADO.NET/VSQL/ODBC/JDBC/OLEDBANSI SQL编程语言Python/R/Java/Perl/CSQL用户程序商业智能报表工具机器学习人工智能IT人员数据科学家开发人员业务分析师数据源和数据通道数据类型SeaSQL MPP分布式数据库原生应用接口数据分析应用用户第19页,共24页。MPP分布式数据典型方案主题库数据集市数据集市数据集市主题库主题库主题库交互式查询多维分析统计分析预测分析时序分析地理分析MPP数据仓库决策支撑趋势把握未来预测关键

14、信息,快速查询BI报表、用户画像、自助分析等未来预测、风险规避数据存储&分析数据展示&价值互联网传感器日志流数据DataEngine DI数据集成RDB互联网文本日志批数据RDB数据源第20页,共24页。Hadoop+MPP分布式数据典型方案业务应用故障预警日志分析设备预测性维护精准查询安全生产大屏报表KafkaFlumeSqoop数据采集HDFSHBaseYARNStormSparkFlinkHiveHadoop平台MPPRDB互联网传感器日志第21页,共24页。MPP分布式数据库 VS Hadoop平台对比项MPP分布式数据库Hadoop平台数据量级TB到10PB级TB到数百PB级数据类型

15、结构化为主,半结构化数据结构化、半结构化、非结构化可扩展性较高,达上千个节点高,可达上万个节点实时性亚秒、秒、分钟级分钟、小时级易用性易用性好,简单友好的SQL接口和简单可解释的数据库内函数门槛相对较高,系统维护、优化和开发相对较复杂,函数通常需要用Java编写,编译并放在集群中事务支持完整有限技术体系一项单独的技术Hadoop 是一个生态系统,集成了众多的组件,如HDFS、Spark、Hive、Kafka、HBase等,且不断有组件新增进来应用场景离线批处理,复杂逻辑的实时查询,实时分析,交互式查询与分析,常用于需要快速查询分析的业务,业务报表,数据仓库建设等;离线计算:常用于海量结构化数据的批量计算、指标汇总计算、数据挖掘等场景;实时&流计算:实时数据、流数据的实时计算;全文检索:常用于海量非结构化文件、日志等数据的实时检索场景;MPP和Hadoop不是替代关系,而是相互补充的关系第22页,共24页。MP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论