MPP数据库对比总结_第1页
MPP数据库对比总结_第2页
MPP数据库对比总结_第3页
MPP数据库对比总结_第4页
MPP数据库对比总结_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、MPP数据库对比总结公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTl-1概述随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性,低 成本,高端可扩展性等需求给企业数据战略带来了巨大的挑战。企业数据仓库、 数据中心的技术选型变得尤其重要!所以在选型之前,有必要对目前市场上各种 大数据量的解决方案进行分析。2主流分布式并行处理数据库产品介绍 2 1 Greenplum2. 1.1基础架构GreenPIUm是基于HaclOOP的一款分布式数据库产品,在处理海量数据方面相比传统数据库有着较大的优势。GreenPIUnI整体架构如下图:MaSterSeVerSO

2、VX2 、/、/NetWOrkSegmen t勰IrC需尿数脇徹数据库由 MaSter SeVerS 和 Segment SeVerS 通过 InterCOnneCt 互联组成。MaSter主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计 划;执行计划向Segment的分发收集Segment的执行结果;MaSter不存储业务数 据,只存储数据字典。Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。2. 1. 2主要特性GreenPIUm整体有如下技术特点:Shared-nothing 架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己

3、的 操作系统、数据库、硬件资源,节点之间通过网络来通信。基于 gNet SOftware Interconnect数据库的内部通信通过基于超级计算的“软件Switch”内部连接层,基于通 用的gNet (GigE, IOGigE) NICs/SWitCheS在节点间传递消息和数据,釆用高 扩展协议,支持扩展到1000个以上节点。并行加载技术利用并行数据流引擎,数据加载完全并行,加载数据可达到4。5T/小时(理 想配置)。并且可以直接通过SQL语句对外部表进行操作支持行、列压缩存储技术海量数据库支持ZLIB和QUlCKLZ方式的压缩,压缩比可到10: 1。压缩数据 不一定会带来性能的下降,压缩表

4、通过利用空闲的CPU资源,而减少I/O资源占 用。海量数据库除支持主流的行存储模式外,还支持列存储模式。如果常用的查 询只取表中少量字段,则列模式效率更高,如查询需要取表中的大量字段,行模 式效率更高。海量数据库的多种压缩存储技术在提高数据存储能力的同时,也可根据不同应用需求提高查询的效率2. 1. 3主要局限列存储模式的使用有限制,不支持delete/UPdate操作。用户不可灵活控制事务的提交,用户提交的处理将被自动视作整体事务, 整体提交,整体回滚。数据库需要额外的空间清理维护(VaCUUm),给数据库维护带來额外的工 作量。用户不能灵活分配或控制服务器资源。对磁盘IO有比较高的要求。备

5、份机制还不完善,没有增量备份。2 2 Vertica2. 2.1基础架构与以往常见的行式关系型数据库不同,VertiCa是一种基于列存储(COIUmn-Oriented)的数据库体系结构,这种存储机构更适合在数据仓库存储 和商业智能方面发挥特长。常见的RDBMS都是面向行(ROW-Oriented DatabaSe)存储的,在对某一列 汇总计算的时候儿乎不可避免的要进行额外的I/O寻址扫描,而面向列存储的数 据库能够连续进行I/O操作,减少了 I/O开销,从而达到数量级上的性能提升。同时,VertiCa支持海量并行存储(MPP)架构,实现了完全无共享,因此 扩展容易,可以利用廉价的硬件来获取高

6、的性能,具有很高的性价比。如下图,展示的是单节点上的VertiCa的基本体系结构。VertiCa体系结构作为关系型数据库,VertiCa的查询SQL也是在前端被解析和优化的。但与 传统的关系型数据库有所不同,VertiCa内部是混合存储的,包括两种不同的存 储结构:写优化器(WOS)和读优化器(ROS) o(1) 写优化器 WOS (Write0pt imized StOre )是位于主存储器上的一个数据结构,用于有效的支持数据插入和更新操作; 数据的存放是无序的,非压缩的。(2) 读优化器 ROS (Reaei-OPtimiZed StOre )是磁盘物理存储,存放的是排序和压缩后的数据库大

7、块数据,因此这里的查 询相比于WoS性能更好。(3) TUPIe MOVer 进程是VertiCa内部的一个进程,定期的以大数据块的形式把数据从WOS移到 ROS,由于是对整个WoS操作,TUPIeMoVer 一次能非常有效的排序很多记录,最 后批量把它们写入磁盘。在VertiCa内部,不论是WoS还是RoS都是按列存储的。2. 2. 2主要特性Vertica的关键特性:1 列存储(COIUmn-OrientatiOn)由于大多数的查询都是要从磁盘读取数据,因此可以说disk I/O在很大程 度上决定了一个查询的最终响应时间。2 压缩机制(AggreSSiVe COmPreSSiOn)在数据存

8、储方面,VertiCa利用内部的特定算法对数据进行压缩处理。这样 的机制会大大减少disk I/O的时间(D),同时由于VertiCa对扫描和聚合等 操作也在内部进行了优化,可以直接处理压缩后的数据,这样CPU的工作负载(C)也减少了。如上例中的AVG聚合函数,VertiCa是不需要将压缩数据先做 类似解压这种处理的,因此查询性能得到优化。3 读优化存储(Read-OPtiIniZed StOrage)VertiCa的数据库存储容器RoS COntainer专门为读操作进行了优化设计, 且其中的数据是经过了排序和压缩处理的,即每个磁盘页上不会有空白空间,而 传统的数据库一般会在每页上预留空间以

9、便日后的insert操作来使用。4多种排序方式的兀余存储为了高可用性和备份恢复的需要,VertiCa会按照不同的排序方式对数据做 冗余存储,这不但避免了大量的日志操作,也为查询带来了便利。VertiCa的查 询优化器会自动选择最优的排序方式来完成特定的查询。5并行无共享设计VertiCa支持完全无共享海量并行存储(MPP)架构,随着硬件SerVer的增 加,多个CPU并行处理,性能也可以得到线性的扩展,这样用户使用廉价的硬件 就可以获得较高的性能改善。6其他管理特征除了有优越的性能以外,VertiCa在数据库管理方面也进行了非常人性化的 设计。VertiCa DatabaSe DeSigner

10、是一个界面化的常管理工具,并且能为用户 作出详尽的DB层物理设计方案,大大减少了日后的性能调优方面的开销。VertiCa通过K-Safety值的设置,完成了数据库的备份恢复机制,并保证 了高可用性。对于数据库中的每个表每个列,VertiCa都会在至少K+1个节点上 存储,如果有K个节点宕机,依然能够保证VertiCa DB是完整可用的;当损坏 的节点恢复时,VertiCa自动完成节点间的热交换,把其他节点上的正确数据恢 复过来。通过这种机制也保证了 VertCia库的节点数目可以自由伸缩而不会影响 到数据库的操作。VertiCa通过两种技术来实现在线的持续数据装载而不会影响到数据库的访 问。V

11、ertiCa通常运行在快照隔离(SnaPShOt ISOIatiOn)模式下,该模式下查 询读取的是最近的一致的数据库快照,这个快照是不能被并发的UPdate或 delete操作更改的,因此查询操作也不需要占用锁,这种方式保证了数据装载 (insert)和其他查询能互不干扰。另外,VertiCa可以把数据直接装载到WoS 结构中,WOS中的数据是不排序或索引的,所以装载速度会很快,然后再由 TUPIe MOVer进程在后台把数据移入RoS中,由于TUPIeMOVer的操作是大块读 取(bulk-IOad)的,所以性能也很好。2. 2. 3主要局限不支持SQL存储过程及函数,用户需通过UDFS

12、(USer DefinedFUnCtion,基于C+)来自定义函数或过程。 软件授权按原始未经压缩的裸数据量计算。列存储的一些劣势,复杂查询等性能不理想。对内存有比较高的要求。在国内还没有成功案例。2. 3 Sybase IQ2. 3. 1基础架构SYBASE IQ是SybaSe公司推出的特别为数据仓库设计的关系型数据库。SYBASE IQ的架构与大多数关系型数据库不同,它特别的设计用以支持大量并发 用户的即席查询。其设计与执行进程优先考虑查询性能,其次是完成批量数据更 新的速度。而传统关系型数据库引擎的设计既考虑在线的事务进程乂考虑数据仓 库(而事实上,往往更多的关注事务进程)。SybaSe

13、在2010年推出的SybaSe IQ就采用了全共享架构的PIeXQ技术, 该技术重新定义了企业范围的业务信息,全共享架构可轻松支持涉及海量数据 集、海量并发用户数和独特工作流程的多种复杂分析样式,大大增加了其效益。 与其他MPP解决方案不同,SybaSe IQ的PIeXQ网格技术能够动态管理可轻松 扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作量,从而使 其能够以更低的成本更轻松地支持口益增长的数据量以及快速增长的用户社区。SybaSe IQ采用业内领先的MPP列式数据库和最先进的数据库内分析技术, 并革命性地加入MaPReeIUCe与HadOOP集成,以应对大数据时代的分析挑战

14、,开 启洞察关键业务的能力。SybaSe IQ正在打破数据分析的壁垒,彻底改变“大数 据分析”领域。基于成熟的PIeXQ技术构建的SybaSe IQ米用下图所不的三层构架:基本层:数据库管理系统(DBMS),这是一个全共享MPP分析DBMS引擎, 是SybaSe IQ最大的独特优势。第二层:分析应用程序服务层,其提供C+和JaVa数据库内API,并可 实现与外部数据源的集成和联邦;包括四种 与HadOOP的集成方法。顶层:SybaSe IQ生态系统,由四个强大且不同的合作伙伴和认证ISV应 用程序组成。基于这种PIeXQ技术,SybaSe IQ将大数据转变成可指挥每个人都行动的情报 信息,从而

15、在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。2. 3. 2主要特性SybaSe IQ O的关键特性:1. 更强的数据管理大量增强的功能改善了 SybaSe IQ的数据管理、部署和可维护性。更快速的批量加载:批量加载数据通过ODBC和JDBC接口插入到SybaSe 中,从而实现具有更高可扩展性的应用程序,同时可极大提高加载性能。更出色的文本压缩:更出色地对VARCHAR、VARBINARW CHAR和BINARY压 缩可实现以更高效率、更低成本部署高性能文本分析应用程仔,同时极大提高压 缩速率。2. 丰富的应用程序SybaSe IQ增加了一系列API和工具,用于创建在数据库内运行的

16、高级分 析算法,并且能通过PIeXQ网格能充分利用大规模并行处理的能力。支持自带MaP RedUCe的表参数化用户自定义函数(UDF)这是SybaSe IQ 的本地应用程序编程接口,可使应用程序编程人员在SybaSe IQ数据库服务器 内构建和部署C+÷库。使用这些API可实现专有算法或算法包,安全地位于 SybaSe IQ内,通过在保存于SybaSe IQ数据库服务器中的数据附近执行,以 快10倍的速度返回结果。此框架可实现在SybaSe IQ中开发和部署 MaPRedUCe程序,以分析涉及结构化、半结构化和非结构化数据格式的超大数据 集。C+、MaP和RedUCe算法通过标准SQ

17、L加以调用,并且由SybaSe IQ强 大的查询引擎自动在PIeXQ网格中进行分发和并行化。HadOOP集成与联邦将基于HadOOP的分析的结果与运行于Sase IQ中的查询相集成。SybaSe是唯一一家提供4种不同方法将标准SQL查询(客户端联 邦、ETL处理、数据联邦和查询联邦)中的HadOoP数据和分析与分析数据库相集 成的丿商。SybaSe IQ充分利用HadOOP来识别海量结构化和非结构化数据集中 的相关数据点,然后将HadOOP中的相关数据点集成到SybaSe IQ中,以便利 用传统数据和来白其他数据源的结果集进行分析。预测模型标记语言(PMML)支持一一通过ZementiS提供的

18、认证插件,自动 执行使用业界标准语言定义在SAS、SPSS、“R”等工具以及其他流行预测工作平 台产品中所创建的分析模型。充分利用流行的分析工具构建预测模型,自动执行 在SybaSe IQ中部署的预测模型,并使用业界标准语言,以避免形成厂商捆绑。“R”集成:一一用户可使用RJDBC接口,以及流行的开源统计工具“R” 查询SybaSe IQ数据库。此外,用户还可以将来自SybaSe IQ的“R”库作为 SQL查询中的函数调用加以执行,并返回结果集。3. 数据库内分析库更新的数据库内统计和数据挖掘库(来 FUZZy LOgiX的DBLytiX):在SybaSe IQ内运行的高级分析、统计和数据挖掘

19、算法库。SybaSe IQ中的更新可 使该库充分利用一些数据挖掘算法中的MaPRedUCe APl进行大规模并行处理,并 且包含多种新函数,例如支持向量机、神经网络和AdaPtiVe BOOStingO4. 扩展的生态系统SybaSe IQ还非常适合面向大数据分析的端到端全面解决方案。重要的工具 和互补的合作伙伴产品可在以下方面提供帮助:SybaSe POWerDeSigner 参考架构生成器:可通过在实施SybaSe IQ数据 仓库和数据集市时生成最佳硬件配置,快速实现价值。SybaSe COntrOI Center(SCC):改进方面包括大量管理功能,例如过程、 函数、UDF(表、TPF和

20、JaVaEE )及文本索引。用户能够更轻松地管理SCC中频 繁使用的功能,以及更轻松地部署内置、外部和文本数据库内分析。此外该版本 还包含了新的SQL执行窗口,该窗口可实现易于测试的特定SQL例程。已通过SAPBUSineSSObjeCtS认证:SybaSe IQ己通过认证,可与SAP BUSineSS ObjeCtS BUSineSS IntelIigenCe PlatfOrm 和 SAP BUSineSS ObjeCtS Data SerViCeS配合使用,以提供丰富的端到端业务分析框架。2. 3. 3主要局限SybaSe IQ MPP 是 Share-DiSk 架构增加硬件,无法线性的提

21、升数据库性能。列存储的一些劣势,装载速度,复杂查询等性能不理想。插入操作上表级锁,影响数据导入时影响表上的并发操作。(*)2 4 Teradata Aster DataTeradata天睿公司的ASter Data分析平台是市场领先的大数据分析解决方案。ASter Data分析平台嵌入了 MapReduce,对新数据源和多结构数据类型 进行更深入的分析处理,提供具有突破性的性能和可扩展性的分析能力。ASter Data解决方案利用ASter Data专利SQL-MaPRedUCe来并行处理数据和应用程 序,可在大范围内提供丰富的分析洞察力。2. 4.1基础架构TD ASter Data平台架构

22、如下:其中ASter DatabaSe架构如下:2. 4. 2主要特性TD ASter Data有如下技术特点:Shared-Othing 架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的 操作系统、数据库、硬件资源,节点之间通过网络來通信。SQL- MaPRedUCeSQL-MaPRedUCe是ASter Data公司的专利,在同类技术中(GreenPIUnI)属 于领先地位。SQL-MaPRedUCe框架可以使数据科学家和商业分析师对复杂的信息 进行快速调查分析,允许一组关联计算机(计算机群集)使用软件语言(如 Java、C#、PythOn> C+和R)并行进行程序表达,然后通过标准SQL激活 (调用)使用。基于MPP的并行分析平台第一个大规模并行分析平台,借助S Q L -MaPRedUCe支持嵌入式分析应 用程序,使企业能显着加快TB乃至PB级数据的处理,为提供新的交互性大数 据应用带来了无数机会可视化集成开发环境第一个可视化集成开发环境(ASter Da

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论