版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、概述随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性,低成本,高端可扩展性等需求给 企业数据战略带来了巨大的挑战。企业数据仓库、数据中心的技术选型变得尤其重要!所以在选型之前,有必 要对目前市场上各种大数据量的解决方案进行分析。主流分布式并行处理数据库产品介绍1.1 Greenplum1.1.1基础架构的一款分布式数据库产品,在处理海量数据方面相比传统数据库有着较大的优Green plum 是基于 Hadoop势。Greenplum整体架构如下图:MasterSevers查询解析、优化、分发Network In terco nn ectSegmentSevers.查询处理、数据存
2、储ExternalISources数据加载9|3|9|数据库由 Master Severs 和 Segment Severs通过 Interconnect 互联组成。Segme ntMaster主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。1.1.2主要特性Greenplum整体有如下技术特点:Shared-nothing 架构海量数据库采用最易于扩展的Shared-nothing架构,每个节点都有自己的操作系统、数据库
3、、硬件资源,节点之间通过网络来通信基于 gNet Software Interconnect 数据库的内部通信通过基于超级计算的 “软件 Switch ”内部连接层,基于通用的 gNet (GigE , 10GigE) NICs/switches 在节点间传递消息和数据,采用高扩展协议,支持扩展到1000 个以上节点。并行加载技术利用并行数据流引擎,数据加载完全并行,加载数据可达到4。5T/小时(理想配置)。并且可以直接通过 SQL 语句对外部表进行操作支持行、列压缩存储技术海量数据库支持 ZLIB 和 QUICKLZ 方式的压缩,压缩比可到 10: 1。压缩数据不一定会带来性能的 下降,压缩
4、表通过利用空闲的 CPU 资源,而减少 I/O 资源占用。海量数据库除支持主流的行存储模式外,还支持列存储模式。如果常用的查询只取表中少量字段, 则列模式效率更高,如查询需要取表中的大量字段,行模式效率更高。海量数据库的多种压缩存储技术在提高数据存储能力的同时,也可根据不同应用需求提高查询的效率1.1.3 主要局限列存储模式的使用有限制,不支持 delete/update 操作。 用户不可灵活控制事务的提交,用户提交的处理将被自动视作整体事务,整体提交,整体回滚。 数据库需要额外的空间清理维护( vacuum) ,给数据库维护带来额外的工作量。 用户不能灵活分配或控制服务器资源。对磁盘 IO
5、有比较高的要求。 备份机制还不完善,没有增量备份。1.2 Vertica1.2.1 基础架构与以往常见的行式关系型数据库不同, Vertica 是一种基于列存储 ( Column-Oriented )的数据库体系结构, 这种存储机构更适合在数据仓库存储和商业智能方面发挥特长。常见的 RDBMS 都是面向行( Row-Oriented Database )存储的,在对某一列汇总计算的时候几乎不可避免 的要进行额外的 I/O 寻址扫描,而面向列存储的数据库能够连续进行I/O 操作,减少了 I/O 开销,从而达到数量级上的性能提升。同时, Vertica 支持海量并行存储( MPP )架构,实现了完
6、全无共享,因此扩展容易,可以利用廉价的硬 件来获取高的性能,具有很高的性价比。如下图,展示的是单节点上的 Vertica 的基本体系结构。Vertica 体系结构作为关系型数据库, Vertica 的查询 SQL 也是在前端被解析和优化的。 但与传统的关系型数据库有所不同, Vertica 内部是混合存储的,包括两种不同的存储结构:写优化器(WOS )和读优化器( ROS)。(1) 写优化器 WOS ( Write-Optimized Store )是位于主存储器上的一个数据结构, 用于有效的支持数据插入和更新操作; 数据的存放是无序的, 非压缩 的。(2) 读优化器 ROS( Read-Op
7、timized Store ) 是磁盘物理存储,存放的是排序和压缩后的数据库大块数据,因此这里的查询相比于 WOS 性能更好。(3) Tuple Mover 进程是 Vertica 内部的一个进程,定期的以大数据块的形式把数据从 WOS 移到 ROS ,由于是对整个 WOS 操 作, TupleMover 一次能非常有效的排序很多记录,最后批量把它们写入磁盘。在 Vertica 内部,不论是 WOS 还是 ROS 都是按列存储的。1.2.2 主要特性Vertica 的关键特性:1 列存储( Column-orientation )由于大多数的查询都是要从磁盘读取数据, 因此可以说 disk I
8、/O 在很大程度上决定了一个查询的最终响应 时间。2 压缩机制( Aggressive Compression )在数据存储方面, Vertica 利用内部的特定算法对数据进行压缩处理。这样的机制会大大减少 disk I/O 的 时间( D ),同时由于 Vertica 对扫描和聚合等操作也在内部进行了优化,可以直接处理压缩后的数据,这样CPU的工作负载(C)也减少了。如上例中的AVG 聚合函数,Vertica是不需要将压缩数据先做类似解压这种处理的,因此查询性能得到优化。3 读优化存储( Read-Optimized Storage )Vertica 的数据库存储容器 ROS Contain
9、er 专门为读操作进行了优化设计,且其中的数据是经过了排序和 压缩处理的, 即每个磁盘页上不会有空白空间, 而传统的数据库一般会在每页上预留空间以便日后的insert 操作来使用。4 多种排序方式的冗余存储为了高可用性和备份恢复的需要, Vertica 会按照不同的排序方式对数据做冗余存储,这不但避免了大量 的日志操作,也为查询带来了便利。 Vertica 的查询优化器会自动选择最优的排序方式来完成特定的查询。5 并行无共享设计Vertica 支持完全无共享海量并行存储( MPP )架构,随着硬件 Server 的增加,多个 CPU 并行处理,性 能也可以得到线性的扩展,这样用户使用廉价的硬件
10、就可以获得较高的性能改善。6 其他管理特征 除了有优越的性能以外, Vertica 在数据库管理方面也进行了非常人性化的设计。Vertica Database Designer 是一个界面化的日常管理工具, 并且能为用户作出详尽的 DB 层物理设计方案, 大大减少了日后的性能调优方面的开销。Vertica 通过 K-Safety 值的设置,完成了数据库的备份恢复机制,并保证了高可用性。对于数据库中的每 个表每个列, Vertica 都会在至少 K+1 个节点上存储,如果有 K 个节点宕机,依然能够保证 Vertica DB 是完 整可用的;当损坏的节点恢复时, Vertica 自动完成节点间的
11、热交换,把其他节点上的正确数据恢复过来。通 过这种机制也保证了 Vertcia 库的节点数目可以自由伸缩而不会影响到数据库的操作。Vertica 通过两种技术来实现在线的持续数据装载而不会影响到数据库的访问。Vertica 通常运行在快照隔离( Snapshot Isolation )模式下,该模式下查询读取的是最近的一致的数据库快 照,这个快照是不能被并发的 update 或 delete 操作更改的,因此查询操作也不需要占用锁,这种方式保证了 数据装载( insert )和其他查询能互不干扰。另外,Vertica 可以把数据直接装载到 WOS 结构中, WOS 中的数据是不排序或索引的,所
12、以装载速度会很快,然后再由 Tuple Mover 进程在后台把数据移入 ROS 中,由于 TupleMover 的操作是大块读取( bulk-load )的,所以性能也很好。1.2.3 主要局限不支持 SQL 存储过程及函数,用户需通过 UDFs ( User Defined Function ,基于 C+ )来自定义函数 或过程。软件授权按原始未经压缩的裸数据量计算。 列存储的一些劣势,复杂查询等性能不理想。对内存有比较高的要求。 在国内还没有成功案例。1.3 Sybase IQ(15.4)1.3.1 基础架构SYBASE IQ 是 Sybase 公司推出的特别为数据仓库设计的关系型数据库
13、。 SYBASE IQ 的架构与大多数关系 型数据库不同, 它特别的设计用以支持大量并发用户的即席查询。 其设计与执行进程优先考虑查询性能, 其次 是完成批量数据更新的速度。 而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库 (而事实 上,往往更多的关注事务进程)。Sybase在2010年推岀的Sybase IQ 15.3就采用了全共享架构的PlexQ技术,该技术重新定义了企业范围的业务信息,全共享架构可轻松支持涉及海量数据集、海量并发用户数和独特工作流程的多种复杂分析样式, 大大增加了其效益。与其他 MPP 解决方案不同, Sybase IQ 的 PlexQ 网格技术能够动态管
14、理可轻松扩展并 且专用于不同组和流程的一系列计算与存储资源中的分析工作量,从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长的用户社区。Sybase IQ 15.4 采用业内领先的 MPP 列式数据库和最先进的数据库内分析技术,并革命性地加入 MapReduce 与 Hadoop 集成,以应对大数据时代的分析挑战,开启洞察关键业务的能力。Sybase IQ 15.4 正在打破数据分析的壁垒,彻底改变 “大数据分析 ”领域。基于成熟的 PlexQ 技术构建的 Sybase IQ 采用下图所示的三层构架:基本层:数据库管理系统 (DBMS) ,这是一个全共享 MPP 分析 DBMS
15、引擎,是 Sybase IQ 最大的独特 优势。第二层:分析应用程序服务层,其提供 C+ 和 Java 数据库内 API ,并可实现与外部数据源的集成和联 邦;包括四种 与 Hadoop 的集成方法。顶层: Sybase IQ 生态系统,由四个强大且不同的合作伙伴和认证ISV 应用程序组成。基于这种 PlexQ 技术, Sybase IQ 15.4 将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的 用户和业务流程范围内轻松具备大数据的分析能力。1.3.2 主要特性Sybase IQ (15.4)的关键特性:1.? 更强的数据管理 大量增强的功能改善了 Sybase IQ 的数据管理
16、、部署和可维护性。更快速的批量加载 : 批量加载数据通过 ODBC 和 JDBC 接口插入到 Sybase 中,从而实现具有更高可扩展 性的应用程序,同时可极大提高加载性能。更出色的文本压缩 : 更出色地对 VARCHAR 、 VARBINARY 、CHAR 和 BINARY 压缩可实现以更高效 率、更低成本部署高性能文本分析应用程序,同时极大提高压缩速率。2.? 丰富的应用程序Sybase IQ 15.4 增加了一系列 API 和工具, 用于创建在数据库内运行的高级分析算法, 并且能通过 PlexQ 网格能充分利用大规模并行处理的能力。支持自带 Map Reduce 的表参数化用户自定义函数
17、 (UDF) 这是 Sybase IQ 的本地应用程序编程接口, 可使应用程序编程人员在 Sybase IQ 数据库服务器内构建和部署 C+ 库。使用这些 API 可实现专有算法或 算法包,安全地位于 Sybase IQ 内,通过在保存于 Sybase IQ 数据库服务器中的数据附近执行,以快 10 倍 的速度返回结果。此框架可实现在 Sybase IQ 中开发和部署 MapReduce 程序, 以分析涉及结构化、 半结构化 和非结构化数据格式的超大数据集。C+、Map 和 Reduce 算法通过标准 SQL 加以调用,并且由 Sybase IQ强大的查询引擎自动在 PlexQ 网格中进行分发
18、和并行化。Hadoop 集成与联邦 将基于 Hadoop 的分析的结果与运行于Sybase IQ 中的查询相集成。 Sybase 是唯一一家提供 4 种不同方法将标准 SQL 查询 (客户端联邦、 ETL 处理、数据联邦和查询联邦 )中的 Hadoop 数据 和分析与分析数据库相集成的厂商。 Sybase IQ 15.4 充分利用 Hadoop 来识别海量结构化和非结构化数据集中 的相关数据点,然后将 Hadoop 中的相关数据点集成到 Sybase IQ 中,以便利用传统数据和来自其他数据源 的结果集进行分析。预测模型标记语言 (PMML) 支持 通过 Zementis 提供的认证插件,自动
19、执行使用业界标准语言定义 在SAS、SPSS、“R等工具以及其他流行预测工作平台产品中所创建的分析模型。充分利用流行的分析工具构 建预测模型,自动执行在 Sybase IQ 中部署的预测模型,并使用业界标准语言,以避免形成厂商捆绑。“ F集成:一一用户可使用 RJDBC接口,以及流行的开源统计工具“ R”询Sybase IQ数据库。此外,用户还可以将来自 Sybase IQ的“R库作为SQL查询中的函数调用加以执行,并返回结果集。3. ? 数据库内分析库更新的数据库内统计和数据挖掘库(来自 Fuzzy ? Logix 的 DBLytix): 在 Sybase IQ 内运行的高级分析、统计和数据
20、挖掘算法库。 Sybase IQ 15.4 中的更新可使该库充分利用一些数据挖掘算法中的 MapReduce API 进 行大规模并行处理,并且包含多种新函数,例如支持向量机、神经网络和Adaptive Boosting 。4. ? 扩展的生态系统Sybase IQ 还非常适合面向大数据分析的端到端全面解决方案。重要的工具和互补的合作伙伴产品可在以下方面提供帮助 :Sybase PowerDesigner? 16.1 参考架构生成器 : 可通过在实施 Sybase IQ 数据仓库和数据集市时生成最佳 硬件配置,快速实现价值。UDF( 表、 TPF 和 JavaEE )Sybase Contro
21、l Center(SCC) : 改进方面包括大量管理功能,例如过程、函数、 及文本索引。用户能够更轻松地管理 SCC 中频繁使用的功能,以及更轻松地部署内置、外部和文本数据库内 分析。此外该版本还包含了新的 SQL 执行窗口,该窗口可实现易于测试的特定 SQL 例程。已通过 SAP?BusinessObjects? 认证 : Sybase IQ 15.4 已通过认证,可与 SAP Business Objects Business Intelligence Platform 4.0 和 SAP Business Objects? Data Services 4.0 配合使用,以提供丰富的端到端
22、业务分析框 架。1.3.3 主要局限Sybase IQ MPP 是 Share-Disk 架构 增加硬件,无法线性的提升数据库性能。 列存储的一些劣势,装载速度,复杂查询等性能不理想。 插入操作上表级锁,影响数据导入时影响表上的并发操作。(* )1.4 Teradata Aster DataTeradata 天睿公司的 Aster Data 分析平台是市场领先的大数据分析解决方案。 Aster Data 分析平台嵌入了 MapReduce,对新数据源和多结构数据类型进行更深入的分析处理,提供具有突破性的性能和可扩展性的分析 能力。 Aster Data 解决方案利用 Aster Data 专利
23、 SQL-MapReduce 来并行处理数据和应用程序,可在大范围 内提供丰富的分析洞察力。1.4.1 基础架构TD Aster Data 平台架构如下: 其中 Aster Database 架构如下:1.4.2 主要特性TD Aster Data 有如下技术特点:Shared-nothing 架构海量数据库采用最易于扩展的 Shared-nothing 架构,每个节点都有自己的操作系统、数据库、硬件资源, 节点之间通过网络来通信。S Q L -MapReduceSQL-MapReduce 是 Aster Data 公司的专利,在同类技术中( Greenplum )属于领先地位。 SQL-MapReduce 框架可以使数据科学家和商业分析师对复杂的信息进行快速调查分析,允许一组关联计算机 (计算机群集) 使用软件语言(如 Java、C#、Python、C+和R)并行进行程序表达,然后通过标准SQL激活(调用)使用。基于 MPP 的并行分析平台第一个大规模并行分析平台, 借助 S Q L -MapReduce 支持嵌入式分析应用程序, 使企业能显着加快 TB 乃至 PB 级数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文学概论自考试试卷及答案
- 2026 北师大版三年级语文第六单元复习巩固课件
- 住院日清单制度
- 2026三年级数学上册 两位数乘一位数笔算
- 企业盘点和对账制度
- 企业会计准则制度
- 统计局对外宣传奖惩制度
- 校园交通安全奖惩制度
- 电销公司业绩奖惩制度
- 关于建筑公司奖惩制度
- 2026年吉林工业职业技术学院单招综合素质考试题库含答案详解(典型题)
- 2025-2026学年苏科版(新教材)小学信息科技四年级下册教学计划及进度表
- DB32∕T 5345-2026“厂中厂”安全生产管理规范
- 第10课 古代的村落、集镇和城市(教学设计)-2025-2026学年统编版高二历史选择性必修2 经济与社会生活
- 2025-2026学年湘美版美术八年级下册1.1古典之光课件
- 2026年内蒙古机电职业技术学院单招职业技能考试题库含答案详解(综合卷)
- 2025年吉安职业技术学院单招综合素质考试试题及答案解析
- 2025年江苏农林职业技术学院单招职业技能考试试题及答案解析
- 2025年安徽财贸职业学院单招职业适应性测试试题及答案解析
- 2025年江西公务员考试(财经管理)测试题及答案
- GB/T 2820.5-2025往复式内燃机驱动的交流发电机组第5部分:发电机组
评论
0/150
提交评论