




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 Copyright 2010 EMC Corporation. All rights reserved.Data Computing Division大数据解决方案简介2013-3-142 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionAttributes of Big DataVolumeVolumeVelocityVelocityVarietyVarietyBatchNear TimeReal TimeStreamsStructuredUnstructuredSemi-structu
2、redTerabytesTransactionsTablesRecordsFiles3 Copyright 2010 EMC Corporation. All rights reserved.Data Computing Division大数据对数据平台的技术要求分析 需求1:高性价比,完全并行化的高效数据处理能力,处理能力易于线性扩展的开放系统架构 需求2:支持灵活的数据存储方式 需求3:高压缩比,节省存储开支,提升IO效率 需求4:超大磁盘IO吞吐能力 需求5:高可用,无单点故障,最小化非计划性停机时间 需求6: 支持在线扩展,最小化计划性停机时间 需求7:支持强大灵活的分析语言 需求8:
3、完整的数据接口支持4 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGreeplum 可以做提供什么:开放式设备数据服务层第三方集成工具(如SAS,Infa) & 软件集成商Greenplum Chorus 一体化分析管理平台GP 分布式Hadoop文件系统数据科学家ETL工程师数据分析师BI分析师高管GP 分布式关系型数据库管理员数据服务团队云基础设施EMC DCA一体机5 Copyright 2010 EMC Corporation. All rights reserved.Data C
4、omputing DivisionGreenplum DataBase特点Share nothing 的 MPP 架构支持行、列混合存储支持在线、线性扩展架构在x86开放平台上高可用的高速并行关系型数据仓库6 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGreenplum DB特点1:完全无数据共享MPP架构NetworkInterconnect.MasterServersQuery planning & dispatch SegmentServersQuery processing &
5、data storageSQLMapReduceExternalSourcesLoading, streaming, etc.7 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionSG (Scatter/Gather) 流技术1) Scatter 阶段不需要专门的加载服务器加载性能与节点数成正比支持大批量及实时数据加载对源系统的影响(资源消耗)非常小2) Gather 阶段在数据收集中,可以用SQL对数据进行转换数据分布在每个并行节点上完全并行的数据引擎保证数据吞吐的最大化支持对数据进行压缩存储
6、Parallel everything8 Copyright 2010 EMC Corporation. All rights reserved.Data Computing Division数据高速并行加载和卸载业界最快并行加载速度16TB/小时 (16个节点配置下)并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源并行加载相比比串行加载,速度提高40-50倍以上,极大减少ETL窗口时间增加Segment和ETL Server,并行加载速度呈线性增长9 Copyright 2010 EMC Corporation. All rights reserved.
7、Data Computing Division Greenplum DB特点2:高度灵活的行列混合存储同时支持行模式,列模式存存储的数据库支持分区表的不同分区使用不同的存储模式灵活支持不同业务场景10 Copyright 2010 EMC Corporation. All rights reserved.Data Computing Division=海量数据由于压缩比低,需要大量的存储大量的存储需要大量的机房、供电、制冷、维护极大的投资和运维成本Greenplum支持Quicklz和zlib多种压缩算法经实测,采用列压缩模式,话单信息压缩比在15倍以上,采用行压缩模式,压缩比在4倍左右Gre
8、enplum DB特点3:高压缩比11 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGreenplum DB特点4:高可用架构(确保 没有单点故障) ClientInterconnectMPP Segment Host MPP Master Host Synch Process Standby MasterMPP Segment Host MPP Segment Host Primary Segment CMirror Segment B Primary Segment BMirror S
9、egment A Primary Segment AMirror Segment C12 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGreenplum DB特点5:动态在线扩容 Masterseg1seg2seg3seg4seg5seg6p数据自动在所有节点上重新分布p容量和性能在扩展后线性增长步骤1:新节点初始化加入MPP集群步骤2:数据在所有节点上重分布内联网13 Copyright 2010 EMC Corporation. All rights reserved.Data Com
10、puting DivisionGreenplum DB特点6:支持多种可编程分析语言Parallel Greenplum DatabaseGreenplum. SQL PL/R PL/PerlMapReduce PL/Python14 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGreenplum DB特点7:开放的数据接口易于集成SUNHPIBMORACLEDB2EMCHitachi 支持各种数据源抽取、转换、加载 (ETL) InformaticaDataStage分析型应用JavaE
11、E.NetSAP BOActuateCognosSASMicrostrategyCisco支持众多硬件平台支持ODBC/JDBC等多种接口 支持各种ETL工具支持SQL直接并行访问外部数据文件支持外部编程直接使用SQL并行访问数据库MySQL消息接口SQLServerIBMDB2Oracle数据文件15 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionGP DB特有的:对外部数据的In-flight数据访问 可以在Greenplum数据库中直接对外部存放的压缩/非压缩数据进行SQL查询和统计分
12、析,而无需将数据预先导入数据库,这样极大的方便了历史数据的在线访问和低陈本存储。Example:Select count(*) from HDFS_data h, GPDB_data g where h.key = g.key;Insert into HDFS_data select * from GPDB_data;访问远程存储的文件和数据流16 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionAnalytic Productivity Applications, Tools, Chorus
13、Greenplum DatabaseHadoopComputeStorageSQL DBEngineComputeStorageMapReduceEngineData Computing InterfacesSQL, MapReduce, In-Database Analytics, Parallel Data Loading (batch or real-time)All Data Typesunstructured datastructured datatemporal datageospatial datasensor dataspatial data paralleldata exch
14、angeparalleldata exchangeNetworkGreenplum DB:内置支持Hadoop并行交互17 Copyright 2010 EMC Corporation. All rights reserved.Data Computing DivisionData InputIntegrationData Stores and AccessData AnalysisPresentation & DeliveryMultimediaWeb/SocialERPCRMPOSData SourcesMobileDocumentsMachineDataQualityMDMETLEnte
15、rprise DataWarehouseBU 1BU 2BU 3Data MartsMap-ReduceKey ValuesDocumentsOther NoSqlEcosystem*HDFSHadoopNoSQL StoresFederatedData WarehouseMap-ReduceBI as a ServiceStatisticsData MiningOperations ResearchNeural NetsGenetic AlgorithmsOLAPAlertsReportsDashboardsSpreadsheets*Hadoop Ecosystem includes: Hive, Pig, Mahout, HBase, ZooKeeper, Oozie, Sqoop, AvroStructuredda
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版市政工程全过程造价分析与控制合同
- 2025柴油市场开发居间代理及营销策划合同范本
- 2025版签约皮肤科治疗签约合同范本
- 2025版饲料行业品牌授权合作合同范本
- 2025年餐饮企业中央厨房租赁服务合同
- 2025版私车公用租赁车辆安全责任合同范本
- 2025年度店面转让协议书附带原文化活动及公益项目合同
- 2025年度电子竞技比赛广告合作合同范本
- 2025年厕所改造工程环保设施设计与施工一体化合同
- 2025年度挖掘机运输物流信息系统接入服务合同
- 2025贵州毕节市赫章县招聘事业单位工作人员123人笔试备考题库及参考答案详解
- GB 21256-2025粗钢生产主要工序单位产品能源消耗限额
- 2025AI办公发展现状软件市场竞争格局及未来发展前景分析报告
- 北京员工待岗管理办法
- 停工缓建项目管理办法
- 淋巴水肿健康科普
- 采购应急计划管理办法
- 上海选调生面试题和考官用题本及答案21套
- 2025年学校食堂从业人员食品安全知识培训考试试题及答案
- 2025年国家电投校园招聘笔试考点考试题库及答案
- 让情绪有着落-2025年情绪营销8大趋势洞察报告
评论
0/150
提交评论