版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
EMCGreenplum
UnifiedAnalyticsPlatform
统一数据分析平台AlexLiu刘琳EMCDataComputingDivisionCloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda什么是大数据?维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据呈现出三大特征,即3V数据大(Volume),例如Facebook每天在30万台服务器上处理25Tb数据时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生Source:2011IDCDigitalUniverseStudy1ZB=1024EB,1EB=1024PB增长44X2020:35.2Zettabytes下一个十年数据源将会数据源正在膨胀CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda大数据解决之道-云计算
古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。——GraceHopper云计算的特点云计算特点内容超大规模云”具有相当的规模,Google云计算已经拥有100多万台服务器,亚马逊、Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。虚拟化云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。按需服务“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。低总体成本“云”的特殊容错措施使得可以采用极其廉价的节点来构成云。CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda驾驭大数据能够改变什么?2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。驾驭大数据能够改变什么?电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。房驾驭大数据能够改变什么?全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgendaWhatisit?Private/HybridCloudInfrastructureorApplianceDataAccess&QueryLayer3rdParty/PartnerTools&ServicesGreenplumChorus-AnalyticProductivityLayerGreenplumHadoopData
ScientistData
EngineerDataAnalystBl
AnalystLOB
UserGreenplumDatabaseData
PlatformAdminDataScienceTeamTheGreenplumUnifiedAnalyticsPlatformEMCGreenplumGreenplumProductLineCloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgendaShared-Nothing架构优势DBSAN/共享存储DBDBDBDBDiskDBDBDBDBDiskDiskDiskDiskMasterShared-EverthingShared-StorageShared-Nothing红色表示共享资源绿色表示无共享资源数据均匀分布并行处理的关键43Oct2020051264Oct2020051145Oct2020054246Oct2020056477Oct2020053248Oct20200512OrderOrderOrder
DateCustomer
ID50Oct2020053456Oct2020052163Oct2020051544Oct2020051053Oct2020058255Oct20200555数据均匀分布在每一块磁盘上面发挥每一块磁盘性能,根本上解决I/O瓶颈支持数据Distribution分布和Partition分区MasterNode高可用性StandbyMasterNode当PrimaryMaster出现故障时,热备份StandbyMaster担它全部工作热备份StandbyMaster通过复制进程,保持与PrimaryMaster的交易日志同步一致SegmentNode高可用性MirrorTechnologyRAID保护驱动器故障,MirrorSegment保护服务器故障,同一份数据在集群内有4份copyMirrorSegment接管不丢失服务,快速在线差异恢复大规模并行处理优势真正意义上的并行处理利用原生MapReduce模型实现,业界效率最高的并行处理引擎全部SQL逻辑都可以并行在每一个SegmentNode执行负载根据SegmentNode数量自动均衡SegmentSegmentSegmentSegmentMaster并行加载和导出优势业界最快并行加载速度>10TB/Hr并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间增加Segment和ETL
Server,并行加载速度呈线性增长行列组合存储优势列存储少数字段查询,大幅节省I/O操作大数据量频繁访问,性能提升30%以上Column1Column2Column3Row1Row2Row3+行存储大多数字段频繁查询随机行访问较多组合存储按照应用类型,随需定制Partition存储方式达到最优化访问性能动态在线扩容优势系统永不停机Greenplum动态在线扩容技术,可以保证客户在扩容期间不宕机不能动态在线扩容,高可用性无从谈起宕机意味着利润的流失,客户需要可靠的IT环境在线数据重分布010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010101010101010101010101010101010101010000010100000101000001010000010100000000000000000101000001010000010100000101010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010000010100000101000001010000010100000000000000000101000001010000010100000101在线数据重分布在线数据重分布CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda开源Apache项目Hadoop核心包括:-HDFS–分布式文件系统-Map/Reduce–分布式计算用JAVA编写运行在:Linux,MacOS/X,andSolaris开放硬件平台ShuffleMapReduceWhat
isHadoop?2007200820092010TheDatagraphBlogSource:HadoopSummitPresentationsHadoop在各行业的应用HDFSHadoop分布式文件系统MapReduce分布式开发框架Pig分布式开发语言Zookeeper高可靠性分布式协调服务Hive基于Hadoop的数据仓库工具HBase一个高可靠性、高性能的非结构化数据库Hadoop
组件GreenplumHDMapR
Enterprise-ReadyHadoopPlatformforUnstructuredDataFaster2–5x速度提高于ApacheHadoopReliable高可用性镜像EasiertoUse可使用NFS系统管理DFSIO
(higherisbetter)Terasort
(lowerisbetter)10nodecluster,2xQuad-Core,24GDRAM,12x1TBSATADrives@7200rpm,QuadNICsElapsedtimeinminutesMB/sec3.5TBGPHDMapRApacheGreenplumHDMapR更快的速度LocklessStorageService™
消除存储抢占和竞争DirectBlockDeviceIO发挥全部存储的IO性能HadoopDirectShuffle利用NameNode的可扩展性,提供更快并行计算性能ClientSideCompression实用自动压缩减少网络开销CvsJava消除JAVA的回收机制,使用C编写为什么有更快的速度?GreenplumHDMapR
JobTracker高可用性保证业务连续性专为关键业务设计自动安全重启动没有任务丢失的重新连接稳定的任务执行状态GreenplumHDMapRDistributionEnterpriseHDMapReduceEnterpriseHD
LocklessStorageServicesDistributedNameNodeJobTrackerHAGreenplumHDMapR
DistributedNameNode所有Hadoop节点都进行分布式处理自动和已处理的失效机制稳固的元数据高达1万亿个文件存储Hadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNHadoop
NodeNNGreenplumHDMapR
管理简单直观洞察力完整查看一个或者多个节点GPDB&GPHD并行访问
AnalyticProductivityApplications,Tools,ChorusGreenplumDatabaseHadoopComputeStorageSQLDB
EngineComputeStorageMapReduce
EngineDataComputingInterfacesSQL,MapReduce,In-DatabaseAnalytics,ParallelDataLoading(batchorreal-time)AllDataTypesunstructureddatastructureddatatemporaldatageospatialdatasensordataspatialdataparallel
dataexchangeparallel
dataexchangeNetworkCloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda数据分析现状对企业数据仓库的访问严格管理数据仓库中的计算负载通常很大有可能可以发现非常有价值的见解的深入分析不被鼓励数据分析的结果不再存储在数据库中,而是通过邮件来交换共享GreenplumChorus
主要给三类用户提供帮助数据库架构师和管理员负责管理数据库和提供数据访问监控数据流动数据分析师负责从数据推导见解和数据库管理员紧密合作公司管理层负责解释投资回报关注对数据的快速有效分析分析沙箱公有云数据普通硬件虚拟机ChorusChorus
自我服务的分析架构Hadoop企业数据仓库Chorus主要功能企业数据云整合数据源整合结构化数据和非结构化数据自我服务的架构自己创建沙箱数据库加快数据分析和形成商业方案的进程协作环境分析师通力合作,发现和创建见解共享分析结果,代码和数据开放和可扩展的平台Chorus与企业数据仓库数据仓库管理数据生成企业运营报告和财务汇总,Chorus一个自我服务的架构,支持针对不同业务的分析沙箱分析的结果可以影响企业发展方向和方案Chorus与Hadoop把Hadoop作为一个数据源注册到Chorus中浏览Hadoop分布式文件系统(HDFS)目录预览HDFS文件把HDFS文件添加到分析沙箱中为HDFS文件添加注解统一的数据分析平台结构化数据(数据库表)非结构化数据(HDFS文件)CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgendaEMCGreenplumDCA2GPDBMasterServers210GESwitchesAdministrativeSwitchFunctionalModuleFunctionalModuleFunctionalModuleFunctionalModuleDCA模块化灵活配置GPDBHDGreenplumHDModuleGreenplumDBModuleDIADIAModuleGreenplumHDModule28TBcapacity(3copies,uncompressed)Eachservercontains:2sockets/12cores-48GBMem12x2TBstorageGreenplumDatabase
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心理医师社交恐惧症治疗方案
- 仲裁协议书在什么地方
- 检验科凝血功能检测质控措施
- 中医养生肾脏科普
- 城域网的封装协议书
- 皮肤科湿疹患者护肤方案分享
- 2026中国邮政储蓄银行广西区分行春季校园招聘备考题库及参考答案详解(综合题)
- 2026陕西西北工业大学网络空间安全学院信息系统与智能安全团队招聘1人备考题库附答案详解(突破训练)
- 2026年烟台文化旅游职业学院公开招聘高层次、高技能人才备考题库附答案详解(模拟题)
- 2026山东济南市第一人民医院招聘卫生高级人才和博士(控制总量)18人备考题库及参考答案详解(b卷)
- 南充市发展和改革委员会2026年公开遴选公务员(6人)考试参考试题及答案解析
- 癫痫预测模型的泛化能力提升策略研究
- 母婴三病传播知识培训课件
- 2026届陕西省高三二模高考数学模拟试卷试题(含答案详解)
- 地推销售话术与技巧
- 知情同意与拒绝治疗
- 甲钴胺的临床应用
- 杭州中考社会试卷及答案2025
- 渠道管理成员激励
- 水上抛石应急预案
- 中国2型糖尿病防治指南(2024年版)解读
评论
0/150
提交评论