下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop架构在云上的应用实践4Cloudera EDH 介绍Cloudera和Apache开源社区Leaders Across the Hadoop EcosystemDoug Cutting:Hadoop创始人,Apache基金会主席100Committer 席位覆盖Hadoop生态圈数十万生产环境部署节点,覆盖全行业22项目由Cloudera员工创建Hadoop相关的原理及架构类书籍153Cloudera EnterpriseSystem and Data ManagementProcessIngest Sqoop, Flume,KafkaTransform MapReduce, Hi
2、ve, Pig, SparkDiscoverAnalytic Database ImpalaSearch SolrModelMachine Learning R, Spark Mllib, MahoutServeNoSQL Database HBaseStreaming Spark StreamingUnlimited Storage HDFS, HBaseYARN, Cloudera Manager Cloudera NavigatorDeployment FlexibilityOn-Premises Appliances Engineered Systems4Public Cloud Pr
3、ivate Cloud Hybrid Cloud完善的企业安全策略身份认证,授权,审计,数 据安全数据可管理性 开放标准100%开源Hadoop及其相关 组件3rd标准的软件集成开放API标准云服务集成统一平台数据导入导出可扩展存储多样化的处理引擎安全资源管理元数据管理本地模式直连存储数据不在集群间共享固定大小的集群对所有用户共享一个集 群Hadoop 栈: 本地 versus 云YARNHadoop Distributed File System (HDFS)Commodity Servers (CPU, memory, and direct attached storage)云模式存储不一
4、定是在本地可在多个集群间共享数据基于负载弹性伸缩集群按照使用者的需要进行创 建Commodity Servers (CPU and Memory)Hadoop Distributed File System (HDFS)YARNBatchAnalytic sMachine LearningSearchObject storeBatchAnalyticsMachine LearningSearch5新的Hadoop 部署生态6公有云Amazon AWSMicrosoft AzureGoogle CloudAliyunAmazon EMR传统的中央存储EMC DSSD, EMC IsilonHGS
5、T Active Archive System10新型部署的特点8HDFS将Block管理外包给第三方服务理论上可以支持无限的文件小文件/大量读写的问题都得以解决HDFS 提供大数据应用统一的访问层HDFS FileSystemInterface后端存储服务通常有一致的访问时间云存储(Amazon S3, Aliyun OSS)失去了局部性没有访问速度区别HDFS on Cloud9趋势: 数据已经在云上为公有云优化在云上搭建HDFS可以为HDFS带来弹性伸缩性HDFS 可以为Cloud带来丰富的大数据生态系统强一致性成熟的数据监管三种主要公有云部署形式, 之一10直接在虚拟机/云上部署Had
6、oop集群与直接在物理机器上部署Hadoop模式几乎完全一致每个DataNode都建议挂载永久存储设备(i.e. AWS EBS)需要注意的是:通常HA NameNode, QJM, ZooKeeper等需要保证部署在不同物理机 器上或者Availability Zone里保证真正意义的HA优点: 传统的安装经验可以直接使用缺点: 人为干预高, 难于做性能诊断云部署之二11Hadoop 作为运算集群数据存储在第三方对象存储服务商通过HDFS cloud connector 来访问云存储中数据AmazonS3 / MicrosoftAzure / Google CloudStorage conn
7、ectorsHDFS 作为缓存区和工作区优点: 较少的维护HDFS 集群的烦恼缺点:每次做数据分析都需要导入导出数据违背了Hadoop的”Move Computation to Data“ 的原则12云部署之三13Hadoop直接操作后端Shared Storage多个解决方案正在积极开发中Elastic HDFS on Amazon S3Microsoft Azure Data LakeEMC DSSD利用后端shared storage可以被所有DataNode访问的特性由DataNode充当代理来访问后端的存储对上层应用(Hbase,Hive, Impala等)透明Elastic HDF
8、S on Amazon S314传统HDFS的运营难处在于:难于简单的扩大缩小集群由于固定的Block到DN的关系,变更集群大小需要大量的数据迁移工作(Decommision/Rebalance)通常为了存储而非计算来设计集群的大小易造成低利用率Elastic HDFS on Amazon S315设计目标:允许Hadoop上层应用直接访问S3提供数据的强一致性(Strong Consistency) 访问一次性的运算集群(DisposableHadoopCluster)集群规模可以弹性伸缩(Elastic Scale Out / In)Elastic HDFS on Amazon S316数
9、据永久数据保存在S3上,保证99.999999999 % 持久性(Durability)99.99 % 可用性(Availability)HDFS 无需用3 份副本HDFS DataNode 作为Proxy来访问数据, 提供HDFS语义Elastic HDFS on Amazon S317元数据(Metadata)NameNode无需保证Block 到DataNode的关联性无需BlockManager 和full block report有效的减少NameNodememory footprint, Garbage Collection,RPC throughputNameNode可将Clie
10、nt导向任意DataNode来访问S3 数据在改变HadoopCluster大小后,不需要再平衡数据(Rebalance)Elastic HDFS架构18HDFS Client 向NN发出写请求,NN 随机返回一个DNClient 将数据写入DN1DN1将数据首先写入本地的临时 目录中在一个Block完成以后, DataNode将数据推送到S3Write Pipeline19用户向NameNode 询问文件(/foo) 的位置NameNode返回任意DataNode (DN2)Client 访问DataNode (DN2)DN2从S3中读取数据,缓存在本 地,并返回给ClientRead Pi
11、peline20其他应用透明访问S3的数据21写入数据时应用直接通过Client-DataNode 协议无需知道后端存储的具体细节读取数据时DataNode 缓存这份数据HDFS数据是不可更改(Immutable)提供Client 数据访问局部性方便任务调度和I/O优化(e.g., Impala)Elastic Scale Out / In22HDFS 集群的规模可以快速的扩张或者缩小NameNode具有详尽准确的DataNode信息所有DataNode上的数据都是作为Staging和Cache data而存在的新增的DataNode可以立即响应任意的读写请求关闭DataNode等效于清空Ca
12、cheHDFS集群的大小取决于运算能力的需求而不是存储能力的需求Cloudera云解决方案的时间线客户开始在云上 使用Hadoop在AWS上有了大 规模的部署 FINRA, CIA,IntuitEDH 开始被 MSPs支持 (Softlayer, Century Link, T- Systems)开发了Cloudera Director v1 来进行 云上自动化部署EDH 开始支持AzureEDH 开始支持GCECDH 是在目前主要的云供应商中最流行的Hadoop发 行版23云上的架构模式短期运行集群 可伸缩的负载 不需要本地存储长期运行集群预先分配集群大小 少量的本地存储固定的集群大小 周期
13、同步默认需要本地存储App delivery HBaseBI / Analysis Impala, SearchETL / Modeling MR, SparkDR/Backup24Source DataSeed dataObject Storage (S3, WASB, Swift, Google Blob Store)云部署方式Cloudera Director 建立 Cloudera Manager 来监控一个或多个集群,无论是在本地还 是在云端On Premise “Cloud”Cloudera Director 开源插件框架 能使的用户集成任何云平台或 者本地环境25Cloudera
14、 特色部署部署简单;无后续配置 需求支持快速启动: AWS Quickstart and GCE支持弹性扩展计算和 存储能力企业级深度安全集成 : Kerberos & SentryCloudera Navigator : Audit / Lineage / Workflow高可用和弹性服务可管理性可以管理多个平台环 境 本地和云一个仪表板来监控所 有部署好的集群克隆集群为已保存的工作负载 生成模板可集成性提供了开放的API以满 足二次开发包括简单 的脚本和自动化调度 的需求为云提供商提供了开 放的 API 插件Flexible Integration for controlled deplo
15、yment in the cloud2630唯一支持多平台的Hadoop 发行版Cloudera: 把 EDH 带到云上易迁移性: 支持多个平 台灵活性: 计费灵活并且 支持灵活新选择: 正在增长的生 态环境Private CloudPhysicalPublic Cloud在云上支持传统的计费和支持方式支持按照使用量计费28快速扩张的云服务商和生态系统来提供基于 云的服务* Scheduled for Roadmap云上的Hadoop 不折中Cloudera Director业界第一款跨平台的,自服务 的解决方案,用来部署和管理 云上的企业级的hadoop.免费下载,免费使用支持企业级别的用户
16、自服务,统一管理支持混合云管理并首先支持了AWS29Cloudera Director: 自服务的hadoopAWSCMCNCDHUber Dashboard (Rollups , Metering, Analytics)Consumer Service Management (ActMgmt, Chargeback, Quotas, Cloud Neutrality)User Registration, Workflow Service, View Bill, Usage ReportsConsumer InterfaceProvider InterfaceCustomer PortalVM
17、W管理员用户开发者应用Cloudera DirectorOpenStackCM30CNCDHCDHCloudera Director的优势31提供给客户的优点独特的能力特性简化集群生命周期管理简单的 UI 来进行 建立,扩展 和拆除集群工作自服务的建立和拆除集群针对高峰负载动态伸缩简化集群的clone为重复部署提供了云时代的蓝图消除锁定灵活开放的平台100% 开源Hadoop 发行版为混合部署提供原生支持支持在同一个工作流中进行第三方软件的部署支持客户特定的负载部署加速实现业务价值企业就绪的安全和管理能力支持复杂的集群架构在容量确定的情况下,最小化集群规模提供方便的管理工具安全和数据治理合规通
18、过优化的云存储连接器来进行备份和灾难恢复减少支持费用监控和指标收集工具支持多集群的 dashboard为计费提供跟踪信息Cloudera ManagerS3CloudTrail RDSAWS ServicesCloudera DirectorCloudera NavigatorEDHCluster云上Navigator 的路线图Navigator的核心能力:审计发现血缘关系数据发现元数据管理和生命周期管理Navigator supports RDS32路线图项目数据发现支持S3文件与S3 notifications & Lambda相集成与 CloudTrail 集成审计 Director 的
19、动作存储Navigator 数据在 S3 上Impala: 未来云中的数据库DisooptribuHadFileysStem (HDtedFS)S3, WASB, Google BlobImpalasourcesJSONPARQUETJSON 数据将直接被加载到S3中自动转换格式为 ParquetData以提高性能HDFS作为一个 修改和读取S3中parquet数据的缓存Impala将会从HDFS 和 S3中 读取数据PARQUET33Cloudera的云合作伙伴34Amazon Web Services (AWS)Cloudera Director IntegrationYesObject Storage IntegrationYesReference ArchitectureYesFull Platform SupportYesOther StorageLocal StorageWindows AzureCloudera Director IntegrationPlannedObject Storage IntegrationIn ProgressReference ArchitectureYesFull Platform SupportYes
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 守护骨骼健康行动
- 《GBT 2972-2016 镀锌钢丝锌层硫酸铜试验方法》专题研究报告
- 2026年无锡商业职业技术学院单招职业适应性考试题库及答案详解一套
- 冷链物流项目建设借款担保协议
- 中药材行业中药材质量检测工程师岗位招聘考试试卷及答案
- 2026年度医院感染防控工作计划
- 2025交通劝导面试题目及答案
- 教师培训工作计划2026范文4篇
- 2026年唯实小学党支部工作计划
- 2025年特种用途钢丝及钢丝绳项目合作计划书
- 2025年云南省人民检察院聘用制书记员招聘(22人)备考笔试题库及答案解析
- 2026届四川凉山州高三高考一模数学试卷试题(含答案详解)
- 银行党支部书记2025年抓基层党建工作述职报告
- 肿瘤标志物的分类
- 2025山西忻州市原平市招聘社区专职工作人员50人考试历年真题汇编附答案解析
- 中药煎煮知识与服用方法
- 2026东莞银行秋季校园招聘备考题库及答案详解(基础+提升)
- 消防水泵房管理制度及操作规程
- 野战军生存课件
- 《民航概论》期末考试复习题库(附答案)
- 2025年学校工会工作总结范文(5篇)
评论
0/150
提交评论