魅族大数据运维平台实践_第1页
魅族大数据运维平台实践_第2页
魅族大数据运维平台实践_第3页
魅族大数据运维平台实践_第4页
魅族大数据运维平台实践_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、魅族大数据运维平台实践技术创新,变革未来目录魅族大数据平台简介魅族大数据运维历程魅族大数据统一运维平台让大数据运维不再困难魅族大数据平台架构-离线HDFSZookeeperYARNMRHive/Pigkerberos、ldapSparkMysqlELKVerticaHbase魅族大数据平台架构-流计算AgentMetaqSpark StreamingDBAgentAgentAgentFlume Collector魅族大数据业务和规模3 nodes300+ nodes7200+ cores6+ PB2013.122014.9100+ nodes2015.620+ nodes2016.1目录魅族大

2、数据平台简介魅族大数据平台运维历程 魅族大数据统一运维平台 让大数据运维不再困难魅族大数据运维历程平台化/智能化标准化、自动化上线接入预研选型魅族大数据运维历程版 本选 版本选型情况(初期阶段):型Apache Hadoop 2.2.0Apache Hive 0.12.0版本选型考虑要点:是否开源(免费)是否稳定是否经过实践验证技术支持&问题解决是否便利魅族大数据运维历程制 定 大 数 据 运 维 规 范部署规范升级规范运 维 规 范安全规范魅族大数据运维历程集 群 迁 移机房内NameNode迁移跨机房集群迁移NN1机房A机房B元数据拷贝机房A元数据拷贝NN2NN2NN1Hadoop集群物

3、理 搬 迁魅族大数据运维历程监 控 告 警GangliaNagios以Ganglia、Nagios为监控告警基础组件,将告警信息经魅族DW监控系统统一管理发送,并对Hadoop生态特殊Metrics属性进行图表定制化展示。魅族大数据运维历程HDFS存 储 管 理以用户目录为监控单位,通过工具化的手段持续监视其空间使用变化情况, 同时配置预警通过定制化的手段,将重点关注的HDFS用户目录空间变化情况在魅族DW数 据分析平台进行图表展示,同时配置预警对HDFS特殊用户需求的空间目录,配置限额根据业务数据不同的存储需求,设定存储期限,同时配置清理措施魅族大数据运维历程YARN调 度 策 略先入先出容

4、量调度公平调度魅族Hadoop集群,YARN资源管理,采用公平调 度策略,多队列管理,来保障业务计算需求。大 数 据 生 态 工 具 集魅族大数据运维历程新的业务需求,驱动引入,新的大数据生态工具。实 时 流推 荐 算 法日 志 收 集路 径 分 析Spark streamingSpark standloneflumeelasticsear ch新 业 务选 定具 技术 工技术预研魅族大数据平台魅族大数据运维历程可 伸 缩 的 统 一 集 群随着业务的发展,为了应对各种各样的需求,越来越多的用到大 数据生态的相关工具,建设统一可伸缩的集群,将在兼顾业务需 求的同时,将运维成本降低。要点:统一H

5、DFS存储集群统一YARN资源管理集群Hive、Spark存储、计算资源共用,Hbase等其它集群建立在统一的HDFS之上魅族大数据运维历程版 本 升 级UpgradeHadoopSparkHiveHadoop、Hive、Spark升级:Hadoop升级至2.4+Hive升级至1.2+Spark升级至1.5+注意:做好版本评估测试Hadoop元数据备份魅族大数据运维历程以kerberos作为认证,ldap作账号管理,构建起hadoop集群的安全环境。安 全 管 理魅族大数据运维历程跨 机 房 集 群 备 援主集群备集群核心数据备份(Hadoop distcp)核心业务双活魅族大数据运维历程令大

6、数据基础组件人 头 疼 的 问 题 集HDFS存储使用不合理、消耗快YARN资源精细化监控措施缺失Hadoop生态工具BUGHadoop生态工具统一集群架构整合大数据业务HDFS写入失败申请的YARN队列资源不足,需要实时 调整MR任务失败Spark实时流业务突然崩溃目录魅族大数据平台简介 魅族大数据运维历程魅族大数据统一运维平台 让大数据运维不再困难魅族大数据统一运维平台统一运维平台集群资源运维操作运维数据 统一管理统一自动智能化分 控制化管理析判断魅族大数据统一运维平台第三方平台调研资源统一管理 运维自动化运维智能化EagleAmbariCloudera ManagerAmbari 调研历

7、程ambari基本介绍功能特性集群自动化安装管理监控存在问题Hortonworks 依赖UI功能过于简单不能删除Service不能管理多个集群文档不全面我们的诉求能跟上开源社区进 展多集群管理存储计算资源调配管理Ambari 调研历程自定义Service&Stack定义Stack目录结构metainfo.xml定义Service目录结构Python脚本def install(self, env)安装def stop(self, env)停服务def start(self, env)启动def status(self, env)获取状态def configure(self, env)配置meta

8、info.xml定义Repository上传服务对应的部署包 详见官方文档API调用实践Ambari 调研历程总结正式应用Ambari我们还需要:1.自定义Stack&Service+API 完成集群管理2.UI需要定制化改造3.建立私有Repository,剥离hortonwork依赖4.插件化机制集成自有平台(流程管理、权限管理)魅族大数据统一运维平台对比优点缺点Cloudera Manager界面清晰,使用方便,功能强大不开源,原生不支持Apache发 行版Ambari开源,原生支持Apache发行版使用不够方便,功能略少Eagle专注于大数据平台的智能化分析监控 支持插件扩展:Amba

9、ri、druid、elasticsearch资源流程化审计管理功能缺失自研可定制,易扩展,整合功能和界面研发成本高,费时费力魅族大数据统一运维平台ConfigDB/HistoryDBAGENT1AGENT2AGENTN主机管理主机伸缩配置管理资源监控集群分析资源曲线存储分析忙闲分析集群视图服务层应用视图流程视图主机视图WEB UI分析视图配置界面应用管理部署管理配置管理应用管理流程管理 应用监控请求分发器SeedSeedAgentSeedSeedAgentSeedSeedAgentSuper AgentSeedSeedAgentSeedSeedAgentSeedSeedAgentSuper Agent图例应用App 主机Node 集群 cluster魅族大数据统一运维平台监控信息收集应用日志监控 应用访问量、Error日志分析资源监控存储、CPU、网 络等忙闲曲线 分析集群监控集群健康度,服务 副本量,剩余主机资源量 剩余总存储量机房网络吞吐监控管理配置 日志采集配置 发布管理配置/管理管理现状流 程 管 理监控管理配置主机日志采集配置集群环境隔离/ 跨机房打通应用主机集群容灾/预备应用副本控制主机资源隔离集群扩容策略应对未来应用自恢复策略主机自恢复策略灰度集群峰值预演应用自身配置主机类型配置集群监控管理魅族大数据统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论