淘宝云梯分布式计算平台整体架构_W_第1页
淘宝云梯分布式计算平台整体架构_W_第2页
淘宝云梯分布式计算平台整体架构_W_第3页
淘宝云梯分布式计算平台整体架构_W_第4页
淘宝云梯分布式计算平台整体架构_W_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、淘宝云梯分布式计算平台整体架构淘宝数据平台与产品部云铮【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!目录系统架构数据同步方案调度系统元数据应用【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!目录系统架构数据同步方案调度系统元数据应用【程序员hadoop7天视频教程全网首发】QQ:1871209564欢!我系统整体架构Oracle 备库MySQL 备库日志系统爬虫数据Gateway ServersDataExchangeDBSyncTimeTunnel数据流向云梯1Map Reduce Java JobsStreaming JobsHive

2、Jobs数据平台搜索广告BI支付宝口碑B2B云梯2数据魔方量子统计淘数据推荐系统搜索排行【程序员hadoop7天视频教程全网首发】QQ:1871209564天网调度系统我欢!淘宝云计算介绍【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!目录系统架构数据同步方案调度系统元数据应用【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!数据同步方案概览数据源计算结果增量实时同步Hadoop集群DbsyncMysql备库Mysql全量/非实时同步oracle备库TimeTunnel 2HDFSDataX全量/非实时同步日志数据oracle爬虫数据DataX

3、【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!数据同步方案 实时同步VS非实时同步DB数据仓库DB 数据仓库 实时同步实时同步基于实时数据的计算开始 实时同步实时同步基于天增量的计算任务开始基于全量的计实时同步非实时同步时间轴低负载无负载算任务开始 DB数据同步到00点实时同步合并增量到全量天增量数据同步高负载【程序员hadoop7天视频教程全网首发】QQ:1871209564合并增量到全量我欢!数据同步方案 TimeTunnel2 介绍TimeTunnel 是 一 个 实 时 数 据 传 输 平 台 , TimeTunnel的主要功能就是实时完成海量数据的交换,因

4、此TimeTunnel的业务逻辑主 要也就有两个:一个是发布数据,将数据发送到TimeTunnel;一个是订阅数据,从TimeTunnel 读取自己关心的数据。 TimeTunnel作为一个实时数据传输平台具有以下特点:高效性:单点1k数据可以到4万TPS 高可靠性:M-S模式时保证数据不丢失高可用性:单点故障不影响整个集群服务顺序性:当没有故障发生时,保证所有传输都是顺序的,或者说一次连接内的传输是顺序的。【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!数据同步方案 Dbsync 介绍Oracle server 主库dbsync是一个用于同步服务库数据到HDFS的产

5、品,通过分析数据库服务器的log文件来提取相应的数据库动作,进而达到数据库到HADOOP的数据同步,供相关部门提取增量数据。2.Query dataDbsync client/server1. Rowid and other infoDbsync实时同步性能记录大小2K9K速度4M/s10M/s3.DFS WriteOracle server(备库)/Dbsync client应用场景数据量 800G00:10分备库打开:非实时同步完成时间0:55HDFS实时同步完成时间0:25【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!数据同步方案 DataX 介绍 DataX

6、是一个在异构的数据容器之间交换数据的工具。用于在任意的数据处理系统MysqlOracle/RAC(RDBMS/NoSql/FS)之间交换数据。 Framework+plugin,Framework处理了高速数据交换的大部分问题,插件提供对数据处理系统的访问。 运行模式 :stand-alone / on hadoop Webui + cui 基于元数据的高效配置,例子: 表A sharding为32个库,1024张表,配置时间hdfs oracleloader-hdfs hdfs-oracleSpeed(M/s) 29.931.918.1其它数据处理系统Hdfs【程序员hadoop7天视频教程

7、全网首发】QQ:1871209564我欢!目录系统架构数据同步方案调度系统元数据应用【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统已完成的任务元数据信息数据系统宏观数据Gateway servers stat运行日志调度系统任务微观数据任务运行状况分析运行资源 RACcluster statHadoop cluster stat优化建议 【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统生产率银弹自动部署400智能调度300200运维平台100监控告警012开发效率34运维成本5Web UI异构平台支持【程序员hadoop7天

8、视频教程全网首发】QQ:1871209564我欢!调度系统模块/子系统【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统任务触发方式Time TriggerFlow control/Data Trigger【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统调度方式 RAC计算结果Mysql数据源 Mysql备库Hadoop集群Oracleoracle备库日志数据Gateway clusterHive/ mapreduce/ Streaming爬虫数据dataxJava/shell天网调度系统元数据运行数据【程序员hadoop7天视

9、频教程全网首发】QQ:1871209564数据流向数据流向Procedure我欢!调度系统什么是Gateway?Gateway:参与天网调度的资源功能:数据同步(dataX, DBSync,TimeTunnel2)数据上传/下载(hadoop fs put/get/getmerge)日志收集 Hive sql语句提交运行MapReduce程序提交运行 集群间数据同步(hadoop distcp)Gateway ClusterHive/ mapreduce/ StreamingdataxJava/shell【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统 Gat

10、eway规模及规划用于生产的Gateway约30台,由天网调度统一进行任务分发,并行控制。 数据同步(dataX, DBSync,TimeTunnel2) 数据上传/下载(hadoop fs put/get/getmerge) 日志收集 Hive sql语句提交运行MapReduce程序提交运行 集群间数据同步(hadoop distcp)【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统gateway standardization天网调度系统benefitfail overhigh-available智能调度 dynamic LBhigh-usage标准化配

11、置 Lower maintenance cost per machine统一包管理 批量管理工具 Standardized Gateway server cluster标准化运维 程序员hadoop7天视频教程全网首发】QQ:1871209564【我欢!调度系统Dynamic LB实现3 生成一定数目的令牌token4 令牌进入令牌桶 负载均衡模块2 评估机器负载 5 队列头部任务获得令牌 tokentoken列)1产生运行资源 6 进入gateway执行 【程序员hadoop7天视频教程全网首发】QQ:1871209564归一化 Gateway clusterToken bucket待运行任

12、务(优先级队 Cpu/mem/netio/diskio信息收集 我欢!调度系统优先级策略(实现)优先级高优先级任务优优先获得令牌 (即优先级获得gateway server)天网作业传递优先级Hive/map-reduce传递优先级 Map-recue job优先级 Map-recue job优先级 Map-recue job传递传递传递Map/reduce task优先级Map/reduce taskMap/reduce taskMap/reduce taskMap/reduce taskMap/reduce task高优先级任务 优先分配tasktrackerMap/reduce task

13、Map/reduce taskMap/reduce taskMap/reduce taskMap/reduce taskMap/reduce task【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统优先级策略(意义)没有优先级有优先级高高ETL jobsETL jobsETL jobsETL jobsETL jobsETL jobsETL jobsETL jobs低ETL jobs低ETL jobs【程序员hadoop7天视频教程全网首发】QQ:1871209564客户重ETL进度客户反应要程度客户重ETL进度客户反应要程度我欢!调度系统优先级策略(DAG继承

14、算法)【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!调度系统监控全景我欢!监控重点系统边界和主干数据源监控 业务线1业务线2业务线3业务线4业务线5关键路径分析系统关键路径点监控末端监控末端监控末端监控末端监控末端监控我欢!目录系统架构数据同步方案调度系统元数据应用【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!问题如何发现系统瓶颈,提升计算集群效率?如何不断满足客户需求?面对海量数据,作业和新增需求,如何提高开发效率?如何控制和运维?100000+ jobs / 100+ inc pre day1000+ machines1P+ data

15、 processed per day / 0.5% inc per day程序员hadoop7天视频教程全网首发】QQ:1871209564【我欢!问题面对上面的问题 靠经验丰富的架构师? 还是靠智能的分析系统? 【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!挖掘元数据金矿定位系统瓶颈运行数据基于元数据的分析平台分析策略定位关键路径/节点元数据自动作业优化需求基于元数据的开发平台自动定位作业输入自动生成作业代码100000+ jobs我欢!基于元数据的开发平台自动生成代码/集成开发平台自动定位输入/自动代码优化/自动部署/自动调度配对分析/热点分析/字段变更影响/转

16、换轨迹元数据【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台运行分析系统元数据解析系统巡检有问题的作业优化建议上线运行运行日志分析分析策略架构师系统瓶颈上线前检查系统分析师评分策略更新分析/评分策略系统系统优化作业评分系统开发者ETL作业作业优化【程序员hadoop7天视频教程全网首发】QQ:1871209564【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台分析策略概览任务依赖关系/data pipeline宏观数据天网调度效率系统吞吐瓶颈Gateway并行度微观数据Jobtracker调度效率系统优

17、化关键路径分析集群计算效率优先级末端监控运行趋势分析比较算法优化运行时间系统关键路径点参数调优数据源监控重点节点等待时间工具优化事后评分同步时间ETL元数据分析/血缘关系计算模型优化我欢!基于元数据的分析平台运行数据收集【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台宏观分析策略【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台定位系统瓶颈每个环节的吞吐能力都是动态变化的。 在某个特定时间区间内,整个系统的吞吐能力由吞吐能力最小的一个环节决定。如果需要发现系统的短板,需要对每个环节的吞吐曲线绘制出来。 针

18、对系统的短板进行重点优化。 对于吞吐能力抖动比较大的环节,需要在前面设置队列进行缓冲。 瓶颈定位方法: 1 每个环节的吞吐曲线 2 两个环节之前缓冲队列的状态曲线3 统一单位到task级别 【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台任务等待时间【程序员hadoop7天视频教程全网首发】QQ:1871209564【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元数据的分析平台关键路径分析相同路径 不同的路径 相 同的路 径 我欢!基于元数据的分析平台任务运行趋势 【程序员hadoop7天视频教程全网首发QQ:1871209564我欢!基于元数据的分析平台调度紧凑度分析【程序员hadoop7天视频教程全网首发】QQ:1871209564我欢!基于元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论