淘宝数据应用开发平台_第1页
淘宝数据应用开发平台_第2页
淘宝数据应用开发平台_第3页
淘宝数据应用开发平台_第4页
淘宝数据应用开发平台_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、淘宝数据应用开发平台 数据规模 数据产品 总台架构背景进入淘宝数据平台 产品架构 技术架构概览数据应用开发架构 知识库(元数据) 调度 数据集成 IDE 成本优化 生命周期深入关键服务介绍展望数据创造未来大纲每日新增数据20T 累积数据14P2000+服务器的云计算平台每天处理100,000+作业任务,包括100+新增作业任务每天处理1P+数据,包括0.5%新增数据总体数据规模数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计数据平台ETL

2、作业设计,实施,维护,优化数据模型建模架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构使用、建设建设如何使用数据如何使用数据传统数据仓库模式传统数据仓库模式数据分析师ETL开发工程师模型架构师运营程序员数据化运营商业决策产品设计理解业务文档化业务和需求BI产品设计PD业务分析师/数据PD卖家买家数据产品PD店铺经营购买决策行业分析分析、挖掘用户需求数据产品设计培训,咨询,解决方案架构师技术框架设计平台与工具的实现数据产品开发团队商业智能团队数据开发团队内部用户外部用户基础开发&开发架构使用、建设建设服务数据开放之路数据

3、开放之路人人都是数据专家人人都是数据专家ISV数据应用开发平台数据工场 Data IntegrationDB syncTTHiveHadoop Map ReduceHadoop HDFSDatax报表需求(淘数据)Hbase即席查询(adhoc)数据分析数据挖掘数据产品数据平台数据平台产品架构产品架构实时计算 底层平台数据开发平台数据应用Gateway ServersOracle 备库MySQL 备库日志系统Log ServerHadoop开发平台Gateway ServersDBSync爬虫数据Map Reduce Java JobsStreaming JobsHive JobsTimeTu

4、nnelDataX数据流向主站服务(淘宝,B2B,广告,搜索,BOSS)HbaseHbaseMysqlOracleDataXMyfox LoaderLzLoaderOther System数据产品Adhoc报表(淘数据,Business Preview)回流主站应用流式计算其它数据开发平台数据开发平台数据流向数据流向实时计算平台OLAP server愿景和目标降低数据开发门槛,人人都可以方便加工和获取数据提升数据项目开发效率有效控制计算存储成本沉淀最佳实践,打造数据应用开发的标准用户分类非技术背景用户技术背景用户需求分类ADHOC需求?类Excel查询工具图形化拖拽HIVE IDE数据项目/数

5、据产品?数据应用开发平台数据应用开发平台数据字典,知识库,问答图形化辅助建模工具,自动建模数据集成(DataX,DBSync,TT3)IDE(web,RCP),代码优化器支持HIVE, map-reduce,mahout工作流编辑准入测试,持续集成,性能测试调度引擎分析工具集指标系统(Dashboard)监控告警,数据质量,生命和周期数据集成,OLAP,图标引擎,可视化引擎需求分析运行时监控业务建模数据集成线上部署管理生命周期数据开发&挖掘报表配置数据质量监控结果数据导出数据可视化配置测试运行成本优化计算成本元数据center权限控制审计日志搜索引擎缓存技术服务基础服务项目实施流程数据

6、工场产品架构Hadoop MR Job/Task级别运行日志 MR级别运行日志 各个环节延迟 系统吞吐Hadoop HDFS 文件Meta 目录Meta 文件,目录统计信息 权限属性 访问记录HIVE 表Schema 分隔符,格式,压缩方式 记录数 权限信息工作流调度 数据流定义,任务依赖 节点级运行日志 系统延迟 调度开销 Gateway集群负载,并发度 任务优先级,基线代码库 代码 与用户的关联数据工场关键服务知识库(元数据管理)其它服务生成捕获/解析/处理/归一化元数据应用归一化存储Hadoop MRHadoop HDFSHIVE调度系统代码J/HI/PY RACMySQLSphinxR

7、edis需求系统收集器收集器收集器收集器解析器收集器数据字典指标库知识库数据质量监控自动建模/模型优化SQL自动改写Metadata Service生命周期血缘分析&影响分析SQL优化监控告警BUS数据工场关键服务知识库(元数据)系统优化宏观数据微观数据任务依赖关系/data pipeline天网调度效率Gateway并行度Jobtracker调度效率关键路径分析运行趋势分析系统关键路径点数据源监控末端监控比较重点节点运行时间等待时间同步时间算法优化集群计算效率系统吞吐瓶颈ETL元数据分析/血缘关系参数调优计算模型优化工具优化优先级事后评分数据工场关键服务知识库(元数据)1.0 Cro

8、ntab 完全为了解决定时启动的问题 应用自己解决依赖关系 无均衡负载问题 无优先级问题 全人工运维2.O 调度系统(天网) 基于工作流,自动管理以来关系 资源分配,并行度控制 容错机制:任务自动重跑、机器自动倒换 自动负载平衡 支持业务优先级 大部分场景支持自动运维,小部分半自动运维 独立的系统3.0 调度服务(数据工场) 结合IDE 自动部署 全自动运维 自助监控,自助值班,100%监控覆盖 开放式服务 与系统其他部分集成,服务平台的一部分数据工场关键服务调度Standardized Gateway server cluster调度服务标准化配置统一包管理批量管理工具标准化运维fail o

9、verdynamic LB智能调度high-usagehigh-availableLower maintenance cost per machine benefit消息总线调度前台其它服务定义数据工场关键服务调度调度服务3.0调度服务3.0 智能调度数据工场关键服务调度数据源监控末端监控acdbfe数据流1末端监控acdbfe数据流2末端监控acdbfe数据流3末端监控acdbfe数据流4末端监控acdbfe数据流5系统关键路径点监控关键路径分析数据工场关键服务调度全量/非实时同步增量实时同步数据源Mysql备库oracle备库日志数据爬虫数据Hadoop集群DataXTimeTunnel

10、2Dbsync计算结果Mysqloracle全量/非实时同步DataXHDFS数据工场关键服务数据集成数据工场关键服务IDE数据工场关键服务RCPJDBCHive 元数据库Hadoop Cluster BUSCLICLICLIIDE Server(CLI mode)元数据调度优化引擎生命周期Hive serverJDBCJDBCHTTPHTTPPIPEIDE Server(HS mode)RPCRCPWeb数据工场关键服务IDE数据仓库表打散为表.列归一化表达式用户提交的数据流打散为表.列归一化表达式进入匹配数据流rewrite模型优化建议提交反馈进入用户重写规则引擎字段仓库数据工场关键服务成本优化生命周期对象( Object )动作( Action ):规则( Rule ):对象( Object ):Hive tableHDFS中的目录动作( Action ):仅保留,不作操作删除合并/压缩极限存储HDFS Raid移动到其它文件系统其它操作(可增加)动作可以级联规则( Rule ):指定管理对象,在指定时间后,执行指定操作策略。每个管理对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论