淘宝数据应用开发平台iData.ppt_第1页
淘宝数据应用开发平台iData.ppt_第2页
淘宝数据应用开发平台iData.ppt_第3页
淘宝数据应用开发平台iData.ppt_第4页
淘宝数据应用开发平台iData.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

淘宝数据应用开发平台,泽远数据平台与产品 W/apeks,大纲,每日新增数据20T 累积数据14P 2000+服务器的云计算平台 每天处理100,000+作业任务,包括100+新增作业任务 每天处理1P+数据,包括0.5%新增数据,总体数据规模,数据分析师,ETL开发工程师,模型架构师,运营,程序员,数据化运营 商业决策 产品设计,理解业务 文档化业务和需求 BI产品设计,PD,业务分析师/数据PD,卖家,买家,数据产品PD,店铺经营 购买决策 行业分析,分析、挖掘用户需求 数据产品设计,数据平台,ETL作业设计, 实施,维护, 优化,数据模型建模,架构师,技术框架设计 平台与工具的实现,数据产品开发团队,商业智能团队,数据开发团队,内部用户,外部用户,基础开发 & 开发架构,使用、建设,建设,如何使用数据传统数据仓库模式,数据分析师,ETL开发工程师,模型架构师,运营,程序员,数据化运营 商业决策 产品设计,理解业务 文档化业务和需求 BI产品设计,PD,业务分析师/数据PD,卖家,买家,数据产品PD,店铺经营 购买决策 行业分析,分析、挖掘用户需求 数据产品设计,培训,咨询,解决方案,架构师,技术框架设计 平台与工具的实现,数据产品开发团队,商业智能团队,数据开发团队,内部用户,外部用户,基础开发 & 开发架构,使用、建设,建设,服务,数据开放之路人人都是数据专家,ISV,数据应用开发平台数据工场,Data Integration,DB sync,TT,Hive,Hadoop Map Reduce,Hadoop HDFS,Datax,报表需求(淘数据),Hbase,即席查询(adhoc),数据分析,数据挖掘,数据产品,数据平台产品架构,实时计算,底层平台,数据开发平台,数据应用,Gateway Servers,Oracle 备库,MySQL 备库,日志系统 Log Server,Hadoop,开发平台,Gateway Servers,DBSync,爬虫数据,Map Reduce Java Jobs,Streaming Jobs,Hive Jobs,TimeTunnel,DataX,数据流向,主站服务(淘宝,B2B,广告,搜索,BOSS),Hbase,Hbase,Mysql,Oracle,DataX,Myfox Loader,LzLoader,Other System,数据产品,Adhoc,报表(淘数据,Business Preview),回流主站应用,流式计算,其它,数据开发平台数据流向,实时计算平台,OLAP server,愿景和目标 降低数据开发门槛,人人都可以方便加工和获取数据 提升数据项目开发效率 有效控制计算存储成本 沉淀最佳实践,打造数据应用开发的标准 用户分类 非技术背景用户 技术背景用户 需求分类 ADHOC需求? 类Excel查询工具 图形化拖拽 HIVE IDE 数据项目/数据产品? 数据应用开发平台,数据应用开发平台,数据字典, 知识库, 问答,图形化辅助建模工具, 自动建模,数据集成 (DataX,DBSync,TT3),IDE(web,RCP),代码优化器 支持HIVE, map-reduce,mahout 工作流编辑,准入测试,持续集成, 性能测试,调度引擎 分析工具集 指标系统(Dashboard),监控告警,数据质量, 生命和周期,数据集成,OLAP,图标引擎, 可视化引擎,需求分析,运行时监控,业务建模,数据集成,线上部署,管理生命周期,数据开发&挖掘,报表配置,数据质量监控,结果数据导出,数据可视化配置,测试,运行,成本优化,计算成本,元数据center,权限控制,审计,日志,搜索引擎,缓存,技术服务,基础服务,项目实施流程,数据工场产品架构,数据工场关键服务知识库(元数据管理),其它服务,生成,捕获/解析/处理/归一化,元数据应用,归一化存储,Hadoop MR,Hadoop HDFS,HIVE,调度系统,代码 J/HI/PY,RAC,MySQL,Sphinx,Redis,需求系统,收集器,收集器,收集器,收集器,解析器,收集器,数据字典,指标库,知识库,数据质量监控,自动建模/模型优化,SQL自动改写,Metadata Service,生命周期,血缘分析&影响分析,SQL优化,监控告警,BUS,数据工场关键服务知识库(元数据),系统优化,宏观数据,微观数据,任务依赖关系/data pipeline,天网调度效率,Gateway并行度,Jobtracker调度效率,关键路径分析,运行趋势分析,系统关键路径点,数据源监控,末端监控,比较,重点节点,运行时间,等待时间,同步时间,算法优化,集群计算效率,系统吞吐瓶颈,ETL元数据分析/血缘关系,参数调优,计算模型优化,工具优化,优先级,事后评分,数据工场关键服务知识库(元数据),数据工场关键服务调度,Standardized Gateway server cluster,调度服务,标准化配置,统一包管理,批量管理工具,标准化运维,fail over,dynamic LB,智能调度,high-usage,high-available,Lower maintenance cost per machine,benefit,消息总线,调度前台,其它服务,定义,数据工场关键服务调度,调度服务3.0,调度服务3.0 智能调度,数据工场关键服务调度,数据源监控,末端监控,数据流1,末端监控,数据流2,末端监控,数据流3,末端监控,数据流4,末端监控,数据流5,系统关键路径点监控,关键路径分析,数据工场关键服务调度,全量/非实时同步,增量实时同步,数据源,Mysql备库,oracle备库,日志数据,爬虫数据,Hadoop集群,DataX,TimeTunnel 2,Dbsync,计算结果,Mysql,oracle,全量/非实时同步,DataX,HDFS,数据工场关键服务数据集成,数据工场关键服务IDE,数据工场关键服务RCP,JDBC,Hive 元数据库,Hadoop Cluster,BUS,CLI,CLI,CLI,IDE Server(CLI mode),元数据,调度,优化引擎,生命周期,Hive server,JDBC,JDBC,HTTP,HTTP,PIPE,IDE Server(HS mode),RPC,RCP,Web,数据工场关键服务IDE,数据仓库表,打散为表.列,归一化表达式,用户提交的数据流,打散为表.列,归一化表达式,进入,匹配,数据流rewrite,模型优化建议,提交,反馈,进入,用户重写,规则引擎,字段仓库,数据工场关键服务成本优化,对象( Object ): Hive table HDFS中的目录 动作( Action ): 仅保留,不作操作 删除 合并/压缩 极限存储 HDFS Raid 移动到其它文件系统 其它操作(可增加) 动作可以级联 规则( Rule ): 指定管理对象,在指定时间后,执行指定操作策略。 每个管理对象可以配置多条管理规则。,保留,删除,合并,压缩,极限存储,HDFS RAID,Mo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论