为数据赋能-敏捷高效的数据处理_第1页
为数据赋能-敏捷高效的数据处理_第2页
为数据赋能-敏捷高效的数据处理_第3页
为数据赋能-敏捷高效的数据处理_第4页
为数据赋能-敏捷高效的数据处理_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、为数据赋能敏捷高效的数据处理徐岷峰数据处理Data Wrangling数据处理的流程ETL:从多种数据源提取数据,做清理、聚合、派生,加载到特定存储ELT:利用存储的计算能力做数据变换Data WranglingData WranglingTalkingData 遇到的问题需求理解不一致/不清晰 沟通成本高开发技术栈纷杂 功能重复开发预计算缺乏统一的标准与服务即席查询多种异构数据元数据系统Meta Data SystemMeta Data System元数据是实现敏捷的关键元数据是定义数据的数据 是实现系统复用的关键可以直接作为系统的外部接口 元数据驱动元数据是对业务的高度抽象某种程度上确定了

2、系统的数据边界Meta-Meta DataMeta ModelMeta DataDataData set SpecificationData setData set Definition元数据规范(meta model)数据源(Data Source)分区定义(Partition) 数据集(Data Set)模式(Schema) 数据处理过程(Recipe)算子(Operator)多维模型(Multi-Dimension) 实体关系模型(ER)模型(model)Meta Data System实现Meta Data System对象JSONMySql SQLite/Derby存储检索索引ES通

3、知MQ部署Service Process数据变换Data Transform没有银弹Data Transform数据处理的核心 机器学习的基础(特征工程)不深奥的技术 却最耗费人力 尤其是维护工作纷繁的ETL工具:PDI(Kettle) Talend Data Integration Oracle Data IntegrationDataX 适合的才是最好的共同的思路:语义抽象(Session/JOB/Operator,DAG)元数据驱动(数据源、目的地、 数据结构、依赖、过程)执行引擎数据质量监测流程监测数据安全与审计Data TransformTalkingData 的解决方案 语义抽象B

4、PMNJSONDAGSequenceconditionOperatorFunctionParameterreturnASParallelismData TransformTalkingData 的解决方案 编译器逻辑计划(DAG)配置文件算子库,多种语言实现通用特性日志审计计量安全运行时文件,Jar,.R,.so,.pyOperator LibrariesCommon AspectcompilerRun Time FilesExecute PlanConfig PlanDAGJavaPythonRC/C+Spark Flink Strom H2O.aiScikit-Learn索引服务Index

5、 ServiceIndex Service索引服务索引,是数据查找和定位的关键B+树、跳表、倒排 Bitmap精准的排重统计集合运算,Intersect, Union, Except索引,也是一种数据,可以运算生成索引检索运算维护索引服务Index ServiceBitmap举个例子:定义Offset为UserId 时间粒度为天,索引1(蓝色)代表玩“吃鸡”游戏的用户 索引2(黄色)代表玩“王者”游戏的用户统计:今天玩了“吃鸡”或“王者”的用户今天既玩了“吃鸡”又玩了“王者”的用户今天玩了“吃鸡”但没玩“王者”的用户Index Service索引生成可适配多种执行引擎, Storm , Fli

6、nk , Spark索引存储支持异构存储索引查询查询能力可扩展支持实时数据查询与运算元数据驱动Zookeeper同步状态架构SchedulerMetaDataBrokerZooKeeperWorker ManagerReal Time CacheExecute EngineCacheStorageMySQLHBaseHDFSIndex Service元数据DomainDimensionStorageImplementationuniqueKeyIndexIndex Service查询DSL ISQLFilter,维度间的集合运算查询类型:select,groupby,topN,timeSeri

7、es,window,subQuery返回结果:index,count,idListLogical Plan Physical Plan固定“场景”的查询Index Service用bitmap实现的倒排索引 以索引维度做Key以索引标识作为Offset二级索引按时间粒度分层的多叉树Year:2019 Bitmap:indexesMonth:3 Bitmap:indexesMonth:12 Bitmap:indexesDay:5 Bitmap:indexesDay:6 Bitmap:indexesDay:30 Bitmap:indexesDay:27 Bitmap:indexesDay:21 B

8、itmap:indexesDay:30 Bitmap:indexesMonth:7 Bitmap:indexesIndex Service处理方式:维护-金字塔模型年数据月数据天数据合并删除导出Index Service有序漏斗- 时序索引用bitmap存储事件的时序关系:以时间作为Offset,精度不宜太高,秒压缩存储:1个RoaringBitmap可以存储1242 个用户在一天内的20 个基准事件序列。(231/3600/24/20)掩码不同的二级索引。配合Index Service和关系数据库实现有序漏斗每日事件发生的用户索引分群索引事件明细过滤 UID=287698:43:23Even

9、tID = 0EventID = 1EventID = 19查询引擎Query EngineQuery Engine解决的问题ETL-ELTCustom Query异构数据不同的DSL查询优化解耦物理存储和业务逻辑虚拟表,视图Data AnalysisQuery EngineRDBNoSqlFile SystemIndex ServiceQuery Engine部署:Library(Jar)设计思路统一的查询接口:SQL语义优化的逻辑计划按数据源转化到对应的DSL(物理计划)通过客户端发送请求,获取数据元数据:DataSet,特定的转换规则,ClientAnalytics Applicatio

10、nJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery EngineQuery Engine实现Core: Apache Calcite新增或改写Adapter: Druid,CarbonData, Kudu元数据客户端Analytics ApplicationJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery Engine实例Query EngineQuery EnginePitfall : 性能降低 10%-30%Cache Bypass optimization and Translation增强Analytics ApplicationJDBC IinterfaceLogical Plan with Semantic optimizationPhysical Plan against specific DSLCl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论