基于Spark的统一数据管理与探索平台_第1页
基于Spark的统一数据管理与探索平台_第2页
基于Spark的统一数据管理与探索平台_第3页
基于Spark的统一数据管理与探索平台_第4页
基于Spark的统一数据管理与探索平台_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Spark的统一数据管理与探索平台数据应用的5个发展阶段连续更新和流 程互动一线运营支撑正在发生什么情况?基于事件的 触发主动事件我希望发生什么情况!主要是批处理和 预定义的查询即席查询和并发 查询分析 为何发生了 这种情况?报表发生了什么 情况?分析建模预测将要发生什么 情况?工作负载复杂度数据复杂度第一阶段第二阶段第三阶段第四阶段第五阶段数据应用5阶段演进模型查询复杂度增加负载混合度增加数据量规模增加数据模型复杂度增加数据历史深度增加用户数量增加系统期望值增加批处理 即席查询分析 持续的更新/简短的战术性查询主动触发大部分的企业在前两个阶段典型的企业数据应用模式典型负载即席查询SQL:

2、报表、简单查询、汇总复杂检索:多字段检索、模糊检索、全文检索全表扫描:离线DAG计算任务、ETL处理流程、预测等交互式探索:自助交互式建模权重工 作 负 载30%123450%5%10%15%20%2530%35%25%25%全表扫描15%即席查询数据加载复杂查询5%分析建模现有解决方案MPP数据仓库TeraData、Greenplum、SAP HANA等BI生态成熟、非SQL任务很难支持巨贵大数据平台HDP、CDH、星环等技术先进、开源开放、坑多暴露底层组件太多,运维和使用技术曲线陡峭用户视角用户对大数据平台的期望最好看起来像数据库一样,管理方便,使用简单利用最新的大数据计算技术获得高性能和

3、扩展能 力不需要掌握各种底层组件兼容运行已有的数据库存储过程统一管理各种数据处理任务稳定可靠2、INFINIDATA平台INFINIDATA平台一体化的数据管理特性全量数据和表结构Schema自动导入增删改等增量数据的智能同步同时支持原始表和衍生表支持对表数据和表结构Schema的变化轨迹溯源自主选择存储引擎和分区分桶优化数据变化自动触发相关的计算任务易用强大的计算流程管理特性借鉴关系代数思想,计算流程等价于表的函数变换计算流程统一管理,计算任务历史可追踪计算逻辑和中间结果可共享自动分析计算任务的依赖关系图进行全局调度优化支持PLSQL存储过程和非SQL(Scala或Python)的复杂 计算

4、任务标准高效的数据查询服务特性提供标准的JDBC访问接口,对常用的Cognos等报表服 务提供driver提供MDX语言的建模和OLAP分析引擎服务提供标准Es接口提供数据检索服务动态分层功能,将访问最频繁的数据保存在内存中, 同时将很少访问的数据移至磁盘开源组件优化集成修改hive2.3、spark2.1等相关组件的bug和源代码约80 处3、INFINIDATA可视化探索可视化探索DI常驻内存 服务每个工程运行在一个单 独的Spark环境Spark环境资源由YARN分配调度DI和Spark常驻内存, 通过消息队列交互利用RDD保存探索过程中的各种中间表可视化探索功能相关分析行分析(聚 类)

5、列分析(变 量聚类)值分析(频 繁项)离散矩阵分析自相关分析互相关分析OLAP分析Mondrian建 模多维度分析可视化分析散点图直方图箱图3维散点图行相关分析K-means聚类分析列相关分析热力图展现列 之间相关性发现基础变量 和衍生变量列相关-pearson相关性值相关分析频繁项分析属性值关联性离散矩阵分析图分析社会网络分析药品关联分析公共安全(相同时间/机场)乘坐相同航班的同乘分析(相同时间/地点)的紧密通话客户分析科技领域研发相类似技术领域的竞争对手分析论文合作关系分析模型自相关矩阵分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4

6、Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5R1R2R3R4R5A110100A211010A311001A400101A500110A1A2A3A4A5A11111A21201A31210A41011A51101A1A2A3A4A5A110.4080.4080.50.5A20.40810.66700.408A30.4080.66710.4080A40.500.40810.5A50.50.40800.51A1A2A3A4A5A11-0.167-0.1670.1670.167A2-0.16710.167-1-0.16

7、7A3-0.1670.1671-0.167-1A40.167-1-0.16710.167A50.167-0.167-10.1671原始数据表矩阵变换共现相关性cos相关性pearson相关性投影保险欺诈合谋分析案件编号人员车牌地点金额344561段建华,张 华,许卫湘A2BA32,湘AA1391,湘ZG00069板仓南路20000344562罗坚,肖蓉湘J7ZH83,湘AL5S85开元西路50000344563王丽萍,刘 双泉湘A65N90,湘A1661K寿昌路100000344564彭发兵,周 辉,苏英雄湘A2ZB92,湘B2HL12, 湘A2KA19人民路70000344565张斌,王丽

8、萍,湘AT8137,湘A65N90湘江东路10000344567344568344569344570344571谢前01101敬春桥00010罗坚01001肖蓉00100刘双泉01000谢前敬春 桥罗坚肖蓉刘双 泉谢前0211敬春 桥0000罗坚2001肖蓉1000刘双 泉1010谢前敬春桥罗坚肖蓉刘双泉谢前100.8160.5770.577敬春桥01000罗坚0.8160100.707肖蓉0.5770010刘双泉0.57700.70701谢前敬春桥罗坚肖蓉刘双泉谢前1-0.6120.6670.4080.408敬春桥-0.6121-0.408-0.25-0.25罗坚0.667-0.4081-0

9、.4080.612肖蓉0.408-0.25-0.4081-0.25刘双泉0.408-0.25-1-0.251理赔数据表矩阵变换共现相关性cos相关性pearson相关性自相关分析可视化Aduna图合作关系可视化相关矩阵分析map相关矩阵分析map互相关矩阵分析C1C2C3C4C5R1X1Y1A1,A2,A3B1,B2,B3Z1R2X2Y2A2,A3B2,B4Z2R3X3Y3A1,A4,A5B2,B3,B6Z3R4X4Y4A2,A5B1,B4Z4R5X5Y5A3,A4B1,B5Z5B1B2B3B4B5A112200A212120A312111A411101A511110A1A2A3A4A5A13

10、333A23500A33520A43023A53003A1A2A3A4A5A110.70.7830.8490.849A20.710.8940.5660.849A30.7830.89410.7910.791A40.8490.5660.79110.8A50.8490.8490.7910.81A1A2A3A4A5A110.250.3540.5480.548A20.2510.707-0.5480.548A30.3540.707100A40.548-0.54801-0.2A50.5480.5480-0.21原始数据表矩阵变换共现互相关性cos互相关性pearson互相关性投影OLAP多维度分析基于MDX的数据模型Mondrian引擎多维度汇总分析压缩投影的大数据可视化基于保持数据概率分布不变的思想将原始数据根据缩放级别和距离远近将原始数据映射成特定显示区域的矩阵数据可视化大规模散点图4、应用实践典型应用一:清单查询应用需求每天增量从22张原始业务表生成3张宽表原始表数据量7000万条,宽表2亿条记录对3张宽表近200个字段进行模糊组合检索典型应用二:统计报表需求100多个维度、60多个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论