




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
INFINIDATA 基于Spark的统一数据管理与探索平台 熊永平 北京邮电大学网络技术研究院 提纲 设计背景 INFINIDATA大数据平台 INFINIDATA可视化探索 应用实践 数据应用的5个发展阶段 连续更新和流 程互动 一线运营支撑 正在发生什么情况 基于事件的 触发 主动事件 我希望发生什么情况 主要是批处理和 预定义的查询 即席查询和并发 查询 分析 为何发生了 这种情况 报表 发生了什么 情况 分析建模 预测 将要发生什么 情况 工作负载复杂度 数据复杂度 第一阶段 第二阶段 第三阶段 第四阶段 第五阶段 数据应用5阶段演进模型 查询复杂度增加 负载混合度增加 数据量规模增加 数据模型复杂度增加 数据历史深度增加 用户数量增加 系统期望值增加 批处理 即席查询 分析 持续的更新 简短的战术性查询 主动触发 大部分的企业在前两个阶段 典型的企业数据应用模式 典型负载 即席查询SQL 报表 简单查询 汇总 复杂检索 多字段检索 模糊检索 全文检索 全表扫描 离线DAG计算任务 ETL处理流程 预测等 交互式探索 自助交互式建模 全表扫描 数据加载 复杂查询 即席查询 权重 工 作 负 载 25 15 25 30 5 1 2 3 4 5 0 5 10 15 20 25 30 35 分析建模 现有解决方案 TeraData Greenplum SAP HANA等 BI生态成熟 非SQL任务很难支持 巨贵 MPP数据仓库 HDP CDH 星环等 技术先进 开源开放 坑多 暴露底层组件太多 运维和使用技术曲线陡峭 大数据平台 用户视角 最好看起来像数据库一样 管理方便 使用简单 利用最新的大数据计算技术获得高性能和扩展能 力 不需要掌握各种底层组件 兼容运行已有的数据库存储过程 统一管理各种数据处理任务 稳定可靠 用户对大数据平台的期望 2 INFINIDATA平平台台 INFINIDATA平台 一体化的数据管理 特性 全量数据和表结构Schema自动导入 增删改等增量数据的智能同步 同时支持原始表和衍生表 支持对表数据和表结构Schema的变化轨迹溯源 自主选择存储引擎和分区分桶优化 数据变化自动触发相关的计算任务 易用强大的计算流程管理 特性 借鉴关系代数思想 计算流程等价于表的函数变换 计算流程统一管理 计算任务历史可追踪 计算逻辑和中间结果可共享 自动分析计算任务的依赖关系图进行全局调度优化 支持PLSQL存储过程和非SQL Scala或Python 的复杂 计算任务 标准高效的数据查询服务 特性 提供标准的JDBC访问接口 对常用的Cognos等报表服 务提供driver 提供MDX语言的建模和OLAP分析引擎服务 提供标准Es接口提供数据检索服务 动态分层功能 将访问最频繁的数据保存在内存中 同时将很少访问的数据移至磁盘 开源组件优化集成 修改hive2 3 spark2 1等相关组件的bug和源代码约80 处 3 INFINIDATA可可视视化化探探索索 可视化探索DI 常驻内存 服务 每个工程运行在一个单 独的Spark环境 Spark环境资源由 YARN分配调度 DI和Spark常驻内存 通过消息队列交互 利用RDD保存探索过程 中的各种中间表 可视化探索功能 相关分析 行分析 聚 类 列分析 变 量聚类 值分析 频 繁项 离散矩阵分析 自相关分析 互相关分析 OLAP分析 Mondrian建 模 多维度分析 可视化分析 散点图 直方图 箱图 3维散点图 行相关分析 K means聚类分析 列相关分析 热力图展现列 之间相关性 发现基础变量 和衍生变量 列相关 pearson相关性 值相关分析 频繁项分析 属性值关联性 离散矩阵分析 图分析 社会网络分析 药品关联分析 公共安全 相同时间 机场 乘坐相同航班的同乘分析 相同时间 地点 的紧密通话客户分析 科技领域 研发相类似技术领域的竞争对手分析 论文合作关系 分析模型 自相关矩阵分析 C1C2C3C4C5 R1X1Y1A1 A2 A3B1 B2 B3Z1 R2X2Y2A2 A3B2 B4Z2 R3X3Y3A1 A4 A5B2 B3 B6Z3 R4X4Y4A2 A5B1 B4Z4 R5X5Y5A3 A4B1 B5Z5 R1R2R3R4R5 A110100 A211010 A311001 A400101 A500110 A1A2A3A4A5 A11111 A21201 A31210 A41011 A51101 A1A2A3A4A5 A110 4080 4080 50 5 A20 40810 66700 408 A30 4080 66710 4080 A40 500 40810 5 A50 50 40800 51 A1A2A3A4A5 A11 0 167 0 167 0 167 0 167 A2 0 1671 0 167 1 0 167 A3 0 167 0 1671 0 167 1 A40 167 1 0 1671 0 167 A50 167 0 167 1 0 1671 原始数据表矩阵变换 共现相关性 cos相关性 pearson相关性 投影 保险欺诈合谋分析 案件编号 人员车牌地点金额 344561 段建华 张 华 许卫 湘A2BA32 湘AA1391 湘ZG00069 板仓南路 20000 344562罗坚 肖蓉湘J7ZH83 湘AL5S85开元西路 50000 344563 王丽萍 刘 双泉 湘A65N90 湘A1661K寿昌路100000 344564 彭发兵 周 辉 苏英雄 湘A2ZB92 湘B2HL12 湘A2KA19 人民路70000 344565 张斌 王丽 萍 湘AT8137 湘A65N90湘江东路 10000 344567344568344569344570344571 谢前01101 敬春桥00010 罗坚01001 肖蓉00100 刘双泉01000 谢前 敬春 桥罗坚肖蓉 刘双 泉 谢前 0211 敬春 桥 0000 罗坚 2001 肖蓉 1000 刘双 泉 1010 谢前敬春桥 罗坚肖蓉刘双泉 谢前 100 816 0 577 0 577 敬春桥 01000 罗坚 0 8160100 707 肖蓉 0 5770010 刘双泉 0 57700 70701 谢前敬春桥罗坚肖蓉刘双泉 谢前1 0 612 0 667 0 408 0 408 敬春桥 0 6121 0 408 0 25 0 25 罗坚0 667 0 4081 0 408 0 612 肖蓉0 408 0 25 0 4081 0 25 刘双泉 0 408 0 25 1 0 251 理赔数据表 矩阵变换 共现相关性 cos相关性 pearson相关性 自相关分析可视化 Aduna图合作关系可视化 相关矩阵分析map 相关矩阵分析map 互相关矩阵分析 C1C2C3C4C5 R1X1Y1A1 A2 A3B1 B2 B3Z1 R2X2Y2A2 A3B2 B4Z2 R3X3Y3A1 A4 A5B2 B3 B6Z3 R4X4Y4A2 A5B1 B4Z4 R5X5Y5A3 A4B1 B5Z5 B1B2B3B4B5 A112200 A212120 A312111 A411101 A511110 A1A2A3A4A5 A13333 A23500 A33520 A43023 A53003 A1A2A3A4A5 A110 70 7830 8490 849 A20 710 8940 5660 849 A30 7830 89410 7910 791 A40 8490 5660 79110 8 A50 8490 8490 7910 81 A1A2A3A4A5 A110 250 3540 5480 548 A20 2510 707 0 5480 548 A30 3540 707100 A40 548 0 54801 0 2 A50 5480 5480 0 21 原始数据表矩阵变换 共现互相关性 cos互相关性 pearson互相关性 投影 OLAP多维度分析 基于MDX的数据模型 Mondrian引擎 多维度汇总分析 压缩投影的大数据可视化 基于保持数据概率分布不变的思想 将原始数据根据缩放级别和距离远近将原始数据映射成特定显示区域的矩阵 数据可视化 大规模散点图 4 应应用用实实践践 典型应用一 清单查询 应用需求 每天增量从22张原始业务表生成3张宽表 原始表数据量7000万条 宽表2亿条记录 对3张宽表近200个字段进行模糊组合检索 典型应用二 统计报表 需求 100多个维度 60多个指标 单表储数据量大小为6 30G 修改Hive JDBC支持Cognos
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 液压闸门维修施工方案(3篇)
- 校友节活动策划方案范文(3篇)
- 广告项目施工方案书(3篇)
- 弧形楼板施工方案(3篇)
- 论语考试题库及答案解析
- 兼职会计考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期末质量监测语文考试题目及答案
- 北京市门头沟区2023-2024学年八年级上学期期末质量监测道德与法制考题及答案
- 新兵体检问答题目及答案
- 小学专业考试题目及答案
- 2025年秋季学期第一次中层干部会议上校长讲话:凝心聚力明方向沉心落力干实事
- 医院患者身份识别核查流程规范
- 2025年北京市综合评标专家库专家考试历年参考题库含答案详解(5套)
- 广西2025年公需科目学习考试试题及答案4
- 代加工板材合同协议书范本
- 2025年事业单位工勤技能-湖南-湖南地质勘查员二级(技师)历年参考题库含答案解析(5卷)
- 肝炎的分型及护理
- 高中语文38篇课内文言文挖空一遍过(教师版)
- T-CRHA 028-2023 成人住院患者静脉血栓栓塞症风险评估技术
- 砖厂安全生产应急预案
- 化粪池基坑支护施工方案
评论
0/150
提交评论