全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据中台之数据计算篇数据直接开放适用的场景上一篇,我们谈到数据中台的数据开放模式,接下来围绕数据开放的更深层次需求-数据计算来进行。如上图所示,无论是线下的数据开放(ETL接口、文件)还是线上的数据开放(API接口),对于数据体量都是有要求的,一般一次传输的数据量会控制在十万级以下,数据量再大则会出现传输的性能瓶颈造成应用访问的延时。但是,当前大数据的背景下,高校新纳入了类似传感器、机器设备的数据源,而这些数据体量比传统的业务系统要大的多,比如某学校防火墙一天产生的数据在500G。与此同时,学校又需要对这些数据进行统计(比如每5-10分钟刷新一次当天的会话访问排名),这样就对数据开放提出了更高的要求,不仅要求开放基础数据,对于这些应用终端无法在短期内处理好的数据,同时要求提供结果数据,这就涉及到数据计算模块了。希嘉数据中台体系中的数据计算模块就是针对这个实际需求,应运而生。1. 数据计算的使用场景如上图所示,数据计算体系是为了解决大体量数据直接对外供给面临的性能问题,而选择把公共数据计算的部分整合到数据中台,利用中台底层的计算功能来完成。例如上图中大量的过程数据,在当前一些业务场景中越来越开始发挥其核心价值,但直接提供数据传输的成本非常高,同时也会额外造成巨量的存储成本,所以需要通过公共数据计算模块来预先完成一部分场景的预处理,核心是减小对外数据供给的体量,提高数据使用的效率。典型使用场景举例:如上图中的红框部分,某用户想基于防火墙流量数据(3000W+/小时)和上网认证数据(2W+/天)来定位某些终端用户行为是否异常,那么首先就需要按照规则关联这两类数据。过程如下:a).基于上网认证查询2W条记录的IP地址、上线时间、下线时间、认证账号b).将上面获取上网认证的IP地址、上线时间、下线时间作为关联条件,先基于1小时的防火墙流量数据(3000W)进行关联,其关联条件如下: 1). 上网认证.IP地址 = 防火墙流量数据.IP地址 2). 上网认证.上线时间 防火墙流量数据.记录产生时间 上网认证.下线时间c).将满足步骤b)关联条件的防火墙流量数据与上网认证的账号进行关联和标记,合并成具体用户的流量行为数据(防火墙初始只提供基于ip地址的访问记录,大部分学校是动态的DHCP,同一个IP在不同的时间段分配给的终端用户是不一致的)以上面2W的认证数据与3000W的流量数据进行一个简单的范围关联,实际在Oracle数据库里面测试的执行时间在100秒左右,相当于要执行2W次对3000W条记录的扫描和匹配。如果把数据量各自扩大10倍,变成20W认证数据与3亿条流量数据的关联,则在数据库里面执行的时间理论上是10000秒(接近3小时)。 上面还只是大数据计算中比较简单和体量相对较小的场景,如果对于上面的类似数据要求提供数据开放和共享,无论如何都不可能将原始数据通过ETL或者API接口的方式提供数据,传输体量实在太大,所以必须要把计算过程基于大数据底层的计算能力,在本地完成,最后将结果对外输出。2. 数据计算层的整体架构设计如上图所示,紫色模块即为数据计算在整个数据中台体系中的位置,其核心是提供基于数据存储层的计算能力,兼容主流的存储容器(如Oracle、MySQL、HDFS、Hive等)。在希嘉的数据中台体系中,选择采用Spark作为数据计算的核心组件,结合Hadoop集群的分布式存储和计算能力,解决海量数据运算的场景。Spark的分布式计算原理Spark是当前Hadoop大数据体系中最为成熟的计算组件,能够兼容绝大部分的数据源,与HDFS搭配天然互补,可提供Java,Scala,Python,简单快速的编写并行的应用处理大数据量。希嘉对Spark模块进行深度整合,提供了基于业务流程的数据计算服务,使得高校能够将数据使用的流程管理与大数据底层计算过程进行融合,大幅度降低在数据开放过程中使用数据计算的门槛。3. 希嘉中台体系对于数据计算模块的产品化希嘉的数据开放平台,通过集成Spark-SQL组件,提供基于SQL的语法来创建计算任务,并提供图形化的界面查看和管理当前的各类计算任务。同时,各类计算任务之后的结果也可以直接发布成标准的API接口,对于上层使用数据的用户来说,几乎感受不到哪些数据是直接调取,哪些数据是经过计算之后发布的。 总体上来说,数据中台所提供的数据计算能力实现方式有多种,但核心解决的问题都是一类-大体量数据预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服装设计师中级服装款式设计及面辅料规划
- 研发部门费用预算与控制方案
- 幼儿园保安开除通知书
- 广东农林科技职业学院通知书
- 广东被迫离职通知书
- 广园快线封路通知书
- 广平货车超载处罚通知书
- 广饶康居停电通知书
- 库车停业整顿通知书
- 延误教育整顿通知书
- 【2025年】员工食堂培训试题及答案
- 酒店客房维修合同范本
- 财务会计基本规范与操作手册
- 搅拌车拉方合同协议书
- 2025贵州数城工程管理服务有限公司贵安新区酒店管理分公司第五批对外招聘5人笔试历年参考题库附带答案详解
- 山东省东营市东营区东营市实验中学2025-2026学年九年级上学期期中语文试题(含答案)(解析版)
- 2025年粮食岗考试题库及答案
- 2025重庆市地质矿产勘查开发集团有限公司招聘16人考试笔试参考题库附答案解析
- 工程测量无人机作业指导书
- 2025年汽车驾照考试科目一题库及答案(包过版)
- 供水管道工岗位职业健康及安全技术规程
评论
0/150
提交评论