




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统一数据治理平台解决方案1大数据的挑战2数据平台的建设3总结及展望目录CONTENTS1大数据的挑战2数据平台的建设3总结及展望目录CONTENTS大数据的挑战大数据带来的信息风暴正在 变革我们的生活、工作和思 维,大数据开启了一次重大 的时代转型-维克托迈尔舍恩伯格大数据的挑战VolumePB级别数据量、 T级别日增长量、 庞大的集群 节点Velocity毫秒级别实时查询、秒级别离线处理、时效性强Variety用户数据、运营数据、系统日志Value精细化运营、精准化决策、规范化运维、提升客户满意度和质量P级别运营数据T级别物料数据P级别系统日志提升客户满意度精细化运营系统稳定性和安全性优化业
2、务流程增强业务决策能力数据孤岛现象严重数据格式参差不齐数据分析时效性弱数据安全无法保证数据使用成本过高痛点大数据的挑战1大数据的挑战2数据平台的建设3总结及展望目录CONTENTS平台架构痛点数据孤岛现象严重数据质量参差不齐数据分析时效性不强数据安全无法保证数据使用成本过高解决思路统一数据接入存储数据校验&格式转换实时分析&离线分析数据治理&权限控制OLAP查询日志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDFS实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层计 算 层存 储 层采 集 层源 数 据 层处 理
3、层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理平台架构日志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDFS实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层计 算 层存 储 层采 集 层源 数 据 层处 理 层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理数据接入数据接入面临的挑战实时数据接入离线数据接入数据接入优化数据接入-面临的挑战数据源类型多种多样RDBMS、传统rsync数据源、mongo
4、数据源等大流量业务高峰期每小时产生G级别增量数据拥抱变化接入数据源越多,数据源变化概率就越大离线接入及实时接入业务场景对时效性的要求不同,不同类型数据有不同计算时效性数据接入-实时数据接入采集器实时采集数据源数据,通过消息队列提供给不同消费者针对不同的实时数据源提供不同Adaptor实时处理1消息队列数据源1Adaptor1数据源2Adaptor2数据源MAdaptorM实时处理2HDFSHBase实时处理3Mysql数据接入-离线数据接入大批量且无实时分析场景的数据通过离线接入方式接入平台离线接入通过定时任务调度将数据源中数据汇总到存储层接入任务1数据源1数据源2数据源消息队列HDFSHBa
5、se数据源接入层存储层接入任务2数据源3接入任务3接入任务N数据接入-数据接入优化数据源及接入任务增加,带来的开发和维护工作量陡增,且效率不高新增数据源需要从采集端到存储端进行定制开发,成本高数据源格式或参数发生变化需要修改一系列相对应的采集器, 不易维护为此我们设计出数据接入流程,抽取接入配置模板数据接入-实时接入优化实时处理1消息队列数据源源1Adaptor1数据源源2Adaptor2数据源源MAdaptorM实时处理2HDFSHBase实时处理3Mysql数据源1-1Channel1Channel2ChannelM实时处理1消息队列数据源2-1数据源M-1实时处理2HDFSHBase实时
6、处理3Mysql数据源1-2数据源2-2数据源M-2数据接入-离线接入优化接入任务1数据源1数据源2数据源消息队列HDFSHBase数据源接入层存储层接入任务2数据源3接入任务3接入任务NImporter1数据源1-1消息队列HDFSHBase数据源接入层存储层Importer2ImporterM任务 调度数据源1-2数据源2-1数据源2-2数据源M-1数据源M-2数据接入-优化收益新增接入需求只需通过界面配置相关数据源参数及目标存储参数即可数据源参数发生修改只需要调整数据源参数,无需修改代码, 一处修改,所有生效数据源维护交给运维负责,RD专注于业务逻辑开发平台已接入数据一目了然,避免重复接
7、入存储计算日志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDFS实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层计 算 层存 储 层采 集 层源 数 据 层处 理 层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理存储计算面临的挑战数据仓库ETL计算任务调度存储计算-面临的挑战数据治理不同用户、不同用途的数据进行隔离,防止多个用户冗余存储,数据安全等计算任务多业务快速发展导致计算任务也快速增加,并发任务多造成资源利用不均匀故障评估与故障恢复一旦某个数据出现问
8、题,需要快速评估影响面及快速恢复数据依赖及计算任务依赖由于计算任务所使用的数据存在依赖关系,导致了计算任务之间存在复杂的依赖关系存储计算-数据仓库使用数据仓库理念梳理数据不同应用场景采用不同存储方式控制数据读写权限保护数据安全提供多种元数据查询界面ori_table1ori_table2ori_tableMODSfact_table1fact_table2fact_tableMdim_table1dim_table2dim_tableM衍生扩展 DW聚合抽取HDFS/Hive/HBase使用场景存储策略离线统计Hive分区表详情查询HBase表文件存储HDFS存储存储计算-数据仓库存储计算-血
9、缘关系快速定位数据影响,减少依赖路径基于ETL任务抽取血缘关系存储计算-ETL计算涉及到数据接入后及业务统计等多个场景包括抽取、转换、加载等多个动作公共ETL计算统一编码方式、数据格式转换业务ETL计算产生维度表、计算业务指标ETL结果一致性保证统计口径规范化、核对同一口径下产出数据ETL计算优化存储计算-ETL计算ETL计算优化建立数据处理工作流,抽取公共计算逻辑配置ETL元数据及任务依赖关系,抽取数据血缘关系Data SourceImporter2Result1ETL2Result2ResultNImporter1ETL1ImporterNETLNData SourceImporterET
10、L1Result1ETL2Result2ETLNResultNCommon ETLCommon Data Source存储计算-ETL计算元数据配置结果校验inputoutputprepareetlcleanETLmetadataauthorvalidatedata1data2preparepreparediffcheck if emptyValidate存储计算-任务调度平台化多任务依赖可扩展性稳定性支持多业务支持多个前管理节点、管理节点、线任务统一驱任务或后调度节点、调度节点、管理与调度提升任务开 发效率、运 维效率继任务支持任务依 赖执行及跟 踪执行节点可水平扩展支持任务运 行类型可扩
11、展弹性扩展执行节点支持热备节点宕机时 不影响任务 正常调度存储计算-任务调度任务按组划分每组可有多个任务节点任务并发限制多个前驱任务或后继任务任务运行结束后回调调度器调度器根据任务报警配置发出失败报警存储计算-任务调度实时查看任务依赖链节点执行状态实时查看任务依赖配置规则通过任务依赖联调反推数据血缘关系存储计算-任务调度任务并发情况监控,方便合理分配资源任务依赖链路执行情况跟踪,方便日志跟踪和问题快速排查即席查询日志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDFS实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层
12、计 算 层存 储 层采 集 层源 数 据 层处 理 层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理即席查询面临的挑战固定指标查询随机指标查询即席查询-面临的挑战快查询响应越 快越好临时统计指 标紧急支持准同一统计口 径数据保持 一致多个指标互 相完备易业务使用门 槛低界面操作一 站式即席查询-固定指标查询报表数据大多数统计维度固定空间换时间,基础表按固定维度定时汇总统计结果校验即席查询-随机指标查询采用Phoenix优化HBase查询支持JDBC方式访问和SQL标准支持视图和支持索引协处理器加速定制优化,贡献多个patch即席查询-p
13、hoenix优化(Join)将原有的Join全局广播优化为只通知Rowkey所在RegionServer减少通信IO时间,提高Join性能right table server2right table server3right table serverNright table server5right table server1left table serverright table server4left table serverright table server1right table server4right table server2right table server3right t
14、able serverNright table server5XXXX即席查询-phoenix优化(聚合)原有的聚合排序全部在客户端完成,增加客户端内存和CPU负担优化为RegionServer先内部聚合排序,后客户端进行二次排序Clientregion server1region server4region server2region server3region serverNregion server5Clientregion server1region server4region server2region server3region serverNregion server5数据访问日
15、志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDFS实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层计 算 层存 储 层采 集 层源 数 据 层处 理 层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理数据访问可视化展现自助查询数据访问-可视化展现提供柱图、饼图、曲线图等多种富有表现力展示形式方便平台使用者将统计结果一站式转换所见即所得数据访问-自助查询数据访问-自助查询平台监控日志数据用户数据运营数据其他数据实时数据采集离线数据采集数据处理HBaseHDF
16、S实时计算 任务离线计算 任务任务 调度即席查询文件接口数据库平 台 运 行 监 控可视化展现访 问 层计 算 层存 储 层采 集 层源 数 据 层处 理 层自助查询实时分 析任务 管理一体化 管理数据源 管理数据接 入管理数据源 用户 管理离线分 析任务 管理平台监控集群状态监控硬盘、内存、CPU、网络IO、.基础设施监控Hadoop集群、HBase集群、消息队列、实时计算引擎、.数据接入监控数据源状态、数据接入状态、接入数据波动、.业务计算监控业务计算任务状态、计算结果一致性、.平台使用监控基础数据使用频度、业务数据使用频度、功能PV、.平台监控监控Yarn资源在各个时间段的使用情况监控YARN任务在各个业务线的分布情况应用案例分布式追踪,快速定位系统瓶颈和故障微服务安全监控,非法入侵即刻感知及时处理1大数据的挑战2数据平台的建设3总结及展望目录CONTENTS总结数据接入-实时数据接入,离线数据接入存储计算-数据仓库,ETL配置,调度平台即席查询-固定指标空间换时间,随机指标借助于phoenix数据使用-可视化展现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 师德师风方面培训课件
- 社保培训课件的标题
- 2025-2030中国甲醇行业供需态势与盈利前景预测报告
- 2025-2030中国焦亚硫酸钠行业供需态势与发展方向预测报告
- 2025-2030中国烘炒食品行业消费状况及投资盈利预测报告
- DB61T 859-2014 玉米 莱科818规范
- DB61T 836-2014 棉花 中棉所60规范
- 材料供需合同(标准版)
- 外墙干挂石材合同(标准版)
- 储备库供应链管理与优化方案
- GB 11122-2025柴油机油
- 2025年河南开封产城融合投资集团有限公司招聘考试笔试试题(含答案)
- 锂电池充电安全管理制度
- 重庆市荣昌区招聘社区工作者后备人选考试真题2024
- 制造业生产流程质量管理及保证措施
- 2025秋 名师金典高考总复习 英语 课件05 第一部分 必修第一册 UNIT 4 NATURAL DISASTERS
- 颈椎损伤的急救与护理
- 入院出院转科培训
- 2025年呼伦贝尔农垦集团有限公司招聘笔试参考题库含答案解析
- 【课件】物质的变化和性质-2024-2025学年九年级化学人教版(2024)上册
- 统编语文教材八年级上册第三单元整体设计
评论
0/150
提交评论