版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录TOC\o1. 大数据治理平台整体介绍 31.1概述 31.2特色功能 41.2.1元数据版本控制 41.2.2元数据的全生命周期管理 41.2.3智能规范的数据字典标准 51.2.4数据权限的精准控制 51.2.5精确到字段级的数据血缘 51.3适用场景 52.系统组成与功能 52.1元数据系统 52.1.1元数据服务 通用 支持的数据源 Namespace 变更策略 版本控制 72.1.2元数据采集程序Agent 72.2数据字典 72.3数据目录 72.3.1数据目录 72.3.2数据资产云图 82.4数据血缘 82.4.1血缘分析和影响性分析 82.4.2链路分析 82.5数据安全 92.4.1权限控制 92.4.2ApiGateway 93.部署 93.1通用 93.2应用服务 93.3存储 9
1.大数据治理平台整体介绍1.1概述 近年来,随着企业的信息化数据沉淀,内部各业务线的数据仓库建立完成,如何将数据统一管理,提升数据价值成为了企业关注的重点,有效的数据资产管理是大数据与实体经济深度融合的必经之路。数据成为资产的概念逐渐深入人心。数据治理在衔接大数据治理平台和数据应用中起着重要的作用。对上支持以价值挖掘为导向的数据应用开发,最大化利用数据,对下依托大数据治理平台实现数据全生命周期的管理。因此,越来越多的企业逐渐意识到数据治理工作的重要性,并将其作为数据应用建设的第一环节。在这样的需求下,基于元数据驱动的企业数据治理产品大数据治理平台应运而生。大数据治理平台涵盖了元数据的采集,数据字典标准的智能规范,数据的生命周期管理,数据安全的精准控制,数据资产的流通与监控,数据血缘的回溯和影响等功能,一站式解决数据治理的难题。并在此基础上,做到全面化、自动化和智能化地开发、管理、共享和使用数据,大大节约时间,减少人力成本。大数据治理平台在大数据应用体系中的定位如图1:图1大数据治理平台的定位大数据治理平台的整体架构如图2,整体上分为接入层、服务层、接口层。接入层包含元数据采集和血缘关系采集,服务层包含元数据、数据目录、数据关系、数据申请、权限等5个服务,接口层提供元数据检索查询、数据关系查询等通用接口。图2大数据治理平台整体架构1.2特色功能1.2.1元数据版本控制 采集接入的元数据支持多版本控制,历史版本会做备份,用于数据恢复或回滚。同时,每次接入时会做版本比对,支持自定义的版本比对控制策略。当出现不兼容等策略限制时,会禁止接入。1.2.2元数据的全生命周期管理 元数据的状态从接入到平台后,演化为未发布、发布、发布后更新、再发布、取消发布等,即从初始到消亡的全生命周期。数据还存在冷热程度变化的隐性状态,借助于数据热度分析,辅助业务数据仓库制定合理的冷热存储资源策略。1.2.3智能规范的数据字典标准 数据字典标准可以通过人为采集录入,也可通过自动化扫描全域元数据,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。1.2.4数据权限的精准控制 数据权限的申请和赋权都可以精确到字段级,申请到的权限可以用在数据拖取、跨数据源查询、权限下发等统一出口(几大能力在开发中,后续提供)。同时,通用的权限模型可快速适配绝大多数数据处理工具。1.2.5精确到字段级的数据血缘基于数据关系的血缘分析,大数据治理平台支持精确到字段级别的元数据血缘关系处理,为元数据的追溯和影响分析提供更精确的数据支撑。1.3适用场景1.各业务数据仓库独立,各自实现复杂,互相无通信,数据不流通,数据价值无法发挥,缺乏整体统一数据管理平台。2.权限各自独立实现,无统一出口,数据交换不可控,数据安全无法保证,缺乏统一数据处理平台。2.系统组成与功能2.1元数据系统 元数据系统主要由两部分组成,元数据管理系统和元数据采集程序Agent。架构图如图3.图3元数据系统架构图2.1.1元数据服务通用元数据系统属于无状态服务,可直接弹性扩容缩容,支持高可用。提供通用Rest接口,接收元数据推送。元数据存储能力在百万级,包括分区等数据存储相关信息。采用MySQL作为元数据存储方案,一主多从,支持高可用。由于服务和存储可线性扩展,元数据同步具备高吞吐、低延迟等特点。未来会引入消息系统,增加高峰请求的并发处理能力。支持的数据源 目前支持Hive、MySQL通用关系型数据库。我们做了大量调研以及和多个客户沟通后,确定这两大类型能够覆盖到业务数据仓库场景80%以上。同时,文件、ES、MongoDB等多种数据源类型在持续开发中。Namespace 大数据治理平台对于元数据的定义,除了通常理解的数据库和表,新增了Namespace的概念。可以管理来自于多个业务数据仓库的元数据,避免database重名及其他问题,增加了元数据管理的灵活性和扩展能力。变更策略 业务数仓的元数据存在更新情况。元数据的更新接入受变更允许策略的控制,这个策略配置基本取决于数仓的选型,各种数仓的变更策略可能会不同,总体原则都是元数据变更后,不能影响访问历史数据。比如,Hive不支持删除字段,不支持类型长度精度的向下变化等。版本控制 元数据更新后,不会对历史数据修改,而是版本上的递增,历史版本会做备份。同时提供版本对比的能力,确定版本的变化,为数据资产层面的历史追溯做支持。另外,从数据使用层面,比如数据查询或数据拖取,元数据的历史备份也会在出现问题时及时回滚,不影响上层业务应用的正常执行。2.1.2元数据采集程序Agent采集程序Agent是开源的,部署在数据仓库侧,根据配置中指定的库表白名单,定时分钟级采集业务数据仓库中的元数据,推送到元数据系统中。Agent支持检测是否存活,当异常中断或退出时,会自动拉起。 Agent可以二次开发,目前支持采集Hive和MySQL,后续可根据数据仓库类型定制开发。同时,采集策略后续也可在现有定时采集的基础上扩展到元数据变更主动触发式采集,减少变更延迟。2.2数据字典 数据字典是多业务数仓之间统一的数据规范和标准。大数据治理平台可以在系统初始部署后,对接入平台的各业务数仓的全部元数据进行扫描,智能感知相似数据进行聚类处理,初步提炼标准数据,减少人力成本。相似数据的定义支持自定义,比如模糊匹配、同义词匹配或其他自定义配置规则。在智能处理后,再人为介入处理,大幅提升效率。2.3数据目录2.3.1数据目录 接入到大数据治理平台平台后,数据在各种状态下流转。同时一份数据可能在发布后持续更新,通过采用读写分离方案,保证一份数据在多种状态下互相不冲突。 大数据治理平台支持灵活可配置的全文检索方案,包括索引字段可配置、检索权重策略、可扩展的中英文分词策略等。默认情况下,会对主要字段建立索引用于检索,在元数据属性扩展后,用户可自行定义索引字段。同时,大数据治理平台会根据数据的价值等指标自动调整检索结果权重,使高价值数据更容易被发现。可扩展的分词策略支持业务级别补充,使更符合业务场景的数据被精准检索到。2.3.2数据资产云图 通过对历史数据的备份处理以及完善的日志审计,大数据治理平台支持对数据资产进行TOP分析、趋势分析、分布分析,提升资产价值回归和数据风险防控能力。2.4数据血缘通过下发到业务数据处理系统的采集程序Agent,大数据治理平台可以采集并处理精确到字段级别的元数据血缘关系,为元数据的追溯和影响分析提供更精确的数据支撑。2.4.1血缘分析和影响性分析大数据治理平台自主研发的元数据关系解析系统,将收集到元数据关系解析成一张关联所有元数据的逻辑数据关系网,可以从某一数据节点出发向前向后寻找多级关系链路。关系解析系统支持高吞吐高并发的关系数据收集,达到实时更新。同时对于复杂的多层级过滤的血缘分析和影响分析,支持秒级快速响应。对于同一条数据关系(血缘关系,节点-关系-节点),会以时间为节点记录版本信息。2.4.2链路分析 元数据关系系统在设计上和各业务数据处理系统打通,在全网数据血缘链路上对调度任务的动态运行情况进行实时监控告警,对全域数据处理任务整体把握。2.5数据安全2.4.1权限控制 大数据治理平台提供基于RBAC的通用权限模型,支持字段级别的精细化鉴权赋权能力,同时权限模型可适配绝大多数数据处理工具。2.4.2ApiGateway 统一的数据安全网关(ApiGateway)功能在开发中,ApiGateway通过下发到业务数据仓库中的Agent,提供统一的数据访问控制策略,打通从数据接入到数据融合使用的全闭环场景,未来会包含权限下发、数据脱敏加密、数据访问行为审计以及访问流量阻断控制等组件能力。此功能在开发中。3.部署3.1通用 所有应用服务均部署在Linux上,版本CentOS6.5及以上。均依赖于JVM运行环境,版本1.8及以上。3.2应用服务 目前大数据治理平台
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网大厂2026秋招产品经理岗笔试题库
- 物业管理师考试题库及答案
- 2026年上半年信息安全监管绩效考核工作总结
- 四川大学华西厦门医院耳鼻咽喉-头颈外科招聘1人备考题库及参考答案详解【完整版】
- 国泰君安期货2026届金衍新星SSP招募备考题库及参考答案详解【基础题】
- 国金证券2026届春季校园招聘备考题库及完整答案详解【名校卷】
- 宁银理财2026届春季校园招聘备考题库及参考答案详解【a卷】
- 汉江实验室2026届校园招聘备考题库附答案详解(b卷)
- 西南证券股份有限公司2026届春季校园招聘备考题库附答案详解【能力提升】
- 超聚变数字技术股份有限公司2026届春季校园招聘备考题库附参考答案详解(精练)
- DB41∕T 2816-2025 建设项目节约集约用地综合论证技术指南
- 大学中文系课件
- 2025四川成都新都投资集团有限公司招聘党建文书岗等岗位13人笔试参考题库附带答案详解(3卷)
- 焊接操作工技能评定标准
- 萌宠乐园招商方案
- 集中供热站提质改造项目方案投标文件(技术方案)
- 汽车维修合同范本(2025年版)
- 小儿慢性荨麻疹课件
- 幼儿园大班数学《图形宝宝大比拼》课件
- 2025年法律职业资格考试民法练习卷(人格权法)
- 中国建筑科学研究院企业简称2023ESG报告:绿色建筑智慧未来
评论
0/150
提交评论