某企业数据智能管理治理平台设计建设技术方案 (一)_第1页
某企业数据智能管理治理平台设计建设技术方案 (一)_第2页
某企业数据智能管理治理平台设计建设技术方案 (一)_第3页
某企业数据智能管理治理平台设计建设技术方案 (一)_第4页
某企业数据智能管理治理平台设计建设技术方案 (一)_第5页
已阅读5页,还剩58页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目编号:

某企业数据智能管理治理平台设计

1.1总体建设方案概述.....................................................3

1.1.1数据治理论述....................................................5

1.1.2数据治理潮呈....................................................8

1.1.3基础库治理步骤..................................................9

1.1.4治顿程产出...................................................12

1.2平台建设总体囱十.....................................................12

1.2.1平台削理念...................................................13

1.2.2平台架构设计...................................................14

1.2.3平台技术特点...................................................16

斯J坦/C-3/心Q硅建沿*窗・・・・・・・・・・・・・・・♦♦♦・・・・・・♦・♦♦・・・・・♦♦♦・・・・・・♦♦♦♦・・・・・♦♦♦♦・・・・♦・♦♦♦・・・・・・♦♦♦・・・・・・♦♦♦・・・・・♦・♦♦・・・・・・・♦♦♦•・・・1,。R

13.1数据标准管理...................................................18

1.3.2元数据管理.....................................................22

13.3数据质量管理..................................................27

13.4数据集成管理...................................................32

1.4数据管理建设方案.....................................................33

1.4.1数据资产管理...................................................33

1.4.2数据异常管理...................................................46

1.4.3数据睇管理...................................................49

1.4.4数据开发管理...................................................50

1.5数据智能建设方案.....................................................56

1.5.1数据血缘........................................................56

1.5.2智能标签........................................................58

1.5.3数据探索........................................................60

1.5.4画像分析........................................................61

1.1总体建设方案概述

数据管理平台涵盖了数据的全局治理和过程管控,是数据可用的前提,只有

确保数据的标准化、规范化,可信可用,才能进一步通过数据运营、数据应用帮

助大数据中心实现数据资产管理,发现内部数据问题、发掘数据价值,进而实现

数据资产的盘活和有效利用。

数据管理平台基于元模型驱动模式,构建一体化的数据资产管控,实现全流

程、全生命周期和全景式的〃三全〃治理,确保每一份数据资产皆可靠、可信、

可用。

通过对数据、应用、系统综合管理,构建标准化、流程化、自动化、一体化

的数据管理体系。

数据治理将分散、多样化的数据通过汇集、标准化、清洗等操作对数据的质

量进行全面的提升和监控,形成城市大数据的管理和控制机制,并提供一站式数

据治理体系,持续不断的挖掘和提升数据的应用价值。从功能角度,数据治理系

统包括数据标准管理、数据目录管理、数据质量管理、数据集成、工作流、数据

地图/数据血缘、数据管理数据安全、多租户、元数据管理、系统安全等功能。

制定相关标准规范及管理制度,通过相应平台工具汇聚区内各单位公共数据

及市级落地数据资源,形成区级数据池,同时经过数据清洗、转换、融合、治理

后高质量的公共数据资源,形成区级综合数据平台。

数据治理系统通过对数据全生命周期、端到端的全链路透明化管控,实现〃数

据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化",实现数

据资产的统一管理及全业务流程的实时监控,有效解决数据资源不可知、数据质

量不可控、数据关系不可联、数据脉络不清晰的痛点问题。

数据治理就是将数据转化为资产的手段和方法,采用的数据治理子系统和工

具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的

人工训练和专家反馈不断优化数据理解和数据关联。数据治理子系统给围绕闵行

区大数据资源平台的应用建设目标,包含数据地图、数据质量、智能监控、数据

保护伞以及安全卫士,提供全面的数据治理能力,提供数据提取、数据清洗、数

据标准化、数据转换、数据关联、数据比对等方面服务。在数据打通过程中,同

时做好数据质量管理,主要包括四个方面数据缺失补缺、数据重复去重、数据错

误纠正、数据不可用补救。

数据治理子系统通过标准API接口、用户自主上传与自主数据抽取技术将

用户内部数据直接导入数据池,利用全局数据处理技术在数据池中解决大量数据

的集成处理,将数据统一整合、集成,最终形成可以提供高质量数据的数据集成

平台,提供规则、无错漏、清洁、有价值、易使用的集成数据环境。

/-----------------在线服务一手------------------------

/x

(深度学习知识留港

数81特征.f]行业如iR昨・新

事令数据湖+人工智能*济

第三方哪一*O©©©—*Q分析

散据理解阅8关联数据整合数据安全

।Ij

L----------------------§8--------------雨-----------------------------

内部效据(含触邂)G家少61参与

>数据治理流程图

数据治理子系统支持现有的绝大多数数据格式的导入和识别。通过结合人工

智能技术,数据治理系统能够将数据自动识别并抽取存入数据湖中,与传统ETL

不同的是,数据治理系统的全局数据处理技术在应对多系统、多部门、多环节、

多数据、多表单的使用场景时更加科学。全局数据攵卜理能够避免在全局数据汇总

前的信息流失,最大程度的在完成数据集成的同时保持数据的高保真、高还原。

1.1.1数据治理论述

大数据治理工作从数据汇聚开始,到最终服务业务,主要包括以下几个阶段:

大数据治理方法论

G上云汇集

霄全总档案关系中心轨迹中心

离送数撷女时数据知宓EX.至飞机火♦阻

识厂车一档[同伙关系」僮■场论

靛好管理

A预警卜><一良服务

了模型治理

/戛础政娟上更巨纵.整合收强,现如引写>数据开放

资源层।>资源展

>倏5B中心>API开放

应用数据小向姬/

生源展)<1(.

(ADM1

为了无法计K的价值ICDMSo

第一阶段:数据汇聚,融合管理

从政务办公网、感知网、社会协同单位收集各类数据,形成大数据中心的数

据基础,并对汇集的原始数据开展基于数据管理视角和业务应用视角的治理及应

用工作。

基于数据管理视角,对业务元数据、技术元数据进行集中采集和管理,从站

位全局服务闵行区大数据创新应用的角度梳理大数据资产,构建数据资源目录和

数据资产管理应用,达到数据资源的规范化和可视化;汇聚后的原始数据仍处于

零散、不可直接使用的状态,为数据使用者提供一站式的集成开发环境,从而满

足数据资源平台下,数据开发者进行ETL开发、数据挖掘算法开发、数据主题库

建设等需求;对数据融合处理的全过程通过质量管理工具进行管理监测,保障数

据质量;因政府数据的机密性、高敏感性等特点,需对数据资源层中各数据项进

行安全上的分类分级,确保数据使用合理、安全可控。

基于业务应用视角,对汇聚的基础数据开展模型治理,通过数据清洗加工、

基于业务背景及要求的处理加工、以及面向应用专题场景的开发,依次构建整合

数据资源层、主题数据资源层、应用数据资源层,形成指标口径一致、统存统用

的大数据资源层。

第二阶段:基于数据,提炼抽象信息,形成知识

因政务大数据涉及的来源广泛、数据采集背景及方法多样甚至特殊、复杂,

导致因不同的汇集场景等因素,各个实体对象往往存在多个ID,需要对ID间关

系做计算,通过IDM叩ping,建立ID和实体人/物间的关系,从而串联起实体

人/物的属性/行为信息。数据中的各种人/物、事件、活动轨迹也不是孤立存在

的,需要对各个部份的数封故动态关系识别、轨迹匹配等操作,形成统一的关系

库、轨迹库等。

基于业务需求引导和对数据资源信息的价值傀理,对数据进行进一步提炼加

工和算法计算,将数据标签化,基于"四大库"构建全息档案等标签库,支撑专

题应用库建设,并通过标签中心产品对用户及开发者开放。

第三阶段:构建应用,服务业务

按照业务场景需求,将基础库、主题库和专题库等进一步组合利用,可构建

起各类业务创新应用,如监控大屏、全息画像、预警中心等应用。通过数据服务

平台,可以把数据和标签在线服务化提供给开发都口用户。

1.1.2数据治理流程

1)标准录入

数据治理平台会包含部分5大库数据标准,行标、部门标准等需由实施人员

从客户处采集后录入系统

2)同步数据结构

由于数据治理过程需采集数据元并标准化,故需先将生产库需桥接库表的数

据结构录入前置库

3)元数据采集

将数据结构采集入数据治理平台

4)标准化

实施人员为采集来的元数据挂接数据标准,标准化其元数据格式属性、值域

5)落标及数据桥接

部门管理员根据标准化的字段属性,将生产库数据桥接到前置库

6)质检及整改

中心管理员对前置库数据进行质量检查及整改

7)数据集成

中心管理员将质检后数据集成到治理库

8)逻辑质检

中心管理员对治理库的数据根据业务需求进行逻辑层质量检查

9)资源挂载

部门管理人员对已完成数据治理的治理库数据进行资源挂载

1.1.3基础库治理步骤

针对于基础库的治理主要流程如下:

映射数据

配置数据异常数据

集成方案监控

异常库

>基础库准备

基础物理库以及基础库元数据通过产品初始化脚本创建。默认基础库模型中

的字段约束,包括字段类型,长度,规则等参考基础库基础目录技术规范,例如

人口库:

>数据集成

以人口库为例,将前置库中的部分数据和人口数据元进行关联。

以人口基本信息表单(T_RK_BaseInfo)和人口扩展信息(T_RK_Summary)

为目标,主要验证:

多个表的数据合并:

户籍人口和流动人口汇集到人口库基本信息表。

默认字段赋值;

人口基本信息表中的rowguid、personguid需要uuid赋值。

一张表到多张表;

户籍人口和流动人口汇集到人口库扩展信息表,并且扩展信息表的

personguid需要与基本信息的personguid一致。

规则过滤;

自动过滤不满足身份证校验的数据;

自动过滤不满足代码项的数据,其中不满足部门代码项的、满足部门代码项

但是人口库中没有对应的代码项的数据都需要过滤。

代码项转换;

性别和名族代码项,部门代码项实际值与人口库代码项的值不一致的,通过

显示值进行匹配后自动转换成人口库的值。

其他来源的字段更新。

人口基本信息表的死亡标识状态由民政局的死亡信息目录进行更新。需要满

足条件的才会进行更新。

>溯源分析

通过可视化图形,展现人口库和公安、民政等部门的溯源关系。

1.1.4治理过程产出

通过数据治理工作后,形成的数据治理成果物。

《数据标准规则清更》V--------标准梳理、录入

*一1

《数空调讲报告》◄--------谈采集

-----------I______

:\/7

《元数据管曰>要ZJ报IX告k-Jj%f■M隹化A\整改/

-----“-、I~'

*\/

《数据质量提升报告》、

,《数据质量提升考》-・y~T■吊SX1I5至以/

,---、\\____1/

1《集成实施指导书(含增I.T______,

恒)》、《数据集成效搪1\/

厄围清单》、《数据集成・SXWJ来吸后SX牯至取/

JLTPilxra/\-------1

♦\/

%RX1»SJ>1SJJE7IJIX

告》々数据蔑量提升

方至匕-—

(>—^|\____/

</g曲Xite/厚QS-L住1p^—7七>5Qa/、▼

《数电治理实施验收用

◄--------治®g告

例》——_

-----才-

责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平

台可以提供数据输入、数据加工、数据输出和贯穿数据处理各个过程的全流

程、全生命周期的数据处理、数据治理和数据管控的一体化建设。

整个平台对数据进行治理、管理与应用的过程分为以下三个核心环节:

>采集/集成环节

提供更多渠道、更复杂数据源的采集,包括业务系统数据ETL,外部文

件、第三方接口抽取,实时消息采集等。

>加工/计算环节

提供随时变化的数据加工,包括批量数据加工,实时交互计算,机器学习

等。

>决策/探索环节

支持用户个性化需求、自主数据探索,提供固定主题的报表、指标,IISB寸

报表需求、自助取数,数据探索、数据实验等功能。

L2.1平台设计理念

本项目建设数据智能管理平台的总体设计理念如下:

>数据模型标准化

通过平台将数据模型的要求严格落地,杜绝不满足标准的数据模型出现在

系统中。

>数据治理产品化

数据治理的成果和内容,必须通过切实可行的IT手段落实到系统来严格

执行

>数据处理工厂化

数据处理工作,必、须实现工厂化的建设和管理,以“极速、低成本、高质

量”要求来响应业务部门的个性化数据需求。

>数据运营全员化

体现〃平台化、开放性”的思想,提高数据开放的可视化,实现人人参与

数据治理、数据建设和数据运维

>数据安全可控化

体现安全的重要性、必要性,保障系统数据安全和数据服务开放过程中数

据的安全可控。

1.2.2平台架构设计

1.2.2.1总体架构设计

平台采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执

行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、

流程化和自动化的开发、运维、管理,提升数据开发、生产的效率,保持系统

健康、持续、稳定的发展。

哪生产计划系统数据生产Wt理系统

各类开发模块,供日常开发使用

设计、编码

制定规范

an奥深开发人员

提出需求

,始写卷数,包括技术卷数、制定开发和数

—业务信息、检查规则等

根据叁数动态构建数据生产建管控开发据知范

普通开发人员

数据生产执行系统

系统运行监控

来源系统数据生产线1业务报表和管理

多一日♦臼监控过程系统健康分析

»口,和优化

数据生产线2

知识积累和传

优化建设

数据生产线N

•数据生产计划模块:主要功能为:需求设计、设计确认等。

•数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质

量控制等工作。

•数据处理管理模块:负责软件开发和数据规范的管控。

技术架构设计

为实现工厂化的数据处理和管理,本项目数据智能管理平台采用基于元数

据驱动的开发模式,保障元数据与实际系统情况的一致性,通过元数据准确描

述系统,指导系统建设。技术架构图如下:

校板J4

_

ED

MJ元数贴的调度模坎

•提供数据对象设计功能

•提供元数据获取和管理功能

•提供数据质量管理功能

•提供对象化接口模块

•提供与各类底层平台对接功能

•提供可视化的标准IDE环境

•提供基于元数据血缘图的调度功能

1.2.3平台技术特点

>MetadataBeforeCoding

业务元数据和技术元数据的强制性前向获取机制,杜绝元数据的后期补

录,建设保证业务元数据/技术元数据/技术实现这三者一致性的技术机制

>BusinessDrivenDesign

以最大化业务需求吻合度为目标,所有数据对象的设计和实现,都必须以

业务需求为驱动,在最大程度上保证数据对象与业务需求的一致性。

>ObjectOrientedArchitecture

将数据、业务元数据、技术元数据、数据加工、数据质量检查等与数据相

关的内容统T乍为数据对象管理起来,且该数据对象是系统的最小管理单元。

>TCUPrinciple

数据对象必须遵循TCU(TakeCareofYourself)的设计原则,所有与

数据有关的工作全部在对应的数据对象内部完成,确保数据对象之间只有数据

加工过程的上下游关系。

1.3数据治理建设方案

1・3.1数据标准管理

数据标准规范了业务术语,元数据,参考数据,基础数据,指标数据的规范

定义、获取原则、管理要求等。包括设计基础类和分析类数据标准,制定数据

标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流

程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,

建立全局数据标准流程,制定总体落地计划,推动数据标准落地执行,增强内部

对数据标准的理解,指导信息化建设中对数据标准的参照。

13.1.1数据标准管理规范

数据标准管理体系主要包含数据标准管理、落地实施机制、及数据标准管理

平台维护三部分。

平台通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部

分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织

和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平

台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑

数据标准日常管理工作两方面C

>数据标准管理机制设计

设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标

准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技

术部门和系统技术团队共同参与数据标准设计,建立企业级数据标准流程,制定

总体落地计划,推动数据标准落地执行,增强对数据标准的理解,指导信息化建

设中对数据标准的参照。

>数据标准分类规范

数据标准是对数据的名称、含义、结构、取值等信息的统一定义,达成对数

据的业务理解、技术实现的一致性。

基于数据模型理论将数据标准延伸至5个分类,涵盖技术、业务多个视角。

业务术语:从一致性、通用性等方面统一业务术语定义。

数据项标准:用来描述实体的某种属性,包含数据项的名称、编号、别名、

简述、数据项的长度、类型、数据项的取值范围,

参考数据标准:识别参考数据,并建立参考数据的统一标准样例,使参考数

据可在不同系统中被使用而保持统一标准值。

主数据标准:主数据编码是应用系统中的重要数据类型之一,通常用来描述

业务操作的具体对象及其特征,注重唯一性,特征一致性,稳定性及有效性。

唯一性:在一个系统,一个平台甚至整个范围内同一主数据编码要求具有唯

一的识别标志(代码,名称,特征描述等),用以明确区分业务对象,业务范围

和业务的具体细节

特征一致性:主数据在不同系统中,均按统一标准出现

稳定性:主数据相对稳定,本身属性不会随交易过程而被修改

有效性:贯穿该业务对象的全生命周期过程,只要该业务对象存在,则比数

据不会丧失有效性

指标数据标准:需要收集指标的管理信息、业务定义、以及维度定义,需要

兼顾通用性和个性化,个性化方面支持各使用部门个性化定制

A数据标准设计规范

以分析型应用建设和操作型应用集成为导向,两套方法结合,建立数据标准

设计体系

分析型应用建设导向:以分析应用指标范围为依据,重点结合业务战略及管

理要求,自上而下追溯数据源,聚焦数据标准范围。

操作型应用集成导向:自上而下的原则,基G实际业务流程及操作,重点识

别跨业务、跨流程的集成点及关键步骤,分析提炼共享数据,完成业务流程和应

用共享的数据映射,删除冗余、非重点数据,精简数据标准建设范围。

数据元管理

数据元管理主要包括数据元新增、数据元导入、数据元发布、数据元修改、

数据元删除、数据元停用、数据元检索等功能。同时支持数据元版本管理及版本

之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,

并建立和相关元数据的关联关系。

数据元

改新增皈

数据元敖据源

导入发布

数据元

修改

数据元数据元停用

删除

:数据元检索

标准代码配置

标准代码配置支持代码的分类、标准代码项的新增、导入、导出功能,提供

了标准代码维护的能力;可关联到国标、地标代码字典,为数据的规范性提供了

更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。

标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之

后,可以形成带有业务领域特征的相关编码,比如"FR00001”代表法人相关的

数据元标准代码。

可关联到国标、t联示

代码字典

常用规则配置

数据元的值有部分需要满足固定格式的标准,治理过程中需要通过固定的值

组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。包

括通用规则及各部门根据自身需求实际制定的规则,常用规则配置会针对公共数

据的特性内置部分常用的规则,同时提供了规则的配置修改能力。

1・3・2元数据管理

按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、

存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数

据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。

元数据管理目标

元数据建设以服务项目管控需要为出发点,立足于项目建设实际,通过合理

规划和全面分析,以项目中的关键点和问题点作为优先和重点突破方向,实现元

数据的逐步演进和完善。

13.2.2元数据管理内容

元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐

层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并

与各环节实现有效互动。

元数据管理分类

按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技

术元数据、管理元数据三类。其中:

(1)业务元数据

•使用者的业务术语所表达的数据模型、对象名和属性名;

•访问数据的原则和数据来源;

•系统所提供的分析方法及公式、报表信息;

•对业务元数据来源的管理和差异性对比;

(2)技术元数据

•系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义

等);

•整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为

形式);

•对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、

层次、度量以及相应事实表、概要表的抽取规则);

(3)管理元数据

系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操

作的用户权限、操作时间窗管理、异常处理规则等;

外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,

包括所提供的数据服务接口、数据访问方式、操作;

各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、

操作类型等相关信息。

元数据管理组织

为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数

据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。

元数据管理流程

元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需

求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在

这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。

元数据管理功能

元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元

数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。

访

件号出

格式文

liffl用

实时AP

CE访

SERVI

层WEB

---

-----

-----

-----

3S苏打

性检

据属

元数

功翻

基础

公共

功能

分析

元朗8

性分

T

|指标

血缘分

据维

元数

检直

S-致性

能元数3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论