大数据治理平台建设方案_第1页
大数据治理平台建设方案_第2页
大数据治理平台建设方案_第3页
大数据治理平台建设方案_第4页
大数据治理平台建设方案_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据治理平台建设方案

目录

1.大数据治理平台的现状...........................................................3

2.大数据治理的概述................................................................5

2.1大数据治理概念.............................................................6

2.2大数据治理目标..............................................................7

2.3大数据治理模型..............................................................7

3.大数据治理体系.................................................................23

3.1数据连接...................................................................24

3.2数据建模...................................................................24

3.3统计报表...................................................................25

3.4决策仪表板.................................................................25

3.5数据大屏...................................................................25

4.大数据治理核心领域.............................................................26

4.1大数据模型.................................................................26

4.2大数据生命周期.............................................................27

4.3大数据标准.................................................................28

4.4主大数据...................................................................30

4.5大数据质量.................................................................31

4.6大数据服务.................................................................33

4.7大数据安全.................................................................34

5.大数据治理保障机制............................................................35

5.1制度章程...................................................................35

5.1.1规章制度............................................................35

5.1.2管控办法............................................................35

5.1.3考核机制............................................................35

5.2大数据治理组织............................................................37

5.2.1组织架构............................................................37

5.2.2组织层次............................................................38

5.2.3组织职责............................................................39

5.3流程管理...................................................................41

5.4IT技术应用................................................................42

5.4.1支撑平台............................................................42

5.4.2技术规范............................................................44

附件A大数据治理平台规范...........................................................46

附件B大数据质量评估办法............................................................65

附件C大数据质量管理流程............................................................69

关于大数据治理的理解

面对我们身边每时每刻迅速增长的庞大数据,因为其数量大、

速度快、种类多和准确性的特征,如何更好地利用大数据创造出有

意义的价值,一直是我们探索的重要话题。而在这之前,就需要用

科学正确的方法策略对大数据进行治理。大数据治理是指制定与大

数据有关的数据优化、隐私保护与数据变现的政策,是传统信息治

理的延续和扩展,也是大数据分析的基础,还是连接大数据科学和

应用的桥梁,因此大数据治理是大数据再创高峰的“必修课”。

(狭义)大数据是指无法使用传统流程或工具在合理的时间和

成本内处理或分析的信息,这些信息将用来帮助企业更智慧地经营

和决策。而广义的大数据更是指企业需要处理的海量数据,包括传

统数据以及狭义的大数据。(广义)大数据可以分为五个类型:Web

和社交媒体数据、机器对机器(M2M)数据、海量交易数据、生物计

量学数据和人工生成的数据。

Web和社交媒体数据:比如各种微博、博客、社交网站、购物网

站中的数据和内容。

M2M数据:也就是机器对机器的数据,比如RFID数据、GPS数

据、智能仪表、监控记录数据以及其他各种传感器、监控器的数据。

海量交易数据:是各种海量的交易记录以及交易相关的半结构

化和非结构化数据,比如电信行业的CDR、3G上网记录等,金融行

第1页

业的网上交易记录、corebanking记录、理财记录等,保险行业的各

种理赔等。

生物计量学数据:是指和人体识别相关的生物识别信息,如指

纹、DNA、虹膜、视网膜、人脸、声音模式、笔迹等。

人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、

扫描件、录音和电子病历等。

在各行各业中,随处可见因数量、速度、种类和准确性结合带

来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日

程。在传统系统中,数据需要先存储到关系型数据库/数据仓库后再

进行各种查询和分析,这些数据我们称之为静态数据。而在大数据

时代,除了静态数据以外,还有很多数据对实时性要求非常高,需

要在采集数据时就进行相应的处理,处理结果存入到关系型数据库

/数据仓库、MPP数据库、Hadoop平台、各种NoSQL数据库等,这些

数据我们称之为动态数据。比如高铁机车的关键零部件上装有成百

上千的传感器,每时每刻都在生成设备状态信息,企业需要实时收

集这些数据并进行分析,当发现设备可能出现问题时及时告警。再

比如在电信行业,基于用户通信行为的精准营销、位置营销等,都

会实时的采集用户数据并根据业务模型进行相应的营销活动。

大数据治理的核心是为业务提供持续的、可度量的价值。大数

据治理人员需要定期与企业高层管理人员进行沟通,保证大数据治

第2页

理计划可以持续获得支持和帮助。相信随着时间的推移,大数据将

成为主流,企业可以从海量的数据中获得更多的价值,而大数据治

理的范围和严格程度也将逐步上升。为了更好地帮助企业进行大数

据治理,在IBM数据治理统一流程模型基础上结合在电信、金融、

政府等行业进行大数据治理的经验,整理了大数据治理统一流程参

考模型,整个参考模型分为必选步骤和可选步骤两部分。

1.大数据治理平台的现状

根据行业信息化发展的现状,结合当今行业大数据治理的要求,

大型集团或政务管理部门现阶段大数据治理平台方面存在以下的不

足:

(1)大数据多头管理,缺少专门对大数据治理平台进行监督

和控制的组织。信息系统的建设和管理职能分散在各部门,致使大

数据治理平台的职责分散,权责不明确。组织机构各部门关注大数

据的角度不一样,缺少一个组织从全局的视角对大数据进行管理,

导致无法建立统一的大数据治理平台规程、标准等,相应的大数据

治理平台监督措施无法得到落实。组织机构的大数据考核体系也尚

未建立,无法保障大数据治理平台标准和规程的有效执行。

(2)多系统分散建设,没有规范统一的省级大数据标准和大

数据模型。组织机构为应对迅速变化的市场和社会需求,逐步建立

了各自的信息系统,各部门站在各自的立场生产、使用和管理大数

第3页

据,使得大数据分散在不同的部门和信息系统中,缺乏统一的大数

据规划、可信的大数据来源和大数据标准,导致大数据不规范、不

一致、冗余、无法共享等问题出现,组织机构各部门对大数据的理

解难以应用一致的语言来描述,导致理解不一致。

(3)缺少统一的主大数据,组织机构核心系统间的人员等主

要信息并不是存储在一个独立的系统中,或者不是通过统一的业务

管理流程在系统间维护。缺乏对集团公司或政务单位主大数据的管

理,就无法保障主大数据在整个业务范围内保持一致、完整和可控,

导致业务大数据正确性无法得到保障。

(4)缺乏统一的集团型大数据质量管理流程体系。当前现状

中大数据质量管理主要由各组织部门分头进行;跨局跨部门的大数

据质量沟通机制不完善;缺乏清晰的跨局跨部门的大数据质量管控

规范与标准,大数据分析随机性强,存在业务需求不清的现象,影

响大数据质量;大数据的自动采集尚未全面实现,处理过程存在人

为干预问题,很多部门存在大数据质量管理人员不足、知识与经验

不够、监管方式不全面等问题;缺乏完善的大数据质量管控流程和

系统支撑能力。

(5)大数据全生命周期管理不完整。目前,大型集团或政务

单位,大数据的产生、使用、维护、备份到过时被销毁的大数据生

命周期管理规范和流程还不完善,不能确定过期和无效大数据的识

第4页

别条件,且非结构化大数据未纳入大数据生命周期的管理范畴;无

信息化工具支撑大数据生命周期状态的查询,未有效利用元大数据

治理平台。

2.大数据治理的概述

通过灵活的数据交互和探索分析能力,以及OEM白标集成的

方式,全面满足行业应用软件的数据分析需求。它提供多源数据整

合、报表统计、数据可视化、自助式BI分析、以及数据填报等功能,

帮助用户挖掘数据的潜在价值,为管理者制定决策提供数据支撑。

多数据源整合,为决策分析提供完整数据支持

通过数据查询设计器,有效整合您分散在企业内外的各种数据。

包括数据库、云端数据、本地存放的文件数据以及JSON/OData等

程序数据。既能通过拖拽操作完成跨源的数据建模,也支持直接编

写查询语句。最终,通过数据模型访问控制和行级数据安全管理,

分享给BI分析或报表统计者使用。

自助式BI,强大的交互分析和自由数据探索能力

自助式BI,让最终用户毫无约束的与数据交互,任意探索数

据背后的真正原因,发觉价值,为决策制定找到有效的数据支撑。

在Dashboard的设计和分析阶段,均提供图表联动、数据钻取、数

据切片器、OLAP等交互式分析功能,仅需通过极少的操作便能找到

最有价值的数据,并能与企业成员进行协同讨论分析。

第5页

数据可视化,让数据之间的关系更加清晰明了、便于理解

具有多屏自适应能力的仪表板,内置丰富的数据可视化类型,

而且开放的数据可视化插件功能,几乎可以将任意的可视化组件库

集成到产品中,比如:Echarts,D3,ChartJS,三维模型等,充分

满足数据可视化大屏等场景的需要。

在线报表,最终用户和实施人员都能设计报表

创新的在线报表设计功能,类似微软Office产品的使用体验,

功能丰富却极易上手。从此,对软件公司而言,客户定制化报表需

求再也不用修改软件源代码;对企业IT部门而言,让业务部门自

主设计所需报表的畅想变得可能。

嵌入式分析,满足软件项目的深度集成和OEM合作需要

几乎可以将WynEnterprise的全部功能集成到您自己的软件

产品中。对您的用户而言,他们完全感觉不到我们的存在;对您的

技术人员而言,我们提供静默安装、软件界面定制、单点登录、报

表/仪表板的设计器和查看器的集成等开箱即用的功能,大大节省系

统集成所花的时间。

2.1大数据治理概念

大数据治理是指将大数据作为组织资产而展开的一系列的具体

化工作,是对大数据的全生命周期管理。

大数据治理体系是指从组织架构、管理制度、操作规范、IT应

第6页

用技术、绩效考核支持等多个维度对组织的大数据模型、大数据架

构、大数据质量、大数据安全、大数据生命周期等各方面进行全面

的梳理、建设以及持续改进的体系。

2.2大数据治理目标

大数据治理的目标是提高大数据的质量(准确性和完整性),保

证大数据的安全性(保密性、完整性及可用性),实现大数据资源在

各组织机构部门的共享;推进信息资源的整合、对接和共享,从而

提升集团公司或政务单位信息化水平,充分发挥信息化作用。

2.3大数据治理模型

如图1所示,大数据治理统一流程参考模型必要步骤分为两个

方向:一条子线是在制定元数据管理策略和确立体系结构的基础上

实施全面的元数据管理,另一条子线是在定义业务问题、执行成熟

度评估的基础上定义数据治理路线图以及定义数值治理相关的度量

值。在11个必要步骤的基础上,企业可以在7个可选步骤中选择一

个或多个途径进行特定领域的数据治理,可选步骤为:主数据监管、

(狭义)大数据监管、信息单一视图监管、运营分析监管、预测分

析监管、管理安全与隐私以及监管信息生命周期。企业需要定期对

大数据治理统一流程进行度量并将结果发送给主管级发起人。

第7页

12.1)委海12.

12.2)大敷冬

成.曾理数

实■

12.3)首

大K据管理

图1大数据治理统一流程参考模型

第一步:明确元数据管理策略

在最开始的时候,元数据(MetaData)是指描述数据的数据,

通常由信息结构的描述组成,随着技术的发展元数据内涵有了非常

大的扩展,比如UML模型、数据交易规则、用Java,.NET,C++等编

写的APIs、业务流程和工作流模型、产品配置描述和调优参数以及

各种业务规则、术语和定义等[1]。在大数据时代,元数据还应该包

括对各种新数据类型的描述,如对位置、名字、用户点击次数、音

频、视频、图片、各种无线感知设备数据和各种监控设备数据等的

描述等。元数据通常分为业务元数据、技术元数据和操作元数据等。

第8页

业务元数据主要包括业务规则、定义、术语、术语表、运算法则和

系统使用业务语言等,主要使用者是业务用户。技术元数据主要用

来定义信息供应链(InformationSupplyChain,ISC)各类组成部

分元数据结构,具体包括各个系统表和字段结构、属性、出处、依

赖性等,以及存储过程、函数、序列等各种对象。操作元数据是指

应用程序运行信息,比如其频率、记录数以及各个组件的分析和其

它统计信息等。

从整个企业层面来说,各种工具软件和应用程序越来越复杂,

相互依存度逐年增加,相应的追踪整个信息供应链各组件之间数据

流动、了解数据元素含义和上下文的需求越来越强烈。在从应用议

程往信息议程的转变过程中,元数据管理也逐渐从局部存储和管理

转向共享。从总量上来看,整个企业的元数据越来越多,光现有的

数据模型中就包含了成千上万的表,同时还有更多的模型等着上线,

同时随着大数据时代的来临,企业需要处理的数据类型越来越多。

为了企业更高效地运转,企业需要明确元数据管理策略和元数据集

成体系结构,依托成熟的方法论和工具实现元数据管理,并有步骤

的提升其元数据管理成熟度。

为了实现大数据治理,构建智慧的分析洞察,企业需要实现贯

穿整个企业的元数据集成,建立完整且一致的元数据管理策略,该

策略不仅仅针对某个数据仓库项目、业务分析项目、某个大数据项

第9页

目或某个应用单独制定一个管理策略,而是针对整个企业构建完整

的管理策略。元数据管理策略也不是技术标准或某个软件工具可以

取代的,无论软件工具功能多强大都不能完全替代一个完整一致的

元数据管理策略,反而在定义元数据集成体系结构以及选购元数据

管理工具之前需要定义元数据管理策略。

元数据管理策略需要明确企业元数据管理的愿景、目标、需求、

约束和策略等,依据企业自身当前以及未来的需要确定要实现的元

数据管理成熟度以及实现目标成熟度的路线图,完成基础本体、领

域本体、任务本体和应用本体的构建,确定元数据管理的安全策略、

版本控制、元数据订阅推送等。企业需要对业务术语、技术术语中

的敏感数据进行标记和分类,制定相应的数据隐私保护政策,确保

企业在隐私保护方面符合当地隐私方面的法律法规,如果企业有跨

国数据交换、元数据交换的需求,也要遵循涉及国家的法律法规要

求。企业需要保证每个元数据元素在信息供应链中每个组件中语义

上保持一致,也就是语义等效(semanticequivalence)。语义等效

可以强也可以弱,在一个元数据集成方案中,语义等效(平均)越

强则整个方案的效率越高。语义等效的强弱程度直接影响元数据的

共享和重用。

本体(人工智能和计算机科学)

本体(Ontology)源自哲学本体论,而哲学本体论则是源自哲

第10页

学中“形而上学”分支。本体有时也被翻译成本体论,在人工智能

和计算机科学领域本体最早源于上世纪70年代中期,随着人工智能

的发展人们发现知识的获取是构建强大人工智能系统的关键,于是

开始将新的本体创建为计算机模型从而实现特定类型的自动化推理。

之后到了上世纪80年代,人工智能领域开始使用本体表示模型化时

间的一种理论以及知识系统的一种组件,认为本体(人工智能)是

一种应用哲学。

最早的本体(人工智能和计算机科学)定义是Neches等人在

1991给出的:“一个本体定义了组成主题领域的词汇的基本术语和

关系,以及用于组合术语和关系以及定义词汇外延的规则”。而第

一次被业界广泛接受的本体定义出自TomGruber,其在1993年提

出:“本体是概念化的显式的表示(规格说明)"。Borst在1997

年对TomGruber的本体定义做了进一步的扩展,认为:“本体是共

享的、概念化的一个形式的规范说明”。在前人的基础上,Stude在

1998年进一步扩展了本体的定义,这也是今天被广泛接受的一个定

义:“本体是共享概念模型的明确形式化规范说明”。本体提供一

个共享词汇表,可以用来对一个领域建模,具体包括那些存在的对

象或概念的类型、以及他们的属性和关系[2]。一个简单的本体示例

发票概念及其相互关系所构成的语义网络如图2所示:

第11页

邮电通讯业定额发票

(卷式)/

、济在城市所住城市

济南市/

图2简单本体(发票)示例

随着时间的推移和技术的发展,本体从最开始的人工智能领域

逐渐扩展到图书馆学、情报学、软件工程、信息架构、生物医学和

信息学等越来越多的学科。与哲学本体论类似,本体(人工智能和

计算机科学)依赖某种类别体系来表达实体、概念、事件及其属性

和关系。本体的核心是知识共享和重用,通过减少特定领域内概念

或术语上的分歧,使不同的用户之间可以顺畅的沟通和交流并保持

语义等效性,同时让不同的工具软件和应用系统之间实现互操作。

根据研究层次可以将本体的种类划分为“顶级本体”(top-

levelontology应用本体(applicationontology),领域本体

(domainontology)和任务本体(taskontology),各个种类之间

第12页

的层次关系如图3所示。

图3本体层次关系

顶级本体,也被称为上层本体(upperontology)或基础本体

(foundationontology),是指独立于具体的问题或领域,在所有

领域都适用的共同对象或概念所构成的模型,主要用来描述高级别

且通用的概念以及概念之间的关系。

领域本体是指对某个特定的领域建模,显式的实现对领域的定

义,确定该领域内共同认可的词汇、词汇业务含义和对应的信息资

产等,提供对该领域知识的共同理解。领域本体所表达的是适合自

己领域的术语的特定含义,缺乏兼容性,因而在其他领域往往不适

用。在同一领域内,由于文化背景、语言差异、受教育程度或意识

形态的差异,也可能会出现不同的本体。很多时候,随着依赖领域

本体系统的扩展,需要将不同的领域本体合并为更通用的规范说明,

对并非基于同一顶级本体所构建的本体进行合并是一项非常具有挑

战的任务,很多时候需要靠手工来完成,相反,对那些基于同一顶

第13页

级本体构建的领域本体可以实现自动化的合并。

任务本体是针对任务元素及其之间关系的规范说明或详细说明,

用来解释任务存在的条件以及可以被用在哪些领域或环境中。是一

个通用术语的集合用来描述关于任务的定义和概念等。

应用本体:描述依赖于特定领域和任务的概念及概念之间的关

系,是用于特定应用或用途的本体,其范畴可以通过可测试的用例

来指定。

从详细程度上来分,本体又可以分为参考本体(reference

ontologies)和共享本体(shareontologies),参考本体的详细程

度高,而共享本体的详细程度低。

本体(哲学)

哲学中的本体(ontology)也被称为存在论,源自哲学中“形

而上学”分支,主要探讨存在的本质,也就是存在的存在。英文

ontology实际上就是来源于希腊文“。v”(存在)和“入6Y。q”

(学科)的组合。本体是由早期希腊哲学在公元前6世纪到公元前

4世纪提出的“始基”延伸出来的。始基(Principle,又称本原)

最早由泰勒斯(米利都学派)最早提出来,认为万物由水而生,其

学生阿那克西曼德认为万物由一种简单的原质组成,该原质不是水

:3]o而毕达哥拉斯(学派)认为“万物都是数”,数不仅被看作万

物的本原,而且被看作万物的原型、世界的本体。后来巴门尼德(爱

第14页

利亚学派)提出了“存在”的概念,认为存在才是唯一真正存在的

真理,其创造了一种形而上学论证方式,之后的哲学一直到近时期

为止,都从巴门尼德处接受了其“实体的不可毁灭性”。苏格拉底

继承了巴门尼德的存在概念,主张“真正的善”并完善了巴门尼德

弟子芝诺的辩证法,其学生柏拉图提出了“理念论”,认为只要若

干个个体拥有一个共同的名字,它们就有一个共同的理念或形式。

亚里士多德(柏拉图学生)总结了先哲们的思想,完成了《形而上

学》,并将本体总结为:对世界上客观存在事物的系统的描述,即存

在论,也就是最形而上学的知识。形而上学不是指孤立、静止之类

的意思,而是指超越具体形态的抽象意思,是关于物质世界最普遍

的、最一般的、最不具体的规律的学问。

第二步:元数据集成体系结构

在明确了元数据管理策略后需要确定实现该管理策略所需的技

术体系结构,即元数据集成体系结构。各个企业的元数据管理策略

和元数据管理成熟度差别较大,因此元数据集成体系结构也多种多

样。大体上元数据集成体系结构可以分为点对点的元数据集成体系

结构、中央辐射式元数据体系结构、基于CWM(CommonWarehouse

MetaModel,公共仓库元模型)模型驱动的点对点元数据集成体系

结构、基于CWM模型驱动的中央存储库元数据集成体系结构、分布

式(联邦式)元数据集成体系结构和层次/星型元数据集成体系结构

第15页

等。

针对信息供应链中不同的组件,为了实现跨组件的元数据交换

和集成,最开始人们采用点对点的方式进行,也就是每一对组件之

间通过一个独立的元数据桥(metadatabridge)进行元数据交换,

桥一般是双向的能够理解两个方向的元数据映射[4]。点对点的元数

据集成体系结构帮助用户实现了跨企业的元数据集成和元数据交换,

对提升信息化水平提供了巨大帮助。这种体系结构在应用过程中,

也暴露了很多问题,比如元数据桥的构建工作量和耗时都非常大,

对中间件厂商、应用厂商、集成商和用户来说都是一个巨大的挑战,

而且构建元数据桥还必须具有所有者的元数据模型和接口的详细信

息。构建完成的桥很多时候无法在构建其他元数据桥时进行重用,

因此开发和维护费用大幅度增加,用户投资回报率(ROD不高。以

动态数据仓库为例,其点对点的元数据集成体系结构具体如图4所

示,信息供应链各组件之间的空心箭头表示全部的数据流,实心箭

头表示不同的元数据桥和与之关联的元数据流。

第16页

<5=4><™e>o=^>0mme>

Bridges

图4点对点的元数据集成体系结构

通过使用中央元数据存储库(centralmetadatarepository)

取代各个工具软件和应用程序之间的点对点连接方式,改成中央元

数据存储库与各个工具软件和应用程序实现元数据交换的访问层

(也是一种桥),可以有效降低总成本,减少建立点对点元数据桥的

工作,提高投资回报率。信息供应链各组件可以从存储库访问元数

据,不必与其他产品进行点对点交互。这种使用中央元数据存储库

方式进行元数据集成的方式就是中央辐射式元数据体系结构(hub-

and-spokemetadataarchitecture),具体如图5所示。由于特定

的元数据存储库是围绕其自身的元模型、接口和交付服务建立的,

所以仍需要建立元数据桥实现与ISC各组件的互相访问。

第17页

采用模型驱动的元数据集成方法(比如使用CWM)可以有效降

低元数据集成的成本和复杂度,无论点对点元数据集成体系结构还

是中央辐射式元数据集成体系结构都可以因此受益。在点对点体系

结构中,通过使用基于模型的方法可以不必在每一对需要集成的产

品之间构建元数据桥,每个产品只需要提供一个适配器(adapter)

即可实现各个产品之间的元数据交换,适配器既了解公共的元模型

也了解本产品元模型的内部实现。如图6所示,基于CWM模型驱动

点对点元数据集成体系结构使用通用元模型,不再需要在各个产品

间建立元数据桥,在各个产品之间通过适配器实现了语义等价性。

第18页

图6基于CWM模型驱动的点对点元数据集成体系结构

如图7所示,在基于模型驱动(比如CWM)的中央辐射式元数

据体系结构中,中央存储库包含公共元模型和整个领域(domain)

用到的该元模型的各个实例(模型)、存储库自身元模型及其实例、

理解元模型(公共元模型和自身元模型)的适配器层,当然存储库

也可以直接实现公共元模型的某些内部表示。

第19页

图7基于CWM模型驱动的中央存储库元数据集成体系结构

如图8所示,这种体系架构是基于CWM模型驱动的中央存储库

元数据集成体系结构的一个变种,两个中央辐射式的拓扑结构通过

各自的元数据存储库连接起来,也被称为分布式(Distributed)或

联邦(Federated)体系结构。两个元数据存储库之间通过元数据桥

连接,两个存储库使用相同的元模型和接口,也可以使用不同的元

模型和接口。建立分布式元数据集成体系结构的原因有很多种,比

如企业基于多个区域单独部署自己的应用,每个区域有自己的数据

中心。

第20页

<

CWM兀数据交换(基于

XYL或标准APIUI用)

图8分布式(联邦式)元数据集成体系结构

如图9所示,这种体系结构是分布式体系结构的变体,根存储

库实现了元模型的公共部分(横跨整个企业),叶子存储库实现了一

个或多个特定的公共元模型子集,并只保存这些自己所对应的元数

第21页

据实例。特定客户可以主要访问其感兴趣的元数据所在的叶子存储

库,也可以访问其它叶子存储库和根存储库。这种体系结构被称为

结束语

本文详细介绍了大数据治理的基本概念和统一流程参考模型,

并阐述了该模型的第一步“明确元数据管理策略”和第二步“元数

据集成体系结构”等内容。在第一步“明确元数据管理策略”中讲

述了元数据的基本概念以及本体在人工智能/计算机科学和哲学中

的含义。在第二步“元数据集成体系结构”讲述了元数据集成体系

结构的六种示例,分别为:点对点的元数据集成体系结构、中央辐

射式元数据体系结构、基于CWM模型驱动的点对点元数据集成体系

结构、基于C恤模型驱动的中央存储库元数据集成体系结构、分布

式(联邦式)元数据集成体系结构和层次/星型元数据集成体系结构。

第22页

在本系列文章的下一部分将继续介绍大数据治理统一流程参考模型

第二步“元数据集成体系结构”,具体包括元模型、元-元模型、公

共仓库元模型(CWM)、CWM发展史、OMG的模型驱动体系结构

(ModelDrivenArchitecture,MDA)O

3.大数据治理体系

大数据治理体系包含两个方面,一是大数据质量核心领域,二

是大数据质量保障机制。

制度章程组织

•规章制度•组织架构

・管控办法•组织层次

•考核机制・组织职责

主数

数据

通过灵活的数据交互和探索分析能力,以及OEM白标集成

第23页

的方式,全面满足行业应用软件的数据分析需求。它提供多源数

据整合、报表统计、数据可视化、自助式BI分析、以及数据填

报等功能,帮助用户挖掘数据的潜在价值,为管理者制定决策提

供数据支撑。

整体应用流程:

3.1数据连接

通过数据连接引擎建立与Oracle、Mysql.SqlServer等各

种关系型数据库、API、ODBC或者Excel、JSON、XML等数据文件

等不同来源的数据连接,支持跨源,用于数据建模。

3.2数据建模

将填报采集的数据和已有业务系统如OA、ERP、CRM数据库

的数据,通过可视化数据模型设计器或者自定义SQL数据集,建

立多表关联模型,并对模型进行字段重命名、二次计算、分组计

第24页

算等操作,添加参数及筛选过滤,形成最终用于设计报表和仪表

板的数据集。

3.3统计报表

为业务层的日常运营提供必备的明细报表,以满足数据查询、

报表打印等需要。包括典型的Excel类中国式复杂报表、合同文

档类报表、分组报表、明细报表、图表、分栏报表等各种报表类

型。

3.4决策仪表板

以高度交互与自由数据探索的管理看板为基础,辅助决策的

制定。通过灵活自由的布局页面,拖拽可视化组件,绑定数据,

生成仪表板。浏览者在查看时,可以通过条件过滤、条件格式化、

排序、图表切换、调整数据绑定等组件,多维自由的从不同视角

进行数据分析。仪表板自带的联动和钻取分析,深入探查数据背

后的原因。指导管理层科学决策。

3.5数据大屏

通过可视化大屏,对企业综合信息进行展示,满足企业内、

外部信息共享与交流的需要。通过各种酷炫的可视化组件,将企

业核心经营指标、KPI指标、综合管控指标等直观的展示到总经

第25页

理办公室、会议室或者会客大厅等,方便管理层掌握企业经营情

况。

4.大数据治理核心领域

为了有效管理信息资源,必须构集团级大数据治理体系。大数

据治理体系包含大数据治理组织、大数据构架管理、主大数据治理

平台、大数据质量管理、大数据服务管理及大数据安全管理内容,

这些内容既有机结合,又相互支撑。

4.1大数据模型

大数据模型是大数据构架中重要一部分,包括概念大数据模型

和逻辑大数据模型,是大数据治理的关键、重点。理想的大数据模

型应该具有非冗余、稳定、一致、易用等特征。逻辑大数据模型能

涵盖整个集团的业务范围,以一种清晰的表达方式记录跟踪集团单

位的重要大数据元素及其变动,并利用它们之间各种可能的限制条

件和关系来表达重要的业务规则。大数据模型必须在设计过程中保

持统一的业务定义。为了满足将来不同的应用分析需要,逻辑大数

据模型的设计应该能够支持最小粒度的详细大数据的存储,以支持

各种可能的分析查询。同时保障逻辑大数据模型能够最大程度上减

少冗余,并保障结构具有足够的灵活性和扩展性

第26页

4.2大数据生命周期

一般包括大数据生成及传输、大数据存储、大数据处理及应用、

大数据销毁四个方面。

(1)大数据生成及传输

大数据应该能够按照大数据质量标准和发展需要产生,应采取

措施保证大数据的准确性和完整性,业务系统上线前应该进行必要

的安全测试,以保证上述措施的有效性。对于手工流程中产生的大

数据在相关制度中明确要求,并通过事中复核、事后检查等手段保

证其准确性和完整性。大数据传输过程中需要考虑保密性和完整性

的问题,对不同种类的大数据分别采取不同的措施防止大数据泄漏

或大数据被篡改。

(2)大数据存储

这个阶段除了关注保密性、完整性之外,更要关心大数据的可

用性,对于大部分大数据应采取分级存储的方式,不仅存储在本地

磁盘上,还应该在磁带上,甚至远程复制到磁盘阵列中,或者采用

光盘库进行存储。对于存储备份的大数据要定期进行测试,确保其

可访问其大数据完整。大数据的备份恢复策略应该由大数据的责任

部门或责任人负责制定,信息化管理部门可以给予相应的支持。同

时还需要注意因为部门需要或故障处理的需要,可能对大数据进行

修改,必须在大数据治理平台办法中明确大数据修改的申请审批流

第27页

程,审慎对待后台大数据修改。

(3)大数据处理和应用

信息化相关部门需要对大数据进行分析处理,以挖掘出对于管

理及业务开展有价值的信息,为保证过程中大数据的安全性,一般

应采用联机处理,系统只输出分析处理的结果。但是实际中,因为

相关大数据分析系统建设不到位,需要从大数据库中提取大数据后

再对大数据进行必要的分析处理,在这个过程中就需要关注大数据

提取操作是否可能对大数据库造成破坏、提取出的大数据在交付给

分析处理人员的过程中其安全性是否会降低、大数据分析处理的环

境安全性等等。

(4)大数据销毁

这个阶段主要涉及大数据的保密性。应明确大数据销毁的流程,

采用必要的工具,大数据的销毁应该有完整的记录。尤其是对于需

要送出外部修理的存储设备,送修之前应该对大数据进行可靠的销

毁。

4.3大数据标准

大数据标准是集团单位建立的一套符合自身实际,涵盖定义、

操作、应用多层次大数据的标准化体系。

大数据标准的建立是集团单位信息化、数字化建设的一项重要

工作,行业的各类大数据必须遵循一个统一的标准进行组织,才能

第28页

构成一个可流通、可共享的信息平台。

大数据治理对标准的需求可以划分为两类,即基础性标准和应

用性标准。前者主要用于在不同系统间,形成信息的一致理解和统

一的坐标参照系统,是信息汇集、交换以及应用的基础,包括大数

据分类与编码、大数据字典、数字地图标准;后者是为平台功能发

挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇

集和交换,包括元大数据标准、大数据交换技术规范、大数据传输

协议、大数据质量标准等。

(1)大数据分类与编码

大数据分类与编码标准是信息化建设中标准化的一项基础工作,

该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序

以及编码规则,目的是在不同系统和用户之间建立交通大数据的一

致参照,对提高大数据采集、处理和大数据交换效率具有重要作用。

大数据分类与编码标准的制定将有力推进平台标准化及交通信息化

建设标准化的进程。

(2)大数据字典

针对实际需求,定义大数据集,建立各个领域的大数据字典,

规范大数据概念和大数据定义。在此基础上,形成完备的集团单位

大数据集和大数据字典。

(3)元大数据标准

第29页

元大数据标准是描述大数据资源的具体对象时所有规则的集合,

它包括了完整描述一个具体大数据对象时所需要的大数据项集合。

针对各种信息资源分别制定适当的元大数据标准,可为信息的管理、

发现和获取提供一种实际而简便的方法,从而提高大数据交换效率。

(4)大数据交换标准

为了保证大数据共享和交换的顺利实现,必须明确定义和规范

大数据交换的相关标准。大数据交换的标准规范是集团单位综合信

息平台的核心标准。其中应当包括大数据交换内容、大数据交换格

式、大数据传输方式、各类中心间大数据接口的标准化等方面。

(5)大数据质量标准

由于大数据采集任务通常由其他二级平台完成,大数据治理平

台的标准方法主要集中在大数据的加工和管理上。应该重点开发的

一个领域是大数据质量控制方法。应当从三个方面对大数据质量方

法进行研究:“坏大数据”或“不可靠大数据”的识别,错误大数

据的编辑方法,以及缺少值的处理。

4.4主大数据

主大数据治理平台要做的就是从各部门的多个业务系统中整合

最核心的、最需要共享的大数据(主大数据),集中进行大数据的清

洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权

威性的主大数据传送给集团单位范围内需要使用这些大数据的操作

第30页

型应用系统和分析型应用系统。

主大数据治理平台的信息流应为:

1)某个业务系统触发对主大数据的改动;

2)主大数据治理平台系统将整合之后完整、准确的主大数据传

送给所有有关的应用系统

3)主大数据治理平台系统为决策支持和大数据仓库系统提供

准确的大数据源。

因此对于主大数据治理平台要考虑运用主大数据治理平台系统

实现,主大数据治理平台系统的建设,要从建设初期就考虑整体的

平台框架和技术实现。

4.5大数据质量

大数据质量不高将影响大数据仓库应用程度不高。低下的大数

据质量往往造成开发出来的系统与用户的预期大相径庭,大数据质

量关系建设有关分析型信息系统成败,同时大数据资源是集团单位

的战略资源,合理有效的使用正确的大数据能指导集团单位做出正

确的决策,提高省综合竞争力。不合理的使用不正确的大数据(即

差的大数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。

大数据质量管理包含对大数据的绝对质量管理、过程质量管理。

绝对质量即大数据的真实性、完备性、自治性是大数据本身应具有

的属性。过程质量即使用质量、存储质量和传输质量,大数据的使

第31页

用质量是指大数据被正确的使用。再正确的大数据,如果被错误的

使用,就不可能得出正确的结论。大数据的存贮质量指大数据被安

全的存贮在适当的介质上。所谓存贮在适当的介质上是指当需要大

数据的时候能及时方便的取出。大数据的传输质量是指大数据在传

输过程中的效率和正确性。

高质量的交通运输行业大数据至少有如下几项要求:

一是正确性,在转换、分析、存储、传输、应用流程中不存在

错误;

二是完整性,大数据库应用或要求的所有记录、字段都存在;

三是一致性,体现在整个大数据库的定义和维护方面,确保大

数据在使用的整个过程中是一致的;

四是时效性,衡量指标是在指定的大数据与真实的业务情况同

步的时间容忍度内,即指定的更新频度内,及时被刷新的大数据的

百分比;

五是可靠性,提供大数据的大数据源必须能够可靠稳定地提供

大数据。

大数据质量管理的规划和实施包括以下内容:

一是大数据质量管控体系的建立,包括大数据质量的评估体系,

定期评估大数据质量状况;

二是在部门各个应用系统中的落实,包括每个应用系统中的大

第32页

数据质量检查等;

三是在最开始建立大数据质量管理系统的时候,借助大数据治

理平台上,通过建立大数据质量管理的规则来集中化地建立大数据

质量管理系统,发现问题并持续改进;

四是大数据质量管理与业务稽核的结合,通过业务规则的稽核

来发现大数据质量深层次的问题,将大数据质量与业务一线结合起

来,使业务人员对大数据质量问题有更加清晰和明确的认识。

完善的大数据质量管理是保障各项大数据治理工作能够得到有

效落实,达到大数据准确、完整的目标,并能够提供有效的增值服

务的重要基础。

4.6大数据服务

大数据整理最终目的就是要服务于各部门单位、人员等,能更

准确更快更方便的服务是大数据服务管理的目标。

大数据服务管理是指针对内部积累多年的大数据,研究如何能

够充分利用这些大数据,分析行业业务流程优化业务流程。大数据

使用的方式通常包括对大数据的深度加工和分析,包括通过各种报

表、工具来分析运营层面的问题,还包括通过大数据挖掘等工具对

大数据进行深度加工,从而更好的管理者服务。通过建立统一的大

数据服务平台来满足针对跨部门、跨系统的大数据应用。通过统一

的大数据服务平台来统一大数据源,变多源为单源,加快大数据流

第33页

转速度,提升大数据服务的效率。

4.7大数据安全

由于集团单位的重要且敏感信息大部分集中在应用系统中,大

数据安全更是至关重要。如何保障大数据不被泄露和非法访问,是

非常关键的问题。大数据安全管理主要解决的就是大数据在保存、

使用和交换过程中的安全问题。

大数据安全管理主要体现在以下六个方面:

一是大数据使用的安全性,包括基础大数据的保存、访问和权

限管理;

二是大数据隐私问题,系统中采集的证件号码、银行账号等信

息在下游分析系统和内部管理系统中,是否要进行加密,以避免大

数据被非法访问;

三是访问权限统一管理,包括单点登录问题及用户名、大数据

和应用的访问授权统一管理;

四是大数据安全审计,为大数据修改、使用等环节设置审计方

法,事后进行审计和责任追究;

五是制度及流程建立,逐步建立大数据安全性的管理办法、系

统开发规范、大数据隐私管理办法及相应的应用系统规范、在管理

决策和分析类系统中的审计管理办法等;

六是应用系统权限的访问控制,建立集团级权限管理系统,增

第34页

加数字水印等技术在应用系统中的使用。

5.大数据治理保障机制

5.1制度章程

5.1.1规章制度

大数据治理章程类似于企业的公司条例。该章程阐明大数据治

理的主要目标、相关工作人员、职责、决策权利和度量标准。

具体可参见附件大数据治理平台规范

5.1.2管控办法

管控办法是基于规章制度与工具的结合,可落地的操作的办法。

具体可参见附件大数据质量评估办法

5.1.3考核机制

考核是是保障制度落实的根本,建立明确的考核制度,实际操

作中可根据集团单位情况,建立相应的针对大数据治理方面的考核

办法,并与个人绩效相关联。可参考管理学中相关考核、绩效管理

相关部分。

对于大数据治理的考核,可见下图进行理解:

第35页

执行是管控体系落地的关键

业务梳理

以绩效的手段促i

管理,栩嘘生产者、使用者.管

理者及拥有者关联起来,形成T

可持续有好执行的执行体系,保障

持续的高数据质量

0楣理核心业务源.数据流

0制定数姻管控指标(数据标准)

o以标准对数堀进行质量探套.处理.

分析

o则则对数据流进行监控.预.

o集成高质fll班

J心,蹲哄事、

o以绩效手段促兹保障数搪管

iswma有蛇行

-a^MKN

考核51掩数据负责人

发生数据质俄考核标准:

月35扣分项

1.发现f数据质量问图01分;

2.越物,as本完为止;

考德对象:数据负责人

考核标准:

1.数据质量问题能响30%以下(含30%)

僖息系统,扣5分;

数据质量何)胭2.■确影响30%~70%(含70%)

月25扣分项

信息系统,扪15分;

3.数据质量问题影峋70%1壮信息系蜿,

扣25分;

4.按月统计,以单次数据质蛔题影响范

围最大的数据为准;

考叨掩数据负责人

严重程度考咳板也以造成的峻济损失为考核依据,年扣分项

依企业情况自定义;人工考修

考倭对象:数据负责人

考核标准:,c

i.在规定时间内处理完成ftoas*问月B”加分项

国,加1分;5W不力吩;

第36页

考段对象数据管理员

问题预警、分L备g现数据质量I礴时,在规定时间段

内,及时预警并通知相关人员处理,不扣分;

5W,扣3分;

5.2大数据治理组织

5.2.1组织架构

有效的组织机构是项目成功的有力保证,为了达到项目预期目

标,在项目开始之前对于组织机构及其责任分工做出规划是非常必

要的,大数据治理项目管理组织建议宜采用如图所示的组织结构:

第37页

5.2.2组织层次

大数据治理委员会由集团公司的高层领导者组成。委员会定义

大数据治理愿景和目标;组织内跨业务部门和IT部门进行协调;

设置大数据治理计划的总体方向;在发生策略分歧时进行协调。此

委员会也将包含来自部门或子公司的领导代表,以及来自各单位视

大数据为机构资产的信息科技部门的代表。这些高层管理人员是大

数据治理计划的所有拥护者,确保在整个组织内获得支持。

大数据治理工作组是组织内委员会下面的下一个级别。工作组

第38页

执行大数据治理计划。工作组负责监督大数据治理平台员工作。大

数据治理工作组由大数据治理委员会中各局领导主持。

每各业务部门有至少一位业务分析员,信息科技部门设置大数

据质量分析员、大数据治理平台员、集成开发人员。各工作人员负

责本部门大数据的质量,履行职责,解决具体的问题。

5.2.3组织职责

根据大数据治理平台工作的实际需要,在业务管理部门、技术

管理部门和业务应用部门确定各工作人员的职责。

大数据治理委员会的职责范围:

1)从战略角度来统筹和规划,对大数据资产和系统进行清理,

确定大数据治理的范围;明确大数据源的出处、使用和管理的流程

及职责;

2)明确大数据治理的组织、功能、角色和职责;

3)负责各工作组成员的培训工作;

4)负责审查各工作小组的目标、原则,批准大数据治理平台的

相关制度、标准及流程;

5)负责确定大数据治理的工具、技术和平台;

6)负责制定大数据治理的评估指标、方法。

大数据治理工作小组,其主要工作职责是:

负责大数据治理的牵头,组织、指导和协调本单位的大数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论