大数据时代应急数据质量治理研究_第1页
大数据时代应急数据质量治理研究_第2页
大数据时代应急数据质量治理研究_第3页
大数据时代应急数据质量治理研究_第4页
大数据时代应急数据质量治理研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 郭路生,刘春年(南昌大学 管理学院,江西 南昌 330031) 大数据时代应急数据质量治理研究大数据时代应急数据质量治理研究 Research on quality governance of emergency data in the big data era 摘要摘要:目的目的/意义意义 为了解决大数据时代应急数据质量问题,支撑基于大数据的应急管理和智能决策。方法方法/过程过程 首先定义了应急数据质量维度,然后分析了应急数据质量的现状和原因;重点探讨了应急数据治理的措施。结果结果/结论结论 应急信息环境是一种复杂的大数据环境,数据质量低下,需要采用与大数据特点相适应的治理措施。在管理上,

2、需要提高战略认识,建立大数据治理的组织、机制和标准,采用全生命周期的质量管控方法;在技术上,采用适应大数据的 EA 管控、元数据管理、主数据管理和数据质量监控等手段。 关键字关键字:数据质量;数据治理;大数据;EA;元数据管理;主数据管理 Abstract:Purpose/Significance To solve the problem of emergency data quality in big data era, support the emergency management and intelligent decision based on big data. Method/Pr

3、ocess First, Dimension of emergency data quality is defined, then the present situation and cause of emergency data quality are analyzed, and the measures of emergency data governance are discussed. Result/Conclusion The emergency information is a complex big data environment, the data quality is lo

4、w, and it needs to adopt the measures of data governance which fit the characteristics of big data. In management, need to improve data quality consciousness, to establish the organization, mechanism and standard of big data governance, and to use the quality control method in whole data life cycle;

5、 in technology, need to use EA control, metadata management, MDM, data quality monitoring and other means which fit to the big data environment. Key words: data quality;data governance;big data; EA; meta data manage; MDM; 1 引言引言 应急信息环境是一种跨部门、复杂的信息环境。随着计算机技术和网络技术在应急领域的广泛使用,产生了海量的监测与监控信息、事件信息、交互信息、地理信

6、息,这些数据已达到 PB 级别;同时具有突发性、异构性、分布式、动态性、及时性、不完全性等特点,符合大数据的特征,是一种典型的大数据。大数据技术的兴起为基于大数据的应急管理和智能决策提供了可能1,2,然而数据质量问题却成了大数据应用的“拦路虎”。没有高质量的大数据将对决策产生误导,甚至产生有害结果。据估算,数据错误每年造成美国工业界经济损失约占 GDP 的 6%,98000 名患者丧生,50%的数据仓库因数据质量而取消或延迟3。高亮认为:“数据治理是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的重要任务4”。因此研究大数据时代应急数据质量治理具有重要的

7、意义。宗威认为数据质量是有效分析和利用大数据的前提,大数据时代给数据质量的保证提出了新的挑战5。王宏志认为由于大数据具有规模大、速度快和多样性的特点,现有的方法难以适用于大数据质量治理,并提出大数据清洗的技术方案3。胡志伟6和王伟7均认为应建立一套大数据质量的治理机制,建立规范的数据标准和数据质量控制机制才能提高数据的质量。这些研究对大数据的数据质量治理进行了有益的探究,但总体来说研究较少,特别还没有看到针对应急领域的大数据质量方面的文献。本文将对大数据时代应急领域的数据质量的现状与问题进行分析,探索应急数据质量治理的措施,为基于大数据的应急决策提供支撑。 2 大数据时代应急数据质量的大数据时

8、代应急数据质量的挑战挑战与原因与原因 2.1 数据质量与数据质量的评估维度的定义数据质量与数据质量的评估维度的定义 “数据质量”是指数据资源满足用户使用要求的程度,即“fit for use”8。用户需求不同,数据质量的要求也不同。应急管理需要跨部门、跨警种的业务协同,需要跨部门的信息集成共享,为了实现信息的集成共享,对数据质量的规范性、一致性、唯一性和完整性有较高的要求;突发事件具有突发性和动态性,要求及时决策和响应,对数据质量的及时性和可用性有要求;突发事件具有危险性,错误的或不准确的数据将导致错误的决策,甚至带来更大的灾难,因此对数据质量的正确性和准确性有要求。综合应急信息的需求,参考

9、Dinette的数据质量十二个维度9,应急数据质量的评估维度定义为:数据规范性、唯一性、完整性、一致性、准确性、集成共享性、及时性和可用性。 2.2 应急数据质量的应急数据质量的挑战挑战与原因与原因 应急数据质量的应急数据质量的挑战挑战 政府是信息资源的主要拥有者,约 80%的信息掌握在政府手中。我国的应急管理采用分灾种、分部门的应急模式,各个部门以自己为中心建设了大量的信息系统,产生和收集了大量的数据,但同时也存在着大量的数据质量问题,主要表现在:存在大量的信息孤岛,难以共享,难以跨部门访问;各部门重复采集,信息系统中的数据大量重复,且不一致、不完整现象明显。应急数据的真实性、准确性不高。业

10、务操作人员对数据质量缺乏足够重视,重建设,轻管理现象明显。 应急数据质量问题产生的原因应急数据质量问题产生的原因 影响数据质量的原因有多种, 既有技术因素,又有管理因素10。一般说来,影响应急数据质量的因素主要有: 缺乏总体规划,没有统一的数据标准。我国应急管理是一种“分部门、分灾种”的应急模式,缺乏跨部门的信息资源的总体规划,各部门各自为政,重复建设。由于采用了不同的元数据、分类和编码标准,形成了大量的信息孤岛和不一致数据,严重影响数据质量的集成共享性、唯一性、一致性和完整性。 数据质量意识不高,没有建立数据质量治理的机制。目前,应急管理建设了大量信息系统,采集了大量的数据,但普通缺乏数据质

11、量的管理,大部分机构还没有建立数据质量治理的组织、制度、标准和技术手段。即使有机构意识到数据质量的重要性,上马了数据质量项目,购买了数据质量管理软件,但往往被看成是 IT 项目,业务部门参与不够,还没有把数据治理提到与财务管理、人力资源管理同等重要的战略高度。 突发事件的特点决定的应急数据质量不可能太高。突发事件具有突发性、不确认性、危险性、动态性、及时响应性等特点。大量的应急信息在短时间瞬时爆发,且不断变化,信息采集的任务紧、时间紧迫、条件恶劣,数据质量不可能太高。 应急大数据环境给数据质量带来严重挑战。随着计算机技术和网络技术在应急领域的广泛使用,产生了海量的监测与监控信息、交互信息、地理

12、信息,这些数据已达到 PB 级别,体量(Volume)巨大。这些数据既有结构化的数据,又有大量的视频、音频、图片、地理位置信息、文本、网页、社交信息等非结构化的数据,具有多样性(Variety) 。由于突发事件具有突发性、易变性、危险性等特点,要求大量的信息要在短时间高速处理,即具有高速性 (Velocity)。数据价值密度的高低与数据总量的大小成反比,应急数据的大体量决定的相应的价值密度比较低(Value) 。因此,应急数据是一种典型的大数据,大数据的特征给应急数据质量带来严重的挑战。表 1 比较了大数据与传统数据质量计划的差别。 表 1 大数据质量计划与传统数据质量计划的比较11 维度 传

13、统数据质量计划 大数据的质量计划 处理频率 处理是面向批量的 实时的和面向批量的 数据的多样率 大部分是结构化的 结构化的、准结构化的和非结构化的 置信度 数据需要处在原始状态、以方便数据仓库中的分析 “噪声”需要被过滤,但数据需要“足够好”。糟糕的数据质量可能会也可能不能阻碍分析工具获得业务洞察 数据净化的时间选择 在下载到数据仓库前,数据需要净化 数据可能被“似是而非地”下载,因为关键数据元素和关系可能未充分理解,数据的体量和速度可能采取流式的、内存中的分析来净化数据,从而降低存储要求 关键数据元素 评估客户地址等关键数据元素的数据质量 可数可能被模糊定义或错误定义,并有待进一步探索,因此

14、,关键数据元素可能反复变化 分析位置 数据迁移到数据质量和分析引擎 数据质量和分析引擎可进入数据中,以保证可接受的处理速度 管理工作 数据主管可管理大部分数据 由于体量大和速度快,数据主管只能管理相对更小的数据 3 大数据时代应急数据质量治理措施大数据时代应急数据质量治理措施 数据质量治理是通过建立数据管理政策,流程和标准,以优化组织的数据资产为回报的决策和管理过程12。数据质量治理与财务管理、人力资源管理一样是一项管理业务,而不是 IT项目12,需要从管理层面制订管理措施,并借助技术手段来进行数据质量治理,其总体流程如图 1 所示。 图 1 应急数据质量治理流程 3.1 大数据时代应急数据质

15、量治理的管理措施大数据时代应急数据质量治理的管理措施 数据质量治理的管理措施可分为认知、制度和方法论三个层面。 3.1.1 认知层面的管控认知层面的管控 数据质量治理与财务管理、人力资源管理一样是管理业务,而不是 IT 项目,需要业务人员的广泛参考。数据质量治理的目的是为了优化和返回更多的数据资产,因此数据质量治理需要提高到与财务管理、人力资源管理同等的战略高度12。 应急信息是一种典型的大数据,大数据分析技术的兴起为大数据的利用(比如基于大数据的智能应急决策)提供了可能,将产生巨大的业务价值,然而大数据的质量却成了“拦路虎”,因此,应急大数据的质量治理应成为优先方向。 数据质量的治理是始于现

16、状和未来的认知,现状和未来状态的认知是科学制订一切数据治理措施和路线图的基础。这种认知通常需要进行成熟度评估。IBM 数据治理成熟度模型从业务成果、组织结构和认识、管理人员、数据风险管理、政策、数据质量管理、信息生命周期管理、信息安全与隐私、数据架构、分类和元数据、审计信息日志和报告 11 个指标进行评估,把数据治理的成熟度分为5 个等级13。 根据数据治理成熟度的评估结果以及与未来目标的差距,列出弥补这些差距所需要关键人员、流程和技术计划并根据计划的优先级制定路线图。随着大数据对组织越来越重要,信息治理计划需要将大数据纳入路线图之中。 3.1.2 制度层面的管控制度层面的管控 数据治理组织一

17、般采用三层的组织架构:企业级的应急数据治理委员会。由高级管理人员、业务领导和 IT 领导组成。委员会负责制订数据治理计划的方向、制度、流程和标准,协调各部门关系4。部门级应急数据治理委员会和专项数据专家团队。具体的管理应急数据的业务人员和技术支持人员。 针对大数据的质量治理,应该明晰大数据治理的目标和关键流程,识别大数据治理的利益相关者;酌情任命大数据主管;确定新增角色和现有角色的适当组合,确定各个角色应当承担的大数据责任。 制度和标准的制订是数据质量管控的基础,数据标准包括元数据标准、分类标准、编码标准,是应急跨部门实现数据集成、应用集成和业务协同的基础。应急数据质量规则一般从数据规范性、唯

18、一性、完整性、一致性、准确性、及时性和可用性等方面来定义。 3.1.3 方法论层面的管控方法论层面的管控 应急数据治理采用全生命周期的过程管控方法,如图 2 所示。把数据治理的管理规范和标准体系注入到信息系统生命周期和数据生命周期中去,并通过交付物的评审去落实,通过工具的自动检查去固化。信息系统的建设更关注系统生命周期,而BI、数据仓库和大数据平台更关注数据生命周期,重视数据标准的管控。 图 2 全生命周期的数据质量过程管控 3.2 数据治理的技术措施数据治理的技术措施 应急数据质量产生的重要原因就是缺乏总体规划和统一的数据标准,EA 作为一种先进的总体规划技术将在应急数据治理中发挥重要作用。

19、EA 架构的实施是通过相应的标准和制度来保证的,是数据治理的前提。元数据管理是标准和制度落地的技定义业务获得高层成熟度评制订路线建立组织定义质量过程管控 元数据监主数据监大数据质生命周期安全 稳私 质量结果 管管理理措措施施 技技术术措措施施 认知 机方EA 架构管理规范(组织、制度、流程) 数据架数据标质量标准 运行 规划 需求 设计 开发 测试 上线 数据质量管控贯穿全过程,“需求-设计-实现-使用”一致性 系 统生 将数据管控的标准规范 收集、分析和处理 术措施,是数据治理的基础;主数据管理是对组织内核心的、共享的数据进行管理,是数据治理的关键;数据质量监控对组织内的数据进行剖析,发现错

20、误、分析错误和更正错误,是数据质量治理的重要工具。各项技术措施对数据全生命周期的质量管控原理如图 3 所示。 图 3 技术措施对数据生命周期的质量管控 3.2.1 基于基于 EA 架构的应急大数据质量治理架构的应急大数据质量治理 突发事件的应急响应需要各级政府、公安、消防、卫生、民政、水利、气象以及民众、NGO 等社会各界人士的共同参与。需要各部门的信息共享来支撑业务的协同,需要高质量的数据来支持应急决策,然后,由于我国采用“分灾种,分部门”的应急模式,没有统一规划,存在大量的信息孤岛,数据质量低下,给应急决策和协同工作带来极大的困难。因此急需先进的顶层设计理论和工具进行规划。 企业架构(EA

21、)是一种先进的顶层设计的理论和工具,是对实现企业战略目标的核心业务、信息、应用和技术进行整体的、系统的描述,其本质是使一个组织的信息、流程和技术与该组织的战略相连接,即满足其战略需求14。对于信息来说,就是要支撑其业务价值的实现,这与信息质量的含义:“fit for use”相吻合。美国应急管理委员会建立了应急企业架构,实施 e-FEMA 战略15以来,极大提高了应急数据的质量,特别是集成共享性、互操作性和一致性。 我国应急领域急需建立一个跨部门的企业架构。这个企业架构必须考虑应急大数据业务价值,建立一个能发挥大数据价值的业务架构、应用架构、数据架构和技术架构。根据应急数据架构制订应急数据标准

22、体系:元数据标准、分类标准、共享标准、数据质量标准,并且根据标准体系对应急数据全生命周期进行管控。为了保证企业架构和标准体系的有效执行,还需要建立相应的法律法规、政策制度和组织架构。比如美国颁布了 Clinger-Cohen 法,设立首席信息官 CIO 体系,确保所有IT 重大项目符合联邦企业架构参考模型。 基于元数据的数据质量治理基于元数据的数据质量治理 元数据(Meta Data)是数据标准的技术表达,是标准实施的落地技术,也是数据管理的重要工具。元数据决定数据如何满足业务需求,即数据质量:“fit for use”,因此,元数据的管理,就成为成功的信息质量治理计划的一个关键要素。 元数据

23、管理实现数据标准化,提升数据质量的基本原理如图 4 所示。元数据是标准体系的映射,是标准与规范的落地手段,标准规范对数据生命周期的管控是通过元数据管理来实现的。应急大数据的体量、速度和多样性给建设和维护清晰的元数据设施增加了新的挑战。对大数据而言,传送信息管理能力的元数据计划的任何失败,都会导致数据重复、关键信息无法访问等数据质量问题。 图 4 元数据管理实现数据标准化、提升数据质量的基本原理 随着大数据技术的在应急领域的应用越来越广泛,应急部门需要在原来的元数据管理策略增加大数据相关的内容,具体而言,可以采取如下的措施。 构建关键大数据业务元数据。考虑到组织可以获取数据的容量和多样性,应该创

24、建一个体现关键大数据业务术语的业务定义词库(本体) 。 及时跟进和理解各种大数据技术中的元数据,提供对其连续、及时地支持,比如 MPP 数据库、流计算引擎、Apache Hadoop/企业级Hadoop、NoSQL 数据库以及各种数据治理工具如审计/安全工具、信息生命周期管理工具等。 将业务元数据和技术元数据进行链接,通过操作元数据(如流计算或 ETL 工具所生成的数据)监测大数据的流动;通过数据血缘分析在整个信息供应链中实现数据追溯;通过影响分析了解具体某个字段的变更会对信息供应链中其他组件中的字段造成哪些影响等。 扩展应急部门现有的元数据管理角色,以适应大数据治理的需要。 3.2.3 基于

25、主数据管理的基于主数据管理的应急应急数据质量治理数据质量治理 应急主数据(Master Data)是指描述核心应急业务实体的数据,比如应急预案、受灾者、应急机构、应急人员、应急物质、应急专家等;它是具有高业务价值的、需要跨部门的、跨系统共享的数实现 数据架构 数据标准 质量标准 管理制度 标准业务元数据 技术元数据 元 实现数据标准化,提供是共同的业务沟通语言,解决业务和数据的模糊性;保证数据的一致性和共享性,实现系统可集成性,提供高质量的数据 通过非冗余、非重复的元数据信息提高数据完整性、准确性 通过数据地图、血缘分析和影响分析提高数据质量的信心,分析数据质量原因,找到解决方案。 集中化 B

26、I 系统的管理和应用;减少 BI 系统组映管元数据定义 元数据维护 血缘分析 影响分析 数据地图 数据审计 元数据管理与应用 信息规划 业务建模 技术建模 数据服务开发 数据管理 数据生命标准管 服分数据标准化、提升数据质量 实标准 与 制企业架构 元数据 主数据 数据 生命 数据 质量 据。主数据管理(MDM)是实现应急信息共享和业务协同的关键,政府应建立一个应急主数据中心,对主数据统一管理;建立主数据管理规程,采用先进的技术手段为所有的利益相关者(应急部门、应急业务、应急系统、应急数据库和数据仓库等)维护主数据的一致性、准确性、唯一性和完整性。主数据管理是一种数据质量管控方法,关键是“管控

27、”。图 5 展示了应急主数据管理体系的管控原理。 图 5 主数据管理体系的管控原理 主数据是组织的核心数据,具有高价值密度性和共享性,大数据具有体量大和低价值密度性,因此主数据和大数据具有互补性。主数据在大数据分析中,特别是实体识别中发挥重要作用,大数据分析也可以丰富主数据。大数据质量治理需要 MDM支持,其关键措施有:提高主数据的质量,以支持大数据分析;利用大数据提高主数据质量;提高关键参考数据的质量和一致性,以支持大数据治理计划;审视社交媒体平台政策,以确定与主数据管理整合的程序;从非结构化文本中挖掘有用的信息,以丰富主数据。 实施大数据实施大数据质量质量监监管管,提升应急大数据质量,提升

28、应急大数据质量 数据质量监管是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动。主要包括数据剖析、数据评估、数据清洗、数据监控、错误预警、错误更正等内容。数据质量的监管需要借助软件工具来实现,如 IBM 和 Informatic 公司的数据质量监控平台。 应急数据是一种典型的大数据,大数据的特征给数据质量监控带来严重的挑战,大数据质量监管具体措施如下: 在业务上与利益相关者合作,建立并评估大数据质量的置信区间。传统的数据质量治理以内部数据为主,大数据项目还会用到大量的外部数据,如何发现和解决这类数据质量

29、问题比以前因难很多,需要与相关的企业协作共同解决。比如在突发事件之后,政府需要对网络舆情进行分析,需要采集微博、微信中的数据,为了提高数据质量的可靠性,需要与新浪、腾讯等公司合作,一起评估大数据的质量置信区间。 利用半结构化和非结构化数据,提高人口稀疏的结构化数据质量; 通过流计算技术对动态数据进行实时处理,剔除噪音数据,提高数据质量,最后将输出结果作为静态数据存储到 Hadoop 平台、MPP 数据库、关系型数据库/数据仓库或各种 NoSQL 数据库中,无需将中间结果进行保存。 4 结结语语 应急信息环境是一种复杂的大数据环境,数据质量低下,必须经过数据治理,才能支撑基于大数据的应急管理和智

30、能决策。应急数据治理应充分考虑应急的特点和大数据的环境,从管理和技术两个维度进行治理。管理维度分为认知、制度和方法论三个层面。在认知层面,需要把数据治理提高到数据资产管理的高度,需要业务人员的广泛参与和高层的介入;需要进行成熟度分析,制订度路线图。在制度层面,需要建立企业级数据质量治理的组织架构,并制订数据质量管控的制度和标准。在方法论层面采用全生命周期的质量管控方法。在技术维度,采用 EA 架构管控、元数据管理、主数据管理和数据质量监控等技术手段。无论是管理措施还是技术措施,均要考虑大数据的特点,采用与大数据特点相适应的措施。 参考文献参考文献 1 黄越,李涛. 大数据时代的灾难信息管理J. 南京邮电大学学报(自然科学版),2015,35(6) :68-76. 2 马奔,毛庆铎. 大数据在应急管理中的应用J. 中国行政管理,2015(3):136-141. 3 王志红. 大数据质量管理:问题与研究进展J. 科技导报,2014,32(34) :78-84. 4 高亮. 数据治理:让数据质量更好J. 中国教育网络,2014,(12):64-66. 5 宗威,吴锋. 大数据时代下数据质量的挑战J. 西安交通大学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论