版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络安全中的大数据治理.docx
前言
本文提出了一个大数据治理框架,指导组织在相关的规则框架内做出更好的基于数据的业务决
策,并密切关注数据安全性、隐私性和可访问性。
大数据是指大型复杂的结构化或非结构化数据集。大数据技术使组织能够生成、收集、管理、
分析和可视化大数据集,并为诊断、预测或其他决策任务提供见解。处理大数据的关键问题之一是
采用适当的大数据治理框架,这样可以:
①以所需的方式管理大数据,以支持有效机器学习的高质量数据访问;
②确保该框架规范存储和处理在相关监管框架内以可信赖的方式收集来自供应商和用户的数
据。
提出了一个大数据治理框架,指导组织在相关的规则框架内做出更好的基于数据的业务决策,
并密切关注数据安全性、隐私性和可访问性。为了说明这一过程,以网络安全大数据治理为例,给
出了该框架的一个实现实例。该框架有可能指导不同组织的大数据管理,实现信息共享和协同决
策。
内容目录
前言..................................................................................................1
内容目录..............................................................................................1
图表目录..............................................................................................2
引言.................................................................................................2
1.研究背景.........................................................................................3
1.1.大数据.......................................................................................3
1.2.网络安全......................................................................................5
1.3.数据治理......................................................................................6
2.数据安全:数据治理概述..........................................................................7
2.1.数据.........................................................................................7
2.2.治理........................................................................................10
2.3.数据治理....................................................................................10
3.大数据治理......................................................................................14
3.1.挑战.........................................................................................14
3.2.拟议的框架...................................................................................15
第1页共23页
3.2.1.目标....................................................................................16
3.2.2.促成因素...............................................................................16
3.2.3.指导原则...............................................................................17
3.2.4.治理域.................................................................................17
3.2.5.应对新挑战.............................................................................18
4.网络安全中的大数据治理...........................................................................19
4.1.规划........................................................................................20
4.2.治理实施....................................................................................20
4.3.评价与优化..................................................................................23
5.结语.............................................................................................23
图表目录
图1大数据的3V:海量、多样性和速度.............................................4
图2数据治理的范围.............................................................11
图3宏观层面的数据治理.........................................................13
图4微观层面的数据治理.........................................................14
表1现有数据治理的主要挑战.....................................................14
图5大数据治理框架.............................................................16
图6面临新挑战.................................................................19
图7网络安全大数据治理框架.....................................................20
图8Hadoop框架................................................................22
引言
互联网络和设备数量的增长导致了组织中数据的爆炸性增长。这些数据越来越多地被用来通过
分析提供见解,从而为关键业务决策提供信息。商业和非商业组织正在进行的数字化促进了这一增
长,物联网(IoT)的日益广泛使用也是如此。物联网设备收集来自各个领域的信息,如健康、能源、
天气、商业、交通、教育和制造业,并打算对社会和环境产生积极的影响。大量的信息通常被称为
“大数据”,即收集、挖掘、分析和可视化,以发现行为趋势和模式,为决策提供信息。
与大数据相关的常见挑战是存储和分析收集的数据集,及时提供见解,从而加快和改进决策过
程,支持实现组织目标。作为一种常见的副作用,安全性和隐私性已经成为组织内部与数据存储和
使用相关的关键问题之一。这是由于道德背景、法律背景的变化、网络犯罪的扩散、恶意内部人员
第2页共23页
的增加以及近年来导致大规模安全漏洞传播的新攻击技术。由于意外信息泄露和对电网、卫生、教
育等各种自动化系统的有组织黑客攻击,这种机器和互联的增加将导致银行、政府和其他私人及公
共系统的网络安全问题大幅增加。
当在利用大数据集进行决策的组织中不应用数据治理时,上述挑战就变得至关重要。这些挑战
共同推动了开发大数据治理框架的需求,以指导大数据在当前决策中的使用,并确保大数据的质量
和可用性可供未来使用。大数据治理涉及人员、政策、流程、战略、标准和技术的协调,使组织能
够利用数据作为其关键业务资产之一,同时确保一致性、可用性、完整性、可靠性和安全性,以及
大数据整个生命周期的可审计性。
本文提出了一个大数据治理的框架,以便对大数据进行适当的收集、管理、存储、传输和利
用。简单地说,该框架以治理目标为指导,并使用EvaluateDirectMonitor(EDM)循环模型作为治
理原则来增强和支持数据体系结构。因此,该框架不仅可以指导组织做出更好的数据驱动决策,而
且可以支持组织在大数据的指导下有效地实现其组织成果。该框架使组织能够正确管理数据资产,
并最大限度地实现大数据的价值,从而支持和鼓励有关数据的良好实践。
本文还提出了一个在网络安全领域实施大数据治理框架的实例。采用大数据和相应技术的数据
分析工具越来越多地被用于支持网络安全。鉴于这类数据在网络空间的广泛可用性,开发和使用这
类工具的机会很多。网络安全涉及数据和网络的方方面面,网络入侵检测是确保网络安全的常用方
法之一。因此,本文探讨了如何将所提出的大数据治理框架集成到保护数据存储、流和处理的网络
入侵检测系统中。
论文的其余部分组织如下。"研究背景"部分简要回顾了大数据、网络安全和数据治理作为这项
工作的基础。“大数据治理”部分介绍并讨论了提出的大数据治理框架。"网络安全中的大数据治理”
部分以网络入侵检测的一个特殊案例为例,介绍了所提出的网络安全领域大数据治理框架的实现。
“结语”部分总结了这项研究,并探讨了未来可能的研究方向。
1.研究背景
该部分回顾了大数据的特点、现有的相关网络安全方法、通用数据治理框架、原则,并为提出
的大数据治理框架奠定了基础。
1.1.大数据
大数据是一个与大数据集相关的术语,大数据集具有更大、更多样和更复杂的结构,难以使用
传统的数据处理技术进行存储、分析和可视化。大数据不仅是指数据量,还包括与大数据量的收集
和利用相关的其他方面。大数据通常用3V来描述,如图1所示。
第3页共23页
Velocity
图1大数据的3V:海量、多样性和速度
(1)海量:大数据最明显的特点是生成和存储的数据量大,这通常被称为数据的纵向可伸缩性。
目前,估计全世界每天会产生25亿字节的数据,这一数据量比2005年增加了300倍,通常远远
超过传统列和行合理数据库的限制,因此需要新的存储技术来适应大数据。
(2)多样性:多样性表示数据可以来自多个领域,有三种典型类型:结构化、半结构化和非结构
化。这种多样性增加了数据的横向可伸缩性。与结构化数据相比,非结构化数据通常已经被标记,
并且可以很容易地映射到预先设计的字段(例如电子表格或数据库中的表),它显得更随机,更难排
序和分析。非结构化数据的典型示例包括电子邮件、视频、照片和音频文件。半结构化数据集通常
不驻留在关系数据库或表中,但它们确实包含用于分隔数据元素的标记。JSON和XML文档通常属
第4页共23页
于这种数据类型。
(3)速度:表示数据生成和需要处理以满足应用需求的速度。速度本质上是衡量数据创建、存
储、分析和可视化的速度。人们期望大数据技术能够实时或近似实时地生成和处理数据,而传统的
数据处理方法只能使用数据快照批量处理数据。因此,大数据需要更强大的数据处理机制来实时处
理数据流。
3V被广泛用于描述大数据,即大数据集具有高容量、高变化、高速度的特点。此外,最近还
提出了大数据的第四个V,即真实性。真实性是指数据的可信程度,表明数据在多大程度上可以被
组织确信地用于做出关键决策。大数据仍然是一个快速发展的领域,涉及非常活跃的研究和越来越
多的应用。因此,毫不奇怪,大数据的定义也在不断演变。尽管如此,大多数定义都类似于“大数
据代表的信息资产具有如此高的数量、速度、多样性和真实性,需要特定的技术和分析方法才能将
其转化为价值”。在此基础上,大数据的广义定义被扩展到包括实现或提取大数据价值的大数据处
理技术。
1.2.网络安全
随着互联网的迅速发展,越来越多的设备被网络化,形成物联网。从本质上讲,大量用于捕获
广泛数据的设备利用各种网络和云提供的无处不在的连接性在互联网上共享数据。如果适当地加以
利用,这种共享数据可能对组织很有价值。为了保护网络空间中的数据共享,网络安全已成为影响
企业、政府、其他组织和个人家庭设备的最紧迫问题之一。
数据治理在这些解决方案中扮演着重要的角色,它不仅帮助组织了解需要保护哪些数据,而且
引导组织实现目标,具体表现在以下两个方面:
(1)识别数据风险:个人识别信息和个人健康信息构成敏感数据,可能给组织带来声誉和财务风
险。数据治理工具支持识别敏感数据。
(2)控制更安全的访问:数据用户并不总是需要查看或访问日常使用的敏感数据。重要的是要控
制这些敏感数据只有在需要和必要时才能访问。通过正确应用数据治理工具,可以有效控制权限数
据访问。
传统上,数据驱动的网络安全解决方案,如网络入侵检测系统(IDS)和安全信息与事件管理
(SIEM),通过分析事务日志和网络流量数据来识别异常和可疑活动,从而保护组织免受网络威胁。
然而,基于以下两个原因,此类工具越来越难以处理与使用物联网进行大数据收集相关的越来越大
的流量数据集:
(1)传统技术并不是用来处理和管理任何半结构化或非结构化数据的,但这在大数据中非常常
见。将非结构化数据转换为结构化表示是可能的,以满足传统工具的需求。但是,这是一个额外且
第5页共23页
耗时的过程,成本非常高昂。
(2)传统技术在存储、保留、检索、访问和处理大数据隐含的大量信息方面效率相对较低。这些
工具没有与大数据技术集成。
应用大数据技术可以很容易地解决传统工具的问题。例如,大数据工具(如Piglatin脚本和正则
表达式)可以以灵活的格式查询数据,包括结构化数据和非结构化数据。止匕外,大数据及其分布式
系统提供了高性能的计算模型,使得存储和分析大型异构数据集的规模和速度前所未有。因此,与
大数据相关的网络安全问题可以通过以下方法解决:①收集大规模的流量数据;
②对数据进行更深入的分析;
③生成并提供网络安全相关模型;
④基于该模型实现大规模流媒体流量数据的实时数据分析。
1.3.数据治理
数字时代为公共和私营部门以及组织提供了前所未有的机会来收集、存储、处理和交换大量数
据;
因此,它们在数据安全、数据结构管理、数据隐私保护和数据质量管理等方面面临着越来越大
的挑战。数据治理是一个概念或框架,组织可以使用它来解决管理数字资产处理过程中的此类挑
战。
数据治理包括使组织能够将数据作为数字资产加以利用的人员、流程、过程和技术。它提供了
管理和维护数据质量、安全性、可用性、相关性和完整性的通用框架。它还确保真实的数据被适当
地用于设定业务目标、维护业务流程和做出关键决策。数据治理通常需要一个连续的过程来强制清
理和存储由组织生成或来自第三方的大量数据。应用数据治理的动机是确保有一种可持续的方法利
用数据来实现组织的业务目标和目的。信息技术。T)和其他业务部门必须共同定义管理数据的规则
和策略,并定义从获取、管理和存储到利用和可视化的数据元素。
数据治理策略确定了数据使用的角色和职责,建立了数据保护计划的最佳实践,并确保数据在
组织内得到适当的记录。与组织的任何其他资产一样,数据需要一个适当的管理策略。数据治理定
义了数据的访问、数据的安全级别、数据的质量以及组织对数据使用的目标。数据治理策略可以由
组织内的团队或组织外的专家编写。
数据治理策略是另一个关键因素,它定义了如何共享从数据中提取的信息,加强了使用数据的
文化,并揭示了数据治理可能面临的缺点和所需的预算。更具体地说,它阐明了谁对数据负责和知
情,以及如何从数据中做出决策。它为整个组织遵循的数据管理过程提供了基础。它也是克服数据
治理限制的一个组成部分,有助于实现预期的业务目标和价值。
第6页共23页
数据治理实践通常由用于数据收集、管理、存储和利用的框架指导。该框架旨在确保数据的机
密性、可用性、可访问性、质量和完整性。它必须支持组织内的数据流和业务流程以及组织的文化
和结构。它有助于指导员工在数据管理中发挥作用。一个完善的数据治理框架通常包括数据管理策
略、公司驱动因素、数据管理结构、技术和方法。
2.数据安全:数据治理概述
随着大数据时代的到来,流动的数据已成为连接全世界的载体,也成为促进经济社会发展、便
利人们生产生活的源动力。伴随着数据流动,尤其是为了解决流动过程中产生的一系列问题,"数
据治理”一词逐渐兴起。而要了解数据治理,还得从数据、治理这些基本概念说起。
2.1.数据
什么是数据?传统意义上,数据是指人类对事物进行测量的结果。如今,数据的概念有了很多
延展。一般而言,数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以
及相互关系等进行记载的物理符号或这些物理符号的组合。这些物理符号具有抽象、非随机的特
点。
从数据的定义来看,数据具有两个特征,一个是差异性,另一个是规律性。差异性主要体现为
数据多数描述的是事物的数量特征,现实世界中每件事、每个人、每种物都有不同的特征,因此反
映于数据也会有各种不同的表现,甚至从表面看起来可能是杂乱无章的。规律性则主要体现为,数
据是具有一定规律的,对数据进行分析研究,很重要的目的就是从数据中找出某种规律和关联。简
而言之,正因为数据具有差异性,才有必要对数据进行研究与分析;也正因为数据存在规律性,对
其研究才有价值。
时下,人们往往容易将数据与大数据混淆。实际上,两者是有区别的。
对于大数据,麦肯锡全球研究所给出的定义如下:大数据是一种规模大到在获取、存储、管
理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;高德纳(Gartner)咨询公司给出
的定义如下:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应
海量、高增长率和多样化的信息资产。维克托•迈尔•舍恩伯格在《大数据时代》一书中提出,大
数据不能用随机分析法(抽样调查)这样的捷径,而要对所有数据进行分析处理。
业界普遍认为,大数据具有数据规模海量(Volume)、数据流转快速(Velocity)、数据类型多样
(Variety)和数据价值巨大(Vaiue)四大特征。
(1)数据规模海量
当前,以大数据、物联网、人工智能为核心特征的数字化浪潮正席卷全球,全世界每时每刻都
第7页共23页
在产生大量的数据。从1956年IBM发明世界上第一个机械硬盘,两台冰箱大小却只有5MB容
量,到现在淘宝网4亿用户每天产生几十TB的数据,数据总量呈指数级增长。衡量数据大小的单
位也从MB到GB,到TB,再到PB、EB,相信后面还会不断出现新的记录单位。当数据数量和规
模发展到一定程度时,现有的数据存储、分析、计算的方案和技术势必不能满足现实需求,迫切需
要更智能的算法、更强大的数据处理平台和更新的数据处理技术来挖掘数据价值。
(2)数据流转快速
与传统的图书、报纸、广播等数据载体不同,数据产生和传播的速度非常快,数据被高速地创
建、移动、汇集到服务器。基于此,大数据对数据处理有着非常严格的要求。大数据的处理需符合
秒级定律,一般要在秒级时间范围内给出对数据的分析结果。响应时间过长,数据就失去了价值。
换言之,谁的数据处理速度快,谁在大数据时代就具备优势。
(3)数据类型多样
传感器、智能设备及移动互联网的飞速发展使数据变得更加复杂,除了传统的关系型数据,还
包含结构化、半结构化和非结构化数据。大数据时代,需要处理的数据不仅是海量的,而且是不同
种类、不同格式和不同来源的,因此需要一套专门的格式、标准来进行处理。
(4)数据价值巨大
大数据最大的特点在于通过各种数据分析和挖掘方法,发现诸多看似无关的数据之间暗含的规
律和关联。例如,阿里巴巴集团每天拥有几亿人的购物数据,通过分析这些数据就可以知道各种产
品和市场发展的走势,也可以知道不同用户的爱好和需求,从而进行针对性的推荐,以提高平台的
交易量。不过,我们也要看到,虽然大数据的价值巨大,但并不是所有数据都拥有这样的价值。如
果把大数据比作一座金矿,有价值的数据就是其中的黄金,这种价值需要一系列加工和处理才可能
得到释放。
在数字经济的发展历程中,数据起到了核心和关键作用,人们对数据价值的认识也是由浅入
深、由简单趋向复杂。总体来看,数据价值的发展主要分为三个阶段:第一阶段是数据资源阶段,
数据是记录、反映现实世界的一种资源;第二阶段是数据资产阶段,数据不仅是一种资源,还是一
种资产,是个人或企业资产的重要组成部分,是创造财富的基础;第三阶段是数据资本阶段,数据
的资源和资产的特性得到进一步发挥,与价值进行结合,通过交易等各种流动方式,最终变为资
本。
(5)数据资源
与传统的农业经济和工业经济不同,数字经济得以发展的基础是信息技术和海量数据。随着信
息技术与经济社会的交汇融合,数据成为国家的基础性战略资源,成为驱动经济社会发展的新兴生
产要素,与劳动、土地、资本等其他生产要素一同为经济社会的发展创造价值。
第8页共23页
但是,数据与这些传统生产要素不同,它具有可再生、无污染、无限性的特征。可再生是指数
据资源不是从大自然获得的,而是人类自己生产出来的,通过加工处理后的数据还可以成为新的数
据资源;无污染是指数据在获得与使用的过程中不会污染环境;无限性是指数据在使用过程中不会
变少,而是越变越多。因此,传统资源越用越少,但数据资源是越用越多。
数据成为资源,也是发现和利用数据价值的一个过程,这一点与传统资源如石油比较相似。首
先,要发现各种有用数据的来源,如同勘探油矿;其次,要采集满足特定需求的数据,如同采油;
然后,要把采集到的数据按应用需求进行标准化、结构化处理,如同炼油;最后,将加工处理后形
成的数据与实际应用相结合,最大程度地发挥数据的作用。因此,在这个阶段,数据是作为一种具
有使用价值的资源帮助管理者决策,从而实现其经济效益,同时也成为数字经济发展的关键生产要
素。
(6)数据资产
随着数字经济的发展,人们发现,数据不仅仅是资源,还具备资产的特质。所谓资产,是指由
企业过去经营交易或由各项事项形成的、被企业拥有或控制的、预期会给企业带来经济利益的资
源。从资产的界定来看,它具有现实性、可控性和经济性三个基本特征。现实性是指资产必须是现
实已经存在的,还未发生的事物不能称为资产;可控性是指对企业的资产要有所有权或控制权;经
济性是指资产预期能给企业带来经济效益。结合资产的特征,数据资产便是指企业在生产经营管理
活动中形成的,可拥有或可控制其产生及应用全过程的、可量化的、预期能给企业带来经济效益的
数据。实现数据可控制、可量化与可变现属性,体现数据价值的过程,就是数据资产化过程。当
前,数据已经渗入各行各业,逐步成为企业不可或缺的战略资产,企业所掌握的数据规模、数据的
鲜活程度,以及采集、分析、处理、挖掘数据的能力决定了企业的核心竞争力。
(7)数据资本
2016年3月,麻省理工科技评论与甲骨文公司联合发布了名为《数据资本的兴起》的研究报
告。报告指出,数据已经成为一种资本,和金融资本一样,能够产生新的产品和服务。但是,与实
物资本不同,数据资本也有自身的特性。例如,非竞争性,即实物资本不能多人同时使用,但是数
据资本由于数据的易复制拷贝特点,其使用方可以无限多;不可替代性,即实物资本是可以替换
的,人们可以用一桶石油替换另一桶石油,而数据资本则不行,因为不同的数据包含不同的信息,
其所包含的价值也是不同的。数据资本化的过程,就是将数据资产的价值和使用价值折算成股份或
出资比例,通过数据交易和数据流动变为资本的过程。换句话说,数据作为资本的价值要在数据交
易和流动中才能得到充分体现。这也引发了当前业界的一大难题,即数据产权问题。只有确定了数
据产权问题,数据交易才具备顺利开展的前提基础。
第9页共23页
2.2.治理
对于对大数据感兴趣的人来说,“数据治理”这个词并不陌生。但要全面深刻地理解数据治理,
还应该从“治理"说起。在英语中,“治理”一词源自拉丁文“gubernare",原意是控制、引导和操纵,
后来逐渐演化成'governor"及"government"。
治理的概念是20世纪90年代在全球范围内逐步兴起的。治理理论的主要创始人之一詹姆
斯・N.罗西瑙认为,治理是通行于规制空隙之间的那些制度安排,当两个或更多规制出现重叠、冲
突时或者在相互竞争的利益之间需要调解时发挥作用的原则、规范、规则和决策程序。另一位治理
研究专家格里•斯托克指出,治理的本质在于它所偏重的统治机制并不依靠政府的权威和制裁;它所
要创造的结构和秩序不能从外部强加;它发挥作用是要依靠多种进行统治的以及互相发生影响的行
为者的互动。
国内学者俞可平提出,治理具有四个特征:1)治理不是一套规则条例,也不是一种活动,而是
一个过程;2)治理的建立不以支配为基础,而以调和为基础;3)治理同时涉及公共和私营部门;4)
治理并不意味着一种正式制度,而有赖于持续的相互作用。
国际组织对治理也有各自的理解。世界银行认为,治理是“为发展而管理一个国家经济和社会
资源的权力”。联合国全球治理委员会将治理界定为"个人和各种公共或私营的机构管理共同事务的
诸多方式之总和,一种使相互冲突的利益得以调和并采取联合行动的持续过程”。
综上所述,治理就是政府、企业、个人以及非政府组织等主体为了管理共同事务,以正式制
度、规则和非正式安排的方式相互协调并持续互动的一个过程。
2.3.数据治理
数据治理具有治理的很多特征。例如,需要政府、企业、个人以及非政府组织等共同努力,也
需要建立一套立法、规章、制度和规则。然而,由于治理的是数据,它又有很多自身的特点。目
前,关于数据治理的定义亦是众说纷纭。
根据国际标准化组织IT服务管理与IT治理分技术委员会、国际数据治理研究所(DGI)、IBM数
据治理委员会等机构的观点,数据治理意指建立在数据存储、访问、验证、保护和使用之上的一系
列程序、标准、角色和指标,以期通过持续的评估、指导和监督,确保富有成效且高效的数据利
用,实现企业价值。数据治理的范围如图2所示。
第10页共23页
数据架构、分析和设计
•企业数据建模
・价值链分析
•相关数据架构
元数据转理数据库管理
•逻辑建模
用户和需求数据库设计
•物理建模,
架构和标准数据库执行
・建模标准/
抓取和整合•模型管理/支持和恢复
知识库管理绩效和优化
询问和报告归档和清除
分配和发送数据治理\技术管理
•角色和组织
数据安全管理
•数据线路
数据隐私标准
文件、记录和内容管理•政策和霸打粤黑。*
•保密分类
•电子文件管理
・密码实务
•物理记录和文档管理
・用户、小组和观点管理
•信息内容管理
•用户身份验证
•项目和服务
・数据安全审计
•数据资产评估
,交流
数据仓库和企业情报管理
数据质量管理
•数据仓库/企业情报架构
・数据仓库/集市执行•质量要求规范
•企业情报执行/•质量侧写和分析
参考和主数据管理
•企业情报培训和支持卜•数据质量提升
•数据整合架构
•监测和优化\•数据认证和审计
•参考数据管理
•用户数据整合
•产品数据整合
•维度管理
讦计算机与网络安全
图2数据治理的范围
中国在国际场合首次提出“数据治理”的概念,是2014年6月在悉尼召开的ISO/IEC
JTCl/SC40(IT治理和IT服务管理分技术委员会)第一次全会上。这个概念一经提出,即引发了国际
同行的兴趣和持续研讨。
2014年11月,在荷兰召开的SC40/WGl(IT治理工作组)第二次工作组会议上,中国代表提出
了《数据治理白皮书》的框架设想,分析了世界上包括国际数据管理协会(DAMA)、国际数据治理
研究所、IBM、高德纳咨询公司等组织在内的主流的数据治理方法论、模型,获得了国际IT治理工
作组专家的一致认可。2015年3月,中国信息技术服务标准。TSS)数据治理研究小组通过走访调
研,形成了金融、移动通信、央企能源、互联网企业在数据治理方面的典型案例,进一步明确了数
第11页共23页
据治理的定义和范围,并于2015年5月在巴西圣保罗召开的SC40/WG1第三次工作组会议上正式
提交了《数据治理白皮书》国际标准研究报告。报告认为,数据是资产,通过服务产生价值。数据
治理主要是在数据产生价值的过程中,治理团队对其做出的评价、指导、控制。
上述几个关于数据治理的界定,内涵已经十分丰富,要义也得到了明确的体现,但还是未能囊
括数据治理的全部。
首先,数据不仅仅是企业或机构的资产,更是现代国家的一种基础战略资源。曾有人提出,大
数据时代世界上最有价值的资源不再是石油,而是数据。这种提法丝毫未夸大数据的重要作用。煤
炭和石油等传统资源是有限的,而大数据作为新型资源,由于具有可复制、递增、共享等特性,其
开发和增长是无限的。更重要的是它改变了传统要素格局,新知识和新技术替代资本成为经济发展
的主导因素,符合智慧、绿色、共享和低成本的可持续发展理念,将助力实现发展方式的真正转
变。
其次,数据治理的目的不仅仅是确保数据的高效利用和实现企业价值,更是为了提升政府公共
管理能力和国家治理能力。正如《数据治理白皮书》所描述的,企业开展有效的数据治理,会通过
改进决策、缩减成本、降低风险和提高安全合规等方式将价值回馈于业务,并最终体现为增加收入
和利润。但是,拥有数据的往往并不只是企业。有统计显示,政府拥有全社会80%的数据资源,通
过运用大数据、云计算等现代信息技术,形成“用数据决策、用数据管理、用数据服务”的公共管理
与服务机制,能够有效提升政府公共管理能力和国家治理能力,促进经济社会的快速健康发展。
再次,开展数据治理不仅仅局限于企业,政府和个人更是数据治理的重要主体。当前,无论国
际、国内,提到数据治理基本都是指企业行为,但实际上政府在数据治理中能够发挥更主动的作
用。例如,开展数据治理顶层设计、推动政务数据开放共享、建立完善的数据权责体系等。个人也
应该积极参与数据治理。由于政府和企业收集的信息中有相当大的部分是个人信息和数据,而近年
来泄露、滥用和非法买卖个人信息的现象十分严重,给部分民众造成了巨大的经济损失和精神伤
害。所以,个人参与数据治理主要是积极保护个人信息和维护个人权益。
最后,数据治理不仅仅依靠模型和框架,还要采用法律、行政、教育、道德伦理等方法和手
段。当前,围绕对数据的采集、分析、挖掘、应用、共享和保护等出现了诸多问题,亟需通过出台
数据立法和行政规章制度加以明确和规范。针对数据利用过程中出现的一系列安全隐患,要加强网
络安全教育和培训,提升从业人员的专业素质和普通民众的意识技能。对于那些倒买倒卖生物特征
信息等敏感数据的行为,要辅之以伦理和道德方面的分析和教化,必要时可在立法中加大处罚力
度。
综上所述,从宏观层面看,数据治理是指政府等公共机构、企业等私营机构以及个人,为了最
大程度地挖掘和释放数据价值,推动数据安全、有序流动而采取政策、法律、标准、技术等一系列
第12页共23页
措施的过程,如图3所示。从微观层面看,数据治理是不同的机构对各种各样的元数据进行处理和
分析的过程,如图4所示。换句话说,无论何种主体以何种方式,只要围绕数据安全、有序流动所
采取的行动,就是数据治理的范畴。
数据治理工一.计算机与网络熨全
图3宏观层面的数据治理
第13页共23页
3.大数据治理
本部分讨论数据治理挑战,以及为应对这些挑战而提出的大数据治理框架。
3.1.挑战
传统的数据治理框架在“数据治理”部分中通常只考虑数据结构、数据质量和元数据管理,而不
是高容量、高变化、高速度的实时数据。在大数据环境中,组织内部或外部处理的大量数据需要对
数据质量、安全性和道德规范进行额外的管理。此外,大数据和业务任务的结合可能会导致数据泄
露的风险更加频繁和更高。此外,大数据与业务任务的结合可能会导致数据泄露的频率更高、风险
级别更高。表1总结了现有数据治理框架在大数据方面面临的主要挑战。
表1现有数据治理的主要挑战
第14页共23页
序号挑战
1缺乏大数据治理框架
2缺乏大数据治理所需的技术人才
3大数据安全与隐私
4缺乏及时从数据中产生洞察力所需的工具
5组织在目标设定和决策中使用数据的阻力
6业务经理对大数据的认识不足
7企业的数字化仍然是大多数组织面临的挑战
8收集和存储的数据的复杂性(如非结构化数据)
大数据环境下的数据治理主要集中在以下三个方面:
(1)数据体系结构:大数据是从各种各样的数据源中获取的,这些数据源可以是结构化的、半结
构化的或非结构化的。非结构化和半结构化数据通常是随机的,难以处理。这种数据结构的多样性
增加了数据管理的难度。另外,不同的组织保持着各自的数据结构标准化,阻碍了不同组织之间跨
系统的信息共享,从而大大降低了信息开发利用的效率。
(2)数据质量:数据质量可能是大数据管理的一个问题,因为大多数现有措施不能直接应用于大
数据。例如,大数据的实时性要求组织提高数据访问效率,从而减少数据传输的延迟。此外,有时
可能需要组织将相同或具有冲突的数据存储在不同的系统中,这往往会导致同步或冲突解决问题,
从而相应地降低数据质量。
(3)数据安全、隐私和道德考虑:数据共享和分析过程可以有效地提高数据的价值,使组织具有
更好的数据透明度,但同时也可能不适当地暴露敏感数据,或让黑客进行未经授权的数据操纵。实
际上,大数据安全和隐私是大数据时代数据治理面临的最大挑战之一。除此之外,随着数据提供者
的日益关注和数据捐赠的更广泛参与,数据处理的道德方面已成为一个越来越重要的问题。
3.2.拟议的框架
在数据结构标准化、数据质量管理、数据安全和隐私方面存在的问题是设计和开发有效的大数
据治理框架的主要挑战。本文从大数据应用和创新的角度,通过考虑目标、数据保护赋能因素、治
理领域和原则,提出了一个大数据治理框架,如图2所示。该框架以治理目标为指导,根据组织的
战略数据相关目标,采用实体数据模型(EDM)循环模型作为治理原则,有效地增强数据架构、数据
质量、数据安全和隐私。
第15页共23页
Goals
Outcomes
IJ
GovernanceDomain
Enablers
4-u>A
DistributedData
(vE3
3Processing£
Datariskd」
cuo
Managementue
le
/DistributedDataoAa
l\l
AStore
Policiest
--zmz
e
na
Integration&s
c2fe
StewardshipeMetadatael
QManagement。
y
图5大数据治理框架
3.2.1.目标
拟议的大数据治理框架允许组织保护大数据,同时从大数据中获取最大价值,从而支持和鼓励
有关数据利用的良好做法。换言之,该框架的目标不仅是指导组织根据其关键绩效指标围绕数据使
用做出更好的决策,而且还帮助组织有效地实现数据创新利用的成果,这往往导致组织的文化变
革,以实现深层次的数据驱动过程。这些目标通常是组织战略目标的核心,可以通过利用现代信息
和通信技术开发大数据来实现。
3.2.2.促成因素
赋能者通过管理来定义程序、规则以及这些程序和规则的相关实施,共同建立基础实践标准,
以限制风险并最大化大数据及其利用的价值。这些程序和规则涵盖了数据处理的所有关键方面和领
域,从数据收集到存储和传输、利用和最终归档。例如,数据可能会泄漏或通过各种方式被非正式
访问和操纵,从意外丢失的设备或释放的密码到专门的有组织的网络攻击。在大数据环境中,数据
源的多样性和数据的存储位置使得这种情况更具挑战性。在这个例子中,需要根据此类潜在风险制
定风险预防和缓解程序及规则,以尽量减少风险。
为了确保所定义的规则和程序适用于组织的数据处理实践,通常由数据管理员在执行框架内进
行管理。数据管理员是对数据处理有顾虑的其他人的组织代表。数据管理者可以是数据管理委员会
第16页共23页
或独立个人的形式,具体取决于组织。管理委员会还与程序和规则制定者密切合作,就程序和规则
的有效性和效率提供反馈和见解。这些输入,除了来自数据提供者、保管者和操纵者的输入,在对
数据处理程序和规则进行定期审查和修订时,都要加以考虑。
3.2.3.指导原则
大数据治理原则支持组织管理和处理大数据,为上一小节中讨论的数据处理程序和规则中未提
及的任何方面提供补充指导,这些程序和规则定义了数据处理关键方面的实用标准。这些程序和规
则是强制性的,由管理工作组监督。本小节中讨论的原则仅提出了良好做法,根据情况可能不会在
实践中采用。这项工作的指导原则集中在图2所示的数据责任、完整性、可审计性和透明度上。为
了使其有效,指导原则应保持简单易懂。
组织应持续评估数据在一段时间内可能发生的任何更改,以确保数据完整性,这对于有效使用
数据来说至关重要。数据完整性将通过确保数据在组织内得到明确定义、适当控制和适当访问来实
现。由于遵循了这些原则,数据可以更好地与组织策略以及跨业务需求保持一致。数据处理程序需
要透明,以保护组织免受潜在的数据泄露事件的影响,同时允许战略性地使用数据。透明度有助于
揭示评估过程中如何处理敏感数据,以便内部或第三方审计师或任何其他数据利益相关者能够理解
与数据相关的程序。
此外,与数据相关的决策、流程和行动应是可审计的,这些决策、流程和行动应得到基于合规
性和运营审计要求的适当文档的支持。问责通常定义了数据的可访问性和数据操作员的可信性。为
了促进对数据的访问控制,一个组织的所有部门需要合作来增强数据所有权和问责制。如果所有部
门都对数据负责,那么在一个组织内,数据泄露就不那么令人担心了。
3.2.4.治理域
治理域描述了组织在进行数据治理活动时应关注的数据治理目标,主要包括五个组成部分,如
图2所示。在这五个组成部分中,数据质量管理、数据安全和隐私贯穿于所有治理域,保证了大数
据的有用性和有效性,以及大数据在使用过程中的适当保护和隐私保护。
(1)数据质量管理:大数据的使用会产生与动态数据和静态数据相关的数据质量问题,因为通常
不可避免地会生成和收集质量较差的数据,这可能会增加对组织运营和决策的负面影响。数据质量
管理旨在测量、改进和认证生产、测试和存档数据的质量和完整性。可以使用各种方法进行大数据
质量管理,以解决冲突的数据实例、处理不平衡的大数据集以及消除噪声等。
(2)数据安全、隐私和道德:在收集、传输、存储和利用大数据时,数据安全、隐私和其他道德
含义是首要考虑的问题。大数据通常从各种来源收集,并且通常包含敏感信息。例如,推断出的行
为数据,如工作地点、好友列表等,可能被归类为私有数据;
第17页共23页
在一些更敏感的人口统计数据分析过程中,用户名、电话号码和信用卡信息是非常典型的。最
近出台的《欧盟通用数据保护条例》(GDPR)是近20年来数据隐私保护条例中最重要的变化,它为
数据处理的组织提供了详细的指导方针。在这个重要的领域中,所有的数据处理机制都是基于
GDPR和其他政策、程序、规则和原则来设计的,以减轻风险和保护数据资产。
(3)集成和元数据管理:这个域位于治理域的底部,可以被认为是一个数据登录区,链接数据连
接器和治理域。在这个域中,经常集成多种方法和工具来帮助理解数据上下文和内容。一旦确定了
数据的上下文和内容,它们就被传递到上层进行存储。因此,大数据治理使用集成和元数据管理来
对数据的收集和控制施加管理规则。
(4)分布式数据存储管理:在传统方法中,高性能计算组件(如专用服务器)用于数据存储和数据
复制。由于大数据环境中通常会产生和收集大量的数据,这些高性能的专用服务器往往无法满足大
数据带来的性能要求。因此,该域旨在提供允许通过通常分布式架构(例如动态可伸缩存储管理
DSSM)来存储和传输大量数据的方法。
(5)分布式数据处理管理:随着社交媒体和基于传感器的网络应用等新兴应用的快速增长,需要
对各种数据进行持续处理。显然,传统的独立解决方案不再适用于这些有时间限制的实时流程。分
布式数据处理管理域则为大数据处理提供了一个高效的框架,允许以合理且通常可接受的时间线分
析大量数据。此类任务的典型平台包括Spark、MapReduce和Hadoop等。
3.2.5.应对新挑战
由于各种支持数字技术的格局发生了快速变化,大数据的定义也在不断发展。越来越多的大数
据模型被引入,例如数量、多样性、速度、真实性、有效性、价值、可变性、地点、词汇和模糊
性。大数据的这些新挑战通常要求提议的框架具有可扩展性以应对这些挑战。一般来说,新的挑战
通常可以分为三个方面,即数据挑战、流程挑战和管理挑战。尤其是数据挑战与数据本身的特性有
关;
流程挑战通常与一组大数据处理技术相关;
管理挑战涵盖所有隐私和安全问题。这三个组件相互关联,形成一个数据生命周期,如图6所
ZJSo
第18页共23页
◎□u
图6面临新挑战
4.网络安全中的大数据治理
大数据通常是通过不同的数据捕获设备从多个来源收集,如物联网和其他专业设备。其结果是
围绕数据安全和隐私的关键问题,因为此类设备的设计通常没有充分考虑数据安全。因此,随着大
数据应用的日益广泛,网络安全已成为填补此类安全空白的一个越来越重要和不可忽视的研究领
域。本节讨论上一节介绍的大数据治理框架的实施,以支持在该领域安全和合乎道德地使用大数
据。
网络安全是指保护计算机和网络基础设施、运行在基础设施上的操作系统、软件程序以及通过
基础设施存储或传输的所有数据免受数字攻击和任何其他滥用的做法,如“网络安全”一节所述。因
此,网络安全涉及数字信息处理的硬件和软件系统的范围非常广泛,其中网络安全是最常见的方
面。此外,网络入侵检测是实现网络安全最常用的手段。因此,在不失一般性的前提下,本文以网
络安全为例,讨论了所提出的大数据治理框架的实现,如图7所示。
第19页共23页
业务支撑平台(中间件平台)
处理层服务支撑网络管理信息处理信息安全
平台平台平台平台
网络层电信网广电网其他网
(RF1D网络)(传感器网络)
感知层(RFID标签
二维码
M2M终端导航定位传感器摄像头
和读写器标签
图7网络安全大数据治理框架
4.1.规划
网络安全数据治理框架的实施需要仔细规划,以满足组织中与数据相关的战略目标。在这种情
况下,系统需要通过实施大数据网络安全项目来实现,以实现项目和治理目标,这是通过评估系统
的当前环境和组织的关键绩效指标来确定的。如前所述,本文使用入侵检测系统作为运行实例来讨
论所提出的方法。基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部编版三年级下册语文期中培优卷A卷
- 2026年初中信息技术学业水平测试样卷及答案
- 2026边检专业真题含解析及答案
- 2026年高考地理全国一卷考试卷及答案
- 2026年保密考试简答题考试卷及答案
- 2026年安徽省宿州市重点学校小升初语文考试试题及答案
- 大班美术教案夏夜
- 二年级语文下册 第七单元 课文6 22 小毛虫教学设计(pdf) 新人教版
- 第 11课图文并茂教学设计初中信息技术南方版2024七年级下册第2册-南方版2024
- 地理标志产品质量要求祁门红茶
- 企业食堂安全培训课件
- 电力专业数据传输(EPDT)通信系统-总体技术规范
- 2024仁爱版初中英语单词表(七-九年级)中考复习必背
- 生化池清掏方案
- 劳动力、机械设备和材料投入计划措施
- 陶瓷装饰工(四级)理论考试复习题库(浓缩300题)
- 冠心病规范化诊断和治疗
- 2022届北京海淀高三语文一模评标说明课件
- 水利工程建设标准强制性条文工程地质勘察部分宣贯
- 燃气用户检修工
- 车辆信息登记表参考模板范本
评论
0/150
提交评论