版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章大数据安全与治理BigDataSecurityandGovernance
大数据安全概述9.1数据安全技术9.2数据治理9.3大数据安全与治理的未来发展9.49.1.1大数据安全的定义和重要性大到国家、政府、小到企业、社群,乃至每个人的日常生活,大数据都发挥重要的作用,具有很高的研究价值,大数据安全是人们公认的大数据关键问题之一。没有安全,谈何发展,数据安全是大数据发展的前提。大数据安全可分为两个方面来看待,一方面是保障大数据本身安全,即保障大数据产生、收集、存储、分析、使用和共享等整个生命周期的处理技术。另一方面是大数据用于安全,即利用大数据来提升系统安全效能。9.1大数据安全概述9.1.1大数据安全的定义和重要性9.1大数据安全概述从个体层面来看,大数据安全与个人隐私息息相关。在大数据时代,我们在享受信息畅通交流的同时,想避免第三方数据服务商对个人信息的挖掘,已然是不可能的了。根据调查,网民们对于注册提交前的“条款协议”,仅16.1%的网民仔细阅读,大体浏览一下的受访者和直接勾选/点同意的受访者比例相近,均占据四成以上。此外,以“几个密码通用于大多数账号”的网民占比达到50.8%。在信息泄露时,接近六成人选择仅修改泄露平台的密码。有报告显示:个人信息泄露维度占比中,姓名占比75%,其次是电话号码,泄露占比为66%,家庭住址占比22%。个人信息的泄露会通过地下市场流向灰色产业,比如电话号码会被利用进行电信诈骗、广告骚扰等。9.1.1大数据安全的定义和重要性从企业层面来看,信息安全面临多重挑战。在数字化业务时代,所有企业都在向数字化要红利,企业在获得更精准的市场洞察和更科学的决策的同时也会面对外部攻击、缺乏访问控制、非授权访问等问题所导致的数据安全危机。一旦数据被入侵或泄露将会使得企业的名誉扫地,不仅会使得客户流失还要承担法律责任,让企业在竞争处于劣势。2023年中国数据泄露防护市场规模为8.99亿元人民币,其中专业数据安全技术提供商占据主要地位,例如天空卫士、亿赛通、明朝万达等。对于数据要求严格的企业将会面对更高的风险,对于网络犯罪分子而言,任何一个会误导目标信息提取和检索的攻击都是有效攻击,因为这些攻击会对安全厂商大数据分析产生误导,导致分析偏离正确的检测方向。9.1大数据安全概述9.1.1大数据安全的定义和重要性9.1大数据安全概述从国家层面来看,国家安全面临多重威胁。其他国家可能利用大数据传播虚假信息、制造舆论恐慌。根据工信部公布的2023年全年打击治理“黑广播”“伪基站”情况,这期间各地无线电管理机构共查处“黑广播”违法犯罪案件586起,协助公安部门侦办“GOIP”电信诈骗案件6起。此外,其他国家还能通过网络攻击入侵国家关键信息基础设施窃取机密信息。随着电力、交通等基础设施愈发依赖大数据和网络技术,虽然在一定程度上减少了人力和运营的花费,但这些系统一旦遭到攻击或数据被篡改,可能导致国家运转瘫痪。9.1.2大数据安全面临的挑战大数据环境下,数据的所有者和使用者分离,用户丧失了对数据的绝对控制,数据的安全隐患也由此而生。在数据合法使用者收集用户的数据之时,攻击者也可以使用大数据技术来获取敏感信息。接下来具体介绍一些大数据安全所面临的挑战。1.数据访问控制随着数据量的急剧增长以及用户数量的不断增加,明确并精准地定义每个用户或用户组对不同类型数据的访问权限变得极为复杂,不花费大量的时间与精力去管理和规划可能会导致越权访问或非法访问进而对给企业带来了潜在的法律风险和名誉损失。确定访问权限的策略制定也是困难重重。要综合考虑数据的敏感性、业务需求、法规要求以及用户的工作职责等众多因素。此外,访问控制的管理难度随着大数据系统的动态变化而增大,员工的岗位变动、业务流程的调整等情况都需要及时调整数据访问的权限。9.1大数据安全概述9.1.2大数据安全面临的挑战2.数据完整性验证由于数据量极其庞大,对所有数据进行逐一的完整性检查是不现实的。传统的完整性验证方法在面对海量数据时效率低下,难以满足实时性和大规模处理的需求。例如,对于PB级甚至EB级的数据量,常规的哈希算法计算成本过高,可能会导致系统性能严重下降。大数据的来源多样且复杂,包括传感器、社交媒体、物联网设备等。这些不同来源的数据格式、质量参差不齐,增加了验证数据完整性的难度。对于动态更新的大数据,如何在数据不断变化的情况下持续保障其完整性也是一个难题。每次数据的更新、插入或删除操作都需要进行完整性验证,以确保新的数据符合既定的规则和约束,同时不会影响整体数据的完整性。大数据通常存储在分布式系统中,节点之间的通信延迟、故障和同步问题都可能影响完整性验证的准确性和效率。9.1大数据安全概述9.1.2大数据安全面临的挑战3.大数据技术被应用到攻击手段中高级持续性威胁(APT)是一种隐蔽性和持续性很强的网络攻击方式,黑客可以利用大数据来发动APT攻击,黑客可以通过大数据分析工具来挖掘系统漏洞,收集目标的网络架构、业务流程和行为模式等信息来针对性的开发恶意软件对系统漏洞进行精确打击,还可以在攻击过程中实时查看目标的安全反应措施变化,及时调整攻击策略。此外,黑客还能够使用大数据来构建一个庞大的僵尸网络,来形成一个分布式攻击网络。控制僵尸主机来同时向目标发起大量请求,进行拒绝服务(Dos)攻击。4.数据存储安全大数据本身体量庞大,这不仅意味着其本身包含了海量的数据,还意味着更复杂更敏感的数据也存储于此。大数据需要采用大规模的分布式存储系统来存储这些数据。数据将会被分散存储在多个节点和设备上增加了潜在攻击面。攻击者一旦找到系统中的薄弱环节,就有可能获取大量敏感信息。一个存储节点的漏洞可能被利用进而蔓延到整个存储网络,造成广泛的数据泄露。从逻辑上来看,数据的集中存储使得一次攻击将获得更多的数据,这对于不法分子而言是极具诱惑的目标。数据存储安全的威胁不单来自外部,存储设备本身的老化和故障也是不能忽视的,如果没有数据备份与恢复机制,数据丢失将在所难免。9.1大数据安全概述9.1.3大数据安全的基本原则机密性是大数据安全的首要原则,其核心是保护敏感信息不被未经授权的访问和披露。机密性原则强调数据在存储、传输和处理的各个环节,都要确保只有经过合法授权的人员能够获取和查看。完整性意味着数据在其整个生命周期内,从生成、存储、处理到传输的各个阶段,都要保持准确、完整且未被篡改。这不仅涵盖了数据内容本身的准确性和一致性,还包括数据的结构、关联和上下文信息的完整性。可用性原则确保大数据系统和数据在需要时能够正常访问和使用。风险评估指定期对大数据系统和业务流程进行风险评估,识别潜在的安全威胁和漏洞。而管理则对应着根据评估结果制定并实施相应的风险控制措施,将风险降低到可接受的水平。可追溯性指记录和跟踪数据的创建、修改、访问和传播的全过程。9.1大数据安全概述9.2.1访问控制与认证访问控制技术是是给出一套方法将所有的数据组织起来标识出来托管起来,
然后提供一个简单的唯一的接口,这个接口的一端是应用系统一端是权限引擎。以此来准许或限制用户的访问能力,控制对系统关键资源的访问,保证资源被合法、受控制的使用。访问控制通常包含了主体、客体与控制策略三要素。主体即发送访问数据请求的一方,客体对应这被访问的数据,而控制策略则是主客体操作之间的一系列规则,约束。访问控制可以分为如下四种类型:(1)自主访问控制(DiscretionaryAccessControl,DAC):数据或资源的所有者拥有很大的自主权来决定谁能够访问他们所拥有的数据或资源,以及授予什么样的访问权限。(2)强制访问控制(MandatoryAccessControl,MAC):系统会强制给所有主体和客体分配固定的安全级别,并严格依据这些安全级别来决定主体对客体的访问权限9.2数据安全技术9.2.1访问控制与认证(3)基于角色的访问控制(Role-BasedAccessControl,RBAC):由系统管理员根据组织的业务需求定义出不同的角色,并为每个角色分配相应的权限。然后,将用户分配到相应的角色中。一旦用户被分配到某个角色,该用户就自动获得了该角色所拥有的权限。(4)基于属性的访问控制(Attribute-BasedAccessControl,ABAC):根据主体属性、客体属性、环境属性和操作属性来确定访问决策。主体属性包括用户的身份、部门、安全级别等;客体属性包括资源所有者、敏感性级别、资源类型等;环境属性包括访问时间、访问设备、访问地点、系统负载等。9.2数据安全技术9.2.1访问控制与认证身份认证技术分为如下四种(1)静态口令认证:最常见和基本的认证方式。即我们常说的“密码”。(2)动态口令认证:服务器和用户端基于相同的算法或密钥,服务器每隔一段时间生成的一次性口令。将其显示或发送给用户,用户在规定的时间内输入该动态口令进行验证。例如短信验证码就是一种动态口令认证。(3)生物特征认证:利用人体的生理特征或行为来验证个人身份的技术,包括了指纹、面容、虹膜、声音等(4)数字证书认证:基于非对称加密算法的安全认证技术,数字证书是由权威的证书授权中心(CA)签发的用于标志通讯各方身份信息的一串数字或数据。数字证书的工作原理是公开钥匙认证,即利用一对相互匹配的密钥来进行加密、解密。9.2数据安全技术9.2.2数据完整性保护数据的完整性是指在网络信息不允许公开的环境下不能对其进行修改,任何伪造、破坏的行为都是不允许的。对于数据的完整性保护可以从技术和管理两个方面来进行,从管理方面来讲就是通过严格的访问控制策略,限制对数据的访问权限对数据的访问和操作进行审计记录,及时发现异常操作。访问控制在上一小节已经介绍,接下来介绍可以使用哪些技术来保护数据完整性。1.加密哈希函数根据输入的数据信息输出与该数据唯一对应的信息摘要,即哈希值。加密哈希函数之所以能够用于数据完整性保护取决于它如下四个性质:(1)抗碰撞性:对于两个不同的输入无法得到相同的输出这意味着如果数据遭到了破坏,那么使用加密哈希函数计算的结果必定和原结果不一致。9.2数据安全技术9.2.2数据完整性保护(2)隐藏性:也可称为单向性,是指对于计算出的输出结果,无法反推出输入数据。隐藏性使得从哈希值不可能反向推导出原始输入数据。(3)谜题友好性:除了通过使用加密哈希函数去计算哈希值,没有其他什么方法能让你仅仅通过输入的数据判断出它的哈希值是怎么样的。谜题友好性使得无法通过哈希值来伪造原始输入数据。(4)确定性:对于相同的输入数据,每次运行哈希函数都会生成相同的哈希值。哈希函数也称为散列函数,它并不是某个特定的函数,而是代表了一类具有类似功能的函数,例如SHA-1、SHA-2、MD5等。9.2数据安全技术9.2.2数据完整性保护2.数字签名数字签名基于公钥密码学原理工作,发送方使用特定的哈希算法(如SHA-256等)对需要签名的数据计算其哈希值。然后,发送方使用自己的私钥对该哈希值进行加密,生成的加密结果就是数字签名。数字签名的验证过程如下:发送方将自己的数字签名与数据一同发出,接收方收到后,使用与发送方相同的哈希算法对收到的数据计算哈希值。同时,接收方使用发送方的公钥对收到的数字签名进行解密,得到原始的哈希值。如果两个哈希值完全一致,那么就验证了数据的完整性和来源的真实性。数字签名的工作流程如图所示9.2数据安全技术9.2.2数据完整性保护3.消息认证码数字签名技术适用于开放的、信任程度不确定的环境,用于向广泛的未知接收方证明数据的来源和完整性。而消息认证码(MessageAuthenticationCode,MAC)则适用于在一个相对封闭、信任程度较高的环境中。消息认证码可以结合哈希函数与密钥来构建HMAC(Hash-basedMessageAuthenticationCode),例如结合了密钥与SHA-1哈希函数的消息认证码HmacSHA1。9.2数据安全技术9.2.2数据完整性保护MAC是基于对称加密算法生成的,通信双方共享一个对称密钥,发送方使用这个共享密钥和数据生成MAC值。接收方也使用相同的共享密钥和接收到的数据来验证MAC值。即使攻击者能够截获到传输的信息,只要他们没有这个密钥,就无法生成有效的MAC值,也无法对信息进行篡改而不被发现,也正是因此MAC保证了数据的完整性。消息认证码的工作流程如图所示。9.2数据安全技术9.2.2数据完整性保护云存储服务提供商通常会在多个物理位置和数据中心存储数据的副本。即使某个存储节点或数据中心出现故障,也可以从其他副本中恢复数据,确保数据的完整性不受单点故障的影响。不只是数据的冗余存储,云存储WORM存储技术和认证数据结构也可以来保护/验证数据完整性。(1)WORM存储技术WORM是“WriteOnceReadMany”(一次写入,多次读取)的缩写。WORM是严格实现数据完整性的有效手段。常见的WORM存储设备有磁带、光盘、磁盘阵列等,也可以通过软件在普通存储介质上实现WORM。对于数据完整性和不可篡改性有严格要求的情况,比如金融交易记录、医疗病历记录或档案管理等场合都可以使用WORM技术进行存储。随着云存储快速发展和法规遵从的日渐严格,越来越多的企业考虑把大量的归档数据外包给云服务提供商。在这种形势下,WORM存储技术在云存储数据完整性保护中将得到更大规模的应用。9.2数据安全技术9.2.2数据完整性保护(2)认证数据结构认证数据结构(AuthenticatedDataStructure,ADS)是一种用于保证数据完整性和可验证性的结构。ASD涉及三方:数据所有者、服务器、客户端/用户。ADS使得数据所有者将数据处理任务外包给不受信任的服务器的同时不会丢失客户端的数据完整性。具体的过程如下:数据所有者生成数据集与简短特征摘要的认证信息,之后将数据集副本连同认证信息发送到不受信任的服务器上,将特征摘要发给客户端。服务器响应客户端对数据集的访问请求,返回访问结果以及结果的简洁证明,客户端使用从数据所有者处得到的特征摘要、从服务器得到的访问结果以及简洁证明来验证访问结果的完整性。9.2数据安全技术9.2.3入侵检测与防御在当今的网络环境中,保护系统和数据的安全至关重要。防火墙作为网络安全的第一道防线,能够有效地阻止未经授权的访问和外部攻击,入侵检测系统(IntrusionDetectionSystem,IDS)则是网络安全的重要补充,它能够实时监测网络活动,识别潜在的入侵迹象,并及时发出警报。IDS与防火墙相互配合,形成了一个多层次的安全防御体系。防火墙主要通过设置访问控制规则来限制网络流量的进出,它可以根据源地址、目的地址、端口号等信息来决定是否允许数据包通过。。然而,防火墙无法检测到那些通过合法渠道进入网络的恶意行为,例如内部人员的误操作或恶意攻击。这时,IDS就发挥了重要作用。它可以对网络流量进行深度分析,检测到异常的活动模式和潜在的入侵行为。当IDS发现可疑活动时,它会立即向管理员发出警报,以便及时采取措施进行应对。9.2数据安全技术9.2.2数据完整性保护1.防火墙技术防火墙(Firewall)技术是通过有机结合各类用于安全管理与筛选的软件和硬件设备,帮助计算机网络于其内、外网之间构建一道相对隔绝的保护屏障,以保护用户资料与信息安全性的一种技术。从实现方式来看,防火墙又可以分为软件防火墙和硬件防火墙。软件防火墙是安装在操作系统上的软件程序,例如MicrosoftDefender防火墙。软件防火墙成本低,管理维护相对简单,多用于个人用户。与之相对的硬件防火墙则价格高昂,需要购买专门的硬件设备,但具有更高的性能。其示意图如图所示9.2数据安全技术9.2.3入侵检测与防御防火墙的功能包括以下几点:1)网络隔离防火墙可以将网络划分为不同的安全区域,如内网、外网、DMZ(隔离区)等,并设置不同的访问规则,实现不同安全级别的隔离。防火墙根据这些规则来禁止外部网络的数据包直接进入内部网络,限制内部网络中的某些主机访问外部网络的特定资源,防止内部数据泄露或受到恶意攻击。2)安全防护防火墙可以监测和过滤来自外部网络的可疑数据包,它可以根据预设的规则和特征库,检测病毒、蠕虫、木马等恶意软件的传播,并防止它们进入内部网络。3)地址转换防火墙可以进行网络地址转换(NAT),将内部网络的私有IP地址转换为公共IP地址,实现多个内部主机共享一个公共IP地址的功能,节省IP地址资源。9.2数据安全技术9.2.3入侵检测与防御4)日志记录防火墙的日志可以记录包括源IP地址、目的IP地址、源端口、目的端口、访问时间等访问信息,还可以记录数据包与防火墙规则的匹配情况,攻击行为、异常流量、系统错误等时间信息,提供有关网络活动的线索,帮助管理员发现安全漏洞和改进安全策略。5)流量监控防火墙可以生成流量统计报告,展示网络流量的分布情况、各个应用或用户的流量使用情况等。防火墙的类型分为以下三种:1)包过滤防火墙包过滤防火墙根据数据包的源地址、目的地址、端口号等信息来决定是否允许数据包通过。9.2数据安全技术9.2.3入侵检测与防御防火墙的类型分为以下三种:1)包过滤防火墙包过滤防火墙根据数据包的源地址、目的地址、端口号等信息来决定是否允许数据包通过。包过滤防火墙在计算机网络OSI模型中的网络层与传输层工作,它根据预先定义的规则对数据包进行过滤,这些规则基于数据包的源地址、目的地址、端口号等信息。2)状态检测防火墙状态检测防火墙是一种在网络层和传输层对数据包进行检测和过滤的防火墙技术,它不仅关注数据包的包头信息,还会跟踪数据包的连接状态,将合法的访问请求记录下来,对后续的数据包进行连接状态信息判断。3)应用层防火墙应用层防火墙是一种能够深入到应用层进行数据包检查和过滤的防火墙。它能够对应用程序的数据内容进行检查,包括数据包的负载部分并根据预设的规则和策略,对应用程序的访问进行控制和过滤。9.2数据安全技术9.2.3入侵检测与防御2.入侵检测系统“入侵”指一系列试图破坏信息资源机密性、完整性和可用性的行为,是对信息系统的非授权访问或未经许可在信息系统中进行操作。“检测”则是对系统的运行状态进行监视,发现各种攻击企图、攻击行为或攻击结果。概括地说,“入侵检测”(
IntrusionDetection)是通过对计算机网络或者计算机系统中的行为、安全日志或审计数据或其他网络上可以获得的信息进行操作,以便发现计算机或者网络系统中是否存在违反安全策略的行为或遭到攻击的迹象。入侵检测系统(IntrusionDetectionSystem,IDS)是实现入侵检测的工具,是一种对网络或系统活动进行监视,以发现可能的入侵行为的安全设备或软件应用程序。它通过收集和分析来自网络、主机或应用程序的信息,识别与已知攻击模式或异常行为模式相匹配的活动,并及时发出警报或采取相应的响应措施。9.2数据安全技术9.2.3入侵检测与防御入侵检测系统的通用模型如图所示9.2数据安全技术入侵检测系统由多个协同工作的组件构成:目标系统作为监控对象,提供各类运行数据和日志信息;配置信息则定义了系统的检测规则、响应策略等关键参数,为整个IDS提供运行基准。数据收集器会持续从目标系统获取安全相关数据,包括系统日志和网络流量等;检测器基于配置的规则和知识库中的特征库进行分析,识别异常行为并触发报警;知识库不仅存储攻击特征,还维护着正常行为模型等参考数据;控制器则根据配置的响应策略,对确认的威胁执行阻断或告警等处置措施。这些组件通过配置信息实现统一调度,共同构建了一个动态的安全防护体系。9.2.3入侵检测与防御入侵检测系统工作流程如下:
1)数据采集IDS首先需要采集网络流量、系统日志、应用程序日志等相关数据。这些数据来源可以包括网络设备(如路由器、交换机)、主机系统、应用服务器等。2)数据分析采集到的数据将被送入IDS的分析引擎进行分析。分析引擎会使用各种技术和算法来检测异常活动和潜在的入侵迹象。常见的方法有模式匹配、统计分析。3)安全响应当IDS检测到异常活动或潜在的入侵迹象时,它会生成警报。警报通常会包含有关入侵的详细信息,如入侵的类型、来源、时间等。根据警报的严重程度和预设的响应策略,IDS可以采取不同的响应措施。9.2数据安全技术9.2.3入侵检测与防御入侵检测系统的类型:
1)基于主机的入侵检测系统(Host-basedIDS,HIDS)HIDS安装在单个主机或服务器上,通过监测主机系统活动来检测入侵行为。它会收集主机上的各种信息,包括系统日志、进程运行情况、文件系统变更、注册表修改等。HIDS还会关注进程的运行情况,检测是否有未知的进程启动或可疑的进程行为。2)基于网络的入侵检测系统(Network-basedIDS,NIDS)通常部署在网络的关键位置,如网关、路由器或交换机附近,监听网络流量。它会捕获网络数据包,并对数据包的包头信息进行深度分析。通过使用预设的规则、特征库或异常检测算法,NIDS能够识别出潜在的入侵行为或异常活动并通知管理员以便及时采取应对措施。3)混合型入侵检测系统混合型入侵检测系统是一种结合了基于主机的入侵检测系统(HIDS)和基于网络的入侵检测系统(NIDS)优点的入侵检测系统。它旨在提供更全面、更准确的入侵检测能力9.2数据安全技术9.2.3入侵检测与防御入侵检测系统的主要方法:
1)误用检测(MisuseDetection)误用检测也被称为滥用检测或者基于特征的检测。误用检测是基于已知的入侵模式或特征来检测入侵行为。它通过将监测到的数据与预先定义的特征库进行匹配,如果匹配成功,则认为发生了入侵事件。由于是基于已知的入侵模式来检测入侵行为,所以对于常见的攻击类型具有较高的检测率,但对于未知的或新型的入侵行为检测效果较差,需要不断更新特征库以应对新的威胁。误用检测的特点是误报低,漏报高。2)异常检测(AnomalyDetection)异常检测通过建立正常行为模型,然后监测系统或网络的活动是否偏离了这个模型。如果发现异常活动,则认为可能存在入侵行为。可以把它看作是与特征检测相反的一种检测技术,异常检测特征库中只存放了合法访问的行为。这意味着它能够检测到未知的入侵行为,对新型攻击具有较好的检测能力。异常检测的特点在于漏报低,误报高。9.2数据安全技术9.2.4数据备份与恢复9.2数据安全技术1.数据备份方式(1)按备份内容分类1)全量备份全量备份是对整个数据集合进行完整的备份,包括所有文件、数据库记录等。2)增量备份增量备份只备份自上一次备份(无论是全量备份还是增量备份)以来更改的数据。它通过记录数据的变化情况,只将新增或修改的数据进行备份。3)差异备份差异备份备份自上一次全量备份以来更改的数据。与增量备份不同的是,差异备份只记录与上一次全量备份的差异部分,而不是每次备份之间的差异。9.2.4数据备份与恢复9.2数据安全技术(2)按存储位置分类1)本地备份将数据备份到本地的存储设备上,如外部硬盘、磁带机、光盘等,速度快,成本低,适用于对数据恢复时间要求较高的场景。2)远程备份将数据备份到远程的服务器或云存储中。远程备份可以提供更高的安全性,因为数据存储在异地,不受本地灾害的影响。3)混合备份结合本地备份和远程备份的优点,采用混合备份策略。例如,可以定期进行全量本地备份,同时将增量备份或差异备份发送到远程存储。9.2.4数据备份与恢复9.2数据安全技术(3)按备份频率分类1)定期备份
按照预定的时间间隔进行备份,如每天、每周、每月等。定期备份适用于数据变化相对较小的系统,可以保证在一定时间范围内的数据安全性。2)实时备份实时监控数据的变化,并在数据发生更改时立即进行备份。实时备份可以最大限度地减少数据丢失的风险,但对系统资源的要求较高。9.2.4数据备份与恢复9.2数据安全技术2.数据备份与恢复的技术和工具(1)数据备份与恢复技术磁带备份是传统且经济实惠的选择,其存储容量大,适合长期离线保存大量数据。光盘备份,如DVD和蓝光光盘,具有耐久性优势,适合存储相对较小量且不常变动的数据。云备份是近年来兴起的技术,它将数据存储在云服务提供商的服务器上。云备份具有良好的可扩展性,无需担心本地硬件的管理和维护。快照技术是一种快速创建数据在特定时间点瞬时副本的技术。快照并非完整复制所有数据,而是通过记录数据的变化来实现,因此初始创建时占用的存储空间相对较小。9.2.4数据备份与恢复9.2数据安全技术基于备份集的恢复是常见且基础的数据恢复技术。通过预先创建的完整备份、增量备份或差异备份,能够按照特定的顺序和规则将数据还原到指定的时间点。这种方法要求定期、有序地进行备份操作,并确保备份数据的完整性和可访问性。裸机恢复技术则更为强大和全面。它不仅能够恢复数据,还可以将整个操作系统、应用程序以及相关配置完整地恢复到新的硬件设备或虚拟机上。这对于遭遇严重系统故障、硬件损坏或灾难事件时,能够快速重建整个运行环境,极大地减少业务中断的时间和损失。数据归档与检索技术在长期数据管理中发挥着重要作用。对于那些不常访问但又需要保留的历史数据,进行归档存储以节省主存储资源。当需要时,能够通过高效的检索机制迅速找到并恢复所需数据。这种技术在满足合规要求、节省成本的同时,确保了数据的可追溯性和可用性。9.2.4数据备份与恢复9.2数据安全技术(2)数据备份与恢复的工具操作系统自带的备份工具比如Windows中的WindowsServerBackup和MacOS中的TimeMachine,它们提供了基本的备份和恢复功能,对于小型企业或个人用户的简单需求而言,操作相对简便。然而,功能相对较为基础,可能无法满足大型企业或复杂业务环境的全面要求。商业备份软件,例如VeritasNetBackup、Commvault和IBMSpectrumProtect等。这些工具功能强大且全面,它们通常支持多种备份技术,包括磁带、磁盘、云存储等。能够对大规模的企业级数据进行高效管理,具备集中化的监控和管理功能,可定制化程度高,能满足复杂的备份需求。云服务提供商的备份服务,像AWSBackup、AzureBackup和阿里云备份等,与云平台紧密集成。借助云的优势,实现了弹性扩展、异地存储和便捷的管理。适合在云环境中运行的业务,能有效降低本地硬件管理的复杂性。对于特定的数据库系统,如MySQL的mysqldump、Oracle的RMAN等,有专门针对数据库的备份工具。这些工具能确保数据库的结构、数据和事务日志等得到准确备份和恢复,保障数据库的完整性和一致性。9.3.1数据治理的定义与目标9.3数据治理1.数据治理的定义国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的框架来执行,其描述了谁(Who)为了什么(Why)以什么样的方式(How)为谁(Whom)做出了什么行为(What)。工业界IBM数据治理委员们会给数据治理的定义如下:数据治理是一组流程,用来改变组织行为,利用和保护企业数据,将其作为一种战略资产。国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。综合来看,数据治理是指建立一套策略、流程、组织架构和技术手段,以确保数据的质量、可用性、完整性、安全性和合规性,从而实现数据的价值最大化。9.3.1数据治理的定义与目标9.3数据治理2.数据治理的目标(1)确保数据质量准确的数据能够为决策提供可靠依据,避免因错误信息导致的错误决策。高质量的数据具备完整性,不存在关键信息的缺失,从而能全面反映业务状况。一致性则保证了数据在不同系统和流程中的统一,避免因数据冲突造成的混乱。通过建立数据质量标准、进行数据清洗和验证等治理手段,能够减少数据错误,提升数据的可信度和可用性,为企业的高效运营和科学决策奠定坚实基础。(2)保障数据安全数据治理致力于通过建立严格的访问控制机制,确保只有授权人员能够访问和操作特定数据。同时,采用加密技术对数据进行加密处理,使数据在传输和存储过程中即使被获取也难以解读。此外,还需制定数据备份和恢复策略,以应对可能的灾难或系统故障,防止数据丢失。通过这些措施,全面保障数据的机密性、完整性和可用性,维护企业和用户的利益。(3)促进数据共享与协作在当今数字化的业务环境中,不同部门和业务单元常常拥有各自独立的数据资源。通过有效的数据治理,能够打破数据孤岛,建立统一的数据标准和规范,使各部门的数据易于整合和理解。这有利于跨部门之间高效地共享数据,避免重复收集和存储相同的数据,节省资源。(4)支持业务决策企业需要基于准确、及时和全面的数据来做出明智的决策。通过有效的数据治理,能够整合来自不同部门和系统的相关数据,消除数据的不一致性和歧义。良好的数据治理为业务决策提供坚实的数据基础,提升决策的科学性和成功率。9.3.2数据治理框架9.3数据治理1.DGI数据治理框架简介本小节将以DGI数据治理框架为例展开介绍,其示例图如图所示9.3.2数据治理框架9.3数据治理对于本图,可以拆分出三套逻辑来看:第一套逻辑是4W1H,首先明确参与数据治理的人员与组织机构(Who),接着确定项目的价值(Why)以明确目标。然后明确治理产出,即具体做了什么(What)。通过流程和工作方案(How)来实施治理工作。最终确定受益者(Whom),明确治理成果为谁服务。整个框架形成了一个完整且相互关联的逻辑体系,全面涵盖了数据治理工作的各个关键方面。9.3.2数据治理框架9.3数据治理第二套逻辑是该框架的工作流程,从⑩走向①的过程。从图上可以看出,⑩(Participants,参与者)与⑨(DGWorkProgram,数据治理工作方案)通过⑧(Processes,Tools,Communications,流程、工具、沟通
)得到了一系列的项目产出,其中有⑦(Policy&Rules;Guidance&Guardrails,政策与规则;指导与保障)、⑥(DecisionRights;Data-RelatedDecisions,决策权;与数据相关的决策)、⑤(Accountabilities;OversightModels;Metrics,责任;监督模型;指标
)、④(Controls;Checkpoints&Notifications,控制;检查点与通知
)、③(DataProducts;Catalogs;Definitions&Metadata,数据产品;目录;定义与元数据)。为②(Beneficiaries:Products,Services,Processes,Capabilities,Assets,受益者,产品、服务、流程、能力、资产)实现了①(Mission&Value,使命&价值)。第三套逻辑是4W1H与十个组件之间的映射,Who(数据治理的人员与组织机构)对应⑩(参与者);Why(项目的价值)对应①(使命&价值);What(做出了什么成果)对应③(数据产品;目录;定义与元数据)④(控制;检查点与通知
)⑤(责任;监督模型;指标)⑥(决策权;与数据相关的决策)⑦(政策与规则;指导与保障);How(如何做到)对应⑧(流程、工具、沟通)⑨(数据治理工作方案);Whom(最终受益者)对应②(受益者,产品、服务、流程、能力、资产)。9.3.2数据治理框架9.3数据治理2.DGI数据治理框架组件(1)使命与价值(Mission&Value)“使命与价值”是数据治理的方向核心,旨在通过赋能业务驱动组织价值(如提升产品竞争力、降本控险),并非直接创造经济效益。需结合组织现状、战略与文化锚定使命定位,明确自身能力边界与期望,构建可落地的价值陈述以推进目标。(2)
受益人(Beneficiaries)“受益人”明确数据治理的价值承载主体,涵盖产品、服务、流程、能力与资产五大维度。治理成效通过这些主体的价值跃迁具象化呈现,如产品质量迭代、服务效能提升、组织能力进阶等。(3)数据产品、目录、定义与元数据该组件是数据治理的基石架构:数据产品为治理后的即用型成果,数据目录实现数据资源可视化索引,数据定义消除语义歧义,元数据记录数据核心属性(来源、格式等)。通过标准化数据的生产与描述,奠定治理运行基础。(4)控制、检查点与通知“控制、检查点与通知”构建治理过程管控机制,在流程中设阶段性核验节点,校验任务进展与合规性。当触发预设条件(如偏差阈值、里程碑达成)时,自动触发通知,实现动态纠偏以保障项目风险可控。9.3.2数据治理框架9.3数据治理2.DGI数据治理框架组件(5)责任、监督模型、指标该组件搭建监测评估体系:监督模型定义治理的监测维度与逻辑,指标体系量化数据质量、治理效能等核心维度。二者协同实现治理状态全景诊断,为优化策略提供数据支撑。(6)决策权(DecisionRights)“决策权”构建数据治理权责体系,核心解决“谁有权决策”与“决策哪些数据事务”。明确不同角色/组织的决策层级与范围,界定需决策的具体数据事务类型,实现“权责匹配”。(7)政策与规则、指导方针该组件是治理的制度规范:政策与规则界定约束边界(禁止性、强制性要求),指导方针提供方法论与操作指引(规范性、建议性要求)。二者既划治理红线,又明实践路径,保障治理规范一致。(8)流程、工具、沟通“流程、工具、沟通”搭建实施赋能体系:流程定义治理阶段、任务衔接逻辑,工具提供数据采集、加工的技术载体,沟通保障跨部门信息协同。三者整合支撑治理工作高效落地。(9)数据治理工作方案(DGWorkProgram)该组件是实施规划框架,明确治理活动矩阵(如数据质量提升、主数据管理),定义工作流生命周期(启动、执行、收尾),统筹聚焦范围、目标、指标与资源,提供可落地的行动路线图。(10)
参与者(Participants)“参与者”构建角色协同体系:区分战略决策层(“BigG”)、执行运营层(“littleg”)、统筹中枢(DGO)与实操层(数据管家等)。通过角色权责定义与协作机制设计,实现“决策-统筹-执行”层级联动。9.3.3数据质量管理9.3数据治理1.数据质量评估数据质量评估包括确定评估指标、选择数据采样方法、运用评估工具与技术以及分析评估结果。数据质量评估指标的选择直接影响到对数据质量的准确判断。合适的指标能够全面、客观地反映数据的质量状况,帮助组织发现潜在的问题,并为改进数据质量提供明确的方向。数据质量评估的指标通常包括准确性、完整性、一致性、时效性、可靠性、可用性。在确定评估指标时,需要根据具体的业务需求和数据特点进行选择,确保指标能够全面、准确地反映数据质量的各个方面。数据采样的方法比较常见的有随机采样、分层采样、系统采样三种。随机采样从数据集中随机选择样本,每个样本被选中的概率是相等的。分层采样是一种将数据集按照某个特征进行分层,然后在每层中进行独立采样的方法。系统采样是一种按照一定间隔从数据集中抽取样本的方法,能够较好地代表总体特征。采集好了数据后就可以借助相关工具与技术来进行数据治理评估了,数据profiling工具用于分析数据的概况、模式和分布,帮助发现数据中的异常、缺失值和重复值等问题。数据清洗工具则可以处理数据中的错误和不一致性,通过过滤、修复和标准化等操作提高数据质量。9.3.3数据质量管理9.3数据治理数据分析技术,如数据可视化和数据挖掘,可以直观地展示数据质量问题,发现潜在模式和关联,从而揭示问题的根源。此外,机器学习和人工智能等新兴技术也逐渐应用于数据质量评估,能够自动检测和纠正数据质量问题,提高评估的准确性和效率。这些工具与技术相互配合,从不同角度对数据质量进行评估,为提升数据质量提供了有力支持。数据质量评估结果分析是一个多维度的过程,涵盖问题识别与分类,即详细审查结果以找出问题并进行合理归类;严重程度评估,通过考量对业务、决策、合规等的影响程度来确定;影响范围分析,评估问题在组织内外部涉及的业务领域、系统、用户等;趋势分析,观察多次评估中问题的发展走向及原因;改进措施制定,依据问题状况明确改进目标、责任人、时间与资源安排,同时制定预防手段;沟通与报告,以清晰简洁的方式向相关利益者呈现评估结果、问题概述、严重程度、影响范围等,并阐释改进措施的必要性和预期成效,从而推动数据质量的优化。9.3.3数据质量管理9.3数据治理2.数据质量改进高质量的数据对于做出明智决策、优化业务流程和提升竞争力至关重要。改进数据质量是一项复杂但必要的任务,需要综合运用多种方法和技术,其中包含了数据清洗和修复、数据验证和监控、数据溯源与追踪等方法。数据清洗和修复是改进数据质量的基础步骤。在进行修复前要先对数据进行全面的审查和分析,确定存在的问题类型和程度。对于错误的数据,可以通过手动更正、基于规则的自动更正或使用机器学习算法进行预测和修复。对于缺失的数据,可以根据数据的特点和业务逻辑,采用均值填充、众数填充、回归预测或从其他数据源获取补充等方法。重复的数据则需要进行识别和删除,以确保数据的唯一性。同时,在清洗和修复过程中,要注意保留数据的原始特征和重要信息,避免过度处理导致数据失真。数据验证和监控是确保数据质量持续稳定的关键环节。在数据清洗和修复完成后,需要建立有效的验证机制,以确保数据符合预期的质量标准。通过编写数据验证脚本或使用专门的验证工具,对新录入或更新的数据进行实时或定期的检查。例如,检查身份证号码是否符合规范、日期是否在合理范围内、数值是否满足特定的约束条件等。对于不符合规则的数据,及时发出预警并通知相关人员进行处理。同时,要持续监控数据质量的变化趋势,通过建立数据质量仪表盘和报告,直观地展示数据质量的关键指标和趋势,帮助决策者了解数据质量的整体状况。一旦发现数据质量出现下降的趋势,能够迅速采取措施进行干预和改进。9.3.3数据质量管理9.3数据治理数据溯源与追踪则有助于深入了解数据的产生和演变过程,从而更好地发现和解决数据质量问题。通过记录数据的来源、流经的各个环节以及在每个环节的处理方式和责任人,可以清晰地追溯数据的历史轨迹。当数据质量出现问题时,能够快速定位到问题产生的源头,为解决问题提供有力的线索。数据整合和融合也是提高数据质量的有效途径。当存在多个数据源时,需要对这些数据进行整合和融合,消除数据之间的差异和冲突。通过数据匹配、关联和合并等技术,将来自不同系统的数据整合为一个完整、准确的数据集。总之,改进数据质量是一个综合性的、持续的过程,需要综合运用数据清洗和修复、数据验证和监控、数据溯源与追踪等多种方法才能确保数据的高质量,为组织的发展提供有力的支持。9.4.1新兴技术对大数据安全的影响9.4大数据安全与治理的未来发展1.人工智能和机器学习人工智能和机器学习能够通过对海量数据的分析,实现更精准的威胁检测和风险评估。借助深度学习算法,系统可以自动识别出异常的网络流量模式、用户行为模式以及潜在的恶意软件活动,大大提高了安全监测的效率和准确性。此外,机器学习还可以用于预测未来可能出现的安全威胁,使企业能够提前采取防范措施,降低遭受攻击的风险。通过不断训练和优化模型,其检测能力能够持续提升,适应不断变化的威胁环境。2.区块链技术区块链技术为大数据安全带来了全新的保障。其去中心化和不可篡改的特性,为数据的完整性和真实性提供了可靠的支持。在大数据存储方面,区块链可以确保数据在多个节点上的一致性和准确性,防止数据被恶意篡改或删除。区块链的加密机制使得数据在传输和存储过程中的保密性得到极大增强,只有拥有授权密钥的人员才能访问和读取数据,有效保护了敏感信息。3.云计算云计算提供了强大的计算和存储资源,让企业能够更高效地处理和分析海量数据,同时还降低了硬件成本和维护费用。在安全方面,云服务提供商通常具备专业的安全团队和先进的安全技术,能够提供更强大的安全防护能力,如防火墙、入侵检测系统等。此外,云计算的弹性扩展特性使得企业能够根据业务需求灵活调整安全资源,快速应对突发的安全事件。云平台的集中化管理模式也有助于统一实施安全策略,提高安全管理的效率和一致性。4.量子计算量子计算的强大计算能力有可能打破现有的加密算法,从而对传统的数据加密方式构成挑战,也正是如此,量子计算将会推动新的量子加密技术的发展。量子加密基于量子力学原理,能够实现无条件安全的通信,为大数据传输提供了更高的保密性。量子计算的发展促使研究人员不断探索新的抗量子攻击的加密算法和安全协议,为未来大数据安全提供了新的解决方案。9.4.2大数据安全与治理的未来趋势
9.4大数据安全与治理的未来发展1.更加注重数据隐私保护随着人们对个人权利和数据主权的认知不断深化,数据隐私保护将成为大数据安全与治理的核心焦点。各国和地区纷纷出台严格的数据隐私法规,如欧盟的《通用数据保护条例》(GDPR)和中国的《个人信息保护法》,对数据的收集、存储、使用和共享提出了明确且严格的要求。数据主体的权利,如知情权、访问权、更正权和删除权等,将得到更充分的保障,企业需要建立有效的机制来响应和处理这些请求。2.持续的合规要求合规性在大数据安全与治理领域的重要性将持续上升。随着技术的发展和监管环境的变化,合规要求也将不断演进和更新。企业需要持续关注并适应这些变化,建立健全的合规管理体系。这包括定期进行合规评估和审计,确保数据处理活动符合最新的法规要求;加强内部培训和教育,提高员工的合规意识;设立专门的合规团队或岗位,负责监督和指导合规工作的开展。企业还需积极参与行业的合规交流和合作,及时了解最新的合规动态和最佳实践,不断优化自身的合规策略和措施。3.发展自适应安全体系网络环境充满不确定性和动态变化,传统的静态安全防御体系已难以应对。因此,发展自适应的大数据安全体系将成为必然趋势。这种体系能够实时感知网络威胁和数据环境的变化,自动调整安全策略和防护措施。通过采用基于风险的访问控制、动态加密和实时监测技术,实现对数据的全方位、动态保护。自适应安全体系还能够快速响应安全事件,自动触发应急处理机制,将损失降到最低
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI职场技能培训助力个人职业发展
- 2025年工业元宇宙数据库备份策略设计
- 2025年工业循环经济金融支持政策
- 新生儿护理与保健
- 城市轨道交通运营管理电子教案7-4 突发事件及应急处置-安全门、车门
- 学生到校情况跟踪记录表
- 严重违反底线项目风险要素评审表
- 疝气手术后预防血栓形成的措施
- 疝气手术后预防腹股沟水肿的方法
- 老年人膝关节置换术后的疼痛管理
- 雨课堂学堂在线学堂云《自然辩证法概论( 武汉科技大)》单元测试考核答案
- 市场营销学(山东大学)智慧树知到期末考试答案章节答案2024年山东大学(威海)
- 川渝地区-建筑防烟排烟技术指南
- pwm控制的单相逆变电源系统设计LC滤波电路
- 锦州新兴橡胶制品有限公司清洁生产审核评估与验收报告
- 2022年10月上海申康医疗卫生建设工程公共服务中心招考3名工作人员2笔试参考题库含答案解析
- GB/T 7631.12-2014润滑剂、工业用油和有关产品(L类)的分类第12部分:Q组(有机热载体)
- 硅片加工硅片清洗课件
- 挡墙人工挖孔桩安全专项施工方案专家论证
- 二年级上册心理健康课件-我的情绪我做主 全国通用(共19张PPT)
- 完整word版,“吕氏八字命理学”高级理论
评论
0/150
提交评论