版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据存储与处理安全3.1问题导入
现代社会,每个人的收入都是保密的,工资数据也就成为隐私数据,即使同一家公司的同一个岗位,员工的工资也不尽相同,员工入职时需要签署工资保密协议,不得泄露自己的工资数额。但是,许多员工仍然很想知道自己所拿到的工资在公司处于怎样一个层次。一个平均工资计算问题描述如表所示。3.1问题导入解决这个问题,和数据安全处理技术有关。
为保护他们五个人的工资隐私,需要在保护输入数据私密性的前提下,进行平均工资计算,使得每个人在不知道别人工资的情况下,又能客观地计算出大家的平均工资。
此外,数据存储安全、数据备份与恢复技术也是保护数据安全的重要措施。
本章主要介绍数据存储安全相关知识、数据备份与恢复技术、数据安全处理技术以及分布式数据存储与处理安全等。3.2数据存储安全
数据存储安全是保障存储数据的保密性、完整性和可用性,是数据安全的重要组成部分。数据存储过程中的安全性,主要通过数据加密、访问控制和身份认证等方法来实现。
数据加密是保护存储数据机密性的有效手段之一,加密数据在存储期间即使被黑客或恶意用户窃取,也无法轻松获得数据的具体内容,可以确保数据保密性,使得非法用户(假冒用户)“看不懂”数据。
访问控制与身份认证也是保障存储数据机密性的重要手段,通过限制用户对数据的访问权限,防止数据泄露和非法访问。身份认证是访问控制的基础,通过确认用户身份,保证访问权限的合法性和准确性。3.2数据存储安全3.2.1数据存储安全的内涵1.存储安全的内涵
数据存储安全是指数据库在系统运行之外的可读性。数据存储安全涉及计算机网络通信的保密、安全及软件保护等问题。存储网络行业协会(SNIA)对数据存储安全的定义是:数据存储安全是指应用物理、技术和管理控制来保护存储系统和基础设施以及存储在其中的数据。存储安全专注于保护数据及其存储基础设施,防止未经授权的泄露、修改或破坏,同时确保授权用户的可用性。
数据存储安全的目标是保护机密的数据,确保数据的完整性,防止数据被破坏或丢失。3.2数据存储安全针对数据存储过程中面临的未经授权访问数据、修改或破坏数据等安全问题,可通过高效的加密算法对数据进行加密,以保障数据的安全性;通过密钥管理服务,实现密钥全生命周期安全管理;通过存储复制、数据冗余和硬盘保护等多种策略保障数据安全。数据存储安全和数据安全密切相关,数据安全主要包括防止将私人信息泄露给未经授权的人,还包括保护数据免受其他类型攻击的影响;而数据存储安全是数据安全的前提和基础,没有数据存储安全,就没有数据安全。3.2数据存储安全2.数据存储安全的重要性(1)数据量的迅猛增长使得数据存储安全变得更重要。在大数据时代,数据量呈现爆炸式的增长,那么存储的数据量也必然快速增长,就需要不断添加新的存储设备以满足业务需求。关键业务数据是企业生存的命脉和宝贵的资源,数据安全性问题逐渐突出,数据存储安全的威胁不断增大,存储数据的安全性更难以保护。(2)网络攻击威胁增大使得数据存储安全威胁更严峻。随着数据挖掘技术的发展,数据中隐藏的巨大价值逐渐被发现,使得网络攻击频发,对数据存储安全的威胁日益增大,造成的数据泄露后果更加严重,数据泄露恢复成本高昂。(3)无边界网络使得数据存储安全更重要。云计算和物联网等3.2数据存储安全新兴技术的发展,企业的数据分布比以往更多、更广泛,企业网络不再具有组织可以采用防火墙定义和保护的硬性优势。相反,他们必须更加深入地依靠深度防御,包括存储安全来保护他们的信息,从而使得存储的数据面临更加严峻的安全问题。
(4)存储的数据缺乏加密使得数据安全问题突出。数据加密是保护数据存储安全的有效手段,使得非法用户(假冒用户)“看不懂”数据,但对加密数据的处理会增加系统的复杂度,因此存储的许多数据都以非加密的状态存放,对数据存储安全造成了极大的安全隐患。
(5)云存储安全的威胁日益严重。云存储给人们提供了一种全新的数据存储模式,但当用户将数据存储在云端时,数据已经超出3.2数据存储安全了用户的控制范围,给数据的安全性带来很大的隐患。同时,数据在云服务器上传、下载的过程中,可能会遭受非法窃取或篡改,使得用户的重要敏感数据面临泄露的风险。
(6)不完整的数据销毁使得数据安全问题严重。从硬盘或其他存储介质中删除数据时,可能会留下导致未经授权的人员恢复该信息的痕迹,从而引发数据的泄露或被非法使用。因此,要确保从存储中删除的任何数据都被覆盖,无法再被恢复。
(7)物理安全对存储安全的影响巨大。物理安全是存储设备周边设施的安全问题,包括计算机房、电力、信息网络、自然灾害防护、内部人员问题等,物理安全是数据存储安全的最基本保障,是整个存储安全不可缺少和忽视的组成部分。3.2数据存储安全3.2.2数据存储安全的措施1.访问控制
访问控制是保障数据存储安全的基础,通过制定详细的访问控制策略,为不同的用户设定相应的角色、分配不同的权限,为不同类型的数据指定适当的安全级别,防止未授权的用户对存储数据的非法访问、使用和修改。2.数据加密
数据加密是保护数据存储安全的有效方法,是数据保护在技术上最重要的防线。通过数据库存储加密等安全方法实现了数据库数据存储保密性和完整性要求,使得数据库以密文方式存储并在密态方式下工作,确保数据安全。3.2数据存储安全3.硬盘安全加密
对存储敏感数据的磁盘加密,保障重要数据的安全性。经过安全加密的硬盘,硬盘维修商根本无法查看,绝对保证了内部数据的安全性。硬盘发生故障更换新硬盘时,自动智能恢复受损坏的数据,有效防止企业内部数据因硬盘损坏、操作错误而造成的数据丢失。4.数据丢失预防
仅靠加密不足以提供全面的数据安全,还需要部署数据丢失防护解决方案,以帮助查找和阻止正在进行的任何攻击。包括磁盘冗余阵列技术在内的冗余存储不仅有助于提高可用性和性能,在某些情况下还能够帮助缓解安全事件。3.2数据存储安全5.强大的网络安全性存储系统并不存在于真空中,还必须被强大的网络安全系统所包围,如防火墙、反恶意软件防护、安全网关、入侵检测系统,以及高级分析和基于机器学习的安全解决方案,这些措施可以防止大多数网络攻击者获得对存储设备的访问权限。6.强大的端点安全性
确保数据使用人员个人终端设备的安全性,也是保障数据存储安全的重要环节。确保他们在个人电脑、智能手机和其他访问存储数据的设备上拥有适当的安全措施,这些端点可能会成为组织网络攻击的薄弱环节。3.2数据存储安全7.双机容错双机容错的目的是保证系统数据和服务的在线性,当某一系统发生故障时,仍然能够正常的向网络系统提供数据和服务,使得系统不至于停顿,双机容错的目的在于保证数据不丢失和系统不停机。8.磁盘阵列
磁盘阵列是指把多个类型、容量、接口甚至品牌一致的专用磁盘或普通硬盘连成一个阵列,使其以更快的速度、更准确、安全的方式读写磁盘数据,达到数据读取速度和安全性的一种手段。3.2数据存储安全9.数据迁移
由在线存储设备和离线存储设备共同构成一个协调工作的存储系统,该系统在在线存储和离线存储设备间动态的管理数据,使得访问频率高的数据存放于性能较高的在线存储设备中,而访问频率低的数据存放于较为廉价的离线存储设备中,进一步保证数据的安全性。10.备份和恢复一些恶意软件或勒索软件攻击如果完全地破坏了网络、破坏了数据,唯一的恢复方法是从备份恢复。备份管理包括备份的可计划性,自动化操作,历史记录的保存等。3.3数据备份与恢复3.3.1数据备份技术
数据备份是指为了防止系统出现操作失误或系统故障导致存储的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质中,以防止原始数据丢失或损坏。1.数据备份的作用(1)应对数据丢失风险硬件故障、自然灾害、人为错误、病毒攻击等原因都可能导致数据丢失。如果没有备份,丢失的数据可能无法恢复,对个人和企业造成严重影响。3.3数据备份与恢复(2)防止数据文件损坏数据文件可能会因为软件错误、系统崩溃、电源问题等被损坏。如果及时备份数据,可以避免数据损坏导致的信息丢失。(3)确保数据安全备份数据有助于保护数据的安全性。当数据受到恶意攻击或遭受勒索软件威胁时,可以恢复到之前的备份版本,保障数据的完整性。(4)适合长期数据保存备份数据还有利于长期数据保存。某些数据具有法律或合规要求,需要在一定时间范围内保存,备份可以确保数据的可访问性和完整性。3.3数据备份与恢复2.数据的备份方法(1)完整备份
完整备份是将整个系统或磁盘的所有数据备份到另一个设备中,它提供了最全面的数据恢复能力。完整备份是可靠的备份方法,因为它可保证备份数据完整性和可恢复性。但是完整备份需要大量时间和存储空间,适用于有限可用存储空间和定期备份的情况。(2)增量备份
增量备份是只备份在上一次完全备份之后被修改或添加的文件和数据,比完整备份占用更少的存储空间和时间,但在恢复过程中需先还原完整备份再应用增量备份。增量备份适合小规模且频繁地更改备份。3.3数据备份与恢复(3)差异备份
差异备份可以理解为增量备份的变体。与增量备份不同的是,差异备份是从上次完全备份以来与上次备份不同的所有文件都会备份,而不是只备份自上次增量备份之后的新文件。(4)增量-差异混合备份
增量-差异混合备份是综合增量备份和差异备份特点的备份方法,它备份上次完整备份以来自上次增量或差异备份后的更改数据。(5)复制备份
复制备份是直接将数据逐个复制到另一个存储设备。复制备份优点是操作简单,容易理解,适用于小规模的个人数据备份,缺点是备份速度较慢,且占用存储空间较大。3.3数据备份与恢复(6)压缩备份
压缩备份是通过压缩软件将文件压缩成一个压缩包,再将压缩包保存到备份存储设备中。这种备份方式节省了存储空间,且备份速度较快,适合大量数据备份。但缺点是可能压缩率不高,并且需要特定的解压软件才能恢复数据。(7)镜像备份
镜像备份是将原始存储设备的所有数据完全复制到备份存储设备中,包括操作系统、应用程序、用户文件等。这种备份方式可以实现快速系统恢复,是改变硬件升级时的最佳方案。由于所有数据都复制到备份设备中,镜像备份需要大量的存储空间。3.3数据备份与恢复(8)云备份云备份是将数据备份到云平台上,由云服务提供商负责存储和保护数据。这种备份方式很容易实现备份恢复,而且数据备份和恢复的速度较快,但是云备份需要付费。(9)磁盘阵列备份使用磁盘阵列技术是在多个硬盘设备之间分配数据,并通过数据校验方式来保护数据。磁盘阵列技术可以大幅度提高存储数据的容量和数据可靠性,尤其是物理硬盘出现故障时。但磁盘阵列技术需要比其他方法更多的硬盘设备,数据恢复的速度也较慢。3.3数据备份与恢复(10)数据库备份
数据库备份是指对数据库中存储的所有数据进行备份,可分为完整数据库备份和差异数据库备份。完整数据库备份表示备份完成时的整个数据库,差异数据库备份只包含自最近完整备份以来对数据库所做的更改。3.3数据备份与恢复3.主要的数据备份技术(1)基于LAN备份传统备份需要在每台主机上安装磁带机备份本机系统,采用LAN备份策略,在数据量不是很大的时候,可采用集中备份。将一台中央备份服务器安装在LAN中,然后将应用服务器和工作站配置为备份服务器的客户端。中央备份服务器接受运行在客户机上的备份代理程序的请求,将数据通过LAN传递到它所管理的、与其连接的本地磁带机资源上,如图所示。3.3数据备份与恢复LAN备份针对所有存储类型都可以使用,提供了一种集中的、易于管理的备份方案,备份成本较低,但这种备份方案依赖于网络传输资源和备份服务器资源,容易发生堵塞,传输数据量小,对服务器资源占用多。(2)基于LAN-Free备份由于数据通过LAN传播,当需要备份的数据量较大,备份时间窗口紧张时,网络容易发生堵塞。
因此,在SAN环境下,采用存储网络的LAN-Free备份,需要备份的服务器通过SAN连接到磁带机上,在LAN-Free备份客户端软件的触发下,读取需要备份的数据,通过SAN备份到共享的磁带机。3.3数据备份与恢复在进行备份任务时,主控服务器只需发送指令给客户端,客户端便会自动将数据传输至备份介质中,如图所示。LAN-Free备份只能针对SAN架构的存储,与LAN备份技术相比,这种独立网络不仅使得LAN流量得以转移,而且其运转所需的CPU资源也大大降低,只需一台主机就能管理共享的存储设备和用于查找和恢复数据的备份数据库,备份效率大大增加。3.3数据备份与恢复(3)基于SANServer-Free备份基于SANServer-Free的数据备份方式下,一般会结合阵列的快照功能使用。在进行备份任务时,先创建生产数据的快照映射给备份服务器,由备份服务器挂载该快照,最后将快照数据拷贝至备份介质中。LANFree备份需要占用备份主机的CPU资源,如果备份过程能够在SAN内部完成,而大量数据流无需流过服务器,可以极大地降低备份操作对生产系统的影响,如图所示。3.3数据备份与恢复SANServer-Free备份也只能针对SAN架构的存储,备份时大量数据无需经过服务器,对客户端没有压力,但相对于LAN备份与LAN-Free备份,其受硬件环境制约最大,成本最高。在这三种数据备份方式中:
基于LAN备份数据量最小,但对服务器资源占用最多,而成本最低;
基于LAN-Free备份数据量较大,但对服务器资源占用较少,成本适中;SANServer-Free备份能够在短时间备份大量数据,但对服务器资源占用最少,而成本最高。3.3数据备份与恢复4.热备份和冷备份热备份和冷备份都是数据库常有的备份方式,分别使用不同的系统需求和恢复要求,热备份适用于需要24小时全天可用并且可以处理某种程度的数据不一致的系统,而冷备份适用于可以容忍停机时间并需要一致数据视图的系统。
热备份也称为在线备份或动态备份,是系统在运行的情况下,以近实时的方式进行备份,并不断产生新的数据。在热备份中,时间参数涉及决定何时进行备份。在热备份中,整个数据都复制到辅助位置,相关的数据变化反映在新的备份中。热备份方法进行数据备份时数据库仍可使用,因此可在表空间或数据库文件级备份,备份的时间短,能够达到秒级恢复,可对所有数据库实体做恢复;但3.3数据备份与恢复热备份在备份时不能出错,不允许“以失败告终”,否则备份所得结果将不能用于时间点的恢复。
冷备份也称为离线备份或静态备份,是指在关闭数据库并且数据库不能更新的状况下进行的数据库完整备份,冷备份期间不能做任何业务。因此,它通常在一天的开始或结束时执行,以最大程度地保持业务连续性。冷备份是一种非常快速的备份方法,备份文件容易归档,且容易恢复到某个时间点上,维护难度低、安全性高,能够使数据库得到“最佳状态”的恢复;但冷备份在实施备份的全过程中,数据库必须是关闭状态,单独使用时只能提供到“某一时间点上”的恢复,若磁盘空间有限,只能拷贝到磁带等其他外部存储设备上,效率较低,且不能按表或按用户恢复。3.3数据备份与恢复3.3.2数据恢复技术1.数据恢复的定义和原理
数据恢复技术是指当计算机存储介质损坏,导致部分或全部数据不能访问读出时,通过一定的方法和手段将数据重新找回,使信息得以再生的技术。数据恢复技术不仅可恢复已丢失的文件,还可以修复物理损伤的磁盘数据。本质上,数据恢复是指通过将剩余碎片放在一起、从剩余碎片中重建或使用备份来恢复对由于存储损坏、用户疏忽或意外中断而丢失的文件的访问行为。数据恢复是计算机存储介质出现问题之后的一种补救措施,它既不是预防措施,也不是备份。3.3数据备份与恢复对于存储在硬盘等存储介质上的数据,数据的保存方式和磁盘分区有关,即通过索引区和数据区来存放数据、建立关联。系统在对数据进行删除时,只是对索引区的位置记录进行删除,即将索引区和数据区之间的连接断开,使得操作系统再无法找到该数据,而并未真正将数据区域的数据删除。只有当新数据写入时,数据区才有可能会被新的数据擦写和占有,此时原有的数据才会被真正删除。因此,当删除的数据未被覆盖时,通过相关技术,突破操作系统的寻址和编址方式,把尚未被覆盖的数据收集起来保存到新的位置,进而实现数据恢复的目的。如果对数据进行了备份,则可以直接使用备份文件,将备份数据还原到原始状态或特定时间点,具体环节包括备份介质访问、数据还原、校验和验证、数据合并、测试和确认等。3.3数据备份与恢复2.数据恢复的类型
(1)逻辑数据恢复逻辑数据恢复是通过软件工具恢复已经删除或损坏的文件、文件夹和分区。逻辑数据恢复主要是通过扫描存储设备的文件系统,并根据文件系统的元数据信息来查找和重建已被删除或者损坏的文件。当数据恢复问题不影响硬盘本身而是影响计算机时,执行逻辑数据恢复。
(2)物理数据恢复物理数据恢复是指通过专业的硬件设备和技术来恢复因硬件故障导致的数据丢失。物理数据恢复通常需要在无损的情况下对磁盘进行修复或替换,然后使用专业工具来读取并恢复数据。3.3数据备份与恢复
(3)硬盘恢复硬盘恢复主要针对硬件故障而丢失的数据恢复,如硬盘电路板、盘体、马达、磁道、盘片等损坏或者硬盘固件系统问题导致的系统不认盘等,恢复起来一般难度较大。从硬盘恢复数据可能是最普遍的数据恢复技术,但也是最复杂的。(4)光学恢复CD、DVD和其他激光写入介质称为光存储,利用专门用于光存储的数据恢复解决方案提供了从光介质恢复丢失数据的最佳可能性。3.3数据备份与恢复(5)数据库系统或封闭系统恢复这部分系统往往自身就非常复杂,有自己的一套完整的保护措施,一般的数据问题都可以靠自身冗余保证数据安全。如SQL、Oracle、Sybase等大型数据库系统,以及MAC、嵌入式系统、手持终端系统,仪器仪表等,这类系统往往恢复都有较大的难度。
(6)数据备份恢复数据备份恢复是指通过已有的数据备份来恢复数据,备份恢复包括完整备份恢复、增量备份恢复和差异备份恢复等方式。3.3数据备份与恢复(5)数据库系统或封闭系统恢复这部分系统往往自身就非常复杂,有自己的一套完整的保护措施,一般的数据问题都可以靠自身冗余保证数据安全。如SQL、Oracle、Sybase等大型数据库系统,以及MAC、嵌入式系统、手持终端系统,仪器仪表等,这类系统往往恢复都有较大的难度。
(6)数据备份恢复数据备份恢复是指通过已有的数据备份来恢复数据,备份恢复包括完整备份恢复、增量备份恢复和差异备份恢复等方式。3.3数据备份与恢复(7)即时数据恢复在这种数据恢复方法中,当数据丢失时,用户会立即被引导至备份服务器。他们几乎可以立即访问他们的工作负载,并且在后台管理完整的恢复。
(8)远程数据恢复远程数据恢复是指通过网络连接远程访问受损设备,使用特殊的数据恢复软件进行数据恢复。3.4数据安全处理技术
数据安全处理是指通过一定的技术和方法,防止数据在录入、分析、计算、处理、统计或打印中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据损坏或数据丢失,某些敏感或保密的数据被不具备资格的人员或操作员阅读,而造成数据泄密等后果,降低数据处理过程中的安全风险。常用的数据安全处理技术有同态加密、安全多方计算、密文检索技术等。3.4.1同态加密1.同态加密的概念
同态加密(HomomorphicEncryption)是指将原始数据经过同态加密算法处理后,对得到的密文进行特定的运算,然后将计算结果再进行同态解密后,得到的明文等价于原始明文数据直接进行相同计算所得到的数据结果。3.4数据安全处理技术同态加密与一般加密方案不同,一般加密方案关注的是数据存储安全,在进行数据发送或存储时,先对数据进行加密,保证在数据传送和存储的过程中不被非法的第三方窃取或篡改,在这个过程中用户是不能对加密的结果做任何操作的,否则可能会导致解密失败。同态加密的关注点则是数据处理安全,同态加密提供了一种对加密数据进行处理的功能,即其他人可以对加密后的数据进行处理,在这个过程中不会泄露任何原始的内容,在数据处理完成之后再进行解密,得到的正是对原始数据进行相同处理后的结果,如图所示。3.4数据安全处理技术
同态加密的优势在于用户在数据加密的情形下,仍能对特定的加密数据进行分析和计算,提高了数据处理的效率,保证了数据安全传送,而且正确的加密数据仍能得到正确的解密结果。
同态加密算法的核心原理是将明文数据映射到一个特定的数学空间中,在该数学空间中实现加法或乘法等运算,并将结果再重新映射到明文空间,即两个密文进行运算操作后得到的密文与对应明文的运算操作结果相同。这意味着在同态加密算法下,可以对密文进行数学运算而无需解密,从而保护了数据的隐私性。通过对密文进行连续的同态操作,可以实现多个操作的组合效果,而不需要解密密文。这使得同态加密算法可以应用于安全多方计算和隐私保护领域,例如在云计算环境中进行安全计算和数据共享。3.4数据安全处理技术
2.同态加密的类型根据同态加密的定义,同态加密是对明文进行加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的,同态加密方案根据其支持的运算类型和运算次数可以分为以下三种类别:
(1)部分同态加密部分同态加密算法是只允许某一操作,如加法或乘法,被执行无限次。●加法同态:如果一种同态加密方案只支持在密文上执行加法运算,并且能够支持无限次的密文运算,则这种方案被称为加法同态加密方案,即对于明文x和y,满足:E(x+y)=E(x)⊕E(y)或x+y=D(E(x)⊕E(y))3.4数据安全处理技术●乘法同态:如果一种同态加密方案只支持在密文上执行乘法运算,并且能够支持无限次的密文运算,则这种方案被称为乘法同态加密方案,即对于明文x和y,满足:E(x×y)=E(x)E(y)或xy=D(E(x)E(y))
(2)有限同态加密如果一种同态加密算法同时支持在密文上进行加法和乘法操作,但是只能进行有限次的密文运算,那么这种算法称为有限同态加密算法。(3)全同态加密如果一种同态加密算法同时支持在密文上进行加法和乘法操作,并且能够支持无限次密文运算,那么这种算法称为全同态加密算法。3.4数据安全处理技术
3.同态加密算法的实现过程
(1)密钥生成首先需要生成一对密钥,包括公钥和私钥。公钥用于加密明文数据,私钥用于解密密文数据。密钥生成过程涉及一系列的数学运算和随机数生成,确保生成的密钥对是安全可靠的,密钥的生成需要满足数学性质,比如同态性、可组合性等。
(2)加密过程通过使用公钥进行加密,将明文数据转换为密文数据。加密过程涉及多个数学运算,如加法、乘法等,以实现同态性质。具体实现过程中,需要使用特定的同态加密算法和相关参数,确保加密后的密文数据能够满足同态加密的性质。3.4数据安全处理技术(3)解密过程解密不是指将加密后的密文转换成明文,而是指将经过计算后的密文转换成最终结果。解密过程使用私钥进行计算,最终得到的结果是与原始明文计算后的结果相同。由于在同态加密算法中不需要解密密文,因此可以保证密文的保密性。
4.同态加密算法的应用领域
(1)数据隐私保护同态加密算法的应用中,数据隐私保护是其中的一个关键应用。通过使用同态加密算法,可以在不暴露敏感数据的情况下进行计算和分析。在数据隐私保护领域,同态加密算法可以应用于各种场景,包括数据共享、云计算、医疗保健、金融等。3.4数据安全处理技术同态加密算法可以实现安全的数据共享。在数据共享场景中,往往需要将敏感数据提供给其他方进行计算和分析,但同时也需要保护数据的隐私。通过使用同态加密算法,数据所有者可以对数据进行加密后分享给第三方,第三方可以在不解密的情况下进行计算和分析,从而确保数据隐私的安全性。(2)云计算安全在传统的云存储与计算解决方案中,用户需要信任云服务器提供商不会窃取甚至泄露用户数据,而基于同态加密的云计算模型可在根本上解决这一矛盾。首先,用户使用同态加密算法和加密密钥对数据进行加密,并将密文发送给云服务器;云服务器在无法获知明文数据的情况下按照用户给定的程序对密文进行计算,并将密文计算结果返回给用户;用户使用同态加密算法和解密密钥对密文计3.4数据安全处理技术算结果进行解密,所得结果与直接对明文进行相同计算的结果等价。此外,同态加密算法还可以用于云计算中的数据搜索和数据挖掘任务。通过将数据加密后上传至云服务器,用户可以使用同态加密算法在加密状态下进行模糊匹配、相似度计算等搜索和挖掘操作,而无需解密数据,进一步保护了数据的隐私和安全性。云计算安全中的同态加密算法应用不仅可以保护用户数据的隐私,还可以防止云服务提供商和其他恶意方对数据进行窃取和篡改。同态加密算法也能够支持多方参与的计算,使得云计算中的数据共享和协同计算变得更加安全和可靠。3.4数据安全处理技术3.4.2安全多方计算1.生活中的安全多方计算
(1)百万富翁问题:
Alice拥有市值为x的公司,Bob拥有市值为y的公司。Alice和Bob都称自己是百万富翁。一天,Alice和Bob共同参加一个慈善捐款活动,两个人在聊天时都逐渐膨胀起来,Alice说自己肯定比Bob有钱,但Bob很快否定了Alice,他认为自己比Alice更有钱。但出于对自己隐私信息的保护,Alice和Bob都不愿意透露自己的财产。那么Alice和Bob如何知道谁更富有呢?3.4数据安全处理技术
(2)市场投资问题:
经过一次花费昂贵的市场调查后,A公司决定扩展在某些地区的市场份额来获取丰厚的回报。同时,A公司也注意到B公司也在扩展一些地区的市场份额。在策略上,两个公司都不想在相同地区互相竞争,他们都想在不泄露市场地区位置信息的情况下知道他们的市场地区是否有重叠。所以他们需要一种方法在保证私密的前提下解决这个问题。以上实例存在共同的特点,一是两方或更多方参与基于他们各自私密输入的计算,二是他们都不想其他方知道自己的输入信息。因此,问题就变成了在保护输入数据私密性的前提下如何实现这种计算?这个问题被称为“安全多方计算”问题。3.4数据安全处理技术
2.安全多方计算的定义
安全多方计算是指在分布式环境下,多个参与者共同计算某个函数,该函数的输入信息分别由这些参与者提供,且每个参与者的输入信息是保密的,计算结束后,各参与者获得正确的计算结果,但无法获知其他参与者的输入信息。具体定义为:安全多方计算是指在一个互不信任的多用户网络中,n个参与者P1,P2,…Pn,每个持有秘密数据xi,希望共同计算出函数f(x1,x2,…,xn)=(y1,y2,…,yn),Pi仅得到结果yi,并且不泄露xi
给其他参与者,如图所示。3.4数据安全处理技术
安全多方计算用于解决一组互不信任的参与方各自持有秘密数据,协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。在整个计算过程中,参与方对其所拥有的数据始终拥有绝对的控制权。
例如,在百万富翁比财富的问题中,为保护两个富翁的隐私,需要在保护输入数据私密性的前提下,进行财富数据的计算,使得双方在不知道对方财富的情况下,又能客观地确定谁更富有。如果采用同态加密技术和安全多方计算技术,能够帮助两个富翁解决烦恼,解决问题的流程图如图所示。3.4数据安全处理技术解决百万富翁问题流程图3.4数据安全处理技术
3.安全多方计算的特点
(1)输入隐私性:安全多方计算研究的是各参与方在协作计算时如何对各方隐私数据进行保护,重点关注各参与方之间的隐私安全性问题,即在安全多方计算过程中必须保证各方私密输入独立,计算时不泄露任何本地数据。
(2)计算正确性:多方计算参与各方就某一约定计算任务,通过约定安全多方计算协议进行协同计算,计算结束后,各方得到正确的数据反馈。
(3)去中心化:传统的分布式计算由中心节点协调各用户的计算进程,而安全多方计算中,各参与方地位平等,不存在任何有特权的参与方或第三方,提供一种去中心化的计算模式。3.4数据安全处理技术
4.安全多方计算的优势安全多方计算是密码学研究的核心领域,解决一组互不信任的参与方之间保护隐私的协同计算问题,能为数据需求方提供不泄露原始数据前提下的多方协同计算能力,为需求方提供经各方数据计算后的整体数据画像,因此能够在数据不离开数据持有节点的前提下,完成数据的分析、处理和结果发布,并提供数据访问权限控制和数据交换的一致性保障。安全多方计算拓展了传统分布式计算以及信息安全的范畴,为网络协作计算提供了一种新的计算模式,对解决网络环境下的数据安全具有重要价值。利用安全多方计算协议,一方面可以充分实现数据持有节点间互联合作,另一方面又可以保证隐私数据的安全性。3.4数据安全处理技术
5.安全多方计算的适用场景(1)数据可信交换安全多方计算理论为不同机构提供了一套构建在协同计算网络中的信息索引、查询、交换和数据跟踪的统一标准,能够实现机构之间数据的可信互联互通,解决数据安全性、隐私性问题,大幅降低数据信息交易抹杀和交易成本,为数据拥有方和需求方提供有效的对接渠道,形成互惠互利的交互服务网络。
(2)数据安全查询使用安全多方计算技术,能保证数据查询方仅得到查询结果,但对数据库其他记录信息不可知,而拥有数据库的一方,也不知道用户具体的查询请求。3.4数据安全处理技术
(3)联合数据分析随着多数据技术的发展,社会活动中产生和搜集的数据和信息量急剧增加,敏感数据的收集、跨机构的合作以及跨国公司的经营运作等给传统数据分析算法提出了新的挑战,已有的数据分析算法可能会导致隐私暴露,数据分析中的隐私和安全性问题得到了极大的关注。将安全多方计算技术引入传统的数据分析领域,能够一定程度上解决该问题,其主要目的是改进已有的数据分析算法,通过多方数据源协同分析计算,使得敏感数据不被泄露。3.4数据安全处理技术
3.4.3密文检索技术1.密文检索的背景云存储是在云计算概念上衍生出来的,其继承了云计算的按需使用、高扩展性、快速部署等特点,解决了当前政府和企业需要不断增加硬件设备和数据管理人员来自主地存储、管理和维护海量数据的问题。
为保证云数据的安全性,一种通用的方法是用户使用安全的加密机制,再将密文数据上传到云服务器。但数据加密使得云服务器无法支持一些常见的功能,如当用户需要对数据进行检索时,只能把全部密文下载到本地,将其解密后再执行查询操作。这些存储和检索方式可以最大化地保证用户数据的安全性,但是要求客户端具3.4数据安全处理技术有较大的存储空间以及较强的计算能力,且没有充分发挥云存储的优势。
因此,需要对密文检索技术进行研究,以支持云存储系统在密文场景下对用户数据进行检索,然后将满足检索条件的密文数据返回给用户,最后用户在本地将检索结果解密,从而获得自己想要的明文数据。在检索过程中,云服务器无法获得用户的敏感数据和查询条件,即密文检索可以同时保护数据机密性以及查询机密性。密文检索技术是一种高效、安全和隐私保护能力强的文本检索方法。它可以广泛应用于银行、政府、企业等众多领域,并具有广阔的发展前景和潜力。随着人工智能、量子计算等新兴技术的不断涌现,密文检索技术将进一步发挥其优势和特点,为信息安全和处理提供更为强大的支持和保障。3.4数据安全处理技术2.密文检索的概念
密文检索技术,也称可搜索加密技术,是指基于加密技术的文本检索方法,其基本思想是在文本加密的情况下,仍能够实现对文本内容的搜索、查找和匹配,同时保护敏感信息的机密性和安全性。
密文检索技术具有很强的安全性和隐私保护能力。在传统的文本检索中,文本一般是以明文方式存储和传输,这会面临信息泄露和篡改的风险。而利用加密技术对文本进行加密处理后,就可以有效地避免这些问题的发生。
密文检索具有良好的可扩展性和高效性,可以适用于大规模文本的检索和处理,还可以保护文本的版权和知识产权,有效地防止盗版和侵权行为的发生。3.4数据安全处理技术通常,密文检索技术的实现需要以下几个步骤:
①对文本进行加密处理:采用加密算法对文本进行加密处理,得到密文。
②建立索引表:根据关键词对密文建立索引表,将关键词和密文信息进行映射记录,方便后续的检索和匹配。③检索和匹配:在输入检索关键字后,利用索引表进行匹配,找到与检索关键字相关的密文信息。
④解密处理:在找到相关密文信息后,利用解密算法解密该信息,得到对应的明文内容。3.4数据安全处理技术如图所示,密文检索主要涉及数据所有者、数据检索者以及服务器CSP三种角色,其中,数据所有者是敏感数据的拥有者,数据检索者是查询请求的发起者,这二者通常仅具备有限的存储能力和计算能力;服务器为所有者和检索者提供数据存储和数据查询服务,由云存储服务提供商进行管理和维护,并具有强大的存储能力和计算能力。3.4数据安全处理技术密文检索技术在实际应用中具有广泛的应用场景,
在银行和金融领域,可以利用密文检索技术保护用户的个人账户信息和交易记录等敏感信息;
在政府和军事领域,可以利用密文检索技术加强对机密文档和资料的保护和管理;
在大型企业和组织,可以利用密文检索技术加强知识产权和商业机密的保护,防止泄密和盗窃行为的发生。
随着互联网和信息技术的不断发展,密文检索技术的应用场景也将不断扩大和深化。3.4数据安全处理技术
3.密文检索分类
根据应用场景的不同,密文检索技术可以分为对称密文检索和非对称密文检索。
(1)对称密文检索。在对称密钥环境下,只有数据所有者拥有密钥,也只有数据所有者可以提交敏感数据、生成陷门,即数据所有者和数据检索者为同一人,如图所示。对称密文检索主要适用于单用户场景,如用户A将自己的日志秘密保存在云服务器,只有A才能对这些日志进行检索。3.4数据安全处理技术(2)非对称密文检索。在非对称密钥环境下,任何可以获得数据检索者公钥的用户都可以提交敏感数据,但只有拥有私钥的数据检索者可以生产陷门,如图所示。非对称密文检索主要适用于多用户场景。如在邮件系统中,发件人使用收件人的公钥加密邮件,而收件人可以对这些邮件进行查询。3.4数据安全处理技术
根据检索数据类型的不同,密文检索技术还可以分为密文关键词检索和密文区间检索。
(1)密文关键词检索。主要用于检索字符型数据,如查询包含关键词“云存储”的文档。最初,密文关键词检索的研究以单关键词检索为主,后来根据实际的应用需求,密文关键词检索逐渐扩展到多关键词检索、模糊检索和Top-k检索,如图所示。3.4数据安全处理技术
多关键词检索支持多个关键词的逻辑查询,如查找同时包含关键词“云存储”和“加密”的文档。
模糊检索允许检索关键词出现拼写错误或者包含通配符的情况,即检索系统对用户的数据有一定的容错能力。如当用户将关键词“cloud”和“clous”时,服务器依然可以返回关键词“cloud”的文档。
Top-k检索可以对文档进行评分并优先返回分数较高的文档,从而避免检索结果集过于庞大的情况。3.4数据安全处理技术
(2)密文区间检索。主要用于对数值型数据进行范围查询(如图所示),如查询学生信息表中年龄属性小于18的学生。根据属性的数目,密文区间检索又可以进一步分为单维区间检索和多维区间检索。早期的密文区间检索方案主要是基于通式索引和传统加密技术的,由于这两种方案对客户端要求较高,因此后续研究较少。目前主流的密文区间检索方案主要包括基于谓词加密的、基于矩阵加密的、基于等值检索的和基于保序加密的。3.5分布式存储与处理安全在大数据时代,随着云计算技术的不断发展,分布式存储已经成为数据存储的主流方式,分布式存储数据安全问题也越来越受到关注。与传统的中心化存储方式不同,在分布式存储系统中,每个物理设备都被视为一个存储节点,数据通过一定的分布算法被分散存储在多个独立的物理设备上,这些设备通过网络连接在一起,形成一个虚拟的存储设备,从而使得分布式存储系统中的数据保护变得更加复杂和困难。
在分布式存储模式下,一般通过访问控制、数据加密、内容监测、冗余备份、数据完整性检查、保护存储设备的物理安全等方法和技术,来保护数据的存储和处理安全。
本节主要从Hadoop系统简介、HDFS数据加密两个方面进行介绍。3.5分布式存储与处理安全
3.5.1Hadoop系统简介1.Hadoop的定义Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem,HDFS),HDFS有高容错性的特点,并且设计部署在低廉的(low-cost)硬件上,能够提供高吞吐量(highthroughput)来访问应用程序的数据,适合一些有着超大数据集的应用程序。HDFS放宽了对可移植操作系统接口的要求,可以以流的形式访问文件系统中的数据。3.5分布式存储与处理安全
Hadoop框架的三大核心组件是HDFS、YARN和MapReduce(如图)。HDFS为海量的数据提供了存储,实现将文件分布式存储在集群服务器上;MapReduce(分布式运算编程框架)为海量的数据提供了计算,实现了在集群服务器上分布式并行运算;YARN(分布式资源调度系统)帮用户调度大量的MapReduce程序,合理分配CPU和内存等运算资源。3.5分布式存储与处理安全
(1)分布式文件系统HDFSHDFS是一个高度容错性的分布式文件系统,用于在普通硬件上存储超大规模数据集。它以流式访问模式访问应用程序的数据,极大地提高了整个系统的数据吞吐量,因而非常适合用于具有超大数据集的应用程序中。HDFS的架构如图所示。HDFS架构采用主从架构(master/slave)。HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据的保管和管理,集群中通常只有一台机器上运行NameNode实例;DataNode节点保存文件中的数据,集群中的机器分别运行一个DataNode实例。3.5分布式存储与处理安全在HDFS中,NameNode节点被称为名称节点,DataNode节点被称为数据节点,DataNode节点通过心跳机制与NameNode节点进行定时的通信。3.5分布式存储与处理安全
(2)分布式计算框架MapReduceMapReduce是一种编程模型,用于大规模数据集的并行运算。它允许程序员在不了解分布式系统底层细节的情况下,编写处理大规模数据的程序。MapReduce将复杂的任务分解为两个主要阶段:Map阶段和Reduce阶段,如图所示。在Map阶段,将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。在Reduce阶段,将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果,最终将所有Reduce节点的输出结果合并成一个最终结果。3.5分布式存储与处理安全3.5分布式存储与处理安全
(3)分布式资源调度系统YARNYARN是Hadoop的计算资源管理和调度系统,接受任务请求,并根据请求的需要来分配资源,调度任务的执行。
在YARN中,有一个资源管理器(ResourceManager)节点,负责全局的资源分配;每个计算节点的资源由节点管理器(NodeManager)控制。当客户端(Client)提交任务时,YARN会在某个计算节点上创建一个应用程序主控器(ApplicationMaster)来控制整个任务的执行流程,同时根据需要在一些计算节点上创建容器(Container),包含一定数量的处理器和内存,用于该任务的执行,它的架构设计如图所示。3.5分布式存储与处理安全3.5分布式存储与处理安全
2.Hadoop的特性Hadoop实现了MapReduce计算模型和分布式文件系统HDFS等功能,借助Hadoop,程序员可以轻松编写分布式并行程序,将其运行于计算机集群上,完成海量数据的存储与处理分析。Hadoop具有高可靠性、高效性、高扩容性、低成本等特性,如图所示。3.5分布式存储与处理安全3.Hadoop生态系统3.5分布式存储与处理安全●HBase:HBase是一个分布式、可扩展、高可靠性的非关系型数据库,用于存储非结构型数据,是Hadoop生态系统的重要组件,可以与HDFS和MapReduce等组件配合使用。●Hive:Hive是一个基于Hadoop的数据仓库工具,是Hadoop的数据仓库项目,用于数据查询和分析。它提供了类似于SQL的查询语言HQL(HiveQueryLanguage),使得用户可以更方便地查询和分析大规模数据集。Hive还支持自定义的用户定义函数,用户可以使用这些函数来执行自定义分析。●Pig:Pig是一个基于Hadoop的数据处理工具,用于数据清洗、转换和分析,主要分析存储在HadoopHDFS中的大数据。它提供了一种类似于SQL的查询语言PigLatin,使得用户可以编写简单的脚本,处理大规模数据集。3.5分布式存储与处理安全●Sqoop:Sqoop是数据传输工具,用于Hadoop和关系数据库间传输数据。可以将关系型数据库中的数据导入到Hadoop中,也可以将Hadoop中的数据导出到关系型数据库中。Sqoop使用map-reduce来导入和导出数据,因此它具有并行处理和容错特性。●Oozie:Oozie是一个工作流调度框架,用于调度HadoopMap/Reduce和Pig作业。它提供了图形化界面,使得用户可以方便地管理和监控Hadoop作业的执行过程。●Flume:Flume是一种类似于Sqoop的日志传输工具,但它适用于非结构型数据,而Sqoop用于结构型和非结构型数据。Flume是一个可靠、分布式且可用的系统,用于高效地收集、聚合大量日志数据并将其从许多不同的源移动到HDFS。它不仅限于日志数据聚合,还可以用于传输大量事件数据。3.5分布式存储与处理安全
●Spark集成:Spark是一个通用且快速的集群计算系统,提供了更高效的数据处理能力。Spark提供了Python、Scala、Java、R等多种语言的丰富API。Spark支持SparkSQL、GraphX、MLlib、SparkStreaming、R等高级工具。●Ambari:Ambari是一个供应、管理和监视ApacheHadoop集群的开源框架,提供了一个直观的操作工具和一个健壮的HadoopAPI,可以隐藏复杂的Hadoop操作,使集群操作大大简化。●Mahout:Mahout是一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集,实现了多种MapReduce模式的数据挖掘算法,通过选择的算法构建定制的推荐系统。Mahout的开发目的是提供执行、可扩展性和合规性。3.5分布式存储与处理安全●ZooKeeper:ZooKeeper是一种集中服务,充当Hadoop不同服务之间的协调者,用于维护配置信息,提供分布式同步,以及提供分组服务。4.Hadoop与云计算、Spark以及关系型数据库的关系Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,是云计算技术中重要的组成部分;而云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术,云计算的存在只是一种新的商业计算模型和服务模式。3.5分布式存储与处理安全Spark是一个专门用于处理分布式存储的大数据的工具,但它本身不进行数据的分布式存储。Hadoop提供了数据存储的功能,而Spark则提供了数据处理的能力,在实际应用中,数据首先被存储在Hadoop的HDFS中,然后使用Spark进行处理。Spark可以依附在hadoop的HDFS代替MapReduce,弥补其计算能力不足的问题。关系型数据库主要应用于大量细粒化读写和更新数据的场景,而hadoop主要用于一次写入多次读取等批量读写的场景,两者有数量级上的差别;关系型数据库的数据是结构化且无重复的,而Hadoop主要是非结构化或者半结构化的;关系型数据库适合用于GB级以内的数据的高精度操作,Hadoop适合PB级及以上数据的低精度操作。3.5分布式存储与处理安全
3.5.2HDFS数据加密1.HDFS透明数据加密介绍在Hadoop集群中,HDFS中的数据以block的形式保存在各数据节点的本地磁盘中,而这些block数据都是以明文的方式存储,如果非法用户在操作系统层面直接访问数据,如直接拷走本地磁盘里的block数据文件,就可以直接查看数据的内容。
数据加密是保护数据安全的重要方式,因此在HDFS中必须对关键数据进行加密,保护敏感数据的安全。传统数据管理软件或者硬件的加密层级主要包括应用层加密、数据库层加密、文件系统层加密、磁盘层加密四种,在不同的层级加密有不同的优点和缺点。3.5分布式存储与处理安全
●应用层加密。应用层加密是最安全和最灵活的方法,加密内容最终由应用程序来控制,并且可以精确地反应用户的需求,但是编写应用程序来实现加密一般都比较困难。●数据库层加密。数据库层加密类似于应用程序级加密,大多数数据库供应商都提供某种形式的加密,但是可能存在性能问题,如索引无法加密。●文件系统层加密。文件系统层加密对性能影响不大,且对应用程序是透明的,一般也比较容易实施。但是如果需要应对细粒度的要求策略,可能无法完全满足。如:加密文件系统用于在文件系统卷上存储已加密的文件。●磁盘层加密。磁盘层加密易于部署和高性能,但是不够灵活,只能防止用户从物理层面盗窃数据。3.5分布式存储与处理安全
在HDFS中的加密属于数据库层和文件系统层的加密,也称为HDFS透明加密。HDFS加密可以防止在文件系统或之下的攻击,即操作系统级别的攻击,因为操作系统和磁盘只能与加密的数据进行交互。
HDFS透明加密是一种端对端的加密方式,对应用程序是透明的,加密和解密只能通过客户端来操作。对于一些需要加密的HDFS目录里的文件可以实现透明的加密和解密,而不需要修改用户的业务代码。对于加密区域里的文件,HDFS保存的是加密后的文件,文件加密的密钥也是加密的。非法用户即使从操作系统层面拷走文件,也无法解密其中的密文。3.5分布式存储与处理安全非法用户即使从操作系统层面拷走文件,也无法解密其中的密文。只有HDFS客户端可以加密或解密数据,密钥管理在HDFS外部,HDFS无法访问未加密的数据或加密密钥。HDFS集群管理和密钥的管理是互相独立的职责,由不同的用户角色(HDFS管理员、密钥管理员)承担。HDFS的透明加密支持两种方式的加密:静态数据加密,如存储在磁盘上的数据加密;传输数据加密,如通过网络传输的数据加密。3.5分布式存储与处理安全
2.HDFS数据加密方式
HDFS通过数据加密的方式来保护敏感数据在存储、传输和处理过程中的安全,其加密功能是通过使用加密算法对数据进行加密和解密来实现的。
(1)传输数据加密
传输加密是指在数据传输的过程中利用SSL/TLS等安全协议对数据进行加密,防止数据在传输过程中被拦截,保护数据在传输过程中的安全,避免被窃取或篡改。HDFS使用SSL(SecureSocketsLayer)协议来实现传输加密。SSL协议通过使用公钥和私钥进行加密和解密来确保数据传输的安全性。3.5分布式存储与处理安全HDFS的传输加密需要在Hadoop集群的配置文件中配置SSL证书和密钥,需要先生成SSL证书和密钥,然后在Hadoop集群的配置文件中指定SSL证书和密钥的路径。在数据传输时,HDFS会使用SSL协议对数据进行加密和解密。
(2)静态数据加密
数据加密是指在数据存储的过程中对数据进行加密,防止未经授权的用户访问敏感数据。数据加密主要通过在存储目录中添加加密策略来对数据块进行加密,保障数据的安全性。HDFS中有客户端加密和服务器端加密两种数据加密方式。客户端加密是指在数据被写入到HDFS之前,客户端对数据进行加密。客户端加密可以确保数据在传输过程中的安全性,加密后的数据被3.5分布式存储与处理安全写入到HDFS中,而不被篡改的数据将保存在HDFS上。服务器端加密是指在数据写入到HDFS之后,HDFS对数据进行加密。服务器端加密可以确保数据在存储的过程中的安全性,加密后的数据将保存在HDFS上。通过在HDFS中使用数据加密技术,可以有效保护数据的机密性和完整性,提高数据的安全性和可信度。
(3)HDFS访问控制策略
HDFS的访问控制策略用于控制对存储在HDFS中的数据的访问权限,是确保数据存储安全的有效手段。HDFS提供了权限模型确定哪些用户有权访问文件和目录,并定义了权限的粒度。HDFS的权限模型由文件和目录的所有者、所有组和其他用户的权限组成。对于一个文件或目录,可以设置读权限、写权限和执行权限,文件和目录的访问权限可以通过命令行工具或HDFS的API进行设置。3.5分布式存储与处理安全
(4)密钥管理
HDFS提供了密钥管理服务,用于管理加密解密所需的密钥,确保数据的安全访问和管理。如果密钥以明文形式存储在数据节点上,将无法保证仅通过加密文件操作就能确保用户的私密性,因为攻击者势必能够在恶意攻击到数据节点后获取到明文密钥信息从而完成数据文件的解密操作。因此一般采用非对称加密算法RSA对AES密钥进行加密,而后再将其存储在数据节点中。3.5分布式存储与处理安全3.HDFS透明加密的架构
(1)基本术语在HDFS透明加密的架构中,包含加密区域、加密区域密钥、数据加密密钥、加密数据加密密钥、密钥库几部分。●加密区域:加密区域是HDFS的透明加密引入的一个新概念,加密区域是一个特殊的目录,写入文件的时候会被透明加密,读取文件的时候又会被透明解密。●加密区域密钥:当加密区域被创建时,会生成一个加密区域密钥(EZ,EncryptionZoneKey)与之对应,EZ密钥存储在HDFS外部的密钥库中。3.5分布式存储与处理安全●数据加密密钥:加密区域里的每个文件都有自己的加密密钥,叫做数据加密密钥(DEK,Data.EncryptionKey)。●加密数据加密密钥:DEK会使用各自加密区域的EZ密钥进行加密,以形成加密数据加密密钥(EDEK,EncryptedDataEncryptionKey),HDFS不会直接处理DEK,HDFS只会处理加密后的DEK。客户端会解密EDEK,然后用后续的DEK来读取和写入数据。对于HDFS的DataNode,只能看到一串加密字节。DEK的加解密和文件的加解密示意图如图所示。3.5分布式存储与处理安全3.5分布式存储与处理安全●密钥库:密钥库是存储HDFS中的所有密钥,为了职责分离、保障安全,HDFS中的密钥库与HDFS相互独立。Hadoop中具有专门的密钥管理服务(KMS,KeyManagementServer)来管理密钥库,KMS作为HDFS客户端与密钥库之间的代理,主要负责提供访问保存的加密区域的密钥,生成存储在NameNode上的加密后的数据加密密钥(EDEK),为HDFS客户端解密EDEK,在加密区域里访问数据。
(2)数据的加密访问当在加密区域中创建一个文件后,NameNode会要求KMS生成一个新的EDEK,并被加密区域密钥EZ加密,而EDEK作为NameNode的元数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 元旦活动方案策划表演(3篇)
- 北方防寒施工方案(3篇)
- 印刷耗材油墨刮刀管理制度(3篇)
- 咸鱼钓鱼活动策划方案(3篇)
- 2026年四川护理职业学院单招职业技能考试题库附答案详解(黄金题型)
- 垃圾收集清运管理制度(3篇)
- 2026年四川卫生康复职业学院单招职业倾向性考试题库附答案详解(黄金题型)
- 2026年吐鲁番职业技术学院单招职业适应性测试题库含答案详解(典型题)
- 储罐展板施工方案(3篇)
- 出检测报告管理制度(3篇)
- 2026年春季小学二年级下册美术(岭南版2024新教材)教学计划含进度表
- 2026年内蒙古北方职业技术学院单招职业倾向性测试题库带答案详解(黄金题型)
- GB/T 27664.3-2026无损检测仪器超声检测设备的性能与检验第3部分:组合设备
- 人教版《劳动教育》三下 劳动项目二 穿鞋带 课件
- 药品经营和使用质量监督管理办法-专业解读课件
- DB11T 940-2024 基坑工程内支撑技术规程
- 川教版三年级《生命·生态·安全》下册教学方案
- 农药管理制度流程目录及文本
- 函数的凹凸性
- 西周王朝的档案和档案工作
- 部编四年级语文下册 全册教案 (表格式)
评论
0/150
提交评论