HDFS的多安全级数据销毁机制设计论文.pdf_第1页
HDFS的多安全级数据销毁机制设计论文.pdf_第2页
HDFS的多安全级数据销毁机制设计论文.pdf_第3页
HDFS的多安全级数据销毁机制设计论文.pdf_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 2 3卷第 3期 2 0 1 3年 3月 计 算 机 技 术 与 发 展 c omput er i echnol ogy and devel opme nt v0 1 2 3 ma r no 3 2 01 3 h d f s的多安全级数据销毁机制设计 秦军 , 邓谦 , 张建平 ( 1 南京邮电大学 教育科学与技术学院, 江苏 南京 2 1 0 0 0 3 ; 2 南京邮电大学 计算机学院, 江苏 南京 2 1 0 0 0 3 ) 摘要: 在云计算应用中, 数据安全是用户首要关心的问题 , 因此云中数据安全的研究也成为当前云计算研究的重点。针 对开源云计算存储系统 h d f s中的数据不能彻底销毁 , 从而可能导致数据泄露的问题 , 设计了 h d f s的多安全级数据销毁 机制。一方面 , 该机制在删除数据前使用数据覆写算法覆写原数据 , 可以有效预防云 中数据 的恶意恢复, 防止数据泄露 , 从而达到彻底销毁数据的目的; 另一方面, 该机制采用多安全级可定义的方法, 采取多种覆写算法销毁数据, 平衡了安全 需求和性能需求。仿真实验表明, 该机制可以在 h d f s 环境下有效地覆写 b l ock文件达到彻底销毁原始数据的目的, 同时 不 同的覆写算法时间开销也不同, 保证了效率和安全的平衡。 关键词 : 云计算; 数据安全; h d f s ; 数据覆写; 多安全级 中图分类号 : t p 3 1 1 1 3 3 1 文献标识码: a 文章编号: 1 6 7 3 - 6 2 9 x( 2 0 1 3 ) 0 3 - 0 1 2 9 - 0 5 d o i : 1 0 3 9 6 9 j i s s n 1 6 7 3 - 6 2 9 x 2 0 1 3 0 3 0 3 3 de s i g n o f m u l t i - g r a d e s a f e t y da t a de s t r u c t i o n m e c h a n i s m o f hdf s q i n j u n , d e ng q i a n , z h a n g j i a n p i n g ( 1 c o l l e g e o f e d u c a t i o n s c i e n c e a n d t e c h n o l o g y , n anj i n g u n i v e r s i t y o f p o s t st , nanj i n g 2 1 0 0 0 3 , c h i n a ; 2 c o l l e g e o f c o mp u t e r n a n j i n g u niv e r s i ty o f p o s t s &t , n anj i n g 2 1 0 0 0 3 , c h i n a ) ab s t r a c t : i n t h e c l o u d c omp u ti n g a p p l i c a ti o n s , d a t a s e c u r i t y i s t h e f i t- s t c o n c e r n t o u s e r s , s 0 the d a t a s e c u ri t y, i n t h e c l o u d, b e c o me s t h e c u r r e n t r e s e a r c h f o c u s th e o p e n s o u r c e c l o u d c o mp u t i n g s t o r a g e s y s t e m hdfs c s n t c o mp l e tel y d e s t r o y d a ta , wh i c h ma y le a d t o d a ta l e a k t o s o l v e thi s f l a w , d e s i g n a mu l t i - g r a d e s a f e t y d a ta d e s t r u c ti o n me c h a n i s m o f hdfs th i s me c h a n i s m c an e ff e c ti v e l y p r e v e n t mali c i o u s d a ta r e c o v e r y an d p rev e n t d a ta l e a k, d e s tr o y da ta c o mple tely b y o v e r wr i ti n g o rig i n a l da ta wi th o v e r wr i te flg o fit h m b e f o r e d e l e tin g da ta m o r e o v e r , themec h an i s m c an b a l an c ethe s a f e t y r e qu ir e me n t an dpe rfo r ma n c e r e q u i reme n t b y u s i n g d i ffe r e n to v e r wr i te alg o r i thm a c c o r d i n gt o d i ffe ren t s a f e t y r e q u i reme n t th e s i mu l a t i o n e x per i me n t s h o wst h a t t h emech a n i s m c an e ffect i v e l y o v e r w r i te t h efil e o fbl o c kt o d e s t r o y o ri g i n al da ta co mp l e tel y i n hdfs an d t h e s pe n din g time o f d i ffe r e n t o v e r wr i t e alg o r i t h m i s diffe r e n t s 0 i t c an k e e p e ffi c i e n c y an d s a f e t y balan c e ke y wo r d s: c l o u d c o mp u ti n g; da ta s e c u r i t y; hdf s; d a ta o v e r wr i te ; mu l ti- g r a de s a f e t y 0 引 言 随着云计算的兴起, 很多公司开始对外提供云计 算服务 , 如 c , o o g l e的 g a e 平台, a m a z o n的弹性 云计算平台 a ws 等。除了这些封闭的云计算系统 , 还有许多公司选择使用开源的 h a d o o p系统搭建 自己 的云平台。h a d o o p 是由 a p a c h e 基金会支持 的一个 开源的云计算 系统, 其核心项 目由 c o m m o n 、 ma p r e 收稿 日期 : 2 0 1 2 0 6 1 9; 修回 日期 : 2 0 1 2 0 9 2 3 基金项目: 江苏省自然基金项目( b k 2 0 0 9 4 2 5 ) ; 江苏省教育科学” 十 二五” 规划课题 ( d 2 0 1 1 0 1 0 7 4) 作者简介: 秦军( 1 9 5 5 一 ) , 女, 教授, 硕士生导师, 主要研究方向为 计算机网络技术、 多媒体技术、 数据库技术; 邓谦( 1 9 8 7 一 ) , 男, 河 北石 家庄人 , 硕士研究生 , 主要研究方向为分布式计算 、 云计算 。 d u c e和 h d f s ( h a d o o p d i s t r i b u t e d f i l e s y s t e m) 组 成。 其中h d f s 是为整个 h a d oop以及相关项目提供数据 分布式存储的文件系统。 根据 i d c在 2 0 0 8年发布的一项调查报告显示 j , 安全性是人们对云计算最为关心的问题, 其中数据的 安全性是用户关心的主要问题。目前的云系统中, 数 据的安全性、 可靠性还存在着某些的问题 。也正是 出于安全性的考虑, 许多小公司不愿将数据迁移到云 中。同时, 由于很多公司使用 h a d oop系统开发云计算 平台, 如 y a h o o的数据处理与存储集群 , 阿里巴巴、 百 度等开发的云计算平台, h d f s存储系统中的数据安 全和可靠性都是人们关心的一个主要问题。特别是现 在的 h d f s对于数据的安全删除却没有一个有效的机 1 3 o 计算机技术与发展 第2 3卷 制, 恶意用户以及超级管理员可 以使用恢复软件恢复 成 。h d f s的数据存储流程如下 : 删除后的数据, 这将会是对数据保密性的一个 巨大威 1 ) 客户端与 n a m e n o d e 通信, 申请创建文件。 胁。针对用户数据在云中所面临的数据泄露的问题, 2 ) 当 n a m e n o d e 准许用户创建文件后, 会牛成这 尤其是删除的数据会被恶意恢复的问题 , 文中提出了 个文件的元数据( m e t a d a t a ) 并将这些元数据保存 小 一 种多安全级可定义的数据销毁机制, 通过使用覆写 地的文件系统中, 同时将文件分成数个 b l o c k , 每个数 算法, 将要删除的数据完全覆盖, 可以有效提高数据在 据块默认值是 6 4 m。这些 b l o c k 将分别存储在不同的 h d f s中的安全性, 避免任何不怀好意者恢复和窃取d a t a n o d e 上, n a m e n o d e 将维护这个文件到各个 b k 用户 已经删除了的数据 。 的映射。 3 ) 当元数据建立好后 , n a m e n o d e 将通知客户端 j 1 hd f s的数据安全问题 相 应d a t a n o d e 通信, 直 接将数据写到d a ta n o d e 上,、 g a n e r 于 2 0 0 8年发布的 评估云计算安全风险4 ) d a t a n o d e 将接收到的 b l o c k以单个文件的形式 中列举了云计算 的 7大风 险 , 其 中涉及 数据安 全 的 保存 到本地 的文 件系统上 。d a t a n o d e 并 不知道 h d f s 就有三大风险: 数据隔离风险、 数据恢复风险、 数据位 的文件组织 , 其只维护在本地文件系统中的数据。 置风险。数据安全 问题 是云计 算所面对 的主要 问题 。 2 2 h d f s数据 的删除机制 同时, 由于云系统的分布式特性 、 多用户特性、 用户数h d f s中数据的删除是异步的。在 n a m e n o d e 将 据的所有权与管理权的分离, 云系统中的数据会面临 元数据删除后, d a t a n o d e通过 h e a r t b e a t 获取此 改变 许 多新 的其他方面风险 。 ( i n v a l i d b l o c k列表 ) , 并将其对应的文件删除 。 针对数据的完整性、 数据的可用性 问题, h d f s 通 图1 和图2 分别显示了n a m e n o d e 和d a t a n o d e 0 过用户身份认证 、 文件校验和、 数据的容灾备份等 文件删除相关的类图。 机制提供了较好 的保护。但是针对 in t e r f a c 。 数据的保密性 , 尤其是针对删除后的 w n 鼬 数据没有提供有 效保护 , 没有提供一 个安全有效的数据删除机制。 b i k 数据 的不 安全 销 毁 在单 机 环境 下或者私 有集群 中, 对于一般用 户不 in o d e d ir e e t o ry i n o d e f i le 是很严重的问题, 因为用户对于存储 b lo c k s m a p b loc k l n f o 设备拥有所有权, 可以实现数据的物 in o d e d ir e c to ry w i th q u o ta 理隔绝 , 杜绝任何非法用户恢复删除 的数据。但是当用户将数据和计算 咖 l 迁移 到 云 中后 , 尤其 是公 有 云 中, 用 + t l e l e t e l : 5 t n n g , : 一 b o o 1 e an 啦 m : 姗 。 sfc: ,r e c u r 趾v e : b 0 0 i e a n : m曲 e l e m: r |帆 七 s 幔【 i l 案 蓄 菩 is otn:boolean): -delete(sre:strin g):boo leanremovepaanablocks(src: ng oloc k$:listhandl artbeat0:datanodecommand unpro(src trmg,ilong):州 m , 一 不 能 阻 止 不 怀 好 意 者 试 图 恢 复 用 户 eie 叫 懈 。 m删 “ 锄 删除的数据 , 从 而窃取用户 数据 。由 图 1 n a m e n o d e 数据删 除类图 于云计算的多用户属性以及超级用 户权限的存在 , 如 果用户 不能安全 有 i n t e r d a t a n 0 d e p t c a l r u n n a b l c li e n t d a ta n o d e p r o t o c a l 效地删除数据, 那么这些数据就有可 能被那些 不 怀好 意 的用 户或 者是 系 。 寸 一 统的管理者通过软件或者物理手段 d a t a b l o ca t a ls l o c ,k s c a n n e r da i a n o o, u 恢复出来。这对于用户的一些敏感 + d a 协: fs da l e f f s d 的数据是巨大的威胁 。 d e 1 e t e 。 b 1 o c k s , 1 ( -b l o c k s c a i 1眦 da t a bi o c k s c a n n e r + i n v a l i d a t d e le t e l o c k i e ( i n v a l i b 。 c k 1 i 小川 _j - , p r o c e s s c o m m a n d 0 : b o o l e a n 2 hd f s结构分析 2 1 h d f s数据存储机制 h d f s 整个存储体系是由 n a m e n o d e 、 d a t a n o d e和客户端 三部分 组 i n v a l i d a t e ( i n v a li b lk s : b lo c k ) 图2 da t a n o d e数据删除类图 第 3期 秦军等 : h d f s的多安全级数据销毁机制设计 1 3 l 客户端流程: c l i e n t p r o t o c o l 的 d e l e t e ( ) 方法 r p c 远程调用 n a m e n o d e同名方法 。 n a m e n o d e 端流程 : 1 ) 在 n a m e n o d e中调用 f s n a m e s y s t e m 的 d e l e t e ( ) 方法 , 该方法首先会检测删除是否为递归删除 , 如果是 递归删除, 则采用递归删除, 删除 目录及 目录中的内 容。如果不是递归删除, 则检查删除的目录是否为空 , 如果 目录不为空则抛出异常 ; 2 ) f s n a m e s y s t e m的 d e l e t e ( ) 方法 随后调用 d e l e t e i n t e r n a l ( ) 方法, 该方法主要是进行安全模式检测和权 限检查 , 并调用 f s d i r e c t o r y的对象 d i r 的 d e l e t e ( ) 方 法 ; 3 ) f s d i r e e t o r y的 d e l e t e ( ) 方 法 主要 是 通 过 调 用 u n p r 0 t e c t e d d e l e t e ( ) 方法来删除 n a m e s p a c e中的元数 据 , 并向13 志写入删除记录; 4 ) u n p r 0 t e c t e d d e l e t e ( ) 方 法将 i n o d e从 n a m e s p a e e 中删除 , 然后调用 f s n a m e s 3 r s t e m的对象 n a m e s y s t e m的 r e m o v e p a t h a n d b l o c ( ) 方法 ; 5 ) r e m o v e p a t h a n d b l o c k s () 方 法 首 先 移 除 租 约 ( 1 e a s e ) , 然后将 要 删除文 件 的数据块 对应 的 i n o d e从 b l o c k中移 除 并将 b l o c k从 c o r r u p t b l o e k s ma p中移 除, 最后将 要删 除 的 b l o c k加入 到失效 块列 表 ( 1 i s t o f b l o c k s w h i c h w i l l b e i n v a l i d a t e d ) 中; 6 ) 当 d a t a n o d e向 n a m e n o d e 发送 h e a r t b e a t 时 , f s n a m e s y s t e m中h a n d l e h e a r t b e a t ( ) 会将 c m d s数组 中的 一 个指令设 置为 b l o c k i n v a l i d a t e l i m i t 这 个 常量用 以指 示 d a t a n o d e 删除相 应 的 b l o c k s , 并 将需要 删 除 的块列 表, 包含到 b l o c k c o m m a n d中, 返回给 d a t a n o d e 。 d a t a n o d e 端流程 : 1 ) 当 d a t a n o d e收到删除命令的时候, 首先是调用 d a t a b l o c k s c a n n e r 类 中的 d e l e t e b l o c k方法删除 d a t a n - o d e中相应 的元数据 ; 2 ) 调用 f s d a t a s e t 中的 i n v a l i d a t a ( ) 方法 , 在 i n v a l i d a t e ( ) 方法 中会对 要 删 除 的 b l o c k s 进 行 一些 异 常检 测, 并将 b l o c k从 v o l u m e m a p中删除, 最后调用 j a v a的 f i l e 类对象 f d e l e t e ( ) 将数据删除 。 通过分析 h d f s数据 的存 储 和删除 机制 , 可 以得 知, h d f s的 b l o c k 是存储到 d a t a n o d e的本地文件系统 上的, 并通过j a v a的文件删除机制删除。由此可见其 删除机制与单机状态下普通的文件删除是相同的。 l i n u x系统的 e x t 2文件系统的文件删除机制同样 只是将块位图和索引节点的状态改变了 引, 导致系统 不能通过索引节点去定位文件 , 但是文件的实际内容 甚至是索引节点中的元数据都没有真正删除, 只有等 下一次 数 据 写 入 的 时候 才 能 覆 盖这 些 数 据 。所 以 , h d f s中的数据并没有被实际删除, 这在所有权和管 理权分离的分布式环境中是一个很严重的安全隐患。 别有用心者可以通过数据恢复技术, 恢复出用户删除 的数据, 而用户对这一过程一无所知, 也完全无法 防 范。 2 。 3 h d f s的异构存储环境 h d f s系统是一个异构 的分布式文件系统, 其 可 以支持异构 的主机 构成一个 统一 的文件 系统 。其 中 , 存储的异构特性主要体现在存储介质的不同, 现在主 流存储介质有传统硬盘的磁介质和固态硬盘( s s d ) 的 闪存半导体介质。这两种存储介质由于数据存储原理 不同, 针对其采用的数据销毁技术也不同。 磁介质的存储设备主要是通过电磁原理来存取数 据。在一个扇区中, 磁头通过磁化每个磁粒子来存储 数据 , 每个磁极表示一个 0或者 1状态。每个扇区可 以存储4 0 9 6个这种状态, 也就是 5 1 2 b 。由于磁化后 的边缘残留和不完全磁化的影响, 通常一遍覆盖并不 能完全覆 盖数据 , 通 过专业 的设配通 过分析 硬盘还 是 能将覆盖前的数据恢复。所以选择有效的覆写方法、 覆写次数, 是保证磁盘数据不被恢复的关键。 固态硬盘通过半导体存储介质来存储数据。现在 的主流固态硬盘是采用 f l a s h介质 , 通过叫做“ 浮动门 场效应晶体管” 的晶体管来保存数据。这样的每一个 晶体管叫做一个 c e l l , 每个 c e l l 是通过电荷的充放电来 表示数据的0和 1 。由于固态硬盘的存储原理不同 于磁盘 , 并不会存在剩磁效应, 所以并不需要使用特定 的序列进行多次覆写 。 3 hdf s多安全级数据销毁机制 针对 h d f s不能彻底删除用户存储 的数据的缺 陷, 文中设计了h d f s的多安全级数据销毁机制, 以达 到数据 的安全销毁 。 3 1 数据销毁技术 目前的数据销毁技术大致可以分两类: 硬销毁技 术和软销毁技术 。硬销毁技术主要包括消磁技术 、 物理销毁技术等。硬销毁技术主要是通过对存储介质 的永久性破坏来达到安全要求。虽然硬销毁技术能绝 对保证删除的数据安全, 但是因为完全破坏了存储介 质, 导致设备不能重复使用, 这对于 h d f s是不能接受 的 , 也是基本不能实现 的。 软销毁技术, 主要是通过软件 的方法删除数据。 软销毁技术中的数据覆盖技术可以通过采用特定的覆 写规则和覆写序列覆盖存储介质上的原有数据。虽然 数据覆盖技术在进行一次覆盖后, 由于磁存储介质的 剩磁效应 , 并不能将数据彻底删除。但是通过增加覆 写次数和调整覆写规则, 可以在很大程度上销毁数据, 防止数据被非法恢复。对于 s s d等闪存类存储器, 因 1 3 2 计算机技术与发展 第 2 3卷 为没有剩磁效应, 通过一次覆写就可以达到数据销毁 效果。所以文中采用了软销毁技术 中的数据覆盖技 术 。 目前 , 主流的覆写 标准有 d o d 5 2 2 0 2 2 一 m_ 1 简单 覆写标准 、 d o d 5 2 2 0 2 2 一 m 7次擦 除标 准 、 全零覆写标 准 、 r c mp t s s i t o p s i i 标准和 g u t m a n n 等标准。 不同的标准安全性不同, 同时消耗的资源和时间也不 相 同。 3 2 数据销毁流程 图3给出了 h d f s多级安全级数据销毁流程图。 图 3 h d f s多安全级数据销 毁流程 图 整个流程 和原有 的 h d f s 数据删 除流程的主要 区 别是 : 1 ) 加强的权限认证机制。在进行数据删除之前 要首先根据用户的权限判别用户是否有权进行数据销 毁, 如果用户没有数据销毁权限, 将询问用户是否使用 普通的数据删除。这个过程主要是预防恶意用户通过 使用高安全级别的数据删除策略, 恶意覆写大规模数 据, 导致系统资源被过度使用; 2 ) 根据 d a t a n o d e的存储介质判断使用的数据删 除策略, 而不是使用统一的数据删除方法。由于固态 硬盘没有剩磁效应, 所以固态硬盘使用全零覆写标准 覆写一次就可以达到数据销毁的目的。磁介质则采取 多次数据覆写标准, 如 d o d 5 2 2 0 2 2 一 m等。这样可以 使整个 h d f s 数据删除的效率更高, 不会造成系统资 源 的浪费 ; 3 ) 根据用户的安全需求, 采取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论