(计算机应用技术专业论文)微数据发布匿名技术研究.pdf_第1页
(计算机应用技术专业论文)微数据发布匿名技术研究.pdf_第2页
(计算机应用技术专业论文)微数据发布匿名技术研究.pdf_第3页
(计算机应用技术专业论文)微数据发布匿名技术研究.pdf_第4页
(计算机应用技术专业论文)微数据发布匿名技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)微数据发布匿名技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据发布为数据交换和数据共享提供了便利,数据发布过程中的 隐私泄漏问题也日益突出,隐私保护己成为数据库安全研究的一个新 热点。k 一匿名化是微数据发布环境下保护数据隐私的一种重要方法。 k 一匿名模型赋予匿名数据集以有效抵抗应用环境中可能出现的各类 隐私推理攻击的能力,因此k 一匿名模型的研究已受到理论界和工业 界的广泛重视。论文对微数据发布场景中的隐私泄露问题进行研究, 主要工作和贡献包括: 针对k 一匿名模型中存在的过度泛化、潜在的隐私泄露等问题, 本文提出了一种基于多维泛化路径的多维局部重编码方法,以及相应 的两种k 一匿名算法,包括完整f i l t e rk - 匿名算法和部分f i l t e rk 一匿 名算法,并与d a t a f l y 算法和i n c o g n i t o 算法进行了实验对比,结果表 明完整f i l t e rk _ 匿名算法在数据精度上有很大提高,部分f i l t e rk _ 匿名算法具有很高的执行效率。 针对k 一匿名、l d i v e r s i t y 等匿名模型无法解决的多敏感属性数 据发布时存在的隐私攻击和泄露问题,本文提出了( 岛s ) 匿名模型及( 以 s ) 匿名算法。实验结果表明( 屯s ) 匿名算法是一种高精度的算法,使待 发布的匿名数据集具有防范多敏感属性隐私攻击的能力,具有实际应 用性。 本文提出一种基于匿名覆盖率的匿名代价度量c ,c 度量相比其 它度量能更加精确地计算匿名代价,并在计算时加入了均衡因子,可 以在某些特殊情况下减少匿名计算偏差。 最后,文章分析了k 一匿名及其相关研究中尚未解决的问题,展 望了k 一匿名及其相关技术的未来发展趋势。 关键词隐私保护,微数据,数据发布,k 一匿名,匿名代价度量 a b s t r a c t m i c r o d a t ap u b l i c a t i o no f f e r sm a n yk i n d so fp u b l i cd a t aa c c e s s s e r v i c e st h a tc a n n o tb e e a s i l yp r o v i d e dw i t h o t h e rd a t aa c c e s s t e c h n i q u e s p r i v a c yi so n es e r i o u si s s u ew i t h i nm i c r o d a t ap u b l i c a t i o n k a n o n y m i z a t i o ni st h em a i nt e c h n i q u eu s e d t o i m p l e m e n tp r i v a c y p r e s e r v a t i o nd u r i n gm i c r o d a t ap u b l i c a t i o n k a n o n y m i t ym o d e la i m st o g r a n t i n gt h ea n o n y m i z e dm i c r o d a t ap r i v a c yi n f e r e n c e p r o o fa b i l i t y t o s o m ee x t e n t t h eq u a n t i t a t i v ee x p l o r a t i o no nt h i sp r i v a c yp r e s e r v a t i o n a b i l i t yo nk a n o n y m i z e dd a t ai si n d i s p e n s a b l ef o rt h ew i d ea p p l i c a t i o no f t h i sm o d e “nr e a lp u b l i ce n v i r o n m e n t t h i sp a p e ri si nt h i st o p i cr e s e a r c h , t h em a i nr e s e a r c he f f o r t sa r ea sf o l l o w e d : 1 1 1 i sp a p e ri n t r o d u c e sam u l t i - d i m e n s i o n a ll o c a lr e c o d i n gm e t h o d b a s e do nt h em u l t i d i m e n s i o n a lg e n e r a l i z a t i o np a t ha n dp r o p o s e st w o r e l a t e dk - a n o n y m i t ya l g o r i t h m s ,n a m e l yf i l t e rk a n o n y m i t ya l g o r i t h m a n d p a r t i a l f i l t e r k a n o n y m i t ya l g o r i t h m t h e t w ok a n o n y m i t y a l g o r i t h m s c a n p r e v e n t t h e p o t e n t i a lp r i v a c y d i s c l o s u r ed u et o o v e r - g e n e r a l z a t i o na n do t h e rp o s s i b l ep r i v a c yv i o l a t i o n s i nc o m p a r i s o n w i t hc l a s s i cd a t a f l ya n di n c o g n i t oa l g o r i t h m ,t h et w oa l g o r i t h m so f f e r m o r ee f f i c i e n c yf o rb o t hr e d u c i n ga n o n y m i z a t i o nc o s ta n di m p r o v i n gd a t a p r e c i s i o n af o r m a lm u l t i p l es e n s i t i v ea t t r i b u t e sm i c r o d a t ap u b l i c a t i o nm o d e l i s d e f i n e d ,n a m e d ( 七,s ) - a n o n y m i t y i tw o r k sb e y o n de x i s t e dk - a n o n y m i t y m o d e la n dl d i v e r s i t ym e c h a n i s m ,w h i c hc a ne f f e c t i v e l yp r e v e n t m u l t i p l e a t t r i b u t e dp r i v a c y v i o l a t i o n s t h e c o r r e s p o n d i n g ( 岛 s ) a n o n y m i t yi m p l e m e n t a t i o na l g o r i t h mi sp r o p o s e d t h i sp a p e rp r o p o s e san e wa n o n y m i z a t i o nc o s tm e t r i c ( ob a s e do n t h e a n o n y m i z a t i o nc o v e r a g e r a t i o t h i sm e t r i cc a n e x p r e s s s o m e a n o n y m i z a t i o nb i a s e sw i t ht h ef a c t o ro ne a c ha t t r i b u t e i nq , w h i c hi s u s e a b l ei ns p e c i a ls i t u a t i o n s a tt h ee n do ft h i sp a p e r ,s o m eu n s o l v e dp r o b l e m sa n df u t u r e r e s e a r c hd i r e c t i o n sa r ed i s c u s s e d 1 1 k e yw o r d s p r i v a c y p r e s e r v a t i o n ,m i c r o d a t a ,d a t ap u b l i s h i n g , k a n o n y m i t y , a n o n y m i z a t i o nc o s tm e t r i c 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 。共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:童瞌挺 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 期:址年上月卑日 硕士学位论文第一章绪论 1 1研究背景 第一章绪论 随着互联网的迅猛发展,为了方便、快捷地享用互联网所提供的各种信息服 务,人们需要给其提供一定量的个人信息,因此在各种信息网络编制成的虚拟空 间中,信息组织与管理的数据库包含的个人隐私信息越来越多,当前应用中出现 了大量隐私泄露和攻击行为使得隐私保护技术的研究受到了高度重视,数据库隐 私保护已成为了信息安全领域一个亟待解决的问题【1 2 , 3 1 。 一般说来,个人隐私具有三种形式【4 】:一是个人空间,为有形的隐私;二是 个人私事,为动态的隐私;三是个人信息,为无形的隐私。个人领域处于外层, 已经引起政府、企业和个人的重视,国外已经有相关的隐私保护法律法规和行业 自律条款i l 】。个人隐私的核心是有效地保护个人信息,获取个人信息必须事先经 过批准且使用公正手段,数据用户使用个人数据必须限定在批准范围内。2 0 0 2 年i b m 智能实验室认定数据库管理系统( d b m s ) 应该在个人信息保护中起重要 作用,将个人隐私保护交给数据库管理系统集中解决,提出了数据库隐私保护这 一概念,开创了个人隐私保护技术的新纪元。数据库隐私保护的目标是在数据库 层提供个人对其私人信息访问描述和控制的权利,实现对个人隐私的集中控制, 即在数据库层确保个人隐私信息的合理收集、使用和分发【坛5 一。 同时,隐私保护的访问控制技术要求在传统访问控锘l j ( a c c e s sc o n t r o l ,a c ) 基础上提供对隐私数据访问目的控制机制,以满足当前数数据库上的个人隐私信 息保护的需求f 7 , 8 1 。在医疗、投票、求职等微数据发布应用场合,个人信息所有 者要求数据拥有者在公开微数据时又要保证隐藏个人标识信息并确保这些公布 后的数据不能推导出相关患者、投票人、求职人的隐私信息,因此微数据发布隐 私保护具有极其重要的意义,本文主要关注隐私保护中的微数据发布技术 ( p r i v a c yp r e s e r v i n gm i c r o d a t ap u b l i c a t i o n ) ,简称为微数据发布。 1 2国内外研究现状 1 2 1 隐私保护概述 “隐私 最初出现在哈佛大学法学评论第4 期隐私权这篇文章中, 当时的隐私保护概念主要是针对于照相和出版技术【1 9 1 。隐私保护经历了媒体隐 t r y ( m e d i ap r i v a c y ) 、空间隐私( t e 玎i t o r i a lp r i v a c y ) 、生活隐私( b o d i l yp r i v a c y ) 、通 硕士学位论文 弟一草绪论 讯隐私( c o m m u n i c a t i o np r i v a c y ) 和信息隐私( i n f o r m a t i o np d v a c y ) :1 _ 个阶段1 9 1 。 从隐私保护的需求角度来看,当前隐私保护可分为面向用户的隐私保护和面 向数据的隐私保护【5 1 。面向用户的隐私保护主要从用户角度考虑个人隐私信息的 保护,也就是保护数据库使用者相关涉及隐私的敏感数据和某些敏感行为( 例如 查询或者删除某些数据) 。面向用户的隐私保护与不同用户、具体应用环境、各 种法律法规等有着的密切关系。全面的面向用户的隐私保护需求主要包括四个方 面:用户的匿名性( a n o n y m i t y ) 、用户假名性( p s e u d o n y m i t y ) 、用户行为不可观察 性哪n o b s e r v a b i l i 够) 和用户行为不可链接性( u i l l i l l l ( a b i l i 够) 6 0 1 。 面向数据的数据库隐私保护主要考虑如何保护数据所表达的隐私信息,即将 一些隐私保护机制应用于相关敏感数据上以消除由数据访问所引发的隐私泄露 等问题,一般通过在这些数据之上添加某些标签( 如数据使用目标【8 , 1 0 ) 或者通过 某些专门处理( 如匿名化【1 1 1 ) 达到上述目标。面向数据的隐私保护是目前隐私保护 研究的重点,本文讨论的是面向数据的隐私保护,考虑如何保护存储在数据库中 的个人隐私信息,即在能够直接或间接的反映隐私信息的数据之上建立一些保护 隐私信息的相关机制。 从隐私保护的技术角度看,当前隐私保护可分为受限访问型 ( a c c e s s - r e s t r i c t e dt y p e ) 隐私保护和自由访问型( a c c e s s f r e et y p e ) 隐私保护。受限 访问型隐私保护主要基于成熟的传统访问控制模型和策略【1 2 , 1 3 ,考虑隐私保护的 需求及其实现;自由访问型隐私保护主要基于统计数据库安全保护技术,深入研 究了其实现策略和模型,随着数据挖掘技术和数据仓库的日益成熟,自由访问型 隐私保护的应用需求也随之高涨 1 4 , 1 5 】。 自由访问型隐私保护的数据发布技术可分为表数据发布和微数据发布。表数 据是通过对收集的原始数据进行相应的统计处理之后形成的非原始性的统计计 数的结果,属于传统的数据;微数据是一条表达和描述个体信息记录的集合,基 本包含所有原始调查数据信息。微数据是表数据的基础,表数据是对微数据的一 种聚合,因此它包含的信息量远小于原始数据。当前统计数据发挥的作用越来越 大,与统计数据有关的研究越来越多,表数据的发表远远不能满足统计机构等科 研机构的需求,因此发布这些微数据可以弥补仅发布统计或者宏观信息的不足, 提供更细致、更准确的信息,给研究工作和政策制定带来方便。如果将微数据不 经处理进行就直接进行发布将会对数据来源个体造成隐私泄露,因此对微数据的 隐私保护具有极其重要的意义。 1 9 9 7 年美国卡基梅隆大学的s a m a r a t i 和s w e e n c y 博士首先研究用于公共数 据库或微数据发布的匿名隐私保护算法并在2 0 0 2 年命名为k 一匿名算法【1 4 】;2 0 0 4 年美国普度大学提出了关系数据库模型下的隐私保护访问控制的实现方案,并于 2 硕士学位论文第一章绪论 2 0 0 5 年提出隐私数据库是下一代数据库的关键技术1 2 ,1 6 】;2 0 0 4 年斯坦福大学在美 国自然科学基金资助下联合耶鲁大学、微软、美国统计局等5 所大学、7 家公司 和两个政府研究机构成立了p o r t i a ( p r i v a c y ,o b l i g a t i o n s ,a n dr i g h t si n t e c h n o l o g i e so f l n f o r m m i o n a s s e s s m e n t ) 项目组,分5 年计划从隐私保护数据挖掘、 隐私策略描述语言和控制、身份验证与隐私保护和可信管理平台这四个方面对隐 私保护技术进行研究。同时,在信息系统隐私保护方面,国内已开始关注。例如, 北京科技大学管理学院梅绍祖教授在2 0 0 3 结合国家自然科学基金课题“电子商 务流程重组和网上银行风险研究 首先在国内提出了网络隐私权保护的三大问 题,并提出了个人信息收集最小化和收集的个人数据要有不可传递性的观剧1 7 】; 在数据库隐私保护层,2 0 0 4 年北京大学的“面向隐私保护的数据挖掘方法研究 国家自然科学基金课题,开始对隐私保护数据挖掘进行研究。但是结合隐私保护 展开对d b m s 的框架结构、查询引擎实现技术和数据发布中的隐私保护研究在 国内还刚刚开始。 1 2 2k - 匿名研究概述 对统计数据库( s t a t i s t i c a ld a t a b a s e ,s d b ) 的研究始于上世纪7 0 年代,研究在 获得有用信息的同时避免引发隐私泄露行为,即均衡数据的可用性( a v a i l a b i l i t y ) 和保密性( c o n f i d e n t i a l i t y ) 。统计数据库包括两类数据:关系表形式的数据和个体 相关记录( i n d i v i d u a lr e s p o n d e n tr e c o r d s ) 的微数据集【1 8 , 1 9 。在统计数据库中,虽 然学术界已经提出了很多的可用方法用于防范微数据发布中的隐私泄漏问题,但 在具体实践中依然存在很多潜在的隐私泄漏问题有待解决。例如,联合已发布数 据和已知的外部信息高准确率的推导出某些个体标识信息【2 0 】。微数据发布属于自 由访问型隐私保护,具备此类型的典型特征:对不同数据访问者提供了相同的自 由访问权限,所以存在通过已发布微数据来推导出个体隐私信息而导致隐私泄漏 的可能,微数据发布隐私保护的主要目标是防范通过已发布的微数据集重标识 ( r e i d e n t i f y i n g ) 个体或者精确匹配个体敏感信息。 k 匿名是微数据发布隐私保护技术中一个非常重要的模型,在匿名化的过程 中需要能够保护个体信息隐私同时尽量提高数据的可用性【2 1 1 。由于已经证明了基 于一个原始多属性数据集导出最优的k 匿名数据集是一个p 难题1 2 z , 2 3 1 ,目前研 究重点是寻找近似算法使之有效地匿名化原始数据达到近似最优。实现k - 匿名 的方法有多种,其中最受关注的是采用泛化( g e n e r a l i z a t i o n ) 和抑$ ! j ( s u p p r e s s i o n ) 两种重编码方法【l4 1 ,因此为了能够在隐私保护和数据可用性之间达到一个良好的 平衡,在k 匿名的相关研究中需解决以下几个问题【2 0 , 2 4 1 : 1 ) 设计一种能够很好地解决微数据发布中隐私攻击和泄露问题的匿名模 3 硕士学位论文弟一草辖论 型。要实现此模型,需要在对数据库隐私保护进行深入研究,并结合数据发布的 具体应用场景,对于数据发布、个体隐私保护需求以及潜在的攻击提出合理的假 设,并在假设的基础上给出隐私保护的基本模型。 2 ) 提出一个最优的匿名代价度量。在k 匿名中,判断匿名数据集是否最优 或比其它匿名数据集更优的标准就是匿名代价度。匿名代价是原始数据集经过泛 化或者抑制而损失的部分或者全部的信息之和。如果一个匿名数据集具有最小或 较小的匿名代价,那么这个匿名数据集就认为是最优的或较优的。目前常用的匿 名代价度量是基于匿名单元数目或属性的层次型泛化树及泛化高度比f 1 4 2 - 2 ) - 3 1 ,在 研究中发现这些度量方式不能精确地描述真实的数据匿名代价【2 5 1 ,一个实时的精 确的匿名代价度量是与很多因素相关的。 3 _ ) 更好的匿名化方法。实现匿名化的方法有很多种,在选择的时候主要考 虑到方法实现的复杂性、方法执行中的可控制性和方法执行后对于数据分析的影 响。现有的k 匿名研究主要是采用泛化和抑制的方法,但是采用其它方法实现 k 匿名的研究在近几年同样引起了研究者的注意。 4 ) 防范多个敏感属性上的联合推理攻击。一般k 匿名模型假设只有单个敏 感属性或者将多个敏感属性简单的归于多个单属性的投影叠加,这些简化手段潜 在滋生了联合多敏感属性进行推理攻击的问题1 6 0 1 。 1 3研究内容和贡献 论文首先分析了数据库隐私现有的主要技术,然后在微数据发布这一应用场 景下,研究了微数据发布过程中的隐私保护相关问题,指出了微数据发布隐私保 护模型中需要解决的若干关键问题,包括信息泄露风险度量、信息损失度量和隐 私泄露控制技术,并归纳、总结了现有微数据发布隐私保护技术的特点。论文分 析了k 匿名模型中需要解决的两个关键问题:重编码方法和信息损失度量,并 深入分析了k 匿名模型及类似模型中存在的多敏感属性下的隐私泄露和攻击问 题。 为了避免k 匿名中的过度泛化问题,本文提出了一种基于多维泛化路径的 重编码方法,实验证明该编码方法具有支持泛化层次结构、高灵活性和高可用性 等特点。同时,为了解决目前匿名模型中存在的多敏感信息泄露问题,论文结合 相关隐私技术的发展趋势,提出了一种能够解决多敏感属性下微数据发布隐私信 息泄露的( 屯5 ) 匿名模型,文章给出了此模型的形式化描述以及相应的算法。 本文的主要贡献在于: 1 ) 针对k 一匿名模型中存在的过度泛化、潜在的隐私泄露等问题,提出了一 种多维局部重编码方法替代全子图编码方法,并提出了完整f i l t e rk 匿名算法和 4 硕士学位论文第一章绪论 部分f i l t e rk 匿名算法,通过与d a t a f l y 算法和i n c o g n i t o 算法进行实验对比,结 果表明完整f i l t e rk 匿名算法在数据精度上有很大提高,而部分f i l t e rk 匿名算 法具有很高的执行效率。 2 ) 针对k 匿名、l d i v e r s i t y 等匿名模型无法解决的多敏感属性数据发布时 存在的隐私攻击和泄露问题,提出了( 毛s ) 匿名模型及( 毛s ) 匿名算法。( 毛s ) 匿名模 型继承了k 匿名模型简洁、有效的特点,实验结果表明( 毛s ) 匿名算法是一种高 精度的算法,可以使得待发布的匿名数据集在多敏感属性时具有防范隐私攻击的 能力,具有实际的应用性。 3 ) 论文分析了属性的推理关系,并基于匿名覆盖率a c r 提出了一种新的匿 名代价度量c ,c 度量能够计算出实时的匿名代价度,同时计算时加入了均衡因 子,在某些特殊情况下可以减少匿名计算偏差。 1 4论文组织 第二章从数据库隐私保护的整体出发,总结并分析了现有的主要隐私保护技 术,包括隐私保护框架、基于目的隐私访问控制技术、隐私保护数据挖掘技术等。 在这些理论的基础上,清晰地勾勒出了现有隐私保护技术的整体框架。在第二章 的第二部分中,分析了微数据发布隐私保护技术的研究背景和核心问题,概括了 现有的主要技术的特点并对各种技术进行了分析比较,最后主要介绍了用于微数 据发布隐私保护的k - 匿名模型,文章介绍了k 匿名模型的由来,讨论了k 匿名 模型形式化的定义,并着重分析了匿名代价度量方法与匿名化算法等问题。 第三章分析了准标识属性的重编码问题,介绍了单维和多维编码方式和各自 特点。通过分析目前的编码方法的缺陷,提出了基于多维泛化路径的多维属性局 部重编码方法及其实现算法,包括完整f i l t e r 和部分f i l t e r 算法。 第四章分析了多敏感属性下的隐私保护需求和现有k 匿名模型中的缺陷, 提出了属性推理攻击理论和更精确的匿名代价度量c ,并提出了阮j ) 匿名模型来 解决多敏感属性微数据发布下的隐私攻击和泄露问题。 第五章对第三章和第四章所提出的算法分别进行了实验验证和分析,主要作 了以下两组实验:第一组实验是验证基于多维泛化路径的k 一匿名算法的正确性 和有效性;第二组实验是验证傀s ) 匿名算法的正确性和有效性。 第六章对论文进行总结,讨论了一些尚未很好解决的k 一匿名相关问题并列 举了未来相关领域研究的方向。 5 硕士学位论文 第二章数据隐私保护技术 第二章数据隐私保护技术 本章的内容可以分为三部分,首先概述数据库隐私保护相关研究成果,然后 介绍微数据发布隐私保护技术的背景知识和核心问题,概括了常用的数据预处理 技术并对这些技术进行了分析比较,最后重点介绍k 匿名研究基本知识、主要 动机、当前相关应用及研究成果和存在的问题。 2 1数据库隐私保护技术研究 2 1 1 数据库隐私保护框架 上世纪7 0 年代末就开始了对个人敏感信息保护技术进行研究,如统计数据 库安全保护中的查询限制、多级安全数据库技术等。隐私保护是数据安全的一种 扩展,即在保证用户数据的机密性( c o n f i d e n t i a l i t y ) 、完整性( i n t e g r a l i t y ) 和可用性 ( a v a i l a b i l i t y ) 的同时还需要具有对用户偏好的支持、对如何执行职责的支持和对 隐私策略一致性监测的支持等【6 , 2 6 1 ,也就是具有隐私保护功能的数据库系统除了 继承数据库安全技术外,还需要考虑数据被收集的目的,需要允许用户或者用户 的委托人对个人隐私数据保护的机制进行检验,需要保护用户的某些隐私行为。 目前,数据隐私保护技术大致可以分为数据收集、隐私保护访问控制、隐私 保护数据发布、隐私保护数据挖掘和私密信息检索这几个部分。每种保护技术彼 此依赖,共同构成了整个数据隐私保护框架,如图2 1 所示: 图2 1 数据隐私保护技术框架 6 硕士学位论文第二章数据隐私保护技术 “数据隐私保护框架”这一概念是i b m 智能系统实验a g r a w a l 等人提出的, 在2 0 0 2 年的v l d b 会议上,他们给出了以目的访问控制为中心的隐私数据库框 架s t r a w m a n ;数据隐私保护框架的另一种形式是基于d b m s 的细粒度访问控制 ( f i n e g r a i n e da c c e s sc o n t r o l ,f g a c ) 技术f 27 】来实现个人隐私信息的保护。例如, o r a c l e 中的虚拟数据库技术就是在查询引擎中通过调用用户定义的限制函数来 嵌入对表对象中个人隐私数据的保护。 2 1 2基于目的隐私访问控制技术 隐私保护中的访问控制【8 】始于数据安全领域,但两者不同。传统的访问控制 的核心是权限,无论是在用户权限模式还是角色权限模式下,数据的访问权限都 是和当前用户或者用户所拥有的角色绑定的;隐私保护的访问控制的核心是保护 隐私数据。目前传统的访问控制模型并不能很好的完成隐私保护的任务,由于传 统的访问控制落脚于控制用户对数据执行什么操作而不是隐私策略所关心的数 据用于什么目的。另外,每个人对各自数据是否涉及隐私及其程度的看法也不同, 这也是传统访问控制模型所不能支持的。 2 0 0 4 年普度大学的学者提出了一种在访问控制模型中引入目的的隐私保护 模型( p b a c ) 。p b a c 模型中使用“计划目的和“访问目的建立隐私策略的 层次结构。计划目的是说明数据的使用用途,即隐私策略对数据的简要概括,并 指出数据可以用于哪些用途的访问;访问目的用于说明数据元素被访问的用途。 p b a c 模型最主要的特点是明确指定数据不能被哪些目的访问以及目的之间的 层次化关系,即支持显式禁止和隐私策略的层次化管理。在p b a c 模型中把一个 目的或者目的集合与数据库中的表对象、表中的列对象、表中的元组对象、元组 中的数据项对象等联系起来,以提供对不同粒度的个人隐私控制要求。p b a c 模 型与多级安全1 2 s 相比,每个数据项都和一个目的集联系,目的组成一个层次结构 能够动态地发生改变,因此,与传统的多级安全系统相比,p b a c 模型提供更加 灵活、更加复杂的隐私保护要求。 2 0 0 5 年a g r a w a l 等人提出了基于f g a c 来实现基于目的隐私数据保护解决 方案 7 1 ,此方案通过f g a c 限制条件描述个人隐私控制信息,通过f g a c 访问控 制修改查询对象为相应的视图对象,细粒度限制条件分为关系表中的行级和元素 级的数据项,查询引擎在执行时通过分析f g a c 限制条件,修改查询对象为相 应的隐私授权视图来保护个人隐私信息。 基于目的访问控制的隐私保护模型考虑如何把计划目的和具体数据关联起 来,因此要求在数据字典中建立相应的隐私元数据模型,并基于这个数据模型设 计一个合适的标签模式。目前基于目的访问控制模型可以保护数据主体的隐私信 7 硕士学位论文第二苹数据隐私保护技木 息,访问策略都是二元的:拒绝或允许。新一代的隐私数据访问控制模型应该在 下面方面扩展:( 1 ) 数据库中信息隐私保护应该因具体应用环境而异;( 2 ) 使用数 据泛化的方法提高数据的可用性,尽量满足数据使用者的要求。 2 1 3 隐私保护的数据挖掘技术 数据挖掘( d a t am i n i n g ) 技术就是通过对大量的原始数据进行分析、处理以获 取数据中有效的、新颖的、潜在有用的新知识的方法。数据挖掘可以提取一些难 以从数据集上直观得到的新信息,因此数据挖掘技术应用非常广泛,但是在挖掘 过程中可能会产生一些导致隐私泄露的敏感知识1 2 9 1 ,通常数据挖掘的原始数据已 经移除了个人隐私信息,但是数据挖掘技术也可能会还原这些隐私信息,因此需 要对敏感挖掘结果进行保护,减少由此而带来的隐私破坏。研究数据挖掘中的隐 私信息保护技术具有非常重要的意义,这就要求设计的d b m s 在保护隐私和隐 私信息主体的同时,又可以不妨碍信息流的正常传输【3 0 1 。 隐私保护数据挖掘中常用的技术是分离鉴另l j ( d e i d e n t i f i c a t i o n ) 、随机扰动技 术、使用加密技术执行安全的多方计算和匿名隐私保护技术 3 0 , 3 。其中随机扰 动技术的效率很高,但是需要均衡客户隐私保护和挖掘结果的正确性,客户的安 全级别越高,挖掘结果的正确性就越低,反之亦然;加密技术虽然可能在不降低 正确性情况下,进行有效的隐私保护,但是加密协议要根据具体的挖掘任务设计, 除非使用成本很高的安全多方计算,否则不具有一般性;匿名隐私保护技术可 以在缺少信任第三方的情况下,对大量来自客户的信息进行在线收集。匿名隐 私保护技术的优点在于:数据收集者得到的是真实的数据,可以自由的使用各种 挖掘算法对数据进行处理。这里的匿名隐私保护与卡基梅隆大学的s w e e n e y 博 士提出的k 匿名十分相似,但是还存在着不同之处:在k - 匿名中,信息匿名是 最终目的,而在匿名隐私保护中,确保数据提交程序的匿名是唯一需要考虑的 问题。 目前,数据挖掘隐私保护技术通常考虑的问题是数据库返回结果的正确性。 因此如果对数据进行太多的修改,数据将不具备有效性。 2 1 4推理和查询处理技术 推理问题指如何通过不敏感的数据或者元数据准确或以相当高的概率推断 出敏感数据1 3 2 3 3 1 。为解决潜在的推理问题所引发的隐私泄露,当前研究成果主要 有以下两方面: 1 ) 在多级安全数据库中,通过在数据库设计阶段检测推理通道或者在查询 处理阶段排除推理通道来实现推理控制避免隐私泄漏【3 2 】。 2 ) 在通用数据库中,提出了对数据库推理闯题形式化描述,同时提出了要 8 硕士学位论文 第二章数据隐私保护技术 有对推理算法进行评估的方法,例如最小限度的偏序泄露、对现有的数据仓库进 行分类、通过知识发现防止推理等【3 3 】。 前者的缺点是对数据分级过多从而影响了数据的有效性,后者的缺点是动态 推理、检测的复杂度等都会影响查询执行效率。总之,推理问题是当前数据库安 全领域的一个很微妙弱点,推理控制的目标是防止攻击者通过间接的方式获取被 攻击者的数据或隐私信息。 2 2微数据发布隐私保护技术研究 2 2 1背景知识 微数据是一条表达和描述个体信息记录的集合,这些信息包括个体的标识信 息( 如姓名、身份证号等) 、敏感信息( 如药物敏感等) 及一些非敏感信息( 如年龄等) 。 每条信息都以个体属性和相应的属性值匹配的方式成为微数据的某个分量。例 如,( n a m e = r o s e ,b i r t h d a t e = 0 4 2 5 - 4 1 ,s e x = f ,z i p c o d e = 1 3 0 7 1 ) 就是一条记录了 r o s e 的名字、出生日期、性别、和邮编信息的微数据。微数据可能造成的最基 本的隐私泄露是个体身份的泄露,微数据发布就是将微数据集通过某些技术手段 处理之后,发布到公共数据库中用于大众统计和通用查询【1 8 , 1 9 ,公共数据库不需 要提供对已发布微数据的访问权限限制。因此,微数据发布具备自由访问型隐私 保护类型的典型特点:对不同数据访问者提供了相同的自由访问权限。 微数据发布隐私保护技术的目的是防止攻击者根据发布后的微数据集推导 出潜在的隐私信息。类似于数据挖掘中隐私保护技术,数据发布隐私保护的典型 方法也是分离鉴别和随机过程扰动技术1 3 5 1 。分离鉴别就是把数据中所有可能涉及 隐私的内容分离出去,然后再发布。但是如何准确地找出这些可分离的信息也十 分困难,即使找到了这些信息,也有可能会丧失发布数据的可用性1 1 4 】;随机过 程扰动技术来自于统计数据库安全技术,其中包括数据抑制、数据泛化、数据交 换、插入噪音数据等用于统计数据库的数据安全技术1 2 3 , 3 6 | ,将在2 2 4 详细介绍。 2 2 2 信息泄露风险度量 信息泄露风险是指攻击者通过获取已知信息,推断出目的信息的可能性。例 如,标识信息泄露风险是攻击者获取已发布数据,推断出某条记录真实身份的可 能性。隐私保护的目的就是为了通过对数据进行预处理来减少这种泄露的风险, 因此,信息泄露风险度量在隐私保护中具有重要意义。 微数据发布中的标识信息泄露问题属于记录联接f 3 7 l ( r e c o r dl i n k a g e ) 范畴,记 录联接指的是在两个具有共同属性的记录集之间发生匹配的情况。微数据发布中 主要存在两种信息泄露风险度量:概率型记录联接( p r o b a b i l i s t i cr e c o r dl i n k a g e ) 9 硕士学位论文 第二苹数据隐私保护技木 的度量【3 7 l 和基于距离的记录联接( d i s t a n c e b a s e dr e c o r dl i n k a g e ) 度量。 1 ) 概率型记录联接的度量是指某数据源彳有n a 条记录,某数据源b 有 b 条记录,口中的每一条记录都可能与彳中的任一条记录发生匹配,两个数据源之 间共存在刀x n b 种可能发生匹配需要进行判断。彳中的记录a 和b 中的记录b 的 一致性度量是一个函数a 和6 的二元函数,通过设置关键的阀值就可以将记录组 标记为匹配的、未确定的和不匹配的,从而可以判断出泄漏风险度。 2 ) 基于距离的记录联接度量是指首先计算数据源彳中的任一条记录a 与数 据源中的每一条记录的距离,然后从这些距离值集中选取两个与彳中记录a 距离 最接近的值,如果这两个值中存在与a 发生真实匹配的记录,那么a 的匹配就是 正确的,否则就是错误的。此度量方法关键是对不同类型、不同取值范围的变量 定义标准化的距离计算方法和对不同的属性设置合适的权值,所以基于距离的计 算方法在计算上更加复杂一些,但是研究者d e y 认为基于距离的度量方法比基 于概率型度量方法,具有更好的鲁棒性1 3 阳。 2 2 3信息损失度量 微数据发布的隐私保护必须均衡泄露风险和数据的可用性这个两个方面,隐 私保护技术需要对原始微数据进行预处理,因此造成了信息损失( i n f o r m a t i o n l o s s ) r 降低了数据的可用性( d a t au t i l i t y ) 。信息损失的原因主要有两个方面:一 是修改后的数据比原始数据更加粗糙、含有更少的有效信息;二是原始数据预处 理时进行了抑制或加入了噪声等。后者对数据有效性影响更大。对数据进行预处 理时有可能将一些错误的信息注入到结果数据中,从而影响数据的可用性,因此 必须尽可能地降低这种错误的产生。 计算信息损失的方法多种多样,基于信息熵是一种经典的信息损失度量方 法。基于信息熵理论来计算信息损失是指通过对比原始数据和修改后的数据的信 息熵来计算处理造成的信息损失度,这种计算存在不足之处:信息熵完全从客观 角度进行信息损失度量,而数据的有效性在具体应用环境中具有不同要求。因此, 对于不同的应用需求,需要定义具体的信息损失度量方法。例如:对于采用泛化 和抑制来修改数据的方法可以通过计算泛化和抑制发生的次数和强弱来进行评 估【3 9 1 ;在k 匿名模型中通过度量匿名化后生成的匿名组大小来计算信息损失, 如辨别度度量标准【4 0 l ( d i s c e m i b i l i t ym e t r i c ) 。 每种方法都具有各自优缺点,不存在每种应用环境下都能通用的且能精确计 算出信息损失的方法。因此,选择信息损失度量方法时要考虑特定的应用环境和 数据采用的预处理方法。 1 0 硕士学位论文第二章数据隐私保护技术 2 2 4隐私泄露控制技术 现有微数据隐私泄露控制技术常用的有:数据泛化( g e n e r a l i z a t i o m f l 4 、子 采样( s 锄p l i n 曲【4 1 1 、去标识删、r e c o r d i n g t 4 2 1 、数据交换( s w 印p i n g ) 【4 3 1 、数据抑制 ( s u p p r e s s i o n ) t 1 4 m 5 0 l 、微聚合( m i c r o a g g r e g a t i o n ) 【1 8 ,聊、插入噪音数据【4 5 1 等。在这 些技术中,k 匿名模型常用的是泛化和抑制。 1 ) 泛化是指对原始数据进行修改,使得发布的结果数据相比原始数据含有 更少的信息,以防止成功的推理攻击,同时较好的保证了数据的统计特性和可用 性【1 4 彤l 。 2 ) 子采样是指发布后的结果数据中并不包括所有的原始数据,而是原始数 据的部分样本【4 。减少发布数据的数量,使大部分隐私数据不会发生泄露,同时 随着样本容量的减少,对原始数据的分析工作量增加。子采样方法要求在采样过 程中尽量多地保存原始数据集中的有用信息,提高数据的可用性,但此方法不适 合于广泛应用,同时也存在基于样例数据的推理攻击破坏行为。 3 ) 去标识是指去除表中的个体标识属性,但同样存在个体再标识的推理攻 击,这种方式在数据发布中过于简单、易于失效,一般作为最基本的数据发布手 段或作为数据发布处理过程的第一个环节【删。 4 ) r e c o r d i n g 是指降低微数据的粒度来实现隐私推理保护,其本质就是减少 发布数据的信息含量使之不能造成隐私推理攻击或破坏。 5 ) 数据交换是指将原始数据中不同记录的某些属性值进行交换,将交换后 的数据用来发布以达到隐私保护的目的,其核心是在保证统计属性在一定程度上 不变的前提下,通过交换数据值使得交换后的数据无法与原始记录一一对应,提 高了数据的不确定性。但是如何在交换过程中尽可能多的保持原始数据集的统计 信息,特别是原始数据某些子集上的统计信息是当前数据交换技术研究的重点。 6 ) 数据抑制是指从原始数据表中直接删除一些属性值或记录,以避免这些 记录造成的隐私泄漏【5 0 l 。 7 ) 微聚合是指将原始数据集中属性取值接近的多条记录聚合在一起形成 簇,每一个簇组成一个等价类。将每一个簇计算出用来代表这个簇的聚合值( 通 常是将原始数据集聚合成大小相同的簇,每个簇使用其属性平均值作为此簇的聚 合值) ,在发布的时候只发布聚合值,从而降低了隐私泄露的风险。微聚合是适 合于处理数量型数据的方法。在微聚合方法中,如何进行聚集、计算聚合值是当 前微聚合技术研究的重点。 8 ) 插入噪音数据是指在原始数据中加入一些扰动,使得新数据与原始数据 产生差异,从而减少了隐私攻击的可能性,插入噪音数据是一种常用的数据扰动 技术,其最大的优点是:可以通过分析原始数据集的数据相关性,在扰动的过程 硕士学位论文 第二章数据隐私保护技术 中添加与之相符的噪音,从而保证新数据集中的数据相关性与原始数据基本保持 一致。插入噪音数据的核心思想是在保持原始数据相关性和统计不变的前提下, 通过降低某一具体条目上的信息准确性,来降低隐私推理攻击。插入噪音数据的 方法,适合于处理数量型数据,对于范畴型数据会产生较大的噪音。如何选取合 适的噪音强度是插入噪音数据技术研究的主要问题。 2 3k 匿名模型研究 2 3 1什么是k 匿名 k - 匿名的提出有着明确的应用背景,在医疗、投票、求职等众多微数据发布 的应用场合中,即要保证隐藏个人标识信息又要确保这些发布后的数据不能推导 出相关患者、投票人、求职人的隐私信息,因此对微数据的隐私保护具有极其重 要的意义,k 匿名是微数据发布隐私保护中最主要的模型。当数据发布到公共数 据库后,数据所有者不能控制数据的使用方式和范围,通常使用去标识作为最基 本的数据发布手段,即移除所有涉及个体标识的数据项信息( 如身份证号码) ,但 是只移除诸

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论