(计算机应用技术专业论文)基于隐私保护的分类规则挖掘问题研究.pdf_第1页
(计算机应用技术专业论文)基于隐私保护的分类规则挖掘问题研究.pdf_第2页
(计算机应用技术专业论文)基于隐私保护的分类规则挖掘问题研究.pdf_第3页
(计算机应用技术专业论文)基于隐私保护的分类规则挖掘问题研究.pdf_第4页
(计算机应用技术专业论文)基于隐私保护的分类规则挖掘问题研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘楚数据库研究领域中最活跃盼分支之,在秘学研究和银行、电信,保狳、零 售等艨耀领域囊嚣驭得了缀多的成皋。但数揍挖掘也带来了一蹙社会阉题,尤其是信息安全和 隐私保护问题褥到了广j 眨的关注。因此,如何在保证隐私的情况下挖掘出有用的信息爵成为 近年来数据挖掘领域研究熬热点之一。 举文主要探讨基于隐私保护的分类规则挖掘问题,根据数据分布方式,分类规则挖掘所 用到蠡孽数l 霉集莓分鸯集串式羲攥集嚣分枣凌鼗据繁,本文分澍瓣这嚣耱祷嚣遴程7 研究。 觜先,针对不同的数据分布方式,本文分别分析和介绍丁当前几种典型的隐私保护结类 规则挖掘算法 其次,针对集中式数据集,本戈提出了一种有效的基于随机投影的数据扰乱方法,并基 于此方法提出了两种具体的算法:p b b 分类算法和p b p 分攒算法通过分析和实验可以看 遗,零文提出灼热撂扰魏方法,出予在维数上进行了压缩,艨以对新蠢的数据炎型都能提供 有效的隐私保护并且缀此方法扰乱后的数据适用予多种分樊算法臆这些算法具有计算开 镑拳、糖廑毫豹忧熹。 本文还针对分布式数据集,络出了一种基于投影的分类规则挖掘模型,再基于此横型提 出了一种具体的锌对数鬣拳平分带静隐秘保护分类娩羽挖掘箨法p b h p d ,并绘箍7 一释藩 私保护程度的译价标准。分析和嶷验证明,该算法可以骑止瓣意攻击,在隐私保护程度和精 度之闯可以达到一个较好盼平衡,与现有的多种算法相比,避行效率商,计算鞫遥讯开销都 比较小。 溉后。本烹进行了慧结和展黛,提出了研究中的技术难鼹和将来研究工作的拓展点和方 是。, 关穗谣:数据攘撵酶鹈绦护分类陡辘投影数据撬琵 a b s t r a c t d a t am i n i n gh a sl o n gb e e n 衄a c t i v ea r e ai nd a t a b a r e s e a r c h i ti sw i d e l yu s e di nm a n y f i e l d s ,e s p e c i a u yi ns c i e n t i f i cr e s e a r c ha n dc o m m e r c i a lf i e l d s o nt h eo t h e rh a n d ,d a t am i n i n gh a s b r o u g h ts o m es o c i a lp r o b l e m s s u c h 嬲i n f o r m a t i e n a ls a f e t ya n dp r i v a c yp r o t e c - f i o n t h e r e f o r e , p r i v a c ya n ds e c u r i t yh a sb e c o m e t h ef o c u so f m a n yd a t am i n i n gr e s e a r c h e s t h i sp a p e ra d d r e c st h ep r o b l e mo f p r i v a c yp r e s e r v i n gc l a s s i f i c a t i o nr u l em i n i n gi nt h e s i t u a t i o n so fc e n t r a l i z e dd a t as e t sa n dd i s u i b u t e dd a t as e t s , r e s p e c t i v e l y f i r s to fa l l , t h i sp a p e ri n t m d n c e sa n da n a l y z e s s e v e r a l t y p i c a lp r i v a c yp r e s e r v i n g c l a s s i f i c a t i o na l g o r i t h m si nr e s p e c tt od i f f e r e n tm o d e so fd a md i s t r i b u t i o n s e c o n d l y , an 唧m e t h o df o rd a t ap e r t u r b a t i o ni sp r o p o s e d w h i c hi sb a s e do i lr a n d o m 删。甜吡a n dt h e n ,t w oa l g o r i t h m su s i n gt h i sm e t h o da r ei n t r o d u c e d , t h a ti s 删e c t i - b e d n a i v eb a y e s i a n ( p b b ) c l a s s i f i c a t i o na l g o r i t h m _ _ a n dp r o j e c t i o n - b a s e dp e r c e p t r o n ( p b p ) c l a s s i f i c a t i o na l g o r i t h m , w h i c ha l ec o n c e m l n gc e n t r a l i z e dd a t as e t s t h et h e o r e t i c a la n a l y s i sa n d e x p e r i m e n t a lr c s u l t ss h o wt h a tt h ep r o p o s e dm e t h o d i se f f e c t i v ei na c c u r a c ya n dp r i v a c y , a n dc a l l b e u s e d f o r 8 v a r i e t y o f d a s s i f i e a t i o n m e t h o d s t h i r d l y , t h i sp a p e re x p l o r e san 钾f r a m e w o r ko fc l a s s i f i c a t i o nr u l em i n i n gu s i n g r a n d o m p r o j e c t i o nm e t h o d i nt h ed i s m b u t e ds i t u a t i o n an c wa l g o r i t h m c a l l e dp r o j e c d o n 。b a s e d c l a s s i f i c a t i o na l g o r i t h mf o rh o r i z o n t a l l yp a r t i t i o n e dd a t a ( p b h p d ) i st h 锄p r o p o s e dw 鼬i s b a s e d a 咀t h ef r a m e w o r k t h et h e o r e t i c a la n a l y s i sa n da 【p 盯i n i 酬r e s u l t sd s m o n s f r a t et h a t t h e a l g o d t h mi s i m m t m ct op r i v a c yi n t r u s i o na t t a c k s ,a n dh a v es u b s t a n t i a la d v a n t s g eo v e rm a n y e x i s t i n ga l g o r i t h m si nc a l c u l a t i o na n dc o m m u n i c a t i o no v e r h e a d , a c c u r a c ya n dp r i v a c y f i n a l l y , t h i sp a p e r t h es t u d ya n do l l t l i n e * t h ef u t u r ew o r k k e y w o r d a :d a 诅m i n 缸舀p r i v a c yp r e s e r v i n g , c l a s s i f i c a t i o n ,r a n d o mp r o j e x t i o n , d a t ap e r t u r b a t i o n - 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 蹴蝼轹社一。号出 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:二潍导师签名:妞日 期。 东南大学硕士学位论文 1 。1 信息隐私权的发展 第一章绪论 随着计算机处理能力、互联网和电子数据处理技术的不断发展,部f 3 个人资料的搜集、 处理与利用变得极为容易m 毫无疑问,这种趋势已经强烈威胁到个人资料的隐密性当 部门个人资料轻易地暴露于有心人的侵袭与操控之后,部门个人隐私及其权益尊严将不可 避免地受到危害正因为这样,传统上对隐私权保障的思考,就必须转向以。数据保护”( d a t a p r o t e c t i o n ) 为重心的思路上,于是就出现了“信息隐私权”( i n f o r m a t i o np r i v a c y ) 的概念, 以应对信息时代隐私权所受到的冲击 “隐私权”最早在1 8 9 0 年1 2 月由美国人沃伦和布兰代斯所写的 隐私权中被正式定 义,。隐私权”界定为“生活的权利”和“不受干扰的权利”。他们认为,隐私权本质上是一 种个人对其自身事务是否公开给他人的权利,保护个人的隐私权就是保障个人的“思想、情 绪及感受”不受他人干扰的权利,保护自己人格不受侵犯的权利。到2 0 世纪6 0 年代,隐私 权的观念逐渐为美国法律界所熟悉,但隐私权的内容却始终未有明确的界定1 9 6 0 年, w i l l i a ml p r o s s e r 教授在 裳蓑善盥警豹嚣簿, 船辑袭示嚣潮觞申翔惑* 搿积炭示为j 区间躺中弱点,歹0 e 髓) 表示为毽弼的 - 8 * 东南大学硕士学位论文 密度馘均值即厶竹。严7 严一阐推导过觏文献h 最婵得到眦属 于区间的后骏概率公式为: 。 一) - 枷+ 嚣器 池2 ) 税簟法戆第 磊十憋, 得到魄+ 。2 z c m ( 2 , k ,七) l n 茹,从而得到l n 并。哥, , 5 智u 撵t ( 4 2 ,- i , 2 :西 第= 部分计算x l n x ,设z - u + 屹。 ( 1 ) 首先定义协议 舭豇瓴,a 2 ) ,a i 釉4 2 是备自的输入,岛和屯是随机熊事的输出 协议窥义鲡下; 1 站京1 菠机姥撵一个德趣,劳定义多项式q ( 磅- q x - i , , ; b 站点1 和站点2 执行不经意多项式求值,站点2 得到输出 1 0 - 东南大学磺士学位论文 蚝 q ( a z ) 一4 i 4 2 一岛; c 鳐点1 和站点2 定义其输出为魂和如并使得趣+ 如- 吩毛 ( 2 ) 定义诗雾瓴+ v d l n ( v l 毪) 熬携议: 1 站点1 和蛄点2 执行计算l n 苫的协议,得到输矬l 圾和以:,使得“l + i t 2 - l n x ; b 站点1 和站点2 执行两次计算肘h 豇瓴,a 2 ) 的协议得到岣v 2 和“2 h ; c 站点1 令箕输出为m - 蚝。u + u t 屹,站点2 令箕输出为屹一屹吒+ 站2 吃l d 。褥爨榷+ 壤毪毪+ 毪。毪+ 1 1 2 + 毪+ 毪毪一敛+ u z x v a + v d - x l n x 安全多方计算将计算问题用组合电路嶷述,然麟让所有的计算方畿电路的哿个门都遴行 短的协议理论上。运用电路计算协议,可以完全解决安全多方计算斑暖。依籀电路计算协 议所梅造豹多变元函数计算协议舆寿一般性、楚单燃的优点。但是这撵产生的协议,其传犊 复杂魔依赖于计算f 的布尔电路的规模也即依赖于输入的规模和将f 袭示成帮尔电路的复 一 杂痘。数据挖掇舞法串鳇辕入都爨l # 掌毫天的瑚 班蹇接霞熙基于毫鼹捺议掬逢安全豹数据 挖掘协议效率j e 常的低,选就使得针对特定的挖掘算法构造高效可行的保持隐私的计算协议 成为一磺有意义翡工终。 2 3 3 垂直分布数撂 羝燧蠲g 糯在文献1 9 孛秘霜安全掭羹羧协议掇豳了一个程数据蠹塞分枣簿篪下筋貔熬 保护分类规则挖掘算法,这里的数据垂直分布指数据按照属性分布在两个站点,每个站点除 了共事标签属性静,备翁拥有舔分属性,除了砖方盼耩性名称井,各个始点不嚣簧知道对方 站点的属性值就可以建立一棵决策树来保护隐私 用墨表示分布站点1 的数据集,用是袭示分布蛄点2 的数据集;b 表示全体属性集合, 研f 】袭赤第i 个蔗缝;s 袭示当前麓点的数据集;五袭示满燕s 鸯逻瓣表达式,麓表示露串 仅与分奄站点1 露关熬属性组成戆逻辑表达茂,暑2 袭示暑孛双与分毒蛄点2 鸯关静震镶缒 成的逻辑表达式;用k 袭赤弗维向量,k a ) - 1 表暑薯第f 个记袋满足墨,k ( f ) 一o 表示第f 个记录不满足墨# 类似寇义k ;两样,用巧表示,l 维向量,嵋回- l 寝示第f 个记录属于 l l - 东南大学硕士学位论文 类,( f ) 一。表示第f 个记录不属于类,;巧袭示s 中典,的记录数 一个 # 零矮矿- 班 k 表示糊对满足露和毛,帮满足蓐,霞嚣麓子s 旁7 管建换燕 麓,蒜簧找出矿孛菲零壤的记录个数,也辘是霭襄诗算k 和k 豹标慧积,繇: 珏+ k 善k g ) + k 囝 巧一k 职 哎) - 似 k ) k 有了巧就可以计算信息熵e n t r 口p y ) 和信息蹴益g a i n ,b 阱) ,因此可以不断找剿最 佳分裂蔗睦和势装点,豢誉建立棵决蘩树。 为了计_ 算k 和k 黪辩量积,必须悫站点1 公毒k 或囱站点2 公毒辑,所以上述方法显 然违反跨私保护的原则。为了解决这个问联,w e n l f a n g d u 撼出了一种不向对方公布自也的 匈量德瑰下,稍糖第三方计算标薰袄瓣方法( s c a l a rp r o d u c tp r o t o c 0 1 ) 。方法静步骣鲤- v , n ) 一个第三方服务器生成两个雄维随机向量琏和露以及两个髓机数吒釉如,井便褥 + 屹- 墨民,然后将( 墨,五) 进给站点1 将( 恐,吃) 送绘站点2 ; ( 2 ) 站点l 将巧- k + 墨送给始点2 r 同样,始点2 将圪一k + 鹄送给蛄点l ; ( 3 ) 站熹2 产生一令缝撬数玩,然嚣终玫专缱一毪) 静诗募绪莱送缭鼯点l # ( 4 ) 站点1 计算 似k + 也一如) ) 一讽巧) + ,i k k 一如+ 以一冀恐+ 毛) - k 琏一毪 _ h w e n l i a n gd u 在文献f 9 l 中仅仅辩所有属性都是布尔类型的情况进行了分析通过分析发 现,羹于安全撂囊积的方法会导致酶取数掘的部分溅藤,比如,当随机数不是从整个实数域 中随机选出,而是从某个特定的醒阔中选出时,则可获悉原始数据的一个范围;当一方避行 恶意袭进,将氇0 , k ,蹲律夤辕入簿,零疆媛过蠢羹羧翡壤暴获知慰方瓣第一个元素秀l 涟 是为0 通过最终得到的决策树,一方有可能推断出品一方的莱些信息 t 2 东南大学硕士学位论文 第三章集中式数据隐私保护分类觏则挖掘研究 3 1 问题摇述 分类是指按照分斩对象的属链、特征,建立不褥的蕴类采描述事物分类整数据挖擒的 主要内窖之一,主要耳的是建立一个模型,用来对来来的数据进行分类和预测。 分类规刚挖掘过程一般分为以下两个步骤: 莓先,建立一个摸凝,搓述绦定翦胡 练集。逶过分析由瘸性搓述豹数据瘁蠢缓来梅造搂 型每个元组麟子一个预定义的搬,由类标签属性确定。模激可用分类规则、决策树、神经 舞络耧数学公式魏形式绘赉。 其次,使用模型对数据进行分类。包括评估模溅的分类准确性以及对类标箍未知的冗组 按筷爨进行势类。 分类技术在过去的:十年里得到了广泛的关注,萌如何襁保证隐私的前提下进行分类规 一一 硪l f = 蹬摊成为近年来的研究热点之一弘蠲隐私保护分类规女g 挖掘的目的是找到种方法,既 戆建鼗一个满足糖废要袋的模型,又毙保谖在整个分类规则挖掘过程巾跨强锾息熬安全茸 见,隐私保护分类规则挖掘算法翳兼顾分擞精度和隐私保护程度 3 2 相关工作 在数据集中的情况下,随机化方法是隐私保护分类规则撩箍中用乘对原始数据迸行扰乱 毅达到戆熬援护嚣熬豹常熙寿法。 蒸于随机化方法的隐私保护分类规则挖掘分为两步第一步将随机化后的数据传给数据 挖掇方。在途一疹孛,数据提供方逶建疆撬算子j 薮) 麓元缀皴据透镎疆辊纯藏蓬,然麓将 得到的数据传送给数据挖掘方。在文献阴中,衄r a w a l 提出了一种利用扰乱后的数据进行决 策事孽分类的算法该算法鼠一个酷知分布眈如均匀分布或辩新分布) 孛选取独立静嗓声, 酣加到每个原始的数据愆素上则它提出的随机扰飘算子为:贰d - t4 - d n 在文献【8 l 中提出了基于醚机响应的隐私保护分类算法,该方法仅适用予布尔型效掂,其中所提出的随 祝响应算子为:毹 ) 。l 霞7 散 l 屯i f ,融 东南大学硕士学位论文 随机化方法的隐私保护分类规则挖掘的第= 步是数据挖掘方执行数据分类过程文献忉 中采用迭代逼近的推算方法来推导原始数据的密度函数,从而通过重构原始分布来建立模 型文献【1 l 】中提出了目m 算法,该算法使用原始分布的最大似然估计来进行分布重构。 k m g u p t a 等人在文献【1 2 】中指出,在很多情况下,附加的噪声可以从原始数据上分离出 来,从而危及了隐私的保护在该文献中,他们提出了一种基于随机矩阵理论的过滤方法 随机化方法存在很多问题,除了上面提到的原始数据易于恢复,隐私易遭破坏外,由于 需要分布重构,随机化方法的效率比较低,数据挖掘方的计算量大另外,随机化方法通常 只适用于数字型数据,不太适用于布尔类型和分类类型数据。同时,随机化方法有一个潜在 问题,由于对每个数据元素逐个进行独立扰乱。所以记录之间的类似性、属性间的相关性都 没有加以考虑,通常这些关联性都遭到了破坏 由于随机化方法存在的上述固有问题,促使我们去研究一种能够更好地提高隐私保护程 度,并能得到令人满意的精度和效率的分类规则挖掘算法 3 3 基于随机投影和数据集中的隐私保护分类规则挖掘算法 一 一 葛伟平等人在文献 1 3 】中提出了一种基于转移概率矩阵的隐私保护分类规则挖掘算法; p p c a r t 算法。该算法仅针对决策树分类算法,而且计算量非常大。p p c a r t 算法首先要对 原始数据进行变换:统计每个属性有多少不同的取值,然后针对每个属性产生对应的属性转 移概率矩阵。最后对每个记录的各个属性值进行独立转换其次要构造决策树,这是一个递 归过程:首先对每个属性彳计算联合属性值的支持计数,然后计算多个分裂属性的联合转 移矩阵,推算原始数据中的联合属性值的支持计数,最后计算g a i n ,寻找最近分裂属性和 分裂点假设每条记录有七个属性,属性4 有吩个不同的取值属性4 有气个不同的取 值,则4 的转移概率矩阵为4 l q 的矩阵,4 和以的联合转移概率矩阵为 瓴口:) 0 ,口:) 的矩阵,其计算时间复杂度为0 0 知;) ,由此可知4 ,4 ,k ,4 的联合 转移概率矩阵的计算时间复杂度为o ( a , 2 a ;l 露) 另外,还需要通过联合转移概率矩阵的 逆矩阵计算单个属性值在原始数据中的分布概率,计算g i n i ,g i n i m ,g a i n 等等。所以该 算法的时间和空间复杂度都比较大,特别是属性值比较多,每个属性的不同取值也比较多的 时候,该算法效率很低。 1 4 - 东南大学硕士学位论文 针对以上阔题的解决,我们谯研究工作中提出种基于随机投影的隐私保护分类规则挖 掘算法,羡募滚缒够裾获上述箕浃熬不足,无论是我携、雾浚壤度、戆器保护程度还是遽翅 程度,都明显优于p p c 州盯算法 3 , 3 1 相关原理和概念 随机投影悬撞将一个数据点的集合从商维空间投影到一个随机:j 黩择的低维子空间。随机 投影豹关键愚矮来垂手文簸【i 4 l 母熬j o h n s o n - i , i n d e n s t r a u s s 楚毽,该定理露下: 嫩理3 1 ( j o h n s o n - i j n d e n s t r a u s s 定理) l 对镁意的0 葶1 ,任意整数s ,如果存在 一个臌整数k ,满足露 4 i n 譬 s 。2 。2 。- 。f 。3 。3 。 那么,对有s 叫s1 个数据点的任意集合s r “, 存在一个映射,:r 4 一r ,满照对所有的墨y s 。 ( 1 一e ) l l x y 陶l f ( x ) 一,) | | :( 1 + 疗) # 石一y 酽 l n 袋示i i b ,鄞致几燕得范数。 这个定理说明在埘维的欧几里得空间里,$ 个点的任意集合都可以压缩到一个 。孥) 维的空间,并能保证任意两个点乏问的距离维持掘个较小的误差内这个伉良 的性魔启示了我 f 】可以遴过压缩缝数来改变藏始数措鳕形式釉结果,两婶仍然维持原始数据 豹统计特性 下面先给出基于投影的数据扰乱方法中涉及的几个概念 定义3 f l ( 投影爨痒) | 鸯矩阵r r 一鞋矩痒霆r 稚,瀵是o k t f l ,显 r a n k ( j 掺- - - - k ,则称t r 为对矩腾r 的行投影操作,矩阵尺为这次行投影操作的投影矩阵 定义3 - 2 ( 投影率和投影因予) i 有矩阵r r 和投影矩阵r 毯r 槭,觉j 对于投影撵 箨! 嚣,箕( 确) 投影率定义茺嵇,磅x z 0 0 稻。嚣群鼯予投影矩簿s 鬟。4 ,羧彰操露鼹 熬( 纷) 投影搴定义为让m ) x 1 0 0 露猕为投影圆子 定义3 3 ( 相对隐私保护程度) t 本文用投影率来表示原始数据的相对隐私保护程度, 籀霹溱私探护纛度= l 一投影率,掰班投影率越夺,相对跨熬德护翟发越离。投影率越犬, 相对隐私保护穰度越低。 东南大学硬士学位论文 据的难度相对而言比较容易,并不说明投影后原始数据没有得到扰乱和保护极端情况下 假设投影矩阵被泄漏,根据线性代数的理论n 日,对任意的对角矩阵a 和可逆矩阵p ,都有 t r - 仃 j 1 p - x p a r ) ,所以经恢复得到的是r a - 1 p - 1 ,它并不唯一,所以只能得到无穷 下面给出一个随机投影矩阵的性质 定理3 - 2 ;r 是一个小厅的随机矩阵,r 的每个元素相互独立,且都服从同一个未 知的分布,该分布的平均值为0 ,方差为2 ,那么 e 【r r 7 】, h o a x ,e 限尺】一m 盯2 , 证明:设是矩阵尺的( f ,) 元素( 即第f 行,列的元素) 是矩阵舰7 的o ,) 元素, 则 - a u a j 一 e 晦卜研善气卜善吼口小 叫嚣_ f f 州i , j ; 又因为魄卜o ,e 【卜盯2 ,所以 ,f o f f i - ,; 铴】2 1 彬:i f i - ”j s 黼e r r 7 】- 弗盯2 ,命题得证 同理,可以证明e 畔r 】= l 2 , 本章在数据集中的前提下,提出了基于随机投影的隐私保护分类规则挖掘算法。该算法 分为两个步骤:第一步利用随机投影的原理对原始数据进行扰乱,第二步在扰乱后的数据上 进行分类规则挖掘。下面分别详细介绍该算法的两个步骤 1 6 东南火学硕士学位论文 3 3 2 基于随机投影的数据扰乱方法 蓠先介绍训练集中一些符号的意义,糖关内容可以参照酣录a 。 穰本文中,假设训练集有小荣记录t 每条记录育一个元组( i e 阻m 】) 和一个类标签 缀娥;每个蠢组有霜个震毪t 分掰表示为龟,瘁 ,k ,气。癸标签属缝是霹知静它攒蹬了 每个魈属于哪个预定义豹类,箕宅爱性郝是敏感偿患。同孵,假设眵 有约记泶都分为两个 类;c o 和c 1 ,对应的类标签属性值分别为0 和1 训练集的隐私部分,用矩阵 r 敝澎;k ;气】+ 表看 。r 的转麓矩阵表示为,r 白表示r 的第f 杼,捌元豢,r 的元维 数表零黪| f l 。蠢秘五分掰表示势藩于类c o 彝0 熬元缀所缀或熬簌簿。在袭3 - 1 孛,绘出 了r 的一个例子 截这里,我们只考虑所有魏藏性都是蔫敬值的 膏况,如暴任意一个属性的取信是连续鲸, 必须兜对它进行离教化。 一 袭3 i 一令铡练繁静示铡 t 襄 燕子投影的数据扰乱方法的原理基于寇理3 - 1 。假设给定个训练集,它的敏感信患部 分为一令掰嚣瓣矩蓐f ,产生一个n x k 瓣蘧挽投影矩阵霖,o p ( c j i z ) l ,装箭者夫,姗 j dj 4 i x t x l t q t 否捌麓于 ( 2 ) 基予投影的瘕知器分类耸法 黪簸器分类逶过洌练貘式抟逡鼗彝攀幕筹法t 产生线性戴 # 线蛙霹分瓣摸妓爨嬲蕊散, 它不需要对各类训练模拽样本的统计性质作任何假设。所以是一种确髓性的方法图3 - l 是 这种募法巷帮嚣鲍示意鬻。 辕a 泰熏 x l h 蹦3 - 1 黪知器的豕意图 妁- 输出 为了提高感知器分类的精度,在这里令c o 的类标签属性值为- 1 ,g 的值不变,为1 设为一个行向量,表示一条记录,郎训练集可以表示为r - 【f l ;f 2 ;k ;】,现在要求找到 一个权重向量,使得所有属于c j 的记录满足研o ,所有属于c 1 的记录满足 群) o 由此可得到基于投影的感知器分类算法( p r o j e c t i o n - b a s e dp e r c e p t r o nc l a s s i f i c a t i o n a l g o r i t h m ,简称p b p 分类算法) 其算法步骤如下: 算法3 dp b p 分类算法 输入,记录矩阵r r r 一,随机投影矩阵胄r j 输出:感知器分类器 ( 1 ) 专1 卸r 豫,得到扰乱后的数据集, 4 c o 、t 口 ( 2 ) 令 ,- 0 劬_ i l e ( 训练集中仍然有记录的类别被判断错误) 由 找出任意一个被错分的样本,令 w - w i + 玎棚类标签属性取值 町表示摩知器的学习宰 ( 3 ) 对未知类别的记录x ,令x i 毒一x r ,将x 传给数据挖掘方: 4 k o ( 4 ) 数据挖掘方判断,- 善,若 r 工,0 ,则记录x 属于类c - ,若w , 0 则属于c 分析:根据转置矩阵的性质【1 懈”】可知: 眺矿叫, 面1 “,r 巾击矿 因此,要判断w 嚣矿,。,只需判断( i ,击足7 ) ,由此可见,w 是w ,的一个投影,并 东南大学硕士学位论文 且满足w 一7 未一w r ,根据定理3 2 可得# 量 w ,x 口。;w r 二圣醇f 。h 0 , k a靶。 可见,算法3 3 豹耩度取决予赶r 7 和k a l z 的乘积是否接近于1 搬定理可知,如果 蠢中的元素独血且都服从( o 2 ) ,则r 舻的平均值为七盯2 。下一节将会通过实验来骏证 算法斡藕度爨井,算法3 - 3 能够穰容易蛾推广弼支持f 每蠢橇( s u p p o r tv e c t o r 她c 醯墙,简 称为s v m ) 算法中,因为在s v m 的拉格朗日对偶阏题( k 龋m g i 锄d u a lp r o b l e m ) 中,原 始数据点之闻的关系完全取决于肉积 3 4 性能分析和实验结果 3 4 1 隐私分析 本章提出的数据扰乱方法与传统的随机扰乱方法槽比。隐私保护攫度明显楗高这戆因 为所恳熬投影簸肄不是一个方阵,传统戆一对一鳇挽嚣技术苓嗣,它建一静多慰一豹软射。 这种投影使得原始数据和属性数因都得到了保护,进而使试图通过扰l 后的数据恢复原始数 据静金莲交戈不胃戆。鍪3 - 2 是令三维熬数据集耧将它投影剿二维空羯土瘊褥舞魏数攒, 所用的投影矩降元素服从( 0 ,d 分布由圈3 - 2 可知扰乱后的数据和原来的数据差别很大, 在只翔避扰乱数据,两不知道原来维数和投影矩阵的情况下,不可艟攘出原始效据。两麓k 越小。被扰乱程度越高,隐私保护程度也就越高 纛伞数攒集懿镄予k 霉警a 投影掰= 维空瓣蓐豹示激鎏 圈3 - 2 维数投影图 一就 即使授影缀阵被泄濑。但因为投影矩阵不是一个可逆矩阵,所i ;l 襁这种情况下也不可能 逶过z 妊r t 来推窭骧始黎据。事实上,逶过投影矩痒最多其嫠霉剃囊夺蕊歉簿,努辑麴 下: 假设进行了r - t r 的投影操作,其中r 足”,冠j r 瓣,k n r t e 小设f ,t 分 掰表零t ,豹一个行翔誊,劐 一毛r 。将f 。坟避行转耋。褥嚣圹一更,该式霹叛看 戎蔗一个线耋e 方程缓;瑟知f 口帮舻,要袭,。掰毅r 一嫩可以器成是掰夸欠定曩缆的 线性方程组的集合因为m 放似7 ) - r a n k ( r ) - k m ,所以f 矿r r t 7 有笼穷多解通 解中禽有埘一詹个自由束知量嗍根据o r 分解定理脚l ,存在一个正窝矩阵q 联冀“和一个 脚懈删阡翮粼渐婀崃m 矿确礓 一个纛小范数解。郾存张一个唯一的解使褥驴如最小,最小箍数辩先; 细俐一q 舻卜例4 “彬 舻是r 的一个伪逆矩阵线性方程组f 矿一r 0 7 的娥终解为f t 7 一盘+ n a 灌惩舷。0 ,郯茺霖豹零空瓣,8 燕f 芽t 确7 鑫拳一夸撩瓣。壶鼗茸霓,农投影矩箨耪 颞始记荣已知的情况下,怨意挖掘者不可能找到每个欠定系统的解向量中所有元素的确切值 ( 郾原始记录的羹实值) 衙只能找到r 的一个伪莲短阵,求解出最小蓖数解 慰手布尔型数据,萋尊授影鲢数据扰熬方法同榉可以提供有效的隐私保护假苗仅霄一 - 条记录c 。【o1 1 1 1 ,投影矩阵为月。卫 1 ,则f 【o 3 】。如巢矗未被泄漏,则原始数措光条记录c - 【o ,投影矩阵为月” o 3 l 则一。【m 3 】如巢矗未被泄漏则原始数精无 法被推出所以基于投影的数据扰乱方法对连续数攒、离散数据和布尔型数据都适用,并且 都能撬供较葑豹跨鹈绦护。 东南大举硕士学位论文 3 4 2 糖度分析 擞键j o h n s o n - i a n d e e s t r a m s 定理,将维数进行聪缠后,原始数摄鲤统计特矬仍然维持在 一个较小的误藏范围内下面我们通过一缀实验数据进行说明 寰验数据经耀“鸯怒震蓬穆数据库”( i r i sp l a n td a t a b a s e ) 阳,这令数撂痒禽弯1 5 0 个 样本,每个样本仅有4 个属性。该数据库中的数攒分为三类,分别袭示鸢尾属植物的一种 ( i r i s - s e t o s a ,i r i s - v e r s i c o l o r 和l a s - v i r s i n i c a ) ,置镶拿类各禽有5 0 个样本。逡耋,我稻将 h 缸- s 呦鞠和i d s - v e 8 i c o l o r 人为她合并在一起。以便于进行线性分类实验采朋p b p 算法, 投影嘏阵r 选觑高斯分布( 嘎4 ) ,并采用s o 的投影率,即r r 槲,投影之后每个样本 靛含蠢2 夺蕊後。由予数据集攘夺,舞茨袋耀交叉绸锩法( c r o s sv a l i d a t i o n ) 。擦数据蒺平 均分成1 0 个没有交叉数据的子集,生成器训练和测试1 0 次,实验结槊如图3 - 3 所示。 l o 原始数据i f 投垂数据f 1 0 0 8 0 桑6 0 蓬4 0 2 0 o l2345 87 891 0 实验次数 嬲3 - 3 驽尾属植物数据库的分类精魔比较 由图3 3 可学出,即使是如此小的数据鬃,基予投影的分类算法仍然非常有效从实际 实验统计数据谯可得到这样的结论;基于原始数据的平均分类精度为9 4 6 7 ,基于授影扰 萋l 后盼数据的乎均分类糖成为勰。0 0 ,平均分类糖度达到了原始数攒的 8 8 0 0 9 4 6 7 1 0 0 = 9 2 9 5 稻 逶一步癸辑蜀霓,k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论