计算广告学 课件 第四章 计算广告数据脱敏_第1页
计算广告学 课件 第四章 计算广告数据脱敏_第2页
计算广告学 课件 第四章 计算广告数据脱敏_第3页
计算广告学 课件 第四章 计算广告数据脱敏_第4页
计算广告学 课件 第四章 计算广告数据脱敏_第5页
已阅读5页,还剩22页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据脱敏计算广告DataDesensitization第四章目录基本内涵BASICCONNOTATION常用技术COMMONLYUSEDTECHNIQUES数据共享DATASHARING01基本内涵数据脱敏数据脱敏是指在不影响数据分析结果准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度、减少个人隐私风险。数据加密数据加密就是利用密码技术对数据进行可逆的数学变化以隐藏信息的行为。加密技术分为对称加密与非对称加密两种类型。由于数据脱敏和匿名化需要防止重识别,所以仅靠加密工具不能实现匿名化。数据假名化假名化是通过生成新的字符(假名)来替代原标识符(通常为直接标识符)的数据处理方式,使得个人信息控制者在不借助额外信息情况下无法识别出个人信息主体。常用的假名生成技术包括带密钥加密、哈希函带密钥的哈希函数等。相关概念数据性质去标识化处理后的信息仍然属于个人信息,其是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。目标对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其他信息识别出原始个人信息主体;控制重标识的风险;确保去标识化后的数据集尽量达到其预期的用途。原则合规原则、个人信息安全保护优先原则、技术和管理相结合原则、充分应用软件工具原则、持续改进原则。数据去标识化对直接标识符进行脱敏处理,比如将直接标识符假名化、加密、抑制或者屏蔽等。脱敏处理匿名化是指个人信息经过处理后无法识别特定自然人且不能复原的过程。对间接标识符进行泛化或者随机化。泛化或者随机化的程度越高,安全性就越高,但是数据的可用性也就越低。泛化或随机化常见的重识别方法包括隔离、关联和推断。重识别攻击行为包括:(1)重识别一条属于一个特定个人信息主体的记录;(2)重识别一条特定记录的个人信息主体;(3)尽可能多地将记录和其对应的个人信息主体关联;(4)判定一个特定的个人信息主体在数据集中是否存在;(5)推断一组和其他属性关联的敏感属性。评估重识别风险随着时间推移,重识别技术和攻击者的重识别能力都在变化,因此需要定期进行重标识风险评估,并与可接受的风险阈值进行比较。跟踪匿名化效果数据匿名化静态数据脱敏是对数据进行“搬移并仿真替换”,是将数据进行脱敏处理后,下发给下游环节取用和读写。是在数据存储时脱敏,存储的是脱敏数据,一般用在非生产环境。静态数据脱敏动态数据脱敏,即在访问敏感数据的同时进行脱敏处理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保返回的数据可用且安全,一般用在生产环境。动态数据脱敏数据脱敏类型静态数据脱敏主要用于将数据抽离生产环境并进行分发和共享的数据使用场景;动态数据脱敏主要用于直接访问生产数据的场景。使用场景区别静态数据脱敏技术一般是通过变形、替换、屏蔽、保留格式加密等算法实现,实际已经改变了源数据的内容;动态数据脱敏通过改写查询SQL或拦截等方式实现,实际上未对源数据的内容作任何改变。技术路线区别静态数据脱敏可将脱敏设备部署于生产环境与测试、开发、共享环境之间;动态数据脱敏采用代理部署方式:物理旁路或逻辑串联。部署方式区别数据脱敏两种类型区别数据替换方法无效化方法随机置乱方法数据替换法是将敏感字段随机替换,如将字母变为随机字母,数字变为随机数字,文字变为随机文字,从而遮蔽敏感数据。在计算广告中,数据替换方法可以应用于虚拟用户生成数据。无效化方法通过对字段数据值进行截断、加密、掩码等方式让敏感数据脱敏。这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式。随机扰动技术是一种常用的无效化方法。随机置乱方法对敏感数据列的值进行重新随机分布,混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性,最大、最小、方差等均与原数据列无异。数据脱敏方法均值统计方法对称加密方法随机置乱方法均值统计方法经常用于统计场景,针对数值型数据,先计算均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变,通常用于产品成本表、工资表等场合。对称加密方法是一种采用单钥密码系统的加密方法,发送方和接收方使用相同的密钥,这个密钥既可用于加密原始数据,也可用于解密加密后的数据。这种方法通过随机移位改变原始数据。偏移取整在保证数据安全性的同时保证范围的大致真实性,比前面的方法更接近真实数据,在大数据分析场景中意义比较大。数据脱敏方法数据脱敏前后必须保持原有的数据特征。数据特征一致性数据脱敏不仅要抹去数据中的敏感内容,同时也需要保持原有的数据特征、业务规则和数据关联性,保证各类业务不受脱敏的影响,保证脱敏前后数据的一致性和有效性。数据和数据的关系要保持一致。数据关系一致性数据脱敏后数据关联性以及业务语义等保持不变。数据关联性包括:主外键关联性、关联字段的业务语义关联性等。业务规则关联性相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要保证每次脱敏后的数据具有一致性。多次脱敏一致性数据脱敏要求02常用技术统计技术统计技术是指收集、整理、分析和解释统计数据,并对其所反映的问题给出结论的技术方法。数据抽样需根据数据集的特点和预期的使用场景来选择;经常用于数据脱敏的预处理;可以简化对数据集的计算量。数据聚合可能会降低数据的有用性;对抗重标识攻击非常有效;某些保留格式加密具有确定性加密技术的特点;适用于多种格式的数据;在给定有限符号集的情况下密可以保证加密后的数据具有与原始数据相同的格式和长度。保留格式加密技术密文排序与明文排序相同;在有限的范围内保证加密结果在统计处理、隐私防挖掘、数据外包存储与处理等场景中的有用性;完全重标识仅可能适用于拥有密钥的一方。保序加密技术保证数据真实可用;保证数据在统计处理、隐私防挖掘方面的有用性;对确定性加密的重标识攻击主要是不具备密钥使用权时的攻击;关联性攻击可能针对采用同一密钥进行确定性加密的密文。确定性加密技术同态加密技术允许在加密状态下进行计算操作而无需解密数据,用这种技术进行数据脱敏时,对加密数据进行处理的过程不会泄露任何原始内容。同态加密技术同态秘密共享可将一个秘密拆分为“若干份额”,可利用拆分后秘密信息的特定子集来重构原始的秘密。同态秘密共享技术密码技术屏蔽技术屏蔽技术是一种基线数据脱敏技术,包括从数据集中删除所有直接标识符,并尽可能剥离数据集中所有记录的部分或全部剩余标识符。包括部分数据移除、数据隔离和数据限制。局部抑制技术局部抑制技术是从所选记录中删除与其他标识符结合使用可以识别出相关个人信息主体的特定属性值。记录抑制技术“记录抑制”是一种从数据集中删除整个记录或一些记录的数据脱敏技术,需要与其它数据脱敏技术相结合以降低数据的重标识风险。抑制技术假名化技术假名化技术是通过生成新的字符(假名)替换原标识符(通常为直接标识符)的数据脱敏技术。独立于标识符独立于标识符的假名创建技术不依赖被替代的原始属性值,而是独立生成,典型方法为用随机值代替原始属性值。基于密码技术基于密码技术的标识符派生假名创建技术通过对属性原始值采用加密或散列等密码技术生成假名。其中加密技术生成的假名可以用合适的密钥及对应的算法解密,而散列技术则是一种单向的数学运算。泛化技术泛化技术是指一种降低数据集中所选属性粒度的数据脱敏技术,是对数据进行更概括、抽象的描述。取整技术取整技术为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数。向上还是向下取整按概率确定,该概率值取决于观察值与最接近取整基数倍数的接近程度。顶层与底层编码技术泛化技术为某一属性设定一个可能的最大(或最小)阈值。顶层与底层编码技术使用表示顶层(或底层)的阈值替换高于(或低于)该阈值的值,该技术适用于连续或分类有序的属性。噪声添加技术噪声添加技术通过把“随机噪声”添加到所选的连续属性值中,同时尽可能保持该属性在数据集中的原始统计特性。可以应用于广告点击率预测。置换技术置换技术是表达式在不直接修改属性值表达式的情况下对数据集记录中所选属性的值进行重新排序的一种技术,它保持了整个数据集中所选属性的准确统计分布,适用于数字与非数字值。微聚集技术“微聚集”是指用某种算法方式计算出来的平均值代替连续属性所有值的数据脱敏技术。每一种属性的新值是由该属性所在组中的平均值替换得来的。可用来精细化用户定向投放。随机化技术03数据共享脱敏数据共享主体脱敏数据共享主体包括脱敏数据提供方、脱敏数据接收方和脱敏数据计算方。脱敏数据共享服务主体脱敏数据共享服务主体包括平台方、安全方和评估方。脱敏数据共享支持主体脱敏数据共享支持主体包括监督方和技术方。数据脱敏共享参与机构数据预处理包括进行数据标记、匹配数据内容、形成脱敏数据三个方面的内容。共享评估包括形成多维评估因子、形成定性评估结论、形成评估报告三个步骤。脱敏数据共享基本流程源自提供方的风险及其识别与控制风险数据来源不明或未经同意输出个人相关数据。识别与控制要求提供方清晰数据源头;区分数据形成方式;区分数据输出形式;预先进行相应数据共享评估。源自计算方的风险及其识别与控制风险委托处理的数据在传输或存储时可能被泄漏;可能未获得委托方的再许可,而向他方提供数据;由于缺乏与信息主体的接触场景,无法获得真实有效的同意。识别与控制传输存储脱敏数据,辅以安全适当的技术手段、组织措施;计算方必须有委托方的真实合法授权,再提供需独立授权;委托计算的数据应为脱敏数据;计算成果数据的再提供,应遵循提供方要求而进行;预先进行相应数据的共享评估。源自接收方的风险及其识别与控制风险是否获得信息主体的同意。处理个人相关数据是否合法、正当、必要。使用个人信息是否符合个人信息保护相关法律法规的规定。可能未获得提供方的许可,而向他方提供数据。识别与控制检查接收方业务资质;细分接收方数据处理应用目的;细分接收方数据的应用场景;对数据进行分级、分类、分层;细分接收方获得信息主体对其相关数据处理应用的同意的方式方法;预先进行数据共享评估。源自数据重标识的风险及其识别与控制风险脱敏数据经重标识后,重新成为包含个人信息的数据。被无关方获取后重标识。与其他数据(集)汇聚后重新识别出个人信息主体。识别与控制选择适当的数据处理与脱敏技术;利用数据共享域“受控重标识”功能,区分并控制重标识的情形;预先开展数据共享评估。源自数据敏感性的风险及其识别与控制个人敏感数据共享可能给信息主体权利、人身财产安全带来风险;法律法规禁止、限制共享的其他敏感数据进入共享可能给国家安全、公共安全带来风险。因此,要区分场景,与应用无关的个人敏感数据不得共享,法律法规规定的其他敏感数据禁止共享。源自身份识别性的风险及其识别与控制数据如若包含身份信息(标识)或直接与身份信息(标识)关联的信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论