数据安全与隐私保护 课件 卢苇 第5-8章- 身份认证与访问控制-隐私保护案例分析_第1页
数据安全与隐私保护 课件 卢苇 第5-8章- 身份认证与访问控制-隐私保护案例分析_第2页
数据安全与隐私保护 课件 卢苇 第5-8章- 身份认证与访问控制-隐私保护案例分析_第3页
数据安全与隐私保护 课件 卢苇 第5-8章- 身份认证与访问控制-隐私保护案例分析_第4页
数据安全与隐私保护 课件 卢苇 第5-8章- 身份认证与访问控制-隐私保护案例分析_第5页
已阅读5页,还剩334页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章身份认证与访问控制5.1问题导入

医疗数据作为国家基础性的战略资源,已经被正式纳入国家发展战略,成为医疗领域的核心资产。借助数据分析工具对医疗数据进行挖掘、分析,能够更加准确地诊断和治疗疾病,预测患者的健康状况,辅助医生进行临床决策,提高工作效率。为了保护医疗数据的安全、防止隐私泄露,如何制定科学合理的医疗数据访问策略,既不能影响医生正常的数据访问,又能防止因授权过度导致一些医生窥探或窃取患者隐私是一个重要问题。5.2常用身份认证技术

身份认证技术是在计算机网络中确认操作者身份的关键过程,它通过一系列方法来验证用户身份,确保操作者是数字身份的合法拥有者,防止未经授权用户的访问和使用。

●根据用户所知道的信息,来证明自己的身份(你知道什么),例如口令、密码等。

●根据用户所拥有的东西,来证明自己的身份(你有什么),例如印章、智能卡等。

●根据用户的生物特征,来证明自己的身份(你是谁),例如指纹、声音、视网膜等身体特征,或签字、笔迹等行为特征。

●运用密码学技术通过第三方,证明自己身份的合法性(中间人),例如数字身份认证。5.2常用身份认证技术

5.2.1静态口令认证1.静态口令认证的概念静态口令认证是较常用的一种技术,它是基于“你知道什么”的验证手段,如图所示。用户首先在系统中注册自己的用户名和登录口令,系统将用户名和口令存储在内部数据库中,这个口令一般是长期有效的。5.2常用身份认证技术

2.静态口令认证的优缺点静态口令认证使用简单,部署和使用成本低。大多数系统都提供了对静态口令认证的支持,使静态口令认证成为一种简单、普遍和可行的方法。然而,用户每次访问系统时都要以明文方式输入口令,口令容易泄露,口令在传输过程中可能被截获;当用户访问多个不同安全级别的系统时,都要求用户提供口令,用户为了便于记忆,往往会采用相同的口令,一旦其中一个系统的口令被破解,就会造成所有口令的泄露。5.2常用身份认证技术

5.2.2短信密码认证1.短信密码认证的概念短信密码认证是指以手机短信形式请求密码后,身份认证系统生成6位随机的动态密码,并以短信形式发送到用户的手机上,用于验证用户身份的一种安全验证方式。如图所示,客户在登录或者交易认证时候输入此动态密码,从而确保系统身份认证的安全性,它是基于“你有什么”的方法。5.2常用身份认证技术

2.短信密码认证的优缺点由于短信密码生成与使用场景是物理隔离的,因此密码在通路上被截取的概率较低,短信密码认证具有较高的安全性。只要手机能接收短信即可使用,用户收到验证码输入几个数字即可,大大降低短信密码技术的使用门槛,使其成为一种非常方便的身份验证方式。但短信密码认证受限于移动信号覆盖区域,存在通信延迟,有时受手机软件的影响,验证短信可能被作为垃圾短信拦截,影响正常的身份认证。5.2常用身份认证技术

5.2.3智能卡认证1.智能卡认证的概念智能卡是将一个集成电路芯片镶嵌于塑料基片中,封装成卡的形式,其外形与覆盖磁条的磁卡相似。因其超小的体积、先进的集成电路芯片技术以及特殊的保密措施和难以破译及仿造的特点受到人们的普遍欢迎。智能卡的芯片可以用来存储和传输数据,芯片中通常存有与用户身份相关的数据,可以通过验证智能卡中的数据来确认用户身份,如图所示。5.2常用身份认证技术

5.2.4生物认证1.生物认证的概念生物认证技术是指利用计算机将光学、声学、生物统计学原理和生物传感器等高科技手段密切结合,通过人体固有的生物特性(如指纹、面部、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定技术。生物认证系统首先对用户的生物特征进行取样,提取其唯一的特征后转化成数字代码,再组合成特征模板。当用户与认证系统交互进行身份确认时,认证系统获取其特征并与数据库中的特征模板进行比对,以确定是否匹配,从而决定接受或拒绝该用户。5.2常用身份认证技术

2.指纹识别指纹识别技术是把一个人同他的指纹对应起来,通过对他的指纹和预先保存的指纹进行比较,验证他的真实身份,如图所示。相比于其他身份认证技术,指纹识别系统的制造和部署成本较高,涉及到传感器设备、算法软件和数据库的建设与维护。5.2常用身份认证技术

3.声纹识别声纹识别属于生物识别技术,也称为说话人识别,包括说话人辨认和说话人确认,或语音识别。声纹识别技术就是把声信号转换成电信号,再用计算机进行识别,与数据库中已有的声纹样本进行对比,再根据语音特征判断是否是同一个人,如图所示。5.2常用身份认证技术

4.人脸识别人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。面部特征具有稳定性和唯一性,用摄像机或摄像采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,再根据人脸提取出身份特征,最后将该特征与事先已经存储的样本进行比对,从而识别出个人身份,如图所示。人脸识别系统主要包括四个组成部分,即人脸图像采集及检测、人脸图像预处理、人脸图像特征提取、匹配与识别。5.2常用身份认证技术

5.虹膜识别虹膜识别技术是根据人眼中的虹膜部位进行身份认证,如图所示。人眼由虹膜、视网膜和晶状体等构成,虹膜处于眼角膜内部白色巩膜和黑色瞳孔之间,包含有很多相互交错的斑点、细丝、冠状、条纹、隐窝等的细节特征。虹膜在人类胚胎发育时期就已经确定,终身保持不变,这些特征决定了虹膜特征的唯一性,同时也决定了身份识别的唯一性,这就是以虹膜为基础的生物识别系统具有有效性的真实原因。5.3数字身份认证

5.3.1数字证书的概念和特点1.数字证书的概念在网络信息系统中,数字身份认证模型起着关键作用,用户申请服务资源,首先通过通信信道将数字证书传输到认证模块,认证模块作为中间人,负责验证用户身份的真实性。5.3数字身份认证

2.数字证书的作用数字证书是一种用于加密和验证数据的安全工具,可以确保数据的安全性、真实性和完整性,保护用户信息不被窃取和篡改,提供更高的保护和安全性。数字证书在现代通信和互联网领域起着重要的作用,主要用于身份认证、数据加密、数据完整性验证、电子签名和网站安全。5.3数字身份认证

3.数字证书的特点数字证书能够为用户提供身份认证服务,主要有安全、便捷、即时、唯一性、不可逆、权限限制和可销毁性的七个特点。基于数字证书的以上特点,数字证书广泛应用于电子商务和电子政务领域,其应用范围涉及需要身份认证及数据安全的各个行业,包括传统的商业、制造业、流通业的网上交易,以及公共事业、金融服务业、工商税务、海关、政府行政办公、教育科研单位、保险、医疗等网上作业系统。5.3数字身份认证

5.3.2数字证书的工作原理1.数字证书生成生成数字证书的过程有两方要参与,即用户(主体)和签发者(证书机构)。用户向证书机构提交证书申请,由证书机构生成用户的数字证书。生成过程分为以下几个步骤。第一步:密钥生成。第二步:注册。第三步:验证。第四步:证书生成。5.3数字身份认证

2.数字证书验证当用户收到数字证书后,会对数字证书的真实性和完整性进行验证,具体验证过程包括以下几个步骤,如图所示。(1)用户将数字证书中除最后一个字段外的所有字段输入消息摘要算法(哈希算法)。(2)用户从数字证书的最后一个字段中取出证书机构的数字签名,并使用其公钥对该数字签名进行解密,得到证书机构生成的消息摘要MD2。(3)用户比较MD1和MD2的一致性,如果一致,则数字证书是可信的,否则用户不信任该证书并拒绝它。5.3数字身份认证

3.数字证书撤销数字证书是一种用于身份验证和加密通信的数字凭证,它具有一定的有效期。在一些特定情况下,数字证书是可以被撤销的,主要原因包括:①证书持有人的私钥泄露②证书持有人的身份信息变更等③证书颁发机构的撤销决定,或者证书本身存在安全隐患,也可以主动对证书进行撤销。5.3数字身份认证

5.3.3数字证书的分类1.根据主体对象分类根据主题对象的不同,数字证书可分为个人身份证书、企业或机构身份证书、支付网关证书、服务器证书、企业或机构代码签名证书和安全电子邮件证书,这些证书都有各自的特点和适用范围。5.3数字身份认证

2.根据技术角度分类根据数字证书技术的不同,CA中心发放的证书可以分为安全电子交易证书和安全套接层证书。(1)安全电子交易证书也称为SET证书,服务于持卡消费和网上购物。SET证书是采用SET协议,符合X.509标准的数字安全证书。(2)安全套接层证书也称为SSL证书,服务于银行对企业或企业对企业的电子商务活动。SSL证书是采用SSL协议(安全套接字层协议),在浏览器用户端和Web服务器之间建立起安全通道,让网站信息传输加密进行。5.4访问控制核心技术

5.4.1访问控制概述1.访问控制的概念访问控制是实现既定安全策略的系统安全技术,目标是防止对数据资源进行非授权访问。非授权访问包括未经授权的使用、泄露、修改、销毁及颁发指令等。通过访问控制技术可以限制对关键资源的访问,防止非法用户的侵入或因合法用户的不慎操作所造成的破坏。5.4访问控制核心技术

2.访问控制的原理访问控制的主要功能是保证合法用户访问受权保护的网络资源,防止非法的用户进入受保护的网络资源,或防止合法用户对受保护的网络资源进行非授权的访问。访问控制首先需要对用户身份的合法性进行验证,同时利用控制策略进行选用和管理工作。当用户身份和访问权限验证之后,还需要对越权操作进行监控。因此,访问控制的内容包括身份认证、控制策略的具体实现和安全审计三部分,其原理如图所示。5.4访问控制核心技术

5.4.2访问控制策略和机制1.访问控制策略访问控制策略主要有两种:传统的访问控制策略和基于角色的访问控制策略,传统的访问控制策略又分为自主访问控制策略和强制访问控制策略。(1)自主访问控制策略自主访问控制是在确定主体身份以及它们所属组的基础上,根据访问者的身份和授权来决定访问模式,对访问进行限定的一种控制策略。它允许合法用户以用户或用户组的身份访问策略规定的客体,同时阻止非授权用户访问客体。拥有客体权限的用户,也可以将该客体的权限分配给其他用户。5.4访问控制核心技术

(2)强制访问控制策略强制访问控制是一种基于强制访问控制策略建立的访问控制类型,根据客体的敏感标记和主体的访问标记对客体访问实行限制的一种方法。它根据访问控制策略,分别赋予主体和客体一个特殊的安全标记,主体的安全标记反映了主体可信的程度,客体的安全标记则与其包含信息的敏感度一致。强制访问控制的“强制”体现在系统独立于主体强制执行访问控制,主体不能修改客体的属性,主体不能将自己的部分权限授予其他主体,由系统或管理员按照严格的安全策略事先设置主体权限和客体安全属性。5.4访问控制核心技术

(3)基于角色访问控制策略自主访问控制策略的优点是具有相当的灵活性,但是安全级别相对较低;强制访问控制策略的优点是管理集中,但是实现工作量较大,管理不便,不适用于主体或客体经常更新的应用环境。基于角色的访问控制策略是实施面向企业安全策略的一种有效的访问控制方式,它对系统操作的各种权限不是直接授予具体的用户,而是在用户集合与权限集合之间建立一个角色集合,每一种角色对应一组相应的权限,通过管理角色来管理权限。一旦用户被分配了适当的角色后,该用户就拥有此角色的所有操作权限。5.4访问控制核心技术

2.访问控制机制访问控制机制是指对主体访问客体的权限或能力的限制,以及限制进入物理区域和限制使用计算机系统和计算机存储数据的过程。访问控制机制可以分为基于访问控制表的访问控制机制、基于能力的访问控制机制、基于矩阵的访问控制机制、基于标签的访问控制机制4种类型,一般通过授权、安全标签、口令和证书等鉴别信息、提出访问的时间或路由、以及存放对等实体访问权的方法控制信息库等方法来实现。5.4访问控制核心技术

(1)基于访问控制表的访问控制机制访问控制表是以客体为中心建立的访问权限表,它是从客体角度进行设置的、面向客体的访问控制,每个客体有一个访问控制列表,用来说明有权访问该客体的所有主体及其访问权限,如图所示。5.4访问控制核心技术

(2)基于能力的访问控制机制访问控制能力表(CL,CapabilitiesList)是访问主体拥有的属性标签,它授权持有者以特定的方式访问特定的目标,发起者的访问控制信息是他可以访问的目标和对目标进行的操作。其基本思想是只有某个主体对某个客体拥有准许访问的能力时,才允许其访问该客体。能力是由一种机制保护的客体标签,标记了客体以及访问者对客体的权限,如图所示。5.4访问控制核心技术

(3)基于矩阵的访问控制机制访问控制矩阵(ACM,AccessControlMatrix)是用矩阵的形式描述访问控制策略的机制,矩阵的行表示客体,列表示主体,行和列的交叉点表示某个主体对某个客体的访问权限,即主体可以对客体执行的动作或功能,访问控制矩阵如表所示。通过访问控制矩阵,无论是根据主体还是客体,都可以查到对应的权限。进行访问时,通过访问控制来选择允许或拒绝的操作。访问控制矩阵的每一列都是一个访问控制列表ACL,每一行都是一个访问控制能力表CL。访问控制矩阵易于实现,但是查找和实现起来有一定的难度,如果用户和文件系统要管理的文件很多,访问控制矩阵将变得巨大而臃肿,效率很低。5.4访问控制核心技术

(4)基于标签的访问控制机制基于标签的访问控制机制是最基本的一种网络安全机制,用于保护系统资源免受未经授权的访问,使用安全标签来描述主体和客体的属性,这些属性包括主体或客体的安全级别、组织归属、角色等,通过比较主体和客体的标签属性,可以确定是否允许访问。基于标签的访问控制机制支持多级安全,可以定义不同级别的访问权限,如一个系统包含公开、秘密、机密三个级别,不同级别的主体和客体可以通过比较安全标签来确定是否允许访问。同时,通过调整安全标签,能够动态调整主体对客体的访问权限。5.4访问控制核心技术

5.4.3基于角色访问控制1.角色的概念基于角色的访问控制(RBAC)是通过定义角色的权限,为系统中的主体分配角色来实现访问控制的。角色(role)定义为与一个特定活动相关联的一组动作和责任,系统中的主体担任角色,完成角色规定的责任,具有角色拥有的权限,用户、角色、权限3者之间的关系如图所示。5.4访问控制核心技术

2.基于角色访问控制的概念基于角色访问控制的基本思想是不直接把对系统操作的各种权限授予具体的用户,而是在用户集合与权限集合之间建立一个角色集合,每一种角色对应一组相应的权限。通过引入角色的概念,无须在每次创建用户时都进行分配权限的操作,只要给用户分配相应的角色就能完成授权。而且角色的权限变更比用户的权限变更更少,极大地简化了对用户的权限管理的复杂度,减少系统的开销。5.4访问控制核心技术

3.基于角色访问控制的原则和特点在基于角色访问控制模型中,通过角色将用户和权限关联起来,简化了权限管理的复杂度。为了保证访问控制的安全性,同时定义了最小权限原则、责任分离原则和角色互斥原则,以防止过度授权、责任集中和角色包含等问题。因此,基于角色访问控制通过角色控制来实现权限的管理和分配,从而来保护数据安全,具有以下三个特点:(1)以角色作为访问控制的主体:用户具有的角色,决定了用户拥有的权限以及可执行的操作。(2)角色继承:基于角色访问控制中利用角色之间的层次关系提高授权效率,避免相同权限的重复设置。(3)最小特权原则:在基于角色访问控制中,可以根据组织机构内的规章制度、职责分工等设计拥有不同权限的角色,只有角色需要执行的操作才授权给角色。5.4访问控制核心技术

4.基于角色访问控制模型的分类基于角色访问控制RBAC模型包括4个模型,即RBAC0、RBAC1、RBAC2、RBAC3,如图所示。5.4访问控制核心技术

5.CoreRABC模型RBAC0模型也称为CoreRABC模型,是RBAC模型的核心模型,模型结构如图所示。在该模型中,定义了基于角色访问控制的5个基本元素——用户、对象、操作、权限、角色,以及一个动态的概念——会话。5.4访问控制核心技术

6.HierarchalRBAC模型RBAC1模型也称为层次RBAC模型、HierarchalRABC模型,是RBAC0模型的扩展模型,模型结构如图所示。RBAC1模型在角色中引入继承的概念,构建了角色层次结构,把角色分成若干个等级,每个等级的角色分配不同的权限,能够实现更细粒度的权限管理。5.4访问控制核心技术

7.ConstraintRBAC模型RBAC2模型也称为约束RBAC模型、ConstraintRABC模型,是RBAC1模型的扩展模型,模型结构如图所示。在RBAC2模型中引入了职责分离机制,用以调节角色之间的权限冲突。5.4访问控制核心技术

5.4.4基于属性访问控制基于属性的访问控制是一种适应于开放环境下的访问控制技术,它通过安全属性来定义授权,而不需要预先知道访问者的身份。安全属性是实体的一些与安全相关的特征,能够较好地适应开放环境。基于属性的访问控制能根据相关实体属性的动态变化,实时更新访问控制策略,提供一种细粒度、更灵活的访问控制方法,能够解决复杂信息系统中的细粒度访问控制和大规模用户动态扩展问题,能够较好地适应开放式环境,模型结构如图所示。5.4访问控制核心技术

5.4.5基于密码学访问控制1.基于密钥管理的访问控制根据访问控制系统所支持的能够发送数据的用户数量,可以分为基于单发送者广播加密的访问控制和基于公钥广播加密的访问控制。(1)基于单发送者广播加密的访问控制广播加密技术是指在一组目标参与方之间安全地建立密钥,只有授权的参与方才能获得密钥来解密数据,未授权的参与方无法获得关于密钥的信息,甚至多个未授权参与方合谋也无法获得密钥来解密数据。(2)基于公钥广播加密的访问控制针对任意接收者集合加密和共享数据,提出了公钥广播加密技术,它将单发送者广播加密技术中的方法扩展到公钥体制中,并使广播加密方案的密钥和密文数据总量等指标接近单发送者广播加密方案。5.4访问控制核心技术

2.基于属性加密的访问控制(1)基于密文策略的属性加密在基于密文策略的属性加密中,使用属性刻画用户的资格,由数据的加密方来制定密文访问策略,以决定谁可以解密密文。用户的私钥与一系列属性相关,密文与访问结构相关联,将访问策略嵌入到密文中,用户属性嵌入到密钥中,信息拥有者可以规定密文访问策略,只有用户的属性符合密文的访问结构才能解密密文,结构如图所示。5.4访问控制核心技术

2.基于属性加密的访问控制(2)基于密钥策略的属性加密在基于密钥策略的属性加密中,由属性来描述密文,并将策略嵌入到用户的密钥中。密文与一组描述性属性相关联,用户的私钥与一个访问结构相关联,将访问策略嵌入到密钥中,文件属性嵌入到密文中,当密文中的属性集满足用户私钥中的访问策略时,密文才能够被解密,结构如图所示。5.4访问控制核心技术

5.4.6访问控制管理1.集中式管理集中式管理是由一个管理员集中设置访问控制策略的模式。当用户对信息的需求发生变化时,只能由管理员改变用户的访问权限。由于只有极少数人有更改访问权限的权力,所以这种控制是比较严格的。每个用户的账号都能够被集中监控,所以用户的权限可以很容易被变更、修改、甚至撤销,用户的权限修改过程也能够随时和执行标准相一致。但是,当机构内用户很多、且频繁发生权限变更和修改时,管理员的工作负担和压力就会很大,影响管理效率。5.4访问控制核心技术

2.分布式管理分布式管理是把访问的控制权交给资源的拥有者或创建者进行管理的模式。一般来在组织架构内部,由职能部门的管理者来负责,即把控制权交给对数据信息负有直接责任、对信息的使用最熟悉、最有资格判断谁需要信息的管理者手中。这种模式有时会导致执行访问控制的过程和标准上的不一致,在特定时刻很难确定整个系统所有的用户的访问控制情况。不同管理者在实施访问控制时的差异,会造成控制的相互冲突以致无法满足整个机构的需求。5.4访问控制核心技术

3.混合式管理混合式管理是集中式管理和分布式管理相结合的模式。由集中式管理负责整个机构中基本的访问控制,由职能管理者根据所负责的资源对用户进行具体的访问控制。这种管理方式的灵活性大,系统管理员和职能管理员能有效地分别控制自己的访问策略。混合式管理的主要缺点是难以划分哪些访问控制应集中控制,哪些应在本地控制。5.5大数据访问控制技术

5.5.1云环境下的访问控制技术1.云环境下的访问控制模型在云环境下,数据面临数据集中化带来的隐私泄漏风险和用户行为不可控带来的数据安全威胁,访问控制技术成为保障云环境下数据安全的关键技术之一。云计算环境分为用户(租户)、云平台、网络基础环境3部分,用户和云平台之间要通过访问控制规则和访问控制模型进行访问管理,云平台和网络基础环境之间采用访问控制规则。5.5大数据访问控制技术

2.基于多因素身份验证的访问控制技术在云环境中,利用多因素身份验证访问控制技术,能够实现对访问服务的安全管理,即使攻击者窃取了用户的密码,也无法获得其他必要的认证凭据,最终也无法访问用户的资源。这不仅增加了用户账户的安全性,还降低了由于密码泄露导致的数据安全风险。在云数据存储中,通过多因素身份验证的访问控制策略,可以更加有效地限制非法人员进入,确保只有授权人员才能接触到核心设备和数据。5.5大数据访问控制技术

3.基于数据加密的访问控制技术数据加密技术是实现数据安全的重要手段,通过对原始数据进行编码,其无法被未授权的用户解读,从而保护数据的私密性和完整性。结合访问控制策略,加密技术可以确保只有经过身份验证并具备相应权限的用户才能解密和访问数据。根据在访问控制中使用的加密技术的不同,可以分为基于属性加密的访问控制策略、密文策略的属性加密、双线性映射加密策略、同态加密策略。5.5大数据访问控制技术

4.基于零信任安全模型的访问控制技术在基于零信任安全模型的访问控制技术中,将零信任策略作为访问控制的策略,假设所有用户都是不可信,任何用户只要访问资源就必须经过严格的认证和授权,即对网络中任何用户、设备或应用程序都不存在默认被信任,都需要经过身份验证和授权才能访问数据资源,其核心思想是永不信任,始终验证。5.5大数据访问控制技术

5.基于云用户行为评估的访问控制技术基于云用户行为评估的访问控制技术通过评估用户行为风险,计算用户信任度,并将信任度作为用户的一个属性,通过结合用户信任度的访问控制策略动态调整用户的资源和服务访问权限,框架结构如图所示。5.5大数据访问控制技术

5.5.2开源系统CryptDB1.CryptDB的系统架构CryptDB的系统架构包含两个部分:数据库代理服务器(Proxy)和数据库管理系统(DBMS)。在CryptDB的架构中,应用程序的服务器把相关请求发送给数据库的Proxy,Proxy经过适当的加解密以及查询改写后,再转发给DBMS。同时,在Proxy中会存储一个主密钥MK、数据库的schema以及所有字段的洋葱模型所处于的洋葱层。其中,schema是一组相关联的数据库对象,这些对象包含表、字段、字段类型、索引、外键等,这些对象通过SQL语法连接。洋葱模型是一种多层加密算法模型,采用多种不同类型的加密算法对用户的数据进行多层嵌套加密。5.5大数据访问控制技术

在DBMS里,只能看到匿名后的schema(表名以及字段名都使用另外的标示符替代)、加密后的用户数据以及一些CryptDB需要使用的辅助数据。另外,CryptDB也会在DBMS中安装一些用户自定义的函数(UDF,User-DefinedFunctions),通过UDF使DBMS可以在密文上进行一些特定的操作,系统结构如图所示。5.5大数据访问控制技术

2.CryptDB的加密方案CryptDB构建了一套SQL-aware加密方案,其中包含5种加密算法和4种洋葱模型,使得数据被加密后,仍然保存一定的数据特征,能够支持各种SQL操作。(1)确定性加密算法:确定性加密算法不含有随机因素,对于相同的明文,产生的密文是一致的,但这种加密方式所产生的密文,数据库服务器能够对其进行等价性检查,能够在密文环境下支持SQL的分类、统计、连接等操作。(2)保序加密算法:保序加密算法对数据项加密后,仍然能够保留数据项在加密前的排序关系,因而能够在密文环境下支持SQL的最大值、最小值和分类排序等操作。5.5大数据访问控制技术

(3)同态加密算法:同态加密算法允许服务器对加密后的数据进行计算,然后将计算结果在Proxy上进行解密,得到的解密结果和直接在原始数据上进行计算的结果一致。(4)联结加密算法:CryptDB中支持两种不同的联结加密算法操作,一种是基于等价性的联结操作(Equi-Joins),另一种是基于排序大小的联结操作(Range-Joins)。为支持对两个加密后的字段进行Equi-Joins操作,对这两个字段加密时应使用相同的密钥,来保证服务器能够在这两个字段中查找到匹配的数值。(5)搜索加密算法:搜索加密算法主要用来支持SQL中进行指定模式的搜索,使其能够在加密后的数据上进行搜索的操作。5.5大数据访问控制技术

在CryptDB系统中,还提出了4种洋葱模型,即Eq洋葱、Ord洋葱、Search洋葱、Add洋葱,每一个洋葱模型都会对数据进行1-3次的加密操作。最后,在CryptDB中所有字符串类型的数据都会分别使用Eq洋葱、Ord洋葱、Search洋葱进行加密,而所有数字类型的数据都会经过Eq洋葱、Ord洋葱、Add洋葱的加密,每一项数据都会被进行相应的扩展。5.5大数据访问控制技术

3.CryptDB的查询流程在CryptDB中,数据库管理系统DBMS中存储的数据都是加密的,并且都进行了相应的扩展。因此,在CryptDB中应用服务器发送的查询请求,必须进行相应的改写,才能获得相应的查询数据,具体流程包括请求发送、状态检测、模型调整、请求改写等8个步骤,如图所示。5.6案例分析

基于风险自适应的访问控制技术在医疗数据中的应用在大数据时代是先有数据、后有应用,数据在采集和存储时无法预先知道所有的数据应用场景,安全管理员无法获知访问行为带来的风险和收益的关系,很难预先定义恰当的访问控制策略。为解决这种严格执行静态策略的访问控制技术存在的问题,冯登国、李昊提出了风险自适应的访问控制技术,将访问控制中隐含的风险概念明确化,根据访问行为带来的风险,动态地赋予访问权限。该方法的实施过程主要分为两个步骤,即用户行为风险量化和访问控制实施。5.6案例分析

1.用户行为风险量化风险量化是通过计算以数值的形式评估访问行为对系统造成的风险,它是基于风险来实施访问控制的前提。进行风险量化的前提是选择合理的风险量化要素,以及设定科学的风险计算方法。常用的风险量化方法是基于协同过滤的动态风险量化方法。该方法的主要思想是利用用户的历史访问行为来构建正常用户的访问行为画像,并以此为风险量化的基准,然后计算每次用户访问行为与该基准的偏离程度作为风险量化值,即访问行为偏离基准越大,则该访问产生的风险越大。5.6案例分析

2.医疗领域中对医生访问患者敏感数据行为进行风险量化的案例本案例基于风险自适应的访问控制技术来解决医疗数据中面临的隐私保护问题,当医生请求访问患者医疗数据时,对其访问行为可能带来的风险和收益进行动态的评估,然后根据一定的规则,对该用户可能导致的隐私泄露风险进行量化,最后结合访问控制策略判断是否授予用户访问权限。在本案例中,将医疗信息系统的医生分为诚实医生和好奇医生两类,诚实医生只访问正常治疗过程所必需的病人数据;好奇医生除了访问必需的病人数据外,可能还会出于好奇而访问一些额外的病人隐私数据。无论诚实医生还是好奇医生,访问病人数据时都需要先确定访问目的,并且在该目的下对病人数据进行访问。例如,医生选择“肺结核”作为访问目的,然后基于该目的查看病人的数据。5.6案例分析

在本案例中,采用信息论中熵的概念来描述医生在访问目的下的访问行为,并进行风险的量化计算。将单个医生访问行为的熵与所有医生访问行为的熵的差值,作为该医生在特定目标下的访问行为的风险量化计算结果,进而来衡量风险。5.6案例分析

在该方法中,所有医生的访问行为反映了真实的访问目的与被访问客体的相关性,而好奇医生会额外地访问一些无关的客体,所以其访问行为的熵就会大于风险基准值,从而使风险值大于0。好奇医生额外访问的无关客体越多,计算得出的风险值也越大。该方法的核心原则是通过行为异常的概率来衡量风险值,风险量化结果能够随着系统中整体用户的行为变化而动态变化。因此,该方法能够有效地根据访问目的与被访问客体的相关性实现风险值的动态计算。5.6案例分析

3.访问控制实施方案在对访问行为的风险进行量化后,还需要对风险进行判定、评估风险和收益之间的关系,利用量化值来影响用户对资源的访问行为,设计灵活的访问控制实施方案。风险量化的结果是一个数值,为了能够实施访问控制,将风险量化结果映射为“允许/拒绝”的二值判定,通过一个判定方法,实现Z→{0,1)的转化。采用设定风险阈值的方式来实施二值判定,①当风险值不超过风险阈值时,访问行为被允许;②当风险值超过风险阈值时,访问行为被拒绝。5.6案例分析

然而,严格的实施二值判断,无法适应大数据环境下医疗数据的访问,因此引入部分允许的概念,在“拒绝”和“允许”之间设定一个弹性区间,将风险区域划分为不同的风险带,根据风险值大小对应到相应的风险带,授予相应的“部分允许”的权限,如图所示。5.6案例分析

4.风险与收益的平衡在风险被量化后,有很多种方法可以利用该量化值来影响用户对资源访问行为,可以通过设置风险配额的方式实现风险与收益的平衡。类似于金融领域的信用卡机制,为系统中的每个用户分配一定的“信用额度”——风险配额,用户每次访问都会从风险配额中扣减该次访问的风险量化值,相当于用风险配额来支付该次访问的风险。当用户的风险配额被消耗完时,就无法再支付新的访问行为所带来的风险了。因此,其判定方法就是“若风险配额足够支付本次访问的风险,则允许访问,否则拒绝访问”。本章结束第6章数据隐私保护6.1问题导入近年来,随着信息技术的发展,银行业务也得到极大拓展,从传统网点、24小时自助银行到网上银行、手机银行、支付宝等,极大地方便了人们的生活,同时银行也积累了大量的客户数据、业务交易数据、内部管理数据等数据信息。如果这些数据发生泄露、损坏,不仅会给银行带来经济上的损失和负面影响,甚至会引发严重的社会问题。因此,银监会明确规定,银行业务分析、测试中如需使用生产数据,必须对相应数据进行处理,防止隐私泄露。6.1问题导入解决这个问题,和数据脱敏技术有关。数据脱敏技术是保护数据安全、防止隐私泄露的主要手段之一。通过对某些敏感数据信息进行变形,实现敏感隐私数据的可靠保护。此外,数据隐私保护技术、可信计算技术也是保护数据隐私的重要技术。本章主要介绍数据脱敏技术、数据隐私保护技术、数据可信计算技术等。6.2数据脱敏技术

6.2.1数据脱敏的概念数据脱敏,也称为数据去隐私化,是指按照一定的规则对敏感数据进行变形、屏蔽或仿真处理,以移除或模糊包含的敏感信息,减少隐私数据泄露的风险。数据脱敏是一种数据安全技术,如图6-1所示。个人的有关隐私数据一旦被泄露、非法提供或滥用,可能导致个人的人格尊严受到侵害或者人身、财产安全受到危害。6.2数据脱敏技术数据脱敏的功能:使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中被暴露的可能,降低敏感数据泄露的风险。数据脱敏与数据加密的区别:数据加密主要适用于长期数据储存或数据传输,因为被加密后的数据将无法使用。数据脱敏并不需要对所有信息进行加密。数据脱敏的处理过程:识别敏感数据、选择脱敏方法、制定脱敏规则、应用脱敏技术、验证脱敏效果、监控和维护。脱敏数据的存储方式:明文和脱敏数据同时存储、只存储脱敏数据、只存储明文数据3种方式。6.2.2数据脱敏原则数据敏感性不是越低越好,要在数据脱敏过程中遵循一定的原则,保持数据敏感性和数据隐私之间的效用平衡。数据脱敏原则可分为技术原则和管理原则。6.2.2数据脱敏原则1.技术原则

●有效性原则:能够有效去除数据中的敏感信息,保证数据的安全性。●真实性原则:脱敏后的数据仍能够体现相关业务的真实性。●高效性原则:数据脱敏过程能够通过程序自动化实现,可重复操作,在保证安全的前提下,尽可能减少脱敏代价。●稳定性原则:指在原始数据不变的条件下,对相同的脱敏数据,经过多次脱敏仍然获得相同的稳定结果。●可配置性原则:能够配置处理结果和处理字段,以根据应用场景获得相应的脱敏结果。6.2.2数据脱敏原则2.管理原则●敏感信息识别原则:根据数据的信息分类,明确敏感信息的范畴。本身不直接是敏感数据信息,但与其它信息结合后会被推断出敏感信息,也要纳入数据脱敏的范畴。●安全可控原则:对于脱敏后仍保留了部分信息特征而存在泄露风险的数据信息,要采用合适的安全管理手段防止数据泄露。●安全审计原则:在数据脱敏环节中加入安全审计机制,用于数据追踪和问题溯源。●代码安全原则:对执行数据脱敏的程序应做好代码审查,以及上线时的安全扫描,保证数据脱敏过程的安全可靠。6.2.2数据脱敏原则3.数据脱敏策略数据脱敏策略的目标是保护敏感数据免遭未经授权的访问和泄露。制定数据脱敏策略要充分考虑数据脱敏后数据自身可用性及数据保密性两者之间的平衡。●表对象:指定策略应用的数据库表,确定哪些数据需要进行脱敏处理。●生效条件:布尔表达式,决定何时应用脱敏规则,确保在适当的时候触发对敏感数据的脱敏。●脱敏列与脱敏函数的对应关系:不同的字段根据其存储数据的特性和敏感性采用不同的脱敏函数,如加密、替换、删除等,以保持数据可用性的同时减少敏感信息泄露的风险。6.2.3数据脱敏方法1.根据使用技术分类(1)泛化方法:泛化方法是指将具体的、细节化的数据转换为更加模糊和一般化的形式。如将年龄22、28、26、29,泛化为[20-30]。(2)抑制方法:抑制方法通过限制或模糊化数据的某些特征或属性,减少敏感信息的可识别性,从而提高数据的隐私保护水平。例如,用符号*替换一个身份号码,来抑制这些敏感属性。6.2.3数据脱敏方法(3)置换方法:分为普通交换和等级互换。普通交换是一种在记录之间交换敏感属性值的方法。等级互换是将一个属性的值按升序排列,并将该属性的一个原始值与另一个随机值进行互换。相比普通的交换算法,等级互换在保留统计特征方面表现更佳。(4)桶化方法:桶化是一种隐私保护数据发布的匿名化技术。在分桶化过程中,首先将敏感属性与伪标识符分离开来。然后,在每个桶中,对敏感属性的值进行随机置换,最终得到的匿名化数据是一组具有置换敏感属性值的桶。6.2.3数据脱敏方法(5)随机化方法随机化方法通过添加噪声来破坏原始数据的属性值,以达到隐藏敏感信息的目标。例如,采用随机化方法将均值为0、方差为2的高斯噪声添加到物理条件中,将位置参数为0、比例参数为10的拉普拉斯噪声添加到工资中等。6.2.3数据脱敏方法2.根据应用场景分类(1)静态数据脱敏方法静态数据脱敏是指对静态数据集进行一次性脱敏处理,脱敏后的数据集在存储和使用过程中不再发生改变。静态数据脱敏一般适用于对非实时访问数据进行脱敏。常用的静态数据脱敏方法有加密、格式保留、差分隐私等。6.2.3数据脱敏方法①加密方法采用不同的加密算法对敏感数据项的原始值进行加密,改变其精准值,脱敏后显示的数据为密文数据。常用的加密方法有SHA1加密、MD5加密。例如,将个人的姓名、身份证号、银行卡号等敏感信息进行采用SHA1加密算法进行处理。6.2.3数据脱敏方法②格式保留方法对敏感数据进行加密脱敏,密文与原始数据保持格式一致。格式保留方法保留了数据原来的格式和长度,但数据结果是加密的。例如,对数据表的主键Key、标识数据项ID采用相同格式的随机数替代,保留原始数据的格式。③浮动方法对日期、金额等数值型数据,通过浮动脱敏算法,上浮或下降固定值或百分比。例如,原始数据为1000.00,上浮1%-5%,脱敏结果为1049.00。6.2.3数据脱敏方法④数据遮蔽方法通过设置遮蔽符,将原数据全部或部分进行遮蔽处理,该方法可以保障数据的长度不变。例如,将手机号139123456789,脱敏为139******789。⑤均化方法为了保障数据的平均值和总数不变,将数字在整体的平均值之间随机分布的策略。例如,在对用户个人基本情况数据进行脱敏时,将个人收入数据进行均值化处理,使用所有人收入的平均值来代替个人准确收入。6.2.3数据脱敏方法⑥数据抽样方法选取数据集中有代表性的子集,对原始数据集进行分析和评估的,产生的结果能够代表原始数据集中的所有记录。例如,从100万条记录的数据集中,选出10万条记录进行分析和评估,再进行脱敏后公布。⑦保序加密方法采用保序加密算法,将加密后的数据仍然保持原来的顺序,但是除此之外不知道任何信息。例如,采用保序加密方法对2、5、8三个数字进行脱敏,脱敏后变为45、4424、22224,这样就保证了别人不知道原来的数字,但是又保持了原来的顺序。6.2.3数据脱敏方法⑧随机化方法对日期、金额等数值型数据,在一个制定的范围内进行随机,并保留原数据的特征。例如,设定随机范围为1000至9999,则将数据69854.00,脱敏为1597.00。⑨K-匿名化方法通过采用泛化、抑制、扰乱等方法,对数据集中的敏感属性值进行模糊化或隐藏等脱敏处理,使得脱敏后的任意用户标识信息都至少出现K次。例如,在某医院数据库中存储的一张病历表,如表6-2所示,设定K=2,脱敏处理后的数据如表6-3所示6.2.3数据脱敏方法6.2.3数据脱敏方法⑩差分隐私方法发布数据集时,如果修改了其中的敏感数据,使数据集发生了很小的变化,则再通过添加噪声来“掩盖”改变,使得攻击者无法区分出两个数据集的变化。通过差分隐私方法,能够使得脱敏后的数据集和原数据集之间保持高度的一致性和关联性,但又能保护用户的敏感信息不被泄露。6.2.3数据脱敏方法(2)动态数据脱敏方法动态数据脱敏是指对实时或动态生成的数据进行实时脱敏处理,在保护数据隐私和安全的同时,保持数据的可用性和有效性。动态数据脱敏通常应用于数据传输、数据查询等需要实时处理的场景,例如在线支付、实时监控等。常用的动态数据脱敏方法有重写、限制返回等。6.2.3数据脱敏方法①重写方法根据原来数据的特征,随机重新生成数据。与替换策略不同的是重写为随机生成,无对应关系。例如,原来是手机号码,重新生成一个11位的纯数字。②关系映射方法利用算法表达式,对待脱敏的数据进行函数映射,使其脱敏后仍然能够保持原数据的关联关系。若为固定映射,在映射种子不变的情况下,相同的数据脱敏后结果相同,并保留原始数据特征,原始数据:特种兵,一次脱敏结果:商人,二次脱敏结果:商人。6.2.3数据脱敏方法如果采用随机映射,字符或字符串进行随机选择,并保留原始数据的特征。原始数据:19800918,一次脱敏结果:19760615,二次脱敏结果:19950125。③偏移取整方法将数字位数进行取整,或将小数点向左、右进行移动取整。例如,将日期按照固定规则取整,20210812-10:56:14向下取整为20210812-10:00:00;取整位数为2,1988.65脱敏后为1900;取整数“3位”,123456789脱敏后为123456000。6.2.3数据脱敏方法④数据截取/断方法舍弃非必要的信息,仅保留部分关键信息,对字符串按照起始位置进行截取,或对字符串保留除起始位置以外的内容进行截断。例如,原始数据1234567890,设定起始位置为2,结束位置为7,则截取脱敏后的数据为234567,而截断脱敏后的数据为1890。⑤标签化方法将数据抽象为具体标签,用标签来表现具体实体的一种形式。例如,客户存款超过20万时,设定级别为高;超过10万、低于20万时,设定级别为中;低于10万时,设定级别为低。这样可以由具体金额,更换为低、中、高三个标签。6.2.3数据脱敏方法⑥散列方法通过Hash散列算法,将任意长度的数据信息转换成一个固定长度的输出值,这是一种数据压缩映射关系。常用的散列算法有MD5、SHA256等。例如,利用SHA256算法,将JimGreen456896转换成34453。⑦替代方法用伪装数据完全替换源数据中的敏感数据,一般替换用的数据都有不可逆性,以保证安全。具体操作上有常数替代(所有敏感数据都替换为唯一的常数值)、查表替代(从中间表中随机或按照特定算法选择数据进行替代)、参数化替代(以敏感数据作为输入,通过特定函数形成新的替代数据)等。6.2.3数据脱敏方法例如:在英文单词中,字母表中的每个字母都用其后的第三个字母表示,即a用d表示,b用e表示。⑧无效化方法在处理待脱敏的数据时,通过对字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用隐私价值,但存在共享分析价值。一般采用特殊字符(*等)代替真值,将数据替换为空值,或直接删除敏感数据等。例如,将身份证号用*替换真实数字,就变成了“220724******3523”,或者全部用*代替。⑨归零方法将数值清空、并设置为0。例如:将381.38脱敏处理后变为0.00。6.2.3数据脱敏方法例如:在英文单词中,字母表中的每个字母都用其后的第三个字母表示,即a用d表示,b用e表示。⑧无效化方法在处理待脱敏的数据时,通过对字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用隐私价值,但存在共享分析价值。一般采用特殊字符(*等)代替真值,将数据替换为空值,或直接删除敏感数据等。例如,将身份证号用*替换真实数字,就变成了“220724******3523”,或者全部用*代替。⑨归零方法将数值清空、并设置为0。例如:将381.38脱敏处理后变为0.00。6.2.3数据脱敏方法⑩限制返回方法用于数据查询时,只反馈部分数据,且需要在返回所有数据的前提的下数据才有意义。例如,查询个人信息时,返回:张**、王**。6.2.3数据脱敏方法(3)静态和动态数据脱敏方法特征比较

6.3数据隐私保护技术6.3.1基于数据失真的技术基于数据失真的技术是通过扰动使敏感数据失真,但同时保持某些数据特征或数据属性不变,仍然可以保持某些统计方面的性质。通过扰动修改原始数据来实现隐私保护和信息隐藏,扰动后的数据应同时满足以下两个要求。●攻击者无法找到真正的原始数据,即攻击者通过扰动后的数据不能恢复或重构真实和完全的原始数据。●扰动后的数据其聚类可用性保持不变,即从原始数据中和从发布后的数据中得到的聚类信息是相同的,能够保证数据挖掘结果的准确性。6.3数据隐私保护技术基于数据失真的技术主要包括随机扰动保护、差分隐私保护和交换保护。1.随机扰动保护随机扰动采用随机化过程来修改敏感数据,从而实现对隐私数据的保护。对外界而言,只可见扰动后的数据,而不能推测出原始的真实数据。随机扰动技术可以在不暴露原始数据的情况下进行多种数据挖掘操作。6.3数据隐私保护技术2.差分隐私保护传统的隐私保护方法,如数据脱敏、匿名化等,在面对复杂的数据分析和攻击手段时,不能完全保障数据安全和防止隐私泄露。差分隐私通过数学化的隐私度量,为隐私保护提供了更为严谨和可量化的保障。差分隐私能够解决传统隐私保护方法的两大缺陷,一是定义了一个十分严格的攻击模型,不关心攻击者拥有多少背景知识,即使攻击者已掌握除某一条数据记录之外的所有记录信息该记录的隐私也无法被获取;二是对隐私保护水平给出了严谨的定义和量化评估方法。6.3数据隐私保护技术对于任意查询函数:如果的查询结果满足以下条件,则称查询函数满足ℇ-差分隐私保护:其中,为添加噪声的拉普拉斯函数,添加噪声的多少与全局敏感度成正比,与隐私预算ℇ成反比。

越大,添加的噪声越多,隐私保护水平越高。而数据利用率越低。当ℇ接近0时,则查询函数在两个数据集上输出的结果基本相同,此时不会泄露数据集的任何隐私信息。6.3数据隐私保护技术差分隐私保护可以通过在查询函数的返回值中加入噪声来实现,但是噪声的大小同样会影响数据的安全性和可用性。通常使用敏感度作为噪声量大小的参数,表示删除数据集中某一记录对查询结果造成的影响。对于查询函数其全局敏感度定义为:其中,表示映射的实数空间,D表示查询函数f的查询维度,p表示度量表示范数距离。全局敏感度体现了从数据集中删除某一条记录后,函数查询结果的变化程度。全局敏感度越大,需要添加更多的扰乱噪声来确保查询安全。6.3数据隐私保护技术拉普拉斯噪声机制用于数值型结果的保护,通过向查询结果中添加服从拉普拉斯分布的噪声,使得查询函数满足差分隐私保护。添加拉普拉斯噪声的概率密度函数Pr定义为:其中,λ和μ为常数,且λ>0,则称x服从参数为λ和μ的拉普拉斯分布。通过拉普拉斯概率密度函数计算出添加的拉普拉斯噪声为:6.3数据隐私保护技术例如,在一个数据集D中,将Alice换成另一个人的数据组成数据集D',即D'和D的区别只在于其中Alice的数据。如果攻击者无法判别信息O是来自于D还是D',那么可以认为Alice的隐私受到了保护。6.3数据隐私保护技术差分隐私要求被发布的信息需经一个随机算法处理,且该随机算法会对信息做一些扰动。根据差分隐私保护的定义,对源数据中任意一个人用户的数据进行修改时,得到的修改后的数据集O的概率变化会很小,因此能够保护用户的隐私不被泄露。6.3数据隐私保护技术修改一个人的数据不会对差分隐私保护算法输出的分布带来太大的影响。下图中,x轴代表算法A的输出,y轴代表算法A输出O的概率。蓝线代表输入数据为D的时候算法A的输出的分布。红线代表输入数据为D'的时候算法A的输出的分布。算法的输出分布不会受某一个数据存在与否的太大影响。当攻击者观察算法的输出时,并不能反推出某个人是否在源数据中。6.3数据隐私保护技术差分隐私保护的基本原理:①敏感度控制。敏感度是衡量数据集中个体信息变化程度的一个指标,差分隐私要求根据数据集的敏感度来确定隐私预算ε,从而控制噪声的添加程度。②随机噪声添加。差分隐私通过在数据集中添加随机噪声来实现隐私保护,添加的噪声可以是添加拉普拉斯噪声或指数噪声等,具体取决于数据类型和分析任务。③数据扰动。差分隐私要求对数据进行扰动,使得攻击者无法准确推断出个体信息。数据扰动可以通过多种方式实现,如数据聚合、数据转换等。6.3数据隐私保护技术差分隐私保护的基本原则:①个体不可区分性。差分隐私要求无论数据集中是否存在某个个体的记录,对于任何可能的数据分析结果,其概率分布都应当非常接近,保证了攻击者无法通过数据分析推断出特定个体的信息。②隐私预算控制。差分隐私通过隐私预算来控制隐私保护的程度。隐私预算是一个衡量隐私损失的参数,它决定了在数据分析和发布过程中可以接受的噪声大小。隐私预算越小,隐私保护程度越高,但数据的可用性受到的影响越大。③数据依赖性。差分隐私要求算法的输出仅依赖于输入数据,而与数据集中个体的身份无关。这保证了即使攻击者知道某些个体的信息,也无法通过差分隐私算法推断出其他个体的信息6.3数据隐私保护技术差分隐私保护的实现方法:①拉普拉斯机制。通过向数据添加服从拉普拉斯分布的随机噪声来实现隐私保护,适用于数值型数据。拉普拉斯机制的优点是简单易行,但缺点是数据失真较大。②指数机制。指数机制根据数据的敏感度和隐私预算,以指数函数的形式为每个数据项分配一个概率,然后从概率分布中随机选择一个数据项作为输出。指数机制在保护隐私的同时,可以更好地保留数据的原始特征,适用于分类型数据。

6.3数据隐私保护技术③哈密尔顿机制。哈密尔顿机制是一种基于哈密尔顿距离的差分隐私保护机制,它通过计算两个数据集之间的哈密尔顿距离来度量数据的敏感度,并以此来添加随机噪声。哈密尔顿机制是一种基于优化的差分隐私实现方法,通过优化噪声的添加方式和程度,以最小化数据扰动对分析结果的影响。哈密尔顿机制可以更好地保护数据的全局特征,但计算复杂度较高。④混淆机制。混淆机制是一种通过混淆数据来实现隐私保护的方法,通过数据聚合、数据转换等方式来实现,可以处理多种数据类型和分析任务。6.3数据隐私保护技术差分隐私保护的优势①严格的数学定义。差分隐私提供了严格的数学定义和隐私保证,使得隐私保护程度可量化、可比较。②适用于多种数据类型。差分隐私保护技术能够应用于多种数据类型,包括数值型数据、文本数据、图像数据等类型,且能够处理复杂的数据分析任务。③灵活的隐私预算控制。差分隐私通过隐私预算来控制隐私保护的程度,隐私预算能够根据实际需求进行调整,以满足不同场景下的隐私保护需求。

6.3数据隐私保护技术④抵抗背景知识攻击。差分隐私通过添加随机噪声,使得攻击者无法利用背景知识推断出个体信息,增强隐私保护的鲁棒性。⑤高度的数据可用性。差分隐私保护技术能够在保护隐私的同时,保持数据的可用性。通过合理的噪声添加和数据处理,能够在一定程度上保证数据分析结果的准确性和可靠性,使得数据分析的结果仍然具有实际应用价值。6.3数据隐私保护技术3.交换保护交换是在记录之间交换数据值来平衡隐私和数据挖掘的一种技术,其核心思想是:在原始数据中,交换不同记录的某些属性值,同时又保证不改变数据的统计特征,最后发布交换后的数据,以此来提高敏感数据的不确定性。数据交换可以通过匿名化处理,隐藏个体的真实身份信息,从而保护个人隐私。在数据交换过程中,个体的身份可以被替代为临时生成的匿名标识,使得数据交换的参与者无法直接识别个体身份。6.3.2基于数据加密的技术基于数据加密的技术是通过对隐私数据信息进行加密处理,防止在数据挖掘的过程中出现隐私泄露。

该方法包括安全多方计算、分布式匿名化和数据加密技术。安全多方计算是通过两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果。分布式匿名化是通过保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名。数据加密技术是一种常见的隐私保护方法,它是通过数据加密转换来保护敏感数据,它能够使未授权者不能提取数据,实现数据访问的合法性、数据记录的机密性、数据记录的完整性和数据操作的不可否认性。6.3.2基于数据加密的技术对于数据加密方法,国外主要的加密算法有DES算法、AES算法、RSA算法、MD5算法、SHA1算法等。国内主要的加密算法分为三类,一是对称加密算法,主要指SM4;二是非对称加密算法,主要指SM2、SM9;三是密码杂凑算法,主要指SM3算法。6.3.2基于数据加密的技术1.对称加密算法SM4SM4算法又称为SM4分组密码算法,是国家密码管理局颁布的一种对称加密算法,也是我国商用密码体系中的重要组成部分。与国际广泛使用的AES等算法类似,SM4算法同样用于保护数据的机密性,确保信息在传输过程中不被未授权的第三方窃取或篡改。SM4算法的分组长度为128比特,密钥长度为128比特,加密算法与密钥扩展算法都采用32轮非线性迭代结构。数据解密和数据加密的算法结构相同,只是轮密钥的使用顺序相反,解密轮密钥是加密轮密钥的逆序。SM4算法的安全性基于求解其密钥空间的困难性。由于其密钥长度为128位,因此其密钥空间非常大,即使使用最先进的计算机进行暴力破解,也需要花费非常长的时间。6.3.2基于数据加密的技术

SM4算法的运行速度快,适用于实时加密和解密,且与DES、3DES等国际标准算法兼容,可以方便地进行算法转换。SM4算法在硬件和软件上的实现比DES更加高效6.3.2基于数据加密的技术2.非对称加密算法SM2SM2基本思想是使用一对密钥(公钥和私钥)来加密和解密信息,其中公钥用于加密,私钥用于解密。

SM2算法是基于椭圆曲线的非对称算法,主要包括三个部分:SM2-1椭圆曲线数字签名算法、SM2-2椭圆曲线密钥交换协议、SM2-3椭圆曲线公钥加密算法,能够实现数字签名、密钥协商和数据加密等功能。6.3.2基于数据加密的技术

SM2是对RSA和ECC的一种补充和完善。从表中可以看出,相比于传统的RSA非对称加密算法,SM2算法具有安全、高效、灵活等特点,且可以在国家保密需求下有良好应用。当前,SM2算法已被广泛应用于数字签名、密钥交换和加密等密码学应用,是最适合在中国国内使用的加密算法之一。(a)和(b)分别给出了SM2算法的加密和解密流程6.3.2基于数据加密的技术

6.3.2基于数据加密的技术SM2的加解密过程可以通过如下两种方式实现:第一种是基于对上述SM2加解密算法流程的理解编写程序来实现;第二种是基于GmSSL库来实现。GmSSL是一个开源加密算法包,它提供了SM2、SM3、SM4等多种国密算法的python实现,方便有不同需求的读者使用。针对本案例分析的SM2算法,该库提供了encrypt与decrypt两个函数用于实现加密与解密过程。6.3.2基于数据加密的技术3.非对称加密算法SM9SM9算法也称为SM9椭圆加密算法或SM9标识密码算法,是国家密码管理局颁布的一种基于椭圆曲线密码学的公钥密码算法,具有高度的安全性和可靠性。它由数字签名算法、标识加密算法、密钥协商协议三部分组成。SM9算法主要应用于标识密码系统,如数字签名、数据加密、密钥交换、身份认证等。用户的私钥由密钥生成中心根据主密钥和用户标识计算得出,用户的公钥由用户标识唯一确定,从而用户不需要通过第三方保证其公钥的真实性。与基于证书的公钥密码系统(PKI)相比,基于SM9算法的标识密码系统中的密钥管理环节得到了很大的简化。SM9标识密码算法是一种基于身份的密码方案,主要用于身份认证和密钥协商。6.3.2基于数据加密的技术它采用了双线性对等数学工具,支持1024位和2048位密钥。SM9算法具有较高的安全性和计算效率。SM9算法支持海量用户,无需颁发和管理数字证书,大幅节约管理成本适用于互联网应用的各种新兴应用的安全保障。如基于云技术的密码服务、电子邮件安全、智能终端保护、物联网安全、云存储安全等。它能够解决身份认证、数据安全、传输安全、访问控制等多种安全问题,可以将用户的标识(如邮件地址、手机号码、QQ号码等)作为公钥,省略了交换数字证书和公钥过程,使得安全系统变得易于部署和管理,非常适合端对端离线安全通讯、云端数据加密、基于属性加密、基于策略加密的各种场合。6.3.3基于数据抑制的技术基于数据抑制的技术是根据数据的具体情况,有选择地发布原始数据、不发布或者发布精度较低的敏感数据,实现隐私保护。基于数据抑制的隐私保护技术主要集中于数据匿名化,在隐私披露风险和数据精度间进行折中,从而有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。常用的方法有K-匿名化(K-Anonymity)、L-多样性(L-Diversity)、T-相似性(T-Closeness),其中K-匿名可以抵御链接攻击,但无法解决同质攻击问题;L-多样性虽然可以抵御同质攻击,但却不能解决偏斜攻击和相似性攻击;T-相似性则可以有效解决偏斜攻击和相似性攻击,实现敏感数据的隐私保护需求。6.3.3基于数据抑制的技术1.数据匿名化的常用方法●去标识:是指把原始数据表中唯一准确标识记录的标识符去除,一般仅用于数据预处理的第一个环节或是简单的数据发布。去标识方法过于简单、容易失效。●数据泛化:指对数据表中的原始属性值依照某种规则进行变换,使得变换后的数据属性值涵盖比真实数据更多的信息量。数据泛化的本质是通过降低数据的精度换取数据的匿名性。泛化的好处是不会引入错误数据,并且能够保留原始数据的重要统计特性。●限制发布:限制发布和数据泛化的操作相反,通常不会单独使用,而是配合数据泛化使用。当因为数据泛化导致信息损失过大时,可采用限制发布某条记录的方法减少数据损失。6.3.3基于数据抑制的技术●子抽样:是指从原始数据表中抽取出小部分具有代表性的数据记录进行分析和研究。通过减少对外发布的记录数量来减少隐私泄露的可能性。●插入噪声:是指在原始数据中添加一些与原始数据相符的干扰信息。在不影响数据原有基本统计特性的条件下,通过降低具体数据记录的准确性来增加攻击者推理的难度。添加的噪声要与原有数据信息相吻合,不对原有数据做太大的变动。●分解:在数据表准标识符属性维数较多时,采取泛化和限制发布的办法会导致大量的数据信息损失。采用分解的方法将数据表作为两个表分开发布,一个是准标识符表,一个是敏感属性表,但不改变原始数据记录的属性值,只是通过隔断准标识符属性和敏感属性之间的联系来达到隐私保护的目的。6.3.3基于数据抑制的技术2.K-匿名化

K-anonymity主要用于保护关系型数据库中的数据隐私,它要求发布的数据中必须有k-1条与当前记录不可区分的数据记录存在,使得攻击者无法判断出敏感信息对应的数据记录。2002年,Sweeney将k-anonymity模型引入到位置隐私保护方法中,提出了k-匿名隐私保护模型,通过将移动用户当前所处的位置和其他k-1个用户位置匿名在一起,使得攻击者能识别出当前用户位置的概率不超过1/k。K-匿名化隐私保护技术是一种基于k-匿名模型的数据隐私保护方法,它要求发布的数据中,指定标识符(包括标识符或准标识符)属性值相同的每一等价类至少包含k个记录。6.3.3基于数据抑制的技术K-匿名模型是一种典型的基于背景知识的隐私保护模型,因其简单、便于操作,而成为目前应用最广泛的隐私保护模型。但其缺点是攻击者掌握的背景知识对实现的隐私保护效果有很大的影响,攻击者掌握的背景知识越少,隐私保护效果越好。此外,k-匿名模型中用k来表示隐私保护强度,k越大,匿名效果越好,隐私保护参数k的设定至关重要。K-匿名化隐私保护技术的结构主要包括数据预处理、等价类划分、等价类合并、噪声添加和数据发布等五个部分,具体过程如下

(1)数据预处理。对原始数据进行清洗、去重、格式化等处理,去除或隐匿敏感信息和标识符信息,为后续的等价类划分和合并提供基础数据。6.3.3基于数据抑制的技术(2)等价类划分。根据选定的准标识符对预处理后的数据进行划分,形成若干个等价类,每个等价类中的记录具有相同的准标识符属性值。(3)等价类合并。如果某个等价类中的记录数小于k,则需要将该等价类与其他等价类进行合并或扩展。合并或扩展的方式可以根据具体情况进行选择,如基于距离、密度等指标的合并算法。(4)噪声添加。为了满足隐私保护需求,可以对合并或扩展后的等价类进行噪声添加处理,具体选择取决于隐私保护需求和数据集的特点。(5)数据发布。经过上述处理后,生成可发布的数据集,并对外发布。发布的数据集满足k-匿名的要求,以保护个人隐私信息不被泄露。6.3.3基于数据抑制的技术k-匿名化隐私保护技术处理方法主要分为直接方法和间接方法(1)直接方法。直接方法是通过修改数据或数据发布策略来满足k-匿名的要求。具体方法包括数据泛化、数据抑制和数据合成等。数据泛化将原始数据替换为更一般的值,如将具体的年龄替换为年龄段;数据抑制直接删除某些属性或记录,以减少数据集的敏感性;数据合成通过合并多个记录来创建一个新的不敏感记录。(2)间接方法:间接方法是通过引入额外的信息或噪声来满足k-匿名的要求。具体方法包括聚类、随机化等。聚类是将相似的记录分组在一起,以增加等价类的大小;随机化是通过添加随机噪声来混淆数据,以保护个人隐私。6.3.3基于数据抑制的技术K-匿名化是通过概括和隐匿技术,发布精度较低的数据,使得同一个准标识符至少有k条记录,降低目标数据被识别的概率,即K-匿名是保证数据集中的等价类至少有k组记录相同,这样目标记录被识别出来的概率不超过1/k。6.3.3基于数据抑制的技术3.L-多样性L-多样性是指如果对于任意相等数据集(等价类)内所有记录对应的敏感数据属性集合,至少包含L个不同的取值,则称该等价类满足L-多样性,如果数据集中所有等价类都满足L-多样性,则称该数据集满足L-多样性。6.3.3基于数据抑制的技术4.T-相似性T-相似性在L-多样性的基础上进行了改进强化,增加了对数据敏感属性值分布的约束,其要求每一个等价类中敏感属性值的分布与整个数据表中敏感属性值的分布之间差异不超过给定的参数t,即该等价类满足T-相似性,从而使得每个等价类中敏感属性值的统计分布与整个数据表中敏感属性值的总体分布“相似”,即该数据表满足T-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论