密码假名映射方法、计算机系统、计算机程序和计算机可读介质_第1页
密码假名映射方法、计算机系统、计算机程序和计算机可读介质_第2页
密码假名映射方法、计算机系统、计算机程序和计算机可读介质_第3页
密码假名映射方法、计算机系统、计算机程序和计算机可读介质_第4页
密码假名映射方法、计算机系统、计算机程序和计算机可读介质_第5页
已阅读5页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号CN114144783A

(43)申请公布日2022.03.04

(21)申请号202080052243.3(74)专利代理机构上海专利商标事务所有限公

司31100

(22)申请日2020.07.14

代理人钱盛赞蔡悦

(30)优先权数据

(51)Int.CI.

P19002552019.07.15HU

G06F27/55(2013.01)

(85)PCT国际申请进入国家阶段日

G06F21/60(2013.01)

2022.01.17

G06F76/3/(2019.01)

(86)PCT国际申请的申请数据

PCT/HU2020/0500322020.07.14

(87)PCT国际申请的公布数据

W02021/009529EN2021.01.21

(71)申请人艾克斯坦德尔有限公司

地址匈牙利布达佩斯

(72)发明人F•瓦古耶赫利G•瓦古耶赫利

权利要求书3页说明书12页附图1页

(54)发明名称

密码假名映射方法、计算机系统、计算机程

序和计算机可读介质

(57)摘要

本发明为一种用于匿名数据共享系统的密

码假名映射方法,该方法被适配成用于从与实体

相关且源自数据源(DSJ的数据生成假名化数据

库(DB),其中该数据在该数据源(DS)处由相应

实体的实体标识符(D)来标识,并且其中该数据

在该假名化数据库(DB)中通过应用一对一映射

指派给相应实体标识符(D)的假名(P)来标识。根

据本发明,应用一个映射器(M)和一个密钥管理

器(KM),并且由映射器(M)利用与特定数据源

(DSJ相对应的映射密码密钥(3)为由数据源

(DSj)加密的每个经加密实体标识符(CJ生成相

v应的假名(P)。本发明进一步为实现本发明的计

g算机系统、以及计算机程序和计算机可读介质。

Z

二T——<

CN114144783A权利要求书1/3页

1.一种用于匿名数据共享系统的密码假名映射方法,所述方法被适配成用于从与实体

相关且源自数据源(DSJ的数据生成假名化数据库(DB),其中所述数据在所述数据源(DSJ

处由相应实体的实体标识符(D)来标识,并且其中所述数据在所述假名化数据库(DB)中通

过应用一对一映射指派给相应实体标识符(D)的假名(P)来标识,

其特征在于:

-一个映射器(M)和一个密钥管理器(KM),

-其中所述密钥管理器(KM)被用于:

-从构成乘法或加法循环群的预定代数结构中选择秘密元素(b),

-从所述代数结构中为每个数据源(DS)选择将由给定数据源(DSJ用作密码密钥的元

素包,a)并将其发送给所述给定数据源(DS)同时将所述元素包,年)保密,

-计算所述元素均用])在给定代数结构中的逆(dj并将其与所述秘密元素(b)一起用

于生成映射器(M)的映射密码密钥(儿),所述映射密码密钥(储)与所述给定数据源(DS)相

对应,以及将所述映射密码密钥(%)发送给所述映射器(M)同时将其保密并指派给所述给

定数据源(DS),

-由所述数据源(DSP通过使用将被用作密码密钥的所述元素包,aj将要被映射的每

个实体标识符(D)转换成相应的经加密实体标识符(CJ,以及

-由所述映射器(M)利用与特定数据源(DS)相对应的所述映射密码密钥(hs)为由所述

数据源(DSJ加密的每个经加密实体标识符(CJ生成相应的假名(P)。

2.根据权利要求1所述的方法,其特征在于,应用构成乘法循环群的代数结构,其中由

所述密钥管理器(KM)选择的值由剩余类模N表示,针对所述代数结构预定常数N=p-q和

(p(N)=(p-lMq-l),其中p和q是随机选择的质数,所述秘密元素(b)是随机选择的质数,而

(p(N)是针对N获得的欧拉函数的值,

-将被用作所述数据源(DSJ的自身密码密钥的所述元素(e)由所述密钥管理器(KM)随

机选择,

-所述密钥管理器(KM)被用于计算将被用作密码密钥的所述元素(ei)的逆(d),针对所

述逆应)满足方程备•可三1mod(p(N)),

-随后,由所述密钥管理器(KM)生成所述映射密码密钥%=4-b并将其发送给所述映

射器(M),

-由所述数据源(DS)利用公式Q=DefmodN来计算所述经加密实体标识符(C)

-由所述映射器(M)计算所述假名(P)P=CpmodN。

3.根据权利要求2所述的方法,其特征在于,随机选择的质数p和q能够利用所选密钥大

小的一半比特数来表示。

4.根据权利要求2所述的方法,其特征在于,

-由所述密钥管理器(KM)将要被用作密码密钥的所述元素(ej的所述逆(dj发送给被

授权实体(A),

-由所述通过映射器(M)将所述经加密实体标识符(Ci)发送给被授权实体(A)。

5.根据权利要求1所述的方法,其特征在于,应用构成加法循环群的代数结构,其中值

由在剩余类模P的数字域上定义的椭圆曲线的点来表示,其中P为质数,针对所述代数结构,

2

CN114144783A权利要求书2/3页

预定以下常数:y2=x,Ax+Bmodp中定义在质数p的剩余类上定义的椭圆曲线的点的参数

A、B、以及所述曲线中具有大于所述实体标识符(D)的数目的阶数q的点G、从剩余类modq之

中任意挑选的值的秘密元素(b),

-所述密钥管理器(KM)被用于从剩余类modq之中随机选择将由所述数据源(DS))用作

密码密钥的元素(a),

-随后,由所述密钥管理器(KM)生成映射密码密钥hj=aj+b并将其发送给所述映射器

(M),

-由所述数据源(DS)利用公式储=M㊉ajG来计算所述经加密实体标识符©),其中运

算符㊉为所述椭圆曲线的所述点的和,以及

-由所述映射器(M)计算所述假名(P)P=储㊀%G,其中A㊀B=A㊉(-B)c

6.根据权利要求5所述的方法,其特征在于,

-由所述密钥管理器(KM)将要被用作密码密钥的所述元素(aj的所述逆(dj传递给被

授权实体(A),以及

-由所述通过映射器(M)将所述经加密实体标识符(Ci)传递给被授权实体(A)。

7.一种用于密码假名化的计算机系统,所述系统包括:

-数据源(DS),所述数据源藉由实体的实体标识符(D)包括数据,

-假名化数据库(DB),其中所述数据通过应用一对一映射指派给相应实体标识符(D)的

假名(P)来标识,

其特征在于,

所述系统进一步包括:

-映射器(M)和密钥管理器(KM);

-模块,其被适配成用于应用所述密钥管理器(KM)从构成乘法或加法循环群的预定代

数结构中选择秘密元素(b),

-模块,其被适配成用于应用所述密钥管理器(KM)从所述代数结构中为每个数据源

(DSJ选择将由给定数据源(DSJ用作密码密钥的元素(e/aj并将其发送给所述给定数据

源(DSJ同时将所述元素Sj,a)保密,

-模块,其被适配成用于应用所述密钥管理器(KM)计算所述元素包,aj在给定代数结

构中的逆(dj,通过将所述逆(dj与秘密元素⑹一起生成映射器(M)的映射密码密钥(4),

所述映射密码密钥(瓦)与所述给定数据源(DSp相对应,以及将所述映射密码密钥(4)发送

给所述映射器(M)同时将其保密并指派给所述给定数据源(DS),

-模块,其被适配成用于应用所述数据源(DSi),利用将被用作密码密钥的所述元素(ej,

aj将要被映射的每个实体标识符(D)转换成相应的经加密实体标识符(Ci),以及

-模块,其被适配成用于应用所述映射器(M),利用与特定数据源(DSJ相对应的所述映

射密码密钥(hj将由所述数据源(DSs)加密的每个经加密实体标识符(C1)映射成相应的假

名(P)。

8.根据权利要求7所述的计算机系统,其特征在于,所述计算机系统包括被适配成用于

执行根据权利要求2或5的步骤的模块。

9.一种包含指令的计算机程序,当所述程序由计算机执行时,所述指令使所述计算机

执行根据权利要求1所述的方法的步骤。

3

CN114144783A权利要求书3/3页

10.一种其上存储有根据权利要求9所述的计算机程序的计算机可读介质。

4

CN114144783A说明书1/12页

密码假名映射方法、计算机系统、计算机程序和计算机可读

介质

技术领域

[0001]本发明涉及一种用于假名映射的密码方法和计算机系统,计算机程序和计算机可

读介质,优选地实现用于数据共享的系统,其中数据可以匿名的方式来分析。本发明提供了

一种符合GDPR规则的安全假名化解决方案。

背景技术

[0002]当前应用的假名化方法未解决机构的特殊数据处理需求。GDPR第2条规定,如果主

管机构处于预防、调查、侦查或起诉刑事犯罪或执行刑事处罚(包括防范和预防对公共安全

的威胁)的目的处理个人数据,则本条规则不适用于个人数据的处理。然而,如果主管机构

不能将假名指派给自然人(即使规则允许此类指派),则主管机构不能利用这一选项。在当

前广泛应用的假名化解决方案中,由数据源执行相同的映射,这确保在所有情形中相同的

假名对应于特定标识符,但允许任一方通过例如发起基于彩虹表的攻击来破解加密。本发

明为提供该选项的问题提供了一种解决方案:仅供主管机构利用出于分析目的生成的经过

特殊处置的密码密钥来将已出于该目的被假名化的、通过其他适当手段匿名、且未被用于

官方目的的数据指派到未经加密的数据。

[0003]题为"Datamanagementmethodandregistrationmethodforananonymous

datasharingsystem,aswellasdatamanagerandanonymousdatasharingsystem

用于匿名数据共享系统的数据管理方法和注册方法、以及数据管理器和匿名数据共享系

统”的W02017/141065A1公开了一种用于以一种方式来分析驻留有多个相互独立的实体

(下文称为数据源)的数据的解决方案,这种方式将数据加载到单个统一数据库中,实体(例

如,个人、公司)的标识符通过应用被适配成用于保护匿名性的假名来存储在该数据库中,

确保原始数据无法从假名中恢复。本发明使用从数论方面来看安全的假名映射方法来补充

W02017/141065A1中所公开的解决方案。然而,将假名指派给原始标识符的过程的安全性

风险不止由假名映射算法易受数论攻击引起。在W02017/141065A1中,除了提供假名映射

方法之外,还提供了措施的详细描述,这些措施必须被采取,以确保提供包含假名的数据库

的匿名性。这些措施有禁止向数据指定属性、分析k-匿名性和1-多样性、或防止基于反映实

体相互关系的图形的形态特性的节点标识。参考文件中所描述的所有方法也可应用于本发

明,包括其中确保数据源的匿名性也是要求的情形。这在数据源报告与它们自身相关的数

据的情形中尤为重要。

[0004]如今,几乎所有真实世界的事件都以数字空间中所存储的数据的形式留下痕迹。

对这些数据的分析允许作出有价值的推断。数据被存储在通常彼此不处于依赖关系的多个

实体中。数据常常有实体(例如,个人、公司、机构、财产、仪器、金融资产等)的特征或描述其

行为。在数据库中,实体指的是应用广为人知的实体标识符(例如,社会保障号码、税号、土

地注册号)。具有根据实体标识符的实体特征的可分析数据被称为属性。

[0005]如果可以使用尽可能广泛范围的数据进行分析,则可以关于实体的行为和相互关

5

CN114144783A说明书2/12页

系进行更接近现实的分析。这样做的最佳方式是应用单个数据库分析所有可用数据。然而,

数据库常常包含机密信息,或者受法律保护的信息(例如,在自然人的情形中)。这为数据管

理器出于聚集分析目共享它们所管理的数据设置了限制。因此,数据管理者(即数据源)必

须传递数据,以使得执行假名化映射以及应用于共用数据库的分析的实体无法访问原始实

体标识符。这是可行的,因为在大多数情形中,分析的目的不是理解特定人或物的属性、行

为或联系网络,而是识别从更多人群中的(匿名)个体期望的行为模式、分析联系网络的结

构、以及作出与事件的未来进程相关的推断。

[0006]通过W02017/141065A1中所公开的方法定义了为共用数据库中所存储的未经加

密的开放实体标识符和匿名标识符(下文称为:假名)之间的映射设置的要求。这种映射实

际上只能通过利用特殊的信息技术设备(即,密码处理器(在物理保护下执行密码运算的专

用计算机单元))来实现。在开放多用户系统中,这对系统的适用性提出了问题。与在单个步

骤中执行的映射相反,已知的技术解决方案通常提供针对“暴力”类型攻击的保护(通过拥

有关于加密系统运算的信息,通过尝试每个可能密钥来确定所应用的密钥),但是数据源与

执行映射的实体之间的恶意协作只能通过应用补充方法来防止(例如,通过由附加实体对

经映射值进行加密)o

[0007]如果给定的开放实体标识符以相同的假名输入共用数据库,则可将假名用于上述

分析目的,而不论哪个数据源发送了它,即未经加密的标识符与假名之间的映射必须是一

对一映射,其中无法计算映射的逆,即任何实体都无法从假名生成未经加密实体标识符。如

果映射是由数据源执行的,那么它们也必须应用相同的映射。如果需要算法上不可逆的映

射,则通常应用密码散列函数,其中未经加密的数据是函数的输入,而在该情形中输出值是

假名。造成问题的是,实体标识符的多样性通常是低的,量级在一亿至数百亿之间。对于此

类多样性,可以在很短的时间内生成彩虹表(用于反转密码散列函数的预计算表)。因此,在

计算散列值的进程中,加“盐”来补充输入数据(随机选择的数据用作散列函数的附加输入

数据)。在此类情形中,所有实体都必须应用相同的“盐”,以使能能够维持一对一关系。但

是,由所有数据源使用的数据很难能够被视为秘密,或者如果攻击者能够访问任何数据源

的系统,要执行计算甚至不需要知晓值(例如,攻击者可能是执行任意数目的映射时不以任

何方式受限的数据源之一)。

[0008]另一种可能性是将未经加密的数据或由应用相同加密和假名的数据源加密的数

据之间的关系的生成委托给受信任合作者。受信任合作者能够在第一情形中简单地汇编彩

虹表,而在第二情形中通过获取对仅单个数据源的系统的访问来汇编彩虹表。因此,根据W0

2017/141065A1的解决方案得到数据源必须应用基于唯一(例如,自身的)密码密钥的加密

方法的结论。在此类情形中,数据源将相同的实体标识符作为不同的密码(经加密的数据)

来发送,同时必须执行假名映射,以使得在特定密码是从相同的未经加密标识符计算的情

况下必须将不同的密码指派给相同的假名。在根据本文件实现的解决方案中,应用RSA密

钥,其中解密密钥被存储在可信平台模块(TPM,例如参见IS0/IEC11889)中,通过利用安全

密码处理器进行解密过程以及未经加密的数据到假名的映射。这种结构难以实现并且需要

大量的初始投资,同时其运算也是麻烦的,因为所需要的硬件基础设施与数据源的数目成

线性关系。

[0009]发明描述

6

CN114144783A说明书3/12页

[0010]本发明的目的是消除现有技术解决方案(尤其是以上所呈现的现有技术解决方

案)的缺点或减少其影响。

[0011]本发明的主要目的是提供一种密码假名映射解决方案,该方案不需要使用安全硬

件(例如,密码处理器)来执行解密并将未经加密的数据映射到假名。

[0012]通过提供根据权利要求1的密码假名映射方法、根据权利要求7的计算机系统、根

据权利要求9的计算机程序以及根据权利要求10的计算机可读介质实现本发明的目的。本

发明的优选实施例在从属权利要求中定义。

[0013]根据本发明的密码假名映射方法被适配成用于从实体数据生成假名化数据库,其

中数据在数据源处利用相应实体的实体标识符来标识,并且其中数据在假名化数据库中利

用应用一对一映射指派给相应实体标识符的假名来标识。

[0014]本发明是一种利用在剩余类上执行的模求基的属性以及基于椭圆曲线的特别选

择的离散点的运算属性,并实现所需的抽象映射,同时不包含与现有技术相关的以上所提

及的限制的解决方案。

[0015]与现有技术相比,本发明不需要用于存储密码密钥或用于执行计算的任何特殊硬

件,而是取而代之地通过纯粹的密码手段来解决问题。这首先要求必须将实体标识符指派

给代数(数学)结构(例如,参见维基百科(Wikipedia))的元素,在这些元素上执行密码计

算。信息技术设备应用数据的二进制表示,因此数据可被解读为可被用于执行计算的正整

数。在下文中,假设映射域能够提供实体标识符和计算出的密码的唯一表示。例如,如果计

算是在剩余类的循环群(例如,参见维基百科)上执行的,则选择的模数将足够大,以使得有

足够数目的剩余类可用。由于在实际实现中应用了密钥大小,因此这不会造成问题。例如,

在对剩余类执行模求累的情形中,与实际出现的实体标识符相比,指数可以应用多得多的

比特来表示。在此类情形中,可以考虑对值进行所谓的“填充”,以使得使用低基数执行的求

事不能通过普通的根计算来反转。这在计算结果的过程期间不需要模运算的情形中发生。

由于应用一对一映射的要求,只能应用确定性填充方法。

[0016]因此,考虑多个数据源,每个数据源包括包含实体标识符和属性的数据库。必须在

共用数据库中收集数据,以使得根据以下条件使用假名将实体标识符包括在其中:

[0017]⑴给定实体标识符必须被映射到相同的假名,而不论接收到它的数据源如何。

[0018]⑵不得将同一假名指派给两个不同的实体标识符。

[0019](3)未经加密的标识符与其假名之间的关系不可由系统的任何参与者仅利用其已

知的信息获得,即使数据源以破坏加密为意图与参与映射的参与实体合作。

[0020](4)特别授权实体(例如主管机构)必须能够根据由数据源发送的密码来计算未经

加密实体标识符。

[0021]条件⑴和⑵一起暗示了映射必须是一对一映射。密码映射满足该要求,只要我

们维持在其域(在密码学中,为消息域)内。条件⑶排除了可仅由一个或两个参与者、不需

要与其他参与实体合作地执行所有映射。为了满足条件⑷,需要这样一种方法,该方法被

适配成从应用由其他实体运用的密码密钥映射的密码来生成未经加密的数据,而其他实体

不能从它们相应的自身密码密钥来计算该解密密钥。因为假名与未经加密的数据之间的关

系将受到各种方式保护,因此为满足该条件,必须应用由数据源计算的密码。数据源必须不

可能跟踪映射的第一步骤和第二步骤,因为否则,它可以很容易地获得作为第二计算步骤

7

CN114144783A说明书4/12页

的结果的假名。执行第二映射的实体可以很容易地访问假名,因此它必须不能访问未经加

密实体标识符。这在实体标识符由数据源应用它们自身的唯一加密(即,使用它们自身的密

码密钥)发送给映射器实体,但是数据源无法“看到”假名映射计算,或者无法将其结果与它

们自己提供的数据相关的情况下可被提供。

[0022]根据W02017/141065A1中所描述的技术方案,必须通过将映射分解成各步骤来

应用密码执行假名映射,其中给定步骤能由被适配成执行映射的仅单个参与实体来执行:

[0023]P=gb(fkeyj(Q))=晶(fkey:iIke%(D)))

[0024]其中D为实体标识符,P为假名,i为数据源的数字标识符,J为应用其自身密钥计

算的密码。加密系统中的不同映射常常应用不同的密钥来执行相同的算法。因此,应用密钥

b执行的映射g可被4替换。应用单个映射器(例如,安全密码处理器),该映射器被适配成解

密密码,随后应用假名映射密钥b来将未经加密的数据映射到假名P。例如,应用RSA方法(例

如,参见US4,405,829A),第i个数据源的密码密钥为(erN),其中e为加密指数,而N为模

数。密码是通过以下计算获得的:

[0025]Cj三DeimodN

[0026]密码随后并被发送给执行假名映射的实体,该实体利用解密密钥(dj,N)生成未经

加密的数据,其中4为指数,执行以下计算:

[0027]D三modN

[0028]根据us4405829A,该计算例如应用安全密码处理器来执行,以使得映射器不能

访问未经加密的数据,但是能够使用结果来计算假名。利用映射g三4的密码密钥(b,N)从

未经加密的数据中获得假名(与本说明书中的其他地方不同,此处符号三表示同一性而非

一致性):

[0029]P=DbmodN

[0030]重要的是,不能从执行计算的设备中读取值4和b;此类设备例如是可信平台模块

芯片。因为g和f两者均表示模N的模求累,所以在下文中使用仅f。使用以上示例的几号,整

个映射为:

[0031]p=((DeimodN)d>modN)bmodN

[0032]其中利用指数ej的最内层密码计算由数据源执行,随后由映射器应用指数b来执

行计算。

[0033]目的是提供一种用于执行后两次映射的计算方法,在此进程中,实体执行计算:

[0034]i.无法访问实体标识符D(即未经加密的数据),以及

[0035]ii.无法访问被用于从未经加密的数据生成假名的指数b。

[0036]由此得出,根据条件(i.),执行计算的实体也必须不能访问4,因为否则它可能解

密密码。条件(ii.)是必需的,以防止映射器进行成功的试错或基于彩虹表的攻击。在示例

性映射中,数据应用由正整数模数(N)定义的剩余类来表示。

[0037]在根据本发明的解决方案中,可以在任意数目的步骤中执行应用逆密钥的解密以

及假名映射,以使得在计算进程中不生成未经加密的数据(实体标识符),没有实体能够获

得解密密钥key「i,并且也没有实体能够获得假名映射密钥b,即,没有实体能够秘密地从未

8

CN114144783A说明书5/12页

经加密的数据生成假名(即编译彩虹表)。为了达成这一点,应用基于已知数目的理论基础

的信息技术方法。

[0038]附图简述

[0039]下文参考附图通过示例来描述本发明的优选实施例,其中:

[0040]图1是解说根据本发明的解决方案的示意图,该解决方案应用单个密钥管理器来

实现并且包括被适配成用于解密数据源的经加密数据(密码)的特别授权实体。

[0041]用于执行发明的模式

[0042]根据本发明,已经认识到,构成乘法或加法循环群的代数结构的特征可被优选地

用来完成本发明的目的。以下更详细地描述了基于此类代数结构的两种类型的解决方案,

但是根据本发明,还可以应用提供本发明的运算所需的算术的其他此类代数结构。在示例

性代数结构中,首先详细描述了涉及剩余类模N(其中N是正整数)的解决方案,随后相对于

前者描述了涉及在剩余类模P(其中P是质数)数域上定义的椭圆曲线的点的解决方案。

[0043]实体标识符及对应数据被存储在相互独立的数据源处的数据库中,并且在根据本

发明的假名化之后,数据连同从实体标识符生成的假名一起被存储在中央假名化数据库中

并被指派给彼此。遵守本发明的对象集的条件,对于给定的实体标识符,未经加密的数据与

假名之间的关系不会受数据来源(即,其来自什么数据源)的影响。然而,映射过程(即在特

定阶段执行的运算)对于每个数据源是唯一的,也就是说,必须要使用不同的密码密钥(例

如,模累)来执行相同的映射。数据收集系统的实现必须从选择适当的模数开始。这实际上

是由数据收集服务的供应商或首先决定适用密钥的比特长度的数据收集社区来执行的。随

后,选择两个此类质数,它们的乘积(用作模数)可以使用给定的比特数目来表示。生成密钥

的实体(下文称为:密钥管理器)必须知晓模数N并且还知晓由欧拉(Euler)函数给出的值

(p(N),或者换言之,其totient值。执行映射的所有参与实体都必须知晓模数的值N。如果要

被映射的实体标识符的表示大小显著小于密钥大小,则优选应用某种类型的填充方法。该

方法必须是确定性的,即每个数据源必须接收相同的值,以使得假名也是确定性的,而不论

数据源如何。因此,映射的基本数据为N和(p(N)o

[0044]根据本发明,通过随机选择,意味着该方法的实现不依赖于选择给定集合的哪些

特定元素。因此,随机选择意味着还包括准随机或伪随机选择,以及所有此类选择方法(即

使根据观察者不知晓的规则),其中选择对于外部观察者而言似乎是随机的。如果集合构成

代数结构,则在它具有空元素和/或单元元素的情况下,它/它们不被认为是随机选择的。此

外,在剩余类的情形中,避免选择非相对质数值。但是,出于密码考虑,值得选择它们的表示

的比特长度填满所有可用空间的此类值。

[0045]如图1中所示,描述实体或它们的行为的实体标识符D和属性(图中未示出后者)由

数据源DSj存储在它们相应的数据库中。特定实体与其他实体之间的关系可被视为给定实

体的特征。由此,在此类关系中,其他实体的实体标识符被视为属性(例如,B是A的客户端,

在该情形中,B同时为属性和实体标识符)。因为根据本发明的技术方案的目的是支持匿名

性,所以此类数据也可被视为实体标识符。

[0046]与实体标识符D相关的属性优选地由数据源DSj作为未经加密的数据来传递,而实

体标识符D由数据源DSj利用其自身的密码密钥来加密。结果所得的密码被发送到被适配成

9

CN114144783A说明书6/12页

执行至假名P的映射的实体(即映射器M)。同时,维持未经加密的数据与密码之间的指派(即

维持经加密实体标识符),因为数据分析所需的数据库只能以此类方式来加载有用信息。

[0047]本发明的技术方案应用对于所有数据源DSj而言共用的单个映射器M,其实现如

下。在第一步骤中,由数据源DSj执行加密,随后在第二步骤中由映射器M计算假名P。如果这

两个实体协作,那么它们就能够将未经加密的数据与假名P连接,因此它们甚至可以生成彩

虹表。因此,可以在通过进一步信息技术手段补充对映射器M的监督的情形中应用该解决方

案。

[0048]第i个数据源DSj使用其自身的秘密密码密钥,该密钥使用以上应用的编号被称为

0,N)。每个数据源都可以使用任意数目的密钥,因此不止一个密钥标识符索弓Ii可以对应

于数据源。因此,实体标识符D作为以下密码被发送给映射器:

[0049]Cj=DeimodN

[0050]如上所示,假名通过映射器执行以下运算来生成:

[0051]p三((Cj)dimodN)bmodN

[0052]作为中间计算的结果,通过计算值(CjamodN,可以获得必须对映射器保持隐藏

的未经加密的值D。出于相同的原因,映射器也不能访问包。针对该问题的解决方案是同时

利用指数a和b并应用指数hi=di-bmod(p(N决执行两次求累运算:

[0053]p=q同modN

[0054]必须注意到,对模求嘉运算的指数执行的运算结果必须使用根据(P(N)的模数来计

算,因为这些指数形成具有数目(p(N件元素的循环群。

[0055]当然,必须确认实体标识符D(即未经加密的数据)是否出现在以上计算进程中的

某处。如果以上模求累运算是作为乘法序列来执行的,则在执行dj乘法之后,将获得未经加

密的标识符D,这将使该方法变得无用,因为执行计算的实体可以轻松检查所获得的部分结

果是否为实体标识符所期望的形式,特别是检查它是否还包含CDV(检查数字值)。然而,由

于2048比特的最小适用密钥大小,指数的十进制形式有616位,即,将必须执行多达1()616次

模乘法。实际上,这是不可行的。因此,下面将描述最简单(但并非最有效的)的实际可行的

方法。应用二进制求暴方法来执行求事X、(例如,参见:模求累,从右到左二进制方法)。这些

数字以二进制形式来表示,即二的基和。例如,对于y:

2

[0056]y=y0•2°+y(•2*+71•2+y3•2^^•2~1,其中丫1是数字二进制表示中的第i比

特,即为0或1,对和贡献0或。由此,

>123123n-1

[0057]xy=xyo2°+yr2+y2-2+y3-2+_xy0'2°.j^yi-2.xy2,2.xy312..xyn-r2o

[0058]因止匕,如果指数y中的第i比特为零,则中间结果乘以一,而如果第i比特是一,则它

乘以x21即乘以小小2E4M8,...^2自。然而,在二进制表示的情形中,应用二次幕的求幕可

以作为比特移位运算来执行。因此,已经实现了实用可计算性。中间结果是应用密码G的二

进制表示的两个非零数字的(对应)基指数计算的毒乘积。如果hi三di•bmodq)(N)的第

-r(低阶)比特与夫的比特相同,则低阶比特被定为朝向左侧。如果包的长度与%的长度相

同,即它们以相同数目的零开始,则与b相乘对应于与单位相乘,即b三1mod(p(N)。让我

10

CN114144783A说明书7/12页

们排除该简单情形,其中假名映射将是一致的,因此相应地不选择b作为其中一者。否则,密

钥选择(以及因此还有逆的选择)可被认为是随机的,因此它们以数目n个零开始的概率为

[0059]让我们考虑其中dj和均不具有相同长度的情形。如果乘法包­b根据“长乘法”算法

(如文献上说的那样)执行,即利用乘法器包的数字乘以被认为未知的被乘数b,则在4的给

定比特为1的情况下,结果为b,而在给定比特为0的情况下,结果为0。给定比特的值实际上

可以被认为是随机的,因此在统计上中间结果在一半的情形中将是非零的。中间结果随后

根据乘法器的对应数字进行移位并相加。作为结果,获得与匈中非零比特的数目一样多的

方程,该数目平均为可长度的一半。在所有这些等式中,b的特定比特的和等于dj的对应比特

的值,即0或1。在密钥大小为2048比特的情况下,解决方案平均必须满足1024条语句。在方

程的右侧可以为1或0的值,其仅作为0和1的和来获得。如果对于随机选择的b的值,所计算

的值与乘积的刚计算的数字处的0或1不相同,则改变计算中所包括的b的单个比特将产生

正确的结果。然而,每次都将作为b的二进制表示的潜在可选值的数量减少一半。因此,以2

I。?」的概率执行产生应用4作为指数的求塞结果的运算,即以1。3。8的概率获得未经加密的

数据。因此,实际上在计算进程中几乎从不生成未经加密的数据。

[0060]数据收集网络的共用标识符具有以下特性。在映射密钥的进程中,使用W02017/

141065A1中指定的方法来将模数N生成为适当幅值的两个质数的积N=p-q。在此类情形

中,(p(N)=(p-l>(q-l)。对用于将未经加密的数据映射到假名的指数b的唯一要求是,它与

q)(N)互质。b针对(p(N)的模乘法逆未被计算,因为它未被用于任何计算(如果三1mod

m,a的乘法逆为小模m)。

[0061]生成一对映射密钥的过程如下:在执行以上计算之后,与(p(N)互质的指数dj是随

机选择的。然后应用扩展欧几里德算法来计算ej针对其公式三1mod(p(N)将为真。在

那之后,计算hi=di-bmod(p(N)o

[0062]因为在拥有b时,可以从未经加密的数据生成假名,所以该数据可被根本无法访问

未经加密的数据的此类实体访问。因此,在此类系统中,需要密钥管理器KM,其被适配成用

于生成密钥并使它们可由执行计算的实体访问。p、q和b的值由此由密钥管理器生成并保

密。值(p(N)也可由仅密钥管理器访问,即它是唯一能够生成密钥(ei、dj和4)的实体,即上

述映射密钥对由密钥管理器KM生成。

[0063]立法或数据收集和数据分析社区的规则可能允许机构A或受社区信任的机构被给

予对未经加密的数据访问。由于这是不期望的,即使该实体也能够在未经加密数据与假名

之间建立连接,因此优选地出于该目的应用直接源自数据源DS1的密码。为了执行解密操

作,需要密钥管理器KM在经加密数据通道上将密钥包传递给该实体。则,如果已经获得了所

需的法律授权或数据收集社区的许可,则实体可以向映射器M请求所需的密码数据。该实体

由此能够通过执行以下计算来访问所接收的未经加密的数据:D=峭modNa

[0064]如果将针对每个数据元素控制解密授权,则数据源DSj必须利用相应的不同密码

密钥来对每个数据元素进行加密,随后将其传递给映射器M。在每个时机中都必须向生成数

据源DSj的密码密钥ej和映射器M的映射密钥储的密钥管理器KM请求所需的密钥,并且将前

11

CN114144783A说明书8/12页

者传递给数据源DSj,并将后者传递给映射器M,以使得没有其他实体能够访问它们。由机构

A例如分别从密钥管理器KM以及从负责管理假名化数据库DB的实体获得密钥包和数据。由

此,仅那些密码以及仅与授权中所包括的数据相对应的那些密码密钥才被传递给机构A。

[0065]图1中可以看到的示例性解决方案包括以下步骤:

[0066]⑴映射的常数由密钥管理器KM生成:N=p-q,(p(N尸(p-l>(q-l)(这两个因子都

是随机选择的质数,可以优选地以所选密钥大小的一半比特长度来表示),b为指数,这些值

中仅N对其他实体公开,而其他被保密;

[0067](2)在数据源DSj请求之际,密钥管理器KM使用标识符i生成由加密密钥和映射密

钥组成的密钥对:指数为erhi,其中该标识符根据以上描述,其中与标识符索引一起前者被

传递给数据源DSj,后者被传递给映射器M;数据必须被视为秘密数据,因此数据传递可以经

加密或其他合适的方式来执行。

[0068]⑶实体标识符D(即未经加密的数据)由数据源DSj映射到密码。三D*modN并

被发送给映射器M;

[0069](4)由映射器M根据密码计算假名P=CjhimodNo

[0070]⑸在具有适当授权的情况下,主管机构A能够使用以下公式从密码中获得未经加

密的数据(如果它从密钥管理器KM接收指数dj并从数据管理器接收对应的密码CJ;

D=CjdimodNo

[0071]在上述实施例中,数据由数据源DSj应用由索引i标识的相应的自身秘密密码密钥

ej来加密,其中数据源DSj可以具有任意数目的密钥。

[0072]尤其优选地选择质数为值p和q,因为在该情形中,相对质数的数目是已知的(其为

(p-1),(q-1))o

[0073]如引言中所提及的,还可以应用定义在剩余类模p(其中p为质数)的数字字段上的

椭圆曲线点来执行假名映射(例如,参见维基百科(Wikipedia)文章“椭圆曲线(Elliptic

n23

curve))Oy=x+Ax+Bmodp在该上下文中,让代数结构为满足方程y?=x3+Ax+Bmodp的

点集,其中x、y、A和B是质数p的剩余类。首先,必须将未经加密实体标识符m指派给曲线的

点。让我们选择曲线中的点G,该点G具有足够大的阶数q以使得能够将消息空间的点指派给

由G应用一对一映射生成的点。(对于曲线的所有点,存在数字q为在无穷远处到达点0所需

的点自身的相加次数。此类数字中最小的数字q给出了点的次序。)为了达成这一点,例如,

可以应用以下方法(AritroSengupta,UtpalKumarRayiMessagemappingandreverse

mappinginellipticcurvecryptosystem(椭圆曲线密码系统中的消息映射和反向映

射)(2016))。在低阶数字处,D的二进制表示由8比特补充。在以上定义的曲线公式中,用由

此获得的值替换X。如果针对y不存在解,则x的值增加1。如果解确实存在,则已经得到由曲

线定义的有限代数结构的点M。此处应用与以上对象的规范相关的描述以使得由第i个数据

源DSj应用其自身的密码密钥将该点投射到曲线的另一点4,随后由映射器将其投影到用作

假名的点P,以使得当且仅当点M相同时,不同的密码J被指派给相同的点P。

[0074]因为基于代数结构形成加法循环群的解以与基于乘法循环群的解类似的方式来

运算,因此未单独示出。在需要的情况下,附图中所示的标记可以用以下描述中包括的对应

运算和标记来替换。被适配成定义代数结构的值x、y、A、B和p由密钥管理器KM来定义,该密

12

CN114144783A说明书9/12页

钥管理器KM还选择点G,其中已知阶数大于消息空间的多重性。该密钥管理器KM随后将这些

数据与数据源DSj和映射器M共享。随后从剩余类modq中随机或任意选择相应的密钥b,选

择不同于0和1的值。

[0075]为了数据提供,由密钥管理器KM从剩余类modq中为第i个数据源DSj随机选择数

字aj该数字将是由该数据源DSj用作密码密钥ej=aj(在以经加密方式接收之后)。应用公

式hj=aj+b,其生成与数据源DSj相对应的映射密钥。该密钥随后以经加密方式传递给映射

器M。

[0076]在此之后,由数据源DSj通过使两点相加来执行加密运算:Q=M㊉ajG,其中运算

符㊉表示曲线的两点的相加,而标量相乘表示重复的相加。

[0077]仅在对曲线点执行下述运算的情况下,修改对剩余类执行的以上过程。由映射器M

对源自第i个数据源的数据执行以下运算:P=G㊉(一hjG),其中一元运算符表示曲线

点在x轴上的反射。利用此类值的运算㊉在下文中用运算符由来标识。由此,通过两个映射

的组合来获得假名:

P=M㊉cijG㊀hjG=M㊉3jG㊀(aj+b)G=M㊉(a,—a/)G

[0078]

=M㊉⑶-ajG㊀bG=M㊀bG

[0079]由此,由每个数据源将相同的实体标识符D作为不同的密码来发送,但是最后将其

指派给相同的假名P。可任选地,点P的x坐标也可被应用作为假名。

[0080]法规或数据收集和数据分析社区的规则可能允许机构A或受社区信任的机构被给

予对未经加密的数据访问。由于这是不期望的,即使该实体也能够在未经加密的数据与假

名之间建立连接,因此优选地出于该目的应用直接源自数据源DSj的密码。为了执行解密操

作,需要密钥管理器KM在经加密数据通道上将密钥4传递给该实体。可由密钥管理器KM存

储经加密的数据以及假名化数据,并将其传递给被授权方。在此类情形中,如果已经获得了

所需的法律授权或数据收集社区的许可,则机构A可以向映射器M请求所需的密码数据。在

拥有这些数据的情况下,可以通过执行以下计算来获得未经加密的数据D=Q㊀ajG。

[0081]因此,为了确保拥有系统的任何组件不足以允许暗码解译假名P与实体标识符D之

间的关系,根据本发明的假名映射系统执行以下数据转换:

[0082]-从数据源DSj处可用并适于通过特征名称(即从实体标识符D)来标识人、物或其

他实体的数据产生,

[0083]-此类假名化数据,其中实体标识符D被以独立于由数据源DSj使用的密码密钥ej的

一对一方式指派给其的假名P来替换,

[0084]以使得

[0085]-应用加密装置/模块,由密钥管理器KM从形成由密码算法利用的乘法或加法循环

群的代数结构中随机或任意选择元素b(优选地,此处以下功能性由加密装置/模块来实现:

其生成可应用合适的映射来映射到密钥空间的随机数,以使用近似均匀的概率(即随机地)

从密钥空间的元素之中选择),以及

[0086]-从相同的代数结构中,其为每个数据源DSj随机或任意选择至少一个元素ej或aj

该元素ej或aj以使得其仅能由将其用作密码密钥的特定数据源DSj访问的方式传递给该数

13

CN114144783A说明书10/12页

据源DSj,

[0087]-以使得未经加密的数据D被映射到密码J中,以及

[0088]-取决于该代数结构,其计算密码的乘法或加法逆密码密钥4或aj以及

[0089]-取决于该代数结构,其将a或aj与元素b相乘或相加并将由此获得的元素现传递

给映射器M,以使得元素%仅能由映射器M访问,

[0090]-该映射器M随后将可用作密码密钥,以将由数据源DSj加密的数据映射成假名P

[0091]以及,可任选地,

[0092]-如果在系统之外定义的条件被满足,其将密码密钥工传递给被授权实体(即机构

A),则该实体

[0093]-在系统之外定义的条件被满足的情况下,从数据库DB的映射器M接收与由此类条

件指定的数据相对应的密码

[0094]-以使得其能够获得未经加密的数据D。

[0095]根据本发明的用于密码假名化的计算机系统包括:

[0096]-数据源DSi包含与实体相关的数据,数据在数据源DSj处通过实体的实体标识符D

来标识,

[0097]-假名化数据库DB,其中数据应用以一对一方式指派给每个实体标识符D的相应假

名P来标识,

[0098]-映射器M,

[0099]-密钥管理器KM,以及

[0100]-实现上述功能和/或实体的模块,这些模块可以是硬件、软件或组合的硬件软件

模块。

[0101]密钥管理器KM优选为包括被适配成用于执行程序的处理器以及被适配成用于提

供数据写入、存储和读出功能的存储器的装置。在该装置上运行的程序被适配成用于生成

执行映射所需的数据,例如,被适配成从未经加密的数据生成假名的模指数和模数的

totient值。该装置被适配成用于存储这些值,以使得其他任何人都不能访问这些值,但该

装置仍然能够利用这些值来执行计算。除此之外,该装置还能够应用上述过程(例如,扩展

欧几里德算法)来计算模指数密钥对,并且能够在安全数据通道上将经加密的指数传递给

数据源,并计算应用于假名映射的指数,该指数还可被传递给在安全数据通道上执行映射

的实体。例如,由以上所提及的可信平台模块(TPM)电路满足所有这些要求。

[0102]映射器叫优选为被适配成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论