CN119358035B 基于联邦学习和隐私差分的用户意见隐私保护方法及系统 (飞诺门阵(北京)科技有限公司)_第1页
CN119358035B 基于联邦学习和隐私差分的用户意见隐私保护方法及系统 (飞诺门阵(北京)科技有限公司)_第2页
CN119358035B 基于联邦学习和隐私差分的用户意见隐私保护方法及系统 (飞诺门阵(北京)科技有限公司)_第3页
CN119358035B 基于联邦学习和隐私差分的用户意见隐私保护方法及系统 (飞诺门阵(北京)科技有限公司)_第4页
CN119358035B 基于联邦学习和隐私差分的用户意见隐私保护方法及系统 (飞诺门阵(北京)科技有限公司)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于联邦学习和隐私差分的用户意见隐私本发明提供基于联邦学习和隐私差分的用2在服务器端,接收来自至少两个客户端的联邦学习参与请求在所述服务器端,基于收集到的各个客户端的所述本地模型标意见发送至所述服务器端进行业务分析和挖获取通过秘密共享和同态加密聚合得到的全局模型参数,将所述全局模型参数载入预设的联邦学习模型中,通过梯度下降算法利用所述全局模型参数更新所述联邦学习模型的权重参数,得到更新后的联邦学习模型;将联邦学习任务的数据特征集合和隐私保护需求描述输入所述更新后的联邦学习模型,利用卷积神经网络提取输入数据的隐私属性特征向针对所识别出的敏感信息对应的隐私属性特征向量,构建包含隐私保护强度、数据效用损失度和计算开销的多目标优化模型;利用多目标进化算法求解所述多目标优化模型,优解集中选取满足当前联邦学习任务的隐私保护需求和资源约束条件的解作为最优隐私根据所述最优隐私保护方案,建立隐私保护强度与数据效用损失度的非线性映射模型,所述非线性映射模型采用高斯径向基核函数表示隐私保护强度和数据效用损失度的非线性关系;利用模型参数寻优算法优化所述非线性映射模型,其中以最小化数据效用损失度为优化目标,以隐私保护强度不低于预设阈值为约束条件,得到满足最低隐私保护强度在每轮训练中,从所述子数据集中采用平衡采样策略随机建计算图,对所述损失函数进行符号化定义,并通过反向传播求解损失函数关于神经网络成完整的模型参数梯度向量作为当前模型参3设定梯度裁剪阈值,获取当前模型参数梯度值的分量数量,根据分量数量创建对应的过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为1;对于绝对值超过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为裁剪阈值除以该分量绝对值的比例系梯度分量进行以下处理:若对应的裁剪掩码向量分量为1,则该梯度分量保持不变;若对应的裁剪掩码向量分量小于1,则将该梯度分量的值乘以对应的比例系数,按比例缩放至剪根据每轮训练的隐私预算分配和所述裁剪阈值确定当前训练轮次的敏感根据联邦学习的总训练轮数和客户端总数,确定每个客户端在每轮本地训练中可用的利用所述敏感度参数构造拉普拉斯分布的概率密度函数,将所述敏感度参数的倒数作为所述拉普拉斯分布的尺度参数;根据经过梯度裁剪处理后的梯度向量的分量数量,从所构造的拉普拉斯分布中随机采样生成与所述梯度向量分量数量相同的随机噪声向量;其中,所述随机采样过程利用拉普拉斯分布的逆变换法,从率值,将其作为基于拉普拉斯分布的累积分布函数的取值,得到以随机噪声变量为未知数求解以随机噪声变量为未知数的方程,得到随机噪声变量作为一个随机噪声样本,通过多次随机采样得到服从拉普拉斯分布的随机噪声向量;对所述裁剪后的梯度值机噪声向量进行逐分量相加,将裁剪后的梯度值中对应位置的梯度分量与随机噪声分量相加,得到添加了拉普拉斯噪声的梯度向量,将添加了拉普拉斯噪声的梯度向量作为噪声扰由服务器生成用于秘密共享方案的随机多项式系数以及用于同态加密的公私钥对,将所述随机多项式系数和公钥发送给各个客户端;每个参与聚合的客户端利用所述随机多项式系数,将其本地模型参数向量的每个分量划分为与客户端总数相等的多个秘密份额,将4客户端利用服务器下发的公钥,为每个所述本地模型参数分量生成一个随机掩码,并每个所述本地模型参数分量的掩码秘密份额发送给对应的客户端;同时将所述密文掩码和服务器收集各个客户端发送的掩码秘密份额,将相同坐标点处的掩码秘密份额值进行秘密份额与聚合后的同态掩码相加,利用私钥解密,并将解密结果与收集到的各客户端的将各类隐私保护机制的参数配置作为多目标优化模型的决策变量,所述决策变量包括后数据分布的互信息,互信息越小表示隐私保护强度越高,将互信息的负值作为隐私保护始数据记录与隐私保护后数据记录在各属性上的归一化欧氏距离,将各属性距离加权平均构建计算开销目标函数,其中,对隐私保护机制的关键操作进行时间复杂度和空间复杂度分析,得到计算开销与机制参数的函数关系式,依据函数关系式构建计算开销最小化的目将当前数据处理任务的隐私保护需求形式化表示为隐私保护强度的数值要求,构建隐私保护强度目标函数的下界约束条件;依据当前可用的计算资源,对隐私保护机制的时间开销和存储开销进行定量限制,构建计算开销目标函数的上界约束条件;根据隐私保护强对所述待处理意见进行自然语言处理,提取其中的关键信息保护后的目标意见的极性特征;利用潜在语义分析技术,对隐私保护后的目标意见进行主5后的目标意见的可信度进行评估;保留可信度高于预设阈值的所述隐私保护后的目标意7.基于联邦学习和隐私差分的用户意见隐私保护系统,用于实现前述权利要求1_6中学习参与请求中携带有各个所述客户端的标识信息和设备性能参数;针对各个所述客户私保护后的目标意见发送至所述服务器端进行业务分析和其中,所述处理器被配置为调用所述存储器存储的指令,以执行序指令被处理器执行时实现权利要求1至66户将原始意见数据直接上传至中央服务器进行处理,这不仅容易造成用户敏感信息泄露,[0006]上述技术问题的存在,严重制约了用户意见分析技术在实际应用中的推广和发7的目标意见发送至所述服务器端进行业务分析和样本集合,根据所述小批量样本集合计算当前本地模型在该小批量样本集合上的损失函网络各层参数的偏导数,得到各参数的梯度值;将计算得到的模型各参数的梯度值进行拼[0015]设定梯度裁剪阈值,获取当前模型参未超过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为1;对于绝对值超过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为裁剪阈值除以该分量绝对值的比例个梯度分量进行以下处理:若对应的裁剪掩码向量分量为1,则该梯度分量保持不变;若对应的裁剪掩码向量分量小于1,则将该梯度分量的值乘以对应的比例系数,按比例缩放至[0016]根据每轮训练的隐私预算分配和所述裁剪阈值确定当前[0017]根据每轮训练的隐私预算分配和所述裁剪阈值确定当前[0018]根据联邦学习的总训练轮数和客户端总数,用的隐私预算,将每轮隐私预算均匀分配给各个训练迭代步骤;获取当前训练轮次的隐私预算,根据所述隐私预算和预设的梯度裁剪阈值,计算当前训练轮次的敏感度参数,其中,[0019]利用所述敏感度参数构造拉普拉斯分布的概率数作为所述拉普拉斯分布的尺度参数;根据经过梯度裁剪处理后的梯度向量的分量数量,从所构造的拉普拉斯分布中随机采样生成与所述梯度向量分量数量相同的随机噪声向量;8其中,所述随机采样过程利用拉普拉斯分布的逆变概率值,将其作为基于拉普拉斯分布的累积分布函数的取值,得到以随机噪声变量为未知[0020]求解以随机噪声变量为未知数的方程,得到随机噪声变量作为一个随机噪声样本,通过多次随机采样得到服从拉普拉斯分布的随机噪声向量;对所述裁剪后的梯度值和所述随机噪声向量进行逐分量相加,将裁剪后的梯度值中对应位置的梯度分量与随机噪声分量相加,得到添加了拉普拉斯噪声的梯度向量,将添加了拉普拉斯噪声的梯度向量作为[0022]由服务器生成用于秘密共享方案的随机多项式系数以及用于同态加密的公私钥对,将所述随机多项式系数和公钥发送给各个客户端;每个参与聚合的客户端利用所述随机多项式系数,将其本地模型参数向量的每个分量划分为与客户端总数相等的多个秘密份[0023]客户端利用服务器下发的公钥,为每个所述本地模型参数分量生成一个随机掩额;将每个所述本地模型参数分量的掩码秘密份额发送给对应的客户端;同时将所述密文[0024]服务器收集各个客户端发送的掩码秘密份额,聚合秘密份额与聚合后的同态掩码相加,利用私钥解密,并将解密结果与收集到的各客户[0026]获取通过秘密共享和同态加密聚合得到的入预设的联邦学习模型中,通过梯度下降算法利用所述全局模型参数更新所述联邦学习模型的权重参数,得到更新后的联邦学习模型;将联邦学习任务的数据特征集合和隐私保护需求描述输入所述更新后的联邦学习模型,利用卷积神经网络提取输入数据的隐私属性特[0027]针对所识别出的敏感信息对应的隐据效用损失度和计算开销的多目标优化模型;利用多目标进化算法求解所述多目标优化模托最优解集中选取满足当前联邦学习任务的隐私保护需求和资源约束条件的解作为最优[0028]根据所述最优隐私保护方案,建立隐私保护强度与数据模型,所述非线性映射模型采用高斯径向基核函数表示隐私保护强度和数据效用损失度的非线性关系;利用模型参数寻优算法优化所述非线性映射模型,其中以最小化数据效用损失度为优化目标,以隐私保护强度不低于预设阈值为约束条件,得到满足最低隐私保护9[0029]针对所识别出的敏感信息对应的隐私属性特征向量[0030]将各类隐私保护机制的参数配置作为多目保护后数据分布的互信息,互信息越小表示隐私保护强度越高,将互信息的负值作为隐私算原始数据记录与隐私保护后数据记录在各属性上的归一化欧氏距离,将各属性距离加权平均作为数据效用损失度,距离越大表示可用性损失越大,将效用损失度最小化作为目标杂度分析,得到计算开销与机制参数的函数关系式,依据函数关系式构建计算开销最小化[0032]将当前数据处理任务的隐私保护需求形式化表示为隐建隐私保护强度目标函数的下界约束条件;依据当前可用的计算资源,对隐私保护机制的时间开销和存储开销进行定量限制,构建计算开销目标函数的上界约束条件;根据隐私保私数据替换为语义相近但无法直接识别个人身在保持语义不变的情况下,对片段表述进行改写;对于隐私保护策略定义为高风险的隐私取隐私保护后的目标意见的极性特征;利用潜在语义分析技术,对隐私保护后的目标意见收到目标用户发布的待处理意见时,基于所述隐私保护策略得到隐私保护后的目标意见;将隐私保护后的目标意见发送至所述服务器端进行业务分析和[0056]图1为本发明实施例基于联邦学习和隐私差分的用户意见隐私保护方法的流程示[0057]图2为本发明实施例基于联邦学习和隐私差分的用户意见隐私保护系统的结构示[0060]图1为本发明实施例基于联邦学习和隐私差分的用户意见隐私保护方法的流程示护后的目标意见发送至所述服务器端进行业务分析和法首先在服务器端接收来自多个客户端的联邦学习参与请求,请求中包含客户端标识信息据集,并根据设备性能参数确定各客户端的本地训练轮数和每轮迭代次数。然后服务器将[0065]在客户端,根据接收到的子数据集,利用差分隐私机器学习算法进行多轮本地训[0066]服务器端收集到各客户端的本地模型参数后,利用秘密共享技术和同态加密技术,通过隐私保护的参数聚合方式得到全局模型参数。具体地,可以采用加法同态加密方用全局模型参数更新预设的联邦学习模型,得到隐私保护策略,并将该策略发送至各个客[0067]在客户端接收到服务器发送的隐私保护策略后,当有目标用户发布待处理意见[0070]服务器接收到3个客户端的参与请求后,根据客户器利用该全局模型参数更新联邦学习模型,得到隐私保护策略,并将策略发送至3个客户[0073]假设客户端A接收到一条待处理的用户意见:"我对某品牌手机很不满意,质量太差了!"基于接收到的隐私保护策略,客户端A对该意见进行处理,将"某品牌"替换为"该品牌",得到处理后的意见:"我对该品牌手机很不满意,质量太差了!"然后将处理后的意见发[0076]其次,在本地训练过程中引入差分隐私机制,通过向模型参数添加随机噪声的方[0077]最后,在服务器端聚合参数时采用秘密共享和同态加密技术,实现了在加密状态下的安全计算,避免了中间过程中的信息泄露。整个过程中原始数据和中间结果都得到了样本集合,根据所述小批量样本集合计算当前本地模型在该小批量样本集合上的损失函网络各层参数的偏导数,得到各参数的梯度值;将计算得到的模型各参数的梯度值进行拼[0080]设定梯度裁剪阈值,获取当前模型参未超过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为1;对于绝对值超过裁剪阈值的梯度分量,在对应的裁剪掩码向量位置上设置为裁剪阈值除以该分量绝对值的比例个梯度分量进行以下处理:若对应的裁剪掩码向量分量为1,则该梯度分量保持不变;若对应的裁剪掩码向量分量小于1,则将该梯度分量的值乘以对应的比例系数,按比例缩放至[0081]根据每轮训练的隐私预算分配和所述裁剪阈值确定当前[0092]在一种可选的实施方式中,根据每轮训练的隐私预前训练轮次的敏感度参数,利用所述敏感度参数生成服从拉普拉斯分布的随机噪声向量,[0093]根据联邦学习的总训练轮数和客户端总数,用的隐私预算,将每轮隐私预算均匀分配给各个训练迭代步骤;获取当前训练轮次的隐私预算,根据所述隐私预算和预设的梯度裁剪阈值,计算当前训练轮次的敏感度参数,其中,[0094]利用所述敏感度参数构造拉普拉斯分布的概率数作为所述拉普拉斯分布的尺度参数;根据经过梯度裁剪处理后的梯度向量的分量数量,从所构造的拉普拉斯分布中随机采样生成与所述梯度向量分量数量相同的随机噪声向量;其中,所述随机采样过程利用拉普拉斯分布的逆变换法,从概率值,将其作为基于拉普拉斯分布的累积分布函数的取值,得到以随机噪声变量为未知[0095]求解以随机噪声变量为未知数的方程,得到随机噪声变量作为一个随机噪声样本,通过多次随机采样得到服从拉普拉斯分布的随机噪声向量;对所述裁剪后的梯度值和所述随机噪声向量进行逐分量相加,将裁剪后的梯度值中对应位置的梯度分量与随机噪声分量相加,得到添加了拉普拉斯噪声的梯度向量,将添加了拉普拉斯噪声的梯度向量作为[0096]在联邦学习系统中,为保护客户端数据隐私,可以采用差分隐私技术对梯度信息[0097]首先,根据联邦学习的总训练轮数和参与训练的客户端总数,为每个客户端分配匀分配给每轮训练中的各个迭代步骤,如果每轮训练包含50个迭代步骤,则每个步骤的隐轮次隐私预算为0.001,裁剪阈值为4,则敏感度参数可计算为4/0.001=[0099]然后,利用计算得到的敏感度参数构造拉普的梯度向量的分量数量,从构造的拉普拉斯分布中随机采样,生成相同数量的随机噪声向[0101]最后,将裁剪后的梯度值和随机噪声向量有分量重复该操作,即可得到添加了拉普拉斯噪声的梯度向量,作为最终的噪声扰动后的[0104]2.利用梯度裁剪和拉普拉斯机制相结合的方式,在保护隐私的同时尽可能保留[0105]3.采用动态调整的敏感度参数,使得噪声添加过程能够适应不同训练阶段的需[0106]在一种可选的实施方式中,基于收集到的各个客[0107]由服务器生成用于秘密共享方案的随机多项式系数以及用于同态加密的公私钥对,将所述随机多项式系数和公钥发送给各个客户端;每个参与聚合的客户端利用所述随机多项式系数,将其本地模型参数向量的每个分量划分为与客户端总数相等的多个秘密份[0108]客户端利用服务器下发的公钥,为每个所述本地模型参数分量生成一个随机掩额;将每个所述本地模型参数分量的掩码秘密份额发送给对应的客户端;同时将所述密文[0109]服务器收集各个客户端发送的掩码秘密份额,聚合秘密份额与聚合后的同态掩码相加,利用私钥解密,并将解密结果与收集到的各客户[0111]每个客户端收到随机多项式系数后,利用该系个秘密份额。以客户端A的某个模型参数分量value为例,使用收到的随机多项式系数[a0,a1,,an_1]构造多项式f(x)=value+a1x+a2x^2+...+an_1x^(n_1),其中a0[0112]接下来,客户端利用服务器下发的公钥,为每个本地模型参数分量生成一个随机掩码。以参数分量value为例,客户端随机生成一个掩码r,并使用公钥加密r得到密文掩码Enc(r)。然后将value的每个秘密份额si与对应的密文掩码相加,得到掩码秘密份额si+密文掩码Enc(r)和加密后的负向掩码Enc(_r)发送[0113]当服务器收集到各个客户端发送的掩码秘密份额份额值进行求和。例如,对于参数分量value,服务(r1+r2+...+rn)。利用拉格朗日插值可以从S中恢复出同态掩码下聚合后的秘密值,即[0115]最后,服务器将同态掩码下的聚合秘密值value+Enc(r1+r2+...+rn)与聚合后的果与收集到的各客户端的负向掩码Enc(_r1),Enc(_r2),,Enc(_rn)求和并解密,最[0118]2)利用同态加密技术,实现了加密状态下的参数聚合,保证了计算过程的安全[0120]在一种可选的实施方式中,利[0121]获取通过秘密共享和同态加密聚合得到的入预设的联邦学习模型中,通过梯度下降算法利用所述全局模型参数更新所述联邦学习模型的权重参数,得到更新后的联邦学习模型;将联邦学习任务的数据特征集合和隐私保护需求描述输入所述更新后的联邦学习模型,利用卷积神经网络提取输入数据的隐私属性特[0122]针对所识别出的敏感信息对应的隐私属性特征向量据效用损失度和计算开销的多目标优化模型;利用多目标进化算法求解所述多目标优化模托最优解集中选取满足当前联邦学习任务的隐私保护需求和资源约束条件的解作为最优[0123]根据所述最优隐私保护方案,建立隐私保护强度与数据模型,所述非线性映射模型采用高斯径向基核函数表示隐私保护强度和数据效用损失度的非线性关系;利用模型参数寻优算法优化所述非线性映射模型,其中以最小化数据效用损失度为优化目标,以隐私保护强度不低于预设阈值为约束条件,得到满足最低隐私保护通过秘密共享和同态加密聚合得到的全局模型参数。具体地,可采用Shamir秘密共享方案将各参与方的局部模型参数分割为多份,并使用Paillier同态加密算法对分割后的参数进全局模型参数更新联邦学习模型的权重参数。具体可采用随机梯度下降(SGD)或Adam优化[0126]将联邦学习任务的数据特征集合和隐私保护需求描述输入更新后的联邦学习模可采用多层卷积和池化操作提取数据的局部和全局特征,最后通过全连接层得到固定维度[0127]将提取的隐私属性特征向量输入支持向量机进行分类,识别数据中的敏感信息。支持向量机采用径向基核函数,通过最大化分类间隔对特征向量进行二分类,将其划分为敏感信息和非敏感信息两类。识别结果可用01标签表示,1表示敏感信息,0表示非敏感信[0128]针对识别出的敏感信息对应的隐私属效用损失度和计算开销的多目标优化模型。隐私保护强度可用差分隐私中的隐私预算ε表示,数据效用损失度可用原始数据与加噪后数据的均方误差表示,计算开销可用算法运行[0129]利用多目标进化算法求解该多目标优化模型。具体可采用NSGA_II算法,通过交帕累托最优解集中选取满足当前联邦学习任务的隐私保护需求和资源约束条件的解作为[0130]根据最优隐私保护方案,建立隐私保护强度与数据效用损失度的非线性映射模性关系。高斯径向基核函数的表达式为K(x,x')=exp(_||x_x'||^通过迭代更新粒子位置和速度,搜索最优解。最终得到满足最低隐私保护强度要求且数据[0136]3.利用非线性映射模型刻画隐私保护强度与数据效用的关系,并通过参数优化[0137]在一种可选的实施方式中,针对所识别出的敏感信息对应的隐私属性特征向量,[0138]将各类隐私保护机制的参数配置作为多目保护后数据分布的互信息,互信息越小表示隐私保护强度越高,将互信息的负值作为隐私算原始数据记录与隐私保护后数据记录在各属性上的归一化欧氏距离,将各属性距离加权平均作为数据效用损失度,距离越大表示可用性损失越大,将效用损失度最小化作为目标杂度分析,得到计算开销与机制参数的函数关系式,依据函数关系式构建计算开销最小化[0140]将当前数据处理任务的隐私保护需求形式化表示为隐建隐私保护强度目标函数的下界约束条件;依据当前可用的计算资源,对隐私保护机制的时间开销和存储开销进行定量限制,构建计算开销目标函数的上界约束条件;根据隐私保[0141]针对所识别出的敏感信息对应的隐据效用损失度和计算开销的多目标优化模型的具[0142]首先,将各类隐私保护机制的参数配数据分布与隐私保护后数据分布的互信息。具体步骤为:首先估计原始数据和保护后数据息的负值作为隐私保护强度最大化的目标函数。例如,假设原始数据X和保护后数据Y算原始数据记录与隐私保护后数据记录在各属性上的归一化欧氏距离。具体步骤为:首先对各属性进行归一化处理,然后计算每条记录在各属性上的欧氏距离,最后将各属性距离加权平均作为数据效用损失度。距离越大表示可用性损失越大,因此将效用损失度最小化和0.3,权重分别为0.6和0.4,则该记录的效用损失度为0.2×0.6+0.3×0.4[0145]接着,构建计算开销目标函数。对隐私保护间复杂度分析,得到计算开销与机制参数的函数关系式。依据函数关系式构建计算开销最[0146]将当前数据处理任务的隐私保护需求形式化表示为隐[0147

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论