机器学习系统与优化 课件 第六章 联邦学习系统与优化_第1页
机器学习系统与优化 课件 第六章 联邦学习系统与优化_第2页
机器学习系统与优化 课件 第六章 联邦学习系统与优化_第3页
机器学习系统与优化 课件 第六章 联邦学习系统与优化_第4页
机器学习系统与优化 课件 第六章 联邦学习系统与优化_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章联邦学习系统与优化目录content01基本概述02联邦学习的分类与差分隐私03

联邦学习算法04联邦学习激励机制05联邦强化学习06联邦学习的应用01PARTONE基本概述6.1.1联邦学习的定义6.1.2联邦学习与其他模型的对比

联邦学习的背景与发展背景挑战数据孤岛严重:多机构间数据难以共享,单一机构数据样本有限。隐私法规趋严:如《GDPR》限制数据流通,强调“数据不出本地”。传统集中式学习失效:面临获取、使用多源数据的法律与技术障碍。

联邦学习的提出核心理念:原始数据不出本地,模型参数协同更新。首次提出:谷歌于2016年系统性提出“FederatedLearning”概念。本质区别:比分布式机器学习,更注重隐私保护、自治性、数据异构性支持。

发展趋势跨学科融合:与密码学、博弈论、可信计算等融合,推动隐私计算发展。广泛应用前景:医疗、金融、能源、边缘计算等场景落地不断加快。

6.1.1联邦学习的定义什么是联邦学习联邦学习(Federated

Learning)是一种隐私保护型的机器学习框架,其目标是在不共享原始数据的前提下,完成多方数据协同训练与推理。

核心理念:数据不动,模型动;数据可用,不可见。•多方参与:多个机构协同训练一个共享模型;•数据本地化:数据始终保留在本地,不被共享;•信息加密传输:只传输模型更新,且进行加密保护;•模型性能近似集中式方法:性能差距应可接受。联邦学习的基本特征6.1.1联邦学习的定义联邦学习的定义

6.1.1联邦学习的定义1.客户—服务器系统架构•包含一个聚合服务器(如参数服务器),协调各方更新;•模型在各参与方本地训练后上传更新,服务器聚合再下发;•原始数据始终保留在本地,保护隐私,降低通信量。适用于企业间协作或中心化协调任务。联邦学习系统可根据应用场景是否包含中央协调方而异。6.1.1联邦学习的定义2.对等网络系统架构•无中心服务器,各方直接通信;•安全性强,无需信任第三方;•对加密、同步机制要求高,计算与通信成本更大。适用于高度敏感或去中心化场景(如物联网终端)。6.1.2联邦学习与其他模型的对比羊吃草模型对比传统机器学习(左图)小羊不动草动,即数据集中传输,隐私风险高;联邦学习(右图)小羊动草不动,即模型移动,保护隐私。联邦学习的小羊在训练过程中因为四处奔走而略显瘦弱,形象说明:在保护隐私的同时,模型性能可能略有损失无法像集中训练那样完全逼近最优性能,这是隐私保护与准确率之间的重要权衡,也是联邦学习与传统方法的本质区别之一。6.1.2联邦学习与其他模型的对比联邦学习与分布式机器学习、传统机器学习的区别

联邦学习分布式机器学习传统机器学习设计动机以隐私保护为核心目标,实现"数据可用不可见"以提升计算效率为核心目标,解决单机无法处理的大规模计算问题以单机建模与分析为目标,适用于中小规模数据和模型控制权归属计算节点(参与方)拥有绝对自主权:-可自主加入/退出-数据完全自治中心服务器拥有绝对控制权:-节点受中心调度-数据由中心统一管理集中式控制:

-所有数据集中存储

-模型训练由研究者/系统全权控制节点特性异构性强:-移动设备/跨机构服务器-网络环境差异大-稳定性差同构性强:-专用计算集群-网络环境一致-稳定性高无分布节点:

-单节点运行

-网络依赖低

-稳定性由本机决定6.1.2联邦学习与其他模型的对比联邦学习与分布式机器学习、传统机器学习的区别

联邦学习分布式机器学习传统机器学习数据特征非独立同分布(Non-IID):-数据规模差异大-分布不均衡独立同分布(IID):-数据均匀划分-规模相近集中独立数据:

-同一来源或多源合并后预处理

-可手动控制数据质量与分布通信模式高代价通信:-远程连接-带宽差异大-需考虑通信安全低代价通信:-局域网连接-带宽稳定-通信效率优先无分布通信:

-本地计算

-不依赖网络协作典型应用场景医疗联合建模,金融风控等隐私敏感场景大规模图像训练,搜索引擎优化等计算密集型场景学术研究、小型企业模型构建、教学实验等中小规模场景02PARTTWO联邦学习的分类与隐私保护6.2.1联邦学习的分类6.2.2隐私保护6.2.1联邦学习的分类数据表示定义设Di为第i个参与方的数据矩阵每行为一个样本,每列为一个特征X:特征空间Y:标签空间I:样本ID空间输入样例表示为(I,X,Y)根据训练数据在不同参与方之间的数据特征空间和样本ID空间的分布情况,将联邦学习划分为横向联邦学习(HorizontalFederatedLearning,HFL),纵向联邦学习(VerticalFederatedLearning,VFL)和联邦迁移学习(FederatedTransferLearning,FTL)。6.2.1联邦学习的分类横向联邦学习定义

比如,两个区域的银行可能各自区域的用户群非常不同,且用户交集非常小。但是,他们的业务非常相似,因此特征空间是相同的。6.2.1联邦学习的分类横向联邦学习架构—客户-服务器架构步骤1:各参与方在本地计算模型梯度,并对梯度加密后发送给聚合服务器。步骤2:服务器对加密梯度进行安全聚合(如同态加密下的加权平均)。步骤3:聚合结果返回各参与方。步骤4:各参与方解密梯度并更新本地模型参数。该流程不断迭代,直至损失函数收敛、迭代次数或训练时间达到上限。此架构通用于逻辑回归、深度神经网络等多种模型,最终各方共享一致的模型参数。6.2.1联邦学习的分类横向联邦学习架构—对等网络架构在该框架下,不存在中央服务器或者协调方。在这种架构中,横向联邦学习系统的K个参与方也被称为训练方或分布式训练方。每一个训练方负责只使用本地数据来训练同

一个机器学习模型(

如DNN模型)。此外,训练方们使用安全链路在相互之间传输模型参数信息。为了保证任意两方之间的通信安全,需要使用例如基于公共密钥的加密方法等安全措施。6.2.1联邦学习的分类横向联邦学习架构—对等网络架构由于没有中央服务器,训练方需事先商定发送和接收模型参数的顺序,通常有两种方法:(1)循环传输:训练方被组织成链条,模型参数沿链条传递,每个训练方在接收模型参数后,使用本地数据更新模型,再传递给下一个训练方。这个过程会持续进行,直到模型收敛或达到最大训练时间。(2)

随机传输:每个训练方随机选择其他训练方并传递模型参数,接收方根据本地数据更新模型,然后再次随机选择下一个训练方继续传递。6.2.1联邦学习的分类横向联邦学习架构—对等网络架构在对等网络架构中,通常需指定一方临时充当协调者,以评估全局模型性能。但这种方式可能对该方造成负担,尤其不适用于资源受限的设备(如手机)。6.2.1联邦学习的分类纵向联邦学习定义

例如,同城有一家银行,另一家电子商务公司,他们的用户集可能包含该地区的大多数居民,因此他们的用户空间交集很大。但是,由于银行记录了用户的收支行为和信用评级,而电子商务保留了用户的浏览和购买历史,所以他们的特征空间有很大不同。6.2.1联邦学习的分类纵向联邦学习架构用一个例子来说明VFL的架构。假设公司A和B希望协作训练模型,B方拥有标签数据,但双方无法直接共享数据。为保护隐私,引入第三方协调者C,协助训练但不参与数据处理。C方可由可信机构或安全计算节点(如IntelSGX)担任,保障协作安全性。纵向联邦学习的一个例子已在图(a)中展示6.2.1联邦学习的分类纵向联邦学习训练过程(1)第一部分:加密实体对齐由于A方和B方公司的用户群体不同,系统使用一种基于加密的用户ID对齐技术,来确保A方和B方不需要暴露各自的原始数据便可以对齐共同用户。在实体对齐期间,系统不会将属于某一家公司的用户暴露出来,如图所示。6.2.1联邦学习的分类纵向联邦学习训练过程(2)第二部分:加密模型训练确定共有实体后,训练过程如下(如图(b)):

1)协调者C生成密钥对并发送公钥给A、B方;

2)A、B方基于中间结果进行加密并交换;

3)A、B方计算加密梯度,添加掩码后发给C,B方还计算损失;

4)C解密后将结果返回,A、B方解除掩码并更新模型参数。6.2.1联邦学习的分类联迁移邦学习背景HFL与VFL要求特征空间或样本空间一致现实中常见挑战:样本/特征重叠少数据分布差异大数据规模悬殊标签数据稀缺定义:联邦迁移学习结合了迁移学习与联邦学习的优势,用于隐私保护的数据异构场景。目标:挖掘源域与目标域的共性,实现跨域知识迁移,并兼顾隐私合规要求。6.2.1联邦学习的分类联迁移邦学习分类基于执行迁移学习的方法,将迁移学习主要分为以下三类。(1)基于实例的FTL横向场景:对训练样本加权或筛选,缓解数据分布差异;纵向场景:选择性使用样本/特征,避免负迁移。(2)基于特征的FTL目标:共享表征空间,缓解语义/分布差异;横向:最小化最大平均差异;纵向:最小化对齐样本表征距离。(3)基于模型的FTL横向:协同训练共享模型,微调提升性能;纵向:用对齐样本或半监督方法预测缺失标签/特征。6.2.1联邦学习的分类联迁移邦学习系统的安全定义

6.2.1联邦学习的分类联迁移邦学习框架

例如考虑两家机构,一家中国的银行,另一家美国的电子商务公司。由于地域限制,两个机构的用户有很小的交集。另一方面,由于业务不同,双方的特征空间只有小部分重叠。在这种情况下,可以用联邦迁移学习技术为联邦学习的整个样本和特征空间提供解决方案。6.2.1联邦学习的分类联迁移邦学习框架

6.2.1联邦学习的分类联迁移邦学习框架——基于神经网络

6.2.1联邦学习的分类联迁移邦学习框架——基于神经网络

6.2.1联邦学习的分类联迁移邦学习框架——基于神经网络

6.2.1联邦学习的分类联迁移邦学习框架——基于神经网络在A方和B方不应暴露它们的原始数据的情况下,需要用隐私保护方法来计算式(6.3)中的损失和式(6.4)中的梯度。简要描述两种用于计算式(6.3)和式(6.4)的安全联邦迁移学习方法。一种基于同态加密,另一种基于秘密共享。在这两种方法中,都采用二阶泰勒近似来计算式(6.3)和式(6.4)。6.2.2隐私保护隐私保护三大技术安全多方计算(MPC):数据不出本地,仅公开结果;同态加密(HE):对加密数据直接运算,适用于云计算;差分隐私(DP):引入随机噪声混淆查询结果,在数据发布或查询时严格量化隐私泄露风险,为统计分析和数据共享提供强安全保障。三者构成数据安全防线,应对不同场景下的数据安全需求。重点讲差分隐私技术。6.2.2隐私保护差分隐私定义

6.2.2隐私保护差分隐私方法分类——根据函数敏感性增加噪声

6.2.2隐私保护差分隐私方法分类——根据函数敏感性增加噪声

6.2.2隐私保护差分隐私方法分类——根据离散值的指数分布选择噪声

6.2.2隐私保护差分隐私方法分类——根据离散值的指数分布选择噪声

6.2.2隐私保护差分隐私方法分类——根据离散值的指数分布选择噪声

03PARTTHREE联邦学习算法6.3.1横向联邦学习算法6.3.2纵向联邦学习算法6.3.3联邦迁移学习算法6.3.1横向联邦学习算法(1)联邦平均算法

6.3.1横向联邦学习算法(1)联邦平均算法算法流程如下:6.3.1横向联邦学习算法(1)联邦平均算法算法流程如下:6.3.1横向联邦学习算法(1)联邦平均算法联邦平均算法可以扩展到很多算法:算法名称优化方式特点简述优点适用场景/备注FedAvg梯度平均客户端多轮本地SGD训练后上传参数,服务器取平均简单高效,通信成本低横向联邦学习的基础算法FedSGD梯度平均每个客户端只进行一次SGD更新即上传实时性强,训练更稳定对通信频次要求低的场景FedAdam自适应动量优化在服务器端使用Adam方法对聚合梯度进行优化加快收敛,适应性强数据异构时收敛更快FedAdagrad自适应梯度优化使用Adagrad优化策略处理学习率自动调整每个参数学习率参数稀疏时表现较好FedADMM交替方向乘子法将优化问题转为可并行的子问题,利用ADMM更新参数适合分布式优化,有收敛性理论支撑常用于约束或复杂优化任务6.3.1横向联邦学习算法(2)FedADMM

6.3.1横向联邦学习算法(2)FedADMM6.3.1横向联邦学习算法(2)FedADMM6.3.1横向联邦学习算法(3)DP-FedADMM6.3.1横向联邦学习算法(3)DP-FedADMM6.3.2纵向联邦学习算法(1)VIMADMM(基于ADMM

的多头纵向联邦学习)

6.3.2纵向联邦学习算法(1)VIMADMM6.3.2纵向联邦学习算法(1)VIMADMM6.3.2纵向联邦学习算法(2)DP-VIMADMM

6.3.2纵向联邦学习算法(2)DP-VIMADMM

6.3.2纵向联邦学习算法(2)DP-VIMADMM

6.3.2纵向联邦学习算法(2)DP-VIMADMM

6.3.3联邦迁移学习算法在前面学习的联邦迁移学习框架中,跨域知识共享与隐私保护的协同优化始终是核心挑战。为进一步强化数据安全保障机制,本节引入加法同态加密(AdditiveHomomorphicEncryption,AHE)技术,通过其支持密文域算术运算的特性,设计一种支持隐私保护的联邦迁移学习算法。6.3.3联邦迁移学习算法

1.加法同态加密6.3.3联邦迁移学习算法

1.加法同态加密6.3.3联邦迁移学习算法

2.训练过程6.3.3联邦迁移学习算法

2.训练过程6.3.3联邦迁移学习算法

2.训练过程6.3.3联邦迁移学习算法

3.预测过程6.3.3联邦迁移学习算法需要注意,在安全联邦迁移学习中,性能损失仅来源于最终损失函数的泰勒二阶近似,神经网络中的非线性激活层计算并不受影响,采用这里的方法可以保证损失值和梯度计算中的误差极小,从而在保证精度的同时具备良好的可扩展性和灵活性,适用于复杂神经网络结构。3.预测过程6.3.3联邦迁移学习算法

4.安全性分析6.3.3联邦迁移学习算法

4.安全性分析6.3.3联邦迁移学习算法5.基于秘密共享的联邦迁移学习同态加密的优势与局限✅高安全性,支持多方共享信息/知识,保护数据与模型隐私;❌计算资源开销大,依赖大规模并行,不适用于实时计算场景。秘密共享协议的比较优势✅无精度损失;✅计算效率显著高于同态加密;❌需要提前离线生成并存储大量三元组用于乘法计算。6.3.3联邦迁移学习算法5.基于秘密共享的联邦迁移学习

6.3.3联邦迁移学习算法5.基于秘密共享的联邦迁移学习—训练过程

6.3.3联邦迁移学习算法5.基于秘密共享的联邦迁移学习—预测过程

需要注意的是,在训练过程和预测过程中,任何一方接收到的关于其他方的唯一私有信息只是基于秘密共享方法得到的该信息的一部分。因此,任何一方都无法学习到其他方的私有信息。04PARTFOUR联邦学习激励机制6.4.1贡献的收益6.4.2注重公平的收益分享框架6.4联邦学习激励机制在联邦学习中,如何激励参与方持续参与是关键挑战。为此,需设计公平的奖励机制,合理分配联邦带来的收益。本节介绍联邦学习激励方法(FLI),旨在在限定预算下动态分配奖励,最大化联邦的可持续性,最小化不公平性,同时具备应对恶意参与方的调节能力。6.4.1贡献的收益对于联邦而言,参与方持续地参与到联邦的学习进程(例如,通过共享加密的模型参数)是其长期成功的关键所在。参与方加入联邦,构建一个机器学习模型,从而对联邦作出贡献,训练出的模型可以产生收益。联邦可以与参与方们共享部分收益,以此作为激励,如图所示。(1)平等分配(Egalitarian):将总效用平均分配给所有参与方;(2)边际收益(MarginalGain):分配根据某方加入系统时所带来的增益;(3)边际损失(MarginalLoss):分配根据某方退出系统所带来的损失。6.4.1贡献的收益研究核心问题如何量化每个参与方为联邦系统带来的收益,并实现联邦学习的可持续经营典型激励分配方法分类

收益分配公式6.4.1贡献的收益典型方法示例—平均分配法

6.4.1贡献的收益典型方法示例—Shapley博弈收益分享方法

6.4.2注重公平的收益分享框架

上文中提到的方案可以扩展至参与方们未被预先奖励的情况,但他们必须等待联邦模型产生利润,之后才能得到奖励。在本节中,介绍联邦学习系统模型并导出了FLI收益分享方案。

如图所示,将解释FLI结构中的每一个模块。6.4.2注重公平的收益分享框架

1.贡献建模2.代价建模

6.4.2注重公平的收益分享框架

3.期望损失建模6.4.2注重公平的收益分享框架

在实际系统中,联邦往往面临预算限制,无法在每一轮即时、足额支付所有参与方的应得报酬。因此,引入时间期望损失模型(TemporalRegretQueue),用于度量参与方因等待补偿而产生的机会成本,进一步指导分期支付机制的设计。4.时间期望损失建模

6.4.2注重公平的收益分享框架4.时间期望损失建模

6.4.2注重公平的收益分享框架5.策略协调—公平性准则

6.4.2注重公平的收益分享框架5.策略协调—优化目标函数设计

6.4.2注重公平的收益分享框架5.策略协调—期望损失偏移建模

6.4.2注重公平的收益分享框架5.策略协调—联合优化目标

05PARTFIVE联邦强化学习6.5.1强化学习介绍6.5.2强化学习算法6.5.3联邦强化学习6.5.1联邦强化学习介绍强化学习简介定义:强化学习(RL)研究的是智能体如何通过与环境交互来做出序列决策。智能体通过选择动作,依据当前环境状态决策,并期望最大化累积奖励。目标:智能体的目标是最大化价值函数,即期望奖励总和。6.5.1联邦强化学习介绍强化学习过程智能体首先将观察环境的状态(State),然后基于这个状态选择动作(Action)。智能体期望根据所选的动作,从环境中得到奖励(Reward)。智能体的奖励与其上一步的状态,下一步状态和所做出的决策等因素有关。智能体在状态-动作-奖励-状态周期(SARS)中循环移动。这个问题的难点在于以下几个方面:智能体对于一个给定状态的最优操作的知识有限。智能体的动作将影响环境的未来状态,进而影响智能体未来的决策。6.5.1联邦强化学习介绍强化学习的关键元素策略(Policy):定义智能体在给定状态下选择动作的方式。可以是确定性或随机性的。奖励信号(Reward):智能体的即时反馈,基于环境给出的奖励。价值函数(Valuefunction):衡量一个状态的长期回报,帮助智能体评估动作的有效性。环境模型(EnvironmentModel):模拟环境行为的虚拟模型,用于预测下一状态和奖励。6.5.1联邦强化学习介绍强化学习的应用—燃煤锅炉优化控制燃煤锅炉系统将能源首先转化为蒸汽,然后再转化为电能。在整个转换过程中,系统具有高度的动态性。随机因素可能来自需求上难以预测的改变、装备的状态,以及煤炭的热量值的不确定性等。图展示了将强化学习应用于燃煤锅炉系统中的一个基本框架。6.5.1联邦强化学习介绍强化学习的应用—燃煤锅炉优化控制(1)观察结果:RL智能体获取系统状态(如炉膛温度、含氧量、蒸汽压力等)。(2)执行动作:智能体基于学习的策略发送控制决策(如输煤速度、一次风量等)。(3)系统演进:燃煤锅炉根据智能体的决策进入下一状态,系统反馈为新的状态和奖励。强化学习智能体与燃煤锅炉交互过程:6.5.2强化学习算法强化学习分类强化学习算法可从四个方面进行分类:(1)基于模型与无模型:前者构建环境模型以推导策略,后者则通过与环境交互迭代学习;(2)基于价值与基于策略:前者通过学习价值函数获得策略,后者直接优化策略本身;(3)蒙特卡洛与时间差分更新:前者利用完整轨迹累计奖励评估策略,后者基于当前和下一状态估值差更新,更高效但可能有偏差;

(4)在策略与离策略:在策略方法使用当前策略更新自身,离策略方法则借助其他策略生成数据进行学习。

6.5.2强化学习算法强化学习分类算法无模型基于模型基于策略基于价值蒙特卡洛更新时间差分更新离策略在策略Q-Learning

SARSA

策略梯度

Actor-critic

蒙特卡洛学习

SARSA匿名函数

深度Q-网络

6.5.3联邦强化学习联邦强化学习简介

定义:联邦强化学习(FRL)结合了强化学习和联邦学习的特点,在保持隐私保护的前提下,多个智能体协同学习强化学习策略。背景:适用于隐私保护至关重要的场景,如多个分布式环境中的协作学习(例如工厂、医院等)。6.5.3联邦强化学习联邦强化学习案例

(1)在一家生产不同组件的工厂,决策者的决策过程是隐私的,并不会与其他方共享。另一方面,由于业务的限制和缺乏奖励信号(对于某些智能体来说),建立高质量的策略往往是困难的。因此,在不公开隐私数据的情况下,协作地学习决策策略对于工厂来说是很有帮助的。(2)为医院的患者建立医疗策略。患者可能在某些医院接受过治疗,但没有提供治疗的反馈,即没有关于这些医疗策略的奖励信号。此外,关于患者的数据记录是隐私的,不能在医院间共享。因此,有必要通过联邦强化学习方法来学习各医院的治疗策略。6.5.3联邦强化学习横向联邦强化学习

目标:解决隐私泄露问题,通过多智能体在不同地理位置进行强化学

习,而不交换原始数据。应用场景:例如多个燃煤锅炉系统的控制。右图,HFRL中包含多个用于不同燃煤锅炉系统的并行强化学习

智能体,各个智能体可能分布于不同的地理位置。这些RL智能体有同样的任务,即对相应的燃煤锅炉系统进行最优控制。一个联邦服务器负责集中来自不同的RL智能体的模型。6.5.3联邦强化学习横向联邦强化学习

执行HFRL的基本步骤如下:步骤1

所有RL智能体根据右图在本地独立训练各自的强化学习模型,且不交换任何数据经验、参数梯度及损失。步骤2RL智能体将加密过的模型参数发送给服务器。步骤3

联邦服务器对来自非同一的RL智能体的模型进行加密和融合,从而得到一个联邦模型。步骤4

联邦服务器将联邦模型发送给各RL智能体。步骤5RL智能体更新本地模型。6.5.3联邦强化学习横向联邦强化学习优势

避免非独立同分布样本:通过联合不同智能体的经验,减少样本分布的不一致性。提高样本效率:智能体可以从不同环境中学习,提高数据利用效率。加速学习进程:通过联邦学习框架,聚合不同智能体的知识,加速强化学习的学习进程。6.5.3联邦强化学习纵向联邦强化学习

目标:通过不同智能体共享对同一环境的不同观察,协作训练智能体,而不直接交换原始数据。应用场景:例如燃煤锅炉系统的优化控制,智能体与气象数据管理部门协作。6.5.3联邦强化学习纵向联邦强化学习

联邦DQN(右图)是VFRL的一种典型框架,能够提升智能体的性能和鲁棒性。将从环境获得奖励的RL智能体命名为Q—网络智能体(Q—networkagent)(图中的智能体A),其他智能体命名为协作RL智能体。6.5.3联邦强化学习纵向联邦强化学习

步骤1

所有的参与RL智能体根据当前环境的观察结果和抽取的知识进行动作决策。某智能体可能不进行动作,只维持各自对于环境的观察。步骤2

RL智能体得到环境对应的反馈结果,包括当前环境的观察和奖励等。步骤3

RL智能体通过将得到的观察内容放入自己的神经网络中以计算中间结果,之后将加密过的中间结果发送给Q—网络智能体。6.5.3联邦强化学习纵向联邦强化学习

步骤4

Q—网络智能体对所有的中间结果进行解密,并使用当前的损失通过反向传输方法训练Q—网络。步骤5

Q—网络智能体将加密过的权重梯度发送给各个协作智能体。步骤6

每一个协作智能体对梯度进行解密并更新各自的网络模型。VFRL框架能在不直接交换经验或梯度的情况下,协作或竞争地建立准确的强化学习模型。6.5.3联邦强化学习纵向联邦强化学习的优势

避免信息泄露:如燃煤锅炉系统中,气象数据管理部门能在不泄露原始数据的情况下,提高生产效率。提升强化学习性能:通过合理的知识提取方法,训练出更健壮的RL智能体,提高系统效率。

06PARTSIX联邦学习的应用6.6.1金融6.6.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论