多主体系统中的学习多主体系统基础与应用中山大学逻辑与认知研究所

上传人：n*** IP属地：河南上传时间：2020-04-05 格式：PPTX 页数：111 大小：4.31MB 积分：15 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第8章多主体系统中的学习 1 主要内容 MAS系统学习的基本概念重复博弈中的学习虚拟博弈复制者动态演化博弈策略随机博弈中的学习学习agent的一般理论 2 MAS系统中的agent学习的复杂性学习是agent的基本能力学习形式合作学习和竞争性学习环境的动态性以及agent信息的不完全性MAS系统中agentlearning和teaching的不可分性即agent利用其行为对其他agent的影响 3 Agent学习和机器学习问题机器学习开发算法使得agent能将给定的输入和输出匹配 mitchell 训练样本集和测试样本集归纳偏差 inductionbias在MAS系统中目标是变化的根据系统中其他agent的学习策略动态变化一般来说 agent追求自身效用的最大化 4 agent学习的背景Context 重复博弈 agent可以根据过去的历史行动策略制定策略随机博弈随机博弈是一种包含一个或多个参与者进行的具有状态概率转移的动态博弈过程随机博弈由多个博弈阶段组成在每一个阶段的开始博弈处在某个特定状态下参与者选择自身的策略并获得相应的由当前状态和策略决定的报酬然后博弈按照概率的分布和参与者策略随机转移到下一个阶段在新的状态阶段重复上一次的策略选择过程然后博弈继续进行参与者在随机博弈中获得的全部报酬一般用各个阶段报酬的贴现值来计算或者用各个阶段报酬平均值的下限来计算 Agent关于博弈的公共知识等博弈的信息在大规模的群体中的agent学习 5 多主体系统的agent学习理论描述性理论真实世界中的agent是如何行动的 agent学习模型是否与其符合通常通过实验室来进行检验理想的描述性理论应该具有的两个主要性质 6 描述性理论收敛性的几种方式收敛到单阶段博弈的纳什均衡可研究均衡如何到达的承认纳什均衡的到达是很稀少的替换博弈的经验频率收敛到那样一个均衡而不是agent收敛到纳什均衡的均衡策略放弃nash均衡的概念如改为相关均衡过去的历史可以作为相关信号放弃收敛到一个稳态而是进入一个有趣的状态如关于对手策略的模型收敛到正确的策略模型 7 规定型理论 Prescriptivetheories agent应该如何学习一般而言问那种策略是最优的是没有意义的因为这不仅和学习有关而且和其他agent的策略有关因此没有一个学习策略对对手所有可能的行为是最优的 Agent只不过是适应性的 self play如何评价一个规定型的学习策略一种方法是学习策略均衡和其他学习策略处于均衡中这是重复博弈的均衡而不是单阶段博弈的均衡不太常用 8 多主体系统的agent学习理论规定型理论的性质一种更常用和有效的方法是问学习策略能够获得足够高的收益其他几种不同对高收益的要求 9 主要内容 MAS系统学习的基本概念重复博弈中的学习虚拟博弈复制者动态演化博弈策略随机博弈中的学习学习agent的一般理论 10 虚拟博弈 fictitiousplay 一种较早和被广泛研究的学习模型天真假定其对手采用固定的策略 agent根据过去的经验构造关于对手行动策略的模型并根据此模型决策虚拟博弈使用了一种简单的学习策略 agent能记住其他agent的所有过去行动信息并根据此信息来否见一个其他agent期望策略的概率分布该技术的结构如下 11 虚拟博弈 fictitiousplay agent维护一个权重函数ki Sj R 权重更新函数 i假定j会用此概率随机进行策略的选择因此i将据此概率分布决定采用最优反应策略 12 虚拟博弈 fictitiousplay 13 虚拟博弈 fictitiousplay 虚拟博弈的悖论性每个agent假定对手采用稳态策略但没有agent实际上采用稳定的策略除非学习过程收敛 MatchingPennies游戏最后会收敛到 0 5 0 5 14 虚拟博弈有几个很好的性质该性质是存在性的 15 虚拟博弈 fictitiousplay 的性质学习可能进入循环状态经验分布不收敛 16 虚拟博弈 fictitiousplay 的性质虚拟博弈 fictitiousplay 的讨论当将agent学习加入到MAS中时很容易出现这种循环现象一种解决方案是引入随机性循环往往是混合nash均衡但是如果agent同步了的话实现混合nash均衡会导致更低的收益经验分布收敛的条件如零和博弈以及可以用严格占优策略方法解决的博弈等在多于两个agent的博弈中必须决定agent是否必须独立地建立关于其他agent的学习模型或者采用关于组合策略的联合概率分布但后者往往过于复杂 17 虚拟博弈的扩展理性学习理性学习或者贝叶斯学习采用基于模型的方案如虚拟博弈学习允许对对手的策略有更加丰富的信念集如包括重复博弈中的策略而不仅是单阶段博弈的策略参与人的信念通过所有可能策略的概率分布函数进行表达信念的更新采用贝叶斯法则给定观察到的证据h 公式如下理性学习是一个很直观的学习模型但其分析比较复杂 18 模仿者动态从个体到群体这里群体学习指的是其构成以及行为的变化来自生物学模仿者模型建模的是出于经常不断处于互动中的群体群体是同质的 agent之间随机配对进行博弈博弈是对称性的 agent采用纯策略复制者动态的基本思想是采用某个策略的agent在群体中所占比例会随着其策略在群体中的表现而相应变化也即是agent的复制和他们的策略或适应度收益成比例 19 20 模仿者动态模仿者动态 21 复制动态的进化规则是生物学中生物特征进化规则设x为采用策略1的比例复制动态相位图模仿者动态方程的求解 dx dt 模仿者动态的稳定性将agent在群体的比例解释为某个agent采用混合策略的可能性上述定义存在一个问题所有agent采用同样策略的状态是稳态为消除这些状态有这意味着系统在开始时足够接近稳态它将仍然继续在其附近 24 系统在微小的干扰后仍然能够回到该状态我们称之为渐进稳定性如下面的博弈其中的混合策略既是稳态的也是渐进稳态的该公式在参数大于0 5时为负小于0 5时为正等于0 5为0 25 模仿者动态的渐进稳定性上例显示nash均衡和模仿者动态之间有密切的关系实际上我们有显然在一个对应于混合nash均衡的状态中每个策略都有相同的收益所以群体的比例保持不变但是并不是每个模仿者动态的steady状态都是nash均衡尤其考虑到在steady中不是所有的策略被采用或者对应的混合均衡不是nash均衡但是有即每个steadystable状态都是Nash均衡 26 模仿者动态的稳定性模仿者动态的更多结论 27 模仿者动态不收敛例子模仿者动态的局限不是所有的模仿者动态都会收敛很多简单的博弈没有渐进steadystable均衡agent通常不是预期复制而是模仿其他agent的策略如模仿取得最佳收益的agent使用策略不能将模仿者动态直接应用到MAS中不过系统动态收敛到nash均衡确实显示这个解决概念的重要性 29 演化稳定策略ESS 受到复制者动态的激发梅纳德史密斯和普莱斯 1973 演化稳定策略指能够抵抗新策略入侵的混合策略是指如果占群体绝大多数的个体选择进化稳定策略那么小的突变者群体就不可能侵入到这个群体或者说在自然选择压力下突变者要么改变策略而选择进化稳定策略要么退出系统而在进化过程中消失原始的策略被认为是ESS策略如果面对新策略和就策略的混合状态它能够获得比入侵者更高的收益因此可以将入侵者赶出去 30 演化稳定策略ESS定义 31 演化稳定策略ESS示例 32 演化稳定策略与Nash均衡定理给定对称正规形式的二人博弈G 1 2 A u 以及混合策略s 如果s是演化稳定策略则 s s 是G的NASH均衡根据ESS的定义 ESS必须满足 u s s u s s 这意味着s是对于自身的最有反应因此肯定是NASH均衡在对称二人博弈中反过来该定理不成立但是如果s是严格nash均衡的话逆定理是成立的定理给定对称正规形式的二人博弈G 1 2 A u 以及混合策略s 如果s是G的严格NASH均衡则 s s 是G的演化稳定策略根据nash均衡的定义有 u s s u s s 这满足ESS的定义的条件 33 主要内容 MAS系统学习的基本概念重复博弈中的学习虚拟博弈复制者动态演化博弈策略随机博弈中的学习学习agent的一般理论 34 马尔可夫决策过程马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统序贯地作出决策即根据每个时刻观察到的状态从可用的行动集合中选用一个行动作出决策系统下一步未来的状态是随机的并且其状态转移概率具有马尔可夫性决策者根据新观察到的状态再作新的决策依此反复地进行马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质马尔可夫性又可简单叙述为状态转移概率的无后效性状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程 35 随机博弈中的学习在很多的MAS系统应用中 agent不知道其行动产生的收益它们必须随机采取行动来探索世界决定何种行动能获得最大的收益 Agent的任务是一个MDP 解决这个问题的一种流行的方法是强化学习其中的Q learning是最出名的一个强化学习假设agent生活在一个MDP中在每个特定状态收到奖励遍历可以到达的所有状态目标是采取在每个状态最合适的行动最大化agent的折现奖励即找到最优策略 36 其中两个参数比较重要一个是学习速度参数另外一个是探索速度取值 0 1 如果学习速度为1 Q s a 完全根据当前值更新如果为0 则忽略当前的新收益搜索速度保证不会过快的收敛到某个解决方案 0 99 0 98根据问题可以变化强化学习可以使用Q learning来解决如下面的算法所示 Q learning算法 37 Q learning的收敛性为保证最优策略 Q learning需要遍历所有的状态和行动该定理只假设一个agent在学习如果在MAS系统中多个agent在学习的话奖励函数不再是agent行动和状态的函数而是状态和所有agent行动的函数这样在MAS系统中 Q learning可能不会收敛到最优策略在一般的博弈中 Q learning有一定的限制零和博弈除外定理如果学习速度和探索速度下降的足够满 Q learning保证能够收敛到最优的策略 38 Goal Learntochooseactionsthatmaximizewhere 学习任务 S0 r0 S1 a1 a0 r1 S2 Agent Environment state reward action 39 例子问题 40 初始状态 41 算法 42 43 44 45 46 47 48 49 最终状态 50 另外一个例子问题描述环境 AtoE 房间 F 外面的建筑目标目标 agent学习如何最优的从房间离开建筑物如从房间c开始 51 对环境的建模 52 状态行动回报和Q 值回报矩阵 53 Q 表和更新规则 Q表的更新规则学习参数 54 Q Learning算法回顾给定状态图和目标 representedbymatrixR 寻找从初始状态到目标点的最短距离 representedbymatrixQ Setparameter andenvironmentrewardmatrixRInitializematrixQaszeromatrixForeachepisode Selectrandominitialstate Dowhilenotreachgoalstate Selectoneamongallpossibleactionsforthecurrentstate Usingthispossibleaction considertogotothenextstate GetmaximumQvalueofthisnextstatebasedonallpossibleactions compute SetthenextstateasthecurrentstateEndDoEndFor 55 AlgorithmtoutilizetheQtable 输入 Qmatrix 初始状态Setcurrentstate initialstateFromcurrentstate findactionthatproducemaximumQvalueSetcurrentstate nextstateGoto2untilcurrentstate goalstate算法将返回一系列从初始状态到目标状态的状态 Comments Parameter hasrangevalueof0to1 If isclosertozero theagentwilltendtoconsideronlyimmediatereward If isclosertoone theagentwillconsiderfuturerewardwithgreaterweight willingtodelaythereward 数值实例设置初始值设初始状态是roomB Episode1 Lookatthesecondrow stateB ofmatrixR TherearetwopossibleactionsforthecurrentstateB thatistogotostateD orgotostateF Byrandomselection weselecttogotoFasouraction Episode2 ThistimeforinstancewerandomlyhavestateDasourinitialstate FromR ithas3possibleactions B CandE WerandomlyselecttogotostateBasouraction Episode2 cont d ThenextstateisB nowbecomethecurrentstate WerepeattheinnerloopinQlearningalgorithmbecausestateBisnotthegoalstate TherearetwopossibleactionsfromthecurrentstateB thatistogotostateD orgotostateF Byluckydraw ouractionselectedisstateF Nochange 多次迭代后通过多次迭代 agent学习经验越来越多最后会收敛这时的Qmatrix是 Normalizedtopercentage 一旦Qmatrix几乎到达其收敛值 agent就能够通过最优的方式到达目标要跟踪器状态的序列只需要找到最大化每个状态Q值的行动 ForexamplefrominitialStateC usingtheQmatrix wecanhavethesequencesC D B ForC D E F NASH均衡点单个agent的情况下任务是最大化该agent的收益折现后如果是多个agent 最优策略的任务是最大化所有agent的折现收益之和社会福利因此我们需要一个更可亲的均衡定义 nash均衡点 point 63 Nash均衡点是没有agenti愿意偏离或改变其策略的策略几个集合和Nash均衡一样 Nash均衡点一般均存在定理 Nash均衡点的存在性每个N个参与者的带折现随机过程在稳定策略中至少有一个Nash均衡点 NASH均衡点 NASHQ learning的收敛性 65 NashQ学习的收敛性需要以下条件 1 对整个博弈以及学习中遇到的通过Q函数定义的博弈存在一个敌对均衡敌对均衡指的是如果其他的agent改变了策略 agent不会有任何损失也就是说如果其他agent从均衡策略偏移 agent收益不变或增加 2 对整个博弈以及学习中遇到的通过Q函数定义的博弈存在一个协调均衡协调均衡指的是其中所有agent都得到了最大可能的收益即社会福利方案在这些条件下有定理 NASHQ学习收敛性在条件1和2下 NASHQ学习收敛到NASH均衡只要博弈中所遇到的均衡都是唯一的 Q learning的其他扩展 66 零和博弈中的Q learning 在一般的非零和博弈中 Q learning收到很大的限制忽略其他agent的学习活动修改Q函数零和博弈中的Q learning 基于信念的Q learning 在建模中也明确包含其他agent行动 Agent使用它分配给执行每个策略 profile 的概率来对博弈Q值更新进行计算信念函数也需要更新这取决于信念函数的具体形式如给予虚拟博弈或贝叶斯理性学习形式其他学习算法无遗憾学习 69 定义agent 遗憾指数来指导agent的学习定义为agent指导时间t为止的平均每期收益为如果agent执行另外的策略s所获得平均收益假设其他agent的行动不变遗憾的定义 agent在时间t因为没有执行策略s所产生的遗憾为遗憾策略的选择根据每种策略所产生的遗憾来进行策略的选择不遗憾学习规则定义一个学习规则显示不遗憾性质如果对任何纯策略有其他学习算法无遗憾学习模仿学习目标学习计算智能中的学习算法遗传算法分类器算法群体智能算法行为科学中的算法行为博弈行为心理学在学习中考虑文化环境因素的影响文化算法 70 主要内容 MAS系统学习的基本概念重复博弈中的学习虚拟博弈复制者动态演化博弈策略随机博弈中的学习学习agent的一般理论 71 学习agent的一般理论拥有agent学习能力的MAS系统往往不能收敛到均衡状态主要是由于环境的变化以及agent关于支付的不完全信息移动目标函数的问题没有稳定的动态不断变化以适应新的目标系统的设计需要知道系统设计以及学习算法的变化如何影响收敛的时间这可以通过CLRI理论来实现 72 73 74 76 77 Agent学习的层次 78 Agent学习的边际收益递减第9章多主体系统中的协商 79 80 主要内容简介讨价还价问题单调让步协议作为分布搜索的协商Ad hoc协商策略任务分配问题复杂交易基于论辩的协商协商网络 81 为何要协商 Negotiation 协商是多个agent试图达到一致或达成交易的过程 Agent利益是不同的或者是互相冲突的需要协调协商也是将分布式的冲突的知识进行汇聚的方式解决合作博弈问题或更复杂问题的方法例如产品设计 NASAmissions 82 讨价还价问题 Bargaining 问题是找到一个协议f引导agent获得最好的收益讨价还价 Bargaining 也称为议价或谈判主要是指参与人也称为局中人双方通过协商方式解决利益的分配问题称讨价还价时主要强调其动作或过程称谈判时则强调其状态或结果许多现实的交易和协调问题也可通过讨价还价理论来模拟 83 两种解决思路公理化解决概念战略解决概念公理化方法是我们能够给出形式化的定义因为我们相信它满足了所有重要要求因此称之为我们最需要的解决概念策略方法是研究协商问题讨价还价过程的方法它把协商问题描述成为多对策过程策略方法经常把协商过程描述成为以Nash平衡理性假定为对策规则的非合作对策的多步移动讨价还价问题 Bargaining 84 公理化方法帕累托最优帕累托前沿一个交易是帕累托最优的如果不存在其他交易使得agent对其的偏好超过即不存在使得下式成立 85 公理化方法续一个协商协议是独立于效用单位的如果给定U 它选择并且给定它选择这里对称性一个协商协议是对称的如果只要效用函数保持不变其解决保持不变而不管哪个agent有哪个效用函数个体理性交易是个体理性的如果如果则 86 公理化方法续无关选项的独立性这意味着删除失败的交易对结果没有影响只有删除获胜的交易才会改变协议选择的交易 87 协商的几种可能解决方案平等主义变化平等主义的社会福利解决 88 平等主义解决方案 89 功利主义解决方案 90 NASH讨价还价解 91 纳什合作解设想两个人 A和B 之间要就总价值等于V的分配问题讨价还价如果他们之间能够达成协议 V按照协议规定分配 A得到a B得到b a b 被称为威胁点或非合作状态是不能达成协议时的最好选择其中a b V且S V a b是合作带来的剩余分配规则 x表示A得到的价值 y表示B得到的价值假定A和B分别从合作剩余S中得到h和k的份额那么 x a h V a b x a h V a b y b k V a b y b k V a b y b x a k h讨价还价的唯一结果是最大化如下函数的解 max x a h y b k 称为纳什福利函数 NASH讨价还价解 92 a b 对最后的分配具有决定性的意义可以理解为谈判砝码

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多主体系统中的学习多主体系统基础与应用中山大学逻辑与认知研究所

文档简介

温馨提示

最新文档

评论

多主体系统中的学习 多主体系统 基础与应用 中山大学逻辑与认知研究所

文档简介

温馨提示

最新文档

评论

相关文档

多主体系统中的学习多主体系统基础与应用中山大学逻辑与认知研究所