（理论物理专业论文）多人博弈模型的合作现象研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-06 格式：PDF 页数：61 大小：2.04MB 积分：0 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

（理论物理专业论文）多人博弈模型的合作现象研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定，即：学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容一致苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子文档，允许论文被查阅和借阅，可以采用影印、缩印或其他复制手段保存和汇编学位论文，可以将学位论文的全部或部分内容编入有关数据库进行检索。涉密论文口本学位论文属在么年二月解密后适用本规定非涉密论文囱论文作者签名：导师签名：日期：复岔幽日期：型2 盘型鱼多人博弈模型的合作现象研究中文摘要中文摘要社会群体中的竞争与合作行为是复杂和重要的实际问题。研究自私个体构成的群体中的博弈与合作性质及其行为特征一直是人们关注的课题。博弈理论提供了描述这些现象的理论框架。本文以博弈模型为基础，构造出不同的符合实际的变异的博弈模型来研究群体中的合作现象产生的原因，合作增强的机理，动态网络对博弈竞争的影响以及“惩罚”在雪堆博弈模型中的效应具体内容如下。以原始的雪堆博弈模型为基础，我们研究了不同演化机制对两种变异的雪堆博弈模型( 多人雪堆博弈和考虑时间收益的多人雪堆博弈) 中合作行为的影响。我们发现在全局耦合网络中模型中，在代理人可以“模仿”他人的决策来为自己选择策略的演化机制下，相互竞争的代理人组成的集团将最终演化到所有成员都不合作的状态。而如果这些代理人能够根据自己的既得利益进行“反省”，做出比当前的行为或决策更有利的选择，那么在由这样的代理人组成的集团中总是存在合作行为。同时，我们还进一步研究了这两种变化的多人雪堆博弈模型在动态e z 网络中演化的行为，理论分析与模拟结果相一致。我们提出了考虑时间效应的多人雪堆博弈模型，即合作者如果能够提前完成任务( 合作者人数越则越快完成的任务) ，将可以得到额外收益。本论文中运用复制动力学的方法研究了我们提出的新模型。我们可以用成本收益比，( = c b ，其中c 为成本，b 为收益) 、额外收益w ，以及抽样竞争人数等参数来表示代理人收益并最终给出稳定态时代理人合作频率的表达式。当额外收益参数w 0 时，系统中的合作频率比w = 0 时的情形有明显增加，并且在一定条件下可以出现代理人全合作的状态。这一特征在多人雪堆博弈( w = 0 时) 模型中没有观察到。这个全合作状态出现的条件为( 一1 ) c w 。另外，我们提出了一个计算机模拟的模型来仿真复制动力学过程，模拟结果与理论计算吻合。同时，我们还研究了考虑时间效应的雪堆博弈模型在动态网络中的演化行为，提出了耦合动态过程的动力学方程，其稳定解与模拟结果相一致。中文摘要多人博弈模型的合作现象研究在一些实际情况中，有些合作的代理人可能愿意多付出自己的收益而对不合作者进行惩罚。为了考虑该种效应，我们研究了有合作者、合作惩罚者和不合作者参与的三方博弈的模型。在原始雪堆博弈模型的基础上，当合作惩罚者遇到不合作者时，将牺牲自己的利益口对不合作者进行惩罚，使不合作者的损失收益口( 通常有口 p ，( 1 3 ) 那么可以按照四类收益的大小排序，得到四类博弈模型。它们分别是： t 尸 r s ，( 1 6 ) 即僵局博弈；丁 r p s ，( 1 7 ) 即囚徒困境博弈( p r i s o n e r sd i l e m m ag a m e ) 5 , 6 ，7 】； t r s p ， ( 1 8 ) 即胆小鬼博弈( c h i c k e ng a m e ) 【6 ，1 1 ，1 4 】，也被称为鹰鸽博弈( h a w k d o v eg a m e ) 6 ，1 4 或雪堆博弈( s n o w d r i f tg a m e ) 【6 ，1 4 】： r t p s ， ( 1 9 ) 即围猎牡鹿博弈( s t a gh u n tg a m e ) ，或信任危机博弈( t r u s td i l e m m ag a m e ) 6 ，1 3 ，1 5 。第一章引言多人博弈模型的合作现象研究现实生活中的博弈并不总是只进行一轮便结束的。而当代理人可以进行多次博弈时，他们的行为与只能进行单轮博弈时的行为不同。这可以从在兰德公司关于囚徒困境的早期实验 5 e e 看出来。在这个实验中，参与博弈的代理人a a 和j w 分别有收益矩阵：彳= ：2 i i 和将a a 看作行代理人，合并为：则矩阵( 1 1 0 ) 和矩阵( 1 11 ) 可以 a a ，l2 1 f ，一1 ，21 2 ，1 、i 。 ( 1 1 2 ) 2 l o ，1 2 1 , - 1j 应用约翰纳什的理论进行分析，a a 应该选择他的二号策略，而j w 应该选择他的一号策略，即得到矩阵元( 2 ，1 ) 对应的收益 1 6 】，这是单轮囚徒困境的均衡态。但是在实验中研究者们发现，二个代理人得到收益( 1 ，2 ) 的轮数占多轮博弈经历的总轮数的六成 5 】。关于这个结果，纳什在对实验的评论【5 】中说，有限次的多轮博弈并不能使博弈双方放弃利用灵活的策略得到更多收益的企图，因而博弈过程也不能达到平衡态。为了进一步观察矩阵( 1 1 2 ) ，我们可以将矩阵元看作二维矢量，绘出下图 5 ： 1 2 卜( 1 ，2 2 。1 )，| i i 、| ，一1 时一1 、( 2 2 ) a a 图1 3 矩阵( 1 1 2 ) 的矢量形式，四边形的顶点由代理人从和j w 所使用的策略编号来标记 4 多人博弈模型的合作现象研究第一章引言观察图1 3 我们可以发现，顶点( 2 ，1 ) 是稳妥的选择，可以使双方都不会得到最差收益。顶点( 1 , 2 ) 是更好的选择，双方都能得到更好的收益；但是同时，代理人a a 可以改变策略而达到对自己更有利的顶点( 2 ，2 ) ，代理人j w 也可能背叛a a 的好意而试图到达顶点( 1 ，1 ) 。在非合作博弈的情形下，单轮博弈是一锤定音的，但是在多轮博弈中代理人有余地可以在交锋中影响对方的策略。这点可以从代理人a a 与 j w 在实验过程中的想法记录 5 ，9 里看到。仔细观察矩阵( 1 1 2 ) 可以看到，对代理人a a 来说，一号策略有利于j w 获得高收益；而对于代理人j w 来说，他的二号策略有利于代理人从获得更高的收益。这说明代理人a a 的一号策略和代理人j w 的二号策略实际上可以看作“合作”策略，他们的另一条策略可以看作“背叛”策略。这说明当单轮的囚徒困境博弈变为多轮博弈的情形时，双方必然背叛却都只能“损人不利己”的“困境”似乎消失了。这个现象在后来被称为叠代的囚徒困境( i t e r a t e dp r e s o n e r s d i l e m m a ) 。在八十年代初，有研究者通过计算机模拟对这个现象做了进一步研究 6 】。他们向五个领域的十四组研究者征集了选择策略的方案，并写成程序使得计算机可以代替真人作为代理人进行博弈。在这些方案的捉对博弈中，“一报还一报( t i tf o rt a t ) ” 方案最终胜出，成为了实验和理论方面新的研究热点 1 7 1 9 ，4 2 。在这些研究的基础上，有研究者将可以引入博弈模型并进而改变代理人合作行为的因素，总结为 1 7 ：亲缘选择( k i ns e l e c t i o n ) 2 0 2 2 】；群体选择( g r o u ps e l e c t i o n ) 【2 0 ，2 1 ，2 3 ，2 4 】直接互惠( d i r e c tr e c i p r o c i t y ) 2 0 ，6 1 ；间接互惠( i n d i r e c tr e c i p r o c i t y ) 【2 0 ，2 6 - 2 8 ；网络互惠( n e t w o r kr e c i p r o c i t y ) 2 0 ，2 9 1 。同时，为了对这些实验或者计算机模拟的结果进行分析，有研究者将处理逾渗现象和跃迁现象的物理工具用来分析博弈现象 7 】，例如复制动力学( r e p l i c a t o rd y n a m i c s ) 3 6 或者主方程( m a s t e re q u a t i o n ) 3 2 ，3 5 等。至此，在对以囚徒困境博弈为主的关于博弈现象的研究过程中，研究者们发展出了一套博弈论的研究框架，可以用来方便的分析和研究分布于各种关系网络上的代理人群体中的博弈过程。有研究者将这一套框架用于研究现实世界中的生物进化现象，也有研究者转而研究雪堆博弈模型在网络上的演化行为【3 7 4 0 或在叠代博弈中的合作现象 4 2 】。在本文的研究中，我们也将注意力集中在这个方向，研究了雪堆博弈模第一章引言多人博弈模型的合作现象研究型和变化的雪堆博弈模型在全局耦合网络( w e l l m i x e dn e r o ) 3 1 】和动态的e z 网络 4 l 】上的合作现象，并且得到了一些很有意思的结论。 1 2 本文的主要工作我们从2 2 雪堆博弈模型着手，按照实际情形修改收益矩阵，并采用不同的代理人关系网络和不同的演化机制，提出了多种变化的雪堆博弈模型，并分别进行了模拟和理论分析。具体工作如下：一、多人演化雪堆博弈模型及其变化模型在两种演化机制下合作行为的特点我们在原始的2x2 雪堆博弈模型基础上，可以得到考虑时间收益 ( t i m e i n v o l v e d ) 的多人二策略雪堆博弈模型。这个模型里，采取合作( c o o p e r a t e 或c ) 和不合作( d e f c c t 或d ) 【7 】的代理人在博弈中获得的收益分别定义为砟( n ) 和 r ( 甩) ，是人群中c 代理人数量，z 的函数。我们假定人群中的合作代理人越多，“雪堆” 越快被铲走，因而被雪堆所阻的代理人们能越快上路。我们在收益函数只( 珂) 和r ( 甩) 中引入参数w ，来反映这种提前所带来的好处。这就是“考虑时间收益的多人博弈” ( t i m e i n v o l v e dm u l t i p e r s o ns n o w “f lg 锄e 或t m s g ) 3 3 ，3 4 模型。我们将这个模型与原始的雪堆博弈模型的合作行为进行比较，并分析了系统中合作行为产生与增强的原因。在演化博弈模型中，需要引入演化机制来确定群体中的代理人如何选择策略来应对每一轮博弈。这些演化机制包括“模仿”和“反省”等机制【3 4 】。我们研究了在这两种机制下，上述原始的雪堆博弈和变化的雪堆博弈模型中，代理人之间的合作行为。我们发现在这些模型中，在代理人可以“模仿”他人的行为或者决策来做出决定的演化机制下，相互竞争的代理人组成的集团将最终演化到所有成员都不合作的状态。而如果这些代理人能够根据自己的既得利益进行“反省”，做出比当前的行为或决策更有利的选择，那么在由这样的代理人组成的集团中总是存在合作行为。同时，考虑时间收益的多人雪堆博弈模型中的参数比w b 对其行为有重要影响。多人雪堆博弈模型可以看 6 多人博弈模型的合作现象研究第一章引言作考虑时| 白j 收益的多人雪堆博弈模型中w - - 0 时的情形。而当w 0 时，我们发现系统中的合作频率增强，并得到了代理人全合作的状态。二、考虑时间收益的多人雪堆博弈模型在动态网络中的行为在第一部分研究中，代理人群体之间的关系是静态的，并且只包含较少数量的代理人。在这部分研究中，我们将考虑时间收益的多人雪堆博弈模型放置于动态的e z 网络中进行研究。通过从不同的参数( 解散集团与集团合并的概率) 出发改变构造 e z 网络，我们可以控制群体中的合作频率。这个过程可以定性的用第二章的研究得到的结论来解释。我们利用动力学方程计算了合作频率在不同参数组合下的演化终止条件，并将此时系统的状态与计算机模拟的结果做了对照。三、考虑时间收益的多人博弈模型中的合作加强与群体协作现象我们考虑规模比较大的群体，研究其中由小部分代理人之间的互相博弈引起的合作行为。每轮从整个群体中选出数量为的一组代理人，称为取样组( s a m p l i n g g r o u p ) 。在这样的取样组中，所有成员进行一轮代理人博弈，并决定是否改变策略。这罩所用的模型为考虑时间收益的多人雪堆博弈模型，代理人通过“反省”决定是否改变策略。由于取样组成员是随机抽取的，所以其策略比例应当近似于系统内各策略的比例。同时，由前一部分的定性研究可知，在一个全局耦合的集团中合作频率的演化行为由参数比w b 决定，也受到集团尺寸也就是这里的取样组大小的限制。这样，小集团中的博弈过程，最终影响到了整个人群中的合作频率。作为对照，我们通过复制动力学( r e p l i c a t o rd y n a m i c s ) 的方法，解析的研究了这个系统的性质。当合作频率的数值变化速率为零时，系统达到平衡态，合作频率取值为不动点。通过分析我们发现随着系统参数的变化，如取样组大小、模型中参数之比w b 和c b 等取不同的值，平衡态可能从稳定态变为不稳定态，合作频率受n d , 的扰动后系统便会开始向其它稳定态演化；反之不稳定态可能变为稳定态，吸引合作频率向其接近。四、考虑“直接惩罚的雪堆博弈模型我们对考虑“惩罚”效应的雪堆博弈模型进行了研究。在这个模型中，竞争取样组被取为二人情形，相应的描述博弈过程的收益矩阵由原始二人雪堆博弈模型中的包括 “合作”、“背叛”的二阶矩阵变为包括“合作”、“背叛”和“惩罚”的三阶矩阵。这里的“惩罚”策略是指，“合作”代理人中的一部分在遇到同样“合作”的代理人时仍然与之合作； 7 第一章引言多人博弈模型的合作现象研究而遇到不合作者的代理人时，会通过承担收益损失口，使“不合作”的代理人遭受收益损失声( 口 c 0 时合作的行为才是有利可图的。本文中我们将参与竞争的选手称为代理人( a g e n t ) 。某个代理人的收益与其它代理人采取何种策略的有关。收益矩阵( 2 1 ) 就是原始二人雪堆博弈模型的数学表达式。当有多人参加博弈竞争时，模型演变为多人雪堆博弈模型。具体过程可以描述为：如果被同一堆雪阻挡的司机有 n 个，其中至少有一个出力铲雪，所有参与者才能得到收益b ；而如果参与合作铲雪者的数量为门，则每个合作者付出代价为c n 。于是多人雪堆博弈( n s g ) 模型中合作者与不合作者的收益为：犀= b c n ，n 1 ( 2 2 ) 弓2 6 刀 1 ，n 0 n 0 一l 】 i= 由公式( 2 2 ) 和( 2 3 ) 可知，在一轮多人雪堆博弈中，略就能保证自己得到的收益不少于他人。从这点上说， ( 2 3 ) 代理人只要采取不合作的策多人雪堆博弈有可能抑制合第二章演化霄堆博弈模型中的合作行为多人博弈模型的合作现象研究作现象的产生。然而合作的人越多，合作得到的收益越高，这又有可能增加合作频率。当考虑在一个大人口群体中随机抽取以个代理人进行博弈时，动态复制( r e p l i c a t o r d y n a m i c s ) 演化的研究表明在给定b 、c 参数时总人口的合作频率随”的增大而减小。即人数越多，合作频率便越被抑制 3 】。然而以上的模型并没有考虑完成一个任务所需的时间效应。我们知道，在现实生活中完成某些种类的工作需要的人力小时数可以认为大致为定值，合作者的数量和完成工作需要的时间大致有反比关系，比如铲雪。据此我们提出这样的假设：只要任务提前完成，所有人都会因为节省时间而得到额外收益。于是多人雪堆模型可以进一步变异为有时间收益的多人雪堆模型，其中代理人合作铲雪或者不合作地等待雪被铲走所获得的收益如下： p c = b c 疗+ w w 以刀1 ( 2 4 ) 和 p ：0 以= 0 ( 2 5 ) p d2 16 + w w ，l，l 1 旺5 其中的额外收益因子w w n 表示提前完成工作带来的附加收益( 比如可以提前回家休息等) 。这里我们假定，当只有一个代理人在铲雪时，所有代理人都没有得到额外收益；而合作铲雪的代理人越多，铲走雪堆所需要的时间便越少，附带的额外收益便越大。我们把这种模型称为有时间收益的雪堆博弈模型( t i m e r e w a r d i n gs n o w d r i f t g a m e ) 。将这样的博弈模型与某种演化机制相结合，可以得到演化博弈模型。演化机制通常为“反省”机制和“模仿”机制等。模仿机制是指，在一轮博弈完成后，当代理人f 要决定以什么策略参与下一轮博弈时，他会将自己在这一轮得到的收益p 与随意选出的代理人的收益e 做比较。如果e 只，代理人f 会以正比于收益差额的概率缈跟从代理人歹的策略。多人雪堆博弈模型中，代理人可以选择的策略为合作与不合作，于是可能导致代理人改变策略的收益差p 为 b a t = 品( 胛) 一t o ( n ) ， ( 2 。6 ) 1 2 多人博弈模型的合作现象研究第二章演化雪堆博弈模型中的合作行为或 a p = p o ( n ) 一p c ( n ) 。 ( 2 7 ) 在反省机制中，代理人会假设自己以不同的策略参与当前一轮博弈，并以之为参考来决定下一轮采取什么策略。例如当代理人在本轮竞争中采取合作行为，并得到真实的收益p 之后，他将假设自己采用不合作行为( 虚拟的策略) ，则本轮竞争可能得到虚拟的收益只。通过对比只与只，如果只 e ，那么这个代理人将以正比于收益差的概率国，用虚拟策略参加下一轮博弈；如果 0 ( 2 1 0 ) 国2 1 u7 【0 a p 0 ，这个策略变化过程才可能发生。在图2 1 ( a ) 的模型中我们采用多人雪堆博弈模型与模仿机制构成演化模型。这时，只要初始时刻系统中存在不合作的代理人，那么最终系统会达到代理人全都不合作的状态。在图2 1 ( b ) 表示的演化模型中，我们采用了有时间收益的多人雪堆博弈+ 模仿机制。由于在这个博弈模型中，因为提前完工而得到的额外收益对于所有代理人都是相同的，这个额外收益项不会影响收益差额的取值。因而图2 1 ( b ) 的结果和图 2 1 ( a ) 的结果应当是相同的，稳定态均为所有代理人都不合作的状态。图中所示的模拟结果也验证了这一点。图2 1 ( c ) 的演化模型由多人雪堆博弈模型与反省机制构成。图2 1 ( d ) 的演化模型则由有时间收益的多人雪堆博弈和反省机制。使用反省机 1 4 ，协十i_ t i i ￥r ，一多人博弈模型的合作现象研究第二章演化雪堆博弈模型中的合作行为制时，收益差额关于合作代理人数量的曲线发生了变化。反省机制实际上是在系统中不断引入扰动，因而系统不会稳定于代理人采取一致策略的状态。此外，由于反省机制中，计算虚拟收益时考虑的合作代理人数量与计算真实收益时的不同，在这二个博弈模型中收益差额关于合作代理人数量的曲线也不相同。图2 1 ( c ) 和图2 1 ( d ) 的结果说明了这些特点。观察图2 1 ( c ) ( d ) 我们可以看到，图中的实线( 不合作代理人转而采取合作策略时的收益差额) 和虚线( 合作代理人转而采取不合作策略时的收益差额) 均存在使a p 0 的区间，这说明这两种演化博弈模型中存在稳定态，即在这样的状态下，所有代理人都不能通过单独地改变自身策略而得到更高的收益。其中图2 1 ( c ) 的稳定态存在于只有一个代理人采取合作策略的情况下；而图2 1 ( d ) 的稳定态也出现在合作代理人为特定数量的情况下。与图2 1 ( c ) 不同的是图2 1 ( d ) 中稳定态时的代理人数量与参数w c 的取值有关。我们以计算机模拟进一步研究这个情况。模拟的结果见图2 2 。我们在模拟中考虑了一个全局耦合系统。这个系统包含的代理人数量为，并且在初始时刻既有合作者也有不合作者。我们首先以不同的合作者频率作为初始的合作者频率，让系统分别按照图2 1 ( c ) 与图2 1 ( d ) 所描述的演化模型依据的给定参数进行演化，并观察了演化过程的时间序列和确定了弛豫时间。然后我们取合作者频率与不合作者频率相同的情况作为初始状态，参照上述弛豫时间进行了模拟。模拟结果绘制于图2 2 中，图中横坐标为整个系统代理人的个数，纵坐标表示在整个系统中合作代理人出现的频率。图中的结果分为三个部分：区域a 、区域b 和曲线c 。我们对图2 1 ( d ) 中的有时间收益的雪堆博弈+ 反省机制的演化模型，取w c = 1 0 进行模拟，得到了在图2 2 的坐标系中这个模型的稳定态区域。这个区域由相邻的一对虚线和实线分别标出上边界和下边界，称为区域a 。三角形标志为计算机模拟的演化过程所达到的稳定态。由于代理人数量为整数，所以当w c 也取为整数时，稳定态正好位于区域彳的上下边界处。而模拟过程最终稳定于上边界处还是下边晃处，还与最初的合作者频率有关。类似地，当w c = 5 时，我们得到了区域曰。这个情况下的模拟结果与取w c = 1 0 时的结果有相同形状。通过比较彳、b 区域，我们发现w c 的取值确实影响稳定态的第_ 二章演化雪堆博弈模型中的合作行为多人博弈模型的合作现象研究范围，但是这个范围同时也受到系统中代理人总数的约束。图2 2 中的曲线c ，由图 2 1 ( c ) 所对应的模型得到。这时的稳定态确实对应于只有一个代理人采取合作策略的情况。 z 、u 0 5 c w , - - u 0 0 1 01 0 0 n 图2 2 不同模型下，终态合作频率与系统大小的关系彳) 有时间收益的雪堆博弈模型+ 反省机制，w c = 1 0 b ) 有时间收益的雪堆博弈模型+ 反省机制，w c = 1 0 c ) 多人雪堆博弈+ 反省机制 7 5 ，。、五5 0 2 5 11 010 0 w ，c 图2 3 稳定状态下合作者数量与w c 的关系比较图2 2 中的区域彳和区域b ，可以粗略地看出参数比w c 对“有时问收益的 1 6 多人博弈模型的合作现象研究第二章演化雪堆博弈模型中的合作行为多人雪堆模型 + “反省机制”构成的演化模型的稳定态的影响。在图2 3 三中，我们去掉了系统尺寸对稳定态的限制，将满足p 0 的合作代理人的数量与w c 的关系表示了出来。若根据系统中代理人的总数加上水平的辅助线，则这条辅助线在曲线右侧的部分和曲线在辅助线下方的部分构成了系统稳定态关于w c 的变化关系曲线。在不考虑系统尺寸所加的限制的时候，我们可以将公式( 2 。2 ) ( 2 5 ) 代入公式 ( 2 8 ) 和公式( 2 9 ) ，得到满足a p s p ，这是原始雪堆博弈的情形 1 。而当 1 时有r t s p ，这是围猎牡鹿( s t a gh u n t ) 1 】的情形。观察公式( 3 1 ) 和公式( 3 2 ) 可以看到，在包含较多的代理人的群体中，当合作代理人数量已经达到较大值时( 例如咒一1 0 0 ) ，即使有更多的代理人进行合作劳动也不能明显地增加时间收益。这样的群体，使整个系统很难达到全合作状态。为了构造演化模型，我们假设系统中的代理人在e g u 1 u z z i m m e r m a n n 网络【2 上 1 9 第三章耦合动态网络中的博弈模型使用这个博弈模型按照“反省”机制演化。通常在实际情况中，并不是群体中所有的代理人只涉及一部分代理人。我们假设代理人群体分布于e 络) 上。e z 模型定义了一个随时间变化的动态人群分布系统。在初始时刻，这个网络处于个体均相互孤立的状态，整个系统可以看作由大量只包含一个代理人的小集团组成；在时刻，在所有集团中以正比于集团所含代理人数量的概率选出一个集团，然后以概率u 。将这个集团解散为个体，或以概率将这个集团与按同样方式选出的另一个集团合并为更大的集团，或以概率1 一d ，一保持原有的网络结构。在此基础上，我们将每个集团中的代理人看作是在本集团中全局耦合，即一个集团中的代理人将共同参与同一轮多人博弈。在每一轮博弈中，以正比于集团大小的概率在所有集团中挑选出一个集团，这个集团中的所有成员共同进行一次多人博弈并更新各自的策略；而同时随着时间演化，e z 网络中的集团也在不断的解散成个体或聚合成更大的集团，但是在这些过程中代理人保持自己的策略。实验中进行博弈过程的速率，与 e z 网络散团的速率取为在一个数量级。二个过程相对速率的不同会影响到实验结果。由第二章中的研究可知，当群体中的代理人分布于全局耦合网络上时，合作频率的稳定值可以表示为：厶= m i n i n t ( f l + 1 ) n ，1 】( 可见图2 3 、公式2 1 l 和相关说明) 。这个稳定态合作频率表达式说明，在每一轮博弈过程里，包含少于个合作者的集团中不合作代理人会转而采取合作策略，而在包含多于+ 1 个合作者的集团中合作的代理人会转而采取不合作策略。这二个过程影响着系统的合作频率，直到系统达到稳定状态。于是可以得到合作频率丘的演化动力学方程：盟d t = 姜号暑毗七) - k c o t g ( k - f l - 1 ) + ( s - k ) c o o ( f l - k ) ( 3 3 ) 表示整个系统中个体的总数。c o 表示代理人改变策略的概率，这里我们将这个概率取为常数。网络演化时间足够多时，包含j 个代理人的集团的数量，l ，满足幂律分布【3 j ：磐掣 ( 3 4 ) ( 2 + u ，) 2 川一 q ( 石一，七) 表示在系统中挑选出一个大小为j 的集团，这个集团中包含尼个代理人的概率。我们以二项式分布规律来表示这个值： q ( 而七) 2 石二! 击两( 石) ( 1 一五) ”。 ( 3 5 ) 阶跃函数的性质为当x 0 时，臼( x ) = 1 ；当工o 时，秒( x ) = o 。于是在动态演化的e z 网络上，整个群体中的合作频率由系统中所有集团之间的动态重组和考虑时间效应的多人雪堆博弈过程的共同演化来决定。如果令公式( 3 3 ) 的值为零，则可以解得这个演化过程的稳定态合作频率。 3 2 结果和分析图3 1 合作频率关于收益成本比的变化关系 = = 0 5 ，w = 0 5 2 l 第三章耦合动态网络中的博弈模型多人博弈模型的合作现象研究图3 1 表示合作频率尼随成本收益比三t c 的变化关系。这罩我们取e z 网络的散团概率为y 。= o 5 ，组团概率为i , p r n = 0 5 ，而t m s g 中的参数w = o 5 ，整个群体的代理人数量为n = 1 0 0 0 0 。对应的理论曲线与模拟结果见图3 1 上半部分中的曲线。同时我们也将在n = 1 0 0 0 0 的全局耦合网络中得到的f c 一关系绘出以作为对照( 理论曲线与模拟结果见图3 1 下半部分) 。由第二章中的分析可以知道，当代理人通过“反省”机制来选择策略时，小集团内部的合作代理人数量趋向于：f t c ，t c + 1 1 。于是在所含代理人数量小于p = t c 的集团中，合作代理人数量到达这个范围前，集团中的代理人已经都选择了合作策略，即出现全合作状态；而在较大的团中，不合作代理人则会滋生。于是我们可以这么解释图3 1 中e z 网络上尼一曲线的成因：当 7 0 ) 数量较小，相应的厅5 的取值有比较大的随机性。第三章耦合动态网络中的博弈模型多人博弈模型的合作现象研究图3 3 合作频率关于e z 网络组团、散团概率的分布 ( a ) = o 1 ，( b ) = 1 ，( c ) = 1 0 。在图3 3 中，我们给出了系统合作频率尼关于关于e z 网络组团概率和散团概 - 率1 9 p 的分布。显然，这个分布受到收益成本比的影响。由公式( 2 1 1 ) 可知在一个完全耦合的集团中，合作代理人数量有刀o _ ) 【，p + 1 】。当博弈过程进行的速率与 e z 网络散团速率相当时，给定的越大，不合作代理人转而选择合作策略的情况便越多。这样，整个系统中合作的代理人越来越多，合作频率增大，并出现代理人全合作状态。此外，观察图3 3 中单独一张相图可以看到，散团概率d 。较大能够促进合作，而组团概率d 。比较大则会抑制合作。这是因为在有时间收益的雪堆博弈模型中，每个小集团中“铲雪”的代理人数量不多于+ 1 个便可以使集团成员获得最好的收益，并且这个参数是不随集团大小变化的。这就是说一个集团包含的代理人越多，有机会不劳而获的代理人数量便可能越多，从而抑制合作。而当u 。较小或较大时，系统中包含较多代理人的集团的数量便会增加，从而出现相图中所示的分布。 3 3 小结虽然e z 网络上的组团散团过程复杂，相同大小的集团的形成历史也可能是不同多人博弈模型的合作现象研究第三章耦合动态网络中的博弈模型的，但是通过比较计算机模拟结果和基于二项式分布的理论计算可知，在这个动态网络上竞争集团形成的过程和博弈过程，可以看作是从体统中随意挑选出一些只包含一个代理人的集团，然后直接组成一个竞争集团并进行博弈的过程。在此基础上，我们可以利用动力学方程的方法准确的得到这个模型的演化行为。参考文献 a x e l r o dr a n dh a m i l t o nw d ，s c i e n c e ，19 81 ，211 ，13 9 0 ；a x e l r o dr ，t h e e v o l u t i o no fc o o p e r a t i o n ( b a s i cb o o k s ，n e wy o r k ，19 8 4 ) e g u i l u zv m a n dz i m m e r m a n nm g ，2 0 0 0 ，c o n d - m a t 9 9 0 8 0 6 9 v 4 f u n gy k ，a g e n t - b a s e dm o d e l so fc o m p e t i n gp o p u l a t i o n ，( f o rf u l f i l l m e n to

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（理论物理专业论文）多人博弈模型的合作现象研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档