




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,23重复博弈,23A理论:两阶段重复博弈,考虑将“囚徒困境”博弈重复进行两次,,过程博弈的收益等于两个阶段各自收益的简单相加,,次博弈开始前可观察第一次进行的结果,,(不考虑贴现因素),,且在第二,并假设整个,这叫两阶段“囚徒困境”重复博弈.,两阶段“囚徒困境”重复博弈属于第22.A节分析过的博弈,.,根据22.A节的求解此类博弈精炼解的程序,第,两人的收益为,二阶段博弈的结果,在此前提下分析第一阶段的情况.,的博弈,,该博弈有唯一的纳什均衡,为所余部分博弈的纳什均衡,,即为,由此两阶段“囚徒困,参与者在第一阶段的局势就可归纳为下图所示,其中第二阶段的收益(1,1),分别加到两人第一,不管第一阶段的结果如何.,境”中,,阶段每一收益组合上.,.,从而,两阶段囚徒困境唯一的子博弈精炼解就是第一,在子博弈精炼解中,任一阶段都不能达成合作,的结果.,阶段的和第二阶段的,这一结论在更为一般的条件下同样成立.,表示一完全信息博弈,其中参与者1到n同时从各自的行动空间A1到An中分别,选择行动a1和an,得到收益分别为,以后我们称博弈G为重复博弈中的阶段博弈.,定义对给定的阶段博弈G,令G(T)表示G重复进,行T次的有限博弈,并且在下一次博弈开始前,所有以,前博弈的进行都可被观测到.G(T)的收益为T次阶段博,弈的简单相加.,.,意有限的T次重复博弈G(T)有唯一的子博弈精炼解:,即G的纳什均衡结果在每一阶段重复进行.,定理如果阶段博弈G有唯一的纳什均衡,则对任,下面,再回到两阶段博弈,进一步考虑阶段博弈,G有多个纳什均衡的情况,,看下面例子:,容易看出,此博弈有两个纯战略纳什均衡:,.,设图2.33表示的阶段博弈重复进行两次,并在第二次博弈开始前可观察第一次进行的结果,,可以证明,这一重复博弈中存在一个子博弈精炼解,,其中第一阶,段的战略组合为,说明:严格地讲,我们只是对第2.2A节定义的博弈类型定义了子博弈精炼解,,后面将会看到,二者解的定义,对此类博弈我们还没有给出,子博弈精炼解的定义,,相差甚微.,(该例分析复杂,略去),这个例子要说明的主要观点是:,对将来行动所作,的可信的威胁或承诺可以影响到当前的行动.,另一方,面,,子博弈精炼的概念对可信性的要求并不严格.,.,2.3.B理论:无限重复博弈,在有限重复博弈的例子中已经看到,如果阶段博,弈G有多个纳什均衡,,重复博弈G(T)就可能会存在子,博弈精炼解,其中对任意,阶段t的结果都不是G,的纳什均衡.,进一步,即使阶段博弈G有唯一的纳什均,衡,无限重复博弈中也可以存在子博弈精炼解,其中没,有一个阶段的结果是G的纳什均衡.,定义对给定的阶段博弈G,将G重复进行无限次,,并且在下一次博弈开始前,所有以前博弈的进行都可被,观测到.,称此博弈为无限重复博弈.,无限重复博弈中的收益如何计算?,借助于贴现因子,,令为贴现因子,,下一阶段的收益un+1相当于现,阶段的收益,把无限次的收益贴现相加.,.,无限重复“囚徒困境”博弈,(1)对任意t,在第t阶段开始前的(t-1)次阶段的结果都可观测到.,(2)必须考虑贴现因子(度量收益之和),无限重复“囚徒困境”博弈中,博弈双方能否走出困境?,解决方法:,略,,先入为主地给出一些自认为“合理”的策,然后再证明其为子博弈精炼均衡解.,给出以下触发,策略(triggerstrategy):,参与者i:第一阶段选择合作(即,.,如果所有前面(t-1)阶段的结果都是,则选择,否则选择,若参与人i第一阶段选择,按上述触发战略,参,“触发战略”的含义:,如果没有人选择不合作,,合作,将一直进行下去,,一旦有人选择不合作,就会触发其,后所有阶段都不再相互合作.,与者j选择,参与人i的总收益为,若参与人i第一阶段选择,按上述触发战略,参,与者j选择,参与人i的总收益为,Ri)且在第t阶段,,.,若选择,(合作)是参与者i的最优反应,,当且仅当下式,成立:,即,解得,即当贴现因子,时,博弈各方一直选择合作是无限,次博弈,的子博弈的精炼NE.,也即,,当且仅当贴,现因子,时,,参与者双方都采取触发战略是博弈,的纳什均衡解.,时,各博弈方的选择,反之,当,是:从来不合作.,子博弈精炼解,为了给出子博弈精炼解的定义,,首先定义重复博弈,.,定义对给定的阶段博弈G,令,表示相应的,无限重复博弈,,其中G将无限次地重复进行,且参与者,的贴现因子都为,对每一个t,之前的t-1次阶段博弈的,结果在t阶段开始进行前都可被观测到,每个参与者在,中的收益都是该参与者在无限次的阶段博弈中所,有收益的现值.,中的以下三个概念:,重复博弈中的战略、,重复博弈的,子博弈以及,重复博弈的子博弈精炼纳什均衡.,参与者的战略:,参与者的一个战略是行动的一个完,整计划,作出选择时的行动.,它包括了该参与者在所有可能的情况下,需要,完全信息静态博弈中,,参与者的一个战略,简单行动,,就是一个,因此,完全信息静态博弈表示为,.,但是在完全信息动态,因此,完全信息静态博弈也可,以表示为,博弈中,,一个战略就复杂了.,以两阶段“囚徒困境”博弈为例,,每一个参与者都有,两次行动,,那么参与者的一个战略是什么呢?,假设参与者在第一阶段的行动为b,,每一个参与者都可能针对这些情况做出,不同反应.,于是,每一个参与者的战略可以这样描述:,将,称为参与者战略的5条指令,,第一阶段有四个可能的结果:,第二阶段的行动,为c,,其中v为第一,阶段的行动,,则表示针对第一阶段的不同结果,分别应该在第二阶段,采取的行动.,使用指令,,“第一阶段选择b,,且不论第一阶,.,段出现什么结果,,均在第二阶段选择c”,就可表示为,但这一表示方法也可以表示第二阶段行,动依赖于第一阶段结果的战略,,比如,它,的含义是,“第一阶段选择b,,如果第一阶段的结果是,则在第二阶段选择b,,否则第二阶段选择c”.,博弈到阶段t的进行过程(historyofplaystaget),(历史):,指各方参与者从阶段1到阶段t所有行动的记录.,定义,在有限重复博弈G(T)或无限博弈,中,参与者的一个战略,特指在每一阶段,,针对其前面,阶段所有可能的进行过程,,参与者将会选择什么行动.,子博弈的直观描述,一个子博弈是全部博弈的一部分,,当全部博弈进行,到任何一个阶段,,到此为止的进行过程已成为参与者的,.,共同知识,,而其后尚未开始进行的部分就算是一个子,博弈.,定义,在有限重复博弈G(T)中,,由第(t+1)阶段开始,的一个子博弈为,G进行(T-t)次的重复博弈,,可表示为,由第(t+1)阶段开始有许多子博弈,到t阶段为,止的每一可能的进行过程之后都是不同的子博弈.,在无,限博弈中,,由(t+1)阶段开始的每一个子博弈都,和在有限情况下相似,博弈,等同于初始博弈,到t阶段为止有多少不同的可能进行过程,就,有多少从(t+1)阶段开始的子博弈.,注意:,重复博弈的第t阶段本身(在有限情况下假定,并不是整个博弈的一个子博弈.,定义(塞尔滕Selten,1965),则称纳什均衡是子,如果参与者的战略在,每一个子博弈中都构成纳什均衡,,.,博弈精炼的.,下面证明无限重复囚徒困境中的“触发战略”纳什,均衡是子博弈精炼的,,只须证明,“触发战略”在此无限,重复博弈中的每一个子博弈中都构成了纳什均衡.,注意:,无限重复博弈的每一个子博弈,都等同于原,博弈.,在无限重复囚徒困境中的“触发战略”纳什均衡,中,这些子博弈可分为两类:,一类是:,所有以前阶段,的结果都是,的子博弈,,二类是:,至少有一个前,面阶段的结果不是,的子博弈,,如果参与者在整,个博弈中采用“触发战略”,,对于一类,,已经证明“触发,战略”是整体博弈的纳什均衡,,对于二类,,参与者的战,略只是单纯重复阶段博弈的均衡,它同样是整个,博弈的纳什均衡.,从而得证.,.,无限重复囚徒困境中的“一报还一报”(TakeforLit),战略也是子博弈精炼的纳什均衡.,尽管囚徒困境有唯一的纳什均衡,,但在无限重复,下,,却不止一个子博弈精炼的纳什均衡.,“一报还一报”战略:,参与者i:第一阶段选择合作(即,在,Ri),且在第,的任意阶段选择的阶段战略等于对手,阶段选择的阶段战略.,通俗地说,,如果参与者j在,上一阶段选择合作,,那么参与者i在当前阶段选择合作,,如果参与者j在上一阶段选择不合作,,那么参与者i在当,前阶段选择不合作,,要使参与者i重新选择合作,,除非参,与者j在上一阶段自动接受一次惩罚,,即在明知参与者i,选择不合作的情况下,,参与者j仍然选择合作.,“一报还一报战略”和“触发战略”相比,,最大的不同,.,是先对最先不合作者进行惩罚,,然后原谅(如果不合作,者主动选择合作),,最先不合作者对对方进行补偿(在对,手选择合作下,他有一次选择不合作的机会).,在“触发战略”中,,惩罚会永远进行下去,,而且惩罚,对方者也受到了惩罚.,因而,,“一报还一报战略”比“触,发战略”,合理的多.,.,息静态博弈,令,定理(费里德曼,1971)令G为一个有限的完全信,表示G的一个纳什均衡下,的组合收益,且,表示G的其他任意可,行收益.,如果对每一个参与者i,有,且如果贴,现因子,足够接近于1,,则无限重复博弈,存在一,个子博弈精炼纳什均衡,,其平均收益可达到,和定理证明有关的几个概念:,第一,,如果,是阶段博弈G的纯战略收,益的凸组合(convexcombination),,则称一组收益,为阶段博弈G的可行收益.,凸组合的含义:,如,其中,则称,是,.,的凸组合.,图2.37中阴影区域,为囚徒困境的可行收益,集合.,如纯战略下的收益,都是可行收益.,其它可行,收益,如,的凸,组合,也是可行收益,,其中,各种可能的可行收益向量,一般地,,是,纯战略下所有收益的所有凸组合.,.,第二,,参与者收益的平均收益.,平均收益是指为,得到相等收益的现值而在每一阶段都应该得到的等额,收益值.,令贴现因子为,设无限收益序列,和的现值为V,,如果每一阶段都能得到的收益为,则,现值为,因为,,定义,给定贴现因子,无限收益序列,的平均收益为,和现值相比平均收益的优点:,平均收益能够和阶段,收益直接比较.,和,使平均收益最大化就是使,.,现值最大化.,证明:,令,为G的纳什均衡,,纳什,均衡收益为,类似的,,令,为带来可行收益,的行动组合.,考虑参与者,在第一阶段选择,如果所有前面(t-1),则选择,否则选择,在第t阶段,,个阶段的结果都是,假设除参与者i之外的所有参与者都采用了这一触发,战略.,由于一旦某一阶段的结果不是,其,他参与者将永远选择,参与者i的最优反,i的如下触发战略(以下收益,理解为可,行收益),应为,一旦某一阶段的结果偏离了,就永远,.,令,为参与者i对偏离,的最优反,应,即,为下式的解,令,为参与者i从此偏离中得到的收益:,选择,选择,将会使当前阶段的收益为,但却将触发其,他参与人永远选择,对此参与者i的最优,选择为,于是未来每一阶段的收益都将是,这一收益,序列的现值为,.,(由于任何偏离都将触发其他参与者的相同反应,,只需,考虑,能带来最大收益的偏离就足够了).,另一方面,选,择,和,之间可以进行相同的选择.,令,表示参与者,i就此做出最优选择时各阶段博弈收益的现值(目前及,其后每一次面临这样选择时).,如果选择,或,是最优的,,则,如果选择,是最优的,则,再假设,为参与者i为偏离可能得到的最大收益,,那么,当且仅当下式成立选择,是最优的,.,或,对于所有的参与者,,采用触发战略是纳什均衡,,且仅当,当,注意,对每一个i一定有,所以,,对所有参与者也一定有,也就是说,,一定存在一个贴现因子,使得触发战略是纳,什均衡.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融合同财产保险合同格式3篇
- 典当股票质押合同(标准版)
- 建筑工程质量控制与验收方案
- 光伏系统智能监控与数据管理方案
- 城市污水管网管道沉降监测方案
- 施工期间噪音振动控制方案
- 2025山东潍坊市教育局所属学校第二批次招聘工作人员8人备考练习试题及答案解析
- 2025年甘肃省平凉市社会福利院招聘备考练习题库及答案解析
- 施工现场临时交通引导方案
- 2025天津宁河区公益性岗位招聘11人备考练习试题及答案解析
- 加油、加气、充电综合站项目可行性研究报告
- 塔机拆卸合同范本
- 2024-2025学年广东省深圳市南山区四年级(下)期末数学试卷
- 《煤矿安全规程(2025版)》知识培训
- 2025秋数学(新)人教五年级(上)第1课时 小数乘整数
- 半导体行业面试问题及答案解析
- 《数字技术应用基础模块》技工中职全套教学课件
- 房屋拆除专项施工方案(3篇)
- AutoCAD电气工程制图 课件 项目1 低压配电柜的绘制与识图
- 2025年小学生“学宪法、讲宪法”网络知识竞赛题库及答案
- 2025年银行考试-银行间本币市场交易员资格考试历年参考题库含答案解析(5套典型考题)
评论
0/150
提交评论