讲义8-不完全信息动态博弈(续2)――不完全信息重复博弈

上传人：我*** IP属地：贵州上传时间：2020-07-06 格式：PPT 页数：49 大小：128KB 积分：25 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第8讲不完全信息动态博弈（续2）不完全信息重复博弈,主讲人：张成科博士广东工业大学经济与贸易学院 ,管理博弈论（Management Game Theory),目录导航,一精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡二信号传递博弈及其应用举例不完全信息重复博弈,不完全信息重复博弈与声誉,KMRW声誉模型该模型首先是由Kreps（克瑞普斯）、Milgrom（米尔格罗姆）、Roberts（罗伯茨）和Wilsom（威尔荪）于1982年提出。它主要研究不完全信息静态博弈G经过有限次重复时，博弈人之间的合作行为特征。因此，有必要先回顾完

2、全信息静态博弈有限次重复的结论。,（一）完全信息重复博弈及其结论,零和博弈等博弈方的利益严格对立的博弈G的有限次重复，不会使各博弈人在某阶段的战略选择有所改变（即不会发生合作行为）。有唯一纯战略Nash均衡的博弈G，有限次重复G，不会使各博弈人在某阶段的战略选择有所改变（亦即不会发生合作行为）。特别地，有“连锁店悖论”。有多个纯战略Nash均衡的博弈G，有限次重复，有可能使各个博弈人通过选择象“触发战略”等形式，实现部分阶段的行为。,有限次重复描述方式：将博弈看成是一个特殊的T阶段完全信息动态博弈，然后用子博弈精练Nash均衡讨论。结论：,“连锁店悖论”(chain-store p

3、aradox),Selten (1978);,进入者,在位者,进入,不进入,默许,斗争,（40，50）,（-10，0）,（0，100）,逆向归纳,假定在位者有20个市场。直观告诉我们，如果进入者在第一个市场进入，在位者应该选择斗争，因为尽管从一个市场看，斗争是不值得的，但这样做可以遏止进入者在其他市场上的进入。唯一的精炼纳什均衡是：进入者总是进入；在位者总是默许。,完全信息重复博弈及其结论,零和博弈等博弈方的利益严格对立的博弈G的无限次重复，不会使各博弈人在某阶段的战略选择有所改变（即不会发生合作行为）。有纯战略Nash均衡的博弈G，无限次重复，有可能使各个博弈人通过选择象“触发战略”等形

4、式，在适当的贴现率水平下，实现部分阶段的行为。,无限次重复描述方式：将博弈看成是一个特殊的T=阶段完全信息动态博弈，然后用子博弈精练Nash均衡讨论。结论：,（二）不完全信息重复博弈情形,那么，这些结论，在不完全信息博弈G的重复博弈中，将会有什么样的变化呢？这正是本节要研究的。我们仅讨论G为不完全信息静态博弈时的情况，特别地，就以“囚徒困境”式博弈的不完全信息情况作为主要的讨论对象。,描述方式：将T次重复博弈看成是一个特殊的具有T阶段不完全信息动态博弈，然后用精练贝叶斯Nash均衡的概念来讨论。,Axelrod 实验,Axelrod（1981）实验表明：即使在有限次博弈中，合作行为也频繁

5、出现。,问题在哪里？,一个可能的原因在于：我们前面假定不仅参与人的理性是共同知识，而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。可能性：逆向归纳方法的问题（理性共识）；信息不完全；正如我们前面讨论的谈判情况：如果信息是完全的，谈判一开始就达成协议，但现实中的谈判不是这样，原因在于信息不对称。,不完全信息,KMRW模型（1982）；如果参与人对其他参与人的效用函数和战略空间的信息不完全，即使博弈重复的次数是有限的，人们也有积极性建立一个合作的声誉(reputation)，合作会出现。以“囚徒困境”为例说明KMRW模型。,囚徒困境博弈完全信息时的模型,坦白C,抵赖D,

6、坦白C,抵赖D,-8，-8,0，-10,-10，0,-1，-1,A,B,在以下讨论中，坦白=背叛，抵赖=合作,单方不完全信息,假定有两个参与人，A和B，进行囚徒困境博弈。如下图。参与人A有两中可能的类型：(1)“非理性”型，概率为p。该类型参与人A只有一种战略，针锋相对战略或者称为grim strategy； (2)“理性”型，概率为（1-p）。该类型参与人A可以选择任何战略。参与人B有一种类型：理性型。,对“非理性”的解释,“非理性囚徒”：是对具有上面行为特征的另一类囚徒的概括；可以理解为讲义气、重信誉的人；内在化了声誉(reciprocity) 社会规范的人；并不是指他的行为是

7、不追求效用最大化，而是说他有一种特殊的成本函数或效用函数；使他更注重讲义气重声誉。,“理性囚徒”：是指“机会主义者”或者非合作型参与人，是对完全信息情形下“囚徒”及其行为的一个简单化概括。,不完全信息囚徒困境重复博弈的顺序,重复博弈的顺序如下：自然首先选择囚徒A的类型；囚徒A知道自己的类型，囚徒B只知道囚徒A属于理性的概率为1-p，非理性的概率为p. 两个囚徒进行第一阶段博弈；观测到第一阶段博弈结果后，进行第二阶段博弈；观测到第二阶段的博弈结果后再进行第三阶段博弈；如此类推；两理性囚徒的支付是各个阶段博弈支付的贴现值之和（设贴现率为1）。,囚徒困境博弈,坦白C,抵赖D,坦白C,抵赖D,-

8、8，-8,0，-10,-10，0,-1，-1,A,B,在以下讨论中，坦白=背叛，抵赖=合作,两次重复囚徒困境博弈情形,假设非理性囚徒A只采用一种战略（称为针锋相对战略）：开始选择D，然后在t阶段选择囚徒B在t-1阶段的选择（即“你背叛我就背叛，你合作我就合作”）。此时，我们只需考察囚徒B在第一阶段的选择x，该x将影响囚徒A在第二阶段的选择。各选择情况如下表：,两次重复囚徒困境博弈情形,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),背叛D,X,坦白C,坦白C,X,坦白C,囚徒B的期望支付情况,若参与人B在第1阶段的行动X=D，其两阶段的期望支付总合为： U2D=p(-1)

9、+(1-p) (-10)+p0+(1-p) (-8)=17p-18 t=1时 t=2时同理若参与人B在第1阶段的行动X=C，其两阶段期望支付总和为： U2C=p0+(1-p) (-8)+p(-8)+(1-p) (-8)=8p-16 t=1时 t=2时,两次重复时的结论,显然，当U2DU2c时，即 17p-18 8p-16 亦即p 2/9时，囚徒B将选择X=D. 结论：如果囚徒A属于非理性的概率p 2/9，囚徒B将在第一阶段选择抵赖(D)，即合作行为发生。,博弈重复3次(T=3),t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作D,X,X=？(D),坦白C,X,Y,t

10、=3,Y,坦白C,设非理性囚徒A仍只采用“针锋相对战略”，且p 2/9，此时，各个博弈人的战略选择可归纳成上表。,表 4.7,坦白C,参与人A（理性）的选择,可见，如果理性囚徒A和囚徒B在第一阶段选择X=D，那么后续阶段与T=2时相同。,表 4.8,参与人A（理性）的选择,下面我们推导上表（表4-8）是精练Bayes Nash均衡的条件：由于假设非理性囚徒A只采用“针锋相对战略”，故囚徒B修正其先验概率为后验概率的规则是：若在t=1阶段，观测到囚徒A的选择为C，则修正p为P=0，否则P=p。,共同知识,参与人A（理性）的选择,首先考虑理性囚徒A在第一阶段的战略。理性囚徒A选择D是最优的（即

11、不让囚徒B区别自己的真实身份）。证明如下：给定囚徒B在第一阶段的选择D，则理性囚徒A在t=1阶段选择D的总期望效用为： V1D=(-1)+(0)+(-8)=-9 对应的战略分别为：理性囚徒A为(D,C,C) 囚徒B为(D,D,C),分离战略,参与人A（理性）的选择,若理性囚徒A在t=1第1阶段选择C，则囚徒B立即在t=2阶段判断出囚徒A的真实身份，从而囚徒B在t=2,3阶段将都选择C. 这样理性囚徒A也只有选择C；双方的战略分别为：理性囚徒A(C,C,C) 囚徒B(D,C,C) 则理性囚徒A的总期望支付为： V1C=(0)+(-8)+(-8)=-16 所以理性囚徒A在第一阶段选择合作是最

12、优的。从而没有兴趣单方面偏离表4.8,参与人B（囚徒2）的选择,囚徒B有四种战略：（合作，合作，背叛）=(D,D,C)；（背叛，合作，背叛）=(C,D,C) ；（背叛，背叛，背叛）=(C,C,C)；（合作，背叛，背叛）=(D,C,C)。但是根据在两次重复博弈的讨论，囚徒B的战略(D,C,C)显然不是最优的，故只需考虑前三种。,其次考虑囚徒B的战略：,给定理性囚徒1在第一阶段选择D（总战略为(D,C,C)），囚徒2选择(D,D,C)的总期望支付为： U2(D,D,C)=-1+p(-1)+(1-p) (-10)+p 0+(1-p) (-8)=17p-19 t=1 t=2 t=3 如果囚徒

13、2选择(C,C,C)，则整个三阶段重复博弈的路径变为：,考察囚徒B的战略（D，D，C）,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作D,X=C,合作D,背叛C,X=C,X=C,t=3,X=C,背叛C,背叛C,U2(C,C,C)=0+-8+-8=-16,考察囚徒2的战略（D，D，C）,因此只要U2(D,D,C) U2(C,C,C)，即 17p-19 -16 亦即 p 3/17 则囚徒2选择(D,D,C)优于(C,C,C)。同理若囚徒2选择(C,D,C)，则整个三阶段重复博弈的路径变为：,考察囚徒2的战略（D，D，C）,t=1,t=2,A,非理性(p),理性型(1-

14、p),B （理性型),D,C,D,C,C,D,t=3,D,C,C,此时，U2(C,D,C)=0+-10+p0+(1-p) (-8)=8p-18,考察囚徒2的战略（C，D，C）,因此只要U2(D,D,C) U2(C,D,C)，即 17p-19 8p-18 亦即 p 1/9 则囚徒2选择(D,D,C)优于(C,D,C)。由于假定了p 2/9，故p 3/17和p 1/9都成立。这说明，给定理性囚徒1的战略(D,C,C)情况下，囚徒2的最优选择为(D,D,C)。亦即没有兴趣单独偏离表4.8。,考察囚徒2的战略（D，D，C）,综合以上分析，只要囚徒A是非理性的概率p 2/9，表4.8所示的战略组合就

15、是一个精练Bayes Nash均衡。,关于囚徒2的战略（D，D，C）的结论,（五）结论1,1. 只要囚徒A是非理性的概率p 2/9，下表所列战略组合是一个精炼纳什均衡：非理性囚徒A采用“针锋相对战略”，理性型囚徒A采用(D，C，C)，即在第1阶段选择合作，然后在第2和第3阶段选择背叛；囚徒2采用(D，D，C)，即在第1和第2阶段选择合作，然后在第3阶段背叛。,（五）结论2,2. 可以进一步证明，如果p 2/9, 对于所有T3，下表所列战略组合是一个精炼纳什均衡：非理性囚徒1采用“针锋相对战略”，理性型囚徒1在t=1至t=T-2阶段一直选择合作，然后在第t=T-1和t=T阶段选择背叛；

16、囚徒2采用在t=1至t=T-1阶段选择合作，然后在t=T阶段背叛。,非合作阶段的总数量等于2，与T无关。背叛只在最后两阶段出现。,（五）结论3-4,3. 如果p0的概率是非理性的）。则不论p多么小，只要重复的次数足够多，合作均衡就会出现。,下面举例说明结论4：,（五）举例说明结论4,假定：非理性囚徒选择触发战略（“冷酷战略”）：（1）开始选择D；（2）若在t阶段对方选择C，则从t+1阶段开始一直选C直到T阶段（即绝不原谅对方的任何背信弃义行为）。则Bayes法则推断后验概率就可以归结为：任何囚徒若在t=1阶段选择C，就将让对方识别为理性的囚徒身份。,（五）举例说明结论4,下面我们证明

17、：只要T足够大，对理性囚徒而言，在t=1选择C不是最优的。以囚徒1为例：如果他是理性的，且在t=1阶段选择C，则囚徒2将在第二阶段后识别他的身份。这样，博弈的可能路径是：,t=1,t=2,囚徒2,非理性(p),理性型(1-p),囚徒1 （理性型),D,C,D或C,C,C,C,t=3, ,C,C,C,此时，理性囚徒1的最大期望总支付为： u1C=0+-8+.+-8=-8(T-1),（五）举例说明结论4,（五）举例说明结论4,下面考虑：如果囚徒1是理性的，但他在t=1阶段不选择C，比如他冒充非理性的，选择“冷酷战略”，结果会怎样呢？当囚徒2是非理性的（概率为p），则博弈的路径为：,t=1,

18、t=2.,理性型囚徒1冒充非理性,非理性囚徒2 （选择冷酷战略）,D,D.,D,D.,t=T,D,D,举例比较说明,此时，u1冷=(-1)+(-1)+.(-1)=-T,t=1,t=2.,理性型囚徒1冒充非理性,理性囚徒2,D,C.,C,C.,t=T,C,C,举例比较说明,当囚徒2是理性的（概率为1-p），则博弈的路径为：,此时，u1冷=(-10)+(-8)+.(-8)=-8T-2,举例比较说明,故理性囚徒1使用“冷酷战略”的总期望支付为： U1冷=p(-T)+(1-p) (-8T-2) 因此，若 p(-T)+(1-p) (-8T-2)-8(T-1) 即 T(3-2p)/7p 理性囚徒1使用“冷酷战略”比一开始就选择C更优。从而说明理性囚徒1一开始就选择C不是最优的。,双方不完全信息的举例讨论,令T*=(3-2p)/7p，则T*随p值减小而递增。如p=0.1时， T*=4 p=0.05时， T*=9（取整后）。但无论p多么小，只要p0，总存在这样的T*，使当T T*时，理性囚徒在t=1选择C不是最优的。一般地，有如下KMRW定理。,KMRW定理,在T阶段重复囚徒博弈中，如果每个囚徒都有p0的概率是非理性的，且T足够大，那么总存在T0T0阶段选择C（即不合作）。并且，非合

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

讲义8-不完全信息动态博弈(续2)――不完全信息重复博弈

文档简介

温馨提示

最新文档

评论

讲义8-不完全信息动态博弈(续2)――不完全信息重复博弈

文档简介

温馨提示

最新文档

评论

相关文档