博弈论非常好的讲解

上传人：为*** IP属地：贵州上传时间：2020-06-29 格式：PPT 页数：308 大小：1.75MB 积分：30 举报 版权申诉

已阅读5页，还剩303页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、博弈论与信息经济学 Game Theory and Economics of Information,博弈论基本思想,人们在日常生活中进行着博弈，与配偶，朋友，陌生人，老板/员工，教授等。类似的博弈也在商业活动、政治和外交事务、战争中进行着在任何一种情况下，人们相互影响以达成彼此有利的协议或者解决争端。博弈论为众多学科提供了分析的概念和方法：经济学和商学,政治科学,生物学, 心理学和哲学。,如何在“博弈”中获胜？,日常生活中的博弈（“游戏”）往往指的是诸如赌博和运动这样的东西：赌抛硬币百米赛跑打网球/橄榄球 How can you win such games? 许多博弈都包含着运气

2、、技术和策略。策略是为了获胜所需要的一种智力的技巧。它是对于如何最好地利用身体（物质）的技巧的一种算计。,什么是策略博弈？ What is a Game of Strategy?,策略思考本质上涉及到与他人的相互影响。其他人在同一时间、对同一情形也在进行类似的思考。博弈论就是用来分析这样交互式的决策的。理性的行为指的是：明白自己的目的和偏好，同时了解自己行动的限制和约束，然后以精心策划的方式选择自己的行为，按照自己的标准做到最好。博弈论对理性的行为又从新的角度赋予其新的含义与其他同样具有理性的决策者进行相互作用。博弈论是关于相互作用情况下的理性行为的科学。,如何在博弈中获胜？, 真的

3、能在博弈中（总是）获胜吗？对手和你一样聪明！许多博弈相当复杂，博弈论并不能提供万无一失的应对办法。,例1：无谓竞争（The GPA Rat Race）,你所注册的一门课程按照比例来给分：无论卷面分数是多少，只有40的人能够得优秀，40的人能得良好。所有学生达成一个协议，大家都不要太用功，如何？想法不错，但无法实施!稍加努力即可胜过他人，诱惑大矣。问题是，大家都这么做。这样一来，所有人的成绩都不比大家遵守协议来得高。而且，大家还付出了更多的功夫。正因为这样的博弈对所有参与者存在着或大或小的潜在成本，如何达成和维护互利的合作就成为一个值得探究的重要问题。存在双赢的博弈吗？,例2：焦点博

4、弈 “We Cant Take the Exam, Because We Had a Flat Tire”,两个学生想要推迟考试，谎称由于返校途中轮胎漏气，未能很好地备考。教授分别对他们提出了问题：“哪个轮胎漏气?”如何应答？他们本应该预计到教授的招数，提前准备好答案。在博弈中，参与者应该向前看到未来的行动，然后通过向后推理，推算出目前的最佳行动。如果双方都没有准备，他能够独立地编出一个相互一致的谎言吗？,例2：焦点博弈 “We Cant Take the Exam, Because We Had a Flat Tire”,“乘客侧前轮”看起来是一个合乎逻辑的选择。但真正起作用的是你

5、的朋友是否使用同样的逻辑，或者认为这一选择同样显然。并且是否你认为这一选择是否对他同样显然；反之，是否她认为这一选择对你同样显然。以此类推。也就是说，需要的是对这样的情况下该选什么的预期的收敛。这一使得参与者能够成功合作的共同预期的策略被称为焦点。心有灵犀一点通。,例2：焦点博弈 “We Cant Take the Exam, Because We Had a Flat Tire”,我们无法从所有这样的博弈的结构中找到一般和本质的东西，来保证这样的收敛。某些博弈中，由于偶然的外因可以对策略贴标签，或者参与者之间拥有某些共同的知识体验，导致了焦点的存在。没有某个这样的暗示，默契的合作就完全

6、不可能。,例3：为什么教授如此苛刻？,许多教授强硬地规定，不进行补考，不允许迟交作业或论文。教授们为何如此苛刻？如果允许某种迟交，而且教授又不能辨别真伪，那么学生就总是会迟交。期限本身就毫无意义了。避免这一“滑梯”通常只有一种办法，就是“没有例外”的策略。,例3：为什么教授如此苛刻？,问题是，一个好心肠的教授如何维持如此铁石心肠的承诺？他必须找到某种使拒绝变得强硬和可信的方法。拿行政程序或者学校政策来做挡箭牌在课程开始时做出明确和严格的宣布通过几次严打来获得“冷面杀手”的声誉,导论,博弈均衡与一般均衡博弈论与诺贝尔经济学奖获得者博弈论的基本概念与类型主要参考文献,导论,一

7、、博弈均衡与一般均衡,案例：囚犯困境,支付,嫌疑人B,嫌疑人A,与传统微观经济学的比较,一致性利益最大化原则均衡原则不一致人与人之间的关系-个人理性导致集体非理性-设计协调性机制-满足个人理性前提下达到集体理性信息不完全-委托-代理理论、信号传递与信息筛选模型,导论,二、博弈论与诺贝尔经济学奖获得者,1994年诺贝尔经济学奖获得者,美国人约翰-海萨尼(John C. Harsanyi) 和美国人约翰-纳什(John F. Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten) 获奖理由：在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重

8、大影响。,约翰纳什 1928年生于美国,约翰海萨尼 1920年生于美国,莱因哈德泽尔腾，1930年生于德国,1996年诺贝尔经济学奖获得者,英国人詹姆斯莫里斯 (James A. Mirrlees)和美国人威廉-维克瑞(William Vickrey) 获奖理由：前者在信息经济学理论领域做出了重大贡献，尤其是不对称信息条件下的经济激励理论的论述；后者在信息经济学、激励理论、博弈论等方面都做出了重大贡献。,詹姆斯莫里斯 1936年生于英国,威廉维克瑞，1914-1996，生于美国,2001年诺贝尔经济学奖获得者,三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭

9、斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz) 获奖理由：在“对充满不对称信息市场进行分析”领域做出了重要贡献。,2005年诺贝尔经济学奖获得者,以罗伯特奥曼色列经济学家罗伯特奥曼（Robert J. Aumann）和美国经济学家托马斯谢林（Thomas C. Schelling）获奖原因：“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。,导论,三、博弈论的基本类型,合作博弈与非合作博弈,合作博弈（cooperative game）达成有约束力的协议（binding agreement），强调团体理性，强调效率、公正、

10、公平非合作博弈（non-cooperative game）强调个人理性，其结果可能有效率，也可能无效率。,非合作博弈的基本分类,静态博弈与动态博弈 (static games and dynamic games),同时决策或者同时行动的博弈属于静态博弈；先后或序贯决策或者行动的博弈，属于动态博弈即使决策或行动有先后，但只要局中人在决策时都还不知道对手的决策或者行动是什么，也算是静态博弈,完全信息博弈与不完全信息博弈 (games of complete information and games of incomplete information),按照大家是否清楚对局情况下每个局中人的

11、得益。 “各种对局情况下每个人的得益是多少” 是所有局中人的共同知识（common knowledge）。据“共同知识”的掌握分为完全信息与不完全信息博弈。,完美信息博弈与不完美信息博弈 (games with perfect information and games with imperfect information),是关于动态博弈进行过程之中面临决策或者行动的参与人对于博弈进行迄今的历史是否清楚的一种刻划。如果在博弈进行过程中的每一时刻，面临决策或者行动的参与人，对于博弈进行到这个时刻为止所有参与人曾经采取的决策或者行动完全清楚，则称为完美信息博弈；否则位不完美信息。,零和博弈与

12、非零和博弈 (zero-sum game and non-zero-sum game),如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为零，这个博弈就叫零和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为零，这个博弈就叫非零和博弈。零和博弈是利益对抗程度最高的博弈。,常和博弈与非常和博弈（constant-sum game and variable-sum game）,如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为一个常数，这个博弈就叫常和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为一个常数，这个博弈就叫非常和博

13、弈。常和博弈也是利益对抗程度最高的博弈。非常和（变和）博弈蕴含双赢或多赢。,导论,四、主要参考文献,张维迎著，博弈论与信息经济学，上海三联书店、上海人民出版社，1996年版。 Roger B. Myerson著：Game Theory（原文版、译文版），中国经济出版社，2001年版。王则柯、李杰编著，博弈论教程，中国人民大学出版社，2004年版。艾里克.拉斯缪森（Eric Rasmusen）著，博弈与信息：博弈论概论，北京大学出版社，2003年版。因内思马可-斯达德勒,J.大卫佩雷斯-卡斯特里罗著，信息经济学引论：激励与合约,上海财经大学出版社，2004年版。施锡铨编著，博弈论上海

14、财大出版社，2000年版。谢识予编著，经济博弈论，复旦大学出版社，2002年版。谢识予主编，经济博弈论习题指南，复旦大学出版社，2003年版。,课程主要内容,第一章完全信息静态博弈第二章完全信息动态博弈第三章不完全信息静态博弈第四章不完全信息动态博弈第五章委托-代理理论第六章逆向选择与信号传递,第一章完全信息静态博弈,博弈论的基本概念及战略式表述纳什均衡纳什均衡应用举例混合战略纳什均衡纳什均衡的存在性与多重性,第一节博弈论的基本概念与战略式表述,博弈论的基本概念与战略式表述,博弈论（game theory）是研究决策主体的行为发生直接相互作用时候的决策以

15、及这种决策的均衡问题。博弈的战略式表述：G=N,(Si)iN,(Ui)iN 有三个基本要素：（1）参与人（players）iN=1,2,n ；（2）战略（strategies）,siSi(战略空间)；（3）支付（payoffs）,ui=ui(s-i,si)。,案例1：囚犯困境,支付,嫌疑人B,嫌疑人A,均衡与均衡结果,均衡战略（坦白，坦白）均衡支付（-6，-6）,第二节纳什均衡,占优战略均衡重复剔除的占优战略均衡纳什均衡,完全信息静态博弈的几点特性,同时出招，出招一次；知道博弈结构与游戏规则（共同知识）；不管是否沟通过，无法做出有约束力的承诺（非合作）,一、占优战略均衡,

16、占优战略：不管对手战略为何，该参与人可找到一最佳战略。定义：在博弈G=N,(Si)iN,(Ui)iN中，如果对所有的参与人i,si*是它的占优战略，那么所有参与人选择的战略组合（s1*,sn*）成为该对策的占优战略均衡。,案例1：囚犯困境,支付,嫌疑人B,嫌疑人A,“囚犯困境” 的扩展,两个寡头企业选择产量公共产品的供给军备竞赛经济改革结论：一种制度安排，要发生效力。必须是一种纳什均衡；否则，制度安排便不能成立。,价格大战,支付,百事可乐,可口可乐,案例2：智猪博弈,猪圈里圈两头猪，一头大猪，一头小猪。猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有10个

17、单位的猪食进槽，但谁按按钮谁就要付出2个单位的成本。若大猪先到，大猪吃到9个单位，小猪只能吃1个单位；若同时到，大猪吃7个单位，小猪吃3个单位；若小猪先到，大猪吃6个单位，小猪吃4个单位。支付如表。,案例2：智猪博弈,支付,小猪,大猪,智猪博弈的扩展,股份公司承担监督经理职能的大股东与小股东股票市场上炒股票的大户与小户市场中大企业与小企业在研发、广告上的博弈公共产品的提供（富户与穷户）改革中不同利益分配对改革的推动,二、重复剔除的占优战略均衡,绝对劣势战略：si是一绝对劣势战略当且仅当存在另一战略siSi使得ui(si,s-i) w(S)+E-S,参与约束：,参与约束,委托人的选择,数

18、值例子,E=2, S=1, W(E)=4, w(S)=2,有不确定性但可监督的委托人代理人博弈,偷懒：委托： 0.1*20-w(S) +0.9*10-w(S)0 不委托： 0.1*20-w(S) +0.9*10-w(S)0 不委托： 0.9*20-w(E)+0.1*10-w(E)0.1*w(20)-S+0.9*w(10-S),接受： 0.9*w(20)-E+0.1*w(10)-E0,委托： 0.9*20-w(20)+0.1*10-w(10)0,激励相容约束,促使代理人努力的激励相容约束、参与约束，以及委托人选择委托的条件,参与约束,对于委托人来说，就是要根据上述两个条件，以及 E、S的值，选

19、择最佳的工资水平w(20)和w(10)，或者它们的差额w(20)-w(10),第四节重复博弈和无名氏定理,有限次重复博弈：连锁店悖论无限次重复博弈和无名氏定理,一、有限次重复博弈,有限次重复博弈令G为阶段性博弈，G(T)是G重复T次的重复博弈（Tl0；工人也可以受雇后不干活，这不需任何劳动成本，同时创造的利润也是0。假设公司与工人在工程结束之前没有任何工资合同，它只是在雇用期满后才决定付给每个工人的工资额w。,作业2,如果该建筑公司在未来的10年内每年有一项相同的工程，证明：无论公司的利润贴现因子是多少，唯一的子博弈完美均衡是：在每一项工程中，无论工人是否干活，公司向工人付的工资额w都是

20、0；工人不干活。如果该建筑公司依次有无穷多个工程，而下一期工人又能看到以前的工资政策。证明：只要充分接近1，每一期工人都努力干获将是一个子博弈完美均衡战略。在所有子博弈完美均衡中，对公司最有利的是什么样的均衡？,第三章不完全信息静态博弈,不完全信息博弈和贝叶斯纳什均衡贝叶斯均衡的应用举例贝叶斯博弈与混合战略均衡机制设计理论与显示原理,第一节不完全信息博弈和贝叶斯均衡,一、不完全信息博弈,完全信息（complete information）每个局中人对其他局中人的特征（或类型）和支付函数有准确的了解；否则，为不完全信息（incomplete information ）。完美信

21、息（perfect information）在博弈过程的任何时点每个局中人都能观察并记忆之前各局中人所选择的行动，否则为不完美信息（imperfect information ）,高成本情况低成本情况默许斗争默许斗争,进入不进入,进入者,在位者,市场进入博弈：不完全信息,二、海萨尼（Harsanyi）转换,在位者存在不同类型，类似于与n个参与人博弈；海萨尼（1967-1968）提出，引入虚拟参与人自然，自然先决定参与人的特征，不完全信息博弈转换为不完美信息博弈不完全信息意味着至少有一个人有多个类型（type），即个人所拥有的非共同信息，用i表示参与人i的一个类型，分布函数p(1

22、,n)为共同知识。,海萨尼转换后的市场进入博弈,二、海萨尼转换,假设自然N按照一个先验的分布函数p(1,n)来选择各个局中人的类型，并且假设这是共同知识。记-i=(1,i-1,i+1,n)-i 局中人i不知道N对-i的选择结果，但由于他知道自己的类型i，它可以利用贝叶斯法则计算出条件分布函数，对其他局中人的类型进行估计：称pi(-ii)为局中人i对别的局中人类型的信念（belief）。在许多场合下，局中人的类型是彼此无关的，此时pi(-ii)就简化为pi(-i)。,三、不完全信息静态博弈的战略式表述,n人贝叶斯博弈的战略式表述为： G=N,S,P,U，其中参与人的类型空间为：1, n；

23、条件概率为：p1,pn；类型依存战略为：S1(1) ,S(n)；类型依存支付函数为：u1(s1,sn; 1), un(s1,sn; n) 给定参与人i知道自己的类型ii，条件概率pi=pi(-ii)描述给定自己属于i的情况下，参与人i有关其他参与人类型-i-i的不确定性。,静态贝叶斯博弈的时间顺序,自然选择类型向量=(1,n),其中ii,参与人i观测到i,但参与人j只知道pj(-jj),观测不到i N个参与人同时选择行动s=(s1,sn),其中siSi(j) 参与人i得到ui(s1,sn;j)。,海萨尼转换后的市场进入博弈,市场进入博弈均衡求解,当进入者选择进入的期望收益大于选择不进入的期

24、望收益时，进入者选择进入进入的期望收益：p*40+(1-p)*(-10)0，解得：p1/5，进入；p1/5时,s1*=进入,s2*(高成本)=默许当pzj+(1-zj)0=zj，即只有1-zjci，参与人才会提供。存在一个分割点（cutoff），使得cic,ci*时，参与人才会提供。求解ci*:1-ci*=cj*/2，1-cj*=ci*/2,求得ci*=cj*=2/3，即当只当cic*,参与人i提供。,三、一级密封价格拍卖（the first-price sealed auction）,当一件物品对买者的价值买者比卖者更清楚时，卖者一般不愿意首先提出价格，而常常采用拍卖的方式获得可能的

25、最高价格。一级密封价格拍卖是许多拍卖方式的一种，在这种拍卖中，投标人同时将自己的出价写下来转入一个信封，密封后交给拍卖人，拍卖人打开信封，出价最高者是赢者，按他的出价支付价格，拿走被拍卖的物品。,一级密封价格拍卖（一）,以两个人为例两个人对拍卖品分别有自己的主观判断，称其为对拍卖品的保留价格v，假设两人都不清楚对方的保留价格，只知道对方的保留价格为一均匀分布于0，1上的随机值。记局中人的最佳叫价为b(v)，由经验常识，假设函数b(v)严格单增是合适的，在此假设下，其反函数存在，记为V(b)，反映的是叫价为b的局中人真实的保留价格。,一级密封价格拍卖（二）,当某人叫价b时，获胜的概率当然是对

26、方叫价低于b的概率，或者等价地说，是对方的保留价格低于V(b)的概率由于局中人对该物品的保留价格是闭区间0，1上的均匀分布，这一概率就等于V(b)。所以，一个具有保留价格v、叫价b的竞价者的期望支付为： V(b)(v-b)+(1-V(b)0 从而他的目标是: max V(b)(v-b) 其一阶条件为：V(b)/(v-b)-V(b)=0, 即V(b)/(V(b)-b)-V(b)=0,一级密封价格拍卖（三）,等价于：V2(b)/2/=bV(b)/ 恒等式两端对b求不定积分得到：V2(b)/2=bV(b)+c 显然当某人对一个物品的保留价格是0时，它最优的叫价也是0，即V(0)=0，将这一初始条件带

27、入上式可求得c=0。从而V(b)=2b，或b=v/2 竞价者的最优战略是以自己保留价格的一半作为叫价。,一级密封价格拍卖（四）,如果有n人参与竞标，则b=(n-1)v/n，即b随n的增加而增加，特别地，当n时，bv，就是说，投标人越多，卖者能得到的价格就越高；当投标人趋于无穷时，卖者几乎得到买者价值的全部。因此，让更多的人加入竞标是卖者的利益所在。,第三节,贝叶斯均衡与混合战略均衡,贝叶斯均衡与混合战略,有不少人认为完全信息博弈中的混合战略均衡仅仅只是理论上的概念，但在现实生活中确实难以理解的。针对这一点，海萨尼（1973）对混合战略提出了另一种解释。其思想是，只要在原来的博弈中加入少许不

28、完全信息因素，得到（单纯战略）贝叶斯均衡就与完全信息下的混合战略均衡相似。,性别战,1-a/,“性别战”的重新构造,完全信息情况下的“性别战”加上不完全信息，想象两人还不十分了解，当双方都去看足球赛时男士得到的支付是4+1，双方都去听音乐会时女士得到的支付为4+2。两人知道自己的类型，但不清楚对方值的大小，只知道对方的值是均匀地分布在区间0,上的随机变量。如果男士的类型1不小于某一临界值a，他选择“足球”，否则选择“音乐会”；如果女士的类型2不小于某一临界值，她选择“音乐会”，否则选择“足球”。,“性别战”求解,男士选择足球的条件： b/(4+1)+(-b)/1b/0+(-b)/2 整理后得

29、到男士选“足球”的充要条件： 1/b-5=a 女士选择“音乐会”的充要条件是： 2/a-5=b 联立两个条件中的等式，解得 a=b= 在上述贝叶斯均衡中，两个局中人使用的都是单纯战略，因为不知道对方的类型，感觉面对的像是混合战略的博弈对手。如果令为0，男士选足球的概率(-a)/趋于4/5。但不完全信息消失时，贝叶斯均衡趋向于完全信息下的混合均衡。,第四节,机制设计原理与显示原理,一、机制设计（mechanism design）,机制设计是一种特殊的不完全信息博弈，委托人(principal)选择设计机制，给代理人足够的激励，促使代理人(agent)说实话（获取真实信息），也可以最大化委托人的期

30、望效用。委托人设计机制面临两个约束：（1）参与约束(participation constraint)或称个人理性约束(individual rationality constraint)：代理人在该机制下得到的期望效用不小于他在不接受这个机制时得到的最大期望效用。（2）激励相容约束(incentive-compatibility constraint)：代理人在所设计的机制下必须有积极性选择委托人希望他选择的的行动。,机制设计,满足参与约束的机制称为可行机制，满足激励相容约束的机制称为可实施机制，满足两个约束条件的机制称为可行的可实施机制。委托人的目的是选择一个可行的可实施机制以最大化

31、他的期望效用。典型的机制设计是一个三阶段不完全信息博弈：第一阶段：委托人设计机制，即博弈规则，代理人根据规则发出信号(message)，实现的信号决定配置结果(allocation)；第二阶段：代理人同时选择接受或不接受委托人设计的机制；第三阶段：接受机制的代理人根据机制的规定进行博弈。,机制设计案例,机制设计的案例有很多：拍卖、垄断企业定价、政府税收政策的制定、政府对垄断企业的规制、公共产品的供给、雇主对雇员职位的安排、保险公司的收费和赔偿政策等。,机制设计案例分析（一）,圣经上索罗门国王对孩子所有权的判定：两个代理人：A、B 私人信息：孩子对于A、B两人的价值分别为CA,CB 索罗门国

32、王的处置方式：将孩子切成两半 A、B两个人按照所罗门国王设计的机制采取行动：私人信息配置结果存在问题：代理人可以模仿其他人的反应。,机制设计案例分析（二）,King Econ game 采取处罚措施：让A先行动，如果放弃得0，如果向B挑战需要付出F。B如果接受A的选择，放弃孩子则得0，如果不放弃，向A挑战，则需要付出E。A再进入下一个迎接挑战的循环。,King Econ game,King Econ game,假设A是孩子的亲生母亲，则有CACB，B知道她如果要得到孩子，必须付出足够的E使得A放弃，即有-FCA-E-F，即ECA，则有CBCA-E-F，即ECA，这样就能找到E，使得CBECA

33、，得到A will give up in the 1st stage。,二、显示原理（revelation principal）,假定以Mi为信号空间和以ym(.)为配置函数的机制的贝叶斯均衡是：*(.)=1*(1),n*(n),i*Mi,i i 那么存在以Mi= I为信号空间的直接显示机制，该机制的贝叶斯均衡是，所有代理人在第二阶段接受机制，在第三阶段同时报告自己的真实类型=(1, n)。直接机制的均衡配置结果与原机制的均衡配置结果相同。,显示原理,显示原理肯定了对任何贝叶斯博弈的任何贝叶斯纳什均衡，都能设计出一种促使各博弈方“揭示”自己真实类型的直接机制来实现它。以暗标拍卖为例。设只有

34、两个投标人，他们的估价类型V1,V2都是0,1上的标准分布。说实话的直接机制是这样设计的：(1)两投标人同时声明V1/,V2/；(2)投标人中中标的概率为qi=V1/2，中标的价格为pi=V1/。由于Vi0,1，因此Vi/0,1，q1+q21。其中为代定参数，是决定投标人都说实话是否能成为贝叶斯纳什均衡的关键。,假定两投标人的声明是线性齐次的，具有：Vi/=aiVi的形式，则投标人i声明Vi/的期望收益为：对投标人i来讲，均衡条件是找出ai使期望收益最大其一阶条件为ai=/2 所谓说实话，即ai=1，Vi/=Vi 因此，当=2时，也就是中标价格为中标人声明估价（也是真实股价）的一半时，上述

35、直接机制使得两投标人都讲真话是贝叶斯纳什均衡,显示原理,厂商1,厂商2,支付,作业1,请用下面这个两市场博弈验证海萨尼关于混合策略和不完全信息博弈关系的结论。,参与人2 提供不提供,提供不提供,参与人1,作业2：公共物品的提供支付如下所示，成本为1，收益为私人信息，分别为v1,v2，其中v1,v2分别均匀分布于0.75,1.75，1,2区间上，求贝叶斯纳什均衡。,第四章不完全信息动态博弈,精炼贝叶斯纳什均衡信号传递博弈及其应用举例 KMRW声誉模型,第一节,精炼贝叶斯纳什均衡,一、不完全信息动态博弈特点,“自然”首先选择参与人的类型，参与人自己知道，其他参与人不知道；参与人开始行动，

36、后行动者能观测到先行动者的行动，但不能观测到先行动者的类型；后行动者通过观察先行动者所选择的行动来推断类型或修正对其类型的先验信念（概率分布），然后选择自己的最优行动；先行动者预测到自己的行动将被后行动者所利用，就会设法选择传递对自己最有利的信息，避免传递对自己不利的信息。,二、贝叶斯法则,先验概率(prior probability):修正之前的判断；后验概率(posterior probability)：修正之后的判断贝叶斯法则：假定参与人i有K个类型，有H个行动，用k和sh分别代表一个特定的类型和战略，假定i属于k的先验概率是p(k)0,p(k)=1,i选择sh的条件概率为p(sh

37、k),p(shk)=1。假如观测到i选择了sh,i属于类型k的后验概率Prob(ksh)有以下公式存在：,贝叶斯法则举例,假定现实中分为好人(1)和坏人(2)(type)，所有的事分为好事(s1)和坏事(s2)(strategy),那么一个人干好事的概率ps1就等于他是好人的概率p(1)（先验概率）乘以好人干好事的概率p(s11)，加上他是坏人的概率p(2)乘以坏人干好事p(s12)的概率，即ps1=p(s11)p(1)+p(s12)p(2)(边缘概率)。假定观测到一个人干了一件好事，那么这个人是好人的后验概率为：,贝叶斯法则举例,假设认为这个人是好人的先验概率为1/2，那么在观测到他干了

38、好事之后来修正他是好人的先验概率依赖于这件事好到什么程度。假设这件事非常好，好人一定干，坏人一定不干，则有p(s11)=1， p(s12)=0，那么后验概率Prob(1s1)=(1*1/2)/(1*1/2+0*1/2)=1 假设这是一件非常一般的好事，好人会干，坏人也会干，则有p(s11)=1, p(s12)=1,后验概率Prob(1s1)=(1*1/2)/(1*1/2+1*1/2)=1/2 假设介于上述两种之间，好人肯定会做，坏人可能做也可能不做，则有p(s11)=1, p(s12)=1/2，后验概率Prob(1s1)=(1*1/2)/(1*1/2+1/2*1/2)=2/3,三、精炼贝叶斯

39、均衡（PBNE）,PBNE是不完全信息动态均衡的基本均衡概念，是泽尔腾的完全信息动态博弈子博弈精炼纳什均衡（SPNE）和海萨尼的不完全信息静态博弈贝叶斯均衡（BNE）的结合。 BNE中，参与人的信念是事前给定的，均衡概念没有规定参与人如何修正自己的信念。 SPNE要求均衡战略不仅在整个博弈上构成纳什均衡，而且要求在每个子博弈上构成纳什均衡，剔除了那些包含不可置信威胁的战略。 PBNE要求，给定每一个参与人有关其他参与人类型的后验信念，参与人的战略组合在每一个后续博弈（continuation game，每一个信息集开始的博弈的剩余部分，不同于开始于单结信息集的子博弈）上构成贝叶斯均衡。,三、精

40、炼贝叶斯均衡（PBNE）,精炼贝叶斯均衡（ PBNE ）是贝叶斯均衡、子博弈精炼均衡和贝叶斯推断的结合。 PBNE要求：（1）在每一个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）；（2）给定该信息集上的概率分布和其他参与人的后续战略，参与人的行动必须是最优的；（3）每一个参与人根据贝叶斯法则和均衡战略修正后验概率。,精炼贝叶斯均衡的定义,精炼贝叶斯均衡是一个战略组合s*()=(s1*(1),sn*(n)和一个后验概率组合，满足：（P）对于所有的参与人i，在每一个信息集h，存在，或者说，参与人的战略是序贯理性的，即在每个参与人的信息集中，给定这个人的信念

41、以及其他参与人的战略，他在该信息集中的选择以及之后的行动是他在这些前提下的最优行动。（B）是使用贝叶斯法则从先验概率pi(-ii)，观测到的最优战略s*得到的。,精炼贝叶斯均衡定义的阐释,精炼贝叶斯均衡是均衡战略和均衡信念的结合：给定信念，战略s*=(s1*,sn*)是最优的；给定战略s*=(s1*,sn*)，信念是使用贝叶斯法则从均衡战略和所观测到的行动得到的。,四、精炼贝叶斯均衡求解,SPNE的缺点：有不完全信息、不完美信息时无法检验决策情境。在均衡中加入信念的好处：给定均衡状态，可检验每一种情境。求解方法: (1)确定均衡型态(s1,s2p1,p2) (2)给定信念，选择均

42、衡,例一：有哪些均衡？哪些均衡有问题？,A D,A D,a d a d,L R,纳什均衡(D,a,L)、(A,a,R),检验纳什均衡(D,a,L)、(A,a,R),当3选择L时，2的理性选择是d，而非a，排除(D,a,L),L: 4P+(1-P)0=4P R: P+(1-P)2=2-P If: p2/5，3选R,PBE:(A,a,R)+p 2/5,练习：有哪些均衡？哪些均衡有问题？,u d,u d,u d u d,u d,纳什均衡(d,u,u)、(u,u,d)、(u,d,d),检验(d,u,u)、(u,u,d)、(u,d,d),如果3选d,2的最佳选择是d,排除(u,u,d),PBE: (

43、u,d,d)+p1/2 PBE: (d,u,u)+pu1(m2,s*(m), 1) u1(m2,s*(m), 2)u1(m1,s*(m), 2) 后验概率为：,混同均衡（pooling equilibrium）,不同类型的发送者选择相同的信号，或者说，没有任何类型选择与其他类型不同的信号，因此，接收者不修正先验概率。假定mj是均衡战略，那么： u1(mj,s*(m), 1)u1(m,s*(m), 1) u1(mj,s*(m), 2) u1(m,s*(m), 2),例一：市场进入博弈,假定有两个时期，市场上一个垄断企业在生产，潜在的进入者考虑是否进入。如果进入，两个企业进行古诺博弈，否则在位者

44、仍是一个垄断者。在位者有两个类型，高成本与低成本，其概率分别为q,1-q（先验信念）。进入者只有一个类型，进入成本为2。如果进入，生产成本函数与高成本的在位者相同。如果是高成本，单阶段最优价格为p=6；如果是低成本，单阶段最优价格为p=5。,市场进入博弈,市场进入博弈求解（一）,单阶段最优垄断价格p=6(高成本)或p=5(低成本)，不是精炼贝叶斯均衡。如果进入者这样选择，则后验概率q(6)=1(选择p=6证明在位者是高成本),q(5)=0(选择p=5证明在位者是低成本) 给定后验概率，当观测到在位者选择p=6，进入者选择进入，在位者两期利润=7+3=10;而如果模仿低成本企业，选择p=5

45、,则得到两期利润=6+7=13。因此p=6不是高成本在位者的最优选择,市场进入博弈求解（二）,假定q1/2，得到混同均衡，两类在位者选择相同的价格给定进入者的后验概率和战略，如果高成本选择p=6，进入者进入，u1=7+3=10，如果选择p=5，进入者不进入，u1=6+7=13，p=5是高成本的最优选择；如果低成本选择p=5，u1=9+9=18，大于选择其他任何价格时的利润，p=5是低成本的最优选择。给定两类在位者都选择p=5，进入者不能从观测到的价格中得到任何新的信息，即后验概率q=1*q/(1*q+1*(1-q)=q1/2,（式中的1分别为高成本、低成本时在位者选择p=5的概率）进入的期

46、望利润q*1+(1-q)*(-1)0,不进入的期望利润为0，因此不进入是最优的。,市场进入博弈求解（三）,假定q1/2，得到分离均衡，两类在位者选择不同价格如果不同类型在位者选择相同的价格，进入者得不到新的信息，将选择进入，因为q*1+(1-q)*(-1)=2q-10。给定进入者一定会进入，在位者的最优选择是p=6(高成本)或p=5(低成本)，前面已经证明不是一个均衡。给定进入者的后验概率和战略，低成本在位者选择p=6(认为他是高成本，进入)，u1=8+5=13；选择p=5，进入者进入，u1=9+5=14；选择p=4，进入者不进入， u1=6+9=15，最优战略为p=4,进入者不进入。给

47、定进入者的后验概率和战略,高成本在位者选择p=4，进入者不进入,u1=2+7=9;选择p=5,进入者进入, u1=6+3=9;选择p=6,进入者进入,u1=7+3=10,因此p=6是最优的。,二、Education game,工人:U(e,w;)=w-e/,e为信息,w为工资,为劳动者的素质,其中高生产率者H的概率为P,低生产率者L的概率为1-P，=E 雇主:U(w,)=-w,(e):给定教育程度时能力的概率分布，如果雇主完全竞争，则工资就等于劳动者的期望工作能力，即w(e)=(He)* H+ (Le)* L 行动顺序为工人先选择e，雇主根据e支付w， PBE为何？,Education gam

48、e的解法（一）,均衡定义与分类: (eH,eL,(e) (1)Pooling: eH=eL;(2)Separating: eHeL(3)Hybrid Pooling: eH=eL=eP,，信念：(HeP) =P, (HeeP)=0 =w(e=eP)=p* H+(1-p)* L H: -ep/H L L: -ep/L L 当ep p L( H-L)时均衡成立。,Education game的解法（二）,Separating: eH eL,eL=0 信念：(HeH) =1, (HeL)=0, 假设：(HeeHoreL)=0 如果不等式左边代表e=eH, 不等式右边e=eL=0,则有 H: H-eH/H L（高生产率者选择eH） L: H-ep/L L (低生产率者选择eL) 当L( H-L) eHH( H-L)时均衡成立。,Education game的解法（三）,Hybrid (1) H: eH ; L: eH or eL(eL=0) 当pL( H-L) eHL( H-L)时可成立 (2) H: eH or e

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

博弈论非常好的讲解

文档简介

温馨提示

最新文档

评论

博弈论非常好的讲解

文档简介

温馨提示

最新文档

评论

相关文档