北大微观经济学chapter13.doc_第1页
北大微观经济学chapter13.doc_第2页
北大微观经济学chapter13.doc_第3页
北大微观经济学chapter13.doc_第4页
北大微观经济学chapter13.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三章 博弈论初步目前博弈论发展的非常深入,这里只是介绍一些初步知识。在四、五十年代,由冯诺依曼(Von Neumann)、摩根斯坦恩(Morgenstern)把对策论、运筹学引入经济学,形成了最早的博弈论。几时年来,博弈论在经济学中发挥着越来越大的重要作用,1994年的诺贝尔经济学奖就授予三位博弈论学家:纳什(Nash)、泽尔腾(Selten)和海萨尼(Harsanyi)。博弈论的英文是GAME THEORY,字面的意思是游戏策略,及用类似游戏中解决问题的方法,揭示解决社会、经济及其他领域问题的策略、对策,因此有的还把博弈论译成对策论。准确的说博弈论是在给定的条件下寻求最优策略,这里给定的条件包含其他人的策略以及本人的决策对其他决策主体的影响。策略性活动在社会、经济、政治生活中大量存在,也可以说,整个社会、经济、政治生活都是博弈行为。因此,博弈论作为一种方法,广泛的应用在经济、政治、军事、外交中,只是博弈论在经济学中应用的最广泛、最成功。如前面介绍过的古诺均衡、STACKELBERG均衡、CHAMBERLIN 均衡、BERTRAND 均衡、HOTELLING 均衡,都属于经济学中的博弈过程。第一节 基本概念一、 博弈论1定义:博弈论是描述、分析多人决策行为的一种决策理论,是多个经济主体在相互影响下的多元决策,决策的均衡结果取决于双方或多方的决策。如下棋,最后的结果就是由下棋双方你来我往轮流做出决策,决策又相互影响、相互作用而得出的结果。 2博弈论与优化理论的异同点 1)相同点:博弈论与优化理论都是在给定的条件下,寻求最优决策的过程; 2)不同点:A. 优化理论可以看成是单人决策,而博弈理论可以看成是多人决策。 在优先理论的决策过程中,影响结果的所有变量都控制在决策者自己手里;而在博弈论的决策过程中,影响结果的变量是由多个决策者操纵的。如企业在追求成本最小化、产量最大化、利润最大化的过程中总是假定外部条件给定,这实际上表明是一个优化问题,因为除了给定的外部条件外,剩下的因素都有决策者来控制,从而决策者自己就能控制决策的结果;如果外部条件不是给定的,而是有其他主体参与的过程,这时的决策过程就变成了一个博弈过程了,因为决策的最终结果不但取决于决策者本身,而且也取决于其他决策者的决策。B. 优化过程是一个确定的过程,而博弈过程是确定性和不确定性的统一。 优化过程是一个确定的过程,因为做出决策后,确定的结果就出来了。说博弈过程有确定性,是因为决策各方的决策做出后,每一方的收益就确定了;说博弈过程有不确定性,在于一方做出决策后,影响结果的变量还有众多的其他决策者,在不知道其他主体行为的情况下,结果就不确定。例如:在一次具体的战斗中,一方是否发起进攻,是一个决策。如果发起进攻,对方肯定有所反应,客观上讲,必然会有一个确定的结果存在,这是确定性的表现。但是最后的结果如何,取决于对方如何应对, 所以在发起进攻时,并不能知道结局是怎样的,这就是不确定性的表现。如果一方发起进攻后,另一方马上投降,则战斗结束;如果对方进行反攻,从理论上来讲,结果取决于双方实力以及双方收益的大小。由此可以看出博弈的广泛存在, 在现实生活中做出任何决策时,实际上都受到其他主体决策的影响并对我们做决策产生一定影响,决策的结果除了由我们自己决定外还要受到其他决策主体的影响,这实际上就是一个博弈过程。二、参与者(PLAYER) 参与博弈的利益主体叫做参与者。英文原意为玩主,也有译成局中人的。在二人博弈中,有两个参与者;在三人博弈中,有三个参与者;在多人博弈中,有多个参与者。三、策略和策略空间: 1策略: 在给定条件博弈中,参与者完整的一套行动计划叫做策略。例如我国古代著名的谋略故事“田忌赛马”中,国王的赛马计划是:先出上等马,再出中等马,最后出下等马;田忌的赛马计划是:先出下等马,再出上等马,最后出中等马。这里的赛马计划就是一套完整的行动计划,也就是一个策略。 2策略空间: 参与者可以选择的策略的全体就组成了策略空间。例如在“田忌赛马”中,共有六种行动方案可供选择:上中下(先出上等马,再出中等马,最后出下等马)、上下中、中上下、中下上、下上中、下中上。决策时田忌可以选择其中任何一个策略,在故事中,因为国王固定选择了上中下,所以田忌选择了下上中,从而赢得了比赛。任何一人策略的改变都将使结果也随之改变,比如国王选择了中下上,而田忌选择了下上中,则国王将赢得比赛。四、报酬函数与报酬矩阵: 1报酬函数: 每一个参与博弈的参与者,他的收益依附于各个参与者所出的策略,这种收益与策略的依附关系就构成了报酬函数。也就是说,第i个参与者的收益取决于所有参与者的策略,而不仅仅是自己的策略,表示成数学式子就是:Ri=Ri(S1,S2,。Sn)。其中Ri表示第i个参与者的收益,Si (i=1。n) 表示第i个参与者所出的策略。 2报酬矩阵: 参与博弈的多个参与者的报酬可以用一个矩阵或框图表示,这样的矩阵或框图就叫做报酬矩阵。例如有甲乙两个供货商组成一个价格卡特尔,双方都有选择遵守约定价格或者违反约定价格的权利。报酬矩阵如下图所示:乙守约违约甲守约8,86,10违约10,67,7 图 13-1 矩阵中每组数字中的前一个数字表示甲的收益,后一个数字表示乙的收益。当甲守约时,乙如果守约,收益为8,乙如果违约,收益为10;当甲违约时,乙如果守约,收益为6,乙如果违约,收益为7。所以,当甲守约时,乙会选择违约(108);当甲违约时,乙也会选择违约(76)。反之不管乙如何选择,甲都会选择违约,最终的结果是双方都选择违约。报酬矩阵改变,就会影响到双方的决策。例如双方的报酬矩阵变成下图所示:乙守约违约甲守约12,122,10违约10,2-4,-4 图 13-2 此时双方可能都选择守约,因为当甲守约时,乙会选择守约(1210);当甲违约时,乙也会选择守约(2-4)。反之不管乙如何选择,甲都会选择守约,最终的结果是双方都选择守约。 博弈过程参与者的决策行为要受到博弈规则的影响,即博弈规则的变化会改变报酬矩阵中的报酬值。比如在图 13-1中,由于卡特尔中的每一个供货商都追求自身利益的最大化,并且没有措施来保证遵守价格约定,双方表面上可能都信誓旦旦的承诺守约,但是实际中双方会违约。如果卡特尔追求整体利益的最大化,并且由于历史、政治、制度、惩罚等措施来保证遵守价格约定,双方就可能和平共处,遵守价格约定。在历次中东战争中,由于民族宗教原因,OPEC石油的产量和价格都得到了严格的执行。五、均衡及博弈的解: 当博弈的所有参与者都不想改换策略时所达到的稳定状态叫做均衡,均衡的结果叫做博弈的解。比如图13-1中甲乙两个供货商组成的卡特尔。不管甲如何选择,乙必然选择违约,同样不论乙如何选择,甲必然选择违约。最终双方都选择了违约,并且只要给定的条件不变,双方就都不会改变策略,结果非常稳定,达成均衡。在这个均衡中,不管甲如何选择,乙都不会改变策略,同样无论乙如何选择,甲也不会改变策略,这种均衡就叫做占优均衡。这种无论对方如何决策,自己总是会选择的策略叫做占优策略,由双方的占优策略所达成的均衡叫做占优均衡。比如,在学校中,学生平时学习可能是非常努力也可能是非常懒散;老师可能把考试题出的很难,也可能出的很容易。从博弈论的角度,这里的老师和学生就构成了一个博弈,双方的报酬矩阵如下:老师出考题难易学生努力90,85100,90学习懒散50,6090,70 图 13-3 由于老师出难题比出容易题要花费更多的时间和精力,所以收益较低,从而无论学生平时努力程度如何,老师一定选择出容易的题;由于学生只要努力学习就会取得更好的成绩,所以无论老师所出考题难度如何,学生一定会选择努力学习,这同样构成一个占优均衡。经常遇到的还有一种均衡,是有条件的均衡叫做纳什均衡。简单的说就是敌变我变、敌不变我亦不变。在后面第二节中将详细介绍纳什均衡。 作业:改造图 13-3 中师生博弈的报酬函数,构造出纳什均衡。六、囚犯两难困境:prisoners dilemma 囚犯两难困境是博弈论中一个著名的例子,讲的是甲乙两名嫌疑犯作案后被警察抓住,分别被关在不同的屋子里受审,双方不能互通消息,每名嫌疑犯都面临坦白和不坦白两种选择。警察告诉他们:在两人都坦白的情况下,各判刑10年;在两人都不坦白的情况下,各判刑3年;在一人坦白另一人不坦白的情况下,坦白的一方会被从轻处罚,只被判刑1年,不坦白的一方则被重判15年。可以根据坦白后是否会受到制裁两种情况来讨论最终的均衡结果。1. 坦白后不会受到制裁时的情况: 此时,双方收益矩阵如下:乙不坦白坦白甲不坦白-3,-3-1,-15坦白-1,-15-10,-10 图 13-4 如图,在乙不坦白的情况下,如果甲坦白,甲会被从轻处罚,只被判刑1年,乙被重判15年;如果甲也不坦白,由于证据不足,甲乙都只会被判刑3年。在乙坦白的情况下,如果甲也坦白,甲乙会被判刑10年;如果甲不坦白,乙会被从轻处罚,只被判刑1年,甲则被重判15年。可见,在乙不坦白的情况下,甲最好是坦白,从而可以被从轻处罚;在乙坦白的情况下,因为被判刑10年总比15年要好,甲最好也是坦白,所以甲会选择坦白。同理,无论甲如何选择,乙的最好选择也是坦白。结果双方都选择坦白,都被判刑10年。可见,我国公安机关“坦白从宽,抗拒从严”的心理攻势在大多数情况下都是可以奏效的。囚犯两难困境说明个人的理性可能导致集体结果的不妙。在现实社会中,人人都追求完美反而可能会导致社会变得很糟糕。2. 坦白后会受到制裁时的情况:博弈论的一个重要思想就是规则改变报酬矩阵,改变了报酬矩阵就会影响到行为方式。如果犯罪组织有着严格的惩罚制度,任何一个罪犯坦白后,不论坦白的事情严重与否,犯罪组织一定会杀人灭口,并且总是能迅速做到。这个规则将改变报酬矩阵,新的报酬矩阵如下图所示:乙不坦白坦白甲不坦白-3,-3-,-15坦白-,-15-,- 图 13-5 由于坦白后将被灭口,所以收益将是- 。在乙不坦白的情况下,甲最好是不坦白;在乙坦白的情况下,因为被判刑15年总比死去要好,甲最好也是不坦白,所以甲会选择不坦白。同理,无论甲如何选择,乙的最好选择也是不坦白。结果双方都选择不坦白,各自被判刑3年。第二节 纳什均衡一、 举例 假定A、B两个企业都生产白酒,白酒分为高度和低度两种。报酬矩阵如图所示:A企业高度低度B企业高度700,600900,1000低度800,900600,800 图 13-5 A企业如果选择了生产高度白酒,那么B企业会选择生产什么呢?因为800 700 ,所以B企业会选择生产低度白酒。A企业如果选择了生产低度白酒,因为900 600 ,那么B企业会选择生产高度白酒。如果B企业选择了生产高度白酒,A企业就会选择生产低度白酒。如果B企业选择了生产低度白酒,A企业就会选择生产高度白酒。这里,A企业的决策取决于B企业的决策,同样B企业的决策取决于A企业的决策。但是A企业选择了生产高度白酒以后,只要不变化,B企业就会选择生产低度白酒不变化。反过来也一样,B企业如果选择了生产高度白酒不变化,A企业就会选择生产低度白酒不变化,这实际上是一个纳什均衡,纳什均衡就是在给定别人最优的情况下,自己最优选择达成的均衡。通俗的讲,就是给定你的最优选择,我会选择能够使我最优的选择,或者说,我选择在给定你的选择的情况下我的最优选择,你选择了给定我选择情况下你的最优选择。这种均衡最后到底均衡在哪一点,由具体情况决定。在存在帕累托改善的情况下,可能会达到帕累托最优。在本例中,B企业选择了生产高度白酒,A企业选择生产低度白酒是一种均衡;B企业选择了生产低度白酒,A企业选择生产高度白酒也是一种均衡。由于在B企业选择生产高度白酒,A企业选择生产低度白酒的时候,A、B两企业的收益都比B企业选择生产低度白酒,A企业选择生产高度白酒时的收益要高,存在着帕累托改善,因此最后可能会达到帕累托最优,即B企业选择生产高度白酒,A企业选择生产低度白酒。1. 数学定义: n个参与者,n2,Si为参与者i的策略定理。Xi是报酬函数。如果存在一组策略(S1*,S2*。Sn*)Si*Si 使得对于每一个PLAYER都有Xi(S1*,S2*。Sn*)Xi(S1*,S2*。Si-1*,Si*,Si+1*,。Sn*。) i=1,2,。n那么(S1*,S2*。Sn*)便是纳什均衡。Si是第i个参与者的策略空间,如果参与者1选择的策略为S1*,S2选择的策略为S2*。第n个参与者的策略为Sn*。S1*,S2*,Sn*为各个参与者各自策略空间中的一个策略。Xi(S1*,S2*。Sn*)Xi(S1*,S2*。Si-1*,Si*,Si+1*,。Sn*。)说明第i个参与者选择Si*时比选择Si时的收益都要好或至少不差。换句话讲,就是在别人都没有变化策略的情况下,i如果变化策略,i就要吃亏。这样Si*就是i的最优策略。(S1*,S2*。Sn*)便是纳什均衡,即给定别人策略,自己选择最优策略。决策做出后,每一个参与者都不会变化,至少是别人不变化,自己就不变化。2. 纳什均衡与占优均衡的比较: a 占优均衡一定是纳什均衡,纳什均衡不一定是占优均衡。 b纳什均衡是有条件下的占优均衡,条件是它的参与者不改变策略。如果其他的参与者改变策略,我就要改变策略。 c占优均衡比纳什均衡更稳定。 作业题:在寡头垄断市场中,古诺均衡、STACKERBUG、HOTELLING各是什么均衡?是纳什均衡还是占优均衡?(提示:古诺均衡是纳什均衡。)3. 均衡的确定 在二人博弈中,可以采用画圈法来确定均衡。在给定一方的策略后,把自己的最优策略画上一个圆圈,如果在某一个框中,两个收益值都被画上圆圈的话,此框所表示的决策就是一个均衡。上例中,采用画圈法,会发现存在着两个均衡。9001000A企业高度低度800900B企业 高度700,600低度600,800 图 13-54. 无帕累托改进的例子 并不是所有的均衡都会有帕累托改进的机会。如下图所示,有甲乙两辆汽车同时经过一个路口,如果两车都不采取措施的话,将会发生碰撞,这时每辆车面临着继续开和等待两个选择。如果两个都选择继续开的话,就会相撞,收益都为 -10。如果甲选择继续开而乙选择等待,甲收益为1,乙收益为0。反过来,如果乙选择继续开而甲选择等待,乙收益为1,甲收益为0。如果两车都选择等待,甲乙收益都为 -1。这时的均衡有两个,如果甲选择继续开,乙就会选择等待;如果乙选择继续开,甲就会选择等待。 双方的收益矩阵如下图所示:乙车开等 甲车开-10,-101,0等 0,1-1,-1图 13-5 最终均衡在哪一种情况,取决于交通规则。二、 无纳什均衡的例子: 实际上,纳什均衡也是一种特殊情况,并不是所有的博弈都会产生纳什均衡。例如:在足球比赛中,罚点球的时候,守门员和罚球者也构成一个博弈,双方的收益矩阵如下图所示:守门员左中右点球者左-1,11,-11,-1中1,-1-1,11,-1右1,-11,-1-1,1 图 13-5 假设罚球者罚球时可以选择三个方向:左中右;守门员也可选择三个方向扑球,左中右。当罚球者选择了左的情况下,如果守门员也选择了左,罚球者将得 -1,守门员将得 +1;如果守门员选择了右或者中,罚球者将得 +1,守门员将得 -1。当罚球者选择了中的情况下,如果守门员也选择了中,罚球者将得 -1,守门员将得 +1;如果守门员选择了右或者左,罚球者将得 +1,守门员将得 -1。当罚球者选择了右的情况下,如果守门员也选择了右,罚球者将得 -1,守门员将得 +1;如果守门员选择了左或者中,罚球者将得 +1,守门员将得 -1。当判断罚球者将向左罚球的时候,守门员一定选择左;当判断罚球者将向中罚球的时候,守门员一定选择中;当判断罚球者将向右罚球的时候,守门员一定选择右。同样当罚球者判断守门员将向右扑球时,罚球者将向左或中发球;当罚球者判断守门员将向右扑球时,罚球者将向右或中发球;当罚球者判断守门员将向中扑球时,罚球者将向左或右发球。此时没有均衡存在,双方都只能靠运气。 作业:根据游击战的16字方针:“敌进我退,敌驻我扰,敌疲我打,敌退我追”,写出报酬矩阵,并判断是否存在均衡。第三节 动态博弈与承诺一、 静态博弈与动态博弈1 静态博弈: 博弈的参与者同时作出决策(或者虽然决策有先后,但是没有人在决策之前看到了其他参与者的决策行为),一旦决策做出之后,就只能等待结果,对博弈的发展再也不能产生任何影响,这种博弈叫做静态博弈。日常生活中静态博弈的例子很多,我们经常所说的无计可施、无可奈何,就是我所能做的已经做完了,不能对博弈再产生任何影响了,剩下的事情由其他的参与者来做,最后看情况。比如说,学生参见高考,老师命题和学生考试虽然有先有后,但互相之间并不能沟通信息和相互影响。考生得分的多少和对出题水平的评价,只能等待高考结束之后才能知道。老师和学生的决策行为做出之后就再也不能影响博弈,而只能等待最后的结果。 2.动态博弈: 博弈的参与者相继行动,由于后行动者能够看到先行动者的决策行为,所以后面的决策要受到以前决策行为的影响,每一个参与者都要根据在在决策时所掌握的全部信息来作出自己的最优策略,即每个人的策略是决策者在决策时所掌握全部信息的函数。换句话讲,参与者在某一个阶段做出的决策,要受到前边一系列决策信息的影响,是前边一系列决策信息的函数。典型的例子就是下棋,我走一个当头炮,你走一个屏风马,我走一步,你走一步,你走一步,我走一步。双方相继行动。每个人在每一时刻的决策都是前边一系列决策所掌握信息的函数。到了中间某一阶段,比如说一方“将军”了,这要受到前面一系列双方决策实施产生的影响,不是说想什么时候“将军”就能什么时候“将军”。3. 动态博弈在一定范围内又是一个连续的过程。 静态博弈经常是一次性的行为,决策一旦作出就不能再更改结果。动态博弈有一个重复的性质,前边的所有信息影响到后边的决策,博弈的结果要经过多次博弈之后才能看到,所以是一个连续的过程,这就决定了同一参与者在动态博弈时和静态博弈时表现出不同的行为。如果把为人处世看作一个博弈过程,我们就会发现静态博弈和动态博弈的区别。比如说一个坏人,他遇到了一个他从来都没遇到过的人而且以后再也不会和他见面的陌生人,他就可能会变得肆无忌惮,本来的面目暴露无遗,因为这种情况是静态博弈,是一锤子买卖。同样一个坏人又会在经常打交道的人面前伪装成好人,因为这种情况是动态博弈,前边的所有信息会影响到后边的决策。为了自己的长远利益,他现在必须极力制造一些虚假的信息,让后边的决策对自己更加有利,所以见面时会很客气,表现得很好,以便让别人后边的行动不要对自己不客气。二、 动态博弈的描述: 1博弈树: 对动态博弈的描述,一般是用博弈树来进行。如下图所示,有两个参与者进行博弈, 图 13-6第一个参与者用三角形来表示,有两种选择,第二个参与者用圆圈来表示,第一个参与者选择1的时候,第二个参与者也有两个选择。第一个参与者选择2的时候,第二个参与者有两个选择。2 子博弈: 由博弈中某一个阶段开始的,以后的博弈叫做一个子博弈。实际上,从一个博弈任何一个节点开始一直到博弈结束都可以看作一个子博弈。3 动态博弈的解: 动态博弈的解通常可以由反推法来解出,即把博弈树加上收益之后,计算每一个子博弈的收益,根据收益情况进行反推,在利益最大化的条件下最后求出均衡状态的解。动态博弈比起静态博弈来,更加符合现实经济生活中的实际情况,但是随着参与者的增加,复杂程度会以几何倍数增长。在一个由两个寡头组成的寡头垄断市场上,这两个寡头的竞争行为,往往可以用动态博弈的方法来描述。通常情况下,有一方会首先投石问路,看对方是否有合作的意愿,并根据对方的反应来做出自己下一步的决策,对方也会根据另一方的反应做出反应,从而决策一直进行下去。在现实生活中,经常会听说父母干预儿女的婚姻的事情,这实际上是儿女与父母之间在进行博弈。如下图所示:不伤心断绝关系嫁张三跳楼父母父母 儿女儿 图 13-7 女儿可以选择嫁给张三或者不嫁给张三,父母则威胁女儿要是嫁给张三就不给嫁妆,并断绝父女关系,另外一种可能当然是不断绝父女关系。女儿则说如果断绝父女关系就要跳楼,另一种选择是不跳楼。父母则说如果你跳楼了,我们也不会感到痛苦。双方都是希望对方沿着有利于自己的博弈路径进行决策,父母是想通过威胁断绝父女关系来迫使女儿不嫁给张三,女儿则是想通过跳楼来迫使父母在自己嫁给张三后不断绝父女关系。在这些所说的话没有实现之前,都属于空头威胁。空头威胁有可能改变对手的决策,也可能对对手的决策毫无影响。总的来说,动态博弈比静态博弈来得更加复杂,决策起来所要考虑的信息更要多一些,所以驾御信息的复杂程度也更大一些。三、 承诺:COMMITMENT1. 定义: 承诺是一种无法反悔的行为,会束缚承诺者自己的手脚,结果无法给自己留有选择的余地。两个企业,一个生产白酒,一个生产啤酒。生产白酒的企业想要生产啤酒,但是不知道生产啤酒的企业会做出什么反应。如果遇到强有力的反应,比如啤酒企业扩大产量到每年50万吨,双方都将亏损。如果啤酒企业没有什么反应,保持原有规模不变,白酒企业将扩大市场产生赢利,啤酒企业市场份额减小,利润也减小,甚至有可能亏损。用三角代表白酒企业,用圆圈代表啤酒企业。白酒企业有两种选择,上啤酒生产线或者不上。啤酒企业也有两种选择,扩大产量或者保持原有规模不变。(100, -10)不扩大扩大 上啤酒(-1000, -1000)不上(10,100)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论