经济博弈论213556.ppt_第1页
经济博弈论213556.ppt_第2页
经济博弈论213556.ppt_第3页
经济博弈论213556.ppt_第4页
经济博弈论213556.ppt_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章完全信息静态博弈,本章介绍完全信息静态博弈。完全信息静态博弈即各博弈方同时决策,且所有博弈方对各方得益都了解的博弈。囚徒的困境、齐威王田忌赛马、猜硬币、石头剪子布、古诺产量决策都属于这种博弈。完全信息静态博弈属于非合作博弈最基本的类型。本章介绍完全信息静态博弈的一般分析方法、纳什均衡概念、各种经典模型及其应用等。,完全信息静态博弈的几点特性,同时出招,出招一次;或者,孤立行动,也就是没有关于其他参与者已经或即将行动的信息.知道博弈结构与游戏规则(共同知识);不管是否沟通过,无法做出有约束力的承诺(非合作)例子:商业决策;投票选举;罚点球,本章分六节,2.1基本分析思路和方法2.2纳什均衡2.3无限策略博弈分析和反应函数2.4混合策略和混合策略纳什均衡2.5纳什均衡的存在性2.6纳什均衡的选择和分析方法扩展,2.1基本分析思路和方法,2.1.1上策均衡2.1.2严格下策反复消去法2.1.3划线法2.1.4箭头法,一、上策均衡,假设一个博弈有n个博弈方,博弈方i的策略集(又称策略空间)为Si(i=1,2,n),用sijSi表示博弈方i的第j个策略;若siSi(i=1,2,n),称s=(s1,s2,sn)为一个策略组合;若用s-i=(s1,s2,si-1,si+1,sn),则s=(si,s-i)。,2.1.1上策均衡,假设一个博弈有n个博弈方,博弈方i的策略集(又称策略空间)为Si(i=1,2,n),用sijSi表示博弈方i的第j个策略;若siSi(i=1,2,n),称s=(s1,s2,sn)为一个策略组合;若用s-i=(s1,s2,si-1,si+1,sn),则s=(si,s-i)。,用ui(s)=ui(s1,s2,sn)(i=1,2,n)表示博弈方i在策略组合s=(s1,s2,sn)的得益,ui是策略集S1S2Sn上的多元函数。,定义1:若一个博弈的策略空间为Si,得益函数为:ui(s)=ui(s1,s2,sn)(i=1,2,n),则该博弈表示为:G=S1,S2,Sn;u1,u2,un。,定义2:一个博弈G,若对博弈方i及所用si都有ui(si,s-i)ui(si,s-i),则称si是si的严格上策,si是si的严格下策。,上策:不管其它博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其它的策略,至少不低于其他策略的策略,定义3:若在博弈G中对每个博弈方i都存在策略si*是其它所有策略的严格上策,则称策略组合s*=(s1*,s2*,sn*)是G的上策均衡。,就是说,一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策,必然是该博弈比较稳定的结果。在“囚徒困境”博弈中,其中(坦白,坦白)就是一个上策均衡。,上策均衡反映了所有博弈方的绝对偏好,因此非常稳定,根据上策均衡可以对博弈结果作出最肯定的预测。注意:上策均衡不是普遍存在的,二、严格下策反复消去法,在博弈G中博弈方的严格下策当然是博弈方实际上不愿选择的策略,因此可以从博弈方的策略集中去掉。,定义:若博弈G中每个博弈方都反复去掉严格下策后剩下唯一策略组合s*=(s1*,s2*,sn*),则称s*=(s1*,s2*,sn*)为G的反复消去严格下策均衡。,例1:博弈G如右图:,博弈方左中右,求解反复消去严格下策均衡的方法成为严格下策反复消去法。,解:博弈方的策略“右”是策略“中”的严格下策,消去策略“右”后为:,博弈方的策略“下”是策略“上”的严格下策,消去策略“下”后为:,博弈方的策略“左”是策略“中”的严格下策,消去策略“左”后为可知(上,中)就是该博弈反复消去严格下策均衡。,严格下策反复消去法中每次消去的必须是严格上策,否则会出现一些意想不到的结果。,例2:博弈G如下图:,1,8,1,6,2,8,0,8,0,8,0,9,1,5,0,8,0,6,解:1)博弈方的策略“L”和“M”都是策略“R”的下策(不是严格下策),消去策略“L”和“M”后为:,博弈方的策略“S”和“D”都是策略“U”的严格下策,消去策略“S”和“D”后剩下唯一策略组合(U,R)。,2)博弈方的策略“S”和“D”都是策略“U”的下策(不是严格下策),消去策略“S”和“D”后为:,博弈方的策略“M”和“R”都是策略“L”的下策(不是严格下策),消去策略“M”和“L”后剩下唯一策略组合(U,L)。出现不一样的均衡了!,1,8,1,6,2,8,0,8,0,8,0,9,1,5,0,8,0,6,案例:上策均衡,第二次世界大战胜利在望,可是为了给自己捞取功劳,一个飞行大队的指挥官没完没了地下达提高下属的任务定额,弄得所有的人都人心惶惶。投弹手尤塞里安不想成为胜利前夕的最后一批牺牲品,千方百计逃避任务。他的上级问:“假如,我的士兵都象你这样想,这仗还怎么打?”,可尤塞里安回答到:“那我若不这么想,岂不成了一个大傻瓜?,2.2纳什均衡,2.2.1纳什均衡的定义2.2.2纳什均衡的一致预测性质2.2.3纳什均衡与严格下策反复消去法,纳什均衡是著名博弈论专家纳什(JohnNash)对博弈论的重要贡献之一。纳什在19世纪1950年1951年的两篇重要论文中,在一般意义上给定了非合作博弈及其均衡解,并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。,纳什均衡(NashEquilibrium),2.2.1纳什均衡的定义,策略空间:博弈方的第个策略:博弈方的得益:博弈:纳什均衡:在博弈中,如果由各个博弈方的各一个策略组成的某个策略组合中,任一博弈方的策略,都是对其余博弈方策略的组合的最佳对策,也即对任意都成立,则称为的一个纳什均衡,纳什均衡的实质:通俗地说,纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。,纳什均衡是一组策略(每个参与者对应其中一个),它使得在其他所有参与者保持该策略组合规定策略时,没有参与者可以通过改变到其他某个可行的策略而收益更多。,对纳什均衡概念的进一步解释,诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是“纳什均衡”。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义也同样重大。,注意:某些策略组合可以不是纳什均衡。纳什均衡不要求均衡的选择严格好于其他可行的选择。纳什均衡不要求对于所有参与者加起来最好。要想使得大家总体上更好,就要求合作行动并使得“欺骗”不可能。,例囚徒困境(prisonersdilemma)坦白B不坦白A坦白A不坦白例中美南海飞机撞击事件的博弈道歉不道歉中方退还中方不退还,如:恋爱博弈爱男不爱女爱女不爱,二、纳什均衡的求解方法,1、划线法,给定其他博弈方的任一策略组合,找出博弈方i的最佳策略,并在其得益值下划线。若存在一个策略组合,使得所有博弈方的得益值下都划了线,则该策略组合就是一个纳什均衡。,例1:博弈G如右图:,解:该博弈的纳什均衡为(上,中)。,例2:博弈G如下图:,博弈方LMR,解:该博弈有两个纳什均衡(U,L)和(U,R)。,2、箭头法,考察在每个策略组合处各个博弈方能否通过单独改变自己的策略而增加得益。如能,则从所分析的策略组合对应的得益数组引一箭头,到改变策略后策略组合对应的得益数组。若存在一策略组合,其得益数组只有进来的箭头而没有出去的箭头,则该策略组合就是纳什均衡。,例3:博弈G如右图:,博弈方左中右,纳什均衡为(上,中)。,斗鸡B进攻退却,例4:斗鸡博弈,(进,退)和(退,进)是两个纳什均衡。,二、纳什均衡与严格下策反复消去法,上策均衡肯定是纳什均衡,但反过来纳什均衡不一定是上策均衡,因此上策均衡是比纳什均衡更强、稳定性更高的均衡概念。只是,上策均衡在博弈问题中的普遍性比纳什均衡要差得多。,命题1:在n个博弈方的博弈G=S1,S2,Sn;u1,u2,un中,如果s*=(s1*,s2*,sn*)是G的一个纳什均衡,那么严格下策反复消去法一定不会将它消去。,命题2:在n个博弈方的博弈G中,如果严格下策反复消去法排除了除s*=(s1*,s2*,sn*)之外的所有策略组合,那么s*一定是该博弈惟一的纳什均衡。上述两个命题保证在进行纳什均衡分析之前先通过严格下策反复消去法简化博弈是可行的,3无限策略博弈分析和反应函数,根据上一节的分析已经明白,分析完全信息静态博弈的关键是找出其中的纳什均衡。但前面所讨论都是可通过策略之间的两两比较进行分析的有限策略博弈模型。,在无限策略、连续策略空间的博弈中,纳什均衡的概念同样适用。我们通过具体模型来说明这种博弈的纳什均衡分析方法。,一、古诺(Cournot)模型,古诺模型是研究寡头垄断市场的经典模型,在古诺模型中,假设一个市场有两家生产同一种产品厂商,同时行动确定产量如果厂商1的产量为q1,厂商2的产量为q2,则市场总产量为Qq1十q2。设市场出清价格P(即可以将产品全部卖出去的价格)是市场总产量的函数(即逆需求函数)P=P(Q)=Q=(q1q2)=a-Q。再设两厂商有相同的单位生产成本c1=c2=c,且都没有固定成本,则该博弈中两博弈方的得益(即两厂商各目的利润)分别为:,和,虽然本博弈中两博弈方都有无限多种可选策略,但根据纳什均衡的定义我们知道,纳什均衡就是具有相互是最优对策性质的各博弈方策略组成的策略组合。,如果假设策略组合(q1*,q2*)是本博弈的纳什均衡,则(q1*,q2*)必须是使得两博弈方的得益达到最大值,即满足:,要求上式的最大值,只需(1)、(2)两式分别对q1、q2求偏导并令两个偏导数都等于零,由此可得q1*,q2*应满足方程组:,解之得该方程组唯的一组解:,两博弈方的均衡得益(利润)分别为:,均衡总产量为:,具体地,若设:,则:,如果想对上述博弈结果作效率评价,可以再从两厂商总体利益最大化的角度作一次产量选择,根据条件求实现总得益(总利润)最大的总产量。,设总产量为Q,则总得益为UP(Q)cQQ(8Q)2Q6QQ2。很容易求得使总得益最大的总产量Q*3,最大总得益U*9。,将此结果与两厂商独立决策,追求自身而不是共同利益最大化时的博弈结果相比,不难发现此时总产量较小,而总利润却较高。,因此从两厂商的总体来看,根据总体利益最大化确定产量效率更高。换句话说,如果两厂商更多考虑合作,联合起来决定产量,先定出使总利益最大的产量后各自生产一半(1.5,1.5单位),则各自可分享到的利益为4.5,比只考虑自身利益的独立决策行为得到的利益要高。,当然,在独立决策、缺乏协调机制的两个企业之间,上述合作的结果并不容易实现,即使实现了也往往是不稳定的。合作难以实现或维持的原因主要是。各生产一半实现最大总利润产量的产量组合(1.5,1.5)不是该博弈的纳什均衡策略组合。,也就是说,在这个策略组合下,双力都可以通过独自改变(增加)自己的产量而得到更高的利润,它们都有突破1.5单位产量的冲动。在缺乏由强制作用的协议等保障手段的情况下,这种冲动注定了维持上述较低水平的产量组合是不可能的,两厂商早晚都会增产,只有达到纳什均衡的产量水平(2,2)时才会稳定下来。,因为只有这时候任一厂商单独改变产量才不利于自己,这实际上也是一种“囚徒困境”,如果将遵守限额还是突破限额作为厂商面临的选择,则构成了得益矩阵如下图的博弈。,厂商2不突破突破,当然不难看出该博弈是一个囚徒困境博弈.上述两寡头产量博弈只是古诺模型中比较简单的个特例,更一般的古诺模型是包括n个寡头的寡占市场产量决策。但其分析方法是一样的。,F4,以自身最大利益为目标:各生产2单位产量,各自得益为4以两厂商总体利益最大:各生产1.5单位产量,各自得益为4.5,二、反应函数,古诺模型的纳什均衡也可以通过对划线法思路的推广来求,划线法的思路是先找出每个博弈方针对其他博弈方所有策略(或策略组合)的最佳对策,然后再找出相互构成最佳对策的各博弈方策略组成的策略组合,也就是博弈的纳什均衡。,在无限策略的古诺博弈模型中这样的思路实际上也是可行的,只是其他博弈方的策略现在有无限多种,因此各个博弈方的最佳对策也有无限种,它们之间往往构成一种连续函数关系。,在上面讨论的两寡头古诺模型中,对厂商2的任意产量q2,厂商1的最佳对策产量q1,就是使白己在厂商2生产产量q2的情况下利润最大化的产量,即q1是最大化问题:,的解。上式对q1求导并令导数等于0:,由此得:,这样我们得到了对于厂商2的每个可能的产量,厂商1的最佳对策产量的计算公式,它是厂商2产量的一个连续函数,我们称这个连续函数为厂商1对厂商2产量的一个“反应函数”(ReactionFunction)。同样的方法,我们可再求出厂商2对厂商1产量q1的反应函数:,q2,6,3,6,3,q1,由于这两个反应函数都是连续的线性函数,因此可以用坐标平面上的两条直线表示它们,如图:,(2,2),从图中可以看出,当一方的产量选择为0时,另一方的最佳反应为3。这正是实现市场总利润最大的产量,因为这时候等于由一个厂商垄断市场,市场总体利润就是该厂商的利益;当一方的产量达到6时,另一方被迫选择0,因为这时后者坚持生产已经无利可图。,在两个反应函数对应的两条直线上,只有它们的交点(2,2)代表的产量组合,才是由相互对对方的最佳反应产量构成的。,R1(q2)上的其他所有点(q1,q2)只有q1是对q2的最佳反应,q2不是对q1的最佳反应,而R2(q1)上的点则刚好相反。,根据纳什均衡的定义,(2,2)是该古诺模型的纳什均衡,并且因为它是惟的一个,因此应该是该博弈的结果。这个结论与前面直接根据纳什均衡定义得到的完全样。,现在我们把反应函数法应用到伯特兰德模型的分析。伯持兰德1883年提出了另一种形式的寡占模型。这种模型与选择产量的古诺模型的区别在于,伯特兰德模型中各厂商所选择的是价格而不是产量。我们用简单的两寡头且产品有一定差别的伯特兰德价格博弈模型进行分析。,二、伯特兰德(Bertrand)寡头模型,上述产品有一定差别是指两个厂商生产的是同类产品,但在品牌、质量和包装等方面有所不同,因此伯特兰德模型中厂商的产品之间有很强的替代性但又不是完全可替代,即价格不同时,价格较高的不会完全销不出去。当厂商1和厂商2价格分别为P1和P2时,它们各自的需求函数为:,和,从上式可以看出产品之间是有差别的,其中d1,d20即两厂商产品的替代系数。我们也假设两厂商无固定成本,假设边际生产成本分别为c1和c2。,两博弈方的得益函数分别为:,我们直接用反应函数法分析这个博弈。上两式分别对P1和P2求偏导,并令偏导数为0,由此得:,很容易求出两厂商对对方策略(价格)的反应函数分别为,和,纳什均衡(P1*,P2*)必是两反应函数的交点,即必须满足:,求解此方程组即可得到纳什均衡(P1*,P2*):,记:,具体地,如果进一步假设模型中的参数分别为:,将P1*,P2*代入得益函数则可进一步得到两厂商的均衡得益值。,则可以得到:P1*P2*20,u1*u2*414。,值得一提的另外一点是,这种价格决策与古诺模型中的产量决策一样,其纳什均衡也不如各博弈方通过协商、合作得到的最佳结果,因此也是囚徒困境的一种。,上述模型是伯特兰德模型较简单的情况。更一般的情况是有n个寡头的价格决策,并且产品也可以是无差别的。,随着社会经济的不断发展,我们越来越无法回避公共资源利用、公共设施提供和公共环境保护等方面的间题。而在这些问题中,也包含了众多的博弈关系。我们以人们对公共资源利用方面的博弈关系为例来作一些讨论。,三、公共资源问题,在经济学中,所谓公共资源是指具有(1)没有哪个个人、企业或组织拥有所有权;(2)大家都可以自由利用,这样两个特征的自然资源或人类生产的供大众免费使用的设施和财货。,例如大家都可以开采使用的地下水,可自由放牧的草地,可自由排放废水的公共河道(假设政府未予限制),以及公共道路、楼道的照明灯等。,由于公共资源有上述两个特征,因而利用这些资源时不支付任何代价,除非政府将这些资源收归国有,并对使用者征收资源税或收取类似的费用。,最晚是从休漠1739年开始,政治经济学者们就己经开始认识到,在人们完全从自利动机出发自由利用公共资源时,公共资源倾向于被过度利用、低效率使用和浪费,并且过度利用会达到任何利用它们的人都无法得到实际好处的程度。,我们用下面这个公共草地的放牧习题为例来论证这个结论。,设某村庄有n个农户,该村有一片大家都可以自由放牧羊群的公共草地。出于这片草地的面积有限,因此只能让不超过某一数量的羊群吃饱,如果在这片草地上放牧羊只的实际数量超过这个限度,则每只羊都无法吃饱,从而每只羊的产出(毛、皮、肉的总价值)就会减少,甚至只能勉强存活或要饿死。,假设这些农户在夏天才到公共草地放羊,而每年春天就要决定养羊的数量,因此可看作各农户在决定自己的养羊数量时是不知道其他农户养羊数的,即各农户决定养羊数的决策是同时作出的。,再假设所有农户都清楚这片公共草地最多能养多少只羊和在羊只总数的不同水平下每只羊的产出。这就构成了n个农户之间关于养羊数的一个博弈问题,并且是一个静态博弈。,在此博弈中,博弈方就是n个农户;他们各自的策略空间就是他们可能选择的养羊数目qi(i=1,2,n)的取值范围。,当各农户养羊数为q1、q2、qn时,在公共草地上放牧羊只的总数为Qq1q2qn,根据前面的介绍,每只羊的产出应是羊群总数Q的减函数VV(Q)V(q1、q2、qn)。假设购买和照料每只羊的成本对每个农户都是相同的不变常数c,则农户i养qi只羊的得益函数为:,为了使讨论比较简单和能得到直观的结论,我们进步设定下列具体数值。假设n3,即只有三个农户,每只羊的产出函数为V100Q100一(q1q2qn),而成本c4。这时,三农户的得益函数分别为:,由于羊的数量不是连续可分的,田此上述函数不是连续函数。但我们在技术上也可以把羊的数量看作连续可分的,因此上述得益函数仍然可当作连续函数来处理。,分别求三农户各自对其他两农户策略(养羊数)的反应函数,得:,三个反应函数的交点(q1*,q2*,q3*)就是博弈的纳什均衡。我们将q1*,q2*,q3*代入上述应函数,并解此联立方程组,即得q1*q2*q3*24,再将其代入三农户的得益函数,则可得u1*u2*u3*576,此即三农户独立同时决定在公共草地放羊数量时所能得到的利益。,为了对公共资源的利用效率作出评价,我们同样也可讨论总体利益最大的最佳羊只数量。设在该草地上羊只的总数为Q。则总得益为:,使总得益u最大的养羊数Q*必使总得益函数的导数为0,容易求得:Q*48,总得益值u*2304。该结果比三农户各自独自决定自己的养羊数量时三农产得益的总和1728大了许多。而此时的养羊数Q*48则比三农户独立决策时草地上的羊只总数32472小,因此,三农户独立决策时实际上使草地处于过度放牧的情况,浪费了资源,农户也没有获到最好的效益。,如果各农户能将养羊数自觉限制在48316只,则他们都能得到更多的利益。但问题是他们面临的也是种囚徒的困境局面,因此很难实现这种理想的合作的结果。这个例子再一次证明了纳什均衡,或者说非合作博弈的结果有可能是低效率的。,在本例中,如果利用上述草地资源的农户数进一步增加,则纳什均衡的效率会更低;如允许外来者任意加入利用该公共资源的行列,则所有利用该资源的人的利益很决都会消失,即羊只总数会随着放牧农户数的增加而增加到刚好不至于亏损的水平,各农户将完全不能从在公共草地上养羊得到任何好处,公共资源等于完全被浪费掉。,公共资源利用方面常会出现这样的悲剧,原因是每个可以利用公共资源的人都相当于面临着一种囚徒的困境;在总体上有加大利用资源可能(至少加大利用者白身还能增加得益)时,自己加大利用而他人不加大利用则自己得利。自己加大利用但其他人也加大利用则自己不至于吃亏,最终是所有人都加大利用资源直至再加大只会减少利益的纳什均衡水平,而这个水平肯定比实现资源最佳利用效率,同时也是个人最佳效率的水平要高。,F5,公共设施问题也是类似的问题。在许多需要人类生产、提供的公共设施的问题上,做搭便车者(FreeRider)总是比做提供者合算。因此许多必需的公共设施,如楼道里的电灯等就总是没人提供。这些公共资源博弈问题的结果说明了在公共资源的利用、公共设施的提供方面,政府的组织、协调和制约是非常必要的,这也可以说是政府之所以有必要存在的主要理由之一。,虽然对于单个农户来说,他增加一头羊是有利的。但是如果所有的农户都看到这一点,都增加一头羊,那么草地将被过度放牧,从而不能满足羊的需要,导致所有农户的羊都饿死。这个故事就是公共资源的悲剧,即哈定悲剧。最初由英国留学生哈定(GarritHadin)1968年在科学杂志上发表的文章TragedyofCommons(公共策略)中提出。哈定指出:“在共享公有物的社会中,每个人,也就是所有人都追求各自的最大利益。这就是悲剧的所在。每个人都被锁定在一个迫使他在有限范围内无节制地增加牲畜的制度中。毁灭是所有人都奔向的目的地。因为在信奉公有物自由的社会当中,每个人均追求自己的最大利益。公有物自由给所有人带来了毁灭。”,比如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。,对公用地悲剧的防止有两种办法:一是在制度上的,二是在道德约束上。所谓制度的方法,即建立中心化的权利机构,无论这种机构是公共的还是私人的-私人对公用地的拥有,即处置便是在使用权利。例如,在河水污染问题,每个企业都会为了使自身收益最大化而无限制地向公共河流中排放污水,每个个人也会因为只考虑自己的方便而向河水中乱扔污物.对此,公共管理机构或是可以通过制度创新,将河水的清污费用内化为企业的成本,或是通过制裁措施增加个人污染河水的成本。没有这样的公共管理措施,公共河流就会像前面所说的公用牧场一样被人们共同破坏掉。,公共品问题一定要有人协调和管理。就一个国家来说,最重要的公共品是国防,教育,基础设施和其他政府部门.政府责无旁贷,要用好来自纳税人的钱,把文化教育,社会保障,基础设施和国防公安等事情做好。社区要有专人协调管理,把身边看起来很琐碎但是弄不好有损工作和生活环境的事情做好.只有如此,才会走出哈丁公用地的悲剧。,反应函数法的概念和思路非常简单明了,它解决了我们分析一般的具有无限多种策略,有连续策略空间的博弈模型,因此反应函数法在博弈分析中非常有用。,五、反应函数的问题和局限性,但这并不等于说有了反应函数的概念,就可以解决所有博弈的分析,或者分析出所有博弈的最终结果。,因为在许多博弈中,博弈方的策略是很有限的而不是很多的,更不是连续的,博弈方的得益函数并不是连续的可导函数,所以无法用先求导找出各个博弈方的反应函数,再解联立方程组的方法求纳什均衡,反应函数法在分析这样的博弈模型时不能发挥作用。,更进一步,即使我们讨论的博弈问题中各博弈方的得益函数可以求导,可以导出各个博弈方的反应函数。也并不意味着反应函数法就一定能完全解决这些博弈。,2.4混合策略和混合策略纳什均衡,2.4.1严格竞争博弈和混合策略的引进2.4.2多重均衡博弈和混合策略2.4.3混合策略和严格下策反复消去法,反面,正面,反面,正面,猜谜游戏两个儿童各拿一枚硬币,若同时正面朝上或朝下,A给B1分钱,若只有一面朝上,B给A1分钱。,零和博弈博弈参与者有输有赢,但结果永远是0。,2.4.1严格竞争博弈和混合策略的引进,混合战略纳什均衡,警察与小偷,银行,酒馆,警察,小偷,2万元,1万元,东边,西边,警察与小偷的最优策略各是什么?,上述博弈的特征是:在这类博弈中,都不存在纯纳什均衡。参与人的支付取决于其他参与人的战略;以某种概率分布随机地选择不同的行动每个参与人都想猜透对方的战略,而每个参与人又不愿意让对方猜透自己的战略。这种博弈的类型是什么?如何找到均衡?请举一些这样的例子:,监督博弈假设你拥有一家便利店。你以周薪270雇用了一名员工为你工作。大多数时间里这名员工单独经营这家店。当然,他可能选择勤奋或偷懒。勤奋需付出努力,而努力工作的负效用是120。当他偷懒时,负效用为0。如果他选择勤奋,他能为你赚取600的利润;但如果他偷懒,你的利润为零。你可以选择不定期去店中视察店中,当然这将花费你60。你只有在视察店后获得了他偷懒的第一手的证据时(地板没清扫,物品没重新贮藏,打破的咖啡机没有修,等等),你才可以不付薪酬地解聘这个员工。你期望你的员工如何做?你应该如何做?为了更好地理解这个案例,让我们对这个情形构建一个标准式博弈。你和你的员工是这个博弈的参与者。你有两个选择:视察或不视察,员工也有两个选择:勤奋或偷懒。你们的选择导致的收益由下列矩阵给出:,这个博弈没有纯策略的纳什均衡。如果你选择视察,则员工会选择勤奋。但如果员工选择勤奋,你就不必去视察。但是如果你不视察,员工会偷懒。而如果员工偷懒,你就应该视察便利店。转了一圈,又回到起点。,混合战略的引入,面对这样的博弈,局中人确定的均衡局势是怎样一种情形。为了进一步分析这种博弈我们引入混合策略的概念,主观概率,当人们面对一个不确定的事物时会对事物发生的可能性有一个主观的估计.这种估计就是主观概率。事实上我们所认知大部分有关事件发生的概率都是主观概率.我们在此不讨论主观概率的合理性或正确性,而只想说明主观概率对我们进行决策的重要性.当人们面对一个不确定的事物时会主观地估计一个主观概率,此时的主观概率只是一种观念,一旦人们相信这种的真实性或不得不接受它的真实性时,这种主观概率就成为人们的一种信念.从而成为人们面对不确定时的一种信念,从而成为人们面对不确定时的决策依据,当一个博弈有多个纳什均衡或没有纳什均衡时,任何一个局中人都无法确知对手的最优选择行为或最优策略。在这样的博弈中,每个局中人就像面对一种不确定局面一样,在作出决策之前他对不确定的局面作出主观的估计,形成一种观念。尔后根据实际的情况修正观念使之成为一种信念,在这种信念的基础上再作出决策。为此,在原博弈的基础上我们对博弈模型作如下的定义。,二、混合策略和混合策略Nash均衡,战略:参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。纯战略:如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动,该战略为纯战略。混合战略:如果一个战略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则该战略为混合战略。,二、混合策略和混合策略Nash均衡,定义在博弈GS1,S2,Sn;u1,u2,un中参与人的策略空间为Si=si1,si2,siK,那么概率分布i=(i1,iK)称为i的一个混合策略(Mixedstrategy),其中ik是参与人i选择策略siK的概率;而且0ik1,k=1.2.,k,ik=1;这里注意:混合策略是一个概率分布!,纯战略可以理解为混合战略的特例,即在诸多战略中,选该纯战略si的概率为1,选其他纯战略的概率为0。由于混合战略伴随的是支付的不确定性,因此参与人关心的是其期望效用。最优混合战略:是指使期望效用函数最大的混合战略(给定对方的混合战略),下面重新定义Nash均衡定义在博弈G=S1,S2,Sn;u1,u2,un中,混合策略组合*=(1*,n*)是一个Nash均衡,如果对任一i,有:ui(i*,-i*)ui(i,-i*),对任ii注意到:每个参与人的期望效用是自己的混合概率的线性组合.这一点意味着,如果i=(i1,iK)是相对于给定-i的一个最优混合策略,那么对于所有的iK0,下式成立:ui(siK,-i)ui(siK,-i),对于任意siKSi.就是说,如果i=(i1,ik)是相对于-i的一个最优混合策略,如果这个混合策略规定i以严格正的概率选择纯战略siK,那么siK本身一定是相对于-i的一个最优战略.,证明:如果ui(sik,-i)ui(sik,-i)不成立,即:ui(sik,-i)0,那么:ui(si1,-i)=ui(si2,-i)=ui(siK,-i)证明:ui(sik,-i)ui(sik,-i),对于任何一个sikSi.我们以集合Si表示以正的概率进入最优混合战略的纯战略Sik(k=1,2,K)组成的集合.那么:ui(sik,-i)ui(sik,-i),对于任何sik和sikSi都成立.ui(sik,-i)ui(sik,-i),对于任何sik和sikSi都成立因此,ui(sik,-i)ui(sik,-i),对于任何sik和sikSi都成立所以,ui(si1,-i)=ui(si2,-i)=ui(siK,-i),混合策略的Nash均衡,命题:所有以正的概率进入最优混合战略的纯战略都是最优战略,参与人在所有这些纯战略之间一定是无差异的.上述命题的含义给定对手的混合策略,在最优时,我的策略是无差异的。给定我的混合策略,对手的策略是无差异的无差异均衡,混合策略NE的求解,支付等值法通过使对方选择各个纯策略的期望支付值相等来确定自己的策略空间上的最优概率分布的方法被称为“支付等值法”.也就是说,博弈方选择每种策略的概率一定要恰好使对方无机可乘,即在自己选择混合策略后,对方选择任何纯战略的收益一定是无差异的.让对方无法通过针对性地倾向某一策略而在博弈中占上风。,掷硬币,在上面的掷硬币的博弈中,参与人1选正面、反面的概率q,1-q,一定要使参与人2选正面的和反面的期望得益相等;参与人2;参与人2选正面、反面的概率p,1-p,一定要使参与人1选正面的和反面的期望得益相等.可以这样理解:既然参与人i(i=1,2)在混合策略的纳什均衡中既选择“正面”又选择“反面”,这两个策略对参与人i必须都是最优,所以产生相同的期望收益(否则,参与人i将选择两者中较优的一个,放弃混合策略。).,支付最大化法,给定对方混合战略,自己选择的混合战略使得自己的期望收益达到最大.,混合战略纳什均衡,流浪,流浪汉,政府,救济,不救济,寻找工作,即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择游荡,同样,可以根据流浪汉的期望效用函数找到政府的最优混合战略。?,支付最大化法,混合战略纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2;不救济的概率:1/2。流浪汉:寻找工作的概率:0.2;流浪的概率:0.8每个参与人的战略都是给定对方混合战略时的最优战略,混合战略纳什均衡,假定最优混合战略存在,给定流浪汉选择混合战略(r,1-r),政府选择纯战略救济的期望效用为:3r+(-1)(1-r)=4r-1选择纯战略不救济的效用为:-1r+0(1-r)=-r如果一个混合战略(而不是纯战略)是政府的最优选择,一定意味着政府在救济与不救济之间是无差异的。4r-1=-rr=0.2,流浪,流浪汉,政府,救济,不救济,寻找工作,支付等值法,五混合战略纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2;不救济的概率:1/2。流浪汉:寻找工作的概率:0.2;流浪的概率:0.8每个参与人的战略都是给定对方混合战略时的最优战略,混合战略纳什均衡,对的解释:如果流浪汉以找工作的概率小于0.2,则政府选择不救济,如果大于0.2,政府选择救济,只有当概率等于0.2时,政府才会选择混合战略或任何纯战略.对*=0.5的解释如果政府救济的概率大于0.5,流浪汉的最优选择是流浪,如果政府救济的概率小于0.5,流浪汉的最优选择是寻找工作.,混合战略纳什均衡,混合战略纳什均衡的含义:纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最优选择。因此在社会福利博弈中,*=0.5是唯一的混合战略纳什均衡。从反面来说,如果政府认为流浪汉选择寻找工作的概率严格小于0.2,那么政府的唯一最优选择是纯战略:不救济;如果政府以1的概率选择不救济,流浪汉的最优选择是寻找工作,这又将导致政府选择救济的战略,流浪汉则选择游荡。如此等等。,如何理解混合策略,一个参与人实施混合策略的目的是给其他参与人造成不确定性,尽管其他参与人能推测到他选择某个纯策略的概率有多大,但却不知道他到底会选哪个纯策略。在混合策略NE时,一个参与人在几个或全部战略之间是无差异的(否则,参与人会放弃收益少的策略,只有收益最多的策略才会被参与人以一定概率选择.当然,这是在其它参与人行为给定的状况下).而正是因为参与人在几个或全部战略之间是无差异的,所以他的行为才难以预测,混合战略均衡才会存在.如果他严格偏好于某个特定的纯战略,他的行为就会被其它人正确地猜透,就不会有混合战略均衡出现.海萨尼对混合战略的解释:混合战略等价于不完全信息下的纯战略均衡,审计博弈(猜迷博弈的变种):,逃税不逃税,检查aC+F,a-FaC,a,不检查0,0a,a,纳税人,税收机关,这里a是应纳税款,C是检查成本,F是罚款。,设x表示检查的概率;y表示逃税的概率,给定y,选择检查和,不检查的期望得益分别为:uG(1,y)=yF+aC和uG(0,y)=,a(1y),令uG(1,y)=uG(0,y)得y*=C/(a+F);类似地,给定x,纳,税人选择逃税和不逃税的得益:up(x,1)=(a+F)x和up(x,1),=a,解up(x,1)=up(x,)0得x*=a/(a+F),由此*=(x*,y*)。,小偷和守卫的博弈,加重对守卫的处罚:短期中的效果是使守卫真正尽职在长期中并不能使守卫更尽职,但会降低盗窃发生的概略如何理解?,加重对小偷的处罚:短期内能抑制盗窃发生率长期并不能降低盗窃发生率,但会的是守卫更多的偷懒,多重均衡博弈和混合策略,以上引进的混合策略Nash均衡及其分析方法,是以没有纯策略Nash均衡的严格竞争博弈为基础的,下面讨论有多个纯策略Nash均衡的博弈。,一、夫妻之争的混合策略纳什均衡,夫妻之争博弈的混合策略纳什均衡策略得益博弈方1(0.75,0.25)0.67博弈方2(1/3,2/3)0.75,二、制式问题,制式问题混合策略纳什均衡AB得益厂商1:0.40.60.664厂商2:0.670.331.296,三、市场机会博弈,进不进得益厂商1:2/31/30厂商2:2/31/30,混合策略和严格下策反复消去法,在混合策略下,下列结论仍然成立:如何博弈方都不会采取任何严格下策严格下策消去法不会消去任何Nash均衡如果经反复消去后留下的策略组合是唯一的,那它一定是Nash均衡,2.5纳什均衡存在性及相关讨论,纳什均衡存在性定理:每一个有限博弈至少存在一个纳什均衡(纯战略的或混合战略的)。,问题:是否所有的博弈都存在NE(纯的或混合的)?,*Nash在1950年证明:,Wilson(1971)证明,几乎所有有限博弈,都存在有限奇数个NE,包括纯策略NE和混合策略NE。OddnessTheorem,Nash均衡的存在性证明工具,定理证明的工具:Kakutani不动点定理和Brouwer不动点定理。Brouwer不动点定理:设f(x)为0,1上的连续函数,且值域也为0,1,则在0,1中至少存在一个Kakutani不动点定理:是将Brouwer不动点定理推广到n维抽象空间的结果。,定理(Debreu,1952Glicksberg,1952Fan,1952)考虑一个策略型博弈,其中各参与人的策略空间Si为欧氏空间中的非空紧凸子集,收益函数ui关于策略组合s为连续的且关于参与人i的纯策略si为拟凹的,那么博弈存在一个纯策略的Nash均衡.定理(Glicksberg,1952)考虑策略型博弈,其参与人的策略空间Si是度量空间中的非空紧子集,如果得益函数ui为连续函数,那么博弈至少存在一个混合策略的Nash均衡.纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。,2.6纳什均衡的选择和分析方法扩展,2.6.1多重纳什均衡博弈的分析2.6.2共谋和防共谋均衡,2.6.1多重纳什均衡博弈的分析,帕累托上策均衡风险上策均衡聚点均衡相关均衡,一、帕累托上策均衡,(鹰鸽博弈)这个博弈中有两个纯策略纳什均衡,(战争,战争)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论