完全信息动态博弈博弈论课件_第1页
完全信息动态博弈博弈论课件_第2页
完全信息动态博弈博弈论课件_第3页
完全信息动态博弈博弈论课件_第4页
完全信息动态博弈博弈论课件_第5页
已阅读5页,还剩159页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

完全信息动态博弈,DYNAMIC GAME OF COMPLETE INFORMATION,He Is a Fool That Thinks Not That Another Thinks,Herbert,动态博弈的概念,一类博弈行为通常需要参与人多步决策才能完成,具有明显的阶段性。 博弈的结局、各参与人的支付值由多阶段决策结果确定。 各参与人的决策有一定的顺序。 具有动态博弈的例子。,动态博弈的概念,由于动态博弈各参与人进行决策具有明显的阶段性、行动次序性,通常用扩展式(extensive form)表述法描述这些信息。,博弈的扩展式表示,参与人集合:i=1, ,N。此外,用0表示虚拟参与人“自然”; 自然的含义是某些外生的客观概率分布事件 参与人的行动顺序(the order of moves):描述各参与人在什么时候行动; 参与人的行动空间(action set):在每次行动时,参与人可选择的行动集合;,博弈的扩展式表示,参与人的信息集(information set):每次行动时参与人知道什么; 参与人的支付函数:在行动结束之后,每个参与人得到些什么。 自然选择的概率分布(假定自然状态是共同知识)。 对于有限博弈,博弈树是常用的表述方式。,扩展式表述简例,图2-1就是一个商品仿冒和反仿冒动态博弈的扩展型描述。,A,B,A,B,制止,不仿冒,仿冒,不制止,不仿冒,仿冒,制止,不制止,图2-1 仿冒和反仿冒博弈扩展型表述,(0,10),(-2,5),(2,2),(10,4),(5,5),扩展式表述简例,图2-2是包括自然选择的博弈扩展式表述,图2-2 房地产开发博弈,A,0,B,大(1/2),不开发,开发,小(1/2),(8,0),(1,0),0,B,B,大(1/2),小(1/2),B,(4,4),(-3,-3),(0,8),(0,0),(0,1),(0,0),博弈树,若动态博弈是有限博弈,则可用博弈树表示该博弈。这里有限的含义是 各阶段各参与人的行动数目有限 博弈的阶段数有限,博弈树,博弈树的基本结构为 结点(nodes)。包括决策结及终点结。 枝(branches)。在各决策结点出发的枝,与该结点对应的参与人所采取的行动一一对应。,博弈树,博弈树不允许如下形式的结点、枝的存在。,图2-3 博弈树中不允许出现的情况,x,x,x,博弈树,信息集:是决策结集合的一个子集。 每个决策结都是同一个参与人的决策结。 该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟出于哪一个决策结(若该信息集有两个或两个以上元素)。,博弈树,信息集的集合可记为H,则hH代表一个特定的信息集。 特别地,函数h(x)表示包含决策结x的信息集。 h(x)可解释为某个参与人不能确定他是否处在x或其他x H。,博弈树,对于有限动态博弈,若参与人对彼此在各决策结点的行动集合,彼此的效用函数,历史的行动有着完全的了解,则称这样的博弈为完全信息动态博弈。 如果博弈树的所有信息集都是单元素集,称该博弈为完美信息博弈(game of perfect information)。 上述两个定义的差别在于对自然行动信息的描述。,博弈树实例,注意图2-4中的信息集(图中用虚线连接的各结点)。,图2-4 房地产开发博弈,A,N,B,大(1/2),不开发,开发,小(1/2),(8,0),(1,0),N,B,B,大(1/2),小(1/2),B,(4,4),(-3,-3),(0,8),(0,0),(0,1),(0,0),博弈树实例,注意,扩展式表述也可以用于分析静态博弈,如图2-5的囚徒问题。,A,B,B,坦白,抵赖,坦白,抵赖,抵赖,坦白,(-5,-5),(0,-8),(-8,0),(-1,-1),图2-5 囚徒问题的扩展式表述,一些说明,“完美回忆”(perfect recall)概念 完美回忆是指没有任何参与人会忘记自己以前知道的事情,所有参与人都知道自己以前的选择。 可以利用信息集概念描述完美回忆。,一些说明,图2-6描述了不完美回忆现象。,图2-6 不具有完美回忆的例子,A,B,L,D,U,B,A,A,L,R,A,R,A不能区分(D,L)和(D,R)是正常的,因为参与人1可能没有观察到B是选择了L还是选择了R。,但A不能区分(U,R)和(D,L)则说明A忘记了在开始博弈时选择了U行动还是D行动,因而不具有完美回忆。,一些说明,“完美回忆”的数学描述 若x和x属于同一个信息集,即xh(x),y是x的前列结(排在x前面的决策结),且均属于同一参与人i。 那么,存在一个y(可能是y本身),满足y h(x), y是x的前列结。 在y到达x的行动与y到达x的行动完全一致。,一些说明,上述事实可用图2-7表述,y,x,D,U,y,x,D,U,1,图2-7 完美回忆图示,一些说明,需要注意的是,若有些动态博弈的阶段很多乃至无限,或者参与人在一个阶段有许多可以选择的行为,这时采用博弈树表述将变得很困难,或者不可行。如下棋等。 此时应用文字描述或用数学抽象形式表述。,动态博弈的策略式表述,相机选择(contingent play) 动态博弈中参与人的策略是各自预先设定的,在博弈的各阶段,针对各种情况做出相应决策。我们称这种问题为动态博弈中的“相机选择”问题。 在战略式表述博弈中,参与人似乎是博弈开始之前就制定出了一个完全的相机选择,即“如果发生,我将选择”。,从扩展式表述构造战略式表述 假定开发商A先决策,开发商B观测到A的选择后决策。 那么博弈的扩展式表述如图2-8表述。,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,动态博弈的策略式表述,这是一个完美信息博弈(每个参与人的信息集是单结的)。 A只有一个信息集,两个可选择行动,因而A的行动空间也就是A的战略空间:SA=(开发,不开发)。,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,动态博弈的策略式表述,但B有两个信息集,每个信息集上有两个可选择的行动,因而B有四个纯战略,分别为 不论A开发还是不开发,我开发; A开发我开发,A不开发我不开发; A开发我不开发,A不开发我开发; 不论A开发与否,我不开发。,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,动态博弈的策略式表述,若把B的信息集从左到右排列,上述四个纯战略可以简单记为 开发,开发 开发,不开发 不开发,开发 不开发,不开发,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,动态博弈的策略式表述,B的纯策略为 开发,开发 开发,不开发 不开发,开发 不开发,不开发 A的纯策略为 SA=(开发,不开发) 于是可以写成策略式表述形式,为,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,动态博弈的策略式表述,A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,表2-1 房地产开发博弈:策略式表述,动态博弈的策略式表述,该博弈有四个纯战略纳什均衡,分别为 (开发,开发,不开发) (开发,不开发,开发) (开发,不开发,不开发) (不开发,开发,开发),A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,表2-1 房地产开发博弈:策略式表述,动态博弈的策略式表述,在扩展式表述博弈中,所有n个参与人的一个纯战略组合s=(s1,sn)决定了博弈树上的一个路径。 比如(开发,不开发,开发)决定了博弈的路径为A开发B不开发(1,0),A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,表2-1 房地产开发博弈:策略式表述,动态博弈的策略式表述,(不开发,开发,开发)决定了博弈的路径为A不开发B开发(0, 1) (开发,不开发,开发)决定了博弈的路径为A开发B不开发(1,0),A,B,B,开发,不开发,开发,不开发,不开发,开发,(-3,-3),(1,0),(0,1),(0,0),图2-8 房地产开发博弈,表2-1 房地产开发博弈:战略式表述,动态博弈的策略式表述,动态博弈的策略式表述,给出了扩展式表述的战略式表述转换,就可以像静态博弈那样,定义纯战略纳什均衡或混合战略纳什均衡。 按照Von Neumann观点,将动态博弈模型转化成策略式表述形式后,按照静态博弈分析方法,即可处理动态博弈问题。 近来研究表明,存在策略式表述相同,但却有本质差别的,不同扩展式表述的动态博弈。说明上述观点具有一定的局限性。因此,策略式表述并不能取代扩展式表述。,混合战略纳什均衡:在扩展式表述博弈中,一个重要概念是“行为战略” (behavior strategies),用以区别战略式表述博弈的混合策略概念。 行为战略指参与人在每个信息集上随机地选择行动。 令(A(hi))为定义在行动集合A(hi)上的概率分布,bi为参与人i的一个行为战略,那么bi是迪卡尔积,行为战略,行为战略,也就是说,一个行为战略规定了对应每一个信息集的行动集合上的概率分布,且不同信息集上的概率分布是独立的。 通俗地说,行为战略可以表述为 “如果hi(1)出现,我将以(A(hi(1)))的概率分布选择A(hi(1);如果hi(2)出现,我将以(A(hi(2)))的概率分布选择A(hi(2)”。,行为战略,纯战略可以理解为行为战略的一个特例,这里概率分布是退化分布。 可以仿造纯战略形式给出行为战略意义下纳什均衡的定义。这里从略。 可用i表示行为战略, i(ai|hi)表示参与人i在信息集hi选择行动ai的概率。 可以定义基于行为战略意义下的纳什均衡(理科学生的课后作业)。,完全信息动态博弈纳什 均衡存在性定理,可以证明,有限博弈在行为战略意义下至少存在一个纳什均衡。 特别地,如果有限博弈是完美信息博弈,他还有一个纯战略纳什均衡(Zermelo,1913)。 通过一个简单实例(见图2-9 )说明Zermelo定理。,逆推归纳法,逆推归纳法是求解完美信息动态博弈的经典方法。 逆推法思路。假设博弈到了第二阶段,参与人B的信息集为D,选择L获利1单位,选择R获利0单位,因此B应该选择L; 在博弈的第一阶段,参与人A选择U获利2单位,选择D获利状况取决于参与人B的选择;,但A知道B是理性的,一旦到达第二阶段,B肯定会选择L行动,从而A获利为3单位,因此,A应选择D。 因此,(D,L)是纯战略纳什均衡。,逆推归纳法,如果采用博弈的战略式表述(见表2-2),可得到另一个纳什均衡(U,R)。 如果A选择U,那么B的信息集不能达到,我们说B的信息集不在均衡路径上(out-of-equilibrium path)。,A,B,D,U,R,L,(3,1),(0,0),图2-9 逆推法求纳什均衡,(2,2),表2-2 策略式表述,与策略式分析比较,此种情况下,B的选择对A没有什么影响。 因此,纳什均衡对一个参与人在非均衡信息集上的选择没有限制。 但是,一个参与人在非均衡信息集上的战略可以影响其他参与人在均衡信息集上的选择。,A,B,D,U,R,L,(3,1),(0,0),图2-9 逆推法求纳什均衡,(2,2),表2-2 策略式表述,与策略式分析比较,与策略式分析比较,逆向归纳法实质上是重复剔除劣战略法在扩展式博弈中的应用。 逆向归纳法不适用于无限博弈和不完美信息博弈。 逆向归纳法剔除了“非理性”的均衡策略,可信性问题,可信性(credibility)的含义 参与人事先宣布的行动方案是否在实际执行过程中也能保持一致?,一个实例,B,A,分,不借,借,不分,图2-10 开金矿博弈,(1,0),(2,2),(0,4),A在开采价值4万元的金矿时缺1万元资金,B正好有1万元资金可以投资。设想A说服B将这1万元资金借给自己用于开矿,并许诺在采到金子后与B对半分成,B是否应该将钱借给A呢? B关心的是A开采到金子后是否会履行诺言?,可信性问题,B,A,分,不借,借,不分,图2-10 开金矿博弈,(1,0),(2,2),(0,4),B的处境是“不借”则资金安全,但得不到利润;“借”则面临A的不守信风险。 若根据 “经济理性”原则,一旦B将钱借出,A将卷款逃走;因此,B的最优策略是“不借” 这说明,在这样的博弈结构下,A的承诺是“不可信的” 。,可信性问题,B,A,分,不借,借,不分,图2-10 开金矿博弈,(1,0),(2,2),(0,4),因此,双方最优策略为第一阶段,B选择“不借” 若博弈到达第二阶段,则A 选择不分。 如果引入法律机制,可信性问题,B,A,分,不借,借,不分,图2-11 有法律保障的开金矿博弈,(1,0),(2,2),(0,4),B,(1,0),打,不打,可信性问题,图2-11是有法律保障的开金矿博弈问题。 由该图可以看出,最终博弈的理性结果为B借钱给A,开采结束后,A与B利润平分(用逆序归纳法,自己验证一下)。,可信性问题,B,A,分,不借,借,不分,图2-12 法律保障不足的开金矿博弈,(1,0),(2,2),(0,4),B,(-1,0),不打,打,若法律保障不足以使B坚持打官司,如图2-12所示,则与前面分析类似,B在第一阶段将选择“不借”,A在第二阶段将选择“不分”(一旦B借款给A的话)。 一旦B由于“糊涂”将钱借给了A,则第三阶段将选择不打官司。,B,A,分,不借,借,不分,图2-12 法律保障不足的开金矿博弈,(1,0),(2,2),(0,4),B,(-1,0),不打,打,上述分析说明,在一个有私心,重视自身利益的成员组成的社会里,完善公正的法律制度不但能保证社会的公平,而且还能提高社会经济活动的效率。,可信性问题,逆向归纳法小结,逆向归纳法求解策略:从动态博弈的最后一个阶段出发,对该参与人采用经济理性原则进行分析,逐步到推回前一个阶段相应参与人的行动选择,一直到第一阶段的分析方法。,逆向归纳法小结,由于逆推法确定的各参与人在各阶段的行动选择,都是建立在后续阶段各个参与人理性选择基础上的,因此自然排除了包含不可信承诺的可能性。 逆向归纳法中的共同知识。 逆推归纳法是完美信息动态博弈分析中使用最普遍的方法。,子博弈完美均衡,在动态博弈的战略式表述中,纳什均衡假定每一个参与人在选择最优战略时,是基于其他所有参与人战略选择给定前提下进行的,而没有考虑到自己的选择对其他参与人的影响,因此,纳什均衡具有一定的缺陷性。 泽尔腾(Selten)的子博弈完美纳什均衡(subgame perfect Nash Equilibrium)在一定程度上对此作出了贡献。,子博弈完美均衡,子博弈概念 一个扩展式博弈的子博弈G由一个决策结x和所有该决策结的后续结T(x)组成,它满足下列条件: x是一个单结信息集,即h(x)=x; 对于所有的T(x)中的x,如果x与x同属于一个信息集,则x也在T(x)中。 图2-13表示了子博弈与原博弈的关系。需要说明的是,G本身是自己的一个子博弈。,A,B,B,开发,不开发,开发,不开发,开发,图2-13 博弈和子博弈,B,开发,a)原博弈,b)子博弈I,不开发,不开发,B,开发,c)子博弈II,不开发,(-3,-3) (1,0) (0,1) (0,0),(-3,-3) (1,0) (0,1) (0,0),子博弈完美均衡,图2-14的两个博弈扩展型中,特殊颜色标示的部分都不是原博弈的子博弈。,A,B,B,L,D,U,R,L,图2-14 构不成子博弈的图形表示(1),a)原博弈,R,图2-15中红色部分构成的图形不是原博弈的子博弈,因为否则参与人C的信息集将被切割。,A,B,B,L,D,U,R,L,R,C,l,C,r l,C,r l,C,r l r,图2-15 构不成子博弈的图形表示(2),子博弈完美均衡,子博弈完美均衡,子博弈完美纳什均衡 扩展式博弈的一个战略组合s*=(s1*,si*,sn*)是一个子博弈完美纳什均衡,如果 它是原博弈的纳什均衡。 它在每一个子博弈上都是纳什均衡。,子博弈完美均衡,行为战略子博弈完美纳什均衡可类似定义。 纳什均衡与子博弈精炼纳什均衡的关系 前面分析说明,一个特定的纳什均衡决定了原博弈树上唯一的一条路径,这条路径称为“均衡路径”(equilibrium path)。 相对该纳什均衡,其他路径称为非均衡路径(out-of-equilibrium path)。如图2-16中的房地产博弈中,子博弈完美均衡,博弈的路径A不开发B开发(0,1)是纳什均衡 (不开发,开发,开发)的均衡路径,相对此纳什均衡,其他路径为非均衡路径。 纳什均衡只要求在均衡路径的决策结上是最优的。,不开发,开发,不开发,开发,(0,1),(0,0),图2-16 房地产开发博弈,A,B,B,(-3,-3),(1,0),开发,不开发,子博弈完美均衡,在每一个子博弈上给出纳什均衡意味着,构成子博弈纳什均衡的战略不仅在均衡路径的决策结上是最优的,同时在非均衡路径的决策结上也是最优的。 对于有限完美信息博弈,前面介绍的逆推归纳法得出的纳什均衡即是子博弈精炼纳什均衡。,不开发,开发,不开发,开发,(0,1),(0,0),图2-16 房地产开发博弈,A,B,B,(-3,-3),(1,0),开发,不开发,一些说明,逆推归纳法实质上是以“所有参与人是理性的”是所有参与人的共同知识。 但对参与人数较多且博弈阶段数较多时,上述假设在实际中将会受到怀疑。 请看图2-17的“蜈蚣博弈”,一些说明,若使用逆推归纳法,可以预测所有参与人都将选择A。 当n很大时,上述预测很值得怀疑。考虑参与人1.,一些说明,由此类问题及其他问题引出的博弈理论模型与真实行为差异的论争,在博弈论诞生之日至今,一直是没有停止的话题。,经典案例(1):斯塔克博格模型,与古诺模型类似,斯塔克博格(Stackelberg)模型也有两个厂商,但 两个厂商一方实力较强,一方较弱。 产量决策由实力较强的一方先进行选择,较弱的一方则根据较强的一方的产量(能够完全观察得到)选择自己的产量。 其他有关信息,如策略空间、支付函数、信息结构等与古诺模型一致。,经典案例(1):斯塔克博格模型,Stackelberg博弈在实际中是很多的 长虹主动出击的价格战 美国的通用汽车与福特、克莱斯勒等,经典案例(1):斯塔克博格模型,进而可以求出两个厂商在给定产量下的利润,为,经典案例(1):斯塔克博格模型,用逆推法分析该博弈 根据逆推法的思路,先分析第二个阶段厂商2的决策。 在厂商2开始决策时,厂商1的选择q1实际上已经决定且为厂商2知道。 因此,对于厂商2来说,相当于在给定q1的情况下,求使u2达到最大值的q2.即对u2求极值。,令厂商2的1阶导数等于0,求得等式为,即,该式表明厂商2根据场上1不同的产量来决定自己的最优产量,实质上这是厂商2的反应函数。,经典案例(1):斯塔克博格模型,厂商1知道厂商2的这种决策思路,因此在决定q1时,就知道厂商2会按上式进行针对性的决策。因此,可将上式直接代入其利润函数,为,可以很容易地求出上式的最大值,为,经典案例(1):斯塔克博格模型,由厂商1的最优产量决策,以及厂商2的最优反应函数,经典案例(1):斯塔克博格模型,根据上面两个表达式,可以求出厂商2的最优产量及最优产量下的利润水平,利用斯塔克博格模型有关假设数据,可以算出二寡头古诺模型中,二厂商的均衡价格、产量、利润(过程从略)。结果与斯塔克博格模型对照,见表2-3,表2-3 古诺模型和斯塔克模型对照,经典案例(1):斯塔克博格模型,经典案例(1):斯塔克博格模型,小结 由于厂商1占据先行之利,因此获得了较大的利益。 在信息不对称的博弈中,掌握较多信息的参与人(如斯塔克博格模型中参与人2)不一定得到较多的利益(与古诺模型对照)。,经典案例(2):讨价还价博弈,讨价还价(bargaining)是市场中最常见、普通的事情。也是博弈论中典型的动态博弈问题。 讨价还价模型还可以推广到谈判问题。 这里介绍的是讨价还价最为经典的模型。,经典案例(2):讨价还价博弈,假设有两个人分割一块蛋糕,参与人1先出价(offer),参与人2可以选择接受(accept)或拒绝(reject); 如果参与人2接受,博弈结束,蛋糕按参与人1的方案分配。如果参与人2拒绝,参与人2出价,参与人1决定接受或拒绝; 如果参与人1接受,博弈结束,蛋糕按参与人2的方案分配。如果参与人1拒绝,参与人1再出价,经典案例(2):讨价还价博弈,上述过程反复进行,直到一个参与人的出价被另一个参与人接受为止。 这是一个无限期完美信息博弈,参与人1在1, 3, 5,出价,参与人2在时期2,4,6,出价。,经典案例(2):讨价还价博弈,若用x表示参与人1的份额,(1-x)表示参与人2的份额,x1和(1-x1)分别是参与人1出价时参与人1和参与人2的份额,x2和1-x2分别是参与人2出价时参与人1和参与人2的份额。 假定参与人1和参与人2的贴现因子分别为1和2,如果博弈在时期t结束,t是参与人i的出价阶段,则参与人1支付的贴现值是1= 1t-1xi,参与人2支付的贴现值是2= 2t-1(1-xi),经典案例(2):讨价还价博弈,结合切蛋糕问题,贴现值既可以理解为 资金的时间价值 由于蛋糕由于未被分割出去所造成的自然缩减。 双方的耐心程度。,经典案例(2):讨价还价博弈,问题分析 由于该博弈是无限期博弈,因此,不能直接采用逆推归纳法。 为分析上述问题,先考虑阶段数有限的情形。,经典案例(2):讨价还价博弈,有限阶段讨价还价问题 假定博弈只进行两个时期,在T=2,参与人2出价,如果他提出x2=0,参与人1会接受(假定参与人在接受和拒绝之间无差异时,我们假定他选择接受)。 因为博弈在T=2时,参与人2再没有讨价还价的机会。,经典案例(2):讨价还价博弈,参与人2在T=2时得到的1单位等价于在t=1时的2单位,因此,如果参与人1在t=1时出价1-x1 2,参与人2会接受; 因为参与人1没有必要给参与人2多于他会接受的最低份额,博弈均衡结果是参与人1得到x=x1=1- 2,参与人2得到1-x =2,(a) T=1时参与人1出价情况 (b)T=2时参与人2出价情况 图2-18 两阶段讨价还价示意,2,1-2,经典案例(2):讨价还价博弈,经典案例(2):讨价还价博弈,再假定T=3 在最后阶段,参与人1出价,他可以得到的最大份额是x1=1; 因为参与人1在T=3时1单位等价于T =2时的1单位,因此,如果参与人2在T=2时出价x2=1,参与人1将会接受; 因为参与人2在T=2的(1-1)单位等价于T=1时的2(1-1),因此,如果参与人1在T=1时出价1-x1= 2(1-1),参与人2将会接受。 因此,子博弈精炼均衡结果是x=1- 2(1-1),当T=4, 5, 等有限整数值时,仿照前述方法,可以推导出任何给定的T的子博弈精炼纳什均衡。 如果1=2=0,不论T为多少,子博弈精炼均衡的结果是 x =1;就是说,如果两个参与人都是绝对无耐心的,第一个出价的人得到整个蛋糕; 如果2=0,不论1为多少,子博弈精炼均衡结果仍然是x=1; 如果1=0, 20, 子博弈精炼均衡结果是x=1-2,经典案例(2):讨价还价博弈,经典案例(2):讨价还价博弈,如果1=2=1, 即双方都有无限耐心,那么,如果T=1,3,5,均衡结果是x=1;如果T=2,4,6,,均衡结果是x=0。 这里的结果可以称之为“后动优势”(last-mover advantage),经典案例(2):讨价还价博弈,一般说来,如果0i1, i=1,2,均衡结果不仅依赖于贴现因子的相对比率,而且还依赖于博弈时期T和谁在最后阶段出价。然而,这种依存关系随着T的变大而变小 当T趋于无穷时,我们得到“先动优势”:如果1=2=,唯一的纳什均衡结果为 x=1/(1+),无限阶段讨价还价问题 罗宾斯坦恩(Rubinstein, 1982):在无限期轮流出价博弈中,唯一的子博弈精炼纳什均衡结果是,经典案例(2):讨价还价博弈,无限阶段讨价还价问题 罗宾斯坦恩(Rubinstein, 1982):在无限期轮流出价博弈中,唯一的子博弈精炼纳什均衡结果是 如果1=2=,则,经典案例(2):讨价还价博弈,经典案例(2):讨价还价博弈,上述定理的证明 由于T=,博弈没有最后阶段,不可能使用逆推归纳法。 但根据Shaked, Sutton(1984),因为从参与人1出价的任何一个阶段开始的子博弈等价于从T=1开始的整个博弈,因此可转换为有限阶段讨价还价问题。 见图2-19。,从任一阶段开始的子博弈(t为奇数),图2-19 无限阶段讨价还价问题,从t=1阶段开始的整个博弈,经典案例(2):讨价还价博弈,假定在时期t3时参与人1出价,参与人1能得到的最大份额是M; 对参与人1而言,t期的M等价于t-1期的1M,参与人2知道在t-1时期的任何x21M的出价将被参与人1接受,因此参与人出价x2= 1M,自己获得1- 1M; 对于参与人2而言,t-1期的1- 1M等价于t-2期的2 (1- 1M),参与人知道在t-2期的任何x1=1- 2 (1- 1M)出价将被参与人2接受,因此参与人1出价x1=1- 2 (1- 1M),t=1,t=2,t=k,t=3,x=M,x=1M,x=1- 2 (1- 1M),经典案例(2):讨价还价博弈,因此有 x=1- 2 (1- 1M)=M 进而求得,t=1,t=2,t=k,t=3,x=M,x=1M,x=1- 2 (1- 1M),经典案例(2):讨价还价博弈,与此类似,可求出参与人1能够获得的最小份额m,为,经典案例(2):讨价还价博弈,由于参与人1能得到的最大份额和最小份额相同,均衡结果是唯一的,为,多阶段静态博弈,该类模型中至少在某个阶段参与人同时选择其决策。,多阶段静态博弈,模型一例 博弈中有四个参与人,分别用参与人14表示。 第一阶段是参与人1与2的决策选择阶段,他们同时在各自的策略集A1和A2中分别选择a1和a2。 第二阶段是参与人3与4决策选择阶段,他们看到参与人1和2的决策a1和a2后,同时在各自的策略集A3, A4中分别选择a3和a4。 各参与人的支付函数是参与人的策略a1, a2, a3, a4的函数,记为ui = ui (a1, a2, a3, a4),多阶段静态博弈,有同时选择的动态博弈问题 如国际竞争中最优关税博弈问题,两个制定关税的国家可看成标准模型中的参与人1与2;两国各自的一个相互进行产量竞争的企业就是模型中的参与人3于4。 上述标准模型的变形,如某个阶段只有一个参与人;第二阶段的参与人3于4与第一阶段的参与人1与2相同等,也属于同时选择的动态博弈问题。,多阶段静态博弈,这类模型实质上就是完美信息动态博弈,因此仍然可以采用逆推归纳法进行分析。 因为存在同时选择,因此每个阶段不再是单人优化问题,而是一个静态博弈。,多阶段静态博弈简例:挤兑博弈,问题描述:银行信贷对社会经济发展的作用无可估量,但它在带来巨大利益的同时也蕴含着一定的风险。 设一家银行为了给一个企业贷放一笔20000元的贷款,以20%的年利率吸引客户存款。若两个客户各有10000元资金,如果他们把资金作为1年期定期存款存入该银行,那么银行就可以向企业贷款。如果两客户都不愿存款或只有一个客户存款,那么银行就无法给上述企业贷款,这时候客户的本金可以保全。,多阶段静态博弈简例:挤兑博弈,在两个客户都存款,从而银行给上述企业提供贷款的情况下,如果银行满1年收回贷款,企业就能完成一笔生意,银行可收回贷款本息,并可支付存款客户的存款本息。 如果在不到1年的时候,其中任何一个客户单独或同时要求提前取出存款,银行就不得不提前收回贷款。假设银行只能收回80%的本钱。 若只有一个客户要求提前取款,则银行会偿还其全部本金,余款则属于另一客户;若两客户同时要求提前取款,则平分回收的资金。,多阶段静态博弈简例:挤兑博弈,根据上述假设,可以用图2-20的两个矩阵表示该问题。,客户2,客户1,图2-20 银行挤兑风险,客户2,客户1,第一阶段,第二阶段,多阶段静态博弈简例:挤兑博弈,用逆推归纳法来分析该博弈。 在第二个阶段的博弈。这是一个二人完全信息静态博弈,可以得出该博弈有两个纯策略纳什均衡(提前,提前)和(到期,到期)。 对应的支付情况分别为(0.8,0.8)和(1.2,1.2)。分别为风险占优均衡和帕雷托占优均衡。,客户2,客户1,第二阶段,多阶段静态博弈简例:挤兑博弈,其中,风险占优均衡就是“挤兑”现象,而帕雷托占优则是金融健康的经济现象。若采用风险占优策略的客户比例较大,超出了银行承受能力,就可能会造成金融危机。,客户2,客户1,第二阶段,如果第二个阶段博弈结果是比较理想的(到期,到期)纳什均衡,那么这时候第一阶段的博弈相当于图2-21的支付矩阵(完全信息静态博弈)。,第一阶段,如果第二个阶段博弈结果是比较理想的(到期,到期)纳什均衡,那么这时候第一阶段的博弈相当于图2-21的支付矩阵(完全信息静态博弈)。,多阶段静态博弈简例:挤兑博弈,图2-21 第一阶段等价博弈(1),此时也有两个纯战略纳什均衡,为(不存,不存),(存款,存款),且后一个均衡策略帕雷托优于前一个,同时也是风险占优均衡。 因此,两客户都会选择存款给银行。这是银行融资信用很好起的作用。,多阶段静态博弈简例:挤兑博弈,图2-21 第一阶段等价博弈(1),如果第二个阶段博弈结果是不甚理想的(提前,提前)纳什均衡,那么这时候第一阶段的博弈支付如图2-22的矩阵。 此时(不存,不存)是两客户的纳什均衡,也是占优均衡。因此,两客户都会选择“不存”,这相当于客户不再信任银行的情况。 但这时候不会引起银行挤兑现象及金融危机。因为没有人存钱给银行。,多阶段静态博弈简例:挤兑博弈,图2-22 第一阶段等价博弈(2),多阶段静态博弈简例:挤兑博弈,由该模型,可将由于挤兑导致的金融危机解释为: 在金融稳定时期,社会闲散资金会选择银行; 企业多数从银行贷款进行发展,但若从事的项目风险较大,有些企业可能到期不能偿还贷款; 社会储户由于上述信息引起恐慌,引发挤兑现象; 挤兑现象达到一定程度,引发一些银行倒闭; 金融危机由此产生。,多阶段静态博弈简例:工作竞赛,博弈论在经济、机制理论上的应用,是现代博弈论的一个重要应用领域。 传统经济理论分析往往是“思辨似的”,“语言式的”分析方式,“一千个读者就有一千个哈姆雷特”。因此,在看似合理的分析的同时,可能产生不同甚至相互矛盾的结论也就不足为奇了 博弈论以定量化分析为主要特色,分析更具有严密性。,工作竞赛问题描述 有两个工人,工人i (i=1或2)的产出,可用 yi = ei +i, 其中 ei 是努力程度, i是随机扰动项。,多阶段静态博弈简例:工作竞赛,生产程序如下:第一,两个工人同时选择非负的努力水平 ei 0;第二,随机扰动项1, 2彼此独立,并服从期望值为0、密度为f()的概率分布;第三,工人的产出可以观测,但各自选择的努力水平无法观测,从而工人的工资可以决定于个人的产出,但无法直接取决于其努力水平。,多阶段静态博弈简例:工作竞赛,老板的激励措施是,工作竞赛的优胜者(即产出水平较高的工人)获得的工资为wH; 失败者的工资为wL. 工人获得工资水平w并付出努力程度e时的收益为u (w,e) =w g(e),其中g(e)表示努力工作带来的负效用,是递增的凸函数(g 0, g0)。 老板的收益为y1+y2-wH-wL,多阶段静态博弈简例:工作竞赛,记老板为参与人1,他的行动a1是选择工作竞赛中的工资水平wH,wL; 两个工人是参与人3,4,他们观测第一阶段选定的工资水平,然后同时选择行动a3,a4,也就是选择努力的程度e1,e2 参与者各自的收益如前面所给出。,多阶段静态博弈简例:工作竞赛,分析 假定老板已经选定了工资水平wH,wL,如果一对努力水平组合(e1*,e2*)是第二阶段两工人博弈的纳什均衡,则对于每一个i,ei*必须使工人的期望工资减去努力带来的负效用后的净收益最大,即,多阶段静态博弈简例:工作竞赛,进一步化简该式,得,其中,多阶段静态博弈简例:工作竞赛,进一步化简该式,得,多阶段静态博弈简例:工作竞赛,上式的一阶最优条件为,该式的含义是,工人i选择努力程度ei, 从而使得额外努力的边际负效用g等于增加努力的边际收益,后者又等于对优胜者的奖励工资(wH-wL),乘以因努力程度提高而使获胜概率的增加。,多阶段静态博弈简例:工作竞赛,根据贝叶斯法则,多阶段静态博弈简例:工作竞赛,于是一阶条件可化为,多阶段静态博弈简例:工作竞赛,于是一阶条件可化为,多阶段静态博弈简例:工作竞赛,在对称均衡下,e1*=e2*=e*,得到新的式子,于是一阶条件可化为,多阶段静态博弈简例:工作竞赛,在对称均衡下,e1*=e2*=e*,得到新的式子,阶段结论 由于g(e)是凸函数,优胜获得的奖励越高,就会激发更大的努力; 另一方面,在同样的奖励水平下,对产出的随机扰动因素越大,越不值得努力工作,因为这时工作竞赛的最终结果在很大程度上取决于运气,而非努力程度。,多阶段静态博弈简例:工作竞赛,按照逆向归纳法,假定工人们同意参加工作竞赛,对于给定的wH 和wL的反应,就是前面描述的对称纳什均衡策略,多阶段静态博弈简例:工作竞赛,假定工人可以寻求其他就业机会,得到的效用为Ua,如果老板要使工人有动力参加工作竞赛,则他必须选择满足下式的工资水平,多阶段静态博弈简例:工作竞赛,直观上就可看出,老板给出的工资水平在满足下式的基础上,越低越好。因此,成立,多阶段静态博弈简例:工作竞赛,直观上就可看出,老板给出的工资水平在满足下式的基础上,越低越好。因此,成立,多阶段静态博弈简例:工作竞赛,此时老板的利润为,多阶段静态博弈简例:工作竞赛,该式的一阶条件为,由式子,多阶段静态博弈简例:工作竞赛,该式的一阶条件为,可以得出,多阶段静态博弈简例:工作竞赛,该式的一阶条件为,可以得出,多阶段静态博弈简例:工作竞赛,与下式联立,就可得出老板的最优工资确定策略,前向归纳法,前面已经说明,完美信息动态博弈的经典求解方法为逆序归纳法。 还有一种分析方式,就是前向归纳法(forward induction)。 前向归纳法由科尔博格和莫顿斯(1986)提出。 这里不进行严格的数学描述,仅通过一个例题进行说明。,前向归纳法一例:烧钱博弈,回顾博弈论的经典问题,性别战博弈,图2-23 性别战博弈,PLAYER l,前向归纳法一例:烧钱博弈,该博弈有两个纯策略均衡(T, L), (B, R)以及一个混合策略均衡。,图2-23 性别战博弈,PLAYER l,前向归纳法一例:烧钱博弈,现对博弈进行稍微修改,见图2-24,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,这时博弈的合理结果是什么?,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,如果博弈到达第2阶段,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,说明参与人1放弃了第一阶段获取2单位效用的机会,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,如果参与人是理性的,必然在第二阶段追求更好( 2)的结局。,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,因此,在第二阶段,参与人1必然要选取策略T.,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,预见到上述情况,参与人2将选择策略L,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,前向归纳法一例:烧钱博弈,因此,按照前向归纳法逻辑,合理结局是,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,重复博弈和无名氏定理,重复博弈(repeated game)的定义 指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈(stage game)”。 如两个多次犯罪的“囚徒问题”。 由于动态博弈是相机行动,反映到重复博弈中,就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史。,重复博弈和无名氏定理,如囚徒困境的重复博弈的一个策略可以是:“如果这次你选择了坦白,我下次将选择坦白;如果你这次选择了抵赖,我下次将选择抵赖” 。 因此,参与人在重复博弈中的战略空间远远大于和复杂于在每个阶段博弈中的战略空间。 思考题,请测算以下重复5次的囚徒困境问题,双方的纯策略数目共有多少个?,重复博弈和无名氏定理,影响重复博弈均衡结果的主要因素是博弈重复次数和信息的完备性(completeness)。 重复次数对参与人可能会有的影响是:参与人为了获得长远利益而牺牲眼前利益的策略成为可能。 关于完备性,简单地说,但一个参与人的支付函数不为其他参与人所知时,该参与人可能有积极性建立一个“好”的声誉(reputation)以换取长远利益。 在社会行为中,经常可以看到本质不好的人在相当长的时期内干好事的原因。 该部分内容在不完全信息动态博弈中再作分析。,重复博弈和无名氏定理,有限次重复博弈:连锁店悖论 考虑如图2-25所示的市场进入博弈。 如果进入者先行动,则可表示为完全信息动态博弈的博弈树形式,见图2-26。图中A表示进入者,B表示在位者。,图2-25 市场进入博弈,在位者,进入者,该博弈唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许,分别得到40和50的支付。,不进入,进入,斗争,默许,(0,300),(0,300),图2-26 市场进入博弈,A,B,B,(40,50),(-10,0),默许,斗争,重复博弈和无名氏定理,重复博弈和无名氏定理,现在假定同样的市场有20个(可以理解为在位者有20个连锁店),进入者每次进入一个市场,博弈就变成了20次重复博弈。 假定进入者先进入第1个市场,在位者应该作如何反应? 按照一般的认识,在位者应该坚决进行斗争,即便是损失该市场,但可以阻止其他19个市场的进入者的进入。 但按照子博弈精练纳什均衡分析方法,却与上述结论相左。,重复博弈和无名氏定理,分析过程如下: 设想前19个市场已被进入,进入者现在进入第20个市场。因为在最后阶段,选择斗争已没有任何威慑意义,在位者最优选择是默许,进入者将选择进入。 现在考虑第19个市场。因为无论在位者选择什么行动,第20个市场上的均衡结果不受影响(因为进入者知道第20各市场上在位者将选择默许),在位者最优选择仍然是默许。,重复博弈和无名氏定理,如此一直倒推回去,我们得到这个博弈的唯一子博弈精炼均衡是在位者在每一个市场上都选择默许,进入者在每一个市场上选择进入。 这就是所谓的“连锁店悖论”(chain-store paradox, Selten,1978),重复博弈和无名氏定理,囚徒困境问题与市场进入博弈类似,只要博弈的重复次数是有限的,最后阶段博弈的唯一纳什均衡是两个囚徒都选择坦白,且“总是坦白”是唯一的子博弈精炼均衡。 上述结果可以一般化为下述定理。 定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T)。那么,如果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。,重复博弈和无名氏定理,上述定理说明,只要博弈的重复次数是有限的,重复本身并不改变囚徒困境的均衡结果。 上述定理中“唯一性”是一个重要条件。 如果纳什均衡不是唯一的,上述结论就不一定成立。 当博弈有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为。,重复博弈和无名氏定理,前述连锁店悖论的一个解释是引入信息的不完全性。在不完全信息动态博弈中,可以看到这一点。 这里先给出一个解释模型,即当博弈重复无穷多次而不是有限次时,存在着完全不同于一次博弈的子博弈精炼均衡。 以囚徒问题为例,对此进行说明。,重复博弈和无名氏定理,为便于讨论,将囚徒问题复制于此,见图2-27。 可以证明,如果参与人有足够的耐心,(抵赖,抵赖)是一个子博弈精炼纳什均衡结果。,图2-27 囚徒困境问题,囚徒

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论