第四讲重复博弈a.ppt_第1页
第四讲重复博弈a.ppt_第2页
第四讲重复博弈a.ppt_第3页
第四讲重复博弈a.ppt_第4页
第四讲重复博弈a.ppt_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/8/6,1,第四讲 重复博弈,本章主要内容: 1 重复博弈的概念; 2 作为一种特殊的动态博弈,有限次和无限次重复 博弈的子博弈完美纳什均衡的求解方法; 3 无限次重复博弈古诺模型和效率工资模型。 本章主要结论(民间定理): 由于参与者在重复博弈中具有了长期利益,可以通过在后面阶段中采取的报复策略使得威胁变得可信,从而摆脱静态博弈中“追求自身利益最大化”导致的囚徒困境,实现长期合作的结局。,2020/8/6,2,第一节 几个概念,重复博弈的概念 有限次重复博弈的概念,一次广告博弈,通用面粉,凯洛格,博弈论与企业竞争,企业、政府与商业环境,一次广告博弈的均衡,纳什均衡,通用面粉,凯洛格

2、,劣策略:不管其他参与人采取什么策略,都能导致最低收益的策略 理性参与人永远不会选择劣策略 许多博弈中参与者都没有占优策略,但仍可能通过劣策略的重复剔除进行分析,这种方法称劣策略重复剔除法,博弈论与企业竞争,企业、政府与商业环境,如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?,密歇根大学爱克斯罗德教授的计算机模拟 他首先邀请全世界的学者递交自认为最优的策略程序,然后将这些策略相互之间交替进行不特定次数的“重复囚徒博弈”,根据最终排名来判定优劣。第一轮14个程序之间的竞赛结果显示,“一报还一报” 的简单策略获得第一

3、。之后,又有63位科学家递交了改进的程序,进行第二轮竞赛,其中包括多个以“一报还一报”策略为基础的改良品种。令人惊异的是,第二轮比赛的优胜者仍然是“一报还一报”。 触发策略(针锋相对,以牙还牙) “如果对手在过去没有做过广告,我就不做;一旦对手作广告,自此以后,我就用高强度的广告活动来惩罚他” 事实上,只要对手在过去没有过“欺骗”行为,各个企业都会同意“合作”。因为欺骗行为会引发以后所有时期的惩罚,无限重复博弈,博弈论与企业竞争,企业、政府与商业环境,假设General Mills采用了这种触发策略,Kelloggs的利润是多少呢?,合作 = 12 +12/(1+i) + 12/(1+i)2

4、+ 12/(1+i)3 + = 12 + 12/i,相当于每年年底得到¥12的永久年金,欺骗 = 20 +2/(1+i) + 2/(1+i)2 + 2/(1+i)3 + = 20 + 2/i,通用面粉,凯洛格,博弈论与企业竞争,企业、政府与商业环境,Kellogg从欺骗行为中获得的好处:,欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. 在无限次重复博弈中共谋是纳什均衡!,通用面粉,凯洛格,博弈论与企业竞争,企业、政府与商业环境,欺骗行为的收益和

5、成本,如果 当前收益 未来成本的现值 欺骗行为是有利的 如果 当前收益 未来成本的现值 欺骗行为没有好处,通用面粉,凯洛格,博弈论与企业竞争,企业、政府与商业环境,关键点,当博弈无限重复没有确定的“终结之日”时,共谋作为纳什均衡就能够维持下去 这需要: 有能力监督对手的行动 有惩罚叛徒的能力和名声 低利率 在未来进行博弈的机会多,博弈论与企业竞争,企业、政府与商业环境,共谋在现实世界中的例子,垃圾搜集行业 水表制造业 石油输出国组织 黑手党组织,博弈论与企业竞争,企业、政府与商业环境,说明,根据谢尔曼反托拉斯法案第二节,共谋是违法的. 后果可能是罚款和坐牢 OPEC是国际间组织,美国法律不适用

6、于它,博弈论与企业竞争,企业、政府与商业环境,如果博弈有限重复进行,共谋起作用吗?,有限重复博弈,假设广告博弈被重复两次,通用面粉,凯洛格,纳什均衡,博弈论与企业竞争,企业、政府与商业环境,用逆向归纳法,结论是:不.,在第二阶段,博弈是一次博弈,因此在这最后阶段,均衡是高强度的广告活动. 由于每个人都知道第二阶段的结果,因此,第一阶段就变成了最后阶段. 两个企业在两个时期的均衡策略都是高强度的广告活动. 如果博弈重复已知的有限次数,同样的结果依然成立,博弈论与企业竞争,企业、政府与商业环境,2020/8/6,14,14,系统思维和双赢策略,“商场如战场”企业在商战中的恶性竞争不仅仅损害的是企业

7、的利益,更可怕的是往往将一个行业做“烂”。 “双赢”是一种相互的妥协,也是一种良性的竞争,它可以帮助我们实现共同利益的最大化。也就是说,它可以使我们都能分到“蛋糕”,而且可以使我们一起“把蛋糕做大”。,2020/8/6,15,行业自律 道德约束,组织形式: 中介组织;行会;保险公司 每个博弈者建立各自的“圈子”A与B的生意可能只是一次性的,但是,A却要长期与B所在“圈子”打交道,这样,通过“圈子”,A与B的一次性博弈就转化为A与B所在“圈子”的重复博弈。同时,“圈子”还有另一重作用,就是传递信息,是“双盲”博弈变成“透明”博弈,提高合作的可能性 。,2020/8/6,16,制度保证 政府监管,

8、保险制度 ; 信用制度 健全法制,完善有关规章制度,让不遵守游戏规则的投机取巧者、坑蒙拐骗者和背信弃义者受到应有的惩罚。 法律旨在使合作利益能够顺利实现,旨在促进繁荣,而并非为了威吓百姓。我国最早文献尚书.吕刑篇曾明确地指出:典狱非讫于威,唯讫于富。 摆脱恶性竞争,建立规则。,2020/8/6,17,信息披露 社会监督,解决诚信也有简单的方法,那就是建立个人信用体系,让个人的诚信记录成为共享的信息。在一个信息化时代,这很容易做到,例如将毕业生的信用在网上公布,将银行信用记录联网等等。信息的共享可以将交易或交往变成无限连续的博弈信用的机会成本。 每个博弈者建立并公开自己的信用记录一次失信留下的污

9、点会被记录在案、保存下去,影响今后一系列博弈的结果。这样就使一次性博弈变成了长期的重复博弈中的一环。,2020/8/6,18,企业制衡 策略思维,不要期望完全的公平。 将一项大的合作行动分为几次小的、连续的合作。比如:贸易、谈判都要分步进行,以促使对方采取合作态度。 增大未来的影响力:下一步的重要性;增大合作的收益。 不要奢望做永远的赢家。 无论在竞技游戏中,还是在生存竞争中,策略在其中有着举足轻重的影响和作用。,期末问题的应用,当参与方确切地知道一个重复博弈什么时候结束时,期末问题就出现了。由于无法在最后一次对对手违背协议行为进行惩罚,因此参与方就会采取如同一次博弈的策略 59岁现象 辞职问

10、题 虚假广告 火车站和旅游点的商贩,博弈论与企业竞争,企业、政府与商业环境,2020/8/6,20,4.1.1 重复博弈的概念,1 由简单的静态博弈(或动态博弈)的有限次(或无限次)重复进行构成的。 2 每一阶段博弈方、策略集合、规则和得益都相 同。 3 包括:有限次重复博弈和无限次重复博弈 4 例子: 多场决胜负的体育比赛(有限次) 两寡头市场上两个厂商之间的竞争(无限次) 商场与顾客交易,2020/8/6,21,定义:给定一个博弈G,重复进行T次G,并且在每次重复之前各博弈方都能观察到以前博弈的结果,称为G的一个“T次重复博弈”,记为G(T)。其中,G成为G(T)的原博弈。每次重复称为G(

11、T)的一个阶段。,4.1.2 有限次重复博弈的概念,2020/8/6,22,4.1.2 有限次重复博弈的概念,几个概念: 1 子博弈:从某一阶段(不包括第一阶段)开始,包含以后所有阶段的原重复博弈的一部分。 2 策略:博弈方在每个阶段针对每种情况如何行动的计划(注:在每一阶段之前,博弈方是可以观察到以前博弈的结果的)。,子博弈: 从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分,2020/8/6,23,3 路径: 是每个阶段博弈结果(原博弈的一个策略组合)连接而成。对于具有n个策略组合的原博弈,重复T次的路径数为nT,重复博弈的求解即找出具有稳定性的均衡路径。 4 得益:不同于一般

12、的动态博弈,重复博弈的得益为各个阶段得益的加总。考虑到时间的价值,需要引进“贴现系数”将未来的得益折算成当期得益的价值。,4.1.2 有限次重复博弈的概念,2020/8/6,24,第二节 有限次重复博弈,有限次重复的猜硬币博弈原博弈为零和博弈 有限次重复的囚徒困境博弈原博弈有唯一的纯策略纳什均衡 有多个纳什均衡的重复博弈的策略设计触发策略 有多个纳什均衡重复博弈的得益范围民间定理,2020/8/6,25,在零和博弈中,双方不存在合作的可能性,因此在长期进行的重复博弈中,子博弈完美纳什均衡由各个阶段原博弈的纳什均衡构成(例,在猜硬币博弈中以0.5的概率选择正面或者反面,即采取混合策略)。 实际上

13、,所有以零和博弈为原博弈所构成的重复博弈与猜硬币博弈构成的重复博弈一样,各博弈方的正确策略就是在每次重复中都采用一次性博弈中的纳什均衡策略。,4.2.1 有限次重复的猜硬币博弈,2020/8/6,26,4.2.2 有限次重复的囚徒困境博弈,图41 囚徒困境 求解思路:对于有限次重复囚徒困境博弈,根据动态博弈的逆推归纳法可以求解。,坦白,不坦白,坦白 不坦白,2020/8/6,27,4.2.2 有限次重复的囚徒困境博弈,以两阶段(以该博弈作为原博弈G重复两次)为 例:分析最后一阶段,子博弈即为原博弈,唯一的 均衡为(5,5);分析第一阶段,将最后阶段 的收益(5)添加到第一阶段的矩阵中,即: 此

14、时,博弈的纳什均衡仍是(坦白,坦白)。,坦白 不坦白,坦白,不坦白,2020/8/6,28,结论: 在有限次重复博弈G(T)中,如果原博弈G存在唯一的纯策略纳什均衡组合,则重复博弈的唯一的子博弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈纳什均衡策略。 含义:在原博弈具有唯一均衡的有限次重复博弈中,由于完全理性的博弈方具有“共同知识”的分析推理能力,因此在从最后阶段开始的逆推过程中,仍然无法摆脱囚徒困境。,4.2.2 有限次重复的囚徒困境博弈,2020/8/6,29,4.2.2 有限次重复的囚徒困境博弈,如果原博弈存在唯一的纯策略纳什均衡组合,则有限次重复博弈的唯一的均衡解即各博弈方在每阶段

15、(即每次重复)中都采用原博弈的纳什均衡策略。由于在这样的双方策略下,均衡路径中的每个阶段都不存在不可信的威胁或许诺,因此这种均衡是子博弈完美纳什均衡。,2020/8/6,30,4.2.2 有限次重复的囚徒困境博弈,定理 设原博弈G有唯一的纯策略纳什均衡,则对任意正整数T,重复博弈G(T)有唯一的子博弈完美的解,即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均每阶段得益等于原博弈G中的得益。,有限次重复削价竞争博弈,有唯一纯策略纳什均衡 (70,70)有限次重复的结果仍然是 (低价,低价),4.2.2 有限次重复的囚徒困境博弈,2020/8/6,32

16、,4.2.3 有两个纳什均衡的重复博弈,例 两个厂商1和2,同时 面临两个市场机会A和B。假 设每个厂商都只有能力选择 一市场发展,即他们的可选 择策略都是A或B,其得益矩 阵如图所示。 此博弈具有2个纯策略纳什均衡(1,4)、 (4,1)和混合策略纳什均衡概率(0.5,0.5)。,A B,图42 两厂商差别市场博弈,两市场博弈的重复博弈(重复两次),(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1) 连续两次采用混合策略(2,2) (A,B)+(B,A) OR (B,A)+(A,B)(2.2,2.5)轮换策略 一次纯策略+一次混合策略(1.5,3)(3,1.5),4.2

17、.3 有两个纳什均衡的重复博弈,图42 两厂商差别市场博弈,重复博弈不同策略、均衡及一次性博弈得益比较,不同策略组合、均衡得益图示,4.2.3 有两个纳什均衡的重复博弈,2020/8/6,35,考虑三次重复博弈各策略组合子博弈纳什均衡路径: 1.由原博弈的纳什均衡组合而成的路径,如采取轮换策略(在上述的协调博弈中,双方轮换采取纯纳什均衡策略,路径为(A,B),(B,A),(A,B).不考虑时间的价值(贴现系数),每阶段的平均得益为(41)/2 2.5,高于混合策略的得益2。 2.触发策略,博弈方首先采取合作行为,如果发现对方没有进行合作,那么在后续阶段的博弈中采取不合作策略进行惩罚。,4.2.

18、3 有两个纳什均衡的重复博弈,两市场博弈的重复博弈(重复三次),2020/8/6,36,在图42中,触发策略的设计为: (1)博弈方1的策略是第一阶段合作A,如果发现对方采取B不合作,则第二阶段采取不合作的B策略惩罚,否则第二阶段继续合作;第三阶段无条件采取B策略。 (2)博弈方2的策略是第一阶段合作A,如果发现对方采取B不合作,则后续两个阶段一直采取不合作的B策略;如果发现对方采取合作A,则第二阶段采取不合作B,第三阶段采取合作A。,4.2.3 有两个纳什均衡的重复博弈,2020/8/6,37,策略设计分析: (1)在博弈方1和2中,在第一阶段都采取了合作行为A,并针对对方的不合作行为B,都

19、设计了在后续2个阶段采取不合作B的相应惩罚措施; (2)如果对方在第一阶段中采取了合作行为,在后续阶段的策略设计中要保证博弈结局具有稳健性。因此,针对第一阶段的合作行为,后续阶段的策略设计是为了实现双方的行动协调,以保证实现纳什均衡(B,A)或(A,B)。,4.2.3 有两个纳什均衡的重复博弈,2020/8/6,38,结果分析: 子博弈路径(A,A),(A,B),(B,A)为子博弈纳什均衡。 因为后续两阶段的结局(A,B)和(B,A)为纳什均衡,而第一阶段的合作结局(A,A)是由于触发策略针对对方偏离合作的行为设计了后续两阶段都不合作的惩罚措施,其单方面偏离的路径(B,A)(B,B)(B,B)

20、收益并不增加,因此不存在偏离的动机。,4.2.3 有两个纳什均衡的重复博弈,2020/8/6,39,问题的提出:由于具有多个纳什均衡的重复博弈可以设计多种策略,在双方缺乏沟通的情况下,结局具有不确定性。因此,这里讨论具有多个纳什均衡的重复博弈可以实现的收益范围。 个体理性得益:不管对方采取何种行动,只要自己采取某种特定的策略,最低限度保证能获得的得益,或称为保留得益(1,1)。 可实现得益:各纯策略组合得益的加权平均数组。注意:并非一定是均衡策略的组合得益,因此在图42中,(3,3)也是可实现得益。,4.2.4 民间定理,2020/8/6,40,4.2.4 民间定理,用wi记博弈方i在一次性博

21、弈中最差的均衡得益,用w记各博弈方的wi构成的得益数组。结合“个体理性得益”和“可实现得益”,则有限但次数很多的重复博弈有如下民间定理: 定理:将一次性博弈中最差的均衡得益数组记为w,如果原博弈G的一次性博弈有均衡得益数组优于w,那么在有限次重复博弈G(T)中,所有不小于个体理性得益的可实现得益都至少有一个子博弈完美纳什均衡的平均得益来实现它们。,2020/8/6,41,在图4-2一次性博弈中,博弈方均衡得益分别为纯策略的得益(1,4),(4,1)和混合策略的得益(2,2),最差的均衡得益数组为w=(1,1)。 图4-3 民间定理,4.2.4 民间定理,2020/8/6,42,在图4-3中,通

22、过不同得益的组合,阴影部分(包括连线)的得益都是可实现得益。 民间定理揭示出:在有限次重复博弈中,可以通过设计触发策略来实现(或者逼近)阴影部分的得益。,4.2.4 民间定理,2020/8/6,43,定理分析:民间定理表明,在具有多个纳什均衡的有限次重复博弈中,通过设计具有可信威胁的触发策略(即在第一阶段采取合作行为,当对方不合作时通过在后续阶段采取相应的不合作策略进行惩罚;当对方合作时,在最后阶段采取一次性原博弈的纳什均衡策略作为稳定的结局。),可以使得博弈方在重复博弈的过程中具有了一定学习能力,从而达到博弈的帕累托前沿得益。,4.2.4 民间定理,2020/8/6,44,例(两人各三种可选

23、策略): L M R L M R 图44多种策略博弈的重复博弈 该博弈具有两个纯策略纳什均衡和一个混合策略纳什均衡,但是双方存在一个更好的得益(4,4)。对于二次重复博弈,根据民间定理可以设计一个触发策略来实现这个得益。,4.2.4 民间定理,2020/8/6,45,触发策略:博弈方1在第一阶段采取M策略,如果对方合作,则第二阶段采取R策略作为奖励;否则第二阶段采取L策略进行惩罚(注意(L,L)也是纳什均衡,因此具有稳定性)。博弈方2也采取同样策略。 策略分析:如果任何一方在第一阶段偏离,仅仅多获得541单位得益,而在第二阶段的得益(L,L)仅仅为1;如果在第一阶段合作,第二阶段的得益为3。因

24、此双方不存在偏离该策略的动机。,4.2.4 民间定理,2020/8/6,46,例(双方各五种可选策略重复博弈): L M R P Q L M R P Q 图45双方各五种可选策略重复博弈,4.2.4 民间定理,2020/8/6,47,该博弈具有4个纯策略纳什均衡,在二次重复博弈中,触发策略设计:第一阶段双方采取(M,M)策略,如果博弈方1偏离此策略,那么第二阶段采取(Q,Q)策略对博弈方1进行惩罚,对博弈方2进行奖励;同理,如果博弈方2偏离了此策略,那么采取(P,P)策略对博弈方2进行惩罚,对博弈方1进行奖励。如果双方都没有偏离,那么第二阶段采取具有较高收益的纳什均衡(R,R)策略。如果双方都

25、偏离了此策略,第二阶段同样采取纳什均衡的(R,R)策略。,4.2.4 民间定理,2020/8/6,48,策略分析:与图44例子相比较,由于博弈的特殊结构,这个触发策略的设计对偏离行为和合作行为分别进行惩罚和奖励,因此策略具有很强的可信性。而在图4-4例子中,针对对方的偏离行为采取了(L,L)策略进行惩罚,但是惩罚对方的同时,自身的利益也受到了损害,因此可信性不强。,4.2.4 民间定理,2020/8/6,49,第三节 无限次重复博弈,在有限次重复博弈中, (1)由于完全理性的博弈方可以运用逆推归纳法,因此对于原博弈具有唯一纳什均衡(如囚徒困境博弈)的有限次重复博弈,重复博弈结局尚无法摆脱囚徒困

26、境; (2)但是对于原博弈具有多个纳什均衡的有限次重复博弈,根据民间定理可以设计出具有可信威胁的触发策略,达到帕累托最优的博弈结局。,2020/8/6,50,第三节 无限次重复博弈,在本节的无限次重复博弈中,由于无法运用逆推归纳法,因此对于原博弈具有唯一纳什均衡(如囚徒困境博弈)的无限次重复博弈,考虑到时间的价值后,也可以设计出具有可信威胁的触发策略,摆脱囚徒困境,达到帕累托最优的博弈结局。,2020年8月6日,博弈论第六章 重复博弈的类型,51,第三节 无限次重复博弈,(一)案例分析 1.案例:网上书店的价格大战,当 当 低价 高价 低价 卓 越 高价,2020年8月6日,博弈论第六章 重复

27、博弈的类型,52,第三节 无限次重复博弈,(一)案例分析 2.一次博弈的纳什均衡 (打折,打折),囚徒困境 3.引入重复博弈:价格大战/周次 (1)假定:初始状态 (高价,高价)合作 3.引入重复博弈:价格大战/周次 (2)第二周:if“当当”背叛 低价,56 (3)第三周:卓越报复,永远低价 “当当”,63,永远3 (4)结果:合作(高价,高价),(二)案例分析,曾经有个乞丐小孩,面对他人施舍只要1元,而不要10元。 因“傻”而出名,结果不断有人闻讯前来试验,每次都发现小孩真的“傻”。,为什么要1元而不要10元,小乞丐面临的是一个长期重复博弈: 单期中,对他来说最好选择10元而放弃1元 一旦

28、接受了10元就不会再有人出于好奇给他1元。所以,如果贪眼前小财而却会损失后面细水长流的许许多多1元。 乞丐通过“装傻”的策略性行为,树立起“傻”的声誉,获得长期接受他人施舍的好处,长期关系对博弈的重要影响,第三节 无限次重复博弈,2020/8/6,54,4.3.1 几个概念,无限次重复博弈求解存在的问题:(1)由于不存在最后一个阶段,无法运用逆推归纳法求解;(2)如果不考虑时间的价值,在无限次重复加总过程中,几乎所有子博弈路径的总得益都为无穷大,因此无法比较不同路径的优劣。 解决方法:考虑到时间的价值,人们更为注重近期的得益,引入贴现系数 ,将未来阶段的收益折算到当期阶段。这样在无限次重复博弈

29、中,总收益值将是一个有限数,可以加以比较。,2020/8/6,55,贴现系数: 1/(1+),其中为以一阶段为期限的市场利率。 给定贴现系数,若无限次重复博弈一路径的某博弈方各阶段的收益为 ,则该博弈方在该无限次重复博弈中的总收益为各阶段博弈中得益的“现在值”:,4.3.1 几个概念,2020/8/6,56,4.3.1 几个概念,定义:给定一博弈G,无限次重复进行G博弈的过程称为G的“无限次重复博弈”,记为G(,),其中是各博弈方得益共同的贴现系数。并且,对任意的t,在进行第t阶段(第t次重复)博弈之前,所有博弈方都能看到前(t1)阶段博弈的结果。各博弈方在G(,)中的“得益”等于各阶段得益的

30、现在值。,2020/8/6,57,4.3.2 无限次重复的囚徒困境博弈,在有限次重复囚徒困境博弈中, 双方采取背叛策略(L,L)将是 唯一的子博弈完美均衡路径。 现在分析无限次重复博弈中, 触发策略是否会带来更好的结局? 触发策略:双方在第一阶段采取合作的策略R,如果前(t1)都是合作,那么继续合作;否则,如果对方背叛,则在后续阶段一直采取背叛策略L作为惩罚。,L R,L R,图46,2020/8/6,58,策略分析: 如果一方背叛,那么其路径(L,R),(L,L),(L,L).的总收益为: 如果一方一直采取合作策略,那么总收益为: 当满足条件 时,博弈方采取合作 策略将获得更大的总收益,求解

31、可得:,4.3.2 无限次重复的囚徒困境博弈,2020/8/6,59,4.3.2 无限次重复的囚徒困境博弈,结论:在原博弈具有唯一纳什均衡的无限次重复博弈中,在满足一定条件下 ,采取触发策略可以摆脱囚徒困境。这个条件表明贴现系数较大,博弈方比较看重未来阶段的收益。直观上看,当博弈方注重长期利益时,通过采取触发策略可以实现长期合作的圆满结局。,2020/8/6,60,4.3.3 无限次重复博弈的民间定理,本节介绍无限次重复博弈的一个基本结论,为此先介绍“无限次重复博弈的平均得益”概念,“可实现得益”概念已经在4.2.4节加以介绍。 可实现得益:阶段博弈各种纯策略组合得益的加权平均所构成的得益数组

32、,其中权数非负且总合为1,记为 。,2020/8/6,61,在图46的囚徒困境例子中,图47阴影部 分即为可实现得益。 图47 可实现得益,4.3.3 无限次重复博弈的民间定理,2020/8/6,62,无限次重复博弈平均得益的定义:如果有一常数,它作为一无限次重复博弈每个阶段的得益能产生与该博弈无限次重复中某博弈方的无穷得益数列1,2,相同的贴现值,则称为1,2,的平均得益。,4.3.3 无限次重复博弈的民间定理,2020/8/6,63,4.3.3 无限次重复博弈的民间定理,平均得益的计算: 给定贴现系数,每阶段得益都为时,无限次重复博弈的贴现值为: 如果每阶段的得益为1,2,,无限次重复博弈

33、的贴现值为: 两式联立,可以解得:,2020/8/6,64,无限次重复博弈的民间定理:设G是一个完全信息的静态博弈,其一个纳什均衡的得益记为(e1,en),其可实现得益记为( x1,xn )。如果对于任意博弈方i都有xi ei,并且足够接近于1,那么无限次重复博弈G(,)一定存在一个子博弈完美纳什均衡路径,能实现大小为( x1,xn )的重复博弈中各博弈方平均得益。,4.3.3 无限次重复博弈的民间定理,2020/8/6,65,几点说明: 1.定理表明,以得益较低的纳什均衡(e1,en)作为可信的威胁,无限次重复博弈中可以实现更好的收益( x1,xn )。 由于对于任意博弈方i都有xi ei,

34、因此这个得益是帕累托改进的。 2.定理的条件为足够接近于1,即博弈方都比较看重未来长期合作的得益,因此避免了短期行为。 3.不同于有限次重复博弈的民间定理,这里并不要求原博弈具有多个纳什均衡。,4.3.3 无限次重复博弈的民间定理,2020/8/6,66,图例分析:原博弈为 图46的囚徒困境博 弈,在菱形区域的可 实现得益区间中,只 有阴影部分才满足对 于任意博弈方i都有 xi ei的帕累托改进 条件,因此,当足够 大时,无限次重复博弈 总有一个路径实现阴影部分的收益。,4.3.3 无限次重复博弈的民间定理,图48,2020/8/6,67,回忆静态博弈的古诺模型: (1)市场总产量为Qq1+q

35、2,两厂商的策略是制 定各自的产量q1和q2,市场需求函数为P(Q)=8Q, 厂商无固定成本,边际成本为2,求解纳什均衡策 略?根据利润最大化原则,厂商1和2的利润函数: u1P(Q)q1C q1 q18(q1q2)2 q16 q1 q1 q2 q12 u2P(Q)q2C1 q2 q28(q1q2) 2 q26 q2 q1 q2 q22 对利润函数求导,得最大值:,4.3.4 无限次重复博弈的古诺模型,2020/8/6,68,联立解得,双方均衡产量(古诺产量):q2* q1*2,双方各自利润分别为: u1 u24。 (2)如果两厂商合谋,在市场上形成一个垄断厂 商,追求总利润的最大化: U=

36、P(Q)QCQ Q(8Q)2Q6QQ2 求导得:最大的总产量Q*3,最大的总利润 u*=9,每个厂商的平均产量为1.5,平均利润为u1 u24.5,大于不合作情况下古诺产量的利润4。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,69,下面分析无限次重复博弈古诺模型的3个策略。 触发策略1:第一阶段各自生产垄断产量1.5,如果双方在前(t1)阶段都进行合作,保持了垄断产量(1.5,1.5),那么第t阶段继续合作;否则生产具有较低收益的作为纳什均衡的古诺产量2。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,70,策略1分析: 如果双方一直保持合作,则每阶段的垄断收益都为4.

37、5,因此总收益: 4.5(12)4.5/(1) (1) 如果一方在第一阶段偏离合作,其应在对方采取垄断产量1.5情况下,采取使其利润最大化的产量,即: max(81.5q2)q22q2max(4.5q2).q2 解得q22.25,此时利润 u max(4.5q2).q25.0625;,4.3.4 无限次重复博弈的古诺模型,2020/8/6,71,无限次重复博弈的古诺模型,但是在后续阶段中只能得到古诺产量下的利润 4,因此总收益: 5.06254(2)5.06254/(1) (2) 如果得益满足(1)(2),触发策略下保持合 作的垄断产量将构成子博弈完美纳什均衡,可以解 得:9/17,2020/

38、8/6,72,关于触发策略的更一般结论:在触发策略1中,如果满足条件9/17,博弈方可以通过古诺产量作为威胁,迫使对方合作达成帕累托最优的垄断产量。但是,如果为了达到其它利润较低的可实现得益,相应的贴现系数要求是否可以降低(即博弈方是否可以不那么看重未来长期利益)?下面讨论两者之间的关系。 触发策略2:第一阶段生产q*,如果前(t1)阶段结局都是(q*,q*),那么继续生产q* ,否则采取纳什均衡的古诺产量2。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,73,策略2分析: 如果双方一直合作,利润: *(82q*)q*2q* (62q*)q* 总得益: (62q*)q*(12) (

39、62q*)q* /(1) (3) 如果一方在第一阶段偏离合作,其应在对方采 取q*产量的情况下,采取使其利润最大化的产量, 即:max(8q*q2)q22q2, 对q2求导解得 q2 (6q*) /2,此时利润u (6q*)2 /4;,4.3.4 无限次重复博弈的古诺模型,2020/8/6,74,4.3.4 无限次重复博弈的古诺模型,但是在后续阶段中只能得到古诺产量下的利润 4,因此总收益: (6q*)2/4 4(2) (6q*)2/4 4/(1) (4) 如果得益满足(3)(4),触发策略下 保持合作的产量q*将构成子博弈完美纳什均衡, 可以解得: q*2(95)/(9),2020/8/6,

40、75,结论:对于不同的贴现系数,无限次重复博弈的古诺模型可以相应的实现不同的可实现得益,两者之间的关系为 q*2(95)/(9) 其中,当9/17 时,q*1.5,即为触发策略1; 当0 时,q*2,即为一次性博弈中纳什均衡的古诺产量。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,76,一种胡萝卜加大棒的策略3:第一阶段双方生产垄断产量1.5,如果在第(t1)阶段结果为(1.5,1.5),没有发生偏离,则继续保持合作;如果双方同时偏离并产量相等,也既往不咎,继续保持垄断产量1.5;如果对方单方面偏离,则采取惩罚性的高产量x。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,

41、77,4.3.4 无限次重复博弈的古诺模型,策略3分析:如果一方在第一阶段中偏离垄断产量,其应在对方采取垄断产量1.5情况下,采取使其利润最大化的产量,即: max(81.5q2)q22q2max(4.5q2).q2 解得q22.25,此时利润 u max(4.5q2).q25.0625; 相对于合作垄断产量(1.5,1.5)的得益4.5,第一阶段偏离后得益的增加值为: 5.06254.50.5625 (5),2020/8/6,78,这一偏离行为在第二阶段中将面临着来自对方的惩罚性高产量x。根据策略设计,如果在第二阶段也采取同样的产量x,那么在第三阶段以后将继续保持合作垄断的结局。因此,第二阶

42、段也采取惩罚性高产量x,此阶段得益为: (82x)x2x 6x2x2。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,79,4.3.4 无限次重复博弈的古诺模型,相对于合作垄断产量的得益4.5,考虑贴现系数后,此阶段的得益损失为: (4.5 6x2x2) (6) 当得益满足(5)(6)时,保持合作的垄断产量将构成子博弈完美纳什均衡,解得: 0.5625/(4.5 6x2x2),2020/8/6,80,结论:上式表明,博弈方是否采取偏离行为,不仅与贴现系数有关,而且与惩罚性产量x的大小有关。当0.5时,只有满足x 2.25才能保证博弈方不发生偏离。 注意:由于纳什均衡的古诺产量为2,因

43、此 x2.25高于纳什均衡产量,故称为惩罚性高产量。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,81,比较策略2和策略3: 策略2表明了在无限次重复博弈的古诺模型中,采 取触发策略下双方是否能够达成合作的垄断产量, 取决于贴现系数和可实现得益的相应产量q,两者 之间存在替代关系,即 q*2(95)/(9) 。 策略3表明了采取胡萝卜加大棒策略下双方是否能 够达成合作的垄断产量,取决于贴现系数和“大棒” 的惩罚力度,两者之间也存在替代关系(即,加大 惩罚力度x可以相应的降低贴现系数), 0.5625/(4.5 6x2x2)。,4.3.4 无限次重复博弈的古诺模型,2020/8/6,82,两寡头削价竞争博弈,4.3.4 无限次重复博弈的古诺模型,2020/8/6,83,问题提出:厂商提供较高的工资w,可以促进工人努力工作,但是也增加了成本,因此需要确定一个适当的工资率;工人根据自己的能力决定拒绝或接受这个工资水平。如果工人接受工作,可以选择努力工作或者偷懒。,4.3.5 无限次重复博弈的效率工资模型,2020/8/6,84,原博弈的结构(原博弈为一个两阶段动态博弈):,4.3.5 无限次重复博弈的效率工资模型,2020/8/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论