第9讲博弈论重复博弈.ppt_第1页
第9讲博弈论重复博弈.ppt_第2页
第9讲博弈论重复博弈.ppt_第3页
第9讲博弈论重复博弈.ppt_第4页
第9讲博弈论重复博弈.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蔡树彬66162) 科技楼1406,2,为什么现实生活中并不总是出现“囚徒困境”?,3,重复博弈,4,重复博弈引论,为何研究重复博弈 经济中的长期关系 人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间,5,无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈 G() 策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成,6,重复博弈和无名氏定理,重复十次 (1)两人同时选好十次策略 (2)两人一次博弈接一次

2、博弈,10次 (3)一人先选一人后选,10次,图2-27 囚徒困境问题,囚徒2,囚徒1,7,重复博弈和无名氏定理,重复博弈(repeated game)的定义 指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈(stage game)”。 如两个多次犯罪的“囚徒问题”。 由于动态博弈是相机行动,反映到重复博弈中,就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史。,8,重复博弈与策略空间的扩展,如囚徒困境的重复博弈的一个策略可以是:“如果这次你选择了坦白,我下次将选择坦白;如果你这次选择了抵赖,我下次将选择抵赖” 。 因此,参与人在重复博弈中的策略空间远远大于和复杂于在每个阶

3、段博弈中的策略空间。 假定上属博弈重复多次或无限次;那么,每个参与人有多个可以选择的战略:仅举几例: All-D: 不论过去什么发生,总是选择不合作; All-C: 不论过去什么发生,总是选择合作; 合作-不合作交替进行; tit-for-tat: 从合作开始,之后每次选择对方前一阶段的行动; trigger strategies: 从合作开始,一直到有一方不合作,然后永远选择不合作。,9,10,两个均衡,11,均衡: (进入,合谋) 为什么实际上还是有很多会选择(进入,斗争)?,12,重复博弈和无名氏定理,如此一直倒推回去,我们得到这个博弈的唯一子博弈精炼均衡是在位者在每一个市场上都选择默许

4、,进入者在每一个市场上选择进入。 这就是所谓的“连锁店悖论”(chain-store paradox, Selten,1978) 因为实际生活中,进入者和在位者在每个市场都斗得你死我活,13,有限次重复博弈定理,令G是阶段博弈,G(T)是G重复T次的重复博弈(T)。如果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是: 阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。 只要博弈的重复次数是有限的,重复本身并不改变囚徒困境的均衡结果。 条件: “唯一性”:如果纳什均衡不是唯一的,那会怎么样? 有限性:如果博弈重复无限次,那会怎么样? 时间性:如果每

5、次博弈的收益受到时间(贴现率、利率、风险、通货膨胀)的影响 ,那会怎么样?,14,多个均衡的重复博弈,(H,H)是“合作”,但不是NE NE为(M,M)(L,L) 纯策略=动作 混合策略=? 条件策略(H|M,M|H, L|L) 其他策略,15,多个均衡的重复博弈,两阶段博弈 (HH,HH)仍然不是NE,16,17,等价于一次博弈,HH是均衡,所以没有人愿意偏离,18,如果背叛,今天的收益加1,但是明天的收益减2(合作的收益为3,背叛的收益为1),19,眼前利益与长远利益,欺骗 的短 期收 益,信誉的长期收益,时间,20,当博弈有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚前面阶段的不合作

6、行为或奖励第一阶段的合作行为。 从而迫使大家合作,21,人们为什么会做好事(合作)?因为有明天的回报,或者避免明天的惩罚。 人的理性就在于,为了将来更大的利益,可以牺牲眼前利益。 大部分的小孩和动物,一般就做不到这一点。,今天欺骗的收获 合作后的收获(承诺) 欺骗后的收获(威胁),教训:在发展关系的时候,承诺合作后的收益以及威胁欺骗的惩罚, 有时能够激励今天良好行为的发生。 而这种行为,有助于创建一个好的未来!,22,先别急着吃棉花糖,有三只青蛙在河中的一片叶子上顺水漂流。其中一只想跳到河里。在叶子上还剩几只青蛙? 吃掉棉花糖等于吃掉未来! 美国的斯坦福大学曾进行过一个著名的棉花糖实验。在这个

7、实验里,把小孩子单独留在房间里,并给他们一人一块棉花糖,让他们选择是要马上吃掉棉花糖,还是等待十五分钟。如果愿意等,就可以再多得一块棉花糖作为奖赏。研究结果发现,为了获得奖赏,能够抗拒眼前棉花糖的诱惑而等待十五分钟的小孩,长大以后,普遍都比那些马上吃掉棉花糖的小孩们更成功,23,无限次重复博弈,图2-27 囚徒困境问题,囚徒2,囚徒1,24,首先,(一直坦白,一直坦白)可以是一个均衡 有没有其他的均衡? 也即:有没有其他的策略,当双方都采用该策略之后,就没有人反悔去用其他策略? 如果你知道对方会一直坦白,那么你的最佳应对是一直坦白 T,T,T,T, T,T,T,T,25,考虑下列所谓的“冷酷策

8、略”(grim strategies): 开始时选择抵赖; 选择抵赖直到有一方选择了坦白,然后永远选择坦白。,重复博弈和无名氏定理,图2-27 囚徒困境问题,囚徒2,囚徒1,26,D,D,D,D,D,D, D,D,D,D,D,D, T,T,T,. T,D,T,D,T,. T,D,D,D,D, D,T,T,T,T,.,27,重复博弈和无名氏定理,首先证明冷酷策略是一个纳什均衡 回顾一下,所谓纳什均衡,就是这样的一个状态,对于任意一个参与人,给定其他参与人选择纳什均衡策略,该参与人都无法偏离纳什均衡策略。 因此,证明囚徒问题中冷酷策略是一个纳什均衡的方法是:给定其中任意一个参与人坚持“冷酷战略”,

9、另外一个参与人的最优选择也是坚持冷酷战略。,28,如果i在博弈的某个阶段首先选择了坦白,在该阶段得到0单位的支付,优于选择抵赖得到的-1。 但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚,因此i随后每个阶段的支付都是-8。(-1是奖励,-8是惩罚) 因此,如果下列条件满足,给定对手没有选择坦白,i将不会选择坦白,这个不等式是否正确?,有限和无限的不同,希尔伯特旅馆的故事,29,另外一种计算方法,这个策略为什么不适用于两阶段(有限)重复博弈?,因为有逆向归纳法:大家在第二阶段肯定都坦白,也即,第二阶段肯定是-8,不会有-1,30,所以,无限很重要 给你100万,你愿意今天要这个钱还是明天

10、(10年后)要这个钱?Why? 今天的钱并不等于明天的钱:利率 明天的钱并不等于今天的钱:贴现率,31,贴现率,将未来资产折算成现值(present value)的利率,一般是用当时零风险的利率来当作贴现率,但并不是绝对。 举个例子:贴现率为10%,明年的100块在今年就相当于100/(1+10%)=90.909090.块钱,到了去年就是100/(1+10%)*(1+10%),也就是说,今年用90.909090.块可以买到的东西相当于明年100块可以买到的东西。 今天投资100万元的项目,将来如能收回200万,也不能证明此项投资一定有效。因为如果这回收的200万要等50年之后,今天衡量的价值就

11、远低于100万。这是由于如果利率是3%,100万元存银行,50年内得到的利息也将达338万元(利率为2%的话,50年的利息为169万元)。所以50年后回收200万的投资与存银行得利息相比不值得去做。 贴现率:将来的钱现在花,把将来的钱借给现在 利率:现在的钱存起来将来花,把现在的钱借给将来,32,考虑贴现因子的重复博弈,设a为贴现因子(假定两人贴现因子相同)。贴现因子=1/(1+贴现率) 如果i在博弈的某个阶段首先选择了坦白,在该阶段得到0单位的支付,优于选择抵赖得到的-1。 但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚,因此i随后每个阶段的支付都是-8。 因此,如果下列条件满足,给

12、定对手没有选择坦白,i将不会选择坦白,即,33,a 1/8 a太小,则将来的钱根本不管用,将来不值得期待(有未来,但是更期待今天) 因此,冷酷战略是一个纳什均衡。,34,重复博弈和无名氏定理,该策略是否是子博弈精炼均衡? 因为博弈重复无限次,从任何一个阶段开始的子博弈与这个博弈的结构完全相同。 在冷酷战略均衡下,子博弈可以分为两类:在类型a,没有任何参与人曾经坦白;在类型b,至少有一个参与人曾经坦白。,35,重复博弈和无名氏定理,在类型a中,我们已经证明,冷酷战略在a类型子博弈中构成纳什均衡; 在b类子博弈中,根据冷酷战略,参与人只是重复单阶段博弈的纳什均衡,因此也是子博弈的纳什均衡。 因此,

13、如果a 1/8,冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡。,36,重复博弈和无名氏定理,该博弈还有许多其他子博弈精炼均衡。 各期都坦白,是另一个子博弈精炼纳什均衡 子博弈精炼均衡的多重性是无限次重复博弈的普遍问题。,37,更多例子,无限次重复古诺模型 支持垄断产量的条件:P194-195 低水平的合作:P195-197 加大惩罚力度和提高合作水平:P197-199 复杂的现实(OPEC):P199-200 工资:P200-205,38,39,Axelrod (1984),Tit-for-tat 是成功率最高的战略,40,41,惩罚与合作,Abreu(1986):最大合作战略是使用最严厉

14、的可信惩罚(the strongest credible punishment); 维护合作并不需要无限期的惩罚;只要惩罚期足够长就可以了; 萝卜加大棒(stick and carrot): 从合作开始,一直合作直到:如果有任何一方在t期不合作,在t+1期,前期合作者选择“不合作”来实施惩罚,前期不合作者选择合作;如果该合作的没有合作或者该惩罚的没有惩罚,在t+2期继续按照上述t+1期的策略规定博弈;否则,合作恢复。,42,仁:人不犯我,我不犯人 怒:以眼还眼,以手还手 即:(君子报仇,十年不晚) 恕:宽恕对方,宽以待人 信:说到做到,43,概率问题,有可能有限,有可能无限 明天是否继续是一个

15、概率事件 什么情况? 人们也是倾向于合作 如果没有明天,今天就会为非作歹 如果有无限多明天,作恶不惩罚,今天就会为非作歹 如果有无限多明天,作恶会惩罚,今天就会合作 如果明天有可能或者,也有可能挂掉,作恶会惩罚,则今天有可能合作,合作的可能性看明天挂掉的概率和作恶惩罚的力度,44,不可信的惩罚:垄断厂家,客户,商家,不购买,购买,诚实,欺骗,(5,5),(1,7),(0,0),45,不确定性下的最优处罚,在确定的情况下,惩罚越严厉,越有助于合作。因为均衡情况下,欺骗从来不会发生,所以惩罚实际上是没有成本的。 但在不确定的情况下,即使每个人都选择合作,“坏结果”也会出现。如果坏结果总是触发惩罚,

16、就会冤枉好人,过重的惩罚反到导致不合作;但如果总是原谅,合作也不会发生。,46,家族企业的困境;“杀熟”,如果惩罚对惩罚者本身的损害太大,惩罚就是不可信的。这与投鼠忌器是一个道理,你讨厌老鼠,但是你没有办法,因为你心疼那个盘子,那个器皿。投鼠忌器在我们企业内部很多环节都会发生,导致惩罚不可信,所以对方就不会太注重信誉。家族成员有时候比非家族成员更不可信任,更不守规矩,就是这个道理。 朋友专门骗朋友,是“杀熟”。问题也与惩罚的不可信有关。,47,长期参与人与不固定的短期参与人,最简单的例子是厂家与消费者之间的博弈:每个消费者一般只购买一次,而厂家重复出售产品给众多的消费者。 此时,只要消费者足够

17、多,并且每个消费者能观察到前一个消费者购买的产品的质量,合作仍然可以出现。,48,产品质量博弈,购买,不购买,高质量,低质量,1,1,-1,2,0,0,0,0,49,社会规范:集体抵制,Boycott: 每个人都应该诚实;都有责任惩罚骗过人的人;不参与惩罚的人应该受到惩罚;如:假定A在t期欺骗了B,C在t+1期就不应该与B合作,否则,D在t+2期就不应该与C合作;如果C在t+1期与B合作,而D在t+2期又与C合作,F在t+3期就不应该与D合作,如此等等; (美国对不参与伊拉克战争的国家的态度);,50,敌友规则,开始把所有的人当朋友;t期的朋友关系继续保持到t+1期,当只当他在t期不曾骗过任何

18、人并不曾与你的敌人合作; 朋友的朋友是朋友; 朋友的敌人是敌人; 敌人的朋友是敌人; 敌人的敌人未必是朋友。,51,传统社会的个人信誉,在传统社会,人们常年生活在封闭的村庄,村民之间彼此非常熟悉,欺骗行为很容易识别,人们之间的口头交流足以使任何欺骗行为广为而知,每个人的历史都存储在别人的脑海里,对欺骗行为的惩罚即使不能施加于欺骗者本人,也可以通过家庭成员而实现,前面讲的四个条件基本是可以得到满足。因此,即使没有法律,村民之间也可以建立起高度的信任,欺骗行为很少发生。,计算机中的博弈(大作业),调研博弈在计算机中的应用情况,给出自己的见解。 如何调研(演示,CNKI、Scholar、WOS) 调研的广度要求(5篇论文,至少1篇外文论文,至少2篇2012年以后的论文) 调研的深度要求(1篇高引用(50次引用)的论文,1篇SCI期刊论文) 调研的连续性要求(2篇被引用论文中,存在引用关系) 调研的结果展示要求(一定要在调研报告中出现引用标记,对每篇论文,关联的文字100字) 自己的见解(一定要有自己的见解、思考,这部分不允许引用,文字300字),52,计算机中的博弈(大作业),调研形式: 小组调研、小组讨论,形成小组结果 自由组队,组员不超过5名 每个组员的贡献在结果报告中明确写明 结果形式: 调研报告+(条件)课堂报告 时间:一个月,6月19号课堂报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论