第讲博弈论重复博弈ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-01-27 格式：PPT 页数：55 大小：2.41MB 积分：25 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

66162 科技楼1406 1 为什么现实生活中并不总是出现囚徒困境 2 重复博弈 3 重复博弈引论为何研究重复博弈经济中的长期关系人们的预见性未来利益对当前行为的制约长期合同回头客长客和一次性买卖的区别有无确定的结束时间 4 无限次重复博弈一个基本博弈G一直重复博弈下去的博弈G 策略博弈方在每个阶段针对每种情况如何行为的计划子博弈从某个阶段不包括第一阶段开始包括此后所有的重复博弈部分均衡路径由每个阶段博弈方的行为组合串联而成 5 重复博弈和无名氏定理重复十次 1 两人同时选好十次策略 2 两人一次博弈接一次博弈 10次 3 一人先选一人后选 10次图2 27囚徒困境问题囚徒2 囚徒1 6 重复博弈和无名氏定理重复博弈 repeatedgame 的定义指同样结构的博弈重复多次其中的每次博弈称为阶段博弈 stagegame 如两个多次犯罪的囚徒问题由于动态博弈是相机行动反映到重复博弈中就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史 7 重复博弈与策略空间的扩展如囚徒困境的重复博弈的一个策略可以是如果这次你选择了坦白我下次将选择坦白如果你这次选择了抵赖我下次将选择抵赖因此参与人在重复博弈中的策略空间远远大于和复杂于在每个阶段博弈中的策略空间假定上属博弈重复多次或无限次那么每个参与人有多个可以选择的战略仅举几例 All D 不论过去什么发生总是选择不合作 All C 不论过去什么发生总是选择合作合作不合作交替进行 tit for tat 从合作开始之后每次选择对方前一阶段的行动 triggerstrategies 从合作开始一直到有一方不合作然后永远选择不合作 8 9 两个均衡 10 均衡进入合谋为什么实际上还是有很多会选择进入斗争 11 重复博弈和无名氏定理如此一直倒推回去我们得到这个博弈的唯一子博弈精炼均衡是在位者在每一个市场上都选择默许进入者在每一个市场上选择进入这就是所谓的连锁店悖论 chain storeparadox Selten 1978 因为实际生活中进入者和在位者在每个市场都斗得你死我活 12 有限次重复博弈定理令G是阶段博弈 G T 是G重复T次的重复博弈 T 如果G有唯一的纳什均衡重复博弈G T 的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次即每个阶段博弈出现的都是一次性博弈的均衡结果只要博弈的重复次数是有限的重复本身并不改变囚徒困境的均衡结果条件唯一性如果纳什均衡不是唯一的那会怎么样有限性如果博弈重复无限次那会怎么样时间性如果每次博弈的收益受到时间贴现率利率风险通货膨胀的影响那会怎么样 13 多个均衡的重复博弈 H H 是合作但不是NENE为 M M L L 纯策略动作混合策略条件策略 H M M H L L 其他策略 14 多个均衡的重复博弈两阶段博弈 HH HH 仍然不是NE 15 16 等价于一次博弈 HH是均衡所以没有人愿意偏离 17 如果背叛今天的收益加1 但是明天的收益减2 合作的收益为3 背叛的收益为1 18 眼前利益与长远利益欺骗的短期收益信誉的长期收益时间 19 当博弈有多个纳什均衡时参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为从而迫使大家合作 20 人们为什么会做好事合作因为有明天的回报或者避免明天的惩罚人的理性就在于为了将来更大的利益可以牺牲眼前利益大部分的小孩和动物一般就做不到这一点今天欺骗的收获合作后的收获承诺欺骗后的收获威胁教训在发展关系的时候承诺合作后的收益以及威胁欺骗的惩罚有时能够激励今天良好行为的发生而这种行为有助于创建一个好的未来 21 先别急着吃棉花糖有三只青蛙在河中的一片叶子上顺水漂流其中一只想跳到河里在叶子上还剩几只青蛙吃掉棉花糖等于吃掉未来美国的斯坦福大学曾进行过一个著名的棉花糖实验在这个实验里把小孩子单独留在房间里并给他们一人一块棉花糖让他们选择是要马上吃掉棉花糖还是等待十五分钟如果愿意等就可以再多得一块棉花糖作为奖赏研究结果发现为了获得奖赏能够抗拒眼前棉花糖的诱惑而等待十五分钟的小孩长大以后普遍都比那些马上吃掉棉花糖的小孩们更成功 22 无限次重复博弈图2 27囚徒困境问题囚徒2 囚徒1 23 首先一直坦白一直坦白可以是一个均衡有没有其他的均衡也即有没有其他的策略当双方都采用该策略之后就没有人反悔去用其他策略如果你知道对方会一直坦白那么你的最佳应对是一直坦白T T T T T T T T 24 考虑下列所谓的冷酷策略 grimstrategies 开始时选择抵赖选择抵赖直到有一方选择了坦白然后永远选择坦白重复博弈和无名氏定理图2 27囚徒困境问题囚徒2 囚徒1 25 D D D D D D D D D D D D T T T T D T D T T D D D D D T T T T 26 重复博弈和无名氏定理首先证明冷酷策略是一个纳什均衡回顾一下所谓纳什均衡就是这样的一个状态对于任意一个参与人给定其他参与人选择纳什均衡策略该参与人都无法偏离纳什均衡策略因此证明囚徒问题中冷酷策略是一个纳什均衡的方法是给定其中任意一个参与人坚持冷酷战略另外一个参与人的最优选择也是坚持冷酷战略 27 如果i在博弈的某个阶段首先选择了坦白在该阶段得到0单位的支付优于选择抵赖得到的 1 但这个机会主义行为将触发他的伙伴选择永远坦白的惩罚因此i随后每个阶段的支付都是 8 1是奖励 8是惩罚因此如果下列条件满足给定对手没有选择坦白 i将不会选择坦白这个不等式是否正确有限和无限的不同希尔伯特旅馆的故事 28 另外一种计算方法这个策略为什么不适用于两阶段有限重复博弈因为有逆向归纳法大家在第二阶段肯定都坦白也即第二阶段肯定是 8 不会有 1 29 所以无限很重要给你100万你愿意今天要这个钱还是明天 10年后要这个钱 Why 今天的钱并不等于明天的钱利率明天的钱并不等于今天的钱贴现率 30 贴现率将未来资产折算成现值 presentvalue 的利率一般是用当时零风险的利率来当作贴现率但并不是绝对举个例子贴现率为10 明年的100块在今年就相当于100 1 10 90 909090 块钱到了去年就是100 1 10 1 10 也就是说今年用90 909090 块可以买到的东西相当于明年100块可以买到的东西今天投资100万元的项目将来如能收回200万也不能证明此项投资一定有效因为如果这回收的200万要等50年之后今天衡量的价值就远低于100万这是由于如果利率是3 100万元存银行 50年内得到的利息也将达338万元利率为2 的话 50年的利息为169万元所以50年后回收200万的投资与存银行得利息相比不值得去做贴现率将来的钱现在花把将来的钱借给现在利率现在的钱存起来将来花把现在的钱借给将来 31 考虑贴现因子的重复博弈设a为贴现因子假定两人贴现因子相同贴现因子 1 1 贴现率如果i在博弈的某个阶段首先选择了坦白在该阶段得到0单位的支付优于选择抵赖得到的 1 但这个机会主义行为将触发他的伙伴选择永远坦白的惩罚因此i随后每个阶段的支付都是 8 因此如果下列条件满足给定对手没有选择坦白 i将不会选择坦白即 32 a 1 8a太小则将来的钱根本不管用将来不值得期待有未来但是更期待今天因此冷酷战略是一个纳什均衡 33 重复博弈和无名氏定理该策略是否是子博弈精炼均衡因为博弈重复无限次从任何一个阶段开始的子博弈与这个博弈的结构完全相同在冷酷战略均衡下子博弈可以分为两类在类型a 没有任何参与人曾经坦白在类型b 至少有一个参与人曾经坦白 34 重复博弈和无名氏定理在类型a中我们已经证明冷酷战略在a类型子博弈中构成纳什均衡在b类子博弈中根据冷酷战略参与人只是重复单阶段博弈的纳什均衡因此也是子博弈的纳什均衡因此如果a 1 8 冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡 35 重复博弈和无名氏定理该博弈还有许多其他子博弈精炼均衡各期都坦白是另一个子博弈精炼纳什均衡子博弈精炼均衡的多重性是无限次重复博弈的普遍问题 36 37 更多例子无限次重复古诺模型支持垄断产量的条件 P194 195低水平的合作 P195 197加大惩罚力度和提高合作水平 P197 199复杂的现实 OPEC P199 200工资 P200 205 38 Axelrod 1984 Tit for tat是成功率最高的战略 39 40 惩罚与合作 Abreu 1986 最大合作战略是使用最严厉的可信惩罚 thestrongestcrediblepunishment 维护合作并不需要无限期的惩罚只要惩罚期足够长就可以了萝卜加大棒 stickandcarrot 从合作开始一直合作直到如果有任何一方在t期不合作在t 1期前期合作者选择不合作来实施惩罚前期不合作者选择合作如果该合作的没有合作或者该惩罚的没有惩罚在t 2期继续按照上述t 1期的策略规定博弈否则合作恢复 41 仁人不犯我我不犯人怒以眼还眼以手还手即君子报仇十年不晚恕宽恕对方宽以待人信说到做到 42 概率问题有可能有限有可能无限明天是否继续是一个概率事件什么情况人们也是倾向于合作如果没有明天今天就会为非作歹如果有无限多明天作恶不惩罚今天就会为非作歹如果有无限多明天作恶会惩罚今天就会合作如果明天有可能或者也有可能挂掉作恶会惩罚则今天有可能合作合作的可能性看明天挂掉的概率和作恶惩罚的力度 43 不可信的惩罚垄断厂家客户商家不购买购买诚实欺骗 5 5 1 7 0 0 44 不确定性下的最优处罚在确定的情况下惩罚越严厉越有助于合作因为均衡情况下欺骗从来不会发生所以惩罚实际上是没有成本的但在不确定的情况下即使每个人都选择合作坏结果也会出现如果坏结果总是触发惩罚就会冤枉好人过重的惩罚反到导致不合作但如果总是原谅合作也不会发生 45 家族企业的困境杀熟如果惩罚对惩罚者本身的损害太大惩罚就是不可信的这与投鼠忌器是一个道理你讨厌老鼠但是你没有办法因为你心疼那个盘子那个器皿投鼠忌器在我们企业内部很多环节都会发生导致惩罚不可信所以对方就不会太注重信誉家族成员有时候比非家族成员更不可信任更不守规矩就是这个道理朋友专门骗朋友是杀熟问题也与惩罚的不可信有关 46 长期参与人与不固定的短期参与人最简单的例子是厂家与消费者之间的博弈每个消费者一般只购买一次而厂家重复出售产品给众多的消费者此时只要消费者足够多并且每个消费者能观察到前一个消费者购买的产品的质量合作仍然可以出现 47 产品质量博弈购买不购买高质量低质量 1 1 1 2 0 0 0 0 48 社会规范集体抵制 Boycott 每个人都应该诚实都有责任惩罚骗过人的人不参与惩罚的人应该受到惩罚如假定A在t期欺骗了B C在t 1期就不应该与B合作否则 D在t 2期就不应该与C合作如果C在t 1期与B合作而D在t 2期又与C合作 F在t 3期就不应该与D合作如此等等美国对不参与伊拉克战争的国家的态度 49 敌友规则开始把所有的人当朋友 t期的朋友关系继续保持到t 1期当只当他在t期不曾骗过任何人并不曾与你的敌人合作朋友的朋友是朋友朋友的敌人是敌人敌人的朋友是敌人敌人的敌人未必是朋友 50 传统社会的个人信誉在传统社会人们常年生活在封闭的村庄村民之间彼此非常熟悉欺骗行为很容易识别人们之间的口头交流足以使任何欺骗行为广为而知每个人的历史都存储在别人的脑海里对欺骗行为的惩罚即使不能施加于欺骗者本人也可以通过家庭成员而实现前面讲的四个条件基本是可以得到满足因此即使没有法律村民之间也可以建立起高度的信任欺骗行为很少发生 51 计算机中的博弈大作业调研博弈在计算机中的应用情况给出自己的见解如何调研演示 CNKI Scholar WOS 调研的广度要求 5篇论文至少1篇外文论文至少2篇2012年以后的论文调研的深度要求 1篇高引用 50次引用的论文 1篇SCI期刊论文调研的连续性要求 2篇被引用论文中存在引用关系调研的结果展示要求一定要在调研报告中出现引用标记对每篇论文关联的文字 100字自己的见解一定要有自己的见解思考这部分不允许引用文字 300字 52 计算机中的博弈大作业调研形式小组调研小组讨论形成小组结果自由组队组员不超过5名每个组员的贡献在结果报告中明确写明结果形式调研报告条件课堂报告时间一个月 6月19号课堂报告若有中间阶段检查是在6月5号创优小组超过10组注意文

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第讲博弈论重复博弈ppt课件.ppt

文档简介

温馨提示

最新文档

评论

第讲博弈论重复博弈ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档