于2章完全信息静态博弈mnew.ppt_第1页
于2章完全信息静态博弈mnew.ppt_第2页
于2章完全信息静态博弈mnew.ppt_第3页
于2章完全信息静态博弈mnew.ppt_第4页
于2章完全信息静态博弈mnew.ppt_第5页
已阅读5页,还剩164页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 完全信息静态博弈,即各博弈方同时决策,且所有博弈方对博弈中的各种情况下的得益都完全了解的博弈问题。,2004-9-22,2,在纳什均衡中,各方的预期全部会实现,所选的策略亦属最佳 -1994年宣布诺贝尔经济学奖得主时的新闻稿,均衡分析是经济学中的重要分析,均衡即是平衡的意思,在英文中是equilibrium。 在经济学中,均衡意即相关量处于稳定值。 那么什么是博弈均衡呢?博弈均衡是一个稳定的博弈结果。均衡是博弈的一种结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,在某种情况下是可以预测的。,均衡分析是经济学中的重要分析,均衡即是平衡的意思,在英文中是equilibrium。 在经济学中,均衡意即相关量处于稳定值。 那么什么是博弈均衡呢?博弈均衡是一个稳定的博弈结果。均衡是博弈的一种结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,在某种情况下是可以预测的。,均衡分析是经济学中的重要分析,根据普利高津的定律,系统总是处于一个平衡态向另一个更高级的平衡态转变的过程,但是平衡是有条件的,一旦打破这种平衡,系统就会进入不平衡的状态,系统要素之间互动,就有可能进入更高一级的平衡态。,纳什均衡,纳什均衡是一种最常见的均衡。 它的含义是:在对方策略确定的情况下,每个参与人的策略是最好的,此时没有人愿意先改变或主动改变自己的策略。,纳什均衡,纳什均衡,2.1纳什均衡(Nash Equilibrium),常用G表示一个博弈; G有n个博弈方; 每个博弈方的全部可选策略的集合称策略空间,分用S1,Sn表示; sijSi表示博弈方i的第j个策略(j可取有限个值(有限策略博弈),也可取无限个值(无穷策略博弈); Ui表示博弈方i的得益; G=S1,Sn;u1,un,纳什均衡的定义1,在博弈 中,如果由各个博弈方的各一个策略组成的某个策略组合 中,任一博弈方i的策略 ,都是对其余博弈方策略的组合 的最佳对策,也即 对任意 都成立,则称 为G的一个“纳什均衡”(Nash Equilibrium)。 各博弈方都不愿单独改变策略的策略组合是纳什均衡。,2.1纳什均衡(Nash Equilibrium),某个参与人i,用-i指除了i之外的所有其他参与人 将一个策略组合s分为参与人i的策略和其他参与人的策略,可以写为:S= (Si,S-i);,2004-9-22,10,纯策略纳什均衡的定义2:,即在一个纯策略组合中,如果给定其他人的策略不变,任何局中人都没有积极性改变自己的策略,则该策略组合为一个纳什均衡。,2004-9-22,11,纳什均衡的通俗解释:,给定你的策略,我的策略是我最好的策略;给定我的策略,你的策略也是你的最好的策略衡。 双方在对方给定的策略下不愿意调整自己的策略 每个参与人所采取的策略都是对于其他参与人的策略的最优反应,定义1:在G=(S,U)中,Si和Si”表示Pi的两个策略,若Ui(Si,S-i)Ui(Si”,S-i),对任意S-i S-i,则称Si严格超于Si”,Si”相对于Si是严格劣策略。 定义2:在G=(S,U)中,如果存在S*=(Si*,S-i*),满足Ui(Si*,S-i*)Ui(Si,S-i*),对任意S-i S-i*,则称S*是G的一个NE。 定义3:在一个策略组合Si*中,在其他参与人不会改变已有策略的条件下,如果没有参与人用激励去改变自身的策略,则称Si*为NE。,说明:,理解NE的最好办法就是构造一个策略组合,然后看每个参与人的策略是否是参其他参与人策略的最好回应。 一个NE策略只要是对人其他NE策略的最佳应对,而不必是对全部可能策略的最佳对。 每一个优势策略均衡都是NE,但并非每一个NE都是优势策略均衡。如果某一策略是优势的,那么它对于其他参与人选择的任何策略而言都 是最佳应对,这其中也包括其他参与人的均衡策略。而如果某一策略是NE的组成部分,那么它只需对其他参与人的均衡策略而言是最佳应对就可以了。 在许多博弈中,NE并不是帕累托有效的。 NE有强弱之分。,2.2基本分析思路和方法(NE求解),2.2.1 占优均衡(上策均衡) Dominant-strategy Dominant-strategy equilibrium:博弈分析中最基本的均衡概念之一。占优均衡分析是最基本的博弈分析方法。囚徒困境(坦白,坦白),2.2.2 重复剔除严格劣策略(战略),重复剔除严格劣策略(严格下策反复消去法)iterated elimination of strictly dominated strategies 严格下策:strictly dominated strategy在一个博弈中,不管其他博弈方的策略如何变化,一个博弈方的某种策略给他带来的支付,总是比另一种策略给他带来的支付要小,那么我们称前一种策略为相对于后一种策略的严格劣策略(严格下策) 重复剔除的占优均衡,乙 坦白 抵赖 坦白 甲 抵赖 注:两博弈方同有两种相同的可选策略,策略和得益都对称。两博弈方的唯一目标就是要实现自身价值的最大得益。,-3,-3 0,-5 -5,0 -1,-1,17,宇宙法则的均衡点-1,犹太人的宇宙法则:世界的一切都是按 78/22的比例存在的 日本人藤田田在犹太人生意经开篇:“犹太人生意经里面存在着一条法则。犹太人正是因循了这条法则,所以做起生意来才得心应手,常胜不败,这条法则就是” 78/22法则“,它构成了犹太生意经的根本。”,18,宇宙法则的均衡点-2,美国理查得。考茨提出:80/ 20法则,改变命运的黄金法则 一个成功企业经营者的成功之处就在于他能从企业发展的过程中找到创造78%利益的那关键22%,大19,80/ 20法则,80/ 20法则:帕累托法则、最省力法则、不 a 平衡法则 管理大师杜拉克:在一个产品系列中,可能只有其中的一两种是企业利润的真正源泉,而大部分的其他产品可能仅仅是收支平衡,甚至有很多是入不敷出 在成千上万的客户中,少数几个大客户的订单占了订单的大部分,所有新开拓业务中的大部分可能是由数百名销售人员中的几个人发展起来的 典型的情况是:80%的收获来自20%的努力;其他80%的力气只带来20%的结果,大20,杜拉克认为管理者首先设立几条管理的集中原则-1:,要想取得经济效益,管理者的精力应当集中于尽可能少的产品类别上,要善于发现20%的核心产品,在那些能创造高利润的产品上下功夫 企业员工的精力也应当集中于少数几项能真正带来商业效益的活动上,而在其他方面的投入则越少越好 在企业的成本控制工作中,在效的控制也源自管理者将注意力集中于少数几个领域上,它们在成本控制方面的改善可能对整个公司的业绩产生显著的影响。即在这些领域中,效率方面较小的改善将引起整体经济效益的大大提高 在人力资源管理方面,要精挑细选,发现“关键少数”成员 人员配置,特别是高级人才的配置必须向能够产生高额经济效益的业务方向倾斜,大21,杜拉克认为管理者首先设立几条管理的集中原则-2:,留住20%的关键顾客,如果企业80%的利润源自于20%的顾客,就应尽力扩大对那20%顾客的影响力。把注意力分散给所有顾客,是不明智的。作为营销人员,最重要的是确保顾客中关键的20%,并把这20%顾客变成我们的顾客 生产线、市场、营销渠道、最终用途等等也都适用这一原则 企业管理中切忌把精力放在那些消耗了企业主要成本,但数量小、利润薄的事情上,2.2.2 重复剔除严格劣策略(战略),应用 博弈方1 博弈方2,2004-9-22,23,例2:博弈G如右图:,局中人 左 中 右,反复消去严格被优超策略,2004-9-22,24,解:局中人的策略“右”是策略“中”的严格被优超策略,消去策略“右”后为:,局中人的策略“下”是策略“上”的严格被优超策略,消去策略“下”后为:,局中人的策略“左”是策略“中”的严格被优超策略,消去策略“左”后为可知(上,中)就是该博弈反复消去严格被优超策略均衡。,1,3,2004-9-22,25,严格被优超策略反复消去法中每次消去的必须是严格优超策略,否则会出现一些意想不到的结果。,例2:博弈G如下图:,注意,2004-9-22,26,1 , 8,1 , 6,2 , 8,0 , 8,0 , 8,0 , 9,1 , 5,0 , 8,0 , 6,解:1)局中人的策略“L”和“M”都是策略“R”的被优超策略(不是严格被优超策略),消去策略“L”和“M”后为:,局中人的策略“S”和“D”都是策略“U”的严格被优超策略,消去策略“S”和“D” 后剩下唯一策略组合(U,R)。,L M R,2004-9-22,27,2)局中人的策略“S”和“D”都是策略“U”的被优超策略(不是严格被优超策略), 消去策略“S”和“D” 后为:,局中人的策略“M”和“R”都是策略“L”的被优超策略(不是严格被优超策略) ,消去策略“M”和“L”后剩下唯一策略组合(U,L)。,1 , 8,1 , 6,2 , 8,0 , 8,0 , 8,0 , 9,1 , 5,0 , 8,0 , 6,U,S,D,例:俾斯麦之战,“俾斯麦之战”发生在1943年的南太平洋上。日本海军上将木村受命将日本陆军运抵新几内亚,其间要穿越俾斯麦海通往新几内亚有两条航线:较短的北线和较长的南线,木村必须从中选择一条。而肯尼则必须决定将其飞机派往何处去搜索日军。如果肯尼将他的飞机派到了错误的航线上,他虽然可以召回它们,但可供轰的天数就会减少。,双方行动集相同:北,南,木村 北 南 北 肯尼 南 注:弱优势策略均衡:在剔除了每个参与人的全部弱劣势策略后所得到的一个策略组合。 重复剔除优势均衡:首先从一参与人的策略集里剔除掉一个弱劣策略,再重新考察各个参与人剩下的策略中哪些是弱劣的并剔除其中之一,继续这一过程直到每一个参与人都仅剩一个策略。这样得到的策略组合就称之为重复剔除优势均衡。,2,-2 2,-2 1,-1 3,-3,2.2.3 划线法,博弈方的最终目标:实现自身利益的最大化 取决于自己选择的策略,也取决于其他博弈方的策略选择 决策思路:先找出自己针对其他博弈方每种策略或策略组合(对于多人博弈)的最佳对策(不一定惟一),然后,在此基础之上,通过对其他博弈方策略选择的判断,包括对其他博弈方对自己策略判断的判断等,预测博弈的可能结果和确定自己的最优策略。,2004-9-22,31,划线法,对其他局中人的任一策略组合,找出局中人i的最佳策略,并在其得益值下划线。若存在一个策略组合,使得所有局中人的得益值下都划了线,则该策略组合就是一个纳什均衡。,2004-9-22,32,例:博弈G如右图:,解:该博弈的纳什均衡为(上,中)。,2004-9-22,33,例:博弈G如下图:,局中人 L M R,解:该博弈有两个纳什均衡(U,L)和(U,R)。,乙 坦白 抵赖 坦白 甲 抵赖,-3,-3 0,-5 -5,0 -1,-1,划线法总结:,1、划线法,以策略之间的相对优劣关系为基础,在分析支付矩阵表示的博弈问题时具有普遍性 2、不是每个支付矩阵都能用划线法求出确定性的博弈结果,例:猜硬币博弈。 3、许多博弈根本不存在确定性的结果 4、有时存在不止一个的策略组合 例:情人博弈,猜硬币方 正面 反面 正面 盖方 反面 结论:不存在所有数字下都划有短线的得益数组,意味着该博弈中没有一种策略组合中的双方策略正好相互都是关于对方策略的最佳对策,即没有一个策略组合会是双方都自愿接受的,该博弈不可能有确定的,或者至少具有稳定性的结果。,-1,1 1,-1 1,-1 -1,1,不会漏过NE的相对优势策略圈定法,丽娟 足球 芭蕾 足球 大海 芭蕾 结论1:该博弈有稳定性的解却没有确定性的解。 结论2: 双方的相对优势策略都圈定以后,如果哪个格子里面两个数字都被圈住,这个格子所对应的相对优势策略组合,就是NE.,2,1 0,0 0,0 1,2,2.2.4 箭头法,思路:对博弈中的每个策略组合,判断各博弈方能否通过单独改变自己的策略而改善自己的得益,如能,则从所考察的策略组合的得益引一箭头到改变策略后的策略组合对应的得益。这样对每个可能的策略组合都考察过以后,根据箭头反映的情况来判断博弈的结果。,2.2.4 箭头法,只有指向的箭头,没有指离的箭头 惟一具有稳定性的策略组合,2.2.4 箭头法,箭头法与划线不同,但二者都是基于策略之间相对优劣关系进行分析,得到的结论一致,是两种可以相互替代的方法。 猜硬币博弈 情人博弈,猜硬币方 正面 反面 正面 盖方 反面 结论:取胜的关键都是不能让另一方猜到自己的策略而同时自己又要尽可能猜出对方的策略。,-1,1 1,-1 1,-1 -1,1,丽娟 足球 芭蕾 足球 大海 芭蕾 结论:在情侣博弈中,双方都没有严格优势策略和严格劣势策略。,2,1 0,0 0,0 1,2,例:“智猪博弈”和“搭便车”行为 “game of boxed pigs”,笼子里有一只大猪,一只小猪。笼子的一头有一按钮,另一头是饲料的出口和食槽。按一下按钮,将有相当于10个单位的猪食进槽,但是按按钮所需要付出劳动,要消耗相当于2个单位的猪食。问题是按钮和食槽分置笼子的两端,付出劳动按按钮的猪跑到食槽的时候,坐享其成的另一头猪早已吃了不少。 如果大猪先到,大猪吃到9个单位,小猪只能吃到1个单位; 如果同时到达,大猪吃到7个单位,小猪吃到3个单位; 如果小猪先到,小猪可以吃到4个单位,而大猪吃到6个单位。,2004-9-22,44,例:智猪博弈,东奔西走,要喝宋河老酒 大猪 有了XX老酒,何必东奔西走小猪,小猪 按 等 按 大猪 等 结论:大猪选择在主观上是为了自己的利益,但在客观上小猪也享受到了好处,5,1 4,4 9,-1 0,0,“搭便车”,智猪博弈有许多应用。如美国的大湖地区,你可以看到许多灯塔。大航运公司因为船舶多,航班频密,迫切需要建灯塔,但是小航运公司在这方面的积极性就比较低。结果大公司花钱建灯塔,公司从设置灯塔所获得的效益超过了灯塔的花费,所以这项投资对于大公司是值得的。小公司因此就可以“搭便车”,也得到好处。,“搭便车”原理,原理:亚当.斯密“看不见的手” 社会上每个人为了自己的利益而采取行动,但这些行动在客观上也为社会上其他的人带来了好处。 搭便车行为的产生,很大程度上与缺乏产权界定或产权配置的无效率有关。,在发达国家,除了日本许多人口稠密的地区和纽约这样人口稠密的城市以外,大部分家庭都有自己的汽车。人们出门,都要自己开车。在那样的地月,公共交通一般都不发达,如果你没有自己的汽车,往往就会寸步难行。我们在美国的留学生,哪怕经济很不富裕,也要先买辆二手车来用,就是这个道理。 你早就想到一个地方去,因为没有车子一直未能成行,碰巧某一天你的一位有车的朋友要去那个地方,并且车子有空位,你就可以搭他的“顺风车”了结你的宿愿。这就是:“搭便车”说法的由来。在经济生活中,如果不考虑朋友这样的关系,只有公共品才会发生”搭便车“问题。 (中小股民,郎咸平引风波,大陆经济学家怎么啦?),为什么大股东挑起监督经理的重任,监督成本 在大小股东 是否密切监督经理工作 的博弈中,大股东因为利益攸关会担当起得益 启示:一项改革,总是得益最多的一方最乐意力促其成,智猪博弈的解决办法,小股东与大股东 AA制 广告便车 技术创新便车 公司员工的搭便车行为 公司并购中的搭便车行为 郎咸平引风波,大陆经济学家怎么小啦? 智猪博弈的解决办法:合理地界定权利改革与制度锁定,总结:,求解博弈的主要关键在于寻找各博弈方都不愿或不会单独改变自己策略的策略组合,只要这种策略组合存在且是唯一的,博弈就有绝对确定的解。 这种各博弈方都不愿单独改变策略的策略组合就是博弈论中最重要的概念“NE”。,2.3 纳什均衡的一致预测性质,一致预测性质:如果所有博弈方都预测一个特定的博弈结果会出现,那么,所有博弈方都不会利用该预测或者这种预测能力,选择与预测结果不一致的策略,即没有哪个博弈方有偏离这个预测结果的愿望,因此这个预测结果最终真会称为博弈的结果。 一致预测性在博弈分析中具有重要地位 只有纳什均衡才具有一致预测的性质 稳定的,自我实施的(self-enforcing,自我强制的),2.3 纳什均衡的意义,它是关于博弈结局的一致性预测,如果所有局中人预测一个特定的NE会出现,那么这种均衡就会出现,预测之间没有矛盾,不会因为有的局中人认为不符合自己的利益要求而失败,2.4 纳什均衡(严格下策反复消去法),占优均衡(上策均衡)与纳什均衡 划线法、箭头法与纳什均衡 纳什均衡与重复剔除严格劣策略(严格下策反复消去法):二者之间是否存在相容性,严格下策反复消去法是否会消去纳什均衡?,命题2.1 在个博弈方的博弈 中,如果严格下策反复消去法排除 了 之外的所有策略组合,那么 一定是该博弈的惟一纳什均衡。 命题2.2 在个博弈方的博弈 中,如果 的一个纳什均衡,那么严格下策反复消去法一定不会将它消去。 (反证法),案例:银行挤兑的成因和预防,一假定有一人银行,只有两个存户,银行的全部资金就是这两个储户的存款。每个存户存了100万的定期存款,银行就拿总数为200万的这笔钱做投资。项目完成投资收回后,银行可拿出240万元偿还给存户,每个存户得到120万。但未到期抽回存款,银行只可拿出140万付给储户。 如果双方同时提前抽调存款,每人只能得70万; 如果双方期满支取存款,每人可得120万; 如果只有一方提前支取,那么他得到原来的存额100万,而银行被迫提前抽回投资,可动用资金只有140万,而另一储户期满时来兑现其存款时,银行就要破产,他只能得到40万的补偿;,储户乙 提前取款 到期取款 提前 储户甲 到期 结论 :两个NE:一个是到好的,即到期取款各得(120,120);另一个就很不好,双方争先都要同时提前取款各得(70,70),这就是银行挤兑。,70,70 100,40 40,100 120,120,总结:,银行一定要使自己的资金来源多元化; 一定要使自己的投资适当分散; 一定要注意良好的经营业绩; 一定要掌握相当比例的准备金 中央银行一定要规范商业银行的运作 “控制谣言”是防止银行挤兑的有效的策略,案例:如何让禁鸣喇叭成为交通顺畅的开始,广州市区禁止机动车喇叭叫鸣。汽车有喇叭,但是不许叫,可算是中国特色的制度创新。 行人和车辆守与不守交通规则问题研究,即“交通博弈”式的“囚徒困境”。 如果对方礼让我也礼让,大家顺畅都得8; 如果我抢行占了便易得9,对方礼让寸步难得只得1; 如果都抢行,大家 挤死只能得2; 如果对方抢行占了便得9,我礼让寸步难行只得1;,行人 礼让 抢行 礼让 汽车 抢行 结论:NE得(2,2)。但禁鸣礼让最后是否能同时达到交通改善的结果?是否能真正把交通引导到规矩礼让大家受益的“双赢对局”(8,8)中呢?,8,8 1,9 9,1 2,2,案例:美苏争霸的“囚徒困境”,从军事上看,20年前美国和苏联是世界上两个超级大国,他们相互对垒。假定每一方都有两种策略选择,一个是扩军,发展战略核武器,实施“星球大战”计划等等,另一个是彻底裁军,直到不设军备。 如果双方都扩军,各花2000亿美元用于军费,赢利为-2000; 如果双方彻底裁军,则军费为零; 如果美国裁军不设防但苏联扩军,苏联就可以任意斯侮和损害美国,苏联赢利8000亿美元(得10000亿成本2000亿=8000亿),而美国会受到很大损失,甚至丧失主权,则得负无穷-;反之亦然。,苏联 扩军 裁军 扩军 美国 裁军 结论 :两方都扩军是争霸博弈唯一的NE。 思考:人类为何那么愚蠢,不和平共处于不花费军费的右下角呢?,2000, -2000 8000, - -,8000 0,0,案例:串谋博弈和风险优势,甲有上策略和下策略,乙有左策略和右策略 在一名涉及名额挑选的十分制考试中,考官规定一旦发现谁作弊将给予0分,揭发他人作弊,得奖励1分;甲乙功课相当,者得7+1=8 都不作弊可得7分; 若串谋作弊没给发现,每人可得9分; 如果一人作弊另一人告发,作弊者得0,告发者得7+1=8,乙 左 右 上 甲 下 结论 :两个NE:“甲上乙左”得(9,9)和“甲下乙右”得(7,7);但“甲下乙右”得(7,7)的NE具有风险优势。(风险优势不是表示风险大,恰是风险比较小的优势。),9,9 0,8 8,0 7,7,乙 作弊 不作弊 作弊 甲 不作弊 结论 :两个NE:一个双方都作弊,各得(90,90);另一个都不作弊,双方各得(7,7),这就是风险优势。,9,9 0,8 8,0 7,7,案例:营造克已奉公的制度环境,“高薪养廉”是公务员制度方面的一种理论。 甲乙是关系密切的国家公务员,7是政府所发高薪;双方串谋受贿每人可得9;一旦发现受贿将给予0分;揭发他人,得奖励1分; 都不受贿可得7; 若受贿,因串谋没给发现,每人可得9; 如果一旦东窗事发,就要撤职查办0;,乙 受贿 不受 受 甲 不受 结论 :两个NE:(受,受)和(不受,不受);但(不受,不受)的NE具有风险优势。,9,9 0,8 8,0 7,7,改变数据:薪水只有2,乙 受贿 不受 受 甲 不受 结论 :两个NE:(受,受)和(不受,不受);但(不受,不受)的NE具有风险优势。,9,9 0,3 3,0 2,2,改变数据:加重惩罚为-20,乙 受贿 不受 受 甲 不受 结论 :两个NE:(受,受)和(不受,不受);但(不受,不受)的NE具有风险优势。,9,9 -20,3 3,-20 2,2,案例:猎人博弈(法国哲学家卢梭) 和帕累托优势,在古代的一个地方,有两个猎人,狩猎是主要生计。 假设猎物只有两种:鹿和兔子; 假设两个猎人一起去猎鹿,才能猎获一只鹿,如果一个猎人单兵作战,他只能打到四个兔子。 从填 饱肚子的角度说,4只兔子算它能管4天,一只鹿却差不多解决一个月的问题。,乙 猎鹿 打兔子 猎鹿 甲 打兔子 结论1 :两个NE:一个是两人一起去猎鹿,得(10,10);另一个是两人各去打兔子,得(4,4)。 结论2:两家一起去猎鹿的赢利比各自去打兔子的赢利要大得多。即甲乙一起去猎鹿得(10,10)的NE,比两人各自去打兔子得(4,4)的NE ,具有帕累托优势。,10,10 0,4 4,0 4,4,帕累托最优:,帕累托是法国巴黎出生的意大利经济学家。 帕累托效率准则:经济的效率体现于配置社会资源以改善人们的境况,主要看资源是否已被充分利用。如果资源已被充分利用,要想再改善任何人都必须损害别的人,这时候就说一个经济已经实现了帕累托效率。相反,如果还可以在不损害别人的情况下改善任何人,就是说经济资源淌未充分利用,经济没有达到帕累托最优。,帕累托最优和风险优势的关系:,帕累托最优和风险优势之间,理论给帕累托优势以优先权,而风险优势只有在局中人面临不知道选哪个均衡好的不确定性的是时候才变得重要,2.4 混合策略和混合策略纳什均衡,2.4.1 严格竞争博弈和混合策略的引进 各博弈方的利益和偏好始终不一致,在通常策略的基础上没有纳什均衡的博弈,就称为“严格竞争博弈”。 Ne在解博弈时的弱点:即只在当博弈中有唯一的NE时才能解出博弈的结果,才能说出各博弈方的做法。但许多现实中决策问题构成的博弈中,根本不存在具有稳定性的各博弈方都接受的NE策略组合;而另一些博弈却有多于一个没有哪个博弈方愿意单独改变策略的NE策略组合,2004-9-22,75,双矩阵博弈的混合扩张,1.二人有限博弈的纯策略形式,设G=(S,U),可表为:G=(S1,S2,A,B),其中:,2004-9-22,76,G*=(,),2.二人有限博弈的混合策略形式,2004-9-22,77,将,扩充为,,因此,如果,,满足,则,是该博弈的一个纳什均衡。,例2:猜硬币博弈,两人通过猜硬币的正反面赌输赢,其中一人用手盖住硬币,由另一方猜是正面朝上还是反面朝上: 如果猜对,则猜者赢1元,盖硬币者输1元; 否则,猜者输1元,盖硬币者赢1元;,猜硬币方 正面 反面 正面 盖方 反面 第一个原则:自己的策略选择千万不能预先被另一方侦知或猜到。 第二个原则:博弈方必随机地选择策略。,-1,1 1,-1 1,-1 -1,1,博弈方如何避免自己的选择带有规律性? 随机选择的方法 设盖硬币方出正面的概率为p,出反面的概率就是1-p,出正面多于出反面意味着p1-p或p1/2。在这种情况下,如果猜硬币方全猜正面,则其期望支付为: Pg+(1-p)g(-1)=2p-1=2(p-1/2)0,2.4.2 混合策略、混合策略博弈和混合策略纳什均衡,混合策略(mixed strategies):博弈方以一定的概率分布在可选策略中随机选择的决策方式,在分析原来没有纳什均衡的博弈和有多个纳什均衡的博弈时有非常重要的意义。这种策略选择方式为“混合策略”。 混合策略,不是纯粹这样做或纯粹那样做,而是百分之多少选择这样做,百分之多少选择那样做,这两个百分数加起来,应该是一,即百分之一百。 纯策略(pure strategies):相对于这种以一定概率分布在一些策略中随机选择的混合策略,确定性的具体的策略,称之为:纯策略;任何博弈方都不愿单独改变策略的纯策略组成的策略组合称为“纯策略NE”。,定义 在博弈 中,博弈方i的策略空间 ,则博弈方i以概率分布 随机在其k个可选策略中选择的“策略”,称为一个“混合策略”,其中0pij1对j=1,k都成立,且pi1+,+pik=1。 纯策略可以视为混合策略,选择相应纯策略的概率为1,选择其他纯策略的概率为0的混合策略。混合策略可以看作纯策略的扩展。,混合策略扩展博弈,纳什均衡:在混合策略中仍然适用。如果一个策略组合满足各博弈方的策略相互是其他博弈方策略的最佳对策时,就是一个纳什均衡。现在其中的策略既可能是纯策略,也可能是混合策略纳什均衡意味着任何博弈方单独改变自己的策略,或者随机选择各个纯策略的概率分布,都不能给自己增加任何利益。一个严格意义上的混合策略组合(即未退化为纯策略组合的)构成一个纳什均衡,即“混合策略纳什均衡”。猜硬币博弈中两博弈方都以(1/2,1/2)的概率分布随机选择正面和反面的混合策略组合,就是一个混合策略纳什均衡,且为该博弈中惟一的混合策略纳什均衡。,(一)方法1思路(得益相同法),令各个博弈方随机选择纯策略的概率分布,满足使对方或其他博弈方采用不同策略的期望支付(得益)相同,从而计算出各个博弈方随机选择各纯策略概率。这种思路方法,在求其他严格竞争博弈的混合策略纳什均衡时也适用。,85,例:一个数值例子的混合策略均衡,不存在纯策略纳什均衡 判断是否存在混合策略纳什均衡?第一个原则:不能让对方知道或猜到自己的选择,因而必须在决策时利用随机性。第二个原则:两博弈方选择各种策略的概率一定要恰好使对方无机可乘,即让对方无法通过针对性地倾向某一策略而在博弈中占上凤。扑点球,左右选择,86,如果设博弈方1选A的概率为PA,选B的概率为PB;博弈方2选C的概率为PC,选D的概率为PD。 根据第二个原则,博弈方1选A和B的概率PA和PB,要使博弈方2选C的期望支付(得益)和选D的期望支付(得益)相等 PA*3+PB*1=PA*2+PB*5 PA=4PB。 因为 PA+PB=1 PA=0.8;PB=0.2, 这就是博弈方1应该选择的混合策略。,87,同理,博弈方2选C和D概率PC和PD,也应使博弈方1选择A的期望支付和选择B的期望支付相等。 PC*2+PD*5=PC*3+PD*1 PC=0.8;PD=0.2 当博弈方1以(0.8,0.2)的概率随机选择A和B,博弈方2以(0.8,0.2)的概率随机选择C和D时,由于谁都无法通过单独改变自己随机选择的概率分布改善自己的期望支付,因此,这个混合策略组合是稳定的。这是本博弈惟一的混合策略纳什均衡。,88,期望效用(收益)极大化,当我们对所选策略未知时,通常会用期望效用极大化原理 含义:是指人们在结果的实现不确定的情况下,应当选择给他带来“期望效用”最大的策略 期望效用=收益与实现收益的可能性(概率)的乘积,89,90,双方进行该博弈的期望支付(得益),91,例:情人博弈,丈夫 芭蕾 足球 芭蕾 妻子 足球 情人博弃的哲理启示:,2,1 0,0 0,0 1,3,2004-9-22,92,如果设妻子选芭蕾的概率为Pw(芭),选足球的概率为Pw(足);丈夫选芭蕾的概率为Ph(芭),选D的概率为Ph(足)。 根据第二个原则,妻子不想让丈夫用有利于自己的倾向性选择占上风,则自己的概率选择应使丈夫选两种策略的期望得益相同,则: Pw(芭)*1+ Pw(足)*0= Pw(芭)*0+ Pw(足)*3 - Pw(芭)=3Pw(足) 又Pw(芭)+Pw(足)= 1 Pw(芭)=0.75; Pw(足)=0.25,2004-9-22,93,如果设妻子选芭蕾的概率为Pw(芭),选足球的概率为Pw(足);丈夫选芭蕾的概率为Ph(芭),选D的概率为Ph(足)。 同理:丈夫不想让妻子占上风,其混合策略的概率分布的决定原则也是要让妻子选两种策略的期望得益相同,即: Ph(芭)*2+ Ph(足)*0= Ph(芭)*0+ Ph(足)*1 - 2Ph(芭)=Ph(足) 又Ph(芭)+Ph(足)= 1 Ph(芭)=1/3; Ph(足)=2/3 结论:,2004-9-22,94,情人博弈双方期望得益:,妻子的期望收益: U= Pw(芭)* Ph(足) *2+ Pw(芭)* Ph(足) *0+ Pw(足)* Ph(芭) *0+ Pw(足)* Ph(芭) *1 =3/4*1/3*2+1/4*2/3*1=0.67 丈夫的期望收益: U= Pw(芭)* Ph(足) *1+ Pw(芭)* Ph(足) *0+ Pw(足)* Ph(芭) *0+ Pw(足)* Ph(芭) *3 =3/4*1/3*1+1/4*2/3*3=0.75 结论:这个结果显然不如夫妻双方能协商时,任何一方迁就另一方时双方确定的得益来得好,这是因为盲目表决有可能出现最差结果造成的。,2004-9-22,95,例:圣诞节礼物,吉姆和德拉是一对贫寒、恩爱的夫妻。 吉姆和德拉小两口过着平淡而心心相印的生活,各得1; 若吉姆卖表给德拉买梳子,吉姆得2,德拉3; 若德拉剪去一头秀发换回表链给吉姆,德拉2,吉姆3; 吉姆卖表买梳子和德拉剪发换表链同时发生,各得-4;,2004-9-22,96,例:圣诞节礼物,德拉 秀发换链 不剪 卖表买梳 吉姆 不卖 情人博弃的哲理启示:,-4,-4 2,3 3,2 1,1,2004-9-22,97,关于NE的存在性定理,定理1.(Nash,1950)每一个有限博弈至少存在一个NE(纯策略或混合策略的).,2004-9-22,98,(二)方法2思路(得益最大法),令各个博弈方随机选择纯策略的概率分布,满足使对方或其他博弈方采用不同策略的期望支付(得益)相同,从而计算出各个博弈方随机选择各纯策略概率。这种思路方法,在求其他严格竞争博弈的混合策略纳什均衡时也适用。,2004-9-22,99,混合策略的反应函数:,反应函数:即一博弈方对另一博弈方的每种可能的决策内容的最佳反应决策构成的函数,由于在混合策略中各博弈方的决策内容为一些概率分布,因此,反应函数实际上就是一方对另一方的概率分布的反应,同样也是一定的概率分布。,2004-9-22,100,混合策略的反应函数: 以猜硬币为例,B猜硬币方 正面q 反面1-q p正面 A盖方 1-p反面 第一个原则:自己的策略选择千万不能预先被另一方侦知或猜到。 第二个原则:博弈方必随机地选择策略。,-1,1 1,-1 1,-1 -1,1,2004-9-22,101,双方期望得益:,A的期望收益: Ua= (-1)pq+1p(1-q)+1(1-p)q+(-1)(1-p)(1-q) =2p(1-2q)+(2q-1) 据此,A的最佳反应: 0 若q1/2 p= 0,1 若q=1/2 1 若q1/2,2004-9-22,102,双方期望得益:,B的期望收益: Ub=1pq+(-1)p(1-q)+(-1)(1-p)q+1(1-p)(1-q) =2q(2p-1)-(2p-1) 据此,B的最佳反应: 1 若p1/2 q= 0,1 若p=1/2 0 若p1/2,2004-9-22,103,Find the best response,Compare the expected payoff to the pure strategy Head and Tail,we have the player 1s best response to : The best response function of player 2 is similar:,2004-9-22,104,Figure,1,1,2004-9-22,105,Conclusion,2004-9-22,106,例:情人博弈,王明 德语 q 法语1-q p德语 陈东 1-p法语 情人博弃的哲理启示:, , 0,0 ,3,2004-9-22,107,情人博弈双方期望得益:,陈东的期望收益: Uc= 3pq+1p(1-q)+0(1-p)q+2(1-p)(1-q) =p(4q-1)-2(q-1) 据此,陈东的最佳反应: 1 若q1/4 p= 0,1 若q=1/4 0 若q1/4,2004-9-22,108,情人博弈双方期望得益:,王明的期望收益: Uw=2pq+1p(1-q)+0(1-p)q+3(1-p)(1-q) =q(4p-3)+3-2q 据此,的最佳反应: 1 若p3/4 q= 0,1 若p=1/4 0 若p3/4,2004-9-22,109,反应函数图解:,P,q,1,1,3/4,1/4,2004-9-22,110,情人博弈结论:,三个交点: (p*,q*)=(0,0), (p*,q*)=(3/4,1/4), (p*,q*)=(1,1), 据此,的最佳反应: Uc= p(4q-1)-2(q-1)=3/2 Uw=q(4p-3)+3-2q=3/2 结论:纯策略NE比混合策略NE具有支付优势、得益优势,即帕累托优势,2004-9-22,111,设,则,(5) 其中,,(三)2x2双矩阵博弈的NE求法2:,2004-9-22,112,现在假定,是纳什均衡,由纳什均衡的定义,有,首先研究,的取值范围: 由(5)(6)有,即,2004-9-22,113,当,时,若,则,则,故有,若,2.当,时,若,则,故有,若,,则,2004-9-22,114,2004-9-22,115,116,类似地,我们研究,的取值范围。, 其中,因此,,117,118,119,例1,120,2.4.5混合策略几个应用,例2:市场机会,两厂商同时发现一个市场机会,但这个市场容量不大,如果只有一家厂商单独进入,能赚利润100,如果两厂商同时进入,则双方都要亏损50,厂商B 进 不进 进 厂商A 不进 结论:纯策略NE多于一个,无法肯定在一次博弈中两博弈方究竟会作何选择,哪个结果会出现。,-50,-50 100,0 0,100 0,0,案例3:齐威王与田忌赛马,传说齐威王经常要大将田忌与他赛马,规则如下: 每次双方各出三匹马,一对一比赛三场,每一场的输方要赔一千斤铜给赢方。齐威王的三匹马和田忌的三匹马按实力都可分为上、中、下三等。由于齐威王的上、中、下三匹马都分别比田忌的上、中、下三匹马略胜一筹,因此田忌每次都是连输三场,要输掉三千斤铜。,上 上 中 中 下 下 中 下 上 下 上 中 下 中 下 上 中 上 上中下 上下中 中上下 中下上 下上中 下中上,3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3,2004-9-22,126,齐威王与田忌赛马,双方期望收益: 齐威王的期望收益: U=(3+1+1+1+1-1)/6=1 田忌的期望收益: U= =(1-3-1-1-1-1)/6=-1 结论:多次进行赛马齐威王平均每次能赢一千斤铜。,2004-9-22,127,例4:小偷和保安的博弈,一小偷欲偷有一守卫看守的仓库,如果小偷去偷时守卫在睡觉,则小偷就能得手,但如果小偷去偷时守卫没睡觉,则小偷就要被抓住。 假设小偷得手可得价值为V的赃物,如被抓则要坐牢,坐牢的负效用为-P; 再设守卫睡觉而未被偷则有S的正效用,睡觉遭偷则要被解雇,解雇负效用为-D; 而如果小偷不偷,则他既无得也无失,守卫不睡则出一份为挣一份工资同样既无得也无失。,小偷和保安的博弈,2004-9-22,129,小偷和保安博弈图解法:,守卫期望 收益(睡) S 0 p* 1小偷偷的概率 - p - -D -D 结论:图中S到-D的连线与横轴的交点对应的p* 就是小偷混合策略中选择偷的概率。,2004-9-22,130,小偷和保安博弈图解法:,小偷期望 收益(偷) V 0 p* 1 守卫睡的概率 - p - -P -P 结论:图中V到-P的连线与横轴的交点对应的p* 就是守卫混合策略中选择睡的概率。,激励悖论,政府为了抑制盗窃现象加重对小偷的处罚:P加大,从P到P。如果保安混合策略中的概率分布不变,此时,小偷偷的期望支付为负,小偷会停止作案。 但是,长期中,小偷少偷会使保安更多选择“睡”,最终保安的睡觉概率上升,小偷的期望支付又恢复到0,小偷会重新选择混合策略。 由于小偷的混合策略概率分布不受P值的影响,因此,政府加重对小偷的处罚,在长期中并不能抑制盗窃,最多只能抑制短期的盗窃发生率,其主要作用是让保安更懒。 当然,如果将保安轻松赚钱也视为增加社会福利,或者理解为少派保安,那么政府加重对小偷的处罚也是有意义的,例5:出场费,两拳击手中一人有世界冠军头衔,出场费方案: 冠军拳击手得总出场费100万的70,非冠军手则得30; 没有商量修改的余地。,例:出场费,非冠军 接受 不接受 接受 冠军 不接受 结论:NE(接受,接受)(不接受,不接受),但解是确定性的(接受,接受),不存在使用混合策略的问题。,70,30 0,0 0,0 0,0,134,例6.福利博弈,政府,贫民,政府乐于喜救济那种努力寻找工作的贫民,但不愿帮助那种坐等救济的贫民。可是贫民只有在得不到政府的救济时才会去寻找工作。这是一个在公共政策方面的难题。例:父母决定如何帮助自己的懒孩子了。,135,136,例:斗鸡博弈,两个人拿着棍子(或开着车)从桥的两端走向中央进行火拚,每个人有两种战略:继续前进,或退下来。 若两人都继续前进,则两败俱伤; 若一方前进另一方退下来,前进者取得胜利,退下来的丢了面子; 若两人都退下来,两人都丢面子。,2004-9-22,137,例 :斗鸡博弈,这个博弈也有两个纯策略纳什均衡,一个是(坚持,避让),另一个是(避让,坚持)。,公共品的供给中两个富户;冷战时期美、苏争夺霸权;警察与游行示威群众;夫妻间矛盾等。,138,139,这个博弈也有两个纯策略纳什均衡,一个是(强硬,软弱),另一个是(软弱,强硬)。,例: “家家有本难念的经” 司空见惯的夫妻吵架也是一场博弈,例: “家家有本难念的经” ,司空见惯的夫妻吵架也是一场博弈。,根据生活的实际观察,夫软弱妻软弱是婚姻最稳定的一种,因为互相都不愿让对方受到伤害或感到难过,常常情愿自己让步。 动物学的研究有相同的结论,性格温顺的雄鸟和雌鸟更能和睦相处,寿命也更长。 夫强硬妻强硬是婚姻最不稳定的一种,大多数结局是负气离婚。夫强硬妻软弱和妻强硬夫软弱是最常见的一种,许多夫妻吵架都是这样,最后终归是一方让步,不是丈夫撤退到院子里点根烟,就是妻子避让到卧室里号啕大哭。,141,例:吉蒂谋杀案,1964 年的纽约市(皇后区的Kew 花园),一个叫吉蒂(Kitty Genovese)的妇女被歹徒杀害,残忍的袭击持续了半个小时,她一直在尖叫,很多人也听到了她的尖叫声,超过30 人在命案现场,但没有人帮助她,也没有人报警。 这个故事引起了轰动,并有几种理论对其进行解释。新闻界以及大部分公众都认为纽约人或大城市居民,或美国人,乃至所有人对于他们的同胞冷漠无情。 问题是,这真的是冷漠造成的吗?不排除有这样的情况。 但是,博弈论也提供了另外的解释。,扩展为N人博弈的情况,142,琼斯,史密斯,143,设有N个局中人,各局中人均以概率q 选择“旁观” 当q=0.3 时,各局中人的盈利如下:,当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论