




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十讲 策略性博弈与纳什均衡 第0节导 论 一、什么是博弈论一、什么是博弈论引例:俾斯麦海战引例:俾斯麦海战日方日方 从海上向新几内亚运送部队,有两条航道: 北道 天气恶劣,不易被侦查到,通过时间3天 南道 天气较好,但易被侦查到,通过时间3天美方 仅有少量的侦察机不能对两条航道同时进行严密的侦查,有两个选择:策略1 重点侦查北道,少量侦察机侦查南道。策略2 重点侦查南道,少量侦察机侦查北道。 四种情况组合: 情况11:美方重点侦查北道,日舰走北道,美方一天可侦察到日舰,从而有两天的攻击时间; 情况12:美方重点侦查北道,日舰走南道,美方一天可侦察到日舰,从而也有两天的攻击时间; 四种情况组合
2、: 情况21:美方重点侦查南道,日舰走北道,美方两天可侦察到日舰,从而有一天的攻击时间; 情况22 :美方重点侦查南道,日舰走南道,美方半天可侦察到日舰,从而有两天半的攻击时间。 从日方考虑, 日方的目的是获得最小的被攻击时间,走南道的最小被攻击时间为2天,走北的最大被攻击时间为2天,故南道不可取。 最优策略:走北道从美方考虑 美方的目的是获得最大的攻击时间,美方重点侦查北道的最小攻击时间为2天,美方重点侦查南道的最小攻击时间为1天。 最优策略:重点侦查北道 博弈论,是关于利益冲突的数学模型和分博弈论,是关于利益冲突的数学模型和分析构架析构架 “博弈”(game)一词指某些个人或组织做出相互有
3、影响的决策。 博弈的结局,不仅取决于某一个人或组织的行动,而且取决于其他个人或组织的相应行动。囚徒困境囚徒2沉默招认囚徒1沉默-1,-1 -9,0招认0,-9 -6,-6二、 博弈论发展简史 (一)萌芽 两千多年前,博弈论的原始思想即已萌芽。孙子兵法中便充满了博弈的案例。 莱布尼茨于1710年预言了关于策略博弈的理论之出现的必要和可能。 1712詹姆斯华尔德格拉特提出了 “极小极大”策略的概念。 1881年,经济学家埃及渥斯在数学心理学一书中论及了策略博弈与经济过程之间的相似性。(二)现代博弈论的产生与发展 本世纪初,公理集合论的大师策墨罗(E. zermelo)就象棋证明了几个特殊的博弈定理
4、。 法国大数学家波菜尔提出了“有限形式的极小极大定理”,但他否定这一定理在一般形式下的成立性。 1928年,冯诺意曼首次证明了博弈论的基本定理即“每个矩阵博弈都能通过引进混合策略而被严格决定”,从而宣告了现代博弈论的正式诞生。 1944年,冯诺意曼又和奥斯卡摩根斯坦合作,发表了博弈论与经济行为一书,将二人博弈推广到n人博弈,并将博弈论系统地应用于经济学研究。 冯诺意曼和摩根斯坦是现代博弈论的两位主要奠基人。 第二次世界大战期间,博弈的思想方法、研究方法被运用到军事领域和战时的其他活动之中,显示了它的重要作用和威力。 五六十年代是博弈论研究、发展最重要的阶段,一些重要的博弈论的概念就是在这个阶段
5、发展起来的如“纳什均衡”。 博弈论贯穿了几乎整个微观经济学,并且已扩展到宏观经济学、产业组织理论,在环境、劳动、福利经济学等方面的研究中也都占有重要的地位,大有“吞噬”整个西方现代经济理论的趋势。 1994年三位博弈论学者 纳什纳什(Nash)、 海萨尼海萨尼 塞尔顿塞尔顿 共同获得诺贝尔经济学奖, 第一节 基本概念 基本要素为: 参与人(players)、 行动(actions)、 信息(informations)、 策略(strategies)、 收益(payoffs)、 结果(outcomes)与 均衡(equilibrium) 一、参与人 博弈里的游戏者是作决策的个人。每个参与人的目标
6、是通过选择行动使自己的效用极大化。 N=1,2,n 二、行动 一个参与人i所采取的行动(action)或步骤ai是该参与人可以做出的选择。 (定义) 行动集:参与人i的行动集(action set),记为Ai= ai ,是该参与人可能采取的全部行动之集合. (定义) 行动组合:一个行动组合是一个有序集是由一个博弈中每个参与人各取一个行动而组合成的。 三、博弈的顺序(orderofplay) 次序可分为“同时”(simultaneously)与“序列”(sequential)。 “同时”是指参与人同时决定自己的行 动, “序列”顺序得明确规定谁先行,谁后走。 四、 信息集(information
7、set) 信息集是参与人在博弈的某一特定时点上关于不同变量的取值的全部知识之和。 五、策略、策略空间与策略组合 策略:在博弈的每一环上,参与人的行动规则,即按什么规则到行动集中去选择行动。 策略空间:参与人所有策略的集合,Si=si 策略组合:n个参与人各取一个策略的组合 s=(s1,s2,sn)六、收益(支付)函数 ui(s1,s2sn) 即参与人i在策略组合(s1,s2sn)下的收益 七、结果 在特定策略组合下产生的参与人收益分配状况 八、均衡 参与人各自都采取了其最优策略而产生的一个策略组合。 由均衡所产生的结果叫均衡结果。),(002010nssss第二节策略博弈与占优一、构成要素(一
8、)参与人及其及集合i第i个参与人 i=1,nN=1,2,n(二)策略空间12(,)1,iiiiikSsssin为简便起见设iisSnissuni,1),(1(三)收益函数(四)完全信息: 每个参与人对所有参与人的收益函数 有完全的了解,且所有参与人知道所所有参与人知道所 有参与人知道所有参与人有参与人知道所有参与人的收益函数。(五)决策顺序:同时决策或任何一个参与人在决策时并不知道其他人的决策。囚徒困境囚徒2沉默招认囚徒1沉默-1,-1 -9,0招认0,-9 -6,-6二、上策、下策与占优智猪博弈大 猪踩不踩小猪踩1.5,3.5-0.5,6不踩5,0.5 0,0定义:记 ),(1121niii
9、iisssssssS设iiiiiSsSss如果, ,下式成立),(),( iiiiiissussu则称is为相于 is的严格下策。 我们把排除下策的过程叫做“简单占优”,即只排除一次。一旦在第一个参与人排除了一个策略之后,一个或几个策略会在此基础上相继被排除 掉,则称占优过程为“相继占优” 或“重叠占优”,只有“简单占优”,我们无法预测博弈的最终结果。第二节最优反应与纳什均衡 一、最优反应(bestresponse) *(,)( ,)iiiiiiiiu s su s ssSss 称 为相对于的最优反应 二、纳什均衡 一个策略组合 s*=(s*1,s*2,s*n)被称为纳什均衡,如果其它参与人不
10、背离这一组合,就没有人会背离他自己的最优反应。即: *(,)( ,)iiiiiiiu s su s ssS 对于任一*:()(,)( ,),iiiiiiiiiisSB su s su s ssS 反应函数(最优反应集合)囚徒困境囚徒2沉默招认囚徒1沉默-1,-1 -9,0招认0,-9 -6,-6三、纳什均衡的多重性例1.性别战女足球F芭蕾P男足球F2,10,0芭蕾P0,01,2有两个纳什均衡(F,F)与(P,P)例2两人分一块蛋糕,每个人分别独立地提出自己要求的份额,X1、X2,如果X1+X21,则满足双方的要求,否则什么也得不到。*在这个博弈中,直线X1+X2=1上的点都是纳什均衡,故有穷个
11、无个纳什均衡X1+X2=1(一)聚点均衡:利用被博弈模型抽象掉的信息来达到一个“聚点”均衡信息信息:习惯,经历,文化背景,性格(二)风险占优:选择风险较小的结局在不损害其他人的利益时,不能增加自己的利益。(三)帕雷托(Pareto)最优均衡例32LR1V9,90,8D8,07,7Pareto最优均衡为(V,L) (四)、相关均衡: 当参与人共同观测到的同一信号时 决策,就可能出现相关均衡。第四节混合策略与最大最小策略 一、混合策略 掷硬币游戏: 参与人I和掷硬币,如果能猜出I掷 的正反面,则I输给一元钱,否则 给I一元钱。11122122,SSSS正面反面正面反面2 12 21 11 21,1
12、1,11,11,1SSSSI参与人参与人现假设参与者I出正反面的概率分别为p,1-p参与者猜正反面的概率为1,112211111112112221PPSSSS参与者I选择S11的期望收益参与者I选择S12的期望收益参与者I出正面的期望收益为:211)1 () 1(参与者I出反面的期望收益为:12) 1)(1 () 1 (参与者I的期望收益可如下计算:这样参与者I出正反面的概率分布为(p,1-p)时的期望收益为:) 12)(21 () 12)(1 ()21 (),(1ppppu如果2102111max(0,)210uu这意味参与人的支出为21 因此必然取12如果11202这时11max(1,)1
13、20uu 必然取21由此推知12故参与者的最优策略为选择正、反面的概率分布为)21,21(同理参与者I的最优策略为选择正、反面的概率分布为)21,21(ij是选择ijS的概率11,011ikiijijjjk则概率密度1(,)iiiik称为i的一个混合策略,混合策略纳什均衡11,;,nnGSS uu,iiiN 如果*(,)(,)iiiiiivv 成立*1(,)in则称是一个纳什均衡, 命题1,设G=(S1,Sn;u1,un),如果),(002010nssss是一个纳什均衡,那么它不会被重复剔除下策所剔除。命题2,如果是),(002010nssss是重复剔除下策后仅剩下的一个策略组合,则其必为唯一
14、的纳什均衡。命题3:设12(,)iiiiki是相对于i的一个最优混合策略,如果0,0imil即以正的概率进入最优混合策略的纯策略在i看来是无差异的。则(,)(,)iimiiiliv Sv S例.监督博弈, 设a是应缴税款, C是检查成本,F是罚款(Ca+F)纳税人2概率逃税不逃税税收机关1检查a-C+F,-a-Fa-C,-aq不检查0 ,0a ,-a1-q概率r1-r解:通过划线法易知此博弈不存在纯战略纳什均衡,因此双方的两个纯策略均应在纳什均衡中出现。a-C+F,-a-Fa-C,-a0 ,0a ,-a给定r时税收机关检查与不检查的期望收益分别为)1 ()1 (. 0), 0()1)()(),
15、 1 (11rararrCarFrCarFCar由推论知Facrrr011), 0(), 1 (由此易知即时Facrr0税收机关的最优选择是不检查。时Facrr0税收机关的最优选择是检查。时0rr 税收机关可以随机地选择检查与不检查。同样,给定q纳税人选择逃税和不逃税的期望收益分别为2( ,1)()0(1)qaF qq ()aF q 2( ,0)()(1)qaqaq a 0aqaF22( ,1)( ,0)qq由得即qq0时,纳税人的最优选择是不逃税q=q0时,纳税人随机地选择逃税和不逃税另解:税收机关在给q及r下的 期望收益为)1)(1 ()(1 ()(),(1qracarqFcaqrrqa-C+F,-a-Fa-C,-aq0 ,0a ,-a1-qr1-r 0craF得10q令() (1)()(1)0r a cFr a car 即同理纳税人在给定q及r下的期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业运动控制系统合作协议书
- 2025年植物稳态营养肥料项目发展计划
- 从心灵出发走进学生世界的教育方法探索
- 2025年高温电磁阀项目发展计划
- 个性化教学的重要一环基于大数据的未来教育技术分析
- 教育国际化与政策变革解读
- 教育心理学的未来发展提升学习成效的路径
- 教育建筑的绿色改造与可持续发展目标
- 教育政策的跨文化解读与影响分析
- 医学教育与商业科技的结合开启新篇章
- 上海2022年浦发银行人力资源部社会招聘(0111)考试模拟卷3套含答案详解
- 马拉色菌相关疾病诊疗指南(2022年版)
- 哈雷之约:基于指数成分股调整的选股策略
- 湖北省随州市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 个人信用报告异议申请表
- 磁流体密封课件
- 桩基施工安全检查表
- XXX医院管道护理工作总结
- T∕CCIA 001-2022 面向网络安全保险的风险评估指引
- 中职 物联网 试讲题目2
- 高处作业审批表
评论
0/150
提交评论