




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、博弈是人们的行为之间的交互作用 博弈论的含义博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。策略性环境是指,每一个人进行的决策和采取的行动都会对其他人产生影响;策略性决策和策略性行动是指,每个人要根据其他人的可能反应来决定自己的决策和行动。在所有社会,人们经常互动。有时,互动是合作,其他的时候,互动是竞争。在这两种情况下,都可以用一个术语,即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。 相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样 选择行动。策略对于社会的运行来说,是非常基本的。我们要学会了解在策略环境下,人们实
2、际上是如何采取行动的,以及他们应该怎样采取行动。这种系统的研究形成了策略互动的理论。博弈论三要素:博弈的三个基本要素三个基本要素,即参与人、参与人的策略和参与人的支付。所谓参与人(或称局中人),就是在博弈中进行决策的个体;所谓参与人的策略,指的是一项规则,根据该规则,参与人在博弈的每一时点上选择如何行动;所谓参与人的支付是指,在所有参与人都选择了各自的策略且博弈已经完成之后,参与人获得的效用(或期望效用)。3.博弈的简单分类根据参与人的数量,可以分为二人博弈和多人博弈;根据参与人的支付情况,可分为零和博弈和非零 和博弈;根据参与人拥有的策略的数量多少,可分为有限博弈和无限博弈;根据参与人在实施
3、策略上是否 有时间的先后,可分为同时博弈和序贯博弈。一些概念:局中人或参与者(Players )规则(rules ):规定博弈各方的行动顺序、方式、以及最终的结果等。策略(Strategy ):一整套的行动方案, 规定了各种情况下的行动。比如:敌进我退,敌退我追,敌驻我扰,敌疲我打。相机策略(contingent strategy):仅在不确定事件发生时才会采取的策略。如:人不犯我,我不犯人;人若犯我,我必犯人。行动:局中人在特定条件下的行为支付(Pay-off ):博弈结束时,各方得到的收益。策略均衡:参与者之间稳定的、可预测的互动行为模式,就是策略均衡。上策均衡与纳什均衡上策均衡:我所做的
4、是不管你做什么我所能做的最好的你所做的是不管我做什么你所能做的最好的所谓上策,是指这样一种策略,即不管对手采取什么策略,这种策略都是最优的。而当对局者选择的都是上策的时候,这种均衡叫做上策均衡。NAS阳衡:我所做的是给定你所做的我所能做的最好的你所做的是给定我所做的你所能做的最好的纳什均衡是指在对手策略既定的情况下,各自对局者所选择的策略都是最好的。在一个纳什均衡里,任何一个参与者都不会改变自己的策略,如果其他参与者不改变策略。上策均衡与纳什均衡的区别:(1)上策均衡是指不管你选择什么策略,我所选择的是最好的;不管我选择什么策略,你所选择的是最好 的。 纳什均衡是指给定你的策略,我所选择的是最
5、好的;给定我的策略,你所选择的是最好的。上策均衡是纳什均衡的一种特殊情况,但纳什均衡却不一定是上策均衡。求纯策略博弈的纳什均衡街解的方法混合策略均衡的情侣博弈,根据支付矩阵计算出博弈双方的期望得益分析该博弈的纳什均衡的概率分布寻找混合策略纳什均衡的思路令各博弈方随机选择纯策略的概率分布,满足使其他博弈方采用不同策略的期望得益相同,从而计算出各个博弈方随机选择各纯策略的概率。在猜硬币博弈中,设盖硬币方出正面的概率为 p,出反面的概率为1-p。则猜硬币方猜正面的期望得益为p -1+(1-p) (-1)=2p-1 ,猜反面的期望得益是 p - (-1)+(1-p)- 1=1-2p,令二者相等,得p=
6、1/2。盖硬币方的混合策略是以(1/2,1/2 )的概率随机选择正面和反面。类似的,可以计算出猜硬币方的混合策略。 ,期望支付运用两个参与人的混合策略组合,可以分别表示出两个参与人得到的支付。Ea = p1q1A1 + p 1(1 - q1)A12 + (1 - p)qA1 + (1 - p1)(1 -q1)A22-p1q1(A1 -A21)(1 - q1)(A2一A22)q1(A21-A22)A=p A q3 - %)A>2其中,M =q/A1 A1) +(1 qJ(A2 A2)是A勺判别式Eb = pfliE + p1(1 - q002 + (1 - R) q' + (1 -
7、 p)(1-4)民2=plq - B21) (1 -q)( B2 - 一媒艮1 - 民2)B.2= pB q<B21 -B22)%其中,;b = 8B1 -&)(1 -q)(B12 - %)是B勺判别式博弈树1 .博弈树的起点“起点”又叫做“初始决策点”,通常只有一个。起点是博弈树的“根”,是序贯博弈开始的地方, 是博弈的最先行动者进行决策的地方。2 .博弈树的线段从初始决策点出发,向右伸展两条线段,分别表示竞争者可以采取的两个行动或策略。3 .博弈树的中间点中间点又叫做“中间决策点”,通常至少应有两个。通常在这些中间决策点的旁边标上另一参与人,表示中间点是另一参与人做决策的地方
8、。博弈树的终点第一,终点不是决策点终点是博弈结束的地方。与起点和中间点不同,终点不是决策点:既不是初始决策点,也不是中间决策点。因此,终点不属于任何的参与人,终点的旁边没有标注任何的参与人。第二,终点的两层含义一是代表博弈的一个策略组合一一从起点开始导向某个终点的所有线段按先后秩序排列的一个组二是代表与某一个策略组合相对应的一个支付组合一一在每一个终点的旁边,有一对用圆括号围 住的数字,其中的第一个数字是先行动者的支付,第二个数字是后行动者的支付。逆向归纳法求解子博弈的精炼纳什均衡解逆向归纳法的两个步骤第一步,先从博弈的最后阶段的每一个决策点开始,确定相应参与人此时所选择的策略,并把参与人 所
9、放弃的其他策略删除,从而得到原博弈的一个简化博弈;第二步,再对简化博弈重复步骤一的程序,直到最后,得到原博弈的一个最简博弈。这个最简博弈, 就是原博弈的解。简化之后举例情侣博弈足身足球女足球足球世普芭蕾 (0,0)足球足理 ( 1+芭蓿女方的选择完全由男方的选择所决定:男(足)-女(足);男(芭)-女(芭)男方的最优策略是选足球,女也选足球,即最优策略组合为(足球,足球) 逆向归纳策略总是纳什均衡,纳什均衡不一定是逆向归纳均衡。先动优势从情侣博弈的例子中可以看到所谓的“先动优势”一一先行动者的得益大于后行动者的得益。如男方先动,逆向归纳的结果就是对男方更有利的纳什均衡(足球,足球);如改为女方
10、先动,则逆 向归纳的结果就是对女方更有利的纳什均衡(芭蕾,芭蕾)。足球芭蕾足球(0. 0)足球也箫(2,1) 该混合策略纳什均衡给丽娟带来的期望得益是:带断者睿匕一dI h 4 J血竞争者 网gJ-CO. 5)/垄断者抵抗co, n装断背容忍一一d进入b抵抗y.2)竞争并“不进入、c容想.一一If %5抵疣一to*3 )(1-p)?0 ?1+p?0 ?0+(1-p) ? (1-0 ) ? (-1) +p?(1- 0 ) ?2=0.5 给大海带来的期望得益是:(1-p)?0 ?2+p?0 ?0+(1-p) ? (1-0 ) ? (-1) +p?(1- 0 ) ?1=0.5丽娟 p为丽娟选择芭蕾的
11、概率足芭蕾2, 10, 0-1,-11,2逆向递归法逻辑基础:动态博弈中先行动的博弈方,在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段的选 择,只有在博弈最后一个阶段选择的博弈方才能直接作出明确选择。而当后面阶段博弈方的选择确定后, 前一阶段博弈方的行为也就容易确定了。一般方法:从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再 确定前一个阶段博弈方的选择和路径,逐步向前逆推以求解出动态博弈均衡。子博弈定义:由一个单结信息集开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈 的一部分。仿冒 不制止X不住冒:(0,10)仿冒心不仿&quo
12、t;仿冒与反仿冒博弈B受:x5:制方/ 不制因他切子博弈精炼纳什均衡定义:如果在一个完全信息动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个博弈及它的所 有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个子博弈精炼纳什均衡。幻灯片26以法律保障不足的开金矿博弈为例策略组合“乙在第一阶段选择借,第三阶段选择打;甲在第二阶段选择分",即(借, 打),(分),虽然是整个博弈的一个纳什均衡,但这个策略组合中乙的策略要求乙在第三阶段的 子博弈中选择的“打”,不是该子博弈的一个纳什均衡,因此这个策略组合不是子博弈精炼纳什均衡。 而策略组合(不借,不打),(不分)则是该博弈的子
13、博弈精炼纳什均衡。因为该策略组合的双 方策略不仅在整个博弈中构成纳什均衡,而且在两级子博弈中也都构成纳什均衡(从而不存在任何不 可信的威胁或承诺)。注意:当博弈方按上述子博弈精炼纳什均衡策略组合行动时,实际上不会进行到博弈的第二、三阶段,两博弈方在第二、三阶段的行为实际上不会发生。但作为完整策略的表达,在描述子博弈精炼纳什均 衡的策略选择时,必须将其给出。幻灯片28三、子博弈精炼纳什均衡求解方法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。完全信息动态博弈的每一个决策结都是一个单独的信息集,每一个决策结都开始一个子博弈。这样, 可以从最后一个子博弈开始(即从最后一个决策结开始)逆推上去,求解子博弈精炼纳什均衡。幻灯片30四、承诺行动与子博弈精炼纳什均衡前面已知,有些纳什均衡之所以不是精炼均衡,是因为它们包含了不可信威胁。这也意味着,如果参 与人能在博弈之前采取某种措施改变自己的行动空间或支付函数,原来不可信的威胁就可能变得可 信,博弈的均衡就会相应改变。将这些为改变博弈结果而采取的措施称为“承诺行动”。在许多情况下,承诺行动对当事人是很有价值的。特别的,有时一个参与人通过减少自己的选择机会 使自己受益,原因在于保证自己不选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅游行业疫情期间的预检分诊工作规范
- 煤矿复工复产安全技术措施
- 公共交通站点混凝土路面质量控制策略
- 四年级数学上册创新思维培养计划
- 2025至2030中国水果罐头行业消费动态及竞争策略研究报告
- 青少年心理健康知识普及计划
- 2025至2030中国母婴水市场销售格局及企业经营发展研究报告
- 心理健康急救:心肺复苏流程的重要性
- 中西医结合治疗失眠的Meta分析
- 语言学术语藏文译名的规范化研究
- 《中国省会城市介绍》课件
- 电子商务物流教学课件
- 排水工程(下)重点
- 声音与情绪管理
- 直播中控转正述职报告
- 史宁中:义务教育数学课标(2022年版)解读
- 中华人民共和国统计法
- 基于Simulink+DSP代码生成的永磁电机控制 课件 第1-4章 DSP各模块介绍-永磁同步电机的磁场定向控制技术
- 中国石油吉林职业技能鉴定中心鉴定经管员操作试题
- 军事AI模型优化
- 第六章-主成分分析法
评论
0/150
提交评论