完全且完美信息动态博弈a.ppt

上传人：x*** IP属地：四川上传时间：2020-08-02 格式：PPT 页数：68 大小：247.51KB 积分：15 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第三章完整完美的信息动态博弈，请根据完美的过程动态考虑以下问题： (1)信息越多越有利(2)过程是否重要？ (3)动态游戏和静态游戏有什么区别？ (4)人们对过去的游戏是更重视结果，还是更重视过程，其意义是什么？第三章完整完美的信息动态博弈，可靠性问题子博弈逆推归纳法同时选择的2阶段动态博弈，有3.1可靠性问题，在动态博弈中，过程非常重要，因此类似于对未来过程的理解，其本身依赖于其他博弈方的行为。那么，对于那个游戏方可能采取的战略，存在可靠性的问题。可靠性：动态游戏中先行动的游戏方是否应该相信后行动的游戏方会采取某种战略或行动。后行为游戏对方将来对先行行为游戏对方有利的行为称为“承诺”

2、，对先行对方不利的行为称为“威胁”。 3.1.1开采金矿，条件：甲方开采4万元金矿，不足1万元，乙方可投资正好1万元。甲方可以借乙方一万元造金矿，分“约定”成功后和一半。问题：乙方应该借钱给甲方吗？ 3.1.1开金矿，可能即甲方成功后不与乙方分钱(分当然可以)，乙方将损失1万元。因此，乙方决定的关键在于他是否相信甲方的“约定”，结果是甲方是否遵守了他的“约定”。其次乙方可以采取几种方法尽量履行甲方的诺言提起诉讼。 3.1.1开发金矿，按照自己利益最大化的原则，甲方轮到行为时的唯一选择是不区别的，但乙方如果明确了甲方的行为标准，则选择不借。对乙方来说，在本游戏中甲方有不可信赖的确不遵守

3、的约定。如何使甲方的诺言可靠？重要的是，必须增加对甲方行为的制约。节点，情报集，3.1.1开金矿，乙方提出法律手段，即诉讼保护自己的利益，游戏的进行如下图所示。 3.1.1打开金矿，在本游戏中，乙方唯一的选择是提起诉讼，对甲方而言，乙方诉讼的威胁是可靠的，一定可以遵守，他最理性的选择是充分的。也就是说，乙的策略是在第一阶段借，甲在第二阶段不区别的情况下，第三阶段选择打。甲的策略如果乙选择在第一阶段借，他在第二阶段选择得分。在双方这种战略的结合下，本游戏的路径(借、分)，双方得益于(2、2 )，实现高效率的理想结果。 3.1.2先来后，在该游戏中，后入手游戏方1决定是否进入市场竞争，

4、而先进入市场的游戏方2有打击和打击两种选择。 3.1.2先来后，根据利益最大化的原则，游戏方2的唯一选择是无情地打击对方，此时游戏方2的打击威胁是可靠的。知道游戏对手2的决定原则的游戏对手1在第一阶段只能选择。这个游戏的结果是(0，10 )，即先占领市场的人单独享受利益。 3.1.2先到后到右图的情况下，游戏方2的打击威胁不再可信。像这样，游戏对方1在第一阶段的合理选择当然只能进行。游戏结果选择路径为(前进，不打击)，双方利益为(5，8 )。后进者的信息很多，但利益比先入者差。后来者不一定从前者的利益中分出一部分，有可能产生更大的总利益，先入者的损失也不一定很大。 3.2子游戏和逆

5、推归纳法，动态游戏中的子游戏逆推归纳法子游戏完美纳什均衡寡占的斯塔博格模型组合和制造商的游戏谈判游戏，定义：子游戏是从一个游戏的某个动态游戏的某个阶段开始的后续阶段，它具有初始信息集3.2.1动态游戏中的子游戏，注意：从原游戏的初始节点开始的游戏是原游戏本身，不称为原游戏的子游戏在第5章中，对不完全信息游戏中存在不作为其他子游戏的开始信息集的节点进行说明。 3.2.2逆推归纳法，动态游戏中如何解的动态游戏的特征是，在做出某个决策时，之后必须充分理解可能的子游戏，才能很好地进行游戏，得到合理的结果(理性和可靠性) 。因此，动态游戏对完整且完美的信息的基本求解方法可以通过最终阶段的子游戏反推来决

6、定采用合适的策略反推归纳法。 3.2.2反推归纳法，定义：反推归纳法是从动态游戏的最终阶段或最后的子游戏开始，阶段性地向前推推解动态游戏的方法。例如，3.2.2用逆推归纳法分金币，案例： 5个海盗抢走100个宝石，分别是相同大小和价值连城。他们，1 .抽签决定自己的号码(1，2，3，4，5 )2.首先，从1号开始提交分配方案，然后，大家5人投票，半数以上的人同意的情况下，按照他的建议进行分配，否则投海喂鲨鱼。 3 .如1日死后，2日提出分配方案，大家4人表决，如果只有半数以上的人同意，请按照他的建议分配。不然的话，就扔进海里喂鲨鱼。 4 .以下类推条件：海盗都是很聪明的人，可以理性地判断

7、得失，做出选择问题：第一个海盗提出什么分配方案才能使自己的利益最大化，3.2.2逆推归纳法分金币，逆推过程： 12451009909702977 应用：3.2.2逆推归纳法的动态修订计划，如最优路径问题、资源分配问题、生产调度、库存、装载、排序、设备更新、最优过程等，对于整个过程的最优策略，无论过去的状态和决策如何，对于之前的决策所形成的状态，即完全的最优策略基于这一重要原理，用动态修订方法解决优化问题，首先要把问题的过程分成几个相互关联的阶段。这些阶段的状态可以用阶段的特征来描述，决策过程可以用状态的变迁来说明。因此，可以基于问题的实际意义来找出从一个状态变化到另一状态的状态转移方程式，

8、并且可以基于关于所求出的问题的利益指标来建立将局部与全局最优性相结合的动态校正图像基本方程式。 3.2.3子游戏是完美的纳什均衡，因为在动态游戏中游戏过程是逐步深入的，所以这个过程由各个阶段采取的策略组成，从而引出“路径”的概念。路径：从第一阶段通过各阶段的一个行为，最后到达游戏结束的一个终端的各游戏方的行为的组合。一旦找到路径，就会找到分阶段的策略组合。此策略的组合类似于完整的修订，修订的最终实施取决于流程的每个阶段的实施。 3.2.3子游戏是完美的纳什均衡，在打开金矿的情况下，政策组合(借、分)是稳定的战略组合，如果不加区别就会有乙诉讼的威胁，这是双方都不想得到的结果。 “稳定”意味

9、着游戏双方不能单独改变战略，这类似于纳什均衡的概念。3.2.3子游戏的完美纳什均衡在动态游戏与静态游戏之间有很大差异，因此如何在动态游戏中发展相应的概念(本例与以前的开金矿例的差异) 。在这种情况下，反推可以得到乙方不借。因为乙方在第三阶段提起诉讼的威胁是不可信的。由此，甲方在第二阶段的承诺也变得不可信了。最后，甲失去了金矿、乙保本、甲赚钱的机会。 3.2.3子博弈是完美的纳什均衡，根据静态博弈的分析方法，(借、分、打)策略被组合成一个纳什均衡，两者都不会单独改变策略从而降低自己的利益。这与用反推归纳法得出的结论相矛盾。因为路径(借、分)的纳什均衡战略的组合包含着不可信赖的威胁。

10、也就是说，乙方选择在第三阶段提起诉讼的行为是不可信的。 3.2.3子游戏是完美的纳什均衡，需要调整静态游戏中纳什均衡的概念，即应满足：纳什均衡，不遵守战略稳定性不能包含约定或威胁的动态游戏战略组合称为子游戏纳什均衡。 3.2.3子游戏完全纳什均衡，定义(selten selton ) :在动态游戏中各游戏方的策略在动态游戏本身和所有子游戏中构成一个纳什均衡的情况下，将该策略的组合称为一个“子游戏完全纳什均衡” 3.2.3注意子游戏是完美的纳什均衡，反推归纳法得到的解是子游戏是完美的纳什均衡。动态游戏需要注意的2点：各游戏方的战略要求在各阶段根据可能的状况设定行动方案。其意思是避免不遵守的约

11、定和威胁的发生，使子游戏达到完美的纳什均衡。假设所有的游戏都是合理的，不会犯错误。 3.2.3子游戏是完美的纳什均衡，与实际情况的差异：后续的可能性太多，无法分析，只知道有限的后续阶段的情况，承诺有限的非合理性，如何考虑？例如，假设不合理的次数在k以下？象棋k叉树算法游戏构成的“长短”和稳定性、不可预测性等3.2.4寡占的斯塔克博格模型是动态游戏中的古诺模型的体现，例如，在古诺模型中，两个制造商同时生产量q1、q2、Q=q1 q2、上市3.2.4垄断的斯塔博模型，但是，很多实际问题是各厂商进入市场有前后，特别是厂商有强弱之分，并且后者的厂商(跟随者)在做决断时看前厂商的选择，引出斯塔博模

12、型。史塔克博格模型与古诺模型相比，唯一的区别是前者有选择的顺序问题，其他例如游戏对手、战略空间、利益函数等完全相同。 3.2.4垄断的斯塔博格模型，以两垄断为厂家1和厂家2的他们的战略空间(q1、q2的集合)都是0、Qmax中的所有实数，其中Qmax是价格不亏损的最大生产量，或者是其生产量和厂家生产能力的、3.2.4寡聚物的斯塔伯格模型，两厂商的利益函数分别注意到此时战略空间为连续变量，结合反应函数的方法和逆推归纳法进行解。解决q1*=3、q2*=1.5，双方的利益分别为4.5、2.25。以上分析均基于两厂在合理情况下得到的均衡解。 3.2.4垄断的斯塔克博格模型，以上的模型，在信息非对

13、称的游戏中，信息多的游戏对方(例如，由于制造商2在决定之前知道制造商1的实际选择，所以他有很多信息)不一定能获益很多原因：先发行为或信息少者不得将后发行为者或知识多者视为合理的游戏对手，因公平或赌博而采取不利于双方的行为。因此，先发制人选择比同一静态决定时大的产量获利。 3.2.5工会与制造商的博弈，leontief于1964年提交的工会与制造商之间的工资与雇佣博弈模型。条件：假设工会完全决定工资，制造商根据工资的高低决定雇佣劳动者的数量。请注意。此时需要均衡解。因为工资过高，雇佣人数就会减少。人数过多，工资过少，也不是工会的希望，一定存在合适的值，工资和人数双方都合适。 3.2.5

14、工会和制造商的游戏，工会的目标是寻求合适的工资和人数，其效用函数是工资w和人数l两个函数，工会的决定如何选择W*，制造商关心的是一个目标，即利益最大化。若用逆推归纳法求解，则意识到这里仅给出了模式函数，可以在实际问题中构筑对应的函数，可以得到对应组合没有差异的曲线。 3.2.5工会和厂家的游戏，首先由工会决定工资率，然后由厂家决定雇用多少劳动力，进行3.2.6谈判游戏的3阶段谈判游戏，条件：两人如何分1万元进行谈判，规则如下图所示3.2.6谈判游戏的3阶段谈判游戏各阶段的费用(谈判成本、利息等)减少收益，折扣率为01程序(阶段):1 .甲S1，乙10000-S1；乙方接受后结束，否则进行阶

15、段2 .甲S2、乙10000-S2。甲的接受结束，否则进行阶段3注意此时甲的收益为S2，乙为(10000-S2) 3.甲s，乙为10000-S，此时乙必须接受。收益分别为2S、2(10000-S )、3.2.6买卖游戏三阶段买卖游戏，注意该游戏的条件：(1)第三阶段的收益必须接受。 (2)过程越长，双方利益之和越小。因此，如果双方合理，选择合适的时期提前完成谈判对双方都有利。输出(2S，2(10000-S )，(s 2，10000-s2)，(s 1，10000-s2)，s 2，3.2 . 所以，第二阶段乙应该不要把自己的利益最大化进行第三阶段(即甲也接受)，乙应该怎样投标出S2后，甲的

16、利益比第三阶段的利益小的情况下，甲进行第三阶段。因此乙方的策略是在第二阶段将甲方的收益提高到第三阶段甲方的收益以上，使自己的收益达到最大(大于第三阶段)。 3.2.6谈判游戏的三阶段谈判游戏，-所以乙的选择是S2 2S，即S2 S (甲二、三阶段利益相同)，那么乙的收益是(10000-S) 2(10000-S )。同样的分析适用于甲方在第一阶段对乙方(10000-S )、甲方的利益s110000- (10000-S )进行分析的甲方第一阶段的战略，双方的利益为(10000-10000 2S， 10000-S )，3.2.6谈判游戏3阶段谈判游戏，讨论：第三阶段甲的报价s双方都知道，如果不知道结果怎么样，如果s是任何值的乙都必须接受的话，S10000是合理的，S10000 3.2.6谈判游戏的三阶段谈判游戏，最终利益取决于-2的大小，-2越大甲方利益的比例越小，乙方利益越大。 0.5时取极大值0.25的考察函数为2 0.51时，随着增大，甲的利益增加，乙的利益减少为00.5时，随着增大，甲的收益减

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

完全且完美信息动态博弈a.ppt

文档简介

温馨提示

最新文档

评论

完全且完美信息动态博弈a.ppt

文档简介

温馨提示

最新文档

评论

相关文档