第八章-可置信性与序贯理性

上传人：1*** IP属地：北京上传时间：2024-05-25 格式：PPTX 页数：37 大小：1.42MB 积分：1.2 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章可置信性与序贯理性本章重点：

理解序贯理性，并能将其运用于博弈求解过程

理解子博弈，运用子博弈完美纳什均衡求解非完美信息博弈

古诺模型和斯塔科尔伯格的联系与区别，以及在求解二者的过程中所体现的博弈过程

本章主要内容一、序贯理性和逆向归纳1、序贯理性2、逆向归纳法与逆向归纳解二、子博弈完美纳什均衡1、逆向归纳法适用范围2、子博弈和子博弈完美纳什均衡三、子博弈完美纳什均衡：举例1、蜈蚣博弈2、斯塔科尔伯格竞争3、时间不一致偏好

一、序贯理性和逆向归纳

1、序贯理性定义：给定i的对手的策略

，我们称

是序贯理性的，当且仅当i在其每一个信息集上都针对

采取了最优反应。也即，参与人在博弈树上每一个信息集都使用最优的策略。它表明参与人在博弈序列的每一个阶段都是理性的，而无论是在博弈的均衡或非均衡路径上使用这一定义我们可以重新考虑一下性别战博弈，参与人2在其每个信息集上的最优反应是什么？答案是很明显的：如果参与人1采取O，那么参与人2应当选择o，而如果参与人1选择F，那么参与人2应当选择f。参与人2的任何其他策略至少在一个信息集上不是最优反应，这说明具有序贯理性的参与人2应该选择of这一纯策略。我们重回这个博弈的根，即参与人1必须在O和F之间进行选择。考虑参与人2的序贯理性之后，参与人1应该得出这样的结论：选择O会带来支付（2,1），而选择F会带来支付（1,2）。现在，若对参与人1也施加序贯理性的话，就要要求正确预测了参与人2行为的参与人1应当选择O。因此，从这一过程中可以得到的唯一的预测就是这样的博弈路径：参与人1选择O，紧接着参与人2选择o。也即，纳什均衡（O，of）是经过序贯理性条件检测之后还余下的唯一的一个策略对。2、逆向归纳法定义：从那些直接与博弈终点相连接的节点开始，然后沿着博弈树逆向归纳的处理程序，被称之为博弈逆向归纳法。命题：任一完美信息有限博弈有一个逆向归纳解，该解是序贯理性的。进而言之，如果没有两个终点结为任一参与人预先给出相同的支付，那么逆向归纳解就是唯一的。疑问：为什么是针对任一参与人，而不是最后行动的参与人？推论：任一完美信息有限博弈都至少有一个纯策略序贯理性纳什均衡。进而言之，如果没有两个终点结为任一参与人预先给出相同的支付，那么该博弈就有唯一的序贯理性纳什均衡。二、子博弈完美纳什均衡1、逆向归纳法适用范围逆向归纳在完美信息有限博弈中寻找序贯理性纳什均衡上是一个有用的方法。然而在不完美信息博弈中，逆向归纳法的运用就与遇到较大的问题，因为我们使用逆向归纳，需要首先分辨出终点结前面的“最后参与人”集合，然后选择行动在这个阶段最大化其支付。同时在无限次重复博弈中，逆向归纳法亦无法适用。在此博弈中完美就无法使用逆向归纳法，因为参与人2在终点结之前有一个并非单点的信息集。因此，他的最优反应并非明确界定的，没有为这个参与人就参与人1实际上选择了什么赋予一个信念，而且这些信念并非逆向选择过程的一部分。真子博弈：扩展式博弈

的一个真子博弈（propersubgame）G由仅有的一个单点（singlenode）和其具有如下性质的所有前行结点构成：如果

且

，那么

。这个子博弈G自身也是一个博弈树，其信息集和支付都源自

。也即子博弈从原博弈中的一个单点信息集开始，且子博弈不能切割原博弈的信息集。子博弈是整体博弈中的一个独立的博弈。完美信息博弈的子博弈分析在图8.3所描述的博弈中，两个“最小的”子博弈是从结点

和

开始的。一个“更大”的子博弈是从

点开始的，它包括从结点

和

开始的两个子博弈。最后，“最大的”子博弈始自初始博弈的根

，包括所有其他的子博弈。不完美信息博弈的子博弈分析在这个博弈中有两个真子博弈：整个博弈（根据定义它总是一个真子博弈），以及从结点

开始的子博弈。值得注意的是，

和

都不可能是子博弈的根，因为它们属于同一个信息集。子博弈概念可以将整体博弈变成一系列更小的博弈，这种方法反过来也可以允许我们将序贯理性的概念应用到不完美信息博弈上来。正如图8.4的自愿性别战博弈所证明的那样，逆向归纳的问题在于我们无法将它应用到博弈的最后，因为有一个信息集包含先行于终点结的两个结点，也即

和

。不过，我们所能做的就是将关注点集中在从结点

开始的子博弈上，从而要求在这个子博弈中博弈行为是理性的。那么，我们就可以在这个“终结博弈”使用理性的行动概念进行逆推，并运用序贯理性。子博弈完美纳什均衡根据子博弈完美均衡的定义，每一个子博弈完美均衡都是一个纳什均衡。但是，不是所有的纳什均衡都必然是子博弈完美均衡，这说明子博弈完美均衡精炼了纳什均衡集，在做出更多精炼后给出了对行为的预测。性别战博弈的再次分析如我们此前所看到的，这个博弈有三个纯策略纳什均衡（O，oo），（F，ff）和（O，of）。但只有（O，of）满足下面这个条件：它是整体博弈中每个真子博弈的纳什均衡，因此（O，oo）和（F，ff）是纳什均衡，但不是子博弈完美的。对于任一完美信息有限博弈而言，子博弈完美纳什均衡的集合与经过逆向归纳剩下的纳什均衡集合是一致的。对于不完美信息博弈，我们需要使用经过修正后的逆向归纳法来分析这类博弈，将真子博弈看成是逆向归纳过程中的相关阶段。作为例子，我们考虑一下图8.4描述的自愿性别战博弈。在这个博弈中，参与人1有四个纯策略其中YO意思是参与人1计划在x1

选择Y，在x2选择O。另一方面，参与人2只有两个策略

，因为他必须在不知道参与人1选择的情况做出选择。在这个博弈中有三个纯策略纳什均衡，由集合

给出，其中只有两个策略对构成子博弈完美均衡，因此子博弈完美均衡策略集是原因在于在这个从结点x1开始的子博弈中，唯有的构成纳什均衡的受到约束的策略对是（O，o）和(F，f)。故而，当我们集中关注从结点x1

开始的子博弈时，剖面（NO，f）不是纳什均衡。

三、子博弈完美纳什均衡举例1、蜈蚣博弈我们来看图8.8描述的完美信息博弈。这个博弈应该从左向右读：参与人1可以在他的第一个信息集上通过选择N马上终结该博弈，或者通过选择C继续博弈。紧接着参与人2也面对着同样的选择（使用小写字母来表示他的选择），而如果参与人2选择继续，那么这个球又踢回给了参与人1，他再次选择终结还是踢回给参与人2，然后在这个阶段参与人2通过第二次选择n或c来结束整个博弈。对于参与人们而言，能够一直继续到终点，可以得到（3,3）的支付，这当然是最好的。但是，逆向归纳告诉我们，这是不可能出现的。在参与人2的最后一个信息集，他将选择n来得到4而不是3,。预期到这一点，参与人1会在前一个阶段选择N以得到2而不是1，这个逻辑一直持续下去，知道参与人1的第一个信息集为止，在这个信息集上他会选择N，两个参与人都得到1的支付。理性的诅咒：由于自利的打算，最后一个阶段上最后一个参与人将希望终止最大化参与人总支付的选择，逆向归纳法表明这一决策是可以为他之前的参与人预期到，并按照这种预期选择其行动，以此类推，直到行动最终回到令人倍感绝望的结果（1,1）。评论：实验证据表明，参与人并不会按照逆向归纳所给出的预测那样行事。原因至少有两个：（1）他们的确关心其他人的支付。对于很多参与人是匿名的情况，这个解释可能不那么可信，但是也不能轻易的排除。（2）是参与人并没有享有关于理性的共同知识。2、斯塔科尔伯格竞争古诺模型和斯塔科尔伯格模型都是研究双寡头厂商产量竞争的模型。但前者是静态的，表现在求解上就是求出各自的最优反应函数后，直接求解联立方程组。后者则是动态的，后行动者在观察到先行动者的产量后再做出产量决策，表现在求解上便是，求出最优反应函数后，将后行动者的反应函数代入先行动者的反应函数（这体现了逆向归纳法），然后根据一阶导数求先行动者最优产量，进而求出后行动者的产量。假设市场需求为

，对于

，有

。我们已经通过最大化每个企业的利润函数求得了最优反应函数，因此每一个i都求解：最优反应由一阶条件给出，我们可以将之写为：假设参与人1首先选择q1

，参与人2在他选择q2之前观察到了参与人1的选择。我们先从分析这个博弈的逆向归纳解开始分析。从参与人2已知q1

来最大化其利润这一条件可知，参与人2会遵守其最优反应函数这一点应该是很清楚的，因此序贯理性表明：我们将8.1式代入到厂商1的反应函数中，将q2消去，然后根据求解厂商1的最优产量企业1的这个解可以由（8.2）中的一阶条件给出，该式为：解得：，其最终的利润为在此博弈中，企业1先行动，相应的其获得了更多的利润，也即先行动者占优。3、时间不一致偏好时间一致性是指在t期为t+n期做一个最优决策，在t+n期实施该决策时，此决策仍是最优的一个决策。我们来看其效用函数

的参与人，他需要在三个时期上对一个给定的预算K进行配置。由于他不会浪费任何预算，所以可以得到下式

，从而求解下面这个问题：为了求解这一问题，我们要来求解以下两个一阶条件：和最终可解的：该参与人选择在早前时期消费更多，因为他在令时间上消费的边际效用相等，并考虑了未来时期的折现问题。下面这个问题是很有意思的：如果该参与人在时间上计划其未来消费，那么他会选择在消费了

之后还坚持其原来的行动计划吗？为了回答这一问题，我们假设该参与人已经消费了，这意味着在时期

还剩下预算：现在我们来看在时期t=2该参与人的最大化问题，此时他剩下的预算为

该参与人问题的解为：或根据初始的预算K来求解对

的选择，从而得到：这和最初给出的该参与人最初对

的选择是一致的。在上述例子中我们效用的折现因子为，现在我们还额外增加使用一个折现因子以对所有与当前消费相对的未来进行折现。利用我们的这个三时期例子来看，该参与人修改后当前折现值问题为：简单而言，当参与人展望未来时，他在时期t=1和t=2之间使用的折现因子要比他在时期t=2和t=3之间使用的折现因子来的大。双曲线折现会带来自我控制问题（self-control），因为参与人计划做一件事，稍后会选择来修改其计划。假设该参与人非常了解自我控制问题——在时期t=1他对时期t=2和t=3以比率

进行折现，但是他知道当明天（t=2）到来时，他会以比率

来折现t=3。换言之，参与人在t=1（称他为参与人1）清楚的知道他是在和在t=2“未来的自己”（称他为参与人2）进行博弈，而未来的这个自己在时间上表现出了不同的偏好。在这种情况下，一个理性的、前瞻的参与人1会运用逆向归纳对其问题进行求解；换言之，他会求解这一动态博弈的子博弈完美均衡。若我们取，在最初的例子中参与人会选择将其消费在时间上均等化，因此在所有

上有

。现在我们来看一个使用

以及

，对修改后的双曲线折现问题进行求解：其一阶条件为：解得：和因此，参与人2所做的选择

和

正是始于参与人2剩余预算

的结点上（无穷多）子博弈中任意一个的解。现在我们移动到该博弈的根，这里参与人1要对如何在其自己的选择和参与人2的选择上进行配置而做出决策，他必须求解以下这一问题：其一阶条件为：解得：这一结果与指数折现（第一种情形）的基准相比是非常不同的，在后者（

）

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第八章-可置信性与序贯理性

文档简介

温馨提示

最新文档

评论

相关文档