经济博弈论_第1页
经济博弈论_第2页
经济博弈论_第3页
经济博弈论_第4页
经济博弈论_第5页
已阅读5页,还剩190页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

经济博弈论教程 1博弈导论 “ 博弈论 ” 译自英文 其实 因此 游戏理论 ” 。 进一步观察还可以归纳出游戏的下列四个共同特征:第一 , 都有一定的规则 。 第二 , 有一个结果 。 而且结果常能用正或负的数值表示 , 至少能按照一定的规则折算成数值 。 第三 , 策略至关重要 。 第四 , 策略有相互依存性 。 因此博弈论在我国有时也常被称为 “ 对策论 ” , 具体的博弈问题则被称为 “ 对策 ” 问题 。 现在 , 我们来给博弈下一个定义:博弈即一些个人 、 队组或其他组织 , 面对一定的环境条件 , 在一定的规则下 , 同时或先后 , 一次或多次 , 从各自允许选择的行为或策略中进行选择并加以实施 , 并从中各自取得相应结果的过程 。 规定或定义一个博弈需要设定下列几个方面: ( 1) 博弈的参加者 。 ( 2) 各博弈方各自可选择的全部策略或行为的集合 。 ( 3) 进行博弈的次序 。 不同的次序必然是不同的博弈 。 ( 4) 博弈方的得益 。 结果无法量化为数量的决策问题不能放在博弈论中研究 。 博弈的基础 1、 “ 个体行为理性 ” 除非为了实现自身最大利益的需要 , 否则不会考虑其他个体或社会的利益这样一种决策原则 。 2、 “ 非合作博弈 ” 也就是说各博弈方不能公然 “ 串通 ” 、 “ 共谋 ” 的博弈问题 。 事实上 , 在我们证明非合作博弈无效率或低效率的同时 , 就自然说明了存在着合作的可能性和必要性 。 囚徒的困境 由于这种结果在一次 /有限次博弈中具有必然性 , 无法摆脱 , 因此叫做“ 囚徒困境 ” 。 启示:当一个社会中的每个个体都只为自身的利益打算时 , 即使大家都遵守社会规则 , 个体的行为是不一定符合集体的或社会的利益的 ,甚至也不一定真能实现个体的最佳利益 , 即使追求个体利益的动机变为实现社会最大利益的手段的 “ 看不见的手 ” 并不总是存在的 。 双寡头削价竞争 这个博弈的最终结果一定是两寡头都采用“低价”策略,即( 70,70)。 由于双方无法信任对方,即使彼此都完全清楚利害关系和相应的得益,也无法改变这种结局,因此也是一种“囚徒困境”。 赌胜博弈 1、齐威王与田忌赛马 首先,各方不能让对方猜中自己的策略。 其次, 6种策略本身相互之间并无优劣之分,有依存性。 因此,各方应以相同的概率选用。 关于产量决策的 诺)模型 设市场上有 商 个市场总产量 Q= 能够将商品全部销出的“市场出清价格”是投放到该市场上的该种商品总量的函数,商品总量越大,市场出清价格就越低,而商品的总量当然就是这 市场出清价格 P=P(Q),因此, P=P(Q)=P( ), 得益就是生产的利润 , 也就是销售收益减去成本后剩下的余额 。 厂商 = P( ) ,设每个厂商的平均单位成本为 C,因此厂商 P( ) -C*qi= P( ) 可见 , 厂商 还通过价格取决于其他厂商的产量决策 , 即显示出策略的相互依存性 。 如果我们假设产量是连续可分的 ( 这时数学处理和讨论较容易 ) , 则即使将超过厂商生产能力的不可能的产量去掉以后 , 每个厂商还都有无限多种可供选择的产量 。 所以此类问题要用函数表示 。 博弈结构和博弈分类 博弈中的博弈方 博弈中独立决策 、 独立承担博弈结果的个人或组织称为博弈方 。 1、 单人博弈 所谓单人博弈就是指只有一个博弈方的博弈 。 严格地讲 , 单人博弈已经退化为一般的最优化问题 。 单人迷宫 单人迷宫博弈的扩展形 商人的运输路线博弈 走水路的期望得益为: (75%+(25%= 因为 9250=ui( .,*, 对任意 成立 , 则称 ( 为 G 的一个 “ 纳什均衡 ”( 。 简单地讲 , 我们前述各博弈方都不愿单独改变策略的策略组合就是纳什均衡 。 求解博弈的主要关键在于寻找各博弈方都不愿或不会单独改变自己策略的策略组合 , 只要这种策略组合存在且是唯一的 , 博弈就有绝对确定的解 ( 纳什均衡 ) 定理 1:在 G= . .中 ,如果严格下策反复消去法排除了除 ( 之外的所有策略组合 , 那么 ( 一定是该博弈唯一的纳什均衡 。 定理 2:在 n 个博弈方的博弈 G= . .中 ,如果 ( 是 G 的一个纳什均衡 , 那么严格下策反复消去法一定不会将它消去 。 无限策略博弈分析 古诺的寡头模型 设一市场有 1、 2两家厂商生产同样的产品 。 如果厂商 1的产量为 厂商 2的产量为 则市场总产量 Q=q1+市场出清价格是市场总产量的函数 P=P(Q)=8;再设两厂商的平均单位成本相等 。 最后求两厂商如何 同时 决定各自的产量 。 求解古诺模型 U1=) (q1+ 2q1q 1q2q 12 ) (q1+ 2q2q 1q2q 22 q1q 1q2q 12) q2q 1q2q 22) 6q 2* 20 6q 1* 20 2 Q=2+2=4 2=4 检验古诺模型的效率 假设市场上只有一个厂商,看它会如何决策。 因为另一家产量为零 , 意味着另一家垄断市场 , 我们讲的市场总体利益与独家垄断的利益是一致的 。 U=P(Q) (8 Q) 2Q=6Q Q*=3 U*=9 ( 与上述结果相比较 ) 各生产者一半实现最大利润的总产量的策略组合 ( 不是两厂商时的纳什均衡 , 也就是说 , 在这个策略组合 ( 产量组合 ) 下 , 双方都可以通过独自改变 ( 增加 ) 自己的产量而得到更高的利润 , 进而实现 ( 2, 2) 的产量组合 , 这实际上又陷入了 “ 囚徒困境 ” 。 古诺模型在现实中最好的例子就是石油输出国组织的限额和突破 。 伯特兰德( 头模型 该模型研究的商品间具有很强的同质性和替代性 ,造成消费者对价格极为敏感 , 于是价格竞争成为寡头企业惯用的竞争手段 。 这就是典型的经营同质商品商家间围绕商品价格而开展竞争的伯特兰德 ( 模型 。 这种情况我们可假设当商家 1和商家 2价格分别为2时 , 他们各自的需求函数用 q1= q2= = 其中 0表示两商家商品具有一定替代性的替代系数 , 并且 , 假设两商家无固定成本且边际成本分别为 以及两商家同时决策 。 在该博弈中 , 两博弈方为商家 1和商家 2;他们各种的价格策略空间为 0, 和 0, , 其中2和商家 2还能卖出商品的最高价格 ,两博弈方各自的利润 ( 都是双方价格的函数 。 2) ( ( 2) ( ( 我们用反应函数的概念解该博弈 。 利用上述利润函数在偏导数为 0时有最大值可解得两商家针对对方价格策略的反应函数分别为: a1+ a2+ 纳什均衡 ( 必是两反应函数的交点 , 即: ( a1+ /2 ( a2+ /2 解此方程组 , 得: d1(a2+(42b2(a1+(4 d2(a1+ (4+2b1(a2+(4 且 ( 为该博弈唯一的纳什均衡 。 通过分析可知 , 当两商家价格策略为 ( 时 , 任何一方都不能通过单方面背离该策略来提高自己的利润;且当双方商品具有很强的同质性与替代性 , 导致消费者对价格非常敏感时 , 两商家唯一确定的价格策略是将价格降至其可以维持的最低水平 。 需要指出的是 , 这种情况下的纳什均衡 ( 和囚徒困境一样 , 是一种低效率的均衡 , 远不如各博弈方通过协商 、 合作可能得到的最佳结果 。 在经济学中 , 所谓公共资源是指具有: ( 1) 没有哪个个人 、 企业或其他组织拥有; ( 2) 大家都可自由利用这两个特征的自然资源或人类生产的供大众免费使用的设施和财货 。 这里所讨论的公共资源是大家都可以自由免费利用的严格意义上的公共资源 。 在人们完全从私人动机出发自由利用公共资源时,公共资源倾向于被过度利用、低效率使用和浪费,并且过度利用会达到使任何利用它的人都无法得到多少实际好处的程度。 设某村庄有 该村有一片公共草地。由于草地面积有限,只能让不超过某一数量的羊吃饱,如果实际的羊数超过这个限度,则每只羊无法吃饱,甚至还会饿死。假设农户夏天在草地放羊,而在春天决定养羊数,且彼此不知道其他方的决策信息,这就构成 为了简单起见,假设 n=3,即有 3 个农户,每只羊的产出函数为 V=10000-(q1+q2+而购买和照料每只羊的成本 c=4。这时 3个农户的得益函数分别为: U1=00-(q1+q2+ U2=00-(q1+q2+ U3=00-(q1+q2+ 求得 3个农户各自对其他两农户策略的反应函数,得: 以上方程组的解就是纳什均衡。即 q1=q2=4 u1=u2=76 检验公共资源博弈的效率 设该草地只有一个农户,其养羊总数为 Q,则其收益为: u=Q(1004Q=96对该方程求导,得: 96 Q=48 u=2304 这个例子又一次证明了纳什均衡常常是低效率的 。 这些公共资源博弈问题的结果说明了在公共资源的利用 、 公共设施的提供方面政府的组织 、 协调和制约是非常必要的 , 这也可以说是政府之所以存在的根本理由之一 。 . 混合策略和混合策略纳什均衡 1 . 严格竞争博弈和混合策略的引进 我们首先对各博弈方的利益和偏好始终不一致的,在通常策略的基础上没有纳什均衡的博弈问题进行分析。这类博弈也称“严格竞争博弈”。 一、猜硬币博弈 在一次性博弈中没有会自动实现的均衡性策略组合 , 也就是说 , 两博弈方之间的利益是始终都不会一致的 。 因此这就引出了在这种博弈中各博弈方决策的第一个原则 , 自己的策略选择千万不能预先被另一方侦知或猜到 。 在该博弈的多次重复中 , 博弈方一定要避免自己的选择带有任何的规律性 , 因为一旦自己的选择有某种规律性并被对手发觉 , 则对手可以根据这种规律性判断出你的选择 , 从而对症下药选择策略 , 使你屡战屡败 。 随机选择原则 。 设盖硬币方出正面的概率为 p,出反面的概率就是 1出正面多于出反面意味着 p1p1/2。这种情况下,如果猜硬币方全猜正面,则他的期望得益为: P*1+(1(2()0 即平均来讲,猜硬币方一定是赢多输少。 因此,对盖硬币方来说,最可靠的方法是以相同的概率随机出正面和反面( p=1/2)。 二、混合策略 定义:在博弈 G=,S n;,u 2 中,博弈方 i 的策略空间为 ,s 则博弈方 p 随机在其 略”,称为一个“混合策略”,其中 0w(S)w(S)+理人会选择努力。(可见这是促使代理人努力工作的必要条件,即努力的“激励相容约束”) w(E)w(S)+有努力工作的代理人得到的报酬,达到在偷懒时也能得到的基本报酬以上,还有一个至少不低于能补偿努力工作比偷懒更大负效用的增加额时,代理人才会努力工作。 反之,如果 w(S)-Sw(E)理人肯定会选择偷懒。(偷懒的“激励相容约束”) 其次,分析第二阶段代理人是否接受委托的选择。 可见,在两种情况(努力 /偷懒)下,代理人选择接受的条件分别是 w(E) 和 w(S),称为代理人的“参与约束”。 如果考虑代理人有接受其他委托的可能性,那么上述不等式就不能只满足大于 0,还要考虑其机会成本。 最后,回到第一阶段委托人的选择。 显然在前一种情况下,如果 R(E)R(0)成立,委托人会选择委托;在第二种情况下,如果 R(S)R(0)成立,委托人会选择委托。 归纳三个阶段两博弈方的选择,就得到了本博弈的子博弈完美纳什均衡。 该博弈的子博弈完美纳什均衡是委托人选择委托,代理人接受并努力工作。 举例 (三)有不确定性但可监督的委托人 由于现在代理人的努力和成果之间不再完全一致,因此有一个根据工作情况还是成果支付报酬的问题。一般说来,在委托人对代理人的工作有完全监督的情况下,通常是根据代理人的工作情况而不是工作成果支付报酬。 假设模型中的不确定性表现为:有 20和 10单位两种可能的产出,代理人努力时产出 20的概率是 出 10的概率是 理人偷懒时产出 20的概率是 出 10的概率是 假设 R(0)=0,其他则与前一个模型一样。同时,引入“自然”博弈方 0反映不确定性。 在第三阶段,当 w(E)-Ew(S)w(S)-Sw(E) 在第二阶段,在上述两种情况下分别满足 w(E)和w(S)时代理人会接受委托;否则不接受委托。 在第一阶段,假设代理人会选择接受并努力工作,若选择委托的期望得益大于不委托, 即 20)+10)0时委托人选择委托。 若选择委托的期望得益小于不委托,即 20)+10)0时委托人选择委托。 若选择委托的期望得益小于不委托,即 20)+10)w(20)w(10)则代理人会选择努力工作。 在第三阶段代理人选择努力的情况下,分析第二阶段,则只要他选择接受的期望得益大于不接受的得益( 0),w(20)w(10)0,则代理人就会选择接受委托,该不等式就是目前模型的参与约束。 分析第一阶段,假设委托人判断代理人会选择努力,因此只要委托人的期望得益 200)+100)0成立,他就会选择委托。 在上述几个约束条件满足的情况下,双方的上述选择构成该模型的子博弈完美纳什均衡。 第五节 有同时选择的动态博弈模型 本节所研究的博弈中存在在同一阶段有两个或两个以上博弈方同时选择的情况 。 一 、 标准模型 1、 博弈中有 4个博弈方 2、 第一阶段博弈方 1、 2同时选择 3、 第二阶段博弈方 3、 4看到博弈方 1、 2的选择后再同时选择 4、 各博弈方的得益取决于所有博弈方的策略 。 间接融资和挤兑风险举例 设某银行为给一家企业发放一笔 20000元的贷款,以 20%的年利率吸引客户存款。若两客户各有 10000元资金,如果他们把资金作为 1年期定期存款存入该银行,则银行就可向企业发放贷款。如果两客户都不愿存款或只有一人存款,银行就无法放贷,这时客户都能保住自己的本金。 在两客户都存款且银行放贷的情况下,如果银行满 1年收回贷款,它就可用收回的贷款本息支付存款本息。但如果在不满 1年的时间内,一个客户单独或两客户同时要求提取存款,则银行只能收回 80%的贷款本金。若一个客户提前取款,银行会偿还其全部本金,余款属于另一客户;若两客户同时要求提前取款,则平分收回的资金。 该问题可用两客户之间在第一阶段同时选择是否存款,第二阶段同时选择是否提前取款的两阶段博弈表示。 用逆推归纳法首先分析第二阶段博弈,该博弈有两个纳什均衡(提前,提前)和(到期,到期),后一个明显帕累托优于前一个。 但是,在这个博弈中却不存在一种机制保证后一个纳什均衡一定出现。 因为只要有一个客户认为另一个客户有提前取款的可能性,那么他合理的选择就是提前取款,所以常常会导致前一个低效率的纳什均衡。 分析第一阶段,如果第二阶段的结果是比较理想的纳什均衡,则第一阶段博弈等价于下图。 在这种情况下,第一阶段也有两个纳什均衡(不存,不存)和(存款,存款),而且后一个帕累托优于前一个,同时后一个也是风险上策均衡,因此两客户都会选择后一个均衡。 如果第二阶段的结果是不理想的纳什均衡(提前,提前),则第一阶段博弈等价于下图。 此时(不存,不存)是两客户的纳什均衡。这相当于客户不再信任银行,银行系统崩溃的情况。但这并没有引起银行挤兑。 银行挤兑的内在机制 存款 , 存款 ) ( 提前 ,提前 ) 与囚徒的困境博弈一样 , 间接融资和银行挤兑博弈也揭示了经济决策中一种低效率的均衡的存在 。 不过 , 它本身存在一种有效率的均衡结果 , 只要我们注意调控或采取某些保险制度 , 就能避免低效率均衡的出现 。 第六节 动态博弈分析的扩展讨论 一 、 逆推归纳法的问题 首先 , 逆推归纳法只能分析有明确设定的博弈问题 ,而现实中许多问题没有明确设定 。 其次 , 逆推归纳法不能分析比较复杂的动态博弈 。 此外 , 逆推归纳法更大的问题是对博弈方的理性要求太高 , 不允许博弈方犯任何错误 , 而且要求各方要相互理解和信任对方 。 因此 , 对于一个理性博弈方来说 , 如果其他博弈方偏离了子博弈完美纳什均衡路径时 , 他后面的决策就很困难了 。 该博弈的子博弈完美纳什均衡路径是: L。 若参与人 1在第一阶段选 R,即错选,这时博弈方 2必须确定博弈方 1在第一阶段所犯错误的性质,是偶然性错误还是理性层次太低,还是为发出某种信号故意犯错误。 二、颤抖手均衡和顺推归纳法 (一)颤抖手均衡 在这个博弈中,( D, L)和( U, R)都是纳什均衡。但如果考虑博弈方 2的选择可能出现偏差,则( D, L)就不再具有稳定性。而( U, R)对于概率较小的偶然偏差来说具有稳定性,称为“颤抖手均衡”。 P*=1/3, q*=1 该博弈使( D, L)也变成了“颤抖手均衡”。因为现在即使博弈方 1仍然考虑博弈方 2偏离 的可能性,但只要这种可能性很小,那么博弈方 1仍会坚持选 D,而不是转向 U。 Q*= 可见,一个策略组合要是颤抖手均衡,首先必须是纳什均衡;其次,不能包含任何“弱劣策略”,否则它经不起任何非完全理性的干扰。 该博弈有两个均衡路径: L 和 RNTV。但后一个不是颤抖手均衡路径。 这时该博弈中的 RNT时也颤抖手均衡。因为每个博弈方犯错误(偏离该路径)的概率比较小,那么,他们主观上仍有坚持它的愿望。 可见,通过颤抖手均衡检验的子博弈完美纳什均衡,在动态博弈中的稳定性必然更强,从而使结果更加可靠。 二、顺推归纳法 表面上看,该博弈均衡路径是博弈方 1第一阶段选 R,如果达到第二阶段的静态博弈,双方则选择 ( s)( w)都是该博弈的子博弈完美纳什均衡。 (s 实际上,第二阶段的子博弈并不在均衡路径上,到达这个子博弈只能被认为是博弈方 1在选择时出了差错。 但该博弈的 (Ds,w)的稳定性有问题。因为有博弈方 1故意在第一阶段选 可见,博弈方知道自己在第一阶段选择 弈方 2在第二阶段的最佳选择就只有 w,从而在第二阶段能实现对自己有利的均衡 (w,s),这比第一阶段直接选择 因此,在这个博弈中真正具有稳定性、比较容易出现的均衡是 (Dw,s)。 顺推归纳法考虑的是博弈方有意识偏离子博弈完美纳什均衡的可能性,而不是偶然性的错误 。 蜈蚣博弈问题 这是一个由两方轮流选择的多阶段动态博弈,共 198个阶段。 该博弈的子博弈完美纳什均衡是:博弈方 1在第一阶段就选择 D,直接结束博弈,双方得益都是 1。 但上述分析与人们的直觉和实验结果不一致。其原因是: 博弈方 1在第一阶段选 ,但与选 9的潜在可能性相比,前者显然并不是好的选择。因此至少在博弈的初始阶段,把主动权交给对方,让博弈延续下去,对双方都有很大潜在利益的投机,所以出现不符合上述推导结果的可能性很大。 这种合作并不能持续到最后阶段,因为随着结束阶段的临近,双方合作的潜在利益就越小,停止合作的可能性就越大。 如果上述蜈蚣博弈的阶段数很少,双方合作的可能性就极小;反之,蜈蚣博弈的长度大大加长,那么双方合作的可能性将会很大。 作业: 1, 3, 5, 6, 7, 8, 9 第四章 重复博弈 第一节 重复博弈基础 所谓重复博弈实际上就是某些博弈的多次 ( 两次以上 , 有限次或无限次 ) 重复进行构成的博弈过程 。 重复博弈中有在一次性博弈中往往不可能存在的合作的可能性 , 因而也实现了比一次性静态博弈更有效率的均衡 。这就是重复博弈与构成这些重复博弈的一次性博弈之间的重要区别 , 因此 , 重复博弈常常并不只是构成它们的一次性博弈的简单重复 。 有 /无限次重复博弈的的定义 给定一个基本博弈 G,重复进行 ,并且在每次重复 样的博弈过程称为“ 次重复博弈”,记为 G( T)。而 ( T)的“原博弈”。 G( T)中的每次重复称为 G( T)的一个“阶段”。 如果一个基本博弈 样的重复博弈则为“无限次重复博弈”,记为 G( )。 随机结束的重复博弈 根据重复博弈及其阶段的特点 , 它的子博弈就是从某一阶段 ( 不包括第一阶段 ) 开始 , 包含此后所有阶段的原重复博弈的一部分 。 因此一博弈方的一个策略就是该博弈方在每个阶段( 即每次重复 ) 针对每种情况 ( 以前阶段的结果 ) 如何行为的计划 。 由于重复博弈每阶段 ( 每次重复 ) 都有一组得益 ,因此重复博弈中各博弈方的得益应该是他们每阶段得益相加的 “ 总得益 ” 和 “ 平均得益 ” , 而且以衡量 “ 平均得益 ” 为佳 。 另外 , 在衡量得益情况下 , 有时必须考虑的资金的时间价值 , 从而引入贴现系数的概念 。 贴现系数的确定公式一般为 =1/( 1+) , 其中 为以一阶段为期限的市场利率 。 由于上述贴现因子 都是小于 1的正数 , 因此上述总得益都是有限数 , 这样我们就可以利用无限次重复博弈折算成现在值的得益总和的比较来进行判断分析 , 因此这种折算现在值的方法是符合人们价值判断的普遍规律和经济原理的 。 第二节 有限次重复博弈 一、两人零和博弈的有限次重复博弈 1、重复零和博弈不会创造出新的利益。因为双方合作的可能性根本不存在。 2、所有以零和博弈为原博弈的有限次重复博弈中,博弈方的正确策略都是重复一次性博弈中的纳什均衡策略。 二、唯一纯策略纳什均衡博弈的有限次重复博弈 (一)有限次重复囚徒困境博弈 重复 2次囚徒困境博弈 仅仅是一次性博弈的简单重复。 在一个博弈中的每个博弈方的所有得益上各自加上相同的数值不会改变博弈原来的均衡 。 (二)一般结论 在有限次重复博弈中 , 如果原博弈存在唯一的纯策略纳什均衡策略组合 , 则有限次重复博弈的唯一的均衡解即各博弈方在每阶段 ( 即每次重复 ) 中都采用原博弈的纳什均衡策略 。 (三)有限次重复削价竞争博弈(自己思考) (四)重复囚徒困境悖论和连锁店悖论 1、现实中寡头间的价格战并没有如此普遍 2、连锁店悖论讨论的是在 于各个市场的竞争者是否应加以打击排斥的策略选择。(即“先来后到”博弈) 根据以前的分析可知,该企业选择不打击,竞争者选择进入,是唯一的子博弈完美纳什均衡。因此,它也是该重复博弈的解。 但这与现实明显不符。 问题在于在较多阶段的动态博弈中逆推归纳法的适用性。(参考“蜈蚣博弈”) 四 、 多个纯策略纳什均衡博弈的有限次重复博弈 最重要的是两次重复的路径中包括的子博弈完美纳什均衡中可在第一阶段采用非原博弈的均衡策略组合 。 (一)三价博弈的重复博弈 该博弈中,双方其中一个可能的子博弈完美纳什均衡是第一阶段( H, H),第二阶段( M, M)。 可见 , 两次重复的路径中包括的子博弈完美纳什均衡中可在第一阶段采用非原博弈的均衡策略组合 。 这种博弈方之间首先试探合作 , 一旦发觉对方不合作则也用不合作相报复 , 利用有后续阶段博弈的制约作用达成均衡的策略称为 “ 触发策略 ” 。 ( 二)触发策略的可信性讨论 原来双方所采用的触发策略中的威胁的可信性是有一点勉强的 。 如果认为触发策略不可信 , 则会出现另一结果 。 这时重复博弈的结果是两次重复 ( M, M) 。 如果触发策略中的报复并不意味着报复方自己必然会受损失,因此,威胁的可信性是很强的。 如下触发策略构成均衡解: 博弈方 1:在第一阶段选择 H,如果第一阶段是( H, H)那么第二阶段选 M,否则选 P; 博弈方 2:在第一阶段选择 H,如果第一阶段是( H, H)那么第二阶段选 M,否则选 Q。 有限次重复博弈的民间定理 :设原博弈的一次性博弈有均衡得益数组优于 w(参与人 那么在该博弈的多次重复中,所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美那什均衡的极限的平均得益来实现它们 。 简单地理解,即有限次重复博弈有解。 举例: B A 3, 3 1, 4 B 4, 1 0, 0 画图 结论:在有限次重复博弈中,若原博弈不存在或只存在唯一纯策略纳什均衡,则有限次重复不会使参与人由冲突转化为合作,但若原博弈存在多个纯策略纳什均衡,则有限次重复有可能实现这种转化。 第三节 无限次重复博弈 在有限次重复博弈中,最后一次重复是破坏提高效率的关键。 在无限次重复博弈中我们有一个更强的结论,即即使原博弈 可能存在阶段博弈不采用 果较为理想的,无限次重复博弈的子博弈完美纳什均衡路径。 无限次重复博弈不能忽视时间价值问题。 一、两人零和博弈的无限次重复博弈 两人零和博弈的无限次重复与有限次重复是一样的,因为重复次数的无限次增加并不能改变双方的完全对立关系。 二、唯一纯策略那什均衡博弈的无限次重复博弈 (一) 无限次重复囚徒的困境 构造如下双方的触发策略:第一阶段采用 H,在第 果前 H, H),则继续采用H,否则采用 L。 现在需要证明当贴现系数 满足一定条件时,上述触发策略构成子博弈完美那什均衡,即双方都不会偏离的均衡。 为了说明双方采用上述触发策略是一个纳什均衡,我们假设博弈方 1已采用该策略,然后我们证明在 达到一定数值后,采用同样的触发策略也是博弈方 2的最佳反应策略。因为双方是对称的,可见证明了上述结论后,就可以确定该触发策略是相互对对方策略的最佳反应,从而构成纳什均衡。 由于博弈方 1在某个阶段出现与( H, H)不同的结果后将永远采取 此,在该阶段之后,博弈方 2的最佳选择也只有 博弈方 2对博弈方 1的触发策略的最佳反应策略的后面部分与博弈方 1触发策略的后面部分是相同的。现在需确定博弈方 2在第一阶段及以后各阶段结果都是( H, H)时的最佳反应是什么?对于博弈方 2来说,采用 ,但以后会引起博弈方 1的报复,这样博弈方 2也只能选择 后每一阶段的得益将永远只有 1,则此情况下博弈方2的总得益( )为: =5+1*+1*2+1*3 + . =5+/(1 相反 , 如果博弈方 2在第一阶段采取 则在该阶段它将获益 4, 而在下一阶段又面临同样选择 。 假设 每阶段都采取 则有: V=4+4*+4*2+4*3 + . =4/(1 因此,当 4/(15+/(1即 1/4时,博弈方 2在第一阶段会采取 则采取 理可以说明博弈方 2在以后各阶段的最佳反应也是如此。综上,对于博弈方 1的前述触发策略,博弈方 2的最佳反应策略是同样的触发策略,可见双方都采取的这种触发策略就是一个纳什均衡。 应引起我们重视的是该纳什均衡是在满足条件 1/4时才成立的 。 这一情况表明未来得益折算成现值的贴现系数若太小 , 即各博弈方不太看重未来利益时 , 它们会只顾为自己捞取更多的眼前利益 , 不会为长期利益打算 , 也不会害怕它方在未来阶段的报复 。 其实 , 在该无限次重复博弈中子博弈完美那什均衡路径不止一条 , 如双方始终选择 ( L, L) 。 结论: 在一次性或有限次重复博弈中都无法实现的囚徒困境博弈中的潜在合作利益 , 在无限次重复博弈中是可能实现的 。 即在无限次重复博弈中 , 只要原博弈有一个纳什均衡就可能实现合作 。 二、无限次重复古诺模型 (一)古诺模型的无限次重复博弈和支持垄断产量的条件 假设 P=8Q=q1+c1= . 在一次性博弈中有唯一那什均衡,即两厂商都生产 2个单位的产量,称为“古诺产量”,用 如果市场上只有一家厂商,则最佳垄断产量 。这意味着两厂商各生产 这在一次性或有限次重复博弈中是不可能实现的。 下面,构造无限重复博弈时的触发策略。 在第一阶段各生产垄断产量的一半 在第 果前 则继续生产 则生产古诺产量 2。 如果双方都采取上述出发策略,则双方每阶段的得益都是 设厂商 1已采取该触发策略,如果厂商 2也采取该策略,则其无限次重复博弈得益的现值为: =+2+3 + .) =1 如果厂商 2在第一阶段偏离 , 即 但从第二阶段开始厂商 1将永远用古诺产量报复,厂商 2也被迫采用古诺产量,因此其总得益的现值为: (+2+3 +.) = /(1 因此,只有 1= /(1即 =9/17时博弈方才不会偏离上述触发策略。 (二)低水平的合作 在第一阶段生产 q*;在第 果前 q*, q*),则继续生产 q*,否则生产古诺产量 2。 假设厂商 1已采取上述策略,如果厂商 2也采取,则它每阶段的得益是 u*=(6q*,无限次重复博弈得益的现值为 (6q* /(1 如果厂商 2在第一阶段偏离,即 2) 6(62/4 但从第二阶段开始,厂商 1必然用古诺产量 2来报复,厂商 2也只能采用古诺产量 2,从此阶段得益永远为 4。 因此,无限次重复博弈总得益的现值为: (62/4 + 4 /(1 只有当 (6q* /(1=(62/4+4 /(1 即 q*=2(9(9触发策略才稳定。 可见 , 接近于 0的经济意义是将来的得益对博弈方来讲几乎无意义 , 当然博弈方会只顾眼前利益 。 越大 ,将来利益越重要 , 就越能支持较低的子博弈完美纳什均衡产量 q*, 当 达到或超过 9/17时 , 就能支持最大效率的垄断的低产量 。 从这里我们可以找到为什么通货膨胀严重的国家的企业在经济活动中短期行为更为严重的理论根源 。 (三)加大惩罚力度与提高合作水平 第一阶段生产垄断产量的一半 ;在第 果第 , ),则生产 ,如果第 x, x),也生产 ,否则生产 x。 如果双方都采取上述策略,即每阶段都采取( , ),双方每阶段都得到垄断利润的一半 ,无限重复博弈得益的现值为 2( 1- ) 。 设厂商 1已采取该策略,但如果厂商 2在第一阶段偏离,采取偏离产量 则 - - 第二阶段厂商 1将采取 时厂商 2也必须采取 x,因此厂商 2在第二阶段的得益 6x=6设此后双方重新合作。 因此厂商 2在第一阶段偏离的依据是,第一阶段偏离所得的好处与第二阶段受惩罚损失的现值的大小关系。即当: ( (= =(,厂商 2不会偏离,否则会偏离。 可见,厂商 2是否偏离不仅取决于贴现系数 ,还取决于惩罚产量 x。如果惩罚力度不够,则不足以保证厂商2真心合作。 而且,如果惩罚性产量更大,则对贴现系数的要求可进一步放宽。 第五章 有限理性和进化博弈 第一节 有限理性博弈及其分析框架 1、现实中,完全理性的人是根本不存在的,最多是在具体问题上的理性。 2、存在有限理性博弈的博弈称为“有限理性博弈”;否则称为“完全理性博弈”。 3、完全理性包括理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完美就属于有限理性。 4、有限理性意味着博弈方不会一开始就找到最优策略,他们是通过不断调整、改进来实现结果的,而且即使达到了均衡也可能再次偏离。 5、在有限理性博弈中具有真正稳定性和较强预测能力的均衡,必须是能通过博弈方模仿、学习的调整过程达到,具有能经受错误偏离的干扰,在受少量干扰后仍能“恢复”的稳健的均衡。 6、因此,有限理性博弈的分析核心是策略的调整过程。 7、当博弈方的理性程度比较低时,可用生物进化的“复制动态”机制加以模拟。 8、当博弈方具有较强学习能力时,可用“最优反应动态”机制加以模拟。 第二节 最优反应动态 本节讨论具有快速学习能力的有限理性博弈方之间的策略进化。 协调博弈的有限理性博弈方快速学习模型 通过分析可知,该博弈有两个纳什均衡,即( A, A)和( B, B)。如果各方是完全理性的,则会选择( B,B);而如果各方是有限理性的则更可能选择( A, A)风险上策均衡 。 现在要分析 5个博弈方在与相邻各方反复进行该博弈的过程中,是否会趋向于一个唯一的稳定状态(即策略收敛)? 具体分析:假设 xi(t)为在 的邻居中采用 数量有 0、 1、 2三个可能值。采用- xi(t)。 因此博弈方 的得益为: xi(t)/2*50+2/2- xi(t)/2*49,采用 xi(t)/2*0+2/2- xi(t)/2*60 所以,只有当 xi(t)/2*50+2/2- xi(t)/2*49xi(t)/2*0+2/2- xi(t)/2*60 即 xi(t)22/61时,博弈方 I在 t+1时期会采用 A;否则采用 B。 上述分析的实际内容是,如果在 ,那么博弈方 I在 t+1时期采用 A;如果 ,则博弈方在 t+1时期采用 B。 由于各方完全相似,可知经过最优动态法则的调整,最终都会收敛到所有博弈方都采用 图)。 第三节 复制动态和进化稳定性 本节讨论的是学习速度较慢的博弈方的行为。 签协议博弈的复制动态和进化稳定策略 该博弈有两个纳什均衡(同意,同意)和(不同意,不同意),且前一个优于后一个。 如果各方理性层次较低,因此所有博弈方不会一开始就找到最佳策略。大群体成员随机配对反复博弈。 假设选择“同意”的博弈方比例是 x,选择“不同意”的博弈方比例是 1 两种类型博弈方各自的期望得益分别为: uy=x*1+(10=x un=x*0+(10=0 群体成员的平均得益为: u=x* (1un= 由于两类博弈方的得益有明显差异,只要博弈方有基本的判断能力,迟早会发现上述差异,得益较差的博弈方早晚会改变自己的原有策略,并模仿另一类的博弈方。 X, 1随时间 上述模仿的速度取决于两个因素: 1)模仿对象的数量大小; 2)模仿对象的成功程度。 Dx/dt=x(=x(x- x=0时,不存在模仿对象;x0时,会模仿学习“同意”, 。因此,x*=0, x*=1是复制动态的两个稳定状态。 因此,有限理性博弈方通过学习最终能找到本博弈较有效率的纳什均衡。 第六章 完全但不完美信息动态博弈 第一节 不完美信息动态博弈 一 、 基本概念 不完美信息动态博弈的本质特征是博弈方之间在信息方面是不对称的 。 ( 如:二手车交易 ) 因为根据定义 , 只要动态博弈中有一个博弈方看不到自己选择前其他某一博弈方的行为就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论