博弈论ppt完整版

上传人：为*** IP属地：贵州上传时间：2020-07-04 格式：PPT 页数：210 大小：1.40MB 积分：30 举报 版权申诉

已阅读5页，还剩205页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、什么是博弈论？,在人世间，人与人之间的对抗和较量是一个不容回避的话题，只有直面这个话题，个人才更有可能获得成功的机会；人们试图获得成功，就有必要研究对抗局势中如何策略性地选择自己的行动；专门研究互动局势下人们的策略行为的学问叫“博弈论（gametheory）”,理性人在最大化自己的偏好时，需要相互合作，而合作中又有冲突,人类为达到合作和解决冲突所发明的重要制度之一,价格制度,市场参与者的数量足够多，从而市场是竞争性的参与者之间不存在信息不对称问题,传统的新古典经济学就是以价格为研究对象的，故又称为价格理论。其基本假设：,传统经济学的假设及其局限性,一般均衡理论是整个经济学的理论基石和道义基础，

2、市场机制是完美的，帕累托最优成立，平等与效率可以兼顾。,个人决策是在给定一个价格参数和收入的条件下最大化自己的效用，个人的效用与其他人无涉，所有其他人的行为都被总结在“价格”参数之中,基本假设：完全竞争，完美信息,然而在以下情况,上述结论不成立：,非完全竞争：垄断越来越普遍外部性：市场不可能把所有的成本收益都计算在内公共产品：市场无法解决“搭便车”问题逆向选择问题：柠檬市场，二手车市场道德风险问题：为什么市场的交易费用比较高？,传统经济学假设的局限性：交易主体的数量其实很有限；信息是不对称的；,百年来，经济学的主要发展围绕以上五方面展开研究，建立起,垄断竞争理论产业组织理论企业理论信息经济学新

3、制度经济学不确定下的决策（投资理论）,博弈论逐渐成为经济学的基石,博弈论对经济学的影响,博弈论改写经济学，从放宽新古典的完全竞争和完全信息两个条件展开国外经济学教科书改写，加入大量博弈论内容博弈论进入主流经济学，反映了：经济学的研究对象越来越转向个体放弃了有些没有微观基础的假设经济学的研究对象越来越转向人与人之间行为的相互影响和作用经济学越来越重视对信息的研究传统微观经济学的工具是数学(微积分、线性代数、统计学)，而博弈论是一种新的数学。以前只有陆军，现在有了空军，其差异不可以公里计。,二、博弈论的发展概述,博弈是决策主体在互相对抗中，对抗双方（或多方）互相依存的一系列策略和行动的过程集合。博

4、弈论：专门研究博弈如何出现均衡的规律的学问。,博弈论的基本内容,博弈论的分类及相应的均衡,博弈三要素：参与人（player）行动（action）或策略（strategy）支付（payoff）,信息、战略、结果,博弈,博弈的分类,博弈论的产生与发展,1838年，奥古斯特.古诺提出古诺模型；在20世纪初，泽美劳(Zermelo)、鲍莱尔(Borel)和约翰.冯.诺伊曼等数学家就已经开始研究博弈的数理基础。约翰.冯.诺伊曼和奥斯卡.摩根斯坦的题为博弈论与经济行为(1944年)的经典巨著奠定了在经济学中应用博弈论的基础。,一、完全信息静态博弈,定义：博弈各方同时决策且彼此对各种策略组合情况下所有参与人

5、相应的得益都完全了解。表达：在博弈论中，一个博弈可以用两种不同的方式来表达：策略式表述：适合于静态博弈（矩阵式）扩展式表述：适合于讨论动态博弈（树状结构）,博弈论模型,一个博弈需要有五方面内容组成：,参与人策略支付信息均衡,囚徒困境,每个参与人的得益函数：,博弈的参与人集合：=(A，B)；,每个参与人的战略空间：SA=（坦白，抵赖）SB=（坦白，抵赖）,uA(坦白，坦白)=uB(坦白，坦白)=-8uA(抵赖，抵赖)=uB(抵赖，抵赖)=-1uA(坦白，抵赖)=uB(坦白，抵赖)=0uA(抵赖，坦白)=uB(抵赖，坦白)=-10,占优策略：一些特殊的博弈中，一个参与人的最优策略可以不依赖于其他参

6、与人的策略选择，就是说，不论其他参与人选择什么策略，他的最优策略是唯一的，这样的最优策略被称为“占优策略”。劣策略：如果一个博弈中，某个参与人有占优策略，那么该参与人的其他可选择策略就被称为“劣策略”。,二、占优策略均衡,在这个例子里，无论对方如何选择，每个人的最优选择：坦白；可以预测，结果将是（坦白，坦白）,占优均衡：由所有参与人的占优策略构成的战略组合。占优战略均衡的出现只要求由所有参与人都是理性的，但不要求每个参与人知道其他参与人是否理性。“囚徒困境”博弈有占优均衡，所以其结果很容易预测。,占优策略均衡,“囚徒困境”的一般表示,满足：RTPS；SRTT,三、用法律解决“囚徒困境”,满足：

7、XRT,四、重复剔除的占优均衡,找出某个参与人的严格劣策略(假定其存在)，把这个劣策略剔除掉；重新构造一个不包含已剔除策略的新的博弈；重复这个过程，一直到只剩下一个唯一的策略组合为止。这个唯一剩下的策略组合就是这个博弈的均衡解，称为“重复剔除的占优均衡”。,注意，上述表述中强调了“唯一”这个词。也就是说，如果重复剔除后剩下的策略组合不唯一，那么该博弈就不是可通过重复剔除劣策略求解的。,思路：,理性共识,0-阶理性共识：每个人都是理性的，但不知道其他人是否是理性的；1-阶理性共识：每个人都是理性的，并且知道其他人也是理性的，但不知道其他人是否知道自己是理性的；2-阶理性共识：每个人都是理性的，并

8、且知道其他人也是理性的，同时知道其他人也知道自己是理性的；但不知道其他人是否知道自己知道他们是理性的,重复剔除与理性共识,重复剔除不仅要求每个人是理性的，而且要求每个人知道其他人是理性的；每个人知道每个人知道每个人是理性的，如此等等理性是“共同知识”（共识）。,最优选择,这个博弈只要求1-阶理性共识就可以预测到均衡结果,如果R相信C是理性的，R就知道C不会选择C3，所以R的最优选择是R1；,如果C相信R是理性的，C就知道R不会选择R2和R3；,此时，C1又成为C的严格劣战略；,重复剔除的占优均衡：（R1，C2）,选择越多，对理性共识的要求越高,0-阶理性：C是理性的，C不会选择C4；,1-阶理

9、性：R相信C是理性的，R会将C4从C的战略空间中剔除,所以R不会选择R4；,2-阶理性：C相信R相信C是理性的，C会将R4从R的战略空间中剔除,所以C不会选择C1；,3-阶理性：R相信C相信R相信C是理性的，R会将C1从C的战略空间中剔除,R不会选择R1；,4-阶理性：C相信R相信C相信R相信C是理性的，C会将R1从R的战略空间中剔除,C不会选择C3；,5-阶理性：R相信C相信R相信C相信R相信C是理性的，R会将C3从C的战略空间中剔除,R不会选择R3；,不能用重复剔除求解的博弈,许多博弈没有占优均衡，也没有重复剔除的占优均衡。,实用性较强的博弈分析方法,必然是以策略之间的相对优劣关系,而不是

10、绝对优劣关系为基础的，根据这样的思路，很容易导出博弈分析的“划线法”。,划线法,因此，以上五个策略都不可能被双方接受！,五、纳什均衡与一致性预期,纳什均衡：所有参与人的最优战略的组合，即给定战略中别人的选择，没有人有积极性改变自己的选择。构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略，当然，逆定理是不存在的。许多不存在占优策略均衡或重复剔除的占优策略均衡的博弈，也存在纳什均衡。,纳什均衡的正式定义,有n个参与人的战略式表述博弈GS1，Sn；u1,，un战略组合s*（s1*，sn*）是G的一个纳什均衡，如果对于每一个i，si*是在给定其他参与人选择si*（s1*,，si-1*，

11、si+1*，sn*）的情况下第i个参与人的最优战略，即：ui(si*,s-i*)ui(si，s-i*)对任意siSi,和任意的都成立。,一致性预期,一致性预期：基于预期的选择是合理的，支持选择的预期是正确的。预期的自我实现：如果所有人都认为这个结果会出现，这个结果就会出现，预期是自我实现的，预期不会错。如果你预期我会选择X，我就真的会选择X。如果参与人事前达成一个协议，在不存在外部强制的情况下，每个人都有积极性遵守这个协议，这个协议就是纳什均衡。,应用1古诺的双寡头垄断模型(1938),假定：只有两个厂商面对相同的线形需求曲线，P(Q)=aQ，Q=q1+q2两厂商同时做决策；假定成本函数为C(

12、qi)ciqi问题：两个厂商的均衡产量和均衡价格如何确定。,该博弈问题的标准式：,参与人厂商1和厂商2战略空间每个企业可以选择的产品产量：Si=0，），i=1,2，qi0收益用利润额代表企业的收益,均衡,企业利润最大化的条件为：,纳什均衡产量为：,纳什均衡利润为：,反应函数,q1,q2,垄断产量和垄断利润,垄断企业的目标函数：,垄断利润为：,垄断产量：,在古诺均衡解中，这种情况就不会发生，两个企业的总产量要更高一些，相应地使价格有所降低。,卡特尔与囚犯困境,卡特尔是一种垄断组织，各个厂商互相通过某种协定达成某种默契以求获得共同的最大收益。价格卡特尔：制定一个共同的价格，销售同样的产品。产量卡特

13、尔：统一控制产量，减少产量，抬高价格，使组织的共同收益最大，比如欧佩克就是典型的产量卡特尔。卡特尔组织的各成员可能也会作出类似的个体最优的决策，最终损害卡特尔组织的集体利益，这样就需要强加一些惩罚性的制度安排，改变支付矩阵，迫使均衡在集体最优的地方达到。,CH4混合战略纳什均衡,混合战略及其均衡策略混合的好处混合策略的麻烦纳什均衡的存在性问题,监督博弈,有些博弈没有“纯”战略纳什均衡，如,给定工人偷懒，老板的最优选择是监督；,给定工人不偷懒，老板的最优选择是不监督；,给定老板不监督，工人的最优选择是偷懒；,如此循环,上述两个博弈的显著特征是,每个参与者都想猜透对方的战略选择，而每个参与者又都不

14、能让对方猜透自己的战略。这样的问题在诸如扑克牌比赛、橄榄球赛、战争等情况中都会出现。在所有这类博弈中，都不存在纳什均衡。尽管这两个博弈不存在纯战略意义上的纳什均衡，却存在混合战略纳什均衡。混合战略指的是参与人以一定的概率选择某种战略。,混合战略及其均衡,设想工人推断老板以q的概率监督，以1-q的概率选择不监督；对工人来说,当q1/4时，34q2，所以工人的最优纯战略是“努力”；当q1/4时，34q2，所以工人的最优纯战略是“偷懒”；当q1/4时，工人选择什么无差异。,选择偷懒带来的效用为：q(1)(1q)334q选择努力带来的效用为：q2(1q)22,混合战略,定义：对标准式博弈G=S1，Sn

15、；u1，un，假设Si=si1，siK。那么，参与者i以概率分布pi=（pi1，piK）随机在其K个策略中选取的“策略”，称为一个“混合策略”,其中0pik1对k=1，K，都成立，且pi1+piK=1。纯战略：参与人在每一个给定信息的情况下只选择一个特定的行动；相反，如果一个战略规定参与人在给定信息情况下，以某种概率分布随机地选择不同的行动，则称该战略为混合战略；纯战略可视为混合战略的特例。,关于混合战略的支付函数,在纯战略情况下，参与者i的支付ui是纯战略组合s=s1，si，sn的一个函数，即ui=uis1，si，sn；对于任何给定的战略组合s=s1，si，sn，ui取一个确定的值；与混合战

16、略相伴随的是支付的不确定性，此时，参与人关心的是期望效用。用i（pi，p-i）表示参与人i的期望效用函数（其中p-i=（p1，pi-1，pi+1，pn）是除i之外所有其他参与人的混合战略组合）；i的期望支付可以具体定义为：,以2人博弈为例说明,假定S1=s11，s1k是参与者1的纯战略，S2=s21，s2J是参与者2的纯战略；如果参与人1相信参与人2的混合战略为q=（q1，qJ）那么参与人1选择纯战略s1k的期望效用为：,参与人1选混合战略p=（p1，pK）的,期望效用为：,混合战略纳什均衡,定义：对标准式博弈G=S1，Sn；u1，un，混合战略组合p*=（p1*，pn*）是一个纳什均衡，如果

17、对所有的i=1，n，及参与人i的任意一个混合战略pi而言，下式成立：i（pi*，p-i*）i（pi，p-i*）,总结,上述的r*(q)称为工人对老板的反应对应函数；q*(r)则称为老板对工人的反应对应函数；一个参与人选择不同纯战略的概率分布不是由他自己的支付决定的，而是由他的对手的支付决定的；许多人认为混合战略纳什均衡是一个难以另人满意的概念；一个参与人使用混合战略的目的是给对方造成不确定性，浑水摸鱼；尽管混合战略不像纯战略那样直观，但它确实是一些博弈中参与人合理的行为方式。,求混合战略均衡要先剔除劣战略,设想C以p的概率选择C1，以q的概率选择C2，以1-p-q的概率选择C3；则对于R而言,

18、选择R1的预期效用为：2p2q4(1pq)42p2q选择R2的预期效用为：3pq2(1pq)2pq选择R3的预期效用为：p3(1pq)32p3q,问题出在哪里?,纳什均衡的存在性问题,每一个有限博弈至少存在一个纳什均衡（纯战略或混合战略）；如果一个博弈存在两个纯战略纳什均衡，那么，一定存在第三个混合战略纳什均衡。几乎所有有限同时博弈的纳什均衡的数目都有限，并且这个有限数目是一个奇数。,总结,如何协调,仅仅“理性”是不够的：FOCALPOINT（Schelling（1960）：文化与制度行业组织Cheaptalking帕累托最优均衡：可以通过协商选择一个纳什均衡：,聚点均衡（Schelling(

19、1960)）,谢林指出：在现实生活中，参与人可能使用某些被博弈模型抽象掉的信息来达到一个“聚点”均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。比如在“约会博弈”中，如果今天是男友的生日，（足球，足球）可能是一个聚点均衡；在“分蛋糕博弈”中，（1/2，1/2）可能是一个聚点均衡，如果每个参与人都有某种公平意识的话；,在“麦琪的礼物”中，如果事前先告诉对方自己的想法，非纳什均衡的结果就不会出现；,Cheaptalking,为什么要相信？,无论乙选择什么，他都有积极性告诉甲他将选择左：所以没有理由认为甲应该相信乙的话。,风险优势标准,由于纳什均衡要求理性共识和一致预期，当人们有可能犯小

20、小的错误时，纳什均衡不一定被选择。,只要B有1的概率错误地选择右，A将选择下；如果B怀疑A怀疑自己可能犯错误，B将选择右；所以出现的不是帕累托最优的纳什均衡,偏离损失比较法,甲偏离A损失1，偏离B损失7乙偏离A损失1，偏离B损失7甲偏离A的损失乙偏离A的损失甲偏离B损失乙偏离B损失均衡B比均衡A具有风险优势但均衡B却不是一个帕累托均衡!,可以考虑不同纳什均衡之间的风险状况，风险小的优先。,帕累托均衡与风险优势的关系,人是会犯错误的绝大多数人都是风险规避者,哪个纳什均衡具有风险优势？,没有帕累托最优均衡,偏离损失比较法,无帕累托最优均衡,进入者偏离A损失40，偏离B损失10在位者偏离A损失50，

21、偏离B损失0进入者偏离A的损失在位者偏离A的损失进入者偏离B损失在位者偏离B损失均衡A比均衡B具有风险优势,相关均衡,奥蒙证明（1974）：如果博弈参与人可以根据某个共同观测到的信号选择行动，就可能出现“相关均衡”；相关均衡可能是参与人事前磋商的结果，从而使所有的参与人受益。,例子,选择混合战略，各自获得的收益为2.5假设甲、乙在博弈前一天商量，双方同意根据明天天气的情况选择行动，比如说明天是晴天就一同郊游;是阴天就一同去购物；假设明天晴与阴的概率各为1/2每个人的期望收益各为4（1/251/23），大于2.5。,三个Nash均衡解：（1，0）（1，0）（0，1）（0，1）（5/6，1/6）（

22、1/6，5/6）,锁定效应与路径依赖,这个博弈有三个纳什均衡：(4,12)(2,12)(2,13)这些纳什均衡可以用重复剔除劣战略的方法得到;但如何实施劣战略的消除，对于最终会留下哪个均衡至关重要,经济学上把结果依赖于路径的现象叫路径依赖,路径依赖就是人们陷入一种情况而发现从此难以脱身；如果博弈参与人很多，达成协议的成本很高，最初的非帕累托均衡可能被锁定，导致路径依赖：森林探险找工作婚姻改革新产品,经济学上把结果依赖于路径的现象叫路径依赖,如果博弈参与人很多，达成协议的成本很高，最初的非帕累托均衡可能被锁定，导致路径依赖：每个人多偏好于新产品（或标准），如果其他人都选择新产品的话；但每个人都预

23、期其他人不会选择新产品，所以每个人的最优选择不是转向新产品，结果是整个社会被锁定在现有的产品（标准）（非帕累托最优）这常被用来作为市场失灵的理论证据；经验证据：QWERTvsDvorak键盘；BetavsVSH录象机；MAC与IBM计算机软件；但最新的研究似乎正在推翻这些广泛流传的结论。,MAC与IBM,据称，Macitosh要比命令行DOS好得多，甚至比基于DOS的Window好，但为什么消亡了？通常的解释：DOS成功了是因为它成功了，有更多的软件，更多的用户；具有成本优势速度优势商业环境中，一台机器只用于一种软件，一旦操作员学会，Macitosh的界面优势就没有了；为DOS写软件要容易得多

24、。,法律和社会规范如何协调预期,法律和社会规范就是协调预期的规则，帮助人们在多个纳什均衡中筛选一个特定的纳什均衡。社会规范是通过习惯、长期的交互博弈产生的行为规则；法律是立法机关制定的行为规则；无论是法律还是社会规范，他们的功能都是协调预期。制度是为了稳定预期，频繁的变化会打乱人们的预期。,交通规则的演变,在多个纳什均衡之间不存在有劣之分时，偶然事件对选择具有重要意义：从历史上来考察，许多交通规则一开始并不体现为法律，而是长期演化而来的。现在欧洲大陆的靠右走的规则是在法国兴起的。随着拿破仑对欧洲大陆的征服，拿破仑将法国的规则带给了欧洲，也包括靠右行驶的规则。,交通规则的演变,在多个纳什均衡之间

25、不存在有劣之分时，偶然事件对选择具有重要意义：从历史上来考察，许多交通规则一开始并不体现为法律，而是长期演化而来的。在欧洲大陆的早期，道路行走规范是非常地方化的，有些地方采用靠左走的习惯，有些地方采用靠右走的习惯，是不统一的。伴随着道路的增加和地区间交往的扩大，地方性的习惯逐步演变为区域性的规范，然后再演变为全国性的规范。但直到19世纪前，道路规则也仅仅是作为规范而得到遵守，而不是作为交通法律而得到执行。,交通规则的演变,现在欧洲大陆的靠右走的规则是在法国兴起的。在法国大革命以前，贵族的马车习惯上是靠左行的，因此，靠左行与“特权阶级”相联系，而靠右行被认为更为“民主”。在法国大革命中，作为一个

26、革命的象征，规定所有的车都要靠右走。随着拿破仑对欧洲大陆的征服，拿破仑将法国的规则带给了欧洲，也包括靠右行驶的规则。,文化的冲突与协调,为什么欧洲大陆的交通规则收敛于一致？英国将如何办？文化冲突，无论是组织和组织之间的还是国家与国家之间的，大部分不过是游戏规则-社会规范和法律的冲突，用博弈论的话来说，是一个均衡选择问题：全球化意味着资源的重新分配。,解决规则冲突的三个方式,一个规则取代其他的规则，让一部分人改变行为规范适应另一部分人，也就是所谓的接轨，如前面讲的欧洲大陆交通规则的演变所显示的。建立全新的规则，如中国人和德国人在一起交流始都用英语，而不是中文，也不时德文；建立协调规则的规则，如入

27、乡随俗，客随主便。究竟那一中，与规则要解决的问题有关，也与其他因素有关。,文化既解决冲突又协调预期,尊老爱幼妇幼保护尊师重教先来后到社会分层与非对称权力（排位问题；黑社会组织）；公平观念（如分蛋糕博弈）抓阄,信息与身份（identity),信息对预期的协调很重要；如果不知道谁是谁，协调就很困难；身份是传递信息的重要工具；身份的外在化：服饰，车座，秘书学界的官本位问题；,产权的先占规则,人们为什么遵守这个规则？人们希望得到别人认可的愿望；一旦规则建立，每个人都预期其他人会遵守规则；给定这个预期，每个人发现遵守规则是自己的利益所在，也希望别人能遵守这个规则，任何不遵守规则的行为都会使守规则的人受到

28、损害或者感到威胁，从而引起后者的愤怒；任何其他人也因此会觉得自己未来的利益受到威胁，对此种行为表示不满，对受害人表示同情；少数人不遵守规则并不会导致规则的消失；但如果规则总是偏向于某一组特定的人群，受到不公正对待的人并不会蔑视不守规则的人，规则就容易被违反。,关于论资排辈问题,容易被个人操纵的信息是没有价值的；当缺乏其他有效的信息时，资历可以成为协调博弈的信息；,为什么制度要有稳定性？,制度是为了稳定预期，频繁的变化会打乱人们的预期；希思罗机场的MeetingPoint孙丕扬与万历22年（1595年）出任吏部尚书，创建了掣签法：官员们无论贤愚清浊，一律抽签上岗。（吴思潜规则）但最新的研究似乎正

29、在推翻这些广泛流传的结论。,一、动态博弈,行动有先后顺序，不同的参与人在不同时点行动，先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者作了什么选择。因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应付？如果我是他，我将会如何行动？给定他的应付，什么是我的最优先选择？如下棋,二、动态博弈的扩展式表述概括如下：,参与人集合：I=1，n；此外我们以后将用N代表虚拟的参与人“自然”；参与人的行动顺序：谁在什么时候行动；参与人的行动空间：在每次行动时，参与人有些什么行动可供选择；参与人的信息集：每次行动时，参与人知道些什么；参与人的得益函数：在博弈结

30、束后，每个参与人得到些什么；外生事件(即“自然”的选择)的概率分布。,博弈树：不允许的情形,三、动态博弈的策略,1.策略特征：决策不是参与人单个阶段的行为，而是各方在整个博弈中轮到选择的每个阶段时，针对前面阶段的各种情况作出相应选择的完整计划。2.博弈方的非对称性：在信息的占有上，后行动者能观察到此前各方的选择，所以往往比先行动者更占优势，因此，各方的地位是不对称的。但所获得的收益不一定比先行动者多。这与单人决策是不同的。3.策略的可置信性问题：策略是博弈方自己预先设定的，在各个博弈阶段针对各种情况所作的相应行为选择的计划，本身没有强制力，且实施起来有一个过程。在该过程中，根据自己的利益需要，

31、他完全可以改变这个计划，从而存在“相机选择”，产生策略的可置信性问题。,上述分析告诉我们,在一个都有私心，都更重视自身利益的成员组成的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率的社会分工合作的重要保障。当然，要保障社会公平和社会经济活动效率，法律制度必须满足两方面的要求：对人们正常权益的保护力度足够大；对损害他人利益者有足够的震慑作用。如果达不到这个水平，法律制度的作用就是很有限的甚至完全无效。,上述分析告诉说明,动态博弈的相机选择可信性问题可信性问题在动态博弈中具有重要意义,但实际上可信性最重要的意义还在于它对纳什均衡在动态中的有效性问题提

32、出了质疑！,子博弈,子博弈：一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。子博弈精炼纳什均衡定义：对于扩展式博弈的策略组合S*=(S1*，Si*,，Sn*)，如果它是原博弈的纳什均衡；它在每一个子博弈上也都构成纳什均衡，则它是一个子博弈精炼纳什均衡。,精炼纳什均衡（PerfectNE),不包含不可置信的行动的战略所组成的纳什均衡被称为精炼纳什均衡；也就是说，不论过去发生了什么，构成精炼纳什均衡的战略，其所规定的行动在每一个决策点上都是最优的，所以，又称为序惯均衡（sequentialequilibrium);首先

33、必须是纳什均衡，但并非所有纳什均衡都是合理的；只有战略不包含不可置信行动的纳什均衡才是合理的。,逆推归纳法（backwardinduction),将多阶段动态博弈化为一系列的单人博弈；确立各方在各阶段的选择，逐步向前推进，找出决策者的最优决策；如此一直到初始决策。最终，对动态博弈的结果，包括博弈的路径和对各博弈方的得益作出判断，归纳各个博弈方在各个阶段的选择，即可得到各方在整个动态博弈中的策略。,从动态博弈的最后一个阶段博弈方的行为开始分析，逐步向前一个阶段相应博弈方的行为选择，一直到第一阶段的分析方法。,CH7讨价还价与耐心,讨价还价问题纳什合作解轮流出价谈判,抛开分类，直面问题,简单的利益

34、分割谈判；谈判力相同聚点均衡（平均分配）；谈判力不同独裁谈判；最后通牒谈判,非对称谈判能力与公平观念,公平分配无疑是谈判中达成合作的重要保障。因为面对一个具有公平观念的谈判对手，不公平的分配常常带来他的抗拒行为即使他处于谈判的劣势。非对称谈判力的典型情况。,谈判的最终目的在于促成合作的达成：,把谈判看作是一个经营合作的事业，而不是当成一场争夺利益的斗争。,一个优秀的谈判者应当,即使谈判能力不对称，如果利益明显分配不公，常常会遭到弱者一方的拒绝。道理很显然，如果你从来不考虑我的利益，我干吗要跟你合作呢？因此，谈判虽然最终以利己为目的，但问题是不考虑对方的利己主义常常导致合作不能达成而无法真正实现

35、利己，而适当地考虑对方的合作利己主义，反而可能实现利己的目的，因此在谈判中适当地作出让步常常是更好的策略，至少使得谈判破裂的风险下降了不少。,谈判的最终目的在于促成合作的达成：,把谈判看作是一个经营合作的事业，而不是当成一场争夺利益的斗争。,二、讨价还价问题的解（合作博弈思路）,考虑两家硅谷的企业，安迪和比尔安迪生产微芯片，他可以以900美元的价格卖给任何一家计算机制造商。比尔的软件包可以以100美元的价格进行零售。两个人凑在一起，发现他们如果生产一个软硬件的联合产品，可以卖到3,000美元。,他们之间如何分配这3000美元？,他们之间如何分配这3000美元？,如果两人直接面对面地谈判，最终的

36、协议取决于二人的倔强和耐心。如果他们试图让一个第三方来仲裁这一争端，仲裁者的决定则取决于他对于硬件和软件相对价值的判断，以及两个当事人在他面前陈词的表现力。假定仲裁者决定利润的分配应为4:1，安迪得4。假定安迪总收益为x，比尔为y。,问题的一般化,规范化谈判由两部分组成：可行集谈判的所有可能结局的集合；冲突点双方不能达成一致，即不能产生协议约定而出现的一种谈判结局；,设想两个人，A和B，他们之间要就总价值等于V的分配问题讨价还价；,如果他们之间能达成协议，V按照协议规定分配。如果不能达成协议，A得到a,B得到b。（a,b)被称冲突点或非合作状态,是不能达成协议时的最好选择。a+bV；S=V-a

37、-b是合作带来的剩余。,双人谈判局势,a,b,谈判的最终结局需要符合两种理性前提：,x,y,P,是谈判达成理性结局的基本条件,谈判的结局是哪一个帕累托最优点？,纳什（1950，1953）运用运用公理化方法得到谈判的解（纳什解）应该满足4条公理：,有效性公理：谈判解应满足个体理性和联合理性的要求，最后达成的协议应该是帕累托最优的，也就是说，不应该有没有被分配的剩余。对称性公理：双方势均力敌线性不变性公理:如果对谈判的效用函数做保序性线性变换，即，au+b，其中a0，则谈判解不变。无关选择公理：如果原来可行的选择没有被选择，去掉这些无关选择并不会影响讨价还价的结果。,例：,考虑一个画家与拍卖商之间

38、的讨价还价问题：如果画家自己出售画，可得1000元；如果拍卖商干其他事情（如拍卖别人的画），收入是500元；如果画家委托拍卖商出售画，画的价格时3000元。他们之间如何分配这3000元？,该合作博弈的表述：B=（S，d；u1，u2）,参与人画家、拍卖商S局中人共有的策略集（利润的分配方案）d谈判破裂的结果，dS；ui定义在S上的局中人i的效用函数，满足对任意的sS，u1(s)u1(d)，u2(s)u2(d)；至少存在一个sS，u1(s)u1(d)，u2(s)u2(d)；,可行结果集,记画家和拍卖商所得分别为s1和s2，则s1+s23000，s11000，s2500假定参与人的效用与其所得到的利

39、润成正比,画家的效用函数u1(s1,s2)=s11000，拍卖商的效用函数u2(s1,s2)=s2500；局中人共有的策略集S=s=(s1,s2)：s1+s23000，s11000，s2500,3000,3000,0,s1,s2,1000,500,S,讨价还价问题的K-S解法,3000,3000,0,S,s1,s2,1000,500,两个参与人的效用函数分别是他们从合作所带来的增值中所获得的分额，如何进行分配？,S,K-S线,2000,1000,又因为：s1+s2=3000所以：s1=2000s2=1000,非合作博弈思路,谈判实际上是一个讨价还价的过程，一个动态博弈；用非合作博弈的方法更合理

40、。,无固定成本谈判,变量说明x：A得到的份额；y：B得到的份额，x+y=1；s：A的贴现率；a=1/(1+s)：A的贴现因子r：B的贴现率；b=1/(1+r)：B的贴现因子,有限期谈判,如果贴现率不是很大，就有后动优势,有限期谈判(假设a=b=0.8),T=2时的讨价还价表,T=3时的讨价还价表,T=5时的讨价还价表,T=4时的讨价还价表,一般结论,如果两人的贴现率都不是很高，也就是对未来有足够的耐心，谈判有后动优势（在奇数次谈判中，先动和后动是一个人）；这个优势随允许谈判次数的增加而递减；无论如何，一个人对未来越没有耐心，得到的就越少。,无限次谈判,没有最后一次便不能用逆向归纳法求解，但可以

41、使用类似的思路得到均衡解(x,y)；假定在时间t（t3）时，A出价，得到x；时间t-1时，B出价，给A为ax，B得到y=1-ax；时间t-2时，A出价，给B为b(1-ax)，自己得到x=1-b(1-ax)；精炼纳什均衡解：,基本结论,无限次谈判具有“先动优势”；一个人的耐心越大（贴现率越小），谈判中的优势就越大。如果B先出价：用贴现率表示：,重新解释纳什谈判解,纳什谈判解中的谈判力（h,k）是由谈判者的耐心决定的；越有耐心的人，得到的份额越大：,对称性,纳什的对称性假设可以理解为：如果假定两个人的耐心是一样的（s=r），那么，纳什解决定的剩余价值的分配比例就相同（h=k）；纳什福利函数就是剩余

42、之积：(x-a)(y-b)；在应用研究中，一般假定剩余价值是平均分配的；“平均主义”有了博弈论基础：如果两个人的耐心相同、机会成本相同、生产率相同，平均分配就是一个均衡。否则，就不会平均分配。,固定谈判成本,谈判的另一类成本是固定成本，如劳资谈判拖延的话，企业可能要为客户支付违约金。这类似于蛋糕随时间而变小。,案例：分冰激凌,序贯讨价还价分有限回合和无限回合两种情况。对于有限回合的情况不管多少次，都可以用逆向归纳法来推导其均衡结果。,假设冰激凌的重量为100克每个回合冰激凌都会融化掉10克；如果甲先提议，然后是乙在两轮谈判中，均衡结果是什么？,两回合讨价还价,三个回合讨价还价,九、十回合讨价还

43、价,结论,谁掌握谈判的最后主动权，谁就具有谈判优势；谈判的回合数越多，则两个人的利益分享就越接近于平均分配；如果谈判回合数足够长，一直到可分配的合作利益消失殆尽，那么，最终的讨价还价均衡结果将是平均分配合作利益。,举例,假设蛋糕以每次1/4的量缩小,一般情形,假设初始价值为V的冰激凌以x1，x2，x10的速度变为零；PNE：A得到x1+x3+x5+x7+x9B得到x2+x4+x6+x8+x10,外部机会成本,固定成本的一种特殊形式的外部机会损失：如谈判期间外部机会成本就不能得到利用；此时，外部机会成本损失越大，对谈判越不利；,问题,理论上，尽管谈判允许多次，但均衡情况下，双方一开始就达成协议，

44、之后的谈判都是非均衡路径；现实中，情况并不如此。通常，谈判总要进行多个回合，如中国加入WTO时谈判进行了10年；Why？,信息与谈判,在理论上，假定了当事人具有完全的信息：知道价值V和每个人的机会成本或谈判砝码、每个人的耐心、谈判的时限等等。但现实中，谈判面临的最大问题是信息不完全。价值V、生产成本、谈判砝码(a,b)、耐心、机会成本；谈判的过程实际上是一个信息揭示和窥探的过程。由于信息不对称，谈判结果并不总是帕累托最优的，事实上，许多帕累托改进没有被利用。,CH8重复博弈与合作行为,研究重复博弈的意义有限次重复博弈无限次重复博弈重复博弈战略空间的扩展重复博弈的应用,一、研究重复博弈的意义,重

45、复博弈问题普遍存在在重复博弈中，参与人的战略空间变得复杂提供了用非合作博弈理论来研究合作博弈的框架提供了研究人类行为模式变化的工具,重复博弈和信誉问题,如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以依据其他人之前的行动来决定自己的选择，因而，有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释：在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。,影响重复博弈均衡结果的因素,重复博弈的次数信息完备性,参与人在短期利益与长期利益之间权衡,当一个参与人的支付函数不

46、为其它参与人所知时,该参与人可能有积极性建立一个“好”声誉，以换取长远利益。,二、有限次重复博弈,只要博弈重复的次数有限，而且单阶段博弈的纳什均衡是唯一的，重复本身并不改变“囚徒困境”原来的结果！,“囚徒困境”价格大战,三、无限次重复博弈,阶段博弈之间没有物质上的联系。即，前一阶段的博弈不改变后一阶段的博弈结构；所有参与人观察到博弈过去的历史；参与人的总支付（报酬）是所有阶段博弈支付的贴现值之和。,三个特征：,无限次重复博弈中合作的达成,乙在第t次选择对抗与始终合作的收益分别为：,假定：甲乙双方的贴现因子参与人甲的策略：首先选择合作，如果观察到对方对抗，自己从下一个时期开始就永远选择对抗；,表

47、2对抗合作博弈,合作的达成的条件,结论：如果博弈的重复是有限次的，那么囚徒困境式的博弈中是不可能达成合作的；如果博弈是无限次的，那么眼光长远的参与人在囚徒困境式的博弈中也可能达成合作，不过如果参与人的目光短浅，那么合作仍难以达成。,得,由,只要双方对未来都有足够的信心，双方可以达成合作。,如果RCRU，合作就可以得到维持。,囚徒困境式的有限次重复博弈不可能达成合作,问题：人的生命是有限的，我们所经历的所有重复博弈都是有限次的，为什么我们能观察到那么多的合作呢？,不知道博弈何时结束只要博弈的次数足够长，可近似看作是无限次的前一个博弈将对进入后一个博弈带来影响,原因,四、重复博弈与战略空间的扩展,

48、如果上述博弈重复多次，那么每个参与人就有多个可以选择的战略，如：ALL-D：不论过去什么发生，总是选择不合作；ALL-C：不论过去什么发生，总是选择合作；合作-不合作交替进行；触发战略（triggerstrategies）：只要对手合作，该参与者也合作；但对方任何背叛就会“触发”规定时间长度的惩罚期，其间以非合作来回击。,最有名的两个触发策略,冷酷战略（Grimstrategies）：从合作开始，一直到有一方不合作，然后永远选择不合作。礼尚往来（tit-for-tat）：从合作开始，之后每次选择对手前一阶段的行动；,艾克谢罗德竞赛实验,在开始研究合作之前，艾克谢罗设定了2个前提：每个人都是自私

49、的没有权威干预个人决策,要研究的问题：人们为什么要合作？人什么时候合作，什么时候又是不合作的？如何使别人与你合作？,实验的方式：组织一场计算机模拟竟赛参加者都扮演“囚徒困境”中的一个囚徒；把自己的策略编成计算机程序，进行捉对博弈，在合作与背叛之间作出选择；以单循环赛的方式玩200次。,艾克谢罗德竞赛实验具体设计,“囚徒困境”博弈,结果：取胜策略为礼尚往来（tit-for-tat）,目的：集高手于一室，相互较量，找出合作的最佳策略。,礼尚往来（tit-for-tat）策略的特征,善良：是指它第一步总是向对方表示善意。可激怒：是指对方出现背叛行动时，它能够及时识别并一定要采取背叛的行动来报复，不会

50、让背叛者逍遥法外；宽容：是指它不会因为别人一次背叛而长时间怀恨在心或者没完没了地报复，而是在对方改过自新、重新回到合作轨道时，能既往不咎地恢复合作；简单：是指它的逻辑清晰，易于识别，能让对方在最短的时间内识别出来其策略所在；不嫉妒：是指它不耍小聪明，不占对方便宜，不在任何双边关系中争强好胜。,支付函数,对的解释：贴现率；博弈继续的概率二者的结合一般化：未来收益的重要程度,满足：RTPS；SRTT,“囚徒困境”的一般表示,无名氏定理（FolkTheorem）,在无限次重复博弈中，如果参与人对未来足够重视（足够大），那么，任何程度的合作都可以通过一个子博弈精炼纳什均衡得到；这里“合作程度”定义为这

51、个博弈中合作出现的频率；子博弈是指从某个阶段（不包括第一阶段）开始，包括此后所有阶段的重复博弈。50年代人们就有这样的共识，但无人有发明权。,tit-for-tat,纳什均衡，但不是精炼纳什均衡；,为什么不是一个精炼纳什均衡？,假设A在t=5时没有合作，根据TFT战略，在t=6时，B应该选择惩罚A（不合作）。B会这样吗？如果B相信A采取的是TFT策略，那么B如果对A实施惩罚，预期的收入流为：R，S，R，S，R，如果B原谅A，预期的收入流为：T，T，T，T，T，尽管“tit-for-tat”是成功率最高的战略（Axelrod1984）,Grimstrategies,如果未来足够重要，精炼纳什均衡

52、：,合作条件：如果下列条件满足，合作就是均衡的结果：,解释,RT可以理解为不合作的诱惑；RP=（RT）（TP）；条件说明：给定未来的重要程度，不合作的一次性诱惑（RT）相对于合作带来的利益（RP）越小，合作的可能性越大；给定不合作的诱惑和合作带来的利益，未来越重要，合作的可能性越大；,行为的信息传递,假如欺骗两次才被发现：,含义,欺骗行为越难以被发现，欺骗发生的可能性越大；或者说，合作越困难；,在前面的例子，R=4，T=3，P=0。如果欺骗一次就被发现，只要合作就会出现；,如果欺骗两次才被发现，只有当0.5时，合作才可能出现；,惩罚与合作,Abreu（1986）：最大合作战略是使用最严厉的可信

53、惩罚；维护合作并不需要无限期的惩罚，只要惩罚期足够长就可以了；胡罗卜加大棒；从合作开始，一直合作，直到如果有任何一方在t期不合作，在t+1期，前期合作者选择“不合作”来实施惩罚，前期合作者选择合作；如果该合作的没有合作，该惩罚的没有实施惩罚，在t+2期继续按照上述t+1期的战略规定博弈，否则，合作恢复。,对“胡萝卜加大棒”策略的解释,采用这个战略的参与人在对方与自己步调一致时（同时合作或同时不合作），则在下一阶段用合作奖励对方，即给对方一个胡萝卜。在对方与自己步调不一致时，则在下一阶段用不合作来严厉地惩罚对方，即给对方当头一棒。这个战略要求不仅惩罚该合作时不合作的对手，而且惩罚该惩罚时不惩罚的

54、对手，惩罚不惩罚者又是给惩罚者的一根胡萝卜。,假设A首先不合作,解释,在惩罚子博弈，合作的条件是：,在非惩罚子博弈，合作的条件是：,不确定性下的最优处罚,在确定的情况下，惩罚越严厉，越有助于合作。因为均衡情况下，欺骗从来不会发生，所以惩罚实际上是没有成本的。但在不确定的情况下，即使每个人都选择合作，“坏结果”也会出现。如果坏结果是触发惩罚，就会冤枉好人，过重的惩罚反倒导致不合作；但如果总是原谅，合作也不会发生。,多重交易关系与合作行为,交易关系,交易关系,合作条件,在交易关系中，合作要求0.25在交易关系中，合作要求0.8如果两种交易在同样的两个人之间进行，只要0.25，两种交易中都会合作；设

55、想实际的=0.6，那么如果两种交易发生在不同的人之间，合作只出现在市场，不会出现在市场。但如果两个人之间同时存在两种交易，合作存在于两个市场。,社会关系与合作行为,更一般地讲，市场交易常常镶嵌在复杂的社会关系中，这种关系可以提高交易的合作程度，这也是人们愿意发展社会关系的原因。比如，在交易关系中，假定除了这一交易外，当事人双方之间还存在另外的社会关系，这一社会关系对每一方的现值为V；,应用,家庭学血缘关系；朋友关系；同学关系；老乡关系（保姆市场）；,图示,非合作区域,Klein-LefflerModel（1981）,如果（2-1）/（2-0）=0.5，下列战略组合构成一个精炼纳什均衡；厂家开始

56、生产高质量；继续生产高质量，除非曾经生产过低质量；如果上一期生产了低质量，之后永远生产低质量；消费者：第一个消费者购买；只要低质量事件没有发生过，之后的消费者继续购买；但一旦发现低质量，之后的消费者不再购买；结果：（购买，高质量）,社会规范：集体抵制,Boycott：每个人都应该诚实，都有责任惩罚欺骗过人的人，不参与惩罚的人，应该受到惩罚；假定A在t期欺骗了B，C在t+1期就不应该与A合作，否则，D在t+2期就不应该与C合作；如果C在t+1期与A合作，D在t+2期又与C合作，F在t+3期就不应该与D合作，如此等等；（美国对不参与伊拉克战争国家的态度）,敌友原则,开始把所有的人当朋友：t期的朋友

57、关系一直保持到t+1，当且仅当他在t期不曾欺骗过任何人，并不曾与你的敌人合作；朋友的朋友是朋友；朋友的敌人是敌人；敌人的朋友是敌人；敌人的敌人未必是朋友；,PNE,如果每个人的信息是公共信息，合作是一个精炼纳什均衡；信息问题为理解法律的出现提供了一个原因。法律机关的一个功能是通过集中化信息使得信誉机制可以更好地发挥作用。,有限次博弈,在完全信息博弈中，只要博弈的次数是有限的，合作就不会出现。,如果参与人的类型是不完全信息，只要博弈进行得足够长，合作仍然可能出现。眼前利益与长期利益,欺骗的短期收益,信誉的长期收益,时间,信誉的条件,重复博弈；足够耐心相对确定的环境欺骗可以被观察到受骗人有积极性惩

58、罚,传统社会的个人信誉,在传统社会，人们常年生活杂封闭的村庄，村民之间彼此非常熟悉，欺骗行为很容易识别，人们之间的口头交流足以使任何欺骗行为广为人知，每个人的历史都存储在别人的脑海里，对欺骗行为的惩罚即使不能施加于欺骗者本人，也可以通过家庭成员而实现，如上的前4个条件基本上可以得到满足。因此，即使没有法律，村民之间也可以建立起高度的信任，欺骗行为很少发生。,商业社会的问题,现在社会被称为“匿名社会”，与乡村社会不同，居民的流动性大，交易双方通常并不认识，相互之间也缺少如乡村社会中存在的其它制约关系，使得受害人的惩罚措施受到很大限制；开放的社会使得不大在乎闲言碎语的议论。凡此种种，使得传统的以个

59、人为基础的信誉机制失灵，这也是都市社会犯罪率高的一个重要原因。但是，西方市场经济之所以发达到今天的程度，除了比较完善的司法制度外，是因为他们在更高的形态上复制出了前面讲的4个条件。,重复博弈的应用,下表为一个努力困境博弈，安迪和比尔都不知道这个博弈将进行多少次，但知道每次博弈后，有10%的概率会退出，他们能否走出“囚徒困境”？,V(ALL-D，ALL-D)=5+(0.95)+(0.925)+(0.935)+=50V(ALL-C，ALL-C)=10+(0.910)+(0.9210)+=100,比尔考虑实施针锋相对计划,目的：威胁安迪，使之不敢选择“推卸”战略。安迪选择推卸的收益为：,V1=15+5+52+53+=15+5/(1-),如果安迪努力，他的收益为：,V2=10+10+102+103+=10/(1-),如果V10.5时，安迪会努力。,假定：每个参与者的可选战略有三个,（针锋相对，针锋相对）是一个聚点均衡,合谋定价,在寡头垄断市场上，销售商可以维持垄断价格，从而使销售商团体的总利润最大。但是，在合谋定价中，每一个销售商都有欺骗的动机，他们可

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

博弈论ppt完整版

文档简介

温馨提示

最新文档

评论

博弈论ppt完整版

文档简介

温馨提示

最新文档

评论

相关文档