3博弈论的内涵与外延.doc

上传人：n*** IP属地：河南上传时间：2020-01-18 格式：DOC 页数：10 大小：249.50KB 积分：20 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

博弈论的内涵与外延1、博弈的收益矩阵初级经济学课程中我们通过寡头论断理论出不解除了纳什均衡、古诺均衡与斯塔克伯格模型的研究，初步展现了厂商之间策略互动的经典经济原理。然而真正能够展现经济主体之间的策略性互动，则必须通过博弈论来说明。为研究简化和直观，我们的分析只局限在为研究简化和直观，我们的分析只局限在策略数量有限的双人博弈，基于此我们可以用收益矩阵来表示博弈。假设两人的简单博弈。A可以选择“上”或“下”。参与人B可以独立选择“左”或“右”。写完后经过检查，他们最终获得的收益如表1所示。表1 博弈的收益矩阵参与人左右参与人上1，20，1下2，11，0参与人A有两种策略：选择上，也可以选择下。参与人也具有两个独立的策略左和右。从参与人A的角度考虑，他选择下的结果明显好于选择上。同样，多余参与人B来说，其选择左的后果也要好于选择右的结果。因此，我们可以预期，均衡策略是A选择下，B选择左。在这种情况下，我们有一个占优策略。不论其他人如何选择，每个参与人都有一个最有策略。不论B如何选择，参与人A选择下总能得到较高的收益。因此，A肯定会选择策略下。同样，不论A选择何种策略，B选择左也能得到较高的收益。因此，这些选择优于其他选择，我们就得到一个占优策略均衡。如何在某个博弈中，每个参与人都有一个占优策略。那么，可以预期，这个占优策略组合就是博弈的均衡结果。一、纳什均衡在实际情况下并非处处都能得到占优策略均衡。例如表2中的报以结构就不存在占优策略均衡。当B选择策略左，A的到收益为2或0；当B选择策略右时，A得到的收益为0或1.这意味着，当B选择左时，A选择策略上；当B选择右时，A选择策略下。因为这是A的最优选择取决于其对B所选择策略的预期。但是，正是因为占优策略均衡时一个非常苛刻的要求。预期要求A的选择对于B的所有选择都是最有的，不如只要求A的选择对于B的最有选择是最有的。这是因为，如果B是一个消息灵活的聪明人，他就会选择最优策略（尽管B的最有选择也是取决于A的选择）。如果给定B选择，A的选择是最优的，并且给定A的选择，B的选择也是最优的，那么这样一组策略就是纳什均衡。纳什均衡可认为是关于每个参与人的策略选择的对他人行为的预期，而这些预期使得当任何一个人的选择被揭示后，没有人愿意改变自己的行为。表2 纳什均衡参与人B左右参与人A上2，10，0下0，01，2从表2中看出，策略组合（上，左）是一个纳什均衡。如果A选择策略“上”，那么B所做的最优策略选择就是“左”，同样如果B选择“左”，那么A所作的最优策略选择是“上”。同理，策略组合（下，右）也是一个纳什均衡。纳什均衡是古诺均衡的一般化形式。古诺均衡中所选择的是产量水平，每一家厂商在选择产量时，都把另一家厂商的产量选择视同既定产量。每一家厂商都要在另一家厂商连续生产它所选择的产量水平既坚持执行它所选择的策略的假定基础上，最优化自己的选择。古诺均衡出现在当每家厂商都在另一家厂商的行为规定的情况下，最大化自己的利润的时候。一个博弈可能存在一个以上的纳什均衡，也可能根本不存在纳什均衡。表3 不存在（纯策略）纳什均衡的博弈参与人B左右参与人A上0，00，-1下1，0-1，32、重复剔除的最优策略均衡在每个人参与人都有最优策略的情况下，最优策略均衡是很理想的，他反映了所有参与人的绝对偏好，根据最优策略均衡可以对博弈结构做出最肯定的预测。然而在大多数情况下，最优策略均衡是不存在的。假定猪圈内有一只大猪和一只小猪，在猪圈的一头有一个猪食槽，另一头安装一个按钮，控制猪食的供应。按一下按钮，有8个单位猪食进槽，但需要支付2个单位成本。若大猪先到，大猪吃到7个单位，小猪只能吃到1个单位；若小猪先到，大猪和小猪各吃到4单位；若两猪同时到达，大猪吃到5单位，小猪吃到3单位。每头猪都有两种策略：“按”与“等待”。支付矩阵见表4。表4、智猪博弈小猪按等待3，12，47，-10，0大按猪等待第一格表示两头猪同时按按钮，同时走到猪食槽，这大猪吃5单位，小猪吃3单位，口出2个单位成本，支付水平分别为3个单位和1个单位。这个博弈没有最优策略均衡。因为尽管“等待”是小猪的最优策略，但大猪没有最优策略。如果小猪选择“等待”，大猪的最优策略是“按”；反之，如果小猪选择“按”，大猪的最优战略是“等待”。大猪的最优策略依赖于小猪的策略。在此必须用“重复剔除严格劣战略”的思路找出均衡。这个思路具体为：首先找出参与人的劣策略（假定存在），把这个劣策略除去，重新构造一个不包含这个劣策略的新的博弈；然后再剔除新博弈中的劣策略，直至唯一的策略组合即均衡解。这个博弈的均衡解成为。“重复剔除的最优策略均衡”（iterated dominance equilbrium）。首先剔除小猪的劣策略“按”。不管大猪“按”还是“等待”，小猪都会选择“等待”，而绝不会去“按”，在剔除“按”这个策略后的新博弈中，小猪只有一种策略“等待”，大猪仍有两个策略，但是等待就成为大猪的劣策略，剔除这个策略，剩下的唯一策略组合即是（按，等待）。如果小猪选择“等待”，大猪的最优策略只能是“按.这个博弈结果有很多在现实生活中的实例。股份公司中，股东承担监督经理的之恩，但是股东中有大股东和小股东之分，他们从监督中的到得收益不一样。在监督成本相同情况下，大股东从监督中的到得“好处”显然多于小股东。大股东类似于“大猪”，而小股东则相当于“小猪”。博弈结果是，大股东必须承担监督经理人的职责，而小股东这可以“免费搭车”。股票市场，市场开发这样的例子比比皆是。3 混合策略当每个参与人只选择一种策略并始终检测这个选择，这种策略称为纯策略。当考虑参与人策略选择的另一种方法，是允许参与人是他们的策略选择随机化对每项选择都指定一个概率，并按照这些概率选择策略。如A 可能以50%的概率选择“上”，以50%的概率选择“下”，同时B可能选择“左”的概率为50%，选择“右”的概率为50%，这种策略称为混合策略。如果A和B都采用上述的混合策略，即各自都以相等的概率选择其中的一种策略。那么，混合策略组合在收益矩阵四个方格中的每一个方格中出现的概率都是1/4。因此，A的平均收益是0，而B的平均收益为1/2。混合策略纳什均衡指在给定其他参与人的策略闲着概率，每个参与人都为自己确定选择每一种策略的最优概率。在表3中，如果参与人A以3/4的概率选择策略“上”，以1/4的概率选择策略“下”，参与人B 以1/2的概率选择策略“左”，以1/2的概率选择策略“右”，那么这个混合策略组合就构成纳什均衡。举一个例子，在表6的博弈中，参与人是政府和流浪汉。流浪汉有两种策略：寻找工作或者游荡；政府也有两种策略：救济或不救济。政府帮助流浪汉，当前提是后者必须找工作。后者，不予救济。而流浪汉总有在得不到政府救济时才会寻找工作。这个博弈不存在纯策略纳什均衡。给定政府救济，流浪汉选择游荡时支付为3，而选择寻找工作只有2。因此流浪汉最优策略是选择游荡。同理，给定流浪汉游荡，政府的最优策略是不救济。给定政府不救济，流浪汉的最优策略是寻找工作；给定流浪汉寻找工作，政府的最有策略为救济。没有一个战略组合构成纯策略纳什均衡。然而，则这个博弈却存在混合策略纳什均衡。设想政府以1/2的概率选择救济，1/2的概率选择不救济。那么，对于流浪汉来说，选择寻找工作的期望效用为1/2 x2+1/2 x 1=1.5。而选择游荡带来的期望效用为,选择任何混合战略的期望效用都是1.5。所以，流浪汉的任何一种策略都是对政策所选择的混合战略的最优反应。如果流浪汉也选择这个混合战略，采用0.2概率选择公众，以0.8的概率选择游荡。政府的任何策略的期望效用都是0.2.（学生自己练习一下）。这样，我们得到一个混合战略组合，其中政府各异1/2的概率分别选择救济和不救济，流浪汉以0.2 概率选择工作，0.8的概率选择游荡，每个参与人的混合战略都是给定双方混合战略时的最优选择。这个混合策略组合是一个纳什均衡。表6、社会福利博弈流浪汉寻找工作游荡3，2-1，3-1，10，0政救济府不救济性别战的例子，男女谈恋爱，晚上约会时或者去看足球比赛，或者去看芭蕾舞演出。男的偏好看足球，女的偏好芭蕾，但他们都宁愿在一起也不愿意分开看。支付矩阵如表7所示：表7、性别战博弈女足球芭蕾2，10，00，01，2男足球芭蕾这个博弈存在两个纯战略纳什均衡：（足球，足球）和（芭蕾，芭蕾）。同时还可能存在一个混合战略纳什均衡。即男的以2/3的概率选择足球赛，1/3选择芭蕾。同样女的一1/3概率选择足球赛，2/3概率选择芭蕾。第三节完全信息动态博弈：子博弈精炼纳什均衡一、动态博弈与精炼纳什均衡上节分析了用混合策略来解决有些博弈中不存在纳什均衡的问题。除此以外，纳什均衡还有另外的问题，即有些博弈中可能不仅一个（甚至是无穷个）纳什均衡，但究竟哪个均衡实际上会发生难以回答。在纳什均衡中，参与人在选择自己的最优战略时，把其他参与人的策略作为给定，不考虑自己的选择将如何影响对手的策略。实际上在动态博弈中，当一个人行动在前，另一个人行动在后时，后者自然会根据前者的行动理性调整自己的选择。其事先设定的策略可能会在博弈过程中发生变化，这就是策略的“可信性”问题。前者在作选择是自然会理性地考虑这一点，所以不可能不考虑自己的选择对其对手选择的影响。由于在纳什均衡中，不考虑这种影响，事实上便允许“不可置信威胁”的存在，于是就增加了纳什均衡的个数。泽尔腾引入动态博弈分析完善了纳什均衡的概念，定义了与动态博弈对应的“子博弈精炼纳什均衡”。将纳什均衡中包含的不可置信的威胁策略剔除出去。他要求参与人的决策在任何时点上都是最优的，决策者是“随机应变”的。由于提出了不可置信的威胁，在许多情况下，精炼纳什均衡也就缩小了纳什均衡的个数。前面介绍的都是标准型博弈。博弈的标准型表达有3个要素：参与者、可选择策略以及支付函数。两人有限策略博弈的标准型可用一个矩阵来表示。而另一种博弈形式成为扩展型博弈。与标准型相比，扩张型表达包括五个要素：参与人每个参与人选择性动的时点每个参与人在每次行动时可提供选择的行动集合每个参与人在每次行动时有关对手过去行动选择的信息支付函数假设企业A是市场上的唯一供给者，面临企业B可能的竞争威胁。企业A有两种可选策略，即斗争与默许。斗争变现为采用降低价格使B得收益为0，默许意味着维持高价格。企业B也有两种策略：进入或者不进入。假定进入之前垄断利润为300，进入之后寡头利润共为100（各得50），进入成本为10.各种策略组合下的支付矩阵见表8。表8 市场进入阻挠博弈企业A高价低价40，50-10，00，3000，300企进入业不进入B这个博弈显然有两个纳什均衡，即（进入，高价），（不进入，低价）。（进入，高价）是纳什均衡，是因为给定企业B进入的话，企业A选择高价时得到利润50，选择低价时则没有利润，所以最优战略时高价（默许）。同理，给定企业A高价时，进入策略就成为企业B的最优选择。尽管在企业B选择不进入时，企业A采取任何一种策略都将是一样的，但只有当企业A选择低价时，不进入才是企业B 的最优选择。因此，（不进入，低价）是纳什均衡，而（不进入，高价）不是纳什均衡。通过静态分析方法，得到两个纳什均衡。究竟发生哪个，我们只能用动态博弈理论来讨论。企业B先选择行动（进入或不进入），企业A后选择是合作或者斗争。如果企业B选择进入，企业A选择默许，则支付水平分别是40和50.在企业B选择进入后，企业A选择行动开始就是一个子博弈。泽尔腾认为：只有当参与人的策略在每一个子博弈中都构成纳什均衡，才可以成为近年纳什均衡。换言之，组成精炼纳什均衡的策略库尔必须在每一个子博弈中都是最优的。在市场进入博弈中，当给定企业B已经进入的情况下，在位者的“斗争”或“高价”策略一不再是最优的，这种“斗争”是不可置信的威胁，因为斗争的结构式没有利润的，而合作会带来50单位利润。所以（进入，低价）不是一个精炼纳什均衡，（进入，高价）是唯一的子博弈精炼纳什均衡。一个精炼均衡首先必须是一个纳什均衡，反之则不然。只有那些不包含不可置信威胁的纳什均衡才是精炼的纳什均衡。有些纳什均衡之所以不是精炼均衡，是因为他们包含不可置信威胁；如果参与人能在博弈之前采取某种错事改变自己的行动空间或支付函数，使不可行的威胁变得可行，博弈的精炼均衡就会相应改变。举例：假如富家小姐爱上穷小子，她父亲坚决不同意。威胁说，如果你嫁给穷小子，就断绝父女关系。那时如果女儿想，父亲只有一个，而丈夫的选择机会很多。她会选择父亲，而中断与恋人的联系。而她却不知道她父亲如果失去女儿，父亲损失也十分巨大，一旦女儿嫁给穷小子，一般说来最后父女关系会缓和，如果女儿够聪明，就会认识到父亲威胁不可信时，会勇敢嫁给小伙子。这就是一个精炼的纳什均衡。对于父亲来说，关键是要使自己的威胁变得可信，父亲会在与女儿争吵时假装心脏病突发啥的，女儿一旦知道父亲生气引起心肌梗塞，会真正失去父亲。因此当父亲的威胁变得可信时，女儿就会中断与恋人的关系。二、有限次重复博弈：“连锁店问题”前面我们提到的动态博弈基本上参与人仅对抗一次，因此同样的子博弈也仅出现一次。如果由相同的参与者反复博弈，那么情况就有所不同。在这种情况下，每个参与者面前就会出现新的策略。如果，一个参与者在这次选择背叛，那么你也可以在下一次选择“背叛”作为报复。在一个重复对策中，每一个参与人都有机会树立合作的信誉，并以此鼓励对方也树立合作的信誉。影响均衡结果的主要因素是博弈的次数及信息的完备性。如果博弈只进行一次，参与人只会关注一次性支付。但如果博弈重复多次，参与人可能会为长期利益暂时牺牲目前利益从而选择不同的策略。表9 市场进入博弈企业A高价低价40，50-10，00，3000，300企进入业不进入B如在一次博弈中，加入进入者先行动，这个博弈唯一的子博弈精炼纳什均衡结果是（进入，高价）。现在假设同样的市场A企业拥有20家连锁商店，当企业B每进入一个市场，博弈就进行一次，博弈变成了20次重复博弈。假定企业B进入第一个市场，企业A选择斗争（价格战）起到了威慑作用，使得企业B不敢贸然进入。然而在有限次重复博弈中，斗争并不是一个置信的选择。设想前19个市场已被企业B进入，企业B现在进入第20个市场。作为最后一个市场，对于企业A来说，这与一次博弈没有区别，选择高价成为最优策略，企业B也自然选择进入。现在考虑第19个市场，无论企业A选择何种策略，第20个市场的均衡结果页不会改变，在位者的最优选择仍然是默许进入。如此类推，可以得到这个博弈的唯一子博弈精炼均衡是企业A在每个市场都选择高价，企业B在每个市场都选择进入。这就是所谓的“连锁店之谜”当然该博弈还有其他均衡，如（斗争，不进入）等，但它不是子博弈精炼均衡。囚徒困境博弈也有类似情况。假设双方对局10次，那么对于第十局而言，这是最后一局，与一次性对策一样，（坦白，坦白）是双方的最优选择。再看第九局，既然最后一局每个囚徒都会采用背叛，那么他们为何要在第九局合作呢？如果你采用合作，另一个囚徒仍然可以采用背叛你的策略，并利用你的善良而获利。如双方都这样考虑，会把（坦白，坦白）作为自己的最优选择。同理可推，其余各局的博弈均衡都是（坦白，坦白）。因此，只要博弈重复的次数是有限的，则博弈的结果就将与一次性博弈（指对局一次）的结构相同。三、无限次重复博弈：“针锋相对”策略（tit for tat）假设囚徒困境博弈进行无数次，那么你就有办法影响你的对手的行为；如果他这次拒绝合作，你就选择在下一次拒绝合作，直到他开始选择合作，然后双方永远选择合作。这就是所谓的“针锋相对”策略。其实只要双方都充分关心各自将来的支付，那么将来不合作的威胁就足以说服他们，使他们采取帕累托有效策略。“针锋相对”策略是一种立即对背叛施以惩罚，效果令人满意，它同时也是一种宽恕策略：对于对手的每一次背叛，只惩罚他一次。如果他的对手选择合作策略，那么针锋相对的策略就会以合作对待。另外还有一种策略“冷酷到底”策略。它指如果第一次对方背叛，我将永远对对手进行惩罚，丝毫不给他“改过”的机会。实践证明这不是好的策略（详细内容，请参阅张维迎著博弈论与信息经济学或吉本斯著博弈论基础）克雷普斯（Kerps）有关“声誉”的观点可以用以说明重复博弈导致帕累托有效的理论，克雷普斯的声誉模型是在不完全信息博弈中的应用。声誉模型提出在契约不完全的情况下（完全契约指包罗万象、面面俱到的契约，契约中明确规定了各方在所有可能发生的情况下河条件下的义务、责任和权力等），买卖双方利益冲突不可能在事前全部解决，有些事情非得拖到时候而言。这时，如果市场只进行一次交易或有限几次交易，显然难以得到高效率，“扯皮”就会很频繁发生。如果能进行无限次交易，当双方知道下次还会交易时，“扯皮”和违约将大大减少，因为“声誉”的损坏有损今后的利益。这时双方都尽量选择合作，以树立自己的良好形象。所有，“声誉”是双方的无形资产，大家为保护“声誉”都必须合作。第四节：不完全信息静态博弈：贝叶斯纳什均衡一、非对称信息下的古诺竞争一个古诺双头模型。其中市场反需求函数既定，为市场中的总产量。企业1的成本函数，企业2的成本函数为的概率为,以的概率为，这里，并且信息是不对称的：企业2知道自己的成本函数和企业1的反映函数，但企业1知道自己的成本函数，却只知道企业2边际成本为的概率为，边际成本为的概率为。企业拥有共同的知识：企业1知道企业2享有信息优势，企业2 知道企业1 知道自己的信息优势。企业2的边际成本较高时和较低时，它希望生产的产出水平是不同的。企业1从自己的角度考虑，会预测到企业2根据其成本情况选择不同的产量。用和分别把企业2的产量选择表示为成本的函数，并令表示企业1的单一产量选择。如果企业2的成本较高，它会选择满足：类似地，如果企业2的成本较低，则满足下式：最后，企业1知道企业2成本较高的概率为，并应该能预测到企业2产量选择将分别为和。从而，企业1选择满足下式的以使期待的利润最大化。上面三个最优化问题的一阶条件为：及假定这些一阶条件可以决定上述最优化问题的解三个一阶条件构成的方程组的解为把这里的、和与成本分别为和的完全信息古诺均衡相比较，假定、的取值可使得两个企业的均衡产量都为正，在完全信息的条件下，企业1的产出为。然而与之不同的，在非完全信息条件下，要高于，低于。之所以会出现这种情况，是因为企业2不仅根据自己的成本调整其产出，同时还将考虑到企业1的情况选择最优反应。例如，如果企业2的成本较高，它就会因成本较高而减少产量，但同时又会生产稍多一些，因为它知道企业1将根据期望利润最大化的原则决定产出，从而要低于企业1确定知道企业2成本较高时的产量。二、一级密封价格拍卖贝叶斯均衡应用拍卖或招标有两个基本功能：一个是揭示信息，二是减少代理成本。当迈着比卖者更清楚一件物品对买者的价值时，卖者一般不愿意首先提出价格，而常常采用拍卖的方式以获得可能的最高价格。这种情况在古董与名画的交易中特别普遍。当直接的卖者或买者以代理人身份出现时，拍卖也有助于减少买者和卖者之间的损害委托人的合谋行为。一级密封价格拍卖是许多拍卖方式中的一种。在这种拍卖中，投标人同时将自己的出价写下来装入一个信封，密封后交给拍卖人，拍卖人以最高出价者作为成交价。这里每个投标人的策略是根据自己对该物品的评价和对其他投标人评价的判断来选择自己的出价，赢者的支付是他对物品的评价减去他的出价，其他投标人的支付为0.这时，不同投标人之间进行的就是一场不完全信息博弈。假定每个投标者不知道其他投标者的真实评价而仅知其概率分布。那么，他在选择自己的报价时面临着一种思想斗争。报价越高，中标可能性就越大。但是另一方面，给定中标的情况，报价越高利润就越小。分析结果表明：每个投标人的标价依赖于他的类型（对物品的评价），但一般来说，贝叶斯均衡地域这种评价，两者差异随投标人数增加而减少。换言之，投标人投标越多，对拍卖人越有利。证明过程。首先考虑两个投标人的情况，。分别为两投标人的出价，V1,V2分别为两投标人对物品价值的评价。假定每个投标者不知对方对物品的评价，但知道这种评价（Vi）独立地取自定义在0,1上的均匀分布函数。假定投标人i的出价是其价值的增函数且可微（不会出现，因为没人愿意支付出比物品价值本身更高的价格）。我们由此得到双方的支付（利润）如下：和（这里，假定当两个出价相同时，拍卖人随机分配。但在连续分布情况下，可认为出价相同的概率为0）。假定均衡出价策略为。给定V和b，投标人1的期望支付为：因为出价策略是严格递增的，因为所以这里是的逆函数。这表示当投标者选择出价时，他的价值为。因为属于0,1区间内的均匀分布函数。所以，代入为使最大化(均衡)，令可得如果是投标人的最优选择，。因此可以简写上述方程式因此对方程式2边积分这个博弈的贝叶斯聚能是每个投标者的出价是他的实际价值的一半。在均衡状态下，内拍卖品归评价最高的投标人所得，这从资源配置角度来讲是有效的。随着投标人数增加，我们用同样的方法求得 (n为投标人个数)当n越大，出价与实际价值差距越大，对卖者越有利，当，卖者得到买者价值的全部。第四节不完全信息动态博弈：精炼贝叶斯均衡动态博弈中，参与人的行动有先后顺序，后行动者可以通过对先行动者行动的观察获得有关他的偏好，支付及策略空间等方面的信息，修正自己的判断，达到进一步了解对方。当然，先行动者知道自己的行动有传递信息的作用，就会有意识选择某种行动来揭示或掩盖自己的真实“特征”。对于不完全信息动态博弈的均衡概念是“精炼贝叶

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

3博弈论的内涵与外延.doc

文档简介

温馨提示

最新文档

评论

3博弈论的内涵与外延.doc

文档简介

温馨提示

最新文档

评论

相关文档