版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章 博弈论与竞争策略,博弈论,又名对策论,它是用来扩展和深化对 厂商决策行为的分析的。博弈论的应用是微观经济 学的重要发展。 第一节: 博弈的基本要素与分类 第二节: 完全信息静态博弈 第三节: 完全信息动态博弈 第四节: 不完全信息博弈:静态与动态分析,“要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解” 保罗萨缪尔森 2004年2月10日,“虽然博弈论是作为数学的一个分支出现的,但是它在军事、政治、经济许多方面都有很多重要的运用,其中以在经济学内的运用最多也最为成功 。” 泽尔腾 1994年诺贝尔经济学奖获得者,博弈论的诞生,1944年,由约翰.冯.纽曼和摩根斯坦恩合作撰写
2、博弈论和经济行为一书出版,宣告了博弈论的诞生。 19501951,约翰.纳什发表了两篇关于非合作博弈的重要文章,塔克定义了“囚徒困境”的经典例子。奠定了非合作博弈论的基石。 1994年,诺贝尔经济学奖授予了三位博弈论专家:纳什、泽尔腾和海萨尼。标志着博弈论在经济学中的地位正式得到承认。,博 弈 论,美藉匈牙利数学家冯诺依曼(John Von Neuman)和美藉奥地利经济学家摩根斯顿(Morgenstern)相识于普林斯顿大学,他们于1944年出版了经典著作博弈论与经济行为,为现代博弈论的发展奠定了基础。,美国的数学家、经济学家纳什(John Nash),美籍匈牙利经济学家海萨尼(John C
3、. Harsanyi)和德国经济学家泽尔滕(R.Selten)因对博弈论的卓越贡献而获得1994年度的诺贝尔经济学家。,海萨尼,纳什,值得一提的是纳什,他发表奠定其在博弈论中重要地位的学术论文时,年仅22岁,被人称为“一个天才”。1959年,纳什被精神病医生诊断为“妄想性精神分裂”,饱受精神病折磨40余年。,泽尔滕,博弈论是分析企业和个人行为的一个重要工具,在分析企业与企业或个人与个人之间的互动的时候尤为重要。 博弈论(game theory)研究企业或个人(agent)的策略行为(strategic behavior),这些策略行为取决于其他企业或个人的行动(action)互相依存又互相影响
4、。,博弈论工具的作用,非合作博弈(non-cooperative game):在非合作博弈中,不存在通过谈判协商(negotiation)或有约束力的合约(binding contract)的方式限制局中人的行为。我们这里讨论的一般为非合作博弈 合作博弈( cooperative game ):在合作博弈中,局中人通过谈判一个有约束力的合约来实现其联合策略。,博弈论工具的作用,博弈论可以帮助我们分析存在两个或数个行为主体时的最佳策略。如分析在存在寡头垄断时一个企业的行为,以及不同企业行为之间的相互影响。 博弈论应用的例子包括对寡头垄断行为的分析,对外部性的分析,对军事策略的分析,等等。,博弈论
5、工具的作用,博弈论工具的作用,例: “How to win Friends and Influence People”(Dale Carnegie, 1936) Show respect for the other persons opinions. Get the other person saying yes, yes immediately. Let the other person do a great deal of the talking. Let the other person feel that the idea is his or hers. Try honestly to
6、 see things from the other persons point of view. Be sympathetic with the other persons ideas and desires.,博弈论工具的作用,例: “Nashs Bargaining Solution” You will negotiate well when: You seem more willing to risk conflict Concessions would hurt you a lot You have less to lose from conflict You can make cr
7、edible THREATS,一个完整的博弈包括以下要素: 局中人(players):两个以上。 规则:谁在什么时候行动?如何行动? 每个局中人有至少两个以上可供选择的策略(strategies)。 得益:每个可能的策略都有一个相应的报酬(payoffs)。 基本假设:局中人偏好于报酬高的结果。,博弈论要素,(二)单人博弈、双人博弈和多人博弈 (三)有限策略博弈和无限策略博弈 (四)零和博弈、常和博弈与变和博弈 1.零和博弈 2.常和博弈 3.变和博弈:不同策略组合下各博弈方的得益之和不相同。 (五)静态博弈和动态博弈 1.静态博弈:是指所有博弈方同时或可看作同时选择策 略、采取行动的博弈。
8、2.动态博弈:是指博弈方的选择、行动有先有后,而且后 选择、后行动的博弈方在自己进行选择、行动之前可以看到在 他之前选择、行动的博弈方的选择、行动的博弈。,博弈论分类,作为博弈论的介绍,我们主要讨论两人博弈(two-player game)模型,即每个博弈只有两个局中人。 同时,我们也假设每个局中人只有两个可供选择的策略。,两人博弈模型,我们将两个局中人叫做A和B。 A有两个(策略)选择:上(up)或下(down)。 B有两个选择:左(left)或右(right)。 说明:(1)A和B的策略选择可以相同也可以不同;(2)每个策略选择可以被看作是一个投资决定或者利益分配计划。,两人博弈的一个例子
9、,两人博弈的一个例子(续): 两个局中人,每个局中人各有两个选择,结果有四个不同的策略选择组合:上左,上右,下左,下右。 每个策略组合中,每个局中人的报酬已知,见下页报酬矩阵(payoff matrix)或一般形式(normal form)。,This is thegames payoff matrix.,Player B,Player A,通常的表达方式是,第一个局中人的报酬在前,第二个局中人的报酬在后。,得益矩阵,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,报酬矩阵也可以用展开式(extensive form) 或树形图(tree diagram)来
10、表示。,博弈论的扩展式,信息集(information set),决策结(decision node),信息集(information set)表明了哪一个局中人应该作决定,并且个局中人作决定所掌握的信息。 充分信息(perfect information):一个信息集里只有一个决策结。 不充分信息(imperfect information):一个信息集有多个决策结。局中人不能区分其作决策时位于哪个决策结。,博弈论的信息集,一个展开形式肯定有唯一相对应的报酬矩阵; 但一个报酬矩阵可能反映多个展开形式。如下面两个不同的展开形式有相同的报酬矩阵。,报酬矩阵与展开形式之间的关系,前面我们讨论了一个
11、博弈的表达形式。 现在我们来解这个两人博弈,即每个局中人的最佳策略是什么? 我们还是用前面的那个例子。,纳什均衡,E.g. if A plays Up and B plays Right then As payoff is 1 and Bs payoff is 8.,This is thegames payoff matrix.,Player B,Player A,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,And if A plays Down and B plays Right then As payoff is 2 and Bs payoff is 1.,T
12、his is thegames payoff matrix.,Player B,Player A,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,两个局中人的策略组合表示为 (U,R), 括号中第一个字母是A选择的策略代码, 第二个字母是B选择的策略代码。,纳什均衡,这个博弈的结果会是什么样的呢?,Player B,Player A,纳什均衡,Player B,Player A,Is (U,R) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,
13、If B plays Right then As best reply is Downsince this improves As payoff from 1 to 2.So (U,R) is not a likely play.,Is (U,R) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,Is (D,R) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,If B plays Right then As bes
14、t reply is Down. If A plays Down then Bs best reply is Right. So (D,R) is a likely play.,Is (D,R) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,Is (D,L) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,If A plays Down then Bs best reply is Right,so (D,L) is
15、 not a likely play.,Is (D,L) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,Is (U,L) alikely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,Player B,Player A,If A plays Up then Bs best reply is Left. If B plays Left then As best reply is Up. So (U,L) is a likely play.,Is (U,L) alik
16、ely play?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,纳什均衡(Nash Equilibrium):如果给定B的策略选择,A的选择是最佳策略(optimal strategy);同样地,给定A的选择,B的选择也是最佳的,这样的策略组合就叫做纳什均衡。,纳什均衡,Nash Equilibrium: “Im doing the best I can given what you are doing” “Youre doing the best you can given what I am doing.”,纳什均衡,在我们前面的例子中,存在两个纳什均衡:(U
17、,L)和(D,R)。 如果A选了上,B会选左; 如果A选了下,B会选右。 反过来,B选左,A会选上;B选右,A会选下。 说明:在这个博弈中,A和B的选择是同时进行的。,纳什均衡,Player B,Player A,(U,L) and (D,R) are both Nash equilibria forthe game. 结论:一个博弈中可能存在多个纳什均衡。,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纳什均衡,事实上,在上个例子的两个纳什均衡中,两个局中人都倾向于(U,L)这个均衡,因为这个均衡为两者带来的报酬都较高,我们把它叫做帕累多偏好均衡(Pareto-prefer
18、red equilibrium)。 问题是这两个局中人会不会肯定同时选(U,L)呢?,纳什均衡,在回答前面这个问题之前,我们再看一个例子,这就是著名的囚犯困局(the prisoners dilemma)。 这个例子是这样的,两个嫌疑犯同时被捕,并被隔离审问。这两个囚犯都有两个选择:坦白(confess)还是不坦白(deny)他们的罪行。问题是:在互相不知道对方的选择的情况下,应该坦白还是不坦白呢?,囚犯困局,(Prisoners Dilemma)模型,规则1:隔离审讯 规则2: 假如两人都招供,各判5年有期徒刑 假如只有一个人招供,招供者免于刑罚,不招供者判8年有期徒刑 假如两人都不招供,各
19、判1年 这一案例可由下面得益矩阵来直观地表示。,支付矩阵,囚徒乙 交 代D 不交代C 交 代D -5,-5 0, -8 不交代C -8 , 0 -1, -1 囚徒困境的得益矩阵,囚徒甲,乙,甲,(-5,-5),(0,-8),(-8,-0),(-1,-1),D,C,D,C,囚犯困局,所以不管甲怎么做,乙的最佳选择都是坦白。对乙来讲,坦白是一个主导性的策略(dominant strategy)。,主导性的策略(上策):不管其它博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其它的策略,至少不低于其他策略的策略. 囚徒的困境中的“坦白”;,乙,甲,(-5,-5),(0,-8),(-8,
20、0),(-1,-1),D,C,D,C,囚犯困局,反过来也成立,即不管乙怎么做, 对甲来讲,坦白也是一个主导性的策略。,乙,甲,(-5,-5),(0,-8),(-8, 0),(-1,-1),D,C,D,C,囚犯困局,所以,在这个博弈中,只有一个唯一的纳什 均衡, 即(D,D)。但由于(D,D)的回报 较低,这个纳什均衡是不效率的(inefficient)。,囚徒困境反映的社会问题,囚徒困境反映了个人理性和社会理性之间的矛盾。即个人的理性往往不能导致社会的理性。 在囚徒困境中,对双方最好的战略组合(Strategy Profile)是(抵赖,抵赖),双方在这一战略组合下的支付各是1年徒刑。 但是由
21、于(抵赖,抵赖)不是纳什均衡,所以无法达成。 在囚徒困境中,坦白是每个参与人的占优战略(Dominant Strategy),但是由占优战略组成的纳什均衡却不是对所有参与人整体最有利的战略组合。,智猪博弈(boxed pig game),假设猪圈里有一大一小两头猪,猪圈的一头有一个猪食槽,另一头有一个按钮,控制着猪食的供应。揿一下按钮就会有10个单位的猪食进槽,供猪食用,但谁揿按钮谁就得付出2个单位的效用成本。 如图,如果大猪与小猪同时去揿按钮,大猪吃到7个单位的猪食(扣去2个单位的效用成本,剩下的效用单位为5,显然这里假设1个单位的猪食提供1个单位的效用),小猪吃到3个单位的猪食(扣去2个单
22、位的效用成本,剩下的效用单位为1);如果小猪去揿按钮,等奔过来后只能吃到2个单位的猪食(扣去成本,得到的效用为-1),先吃的大猪则可吃到9个单位猪食,即得到9个单位的效用;当然,如果都不去揿按钮,原地等待,则无猪食进槽,得到的效用均为0。,图智猪博弈,在这个案例中,不论大猪选择“揿”还是“等待”,小猪的最优选择都是“等待”,在预期小猪“等待”的前提下,大猪的最优策略便是“揿”。也就是说,这个案例的纳什均衡便是图中右上角表示的策略组合及其效用组合:大猪“揿”、小猪“等待”。从而多劳者不多得。,智猪博弈在现实中的例子,股票市场中,大户与小户的博弈 企业中大企业与小企业产品开发的博弈 农村修路的时候
23、,大户与小户的博弈,智猪博弈常被用来说明“搭便车”的情形。如大股东花费大量的时间与精力等监督股份公司的管理层,小股东搭便车,不去实施监督,却享受大股东的监督带来的利益。还有富人修路,穷人走修好的路等也是如此。在改革过程中,不同群体的积极性,主动性也是不一样的,从某种意义上说,改革中要注意创造出尽可能多的“大猪”,减少不劳而获的“小猪”。,极大化极小策略是指在所能选择的各种最小得益中求取得益的“最大化”。,极大化极小策略,下图博弈中,博弈方1和博弈方2如果都采取极大化极小 策略,极大化极小均衡解就是(1,1)。而(2,1)是这个 博弈中的唯一的纳什均衡。 博弈方2 左 右 上 1,0 1,1 下
24、 -1000,0 2,1 极大化极小策略,博弈方1,在前面两个例子中,两个局中人同时决定他们的策略,这样的博弈叫同时博弈(simultaneous play game)。,完全信息动态博弈,完全信息动态博弈中,博弈方的策略选择有先有后,而 且一般都会持续一个较长时期。,策略是在整个博弈中所有选择、行为的计划 结果是上述“计划型”策略的策略组合,构成一条路径 得益对应每条路径,而不是对应每步选择、行为 动态博弈的非对称性先后次序决定动态博弈必然是非对称的。 先选择、行为的博弈方常常更有利,有“先行优势”。,完全信息动态博弈,一.子博弈精炼纳什均衡 1.子博弈精炼纳什均衡不允许不可置信的威胁的存在
25、。 2.一个子博弈精炼纳什均衡必须是一个纳什均衡,但纳什 均衡不一定是子博弈精炼纳什均衡。 3. .子博弈?,子博弈,定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。,二.重复博弈 1.重复博弈是指同一种结构的博弈反复进行所构成的博弈 过程,它属于动态博弈的范畴。 2.如果博弈的次数是无限的,厂商就可以相互合作,摆脱 困境。如果博弈的次数是有限的,厂商之间的合作就不可能3.“以牙还牙”策略 在定价博弈中,“以牙还牙”策略是指:一家厂商定高 价,只要对方继续合作也定高价,那
26、么这家厂商就会一直保 持高价;一旦对方定低价,那么该厂商也会定低价,如果对 方以后决定合作并再提高价格,该厂商也会提高价格。,完全信息动态博弈,在有些博弈中,一个局中人先于另一个局中人决定其策略,这样的博弈叫序贯博弈(sequential play game)。 在序贯博弈中,先决定策略的那个局中人叫领头者(leader),后决定策略的叫跟从者(follower)。,博弈论基础,三.序列博弈(序贯博弈) 序列博弈,是指参与者选择策略有时间先后的博弈形式。 它是一种较为典型的动态博弈,而重复博弈则可视为一种特殊的动态博弈形式。,在同时博弈时,一个博弈有多个纳什均衡,很难说哪个均衡更有可能发生。
27、如果这样的博弈是一个序贯博弈,我们可以决定哪个均衡更有可能发生。 一方在决策时,会考虑到另一方的反应行为,并在这种考虑基础上进行自己的当前决策。这里我们讨论两个序贯博弈时的一个均衡例子。,序贯博弈,通过对下图博弈的分析,可以得知厂商1的最佳策略是 选择生产少糖型可乐,厂商2则生产多糖型可乐。 厂 商2 多糖型 少糖型 多糖型 -5,-5 10,20 少糖型 20,10 -5,-5 产品选择博弈,厂 商1,(二)首先行动优势 1.在序列博弈中,首先作出策略选择和采取行动的博弈 方可以占据有利地位,获得较多利益。 2.首先行动优势的原因在于它造成了一种既成事实,为 使利润最大化,另一方必须根据首先
28、行动一方的策略来选择 自己的策略.而且该模型表明信息较多的博弈方不一定能获 得较多的得益。,Player B,Player A,(U,L) and (D,R) are both Nash equilibriawhen this game is played simultaneouslyand we have no way of deciding whichequilibrium is more likely to occur.,L,R,U,D,(3,9),(0,0),(1,8),(2,1),序贯博弈,Player B,Player A,Suppose instead that the game
29、 is playedsequentially, with A leading and B following. We can rewrite the game in its extensive Form.,L,R,U,D,(3,9),(0,0),(1,8),(2,1),序贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,序贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,(U,L) is a
30、Nash equilibrium.,序贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,(U,L) is a Nash equilibrium. (D,R) is a Nash equilibrium.Which is more likely to occur?,序贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,If A plays U then B plays L; A gets 3.,序
31、贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,If A plays U then B plays L; A gets 3. If A plays D then B plays R; A gets 2.,序贯博弈,U,D,L,L,R,R,(3,9),(1,8),(0,0),(2,1),A,B,B,A plays first.B plays second.,If A plays U then B plays L; A gets 3. If A plays D then B plays R; A
32、 gets 2.So (U,L) is the likely Nash equilibrium.,序贯博弈,这种由结果反推局中人的最佳策略的方法叫逆向归纳(backword induction)法。 这种方法在博弈论中的应用非常普遍。,序贯博弈,Player B,Player A,This is our original example once more.Suppose again that play is simultaneous.We discovered that the game has two Nashequilibria; (U,L) and (D,R).,L,R,U,D,(3,
33、9),(0,0),(1,8),(2,1),纯策略博弈,Player B,Player A,Player As has been thought of as choosingto play either U or D, but no combination ofboth; that is, as playing purely U or D.U and D are Player As pure strategies (纯策略).,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纯策略博弈,Player B,Player A,Similarly, L and R are Player
34、 Bs purestrategies.,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纯策略博弈,Player B,Player A,Consequently, (U,L) and (D,R) are purestrategy Nash equilibria. Must every gamehave at least one pure strategy Nashequilibrium?,L,R,U,D,(3,9),(0,0),(1,8),(2,1),纯策略博弈,Player B,Player A,Here is a new game. Are there any purest
35、rategy Nash equilibria?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Player B,Player A,Is (U,L) a Nash equilibrium?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Player B,Player A,Is (U,L) a Nash equilibrium? No. Is (U,R) a Nash equilibrium?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Player B,Player A,Is (U,L) a Nash e
36、quilibrium? No. Is (U,R) a Nash equilibrium? No.Is (D,L) a Nash equilibrium?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Player B,Player A,Is (U,L) a Nash equilibrium? No. Is (U,R) a Nash equilibrium? No.Is (D,L) a Nash equilibrium? No.Is (D,R) a Nash equilibrium?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Pla
37、yer B,Player A,Is (U,L) a Nash equilibrium? No. Is (U,R) a Nash equilibrium? No.Is (D,L) a Nash equilibrium? No.Is (D,R) a Nash equilibrium? No.,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,Player B,Player A,在纯策略博弈时,不一定存在纳什均衡。 只有在混合策略博弈时,至少存在一个 纳什均衡。,(1,2),(0,4),(0,5),(3,2),U,D,L,R,纯策略博弈,第四节 不完全信息博弈: 静态与动态
38、分析,一.不完全信息静态博弈:贝叶斯均衡 贝叶斯均衡通常被描述为:在给定自己的类型和对手类 型的概率分布的情况下,每个参与者的期望效用达到了最大 化从而没有参与者愿意改变自己的行为或策略。 在下图的博弈中假定在位企业属于高成本类型的企业的 概率大于0.2,潜在企业选择进入才是最优的。 在位企业 在位企业 进 入 不进入 进 入 不进入 进 入 40,50 -10,0 进 入 30,100 -10,140 不进入 0,300 0,300 不进入 0,400 0,400 (a)高成本情况 (b)低成本情况 市场进入博弈,潜在企业,潜在企业,二.不完全信息动态博弈:精炼贝叶斯均衡 精炼贝叶斯(纳什)
39、均衡是不完全信息动态博弈的均衡 概念。 在市场进入博弈中,精炼贝叶斯均衡是:在位企业产品 定价较高,潜在企业推断其为高成本,选择进入;在位企业 产品定价较低,潜在企业推断其为低成本,选择不进入。,除了纯策略Up和Down之外,A可以选择一个概率分布(pU,1-pU),即A选择Up的概率是pU,选择Down的概率是1- pU。 在这样的情况下,A选择的是介于纯策略Up和纯策略Down之间的一个混合策略(mixed strategy),表示为:(pU, 1-pU) 。,混合策略博弈,类似地,B也可以选择概率分布 (pL, 1-pL) ,即介于纯策略Left和纯策略Right之间的混合策略。,混合策
40、略博弈,Player A,This game has no pure strategy Nash equilibria but it does have a Nash equilibrium in mixed strategies. How is it computed?,(1,2),(0,4),(0,5),(3,2),U,D,L,R,Player B,混合策略博弈,Player A,If B plays Left her expected payoff(预期报酬) is,(1,2),(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1-pL,Player B,混合策略
41、博弈,Player A,If B plays Left her expected payoff isIf B plays Right her expected payoff is,(1,2),(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1-pL,Player B,混合策略博弈,Player A,If,then,B would play only Left. But there are no Nash equilibria in which B plays only Left.,(1,2),(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1
42、-pL,Player B,混合策略博弈,Player A,If,then,B would play only Right. But there are no Nash equilibria in which B plays only Right.,(1,2),(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1-pL,Player B,混合策略博弈,Player A,So for there to exist a Nash equilibrium, Bmust be indifferent between playing Left orRight; i.e.,(1,2)
43、,(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1-pL,Player B,混合策略博弈,Player A,So for there to exist a Nash equilibrium, Bmust be indifferent between playing Left orRight; i.e.,(1,2),(0,4),(0,5),(3,2),U,pU,D,1-pU,L,pL,R,1-pL,Player B,混合策略博弈,Player A,So for there to exist a Nash equilibrium, Bmust be indifferen
44、t between playing Left orRight; i.e.,(1,2),(0,4),(0,5),(3,2),U,D,L,pL,R,1-pL,Player B,混合策略博弈,Player A,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,If A plays Up his expected payoff is,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,If A plays Up his expected payo
45、ff isIf A plays Down his expected payoff is,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,If,then A would play only Up.,But there are no Nash equilibria in which Aplays only Up.,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,If,Down. But there are no Nash equilib
46、ria in which A plays only Down.,then A would play only,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,So for there to exist a Nash equilibrium, Amust be indifferent between playing Up orDown; i.e.,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,So for there to exis
47、t a Nash equilibrium, Amust be indifferent between playing Up orDown; i.e.,(1,2),(0,4),(0,5),(3,2),L,pL,R,1-pL,U,D,Player B,混合策略博弈,Player A,So for there to exist a Nash equilibrium, Amust be indifferent between playing Up orDown; i.e.,(1,2),(0,4),(0,5),(3,2),L,R,U,D,Player B,混合策略博弈,Player B,Player A
48、,So the games only Nash equilibrium has Aplaying the mixed strategy (3/5, 2/5) and hasB playing the mixed strategy (3/4, 1/4).,(1,2),(0,4),(0,5),(3,2),U,D,L,R,混合策略博弈,Player B,Player A,The payoffs will be (1,2) with probability,(1,2),(0,4),(0,5),(3,2),U,D,L,R,9/20,混合策略博弈,Player B,Player A,The payoffs
49、 will be (0,4) with probability,(0,4),(0,5),(3,2),U,D,L,R,(1,2),9/20,3/20,混合策略博弈,Player B,Player A,The payoffs will be (0,5) with probability,(0,4),(0,5),U,D,L,R,(1,2),9/20,3/20,6/20,(3,2),混合策略博弈,Player B,Player A,The payoffs will be (3,2) with probability,(0,4),U,D,L,R,(1,2),9/20,3/20,(0,5),(3,2),6
50、/20,2/20,混合策略博弈,Player B,Player A,(0,4),U,D,L,R,(1,2),9/20,3/20,(0,5),(3,2),6/20,2/20,混合策略博弈,Player B,Player A,As expected Nash equilibrium payoff is,(0,4),U,D,L,R,(1,2),9/20,3/20,(0,5),(3,2),6/20,2/20,混合策略博弈,Player B,Player A,As expected Nash equilibrium payoff is,Bs expected Nash equilibrium payof
51、f is,(0,4),U,D,L,R,(1,2),9/20,3/20,(0,5),(3,2),6/20,2/20,混合策略博弈,如果一个博弈有有限个局中人,每个局中人有有限的纯策略,那么这个博弈至少有一个纳什均衡。 如果这个博弈没有纯策略纳什均衡,至少有一个混合策略纳什均衡。,混合策略博弈,我们现在回到开始时讨论的航空公司的价格联盟问题。 为方便讨论,我们假设只有两家航空公司:南航和东航。这两家公司的盟约是:上海始发航班散客票价最低不得低于8.5折。 这两家公司都有两个可能的策略:遵守盟约(即诚实)或不遵守盟约(即欺骗)。假设的报酬矩阵见下页。,重复博弈,H-honest C-Cheat,南航
52、,东航,我们知道,尽管(H,H)的报酬都较高,这个博弈的唯一纳什均衡是(C,C)。,重复博弈,单一博弈(one-shot game):两个局中人之间只博弈一次。前面的例子是一个典型的单一博弈的结果。在单一博弈中,合作是很难建立的。 重复博弈(repeated game):同样的局中人、同样的博弈重复进行多次。在重复博弈中,合作是可能的。,重复博弈,重复博弈可以促进合作(或诚实)主要是因为:现在的合作是为了以后的合作,或者说,对现在的不合作或欺骗的惩罚是以后的不合作。当合作的报酬大于不合作的报酬时,合作是一个较佳的策略。 在重复博弈中,重复博弈的次数可以是有限的数次,也可以是无数次。在这两种情况
53、下,结果是不同的。,重复博弈,如果重复博弈的次数是有限的数次,比如说5次,情况会怎么样呢? 我们先看最后一次博弈,因为博弈双方都知道这是最后一次,结果跟单一博弈时一样,即(C,C)。 第四次博弈时,双方知道以后不会有合作,所以最佳策略也是(C,C)。 如此反推,在第一次时也不会有合作。,重复博弈,只有在重复博弈次数无限的时候,合作才有可能。 如果你的对手现在选择C(欺骗),在以后的博弈你永远会选C。 只要博弈双方都在意以后的报酬,那么彼此都有积极性在当前博弈中选H。,重复博弈,重复博弈的机制,即所谓的“针锋相对”策略(tit-for-tat strategy),是: 在第一次博弈中,局中人一选
54、H; 在以后的每次博弈中,只要在前一次博弈中局中人二也是选H,局中人一继续选H; 一旦在前一次博弈中局中人二选了C,局中人一在当前博弈中肯定选C。 反之亦然。,重复博弈,声誉(reputation)的价值:如果你有诚实的名誉,你现在的合作伙伴很可能也会选择诚实,你就会享受合作的成果。推而广之,你的新的合作伙伴也有较大的可能性会选择诚实。 “It helps with your customers, suppliers, and employees. Your reputation is everything, and should be protected at any cost.” Davi
55、d Glass, CEO, Wal-Mart.,重复博弈,第一节 博弈的基本要素与分类,一.囚徒困境及博弈的基本要素 (一)囚徒困境 囚徒困境是博弈论中的一个著名案例,它简明地勾勒和刻画了博弈论的基本特征和博弈的基本要素。,(二)博弈的基本要素 1.参与者,或称博弈方:可以是一个、二个或多个;可 以是个人、厂商,也可以是国家 。 2.策略:是指博弈中的任一参加者针对其他参加者的可 能的行为所采取的行为原则和应对办法。 3.得益:是指博弈参与者所获得的收益或效用。 4.均衡:是指博弈的所有参与者从自我利益最大化出发 选择的策略所组成的策略集。 二.博弈的基本分类 (一)合作博弈和非合作博弈 1.
56、合作博弈:如果各博弈方能达成某种有约束力的契约 或协议(包括默契)以使他们选择共同的或联合的策略。 2.非合作博弈:反之,就属于非合作博弈。,(六)完全信息博弈和不完全信息博弈 1.完全信息博弈:是指每一参与者都拥有所有其他参 与者的特征、策略集及得益函数等方面的准确信息的博弈。 2.不完全信息博弈:是指参与者只了解上述信息中的 一部分的博弈。 将博弈的信息特征和行为时间特征结合起来,可以进一 步把博弈细分为下面四种类型的非合作博弈,得到四种均衡: 信息特征 完全信息 不完全信息 完全信息静态博弈 不完全信息静态博弈 纳什均衡 贝叶斯纳什均衡 完全信息动态博弈 不完全信息动态博弈 子博弈精炼纳什均衡 精炼贝叶斯纳什均衡 四种博弈及其相应的均衡,静态,动态,行动先后顺序,第二节 完全信息静态博弈,完全信息静态博弈中各博弈方同时决策,且所有博弈 方对博弈中的各种情况下的策略及其得益都完全了解的。 一.上策与纳什均衡 1.上策:是指对某博弈方来说,不管其他博弈方采取什么策 略,他所采取的能给他带来最大得益的策略。 下图博弈
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 导游证基础测试题(附答案)
- 2026年环境保护政策解读与实施路径试题
- 2026年克孜勒苏职业技术学院单招职业倾向性考试题库附答案详解(综合题)
- 2026年南阳科技职业学院单招综合素质考试题库含答案详解
- 2026年内江职业技术学院单招职业技能考试题库含答案详解(新)
- 2026年六盘水幼儿师范高等专科学校单招职业倾向性测试题库含答案详解(培优)
- 2026年内蒙古通辽市单招职业适应性测试题库带答案详解(预热题)
- 2026年北海职业学院单招职业技能考试题库附参考答案详解(典型题)
- 2026年南阳职业学院单招职业倾向性测试题库含答案详解(考试直接用)
- 2026年六盘水职业技术学院单招职业倾向性考试题库带答案详解(研优卷)
- 2026年安徽马鞍山市高三高考一模数学试卷试题(含答案详解)
- (2025年)一级人力资源管理师考试真题及答案
- 摄食训练技术
- 辽宁省大连市双基2025-2026学年上学期高三期末数学试卷(含答案)
- 备战高考:高三班级管理与激励策略
- 2026年湖南安全技术职业学院单招职业适应性考试题库及参考答案详解1套
- 透析患者的透析中并发症管理
- 新能源运维技术支持工程师职业规划指南
- 2026年山东经贸职业学院单招综合素质考试题库及完整答案详解1套
- 2025年10月自考13140财务会计中级试题及答案
- 老年人抑郁症宣教
评论
0/150
提交评论