博弈理论知识讲义

上传人：追*** IP属地：河北上传时间：2025-11-04 格式：PDF 页数：54 大小：23.76MB 积分：12 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章博弈论

前面章节对经济人最优决策的讨论，是在简单环境下进行的，没有考虑经济人之间决策

相互影响的问题。本章讨论这个问题，建立复杂环境下论决策理论。开展这种研究的的理论叫

做博弈论，也称为对策论（GameTheoc，）。最近十几年来，博弈论在经济学中得到了广泛应用，

在揭示经济行为相互制约性质方面取得了重:大进展。大部分经济行为都可视作博弈的特殊情况,

比如把经济系统看成是一种博弈，把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的思想

精髓与方法，已成为经济分析基础的必要组成部分。

第一节博弈事例

博弈是一种日常现象，例如棋手下棋，双方都要根据对方的行动来决定自己的行动，双

方的目的都是要战胜对方，互不相容，互相影响，互相制约。一般来讲，博弈现象的特征表现

为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中，一方的行动取决于对方的

行动，每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时，

博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论，并把当事人叫做局

中人（player）。

博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的

情况下，追求收益最大化的局中人应该如何采取行动？显然，为了确定出可行的策略，每个局

中人都必须考虑其他局中人面临的问题。下面来举例说明。

例1.便士匹配（MatchingPennies）（二人零和博弈:

设博弈中有两个局中人甲和乙，每个局中人都有一决硬币，并且各自独立安排硬币是否

正面朝上。局中人的收益情况是这样的：如果两个局中人同时出示硬币正面或反面，那么甲赢

得1元，乙输掉1元；如果一个局中人出示硬币正面，另一个局中人出示硬币反面，那么甲输

掉1元，乙扁得1元。

对于这个博弈，每个局中人可选择的策略都有两种：

表1：便士匹配博弈局势表

正面朝上和反面朝上，即甲和乙的策略集合都是｛正面，

正面反面

反面｝。当甲和乙都作出选择时，博弈的局势就确定了。

显然，该博弈的局势集合是｛（正面，正面），（正面，反面），（反正面（正，正）（正,反）

面，正面），（反面，反面）｝,即各种可能的局势的全体，也称反面（反,正）（反，反）

为局势表，即表1。

每个局中人的收益都取决于所有局中人的决策，也就是说，局中人的收益是博弈局势的

函数。本例中，甲的收益函数/为：/（正，正）=1,

表2：甲和乙的收益表

，（正，反）=-1,/（反，正）=-1,/（反，反）=1；乙的收益函

正面反面

数g为：g（正，正）=-1,g（正，反）=1,g（反，正）=1,

g（反,反）=-1。局中人的收益函数也可用表格或矩阵加以正面1,-1-1,1

反面-i,11,-I

表示，并称其为收益表或收益矩阵。表2中，甲的收益列

在左边，乙的收益列在右边。

该博弈的特点在于每个局中人的收益都是另一个局中人的付出，即甲和乙的收益之和为

零，收支发生在局内，不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上，人们

喜欢把二人博弈的第一个局中人甲叫做“列”，第二个局中人乙叫做“行”，而且总是把列的收

益写在前面（即左边），行的收益写在后面（即右边）.

例2.囚徒难题（Prisoner'sDelimma）（二人变和博弈）

有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作，拒绝

供山任何犯罪事实；也可以选择背叛，供出对方的犯罪行径。这就是所谓的囚徒博弈，也叫做

囚徒难题。博弈的局中人甲和乙都有两种可选择的策略：合作与背叛。

囚徒博弈的意义在于它可以解释寡头垄断厂商的

表3：囚徒博弈局势表

行为，关键是赋予合作与背叛具体的经济含义。比如

在双头垄断的情况下，合作可以解释为“保持索要一合作背粉

个高价”，背叛可解释为“降价以争夺对手的市场工合作（合作，合作）（合作,背叛）

右表给出了囚徒博弈的局势表。

背叛（背叛.合作）（背叛，背叛）

局中人可以事先讨论这局博弈，但实际决策必须

独立地做出。如果甲采取合作策略，不供出乙的犯罪事实，那么乙就能得到3000元的收益。

同样，如果乙采取合作策略，那么甲就能得到3000元的收益。可见，如果甲乙双方都采取合

作策略，双方各得3000元收益。

但是，审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样，只要局中人选挎背叛，

他就会得到1000元鼓励，而不管另一个局中人会采取什么策略。

需要注意的是，囚徒博弈中的货币支付来自第三方一一局外人，这正是囚徒博弈同便士

匹配博弈的不同之处。奥曼（Aumann）1987年对囚徒博弈给出了一个特别简单的描述：每个局

中人都可以对仲裁人简单地宣告”给我1000元”或“给对方3000元”。

简单分析一下就会发现，如果一个局中人

表4：甲和乙的收益表

采取合作策略，而另一个局中人采取背叛策略，

那么采取合作策略的局中人的收益为零，而采合作背叛

取背叛策略的局中人的收益为4000元（3（）0（）元合作3000.30000,4000

收益再加I：1000元的背叛鼓励）。如果双方都

背粉4000.()1000.1000

采取背叛策略，则双方的收益各为1000元。表

4列出了甲乙双方的收益情况。从收益表可以看出，甲乙双方的收益之和不为零，而且收益和

是变化的。因此，囚徒博弈是一种变和博弈。

直觉上看，甲和乙都应采取合作策略（互不供出对方的犯罪事实），各得3000元收益。但

从收益表可以得出这样的结论：如果一个局中人认为另一个局中人将合作，从而他将得到3000

元收益，那么他若采取背叛策略，就将总共能获得4000元的收益；如果他认为另一个局中人

为了得到1000元鼓励而将背叛，那么他也就只好为了自己也取得1000元鼓励而采取背叛策略

（否则，他将一无所获）。总之，在收益最大化动机的驱使下，局中人的最优选择是背粉。这样

一来，甲乙双方都采取背叛策略，各得1000元收益；而不是都采取合作策略，各得3C00元。

这是一个典型的博弈悖论，问题的关键在于每个局中人都有背叛的鼓励，而不管其他局中人将

做什么。

例3.古诺博弈（双头垄断：产量较量）

法国经济学家古诺（Cournot）于1838年以天然矿泉井为例，首次建立了简单的双头垄断

博弈模型，其特点是，垄断厂商双方都天真地以为对方不会改变原有产量水平，双方都追求各

自利润最大化。古诺假定：①有两个天然矿泉在•起，分别为厂商甲和乙占有；②两个矿泉都

为自流井，生产成本为零，边际成本也为零；③甲和乙面对相同的需求曲线，采用相同的价格；

④双方都以为对方的产量水平不会改变。在这些假设前提下，甲和乙各自独立决定自己的产量

水平，以求利润最大化。

设户=。（。）是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为。1，乙的产量为。2

时，矿泉水的市场价格为P=*（Q]+。2），甲的利润町=PQ1，乙的利润为生=丝2,在应

个博弈中，甲乙双方的策略都表现为选转产量水平，局中人的收益即为厂商的舟润。当甲的产

量为2时，乙以为甲不会改变这一产量，而选择一个合适的产量水平以使自己的利涧叫达

到最大。同样，当乙的产品水平为。2时，甲以为乙不会改变这一产量，而选择一个合适而产

量水平5以使自己的利润可达到最大。

为了说明这个博弈的结果，假设甲乙双方面临的反需求函数尸=0（Q）=%-AQ。用表

示这局博弈中甲选择的最优产量，。2表示乙选择的最优产量水平，则甲乙各自的收益分别为

勺=（吊+k（Q1+Q2））Ql和42=（4+〃（。1+。2））。2。由于实现了利润最大化，因此

包=0,也=0

抽dQ2

解之得：当乙的产量水平为时，甲决定的产量水平为=（。0-。2）/2（这是甲对乙的反应

函数）；当甲的产量水平为Q1时，乙决定的产曷水平为2=（4-。。/2（这是乙对甲的反应

函数）。其中，。0=6"表示矿泉水市场容量（即价格为零时的矿泉水需求量）。进一步求解

可得：e,=e2=e（）/3,即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说

明，古诺博弈由每个局中人的决策（选定的产量水平）不但依赖于其他局中人的决策，而且与市

场的容量有关。

例4.贝特兰博弈（双头垄断：价格较量）

古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并

不如价格较量那么普遍，其头之间应该有激烈的价格竞争。不论市场价格如何，只要某一厂商

降低价格，而其他竞争对手保持原价格不变，那么降价厂商就能占有全部市场。这就是说，我

们假定消费者只从最低价格厂商那里购买产品。为此，法国经济学家贝特兰（Bertrand）于1883

年提出了以价格为选择策略的贝特兰博弈模型，反对古诺关于产量的博弈模型。

还以矿泉水为例，在贝特兰博弈模型中各厂商都预期对手不会改变价格，从而将刍己的

价格确定在利润最大化的水平之上。这就是说，贝特兰博弈的构建同古诺博弈相似，所不同的

是贝特兰博弈中局中人的策略是选择价格，而古诺博弈局中人的策略是选择产量水平。

贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数，不过现在价格是自变量，

产量为因变量（占诺模型正好相反）。设市场需求函数为。=D（P）,为了分析上简单起见，进

一步设Q=Qo-/^（这里，Q°=P0/k,b=\/k,即与古诺模型中的市场需求相同）。局中人的

收益仍是他所获得的利润0

如果甲和乙不相互勾结串通，当乙采取了价格水平P2时，甲认为乙不会改变这一价格水

平，从而为了占领市场而要采取低于乙的价格水平P2的价和G，于是甲的利润为勺=〃。（,），

乙的利润为零；同样，当甲采取了价格水平々时，乙认为甲不会改变这一价格水平，从而为

了占领市场而要采取低于甲的价格水平片的价格月，于是乙的利涧为乃2=8。（已），甲的利

润为零。

如果甲和乙相互勾结串通起来，采取相同的价格策略，即匕=鸟，那么甲和乙就能索要

一个垄断价格，并且每人可收取一半的垄断利润。

由此可见，甲和乙的利润函数分别为：

”7）（6）,当勺〈令时当尸]>?时

叼=勺（片，8）=]8。储）/2,当勺=P2时

町=町（6，£）=«A°（4）/2,当々=%时，

0,当外>2时0,当勺<令时

如果甲和乙勾结串通，合作起来，那么双方就能按照最大利润价格P=Q()/(2〃)获得垄断

价格，并且各得最大利润的一半。这里，利润最大化价格是按照

率=黑PG®2QL2bp=0

确定的。但是，占领市场的诱惑对每个局中人都存在，只要他稍微降价，他就能获得全部市场。

假如甲先进入该矿泉市场，那么甲就按照利润最大化价格$P」=Q_o/(2b)$获取最大利涧。继

而乙进入这个市场，且乙认为甲不会改变他的价格$P」$,于是乙为了夺取市场而采取低于甲

的价格水平A的一个价格。2(鸟〈6)。由于乙夺走了市场，甲同样又会采取低于乙的价格水

平尸,的价格乙，以夺同市场。这样不断往复下去，直至最后甲乙双方都把价格水平定为零时

才可达到均衡，此时双方的收益为零，市场各占一半(即甲的销售量0和乙的销售量。2相等，

且2=02=QO/2)。这就是甲乙双方不合作的结果，双方都变得更差。

以上分析表明：把贝特兰博弈与古诺博弈作比较，对同一市场来说，由于选择了不同的

策略集合(一个以产量作为策略，另一个以定价作为策略i，得出了不同的博弈结果，贝特兰博

弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零)，而古诺博弈的结果不

是这样；再把贝特兰博弈同囚徒难题博弈作比较，二者具有相似的结构，即局中人合作会取得

最好的结果，但利益的诱惑促使他们采取不合作的行动，致使双方博弈的结局都变得更差。

贝特兰博弈也可用囚徒博以来解释：合作是指两个厂商的勾结，背叛是指两个厂商独立

行动，没有勾结。合作，可以索要一个高的垄断价格；背叛，则导致市场价格为零，双方利润

为零。可见，双方合作起来，对两个厂商都有利，似乎成该合作。但博弈的最终结果是双方都

采取背叛策略，导致谁也得不到利润。

本节所举的这些事例说明，寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描

述和研究。实际上，经济学中大部分经济现象都可以作为博弈的特殊情形进行研究，比如历史

上解决竞争均衡的存在性这•经济学基本问题时，就把经济系统看成为•局博弈。

为了研究博弈，必须孤住博弈现象的基本要素，这些要素是：局中人、策略、收益。也

就是说，博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一

种策略后所获得的效用或利益，就是局中人的收益(payoffs),也叫做得失。我们假定每一个

局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益

函数为所有局中人所共知。当然，每个局中人都知道其他局中人掌握着这些信息和知识。局中

人的收益不但依赖于他自己的策略选择，而且依赖于其他局中人的策略选择。我们再假定每个

局中人在给定的主观信念下会选择收益最大化的行动，并且当新的信息根据贝叶斯规则到来时,

这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。

第二节策略博弈

为了能够正确地应用博弈论研究经济问题，需要对博弈加以准确地描述和定义。要定义

一个博弈，需要确定三件事情：一是局中人集合(seto「players),一是局中人的策略集合(set

ofstrategies),―•是局中人的收益函数(payofffunction)o这三件事情中,确定策略集合

是至关重要的。局中人以策略决定胜负，目标是使他的收益最大化。这种以策略定胜负的博弈，

称为策略博弈(gameofstrategy)。正象比较古诺博弈和贝特兰博弈时说明的问题•样，用博

弈论研究经济问题时，对于同一经济现象，由于选择了不同的策略集合，得到的博弈结果截然

不同。

用A表示博弈的局中人集合，儿表示局中人的策略集合，.。表示4的收益函数，

则G=（S.,/〃）a€A就表示了一个博弈。根据局中人的多少，博弈可分为二人博弈和多人博弈。

根据博弈的策略集合是否有限，博弈还又可分为有限博弈和无限博弈。例如，便士匹配和囚徒

难题都是有限博弈，而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和

是否固定，把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈（即收益总和为零的博弈）

和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类，通常称为矩险博弈。

本节以二人博弈为重点，介绍有关策略博弈的概念与理论。

策略表与收益矩阵

设二人博弈的局中人是甲和乙。甲有机种可选策略，策略表为乂=｛外4J；乙有〃

种可选策略，策略表为丫=｛%，当，…,孔｝。当甲采取策略七，乙采取策略当时，（勺,无）称

为博弈的局势，集合s=Xxy就是局势集合（局势表、局势矩阵），即

（为，y\）3,力）3,%)、

（小，力）32,%)

小，必）…

每个局中人选择自己的策略时，都要考虑对手的行动。这样每个局中人的收益不但与自

己的选择有关，而且与对手的选择有关，收益函数是定义在局势集合S上的函数，这里假定了

局中人的收益是可以用实数来都来计量的。用/表示局中人甲的收益函数，用g表示局中人

乙的收益函数。由于局势集合S是有限集合，收益函数f和g都可用矩阵加以表示，这些矩

阵就称为收益矩阵。记£4=/（厮,〃），g〃=g（匹,力），则甲和乙的收益矩阵分别为：

/=4）皿/八〃

当力/+«尸C（常数）。=1,2,…,=…时，该博弈就是常和博弈。否则，就是变和

博弈。局中人的策略与收益也可用收益表加以表达：

表1：博弈的收益表

一般情况下，二人博弈可表示成G=G2=（X,/;Rg）。但对于二人常和博弈，则可简单

地表示成G=5（c）=（x,y,/,c）,其中c.为收益的常数和。而矩阵博弈则可更简单地表示

成G=G?=（x,y,/）,或者直接用甲的收益矩阵/来表示矩阵博弈。

—.最小最大原理

局中人的目标是选择使自己收益最大化的策略，我们来分析局中人如何决策。假定甲乙

双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略力时，甲必然会采我相应

的某种策略芍，以求自己的收益最大，即选择此使下式成立：

fij=…、fmj]

但是，当甲不知道乙会采取什么策略时，如果甲是一个避险者，那么他必将作最坏的打

算，以求取得较好的效果。首先，甲要从收益表中找出自己的每一种策略.勺下至少可获得的

收益（即所能获得的最小收益），即先求解min{1]，-2,…J；”}a=1,2,…,〃?），然后从这些最小

收益策略中选择出收益最大的策略，即“从最小收益中选择最大收益”。从收益矩阵来看这个

决策过程，即甲首先选出自己的收益矩阵/的各行的最小值，然后从这些最小值中再选出最

大值：

maxminf—maxminf

ijl{IMB，”14J文u

这就是求解策略博弈的最小最大原理，其合理性表现为：如果甲采取按照最小最大原理确定的

策略，那么不论乙采取什么策略，甲都可至少得到这个最小最大收益。由此可见，最小最大原

理是能够确保局中人收益的一种原理。今后，我们把局中人甲按照最小最大原理所确定的策略,

叫做甲的稳妥策略，

对于局中人乙来说，池的决策行为和决策过程同甲是一样的，只不过乙要依赖于收益矩

阵g。乙决策的最小最大原理是：乙先选出收益矩阵g的各列的最小值，然后从这些最小值

中选出最大值：

maxming”=maxmin

jiIMjM"\<i^tr

局中人乙按照最小最大原理确定的策略，称为乙的稳妥簧略，

读者可能会问：甲先找出他的收益矩阵各列的最大道，然后再从这些最大值中选出最小

值，不也是一种很好的决贷办法吗？其实，这种决策办法叫做最大最小法，照此办法做出的决

策，在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最

大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略

（即,#）,那么当乙采用策略力时，甲可得到最大最小收益力八但是，若乙采用的不是黄略力,

而是策略以伙工力，那么甲如不重新选择他的收益矩阵第k列的最大值的话，他的最大最小

收益加就不一定能够达到，这正是最大最小法同最小最大原理的区别。

实际中，在甲不知道乙会采取什么策略的情况下选定了自己的策略以后，乙的策略才出

台，为甲也获悉了乙的这一行动时，甲很有可能来不及调整自己原定的策略，从而给甲带来一

定的损失。因此，最大最小法在保证局中人收益方面不如最小最大原理那么保险。

当甲和乙的稳妥策略都已选定时，二者结合起来能否成为博弈的结果呢？答案是未必。

请看下面二人零和博弈的事例。

例1.高度不确定的博弈

考虑二人博弈G2=（x,/；y,g）,甲的策略集合X=3，M}，乙的策略集合y={）%%}，

甲和乙的收益矩阵f和g通过博弈的收益表给出（见表2）。

对于甲来说，max,min//〃・=2：对于乙来说，maxjmiih期了=-3。这说明甲的桧妥策

略是X2，乙的稳妥策略是以°表2：甲和乙的收益表

但是，当甲采取孙时，乙采取力的收益幻2=-3小于采

取>1的收益g21=-1，因而乙要改用策略凹。在乙改用力后，X乃72

甲采取策略的收益力小于采取而的收益为因而

M1=2=4,X14,-41,-1

甲也要改用策略汨。而当甲改用由后，乙采用乃的收益

2,-23,-3

g“二T小于采用力的收益.2,于是乙又要改回到乃；在

乙改回到），2后，甲也要改回到收益最大的策略孙。这就让我们看到：当甲采取M时，乙要采

用巾；然后甲改用为，乙随之改用为；甲再改用心，乙又改用乃，如此不断往复下去，博

弈的结局是高度不确定的。

一般来讲，要想一个二人博弈G2=（x,/；y,g）具有确定的结局，必须存在这样的局势

Cv*,），*）wS=XxY：

/（滑,y*）=maxf（x,y*）

XGX

g（x*,y*）=maxg（",y）

满足这个条件的的局势（•色），*），叫做博弈G2的均衡或最优解或最优局势，其中的炉和产分

别叫做局中人甲和乙的最优策略或均衡策略。这个条件乜就叫做博弈的均衡条件。

对于二人常和博弈G2=（x,r,/）米说，（炉,济）是博弈的最优解当且仅当

/(.r*,y*)=max/(.r,y*)=min

xwXyer

数学中，满足这个条件的点（x*,y*）叫做函数/的鞍点。因此，（X*,），*）是博弈的最优解当且

仅当（N,），*）是收益函数/的鞍点。下面的定理给出了鞍点的判别条件。

鞍点定理.（产,）冰）是收益函数/:XxyfR的鞍点的充要条件是:

/(A*,y*)=maxmin/*,)，)=minmaxf(x,y)

xeXyeY

证明：必要性（n）.没（x*,y*）是/的鞍点，即/（.产,*）-max/（x,），*）-min。

XGXyeY

从min/(x,)，')<f(x,y)可知,minf(x,)，')<maxf(x\y)对一切(x,y)wXxy成立，这

y'cYy'eYVeX

就蕴含着maxminf(x,y)«minmaxf(x',y)»即maxminf(xyv)<minmaxf(x,y)o

.vex/eryeYMXxeXycYyeYXGX

注意，maxminf(x,y)>min/(%*,y)=f(x*,v*)=maxf(x,y*)>minmaxf(x,y)o这就

XGXyeryeYxwXyeYxwX

证明Tf(x*,y*)=maxminf(x,y)=minmaxf(x,v)o

xeXyeYyeYxwX

充分性(<=).设(x*,y*)eXxy满足f(分,y*)=maxmin/(x,y)=minmaxf(x,v)从

xwXyeYye/xeXo

/(x*,^*)=maxmin/(x,y)可知/(x*,y*)=minf(x*y)；从/(%*,)•)=minmax/。,y)可

xeXy^Yy^YyeYXGX

知/（代,y*）=max/（x,产）。所以，/（x*,），*）=max/（x,y*）=min/（%*,），），即（炉,）/）是函

xeXxeXye/

数/的鞍点。♦

既然二人常和博弈的最优解恰好就是收益函数的鞍点，鞍点定理告诉我们，当收益函数

的鞍点存在时，利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。

但是，当收益矩阵不存在鞍点时，常和博弈就没有最优解，博弈的结局就是高度不确定

的。鉴于此，我们将有鞍点的常和博弈称为严格确定的博弈。

三.反应函数

博弈G=（x,/、；y,g）的局中人总是要考虑对手的行动，然后确定自己的对策。当乙采取

了某种策略），£丫，而且被甲所觉察时，甲必然有所反应，要确定出相应的对策X£X以使自

己的收益/在乙选择y的情况下达到最大，即要使/（x,尸）=max{/（f,y）:x'wX}。甲对乙的

行动的这种反应，确定了个从乙的策略集合y到甲的策略集合X的映射0,即对任何），eV,

甲的反应策略x=（p［y）是按照/（x,y）=f（（p（y\y）=max{/（x',y）:feX卜来确定的。这个映射

夕：YfX就叫做甲对乙的反应函数。

同样的道理，可以确定出乙对甲的反应函数〃：XTV,即对任何xeX,y=〃Cv）是按

照g（x,y）=g（x,〃（切=mix{g（x,y）：）/wy}来确定的。

利用反应函数，我们也可以解释博弈的结局。就象古诺博弈一样，假如甲先采取某种策

略RWX,乙通过某种途径获悉了甲的这一行动，并认为甲不会改变他的策略，于是作出反

应，决定采取策略y=些（即），以使自己的收益最大化。当乙采取策略力时，甲掌握了这一信

息，并认为乙不会改变他的策略，于是作出反应，改变原来的策略，决定采用心=0（凹），以

求收益最大化。这时，乙再次对甲的行为作出反应，采取新策略），2=〃（4）。甲也再次对乙

的行动作出反应，采取新策略必=夕（"）。这样的反应不断下去，直到最后达到y=同用且

工=夕（），）时博弈实现了均衡，此时的局势《），）就是博弈的最优解（均衡、最优局势）。

综上所述，博弈的结局是实现均衡，并口均衡由甲乙双方的反应函数确定，即由方程组

（x=W、,）|7（代，）'*）=呻/*，）'*）

””决定。事实上，。*,产）是该方程组的解当且仅当…*、r€X、，而这

>'=W（x）'g（x*,），*）=maxg（x%y）

IyeY

正是博弈G实现均衡的含义。注意，以上关于反应函数的讨论，没有要求策略集合的有限性，

即集合x和y可以是任何集合。

下面考虑二人无限博弈的一种特殊情况：策略集合x和y都是实数区间。比如，本章第

一节例3中古诺博弈的局中人策略集合就是区间［0,+8）（半直线），例4中贝特兰博弈的局中

人策略集合也是半直线。假设局中人甲和乙的收益函数六xfR和g：yfR可微，则甲对

乙的反应函数x=0（），）由方程（一阶条件）嫄工,），）/法=0决定，乙对甲的反应函数y=3（x）由

方程（一阶条件）dg（x,），）"），=0决定，从而博弈的最优解就是如下方程组的解：

=0（甲对乙的反应函数x=e（y））

■（B）=0（乙对甲的反应函数），="（外）

例2.二人博弈的反应函数及最优解

设二人博弈中，甲和乙的策略集合x和y为x=y=［（）,+8）,收益函数/和g分别如下:

fix,y）=a}x+a2y+a3xy+aAx+a5y+a6

g（x,y）=bix+b2y+b3xy+b4x+b5y+b（t

求偏导数得方程组。由此可知局中人甲和乙的反应函数分别为

og（xyy）/dy=2b2y+b、x+b5

博弈的最优叫x*=（的%一2。4b2）］（43仇-a3b3）

），*=（a»仇-2。山5）/（4。山2-外庆）

四.策略选择的经济模拟

第一节中曾经指出，描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰

博弈，虽然二者的目的都是要模拟同一经济现象一一双头垄断，但二者的结构却很不同。古诺

博弈中厂商的策略是选择产量，厂商的收益是策略变量的连续函数；而贝特兰博弈中厂商的策

略是选择价格，厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡，究竟哪一种

是正确的呢？

如果抽象地看待这个问题，那么“哪一种模型正确”这样的提问并无什么意义。要回答

这个问题，就必须看模型试图模拟什么。不要问哪一种模型是正确的，而去问策略选择中什么

样的考虑是切入主题的，这样的提问可能会更加有益一些。比如，如果我们观察OPEC公司的

公告，就会发现OPEC企图为每一个员工决定产量配额，并且允许按照世界石油市场价格定价，

这样按照产量水平而不是按价格水平来模拟博弈策略，就可能更加合理。

在策略选择的经济模祖中还有另一方面的考虑，乃就是一旦对手的行为被观察到，那么

对手的策略应该是被承诺的或者是难以改变的。然而到目前为I匕所描述的博弈是“一次性”

(one-shot)博弈，其特点是一旦知道对手的行动，策略变量可以很快地进行调整。例如，假设

我为我的产品选择一个价格，然后发现我的对手制定了•个略低一些的价格，在这种情况下我

可以很快地调整我的价格。因此，尽管“一次性”博弈所描述的现象应该是发生在实际生活中

的现实，但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎

应该使用多阶段博弈，这样才能捕获到策略选择行为的所有可能的内容。

另一方面，如果我们史古诺博弈中的产量水平解释成为厂商的生产能力，那么一定产量

的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下，厂商一旦发现对手的产量

水平，而要改变厂商自己的产量水平，则可能是难以办到或非常昂贵的。生产能力或产量水平

似乎是厂商策略的天然选择，即使一次性博弈中也是这样。

同大部分经济模拟一样，在策略选择的经济模拟中，如果既要让博弈简单明了以便分析，

又要能够说明实际策略的迭接要素，那么如何表示博弈的策略选择，就是一项艺术。

第三节重复博弈

到目前为止，所谈论的博弈是一次性的。其实，任何博弈都可以一次一次地重复进行，

且每一次重复都不是简单地重复前一次的着法，而会考虑得比前一次更全面些，技法也会更高

些。就好像棋手下棋一样，一局结束了再开一局，前一局在某些看法上吃了亏，这一局中就会

吸取教训而加以注意，正所谓“吃--暂，长•智二反反复复地开局，给棋手不断积累经验，

让棋手的技艺越来越高。

通过博弈的重复进行，局中人的经验越来越丰富，这种经验源于博弈历史。实际上，重

复博弈中的每一点处，局中人决定自己的选择时会考虑到达该点之前的全部博弈历史，比如象

棋棋手在上一局中因出车慢而吃了亏，那么这一局中就会吸取前一局的教训而赶快把车开山来。

这样一来，重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大，也就

是说，博弈历史越长，局中人的策略空间越大，可以选择的着法越多。由于''我的对手会基于

我的选择历史而修正他的行为，我必须在做出自己的选择时考虑到这种影响”，所以，重及博

弈的结果不绝不是一次性博弈的简单重复。

例1.囚徒博弈的重复

我们以囚徒博弈为例，来分析重复博弈问题。囚徒博弈中，企图获得“(合作，合作)”

解是两个局中人的长期利益所在。对于每个局中人来说，可行的做法是试着给另一个局中人发

出“信号”以表明他的“善意”，并且在博弈一开始移动就进行合作。当然，背物是另一个局

中人的短期利益所在。如果他不合作而采取背叛策略，那么对方就可能失去耐心而从此以后永

远只实行背叛。这样一来，背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推

理可以得到的事实是，一个局中人目前的做法将在未来将得到回应一一其他局中人的未来选择

可能依赖于这个局中人当前的选择。

现在来分析一下“（合作，合作）”局势能否成为重复囚徒博弈的一个均衡。我们分两种

情况进行讨论，一种情况是有限次重及博弈，另一种情况是无限次重复博弈。

先讨论有限次重复博弈，为此假定每个局中人都知道博弈将重复一个固定的次数（比如

重及5次）。考虑最后一轮博弈实施之前局中人给予的推理，此时每个人都认为他们在进行一

次性博弈。由于这是最后一次移动，将来不会再有，因此均衡的标准逻辑推理便得以应用，其

结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动，这里似乎每个局中

人都重视合作，以向对方发出他是“好人”的信号，以便能在下一次以及最后一次移动中合作。

但是，我们已经看到，最后•次移动中双方都将采取背叛，因此在倒数第二次的移动中合作就

没有什么优势可言。采取合作是为了得到长期利益，为了在将来最后一次移动中得到回应。然

而，将来最后一次移动中并不能得到合作，双方都背叛了，结果倒数第二次移动中双方也只有

采取背叛。同理不断向后归纳（backwardsinduction）,结果最后一次移动之前的所有移动中，

合作并不能带来什么长期利益，没有什么优点，局中人惟有相信其他局中人将在最后一次移动

中背叛，用现在的善意企图去影响未来下一次的移动是无利可图的。因此，在重复某一司定次

数的囚徒难题重复博弈中，每一局博弈的均衡局势都是“（背叛，背叛）”，而不是“（合作，合

作）

再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时，情况就大不相同了。

此时，局中人在每一个阶段都知道博弈至少还要重复一次以上，因而合作大有前景，长期利益

在望。在这种无限次重复的囚徒博弈中，每个人的策略都是一个函数序列，它表明每个局中人

在每个阶段是选择合作还是选择背叛，都是作为此阶段之前博弈历史的函数。重复博弈中，局

中人的收益是各阶段收益的贴现值之总和一一贴现和（向时刻0贴现）。具体地说，设局中人在

时刻/的收益（即第/局重复中的收益）为〃/。=1,2,3,…），他在重复博弈中的收益就是贴现和

X慧应/（1+r）‘，其中，•为贴现率。只要贴现率不很高，囚徒博弈每一局重复的均衡局势便都

是“（合作，合作）”，每个人在各个阶段都会看到合作的利益。为了说明这个事实，我们采用

第一节例2提供的数据。

假设两个局中人一直合作，移动到了时刻丁。如果本次移动中一个人决定背叛，那么另

一个人会因本次移动中采取合作而未得收益，从而从下次以后永远采取背叛策略，给对方以惩

罚。第一个背叛者从本次开始，以后只能继续背叛（因为合作的收益为零），结果他虽然在本

次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自

己，他从背叛中得到的收益贴现和为a=4OOO+Z：=J00O/（l+r）”=4000+1000"元，另一

方面，如果他持续合作下去，永不背叛，那么对方也不会背叛，于是他从合作中得到的收益贴

现和为咫=3000+2久3000/（1+/）〃=3000+3000/r元。比较吊和R?可知，只要贴现系r<2,

就有K<宠2。这就说明，只要贴现率不很高，当一方背叛时，另一方也采取背叛给其以惩罚，

就能使背叛者偿其苦果。□此看来，只有双方互相合作下去。如有一方背叛，另一方就要执行

惩罚策略来使背叛者饱偿苦果，因而没有一方能够从背叛中会有收获。所以，在贴现率不很高

的情况下，囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。

以上论述实际上是很有力的，有一个称为弗尔克（Folk）的著名定理支持了这一论述。该

定理断言：在重复的囚徒博弈中，任何收益如果高于局中人双方一致背叛所能得到的收益，那

么都将被作为重复博弈均街而得到支持。上面我们还提到了惩罚策略，实际上这个策略可明确

叙述成：“在当前移动中合作，除非其他局中人在最后移动中背叛工采取这个策略的理由是，

如果一个局中人背叛，那么他将在收益上得到永久性惩罚。另外，上面论述中还涉及到了贴现

率，并要求贴现率不很高。实际上，当贴现率很高时，当前收益就是特别重要的，因为将来的

货币贬值太大了，现在的收益要抵得上将来收益的好几倍，因而当事人只好顾及当前收益，力

求当前收益越多越好，而把未来长远利益放在次要位置上。

下面再看一个双头垄断的重复博弈事例。

例2.维持卡特尔

考虑一个简单的重复双头垄断，如果两个厂商都执行古诺博弈均衡策略，则得到利润

（乃「不Q：如果以共同利润最大化决定产量水平，即执行卡特尔行动，则得到利润（肛〃，肛〃）。

我们知道，一次性博弈中共同利润最大化的产量不是博弈均衡，每个厂商都有激励去倾销额外

数量的产品，如果他认为其他厂商将保持产量不变的话。但是在重复博弈中，只要贴现率不太

高，合作起来以使共同利泡最大化之策略，将是重复博弈的最优解。

可以证明，如果这种简单的双头垄断博弈是一次性的，那么每个厂商以古诺产量生产将

是博弈的最优解。但是，如果这个博弈是不断重复的，那么每个厂商都采取按照卡特尔产量生

产的策略，即都选择合作，将是双头垄断重复博弈的最优解。对不合作的适当惩罚，是采取生

产古诺产量水平这一策略C可见，在不断重复的双头垄断博弈中，由于一次性博弈均衡这种惩

罚策略的存在，局中人都将以长远利益为重，来维持卡特尔。

第四节混合策略

并非所有博弈都有严格确定的结局。进一步，实际中博弈局中人常常希望自己的行动隐

秘不被暴露，不被对手觉囊。对于这两个问题，目前意义上的策略博弈是解决不了的。在博弈

非严格确定或者局中人希望保守秘密的情况下，局中人的最好做法是采取混合策略，即以•定

的概率采取某种策略。这样做，甚至连局中人自己也不知道每一次行动中究竟采取什么策略，

竞争对手就更不得而知广。而且对于非严格确定的博弈来说，采用混合策略就可求得最优解。

当一种混合策略以概率1选择某种策略时，这种策略就是前三节所谈论的“纯”策略，可见混

合策略扩展了策略概念。

混合策略的概念

我们以两人博弈为例，来对混合策略的概念以及采取混合策略时局中人的行动目标进行

解释。至于更一般的多人博弈，将在下一节中讨论。

设G=（S1J;S2，g）为有限二人策略博弈，其中=囱,月,…，襦｝为局中人甲的策略集合,

§2=0,4,…,4｝为乙的策略集合，/和g分别为甲和乙的收益函数。

局中人为了保持自己决策的秘密性，不再象以前那样选择纯策略，而决定采用随巩办法

来选择策略。也就是说，局中人对■纯策略的选择由某种随机装置来决定，对每个纯策略来说，

采用它只有可能性的大小，也就是用多大的概率来选择各个纯策略。这样，对方就不可能事先

知道究竟选择哪个纯策略，甚至连局中人自己也不可能事先知道，而纯策略是在最后时刻借助

随机装置选择出来的。通过借助随机装置，局中人原来对纯策略的选择变成为现在对各个纯策

略的概率大小的选择。

如果还嫌借助随机装置给出的选择各个纯策略的概率大小具有一定的客观性，怕被对方

估计出来，局中人还可进一步采取主观概率分布，以使对纯策略的选择带有真正的不确定性（参

见第六章关于主观概率的介绍)。

这种以某种概率选择的策略就是混合策略，更准确地说，选择混合策略就是选择一个概

率分布，然后按照这个分布给出的概率来选择各个纯策略。假如甲选择策略4的概率为左

(i=l,2,…,〃7)，=1，则向量工=3,八,代表着甲选择各种纯策略的概率分布，

实际上就表示了甲的一种混合策略。这就是说，混合策略是用概率分布x来表示的，混合策略

的变化完全反映为概率分布X的变化。今后，我们把概率分布“=(为,必,…,X,”)就称为局中人

甲的混合策略。

原来的纯策略M可看成是这样的一种混合策略：以概率1选择策略4，以概率0选择其

他策略匕仇",&=1,2「・,/〃)。如此一来，甲的策略集合由原来的纯策略集合&扩张成为混

合策略集合X={X€[01F：Z3Xi=l}。同样，局中人乙的选择集合也由原来的纯策略集合S2

扩张成为混合策略集合Y={yG[0,1:Z3乂=l}o当甲采取混合策略x,乙采取混合策略)，时,

3,)，)就称为博弈G的混合局势。

在采取混合策略的情况下，局中人的目标是要使预期收益最大化。当甲采取混合策略

xeX,乙采取混合策略)*丫时，甲和乙的预期收益分别为野和四：

ntntnn..

可=Ef(x,y)=N£Xiyjf(Si,Sj)=££为乃%=M几)yT=^fyT

r=lj=lf=ly=l

mnmit,、

/=ij=\i=ij=\

这里，X和)，都写成行向量形式，“T”为转置运算。甲的收益函数由原来的/：&xS2fR扩

充成为号：XxYTR,乙的收益函数由原来的g:S|x52TR扩充成为Eg:XXYtR。

在策略集色和收益函数都得到扩充四乒，原来的纯策略博弈G=(S,/;S2,g)就扩充成为

混合策略博弈G=(X,野;匕为)，而且G可看成是一般的二人博弈，不过这个博弈的收益函

数具有双线性性，即对于任何x,f,x"eX,)，,)/,)，"£儿及任何实数，£[()1],都成立：

野(川+(1T)x",)，)=旧(父,y)+(1T)野(Ky)

+(1-/)/)=例“)+(

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

博弈理论知识讲义

文档简介

温馨提示

最新文档

评论

博弈理论知识讲义

文档简介

温馨提示

最新文档

评论

相关文档