




免费预览已结束,剩余197页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
博弈论基础,,本科生: 策略博弈2th,阿维纳什 迪克西特,苏珊 斯克丝 策略:博弈论导论。乔尔 沃森 博弈论基础罗伯特 吉本斯 博弈入门马丁 奥斯本 研究生: 博弈论d. 弗登博格,让 梯若尔 博弈论r. 迈尔森 博弈论教程m. 奥斯本,a. 鲁宾斯坦,参考书,在所有社会,人们经常互动。 有时,互动是合作,其他的时候,互动是竞争。 在这两种情况下,都可以用一个术语,即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。 相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。,1 概述,策略对于社会的运行来说,是非常基本的。 我们要学会了解在策略环境下,人们实际上是如何采取行动的,以及他们应该怎样采取行动。 相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。 这种系统的研究形成了应该策略互动的理论。,1 概述,这个理论在许多方面都是有用的。 首先,它提供了一种语言。 其次,它提供了应该框架,能够指导我们建立策略环境模型。 其三,它有助于我们追朔,对行为假设的逻辑推理过程。,1 概述,这个理论在许多方面都是有用的。 首先,它提供了一种语言。 其次,它提供了应该框架,能够指导我们建立策略环境模型。 其三,它有助于我们追朔,对行为假设的逻辑推理过程。,1 概述,好几百年前,数学家就开始研究室内游戏,试图构造最优的游戏策略。 在1713年,沃尔德格雷夫就某种纸牌游戏的解决方法,与他的同事德莫特和贝努利进行交流。沃尔德格雷夫的解决方法,与现代理论的结论相一致。,1 概述,在19世纪的前10年,古诺对寡头模型的均衡进行了研究。 而埃奇沃思解决了交易经济中的议价问题。,1 概述,1913年,关于博弈的第一个定理(关于象棋游戏的结论)被泽梅罗证明。 接着,博雷尔开创性地提出了“策略”的概念。,1 概述,博弈论发展的关键事件是1944年冯诺依曼和奥斯卡摩根斯坦的著作博弈论和经济行为的出版。此书奠定了该领域的基石。 接下去的几十年中,数学家和经济学家丰富了它的基础,逐步打造了社会科学最强大和最有影响力的工具箱之一。,1 概述,1994年诺贝尔奖颁给了,在20世纪50-70年代对博弈论做出了重大贡献的3位经济学家:约翰纳什,约翰海萨尼和莱茵哈特泽尔腾。,1 概述,接着荣膺诺贝尔经济学奖金桂冠的经济学家有,诸如信息和合约方面的专家-威廉维克里和詹姆斯米利斯(1996年)。,1 概述,还有2001年获奖的米歇尔斯彭斯,约瑟夫斯蒂克利茨和乔治阿克洛夫。,1 概述,目前,博弈论被许多来自不同领域的专业人士使用,这些领域包括经济学、政治学、法律、生物、国际关系哲学以及数学。 事实上,大多数情形即包含了冲突元素,也包含了合作的元素。我们对博弈的组成要有一个广义的理解。 简而言之,博弈是策略环境的正式描述。因此,博弈论是研究相互依赖情形的正式的方法论。这里,“正式”是指一种以数学化的精确,以及逻辑上的一致见长的结构。 利用正确的理论工具,我们可以研究各种情况下的行为,从而更好地理解经济中的相互作用。,1 概述,1.1 什么是博弈论? 博弈论帮助我们理解,决策者互动的情形。 creates a double record of bank transactions. bank reconciliation.,导言,2 扩展型,在数学上,有几种方法描述一个博弈: 1 博弈有一组参与人; 2 对于参与人可能采取的行动的完整描述(即它们的可行行动集); 3 对于参与人采取行动时,所知信息的描述; 4 对于参与人的行为将如何导致博弈结果的规定; 5 对于参与人对结果偏好的定义。,2 扩展型,迪斯尼工作室的虫子的一生和梦工场的蚂蚁。 卡曾伯格被迪斯尼的老板艾斯纳从派拉蒙招贤,以重振迪斯尼动画部。 卡氏于1994年8月辞职。不久,艾斯纳接受了提议,于是虫子的一生进入了制作阶段。 大概同时,卡氏与斯皮尔伯格等组建了梦工场。开始制作蚂蚁。 两个工作室是在决定制作两部影片之后,才得知对方的决定的。,2 扩展型,迪斯尼准备在1998年感恩节期间,发行虫子的一生。而这正是梦工场原定埃及艳后的上映时间。 梦工场于是决定,把埃及艳后推迟到圣诞节。争取在虫子的一生上映之前,让蚂蚁上映。 最后,蚂蚁为梦工场创造了超过0.9亿美元的利润,而虫子的一生确保了超过1.6亿美元的利润。,2 扩展型,让我们用一个数学模型讲述这个故事。为了把它转化成数学的抽象语言,我们必须对故事进行适当的简化和程式化。我们的目标应该是从中分析得出一两个策略要素。 这可以帮助我们从理论学者的角度,理解这个决策环境。,2 扩展型,k,e,k,k,f,g,h,l,m,l,s,p,n,p,n,p,n,r,n,a,b,c,d,e,我们可以用一个树状结构表示两个公司之间的互动。树状结构由节点和分支组成。节点表示事件的发生点,分支表示可以选择的不同的行为方案。我们用实心圆表示节点,用连接节点的箭头表示分支。这个树状结构称为扩展型表述。 a称为初始点,a,b,c,d,e称为决策点。f,g,h,l,m称为终止点。表示博弈的结果。,2 扩展型,k,e,k,k,f,g,h,l,m,l,s,p,n,p,n,p,n,r,n,a,b,c,d,e,我们用信息集来定义参与人在博弈中的决策节点所拥有的信息。有一些信息集只包括一个节点,例如在节点a,b。节点c,d则包含在一个信息集中。每个信息集只能做出一个决策。 而正如在故事中所说的,双方都不知道对方是否制作影片之前,决定制作自己的影片。虚线表示k知道自己处于这两个节点之一,但是不能区分自己处于c还是d。即k缺乏信息。,2 扩展型,k,k,k,40,110,13,120,0,140,80,0,0,0,l,s,p,n,p,n,p,n,r,n,a,b,c,d,e,e,参与人对于结果的偏好性。k是否更希望博弈终止点f而不是h上结束? 我们必须知道参与人关心什么,才能将终止点根据每个参与人的偏好排列。通常用数字表述参与人的偏好排序最为简便。这也称为支付(payoff),或者效用(utilities)。,2 扩展型,k,k,k,40,110,13,120,0,140,80,0,0,0,l,s,p,n,p,n,p,n,r,n,a,b,c,d,e,e,我们引入一些数学符号来考察博弈。 我们来看看一个市场博弈,两个厂商通过选择高价或者低价进行竞争。 我们用参与人i表示任何一个参与人的数字代码。即在一个有n个参与人的博弈中,i=1,2,n。 在某些博弈中,一个参与人可以在无限多个行动中进行选择。,2 扩展型,1,2,p,yes,no,p,100-p,0,0,一个简单的讨价还价模型,即最后通牒议价。假设1希望卖一幅画。 各方只有一次出价的机会。假设卖方先出价,买方2可以决定是否接受这个价格。 如果画没有成交,双方均一无所获。如果成交,卖方获得等于价格的收益,买方获得自己的价值。,2 扩展型,1,2,p,yes,no,p,100-p,0,0,1.1 什么是博弈论? 博弈论帮助我们理解,决策者互动的情形。 creates a double record of bank transactions. bank reconciliation.,导言,3 策略,策略是博弈中的一组参与人完整的相机的行动计划。 这里的“完整的相机计划”是对一个参与人行为的完整描述。它包含了它的每一个决策点上的行为。 因为信息集表示的是在博弈中各个参与人的决策点,所以,一个参与人的策略描述的是,在它的每个信息集中,它所做出的决策。,3 策略,例如,在下面的博弈中,你的策略必须包括在所有的节点,即a,c-d,以及e的信息集中,所有选择的行动。 即使你打算在节点a选择“留下”,你也必须对上述所有决策进行定义。,3 策略,k,k,k,40,110,13,120,0,140,80,0,0,0,l,s,p,n,p,n,p,n,r,n,a,b,c,d,e,e,例子:该图描述了一个简单的市场博弈。两个厂商为其生产的一种相同的产品,分别选择高价或者低价进行相互竞争。,3 策略,1,2,h,l,l,h,h,l,1,1,0,2,2,0,1/2,1/2,,正式地说,给定某个博弈。我们用si来表示参与人i的策略空间。也称为策略集合。即si包含了参与人i的每一个可能的策略集合。 对前一个博弈,参与人1的策略空间s1=h,l。而参与人2的策略空间是s2=hh,hl,lh,ll。 我们用小写字母表示单个策略(即这个集合中的一个元素),则si si是博弈中参与人i的一个策略。例如,s1=l,s2=lh。,3 策略,一个策略组合是关于策略的向量,每一项表示一个参与人。在研究一个有n个参与人的博弈。一个典型的策略组合就是这样一个向量,s=(s1,s2,sn)。其中si是参与人i的策略,i=1,2,n。 s表示策略组合的集合。在数学上表示为s=s1xs2xxsn。x表示笛卡尔乘积。如果s1=a,b,s2=x,y, 那么,s=s1xs2=a,x),(a,y),(b,x),(b,y)。,3 策略,举个例子,我们看下图的博弈。 s1=oa,ob,ia,ib,s2=o,i 请注意,在这个博弈中,参与人1的策略。不仅要定义它在开始时怎么做,还要定义在第二个信息集中,它将采取什么行动。 你可能会问,如果参与人1在博弈开始时选择退出,为什么它还要在第二个信息集中,决定该怎么做?,3 策略,2,1,1,i,i,o,o,a,b,2,2,1,3,3,4,4,2,原因一是,出于理性的研究,我们需要的是对于博弈中,任意一点的最优行动的明确评估。这种评估与参与人对彼此的信念有关。 原因而在于,万一参与人犯了错误,它们可能会需要一个意外状况下的计划。,3 策略,2,1,1,i,i,o,o,a,b,2,2,1,3,3,4,4,2,另外一个例子,在这个博弈树中, s1=u,d s2=ac,ae,bc,be s3=rp,rq,tp,tq,3 策略,1,3,9,2,5,2,4,4,0,5,4,3,0,0,u,d,a,b,r,t,p,q,2,2,2,2,1,2,2,6,3,2,c,e,p,q,3,2,4 标准型,标准型是另一种表示博弈的正式方法。在某些情况下,标准型更加简洁,可以优先使用。 对于一个用扩展型表示的博弈,每一个策略组合能够告诉我们,该博弈在博弈树中所遵循的路径。同时告诉我们,在博弈结束时,终止点是哪个。与每个终止点相对应的是,各个参与人的收益向量。 因此需要注意的是,每一个策略组合,给出了一个收益向量。,4 标准型,对于每一个参与人i,我们可以定义一个函数ui=s r (该函数的定义域是策略组合的集合,值域是实数)。 对于各个参与人所选择的每一个策略组合,ss,ui(s)是参与人i 在博弈中的收益。 这个函数ui称为参与人i的收益函数。,4 标准型,举个例子,我们看下图的博弈。 s1=oa,ob,ia,ib,s2=o,i 该博弈的策略组合是s=(oa,o),(oa,i),ob,o), (ob,i),(ia,o), (ia,i)(ib,o),(ib,i) 参与人i的收益是定义在s之上的。因此,当博弈采取策略组合s时,ui(s)给出了参与人i在博弈中的收益。 例如,u1=(oa,o)=2,u1(ia,i)=4,u2(ia,o)=3,4 标准型,2,1,1,i,i,o,o,a,b,2,2,1,3,3,4,4,2,对于各参与人具有的策略数量有限的两方博弈,表示各参与人的策略空间的一种简便方法,是画出它们的收益矩阵。 矩阵的每一行对应参与人1的一个策略。而每一列对应参与人2的一个策略。,4 标准型,囚徒的困境。 警察逮捕了两个嫌疑犯,警察拥有的证据只能证明他们犯了较轻的罪。 警察分别把他们关在不同的房间。每个囚犯都被要求高发另一个囚犯。告发对应于策略d(背叛),不告发对应于策略c(指合作)。 囚犯被告知,如果他们选择告发,将被免罪。他们的证据将被用于给对方定罪。如果他们都选择告发,他们都将入狱。但是他们的刑期由于合作将会较短。,4 标准型,局中人:两个嫌疑犯。 行动:每个嫌疑犯的行动集是沉默,告密 偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,沉默),(告密,告密),(沉默,告密);嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默),4 标准型,我们研究囚徒的困境的重要性,不在于想了解囚徒的动机,而在于许多其他的情形,都具有类似的结构。 每当两个局中人的任何一个,有两种选择。那么囚徒的困境模拟了局中人的情形。例如: 合作项目。,4 标准型,双寡头垄断。,4 标准型,公地悲剧。,4 标准型,在囚徒困境中,主要问题是局中人是否合作。在以下的博弈中,局中人同意合作好于不合作,但是他们在最好的结局上存在分歧。 局中人:两个朋友。 行动:每个嫌疑犯的行动集是沉默,告密 偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,沉默),(告密,告密),(沉默,告密);嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默),4 标准型,在囚徒困境中,主要问题是局中人是否合作。在以下的博弈中,局中人同意合作好于不合作,但是他们在最好的结局上存在分歧。 性别战。 局中人:两个朋友。 行动:两个朋友必须决定去看电影还是听歌剧。 偏好:他们都愿意待在一起。但是参与人1更喜欢歌剧,参与人2更喜欢电影。,4 标准型,斗鸡博弈。 局中人:鹰和鸽。 行动:保持原方向和转向。 偏好:如果他们都保持原方向,就会撞车。如果都转向,就都保住了面子。如果只有对方转向,就会被称为硬汉。,4 标准型,智猪博弈。 局中人:大猪和小猪。 行动:按下按钮和不按。 偏好:如果他们都保持原方向,就会撞车。如果都转向,就都保住了面子。如果只有对方转向,就会被称为硬汉。,4 标准型,5 信念、混合策略和期望效用,以后,我们将提出某些进行博弈的理性行为的概念。这些概念的基础想法,是通过某些过程,互相形成对方行为的信念。 因为我们的目的是,建立决策的数学模型,我们需要精确地表示一个参与人的信念。我们使用概率。 例如,参与人1的信念,是参与人2的策略的概率分布。 参与人1的信念是,参与人2以概率p选择c;以概率1-p选择d。,5 信念、混合策略和期望效用,让我们正式定义标准型概率的信念。在数学上,参与人i的一个信念,是其他参与人的策略的一个概率分布。我们用-i来表示这个概率分布。且有-is-i 。其中,s-i是指除了参与人i之外的所有其他参与人,所采取的策略的概率分布的集合。 例如,在两方博弈中(因此有-i=j),假设每一个参与人都有有限数量的策略。参与人i对参与人j所采取的行为的信念是一个函数-is-i ,其中,对于参与人j的每个策略sjsj,(sj)可以解释为,参与人i认为参与人j可能采取策略sj的概率。,5 信念、混合策略和期望效用,作为一个概率分布,-i具有这样的性质,对于每个sjsj,(sj) 0 ,且sjsj(sj) =1。 一个参与人的混合策略是指,他根据一个概率分布来选择策略行为。 正式地说,混合策略和信念是相似的概念,它们都是概率分布。我们一般表示参与人i的混合策略为is-i 。,5 信念、混合策略和期望效用,我们可以把效用函数的定义,通过一个期望值的概念,扩展到混合策略和信念中。 当参与人i对其他人的策略具有信念-i ,并计划选择si时,他的期望收益,等于他采取策略si ,而其他人根据-i采取行动时的“平均”收益。用数学表示为,5 信念、混合策略和期望效用,以下图的博弈为例。假设参与人1相信,有1/2的可能性参与人2采取策略l,有1/4的可能性采取策略m,有1/4的可能性采取策略r。即他的信念2满足2(l)=1/2,2(m)=1/4, 2(r)=1/4。这个信念的常用的简写方式是(1/2,1/4,1/4)。 如果参与人1选择u,那么他的期望收益是 u1(u,2)=(1/2)8+(1/4)0+(1/4)4)=5,5 信念、混合策略和期望效用,局中人:两个嫌疑犯。 行动:每个嫌疑犯的行动集是沉默,告密 偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,沉默),(告密,告密),(沉默,告密);嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默),5 信念、混合策略和期望效用,第二部分 静态行为分析,博弈论的要点在于,通过正式模型的使用,帮助我们理解在各种经济和社会环境中的策略要素。 这些环境包括市场结构、协议、公司之间的竞争、公司的内部组织、讨价还价、政治和普遍的关系。 所有这些环境的全面研究过于复杂。 因此,给定特定的环境,我们将试图将某些明确的特征,加入必要简化的模型,描述为一个博弈。 模型可以提供一个有用的框架,用它可以探索参与人的行为。,第二部分 静态行为分析,在我们的博弈论研究中,我们的目标有,解释和理解人们实际的行为,预测人们在特定的情况下如何行动,描述人们在特定的情况下应该如何行动。 第二部分介绍研究理性行为的基本工具。这些工具将策略和收益作为基础。即使用博弈的标准型设定。这里的分析可以很容易地应用于扩展型的设定。 此后,我们的分析建立在参与人都理解它们进行的博弈的假设的基础上。它们都了解该标准型。,第二部分 静态行为分析,本章讨论策略互动理论中最基本的两个概念:占优和最优反应。这两个概念是大部分关于理性行为的概念的基础。 占优。 观察下表的博弈。假设你是参与人1。策略u有一个有趣的特性,不管参与人2选择哪个,策略u都比策略d的收益绝对地高。 用专业术语说,我们称策略d劣于策略u。所以策略d永远不会被理性的参与人1采纳。 注意,对于参与人2来说,两个策略中,没有一个是劣策略。,6 占优与最优反应,在以下这个博弈中,参与人1的策略d是策略m的劣策略。即不管参与人2采取哪种策略,m给参与人1带来的收益都比d高。 但是,策略u不是m的劣策略。,6 占优与最优反应,下面的博弈有更加复杂的占优关系。对于参与人1而言,没有一个纯策略是另一个纯策略的劣策略。 但是,混合策略要优于d。考虑参与人1各以1/2的概率选择u和m,而以概率0选择d的策略。我们将这个策略表示为(1/2,1/2,0)。如果参与人2选择l,该混合策略给参与人1的收益为: 2=4(1/2)+0(1/2)+1(0) 参与人1采取d的收益更低。参与人2采取r时,结果也是一样的。因此,策略d要劣于混合策略(1/2,1/2,0) 。,6 占优与最优反应,占优的概念的正式定义如下: 对于参与人i的纯策略si,有策略(不管是纯策略还是混合策略) isi,如果对于其他参与人的所有策略组合s-is-i均能满足ui(i,s-i) ui(si,s-i),我们就称si劣于i。 检验一个策略是否是劣策略,最好的方法是首先确定它是否劣于另一个纯策略。例如,为了检验参与人1的某个策略是否占优于另一个策略,只需要逐列地比较收益矩阵中,代表这两个策略的两行。 如果一个策略并不劣于其他纯策略,那么你必须比较它是否劣于某个混合策略。,6 占优与最优反应,当涉及混合策略时,占优关系的检验就比较棘手。但是有几条诀窍: 首先要注意的是,有很多不同的混合策略可以尝试。 其次,在寻找混合策略时,先观察收益矩阵中,数字的变化规律。 第三,只需要找到某一个策略(不管是纯策略还是混合策略)即可。 最后,要确定你所检验的收益数字是正确的。,6 占优与最优反应,第一类策略矛盾和囚徒的困境。 在以下的囚徒的困境的博弈中,对两个参与人来说,策略c都劣于策略d。因此我们预测,他们都不会选择策略c,但是,如果人们都选择策略c,他们都会得到更好的结果。,6 占优与最优反应,囚徒的困境反映了策略环境的一个主要矛盾:个人利益与集体利益之间的冲突。双方都认识到他们都选择c时,共同得到更好的结果。但是,每个人都有个人的动机选择背叛。因为各个参与人是同时并且独立地选择他们的策略,因此个人的动机占了上风。 你甚至可以想象花了很多时间讨论采取(c,c)策略组合的优点,他们甚至达成了口头协议。但是当他们分开并采取行动时,没有一方有激励根据协议采取行动。强烈的个人动机将导致集体的损失。,6 占优与最优反应,关于利益冲突,我们简单地考虑两个相关的问题。 首先,要记住收益数字的含义。作为效用,这些数字只是表示个人的偏好。它们不一定表示利润或货币的数量。 其次,在真实的世界中,各个参与人有时选择相互之间,达成有法律约束力的合同。例如,参与人或许可以选择签订一份合同,约束他们都选择策略c。如果这样的选择是该策略环境的关键部分,我们应该将其纳入模型。 囚徒困境是一个被广泛讨论的博弈,并且为经济学、社会学、政治学、国际关系及哲学等研究领域,提供了加深认识的源泉。,6 占优与最优反应,效率的概念。 第一种策略矛盾与经济效率有关,这是一个重要的福利标准,可以用于对博弈中的行为进行评判。 假设我们想比较两个策略组合的结果,它们分别为s和s。如果所有的参与人,相当于s都更加偏好于采取s,而且至少对一个参与人是严格偏好,我们称s比s更有效率。 用数学表示,如果ui(s) ui(s),对每个参与人都成立,并且不等式至少对一个参与人是严格成立的,那么s就比s更有效率。,6 占优与最优反应,如果不存在其他更有效率的策略组合,我们就称这个策略组合s是有效的。 即对于每一个参与人i来说,不存在其他策略组合s,对于每个参与人i都满足ui(s) ui(s) ,同时对某个参与人来说uj(s) uj(s) 。帕累托有效表示的是同一个意思。 在囚徒的困境中,(c,c)比(d,d)更有效率。而且,(c,c), (c,d),(d,c)都是有效的策略组合。,6 占优与最优反应,最优反应。 理性人会避免采取劣策略的假设似乎是合理的。占优是一个具有很好描述性和说明性的概念。但是,这仅仅是我们展开行为理论的开端。 实际上,在大多数博弈中,参与人具有超过一个非劣策略。这时,人们无法根据占优的标准,预测参与人会采取怎样的行动。,6 占优与最优反应,理性人会思考其他参与人可能采取的行动。即人们会形成对彼此行为的一种信念。在决定自己的策略之前,先对其他参与人的行为形成观点是明智的。 为了使期望获得的收益最大化,我们假定这是理性行为的标志,你应该选择与你的信念相对应,从而能够产生最大期望的策略。这样一个策略就称为最优反应。 正式地有: 假设参与人i对其他参与人采取的策略具有信念-is-i,如果对于任何sisi,参与人i的策略sisi都满足 ui(si, -i)ui(si, -i ),那么,si是一个最优反应。,6 占优与最优反应,在某个信念下,可能有超过一个最优反应。不难证明,在一个有限博弈中,每个信念至少对应一个最优反应。 对于参与人i的每个信念-i,我们将最优反应的集合表示为bri(-i)。 例如,假设参与人1对参与人2的策略的信念为(1/3,1/2,1/6)。即相信参与人2有1/3的可能选择l。如果参与人1选择策略u,他所能期望的收益为(1/3)2+(1/2)0+(1/6)4=8/6。其他类推。如果选m,期望收益为7/6,如果选l,则为13/6。 因此,他的最优反应为策略d。我们得到br1(1/3,1/2,1/6)=d,6 占优与最优反应,假设参与人2对参与人1采取的策略,具有信念(1/2,1/4,1/4)。如果参与人2选择策略l,他所能期望的收益为(1/2)6+(1/4)3+(1/4)1=4。如果选择c,期望收益为13/4,如果选择l,则为4。 因此,他有两个最优反应,为策略l和r。 我们得到br2(1/2,1/4,1/4)=l,r,6 占优与最优反应,有一点需要理解的是,根据对其他参与人行动的信念,相应地采取最优反应策略本身,并不是一个策略行为。你可以把它看作是与理性有关的一种纯粹的计算练习。形成信念才是策略中的一个更加重要的部分。 有一点你必须很确定,采取行动最关键的部分是信念中包含的信息。事实上,博弈的真正艺术就在这里。,6 占优与最优反应,7 可理性化和重复占优,占优和最优反应的概念是理性行为理论的基础。但是我们必须认识到,理性行为包含的不仅仅是避免采取劣策略。 实际上,明智的博弈参与人对博弈的基本概念很清晰,即一方的行动将影响另一方的收益,需要同时站在对方的立场考虑,从而对对方的行为做出聪明的估计。,7 可理性化和重复占优,在以下的博弈中,假设你是参与人1,你的两个策略中没有劣策略。因此你可以根据你对对方行动的信念,理性地选择策略a或b。 用p表示你认为对方会采取x,用q表示采取y,用1-p-q表示采取z的概率。基于你的信念,你采取策略a获得的期望收益为3p+0q+0(1-p-q)=3p。你采取b的期望收益为0p+3q+1(1-p-q)= 1-p+2q。 因此,当3p1-p+2q时,你的最优反应是采取a。,7 可理性化和重复占优,当4p1+2q时,采取b。如果4p=1+2q,a和b都是最优反应。 假设你和你的竞争对手之间存在着这样的共同知识,即你们双方都是理性的,都对彼此之间进行的博弈有确切的了解。也就是说,你和他之间都知道描述这一博弈的收益矩阵。他知道你知道,你知道他知道,他知道你知道他知道,如此类推。,7 可理性化和重复占优,面对一个理性的对手,你采取策略a是理性行为吗?事实上,这个策略完全不理性。设想你处于参与人2的位置。他的策略x是严格劣于y的。因此,他不会采取x。知道这一点,你应该认为他采取策略x的概率为0。因此你可以划去矩阵中,对应x策略的那一列。 而在这个简化的博弈中,你的策略a是一个劣于b的。因此我们可以划去a的那行。 你的对手知道你知道他不会采取x,在认定你是理性的情况下,他推断你不会采取策略a。在认为你采取b的概率为1的情况下,他的最优反应是采取z。,7 可理性化和重复占优,在各个参与人都是理性的情况下,导致的唯一结果是策略组合(b,z)。需要注意的是,我们这里预测的结果是绝对无效率的结果。如果采取策略组合(a,x),双方的境况都会更好一些。但是,没有一方有这样做的兴趣。 以上阐述的方法称为严格劣策略的重复剔除法。简称重复占优法。 这里表述的是关于行为的一种简单明了的理论。每一个参与人都根据他拥有的信念,做出最优反应。这样,信念使得采取的策略理性化。而且在每一个参与人的信念中,也只有其他参与人理性化的策略,才会有正的概率。 因此,对于重复剔除后留下的策略集合,我们称之为可理性化的策略。即可理性化的策略指的是,通过反复剔除非最优反应策略而剩下的策略。 记住,可理性化的逻辑推理,依赖于博弈各方对理性和这一博弈拥有共同知识。,7 可理性化和重复占优,为了进一步理解可理性化的概念,我们看看以下博弈。首先,参与人2的策略l是严格劣的,因为策略l劣于混合策略(0,1/2,1/2)。在剔除l之后,参与人1的策略u严格劣于d,因此我们可以剔除u。 接着,参与人2的策略c劣于r,使得他最后只剩下一个可理性化的策略r。 最后参与人1的策略d劣于m,于是,可理性化的策略集合为(m,r)。,7 可理性化和重复占优,第二类策略矛盾。 可理性化只要求参与人的信念和行为,与理性的共同知识相一致。它并不要求他们的信念是正确的。因此我们又发现了博弈中的另一类矛盾,它称为策略不确定性。 事实上,缺乏策略的协调完全可能是合理的,它是一些现实事件的正确描述。 在某些博弈中,在策略不确定性和效率之间,也有直接的冲突。 (猎鹿博弈)两个猎人都想在有效的策略组合(鹿,鹿)中协同配合。但是如果参与人i认为另一方捕鹿的概率小于4/5,参与人i就应该捕兔。,4 标准型,策略不确定是生活的一部分。但是,在现实中同样存在着能够帮助我们,协调行为并防止无效率的工具。制度、规则、行为规范以及文化等等,常常能够促进社会的协调。 沟通也为协调行为提供了一个简单的方法。,7 可理性化和重复占优,9 一致策略和纳什均衡,可理性化的概念只包括了关于博弈各方对彼此了解,以及对自己的信念如何做出反应的简单假设。 这些假设是: (1)人们对其他人的行为会形成信念; (2)人们会对他们的信念做出最优反应; (3)这些事实是所有参与人的最优知识。 由于这个概念没有对人们的行为进行更多的假设,因此显得相当弱。尤其是,我们没有假设每一个参与人的信念,与其他参与人实际采取的策略相一致。,9 一致策略和纳什均衡,在很多情况下,可理性化策略是适当的行为概念。具体来说,如果参与人从来没有在一起协调他们的信念。在这种情况下,采用可理性化的概念是合理的。 在其他的情况下,策略的不确定性,可以通过不同的社会机制,例如准则、规范、以及参与人之间的沟通得以解决。 例如,沟通可以通过使信念与实际保持一致,以减少策略的不确定性。 历史因素也可以对信念和行为进行协调。,9 一致策略和纳什均衡,本章的重点是,研究当行动和信念由社会机制进行协调时的理性行为。基本思路是,通过一些社会力量,博弈中的行为得到协调,或者说达成一致。 一致性是指,在现实的重复进行的博弈中,或者在屡次进行互动的参与人之间,人们所采取的具有连贯性和规律性的行为。 一致性也可以指静态博弈中,由于沟通或者社会历史,使得每个参与人的信念和对方采取的策略之间得到协调而做出的行动。,9 一致策略和纳什均衡,关于一致性的概念,这里有三种不同的表述,分别适用于不同的情况。 (1) 有一个博弈在社会中,或者在一组经济人中反复出现。 (2) 在博弈进行之前,各个参与人进行碰面,就各自将要采取的策略达成协定。 (3) 一个外部的中间人向各个参与人推荐他们在博弈中采取特定的策略组合。,9 一致策略和纳什均衡,一致集合。 “一致性”所固有的性质是,各个参与人没有理由偏离所指定的决策路径。 于是我们可以认为,如果每一个参与人被指定的策略,都基于其他参与人采取被指定策略的信念,而做出的最优反应,那么这一组策略就是一致的。明确表述如下: 考虑一组策略组合的集合x=x1x2xn,其中对于每一个参与人i来说xisi。如果对于每一个参与人i以及每个策略sixi,都有一个信念-ix-i(即任何参与人i都只可能采取xi中的策略),使得它满足sibri(-i),那么我们就称集合x具有弱一致性。如果对于每一个参与人i以及每一个信念-ix-i ,都有bri(-i)xi,那么我们称集合x具有完备的最优反应。最后,如果x即具有弱一致性,又具有最优反应的完备性,我们就说它是一致的。,9 一致策略和纳什均衡,换句话说,如果xi中的每个策略相应于x-i都是可理性化的,那么x就是弱一致的。 如果xi包含了所有相对应于x-i的可理性化策略,那么它就是具有完备的最优反应。 如果xi不多不少只包含了如上所述的可理性化策略,它就是一致的。,9 一致策略和纳什均衡,考虑如下博弈,观察可知x=u,mxl,c是一致策略集合。 如果参与人1的信念认为,参与人2采取策略r的概率为0,那么他的策略d不会是一个最优反应。 除此之外,u和m都是可理性化的。因为它们是l和c取正概率值的信念的最优反应策略。同样的结论对参与人2的策略l和c也成立。它们是根据u和m的信念做出的最优反应。 在这个例子中,(d,r)也是弱一致的。因为d是r的最优反应,反过来也一样。但是,要注意的是,(d,r)不具有完备的最优反应,因为m也是r的最优反应。,9 一致策略和纳什均衡,纳什均衡。 上例可以证明,一致性并不意味着消除了策略的不确定性。 u,mxl,c是一致的,但是各参与人的策略,仍然存在不协调的可能性。 例如,如果参与人1在坚信参与人2会选择l的情况下,可能会选择u。而参与人2在认为参与人1选择u和m的可能性各为1/2时,可能会选择c。在这种情况下,各个参与人的信念与实际的选择,并不一致。,9 一致策略和纳什均衡,领会策略确定性思路的一个简单方法是,假定各个参与人在唯一策略组合上达成协调。 例如,人们相互之间要协商如何展开博弈,往往以采取某个特定的策略组合,作为简单的协定方式。把某个策略组合的协调性与弱一致性的概念结合起来,就可以得到一个很简单,但非常有力的行为理论。 这是摘取诺贝尔奖桂冠的约翰纳什,对博弈论领域的众多的贡献之一,纳什为博弈定义了一个均衡的概念,我们现在称之为纳什均衡,它确切地说是一个弱一致的策略组合。 最重要的一点是,纳什均衡没有策略的不确定性,即每个参与人对于其他参与人策略的信念,都集中在其他参与人实际将采取的策略上。,9 一致策略和纳什均衡,对于一个策略组合,当且仅当每一个参与人按照该组合采取的策略,都是对其他参与人的策略的最优反应时,该策略组合就是纳什均衡。正式的表述如下: 对于一个策略组合ss,当且仅当sibri(s-i)对于每个参与人i都成立时,我们称s为一个纳什均衡。也就是说,对于任何sisi及任何一个参与人i来说,都有ui(si,s-i)ui(si,s-i)。,9 一致策略和纳什均衡,例如,在囚徒的困境中,不管另一个参与人的策略如何,唯一的最优反应是采取策略d。 对于两个参与人,我们都有dbri(d)=d,因此策略组合d,d是囚徒困境的纳什均衡。,9 一致策略和纳什均衡,例如,性别战中有两个均衡,即(o,o)和(m,m)是两个纳什均衡。 如果朋友选择了o,那么o是唯一的最优反应。如果朋友选择了m,你的选择也应该与他的选择一样。,9 一致策略和纳什均衡,一般来说,在矩阵博弈中,纳什均衡不难找出。只需要寻找那些策略组合,它们满足每个参与人的策略都是其他参与人的策略的最优反应即可。 你可以对所有的策略组合逐一核对。或者,你还可以参与人1相当于参与人2的每个策略的最优反应,然后找出参与人2对于参与人1的所有策略的最优反应。 如果一个单元格中两个数字都有下划线,那么,它就是一个纳什均衡。因此,该博弈的纳什均衡有(k,x),(l,z)和(m,y)。,9 一致策略和纳什均衡,10 寡头、关税、犯罪与惩罚,纳什均衡的概念为使用博弈论的人们广泛应用。 纳什均衡对复杂的一致性概念,包括本书大部分内容来说,都是核心的概念。 本章包括一些应用纳什均衡概念的经典博弈。,10 寡头、关税、犯罪与惩罚,古诺双寡头模型。 假设两个厂商同时并且独立地选择产量,它们生产完全相同的产品。因此它们在市场上面临相同的需求曲线。 q=-p 其中0,0,q=q1+q2。 我们使用逆需求函数为p=a-bq。 作为实例,我们偶尔会考虑a=10,b=1的特殊情况。即逆需求函数为p=10-q。该需求曲线的图像为:,10 寡头、关税、犯罪与惩罚,p,q,10,10,0,现在假设每家公司的成本函数相同,并且单位成本不随产量而变化。即每家公司具有常数的边际成本函数:生产数量qi的成本为cqi。其中c0,i=1,2。 每家公司将生产多少?为了做出决策,每家公司必须采取两个步骤: 1. 对另一家公司的产量进行预测。 2. 决定生产的数量。,10 寡头、关税、犯罪与惩罚,本节我们将通过模型说明,(a)如何把一个问题的非正式化描述,转化为一个博弈的标准式表述。(b)如何通过计算解出博弈的纳什均衡。 令q1、q2分别表示企业1、2的同质产品的产量。 令p=a-bq 为市场出清时的价格。 设企业i生产qi的总成本ci(qi)=cqi,企业不存在固定成本,且生产每单位产品的边际成本为常数c。根据古诺的假定,两个企业同时进行产量决策。,10 寡头、关税、犯罪与惩罚,为了求出古诺博弈的纳什均衡,我们首先要将其化为标准式的博弈。博弈的标准式表述包含下列要素: (1)博弈的参与人;(2)每个参与人可以选择的战略;(3)针对某一个可能出现的参与人的战略组合,每一参与人的收益。 双寡头模型只有两个参与人。每一个企业可以选择的战略,是其产品的产量。我们假定产品是连续可分的。每一个企业的战略空间可以表示为si=0, )。其中一个战略si就是企业选择的产量qi0。 要全面表示一个博弈,并且求其均衡解,还需要把企业i的收益表示为两一个企业选择的策略的函数。我们假定企业的收益就是其利润额。在两个参与人的标准式博弈中,参与人i的收益ui(si,sj)就可以写为: i(qi,qj)=qip(qi+qj)-c=qia-b(qi+qj)-c,10 寡头、关税、犯罪与惩罚,在一个标准式的两方博弈中,一对战略(s1*,s2*)如果是纳什均衡,则对于每个参与人i,si*应该满足: ui(si*,sj*) ui(si,sj*) 上式对si中每一个可选战略si都成立。这一条件等价于,对每个参与人i,si*必须是以下最优化问题的解: 在古诺双寡头模型模型中,上面的条件可以具体表述为,一对产出组合(qi*,q2*)如果是纳什均衡,对每一个企业i,qi*应该为下列最优化问题的解:,10 寡头、关税、犯罪与惩罚,利润是二次函数,存在一个最大产量,表示为q1*,我们可以通过对该问题的一阶条件计算得到: a-c-bq2*=2bq1* 或者q1*=(a-c-bq2*)/2b。 让我们记这个最优反应函数为r1。对称的推理r2的最优反应函数也有:,10 寡头、关税、犯罪与惩罚,我们把这两个最优反应函数的图像进行合并。,10 寡头、关税、犯罪与惩罚,q2,q1,(a-c)/b,(a-c)/2b,(a-c)/b,(a-c)/2b,注意唯一的一对生产数量q1*和q2*,反应函数在该点相交。因此这是一对满足下列条件的产量: r2(q1*)=q2* r1(q2*)=q1* 换言之,这一对产量就是该博弈的古诺-纳什均衡。经过计算得出如下均衡的产量、价格和利润: 每家公司的生产数量 价格 每家公司的利润 (a-c)/3b (a/3)+(2c/3) (a-c)2/9b,10 寡头、关税、犯罪与惩罚,卡特尔解。 作为对比,如果两家公司如卡特尔一样运作,即如果它们对各自的生产决策进行协调我们来计算它们将生产的产量。如果两个公司共谋,可以合理地假设,它们以最大化它们的联合利润,设置它们的生产目标。它们预先指定生产“配额”为q1和q2,它们的选择是使得总利润最大化: 换言之,这一对产量就是该博弈的古诺-纳什均衡。经过计算得出如下均衡的产量、价格和利润:,10 寡头、关税、犯罪与惩罚,卡特尔解问题与最优反应问题之间的区别在于,在此两家公司明确主张它们的利润是由它们的总产量确定的。 使利润最大化的总产量也由一阶条件确定: a-c-2bq2=2bq1 a-c-2bq1=2bq2 这两个公式可以用来解卡特尔的产量、价格和利润: 每家公司的生产数量 价格 每家公司的利润 (a-c)/4b (a+c)/2 (a-c)2/8b 古诺纳什均衡: (a-c)/3b (a/3)+(2c/3) (a-c)2/9b,10 寡头、关税、犯罪与惩罚,卡特尔的产量、价格和利润: 每家公司的生产数量 价格 每家公司的利润 (a-c)/4b (a+c)/2 (a-c)2/8b 古诺-纳什均衡: (a-c)/3b (a/3)+(2c/3) (a-c)2/9b 注意,如果两家公司像卡特尔一样经营,它们的产量将会少一些。卡特尔产量是古诺-纳什均衡产量的75%。而在卡特尔的每家公司的利润较高。,10 寡头、关税、犯罪与惩罚,人们自然会提出一个问题,为什么两家公司不去通过削减产量增加利润呢? 如同囚徒困境一样,答案是对群体好的事情,对个体未必也好。如果公司试图像卡特尔那样生产,每家公司都将存在激励或者动机,欺骗对方,并在另一家公司蒙受损失的情况下,增加自己的利润。 实际上,如果公司2生产卡特尔的产量(a-c)/4b,由公司1的反应函数计算得出,公司1的最大化产量是3(a-c)/8b。 当q1增加而q2并不增加时,公司2毋庸置疑会变得更糟。因为,市场价格下跌了,而公司2销售了完全相同的数量。,10 寡头、关税、犯罪与惩罚,假如我们有规模为y的公共资源。两个参与人各可以瓜分一个非负量(c1和c2)用于消费。假设c1+c2y。 当总的消费量小于y时,剩余量y-(c1+c2)是未来消费的基础。在第二周期,他们平分余下的总量,每人得到y-(c1+c2)/2。 参与人1的最优反应问题是: maxc1 logc1+logy-(c1+c2)/2 由一阶条件,参与人1的最优反应数量为: 1/c1=1/y-(c1+c2) r1(c2)=(y-c2*)/2 代入反应函数,我们可以计算得到纳什均衡为: c1*=c2*=y/3,应用:公共问题,社会最优性。 两个参与人的效用之和最大化,即如果它们是下述问题的解: maxc1,c2 logc1+logc2+2logy-(c1+c2)/2 这种方法可以求得社会最优解为: c1*=c2*=y/4 注意,在这种情况下,正好一半资源用于第一个周期。与纳什均衡相比,那里用于第一个周期的资源,有2/3之多。在这个意义上,在纳什均衡中,我们对资源存在过度的榨取,即我们经受了公地悲剧。,应用:公共问题,11 混合策略纳什均衡,有些博弈并不存在纳什均衡。看看以下的赌便士游戏。在这个博弈中,没有稳定的策略组合。因为每个组合都有一个“赢家”和一个“输家”。 在赌便士游戏中,各个参与人随机采取策略是可行的。以1/2的概率选择每种纯策略看来似乎不错。事实上,这样的策略组合从混合策略的角度看是一个纳什均衡。 在对手以相同的概率选择h和t的情况下,该参与人选择策略h和t的收益是一样的。因此,他的所有策略都是最优反应。包括在h和t之间以相同的概率进行选择的混合策略。,11 混合策略纳什均衡,一般情况下,纳什均衡的概念可以扩展到混合策略。 一个混合策略纳什均衡,是具有这样特性的一个混合策略组合,在给定其他参与人的策略的情况下,没有参与人可以通过改变策略来增加自己的收益。 考虑策略组合=(1,2,n),其中对于每一个参与人i, isi。当且仅当ui(i,-i)ui(si,-i)对于任何sisi和每一个参与人i都成立时,组合是一个混合策略纳什均衡。也就是说,对于每一个参与人i来说,i是-i的最优反应。,11 混合策略纳什均衡,考虑两个公司之间的游说博弈。 游说的成本是15。如果两个公司进行游说,或者没有公司进行游说,每个公司都获得10。如果只有公司y进行游说,收益为30。如果只有x进行游说,收益为40。 可以证明这个博弈有两个纯策略纳什均衡,(n,l)和(l,n)。 除了这些纯策略均衡,还存在一个混合策略均衡。,11 混合策略纳什均衡,除了这些纯策略均衡,还存在一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【小升初真题】2025年陕西省榆林市吴堡县小升初数学试卷(含答案)
- 2025年无人机巡检缺陷识别提升城市绿化养护效率
- 2025年5G技术普及对城市交通的变革
- 淡水养殖主题餐厅经营创新创业项目商业计划书
- 2025年无人机城市环境监测技术创新与治理
- 森林火灾智能预警系统创新创业项目商业计划书
- 2025年5G技术对电子商务的影响
- 2025年文化遗产数字化保护与智慧旅游导览系统用户体验可行性研究
- 2025年5G技术的城市智能交通管理
- 2025年电焊工题库及答案
- 房屋验收记录表
- 大项目销售之如何测量控单力
- 星火英语六级词汇大全(带音标)
- 土地勘测定界技术方案
- 小学语文人教四年级上册第一单元《习作推荐一个好地方》
- 体育教学论-课件
- 医生岗位月度绩效考核表(KPI)
- 人教版数学四年级上册教学计划
- 一等奖课件:黄金分割
- 跨系学生矛盾纠纷处理流程图
- 小学数学苏教版六年级上册《长方体和正方体整理与复习》课件(公开课)
评论
0/150
提交评论