(完整word版)博弈论知识点总结,推荐文档_第1页
(完整word版)博弈论知识点总结,推荐文档_第2页
(完整word版)博弈论知识点总结,推荐文档_第3页
(完整word版)博弈论知识点总结,推荐文档_第4页
(完整word版)博弈论知识点总结,推荐文档_第5页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、博弈论知识总结博弈论概述 :1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设:1、决策主体是理性的,最大化自己的收益。2、完全理性是共同知识3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期2、和博弈有关的变量:博弈参与人:博弈中选择行动以最大化自己受益的决策主体。行动:参与人的决策选择战略:参与人的行动规则, 即事件与决策主体行动之间的映射, 也是参与人行动的规则。 信息:参与人在博弈中的知识, 尤其是其他决策主体的战略、 收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付

2、函数有准确的了解;完美信息:在博 弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则 为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信 息,即存在着有关其他参与人的不确定性因素。支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。从经济学的角度讲, 博弈是决策主体之间的相互作用, 因此和传统个人决策存在着区别:3、博弈论与传统决策的区别:1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己效用,研究工具是无差异曲线。可表示为:maxU(P,I),其中 P 为市场价格, I 为消费者可支配收

3、入。2、其他消费者对个人的综合影响表示为一个参数市场价格,所以在市场价格既定下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在 博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。4、博弈的表示形式 :战略式博弈和扩展式博弈 战略式博弈 :是博弈问题的一种规范性描述,有时亦称标准式博弈。战略式博弈是一种假设每个参与人仅选择一次行动或战略, 并且参与人同时进行选 择的决策模型, 因此, 从本质上来讲战略式博弈是一种静态模型, 一般适用于描述不需 要考虑博弈进程的完全信息静态博弈问题。1、参与人集合1, 2,., n :2、每位参与人非空的战略集 Sin3、每位参与人定义

4、在战略组合si ( s1 ,., si ,., s n ) 上的效用函数 Ui(s1,s2,sn).扩展式博弈 :是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比, 扩展式博弈更注重对参与人在博弈过程中 遇到决策问题时序列结构的分析。包含要素:1、参与人集合1, 2,., n 2 、 参与人的行动顺序,即每个参与人在何时行动;3 、 序列结构:每个参与人行动时面临的决策问题,包括参与人行动时可供选择的 行动方案、所了解的信息;4、参与人的支付函数。比较 :1、战略式博弈从本质上来讲是一种静态模型。2、扩展式博弈从本质上来讲是一种动态模型。5、博弈论分类: 按决策主体的行为相互作用

5、时,当事人能否达成一个具有约束力的协议可分为: 1、合作博弈(强调团体理性、团体最优决策、效率) 2、非合作博弈(强调个人理性,个人最优决策) 按参与人行动先后顺序可分为:1、 静态博弈:博弈中参与人同时行动,或者虽然不是同时行动,但是在行动前不知 道其他参与人所选择的行动。2、 动态博弈:参与人的行动有先后顺序,后行动者获得先行动者的行动信息。 按参与人对信息的掌握程度可分为:1、完全信息:每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的 了解,博弈开始时不存在不确定性因素。2、 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不

6、确定性因素。按决策主体对信息的掌握程度和行动的先后顺序, 博弈可以分为: 完全信息静态博弈、 完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。静态动态完全信息完全信息静态博弈均衡:纳什均衡完全信息动态博弈 均衡:子博弈精炼纳什均衡不完全信息不完全信息静态博弈 均衡:贝叶斯纳什均衡不完全信息动态博弈 均衡:精炼贝叶斯纳什均衡6、根据所学这四种博弈的特点对这四种博弈做一个对比分析:类型信息和行动特点均衡均衡类型特别均衡求解方法学过的例子性质完全信 息静态 博弈每个参与人对其 他所有参与人的 特征、战略空间及 支付函数有精确 的了解,博弈开始 时不存在不确定 性因素,参与人同 时行动或者不

7、是 同时行动但是后 行动者不知道行 动者的行动信息。 战略和行动相同。纳什均 衡纯 战略 纳 什均衡 (PNE)占优战略纳 什均衡 (DSE)箭头法 划线法Hotelling 价格竞 争 库诺特价格竞争多重性和存 在性重复剔除的 占有均衡 (IFDE)不断剔除劣 战略(弱劣 战略的剔除 顺序会影响 均衡结果一般一个博弈中 存在参与者有多 个行动时可以先 考虑能否剔除弱 战略简化博弈混 合战 略 纳 什均 衡 (MNE)聚点均衡支付最大化 法 支付等值法社会福利博弈 小偷守卫博弈完全信 息动态 博弈在 博弈 开始之 前 参 与人 之间的 信 息 不存 在不确 定 性,但是参与人行 动存在先后顺序

8、。在 完全 信息动 态 博弈中,为了表示 参 与人 之间的 信 息掌握关系, 引入 了信息及的概念。子博弈 精炼纳 什均衡子 博弈 精 炼 纳什 均 衡有限次重复博弈均衡与纳什均衡 的唯一性有 关连锁店悖论1、 均 衡 结 果是原 博弈的 Nash 均 衡;2、 同 时 在 每一个 子博弈 上构成 Nash 均 衡无限次重复 博弈均衡 (无名氏定 理)与贴现因子 有关囚徒困境(冷酷 战略) 无限期轮流讨价 还价模型一般博弈逆向归纳法 求解斯坦科尔伯格寡 头竞争 雇主与公会之间 的竞争不完全 信息静 态博弈在 博弈 开始之 前 参 与人 之间的 信 息存在不确定性, 但 是参 与人同 时 行 动

9、或 者不是 同 时 行动 但是后 行 动 者不 知道行 动 者的行动信息。不 确定 是参与 人 的 了性 的不确 定 性贝叶斯 纳什均 衡贝 叶斯 纳 什均衡混合战略 (不完全信 息情况下纯 战略均衡的 极限)对原混合战 略加入少许 不确定性因 素,求极限。性别战1、均衡存在 性2、不确定性 体现为类型 的不确定性一般贝叶斯 均衡Harsanyi 转 换机制设计不完全 信息动 态博弈在博弈开始前参 与人之间的信息 存在不确定性, 同 时参与人行动存 在先后顺序。 不完 全信息动态博弈 过程不仅是参与 人选择行动的过 程,而且是参与人 不断修正信念的 过程。精炼贝 叶斯纳 什均衡信 号传 递 博

10、弈分离均衡根据所得信 息修正判断 概率,根据 收益最大化 决策信号传递博弈 不完全信息重复 博弈与声誉 Milgrom-Roberts 垄断限价模型不完全信息 动态博弈子 博弈精炼纳 什均衡与海 萨尼不完全 信息静态博 弈贝叶斯均 衡的结合。混同均衡准分离均衡二、四种博弈类型具体分述1、完全信息静态博弈1.1 完全信息静态博弈特点 :每个参与人对其他所有参与人的特征、战略空间及支付 函数有精确的了解,博弈开始时不存在不确定性因素,参与人同时行动或者不是同时行 动但是后行动者不知道行动者的行动信息。战略和行动相同。1.2 完全信静态博弈相关概念:以新产品开发博弈举例说明:参与人 :参与人 1 和

11、 2。参与人的集合卡表示为: =1,2,n.表示所有参与人的集合, 在新产品开发博弈中为: =1,2行动 :开发、不开发。Ai 表示参与人行动的集合。新产品开发博弈中参与人的行动集合为A1=A2=a,b, 其中 a为开发, b 为不开发。a=a1,a2an表示参与人的行动组合。新产品开发博弈中为:A=( a,a),(a,b),(b,a),(b,b)战略 :参与人的行动规则。在博弈中的战略可以定义为从观测集到行动集的映射关系,即:Si:Xi Ai。用 Si=si表示参与人所有战略的集合。在 n 人博弈中,用 S=(s1,s2,s3,sn)表示 n 个参与人的战略组合,它表示博弈中每个参与 人采取

12、战略 si 的一种博弈情形。在完全信息静态博弈中,由于不存在决策时序上的差异,所有参与人在同一决策时点即 博弈开始的那一时刻决策,因此,所有参与人面临的决策情形都只有一种,所以, 参与人的战略集与行动集相同。支付 :是指参与人在博弈中的所得。 一般情况下也是用效用函数来表示参与人在博弈中 的所得。 因此,参与人的支付就可表示为一种特定博弈情形下参与人得到的确定效用水平或 期望效用水平。 支付一般用 ui(1,2,n)表示参与人 i 的支付 (效用水平 ),支付组合 u=(u1,u2, un) 表示参与人在特定博弈情形下所得到的支付,其中为参与人 i 的支付。因此,参与人 i=(i=1,2,n)

13、的支付就可表示为: ui=ui(si,s-i).信息 :是参与人所具有的有关博弈的所有知识,如有关其它参与人行动或战略的知识、 有关参与人支付的知识等等。在“新产品开发博弈”中,如果两个企业都知道市场需求,那 么这样的博弈情形就是我们前面所提到的完全信息假设; 如果两个企业中至少有一个不知道 市场需求,那么这样的博弈情形就是我们前面所提到的不完全信息假设。1.3 纯战略纳什均衡纯战略 :参与人在给定信息下只选择一种特定(或确定性)的战略 混合战略: 混合战略解释了一个参与人对其他参与人所采取的行动的不确定性, 它描述了参 与人在给定信息下以某种概率分布随机地选择不同的行动或战略。 纯战略纳什均

14、衡中包括:占有均衡、重复剔除劣战略均衡、一般纯战略纳什均衡等。1、占优均衡占优战略: 参与人的最优战略 si *与其他参与人的选择 s-i 无关。无论其他参与人选择什 么战略,参与人的最优战略总是唯一的,这样的最优战略称之为“占优战略 ”。在 n 人博弈中,如果对于所有的其他参与人的选择s-i,si * 都是参与人 i 的最优选择*ui(si*,s i) ui(si,s i)则称 si * 为参与人的占优战略。在 n 人博弈中, 如果对所有参与人都存在占优战略 si * ,则占优战略组合 si*=( s1 * si2*, , sn * )称为占优战略均衡。如果所有参与人都有占优战略存在,那么占

15、优战略均衡就是唯一 的所有理性参与人可以预测到的博弈结果。2、重复剔除劣战略 如果在一个博弈中,参与人不存在占优战略,但是参与人i 存在两个战略,其中一ui(si ,s i) ui (si ,s i)个战略叫另一个战略的所得效用要大,则理性的参与人绝对不会选择战略。严格劣战略 :ui(si ,s i) ui(si ,s i)u(si ,s i ) u i (si ,s i )弱劣战略 :若重复剔除过程一直可持续到只剩下唯一的战略组合,则该战略组合即为重复剔除 的占优均衡,此时该博弈是重复剔除战略可解。要点:再重复剔除过程中,如果每次剔除的是严格劣战略,均衡结果与剔除顺序无 关;如果剔除的是弱劣

16、战略,均衡结果可能与剔除顺序有关。3、一般 Nash 均衡 Nash均衡是完全信息静态博弈的解的概念,在完全信息静态博弈中, 构成 Nash 均衡的战略是不可剔除的,即不存在任何一个战略严格优于 Nash 均衡战略。求解纳什均衡的方法 划线法、箭头法。划线法 :1、考察参与人 1 的最优战略2、用上述方法找出参与人 2 的最优战略3、找出最优战略组合箭头法:1、对于每个战略组合,检查是否有参与人会偏离这个战略组合2、直至找出没有参与人会偏离的战略组合 纯战略均衡反映函数 :各博弈方选择的纯策略对其他博弈方纯策略的反应。1.4 混合战略纳什均衡 混合战略: 在博弈 G ;S1,.,Sn;u1,.

17、,un 中,对任一参与人 i ,设Si=S i1, ,S i k, 则参与人i 的一个混合战略为定义在战略集 Si 上的一个概率分布 i= i 1, , i k, 其中 i j (j=1, ,k )表示参与人 i 选择战略 表示参与人 i 选择战略 Si 的概率的概率,即 i 满足 0 ij 1,其中概率之和为 1。支付:混合战略的支付为各种概率下收益的加权平均。 混合战略纳什均衡:在博弈 G ; S1,., Sn; u1 ,., un 中,混合战略组合 i= 1*, n* 为一个 Nash 均衡。 当且仅当 i , i i,有vi( i*, *i) vi( i, *i ) 。混合战略 Nas

18、h 均衡的求解:1. 支付最大化法;2. 支付等值法;混合战略均衡反映函数: 在混合策略的范畴内,博弈方的决策是选择概率分布,因此, 反应 函数就是一方对另一方选择的概率分布的反应。聚点均衡:在现实生活中, 参与人可能使用某些被博弈模型抽象掉的信息来达到一个 “聚点” 均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。不同均衡概念之间的关系:占优均衡 重复剔除劣战略均衡 纯战略纳什均衡 混合战略纳什均衡1.5 纳什均衡的多重性与存在性存在性:每个有限战略式博弈(参与人与相应的战略集均为有限) 必存在纳什均衡,这个均 衡可能是纯战略纳什均衡,也可能是混合战略纳什均衡。多重性: 一个博弈

19、可能有多个均衡, 博弈论并没有一个一般的理论证明, 哪一个纳什均衡结 果一定能出现。2、完全信息动态博弈2.1 完全信息动态博弈特点: 在博弈开始之前参与人之间的信息不存在不确定性,但是参 与人行动存在先后顺序。在完全信息动态博弈中,为了表示参与人之间的信息掌握关系,引入了信息及的概念。2.2 完全信息动态博弈有关概念:信息集 :信息集 Ii 是参与人 i 决策结的一个集合,它满足以下两个条件:1、 I i中的每个决策结都是参与人 i 的决策结;2、当博弈到达 I i 时,参与人 i 知道自己处在该信息集中的某个决策结,但不知道是哪 一个。在博弈树中,属于同一信息集的决策结一般用虚线连接起来。

20、结 :包括决策结和终点结两类。 决策结是参与人采取行动的点时点, 终点结是博弈行动路 径的终点。一个信息集可能只包含一个决策结, 也可能包含多个决策结。 如果只包含一个决策结 的信息集就是但单结信息集。如果博弈中所有信息集都是单结的则成为完美信息博弈。 子博弈 :是原博弈的一部分,它始于原博弈中一个单结信息集中的决策结 x,并由决策结 x 及其后续结共同组成。1、 子博弈可以作为一个独立的博弈进行分析,并且与原博弈具有相同的信息结构;2、 原博弈可以作为自身的一个子博弈;2.3 不完全信息静态博弈均衡子博弈精炼Nash 均衡:解决 Nash 均衡多重性问题的一种主要方法就是精炼的方法,即在Na

21、sh 均衡的基础上,通过定义更加合理的博弈解并剔除不合理的均衡。子博弈精炼纳什均衡的引入就是将那些包含不可置信威胁战略的纳什均衡从均衡中剔 除,从而给出动态博弈结果的一个合理预测。 即子博弈精炼纳什均衡要求均衡战略的行为规 则在每个信息集上都是最优的。扩展式博弈的战略组合s* (s1* ,., sn* ) ,是一个子博弈精炼 Nash均衡,当且仅当满足以下条件:1、是原博弈的 Nash 均衡2、在每一个子博弈上构成 Nash 均衡一个战略组合是子博弈精炼 Nash 均衡当且仅当它对所有的子博弈 ( 包括原博弈 ) 构成 Nash 均衡,同时也意味着原博弈的 Nash 均衡并不一定是子博弈精炼

22、Nash 均衡,除非它还 对所有子博弈构成 Nash 均衡。2.4 不完全信息静态博弈均衡求解逆推归纳法逆推归纳法是最常用的求解子博弈精炼 Nash 均衡的方法,其步骤为:其中 ( xi )代表博弈中由最底层到博弈起点的顺序,以(x3) 为最底层,则有:1、找出博弈的所有子博弈;2、 按照博弈进程的“反方向”逐一求解各个子博弈,即最先求解最底层的子博弈,再求解 上一层的子博弈, ,直至原博弈。由于逆推归纳法对各个子博弈逐一进行求解, 因此,逆推归纳法所得到的解在各子博弈 上构成 Nash均衡, 即意味着逆推归纳法所得的解为子博弈精炼纳什均衡2.5 完全信息动态博弈中承诺行动的均衡结果分析:承诺

23、行动: 就是在博弈开始之前参与人采取某种改变自己支付或战略空间的行动, 该行动使 原本不可信的威胁变得可信。但是参与人的承诺行动是有成本的,否则这种承诺就不可信。例子 : 要挟诉讼 要挟诉讼就是指那种原告几乎不可能胜诉而其惟一的目的是希望通过私了而得到一笔 赔偿的诉讼。 该博弈的结果为原告选择不指控, 博弈结束。 博弈的结果似乎与人们观测到的 现实并不相符,因为现实中人们常常看到各种“要挟”发生。在上述模型中, “要挟”之所 以没有成功,关键在于原告将会起诉的威胁并不可信。要是威胁变得可信, 就必须采取承诺行动 (沉没成本) 。这样参与人的威胁就会变得可 信,从而使其他博弈参与人改变策略。2.

24、6 重复博弈议题:1、将来可信的威胁或承诺如何影响到当前的行动2、在一次博弈中无法实现的均衡,在重复博弈中能否实现 有限次重复博弈 :对于给定的阶段博弈 G,令 G( T)表示 G重复进行 T次的有限重复博弈, 并且在下一次博弈开始前,所有以前博弈的进程都可被观测到。有限次重复博弈均衡结论 :如果阶段博弈 G有唯一的 Nash均衡,则对任意有限的 T,重复博弈 G(T) 有唯一的子博弈精炼解,即 G的 Nash 均衡结果在每一个阶段重复进行。而且在有限次重复博弈中, 如果在单阶段博弈中均衡解不只有一个, 则对将来行动所作 的可信威胁或承诺可以影响到当前的行动。无限次重复博弈: 给定一阶段博弈

25、G,令 G( , ) 表示相应的无限重复博弈, 其中 G将无限次的重复进行,且参与人的贴现率为 。对每个 t ,之前 t -1 次阶段博弈的结果在 t 阶段开始进行前都可以被观测到,每个参与人在G( , ) 中的收益都是该参与人在无限次的阶段博弈中所得收益的现值。无限次重复博弈的解无名氏定理:令 G为一个 n 人阶段博弈,令( e1,e2, ,en )为 G的一个 Nash 均衡下的收益,且用 (x1,x2, ,xn) 表示 G的其它任何可行收益,表示可行收益的集合。 若存在xi ei, 对 i,xi X则存在贴现率,使无限重复博弈G(, )存在一个子博弈精炼 Nash 均衡,其平均收益可达到

26、 (x1,x2, ,xn) 。无名氏定理的解释 :在无限次重复博弈中,如果参与人具有足够的耐心(只要 满足 一定的条件) ,那么任何满足个人理性的可行收益向量都可以通过一个特定的子博弈精炼 Nash 均衡得到。影响重复博弈结果的因素 :影响重复博弈结果的是重复的次数和信息的完备性。2.7 子博弈精炼 Nash 均衡与 Nash 均衡的区别: 由于子博弈精炼 Nash 均衡在任一决策结上都能给出最优决策,这也使得子博弈精炼纳 什均衡不仅在均衡路径 (即均衡战略组合所对应的路径 ) 上给出参与人的最优选择, 而且在非 均衡路径 ( 即除均衡路径以外的其它路径 ) 上也能给出参与人的最优选择。即子博

27、弈精炼 Nash均衡不会含有参与人在博弈进程中不合理的、不可置信的行动。3、不完全信息静态博弈3 1 不完全信息静态博弈特点: 在博弈开始之前参与人之间的信息存在不确定性,但是 参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。在不完全信息静态博弈中, 在博弈开始前存在关于博弈人信息的不确定性, 这个不确定 像通常是博弈参与人的类型。在市场进入博弈中不完全信息表现为:在位者的成本类型(高成本、低成本) 在斗鸡博弈中不完全信息表现为:参与人的性格类型(强硬,软弱)3.2 海萨尼转换由于在不完全信息静态博弈中, 参与人的类型存在不确定性, 所以当一个参与人并不知 道在与谁博弈时,

28、博弈的规则是无法定义的, 海萨尼提出了海萨尼转换解决这种不确定的问 题。解决方法 :海萨尼指出, 引入虚拟参与人自然, 由自然先决定参与人的不同类型, 将不完 全信息博弈转换为不完美信息博弈 。海萨尼通过引入“虚拟”参与人,将博弈的起始 点提前, 从而将原博弈中参与人的事前不确定性转变为博弈开始后的不确定性。这种通过引入“虚拟”参与人来处理不完全信息博弈问题的方法称为 Harsanyi 转换。 海萨尼转换注意要点: 1、海萨尼转换规定:参与人关于“自然”选择的推断为共同知识。2、“自然”的选择。在一般的不完全信息博弈问题中,Harsanyi 转换规定“自然”选择的是参与人的类型 (type)

29、。除了根据参与人的支付来划分参与人的类型以外, 还可以 根据参与人的行动空间, 甚至根据参与人掌握信息的多少 (或程度 )来划分参与人的类型。3、参与人关于“自然”选择的推断是基于自己类型判断的条件概率。3.3 不完全信息静态博弈均衡贝叶斯纳什均衡 贝叶斯博弈的定义:贝叶斯博弈包含以下五个要素:1、 参与人集合 B=1,2 , ,n2、 参与人的类型集合 T1, ,T23、参与人关于其他参与人类型的推断P1(t -1 |t 1) , ,Pn(t -1n|t n)4、参与人类型相依的行动集 A(t 1), , A(t n)5、参与人类型相依的支付函数贝叶斯博弈的战略 :在贝叶斯博弈 G= ;(T

30、i) ;( Pi );( A( t i );( ui (a(t);ti) 中,参与人 i 的一个战略是从参与人的类型集 Ti 到其行动集的一个函数 si(t i ) ;它包含 了当自然赋予 i 的类型为 ti时,i 将从可行的行动集 Ai(t i )中选择的行动。 贝叶斯博弈的时间顺序 :1、“自然”选择参与人的类型组合 t=(t 1, ,t n) 2、参与人同时选择行动,每个参与人i 从行动集 Ai(t i )中选择行动 ai(t i )3、参与人 i 得到 支付贝叶斯纳什均衡 :在贝叶斯博弈中,对于一个理性的参与人 i ,当他只知道自己的类型 ti 而不知道其他参与人的类型时,给定其他参与

31、人的战略s-i ,他将选择使自己期望效用(支付)最大化的行动 ai*(t i),其中ai (ti ) arg max vi (ai ,s i;ti )ai Ai (ti )贝叶斯博弈纳什均衡的存在性 :一个有限的贝叶斯博弈一定存在贝叶斯 Nash 均衡。3.4 贝叶斯博弈与混合战略均衡(关于混合战略纳什均衡的一个解释) 首先,混合策略均衡不是现实生活的一个合理描述,人们并不是根据概率分布来选择 自己行动;海萨尼证明,在完全信息情况下的混合策略均衡可以解释为不完全信息情况下 纯策略均衡的极限。混合策略的本质:混合策略的本质不在于参与人随机的选择行动,而在于他不能确定其他参与人将选择 什么纯策略,

32、这种不确定性可能来自于参与人不知道其他参与人的类型。海萨尼的基本思想: 只要在原来的博弈中加入少许不完全信息因素,使得参与人的支付函数中的收益不再 是确定的,而是和一个有范围的不确定参数有关,从而通过将混合战略均衡求解转换为贝 叶斯均衡的极限解,但是得到的纯战略贝叶斯均衡就与完全信息下的混合战略均衡相似。结论 :完全信息博弈的混合战略 Nash 均衡可以解释为与之密切相关、存在一点点非 完全信息的纯战略贝叶斯 Nash 均衡。同时海萨尼给出了描述混合策略和纯策略之间关系的 一个正式的定理:混合策略均衡的纯化定理。3.5 贝叶斯均衡 Eg: 机制设计问题 机制设计问题实际上就是探讨设计者如何向参

33、与人提供激励, 以促使参与人向设计 者透露其掌握的信息(说真话) ,从而确定对设计者有利的结果的问题。这一机制对 应于一个博弈形式, 设计者需要设计出一个博弈形式, 让参与人在这个博弈形式下进 行博弈从而实现他的目标。 博弈形式不同, 实现目标的程度也不一样, 设计者必须选 择对他来说是最有利的博弈形式,即最有利的机制。机制设计的基本模型:机制设计是典型的 3 阶段不完全信息博弈,期阶段如下:阶段 1:机制设计者 (委托人 )设计一种“机制”,或者“契约”,或者“激励方案”; 阶段 2:代理人选择接受或拒绝该机制,拒绝的代理人得到某个外生的“保留效 用”;阶段 3:接受机制的代理人选择自己的行

34、动 (或者战略 ) ,实现一个博弈结果。 机制设计模型中的有关概念 :参与约束:由于代理人在第二阶段总可以选择不接受该机制从而获得一个保留效用, 因此,代理人接受这个机制获得的效用必须不小于拒绝这个机制时获得的效用。 激励相容约束: 这意味着, 对于代理人而言, 代理人真实报告自己的类型时获得的效 用必须不小于谎报自己类型时获得的效用。可行机制:满足参与约束的机制被称为可行机制。 可实施机制:满足激励相容约束的机制称为可实施机制 可行的可实施机制:如果一个机制既满足参与约束,又满足激励相容约束。机制设计的目的:机制设计的目的就是要设计出可行的可实施机制, 从而在该机制中找出最优规则以追 求最大

35、化收益。4、不完全信息动态博弈4.1 不完全信息动态博弈特点: 在博弈开始之前参与人之间的信息存在不确定性,同时 参与人行动存在先后顺序。 不完全信息动态博弈过程不仅是参与人选择行动的过程, 而 且是参与人不断修正信念的过程。4.2 不完全信息动态博弈的有关概念类型 :是指参与者的类型。在不完全信息动态博弈中自然首先选择参与人的类型。 动态博弈:行动有先有后。所以后行动者可以观察到先行动者的行动信息,从而可以 修正自己对于参与人的类型的信息的判断。类型相依:参与者的行动传递着有关自己的类型的信息,对方可通过参与人的行动来 推断自己的最优行动。 先行动者预测到自己的行动被后行动者利用, 就会设法

36、传递对自 己最有利的信息。4.3 不完全信息动态博弈的纳什均衡精炼贝叶斯均衡对应于不完全信息动态博弈的纳什均衡称为精炼贝叶斯均衡; 精练贝叶斯均衡是泽 尔腾不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶斯均 衡的结合。1、不完全信息动态博弈均衡求解的基本思路: 不完全信息动态博弈将子博弈精炼 Nash 均衡中“均衡精炼”的思想应用到不完全信息 扩展式博弈中,但是有提前条件:1、对每个参与人 i ,在其信息集上给出关于自己位于该信息集中哪一个决策结的信念 ( 或推断 ) 。2、对参与人 i 的每个信息集,在给定参与人 i 在该信息集上的信念 ( 或推断 ) 情况下, 参与人的

37、战略是对其他参与人战略的一个最优反应。与静态博弈不同的是: 在观测到先行动者第一阶段选择后, 后行动者可以修正对先 行动者类型的先验概率, 因为先行动者的行动可能包含其类型的信息, 即行动就是类型 的反映,不同的行动反映不同的类型信息。 参与人最初对于对手类型信息概率的判断成为先验概率, 对于根据行动反映出得信息修 正后的概率成为后验概率。先验概率 (prior probability): 修正之前的判断; 后验概率 (posterior probability) :修正之后的判断 先验概率和后验概率的转化是根据贝叶斯法则计算:在不完全信息动态博弈博弈均衡解的求解过程中, 如果不可置信的威胁, 均衡就是 不合理的, 所以要对均衡结果精炼, 剔除那些不可置信的威胁。 从而引入子博弈精练纳 什均衡的概念, 但是,在不完全信息动态博弈中, 只有一个子博弈,不能将上述方法直 接用于求不完全信息动态博弈的均衡解。合理的均衡应该是满足: 给定每一个参与人有关其他参与人类型的后验信念, 参与人的 战略组合在每一个后续博弈上构成贝叶斯均衡, 我们将通过这种方式得到的纳什均衡称为精 炼贝叶斯纳什均衡。精炼贝叶斯均衡是贝叶斯均衡、 子博弈精炼纳什均衡和贝叶斯推断的结合, 精炼贝叶斯 均衡要求:1、 在每个信息集上,决策者必须有一个定义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论