第十章 博弈论_第1页
第十章 博弈论_第2页
第十章 博弈论_第3页
第十章 博弈论_第4页
第十章 博弈论_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

田忌赛马 屡战屡败 田忌 上中下齐威王 上中下赢得比赛 田忌 下上中齐威王 上中下 第十章博弈论 要解决的问题 人们之间决策的相互作用 相互影响 学习目的与要求 1 了解博弈论的基本框架2 掌握完全信息静态博弈的基本分析方法3 熟悉完全信息动态博弈的分析思路4 了解不完全信息静态博弈 不完全信息动态博弈的有关知识 本章的地位与重要性 1 是经济学的基本分析方法 也是学习与研究其他学科的基本分析工具 2 是研究当行为人的决策互相影响时的有效分析工具 尤其是对寡头垄断厂商的行为的分析 内容与结构 第一节博弈论概述第二节完全信息静态博弈第三节完全信息动态博弈 一 博弈论的产生与发展二 博弈论的研究框架 第一节博弈论概述 一 主流经济学与博弈论 研究的对象经济资源的稀缺性选择与资源配置中心理论价格制度或市场机制基本假设前提 完全理性 完全信息 新古典经济学假设行为决策人是完全理性的 且具有与最优化相关的所有知识 信息 并能正确地运用这些知识来指导自己的行动 这一假定是主流经济学派理论体系的一个结构性支柱 它使经济学家们不顾现实世界的纷繁复杂 致力于对均衡和本质规律的研究 完全理性与有限理性 人的完全理性意味着 人有足够的信息 知识和计算能力 来确保实现自己的效用最大化 因此 理性假定意味着理性人能够运用数学工具描述人的 最大化 行为 对完全理性人的理解他们有一个很好定义的偏好 并能够按照即定的偏好进行选择 他们的选择受到预算约束 他们努力在约束条件下实现效用最大化 但事实上 现实中的人多数情况下处于有限理性状态 有限理性是指在处理信息 应付复杂情况和寻求理性目标中个人的能力是有限的 有限理性人是知识有限 信息有限的个人 在现实中也不是先知先觉 富有远见的理性人 他们不可能也不期望在复杂的环境中想得太远太多 他们不可能预测到将来发生的所有可能事件 并且针对它们做出详细的行动计划和分配方案 他们即使能够预测和做出计划的话 也没有一种人类语言能足够丰富和准确地描述它 完全信息 完全信息意味着信息是对称的 充分的 完全信息的人有足够的信息实现自己最大化行为 但现实的市场并不完全 如买卖双方的人数并不足够的多 信息也是不对称的 有限的人数意味着人们之间的行为是有直接影响的 所以一个人在决策时必须考虑对方的反应 这就是博弈论要研究的问题 信息不对称意味着任何一种有效的制度安排必须满足 激励相容 这就是信息经济学研究的问题 由于经济学和博弈论的研究模式是一样的 都强调个人理性 即追求给定条件下效用最大化 因此博弈论在经济学中得到了广泛的应用 对寡头理论 信息经济学等方面的发展做出了重要贡献 政策制订者的决策工具 社会经济问题的理论分析工具 解释经济中许多低效率现象的根源 找出各种经济问题的制度性 环境性原因 揭示各种经济行为和政策的效率意义等 严格的说 博弈论并不是经济学的一个分支 它是一种方法 用数学的知识来研究当理性人的决策相互影响时 他们是如何进行决策以获取最大收益的 其应用范围并不局限于经济学 还涉及到政治学 军事学 外交学甚至犯罪学等多个领域 博弈论是在1944年由冯 诺依曼和奥 摩根斯坦恩发表的 博弈论和经济行为 引入经济学的 合作型博弈在20世纪50年代达到了巅峰期 1950年和1951年纳什的两篇关于非合作博弈论的重要论文 彻底改变了人们对竞争和市场的看法 他证明了非合作博弈及其均衡解 并证明了均衡解的存在性 即著名的纳什均衡 1994年度的诺贝尔经济学奖授予三位从事对策论研究的经济学家 纳什 泽尔腾 海萨尼 在博弈论的演进过程中 以纳什 海萨尼 泽尔腾为代表的经济学家采用数学语言和公理性的方法来进行研究 成为博弈论的主流范式 2002年纳什与清华学子在一起 2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特 奥曼和美国人托马斯 谢林 以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解 托马斯 谢林独辟蹊径 开创了非数学博弈理论这一新的领域 进行了更加接近现实观察的分析 罗伯特 奥曼 托马斯 谢林 罗伯特 奥曼 1930年生于德国法兰克福 目前拥有以色列和美国双重国籍 1955年自麻省理工学院取得数学博士学位 现在以色列的希伯莱大学更改中心担任教授 奥曼是国际知名的博弈论专家 2002年与约翰 纳什一同被聘为山东青岛大学名誉教授 托马斯 谢林 1921年生于美国加利福尼亚州的奥克兰 1951年从哈佛大学取得经济学博士学位 他是马里兰大学经济系和公共政策学院荣退杰出教授 同时也是哈佛大学政治经济学荣退教授 2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特 奥曼和美国人托马斯 谢林 以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解 谢林独辟蹊径 开创了非数学博弈理论这一新的领域 他认为 博弈模型不可能表述双方或多方之间相互影响 决策主体的期望和行为的决定因素与其说是数学的 不如说是创造声誉 沿袭传统 建立自信 显示大度等经验 非数理博弈理论分析的就是这样一种状态下的社会和经济行为 行为者本身对其它人的反应也作为其他人的期望而影响其行为 他建构了一套概念框架来描述这种相互预期的困境 进行了接近现实观察的分析 同时承认了使用数学和不使用数学的博弈论以及博弈论理论家 奥曼使用非常艰深的数学来研究博弈论 谢林不使用数学也研究博弈论 两人因为数学而相互隔离 从未往来过 然而却殊途同归 一起走上了领奖台 2007年诺贝尔经济学奖 又是博弈论 瑞典皇家科学院10月15日宣布 将2007年诺贝尔经济学奖授予以美国经济学家赫维茨 马斯金 罗杰 迈尔森 以表彰他们为机制设计理论奠定基础 这是继1994年纳什 1996年莫里斯 2001年斯蒂格利茨 2005年谢林等因为信息经济学和博弈论而获奖之后 诺贝尔经济学奖再一次被博弈论的研究者所摘取 博弈论在当代经济学理论中的奠基性地位由此可见一斑 获奖者赫维茨今年已是90岁高龄 是自诺贝尔奖颁发以来年龄最高的获奖者 二 博弈论 GameTheory 的主要内容 又称为对策论或游戏论 是研究决策主体的行为直接相互作用时的决策以及这种决策的均衡问题 研究问题1 人们之间决策的相互作用 相互影响OPEC成员国选择石油产量寡头市场上厂商选择价格与产量 如CournotModel国家与国家之间 政治 外交 战争等的对抗 总统竞选 地区冲突 以巴局势 军备竞赛等研究问题2 决策的均衡问题制度安排资源配置的效率问题 静态博弈指的是在博弈中 参与人同时选择行动或虽非同时但后行动者并不知道前行动者采取了什么具体行动 动态博弈指的是参与人的行动有先后顺序 且后行动者能够观察到先行动者所选择的行动 完全信息指的是每一个参与人对所有其他参与人 对手 的特征 战略空间及支付函数有准确的知识 否则 就是不完全信息 注 合作博弈 cooperativegame 与非合作博弈 non cooperativegame 前者指博弈的当事人之间达成一个有约束力的协议 一 博弈中的基本概念二 占优均衡三 重复剔除的占优战略均衡四 纳什均衡五 混合战略纳什均衡 第二节完全信息静态博弈 一 博弈标准表达式 博弈论的基本概念包括 参与人 行动 信息 战略 支付函数 结果 均衡 博弈论的三要素 参与人 战略和支付 在每一个博弈中 都至少有两个参与者 每一个参与者都有一组可选择的策略 作为博弈的结局 每个参与者都得到各自的报酬 每一个参与者的报酬都是所有参与者各自所选择的策略的共同作用的结果 或者说是所有参与者所采用的策略的函数 报酬函数或支付函数 可以用一个支付矩阵来描述和分析一个博弈 所谓博弈均衡指博弈中的所有参与者都不想改变自己的策略的这样一种状态 二 占优战略均衡 囚徒A 坦白 不坦白 囚徒B 坦白 不坦白 囚徒困境 Prisoner sDilemma 无论其他参与者采取什么策略 某参与者的唯一的最优策略就是他的占优战略 dominantstrategy 博弈中的所有参与者的占优战略组合所构成的均衡就是占优战略均衡 equilibriumindominantstrategy 坦白 坦白 就成为囚徒困境的均衡 囚徒困境反映了个人理性与集体理性的冲突 厂商A 低价10 高价20 厂商B 低价10 高价20 练习 价格竞争策略 占优战略均衡 低价 低价 三 重复剔除的占优战略均衡 大猪 踩 等待 小猪 踩 等待 智猪博弈pigs payoffs 小猪的理性选择是 等待 那么大猪就会正确的预测到小猪的选择而将 等待 剔除 踩 等待 是该博弈的唯一均衡 智猪博弈 的结果 在博弈中 占优势的一方最终得到的结果 未必一定会占优 多劳未必多得 员工激励机制的设计 大猪的收益外部化 小猪不劳而获 免费搭了大猪的便车 首先 找出某一参与人的严格劣战略 无论其他博弈参与人采取什么战略 某一参与人可能采取的战略中 对自己严格不利的战略 将它剔除掉 重新构造一个不包括已剔除战略的新的博弈 然后继续剔除这个新的博弈中某一参与人的严格劣战略 直到剩下唯一的参与人战略组合为止 这个唯一剩下的参与人战略组合 就是博弈的均衡解 称为 重复剔除的占优战略均衡 游戏者BUV 游戏者 A X Y Z 练习 寻找占优战略均衡 四 纳什均衡 NashEquilibrium 在一个博弈中 只要每一个参与者都具有占优战略 那么该博弈就一定存在占优战略均衡 但是需要指出的是 在有的博弈中 并不存在占优战略 仍可以达到博弈均衡 女 看足球看电影 男 看足球 看电影 21 00 00 12 在一个纳什均衡里 任何一个参与者都不会改变自己的策略 如果其他参与者不改变策略 性别战 情侣博弈 思考 纳什均衡与占优战略均衡的关系 比较 占优战略均衡 我所做的 是不管你做什么我所能做的最好的 你所做的 是不管我做什么你所能做的最好的 纳什均衡 我所做的 是给定你所做的时我所能做的最好的 你所做的 是给定我所做的时你所能做的最好的 占优策略均衡是比纳什均衡更强的一个博弈均衡概念 占优策略均衡要求任何一个参与者对于其他参与者任何策略选择来说 其最优策略都是唯一的 而纳什均衡只要求任何一个参与者在其他参与者的策略选择给定的条件下 其选择的策略是最优的 所以 占优策略均衡一定是纳什均衡 而纳什均衡不一定就是占优策略均衡 重复剔除的占优战略均衡也一定是纳什均衡 举例 古诺均衡与卡特尔 假设双寡头垄断市场的需求函数为 Q 120 P 两个厂商的边际成本相等且为0在古诺模型中 我们可以求得 q1 q2 40 P 40 1 2 1600 3200在卡特尔的模型中 我们可以求得 q1 q2 30 P 60 1 2 1800 3600 结论 古诺均衡是纳什均衡 而卡特尔不是纳什均衡 个人理性与集体理性存在冲突 纳什均衡的结果对集体成员而言是一件坏事 但是对整个社会来说也许是一件好事 一种制度的安排要发生效力 必须是一种纳什均衡 否则这种制度安排便不能成立 例 市场进入阻挠 进入者 进入 不进入 在位者 默许 斗争 纳什均衡 纳什均衡是博弈的结局 在该均衡中每个局中人均不能因单方面改变自己的策略选择而获益 纳什均衡是一个僵局 给定别人不动的情况下 没有人有兴趣动 纳什均衡可以理解为一种具有自我强制力的协议 即这种协议没有外加力量保证实施却使每个参与者都自愿遵守 原因就在背叛协议无利可图 小偷 偷不偷 警察 抓 不抓 1 1 02 20 30 警察与小偷 五 混合战略纳什均衡 女 篮球音乐会 男 篮球 音乐会 31 00 00 13 性别战 情侣博弈 此博弈有两个纯战略纳什均衡 还有一个混合战略纳什均衡 男的以3 4的概率选择看篮球 以1 4的概率选择听音乐会 女的以1 4的概率选择看篮球 以3 4的概率选择听音乐会 证明 0 0 1 1 1 1 1 1 1 1 0 0 游戏者B石头剪子布 游戏者 A 石头 剪子 布 猜拳游戏 1 1 0 0 1 1 概念之间的关系 一 博弈扩展式表述二 有限次动态博弈三 子博弈精炼纳什均衡 第三节完全信息动态博弈 一 博弈的扩展式表述 博弈的扩展式表述给出每个战略的动态描述 谁在什么时候行动 每次行动时有些什么具体行动可供选择 以及知道些什么 具体来说 包括以下要素 参与人集合 参与人的行动顺序 参与人的战略选择空间 参与人的信息集 参与人的支付函数 外生事件的概率分布 重复博弈 在上面的分析中 所有的对局者仅对抗一次 不会重复进行 这是一种静态博弈 但是在现实中 同样结构的博弈可能要重复许多次 在对局可以多次重复的情况下 每个对局者在选择策略的时候 不仅需要考虑当前的对局 可能还要考虑当前选择的策略对于以后的对局将产生什么影响 如果囚徒困境博弈可以重复无限次 那么合作会导致理想的结果 重复博弈 走出囚徒的困境 不重复博弈 甲厂 乙厂 合作 不合作 不合作 1010 612 126 88 合作 厂商A 低价 高价 厂商B 低价 高价 产品定价博弈 在无限次重复博弈中 如果对方合作 本方也始终合作 如果对方不合作 本方也不合作 这种战略称为 针锋相对 或 以牙还牙 而有限次的重复博弈与一次性的博弈在本质上没有什么区别 如果参与者的行动有先后顺序 而且后行动的参与者在自己行动之前可以观测到先行动者的行动 并选择相应的战略 这种博弈被称为序列博弈 它是动态博弈的一种形式 二 有限次动态博弈 例 市场进入阻挠 进入者 进入 不进入 在位者 默许 打击 进入者 在位者 不进 进入 打击 默许 0 200 10 0 在位者 打击 默许 0 200 40 50 博弈扩展式表述 博弈树的构成 节点nodes 决策节点 decisionnodes 终点节 terminalnodes 树枝branches 每一条树枝代表一个行动 信息集informationsets 参与人在决策节点选择行动时 对此前博弈过程的一个全部而明确的认识就构成一个信息集 博弈树 市场进入博弈 进入者 进入 不进入 X X 在位者 在位者 默许 打击 默许 打击 40 50 10 0 0 200 0 200 纯战略纳什均衡 进入 默许 不进入 打击 进入 默许 不进入 打击 还是均衡解吗 NE 40 50 0 200 进入 默许 不进入 打击 0 200 不进入 打击 40 50 进入 默许 只有 进入 默许 才是稳定的结果 不进入 打击 是不可置信的 因为它依赖于一个不可置信的威胁 无论进入者进入还是不进入 在位者都将予以打击 在序列博弈中 原有的纳什均衡很难给出合理的答案 不进入 打击 是不可置信的斯塔克尔伯格模型的例子 先行者占优发展进一步的概念来分析动态博弈的均衡 动态博弈 惯序博弈 厂商A 脆 甜 厂商B 脆 甜 A 上 下 B 左 右 市场进入博弈 上 左 下 右 是两个纳什均衡 博弈扩展形式 A B B 1 3 2 上 下 左 右 右 左 2 2 2 1 1 0 3 1 威胁与承诺 威胁是否是可信的 厂商A 进入 不进入 厂商B 进入 不进入 例 市场进入博弈 市场进入的博弈扩展形式 博弈树 A B B 1 3 2 进 入 不 进 入 入 进 不 不 进 进 入 入 入 进 50 50 100 0 0 100 0 0 当A有先行者优势时 A的最佳选择是进入 而B的理性选择是不进入 不进入 进入 是不可置信的 定义 如果一个完全信息的动态博弈中 各博弈方的策略构成的一个策略组合满足 在整个动态博弈及它的所有子博弈中都构成纳什均衡 那么这个策略组合称为该动态博弈的一个子博弈完美纳什均衡 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法 Selten进一步完善了纳什均衡的概念 定义了子博弈完美纳什均衡 SPNE 用于区分动态博弈中的 合理纳什均衡 与 不合理纳什均衡 三 子博弈精炼纳什均衡 泽尔腾1965年提出了对纳什均衡概念的第一个最重要的改进 子博弈精炼纳什均衡 区分了 合理的纳什均衡 和 不合理的纳什均衡 剔除了不可置信威胁策略 子博弈一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结 包括终点结 组成的能自成一个博弈的原博弈的一部分 子博弈精炼纳什均衡扩展式博弈的战略组合是一个子博弈精炼纳什均衡 如果 1 它是原博弈的纳什均衡 2 它在每一个子博弈上给出纳什均衡 逆推归纳法 就是从动态博弈的最后一个子博弈开始分析 逐步向前倒推以求解动态博弈的方法 在一个动态博弈中 由他的一个决策结开始的后续博弈阶段就构成了原动态博弈的一个 子博弈 最后的子博弈变成 稳定的结果是 进入 默许 逆推归纳法的一个显著优点是 在每一个子博弈中排除不可信的许诺或威胁 子博弈完美精炼纳什均衡 SPNE 的中心意思就是排除掉均衡策略中不可信的威胁和承诺 因此是真正稳定的 它要求Player的决策在任何决策点上都是最优的 在许多情况下 SPNE也减少了NE的个数 这一点对预测非常有意义 乙 不借 0 0 借 甲 分 400 500 不分 乙 打 350 450 不打 100 1000 打官司成本100万元 平均分摊 乙 不借 0 0 借 甲 400 500 稳定的策略组合 乙 在第一阶段 借 如果甲不分 那么在第三阶段 打 甲 只要乙肯借 就 分 老年人 储蓄 挥霍 年轻人 赡养 不赡养 两个纳什均衡 储蓄 不赡养 挥霍 赡养 两代人之间有关储蓄的冲突 老年人 储蓄 年轻人 赡养 2 1 不赡养 1 1 挥霍 年轻人 赡养 3 1 不赡养 2 2 均衡 挥霍 赡养 对市场进入博弈 考虑如下假设 如果在位者事先投资100万于万一进入发生时增加产量和价格战所需要的额外的生产能力 这就意味着 不管怎样 这个额外成本都将减少在位者的利润 那么最终的均衡还是原来的 进入 默许 吗 竞争者A 进入 不进入 连锁店B 容忍 商战 连锁店悖论 不可信的威胁 竞争者A 进入 不进入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论