




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、双人零和博弈的概念零和博弈又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈,指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,一方收益多少,另一方就损失多少,所以博弈各方的收益和损失相加总和永远为“零”.双方不存在合作的可能.用通俗的话来讲也可以说是:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方在决策时都以自己的最大利益为目标,想尽一切办法以实现“损人利己”.零和博弈的结果是一方吃掉另一方,一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分.二、双人零和博弈的模型的建立建立双人零和博弈的模型,就是要根据对实际问题的叙述确定参与人(局中人)的策略集以及相应的收益矩阵(支付矩阵).我们记双人零和博弈中的两个局中人为A和B;局中人A的策略集为a,a,局中人B的策略集为b,b;c为局中人A采取策略a、局中人B采取策略b时A的收益(这时局中人B的收益为- c).则收益矩阵见下表 表1 局中人B局中人A 策 略 b b b 策略aaa c c c c c c c c c那么下面我们通过例子来说明双人零和博弈模型的建立:例1 甲、乙两名儿童玩猜拳游戏.游戏中双方同时分别或伸出拳头(代表石头)、或手掌(代表布)、或两个手指(代表剪刀).规则是剪刀赢布,布赢石头,石头赢剪刀,赢者得一分.若双方所出相同,算和局,均不得分.试列出对儿童甲的赢得矩阵.解 本例中儿童甲或乙均有三个策略:或出拳头,或出手掌,或出两个手指,根据例子中所述规则,可列出对儿童甲的赢得矩阵见表2. 表2甲 乙 石头 布 剪刀 石头 布 剪刀 0 -1 1 1 0 -1 -1 1 0例2 从一张红牌和一张黑牌中随机抽取一张,在对B保密情况下拿给A看,若A看到的是红牌,他可选择或掷硬币决定胜负,或让B猜.若选择掷硬币,当出现正面,A赢p元,出现反面,输q元;若让B猜,当B猜中是红牌,A输r元,反之B猜是黑牌,A赢s元.若A看到的是黑牌,他只能让B猜.当B猜中是黑牌,A输u元,反之B猜是红牌,A赢t元,试确定A、B各自的策略,建立支付矩阵.解 因A的赢得和损失分别是B的损失和赢得,故属二人零和博弈.为便于分析,可画出如图3的博弈树图.图3中,为随机点,分别为A和B的决策点,从图中看出A的策略有掷硬币和让B猜两种,B的策略有猜红和猜黑两种,据此可归纳出各种情况下A和B输赢值分析的表格,见表4. 图3 表4 B A 抽到红牌(1/2)抽到(1/2) 正面(1/2)反面(1/2)猜红 猜 黑猜红猜黑 猜红 猜黑 掷硬币 让B猜 P -r P s -q -r -q s t t -u -u对表4中各栏数字可以这样来理解:因让A看到红牌时或掷硬币或让B猜.若A决定选掷硬币这个策略,当出现正面,这时不管B猜红或猜黑,A都赢p元;当出现反面,不管B猜红或猜黑,A都输q元.同样A选择让B猜的策略后,他的输赢只同B猜红或猜黑有关,而与掷硬币的正反面无关.又若抽到的牌是黑牌,A的决定只能让B猜,因而掷硬币策略对A的胜负同样不起作用.考虑到抽牌时的红与黑的概率各为1/2,掷硬币时出现正反面的概率也各为1/2,故当A采取“掷硬币”策略,而B选择“猜红”策略时,A的期望赢得为:+=当A采取让B猜策略,B选择“猜红”策略时,A的期望赢得为:+=相应可求得其他策略对A的期望赢得值.由此可列出本例的收益矩阵,见表5.表5 猜 红 猜 黑 掷硬币 让B猜三、双人零和博弈的求解定理1(极小极大定理)在零和博弈中,对于给定的支付矩阵U,如果存在混合战略=(,)和=(,)以及一个常数v满足,对任意j有v,对任意的i有v,那么战略组合(,)为该博弈的Nash均衡.其中,v为参与人1在均衡中所得到的期望支付,亦称该博弈的值.这个极小极大定理,其基本思想就是:参与人1考虑到对方使自己支付最小的最优反应,从中选择使自己最好的策略.参与人2也遵循同样的思路,这样才能满足Nash均衡的互为最优反应的条件.这样我们就可以得到双人零和博弈Nash均衡的计算方法了,如以下定理定理2 对于给定的零和博弈,如果博弈的值v大于0,则博弈的Nash均衡(,)为以下对偶线性规划问题的解Min s.t. 1 (j=1,n) 0 (i=1,m)和Max s.t. 1 (i=1,m) 0 (j=1,n)其中,Nash均衡支付Nash均衡战略,由于此定理只适用于v大于0的情形,因此对于v小于等于0的情形,该定理所给出的方法需做适当的修改.命题 如果支付矩阵U=的每个元素都大于0,即0,那么博弈的值大于0,即v0.定理3 如果支付矩阵U=是由U=的每个元素都加上一个常数c得到,即,那么支付矩阵U和U所对应的零和博弈的Nash均衡战略相同,博弈的值相差c.根据以上定理,可以得到如下求解一般零和博弈Nash均衡的方法:(1) 若支付矩阵U中的所有元素都大于零,则可以直接根据定理进行计算;若支付矩阵U中有小于0的元素,可以通过加上一个常数使它们都大于0,然后再根据定理进行计算. (2) 求解定理中的两个对偶线性规划问题. 下面通过实例来说明如何求解双人零和博弈的Nash均衡.例3 求解下图中战略式博弈的Nash均衡. 参与人2 L M R 2,-2 1,-1 3,-3 2,-2 3,-3 1,-1 4,-4 2,-2 2,-2U参与人1 C D通 通过求解对偶线性规划问题求零和博弈的Nash均衡 解 根据前面的介绍,可知该博弈的支付矩阵为U=不难发现,该博弈的支付矩阵U=的每个元素都大于0,即0,那么博弈的值大于0,即v0.设参与人1和参与人2的混合战略分别是=()和=(),利用对偶线性规划求解方法求解该战略式博弈的Nash均衡,构造规划问题如下.Min s.t. 1 1 1 0,0,0和 Max s.t. 1 1 1 0,0,0求解第一个规划问题,得到=1/4, =1/4, =0,参与人1的支付v=2.因此,参与人1的混合战略=(1/2,1/2,0).同理,对对偶问题求解,得到=0,=1/4, =1/4,参与人2的损失v=2,因此参与人的混合战略=(0,1/2,1/2).所以,该博弈存在一个混合战略Nash均衡(1/2,1/2,0)(0,1/2,1/2),).例4 求解下图中的战略式博弈的Nash均衡. 参与人2 L M R 2,-2 -2,2 1,-1 -1,1 1,-1 0,0 3,-3 0 ,0 2,-2 U参与人1 C D 通过求解对偶线性规划问题求零和博弈的Nash均衡 解 该博弈的支付矩阵为U=在上树支付矩阵U=中,0, 0.为了利用对偶线性规划模型求解博弈的解,构造支付矩阵U=,其中=+c.令c=2,那么新构造的支付矩阵为U=设参与人1和参与人2的混合战略分别是=(vp, vp, vp)和=(vq, vq vq,),v为原博弈的值,v为新博弈的值,且v=v+2,利用对偶线性规划求解方法求解新战略式博弈的Nash均衡,构造规划问题如下.Min s.t. 1 1 1 0, 0, 0Max s.t. 1 1 1 0,0,0通过求解对偶问题,得到=0,=3/13, =2/13,参
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智慧城市石方运输工程设计与施工一体化服务合同
- 2025年度茶叶科研与种植基地建设合作合同
- 2025年医院病房楼智能系统升级改造施工合同
- 2025年度时尚童装原创图案版权授权及线上线下联合营销合同
- 老龄夫妻解除婚姻协议养老机构入住服务保障合同
- 2025年度环保节能型互联网数据中心运营维护合同
- 2025版安全生产标准化综合解决方案咨询合同
- 2025年知名企业高管职位面试预测试题与答案
- 二零二五年节能空调销售与绿色安装服务合同
- 2025版幕墙施工劳务分包合同范本(装配式)
- 2025年山西中考历史试卷真题解读及答案讲解课件
- 2025至2030中国科技成果转换行业发展趋势分析与未来投资战略咨询研究报告
- 除颤仪使用讲课件
- 中国PCBA行业发展前景及发展策略与投资风险研究报告2025-2028版
- 教育科技公司团队管理制度
- 特殊人群服务管理制度
- 2025-2030中国磁悬浮离心鼓风机行业市场发展趋势与前景展望战略研究报告
- 高等教育自学考试《00018计算机应用基础》模拟试卷一
- 2025年公共卫生检验士考试试题及答案
- 危化品泄漏的应急处置流程
- 2025-2030中国机场酒店行业市场前瞻与未来投资战略分析研究报告
评论
0/150
提交评论