对策与决策课件_第1页
对策与决策课件_第2页
对策与决策课件_第3页
对策与决策课件_第4页
对策与决策课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对策与决策第一部分 对策论背景冯诺依曼(Von Neumann),摩根斯坦恩(Morgenstern)(1944),博弈论和经济行为(The Theory of Games and Economic Behavior)。标志着博弈理论的初步形成Nash(1950,1951)两篇关于非合作博弈的重要文章,在非常一般的意义下。定义了非合作博弈及其均衡解,并证明了均衡解的存在。基本上奠定了现代非合作博弈论的基石。第一章 导论1. 什么是博弈论定义:关于包含相互依存情况中理性行为的研究。目的:决策,合理的预测思想:有限性,东方性 妻子 B F B 丈夫 F1,20,00,02,1性别战(battle

2、of sexes)腐败问题的博弈分析 政府 监督 不监督 受贿 官员 不受贿R-F,F-C-SR,-S0,-C0,0贸易自由化的博弈分析 乙国 自由化 保护 自由化 甲国 保护10,10-10,2020,-10-5,-5大户与散户的博弈模型 散户 分析并进入 跟随大户进入 分析并进入大户 跟随散户进入0.7p-c,0.3p-c0.7p-c , 0.3p0.7p, 0.3p-c0,0国有股减持 投资者 支持 不支持 减持 国有股东 不减持5,-6-8,-2-3,-1-5,0机构投资者之间的博弈分析 机构乙 合作 不合作 合作 机构甲 不合作0.5,0.5双方获利均为溢价的一半0,1乙获全部溢价1

3、,0甲获全部溢价0,0双方获利均为零货币政策目标的博弈分析 企业 增加投资 不增加投资 增加货币供给中央银行 不增加货币供给0,2通货膨胀率10%经济增长率5%2,1通货膨胀率0%经济增长率10%-1,0通货膨胀率10%经济增长率0%1,3通货膨胀率0%经济增长率5%上市公司虚假信息披露行为的博弈分析发现()F-C+E, -F-D-C, 0未发现(1-)-C, E-D0, E-D0, 0证券监管机构上市公司 造假 不造假检查不检查E:造假行为对上市公司的额外收益;F:监管机构发现公司造假后的惩罚;C:监管机构的检查成本;D:上市公司造假的成本;:监管机构成功查实公司造假行为之概率。2. 博弈要

4、素局中人策略纯策略空间Si=Si1, Si2, Siki盈利(支付)函数(payoff function):Ui(s)3. 博弈的分类从信息的角度:完全信息、不完全信息从局中人行动的先后次序:静态博弈、动态博弈完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈第二章 策略型博弈与Nash均衡1. 博弈的策略型两人零和游戏(猜谜游戏) 局中人2 1 2 局中人11,-1-1,1-1,11,-112定义:n人博弈策略型表示指定了n个局中人的纯策略空间,以及对应每个策略组合的盈利函数U1,U2,Un,可将该博弈表示为:G=S1,S2,Sn;U1,U2,Un2. 混合策略猜谜游戏无纯

5、策略解设甲的策略为(p,1-p) 乙的策略为(q,1-q)对于甲来说,如果乙伸一个指头,期望盈利为:p+(-1) (1-p)=2p-10p0.5如果乙伸两个指头,期望盈利为:-p+(1-p)=-2p+10 p0.5因此理想的混合策略是: (0.5, 0.5)1,-1-1,1-1,11,-1定义:局中人i(i=1,2,n)中的一个混合策略是该局中人的纯策略空间Si=(si1,si2,siki)上的一个概率分布,可用i来表示。所有n个局中人各自的混合策略1,2, n是独立的。n个混合策略构成的 = 1,2, n是一个策略组合(策略剖面,profile)。i(si j)表示第i个局中人混合策略i在纯

6、策略si j上的概率,因此局中人i在混合策略上的期望盈利为:算例 局中人2 L M R U局中人1 M D4,35,16,22,18,43,63,09,62,8局中人1的混合策略:1=(1(U),1(M),1(D)=(1/3,1/3,1/3)局中人2的混合策略:2=(2(U),2(M),2(D)=(0,1/2,1/2)策略组合: =(1,2)4,35,16,22,18,43,63,09,62,8局中人1策略组合 的期望盈利为:U1( )=4*1/3*0+5*1/3*1/2+6*1/3*1/2+ 2*1/3*0+8*1/3*1/2+3*1/3*1/2+ 3*1/2*0+9*1/3*1/2+2*1

7、/3*1/2 =11/2局中人1的混合策略:1=(1(U),1(M),1(D)=(1/3,1/3,1/3)局中人2的混合策略:2=(2(U),2(M),2(D)=(0,1/2,1/2)策略组合: =(1,2)4,35,16,22,18,43,63,09,62,8局中人2策略组合 的期望盈利为:U2( )=3*1/3*0+1*1/3*1/2+2*1/3*1/2+ 1*1/3*0+4*1/3*1/2+6*1/3*1/2+ 0*1/2*0+6*1/3*1/2+8*1/3*1/2 =9/23. 累次严优(iterated dominance)隐含着Nash均衡的思想 局中人2 L M R U局中人1

8、M D4,35,16,22,18,43,63,09,62,8 局中人2 L M R4562833923121460684,35,16,22,18,43,63,09,62,8局中人1 局中人2 L R U局中人1 M D 局中人2 L R局中人1 U4,36,22,13,63,02,84,36,2312146068合理,符合逻辑的过程,得到累次严优的解为: 局中人2 L 局中人1 U累次严优的局限性 4,3严劣纯策略定义:对局中人i的某个纯策略si, 如果存在混合策略i*,使得s-i S-iUi(i*,s-i) Ui(si, s-i)且在S-i中至少存在一个纯策略组合s-i* S-i, 使上式中

9、的不等号严格成立Ui(i*,s-I*) Ui(si, s-I*)则称纯策略si为局中人i的弱劣纯策略。如果对一切s-i S-I,上式中的不等式严格的成立Ui(i*,s-i) Ui(si, s-i) s-i S-i 则称si为局中人i的严劣纯策略。4. 累次严优的应用囚徒困境 乙 坦白 抗拒 坦白 甲 抗拒-8,-80,-15-15,0-1,-1虽然(坦白,坦白)是累次严优的解,但不是有效解。定义:如果不存在其他的结局,使得某些局中人的效用(盈利)比在这个结果的效用好,同时又不会使其他局中人的效用变的更差,则称博弈的这个结局是有效的。(抗拒,抗拒)是有效的,但不是博弈的解。个体理性并非一定导致集

10、体理性。5 Nash均衡寻找纯策略Nash均衡的方法:划线法a,eb,fc,gd,ha,eb,fc,gd,ha,eb,fc,gd,ha,eb,fc,gd,ha,eb,fc,gd,h 妻子 B F B 丈夫 F1,20,00,02,1性别战(battle of sexes)贸易自由化的博弈分析 乙国 自由化 保护 自由化 甲国 保护10,10-10,2020,-10-5,-5国有股减持 投资者 支持 不支持 减持 国有股东 不减持5,-6-8,-2-3,-1-5,0机构投资者之间的博弈分析 机构乙 合作 不合作 合作 机构甲 不合作0.5,0.5双方获利均为溢价的一半0,1乙获全部溢价1,0甲获

11、全部溢价0,0双方获利均为零猜谜游戏无纯策略解设甲的策略为(p,1-p) 乙的策略为(q,1-q)固定乙的混合策略(q,1-q),则甲的期望盈利为:pq+(1-p)(1-q)-p(1-q)-q(1-p)=1+4pq-2p-2q要使甲的收益达到最大:4q-2=0q=0.5同理可得:p=0.5因此理想的混合策略是: (0.5, 0.5)1,-1-1,1-1,11,-1寻找混合策略Nash均衡的方法p1-pq1-q第三章 矩阵博弈1、矩阵博弈的模型二人有限零和博弈就是矩阵博弈,是指只有两个参加博弈的局中人,每个局中人都只有有限个策略可供选择。在任一局势下,两个局中人的支付之和总是为零,即双方的利益是

12、激烈对抗的。最优策略 博弈的值为2我们发现有四个局势都是博弈的解,且解为5两个性质无差别性。如果(ki1,lj1)和(ki2,lj2)是博弈的两个解,则ai1j1=ai2j2。可交换性。如果(ki1,lj1)和(ki2,lj2)是博弈的两个解,则(ki1,lj2)和(ki2,lj1)也是解。鞍点的定义2、矩阵博弈的定理我们应用定理1可以得到方程组3 、矩阵博弈的解法公式法图解法方程组法线性规划方法线性规划方法用线性规划方法求解支付矩阵为A的矩阵博弈解上述方程组得到决策分析第1节 决策的分类第2节 决策过程第3节 不确定型的决策第4节 风险决策第1节 决策的分类1.按性质的重要性分类:可将决策分

13、为战略决策、策略决策和执行决策,或叫战略计划、管理控制和运行控制。2.按决策的结构分类:分为程序决策和非程序决策。3.按定量和定性分类:分为定量决策和定性决策,描述决策对象的指标都可以量化时可用定量决策,否则只能用定性决策。总的发展趋势是尽可能地把决策问题量化。4.按决策环境分类:可将决策问题分为确定型的、风险型的和不确定型的三种。 5.按决策过程的连续性分类:可分为单项决策和序贯决策。 第2节 决 策 过 程构造人们决策行为的模型主要有两种方法:一种是面向决策结果的方法; 另一种是面向决策过程的方法。面向决策结果的方法认为:若决策者能正确地预见到决策结果,其核心是决策的结果和正确的预测。通常

14、的单目标和多目标决策是属这类型的。面向决策过程的方法认为:若决策者了解了决策过程,掌握了过程和能控制过程,他就能正确地预见决策的结果。对于面向决策结果的方法的程序比较简单,见图15-1。由上图可知,任何决策都有一个过程和程序,绝非决策者灵机一动拍板就行。面向决策过程的方法一般包括:预决策决策决策后三个互相依赖的阶段。决策问题的要素构成: (1) 决策者,他的任务是进行决策。决策者可以是个人、委员会或某个组织。一般指领导者或领导集体。(2) 可供选择的方案(替代方案)、行动或策略。参谋人员的任务是为决策者提供各种可行方案。(3) 准则是衡量选择方案,包括目的、目标、属性、正确性的标准,在决策时有

15、单一准则和多准则。(4) 事件是指不为决策者所控制的客观存在的将发生的状态。(5) 每一事件的发生将会产生某种结果,如获得收益或损失。(6) 决策者的价值观,如决策者对货币额或不同风险程度的主观价值观念。第3节 不确定型的决策所谓不确定型的决策是指决策者对环境情况一无所知。这时决策者是根据自己的主观倾向进行决策,由决策者的主观态度不同基本可分为四种准则:悲观主义准则乐观主义准则等可能性准则最小机会准则例1设某工厂是按批生产某产品并按批销售,每件产品的成本为30元,批发价格为每件35元。若每月生产的产品当月销售不完,则每件损失1元。工厂每投产一批是10件,最大月生产能力是40件,决策者可选择的生

16、产方案为0、10、20、30、40五种。假设决策者对其产品的需求情况一无所知,试问这时决策者应如何决策?用决策矩阵描述这个问题决策者可选的行动方案有五种,这是他的策略集合,记作Si,i=1,2,,5。经分析他可断定将发生五种销售情况:即销量为0,10,20,30,40,但不知它们发生的概率。这就是事件集合,记作Ej,j=1,2,,5。每个“策略事件”对都可以计算出相应的收益值或损失值。如当选择月产量为20件时,而销出量为10件,这时收益额为10(35-30)-1(20-10)=40(元)可以一一计算出各“策略事件”对应的收益值或损失值,记作aij。将这些数据汇总在矩阵中。见表15-2。表15-

17、2这就是决策矩阵。根据决策矩阵中元素所示的含义不同,可称为收益矩阵、损失矩阵、风险矩阵、后悔值矩阵等。下面讨论决策者是如何应用决策准则进行决策的。3.1 悲观主义(max min)决策准则悲观主义决策准则亦称保守主义决策准则。当决策者面临着各事件的发生概率不清时,决策者考虑可能由于决策错误而造成重大经济损失。由于自己的经济实力比较脆弱,他在处理问题时就较谨慎。他分析各种最坏的可能结果,从中选择最好者,以它对应的策略为决策策略,用符号表示为 max min 决策准则。在收益矩阵中先从各策略所对应的可能发生的“策略事件”对的结果中选出最小值,将它们列于表的最右列。再从此列的数值中选出最大者,以它对

18、应的策略为决策者应选的决策策略。计算见表15-3。表15-3max min决策准则根据max min决策准则有 max (0,-10,-20,-30,-40)=0它对应的策略为S1,即为决策者应选的策略。在这里是“什么也不生产”,这结论似乎荒谬,但在实际中表示先看一看,以后再作决定。上述计算用公式表示为3.2 乐观主义(max max)决策准则持乐观主义(max max)决策准则的决策者对待风险的态度与悲观主义者不同,当他面临情况不明的策略问题时,他绝不放弃任何一个可获得最好结果的机会,以争取好中之好的乐观态度来选择他的决策策略。决策者在分析收益矩阵各策略的“策略事件”对的结果中选出最大者,记

19、在表的最右列。再从该列数值中选择最大者,以它对应的策略为决策策略。见表15-4。表15-4max min决策准则根据max max决策准则有max (0,50,100,150,200)=200它对应的策略为S5。用公式表示为3.3 等可能性(Laplace)准则等可能性(Laplace)准则是19世纪数学家Laplace提出的。他认为:当一个人面临着某事件集合,在没有什么确切理由来说明这一事件比那一事件有更多发生机会时,只能认为各事件发生的机会是均等的。即每一事件发生的概率都是1/事件数。决策者计算各策略的收益期望值,然后在所有这些期望值中选择最大者,以它对应的策略为决策策略,见表15-5。然

20、后按下式决定决策策略。表15-5期望值3.4 最小机会损失准则最小机会损失决策准则亦称最小遗憾值决策准则或Savage决策准则。首先将收益矩阵中各元素变换为每一“策略事件”对的机会损失值(遗憾值,后悔值)。其含义是:当某一事件发生后,由于决策者没有选用收益最大的策略,而形成的损失值。若发生k事件,各策略的收益为aik,i=1,2,5,其中最大者为 :这时各策略的机会损失值为: 计算结果见表15-6从所有最大机会损失值中选取最小者,它对应的策略为决策策略。用公式表示为:本例的决策策略为min(200,150,100,50,30)=30S5在分析产品废品率时,应用本决策准则就比较方便。 3.5 折

21、中主义准则当用min max 决策准则或 max max 决策准则来处理问题时,有的决策者认为这样太极端了。于是提出把这两种决策准则给予综合,令a为乐观系数,且0a1。并用以下关系式表示 分别表示第i个策略可能得到的最大收益值与最小收益值。设=1/3,将计算得的Hi值记在表15-7的右端。 表15-7在不确定性决策中是因人因地因时选择决策准则的,但在实际中当决策者面临不确定性决策问题时,他首先是获取有关各事件发生的信息,使不确定性决策问题转化为风险决策,风险决策将是讨论的重点。第4节 风 险 决 策风险决策是指 决策者对客观情况不甚了解,但对将发生各事件的概率是已知的。决策者往往通过调查,根据

22、过去的经验或主观估计等途径获得这些概率。在风险决策中一般采用期望值作为决策准则,常用的有: 最大期望收益决策准则 最小机会损失决策准则。4.1 最大期望收益决策准则(expected monetary value,EMV)决策矩阵的各元素代表“策略事件”对的收益值,各事件发生的概率为pj 先计算各策略的期望收益值: 然后从这些期望收益值中选取最大者,它对应的策略为决策应选策略。即以例1的数据进行计算,见表15-8这时 max (0,44,76,84,80)=84S4 即选择策略S4=30 EMV决策准则适用于一次决策 多次重复进行生产的情况, 所以它是平均意义下的最大收益。4.2 最小机会损失

23、决策准则(expected opportunity loss,EOL)矩阵的各元素代表“策略事件”对的机会损失值。 设各事件发生的概率为pj,先计算各策略的期望损失值。 然后从这些期望损失值中选取最小者,它对应的策略应是决策者所选策略。即表上运算与上述相似。 4.3 EMV与EOL决策准则的关系从本质上讲EMV与EOL决策准则是一样的。设aij为决策矩阵的收益值。因为当发生的事件的所需量等于所选策略的生产量时,收益值最大,即在收益矩阵的对角线上的值都是其所在列中的最大者。于是机会损失矩阵可通过以下求得。见表15-9。表15-9第i策略的机会损失:故当EMV为最大时,EOL便为最小。所以在决策时

24、用这两个决策准则所得结果是相同的。4.4 全情报的价值(EVPI) 当决策者耗费了一定经费进行调研,获得了各事件发生概率的信息,应采用“随机应变”的战术。这时所得的期望收益称为全情报的期望收益记作EPPL。这收益应当大于至少等于最大期望收益,即EPPLEMV*。则EPPL-EMV*=EVPI称为对全情报的价值。这就是说明获取情报的费用不能超过EVPI值,否则就没有增加收入。实际应用时考虑费用构成很复杂,这里仅说明全情报价值的概念和其意义。4.5 主观概率 风险决策时决策者要估计各事件出现的概率,而许多决策问题的概率不能通过随机试验去确定,根本无法进行重复试验。如估计某企业倒闭的可能性,只能由决

25、策者根据他对这事件的了解去确定。这样确定的概率反映了决策者对事件出现的信念程度,称为主观概率。客观概率论者认为概率如同重量、容积、硬度等一样,是研究对象的物理属性。 而主观概率论者则认为概率是人们对现象的知识的现状的测度,而不是现象本身的测度,因此不是研究对象的物理属性。主观概率论者不是主观臆造事件发生的概率,而是依赖于对事件作周密的观察,去获得事前信息。事前信息愈丰富,则确定的主观概率就愈准确。主观概率论者并不否认实践是第一性的观点。所以主观概率是进行决策的依据。 确定主观概率时,一般采用专家估计法。 1.直接估计法直接估计法是要求参加估计者直接给出概率的估计方法。例如推荐三名大学生考研究生

26、时,请五位任课教师估计他们谁得第一的概率。若各任课教师作出如下的估计。见表15-10。表15-10由表15-10的末行得到学生1的概率是0.47, 他是最高者。2. 间接估计法 参加估计者通过排队或相互比较等间接途径给出概率的估计方法。例如估计五个球队(Ai, i=1,,5)比赛谁得第一的问题,请十名专家作出估计,每位都给出一个优胜顺序的排列名单,排队名单汇总在表15-11。表15-11分别从表15-11查得每队被排的名次的次数,如A1所处各名次的意见为:然后计算加权平均数采用同样方法得到(A2)=2.26;(A3)=3.43;(A4)=4.56;(A5)=1.78这就可以按此加权平均数给出各

27、队的估计名次,即A5A2A1A3A4下面再将各队的估计名次转换成概率,这时需假设各队按估计名次出现的概率是等可能的。(A51)表示A5的估计名次为1,其余类推。那么(A51)(A22)(A13)(A34)(A45)=11111因所有事件发生的概率和为1,即于是各队按估计名次出现的主观概率为P(A51)=1/5;P(A22)=1/5;P(A13)=1/5P(A34)=1/5;P(A45)=1/5当然决策者还可根据了解的情况,作其他的假设,这样就能得到另外的结果。4.6 修正概率的方法贝叶斯公式的应用前面曾提到决策者常常碰到的问题是没有掌握充分的信息,于是决策者通过调查及做试验等途径去获得更多的更确切的信息,以便掌握

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论