《运筹学》课件第8、9章动态规划、决策分析

上传人：q*** IP属地：山东上传时间：2026-06-05 格式：PPT 页数：127 大小：4.71MB 积分：25 举报 版权申诉

已阅读5页，还剩122页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第8章动态规划8.1动态规划的基本概念8.2动态规划的最优性原理8.3动态规划问题的建模与求解8.4动态规划应用举例第8章内容提要8.1动态规划的基本概念动态决策问题在生产和经营活动中，经常遇到这样的问题，它们包含若干个相互联系的阶段，在每个阶段都要做出决策，从而使整个过程达到最优。因此，各个阶段决策的选取不是任意确定的，它依赖于当前面临的状态，又影响以后的发展。当各个阶段决策确定后，就组成了一个决策序列，因而也就决定了整个过程的一条活动路线。这种把一个问题可看作是一个前后关联具有链状结构的多阶段过程，就称为多阶段决策过程，也称序贯决策过程。12……状态n决策状态决策状态状态状态决策多阶段决策问题：整个决策过程可按照时间或空间顺序分解成若干相互联系的阶段，每一阶段都需要作出决策，全部过程的决策是一个决策序列。目标是要达到整个过程的最优，而不是单个阶段的最优。动态规划的基本概念AB1B2B3FC1C2C3D1D2D3E1E135495435171584642544269721ABCDEF12345阶段（k）：把所给问题的过程，恰当地分为若干个相互联系的阶段，以便能按一定的次序去求解。阶段的划分，一般是根据时间和空间的自然特征来划分。上例中k=1,2,3,4,5，其中第一个阶段的起点为A，终点为B1、B2或B3。状态（Sk）：简单来讲，状态是指某阶段的出发位置，即阶段的起点。描述过程状态的变量称为状态变量，常用Sk表示第k阶段的状态变量。上例中，第三阶段有三个状态，则状态变量可取三个值，即S3={C1,C2,C3}。点集合={C1,C2,C3}称为第三阶段的可达状态集合。决策（uk(Sk)）：决策表示当过程处于某一阶段的某个状态时，可以作出不同的决定，从而确定下一阶段的状态，这种决定称为决策。描述决策的变量称为决策变量，常用uk(sk)表示第k阶段当状态处于sk时的决策变量。如：u1(s1)={u1(A)}={B1,B2,B3} 在实际问题中，决策变量的取值往往限制在某一范围之内，此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合。如：D2(B2)={C1,C2,C3}策略：全过程各个阶段的决策uk按顺序排列组成的有序总体，记为：P1,n(s1)={u1(s1),u2(s2)…,un(sn)}子策略：由过程的第k阶段开始到终止状态为止的过程，称为问题的后部子过程，也称为k子过程。与之相对应的决策序列Pk,n(sk)={uk(sk),uk+1(sk+1)…,un(sn)}

称为k子过程策略，简称子策略。状态转移方程：确定过程由一个状态到另一个状态的演变过程。如果给定第k阶段的起始状态sk与决策变量uk(sk)，则第k+1阶段的状态变量sk+1的值也就确定了。这种关系可用公式：sk+1=Tk(sk,uk)

上式描述了由k到k+1阶段的状态转移规律，称为状态转移方程。Tk称为状态转移函数。指标函数：是评价动态规划决策结果优劣的数量指标，它是定义在全过程和所有后部子过程上确定的数量函数，一般以Vk,n表示。指标函数可以是时间、效率、利润、成本或产量等。Vk,n=Vk,n(sk,uk,sk+1,…,sn+1)一般而言，指标函数满足如下递推关系：

Vk,n(sk,uk,sk+1,…,sn+1)=ψk[sk,uk,Vk+1,n(sk+1,…,sn+1)]最优指标函数：记为fk(sk)，表示从第k阶段的状态sk开始，到第n阶段的终止状态的过程，采取最优策略所得到的指标函数值，即：其中，opt表示最优的意思，可以是max或min。V是函数关系，可以表示加法关系，也可以表示乘法关系或其它。在最短路线问题中，指标函数Vk,n就表示在第k阶段由点sk至终点F的距离，用dk(sk,uk)=vk(sk,uk)表示第k阶段由点sk到点sk+1=uk(sk)的距离。例如，

d4(D3,E2)=5，表示在第4阶段，由点D3到点E2的距离为5。fk(sk)表示从第k阶段点sk到终点F的最短距离。如

f4(D2)就表示从第4阶段中的点D2到点F的最短距离指各个阶段的数量指标，记为dk(sk,uk)，如d2(B3,C2)＝1，表示距离。策略指标函数：指策略的数量指标值，记为：

z=d1(s1,u1)+…+d5(s5,u5)最优策略：指策略指标函数达到最优的策略。

Minz=d1(s1,u1)+…+d5(s5,u5)8.2动态规划的最优性原理最优化原理贝尔曼最优化原理：作为整个过程的最优策略，无论过去的状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必构成最优策略。即：一个最优策略的子策略总是最优的。MAB例如，若M是从A到B最优路线上的任一点，则从M到B的路线也是最优路线。整个问题将最后一阶段问题最优化将最后两阶段问题最优化整个问题最优化指标函数递推方程贝尔曼最优化原理可以导出指标函数递推方程：

f*n(Sn)为从第n个阶段到终点的最短距离，f*n+1(Sn+1)为从第n+1个阶段到终点的最短距离，dn(Sn,Xn)为第n个阶段的距离，f*5(S5)为递推的起点，通常为已知的。求解过程由最后一个阶段的优化开始，按逆向顺序逐步向前一阶段扩展，并将后一阶段的优化结果带到扩展后的阶段中去，以此逐步向前推进，直至得到全过程的优化结果。AB1B2E495648768935623143ABCDE1234例1：最短线路问题B3C1C2C3D1D2解：(1)k=4，起始状态集合为：s4={D1,D2}

当s4=D1时，从D1到E的路线只有一条，其距离d(D1,E)=4，所以f4(D1)=4;

当s4=D2时，从D2到E的路线只有一条，其距离d(D2,E)=3，所以f4(D2)=3;(2)k=3，起始状态集合为：s3={C1,C2,C3}

当s3=C1时，从C1到E的路线有两条，C1→D1→E或C1→D2→E。我们要在这两条路线中选择一条最短路线，即：其最短路线是C1→D1→E

，相应的决策变量是u3(C1)=D1

当s3=C2时，从C2到E的路线也有两条，C2→D1→E或C2→D2→E。

其最短路线是C2→D2→E

，相应的决策变量是u3(C2)=D2

当s3=C3时，从C3到E的路线也有两条，C3→D1→E或C3→D2→E。

其最短路线是C3→D1→E

，相应的决策变量是u3(C3)=D1(3)k=2，起始状态集合为：s2={B1,B2,B3}

当s2=B1时，从B1出发的线路有两条B1C1和B1C2

。可以计算得：其最短路线是B1→C2→D2→E

，相应的决策变量是u2(B1)=C2

当s2=B2时，从B2出发的线路有三条B2C1、B2C2和B2C3

。可以计算得：其最短路线是B2→C3→D1→E

，相应的决策变量是u2(B2)=C3

当s2=B3时，从B3出发的线路有两条B3C2和B3C3

。可以计算得：最短路线是B3→C2→D2→E

，相应的决策变量是u2(B3)=C2(4)k=1，起始状态集合为：s1={A}。从A出发的线路有三条AB1、AB2和AB3

。可以计算得：其最短路线是A→B1→C2→D2→E

，相应的决策变量是u1(A)=B1因此，最优策略序列是：

u1(A)=B1,u2(B1)=C2,u3(C2)=D2,u4(D2)=E31动态规划的基本思想：关键在于正确地写出基本的递推关系式和恰当的边界条件（基本方程）；在多阶段决策过程中，动态规划方法是既把当前一段和未来各段分开，又把当前效益和未来效益结合起来考虑的一种最优化方法；在求整个问题的最优策略时，由于初始状态是已知的，而每段的决策都是该段状态的函数，故最优策略所经过的各段状态便可逐次变换得到，从而确定了最优路线。8.3动态规划问题的建模与求解AB1B2E495648768935623143ABCDE1234动态规划的标号法B3C1C2C3D1D2437559111313动态规划的表格计算——从最后一个阶段开始：n=4时，这一步数据为已知，是递推的起点：u4s4d(u4)f4(s4)u4*ED144ED233E动态规划的表格计算n=3时：第3阶段到终点分两步走：第3阶段到终点的距离等于第3阶段的距离加上第4阶段到终点的最短距离，其计算如下：u3s3d(u3)+f4f3(s3)u3*D1D2C13+4=75+3=87D1C26+4=102+3=55D2C31+4=53+3=65D1n=2时：第2阶段到终点分两步走：第2阶段到终点的距离等于第2阶段的距离加上第3阶段到终点的最短距离，其计算如下：u2s2d(u2)+f3f2(s2)u2*C1C2C3B16+7=134+5=9-9C2B28+7=157+5=126+5=1111C3B3-8+5=139+5=1413C2n=1时：第1阶段到终点分两步走：第1阶段到终点的距离等于第1阶段的距离加上第2阶段到终点的最短距离，其计算如下：因此，可以得到从A到E的最短路线（即最优策略）为：A→B1→C2→D2→EA到E的最短距离为：f1(s1)＝13u1s1d(u1)+f2f1(s1)u1*B1B2B3A4+9=139+11=205+13=1813B1动态规划的逆推解法与顺推解法逆推解法：即由最后一段到第一段逐步求出各点到终点的最短路线，最后求出A点到E点的最短路线。运用逆序递推方法的好处是可以始终盯住目标，不致脱离最终目标。顺推解法：其寻优方向与过程的行进方向相同，求解时是从第一段开始计算，逐段向后推进，计算后一阶段时要用到前一段求优的结果，最后一段的计算结果就是全过程的最优结果。动态规划的优点减少计算量；丰富计算结果。40动态规划模型的建立所研究的问题必须能够分成几个相互联系的阶段，且在每个阶段都具有需要进行决策的问题；在每一阶段都必须有若干个与该阶段相关的状态，识别每一阶段的状态是建立动态规划模型的关键内容。状态的选取要注意以下几个要点：在所研究问题的各阶段，都能直接或间接确定状态变量的数值；状态的后无效性：即以第k阶段的状态sk为出发点的后部子过程的最优策略应与sk状态之前的过程无关。具有明确的指标函数Vk,n，且阶段指标值dk(sk,uk)可以计算。动态规划的求解步骤将问题合理分成阶段。设阶段总数为n，边界条件fn(sn)，然后从最后一个阶段n的优化开始，逐步向前一阶段推进，直至第一阶段为止。在每一阶段都进行如下的步骤：列出本阶段所有可能的状态变量sk对每一个状态sk列出可能的决策变量uk(sk)对每一对sk,uk(sk),计算本阶段的指标值dk(sk,uk)利用状态转移方程sk+1=T(sk,uk)，对每对sk,uk(sk)求出sk+1的值；计算每一对sk,uk(sk)的指标值dk(sk,uk)+fk+1(sk+1)将上一步中各指标值进行比较，取最优者（极大或极小）为从本阶段sk状态开始的后部子过程的最优指标fk(sk)，相应的决策即是本阶段以sk为起始状态的最优决策uk*(sk)在第一阶段的最优决策确定之后，第一阶段的最优初始s1*即可确定，然后根据状态转移方程确定下一阶段的最优状态。这样，最优策略所经过的各阶段最优状态即可逐次得到，从而确定了最优策略的状态变化路线。8.4动态规划应用实例定价问题资源分配问题背包问题例2某公司考虑为某新产品定价，该产品的单价拟从每件5元、6元、7元、8元这四个价格中选取其中之一，每年年初允许变动价格，但幅度不能超过1元。该公司预计该产品畅销只有五年，五年后将被淘汰。另据销售情况的预测，在价格不同的情况下，各年的预计利润额如下表。现在问公司将如何为产品定价，以实现五年内的利润最大化？1.定价问题预计利润额单价(元)第1年第2年第3年第4年第5年5678101214161213141515161615202018142524181410121520251213162024141416181816151514145元6元7元8元动态规划的表格计算——从最后一个阶段开始：n=5时，这一步数据为已知，是递推的起点：u5s5d5f5(s5)u5*E1E2E3E4E12525E1E22424E2E31818E3E41414E4n=4时：第4阶段到终点分两步走：第4阶段的利润等于第4阶段的利润加上第5阶段的最大利润，其计算如下：u4s4d4+f5f4(s4)u4*E1E2E3E4D120+2520+2445E1D220+2520+2420+1845E1D318+2418+1818+1442E2D414+1814+1432E3n=3时：第3阶段到终点分两步走：第3阶段的利润等于第3阶段的利润加上第4阶段以后的最大利润，其计算如下：u3s3d3+f4f3(s3)u3*D1D2D3D4C115+4515+4560D1,D2C216+4516+4516+4261D1,D2C316+4516+4216+3261D2C415+4215+3257D3n=2时：第2阶段到终点分两步走：第2阶段的利润等于第2阶段的利润加上第3阶段以后的最大利润，其计算如下：u2s2d2+f3f2(s2)u2*C1C2C3C4B112+6012+6173C2B213+6013+6113+6174C2,C3B314+6114+6114+5775C2,C3B415+6115+5776C3n=1时：第1阶段到终点分两步走：第1阶段的利润等于第1阶段的利润加上第2阶段以后的最大利润，其计算如下：u1s1d1+f2f1(s1)u1*B1B2B3B4A110+7310+7484B2A212+7312+7412+7587B3A314+7414+7514+7690B4A416+7516+7692B4可知，为获得最大利润，各年的定价策略为：A4→B4→C3→D2→E1，即：第一年：8元；第二年：8元；第三年：7元；第四年：6元；第五年：5元2.资源分配问题某种资源总量为a，用于生产n种产品。设分配数量xi用于生产第i种产品，第i种产品的收益为gi(xi)。问如何分配才使总收益最大？模型为：Maxz=g1(x1)+…+gn(xn)S.t.x1+x2+…+xn=a,xj≥0这是静态决策问题，可将其化为动态模型来求解。例3某有色金属公司拟拔出50万元对所属三家冶炼厂进行技术改造。若以10万元为最小分割单位，各厂收益与投资的关系如下表所示。问对三个工厂如何分配这50万元，才能使总收益达到最大？投资额(单位：十万元)技术改造后收益工厂1工厂2工厂301234504.57.09.010.512.002.04.57.511.015.005.07.08.010.013.0思路：首先对工厂1进行分配，余下的对工厂2进行分配，最后余下的分配给工厂3。建立如下动态规划数学模型：工厂1工厂2工厂3阶段k(工厂)：1,2,3状态sk(可供分配的资金量)：s1={5};s2=s1-u1,s3=s2-u2决策uk(已分配的资金量)：0≤u1≤s1,0≤u2≤s2,0≤u3≤s3状态转移方程：sk+1=sk-uk指标函数(收益)：

d1(u1)={0,4.5,7,9,10.5,12}

d2(u2)={0,2,4.5,7.5,11,15}

d3(u3)={0,5,7,8,10,13}指标递推方程：

fk(sk)=max[dk(uk)+fk+1(sk+1)]，k=1,2 f3(s3)=max[d3(u3)]利用表格进行计算，从最后一个阶段开始

k=3,u3=s3u3s3d3f3(s3)u3*0123450000155127723883410104513135k=2时，0≤u2≤s2，s3=s2-u2u2s2d2+f3f2(s2)u2*01234500+0=00010+5=52+0=25020+7=72+5=74.5+0=4.570,130+8=82+7=94.5+5=9.57.5+0=7.59.5240+10=102+8=104.5+7=11.57.5+5=12.511+0=1112.5350+13=132+10=124.5+8=12.57.5+7=14.511+5=1615+0=15164k=1时，0≤u1≤s1，s2=s1-u1u1s1d1+f2f1(s1)u1*01234550+16=164.5+12.5=177+9.5=16.59+7=1610.5+5=15.512+0=12171

可见，当s1=5，此时u1*=1，s2=s1-u1*=4,u2*=3;s3=s2-u2*=1,u3*=1最优策略为：P={u1*,u2*,u3*}={1,3,1}即给工厂1分配10万元，工厂2分配30万元，工厂3分配10万元，可使总收益达到最大为17万元。背包问题假设一个徒步旅行者，有n种物品供他选择后装入背包中。设这n种物品编号为1,2,…,j,…,n，并已知一件第j种物品的重量为wj千克，这一件物品对他的使用价值为cj。又知这位旅行者本身所能承受的总重量不能超过W千克。问该旅行者如何选择这n种物品的件数，以对他来说使用价值最大？3.背包问题一般的数学模型：背包问题的动态规划模型求解：用状态变量sk表示背包中可装进第k种至第n种物品的总重量(即从k阶段开始，还可以装入的总重量)；用决策变量xk表示背包中装进第k种物品的件数，则背包中装进第k种至第n种物品后的总重量为

sk=∑wkxk

,sk+1=sk-wkxk。用fk(sk)表示背包装入第k种至第n种商品所得的最大使用价值。则根据最优化原理，有如下递推方程：65例4解背包问题

max z=8x1+5x2+12x3 2x1+2x2+5x3≤5 x1,x2,x3≥0且为整数物品A物品B物品C123阶段(物品)k状态(第k阶段时，背包可装入的重量)

sk:s1={5},s2=s1-w1x1={1,3,5},s3=s2-w2x2={1,3,5}决策(装入背包的物品件数)xk:0≤x1≤[s1/w1],0≤x2≤[s2/w2],0≤x3≤[s3/w3]x1={0,1,2},x2={0,1,2},x3={0,1}状态转移方程：sk+1=sk-wkxk阶段指标函数(价值)：d1(x1)=8x1,d2(x2)=5x2,d3(x3)=12x3指标递推方程：利用表格进行计算，从最后一个阶段开始

k=3,x3={0,[s3/w3]}={0,[s3/5]}={0,1}

x3s3v3(s3)f3(s3)u3*01100030005012121k=2时，x2={0,[s2/w2]}={0,[s2/2]}={0,1,2}s3=s2-w2x2=s2-2x2x2s2v2(s2,x2)+f3(s3)f2(s2)u2*01210+0030+05+05150+125+010+0120k=1时，x1={0,[s1/w1]}={0,[s1/2]}={0,1,2}s2=s1-w1x1=5-2x1x1s1v1(s1,x1)+f2(s2)f1(s1)u1*01250+128+516+0162可见，当s1=5，此时x1*=2，s2=s1-2x1*=1,x2*=0;s3=s2-2x2*=1,x3*=0最优策略为：P={u1*,u2*,u3*}={2,0,0}即带两件A物品，不带B物品和C物品，可使总效用达到最大为16。第九章决策分析9.1决策的分类9.2决策过程9.3不确定型的决策9.4风险决策9.5决策树9.6贝叶斯决策9.7决策分析中的效用度量第9章内容提要1.按性质的重要性分类战略决策：是涉及组织发展和生存有关的全局性、长远问题的决策；策略决策：是为完成战略决策所规定的目的而进行的决策；执行决策：是根据策略决策的要求对执行行为方案的选择。9.1决策的分类2.按决策的结构分类程序决策：是一种有章可循的决策，一般是可重复的。非程序决策：一般是无章可循的决策，只能凭经验直觉作出应变的决策，一般是一次性的。3.按定量和定性分类描述决策对象的指标都可以量化时可用定量决策，否则只能用定性决策。4.按决策环境分类确定型决策：指决策环境是完全确定的，作出的选择的结果也是确定的；风险型决策：是指决策的环境不是完全确定的，而其发生的概率是已知的；不确定型决策：是指决策者对将发生结果的概率一无所知，只能凭决策者的主观倾向进行决策。5.按决策过程的连续性分类单项决策：是指整个决策过程只作一次决策就得到结果；序贯决策：指整个决策过程由一系列决策组成。通常管理活动是由一系列决策组成的，但在这一系列决策中往往有几个关键环节要作决策，可以把这些关键的决策分别看做单项决策。预决策阶段决策阶段决策后阶段面向决策过程的方法9.2决策的过程构成决策模型的要素决策模型决策者的价值观决策者获得收益或损失事件方案准则9.3不确定型决策过程不确定型决策是指决策者对环境情况一无所知。例1设某工厂是按批生产某产品并按批销售，每件产品的成本为30元，批发价格为每件35元。若每月生产的产品当月销售不完，则每件损失1元。工厂每投产一批是10件，最大月生产能力是40件，决策者可选择的生产方案为0、10、20、30、40五种。假设决策者对其产品的需求情况一无所知，试问这时决策者应如何决策？Ej

Si事件010203040策略00000010-105050505020-204010010010030-30309015015040-402080140200收益矩阵悲观主义决策准则：亦称保守主义决策准则。他分析各种最坏的可能结果，从中选择最好者，以它对应的策略为决策策略，用符号表示为maxmin决策准则。具体操作：在收益矩阵中，先从各策略所对应的可能发生的“策略－事件”对的结果中选出最小值，将它们列于表的最右列；再从此列的数值中选出最大值，以它对应的策略为决策策略。公式：1.悲观主义（maxmin）决策准则

Si事件min010203040策略000000010-1050505050-1020-2040100100100-2030-303090150150-3040-402080140200-40悲观主义决策准则乐观主义决策准则：绝不放弃任何一个获得最好结果的机会，以争取好中之好的乐观态度选择决策策略。具体操作：决策者在分析收益矩阵各策略的“策略－事件”对的结果中选出最大者，记在表的最右列；再从该列数值中选择最大值，以它对应的策略为决策策略。公式：2.乐观主义（maxmax）决策准则

Si事件max010203040策略000000010-10505050505020-204010010010010030-30309015015015040-402080140200200乐观主义决策准则等可能性准则：当一个人面临着某事件集合，在没有什么确切理由来说明这一事件比那一事件有更多发生机会时，只能认为各事件发生的机会是均等的。即每一事件发生的概率都是1/事件数。具体操作：决策者计算各策略的收益期望值，然后在所有这些期望值中选择最大者，以它对应的策略为决策策略。公式：3.等可能性（Laplace）准则

Si事件010203040策略000000010-10505050503820-20401001001006430-3030901501507840-40208014020080等可能性准则最小机会损失决策准则：亦称最小遗憾值决策准则。具体操作：首先将收益矩阵中各元素变换为每一“策略－事件”对的机会损失值（遗憾值，后悔值）。其含义是：当某一事件发生后，由于决策者没有选用收益最大的策略，而形成的损失值。4.最小机会损失准则

Si事件max010203040策略00000020010-105050505015020-204010010010010030-3030901501505040-40208014020030最小机会损失准则0501001502005001020300-10-20-30-40100500102015010050010200150100500折中主义准则：用maxmax决策准则或minmax决策准则来处理问题过于极端，因此可以把这两种决策准则给予综合，令a为乐观系数，且0≤a≤1。并用以下关系式表示5.折中主义准则具体操作：设a=1/3，将计算的Hi值记在表的右端；然后选择最大者，它对应的策略为决策策略。公式：

Si事件010203040策略000000010-10505050501020-20401001001002030-3030901501503040-40208014020040折中主义准则9.4风险决策风险决策是指决策者对客观情况不甚了解，但对将发生各事件的概率是已知的。决策矩阵的各元素代表“策略－事件”对的收益值，各事件发生的概率为pj

,先计算各策略的期望收益值：然后从这些期望收益值中选取最大者，它对应的策略为决策策略。公式：1.最大期望收益决策准则

（expectedmonetaryvalue,EMV）

Si事件EMV0102030400.10.20.40.20.1策略000000010-10505050504420-20401001001007630-3030901501508440-40208014020080最大期望收益决策准则决策矩阵的各元素代表“策略－事件”对的机会损失值，各事件发生的概率为pj,先计算各策略的期望损失值：然后从这些期望损失值中选取最小者，它对应的策略为决策策略。公式：2.最小机会损失决策准则

（expectedopportunityloss,EOL）设aij为决策矩阵的收益值。因为当发生事件的所需量等于所选策略的生产量时，收益值最大，即在收益矩阵的对角线上的值都是其所在列中的最大者。于是机会损失矩阵可通过以下求得：3.EMV和EOL决策准则的关系

SiE1E2…Enp1p2…pnS1a11-a11a22-a12…ann-a1nS2a11-a21a22-a22…ann-a2n……………Sna11-an1a22-an2…ann-ann机会损失矩阵第i策略的机会损失：102故当EMV为最大时，EOL便为最小。所以在决策时用这两个决策准则所得结果是相同的。当决策者耗费了一定经费进行调研，获得了各事件发生概率的信息，应采用“随机应变”的战术。这时所得的期望收益称为全情报的期望收益，记作EPPL。这收益应当大于至少等于最大期望收益，即EPPL≥EMV*。则EPPL-EMV*

=EVPI称为对全情报的价值。这就是说明获取情报的费用不能超过EVPI值，否则就没有增加收入。4.全情报的价值（EVPI）风险决策时决策者要估计各事件出现的概率，而许多决策问题的概率不能通过随机试验去确定，根本无法进行重复试验。决策者根据对事件的了解或者信念程度给出的概率，称为主观概率。主观概率不是主观臆造事件发生的概率，而是依赖于对事件作周密的观察，去获得事前信息。事前信息越丰富，则确定的主观概率就越准确。5.主观概率教师代号权数学生1学生2学生3∑10.60.60.60.120.70.40.50.130.90.50.30.240.70.60.30.150.80.20.50.3归一化后1.671.590.623.880.430.410.1611）直接估计法：要求参加估计者直接给出概率的估计方法

名次专家号qj评定者12345权数wi1A2A5A1A3A40.72A3A1A5A4A20.83A5A3A2A1A40.64A1A2A5A4A30.75A5A2A1A3A40.96A2A5A3A1A40.87A5A1A3A2A40.78A5A2A4A1A30.99A2A1A5A4A30.710A5A2A3A1A40.82）间接估计法：参加估计者通过排队或相互比较等间接途径给出概率的估计方法。qj次数nj评定权数wi11w4=0.723w2=0.8,w7=0.7,w9=0.732w1=0.7,w5=0.944w10=0.8,w3=0.6,w6=0.8,w8=0.950考虑A1然后计算加权平均数采用同样方法得到按上述加权平均数给出各队的估计名次，即将各队的估计名次转换成概率，假设各队按估计名次出现的概率是等可能的。

风险决策时决策者常常碰到的问题是没有掌握充分的信息，于是决策者通过调查及做试验等途径去获得更多的更确切的信息，以便掌握各事件发生的概率，这可以利用贝叶斯公式来实现。它体现了最大限度的利用现有信息，并加以连续观察和重新估计。1096.修正概率的方法——贝叶斯公式的应用9.5决策树有些决策问题，当进行决策后又产生一些新情况，并需要进行新的决策，接着又有一些新情况，又需要进行新的决策。这样决策、情况、决策……构成一个序列，这就是序列决策。描述序列决策的有力工具之一就是决策树，决策树是由决策点、事件点及结果构成的树形图。一般选用最大收益期望值或最大效用期望值为决策准则。例2设有某石油钻探队，在一片估计能出油的荒田钻探。可以先做地震试验，然后决定钻井与否。或不做地震试验，只凭经验决定钻井与否。做地震试验的费用每次3000元，钻井费用为10000元。若钻井后出油，井队可收入40000元；若不出油就没有任何收入。各种情况下出油的概率已估计出，并标在下图中。问钻井队的决策者如何作出决策使收入的期望值为最大。最大收益期望值解：上述决策问题用决策树来求解，并将有关数据标在图上。符号表示：

[

]表示决策点

()表示事件点

△表示收益点113[1](1)[4][2][3](2)(3)△△△试验△-3000好0.6钻井△-10000出油0.85收入40000不出油0.150不钻井0不好0.4钻井△-10000△△出油0.140000不出油00.9不试验(4)钻井△-10000△△出油0.5540000不出油00.45△0不钻井△0不钻井采用逆决策顺序方法求解，计算步骤是：(1)计算各事件点的收入期望值115事件点收入期望值(2)40000×0.85+0×0.15=34000(3)40000×0.10+0×0.90=4000(4)40000×0.55+0×0.45=22000[1](1)[4][2][3]△试验△-3000好0.6钻井△-100000.15(2)△△出油0.85收入40000不出油0不钻井0不好0.4钻井△-10000(3)△△出油0.140000不出油00.9不试验钻井△-10000(4)△△出油0.5540000不出油00.45△0不钻井

34000400022000将收入的期望值标在相应的各点处：△不钻井0(2)按最大收入期望值决策准则给出各决策点的抉择：117在决策点[2]，max[(34000-10000),0]=24000所对应的策略为应选策略，即钻井；在决策点[3]，max[(4000-10000),0]=0所对应的策略为应选策略，即不钻井；在决策点[4]，max[(22000-10000),0]=12000所对应的策略为应选策略，即钻井。[1](1)试验△-3

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《运筹学》课件第8、9章动态规划、决策分析

文档简介

温馨提示

最新文档

评论

《运筹学》课件 第8、9章 动态规划、决策分析

文档简介

温馨提示

最新文档

评论

相关文档

《运筹学》课件第8、9章动态规划、决策分析