版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、(Decision Making Theory and Methods)决策理论与方法决策理论与方法第第 2 2 页页第第 2 2 页页决策理论与方法决策理论与方法第第 3 3 页页第第 3 3 页页学习目的学习目的了解多阶段决策、序贯决策的概念及特点;了解多阶段决策、序贯决策的概念及特点;掌握动态规划与决策树方法及其在多阶段决策、掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。序贯决策中的应用。决策理论与方法决策理论与方法第第 4 4 页页第第 4 4 页页本讲内容本讲内容4.1动态决策的基本原理动态决策的基本原理 4.1.1动态规划动态规划 4.1.2决策树决策树4.2多阶段决
2、策多阶段决策 4.2.1多阶段决策过程的基本概念多阶段决策过程的基本概念 4.2.2多阶段决策问题的决策方法多阶段决策问题的决策方法4.3序贯决策序贯决策 4.3.1序贯决策的基本概念序贯决策的基本概念 4.3.2序贯决策的决策方法序贯决策的决策方法决策理论与方法决策理论与方法第第 5 5 页页第第 5 5 页页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划 动态规划(动态规划(dynamic Programming,DP)是解)是解决多阶段决策过程最优化的一种方法,其基本思路是决多阶段决策过程最优化的一种方法,其基本思路是将多阶段决策过程转化为一系列相互关联的单阶段
3、问将多阶段决策过程转化为一系列相互关联的单阶段问题,并依次求解。题,并依次求解。 DP是离散系统最优化的一种有效工具,目前动是离散系统最优化的一种有效工具,目前动态规划已广泛用于工业、农业、工程技术、资源、环态规划已广泛用于工业、农业、工程技术、资源、环境、经济、社会等领域。境、经济、社会等领域。 决策理论与方法决策理论与方法第第 6 6 页页第第 6 6 页页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划 例例4-1-1 最优线路问题最优线路问题。由水源地向城市的输水。由水源地向城市的输水线路需通过线路需通过3个控制点,每个控制点均有两个可选方个控制点,每个控制点均
4、有两个可选方案,每段线路的输水费用如下图所示。选出一条输水案,每段线路的输水费用如下图所示。选出一条输水线路,使得总输水费用最小。线路,使得总输水费用最小。6 1 6 3 4 4 5 4 2 3 5 4 A E1 E2 F1 F2 G1 G2 B S1 k=1 S2 k=2 S3 k=3 S4 k=4 S5 决策理论与方法决策理论与方法第第 7 7 页页第第 7 7 页页4.1 动态决策的基本原理动态决策的基本原理4.1.1 动态规划动态规划 最优性原理(最优性原理(the principle of optimality)也称为)也称为Bellman原理,是原理,是R. Bellman提出的提
5、出的DP的基本原理,的基本原理,其表述为:其表述为:“一个过程的最优策略具有这样的性质,一个过程的最优策略具有这样的性质,即无论初始状态和初始决策如何,对于由前面的决策即无论初始状态和初始决策如何,对于由前面的决策所形成的状态来说,其后各阶段的决策序列必定构成所形成的状态来说,其后各阶段的决策序列必定构成相应子过程的最优策略相应子过程的最优策略”。决策理论与方法决策理论与方法第第 8 8 页页第第 8 8 页页4.1 动态决策的基本原理动态决策的基本原理4.1.2 决策树决策树 决策树决策树(decision tree)就是将决策过程各个阶段就是将决策过程各个阶段之间的结构绘制成一张箭线图,每
6、个决策或事件(即之间的结构绘制成一张箭线图,每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的自然状态)都可能引出两个或多个事件,导致不同的结果。结果。 决策树的构成有四个要素:决策树的构成有四个要素:1)决策结点;决策结点;2)方案方案枝;枝;3)状态结点;状态结点;4)概率枝。概率枝。 决策理论与方法决策理论与方法第第 9 9 页页第第 9 9 页页4.1 动态决策的基本原理动态决策的基本原理4.1.2 决策树决策树 方案枝方案枝决策结 点概率枝概率枝状态结点概率枝概率枝概率枝状态结点概率枝决策理论与方法决策理论与方法第第 1010 页页第第 1010 页页4.1 动态决策的
7、基本原理动态决策的基本原理4.1.2 决策树决策树 决策树法的决策程序如下:决策树法的决策程序如下: 1)绘制树状图,根据已知条件排列出各个方案和绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。每一方案的各种自然状态。 2)将各状态概率及损益值标于概率枝上。将各状态概率及损益值标于概率枝上。 3)计算各方案期望值并将其标于该方案对应的状计算各方案期望值并将其标于该方案对应的状态结点上。态结点上。 4)进行剪枝,比较各个方案的期望值,并标于方进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的案枝上,将期望值小的(即劣等方案剪掉即劣等方案剪掉)所剩的最后所剩的最后方案为最
8、佳方案。方案为最佳方案。 决策理论与方法决策理论与方法第第 1111 页页第第 1111 页页4.2 多阶段决策多阶段决策 多阶段决策有以下三个特点,多阶段决策有以下三个特点, 第一,决策者需要做出时间上有先后之别的多个第一,决策者需要做出时间上有先后之别的多个决策;决策; 第二,前一次决策的选择将直接影响到后一次决第二,前一次决策的选择将直接影响到后一次决策,后一次决策的状态取决于前一次决策的结果;策,后一次决策的状态取决于前一次决策的结果; 第三,决策者关心的是多次决策的总结果,而不第三,决策者关心的是多次决策的总结果,而不是各次决策的即时后果。是各次决策的即时后果。 决策理论与方法决策理
9、论与方法第第 1212 页页第第 1212 页页4.2 多阶段决策多阶段决策4.2.1 多阶段决策过程的基本概念多阶段决策过程的基本概念 (1)阶段)阶段-表示研究对象在发展过程中所处的时段或步骤。表示研究对象在发展过程中所处的时段或步骤。 (2)状态)状态-系统在发展过程中某个阶段所有可能发生的情况系统在发展过程中某个阶段所有可能发生的情况,称为该阶段的状态。,称为该阶段的状态。 (3)决策与策略)决策与策略-某阶段状态给定以后,从该状态演变到下某阶段状态给定以后,从该状态演变到下一阶段某个状态的选择称为决策;策略是一个决策序列。一阶段某个状态的选择称为决策;策略是一个决策序列。 (4)指标
10、函数与目标函数)指标函数与目标函数-对于多阶段决策过程的某一阶段对于多阶段决策过程的某一阶段,从初始状态做出决策而转移到下一状态时所产生的效应的,从初始状态做出决策而转移到下一状态时所产生的效应的衡量指标,称为该阶段的指标函数;目标函数是全过程指标衡量指标,称为该阶段的指标函数;目标函数是全过程指标函数的最优值。函数的最优值。 (5) 多阶段决策过程多阶段决策过程-对整个过程进行分阶段决策,得到对整个过程进行分阶段决策,得到一个最优策略,使系统总体指标函数达到最优值。一个最优策略,使系统总体指标函数达到最优值。决策理论与方法决策理论与方法第第 1313 页页第第 1313 页页4.2 多阶段决
11、策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 主要方法是决策树法和动态规划法。主要方法是决策树法和动态规划法。 分析步骤分析步骤 1、根据具体问题适当划分阶段、根据具体问题适当划分阶段 2、确定各阶段的状态变量,寻找各阶段、确定各阶段的状态变量,寻找各阶段间的联系间的联系 3、由后到前用逆序归纳法进行决策分析、由后到前用逆序归纳法进行决策分析决策理论与方法决策理论与方法第第 1414 页页第第 1414 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 多阶段决策问题包括确定型与随机型两大类,在多阶段决策问题包括确定型与随
12、机型两大类,在确定型多阶段决策中,目标值都是确定值,在风险型确定型多阶段决策中,目标值都是确定值,在风险型多阶段决策中,目标值用期望值作为评价的标准。多阶段决策中,目标值用期望值作为评价的标准。 下面分别以两个例子说明其决策方法。下面分别以两个例子说明其决策方法。决策理论与方法决策理论与方法第第 1515 页页第第 1515 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 例例4-2-1决策图决策图 736045845元1012152025736045846元1213162024736045847元1414161818736045848元16151
13、51414决策理论与方法决策理论与方法第第 1616 页页第第 1616 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策多阶段决策问题的决策方法方法例例4-2-1 某公司考虑为某新产品定某公司考虑为某新产品定价,该产品的单价拟从每件价,该产品的单价拟从每件5元元、6元、元、7元、元、8元这四个价格中元这四个价格中选取其中之一,每年年初允许变选取其中之一,每年年初允许变动价格,但幅度不能超过动价格,但幅度不能超过1元。元。该公司预计该产品畅销只有五年该公司预计该产品畅销只有五年,五年后将被淘汰,另据销售情,五年后将被淘汰,另据销售情况的预测,在价格不同的情况下况的预测,在价格不
14、同的情况下各年的预计利润额见右表。各年的预计利润额见右表。单价第1年第2年第3年第4年第5年5元10121520256元121316202471615151414决策理论与方法决策理论与方法第第 1717 页页第第 1717 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 例例4-2-2 某公司考虑是否花某公司考虑是否花10000元从某科研机关元从某科研机关购买某项技术,然后产销新产品。如果卖技术,可以购买某项技术,然后产销新产品。如果卖技术,可以进行大批生产,可能出现的市场情况也分为畅销进行大批生产,可能出现的市场情况也
15、分为畅销 、一般一般 或滞销或滞销 三种,其收益矩阵见下表左。为了三种,其收益矩阵见下表左。为了更准确地了解市场情况,正式投产前可进行产品试销更准确地了解市场情况,正式投产前可进行产品试销,但需是消费,但需是消费500元。试销状态可分为受欢迎元。试销状态可分为受欢迎 、一、一般般 或不受欢迎或不受欢迎 三种,其条件概率分别见下表右三种,其条件概率分别见下表右。如不买此项技术,把这笔经费应用在其他地方,在。如不买此项技术,把这笔经费应用在其他地方,在同样的时期内,可获利同样的时期内,可获利15000元,那么公司应如何决元,那么公司应如何决策?公司要确定:策?公司要确定:1)是否卖技术?)是否卖技
16、术?2)如果买技术,)如果买技术,是否采取试销方式?是否采取试销方式?3)如果不试销,应大批、中批)如果不试销,应大批、中批还是小批生产?如果试销又如何根据试销状态决定其还是小批生产?如果试销又如何根据试销状态决定其行动行动 。 3a2a1a3H1H2H决策理论与方法决策理论与方法第第 1818 页页第第 1818 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 例例4-2-2的表格的表格a12(0.6) (0. 3) (0.1)4000020000-300003000030000-20000100001000010000 123(0.6)(0.
17、3)(0.1)0.60.20.20.30.60.30.10.20.51a2a3a1H2H3H决策理论与方法决策理论与方法第第 1919 页页第第 1919 页页4.2 多阶段决策多阶段决策4.2.2 多阶段决策问题的决策方法多阶段决策问题的决策方法 例例4-2-的决策树的决策树买不试试不买10.620.3830.110.620000300003406041a2a20.136910.81830.046300003000020000340603a1000031(0.44)H520.46210.46230.076400002000030000340601a2a20.46210.46230.07630
18、0003000020000340603a1000010112(0.39)H620.35310.35330.294400002000030000340601a2a20.35310.35330.294300003000020000340603a1000012133(0.17)H720.310.630.1400002000030000340601a2a20.310.630.1300003000020000340603a10000141521150002780527305500100017305决策理论与方法决策理论与方法第第 2020 页页第第 2020 页页4.3 序贯决策序贯决策4.3.1 序贯
19、决策的基本概念序贯决策的基本概念 上面的多阶段决策,阶段数是确定的。除这种决上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(序贯决策(sequential decision problem)。)。 序列决策在进行决策后又产生一些新的情况,需序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策行新的
20、决策。这样决策、情况、决策,这就构成,这就构成一个序列。一个序列。 决策理论与方法决策理论与方法第第 2121 页页第第 2121 页页4.3 序贯决策序贯决策4.3.1 序贯决策的基本概念序贯决策的基本概念 序贯决策是用于随机性或不确态定性动态系统最序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:优化的决策方法。它的特点是: 1)所研究的系统是动态的,即系统所处的状态)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;与时间有关,可周期(或连续)地对它观察; 2)决策是序贯地进行的,即每个时刻根据所观)决策是序贯地进行的,即每个时刻根据所观察
21、到的状态和以前状态的记录,从一组可行方案中选察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);某个目标函数取最优值(极大或极小值); 3)系统下一步)系统下一步(或未来或未来)可能出现的状态是随机的可能出现的状态是随机的或不确定的。或不确定的。决策理论与方法决策理论与方法第第 2222 页页第第 2222 页页4.3 序贯决策序贯决策4.3.1 序贯决策的基本概念序贯决策的基本概念 系统在每次作出决策后下一步可能出现的状态是不系统在每次作出决策后下一步可能出现的状态是不
22、能确切预知的,存在两种情况:能确切预知的,存在两种情况: 1)系统下一步可能出现的状态的概率分布是已知的)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。尔可夫过程理论与决定性动态规划相结合的产物。 2)系统下一步可能出现的状态的概率分布不知道,)系统下一步可能出现的状态的
23、概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。贯决策属于决策分析的内容。决策理论与方法决策理论与方法第第 2323 页页第第 2323 页页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法 序贯决策的过程是:从初始状态开始,每个时序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。进行直至最后。
24、解决序贯决策问题的有效办法仍然是决策树,解解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。的费用,决策序列便可终止。决策理论与方法决策理论与方法第第 2424 页页第第 2424 页页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法 例例4-3-1 某工厂的产品每某工厂的产品每1
25、000件装成一箱出售。每箱件装成一箱出售。每箱中产品的次品率有中产品的次品率有0.01,0.40,0.90三种可能,其概率分三种可能,其概率分别为别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:进行严格检验,将次品挑出。可以选择的行动有两个: 整箱检验,检验费整箱检验,检验费 为每箱为每箱100元;整箱不检验,但元;整箱不检验,但如果顾客在使用中发现次品,每件次品除条换为合格品如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿外还要赔偿0.25元损失费。为了更好地做出决定可以先从元损失费。为了
26、更好地做出决定可以先从一箱中随机抽取一箱中随机抽取1件作为样本检验它,然后根据这件产品件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为是都次品再决定该箱是否要检验,抽样成本为4.2元。进元。进行第一次抽样后,除选择检验还是不检验外,还可以根行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。一个决策序列。该厂应该如何决策。决策理论与方法决策理论与方法第第 2525 页页第第 2525 页页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯
27、决策的决策方法 解解 (1) 假设假设 为整箱检验;为整箱检验; 为整箱不检验为整箱不检验; 而而 表示次品率分别表示次品率分别0.01,0.40,0.90的三种自然状态;的三种自然状态; 表示抽取一件样品的行动,表示抽取一件样品的行动, 表示抽取第二件样品的行动表示抽取第二件样品的行动 ; , 为抽为抽样时次品和合格品的两个结果。样时次品和合格品的两个结果。 12123, 1S2S1x 0 x 决策理论与方法决策理论与方法第第 2626 页页第第 2626 页页4.3 序贯决策序贯决策4.3.2 序贯决策的决策方法序贯决策的决策方法 (2)计算益损值和后悔值矩阵。)计算益损值和后悔值矩阵。 产品检验问题的收益矩阵见表产品检验问题的收益矩阵见表4-3-1。由表。由表4-3-1的收益的收益矩阵可得到各行动方案的后悔值矩阵,见表矩阵可得到各行动方案的后悔值矩阵,见表4-3-2。 表表4-3-1 :收益矩阵表:收益矩阵表 表表4-3-2:后悔矩阵表:后悔矩阵表 A123( )E1a (0.2)(0. 6)(0.2)-100 -100 -100 -100-2.5 -100 -100 -105A1232a2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广西国际商务职业技术学院单招综合素质考试题库及答案解析
- 2025年广东省汕头市高职单招职业适应性测试考试试题及答案解析
- 2026年哈尔滨信息工程学院单招职业技能考试题库及答案解析
- 2026福建厦门翔安区珩厝小学招聘2名考试备考试题及答案解析
- 2025年德州科技职业学院单招综合素质考试试题及答案解析
- 2025年广州卫生职业技术学院单招职业适应性测试试题及答案解析
- 人人讲安全、个个会应急
- 2025年江西艺术职业学院单招综合素质考试试题及答案解析
- 2026年山西管理职业学院单招综合素质考试题库附答案解析
- 2026年黑龙江农业职业技术学院单招职业适应性测试题库附答案解析
- 香港公司佣金协议书
- 2026年山东铝业职业学院单招综合素质考试必刷测试卷带答案解析
- 物流园区规划与设计课件
- 直播销售工作计划与时间表
- 2026年营口职业技术学院单招职业技能考试题库必考题
- 警车安全驾驶课件大全
- 2025年内蒙历年单招题库及答案
- 2025下半年教师资格考试(初中信息技术)新版真题卷附答案
- 《脓毒症标准化动物模型》
- 强化训练苏科版九年级物理下册《电磁转换》专题练习试题(解析版)
- 初三完整版英语单项选择100题练习题及答案含答案
评论
0/150
提交评论