版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、动态系统:包含随时间变化的因素和变量的系统。线性系统、非线性系统。 (系统在某个时刻的状态,往往要依某种形式、受过去某些决策的影响,而系统的当前状态和决策又会影响系统过程今后的发展。) 动态决策问题:将时间作为决策变量之一的决策问题称为动态决策问题。 动态决策问题的特点:在动态决策问题中,系统所处的状态和时刻是进行决策的重要因素,即在系统发展的不同时刻(或阶段)根据系统所处的状态,不断地做出决策,找到不同时刻的的最优决策以及整个过程的最优策略。,动态规划(Dynamic Programming),动态规划是美国数学家Bellman创立的。Bellman50年代执教于普林斯顿和斯坦福大学,后进入
2、兰德(Rand)研究所。1957年发表“Dynamic Programming”一书,标识动态规划的正式诞生。 动态规划是解决复杂系统优化问题的一种方法。是解决动态系统多阶段决策过程的基本方法之一。,第八章 动态规划的基本方法 第一节:动态规划的研究对象和引例,多阶段决策问题:是动态决策问题的一种特殊形式。在多阶段决策过程中,系统的动态过程可以按照时间进程分为相互联系而又相互区别的各个阶段,而且在每个阶段都要进行决策。目的是使整个过程的决策达到最优效果。,多阶段决策问题的典型例子: 1 生产决策问题:企业在生产过程中,由于需求是随时间变化的,因此企业为了获得全年的最佳生产效益,就要在整个生产过
3、程中逐月或逐季度地根据库存和需求决定生产计划。,2 机器负荷分配问题:某种机器可以在高低两种不同的负荷下进行生产。在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u1的关系为 g=g(u1) 这时,机器的年完好率为a,即如果年初完好机器的数量为u,到年终完好的机器就为au, 0a1。,在低负荷下生产时,产品的年产量h和投入生产的机器数量u2的关系为 h=h(u2) 相应的机器年完好率b, 0 b1。 假定开始生产时完好的机器数量为s1。要求制定一个五年计划,在每年开始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。,3 航天飞机飞行控制问题:
4、由于航天飞机的运动的环境是不断变化的,因此就要根据航天飞机飞行在不同环境中的情况,不断地决定航天飞机的飞行方向(姿态)和速度,使之能最省燃料和实现目的(如软着落问题)。,不包含时间因素的静态决策问题(本质上是一次决策问题)也可以适当地引入阶段的概念,作为多阶段的决策问题用动态规划方法来解决。 4 线性规划、非线性规划等静态的规划问题也可以通过适当地引入阶段的概念,应用动态规划方法加以解决,后面将详细介绍。,5 最短路问题:给定一个交通网络图如下,其中两点之间的数字表示距离(或花费),试求从A点到G点的最短距离(总费用最小)。,我们将用此例来说明所有动态规划问题的理论和方法。,1 阶段、阶段变量
5、:把所给问题的过程,适当地分为若干个相互联系的阶段,目的是能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分,一般是分为时间和空间的自然特征来划分,但要便于把问题的过程能转化为多阶段决策的过程。(逆序模型、顺序模型),2 状态、状态变量:状态表示每个阶段开始所处的自然状况或客观条件,它描述了研究问题过程的状况。通常一个阶段有若干个状态。 描述过程状态的变量称为状态变量。常用sk来表示第k阶段的状态变量。一般来说,状态变量的取值有一定的允许集合或范围,此集合称为是状态允许集合。,第二节: 动态规划的基本概念和定义,3 决策、决策变量:决策表示当过程处于某一阶段的某个状态时,
6、可以做出不同的决定(或选择),从而决定下一阶段的状态,这种决定称为决策。在最优控制中也称为控制。描述决策的变量,称为决策变量。常用uk(sk) 表示第k阶段当状态为 sk时的决策变量。在实际问题中决策变量的取值往往在某一范围之内,此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk) Dk(sk) Dk表示第k阶段的允许决策集合。,4 多阶段决策过程:就是可以在各个阶段进行决策,去控制过程发展的多段过程。多阶段决策过程的发展是通过一系列的状态转移来实现的,一般来说,系统在某一阶段的状态转移不但于系统的当前(或本阶段)的状态和决策有关,而且还于系统过
7、去的历史状态和决策有关。其状态转移方程如下(一般形式),图示如下:,状态转移方程是确定过程由一个状态到另一个状态的演变过程。如果第k阶段状态变量sk的值、该阶段的决策变量一经确定,第k+1阶段状态变量sk+1的值也就确定。,无后效性或马尔可夫性:如果某阶段状态给定后,则在这个阶段以后过程的发展不受这个阶段以前各段状态的影响。换句话说,过程的过去历史只能通过当前的状态去影响它未来的发展,这个性质称为无后效性。在构造决策过程的动态规划模型时,要充分注意是否满足无后效性的要求。如果状态不能满足无后效性的要求,应适当地改变状态的定义或规定方法,以使状态变量能满足无后效性的要求。 状态具有无后效性的多阶
8、段决策过程的状态转移方程如下,能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即具有无后效性的多阶段决策过程。,动态规划中能 处理的状态转移 方程的形式。,5 策略:策略是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程(或称为k子过程)。由每段的决策按顺序排列组成的决策函数序列称为k子过程策略,简称子策略,记为pk,n(sk),即,当k=1时,此决策函数序列成为全过程的一个策略,简称策略,记为p1,n (s1).即,在实际问题中,可供选择的策略有一定范围,此范围称为允许策略集合,用p表示。从允许策略集合中找出达到最优效果的策略称为
9、最优策略。,6 指标函数和最优值函数:用来衡量所实现过程优劣的一种数量指标,称为指标函数,它是定义在全过程或所有后部子过程上确定的数量函数。Vk, n表示之。即,动态规划模型的指标函数,应具有可分离性,并满足递推关系。即Vk,n可以表示为sk,uk,Vk+1,n的函数。,常见的指标函数的形式是: 过程和它的任一子过程的指标是它所包含的各阶段的指标和。即,其中vj(sj,uj)表示第j阶段的阶段指标。这时上式可写成,无后效性的结果。,过程和它的任意子过程的指标是它所包含的各阶段的指标的乘积。即,则可改写成,最优值函数:表示从第k阶段的状态sk开始到第n阶段的终止状态的过程,采取最优策略所得到的指
10、标函数值。即,多阶段决策过程的数学模型:(具有无后效性的多阶段决策过程),所谓求解多阶段决策过程问题,就是要求出 (1) 最优策略,即最优决策序列,(2) 最优轨线,即执行最优策略时的状态序列,(3)最优目标函数值,f1(s1),从k到终点最优 子策略的最优目标函数值,第三节:动态规划的基本思想和基本方程,以最短路问题的解法为例来说明。(穷举法48条路线),最短路的特性:如果已有从起点到终点的一条最短路,那么从最短路线上中间任何一点出发到终点的路线仍然是最短路。(证明:用反证法),当k=6时,由F1到终点G只有一条路线,故f6(F1)=4.同理,f6(F2)=3. 当k=5时,出发点有E1,E
11、2,E3三个。,当k=4时,有,当k=3时,有,当k=2时,有,当k=1时,有,且u1(A)=B1,于是得到从起点A到终点G的最短距离为18。 为了找到最短路线,再按计算的顺序反推之,可求出最优决策函数序列uk:u1(A)=B1,u2(B1)=C2,u3=(C2)=D1,u4(D1)=E2,u5(E2)=F2,u6(F2)=G, 即最优策略。 最短路线为AB1C2D1E2F2G。,用动态规划(逆序法求解的)基本特性: (1)将多阶段决策过程划分阶段,恰当地选取状态变量、决策变量、及定义最优指标函数,正确写出基本的递推关系式和恰当的边界条件(简言之为基本方程)。从而把问题化成一族同类的子问题,
12、(2)求解时从边界条件开始,逆(或顺)过程行进方向,逐段递推寻优。在每个问题求解时,都要使用它前面已求出的子问题的最优结果,最后问题的最优解,就是整个问题的最优解。 (3)动态规划方法是既把当前一段和未来各段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。每段决策的选取都是从全局考虑的,与该段的最优选择答案一般是不同的。 (4)在求整个问题的最优策略时,由于初始状态是已知的,每段的决策是该段状态的函数,故沿最优化策略所经过的各段状态便可确定了最优路线。,(5)求解的各个阶段,我们利用了k阶段与k+1阶段之间的递推关系:,练习:写出乘积形式指标函数的动态规划基本方程。,用动态规划求解时
13、的几点注意:,(1)将问题的过程划分成恰当的阶段; (2)正确选择状态变量sk,使它既能描述过程的变量,又要满足无后效应; (3)确定决策变量uk及每一阶段的允许决策集合Dk(sk); (4)正确写出状态转移方程; (5)正确写出指标函数Vk,n,它应满足下面三个性质: a)是定义在全过程和所有后部子过程上的数量函数; b)要具有可分离性,并满足递推关系。即,c)函数k(sk,uk,Vk+1,n)对于变量Vk+1,n要严格单调。,顺序解法的阶段变量k,决策变量xk,以及决策变量允许集合Qk的含义和逆序解法模型中相应变量的含义相同,而状态变量sk表示第k阶段结束时的状态,其中k=0,1,2,n。
14、记状态转移方程为 sk=g(sk-1,xk) k=1,2,n 则 s k-1=g-1(sk,xk) 记第k阶段末状态为sk,第k阶段决策为xk的直接指标(或称阶段指标)为dk(sk,xk),并记从第1阶段到第k阶段末状态为sk所得到的最大效益为fk(sk),则顺序解法的基本方程(或称指标递推方程及边界条件)为 其中 opt=Max or Min,顺序解法,最短路问题:给定一个交通网络图如下,其中两点之间的数字表示距离(或花费),试求从A点到G点的最短距离(总费用最小)。,按照顺序动态规划求解方法,从第1阶段开始计算,由前向后逐步推移至G点,计算过程为 当k=0时,S0=A,f0(A)=0 当k
15、=1时,S1=B1,B2,由A到B1只有一条路线,故f1(B1)=5 同理得: f1(B2)=3 当k=2时,S2=C1,C2,C3,C4 f2(C 1)=Min d2(B1,C1)+ f1(B1)=Min 1+5=6 其相应决策为x2:B1 C1 f2(C 2)=Min d2(B1,C2)+ f1(B1),d2(B2,C2)+ f1(B2) =Min 3+5,8+3=8 其相应决策为x2:B1 C2 f2(C 3)=Min d2(B1,C3)+ f1(B1),d2(B2,C3)+ f1(B2) = Min 6+5,7+3=10 其相应决策为x2:B2 C3 f2(C 4)=Min d2(B2
16、,C4)+ f1(B2)=Min 6+3=9 其相应决策为x2:B2 C4,类似地,可计算得 当k=3时,S3=D1,D 2,D 3 ,有 f3(D 1)=11 x3:C 2 D1 f3(D 2)=13 x3:C 2 D2 or C 3 D2 f3(D 3)=13 x3:C 3 D3 or C 4 D3 当k=4时,S4=E1,E 2,E 3 ,有 f4(E 1)=13 x4:D1 E 1 f4(E 2)=13 x4:D 1 E 2 f4(E 3)=15 x4:D 2 E 3 当k=5时,S5=F1,F 2 ,有 f5(F 1)=16 x5:E 1 F 1 f5(F 2)=15 x5:E 2
17、F 2 当k=6时,S5=G ,有 f6(G)=18 x6:F 2 G 再按计算的顺序反推,可得相应的最短线路为:A B1 C2 D1 E 2 F 2 G,第四节:动态规划的理论基础,适应于用动态规划方法求解的是具有无后效性的多阶段决策过程。 动态规划方法的理论基础是基于R. Bellman提出的最优性原理:“一个过程的最优策略具有这样的性质:即无论其初始状态及初始决策如何,对于先前决策所形成的状态而言,余下的诸决策仍构成最优策略。”最优性原理的含义是:最优策略的任何一部分子策略,都是最优策略。每个最优策略只能由最优子策略构成。,多阶段决策过程的特点:每个阶段都要进行决策,策略是由n个相继进行的决策构成的决策序列。前一阶段的终止状态又是下一阶段的初始状态,因此,确定阶段最优决策不能只从本阶段的效应来考虑,必须是整个过程通盘考虑,整体规划。即阶段k的最优决策不应该只是本阶段效应的最优,而必须是本阶段及其所有后续阶段的总体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九江银行萍乡分行2026年社会招聘笔试参考题库及答案解析
- 北京一零一中实验幼儿园招聘笔试备考试题及答案解析
- 2026云南昆明安琪儿妇产医院招聘21人笔试模拟试题及答案解析
- 2026四川乐山市峨眉山市就业创业促进中心第一批城镇公益性岗位186人笔试备考题库及答案解析
- 2026中国有研所属有研鼎盛投资发展有限公司招聘副总经理笔试备考题库及答案解析
- 2025年重庆旅游职业学院单招职业适应性测试题库及答案解析
- 2026国网湖北省电力有限公司招聘360人(第二批)考试参考试题及答案解析
- 中医护理的情志调养
- 2025年新疆石河子职业技术学院单招职业适应性测试题库及答案解析
- 2025年湘南幼儿师范高等专科学校单招综合素质考试题库及答案解析
- 2026年毛笔书法六级题库及答案
- 全屋定制培训课件
- 2026年黑龙江农业工程职业学院单招职业倾向性测试题库附答案详解
- 医学心理学虚拟案例库建设
- 纯化水监测管理制度
- 流行性腮腺炎课件及卷子
- 家畜普通病学课件
- 雨课堂学堂云在线《身边的营养学》单元测试考核答案
- 2025年六枝特区考调试题及答案
- 2026年苏州工业职业技术学院单招职业技能测试必刷测试卷附答案
- 液化气站安全隐患排查整改台账
评论
0/150
提交评论