运筹学10动态规划1_第1页
运筹学10动态规划1_第2页
运筹学10动态规划1_第3页
运筹学10动态规划1_第4页
运筹学10动态规划1_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

动态规划(DynamicProgramming),动态规划是美国数学家Bellman创立的。是解决复杂系统优化问题的一种方法。是解决动态系统多阶段决策过程的基本方法之一。RBellman50年代执教于普林斯顿和斯坦福大学,后进入兰德(Rand)研究所。1957年发表“DynamicProgramming”一书,标志动态规划的正式诞生。,动态系统:包含随时间变化的因素和变量的系统。包含:线性系统、非线性系统。动态系统的特点:系统在某个时刻的状态,往往要依某种形式受过去某些决策的影响,而系统的当前状态和决策又会影响系统过程今后的发展。动态决策问题:将时间作为决策变量之一的决策问题称为动态决策问题。动态决策问题的特点:在动态决策问题中,系统所处的状态和时刻是进行决策的重要因素,即在系统发展的不同时刻(或阶段)根据系统所处的状态,不断地做出决策,找到不同时刻的的最优决策以及整个过程的最优策略。,第一节:动态规划的研究对象和引例,多阶段决策问题:是动态决策问题的一种特殊形式。在多阶段决策过程中,系统的动态过程可以按照时间进程分为状态相互联系而又相互区别的各个阶段,而且在每个阶段都要进行决策。目的是使整个过程的决策达到最优效果。,多阶段决策问题的典型例子:1、生产决策问题:企业在生产过程中,由于需求是随时间变化的,因此企业为了获得全年的最佳生产效益,就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。,在低负荷下生产时,产品的年产量h和投入生产的机器数量u2的关系为h=h(u2)相应的机器年完好率b,0b1。假定开始生产时完好的机器数量为s1。要求制定一个五年计划,在每年开始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。,2、机器负荷分配问题:某种机器可以在高低两种不同负荷下进行生产。在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u1的关系为g=g(u1)这时,机器的年完好率为a,即如果年初完好机器的数量为u,到年终完好的机器数量就为a,0a1。,3、航天飞机飞行控制问题:由于航天飞机的运动环境是不断变化的,因此要根据航天飞机在不同环境中的飞行情况,不断地决定航天飞机的飞行方向(姿态)和速度,使之能最省燃料和实现目的(如软着落问题)。,4、静态问题不包含时间因素的静态决策问题(本质上是一次决策问题)也可以适当地引入阶段的概念,作为多阶段的决策问题用动态规划方法来解决。静态规划问题也可以通过适当地引入阶段的概念,应用动态规划方法加以解决,后面将详细介绍。,5、最短路径问题:给定一个交通网络图如下,其中两点之间的数字表示距离(或花费),试求从A点到G点的最短距离(总费用最小)。,1阶段、阶段变量:把所给问题的过程,适当地分为若干个相互联系的阶段,目的是能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分,一般是按照时间和空间的自然特征划分,原则是便于把问题过程能转化为多阶段决策过程。,2状态、状态变量:状态表示每个阶段开始所处的自然状态或客观条件,通常一个阶段有若干个状态。描述过程状态的变量称为状态变量。可用一个数、一组数或一向量来描述,常用sk标记第k阶段的状态。一般来说,状态变量的取值有一定的允许集合或范围,此集合称为状态允许集合。,第二节:动态规划的基本概念和定义,3决策、决策变量:当过程处于某一阶段的某个状态时,可以做出不同的决定(或选择),从而决定下一阶段的状态,这种决定称为决策。在最优控制中也称为控制。描述决策的变量,称为决策变量。它可以用一个数、一组数或一个向量来描述。它是状态变量的函数,常用uk(sk)表示第k阶段当状态为sk时的决策变量。在实际问题中决策变量的取值往往在某一范围之内,此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk)Dk(sk)。,4多阶段决策过程:即可在各个阶段进行决策,控制过程发展的多段过程。多阶段决策过程的发展是通过一系列的状态转移来实现的,一般来说,系统在某一阶段的状态转移不但与系统的当前(或本阶段)状态和决策有关,而且还于系统历史状态和过去的决策有关。其状态转移方程如下(一般形式),图示如下:,状态转移方程描述过程由一个状态到另一个状态的演变规律。如果第k阶段状态变量sk的值、该阶段的决策变量一经确定,第k+1阶段状态变量sk+1的值也就确定。,无后效性或马尔可夫性:某阶段状态给定后,则这个阶段以后的过程发展不受这个阶段以前各段状态的影响。换句话说,过程的过去历史只能通过当前状态影响过程未来的发展,这个性质称为无后效性。在构造决策过程的动态规划模型时,要充分注意是否满足无后效性的要求。如果状态不能满足无后效性要求,应适当改变状态的定义或规定方法,以使状态变量能满足无后效性要求。状态具有无后效性的多阶段决策过程的状态转移方程如下,能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即具有无后效性的多阶段决策过程。,5策略:策略是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程(或称为k子过程)。由k子过程中每段的决策按顺序排列组成的决策函数序列称为k子过程策略,简称子策略,记为pk,n(sk),即,当k=1时,此决策函数序列成为全过程的一个策略,简称策略,记为p1,n(s1),在实际问题中,可供选择的策略有一定范围,此范围称为允许策略集合,用p表示。从允许策略集合中找出的达到最优效果的策略称为最优策略。,动态规划模型的指标函数,应具有可分离性,并满足递推关系。即Vk,n可以表示为sk,uk,Vk+1,n的函数。,6指标函数和最优值函数:用来衡量所实现过程优劣的一种数量指标,称为指标函数,它是定义在全过程或所有后部子过程上的确定的数量函数。用Vk,n表示:,过程与其任意子过程的指标是它所包含的各阶段指标的乘积。即,则可改写成,常见的指标函数形式是:过程与其任一子过程的指标是它所包含的各阶段指标的和。即,其中vi(si,ui)表示第i阶段的阶段指标。这时上式可写成,最优值函数:表示从第k阶段状态sk开始到第n阶段终止状态的过程,采取最优策略所得到的指标函数值。即,多阶段决策过程的数学模型:(具有无后效性的多阶段决策过程),所谓求解多阶段决策过程问题,就是求:(1)最优策略,即最优决策序列,(2)最优轨线,即执行最优策略时的状态序列,(3)最优目标函数值,f1(s1),从k到终点最优子策略的最优目标函数值,第三节:动态规划的基本思想和基本方程,以最短路径问题的解法为例来说明。(穷举法48条路线),最短路径特性:如果已有从起点到终点的一条最短路径,那么从最短路线上中间任何一点出发到终点的路线仍然是最短路径。(证明用反证法),当k=6时,由F1到终点G只有一条路线,故f6(F1)=4.同理,f6(F2)=3.当k=5时,出发点有E1,E2,E3三个。,当k=4时,有,当k=3时,有,当k=2时,有,当k=1时,有,且u1(A)=B1,于是得到从起点A到终点G的最短距离为18。为了找到最短路线,再按计算顺序反推,可求出最优决策函数序列uk:u1(A)=B1,u2(B1)=C2,u3(C2)=D1,u4(D1)=E2,u5(E2)=F2,u6(F2)=G,即最优策略。最短路线为AB1C2D1E2F2G。,用动态规划(逆序法求解的)基本特性:(1)将多阶段决策过程划分阶段,恰当地选取状态变量、决策变量、及定义最优指标函数,正确写出基本的递推关系式和恰当的边界条件(简言之为基本方程)。从而把问题化成一族同类的子问题,(2)求解时从边界条件开始,逆(或顺)过程行进方向,逐段递推寻优。在每个问题求解时,都要使用它前面已求出的子问题的最优结果,最后问题的最优解,就是整个问题的最优解。(3)动态规划方法是既把当前一段和未来各段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。每段决策的选取都是从全局考虑的,与该段的最优选择答案一般是不同的。(4)在求整个问题的最优策略时,由于初始状态是已知的,每段的决策是该段状态的函数,故沿最优化策略所经过的各段状态便可确定最优路线。,(5)求解的各个阶段,利用k阶段与k+1阶段之间的递推关系:,一般情况,k阶段与k+1阶段的递推关系式(动态规划基本方程),边界条件为,练习:写出乘积形式指标函数的动态规划基本方程。,顺序解法.,用动态规划求解时的几点注意:,(1)将问题的过程划分成恰当的阶段;(2)正确选择状态变量sk,使它既能描述过程的状态,又满足无后效性;(3)确定决策变量uk及每一阶段的允许决策集合Dk(sk);(4)正确写出状态转移方程;(5)正确写出指标函数Vk,n的关系,它应满足下面三个性质:a)是定义在全过程和所有后部子过程上的数量函数;b)要具有可分离性,并满足递推关系。即,c)函数k(sk,uk,Vk+1,n)对于变量Vk+1,n要严格单调。,第四节:动态规划的理论基础和具体迭代方法,多阶段决策过程的特点:每个阶段都要进行决策,策略是由n个相继进行的决策构成的决策序列。前一阶段的终止状态是下一阶段的初始状态,因此,确定阶段最优决策不能只从本阶段的效应考虑,必须是整个过程通盘考虑,整体规划。即阶段k的最优决策不应该只是本阶段效应的最优,而必须是本阶段及其所有后续阶段的总体最优。,1理论基础适应于用动态规划方法求解的问题是具有无后效性的多阶段决策过程。动态规划方法的理论基础是基于R.Bellman提出的最优性原理:“一个过程的最优策略具有这样的性质:即无论其初始状态及初始决策如何,对于先前决策所形成的状态而言,余下的诸决策仍构成最优策略。”最优性原理的含义是:最优策略的任何一部分子策略,也是它相应初始状态的最优策略。每个最优策略只能由最优子策略构成。,是由给定的初始状态s0和子策略p0,k-1所确定的k段状态。当V是效益函数时,opt取max;当V是损失函数时,opt取min.,动态规划的最优性定理:设阶段数为n的多阶段决策过程,其阶段编号为k=0,1,.,n-1。允许策略是最优策略的充要条件是对任意一个k,0kn-1和s0S0,有,充分性()设p0,n-1=(p0,k-1,pk,n-1)为任一策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论