




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、动态规划与随机控制1953年,R . Bellman 等人,根据某类多阶段序贯决策问题的特点,提出了著名的“最优性原理”。在这个原理的指导下,他将此类多阶段决策问题转变为一系列的互相联系的单阶段决策问题,然后,逐个阶段予以解决,最后再形成总体解决。从而创建了求解优化问题的新方法动态规划。1957年,他的名著动态规划出版。1.离散型动态规划离散型确定性动态规划在解决美式期权问题时,我们通常采用倒向递推的方法来比较即时执行价格与继续持有价格。这是利用动态规划原理的一个典型例子。Richard Bellman在1953年首次提出动态规划原理.最优化原理:无论过去的状态和决策如何,相对于前面的决策侧所
2、形成的的状态而言,余下的决策序列必然构成最优子策略.求解最短路径问题:来看下面一个具体的例子:我们要求从Q点到T点的最短路径其基本思想是分阶段求出各段到T点的最短路径: : C1T 3 - : B1C1T 4 - :A2B1C1T 7 - -: QA2B1C1T 11 Q-A3B1C1T 11 Q-A3B2C2T 11从以上分析可以看出最短路径不唯一。最短路径解的特点 1、可以将全过程求解分为若干阶段求解;-多阶段决策问题 2、在全过程最短路径中,将会出现阶段的最优路径;-递推性 3、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;-无后效性 3、逐段地求解最优
3、路径,势必会找到一个全过程最优路径。-动态规划离散型不确定性动态规划离散型不确定性动态规划的特点就是每一阶段的决策不是确定的,是一个随机变量,带有一定的随机性,因此处理起来就相对复杂些。一个动态规划的经典问题:你打算与一个你遇到的最富有的人结婚,你的最优策略是什么?这里做几点基本的假设:1、如果碰到满足你要求的人,他无条件接受;2、有个人供你选择;3、每个备选对象的财富值都服从0, 1.区间上的均匀分布;那么你要找具有最大期望财富值的结婚对象的最优策略是什么?这是一个看似简单但是很难解决的问题. 通常的方法是顺序递推法,如果首先考虑碰到第一个人的财富,接着考虑碰到下一个人的财富值与第一个人的财
4、富值进行比较,依次进行下去,但是你期望下一个对象的财富值的确定是一个很复杂的问题,并且很难进行比较.因此这里我们考虑倒向递推的方法进行计算,我们首先逆向考虑一个简单的问题就是假如你只面对2个人的情况,当你只碰到倒数第一个人时,我们认为他的财富期望值为0.5,我们知道,你将选择与倒数第二个对象结婚时只有在他的财富值大于0.5的情况下,否则你将与倒数第一个对象结婚。一般的,我们用表示倒数第一个人的财富期望值,用表示表示倒数第二个人的财富值,假设你的最优行动时在倒数第二步,则倒数第二个人的财富期望值为: 这里 一般的倒向递推公式就是: 设 , (1)是倒数第个人的财富值,是你在倒数第阶段的最优策略的
5、财富期望值。如果我们把取,则此时我们可以算出2.连续型动态规划问题 确定性控制问题给定,考虑一个如下控制问题 (2)是允许控制集, 在 , 是一个度量空间, , 为一给定的映射.则最优控制问题就是在控制系统(2)的条件下极小化如下成本函数 (3)对于给定的映射和。 值函数的确定设;在区间考虑以下控制系统:这里控制是区间上可测函数。则成本函数就是如下函数:现在我们来定义如下形式的值函数: (4)这里值函数就是在允许控制集的范围内,找出所有成本函数中的极小化函数并且满足一定的终止条件的函数。定理1.贝尔曼最优化原理 假设是可分的度量空间, 和是一致连续,并且存在常数使得对于,有则对于任何和任意有:
6、 (5)方程(5)就是我们通常所讲的动态规划方程。也就是说,全局最优一定导致局部最优,这也是贝尔曼原理的精髓。定理2. HJB equation 如果值函数:则是如下带有终止条件的一阶偏微分方程(HJB equation)的解 (6)定理的简要证明:固定,让为控制的相应状态轨迹,由贝尔曼原理,由:对于任意,有 另一方面,对于任意当充分小,存在使得,这也就有。例:考虑如下系统; 目标函数为解:根据以上分析,系统的拉格朗日型值函数为令则HJB equation为若优化区间为无穷的大,则 我们求解以下微分方程:为了求解上述非线性微分方程,将V(x)展开成如下级数形式:令n=4,则得所以最优控制作用为
7、闭环系统为随机控制问题设为一布朗运动,我们考虑如下随机控制系统: (7)定义区间上可测的允许控制集,和是适应的,最优随机控制问题就是如下允许集下的成本函数 (8)值函数就是如下系统下的极小化函数:设,我们考虑区间上以下控制系统 (9)这里控制,成本函数是我们定义值函数如下: (10) 定理3 .贝尔曼最优化原理 对于任意和任意有定理4. HJB equation 如果值函数:则是以下带有终止条件问题的解: (11)3. Mertons problem我们假设市场上只有两类资产进行投资:无风险资产(银行储蓄)和风险资产(股票),它们的价格分别定义为和,并且由以下方程决定: (12)这里是无风险利率;和是常数分别称为股票的回报率期望值和波动率。现在我们考虑市场中的一个投资和消费组合问题,假设一个投资商具有初始财富,在时刻,投资者拥有份额风险投资和份额
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽阳安全员培训课件
- 统编人教版四年级语文下册《综合性学习:轻叩诗歌大门》教学课件
- 矿大测试技术试题题库及答案
- 辅警岗前培训课件
- 中国银行2025永州市笔试行测高频题及答案
- 交通银行2025张掖市秋招英文面试题库及高分回答
- 交通银行2025朝阳市信息科技岗笔试题及答案
- 2025年3D打印技术的工业革命影响
- 邮储银行2025结构化面试15问及话术河南地区
- 工商银行2025石家庄市秋招笔试专业知识题专练及答案
- 月子会所运营方案
- 排污单位自行监测方案编制模板
- 工作安全分析JSA杜邦
- YY 1727-2020口腔黏膜渗出液人类免疫缺陷病毒抗体检测试剂盒(胶体金免疫层析法)
- 粘膜免疫系统概述
- 10室外配电线路工程定额套用及项目设置
- 钢板桩及支撑施工方案
- 急救中心急救站点建设标准
- 冷藏车保温箱冰排使用记录
- 幼儿园课件我从哪里来
- 精细化学品化学-课件
评论
0/150
提交评论