已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文 多目标约束连续时间马氏决策过程 的折扣模型 摘要: 专业:概率论与数理统计 学位申请人:刘冰冰 导师及职称:戴永隆教授 郭先平教授 本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连 续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数 的折扣期望满足约束条件时,使目标报酬率函数的折扣期望最大的最优决策的存 在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在,也进一步 证明存在平稳的约束最优策略,而且约束最优平稳策略可选择的行为的个数不会 超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转 换,把连续时间模型转换成离散时间模型,再通过解决转换后的问题来解决原问 题的。最后我们通过一个例子进一步说明本文所得的结果。 关键词:连续时间马尔可夫决策过程;有界转移率函数;上半连续报酬率函数; 折扣准则:m 一随机平稳策略 墨旦堡丝塞墨堡堕堡呈垦盗整垫墨竺堑! ! 壅型 m u l t i co n s t r a i n e dd i s c o u n t e dt 讧o d e l i nco n t i n u o u s t i m e m a r k o vd e c i s i o np r o c e s s e s a b s t i - a c t : m a j o r :p m b a b i l i t ya n ds t a t i s t i c 8 n a m e :l i ub 抽g b i n g s u p e r v i s o r :p r o f c s s o rd a iy o n 百o n g p r o f c s s o rg u o ) ( i 唧i n g i n t h i st l l e s i s ,w es t i l d ym m t i c o n s 心a i n e dc o n d n u o u s t i m em a r k o v n 仃o lp r o c e s s e s 谢mad e n m c r a b l es t a t es p a c e ,ac 锄d p a c ta c t i o ns p a c e ,b o u n d e d 破m s 试o nr a t e sa i l d u p p e rs e i 血- c o n 咖u o u sr e w a r dr a t e s w ew i l lp m v em ee x i s t e n c eo fa no p t i m a lp 0 1 i c y t om a x 疵z et h ee x p e c t c dd i s c o u n t e dr e w a r do ft 1 1 et a r g e tr e w a r df a t e ,u n d e rs e v e r a l i n e q u a l 姆c o n s 廿a i n t so n 蚀ed i s c o u n tc r i t e r i o nw i t ho m e rr e w a f dr a t e s w e 舀v e c o n d i t i o n st l l a te n s u r cm ee x i s t c n c eo fc o n s 仃a i n e d - o p t i m a lp o l i c i e s a n dw ea l s o p r o v e 也ee x i s t e n c eo fo p d m a ls t a t i o n a r yp o l i c i e sa 1 1 di ti ss t o c h a s t i c 锄o n gs e v e r a l a c t i o n s 、m en u “l b e ro fw h j c hi sn om o r e 也a 1 1m en u n l b e ro fc o n s 仃a i n e dc o n d i t i o n s p l u sm en 啪b e ro fa c t i o n sas t a t i o n a r yd c t 廿1 i l i i l i s d cp 0 1 i c yp l a y i n gd u r i n gm ew h o l e p m c e s s w bs o l v et h eo r i 西n a lm o d e lt 1 1 r o u g hs h i 丘m gm ec o n t i n u o u s - t i _ m er n o d e li n t o d i s c r e t e t i m em o d e l 跖ds o l v i n gt h en e wm o d e l a tm el a s tp a r to ft l l ep 印e r ,w eu s e a ne x a m d l et oi 1 1 u s 仃a t eo u rr e s u l t s k e yw o r d s :c o m i i l u o u s d m em a r k o vc o n 廿0 1p r o c 朗s ;b 0 1 l n d e d 仃a l l s i t i o nm t e s ; u p p 盯s e i n i c o 谢n u o u sr e w 盯dr a t e s ;d i s c o l l i l t e d 谢t e r i o n ;m - r a n d o l i l i z c ds t a t i o n a i y p 0 1 i c y l 多目标约束连续时间马氏决策过程的折扣模型 第一章引言 随着生产、经济、技术及社会科学的发展,工程技术、管理人员在实际工作 中经常碰到一些最优化问题。比如:超市应该采取何种进货制度才使得商品供应 及时且利润最高;银行应设立多少个服务窗口才能在满足客户某个程度的要求的 前提下,费用最省;生产计划安排中,选择怎样的计划方案才能满足产值达到某 一水平且利润最大:城建规划中,应该怎样安排学校、医院、住宅及其他单位的 布局,才能方便群众,有利于各行各业的发展;等等。这类问题的共同特点就是 要在所有的可能方案中选出最合理的、达到事先规定的最优目标方案,即本文中 的最优策略。 而在上述的这些领域中有很多现象在时间上有所谓的“无后效性”,即“现 在”、“将来”与“过去”无关,如超市应进货多少只与现在的库存量有关,而与 昨天甚至是前一时刻的库存量无关。这种具有所谓的“无后效性”的随机过程就 叫马尔可夫过程,简称马氏过程。马氏过程是随机过程的一个重要分支,它在生 物学、物理学、化学、天文学与天体物理学、运筹学、经济学等领域都有广泛的 应用。在一系列相继的或连续的时刻( 称之为决策时刻) 根据观察到的状态采取 一些行动对过程即将进入的下一状态进行控制,并获得一定的报酬( 或费用) , 这样的马氏过程便是马氏决策过程。本文研究的便是马氏决策过程中折扣准则下 的多目标约束的最优问题。 1 1 马尔可夫决策过程的发展历史 马尔可夫决策过程的研究已有几十年的历史,也取得了很多进展。文献 3 8 】 的序贯分析和统计决策函数便开始了马氏决策过程的研究,4 0 年代末5 0 年代初 关于序贯对策论的研究已涉及到马氏决策过程的些本质概念。文献【3 、 4 】、 3 5 】等在马氏决策过程的有关方面做出了特别的贡献,但其中大多都只研究有限 阶段的马氏决策过程。 多目标约束连续时间马氏决策过程的折扣模型 文献 2 4 】奠定了马氏决策过程作为一个独立研究学科的基础,书中研究了折 扣准则和平均准则,以及值迭代法和策略迭代法。另外,它证明了对于有限状态 集和策略集,其策略迭代法所得到的平稳策略在整个策略范围内也是最优的。在 马氏决策过程的研究中,最初提出的报酬函数都假定为有界的,早期的文献【1 9 、 2 7 】、【3 9 、 4 1 等研究了折扣准则的无界报酬模型。文献 2 9 对离散时间马氏决 策过程做了系统的研究,讨论各种情形下( 如:状态空间、行动空间都有限,状 态空间可数、行动空间紧致,状态空间、行动空间都是紧的空间等) 的离散时间 马氏决策过程的最优解的存在性问题,并给出了有限阶段的最优策略的算法。文 献【1 0 】解决了离散时间下,具有可数状态空间和紧的行动空间的多目标约束马氏 决策过程折扣模型的最优问题,并通过给定一些条件证明了多目标约束马氏决策 过程最优策略的存在性,同时给出了最优策略的一些性质。 应该说,离散时间马氏决策过程的研究已经比较完善了,连续时间的马氏决 策过程的问题也早在1 9 6 0 年h o w a r dr 便提出来了。文献 2 8 进一步研究了有限 状态和有限行动集条件下的连续时间马氏决策过程,文献 2 5 和 2 6 】研究了可数 状态和有限行动集且状态转移率和报酬率函数均一致有界的连续时间马氏决策 过程。文献【1 7 】研究了折扣准则下,可数状态空间和紧的策略空间且报酬率和转 移率函数可能均无界的连续时间马氏决策过程,并且提出了一些条件,使由转移 率矩阵( q 一矩阵) 生成的非齐时q 一过程是规则的( 即诚实且唯一) ”】,该文 还证明了存在占一最优平稳决策,即对状态空间s 中的任一状态f ,任一实数 s 0 ,存在平稳决策p ,满足折扣报酬期望矿( f ,咖s u p 矿( f ,石) 一s ,为策略空 i e r i 间。文献 1 8 研究了可数状态空间和紧的行动空间的连续时间单个目标约束条件 折扣模型,并证明了在折扣准则下,单个目标约束马氏决策过程存在最优平稳策 略万,且石至多在一个状态下有两个可选择的行为,在其它状态下所采取的行动 是确定的,即在其他状态下,厅等价于一个平稳决策。连续时间马氏决策过程的 研究也已经相当深入,并已取得很多成果和进展。 2 多目标约束连续时间马氏决策过程的折扣模型 1 2 准则 在最优控制问题中,准则的引入是为了比较策略的优劣。其目的是根据某一 给定的准则在所有允许的策略中寻找一个使目标函数值达到最优( 比如目标函数 值最大或最小) 的策略。在马氏决策过程中常用的准则有:有限阶段总报酬准则、 折扣准则、平均准则。 有限阶段总报酬准则:对o ,策略万下的阶段总报酬期望定义为: 一1 ( 丌,f ) = 霹,( ,) ,f s 。它表示使用策略石,从状态f 出发,到一1 时系 月= 0 统所获得的期望总报酬,k 表示时刻栉系统所处的状态,口。表示策略万在时刻九 采取的行动。r ( _ ,吒) 是在状态下,采取行动吒所获得的报酬。 有限阶段总报酬准则只关心整个过程所获得的总利润,对于利润在过程的哪 个时期实现并不关心,该准则忽略了时间成本,而且有限阶段总报酬准则一般只 用于报酬函数有界的模型中。 折扣准则;该准则下( 离散时间) 的报酬期望定义为: 矿,f ) = 耳“,( ,口。) ,f s , o 卢 o 为折扣因子。 这里_ ,分别表示时刻n ,f 系统所处的状态,4 。,q 分别表示时刻n ,f 所采 取的行动。如上定义,r ( ,口。) 、,( ,口,) 为报酬函数。 折扣准则具有一定的经济意义:基于经济上的利率( 设为p ) ,现在的一元 钱与将来的一元钱不能等同看待。般说来,现在的一元钱到将来便大于一元钱 将来的一元钱到现在就不值一元钱了。为了克服不同时刻报酬的这种“不一致 多目标约束连续时间马氏决镱过程的折扣模型 性”,应引入折扣因子= 士,这样便可以把将来的赢利等价地转换成现在的 l 十口 赢利,即经济中的现值。一般金融领域中都用折扣准则。 平均准则:其定义为:y ( 万,f ) = 亘坐去( 石,f ) ,f s 。它表示策略万从状态f “ 日v - 广i 出发长期运行的平均期望报酬,( 万,f ) 为到时刻的报酬总期望。对于平均准 则,有限阶段平均期望报酬的极限不一定对所有的策略万和状态i 都存在,因此 定义中取成下极限。下极限总存在,它表示在策略万下的最“坏”可能的渐近平 均期望报酬,对策略,r 而言,是一种“悲观”测度。与之相反,若在定义中取成 上极限,则它也总是存在,并且表示在策略石下的最“好”可能的渐近平均期望 报酬,对策略丌而言,这是一种“乐观”的测度。 平均准则是无限阶段随机动态系统最优控制中的常用准则。当需要最优化的 阶段足够长,而且较短阶段并不比较长阶段更重要时,就可采用平均准则,比如 对于相对较快地进入“稳态”运行的系统来说( 如通信网络) ,采用极限的时间 平均报酬准则是比较合理的。 在数学处理上,折扣准则有着非常完美的结果,但平均准则只在有限状态集 和决策集的情形下有完美的结果。在折扣准则中,将来的报酬按折扣率 ( o 卢 0 ,口为折扣因子 3 ) 存在常数m 。,膨2 ,使得s ,口4 ( i ) ,有 匕( i ,d ) i s 蝎+ 月( f ) ,川= o ,1 ,吖 4 ) 存在s 上的非负函数脚和常数c + o ,6 o ,m 0 ,使得v ( f ,口) e 置 g ( f ) r ( f ) 4 国( f ) ,且g ( l f ,疗) 出。( ,) c 国o ) + 6 。 假设3 :1 ) v f s ,4 ( f ) 是紧的 2 ) 固定f s ,0 ( f ,口) ( m = 0 ,1 ,m ) 是4 ( f ) 上的上半连续函数; 3 ) 固定f ,s ,g ( ,j f ,n ) ,g ( ,l f ,4 皿( ,) 是爿( f ) 上的连续函数。 注l :假设1 说明转移率函数g ( ,j f ,口) 是有界的,这保证v 疗n ,q ( f ,石) 生成的 q 一过程是正则的,即诚实且唯一m 1 。假设1 还是连续时间模型转化为离散时间 模型的一个条件。用p ( f ,f ,万) 表示当初始状态为f 时,采用策略万,时刻f 状态 为,的概率,即q ( f ,万) 生成的正则的q 一过程,并记其对应的马氏链为 x ( ,万) ) 。 若给定初始状态f ,则用只8 和研分别表示相应的概率测度和期望值。 注2 :假设2 的2 ) 在第三章的引理3 1 中会用到。如果报酬函数_ ( f ,4 ) 在世上 一致有界,则假设2 的3 ) 恒成立。 注3 :假设3 由一些紧致、连续条件组成删1 2 9 。若o ( f ,口) ( 删= 0 ,l ,m ) 是爿( f ) 上的连续函数,则假设3 的2 ) 自然成立:假设3 的3 ) 是很多控制方面 的问题所要求的条件之一” 1 ”】。 定义圪( f ,万) = f e 一“矸o ,z ( f ,石) ,石) 出( m = o ,l ,m ) 分别为报酬率函数 ( j ,口) 咖= 0 ,1 ,) 的折扣期望,其中口 o 为折扣因子。 9 2 3 模型及结论 给定l s 及常数鱼,魄,k ,我们考虑以下问题: 肘酞f m f z e ( f ,石) s f 吒( f ,玎) 6 m ,m = 1 ,m 假设4 :记兀:= 万n ,:( f ,石) 6 m ,v f s ,m = 1 ,2 ,m ,n ;不为空集e 对问题( 2 6 ) 一( 2 7 ) 的解,我们有以下结论。 ( 2 。6 ) ( 2 7 ) 定理2 1 :设假设1 、2 、3 、4 成立,则存在个m 一随机平稳策略石+ 。满足 问题( 2 6 ) 一( 2 7 ) ,即问题( 2 6 ) 一( 2 7 ) 有解,且存在m 一随机平稳策略 解。这里m 一随机平稳策略,r + 定义为:记( f ) = 口4 ( i ) :万0 1 i ) o ,l ( f ) l 表 示集合( f ) 中所含的元素个数,则( p 。( f ) 卜1 ) m 。 注:定理2 1 是本文的主要结果,它表明存在满足约束条件( 2 7 ) 的最优随机平 稳策略石+ ,雨且在策略石下,任何时刻决策者有可能采取的行动个数比平稳策 略所采取的行动个数多肘,即约束条件的个数。换个角度说,石+ 至多在肘个状 态下是随机的,在其它的状态下所采取的行动都是确定的,而且在任一可随机选 择行动的状态门:,其可选择的行动个数不会超过m + 1 个,并且所有的状态下万 可能采用的行动个数不会超过平稳策略所采用的行动个数加上约束条件的个数。 1 0 多目标约束连续时间马氏决策过程的折扣模型 第三章模型的转换 回忆第一节提到的总报酬折扣期望为吃( f ,万) = j - p 一“耳( f ,工( f ,万) ,万净, = 0 ,1 ,m 。我们的目标是解决问题( 2 6 ) 一( 2 7 ) 。 3 1 连续时间下的几个方程 定义3 1 :尺如第二章假设2 ,为定义s 上的非负函数,任一s 上的函数“,称“ 与足一致,当且仅当存在与“有关的两个常数c 1 ( “) 和q ( “) ,满足: k o ) l c ,( “) + c 2 ( ) 显( f ) ,v f s ; 并用“_ r 表示“与月一致。 记坟( s ) = - 甜:“ 0 的情况,其他情况的证明类似,就不详述了。 由假设1 、2 、3 成立,则v f s ,石,任一聊 1 ,m ,有 多目标约束连续时间马氏决策过程的折扣模型 p 驴巾州荟如 列水朋噼 f e “丢阢,旧刮 薹p c 川 石,c m + 乇r c 砌卜 = m r e l 萎瞰,晴刮斑+ a 疋f e l 萎瞰,旧刮 蒸p ( 石) r ( 砌卜 型警啦p 渺川硝嗤删朋虎 = 型竽+ 等p 叫。驴旧万) p 也p 叫7 驴旧啪膨 学竽+ 掌奖+ m :p 】f ( 唧) m2 驰) 球) 弦 甜 “盯一c 、 b 、 :! 丝! ! ! 塑+ ! ! 型2 堡l ! ! + 丝2 1 堡! 堕垒! ! ! 1 2 墨! 1 2 1 口 c ( 口一c ) 窃一c 因此,由f u b 酗定理及k 0 1 i i l 0 9 0 r o v 方程,可得: ( f ,石) + 善g ( j f l ,石) 【f p 一“善p ( j ,啦,万) k ( 豇,石砂 j e d# e j = 拍万) + f p 一“g ( 小力) p ( , l j ,石】( j j ,万) t e s,e s 吲扣) + 善 p 盟丝聪厅) 2 能卅荟妒啊“圳挑( 如m 荟 p 嘲咖贼( 咖) = 名( f ,疗) 一名o ,万) + 口f 8 一“p ( f ,f ,i ,石) ,m ( 七,万) 出 e j 多目标约柬连续时间马氏决策过程的折扣模型 = 口吃( f ,石) 即有口吃( f ,万) = ( f ,石) + g ( ,i f ,万) ( f ,石) ,v f s ,万, ,e 5 即( f ,石) 为方程伽( f ) = ( f ,万) + g ( f ,石) “( ) 的解。 j s 再由假设1 、2 成立,知文献 1 7 的假设a 、b 成立,因此由文献 1 7 】的引理6 2 的a ) 、b ) 知方程( 3 2 ) 的解是唯一的。 证毕。 3 2 模型转化 由假设1 知s u p g ( f ) ,令 = l + s u p g ( f ) ,则( 3 1 ) 、( 3 2 ) 可变为 i e 5 l e 5 砸,= 恶 南忡,+ 熹萎 扣旧小岛) w ,卜s 限。, “( f ) = i 1 _ 名( f ,力+ 熹丢g g u 力+ 岛 “u ) ,v f s 沏_ 1 ,2 蚴( 3 4 ) 令卢为:= 熹 ( 3 5 ) 对任何f s 及口彳( 0 以及万,为离散时间下的平稳策略,令转移概 率和报酬函数分别为: 砌旧口) = 去砌旧卅岛,砌限万) = l 舢咖( 如旧 ( 3 6 ) ( f ,a ) = 否 i ( f ,4 ) ,( f ,石) = 。,( f ,口) 万( d b f ) ,( 埘= o ,l , f ) ( 3 7 ) 则( 3 3 ) 一( 3 4 ) 可改写为。 1 4 多目标约束连续时间马氏决策过程的折扣模型 峒= 恶卜卅薹舢纠砌,) ,v f s s “( f ) = ( f ,石) + p ( ,i f ,万) m ( ,) ,v f s ( 埘= l ,2 ,- ,朋) 则( 3 1 ) 一( 3 2 ) 与( 3 8 ) 一( 3 9 ) 是等价的。 ( 3 8 ) ( 3 9 ) 引理3 2 :若假设2 成立,折扣因子声及艺( f ,口) 、t ( f ,石) 、p ( ,旧口) 、p ( ,j f ,万) 的 定义如( 3 5 ) 、( 3 6 ) 、( 3 7 ) ,则v f e s 为初始状态, 圪( f ) = 8 u p “e ( ,4 。) 乓( s ) ,这里n 。为随机策略集( 见第四 f e lj o 章定义4 1 ) ; v 万,吃( f ,石) = ”可( 矗,吒) ( s ) ,m = 1 ,2 ,m 。 证明:由假设2 的3 ) 知v f e s ,1 名( i ,) l s m + 鸩r ( f ) ,m = o ,l ,膨,这里m 。、 鸠、r 如假设2 。 因此,4 ) 卜熹m + 熹鸩即) 。 由假设2 的1 ) ,可得 = 耖羔+ 驴羔删, 1 l一口刮训尝 k i 讯 帆 喘 鹏 腭 晖 。驴。驴 多目标约束连续时间马氏决策过程的折扣模型 :丝! + ) ( 1 一) 丝 ( 口+ ) ( 1 一) = 志+ 羔c 尚肿高,( 口+ ) ( 1 一卢)口+ 、( 1 一卢) 、7 ( 1 一声) 7 一一当! :+ 丝2 皇+ 竺坠竺r ( f ) ( 口+ ) ( 1 一声)( 口+ ) ( 1 一) ( 盯+ ) ( 1 一声) 、 令c - 2 i 志+ i 羔,c := i 云端,则有 1 ( 口+ ) ( 1 一芦)( 口+ ) ( 1 一声) 2 ( 口+ ) ( 1 一卢) 1 “ 吒( f ,万) l sc 1 + c 2 r ( f ) ,v 万兀枷,肌= o ,l ,m 。 l 司此,有巧( f ) 岛( s ) ;吒( f ,万) ( s ) ,v 万e n ,m = o ,1 ,吖。证毕。 引理3 3 :设假设1 、2 、3 成立,则“( f ) 为最优方程 硼,= 恶卜卅萎砌旧咖卜s 在曝( s ) 中的唯一解。 v 万,圪( f ,硝) ( m = 1 ,2 ,m ) ,分别为方程 “( f ) = ( f ,万) + p ( - ,l f ,万) “( ,) ,v f s ( 珑= l ,2 , f ) 在乓 ) 中的唯一解。 证明:定义算子p 、p 为: p ( f ) = p ( ,i f ,口) ( ,) ,爿( f ) ; 1 6 u 月 足 + 、厅, 护, b + “ 胡 肿矿 疗 疗 。 。 等 等 z ( f ) = o ,4 ) + p 4 ( f ) ,、叮ke 4 “) 。 定义最优算子不:磊 ( f ) = s u p 野 ( f ) ,则由文献 2 1 的定理6 7 ,文献【9 的 n e “1 第六章第一节及文献 37 的定理2 1 知巧( f ) 最优算子瓦的不动点,即“( f ) 满足最 优方程矿= 五矿。由于o 1 ,因此矗是个压缩映射,因此,巧( f ) 是最优方程 矿;瓦矿的唯一解。 由于万,是随机平稳策略,由砭( f ,石) 的定义知吒( f ,万) 沏= 1 ,2 ,m ) 是 ( 3 9 ) 的解。 v 万n ;,定义算予p ,巧沏= l ,2 ,m ) 为: 尸4 o ) = p ( ,i f ,r ) ( ,) ,v 万n , 巧 ( f ) = ( f ,万) + j 口p 4 ( f ) ,v 万n ,a 同理,由o o 是 有限集。 引理4 6 :”1 设席为p 口即幻最优策略,则存在y s 及予模型占+ ,使得 1 ) ( ) 是单点集,w 趴y ; 2 ) 占+ ( ,) 是有限的,】,; 多目标约束连续时间马氏决策过程的折扣模型 3 ) 存在策略盯n 8 ,使得y ( f ,= y ( f ,万) 。 为了方便后面的证明引用子模型矿,也为了更好地说明子模型口+ 的构造, 这里附上该引理的证明。 证明:随机策略盯及平稳策略p 如引理4 5 ,记 曰( f ) = ( f ) ) ,v f s y ,一】、 占+ ( f ) = y ( f ) ) u lu 群( f ) l ,v f 】, n 年1, 其中、群( f ) 如引理4 5 ,则子模型口+ 满足1 ) 、2 ) 。 再由引理4 5 的1 ) 知道3 ) 成立。证毕。 y 至s ,定义掌( 吃) = ( t y ) ,吃h 。,l e n ,f ( 玩) 表示到时刻”,整 个过程在y 所花的时间( 不算初始时刻) ,r 表示过程第j 次进入y 的时刻( 不 计初始状态) 。 矿( k ) = o ,f ”1 ( k ) = m i n n f 7 :】,) = r n i n ” o :孝( 吒) = ,+ 1 ) ,蚝h 。 令反吃) = ”一f 孙( k 魄】) ,财p ( 吃) 表示距离最后一次访问y 的时间长,其中 k 缸】eh 。表示前,1 个时刻的运行轨迹为以。 定义4 1 0 :1 2 1 策略万称为随机】,一嵌入的,若对w s ,v | ,z n 。,存在策略万, 满足万( 一( ,) i ,| ,) = 1 且万( l 吃) = 万( - ,f ( 吃) ,目( 吒) ) ,v 吃h 。 v 石h 。,定义随机】,一嵌入策略盯为:w s ,f n 。及曰d 旭,集c 4 ( - ,) , 邢m “,= 兰蔗赢麓“吐截 加“b “吵0 多目标约束连续时间马氏决簟过程的折扣模型 引理4 7 :口2 1 设z 。为任一随机策略,y s ,盯为如上定义的随机y 一嵌入策 略,则w s ,z ,f n o ,肋m ,集c 一( ,) ,有: 甲( + ,= ,0 + ,c ,一“一+ f ) = 彳。= ,勺。c ,一+ 1 一+ 0 且( f ,盯) = ( f ,疗) ,m = 0 ,1 ,m 。 引理4 8 :【1 0 4 1 如果状态空间s 和行动空间a 都是有限的,则对任一p 口,p f 0 最优 策略万,存在等价的时一随机平稳策略。 定义4 1 l :一个过程称为是半马氏决策过程( s m d p s ) ,若过程在任一状态逗留 时间为非负随机变量且其期望值大于o 。 注l :离散时间下,折扣准则下的半马氏决策过程( s m d p s ) 可转化为马氏决策 过程瞰1 ,此时折扣因子依赖于状态f 及行动口,即= 卢( f ,口) 。若状态空间s 和 行动空间爿都为有限集,则存在0 卢+ 1 ,使得o 卢( f ,d ) + ,v f s ,口4 。由 文献 1 3 的定理4 _ 3 及引论4 4 知对半马氏决策过程( s m d p s ) 的任一策略万, 其等价的马氏决策过程存在一个策略盯,满足( f ,盯) = ( f ,石) ,m = o ,1 ,m 。 注2 :若马氏决策过程的折扣因子卢= ( f ,4 ) ,且存在0 1 ,使得: o 卢( f ,口) s 矿,l s ,以e a , 则该决策过程可转化为标准马氏决策过程。可通过两个方法证明该结论:一是验 证标准马氏决策过程的所有结论都能推广到具有不定折扣因子的马氏决策过程: 二是把具有不定折扣因子的马氏决策过程嵌入到一个更大的马氏决策过程中去, 如:给状态空间s 添加一个新的元素广,并定义一( f ) = 4 ) ,( 广,口+ ) = o , m = o ,1 ,吖。重新定义转移概率,为: p + ( 一广,口) = 1 , p b 旧加丝学业p ( f 旧加lp + ( 小a ) ,其中i ,j s ,d 爿( i ) 。 ,e j 因此,我们便把具有不定折扣因子的半马氏决策过程转化为折扣因子为口的标 准马氏决策过程。 注3 :引理4 8 及上面的注1 、注2 表明具有m 个约束条件的半马氏决策过程折 扣模型,若其状态空间s 和行动空间一为有限集,则对其任一忍旭幻最优策略, 存在等价的m 一随机平稳策略。 定理4 9 :若万是p 口比f d 最优策略,则存在等价的吖一随机平稳策略万+ 。 证明:考虑引理4 6 的子模型b ,y s 如引理4 6 ,定义以l ,为状态空间的半马 氏决策过程,为从f y 出发到下一次进入y 所历经的时间,当f l 6 0 矛盾。因此,有= 6 。若 “矿( f ,n m ,) ,则由引理4 2 知,存在v = ( v o ,v 1 ,) 矿( f ,n 。) ,满足v 2 “, 因此亦有v 0 岛,由前面的证明可得v 0 = 。因此,n r ( y ) 中的点的第一个分 量也为6 0 。进一步地,有:砌r ( 矿。) = n r ( 可口i = 动= 凡r ( 矿( f ,。) ) 。由于 兀7 兀。,且不为空集,因此,有: 忍r ( 矿( f ,n 脚) ) = 肋( 矿( j ,n 胁,) ) m = ( ,q ,) r + 1 :2 ,m = o ,l ,m 。 因此,心,( 页玎霸) = 忍r ( y ( f ,。) ) 儿 所以,有:肋( y ) = 砌r ( 双玎霸) = 忍r ( 矿( f n 。) ) 。 第五章定理2 1 的证明 本章将利用第三章的模型转化和第四章新模型的结果来证明定理2 1 。这里 。仍表示为平稳策略集,s 仍为可数的状态空间,爿( f ) 为状态f s 下可采取的 行动空间,仍为紧空间。连续时间下的报酬率函数0 0 ,口) ( m = o ,l ,m ) 、转移率 函数g ( ,l f ,口) 、折扣因子口和策略集如第二章所定义。新模型的报酬函数 ( f ,口) 、转移函数p ( ,l f ,口) 、折扣因子卢和随机策略集。如第三章所定义。 v l s ,筇,吒( f ,石) = f e 一“譬( f ,x ( f ,万) ,厅) 盔= o ,1 ,m ) 为连续时间 下的折扣报酬期望函数,碥( f ) = s u p k ( f ,疗) 。 z e n v f s ,万,吃( f ,石) = 霹芦”( ,) ( 肼= o ,1 ,2 ,m ) 为离散时间下 的折扣报酬期望函数,“( f ) = s u p “( f ,万) 。 e n m f 由第三章的3 2 知:( f ) = 巧o ) ,且v f s ,石n ;,吒( f ,玎) = 圪o ,丌) , l 珊m 。 定理2 1 的证明:记;= 万,:( f ,万) 6 m ,v f s ,脚= 1 ,2 ,m 。由假设4 知n :不为空集,由( 1 ,口) ,p ( ,1 f ,口) 及的定义知: 万q :圪( f ,力,墨蜥= l ,2 ,嘲 = 万n 。:嘭g ,万) ,v i s ,豌= l ,2 ,m 即问题( 4 1 ) 一( 4 2 ) 有可行解,因此,由第四章的定理4 1 知存在一个m 一随 机平稳策略万;,满足( f ,万) = “( f ) ,即石+ 是最优的。则巧( f ,万) ,吃( f ,石+ ) ( m = 1 ,2 ,m ) 分别是( 3 8 ) 、( 3 9 ) 的解。由于方程( 3 1 ) 、( 3 2 ) 与( 3 9 ) 、( 3 8 ) 多目标约束连续时间马氏决策过程的折扣模型 是等价的,而且它们的解都是唯一的,因此巧( f ,万+ ) ,吒( f ,万) 仰= l ,2 ,m ) 亦 是方程( 3 2 ) 、( 3 1 ) 的解,即问题( 2 6 ) 一( 2 7 ) 有m 一随机平稳最优策略。 证毕。 第六章例子 马氏决策过程在很多领域有着很广泛的应用,如:生物学、物理学、化学、 天文学与天体物理学、运筹学、经济学等,马氏决策过程在经济学中的应用主要 在投资、博奕、存货进货系统等方面的最优问题的解决。本章将通过一个存货进 货的例子来说明前面几章的主要结果。 6 1问题的提出及问题的模型 f 口,萄= f + 1 砌旧加弦箬i i o ,其它 多目标约束连续时间马氏决策过程的折扣模型 f 口,萄= i + 1 删棚:扛苎亨i 。 1 2 0 ,右y 2 l l i o ,其它 利润报酬率:r o ( f ,口) = 加一臃一“( 口) 顾客信誉率:( f ,口) = 畸+ m 供应商信誉率:吩( f ,口) = 岛o ,口【h ,鸬】; 这里常数毛,屯 0 。 对于给定的折扣因子口 o ,我们希望找到最优策略存在的条件,以确定使 利润最大且又满足约束条件的策略。 我们提出以下条件: a l :五 口: a 2 :“( d ) 在,总】上连续且有界 a 3 ;初始分布满足卢( o ) = 0 及( i ) = o ,当f f 0 ,f 0 s 为上面提到的固定状 态; a 4 :c 1 口- 1 岛,c 2 岱_ 1 h - 吃。 定义圪( f ,万) = f e 一“骘( f ,x ( f ,石) ,万) 疵,沏= o ,l ,2 ) 该问题的模型为: 孙咖妇虼( f ,石) 5 j 圪a ,万) c 二,m = 1 ,2 ( 6 。1 ) ( 6 2 ) 多目标约柬连续时间马氏决策过程的折扣模型 6 2 最优解的存在 定理6 1 :在条件a 1 、a 2 、a 3 、a 4 下,上面的问题满足假设1 、2 、3 、4 ,因此 由定理2 1 知,该问题存在满足约束条件的2 一随机平稳最优策略。 证:先证明满足假设1 。由g ( f ,口) 的定义知,显然假设1 是满足的 下证假设2 令r ( f ) = f ,则: 当i = o 时,g ( ,l ,口) r ( ,) = o 亢晨( o ) + 段; 当o f f 。时,譬( ,i f ,口) 震( j ) = 一五f + 口蔓z 只( 1 ) + 照; e s 当f f 0 时,目( f ,) r ( ,) = 一五f o + 4 五月( f ) + 心; ,s 令假设2 的1 ) 中的c = 旯,6 = 如即可。 由a 1 ,知假设2 的2 ) 满足: 由( 口) 的定义知:令m = m 缸 镌m 。嚣爱,“。) ,由a 2 知m 。 令 疋= m a 】c 墨五,i 口五一6 b ,贝4 有 k o ,) i s m ,+ 如胄( f ) ( m = o ,1 ,吖) 则假设2 的3 ) 成立; 令脚( f ) = + 五f ) f ,6 = 口2 + 4 丑,则假设2 的4 ) 亦得到满足。 由a 2 及名( ,f ,口) 、g ( 川f ,口) 的定义知假设3 成立。 下证存在疗。,使得( 6 - 2 ) 成立。 由于( f ,口) ;墨+ z f 南,因此,v f s ,万n * ,有: 多目标约束连续时间马氏决策过程的折扣模型 k ( f ,石) = f 矿“f ( f ,工( f ,石) ,丌) 出f p 一“譬毛出= 口。畸= q ( 6 3 ) 由于屹( f ,口) = 屯口,因此,v f s ,万n m ,有: 吃(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 稀土挤压工发展趋势考核试卷含答案
- 地勘掘进工达标知识考核试卷含答案
- 化妆品制造工岗前技能安全考核试卷含答案
- 矿车修理工9S执行考核试卷含答案
- 我眼中的七彩通化书信作文500字
- 工作中复习考试请假条
- 2025 小学一年级科学下册鳞片的不同动物课件
- 2025 小学一年级科学下册自然现象的小实验课件
- 2026年智能应急灯项目投资计划书
- 环网柜基础培训课件
- 2026年日历表含农历(2026年12个月日历-每月一张A4可打印)
- 道闸施工方案
- 脱盐水装置操作规程
- 湖南省张家界市永定区2023-2024学年七年级上学期期末考试数学试题
- 2023-2024学年江西省赣州市章贡区文清实验学校数学六年级第一学期期末经典模拟试题含答案
- 事业单位考察材料范文
- DB36-T 1158-2019 风化壳离子吸附型稀土矿产地质勘查规范
- 周围神经损伤及炎症康复诊疗规范
- 青海工程建设监理统一用表
- 城市道路照明路灯工程施工组织方案资料
- GA 38-2021银行安全防范要求
评论
0/150
提交评论