马尔可夫过程CTMDP-DTMDP-SMDP区别与联系.doc_第1页
马尔可夫过程CTMDP-DTMDP-SMDP区别与联系.doc_第2页
马尔可夫过程CTMDP-DTMDP-SMDP区别与联系.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DTMDP、CTMDP、SMDP数学模型联系与区别(1)DTMDP数学模型:可用一个五元组来表示,其中:S:系统状态集合;:动作集合,反映了agent在状态s时可用的动作集;:状态转移概率矩阵,反映了agent在状态s时执行动作a后在下一个时间步转移到状态s的概率;:立即奖赏矩阵,反应agent在状态s执行动作a后转移到s获得的一步立即奖赏,一般也称之为报酬; :目标函数或准则函数,即累积奖赏,决策的目标即使该函数最大化。对于离散时间MDP决策过程,可以把每个状态的逗留时间看做一个单位时间,即设决策时刻。表示t决策时刻的状态,表示时刻选择的行动,表示在状态采取行动转移到下一个状态的概率,表示下一时刻的实际到达的状态,表示在t+1时刻获得的立即奖赏,也就是在状态采取行动获得的奖赏,目标函数即累积奖赏,一般可采用以下两种形式。无限折扣和模型:考虑短期回报,和平均奖赏模型:考虑长期平均回报,其中为折扣率。决策目标是寻找最优的策略使agent获得最大的上述累积奖赏。(2)CTMDP数学模型:对于连续时间MDP过程,其时间域是连续的,每个状态的逗留时间服从指数分布,由于指数分布的无记忆性,任意时刻都是更新点,在任意时刻都具有马尔可夫性。对于CTMDP,代替离散时间模型转移概率矩阵的是Q矩阵,即密度矩阵、转移速率矩阵。因为在一般情况下,掌握转移概率函数矩阵是不切实际的,但密度矩阵Q只涉及转移概率矩阵在t=0处的瞬时值,它常可由实验资料或经验来确定。而转移概率矩阵可由Kolmogorom的向后方程或向前方程解得。在CTMDP中,代替立即奖赏的是报酬率,即单位时间内获得的报酬。设用策略时,系统在t时刻处于状态时决策者获得的报酬率为。因此在任一区间决策者获得的报酬为:使用策略,从任意状态出发,长期折扣总报酬为:其中是折扣率因子,表示在策略下状态经时间t转移到状态的概率。其中报酬率定义为:同样,CTMDP也可使用平均准则函数模型:。CTMDP过程图示如下: (3)SMDP的数学模型:在上图示中,CTMDP的状态逗留时间服从指数分布,当是服从一般分布时,就得到半马尔可夫决策过程SMDP。半马尔可夫过程就像连续时间马尔可夫过程一样进行状态转移,但每个状态的逗留时间是任意分布的,并且可能依赖于下一个到达状态,将来取决于现在的状态和在该状态停留的时间,所以此时不是在任意时刻都具有马尔可夫性,但是在状态转移,也就是在决策时刻过程具有马尔可夫性,即在各状态转移时刻半马尔可夫过程是马尔可夫过程。对于SMDP,有一个状态转移时间的分布函数,表达转移时间的分布。报酬函数一般具有如下形式:在状态转移到,且转移时间为t的条件下系统在转移时间段中()所获得的报酬为:上述形式的报酬函数表示系统在状态采取策略,下一决策时刻转移到状态转移时间为t的条件下,于转移一开始就获得一项瞬时报酬,于转移结束时刻()获得一项瞬时报酬,在转移途中单位时间内获得的报酬(即报酬率)为。具体的报酬函数形式根据具体问题确定。对于准则函数有期望折扣和报酬和平均期望报酬。首先定义一个周期开始时所获得的折扣报酬进而折算到时刻0,其值为因此,系统在策略下,从初始状态出发于周期n获得的期望折扣报酬为据此定义SMDP的N阶段期望折扣总报酬形式无穷时段期望折扣总报酬形式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论