离散事件动态系统--马尔科夫链PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-25 格式：PPT 页数：61 大小：691KB 积分：68 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

课程基本情况课程性质非学位课学时数学分 32 2周学时 4 后面有调整授课形式 a 主讲面授 c 文献报告和自由讨论应用领域网络系统分析移动机器人智能交通生产自动化和供应链管理 Agent系统网络控制优化机器学习排队网络系统可靠性分析以及其它有关决策优化控制和智能学习等前期课程内容高等数学概率论线性代数考核方式考查含课程总结文献汇报课程内容离散事件动态系统基本概念分类研究方法随机离散事件动态系统的基本仿真技术Markov决策过程含Markov链半Markov决策过程基本知识动态规划 dynamicprogramming 和仿真优化主要介绍Bellman最优方程策略迭代和数值迭代强化学习 reinforcementlearning 技术主要介绍Monte Carlo方法 TD学习 Q学习和SARSA学习等神经元逼近动态规划 neuro dynamicprogramming 多Agent学习探讨实例分析第一章离散事件动态系统基本概念分类和研究方法基本概念随着高新技术的迅猛发展现实世界中涌现了大量的复杂人造系统如计算机网络通信网络柔性制造系统 CIMS 交通管理系统军事指挥系统等这些系统的共同特征是系统的演化过程不能由通常的物理定律来描述而是服从一些由人为规定的复杂规则并由一系列相互作用的离散事件所决定这样的一类人造系统常被描述为离散事件动态系统 Discreteeventdynamicsystem DEDS 事件使DEDS状态发生变动的一个行动或事情 DEDS与一般动态系统的差别通常的连续变量动态系统 CVDS 其动态特性满足一定的物理定律可用微分方程或差分方程来描述例如经典力学下的质点运动方程等可以描述为DEDS基本概念由一些相互作用的离散事件构成并且由它们触发而引起状态转移演化的一类动态系统它所含的事件的发生在时间和空间上都是离散的线性系统例1柔性制造系统待加工工件缓冲器工作台1 已加工工件缓冲器待加工工件缓冲器工作台M 已加工工件缓冲器 Sn2 Sn1 智能仓库自行小车例2机器人自动装配线 roboticassemblyline 例3开排队网络服务站1缓冲器服务站2缓冲器服务站3缓冲器通信系统中的接入控制基本分类和研究方法 DEDS的三个层次模型逻辑层次模型确定性主要有形式语言有限自动机 Markov链 Petri网等不可时序化模型不可赋时只考虑表征系统行为的符号的顺序关系代数层次模型确定性主要有极大极小代数有限递归过程等可时序化统计层次模型随机性主要有Markov过程半Markov过程或广义半Markov过程各种类型的排队网络等可时序化采用仿真方法 DEDS统计性能层次的研究情况从九十年代开始统计性能层次的研究已成为DEDS研究领域的一个重要方面主要包括以下两个研究方向系统的性能分析主要是灵敏度分析优化理论和应用研究 Markov控制决策过程方法及优化问题已成为当前DEDS领域的一个令人注目的热点也是本课程的主要介绍对象拓展 SMDP POMDP HMM HDS 建模第二章随机离散事件动态系统的基本仿真技术随机变量随机变量粗略的说就是能取不同数值的量非随机的确定性的数值永不改变太阳系中的太阳个数随机的一个人一天接到的电话个数每天都不一样概率实验 experiment 考试掷骰子打球比赛扔硬币一次实验对应一个输出X 考虑实验的输出是随机变量可取多个值 pass fail 1 2 3 4 5 6 win lose heads tails 事件掷骰子点数为2 或者为偶数事件的概率事件发生的机会 chance 或可能性 likelihood m次实验中事件A发生n次则概率为P A limm n m 0 1 加数法则 additionlaw 互斥事件 mutuallyexclusive 复合事件 compound 由互斥事件构成如多次掷骰子中出现偶数的事件由分别出现2 4或6的互斥事件构成若复合事件E由A1 An构成则P E P A1 P An 复杂事件 complex 未必由互斥事件构成如掷骰子出现质数 2 3 5 或偶数 2 4 6 的事件P A B P A P B P A B A B 乘积法则 multiplicationlaw 独立事件 independent 两个事件中一个事件的出现不依赖于另外一个反之为相关事件 dependent 扔硬币第一次为heads的事件A与第二次为tails的事件B相互独立定义事件E表示第一次为heads且第二次为tails的事件则P E P A B P A P B 互斥的就无所谓相关不相关非互斥的则有可能独立则P A B P A P B 既不互斥又不独立则P A B P A P B A P B P A B 其中 P B A 和P A B 为条件概率若A B独立则概率分布离散变量随机变量取值可能是离散的如 1 4 5 18 1969 也可能是连续的如区间 010 先考虑离散变量离散随机变量掷骰子游戏中输出X 1 2 3 4 5 6 其中X为1的概率记P X 1 1 6 一般地 P X k l 对应一个概率质量函数 Prob Massfunction PMF 即f x 表示概率P X x P X k l表示随机变量X不超过k的概率为l 该函数表示累积分布函数 Cumulativedistributionfunction CDF 有时简称分布函数记为F X k 或F x 满足F X k kx af x 从X的最低可能值a到k的所有pmf值的和 PMFCDF 概率分布连续变量连续随机变量例如连续两次所接电话之间的时间差概率密度函数 Prob densityfunction PDF对应离散情况的PMF 仍记为f x 分布函数满足随机变量的期望值和标准偏差离散随机变量的期望值 expected mean averagevalue 连续随机变量的期望值均值不能说明一个随机变量任何特性只有同标准偏差一起才能说明随机性完全体现在PDF PMF或CDF 标准偏差随机变量对其均值的平均偏离的估计定义标准偏差的平方称为方差极限定理 LimitTheorems 中心极限定理强大数定律仿真中的基本概念离散事件仿真主要涉及随机数产生和随机系统仿真模型动态系统系统行为随时间变化状态描述系统行为随时间变化的物理量如排队系统的队长库存量带宽占用率等支配控制变量 governingvariable 动态系统的行为受这些变量支配控制操纵如排队系统中的服务时间和相邻顾客到达时间间隔随机系统控制变量是随机变量的系统其行为受随机变量支配模型实体模型小型飞机模型模拟仿真系统抽象数学模型方程函数不等式计算机程序等帮助理解分析预测系统行为建模一般基于一些假设如系统结构支配变量的分布排队系统中的指数服务和到达间隔为研究大规模复杂随机系统可用计算机程序模拟系统行为为支配随机变量产生随机数这样的程序可称为仿真模型仿真模型亦可用于优化特别是无法或难以建立数学模型时产生仿真优化为什么研究随机系统很多实际系统是随机系统如通讯网络通过研究可以改变这些系统使其更有效运行或降低其运行代价随机系统的仿真模型随机系统的建模第一步是要寻找支配随机变量的分布分布的作用数学模型中用于建立表达式仿真模型中用于产生随机数以便计算机来模拟系统的行为即重构实际系统发生的事件产生支配随机变量的值随机变量分布的获取从实际系统收集数据然后进行分布函数拟合随机数产生均匀分布随机数的产生人工产生线性同余随机数产生 linearcongruentialgenerator Ij 1 aIjmodm aIj被m除的余数 a和m为正整数 I0小于等于m Ij 0 m 是随机序列如a 2 m 20 I0 12 则有 12 4 8 16 12 4 8 16 12 适当选择a和m 则得到0和m之间的所有整数序列 m 1个第i个整数xi代表决定了第i个随机数yi xi m 每个yi的可能性相同 xi在原来的序列集里出现一次 m越大 yi越接近于服从 0 1 之间均匀分布的自然随机数 I0是种子能产生的最大随机数个数是m 1 若m 232 1 对应个数2147483646 随机数产生实际中若周期短 m小则随机数会重复导致结果变坏随机数不独立不再服从均匀分布 Ij 1 aIjmodm 中的aIj可能会超出计算机表达能力 Schrage逼近因数分解 Q a Ijmodq r Ij q q和r是正整数随机数产生机制无需计算aIj对 a b 间的任何均匀分布其随机数x都可由 0 1 之间的随机数y产生 x a b a y 映射随机数产生其它分布逆函数方法指数分布的累积分布函数为产生一个随机数y 服从 0 1 之间的均匀分布令其为指数分布的CDF的值即F x y反解x 即使用随机数的事件重构以单个服务台排队为例两个支配变量相继到达时间间隔ta 服务者为一个顾客的服务时间ts 根据各自分布产生两个随机序列 ta ts 例如ta 10 1 2 3 1 0 9 3 5 ts 0 1 3 2 1 19 4 9 1 1 可构造两种事件发生到达ta离开空闲 10 1 2 2ts使用率 utilization 1 12 3 22 79长时段仿真 longrun 10 1 2 3 0 1 第三章Markov决策过程基本知识 Examples Thedeterministicshortestpathproblem Transitionfromonecitytothenextoneisdeterministic Eachcontrol oraction atagivencityleadstoauniqueandcertainsuccessorcityTheobjectiveistofindapathamongallpossiblepaths whichhastheminimumcostThisproblemcanbesolvedeffectivelybydynamicprogramming Fig 2 Theshortestpathproblem Bellmanequation 反向递推从K节点出发 Examples Stochasticshortestpath SSP problem Transitionfromonestatetothenextoneisstochastic thatisEachactionatagivenstatemayleadtoseveralpossiblesuccessorstates andeachtransition e g fromstateCtostateF willgenerateacost whichmaybedependentontheaction Terminationcity Terminationstate Initialcity initialstate Fig 3Pathprogrammingforasignalincommunicationsystems Examples TransitionforsignalsintheSSPproblems Transitionprobability P E C d Generatedcost f C d E P E C d P F C d P G C d 1 P G C d f C d G d d B C D E F G P F C d f C d F P G C d f C d G Theessenceoftheproblemishowtoreachtheterminationstatewithminimumexpectedcost P E C d f C d E MathematicmodelsforMarkovchains SystemEvolution Decisionepoch tDecisionepoch t 1 Action dt dt 1 Cost ft Xt dt ft 1 Xt 1 dt 1 Xt Xt 1 P Xt 1 Xt dt Markovproperty statetransitionisindependentofthehistory i e transitionfromXttoXt 1isonlydeterminedbycurrentstateXtandselectedactiondt 状态序列行动序列代价序列 MathematicmodelsforMarkovchains Basicmodelparameters MathematicmodelsforMarkovchains Classificationofpolicies MathematicmodelsforMarkovchains Performancecriteria MathematicmodelsforMarkovchains Optimizationproblem Semi Markovdecisionprocesses SMDPs FromMarkovchaintoSMDP basicconceptsforMDP 保守矩阵与策略v有关 Problemformulation 3 optimizationobjective Potential basedoptimizationvianumericalcomputation 1 performancepotential Reinforcementlearningofpotentials Semi Markovdecisionprocesses SMDPs Relationsofdifferentmodels Inmanycases thestudyofaSMDPisrealizedbytransformingtoacontrolledMarkovchain ifthemodelisknownE g suchasapreventiveproblemprovidedinthebook Simulation basedoptimization Fig 5Relationsofdifferentmodels Optimizationmethods difficultproblems Overviewofdifferentoptimizationmethods Numericalcomputation Valueiteration Policyiteration Non LinearprogrammingSimulationmethods Monte Carlomethods Reinforcementlearning Neuro dynamicprogramming Ismodelknown Yes TDlearning model based NO Q learning model free Disadvantages ModelneedtobeknownComputationofmatrixinverseisdifficultforlargescaleproblems Forfinitehorizonmodels backwardinduction dynamicprogramming Optimizationmethods difficultproblems Somevariantsonthebasicmodel Basicandsimplestmodels Markovchains Statespaceandactionsetarebothfinite StochasticprocessisergodicTherearemanyproblemsappearingnow Decisionsmaybemadeincontinuoustime SMDP Theremaybeacontinuumofstatesoractions pact Modelparametersmaynotbeknownoruncertain Robustdecision simulationmethods Systemstatemaybenotobservable POMDPorHMM 第三章动态规划 dynamicprogramming 动态规划是运筹学的一个分支是求解多阶段决策过程的最优化数学方法 20世纪50年代初美国数学家R E Bellman等人在研究多阶段决策过程的优化问题时提出了著名的最优化原理把多阶段过程转化为一系列单阶段问题逐个求解创立了解决这类问题的新方法动态规划多阶段决策过程 multi stepdecisionprocess 指这样一类特殊的活动过程过程可以按时间顺序分解成若干个相互联系的阶段在每一个阶段都需要做出决策全部过程的决策是一个决策序列最优化原理作为整个过程的最优策略具有这样的性质无论过去的状态和决策如何相对于前面的决策所形成的状态而言余下的决策序列必然构成最优子策略也就是说一个最优策略的子策略也是最优的模型分类以时间角度可分成离散型和连续型从信息确定与否可分成确定型和随机型从目标函数的个数可分成单目标型和多目标型确定性问题 Fig Theshortestpathproblem 3 2 7 9 4 13 8 13 14 Bellmanequation 反向递推随机问题 Bellmanequati

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

离散事件动态系统--马尔科夫链PPT课件

文档简介

温馨提示

最新文档

评论

离散事件动态系统--马尔科夫链PPT课件

文档简介

温馨提示

最新文档

评论

相关文档