以加强式学习建构机器人行为融合演算法课件_第1页
以加强式学习建构机器人行为融合演算法课件_第2页
以加强式学习建构机器人行为融合演算法课件_第3页
以加强式学习建构机器人行为融合演算法课件_第4页
以加强式学习建构机器人行为融合演算法课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

以加强式学习建构机器人行为融合演算法2023/7/26以加强式学习建构机器人行为融合演算法大綱研究動機背景介紹單一行為模仿演算法融合行為學習演算法(FBQL)實驗設計與討論結論與未來展望2以加强式学习建构机器人行为融合演算法研究動機問題一設計機器人行為構成的困難:環境多變需要縝密的考量需要機器人學的知識由實測結果來調整修正HardComputingv.s.SoftComputing3以加强式学习建构机器人行为融合演算法研究動機問題二多個行為如何並存?合作-Behavioralfusion,Gametheory競爭-Subsumption4以加强式学习建构机器人行为融合演算法背景介紹加強式學習Q-Learning決策樹分割法SubsumptionArchitecture5以加强式学习建构机器人行为融合演算法加強式學習理論結構a(t)Stateencoder以加强式学习建构机器人行为融合演算法加強式學習理論結構控制系統與外部環境互動控制系統能接收一組環境狀態S={s1,s2,….,st}控制系統有一組可執行動作A={a1,a2,..at}環境繼以反應一獎勵值rt=r(st,at)環境同時也隨之移轉到一新的狀態st+1=δ(st,at)r,δ環境的一部份,控制系統不需已知7以加强式学习建构机器人行为融合演算法加強式學習理論結構Markovdecisionprocess(MDP)r(st,at),δ(st,at)只相依現有狀態與執行動作政策(policy)的形成控制系統學習政策π:S→A,根據現有狀態st,挑選一最有利的動作at可行的政策需可滿足最大化積累獎勵值Vπ(st)Vπ(st)=rt+rt+1+rt+2+…π*=argmaxVπ(s)foralls

8以加强式学习建构机器人行为融合演算法Exampler(s,a)immediaterewardvaluesGGGG0000000000100100000OneoptimalpolicyQ(s,a)valuesV*(s)values819010090100(supposeγ=0.9)V=0+0.9x0+0.92x100+0.93x0...=81V=0+0.9x100+0.92x0+...=90V=100+0.9x0+...=10081817272909090811008181100加強式學習理論結構9以加强式学习建构机器人行为融合演算法AdaptiveHeuristicCritic結構a(t)Stateencoder以加强式学习建构机器人行为融合演算法背景介紹:Q-Learning直接學習π*:S→A有所困难,因為學習資料少有<s,a>的形式每當V*(s1)>V*(s2),控制系統較喜的在狀態s1而非狀態s2在狀態s下,最佳的動作a,係可最大化獎勵值-r(s,a)以及以算下一狀態的V*π*=argmaxa[r(s,a)+V*(δ(s,a))]11以加强式学习建构机器人行为融合演算法背景介紹:Q-LearningCorrelatedmeasurementQQ(s,a)=r(s,a)+*(δ(s,a))π*=argmaxaQ(s,a)RelationbetweenQandV*V*(s)=maxa‘Q(s,a’)EstimateQ-valueiterativelyQ'(s,a)←r+maxa'Q'(s,a’)12以加强式学习建构机器人行为融合演算法背景介紹:Q-Learning13以加强式学习建构机器人行为融合演算法背景介紹:決策樹分割法

14以加强式学习建构机器人行为融合演算法背景介紹:SubsumptionArchitecture15以加强式学习建构机器人行为融合演算法單一行為模仿演算法加強式學習之決策樹分割法(RL-basedDT)決策樹結構狀態空間之加強式學習

16以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)

17以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)

純度計算公式:18以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)

切割終止條件:內部節點所包含的區域太小內部節點所包含的資料量太少切割過後,會導致某一邊沒有資料內部節點的純度夠純19以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)

20以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)

葉子節點數21以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)總純度22以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)23以加强式学习建构机器人行为融合演算法決策樹結構狀態空間之加強式學習agentenvironmentrewardactionstate24以加强式学习建构机器人行为融合演算法決策樹結構狀態空間之加強式學習25以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法(RL-basedDT)展示模擬影片展示實體影片26以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)FBQL環境sensoryrewardFusedBehaviorinput狀態標記27以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)28以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)狀態標記法(RL-basedDecisionTree):6y0846x12093分類表示範圍(x,y)N1(0,3,0,8)N2(3,6,0,8)N3(6,9,0,4)N4(9,12,0,4)N5(6,12,4,6)N6(6,9,6,8)N7(9,12,6,8)29以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)狀態標記法(FBQL):state={N5,N1,N7}30以加强式学习建构机器人行为融合演算法融合輸出動作(FusedBehavior):融合行為學習演算法(FBQL)31以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)回饋值(reward):DenserewardSparsereward設計難易度困難容易學習速度快慢學習系統複雜度低高局部極小值問題可能發生不會發生32以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)評估值Q值更新:立即回饋值積累回饋值33以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)權重值W值更新:權重值W值正規化:forall

34以加强式学习建构机器人行为融合演算法融合行為學習演算法(FBQL)示範動作:為了加快FBQL的學習速度引領機器人去接觸到特定的回饋值節省隨機搜尋所空耗的時間不需要特殊的操控35以加强式学习建构机器人行为融合演算法加強式學習之決策樹分割法追球行為模仿避撞行為模仿跑位行為模仿36以加强式学习建构机器人行为融合演算法實驗設計與討論:追球行為模仿共122種類37以加强式学习建构机器人行为融合演算法實驗設計與討論:避牆行為模仿共11種類38以加强式学习建构机器人行为融合演算法實驗設計與討論:跑位行為模仿共37種類39以加强式学习建构机器人行为融合演算法實驗設計與討論:FBQL40以加强式学习建构机器人行为融合演算法實驗設計與討論:Subsumption以SubsumptionArchitecture的融合方式:41以加强式学习建构机器人行为融合演算法實驗設計與討論成功總步數:42以加强式学习建构机器人行为融合演算法實驗設計與討論避牆率:43以加强式学习建构机器人行为融合演算法實驗設計與討論成功率的比較:44以加强式学习建构机器人行为融合演算法實驗設計與討論平均成功總步數的比較:45以加强式学习建构机器人行为融合演算法實驗設計與討論撞牆率的比較:46以加强式学习建构机器人行为融合演算法實驗設計與討論展示單一機器人實驗影片展示機器人群組模擬影片

群性行為一窩蜂群組合作47以加强式学习建构机器人行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论