贝叶斯方法在医疗干预中的应用研究_第1页
贝叶斯方法在医疗干预中的应用研究_第2页
贝叶斯方法在医疗干预中的应用研究_第3页
贝叶斯方法在医疗干预中的应用研究_第4页
贝叶斯方法在医疗干预中的应用研究_第5页
已阅读5页,还剩22页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[25]以及改进Q学习。基础Q学习在遵照之前的Q学习设置下,将完全贪婪策略改为了固定ε概率随机探索,该模型在ε概率下随机探索,在1−ε的概率下选择贪婪策略,并且更新规则改为了标准TD误差更新;双重Q学习则改为了交替更新两个Q表来减少估计过高的偏差,并且加入了容量为1000的经验回放缓冲区模块;改进Q学习选择了基于训练步数的动态ε衰减,相较固定ε的Q学习,其会根据训练步数的增加而趋于最优策略的选择,并且在危重状态下的惩罚系数也能够自适应。具体运行结果如下:指标贝叶斯Q学习改进Q学习双重Q学习基础Q学习平均奖励5.027.614.924.65最终方差0.09690.60580.13550.1280危重决策标准差0.120.450.280.34收敛所需步数850±502200±3001500±2002000±300表SEQ表\*ARABIC6四种Q学习指标对比图SEQ图\*ARABIC9奖励对比图可见贝叶斯Q学习依然能够保持较高的平均奖励和较低的最终方差,并且收敛速度也是最快的。最后选择了三个Q学习中表现最好的改进Q学习,然后将贝叶斯Q学习再做一些细微的调整。首先在动作选择策略上,将原先的TD误差改为了KL散度优先标准,更新方式从单次排序和动态学习率改为了三次扫描和自然梯度下降,另外在奖励衰减也做了数值上的调整。让这一更改过的贝叶斯Q学习再与改进Q学习作比较,运行结果如下:指标贝叶斯Q学习改进Q学习平均探索次数18502740最终不确定性0.0080.0042危重决策标准差0.290.41平均奖励3.555.90最终方差0.01060.1614表SEQ表\*ARABIC7修改过的贝叶斯Q学习与改进Q学习指标对比调整过的贝叶斯Q学习的最终方差又有所降低,不过平均奖励也有所下降。因为贝叶斯Q学习的更新规则已不再是单纯追求奖励值最大的动作,而是最有效,即在医疗干预背景下,寻求能够使得个体从不同症状恢复至康复状态的最快路径,所以相较于其他Q学习的平均奖励,贝叶斯Q学习的奖励值要偏低一些,但收敛速度保持一致最佳。

图SEQ图\*ARABIC10修改后的贝叶斯Q学习与改进Q学习奖励对比

结论本文在传统医疗干预策略对于个体动态调整的理论框架下,构建了基于贝叶斯强化学习的动态治疗决策框架,提出服从高斯-伽马共轭先验的Q值分布,并结合Stein变分梯度下降与临床先验知识优化后验分布。通过理论建模与实验验证,主要结论如下:在理论验证方面,通过将Q值建模为概率分布,实现了对医疗决策不确定性的量化,并设计了动态学习率机制和风险敏感型探索策略,基于临床安全性指标监控下实现平衡探索与利用;引入James-Stein估计,在Q值估计中证明其相较极大似然估计的统计优势,通过收缩因子优化降低了高维参数估计的方差,结果显示其在样本量p>3时,James-Stein估计能够一致优于极大似然估计;在多个学习方法的对比实验中,本文通过更改贝叶斯Q学习的动作选择策略,运用核化Stein差异(KSD)作为分布对齐指标,KL散度优先作为动作选择基准,更新方式从单次排序和动态学习率改为了三次扫描和自然梯度下降方法,使得最终Q值的方差降低了89%。在实验模拟方面,模拟医疗过程表明,贝叶斯Q学习相同样本量前提下能够比其余Q学习收敛速快大约43.3%且仍保持至少73.7%的方差降低率,其核心优势体现在提高危重决策安全性,通过Stein梯度优化参数更新方向,危重状态惩罚系数自适应调整,正确率达89%(基准Q学习为68%)。但在研究过程中,仍存在许多困难与挑战。首先在数据集处理时,始终未能引进有效的真实医疗数据集。一方面是因为常见的医疗数据例如TCGA、乳腺癌治疗数据等都具有高维大样本量的特点,处理起来较为棘手;另一方面是少有涉及医疗过程的数据集,针对本模型的动作-状态对模型,难以契合。解决的办法就是将模型进一步改进,将其转向高维空间的强化学习领域。而现如今的高维状态空间贝叶斯强化学习领域中,Q值的高维概率分布使得参数更新变得复杂,单个决策步骤耗时也几大增加。深度贝叶斯Q网络的梯度爆炸问题也仍待解决;创新性的动态规划方法需多次扫描优先级队列,这也大大加剧计算负担。现有的收敛性证明仅适用于离散空间,当引入连续生理指标例如血压、血氧饱和度时,Q值分布的非参数特性导致收敛边界无法严格界定。另外,因为硬件能力欠缺,导致在代码构建的过程中走了不少弯路。在未来,该研究有望从低维状态的真实医疗数据入手,逐步引入并改进契合个体动态治疗的方法,完善全程以及极端情况的奖惩规则,持续关注贝叶斯强化领域理论方面的创新性突破,提出并尝试解决问题。参考文献WatkinsCJCH.LearningFromDelayedRewards[J].Robotics&AutonomousSystems,1989.DOI:10.1016/0921-8890(95)00026-C.DeardenR.BayesianQ-learning[J].AmericanAssociationforArtificialIntelligence,1998.DOI:10.1007/BF00993412.StrensM.ABayesianFrameworkforReinforcementLearning[C]//SeventeenthInternationalConferenceonMachineLearning.2000.于俊,刘全,傅启明,等.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):11.DOI:10.3969/j.issn.1000-436x.2013.11.015.GhavamzadehM,MannorS,PineauJ,etal.BayesianReinforcementLearning:ASurvey[J].Foundations&Trends®inMachineLearning,2016,8(5-6):359-483.DOI:10.1561/2200000049.DepewegS,Hernández-Lobato,JoséMiguel,Doshi-VelezF,etal.DecompositionofUncertaintyinBayesianDeepLearningforEfficientandRisk-sensitiveLearning[J].2017.DOI:10.48550/arXiv.1710.07283.FortunatoM,BlundellC,VinyalsO.RevisitingBayesbyBackprop[J].2018.ZhouS,GaoR,ZhangQ,etal.Data-definednaveBayes(DNB)baseddecisionschemeforthenonlinearmitigationforOAMmodedivisionmultiplexedopticalfibercommunication.[J].Opticsexpress,2021,29(4):5901-5914.DOI:10.1364/OE.415908.ZhouQ,ChangH.ComplexityanalysisofBayesianlearningofhigh-dimensionalDAGmodelsandtheirequivalenceclasses[J].2021.DOI:10.48550/arXiv.2101.04084.韦来生.贝叶斯统计[M].高等教育出版社,2016尤树华.贝叶斯强化学习中策略迭代算法研究[D].苏州大学,2016.ValkovV.ABAYESIANMODELFORLEARNINGUSINGFLASHCARDS[J].2015.TsitsiklisJ.AsynchronousstochasticapproximationandQlearning[J].Machine.Learning,1994,16(3):185-202.DunnNM.AModifiedQ-LearningApproachforPredictingMortalityinPatientsDiagnosedwithSepsis[D].MiamiUniversity,2021于俊.模型无关的贝叶斯强化学习方法研究[D].苏州大学.DOI:CNKI:CDMD:2.1014.297086.HuX,SzerlipP,KaraletsosT,etal.ApplyingSVGDtoBayesianNeuralNetworksforCyclicalTime-SeriesPredictionandInference[J].2019.DOI:10.48550/arXiv.1901.05906.LiuQ,LeeJD,JordanMI.AKernelizedSteinDiscrepancyforGoodness-of-fitTests[C]//JMLR.org.JMLR.org,2016.DOI:10.48550/arXiv.1602.03253.LiuQ,WangD.SteinVariationalGradientDescent:AGeneralPurposeBayesianInferenceAlgorithm[C]//2016.DOI:10.48550/arXiv.1608.04471.SteinC.Inadmissibilityoftheusualestimatorforthevarianceofanormaldistributionwithunknownmean[J].Annals.Inst.Statist.Math.,1964,16(1):155-160.张建军,吴晓平,刘敏林.线性回归模型系数Stein估计的改进研究[J].海军工程大学学报,2004,16(4):4.DOI:10.3969/j.issn.1009-3486.2004.04.006.韦来生,张伟平.贝叶斯分析[M].中国科学技术大学出版社,2013.O'DonoghueB,OsbandI,MunosR,etal.TheUncertaintyBellmanEquationandExploration[J].2017.DOI:10.48550/arXiv.1709.05380.BarronEN,IshiiH.TheBellmanequationforminimizingthemaximumcost[J].NonlinearAnalysisTheoryMethods&Applications,1989,13(9):1067-1090.DOI:10.1016/0362-546X(89)90096

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论