版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于改进的深度强化学习的火灾检测方法分析案例目录TOC\o"1-3"\h\u30481基于改进的深度强化学习的火灾检测方法分析案例 1140091.1基于强化学习的火焰目标定位 2128411.1.1深度强化学习 237321.1.2目标检测 3213261.1.3算法设计 4257561.1.3.1动作 525471.1.3.2状态 5263931.1.3.3奖励函数 675101.1.3.4模型设计 7128071.1.4强化学习模型的训练 8113721.1.1.1训练数据 8142751.1.1.2模型的训练 8313211.1.5实验与结果 8184891.2基于改进的DRL的火灾检测方法研究 949631.2.1算法步骤和流程 10293001.2.1.1火焰定位算法的改进 10140191.2.1.2算法步骤 1171031.2.2实验环境 1350611.2.3实验数据 13165641.2.4实验结果及分析 1474411.3本章小结 16检测任务包含分类和目标定位两个部分,本文通过判断图像中是否包含火焰的方法,实现对图像火灾的检测,除了进行图像的分类,还需要精确的找出火焰所在的位置,便于对着火点的快速定位和火势的判断。一个优秀的火焰检测器,不仅需要做到对目标的精确定位和准确分类,还需要有较高的效率,才能满足火灾检测时效性高的要求。深度强化学习在多领域目标检测中取得的成果,为火焰目标的检测提供了新思路和智能化的解决方案。这一章首先对深度强化学习研究的相关内容进行了阐述,简要介绍了其发展历程和应用场景,然后针对高分辨率的视频监控视频,尝试将深度强化学习的方法应用到火焰的检测上,设计了通过深度强化学习方法进行火焰目标的准确定位,在分割出火焰区域后,使用前一章设计的深度卷积神经网络识别目标区域是否包含火焰的检测算法,并进行了验证及分析。1.1基于强化学习的火焰目标定位1.1.1深度强化学习深度强化学习[84,85](DRL)是在强化学习的理论结构的基础上,借助了深度网络的强大的高维特征获取能力,发展而来的强大的动态决策方法。强化学习借鉴了人类学习过程的思想,在不断的试错过程程中通过获取奖励实现最终目标,理论模型为马尔科夫决策过程(MDP)。在早期的研究中RL和DL的结合非常困难,因为深度模型需要大量独立的且分布均匀的样本数据进行监督训练,而且深度模型容易过拟合,但强化学习的输入是连续动作,其输入关联性强,导致样本的分布不均匀,且强化学习系统对已有经验依赖性强,倾向于向熟悉的方向发展,强化学习的监督信号弱,这些矛盾的问题使得两者难以进行。直到2013年DeepMind公司发表的富有开创性论文[86]第一次提出深度强化学习的概念,其提出基于值函数的DQN(DeepQNetwork)算法,在雅达利游戏的控制中取得了最好的成绩。其后DQN改进算法被用于数十种游戏的控制中,在大部分的游戏智能控制中都取得了优于人类玩家的表现,被证明该算法是性能远高于当时的传统方法,带来大量关注和研究。伴随深度强化学习的研究快速增长,涌现了大量的研究成果,其相关算法被应用到各种复杂场景下的控制任务中[87]。用于进行持续控制的DDPG算法,取得了很好的效果。之后又出现了支持在线学习的续动作空间控制的SVG算法,进一步提升了性能并方便了模型的训练,其它一些算法[88]被用在离散空间也取了很好的效果。DeepMind团队提出的基于深度强化学习混合对抗学习架构的AlphaGo和AlphaZero棋类智能控制系统轻松击败人类顶级棋手,这类智能控制系统能在无人工协助的环境中,在与环境的交互探索中,直接通过原始输入信号就能自我进行知识体系构建和不断的学习提升相关决策能力,研究成果引起了社会的巨大轰动。随后引入了多智能体的深度强化学习在大型游戏控制方面表现卓越,2018年OpenAI团队推出的大型游戏控制算法,在经过短时间训练之后,便战胜了当时该游戏的最强战队。2019年该团队研究出的改进算法,在星际争霸2游戏中短暂训练后,就快速达到了大师级水准。除了控制领域,DRL方法还在图像理解、导航、和机器翻译等领域被广泛研究和应用,均取得很好的效果。DRL方法在封闭、可控的复杂环境中的决策能力表现,已经超过了人类,取得了众多的成功应用案列,对人工智能的发展产生了革命性的影响。当前的深度强化学习算法分类主要有三类:基于迭代优化值函数得到最优智能体的值函数算法,主要应用于离散动作场景;基于策略网络作为奖励及梯度方向优化的策略梯度算法,主要应用于连续动作场景;以及前两种方法相结合的演员-评论家(Actor-Critic)算法。图4-1DRL原理框架图DRL是在不断与未知环境交互,通过试探评价进行策略学习和优化的方法。通过DL方法,使agent获得自动感知环境的能力,每次在与未知环境的交互过程中提取出状态特征。通过RL的方法进行策略优化,agent随机以预设动作集中的某一动作对环境进行探索,通过回报来评价探索动作的优劣并对agent进行奖励和惩罚;agent观察回报值和环境状态做出反应,以获得奖励的方向选择动作进行探索;agent不断循环上述探索过程,以获取最大的长期积累回报为最终目标,探索出最优的策略。DRL算法在训练和控制过程中都能做到端到端,具有应用方便、通用性强的特性,其原理框架如图4-1所示。1.1.2目标检测目标检测任务是将指定的图像中的目标进行定位、获取大小并给出分类结果。通常使用一个紧密覆盖目标所有可见部分的包围框,来标记目标的空间范围,要求尽量精准的标记出目标,很有价值但难度较大。是目标跟踪、导航、智能控制等高级机器视觉任务的研究基础,在此类领域的研究中发挥了重要作用。早期的目标检测框架,依据先验知识,人为理解后设计提取的检测特征,使用传统图像处理或者机器学的方法和策略完成特征的表示,结合滑动窗口获取目标候选区域,再对候选区域逐个进行处理。得出分类和定位结果。其对于特征的描述能力有限,检测准确度不高。当前高性能的目标检测算法都是以深度学习为基础研究取取得的,此类目标检测框架很好的利用了深度神经网络的强大特征获取和融合能力完成目标分类,结合候选框或边框回归技术实现目标的精确定位,已经在目标检测领域取得了非常高的成就,是如今的主流方法。但此类目标检测网络的训练数据,需要标注出目标在图像中边界框的具体坐标,大量数据的标注工作量巨大,阻碍了此类目标检测深度神经网络的深入研究和发展。当前的火焰检测研究中缺乏大型数据集,特别是包含目标位置标注信息的数据集,研究者需要自己建立数据集并完成检测目标的标注,才能开展研究工作。基于深度神经网络的目标检测算法以大量的目标区域建议或候选框回归得到检测目标位置,近似于穷举的检测策略导致检测速度较慢、计算的冗余量大,很难适用于高分辨率的图像的目标检测任务;对于特征复杂多变、背景变化影响较大的应用场景,使用这类方法的目标定位精度不高,在实时性和精准度要求高的检测任务中的应用存在一定的制约。使用深度强化学习来进行火焰目标的定位,利用其强大的探索能力以发现较好的火焰目标定位结果,以搜索和位置修正为定位的主要过程,通过将目标检测任务看做是一个智能控制的问题,定位智能体通过融合先验状态,不断的调整目标的定位结果,最终实现对目标的精准定位。1.1.3算法设计本文将火焰目标的定位问题转化为一个马尔可夫决策过程(MDP),并结合深度卷积神经网络的分类能力进行火灾的检测。决策过程要素包含一组动作集合(A)、一组状态集合(S)和一个奖励函数(R),以此框架为基础完成定位智能体(Agent)的训练。将单帧图像视为环境,Agent通过设置一个边界框对环境进行观察和交互,状态包含当前目标定位信息和其历史操作的信息,智能体通过一系列动作进行环境的探索,完成火焰目标边界的框定。Agent对于训练阶段的每个决策都会收到正面和负面的奖励,测试阶则不会获得任何奖励,也不会更新模型,仅是遵循学习到的既定策略。1.1.3.1动作通过动作集A对目标边界框进行连续的控制,直接控制目标框如何进行移动和变化探索环境。目标框的动作集A由三类动作组成,上下左右四个方向移动的平移类动作,放大、缩小和比例变换的尺寸变换动作和一个终止搜索过程的动作,共11个动作,如图1.2所示。图1.2动作空间目标框的左上角坐标为(x1,y1),右下角坐标为(x2,y2),目标框表示为B,所有动作的操作结果,均可通过式(4-1)进行计算。A(4-1)新目标框通过在x或y坐标轴上改变Aw或Ah完成新坐标的转换。其中系数α∈[0,1],其数值设置需要做好速度和定位精度的平衡,较小的值会使智能体定位缓慢,较大则可能导致定位精度不高。如果当前的目标定位框不能再进行转化,表示已正确的定位了目标区域,则触发终止当前搜索的操作。1.1.3.2状态将状态S以一元组(O,H)进行定义,其中O是智能体观察目标区域得到的特征向量,H是记录探索动作历史信息的向量。状态集合S包含大量来自于图像的火焰目标边界框,并且包含了目标边界框的所有扩展组合,该状态集合可能会非常大,因此,概括对于设计有效的状态表示十分重要。特征向量O通过预先训练的典型架构的DCNN模型从当前区域提取得到。为匹配预训练网络的输入和有效的减少状态集合,忽略原图的大小和纵横比,使用区域插值法将图片的尺寸统一缩放为(224×224)像素。二进制向量H记录了已经使用了哪些动作对环境进行探索。该向量中的每个动作均由一个9维的二进制向量表示,除与所采取的动作相对应的值外,其余值均设置为零。历史向量H对10个过去的动作进行编码,与观察区域向量O相比,其维数低很多,但能有效的记录探索操作的历史信息,并且其导致的维数增加极小。1.1.3.3奖励函数奖励函数R与代理在选择特定动作后对目标的定位所做的改进成正比,选择特点动作后得到的定位准确性提升,通过当前目标探索框与真实目标框间的重叠面积进行计算。当选择动作a进行探索,状态由s转变为s’后,观察框获得的奖励值通过式(4-2)得出。R(4-2)其中,b为探索框,g为真实目标框,以b和g间的交并比(IoU)计算目标定位精度,对所有的探索动作均适用。如果从状态s到状态s',IoU得到改善,那么奖励就是正的,否则就是负的,二值的奖励清晰的给出探索动作对于定位准确性的改善效果。对于没有动作能够改善定位效果的情况,需要执行终止操作,该action的IoU会为0,对于每一个动作,奖励函数均需要给出对应的奖励值,奖励函数的定义为式(4-3)。R(4-3)其中,t为阈值,表示为一个积极探索的最小面积重叠区域。根据不同类型的动作,在奖励函数给出值的基础上,乘与指定系数后获得对应奖励。通过Q学习的方式进行火焰目标的定位探索,agent遵循贪婪的策略进行探索,探索步数也是代价的一部分,agent以花费最少的探索步骤完成火焰目标的定位为目标。1.1.3.4模型设计使用深度Q网络(DQN)来实现火焰目标定位的马尔可夫决策过程,通过CNN近似出值函数,即在学习了动作值函数Q(s,a)之后,定位智能体遵循的探索策略是选择具有最大回报值的动作a进行决策,并根据获得的奖励值,对值函数网络的参数进行更新,完成一次探索步骤,如此循环完成DQN网络的训练。火焰目标定位模型结构如图1.3所示。图1.3基于DQN的火焰目标定位模型结构图使用深度强化学习方法多次迭代进行目标定位的测任务,探索框的初始位置十分重要,结合火灾发生和发展过程中持续运动的特点,火焰在图像中的大部分区域都是持续运动的,使用帧差分法可快速的得出运动区域作为目标定位建议候选区,可加速目标定位过程和提高准确性。输入图像统一将尺寸调整为224×224,使用速度较快的预训练模型Efficientnet_Lite0为特征提取器,预训练模型获取的特征向量与动作历史记录向量拼接后输入DQN,DQN的决策网络由3个全连接层组成,其以状态表示作为输入,以定义的11个目标框变化动作为输出,以探索如何快速移动目标框,实现完整的覆盖目标区域为最终目标。本节使用的训练损失函数如式(4-4)所示。L(4-4)1.1.4强化学习模型的训练1.1.1.1训练数据训练数据主要以github上的研究人员gengyanlei公布的火灾数据集为主体,对该数据集进行了筛选,去除了包含的烟雾数据,并结合自己收集到的火焰图像数据,使用LabelImage工具对数据进行坐标标注后,合并形成模型训练的数据集。该数据集共包含2150张图片,按照PascalVOC数据集的格式标准存储,按照8:2的比例划分为训练集和测试集。1.1.1.2模型的训练在训练阶段,预训练的CNN不参与训练,只作为特征提取器使用,仅对DQN进行训练。DQN的参数通过随机的方式进行初始化,使用ε贪婪策略(ε-greedy)的方式进行动作选取网络的训练,训练中的动作探索以ε的概率进行并随训练周期增加而逐步减小,根据ε的变化,并逐步由探索转向利用。初始时使用整幅图像作为输入,agent根据策略贪婪随机选择动作进行探索,通过不断试错进行学习,直到当前区域框与真实区域框之间的IoU>0.9或者到达最大探索步数时,选择终止动作完成训练,并使用随机梯度下降算法(SGD)对DQN网络进行参数更新。1.1.5实验与结果在Ubuntu18.04操作系统下,使用运Pytroch深度学习框架库,对算法进行测试,GPU型号为GeForceRTX2060。在上述自建的火焰定位测试数据集上进行测试。本文提出的基于深度强化学习的火焰定位算法的整体性能,与最近的其它文献中提出的R-CNN、YOLOv3和SSD目标定位方法,在本文自建测试数据集上进行了测试和对比,目标定位准确率如表1.1所示。表1.1各算法目标定位准确率表算法类别火焰目标定位准确率R-CNN方法66.14%YOLOV3方法73.50%SSD方法72.28%DQN方法76.65%使用基于深度强化学习的火焰目标定位算法,在仅对于火焰这一单类别的目标定位中,与其它的深度学习算法相比,能够明显的提升火焰目标定位的精确度。但由于使用整个图片的边界框为目标定位的初始位置候选框,导致智能定位体需要进行过多的探索动作才能较好的定位到目标,对于目标的定位速度有一定的制约,本节提出的方法在测试中的火焰定位速度约为每秒7帧。1.2基于改进的DRL的火灾检测方法研究当前的监控视频通常为高清视频,直接以高清图像输入到深度神经网络进行预测,计算量巨大,预测时间过长,不能实现火灾的实时性检测。对于大尺寸的图像,通常使用的方法是将大分辨率的图像缩小或分块后,再输入神经网络进行预测。然而,监控摄像头的布设位置通常较高,为远距离拍摄的画面,视频中的火焰目标面积占比较小,如果使用将高分辨率的图像直接缩小后输入神经网络进行预测,缩小后的火焰及干扰物的图像特征被较大的弱化;如果分块则会造成检测目标不完整等问题,直接严重的影响检测效果。而且火灾图像由于背景复杂、特征多变和方向任意等特点得制约,现有基于深度神经网络的目标检测框架,直接定位方式会导致定位精度不高,定位框难以准确的覆盖待检测的火焰目标。对此,本文提出了首先使用深度强化学习的方法进行火焰目标的精确定位,准确分割出高分辨率视频帧中的火焰目标区域,然后使用第三章预训练得出的深度卷积神经网络,对分割出的目标区域进行火焰检测的方法,实现对高清视频的火灾检测任务,算法流程如图1.4所示。图1.4基于改进的DRL的火灾检测方法流程图1.2.1算法步骤和流程1.2.1.1火焰定位算法的改进为进一步提升基于深度强化学习的火焰目标定位的准确性和速度,提出了以DQN的改进算法Dueling-DQN进行火焰目标的定位,该算法以DQN网络结构为框架,通过使用Dueling-Net结构来优化DQN神经网络的中间结构,提升了对动作价值评估的准确性,实现对算的优化。其将Q值网络分成价值和优势函数两个部分,合起来得到Q值网络的价值逼近函数,如式(4-4)所示,引入优势函数区别出状态和动作对价值函数影响力的大小。Q(4-4)函数V只和状态相关,A为优势函数,是动作a的价值,相对于当前状态s的值的优势,如果优势值小于零,则说明当前动作a不如平均动作好,反之则说明作比平均动作更好,使得应用较好的探索动作概率更大,从而加速深度强化学习网络收敛过程。本文用来改进价值网络的Dueling-DQN网络的结构如图1.5所示。图1.5Dueling-DQN网络结构图定位的初始定位框的选择,对于基于深度强化学习的火焰目标的定位性能极为重要,如果初始位置较好,可以通过较少的探索步数就能达到预定的定位效果。利用火焰持续运动的特点,本文使用三帧间差分法,快速得出运动的目标区域,使用非极大值抑制(NMS)方法筛选出最大的目标框,以此作为火焰目标定位初始位置框,再使用深度强化学习方法对目标定位框进行修正,从而较大的提升定位的准确性和速度。1.2.1.2算法步骤结合传统图像处理和深度学习的优势,提出以神经网络模型融合图像处理的视频火焰检测方法,算法描述如下:(1)焰持续运动的特点,算法在初始状态下,每秒进行三次运动目标检测,将高清图像缩小为指定尺寸后,使用二帧间差分法快速计算出帧间图像的变化量,当帧间的变化量达到设定的平均差分变化量的阈值时,认为有运动目标出现,实现快速的初步判别,有效降低正常状态下的系统计算资源消耗。(2)现运动目标时,使用三帧差分法快速计算出运动的目标区域,使用非极大值抑制(NMS)方法筛选出最大的运动区域,作为火焰目标定位初始位置框。将当前帧图像输入上改进后的DDQN火焰目标定位模型,以此区域为初始探索框位置,进一步的调整火焰目标所在区域的边界框坐标,精确的获取到火焰区域的边界位置,实现目标检测任务的定位功能。(3)按照原高清图像尺寸,结合DCNN火焰分类模型输入尺寸,进行适当缩放后分割出完整的目标区域,输入练得出的效果最好的Pytorch深度学习框架下的Xception预训练神经网络模型进行检测,得出火焰分类概率,实现火焰目标检测的分类功能。(4)识别为火焰,则使用矩形框在播放画面中标定出火焰区域边界框和显示出该目标区域的火焰概率,并发出火灾报警。(5)系统检测到火焰则提升注意力机制等级,对视频中的每一帧图像都进行检测,以提升跟踪识别的时效性。1.2.2实验环境本章实验使用的硬件环境:一个IntelI79700KCPU,32GDDR3内存,一块NVIDIAGeForceRTX2060显卡。软件环境:Ubuntu18.04操作系统,使用运行速度较快的Pytroch深度学习框架库,计算加速库CUDAVersion10.2,基于OpenCV1.2.0.34计算机视觉库进行图像处理方法的开发,使用Python3.6.10语言开发测试程序。1.2.3实验数据本节实验的视频数据主要是Bilkent大学的火灾库和部分网络采集的视频,筛选和剪辑后共得24段测试短视频,包含火焰和类似火焰的视频占比各一半。一部分的测试视频分辨率高,清晰和色彩丰富;另一部分的测试视频模糊且存在色偏。测试视频覆盖了多类场景和不同的燃烧剧烈程度的火焰视频,干扰视频涵盖了移动的车灯、闪电、烟雾等常见且较难区分的场景,样本较为丰富且代表性强,能有效的测试火焰检测模型的鲁棒性和普适性。实验的视频数据如图1.6和图1.7所示。图1.6火焰视频画面(视频1-12)图1.7非火焰视频画面(视频1-12)1.2.4实验结果及分析本文提出的视频火灾检测方法,与最近的其它文献中提出的三种方法,在上述测试视频上进行测试对比,以检测视频中的图像帧分类且定位正确为检测正确的判断标准,测试结果如表1.2所示。实验结果表明,本文设计的改进深度强化学习的火灾检测方法,与近期一些文献中使用的方法相比,检测的准确率为最高,并且误报率和漏检率这两项可靠性关键指标也是最低,领先于近期文献中提出的其它方法,并且在多个方面进行的改进,有效的提升了算法的整体性能。表1.2测试结果评价表检测方法ACC(%)FPR(%)FNR(%)文献[33]方法71.2318.2623.46文献[51]方法78.5617.1819.85文献[82]方法83.0215.0820.62本文(DDQN+Xception)方法87.3012.3311.84本文提出的改进深度强化学习的火灾检测方法,在测试视频上进行实时检测的截图画面如图1.8所示。图1.8DRL火灾检测方法截图其中,的绿色边框表示视频此帧图像无火焰,并标注“NOFIRE”字样,红色边框则表示此帧图像包含火焰,标注“FIRE”字样。火焰帧中使用红色边框标定的区域为火焰区域,同时标注出深度卷积神经网络模型识别得出的视频当前帧中标定区域为火焰的概率。由识别效果图(图1.8)可以看出,本文算法的识别准确性高,火焰区域的框定位置准确,特别是对于背景相对简单火灾场景,火焰目标的定位和分类准确性较高。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 33408:2025 EN Guidance for the production of pure inorganic substance certified reference materials
- 医院病床使用方法
- 机械设计及其制度
- 库存管理的基本原理和方法
- 社区消防知识培训内容
- 实训课教学设计流程图
- 电影《帕莉潭》深度解析
- 医院消毒协议书
- 2025-2026学年安徽省黄山市六级数学上册期中考试试卷及答案
- 2025年苏课新版三年级道德与法治上册月考考试试题及答案
- 公路养护管理计划与执行报告
- 2025年城市地下综合管廊建设财务可持续性研究报告
- 6.2 学会依法办事 课件-2025-2026学年统编版道德与法治 八年级上册
- 2025江西南昌市青山湖区招聘社区工作者(专职网格员)45人考前自测高频考点模拟试题及参考答案详解一套
- 小学数学课标考试真题及答案
- 2025年银行招聘各银行笔试真题(附答案)
- (初级)小红书种草营销师认证考试真题试题(附答案)
- T/CCSAS 025-2023化工企业作业安全分析(JSA)实施指南
- MOOC 旅游学概论-中国地质大学(武汉) 中国大学慕课答案
- [PPT]汶川地震灾区水利水电工程震害调查及分析
- GB∕T 40802-2021 通用铸造碳钢和低合金钢铸件
评论
0/150
提交评论