【《基于卷积神经网络的电力设备目标检测算法分析案例》8100字】_第1页
【《基于卷积神经网络的电力设备目标检测算法分析案例》8100字】_第2页
【《基于卷积神经网络的电力设备目标检测算法分析案例》8100字】_第3页
【《基于卷积神经网络的电力设备目标检测算法分析案例》8100字】_第4页
【《基于卷积神经网络的电力设备目标检测算法分析案例》8100字】_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于卷积神经网络的电力设备目标检测算法分析案例目录TOC\o"1-3"\h\u1778基于卷积神经网络的电力设备目标检测算法分析案例 1101071.1电力设备图像预处理 1291761.1.1常用的去噪和图像增强算法 2161701.1.2基于MSCRP算法的电力设备图像增强 4324551.2电力设备图像标注 67101.3基于小样本的电力设备目标检测研究难点 7176551.4基于SSD卷积神经网络的目标检测 740401.4.1VGG网络结构 7182631.4.2网络结构层级 9133381.4.3多尺度特征图分析 9248821.4.4数据增强及小目标检测分析 10140071.4.5损失函数及优化算法 10150871.5基于YOLOv3和FasterR-CNN卷积神经网络的目标检测 1236761.5.1YOlOv3卷积神经网络 12267581.5.2FasterR-CNN卷积神经网络 131.1电力设备图像预处理 一般来说,采集的各种电力设备图像由于受到诸多不利条件的影响,如采集设备本身分辨率不够高、成像环境有电磁干扰、以及电力设备本身等诸多因素,设备图像往往和人眼看到的设备有所区别。图像质量不佳会增加图像检测中的无用信息从而在一定程度上减少有用信息的输入,导致检测质量不佳。因而需要对训练集中的图像进行预处理,尽可能地提高图像质量。 对图像质量改善的常用方法有图像去噪和图像增强。图像去噪主要是去除图像中的无用信息如噪点信息、电磁信息等,通过均值滤波、中值滤波、高斯滤波、双边滤波等算法能够一定程度上去除图像中干扰信息,使得图像中的目标更加清晰。图像增强的主要目标是让处理后的图像更易被识别,通过自适应算法如SSR、MSRCR、MSRCP等相关算法增强图像对比度以及补偿相应的亮度,使得目标能够较为清晰地展现出细节部分。通过对采集到的数据集电力设备图像进行分析可以得知,较多的图像均存在对比度不强,细节模糊等问题。造成以上问题的主要原因有四点:(1)无人机在采集图像时,有所抖动,或者是当无人机处于黑夜中或是雾霾天气,周围光线较弱,采集的图像往往整体灰度值不均,对比度偏低。(2)电力设备小目标与背景相融合。在变电站采集的图像中,往往会存在绝缘子或者是套管与周围背景相融合的问题。当处于日落或者是逆光状态,固定摄像头采集的图像整体对比度较低。(3)电力设备反光问题。由于大多数的电力设备均由陶瓷或者是钢铁所加工而成,电力设备本身会出现一定的反光情况,从而增加了识别难度。(4)红外图像有用信息较少。为了能够让模型较好地适应不同情况下的图像,在数据集中加入了部分红外图像。但是通过对比可以发现,红外图像中目标边缘信息较少,轮廓不清,相对于可见光图像信息较少。因此有必要对图像进行预处理,降低噪声、提高对比度,让电力设备目标更为清晰。1.1.1常用的去噪和图像增强算法(1)均值滤波去噪算法均值滤波又被称为邻域平均法,是常用的空域滤波算法。主要目标是去除图像信息中的无关以及干扰信息如噪声信息。均值滤波算法的主要原理为,采取邻域多像素平均灰度值代替中心点像素的灰度值。其算法公式如式(3-1)所示:(3-1)S是以(x,y)为核心像素点的邻域,其大小可以自由设定,一般设定为单位距离为半径的四邻域或者是以倍单位距离为半径的八邻域。M为邻域中的像素总数。均值滤波的优势在于处理图像时间短,效率高,同时也会在一定程度上降低图像清晰度。所选邻域如果较小,则达不到处理噪声的目的,但如果选取较大,噪声处理效果较为明显,但同时图像清晰度也会降低。(2)中值滤波去噪算法中值滤波属于非线性滤波。不太适用于消除具有类似于拥有高斯噪声的图像噪声,而是较为适用于消除图像中的孤立噪声点。中值滤波的基本算法思想为,将窗口中的像素灰度按顺序排列,把原来中心像素点的灰度值更改为中心点处的灰度值,其公式如式(3-2)所示:(3-2)一般选取3×3作为窗口初始大小尺寸,然后继续扩大窗口大小,直到滤波效果满足实验目标需求为止。当目标图像细节纹理较为复杂时,尤其是当点、线、尖顶较多时,部分边缘纹理容易受到破坏。(3)双边滤波去噪算法双边滤波去噪算法是一种非线性滤波算法,可以同时关注图像的空域和频域两方面的滤波。该方法可以较好地保留图像中目标的边缘信息。其输出像素值由邻域的像素灰度值加权而成。其公式如式(3-3)所示:(3-3)f(x,y)为输入图像。其中f(k,l)为邻域像素输出值。w(i,j,k,l)为权重参数,其数值一般由定义域核d(x,y,k,l)以及值域核r(x,y,k,l)决定。公式如式(3-4)到(3-6)所示。(3-4)(3-5)(3-6)电力设备图像的噪声一般来源有两个,一个是内部噪声,如设备的材料特性,机械振动,以及内部电路等原因。另外一个是外部噪声,如电气设备外的电磁波通过电源回路进而影响成像。噪声函数模型可以分为:椒盐噪声、高斯噪声,以及泊松噪声等。椒盐噪声一般被称为脉冲噪声。在图像中主要以各种单独的黑白噪点为表现形式。电力设备图像中的噪声大多数属于椒盐噪声,主要是由于拍摄亮度不均或者是电子元器件本身噪声造成。下图是依次加入椒盐噪声然后分别用均值滤波和双边滤波两种滤波方法所得到的结果,如图3-1所示。滤波的卷积核尺寸大小均为3×3。图3-1噪声滤波之后的图像1.1.2基于MSCRP算法的电力设备图像增强从电力设备数据集中可以看出,电力设备图像对比度较低,边缘不够清晰。因此需要对电力设备图像进行增强。常见的增强算法有直方图均衡化,Retinex方法[64-65],小波变换等。相对于上述方法,MSRCP算法[66]在重建图像、去雾等方面更有优势。相比于MSRCR、SSR等算法,MSRCP算法图像处理效果较好。因此主要对MSRCP算法进行介绍,其他算法作为对照进行实验。MSRCP算法是2014年由AnaBelt提出的,其建立在多尺度Retinex算法上,可以更多地恢复色彩信息。第一步首先把原始图像RGB三通道的信息按照一定比例映射到各个通道上,在增强图像的同时,可以有效地保留原始的图像颜色分布以及相应的信息排列,其公式为式(3-7)。(3-7)第二步计算多尺度MSR值,其公式为式(3-8):(3-8)其中表示不同尺度的高斯滤波,代表不同通道的尺度大小。 第三步对颜色进行简单的平衡输出,得到。对每一个进行色彩重建。具体过程为式(3-9)到式(3-13)(3-9)(3-10)(3-11)(3-12)(3-13)对采集得到的电力设备图像分别用SSR,MSR,以及MSRCP算法处理。其中高斯滤波核。图3-2图像增强之后的结果处理结果如图3-2所示。通过实验分析可以得知,SSR算法以及MSRCR算法对于原图像的处理结果相近,MSRCP算法处理过的图像,对比度更高,细节部分更清晰。因此本文对于部分原图像采用MSRCP算法进行处理。1.2电力设备图像标注电力设备主要可以分为发电设备和供电设备。电站的锅炉、蒸汽轮机、水轮机、发电机、变压器、油枕、燃气轮机等一般被统称为发电设备。而供电设备则主要是不同电压等级的输电线路、套管、绝缘子、互感器、接触器等。本文研究的是外置设备以及微小零件的检测,主要基于五大类,油枕(conservator),绝缘子(isolator),套管(bushing),螺帽(bolt),以及电流互感器(currenttransformer)。这五类由大到小均涉及供电设备和输电设备,作为检测类别具有一定的普适性。这五类由大到小均涉及供电设备和输电设备,作为检测类别具有一定的普适性。我们的数据集共计220张训练图像,50张测试图像,分辨率从300×300到4000×5000不等。图像尺度不一,并且相差较大。其中对于大尺度图像如4000×5000尺寸的图像中小目标较多。本实验利用的是LabIImg标记工具,对于每一个类别可以做到实时标记。根据手动标记的矩形框,LabelImg工具主要从中读取矩形框四个点的坐标。对于每一个物体属于哪一类,需要手动输入,或者在后端的predefined_classes.txt中增添所需要的类别。深度学习算法很重要,但是更重要的是数据的标注,每一份数据标注的好坏将直接影响最终算法的性能检测,因此数据的标注成为了最重要的一个环节。本实验所采用的数据标注工具均为LabelImg,如图3-3所示。所有标记的图像大部分均为可见光图像,红外图像占到所有图像的百分之三左右。标记过程中不能让标记框太接近图像外边缘,一旦太接近图像外边缘,送入网络时会出现尺寸不匹配或者是超出规定尺度等相关问题。图3-3标注效果图在用LabelImg标记的过程中,通过后端的labelImg.py可以输出符合要求的XML类型文件。此文件包含三部分信息,第一部分信息为每一个物体的所属类别,第二部分信息为矩形框左上角的横纵坐标,第三部分信息为矩形框的长宽。对所有标注的XML文件以及原始图像,按照VOC2012数据集的格式进行分组整理。随机抽取总图像的百分之七十五来设置训练集的数量,总样本剩余的百分之二十五作为测试样本。随机抽取训练样本的根本目的在于保证我们训练出来的模型具有可迁移性,能够对不同环境下,各种复杂场景下的电力设备图像均有良好的检测效果。1.3基于小样本的电力设备目标检测研究难点电力设备图像检测的主要难点有:(1)复杂场景,需要检测的设备周边均有遮挡物和不同类型的干扰信息。这部分的干扰信息用传统的方法很难去除,比如在套管的周边有几根不规则环绕的导线,背后有多个背景。传统的方法,如随机森林分类器,基于Canny算子的BP神经网络分类器等对于这种复杂场景的图像检测识别,平均精准度最高只有百分之八十,普遍置信度不高。(2)相似信息判别较为困难。对于电力图像而言,因为部分设备如套管和绝缘子的相似性较高,所以关联信息的提取显得非常重要。比如套管可以分为穿墙套管、变压器套管,大部分的套管均为这两类。但是这两类的套管图像信息差距较大,并不能很好地提取共同特征,(3)不同尺度的样本学习较为困难。由于采集样本的分辨率相差较大,分辨率从300×300到4000×5000不等。图像尺度不一,并且相差较大。传统的算法无法较好地适应此类多尺度样本学习。(4)小样本学习。样本训练集不够一直是困扰高精度目标检测的难题之一。没有充足的样本训练集,模型便无法较好地进行学习。(5)部分电力设备目标较小。如套管、绝缘子此类电力设备目标占据整幅图像的比例过小。此种电力设备检测的难度大。此外由于拍摄的抖动以及对比度等原因,小目标边缘信息不够充足。1.4基于SSD卷积神经网络的目标检测1.4.1VGG网络结构VGG网络的全称为VeryDeepConvolutionalNetworksForLarge-ScaleImageRecogntion。由于VGG网络结构是大多数深度学习算法的基本结构。在本小节,将会详细介绍VGG网络的结构,以及相关参数的调整技巧和网络的部分缺点。VGG网络的起源是因为过大的卷积核如7×7的效果不尽如人意,针对这个问题采用了更小的卷积核,在ConvNets的基础上对于网络的结构和卷积核的大小作出了调整并取得了较好的效果。在训练的阶段,输入的图像规定是RGB三通道,其算法直接将图像大小缩放成224×224。在预处理阶段,需要对图像进行归一化,具体操作是计算整个训练集的均值,对于一幅图像的每个像素点减去其均值,进行归一化。卷积核感受野十分小,仅仅只有3×3的大小。经过第一层卷积(尺寸为3×3×3×64),再经过一层激活函数,输出的特征图大小为224×224×64,64指的是64张不同的特征图。224×224×64便是经过conv1_1和relu1_1之后的结果。同理再经过conv1_2,卷积核大小为3×3×64×64,再经过relu1_2之后输出的特征图大小为224×224×64。以上两个卷积核的stride均为1,周围补0圈数为1。在这之后经过池化层,大小为2×2,stride为2。对于每一张特征图进行最大池化,也就是通常所说的max-pooling。如果卷积层是对图像不断地提取特征,激活层是对特征层去除错误信息,那么池化层便是不断地减少特征层的尺寸,以此不断地获得高级特征,由此可以大规模地减少计算量。VGG网络最大的特点就是利用了较小的感受野进行感知,并且不断地加深层数。其模型如图3-4所示。图3-4VGG网络结构图在具体的代码编写中conv1_1+relu1_1会被整体看作是一次卷积,经过第一次卷积,再经过一次pooling1之后,再次重复上面的过程,如conv2_1+relu2_1+conv2_2+relu2_2+pooling2。经过该过程之后,得到的特征图的尺寸就变成了56×56×128,以此类推。但是需要注意的是,网络结构在后面利用了conv1也就是1×1的卷积核,其并没有对整个特征图进行更深层次的特征提取,而是对整个特征图进行了一次非线性卷积操作,这有利于增强特征图的鲁棒性。第一次全连接层的维数是4096维,第二次也是4096维,两次的维度相同。但是全连接层的作用却不一样。第一次全连接层是为了让所有的特征图变成一维向量,而第二次的全连接层则是对上一层的一维向量进行鲁棒性的增强,使得网络的非线性更强,隐藏层更多。最后一个全连接层使得一维向量的维度变成了1000维,然后将这1000维的向量送入Softmax分类器中,对每个类别进行置信度的打分,利用非极大抑制得到预测框。VGG网络在设计的时候,实验了六种不同的网络结构,最终发现卷积层的整体数目在16或者是19层的时候,VGG网络检测效果最好,准确度最高。在本次实验中基础网络便是VGG网络的前面五层,即利用VGG网络的前五层提取基础特征。当然VGG网络也有自身难以克服的缺点,虽然它已经比之前的网络权重参数降低了百分之八十左右,但权重参数占用GPU和内存达到140M左右,存在可以继续优化的可能性。1.4.2网络结构层级SSD目标检测算法是由WeiLiu等在2016年ECCV(Europeanconferenceoncomputervision)会议上提出。相较于YOLO系列,FasterR-CNN等2阶段检测算法,SSD算法是由深度卷积神经网络改进而来,属于单阶段目标检测算法,其在各种视觉识别任务中被广泛使用并且表现优异。此算法的优点是速度快,能够做到实时目标检测,但是对小目标的检测精准度较低。其网络结构是基于VGGnet[27]网络结构的变体,卷积层Conv4_3之前均为VGGnet网络的基础结构,将VGGnet之后的全连接层改为了卷积层,即VGGnet网络的FC6,FC7改为Conv6,Conv7;其次网络将原来pool5池化层的大小,由原来的2×2改为3×3,同时,步长也由原来的2改为1,但是这样产生的特征图尺寸与后续不匹配,于是再利用atrous算法使得尺寸能够匹配,在这之后,再添加不同尺度的卷积层,达到多尺度变换的目的。SSD的网络结构是基于前馈卷积神经网络的,对于部分特征图产生固定尺寸的默认框,映射到图像域中产生固定大小的边界框集合和框中对象类别的分数,最后利用非极大抑制算法产生最终检测框以及分数。对于如何选取默认框的尺寸,以及默认框的数量,遵循此原则,即高层特征图检测大物体,默认框的尺寸尽可能小,低层特征图检测小物体,默认框的尺寸尽可能大[67]。而SSD算法对于默认框的数量,则是分别对Conv7,Conv8_2,Conv9_2这3个特征层每个Cell取6个默认边界框,而对于Conv4_3,Conv10_2,Conv11_2这3个特征层的每个Cell取4个默认边界框。对于300×300的输入图像而言,网络总共取38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8732个默认边界框。式(3-14)为在不同层级边界框尺寸计算公式(3-14)公式中:m指代特征图的层数;k代表不同的特征层;smax代表最高特征层边界框的比例,一般取0.9;smin代表最低特征层边界框的比例,一般取0.2,skQUOTE指代不同特征层边界框的比例。通过式(3-14)可以看出对于高层特征图而言,默认框的尺寸较小但感受野较大,可以检测到较大的物体。而低层特征图的默认框较大,感受野较小,则可以检测图像中的小物体。1.4.3多尺度特征图分析SSD利用不同尺度的特征图生成的不同尺寸的默认边界框去训练数据,再利用反向梯度下降算法去降低损失函数的值。为了检验这种方法的先进性,SSD网络逐步移除不同的特征层,分别去比较结果。由论文结果可知,只对单一的特征层或者是个别特征层选取默认框,相对于分别对六个不同层级的特征层选取默认框,前者的准确度下降了许多。为了公平地比较,每一次仅仅去除一个层,但是不降低总体的默认框数量。也就是说,不管去掉哪一层或者是哪几层,最后生成的默认框的数量(8732)不变。经实验发现,如果只选择任意一个单一特征层或者是某几个特征层,其效果都不好。其关键在于需要对低层,中层,高层特征层均进行选取,只有这样才能提取图像更为全面的信息。多尺度特征层的增强,尤其是更多的底层特征的提取,对小目标细节的表征更好。这也就意味着,更多底层特征的提取对最终结果的准确度提升其效果更加明显。在低分辨率的特征图上面,SSD的多尺度方法并不会出现像FasterR-CNN那样的模型崩塌问题,文献[68]中详细阐释了FasterRCNN的这一缺点。1.4.4数据增强及小目标检测分析为了得到更多样本,需要对训练集进行一定比例的扩充。Fast和FasterR-CNN使用原始图像以及进行0.5概率的水平翻转后的原始图像进行训练。相比之下SSD算法使用更广泛的训练数据,采用类似于YOLO算法的方式对图像进行随机剪裁。剪裁部分与图像重叠的比例分别为0.1、0.3、0.5、0.7、0.9。对原始的图像数据进行剪裁之后改变到固定尺寸。或者是将图像数据以百分之五十的概率随机水平翻转。SSD算法的采样策略相对于Fast和FasterR-CNN进一步提升了分类精准度。FasterR-CNN以及FastR-CNN在分类期间使用了pooling。在对图像进行扩充之后,进行了随机剪裁。经过实验分析,如果采用不同类型的数据集,这种做法可以将平均精准度提高百分之二到百分之三。SSD算法同样借鉴了这一点进行了数据的扩充。但更为重要的是,SSD算法利用网络结构对图像进行多层提取,此方法提升了准确率。对于小目标检测而言,因为其特征提取较为困难,特征较小,如何准确并且快速检测一直是业界的一个难题。但是SSD算法将底层特征以不同尺度分别提取,较好地解决了这个问题。1.4.5损失函数及优化算法SSD算法的损失函数公式如式(3-15)所示,分为两部分,一部分是关于置信度的损失函数Lconf,一部分是关于位置的损失函数Lloc,两个损失函数经过加权得到最终的损失函数。相比于之前的目标检测FasterR-CNN算法,整体算法的损失函数并没有太大的变化。仅仅只是对不同特征图的损失函数相加,得到最终的损失函数。相对于YOLOv3而言,该网络对于小目标的检测准确度更高。(3-15)式(3-15)中N表示与真实标签相对应的默认矩形框的个数;l为默认矩形框的中心位置;g为真实边界框的中心位置;c为置信度;x为匹配值。位置损失函数如式(3-16)到(3-18)所示,LlocQUOTE用于比较预测得到的矩形框与真实标签的矩形框的中心位置。(3-16)(3-17)(3-18)置信度损失函数LconfQUOTE为分类器Softmax的损失函数。i为第i个默认框,j为第j个真实框,p表示第p个类,N表示默认框与真实框相匹配的个数,l表示预测框的中心位置,g表示真实框的中心位置。算法将默认预测矩形框与任意的真实标签包围框相匹配组成标签,只要两者之间的重复值大于一个阈值,如0.5,便认为预测矩形框预测成功。SSD算法在对VGG网络进行改进时,一方面为了能够更好地扩大感受野,更好地利用特征图,其采用空洞卷积算法进行部分优化:将原有Pooling层的卷积核步长由原来的2改为1,对卷积核的大小,由原来的3×3改为2×2,使得经过池化层之后特征图能够包含更多的信息,分辨率更高,有利于小物体的检测。但是因为尺寸变化无法适应后续网络,无法进行fine-tune,因此利用空洞卷积,改变卷积策略,从而能够多尺度的对图像进行检测。另外一方面,SSD算法最大的贡献便是利用了多尺度特征图去对损失函数进行加权,对于每一个特征图的默认框相关参数均会输入到Softmax分类器中,最后加权到损失函数中。具体来说,SSD算法利用在不同特征图生成的不同尺度的默认边界框去训练数据,再利用反向梯度下降算法去降低损失函数的值。图3-5是SSD算法在Tensorflow框架中的结构图。图3-5SSD算法架构图1.5基于YOLOv3和FasterR-CNN卷积神经网络的目标检测1.5.1YOlOv3卷积神经网络YOLOv3卷积神经网络是2018年3月提出,是截至当时而言基于YOLO[69]模型而言较好的算法。YOLOv3卷积神经网络与之前YOLO算法大体框架相似,不同点在于YOLOv3的anchorboxes是通过聚类的方法得到的。其中特征提取模型是基于YOLOv2[70]的Darknet-19基础结构以及Resnet的混合提取网络,最终形成了53个卷积提取层。其中融合了ResNet算法,共包含5个残差模块,残差模块的引入和使用,既可以防止有效信息的丢失,又可以防止深度网络训练时梯度消失。结构图如图3-6所示。图3-6YOLOv3结构示意图YOLOv3创新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论