【《基于颜色深度信息的物体识别算法探究报告》7800字】

上传人：E*** IP属地：湖北上传时间：2025-12-19 格式：DOCX 页数：16 大小：1.35MB 积分：15 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于颜色深度信息的物体识别算法探究报告目录TOC\o"1-3"\h\u20564基于颜色深度信息的物体识别算法探究报告 138001.1颜色信息与深度信息的融合策略 1244451.2基于RGBD的YOLOv3+SPPNet目标检测算法 43021.2.1YOLOv3+SPPNet网络结构 4308941.2.2评价指标及损失函数 5302451.2.3实验结果及分析 794161.3融合RGB图像和深度图Depth的语义分割网络 10273841.1.1语义分割网络设计 1032161.1.2评价指标及损失函数 11194551.1.3实验结果及分析 13243171.4本章小结 16物体识别是指在输入的RGB图像中，能正确识别物体的种类并确定物体的位置，通常包含分类和定位两个任务。当前，物体识别所使用的数据集都只提供RGB图像和标注信息，如VOC2007、MSCOCO等。RGB图像蕴含有丰富的纹理信息和颜色信息，通过卷积神经网络处理，能获得有效分类和定位的高维特征。但在一些复杂场景中，可能存在光照条件差，物体遮挡严重，场景混乱等问题，仅使用RGB图像很难提升识别算法的性能。而深度图所包含的信息不易受光照条件影响。通过与RGB图像提取到的特征相结合，能有效提升弱纹理、低光照条件下的识别性能。本章所讲的物体识别算法是基于RGBD图像的，训练使用的数据集是LineMod数据集和YCB数据集。本章将从目标检测和语义分割两方面，对融合颜色信息和深度信息的物体识别算法展开论述。1.1颜色信息与深度信息的融合策略RGB图像和深度图是两种具有不同结构的数据。颜色信息通常是H×W×3的组织形式。H表示图像的高，W表示图像的宽，3表示图像的三个颜色通道R、G、B。深度信息则是通过深度图的形式表示，通常为H×W×1，1表示深度图只有一个通道。图上的数据表示该点到相机的距离，蕴含有空间信息。如何能有效融合颜色信息和深度信息不仅是研究人员所面临的迫切难题，也是算法性能瓶颈的重要突破口。Li[51]等学者观察到两类数据都是H×W×n（n表示通道数），首次提出将深度图作为RGB图像的“第四个”通道传入网络进行处理。然而，这种简易的融合后期需要一系列复杂的优化手段才能获取较准确的结果。2018年的DenseFusion[40]算法提出了一种颜色信息和深度信息稠密融合算法。考虑到两种数据各自的结构，DenseFusion提出先使用不同网络处理不同数据再融合。DenseFusion先通过语义分割网络获得包含物体的颜色子图，再利用颜色子图所包含的边框信息裁剪获得深度子图。颜色子图继续由CNN网络提取特征，深度子图则转换成点云，交由类PointNet结构的网络处理。之后，将两类特征逐像素地融合，通过MLP提取全局特征，获取新的特征向量。最后交由姿态网络预测位姿信息。虽然最终的预测结果达到了当时的领先水平，但DenseFusion先裁剪子图再融合的策略并不适用于物体识别算法。前者使用了两次CNN网络提取特征。第一次是语义分割获取颜色子图，第二次是提取颜色子图的特征。这种融合策略存在重复计算，第一次提取到的特征无法在后续融合中继续使用。为保留两种数据各自的结构，本文选用的融合策略仍然是先提取再融合。深度图的大小为H×W×1，可视作通道数为1的特征图，同样可以构建神经网络进行处理。表31为处理深度图的DepConv网络结构。假设输入大小为416×416，通过该网络处理后，原始输入的深度图进行5次下采样，输出特征图大小为13×13×256。表中的矩形框表示DepConv网络引入的残差结构。在视觉任务中，高维特征或全局特征往往包含更深层次的语义信息。为充分利用提取到的特征，在融合前引入SPP[10]或者PPM[31]等金字塔结构，通过自适应池化操作获取全局特征，可以有效增强算法性能。表31处理深度图的DepConv网络结构Table31DepConvnetworkstructureforprocessingdepthmapstypefiltersSize/strideoutput_channelConvolutional323×3416×416Convolutional643×3/2208×208Convolutional321×1Convolutional643×3Residual208×208Convolutional643×3/2104×104Convolutional321×1Convolutional643×3Residual104×104Convolutional643×3/252×52Convolutional321×1Convolutional643×3Residual52×52Convolutional1283×3/226×26Convolutional641×1Convolutional1283×3Residual26×26Convolutional2563×3/213×13Convolutional1281×1Convolutional2563×3Residual13×13

1.2基于RGBD的YOLOv3+SPPNet目标检测算法1.2.1YOLOv3+SPPNet网络结构图31基于RGBD图像的YOLOv3+SPPNet网络结构框图Fig31structuralblockdiagramofYOLOV3+SPPNetnetworkbasedonRGBDimage图31为基于RGBD图像的YOLOv3+SPPNet网络的结构框图。框中的数值表示每个阶段输出特征图的大小。以13×13×1024为例，第一个13表示高，第二个13表示宽，第三个数字1024表示通道数。本文使用不同的网络分别处理RGB图像和深度图。RGB图像采用Darknet-53[7]作为主干网络提取特征，深度图采用自主设计的DepConv处理，其网络结构如表31所示。深度图经过五次下采样，最终的结果为13×13×256。为扩大感受野并充分利用提取到的特征图，本文引入SPP模块来获取高维特征和全局特征。由图31可知，融合后的特征图大小为13×13×1280，再将其传入SPP结构中进行处理。SPP模块包含三个最大池化操作，池化大小分别为5×5、9×9、13×13，步长设置为1。池化后的特征图仍保持原始尺寸，即13×13×1280。将最大池化处理后获得的三个特征图融合，与融合后的特征图再次融合，即图中表示恒等映射的虚线，此时特征图大小为13×13×5120。继续使用卷积核为3×3的卷积层对其进一步提取特征并调整通道数，调整为13×13×512。之后，交由YOLOv3的Head网络进行预测。最终获得三种尺度的预测结果，分别是[bs,52,52,3,classes+4+1]、[bs,26,26,3,classes+4+1]、[bs,13,13,3,classes+4+1]。其中，bs表示batch_size；classes表示类别数，即数据集中的种类数；4表示边框调整信息，即xywh；1表示是否包含物体的概率。1.2.2评价指标及损失函数评价指标目标检测任务中常用的评价指标有FPS和mAP，前者是用来衡量算法运行速度的，即一秒内可以处理多少帧图像；后者则是用来表征检测算法的准确率。可通过公式（31）计算获得，（31）其中为上一次计算出的值，初始值为0，和分别用来记录处理前和处理后的时间戳。通过与上一次计算出的求平均，能更为动态地反应模型的运行速度。mAP（meanaverageprecision）是目标检测中又一重要的评价指标。由于输入图像上可能存在多个种类的多个物体，因此，分类任务中常用的准确率不能直接用于检测算法的评价。mAP是所有种类AP的平均值，它可以同时评价算法的分类和定位能力。AP是PR曲线下方所围面积的近似值，是一个介于0和1之间的数。PR曲线是根据和值绘制出的曲线。表示为准确率，表示为召回率，可通过公式（32）计算获得，（32）其中表示实际结果为正，预测也为正的个数；表示实际为负，预测却为正的个数；表示实际为正，预测却为负的个数。因此，的含义为预测结果中正确的概率，的含义为预测正确的结果占所有正确结果的比例。对于检测任务而言，预测结果不仅包含种类置信度，还有预测出的边框信息。、、个数可通过计算预测边框和真值边框之间的重叠比与阈值相比较获得的。重叠比可通过公式（33）计算获得，（33）其中分子表示预测边框与真值边框的重叠面积，分母表示预测边框与真值边框的面积之和。计算出的与设定好的阈值进行比较，如果大于，则值加1；如果小于，则值加1；如果有未被检测出的真值框，则值加1。因此，当设定的阈值发生改变时，、、个数也会随之变化，从而影响和的值，最终体现在PR曲线上。PR曲线就是根据计算出的值排序并不断调整阈值，获得不同和值绘制出的。但AP值并不是直接计算PR曲线下的面积，而是先对曲线进行平滑处理。计算AP的方法有两种。第一种是11点插值法，即选取这11个点对应的最大值，可表示为公式（34），（34）由上可知，对于给定的值，选用最大的来计算。第二种是所有点插值法。与11点插值法不同，所有点插值法要求针对每个值，选取大于等于值的最大值，可表示为公式（35），（35）与第一种方法相同，对于给定的某个，选用值大于等于所对应的最大值。损失函数目标检测既需要目标分类也需要目标定位。因此，损失函数也是由这两部分组成的。预测结果中包含三部分内容，分别是边框信息、是否为前景的二分类概率以及分类置信度。因此，在表现形式上，YOLOv3的损失函数是由这三部分损失函数共同组成的，具体表示见公式（36）。公式（36）中带尖帽的变量是预测结果，不带尖帽的是真值。表示预测特征图像素点的序号，以13×13的预测特征图为例，的取值范围为。表示预测出的边框序号，取值范围为。表示如果预测结果中第个像素点第个框中有物体，其值为1，否则为0。表示如果预测结果中处没有物体，其值为1，否则为0。和分别表示为预测边框和不包含物体的背景对整个损失函数的影响系数[15][16][7]。YOLOv3的输出结果是由三个不同尺度的特征图预测获得的。这里的分别指的是52×52、26×26、13×13。公式中的用来表征特征图上每个grid所预测出的边框数量。YOLOv3使用3个设定好的锚框作为建议框，对应于输出向量中倒数第二维中的3，因此这里的指的是3。（36）由公式（36）可知，前两行是定位任务的损失函数。坐标损失值通过的均方误差MSE来计算，并引入比例因子去控制坐标损失对整个损失函数的影响。第三行和第四行则是用来计算是否为前景的概率损失。是否为前景是一个二分类问题，因此采用二分类交叉熵（BCE，binarycrossentropy）来分别计算和两部分。此外，使用因子来减弱部分对整个损失函数的影响。第五行是计算分类置信度的损失值，这里采用类别数个二分类交叉熵来计算损失。以13×13的预测结果[bs,13,13,3,classes+4+1]为例，每个grid共有3×classes个分类置信度，因此在计算过程中需要三次求和。1.2.3实验结果及分析本文使用Ubuntu16.04操作系统和11GB显存的GTX1080Ti搭建实验环境。为充分校验算法性能，本文分别在LineMod[33]数据集和YCB[32]数据集上设计实验进行验证，并与同类检测算法进行对比。本章提出的基于RGBD的YOLOv3+SPPNet目标检测算法由YOLOv3和DepConv以及SPPNet组成。YOLOv3是典型的基于锚框机制的检测算法。因此，在训练前需要根据实际数据集更新锚框尺寸。本文采用K-means聚类算法处理数据集，从聚类结果中获取先验框尺寸。K-means聚类的算法流程如图32所示。图32使用K-means聚类算法获得初始锚框流程图Fig32flowchartofinitialanchorsobtainedbyk-meansclusteringalgorithm对于聚类获取先验框问题，采用欧氏距离作为聚类依据可能会忽略边框间的位置关系，进而影响聚类结果和检测准确性。因此，本文选用相邻框之间的交并比代替欧氏距离作为聚类依据。其距离公式可表示为公式（37），（37）其中，表示当前框信息，表示聚类中心，表示当前框和聚类中心的交并比。两个框的交并比值越大，表示其同属一类的可能性越大，两者之间的距离越小。最终共获得9个锚框，分别是（63，112）,（96，157）,（113，84），（128，237），（138，128），（190，166），（197，282），（218，112），（299，216）。根据YOLOv3低分辨率的特征图使用大的先验框，高分辨率的特征图使用小的先验框的分配规则，将锚框依次分配给对应尺度的特征图进行预测。为加速模型收敛，本文加载Darknet-53在ImageNet[12]数据集上的权重参数作为预训练模型。训练前，先将模型中对应的网络层冻结，设置学习率为1e-3，并采用衰减率为0.5的阶层性下降法调整学习率。当训练至100世代时，处理深度图的DepConv、融合特征的SPPNet以及预测边框的Head网络对应的参数得到训练，具有初步的分类和定位能力。之后，将冻结的主干网络解冻，设置学习率为1e-4，也使用阶层型下降法调整学习率，直至模型收敛停止训练。阶层性下降法是指设定模型的某项指标作为监控对象。如果该指标连续几个世代不下降，则满足调整条件，根据预先设定的衰减率对学习率进行调整。模型在验证集上的损失函数值能充分反映模型的训练情况。因此在训练过程中，可选用该损失函数值作为监控对象。为公平比较，本文引入YOLOv3[7]和SSD[9]检测算法，设计对比实验来验证本文检测算法性能。表32为当前算法与同类算法在GTX1080Ti上的性能比较。由于引入处理深度图的DepConv网络和融合特征的SPP模块，本文的检测算法在模型复杂度上略有增加。与YOLOv3算法相比，虽然模型总参数量增加了1.53MB，FLOPs增加了2.76GMac，运行速度下降了2Hz，但在YCB[32]数据集和LineMod[33]数据集上mAP分别提升了0.69、0.92。与SSD算法相比，mAP提升更为明显，分别提升了2.01、0.92。表32本文检测算法与同类算法在GTX1080Ti上的性能比较Table32performancecomparisonbetweenouralgorithmandothersimilaralgorithmsonGTX1080TiInput_dataFPSParamsFLOPsmAP(YCB)mAP(LineMod)SSD300×30024.5726.42M31.48GMac98.4795.32YOLOv3416×41620.3261.63M32.83GMac98.8296.41YOLOv3+SPPNet416×41618.2361.16M35.59GMac99.5197.33图33为本文算法与同类检测算法在YCB数据集上的检测性能对比。横轴为AP值，单位为百分比，纵轴为YCB数据集的21种物体。条形图右侧的数字表示该物体的AP值。由图可知，三种检测算法在YCB数据集上的表现较优，mAP均达到95%以上。这是因为YCB数据集是仅由21种物体在不同场景下不断组合获得的数据集，不同于目标检测领域的VOC2007和MSCOCO数据集包含有大量的同类物体。因此，检测算法的mAP值普遍较高。图33本文算法与同类检测算法在YCB数据集上的检测性能对比Fig33detectionperformancecomparisonbetweenouralgorithmandotherdetectionalgorithmonYCBdataset由图33可知，本文检测算法以99.51%mAP的优势处于领先。相较SSD和YOLOv3，在mAP上分别提升了1.04和0.69。此外，通过条形图波动可知，基于YOLOv3+SPPNet的检测算法在YCB数据集上预测结果更为精确。图34为本文算法在YCB数据集上的检测结果。图34基于RGBD的YOLOv3+SPPNet检测算法在YCB数据集上的检测结果Fig34evaluationsofYOLOv3+SPPNetdetectionalgorithmbasedonRGBDimageonYCBdataset1.3融合RGB图像和深度图Depth的语义分割网络1.1.1语义分割网络设计语义分割是比目标检测更细粒度的分类定位任务，是对图像上所有的像素点进行分类。语义分割复杂度较高，通常可分为两个阶段。前一个阶段为encoder部分，用于下采样和提取特征；后一个阶段为decoder，用于上采样和预测分类。在设计过程中，不仅要充分利用RGB图像与深度图Depth提取到的特征来提升算法性能，还应该考虑减少模型参数。图35是融合RGB图像和深度图Depth的语义分割网络框图。网络采用分而治之的策略，使用不同的网络处理两种数据。图35融合RGB图像和深度图Depth的语义分割网络框图Fig35blockdiagramofsemanticsegmentationnetworkfusedRGBimagewithdepthmapRGB图像采用轻量级网络—MobileNetv2[49]进行处理。由于后续操作中要通过上采样恢复至原始大小，输出特征图不宜过小。因此，本文选用4次下采样后的特征图作为输出。深度图则交由DepConv处理。传入的深度图经过网络处理后，会进行五次下采样，输出特征图变为原先的1/32。为保持与颜色特征图大小相同，选择四次下采样后的特征图作为输出。在下采样阶段，采用向下取整的方法来约束特征图的大小。假设输入深度图大小为473×473，那么，最终网络的输出为30×30。提取到的两个特征图使用Concat方法合并通道获得新的特征图。新生成的特征图传入金字塔池化模块（PPM，PyramidPoolingModule）进行池化操作。首先将其划分成1×1、2×2、3×3和6×6的子区域，分别进行平均池化，提取更深层的特征信息。提取后的特征图通过双线性插值法上采样至池化前的大小，即图35中的Upsampling模块。之后与池化前的特征图合并通道，组成包含更多语义信息的特征图。对传入的特征图使用3×3的卷积进一步提取特征和1×1的卷积调整通道数。最终网络的输出结果为473×473×classes，最后一维classes表示当前像素点属于某一类的置信度。通过SoftMax层、max函数以及argmax函数确定所属类别，获得最终的分割结果。1.1.2评价指标及损失函数评价指标语义分割是像素级的分类定位任务，需要使用更细粒度的指标来评测模型。常见的评价指标除FPS外还有MPA和MIoU。MPA（MeanPixelAccuracy）是指平均像素准确率。PA是正确分类的像素点与图像中所有像素点的比值，可表示为公式（38）。（38）而MPA则是所有种类PA的平均值，可表示为公式（39）。（39）其中，下标表示真值，表示预测值。具体地，假设当前计算的是第类的PA值，则表示该像素点真实类别是，预测结果也是，可以用来表征正确分类的像素点个数，即；表示该像素点真实类别是，预测结果是，如果，此时的表示对应的像素个数；表示该像素点真实类别是，预测结果是，如果，此时的表示对应的像素个数。通常，网络的输出结果通常为H×W×classes。最后一维classes是种类数，其值表示当前像素点属于哪一类的置信度。通过对该像素点上所有的置信度使用max函数和argmax函数，可以确定当前点的最终类别。由公式（38）可知，PA的分子值等于当前通道正确分类的像素点个数，分母值等于所有像素点个数。一般情况下，语义分割也将背景作为一类。因此，在计算MPA时，系数使用代替。MIoU是另一个标准度量。相比MPA，MIoU更能描述真值和预测值两个集合的交并比，其可表示为公式（310）。（310）依据上文的定义，具体地可表示为公式（311）（311）由于分母中包含有2个，所以需要额外减去，即。MIoU数值越大，表示分割性能越好。损失函数语义分割是兼具分类和定位的细粒度问题。因此，损失函数也是由这两部分构成的。前者使用交叉熵表示，后者则使用Dice系数表示。在使用交叉熵计算分类的损失函数前，需要将输出结果H×W×classes中的置信度交由SoftMax层处理。这是因为输出的置信度有大有小，SoftMax层可将其归一化成概率分布的结果。公式（312）为SoftMax的表达式。（312）SoftMax层处理后的概率向量与真值的独热向量计算交叉熵。交叉熵通常可分为二分类交叉熵和多分类交叉熵两种。二分类的交叉熵损失函数可表示为公式（313），（313）其中，表示样本的标签，如果为正类则值为1，如果为负类则值为0；表示预测正确的概率。公式（313）中的是以e为底的对数。多分类的交叉熵损失函数是二分类的进阶版，其可表示为公式（314），（314）其中表示类别数，表示样本的标签，如果样本属于则值为1，反之为0；表示样本属于的概率。dice损失函数源自dice系数，是一种常见的用来衡量两个集合相似度的函数，可表示为公式（315），（315）其中，分子表示两个集合的交集，分母表示两个集合的元素总数。。因此，dice损失函数可以表示为公式（316）。（316）dice系数的取值范围在0和1之间，dice值越大，集合的相似度越高，对应的dice损失函数值越小。对于语义分割而言，假设集合和集合分别指预测值和真值。具体地，描述的是，描述的是。因此dicecoefficient也可以表示为公式（317），（317）由1.2.2小节中的公式（32）推导，（318）dicecoefficient同时包含着准确率和召回率两个指标，因此dice损失函数可表示为公式（319）。（319）1.1.3实验结果及分析本文使用MobileNetv2在ImageNet上的权重文件作为预训练模型，加载到1.1.1小节中设计的语义分割网络进行迁移训练。训练前，先将MobileNetv2的网络层权重冻结，设置学习率为0.001，然后开始训练。当训练至世代数为100时，再将之前冻结的网络层解冻，并修改学习率为0.0001，继续训练至模型收敛。训练过程中，将模型在验证集上的损失函数值作为监控指标，采用衰减率为0.5的阶层型下降法调整学习率。当学习率下降至1e-6时，可提前结束训练。为充分验证模型的分割性能，本文使用YCB作为实验数据集，并采用MPA和MIoU评价指标来检验模型。为了公平比较算法性能，本文使用分割领域的同类算法UNet[25]、Deeplabv3[28]以及PSPNet[31]进行对比实验。表33为本文算法与UNet、Deeplabv3、PSPNet在YCB[32]数据集上的性能参数。由表可知，融合RGB图像和深度图Depth的语义分割算法与其他三类算法相比，MIoU和MPA均有所提升。在YCB数据集上，本文提出的模型以MIoU为91.56%，MPA为96.79%领先其他三种算法。这是因为本文模型采用深度可分离卷积网络MobileNetv2作为RGB图像的主干网络，在有效降低模型参数量和计算量的同时，还可以保证模型具有较强的特征提取能力。此外，本文引入金字塔池化模块PPM，将全局特征与RGB图和深度图提取后的特征图融合，极大地增大了模型的感受野，提高了模型对边界特征的描述能力。

表33本文分割算法与同类算法在YCB数据集上的性能参数Table33performanceparametersofoursegmentationalgorithmandsimilaralgorithmsonYCBdatasetUnetDeeplabv3PSPNetOursMIoUMPAMIoUMPAMIoUMPAMIoUMPAbackground98.2999.2198.2199.4698.6299.698.799.3002_master_chef_can94.9897.8994.5896.8295.5796.6295.9697.34003_cracker_box9496.191.5595.0395.6597.3195.5398.21004_sugar_box91.7696.6192.6694.894.9996.3495.397.29005_tomato_soup_can91.4395.892.8494.6994.7396.2494.997.54006_mustard_bottle94.3296.6694.1996.4595.1496.6295.3797.58007_tuna_fish_can91.6394.0591.2291.7792.8994.4791.7497.02008_pudding_box91.6194.9391.3794.0591.1394.4991.6996.67009_gel

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于颜色深度信息的物体识别算法探究报告》7800字】

文档简介

温馨提示

最新文档

评论

【《基于颜色深度信息的物体识别算法探究报告》7800字】

文档简介

温馨提示

最新文档

评论

相关文档