【《基于关键点的视频流目标检测算法分析案例》8000字】

上传人：E*** IP属地：湖北上传时间：2026-03-25 格式：DOCX 页数：15 大小：1MB 积分：15 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于关键点的视频流目标检测算法分析案例目录TOC\o"1-3"\h\u9993基于关键点的视频流目标检测算法分析案例 1268571.1角点检测原理 1230221.2参考的网络结构 4200671.2.1CenterNet 461841.2.2CornerNet-Lite 531611.3基于关键点的高效目标检测算法 698441.4实验及分析 11293251.4.1实验数据集 119501.4.2实验环境与参数设置 12250401.4.3实验及结果 12在计算机视觉任务中，基于卷积神经网络的目标检测器实现了较好的检测结果，这类检测大多是基于锚框。基于锚框的检测方式有两个较大的缺点，第一需要获取大量的锚框，像DSSD算法中生成了超过4万个锚框[42]，RentinaNet中包含超过10万个锚框[43]，第二锚框的使用会引入大量的超参数和设计细节，如设计多少回归框，回归框的大小，以及纵横比的设置，这些细节需要大量的实验进行确定，同时当针对多分辨率图像预测时，会使算法结构变得更复杂。而基于关键点的目标检测方法是目标检测领域中相对较新的一种方式，这种方式取消了检测流程中生成锚框的步骤，提升了框架的检测速度。基于关键点检测的方式通过角点池化的方法预测出所有实例的角点热图及中心热图并生成对每个角点的嵌入向量，嵌入向量可用于对角点进行分组。这种方式有效的保障了检测精度，但这种检测方式需要较高的处理成本，为此使用了一种类注意力机制来消除对图像中所有像素处理的需要，降低了检测的成本。同时由于对于高度重叠的同类目标图像目标中可能存在检测误差，故在检测过程中添加中心点来判断是否是同一目标，通过以上的方式，保证了在检测精度不下降的基础上，提升了检测速度。1.1角点检测原理角点检测的方式首先使用卷积结构获取特征图，然后使用该特征图去预测所有实例热图中的左上角点和右下角点以及每对角点的嵌入向量以及偏移量。由于同一个目标的两个对角点间的嵌入向量的差距较小，故借此实现对获取到的角点进行分组。除此之外还使用了角点池化，角点池化可以通过角点来定位边界框的位置，由于算法使用左上角点以及右下角点，故最大池化也分为两种，即左上角点最大池化和右下角点最大池化。左上角点的最大池化过程如下，角点池化层需要使用两张特征图作为输入，第一张特征图对所有特征从右向左进行最大池化，第二张特征图需要从下到上进行最大池化，然后再将两个特征图的池化结果汇聚到一起，具体的池化过程如图1.1所示，右下角点的最大池化过程和左上角点最大池化的过程相似，仅方向不同，右下角点池化需要对第一张特征图从左到右进行最大池化，对第二张特征图从上到下进行最大池化。左上角点池化如图1.1。图1.1左上角点池化过程图Fig.1.1Thediagramoftop-leftcornerpoolingprocess对于预测的两类角点，即左上角点及右下角点，每类角点会生成对应的热图，热图的大小为H×W，通道数量为C，对应C种不同的目标，每个通道对应角点位置的一种类。同时对于每个角点，都仅有一个正确标注点，其他的点均为错误的点，当遇到错误的点会对它们进行惩罚，为了更好的训练找到正确的点，会将正确的点为圆心设置圆，圆内的点会减少惩罚。该圆半径大小是根据角点产生边界框与真实框的交并值大于0.7为准。根据给出的半径，圆内的惩罚的减少根据非标准化的2D高斯函数进行设置，公式如下：f(1.1)其中x,y代表的是正确样本的中心坐标，𝜎代表的半径的13使用了一种变种focalloss函数，处理正负样本不平衡的问题。公式如下：L(1.2)在上式中pcij代表的坐标（i,j）位置下的对于c类目标预测热图的分数，ycij代表使用了非标准化高斯函数后的真实热图提升的值，N代表图像中所有的目标类别，𝛼和𝛽表示对控制每个点权重的超参数，当ycij为了解决对图像下采样后，获得热图准确度丢失的问题，使用了预测偏移量来调整角点的位置，公式如下：o(1.3)在上式中ok表示第k个节点的偏移量，xkyk表示第kL(1.4)由于一张图片可能包含多个对象，因此也可能会生成大量的检测角点，因此需要根据不同角点间的嵌入向量的距离来判定两个角点是否属于同一个对象，同一个对象的角点间嵌入向量的距离较小，使用损失函数pull来训练网络结构实现对角点的分组，再使用损失函数push去分离不同对象的角点。公式如下：L(1.5)L(1.6)在上述公式中etk表示目标k的左上角点的向量距离，ebk表示目标k的右下角点的向量距离。ek表示角点池化分为左上角点池化和右下角点池化，这些池化层的作用是通过对先验知识进行编码实现更好的定位角点。角点最大池化的公式如下：t(1.7)l(1.8)在上述公式中ft与fl代表输入到角点池化层中的特征图，ftij及flij表示在特征图ft与fl中对应i,j位置的向量，对于H×W大小的特征图。角点池化层首先将特征图ft中的（i,j）到（i,H）之间的所有特征向量变成一个特征向量tij，然后将特征图fl最终使用Adam优化器优化整体损失函数，具体公式如下：L=(1.9)在上式中𝛼、𝛽、𝛾分别代表了pull、push、offset函数的权重，针对于这些超参数，需要根据具体的运行环境进行修改及调整，保证算法有一个较好的效果。1.2参考的网络结构1.2.1CenterNetCenterNet是一种基于中心关键点的检测方法，这种方法通过检测器检测到边界框的中心点，再回归到其他属性，如尺寸、3D位置、方向以及姿态[44]。相对其它边界框的检测器，CenterNet采用端对端的检测方式，并且基于边界框中单个点检测的方式更便捷，且更准确。CenterNet检测方式是将输入的图片转换成热图，同样该图片的热图会显著表示出识别目标的中心，可以根据检测出的目标中心进行计算预测出目标对象的长和宽。对于目标k所属种类为Ck的边界框位置为（x1(k),y1(k)Y(1.10)对于px和py指的是对中心点坐标进行下采样后的结果，高斯核中心点矩阵效果如图1.2。图1.2高斯核生成的中心点数组矩阵Fig.1.2ThecenterpointofnumbermatrixgeneratedbyGaussianKernal对获取到预测的中心点，每个关键点用整型坐标表示即xi,y((1.11)对于上述公式，（δxi,中心点检测方式如图1.3所示。图1.3根据中心点预测出目标效果图Fig.1.3Theresultdiagramofobjectdetectionbycenterpoint1.2.2CornerNet-LiteCornerNet-Lite是以CornerNet为基础网络结构做出的改进，通过引入了注意力机制以及改进了算法的基础网络架构，使算法的检测速度和精度都有了大幅的提升[46]。CornerNet-Lite整体流程分为两部分。第一步是对目标在图片的位置进行预估计，先对图片进行下采样，方便图片进行特征图预测，其次针对不同的尺寸的目标，预测出不同大小的特征图，即对小尺寸的目标使用细粒度的特征图，对于大尺寸的目标使用粗粒度的特征图。可以提升算法的准确度。第二步需要对粗略获取的目标进行精确的定位，由于下采样后获得的图像位置不够精确，需要对高分辨率的区域进行进一步检测，以此获得精确的目标位置，再根据预测目标大小进行平移量修正，可以提升小目标的高精度检测，最后使用Soft-NMS对所有的目标进行合并，删除掉冗余的边界框[47]，这种方式可以通过控制检测位置的数量来调整检测精度和性能，实现更好的检测效果。1.3基于关键点的高效目标检测算法本节提出的基于关键点的高效目标检测算法是一种特殊的角点检测的算法。这样做的好处是解决了基于候选框检测的问题，第一在检测的过程中会生成大量的锚框，会导致正负样本不均衡的问题。第二由于使用了锚框会给算法带来大量的超参数，比如图片的数量，大小，纵横比等等，增加算法的复杂度。通过解决上述问题，进而提升检测速度。因此这里介绍基于关键点的高效目标检测算法。本算法的网络结构分为两部分，第一部分会生成粗略目标位置模块，第二部分是检测目标模块。第一部分通过对图片进行下采样操作并输入给漏斗网络，之后使用类注意力机制来预测可能存在目标边界框的位置，然后对获取到可能存在目标边界框的位置进行排序，并通过非极大值抑制的方法筛选去选取K个可能存在目标的目标位置，其中可以通过对K数值进行调整，以此来调整算法的检测精度和检测速度。第二部分是将那些可能存在目标位置的图像进行细化，检测出目标的具体位置，并对其进行合并。通过卷积神经网络提取出前K个可能存在目标的候选框，通过角点级联池化和中心池化层分别生成对应目标的角点热图和中心热图，然后根据角点热图中左上角点和右下角点的嵌入向量判断该对角点是否属于同一个目标，再通过中心池化对每个边界框生成一个中心热图并且通过判断中心点是否在中心区域中，来对那些高度重叠的同类目标进行区分。第一部分结构如图1.4所示，第二部分结构如图1.5所示。图1.4基于关键点的高效目标检测算法结构图一Fig.1.4Thepartonestructurediagramofefficientobjectdetectionbykeypoints图1.5基于关键点的高效目标检测算法结构图二Fig.1.5Theparttwostructurediagramofefficientobjectdetectionbykeypoints对于算法中第一部分，生成粗略目标位置模块中，采用了两次下采样，将输入的图片分别缩小为255像素和192像素的大小。将图像缩小为这两种大小的原因有两点，第一可以减少推断时间的瓶颈，第二网络结构可以更好的利用图像中的上下文信息去预测特征图。为了更好地提取多尺度特征，文中使用漏斗网络（Hourglass-52）结构。文中使用到的漏斗网络结构如图1.6所示。图1.6漏斗网络结构图Fig.1.6Thediagramofhourglassnetworkstructure漏斗网络结构使用了多个通道分别去处理不同尺度下的信息，通过侧面的网络结构组合这些特征，通过这种方式可以有效地捕捉图像多尺度下的特征。在漏斗网络中，先使用了卷积和最大池化来降低图像的分辨率，当分辨率较低时，采用最邻近插值法进行上采样操作。在获取到的经过下采样处理的图像后，网络结构会对此预测出3种不同大小的注意力图像，分别对应不同大小的目标。即对小目标生成小注意力图，中等目标使用中等注意力图，大目标使用大注意力图。对于目标边长大小小于32像素的目标认定为是小目标，对目标大小大于32像素小于96像素的被认定为是中等目标，对目标大小大于96像素的被认定为是大目标。通过采用不同大小注意力图的方式，可以有效的实现对于不同大小目标的分类检测，确保不会出现遗漏小目标的问题。为了实现对于小对象使用较细的特征图，对于大对象使用较粗的特征图的思路。对漏斗网络中对每层特征图，使用的是3×3的卷积结构和ReLU激活函数组成的模块，在该模块后连接着1×1的卷积结构和Sigmoid激活函数组成的模块。对于目标检测的对象来说，目标的角点一般位于目标的外部，这就导致了缺乏大量的局部特征。为了解决这个问题，CornerNet算法通过在边界方向上查找最大值来决定一个点是否是角点。故对应角点对所依赖的边更敏感，为了解决角点依赖于边的问题，需要让角点表示目标的可识别视觉模式，故使用角点级联池化的方式。角点级联的方式是首先沿着边界的方向寻找边界内部的最大值，然后将两个最大值相加，这样使得角点包含了边界信息和目标的可视化视觉模式。在图1.7中分别介绍了中心池化和角点级联池化的设计结构，为了获取水平方向上的最大值，将最左池化成和最右池化层连接到一起。同理为了获取竖直方向的池化，将最上池化和最下池化连接到一起。中心池化层将水平和竖直方向的池化结合起来。角点级联池化分为左上角点级联池化和右下角点级联池化。左上角点级联池化先通过最左池化后再进行最上池化，右下角点池化即先通过最右池化后再进行最下池化。左上角点级联池化模块及中心池化模块结构如图1.7。图1.7中心池化模块和角点级联池化模块结构图Fig.1.7Thediagramofcenterpoolingmoduleandcascadecornerpoolingmodulestructure对于现实中的一些不规则物体，物体的几何中心不一定能传达出可识别的视觉模式[48]，比如以人类目标为例，根据人类的头部即可识别出该目标，但是人类的几何中心一般位于人体的腹部，为了有效的解决这个问题，设计中心池化的思路，通过中心池化去捕获更丰富更易识别的视觉模式，中心池化的过程如下：获取到主干网络传递过来的特征图，判断该特征图是否包含中心点，通过在特征图的水平方向和竖直方向寻找并将他们添加到一起。因为在算法细粒度检测模块中，需要根据目标的中心点是否在中心区域上来判断是否保留对应的候选框，所以对于中心区域的选取尤为重要，对于小目标，如果中心区域过小，会导致目标的丢失。若是大目标，如果中心区域过大，会导致识别的准确率下降，因此中心区域的选取使用了如图1.8的选取方式，对于不同大小的边界框划分为5×5的方格或者3×3的方格。中心区域选取过程如图1.8所示。图1.8中心区域的选取过程Fig.1.8Thediagramofselectionprocessincentralarea为了选取到上述图中所展示的区域，使用到的公式如下：ct(1.12)ct(1.13)cb(1.14)cb(1.15)在上述公式中tlx和tly代表选定边界框的左上角的横纵坐标，brx和bry代表选定边界框右下角的横纵坐标，ctlx和ctl整体的损失函数如下所示：L=(1.16)其中Ldetco表示训练过程中检测角点的focalloss函数的值，Ldetce表示训练过程中检测中心点的focalloss函数的值，Lpullco表示对于角点的pull损失函数的值，用来衡量角点向量间的最小距离，检测角点对是否属于同一对象。Lpushco表示对于角点的push损失函数的值，用来最大化检查角点向量间的最大距离，检测属于不同对象的角点。Loffco表示角点的L1损失函数的值，用来预测角点的偏移量。Loff其中LdetL(1.17)在上式中pcij代表在坐标（i,j）位置下的对于c类目标预测热图的分数，ycij代表使用了非标准化高斯函数后真实热图提升的值，N代表图像中所有的目标类别，𝛼和𝛽表示对控制每个点权重的超参数，当ycij其中Lpull及Lpush的公式如下所示，使用pull函数实现对同一目标对角点的分组，使用L(1.18)L(1.19)在上述公式中etk表示目标k的左上角点的向量距离，ebk表示目标k的右下角点的向量距离。ek表示Loff函数公式如下所示，通过光滑L1L(1.20)在上面的公式中ok表示第k个角点的偏移量，oo(1.21)其中xkyk表示第k个节点中的横纵轴坐标，1.4实验及分析1.4.1实验数据集MS-COCO数据集是微软公司构建的一个大型的，适用于物体检测，物体分割等任务的数据集。MS-COCO数据集包提供了80种类的对象以及330000图片和2500000个标签，其中200000张图片已有标注。该数据主要解决3类问题：目标检测、目标之间的上下文关系及目标二维坐标上的精确定位，在模型训练的过程中采用的是”trainval35k”训练集来进行训练及测试，该数据集合包含80000个训练图像和35000验证图像。相比于PASCALVOC数据集，MS-COCO数据集无论是在数据类别和训练数量都要远远超过PASCALVOC数据集，因此MS-COCO的训练难度要更高。MS-COCO数据集和PASCALVOC数据集的目标种类和目标数量的对比结果[19]如图1.9所示。图1.9COCO数据集于PASCALVOC数据集对比图Fig.1.9ThediagramofCOCOdatasetandPASCALVOCdatasetcomparsion1.4.2实验环境与参数设置本文实验是在实验室环境中进行的，所用到的软硬件条件如表1.1所示。表1.1实验软硬件环境Table1.1Thetableofsoftwareandhardwareexperimentalenvironment软硬件环境参数CPUGPU内存硬盘IntelCorei7-8700(3.2GHz)RTX207016GB500G操作系统Ubuntu16.04开发环境Pytrorch1.0.0、Python3.7、CUDA10、GCC1.9.2在训练过程中先使用的学习率为2.5×10-4，后期由于训练错误率增大，故调小了学习率设置为2.5×10-5，批处理的大小为32，在实验过程中，使用了一些数据增强的技术，将原始图像，水平翻转后的图像以及放大缩小后的图像作为输入。其中放大和缩小的比例分别为0.6、1、1.2、1.5和1.8。该算法中参数K值的设定很重要。因为K值越大，会增加检测关键点的对数，进而提升检测准确度，但目标检测的数量会极大的影响目标检测的速度，K值设计的较小，可有效提升算法的检测速度，但由于检测目标的数量较少，会影响算法的检测准确度，故根据实验室设备的硬件环境，将K值设定为70，可以根据选中的70对左上角点和右下角点去检测对应的目标，并水平翻转检测出目标的边界框，放入到原始图像中，然后使用非极大值抑制的方法去掉冗余的边界框，最后选取图像中最优的100个检测结果。通过这种手动设置检测关键点对数的方式，可以根据实际应用需求调整算法的检测速度和检测准确率。1.4.3实验及结果图1.10随机选择了MS-COCO测试集中的2张图像，左侧图像中包含了大量的小目标，右侧图像中包含了多个常规目标。检测结果如图所示，可以看到在左侧图像中，像杯子，碗等小目标可以被准确的检测出，证明基于关键点检测方法的可行性。该算法中设置的关键点对数为70，在实验室中的硬件环境下检测帧数可到2

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于关键点的视频流目标检测算法分析案例》8000字】

文档简介

温馨提示

最新文档

评论

【《基于关键点的视频流目标检测算法分析案例》8000字】

文档简介

温馨提示

最新文档

评论

相关文档