版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114170570B(65)同一申请的已公布的文献号(73)专利权人宽泛科技(江苏)有限公司金洋路15号B5幢202室(74)专利代理机构南京纵横知识产权代理有限公司32224专利代理师董建林凯.基于改进MaskRCNN的电力检修违规操作检测.计算机系统应用.2020,(第08期),第3.2-3.3一种适用于拥挤场景下的行人检测方法及系统本发明公开了一种适用于拥挤场景下的行人检测方法,所述方法包括:获取拥挤场景下的待检测图像;将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;合并行人预测框和被遮挡行人的预测框,输出行人检测结果。本发明能够解决拥挤场景下行人特征提取困难以及NMS阈值设置困难的获取拥挤场景下的待检测图像将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框21.一种适用于拥挤场景下的行人检测方法,其特征在于,包括:获取拥挤场景下的待检测图像;将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;其中,改进模型包括:在MaskR-CNN模型中添加SFPN模所述SFPN模块用于得到待测图像的特征图和语义分割图;所述MKFRCNN模块用于根据建议框,得到行人预测框和对应的实例分割图、每个行人的人体关键点;所述MaskR-CNN模型为掩码区域卷积神经网络,所述SFPN模块为添加了语义分割分支的特征金字塔网络模块,所述MKFRCNN模块为掩码与关键点快速区域卷积神经网络模块;根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;其中,计算每个行人的可见度,通过下式进行计算:式(4)中,N表示检测出来的行人数量;k;表示第j个行人检测出来的人体关键点数量;K表示用于训练人体关键点的数据集中对人体关键点的标注数量;a表示每个行人的可见度,检测结果为每个关键点的得分,若某关键点得分大于0则该关键点检测成功,不同用于训练人体关键点的数据集中对人体关键点的标注数量不同;将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;合并行人预测框和被遮挡行人的预测框,输出行人检测结果。2.根据权利要求1所述的适用于拥挤场景下的行人检测方法,其特征在于,所述改进模型,通过以下步骤进行训练:获取已标注的拥挤场景下行人数据集,根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注;将已标注的拥挤场景下的图像输入预先构建的改进模型,得到预测训练结果;计算预测训练结果与伪实例分割标注之间的损失函数,利用反向传播算法计算梯度,更新预先构建的改进模型的参数;当损失函数值不再继续下降时训练完成,得到预先训练的改进模型。3.根据权利要求2所述的适用于拥挤场景下的行人检测方法,其特征在于,还包括:训练所述改进模型前,使用COCO人体关键点数据集对所述改进模型进行预训练,使得所述改进模型具备检测人体关键点的能力。MKFRCNN模块在训练改进模型时不输出每个行人的人体关键点。5.根据权利要求2所述的适用于拥挤场景下的行人检测方法,其特征在于,所述损失函数为多任务损失函数,通过下式表示:3测框的定位损失,Lask为每个预测框的实例分割损失,Lseg为语义分割损失;i是建议框的索引;p,是建议框对应的预测框为行人的预测概率,若建议框标记为正,p为1,否则为0;t;是建议框相对于真实框的偏移量,t;是建议框对应的预测框相对于真实框的偏移量,真实框指数据集中行人的位置标注框,pi为建议框为行人的预测概率。6.一种适用于拥挤场景下的行人检测系统,其特征在于,包括:获取模块:用于获取拥挤场景下的待检测图像;第一预测模块:用于将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;其中,改进模型包括:在MaskR-所述SFPN模块用于得到待测图像的特征图和语义分割图;人体关键点;所述MaskR-CNN模型为掩码区域卷积神经网络,所述SFPN模块为添加了语义分割分支处理模块:用于根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造式(4)中,N表示检测出来的行人数量;k;表示第j个行人检测出来的人体关键点数量;K表示用于训练人体关键点的数据集中对人体关键点的标注数量;a表示每个行人的可见度,检测结果为每个关键点的得分,若某关键点得分大于0则该关键点检测成功,不同用于训练人体关键点的数据集中对人体关键点的标注数量不同;第二预测模块:将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;输出模块:用于合并行人预测框和被遮挡行人的预测框,输出行人检测结果。所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行权利要求1~5任一项所述方法的步骤。4CN114170570B8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~5任一项所述的方法。5[0002]行人检测是计算机视觉领域的一个经典问题,其特点是应用范围广泛如无人驾HOG(HistogramofOrientedGradient)提取行人特征再用SVM(SupportVector深度学习的目标检测模型注重提取整体特征,这样会导致模型很难区分高度重叠的行人。在特征图上进行采样从而生成密集的预测框,对于大量的预测框都是采用NMS(Non-膜对这些行人进行覆盖,然后通过S-RCNN检测剩下的拥挤目标(P-RCNN和S-RCNN都以Faster-RCNN为基础结构),通过构造掩膜迫使模型注意拥挤目标,但对所有检测图像都构[0006]SongtaoLiu等人在2019年的《ProceedingsoftheIEEEpedestriandetectioninacrowd”中在检测网络中添加一个分支来预测每一个框的密难以及密度是否能代表最佳NMS阈值设置仍存疑,而且预测框往往与真实框并不是完全匹6测方法及系统,能够解决拥挤场景下行人特征提取困难以及NMS阈值设置困难的问题,有效降低了拥挤场景下行人检测的漏检率。为达到上述目的,本发明是采用下述技术方案实现[0008]第一方面,本发明提供了一种适用于拥挤场景下的行人检测方法,所述方法包括:[0009]获取拥挤场景下的待检测图像;[0010]将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;[0011]根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;[0012]将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;[0013]合并行人预测框和被遮挡行人的预测框,输出行人检测结果。[0015]获取已标注的拥挤场景下行人数据集,根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注;[0016]将已标注的拥挤场景下的图像输入预先构建的改进模型,得到预测训练结果;[0017]计算预测训练结果与伪实例分割标注之间的损失函数,利用反向传播算法计算梯度,更新预先构建的改进模型的参数;[0018]当损失函数值不再继续下降时训练完成,得到预先训练的改进模型。[0019]结合第一方面,进一步地,还包括:训练据集对所述改进模型进行预训练,使得所述改进模型具备检测人体关键点的能力。[0020]结合第一方面,进一步地,所述[0021]所述SFPN模块的用于得到待测图像的特征图和语义分割图;个行人的人体关键点。人体关键点。的索引;p是建议框对应的预测框为行人的预测概率,若建议框标记为正,pi为1,否则为70;t;*是建议框相对于真实框的偏移量,t,是建议框对应的预测框相对于真实框的偏移量,真实框指数据集中行人的位置标注框。[0031]式(4)中,N表示检测出来的行人数量;k;表示第j个行人检测出来的人体关键点数量;K表示用于训练人体关键点的数据集中对人体关键点的标注数量;a表示每个行人的可见度,检测结果为每个关键点的得分,若某关键点得分大于0则该关键点检测成功,不同用于训练人体关键点的数据集中对人体关键点的标注数量不同。[0032]第二方面,本发明提供了一种适用于[0034]第一预测模块:用于将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;[0035]处理模块:用于根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;[0036]第二预测模块:将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;[0037]输出模块:用于合并行人预测框和被遮挡行人的预测框,输出行人检测结果。[0039]所述存储介质用于存储指令;[0040]所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。[0041]第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。[0042]与现有技术相比,本发明实施例所提供的一种适用于拥挤场景下的行人检测方法及系统所达到的有益效果包括:[0043]本发明获取拥挤场景下的待检测图像;将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;本发明构造掩膜后再次被过滤掉的行人,显著降低在拥挤人群中检测的漏检率;本发明根据实例分割图对部分图像构造掩膜,与对所有图像构造掩膜相比,能够大幅降低检测时间;[0044]合并行人预测框和被遮挡行人的预测框,输出行人检测结果;本发明加强对拥挤8附图说明[0045]图1是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的流程图;[0046]图2是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法中改进模型整体示意图;[0047]图3是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的伪实例分割标注示意图;[0048]图4是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的SFPN模块的示意图;[0049]图5是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的MKFRCNN模块的示意图。具体实施方式[0050]下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。[0051]实施例一:[0052]如图1,本发明实施例提供了一种适用于拥挤场景下的行人检测方法,包括:改进模型的训练和改进模型的应用。[0053]改进模型的训练发生在改进模型的应用之前,作用是通过反向传播算法迭代训练改进模型,加强改进模型对拥挤场景下行人特征的提取能力。[0055]获取已标注的拥挤场景下行人数据集,根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注;[0056]将已标注的拥挤场景下的图像输入预先构建的改进模型,得到预测训练结果;[0057]计算预测训练结果与伪实例分割标注之间的损失函数,利用反向传播算法计算梯度,更新预先构建的改进模型的参数;[0058]当损失函数值不再继续下降时训练完成,得到预先训练的改进模型。[0060]步骤1:获取已标注的拥挤场景下行人数据集,根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注。[0061]由于拥挤行人数据集中不存在人体关键点标注,为了使模型具备检测人体关键点的能力,先使用COC0人体关键点数据集对所述改进模型进行预训练使,使得所述改进模型具备检测人体关键点的能力。[0062]已标注的拥挤场景下行人数据集可以为CrowdHuman数据集。[0063]如图3所示为伪实例分割标注示意图,由于用于训练的行人数据集不存在像素级别的标注,而且像素级别标注成本大,所以通过结合行人的头部标注框信息和行人身体可见部位标注框信息构建伪实例分割标注,可以显著降低标注成本,并且也能提升模型对行人边缘特征的提取能力。[0064]构造伪实例分割标注,包括:假设某行人的头部标注框的左上角坐标和长宽分别为(X₁,Y),(W₁,H₁),行人身体可见部位标注框的左上角坐标和长宽分别为(X₂,Y₂),(W₂,H₂)。9通过这四个坐标构建八个坐标用来构建的多边形即为伪实例分割标注,横纵坐标分别用P,[0066]需要说明的是,在标注好伪实例分割图后,同样能得到伪语义分割图,区别在于分割部分的像素值不同,实例分割对每一个实例赋予不同的像素值,语义分割对属于某类别的目标赋予相同的像素值。[0067]步骤2:将已标注的拥挤场景下的图像输入预先构建的改进模型,得到预测训练结[0069]如图4所示为SFPN模块,用于提取行人特征得到待测图像的特征图和生成语义分[0070]SFPN的具体含义为添加了语义分割分支的特征金字塔网络,是对17年提出的FPN的扩展,由于FPN结构类似经典语义分割网络U-Net的编解码结构,故能方便的扩展语义分割分支。[0071]如图4所示,图4中每条柱形图上方的数字为通道数。首先选取在ImageNet数据集上预训练过的ResNet50作为基础网络结构,将经过conv17×7卷积得到的特征图以及经过conv2,conv3.conv4,conv5每一层最后一组残差块输出的特征图提取出来,分别命名为C1,C2,C3,C4,C5,然后先对C5进行1×1卷积得到M5,将M5上采样(采用双线性插值法)成与C4相同的分辨率后加上经过1×1卷积的C4得到M4,依此类推得到M3,M2,然后将M5,M4,M3,M2都经过3×3的卷积得到P5,P4,P3,P2特征图,特征图用于在RPN(RegionProposal生成建议框。RPN为15年提出的区域建议网络,可以以端到端的形式生产建议框。而语义分割分支的建立从P2开始,先将P2经过上采样得到S1,接着将S1进行3×3卷积后再通过Relu激活函数得到与C1通道数相同的S2,引入Relu激活函数增加模型的非线性拟合能力并加快模型收敛,再将S2加上C1后通过1×1卷积进行特征聚合得到S3,最后通过Sigmoid函数得到概率分布图。这里并不先对C1进行1×1卷积将通道数扩展为256后加上S1,是因为该方法在反向传播计算梯度的过程中要占据更多显存,并且不能明显提高检测性能,本发明结构可以减少显存使用量节省计算资源。[0072]如图5所示为MKFRCNN模块,用于根据所述建议框,得到行人预测框和对应的实例测行人的位置、实例分割图和人体关键点,其中正方形图案内的数字表示分辨率和通道数如7×7×256表示特征图分辨率为7×7,通道数为256,矩形图案内的数字表示全连接层的节点数。箭头上的数字表示卷积核的大小和卷积次数,比如4×3要检测的人体关键点数量,由预训练的数据集标注决定。在训练时只开启Box和Mask分支,在测试时三个分支都要开启,但构造二值掩膜后需要关闭Mask和Keypoint分支以提高检测速度。[0074]本发明对MKFRCNN的实例分割分支进行了改进,将实例分割分支中上采样方式由原本的转置卷积更改为先进行双线性插值,然后再通过卷积进行特征聚合,这是由于用于训练的伪实例分割标注的模式相对固定,采用转置卷积可能造成过拟合从而影响检测性能,通过双线性插值法更容易保留目标的空间结构。[0075]步骤3:计算预测训练结果与伪实例分割标注之间的损失函数,利用反向传播算法计算梯度,更新预先构建的改进模型的参数。[0076]损失函数由分类损失,边界框回归损失,实例分割损失和语义分割损失构成,其中分类损失,实例分割损失和语义分割损失都使用交叉熵损失函数,不同之处在于计算损失的对象分别为图片类别得分和像素类别得分。损失函数为多任务损失函数,通过下式表示:[0077]Loss=L(p,,p)+pLo+p.Lmask+Ls(2)的索引;p是建议框对应的预测框为行人的预测概率,若建议框标记为正,pi为1,否则为0;t;*是建议框相对于真实框的偏移量,t,是建议框对应的预测框相对于真实框的偏移量,真实框指数据集中行人的位置标注框。[0081]步骤5:当损失函数值不再继续下降时训练完成,得到预先训练的改进模型。[0083]获取拥挤场景下的待检测图像;[0084]将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;[0085]根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;[0086]将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;[0087]合并行人预测框和被遮挡行人的预测框,输出行人检测结果。[0090]式(5)中,N表示检测出来的行人数量;k;表示第j个行人检测出来的人体关键点数量;K表示用于训练人体关键点的数据集中对人体关键点的标注数量;a表示每个行人的可见度,检测结果为每个关键点的得分,若某关键点得分大于0则该关键点检测成功,不同用于训练人体关键点的数据集中对人体关键点的标注数量不同。11体关键点估计图像中行人身体可见度的规则筛选行人密度较高的图像,从而可以添加二值掩膜后再次输入检测网络检测出被遮挡或者由于不符合NMS阈值而被过滤掉的行人,显著降低在拥挤人群中检测的漏检率。[0093]本发明实施例提供了一种适用于拥挤场景下的行人检测系统,包括:[0094]获取模块:用于获取拥挤场景下的待检测图像;[0095]第一预测模块:用于将获取到的待检测图像输入预先训练的改进模型进行检测,得到行人预测框、实例分割图和每个行人的人体关键点数量;[0096]处理模块:用于根据每个行人的人体关键点数量计算待检测图像的行人可见度,可见度小于预设阈值的图像存在行人间彼此遮挡的现象,根据实例分割图在待检测图像上构造掩膜;[0097]第二预测模块:将构造了掩膜的待检测图像输入预先训练的改进模型进行检测,得到被遮挡行人的预测框;[0098]输出模块:用于合并行人预测框和被遮挡行人的预测框,输出行人检测结果。[0100]本发明实施例提供了一种计算机设备,包括处理器及存储介质;[0101]所述存储介质用于存储指令;[0102]所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。[0104]本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。[0105]本领域内的技术人员应明白,本申请的实施例可提供为方法、系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心血管疾病代谢组学数据的临床解读策略
- 心脏肿瘤患者新辅助化疗期的营养风险筛查与早期干预方案
- 心脏移植供体分配的ECMO支持患者优先级
- 心脏术后患者术后重症监护患者满意度提升策略-1
- 心脏代谢重编程的代谢干预策略
- 心肌梗死区域纤维化的干预策略
- 心律失常MDT病例诊疗策略
- 微生物组与营养学的个体化干预方案
- 微创神经外科手术老年患者气道管理要点
- 微创神经术中血流动力学不稳定的原因分析
- 驾考客运从业资格证考试题库2025年及答案
- 高压值班安全培训内容课件
- 2025至2030年中国环丙胺行业发展研究报告
- 智能焊接技术知识培训课件
- 近期建筑安全事故
- 陶瓷业安全培训内容课件
- 《寻找时传祥》课件
- GB/T 28570-2025水轮发电机组状态在线监测系统技术导则
- 30个中医针灸临床病历
- 现代摄影工作室办公设计方案
- 库房婚庆道具管理办法
评论
0/150
提交评论