版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于深度学习的违禁寄递物品识别方法案例目录TOC\o"1-3"\h\u683基于深度学习的违禁寄递物品识别方法案例 1281341.1使用YOLOv4算法建立违禁寄递物品识别方法 1196031.1.1输入端 256001.1.2BackBone主干网络 3303811.1.3Neck 461671.2使用tensorflow构建关系网络与匹配网络 5150041.2.1单样本学习中的关系网络 520981.2.2少样本学习中的关系网络 8255191.2.3匹配网络 9使用YOLOv4算法建立违禁寄递物品识别方法YOLO算法首创者首次性地提出了一个阶段方法,其主要解决了两阶段违禁寄递物品目标识别算法的共同存在的缺点,具备快速的识别速度和高度精准的检测精度。Yolov4更是相对于前几个yolo算法来说,它有一个相比之下更为复杂的网络结构,并通过很多次的训练学习技术来提高精度性REF_Ref25722\r\h[21]。Yolov4的组网结构如图3-1所示。图3-1YOLOv4网络结构输入端Yolov4REF_Ref26074\r\h[23]的输入端用于违禁寄递物品x光图像的马赛克数据增强方法借鉴了Butmix数据增强方法,使得马赛克的数据增强方法提升到了一定的理论相似性。Butmix使用两幅违禁寄递物品x光图像进行数据增强,而Kosaic使用四幅违禁寄递物品x光图像进行数据增强,本文认为这在违禁寄递物品x光图像被检测目标的背景方面占有极大的优先权力。同时,也可以对违禁寄递物品x光图像数据集进行随机缩放和一般的数据增强,但是马赛克增强训练可以直接计算违禁寄递物品四幅图像的数据,这样小批处理的大小不需要很大,GPU可以达到更好的效果。Bosaic数据增强实现思路:1)每次读取四张图片,如下图3-2所示图3-2随机读取四张图片分别对四张违禁寄递物品x光图片进行翻转、缩放、色域变化等,并且按照四个方向位置摆好。如下图3-3所示。图3-3处理图像进行图片的组合和框的组合。如下图3-4所示。图3-4运行结果BackBone主干网络CSPDarknek53REF_Ref26130\r\h[24]是Darknek的改进版本,其中包含了5个CSP模块,因为有5个CSP模块,输入图像是416*416,所以特征图变化的规律是416-208-104-52-26-13。经过五次CSP模块后,得到13*13大小的特征图,同时我们会得到3个有效特征层输出13x13x1024、26x26x512、52x52x256的特征层。如下图3-5所示,CSPDarknet53、主要由CBM模块和CSP模块构成,CBM模块由卷积层(Conv)、批归一化层(BatchNormolization,BN)和Mish激活功能组成,CSP模块包含两条支路,一条是主干部分的卷积,一条用来生成一个大的残差边,通过对两条支路的跨级拼接与通道整合增强CNN的学习能力,CSP结构如图所示,其中CBL模块由卷积层(Conv)、批归一化层(BatchNormolization,BN)和LeakyReLu激活功能组成。而CBM是将CBL中的激活层变成了Mish。图3-5CSPDarknek53结构使用YOLOv4算法的违禁寄递物品x光图像识别的Mish激活函数是十分平滑并且十分适合应用在违禁寄递物品x光图像识别的非单调激活函数,被定义为:ƒζ图3-6Mish激活函数违禁寄递物品x光图像是被所使用的MISH激活函数REF_Ref26185\r\h[25]的特点如图3-6所示:1)没有最上面的限制:没有最上面的限制是所以日常研究意所用的激活函数平均具备和需要的特征,这是它避免了违禁寄递物品x光图像识别梯度饱和,从而导致违禁寄递物品x光图像识别的训练速度快速下降。所以我们可以得出,加快违禁寄递物品x光图像模型的训练过程。没有最上面的限制的属性有助于违禁寄递物品x光图像识别模型获得比较好的正则化效果。2)不是一直上升或者下降的函数:这种特征有助于保持违禁寄递物品x光图像识别模型保持较小的负值,从而稳定违禁寄递物品x光图像识别模型的网络梯度流。3)无限制的没有间断点和连顺性:Mish激活函数是十分平滑并且十分适合应用在违禁寄递物品x光图像识别的非单调激活函数,具有非常好的的广泛推广的能力和较好的违禁寄递物品x光图像训练结果提升能力,可以提高违禁寄递物品x光图像识别结果的质量。YOLOv4算法的违禁寄递物品x光图像识别中使用Mish函数的原因是该函数具有复杂程度低,而且具有无间断、不是一直上升或者下降的、没有最上面的限制、没有最下面的限制等特点,与其他经常使用的函数如ReLU、Swish相比,这个函数用在违禁寄递物品x光图像识别模型的性能有了很大的提高。Neck在违禁寄递物品x光图像的目标检测领域,为了更好地提取违禁寄递物品x光图像的融合特征,通常在Backbone层和output层中插入一些层,称为Neck。对等的颈部违禁寄递物品x光图像目标检测网络也是非常关键的。YOLOV4的颈部结构主要采用SPP(SpatialPyramidPoolingLayer)模块和特征金字塔网络。(FPN)和路径聚合网络(PAN)。在Yolov4中,SPP模块位于骨干网之后。在YOLO中,修改了SPP以保持输出空间维度。最大池适用于大小为1×1、5×5、9×9和13×13的卷积内核。空间维度得以保留。然后将不同内核大小的featuremap连接在一起作为输出,如下图3-7所示。图3-7本文SPP结构PANET对违禁寄递物品x光图像实例进行分割的原因是它能准确地保存违禁寄递物品x光图像的空间信息,有助于违禁寄递物品x光图像的像素点的正确定位和掩模的组成。PANETREF_Ref26264\r\h[26]在违禁基地物品x光图像识别模型的特点如下:1)从顶而底的进行识别路线的增强。当违禁基地物品x光图像图像通过深度学习卷积神经网络的每一层时,所提取的违禁寄递物品x光图像的特征的难度都会提升,违禁寄递物品x光图像的空间分辨率下降。因此,违禁寄递物品x光图像的像素级掩码不能被违禁寄递物品x光图像的高级特征精准提取出来。2)自适应特征池,PANET使用所有层的特征,并让网络决定哪些是有用的。对每个特征图像进行感兴趣区域对齐,提取目标的特征。接下来是元素级的最大融合操作,以使网络适应新的特征。3)全连接融合。使用tensorflow构建关系网络与匹配网络单样本学习中的关系网络关系网络由两个重要的函数组成:嵌入函数ƒφ和关系函数
gφ。嵌入函数用于从输入中提取特征。如果输入是图像,那么可以使用卷积网络作为嵌入函数,它会提供图像的特征向量/嵌入。如果输入是文本,那么可以使用
LSTM
网络来获得文本的嵌入REF_Ref26391\r\h[27]。我们知道,单样本学习中,每个类只有一个样本。例如,假设支撑集包含三类,每个类只有一个示例。如图3-8所示,我们只有一个包含3个类的支撑集{管制刀具(Controlledknives)、爆炸物品(explosives)、以及枪支弹药(policeapparatus)}图3-8支撑集假设有查询集xj,如图3-9所示,我们想要预测这个查询图像的类REF_Ref26453\r\h[28]。图3-9查询图像(xj)首先将支撑集中的每个图像xi传递给嵌入函数ƒφxi,以提取特征。由于支撑集有图像,因此可以使用卷积网络作为嵌入函数来学习嵌入。嵌入函数将给出支撑集中每个数据点的特征向量。同样,我们将通过把查询图像xj传递给嵌入函数ƒφxi来学习该查询图像的嵌入。
因此,一旦有了支撑集的特征向量ƒφxi和查询集的特征向量ƒφxj,我们就使用运算符Z将它们组合起来。这里Z可以是任意组合算子。我们使用拼接(concatenation)作为运算符来组合支撑集的特征向量和查询集的特征向量,即Z(ƒφxi,ƒφxj)。
图3-10特征拼接但如何衡量这种关系呢?这就是使用关系函数gφ的原因。将这些组合的特征向量传递给关系函数,关系函数会生成
0~1
的关系得分,表示支撑集中样本
xi
与查询集中样本xj之间的相似性。
下面的等式展示了如何计算关系网络中的关系得分:
rij=gϕZfφxi,fφ图3-11单样本学习环境少样本学习中的关系网络我们已了解了如何将属于支撑集中每个类的单个图像与关系网络的单样本学习场景中的查询集中的图像进行比较。但是,在少样本的学习环境中,每个类会有不止一个数据点。
假设有一个支撑集,其中每个类包含多个图像,如图
3-12所示。图3-12支撑集这种情况下,我们将学习支撑集中每个点的嵌入,并对属于每个类的所有数据点的嵌入逐元素相加。因此,我们会得到每个类的嵌入,这是该类中所有数据点的嵌入之和,如图3-13所示。图3-13可以像往常一样使用嵌入函数提取查询图像的特征向量。接下来,使用拼接运算符

来结合支撑集的特征向量与查询集的特征向量。我们进行拼接,然后将拼接后的特征向量提供给关系函数并得到关系得分,关系得分表示支撑集中的每个类与查询集中的每个类之间的相似性。
关系网络在少样本学习环境下的整体表示如图3-14所示。图3-14匹配网络匹配网络是谷歌
DeepMind
团队发布的另一种简单高效的单样本学习算法。它甚至可以为数据集中未观察到的类生成标签。
假设有一个支撑集
S,包含K个样本x1,y1,x2,y2,x3,y3,…,xk,yk。当给定查询点x(新的不可见示例)时,匹配网络通过将其与支撑集进行比较来预测
x
的类。
我们可以将其定义为
py其中,xi与yi分别是支撑集的输入和标签。x是查询输入,我们想要预测它的标签。α是x与xi
之间的注意力机制(attention
mechanism),即x与xi之间余弦距离的
softmax
值,即αx,xi=softmaxcosx,因此,可以将注意力方程改写为如下:
αx,x
α因此,在计算了注意力矩阵αx,xi后,用支撑集标签yi乘以注意力矩阵,首先,将支撑集标签转换成独热编码值,然后与注意力矩阵相乘,结果,得到y属于支撑集中每个类的概率。之后,应用
argmax
并选择概率值最大的作为y。
如图3-15所示,支撑集中有
3
个类{管制刀具(Controlledknives)、爆炸物品(explosives)、以及枪支弹药(policeapparatus)}。同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金华国家统计局东阳调查队招聘编外工作人员笔试历年参考题库附带答案详解
- 辽宁2025年辽宁省药品审评查验中心招聘12人笔试历年参考题库附带答案详解
- 芜湖安徽芜湖一中教育集团芜湖经济技术开发区招聘中学聘用教师43人笔试历年参考题库附带答案详解
- 百色2025年广西百色市那坡县人民医院招聘23人笔试历年参考题库附带答案详解
- 泸州2025年中共泸州市委党校招聘专业技术人员笔试历年参考题库附带答案详解
- 新疆2025年新疆兵团第十四师职业技术学校招聘21人笔试历年参考题库附带答案详解
- 忻州2025年山西忻州市人民医院等15个市直事业单位招聘178人笔试历年参考题库附带答案详解
- 常州2025年江苏常州市第一人民医院医疗辅助服务人员招聘11人(三)笔试历年参考题库附带答案详解
- 宁波浙江宁波慈溪市中西医结合医疗健康集团(慈溪市红十字医院)招聘笔试历年参考题库附带答案详解
- 商洛2025年陕西商洛市商南县县直机关事业单位选调13人笔试历年参考题库附带答案详解
- 研学旅行课程设计
- 年度得到 · 沈祖芸全球教育报告(2024-2025)
- QC080000-2017有害物质管理体系程序文件
- 研学旅行概论课程培训课件
- 专业律师服务合同书样本
- 反诈宣传讲座课件
- GB/T 6003.2-2024试验筛技术要求和检验第2部分:金属穿孔板试验筛
- DB32T 4398-2022《建筑物掏土纠偏技术标准》
- (精确版)消防工程施工进度表
- 保险公司资产负债表、利润表、现金流量表和所有者权益变动表格式
- XX少儿棋院加盟协议
评论
0/150
提交评论