【《基于计算机视觉的小车识别算法分析案例》3400字】_第1页
【《基于计算机视觉的小车识别算法分析案例》3400字】_第2页
【《基于计算机视觉的小车识别算法分析案例》3400字】_第3页
【《基于计算机视觉的小车识别算法分析案例》3400字】_第4页
【《基于计算机视觉的小车识别算法分析案例》3400字】_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于计算机视觉的小车识别算法分析案例目录TOC\o"1-3"\h\u21904基于计算机视觉的小车识别算法分析案例 1213621.1卷积神经网络原理 1182701.2YOLOv3识别原理 3206911.3制作数据集 4150991.1.1数据的采集 416251.1.2数据集的标注 5282701.4模型的训练测试和评价指标 7247251.4.1模型训练 7123131.4.2评价指标 9由于计算机技术的飞速发展,对计算机视觉发展的深入研究取得了显著成果。图像和视频层面,促进与计算机视觉相关的技术进步。1.1卷积神经网络原理卷积神经网络是从BP神经网络发展而来的,从20末世纪开始,人们就开始研究卷积神经网络,其中LeNet-5网络和时间延迟网络可以认为是第一代卷积神经网络。卷积神经网络是由输入层、卷积层、池化层、全连接层和输出层组成的,如图3-1所示。图3-1卷积神经组成图卷积层神经网络中的中断层具有的三个特征是:局部连通性、权重共享和平移不变性。局部连接是旋转层核心与输入图像区域之间的连接。而权重共享则是指使用小的旋转内核来移动图像的所有输入属性值,并特定提取图上的纹理和颜色等重要属性,但核心故障的参数保持不变。平移可变性意味着可以识别输入图像是否被缩放或修改,这个功能使得无序的神经网络更强。以上特点减少了设计参数,减少了内存占用,减少了设计参数过多导致的过度兼容问题。而对于池化层而言,其通常位于卷积层之后,用来对经过卷积得到的特征图进行子采样,会保存重要特征同时去除多余特征,从而降低卷积神经网络的活动度。在大多数情况下,池化层的核心大小为2×2,步长为2。池化层的操作可以分为最大池化和平均池化,如图3-2所示。最大池化的计算方法是通过取虚线框内的最大值作为其输出图上对应点的特征值。而对于平均池化而言,计算方法则是选择将虚线框内所有像素的平均值作为输出特征图上对应点的值。图3-2池化图全连接层是完全集成的图层,是用来对作为先前转换和合并的结果而获得的特定地图的描述和分类。在将特征图放入全连接层之前,需要将它们轴向展平并扩展为一维向量。权重矩阵在这些向量的值与对应的类别之间形成一个特定的映射,在特定的映射上对应的分类,称为预测。全连接层比断层有更多参数,计算公式如下所示:(3-1)式子中的是指权值矩阵,是指输入向量,是偏置向量,是指激活函数。1.2YOLOv3识别原理YOLOv3是采用直接回归的方式来获取当前需要检测的目标以及类别的思路,YOLOv3采用回归方式进行目标检测,这允许将图像直接用作系统输入,从而避免预提取目标候选区域的估计成本。相对于其他算法而言,运算速度更快。YOLOv3主要是由Darknet-53特征提取网络和多尺度融合提取特征网络组成。其网络结构模型如图3-3所示。图3-3中,带表了YOLOv3在3个不同尺度上的特征图输出,输出目标的位置和类别。图3-3YOLOv3网络结构模型图YOLOv3的识别步骤如图3-4所示。图3-4YOLOv3识别步骤首先,对输入的数据进行网格化,将数据细分为大小个网络,对目标进行检测的时候,若待测物体正好处于某个网络中,就由该网络承担起后续的检测工作。就单个检测网络而言,它不仅仅需要预测出A个检测框,还需要对检测框的置信度进行预测,这是因为置信度的数值的大小在一定程度上代表了目标检测的精确程度。(3-2)式中,是指网络输出的检测框中包含对应目标的概率。网络中的检测框会预测出5个值:,其中,代表各个检测框所处的网络位置的边界值,表示检测框的宽度和长度。(3)对于所有网格,可以预测B个目标的概率,但只有当对象完全落在检测框内时,检测过程才有意义。其中,B代表项目类别的数量,而A复选框的数量对B无效。网络的输出是一维向量,主要包含检测框A的概率和物品B的类别,整体公式计算大小如下:

(3-3)(4)对于每个网格预估出的结果,组合以后形成了完整的物品类别的概率分布图。为了提高精确度,会设定一个阈值,将置信度较低的检测框剔除,利用非极大值抑制算法去除不必要的窗口,降低不稳定数值数值对输出结果的影响。1.3制作数据集1.1.1数据的采集数据集的选择对于网络的训练则是至关重要的,由于YOLOv3模型拥有数百万的权重参数,因此需要大量的图象数据进行训练。出于对路况复杂和小车拍摄清晰度的考虑,本实验采用的图片在实验室拍摄,共计291张图片。本文利用OpenCV打开小车的CSI摄像头并拍摄视频,然后通过fourcc函数来指定帧率、尺寸,接着通过循环读取视频帧数来截取图片,由此得到291张图片。本文通过实验小车数据采集图片如图3-5所示。图3-5实验小车数据采集图片1.1.2数据集的标注完成汽车图像的采集后,则需要使用大量的数据来对构建的网络系统进行训练,实现优化网络参数的目的。目前工业上使用的数据集主要有PASCALVOC2007、PASCALVOC2012、COCO和ImageNet。本文主要采用PASCALVOC2007格式编译相关数据文件。至于它的格式,主要包括以下三个文件。文件夹如图3-6所示。这些文件夹是:Annotations、ImageFiles和JPEGImages。注解文件主要包含一个与数据对应的XML文件,其中包含图像的名称、长宽、对应的通道和类别等信息,以及主要存储的ImageSet文件。不同类型的图像信息,在其内部Main目录下有train.txt,valtxt,trainal.txt和test.txt4个文件。图3-6文件夹目录基于PASCALVOC2007格式的训练集的制作标注方式如下:(1)根据PASCALVOC2007数据集的相关格式和目录建立多层次的文件夹结构,然后将拍摄到的图像存放到JPEGimages文件夹中,并将图片以×××.jpg这样的格式命名。(2)下载开源的Labelimg软件,该软件是一个图像注释工具,利用该软件对图像进行标注.对每一张图片进行标注之后,就会生成相对应的xml文件,用来在后续的步骤中使用官方提供的脚本文件对图像格式进行转换,然后将标注好的图像全部存入Annotations文件夹中。(3)根据一定比例,将所标注好的数据进行分配,在ImageSets文件夹中会生成有train.txt,val.txt,trainal.txt和test.txt4个文件。到此为止,即完成了PASCALVOC2007数据集的构造工作了,可以将构造的数据集进行训练。图3-7为小车标注图。图3-7标注图1.4模型的训练测试和评价指标1.4.1模型训练为测试识别算法的有效性,以291张图像作为训练集进行各次训练,得到模型集。模型文件主要涵盖了模型网络图的内部结构和相关参数。检测模型的实验环境如表3-1所示。表3-1检测模型实验环境操作系统Ubuntu18.04CPUInterCorei7-9700RAM16GBGPUNVIDIAGeforceRTX2080Ti附加库OpenCV1.6CUDA10.0在训练模型时,想要取得更好的模型效果,往往与以下的超参数有关:(1)学习率:学习率主要可以控制着网络模型中权重的更新速度,这种速度太小,可能会影响网络的收敛性,这可能导致无法优化目标函数。(2)学习率衰减因子:是指随着学习的进行而逐渐降低的学习率,换而言之,就是随着学习的进行而逐渐降低的学习率。在初始阶段使用更高的学习率,以最小值加速收敛过程,随着迭代次数的增加,采用较低的学习比率,提高稳定性,避免错过最低值,这提供了接近最小值的可能性。(3)权重衰减系数:具有防止过拟合的作用。(4)动量:在模型优化过程中,加入“惯性”策略,加速网络中的学习和收敛。(5)迭代次数:迭代次数是表示该训练集能够输入到神经网络并进行训练的次数。如果试验误差系数与训练误差系数相差不大,可以考虑选用当前的迭代次数;如果重复次数太多,就必须减少重复次数,否则很容易。(6)批量大小:批量大小是指每次训练神经网络时发送到模型的样本数量。在神经网络优化过程中,batchsize过小,就意味着输入到网络的数据样本数量总数过少,统计量不具有代表性,噪声相应增加,使网络难以收敛;大批量则会导致过渡方向不稳定,容易陷入局部最优解,降低精度。通过观察此次训练的损失变化曲线如图3-8所示。从曲线可以看出,在开始学习一段时间之后,曲线开始大幅度下降,这表明曲线正在进行梯度下降过程,在学习到一定阶段以后,损失曲线逐渐接近于平稳,损失变化没有一开始是变化幅度大。但也可以观察到,该曲线前期经历了比较长时间的iterate之后才开始逐渐收敛的,这表明了初始化权重过小,需要进行调整。图3-8损失训练曲线1.4.2评价指标在目标检测的领域,通常会采用准确率、召回率、F值、交并比、平均准确率、检测速率等来评价模型的好坏。相关指标的定义如下所示。其结果如下表3-2所示。(1)精确率:(3-4)式子中是指实验过程中正样本中检测出的正样本的数量,则是指实验检测中负样本得到的正样本的数量。(2)召回率:(3-5)式子中的是指检测正样本中预测出的负样本的数量。(3):F值是用来表示系统稳定性和性能好坏成正比(3-6)(4)交并比又叫做重叠率:主要是用来衡量实验检测结果和其初始值的标注框的重合度,该值大小与检测效果成正比。(3-7)式中A表示预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论