计算机视觉(基于MWORKS)课件 第八章 基于MobileNet-SSD网络的目标检测_第1页
计算机视觉(基于MWORKS)课件 第八章 基于MobileNet-SSD网络的目标检测_第2页
计算机视觉(基于MWORKS)课件 第八章 基于MobileNet-SSD网络的目标检测_第3页
计算机视觉(基于MWORKS)课件 第八章 基于MobileNet-SSD网络的目标检测_第4页
计算机视觉(基于MWORKS)课件 第八章 基于MobileNet-SSD网络的目标检测_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机视觉第八章

基于MobileNet-SSD网络的目标检测

任务背景8.1目录CONTENTS

基础理论8.2

代码实现8.3

结果展示8.48.1

任务背景自动驾驶:

识别行人、路标及障碍物,保障行驶安全。安防监控:

实时识别可疑人员与车辆。医疗影像:

精准发现病变区域,辅助临床诊断。智能家居:

识别家庭成员与宠物,实现智能化管理

目标检测是计算机视觉的核心分支,旨在定位并识别图像或视频中的所有目标,包含定位(Where)与分类(What)两个子任务。1)核心价值与应用

2)技术演进:从传统到深度学习传统方法(2012年前):依赖人工设计特征(如Haar、HOG、LBP)。其局限性在于特征表达能力有限,难以应对复杂多变的检测需求深度学习方法(2012年至今):以卷积神经网络(CNN)为核心,通过自动学习提取深层次特征,配合回归器与分类器,在检测精度和效率上实现了质的飞跃8.2

基础理论

Viola-Jones检测器是一种用于实时人脸检测的算法,由P.Viola和M.Jones于2001年提出,它采用积分图像、Adaboost算法和级联检测机制来提高检测速度和准确性。1.特征提取

Haar-like特征最早由C.P.Papageorgiou、M.Oren等人在Ageneralframeworkforobjectdetection中提出,该框架中一共设计了四种类Haar-like特征,分别对应下图(a)中的四种,随着算法的进步,后来的学者又设计了更丰富的类似特征,如下图(b)所示:8.2.1传统目标检测算法介绍

Viola-Jones检测器特征图(a)特征图(b)8.2

基础理论2.Adaboost分类器

Adaboost分类器(由Freund和Schapire于1995年提出)是一种旨在提升传统Boosting性能的算法,尤其擅长从海量数据(如16万维的Haar特征)中筛选关键特征。其核心原理如下:弱分类器组合:

通过“并联”多个简单的弱分类器来构造一个强分类器加权求和:

每个弱分类器根据自身的分类准确率被赋予不同的权重集思广益:

最终输出是所有弱分类器加权结果的总和。即使单个弱分类器表现平庸,通过迭代优化和组合,整体强分类器也能达到极高的准确率8.2.1传统目标检测算法介绍

8.2

基础理论3.Cascade级联分类器

Cascade级联分类器是对传统Adaboost分类器的创新性改造,旨在大幅提升检测速度,其核心逻辑如下:结构设计:

将若干个小型Adaboost分类器串联(级联)。每一级分类器都保持极高的检测率(约99.9%)和较高的误检率(约50%)高效筛选(快速失败机制):

检测窗口滑动时,只要在任何一级被判定为“非人脸”,检测立即终止。由于图像中大部分区域不含目标,这种机制能让计算在初期快速停止,节省大量资源性能优势:

相比一次性提取数百维特征的原始方法,级联结构在每一级仅需计算极少量的特征。高精度:

经过20级累积,漏检率极低,而误检率降至极小8.2.1传统目标检测算法介绍

8.2

基础理论

8.2.1传统目标检测算法介绍

HOG检测器HOG检测器(方向梯度直方图)由N.Dalal于2005年提出,是一种基于形状和边缘提取的特征描述子,在行人检测领域取得了巨大成功。1)核心原理HOG的基本观点:物体的局部外观和形状可以通过梯度或边缘方向的分布来描述细胞单元(Cells):将图像划分为若干微小区域,统计每个像素的梯度方向并累加成一维直方图区间归一化(Blocks):将多个细胞单元组合成更大的区间,进行对比度归一化,以增强模型对光照和阴影的鲁棒性特征合成:将所有区间归一化后的描述子拼接,形成最终的HOG描述子2)特点与局限优势:相比同时期的检测器精度更高,对局部形变和光照变化不敏感局限:采用固定大小的检测窗口,限制了对多尺度目标的灵活处理典型应用:HOG特征结合SVM分类器是经典物体识别(尤其是行人检测)的标配方案,其思想为后续深度学习特征提取奠定了基础8.2

基础理论

8.2.1传统目标检测算法介绍

HOG检测器HOG算法的实现原理如下:给定含特定对象的图像,设置一个覆盖图像中整个对象的检测窗口(感兴趣区域)计算检测窗口中每个像素的梯度大小和方向将检测窗口分成像素的连接单元,所有单元的大小相同为每个单元创建一个柱形图,先将单元中所有像素的梯度方向分组到特定数量的方向(角度)箱中,再将每个角度箱中梯度的幅度相加将相邻单元分组成块。每个块中的单元数是一个自由参数,所有块的大小都必须相同使用每个块中包含的单元来规范该块中的单元柱状图将所有块中的所有标准化柱状图收集到一个名为HOG描述符的特征向量中使用从包含同一对象的许多图像中得到的HOG描述符训练机器学习算法,如使用SVM检测图像中的这些对象SVM训练完成后,采用滑动窗口方法来尝试检测和定位图像中的对象8.2

基础理论

8.2.1传统目标检测算法介绍

DPM算法DPM(可变形部件模型)算法被视为传统目标检测技术的巅峰。它在HOG检测器的基础上进行了重大改进,通过将目标视为由多个“子部件”组成的集合,有效解决了物体形变和姿态多变的问题。1)核心思想训练阶段:将目标拆分为多个子块(部件)推理阶段:将识别到的子块进行拼接集成。它不仅关注每个部件是否存在,还关注部件之间的相对位置是否合理2)技术策略多组件策略:针对目标的不同视角(如人的侧面、正面)设计多套模型部件模型策略:允许部件在一定范围内移动,以应对目标的形变和姿态变化激励模板(自定义卷积核):类似于手工设计复杂的卷积核。通过将目标的特征模板(如站立人体的HOG特征)与原图进行卷积运算,在目标区域产生高响应(激励),从而锁定位置8.2

基础理论

8.2.1传统目标检测算法介绍

DPM算法下为DPMV3版本的目标检测模型:(a)粗略轮廓(b)细粒度部件(c)组合示意8.2

基础理论

SSD是一种应用广泛的一级目标检测网络模型,适用于多种检测场景,MobileNets可以被部署在移动应用上如下图所示。尽管其检测精度不如现有的两级目标探测器,但是其主要优点是具有较快的计算速度。8.2.2MobileNet-SSD网络模型详解

MobileNet-SSD网络模型简介

MobileNets可以被部署在移动应用上8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-SSD网络模型简介VGG16-SSD网络模型

VGG16-SSD网络模型框架图8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-SSD网络模型简介MobileNet-SSDV2网络模型

MobileNet-SSDV2网络模型框架图8.2

基础理论

MobileNet-V1核心在于采用深度可分离卷积代替标准卷积,通过将卷积分解为深度卷积(对每个通道独立提取特征)和1×1卷积(跨通道线性组合)两个独立步骤,在保持有效特征表达的同时,大幅降低了模型参数量和计算开销。8.2.2MobileNet-SSD网络模型详解

MobileNet-V1网络模型结构介绍(a)标准卷积(b)深度卷积(c)1×1卷积标准卷积分解为深度卷积和1×1卷积8.2

基础理论

MobileNetV2是对V1版本的重大改进,旨在解决深度卷积在低维空间下因ReLU激活函数导致的信息损耗及卷积核失效问题。核心改进如下:倒残差结构(InvertedResiduals):

与传统残差网络不同,它先通过1×1卷积将特征维度升维(扩张),在高维空间下进行深度卷积提取特征,以减少ReLU带来的信息损失线性瓶颈(LinearBottleneck):

在模块的输出端去掉ReLU,改用线性激活,确保低维特征在映射回时能保留更多有效信息快捷连接(ShortcutConnection):

在瓶颈层之间引入类似ResNet的残差连接,显著提升了训练速度和模型准确率8.2.2MobileNet-SSD网络模型详解

MobileNet-V2网络模型结构介绍8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-V2网络模型结构介绍残差结构示意图8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-V2网络模型结构介绍三维结构图8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-V2网络模型结构介绍MobileNetV2网络结构输入操作tCnS224²×3Conv—3212112²×32Bottleneck11611112²×16Bottleneck6242256²×24Bottleneck6323228²×32Bottleneck6644214²×64Bottleneck6963114²×96Bottleneck61603272×160Bottleneck6320117²×320Conv2d1×1—12801172×1280avgpool7×7——1—1×1×1280Conv2d1×l—-k——8.2

基础理论

MobileNetV3(2019年)是该系列的集大成之作,通过神经结构搜索(NAS)技术,在融合前代核心技术的基础上进行了深度轻量化定制。它提供了Large和Small两个版本以适应不同资源需求。模型主要改进如下:修改初始卷积核的个数更改网络末端计算量大的层引入H-Swish激活函数引入SE模块8.2.2MobileNet-SSD网络模型详解

MobileNet-V3网络模型结构介绍8.2

基础理论

8.2.2MobileNet-SSD网络模型详解

MobileNet-V3网络模型结构介绍修改后的模型结构图8.3

代码实现

8.3.1测试流程

本节将演示在MWORKS平台上利用MobileNet-SSD模型实现目标检测的完整流程。核心步骤如下:数据预处理:对输入图像进行标准化处理,使其符合网络输入要求特征提取:图像通过一系列卷积层和池化层,自动捕捉并提取深层视觉特征检测与分类:提取的特征经由若干全连接层(或特定检测头)处理,最终实现物体的精确定位与分类推理测试:无论是单图还是批量处理,均通过统一的神经网络流程,输出对手写斜体数字等目标的预测结果8.3

代码实现

8.3.2代码解释1.导入相关库文件usingPyCallusingPrintfusingDistributions#需要安装Distributions包,用Uniform产生指定范围的随机数

cv2=pyimport("cv2")np=pyimport("numpy")plt=pyimport("matplotlib.pyplot")

8.3

代码实现

8.3.2代码解释2.定义文件路径#指定图像和模型文件路径image_path="./images/test.jpg"prototxt="./model/MobileNetSSD_totxt"model="./model/MobileNetSSD_deploy.caffemodel"

8.3

代码实现

8.3.2代码解释3.定义目标检测与分类的类别#设定目标名称CLASSES=("background","aeroplane","bicycle","bird","boat",

"bottle","bus","car","cat","chair","cow","diningtable",

"dog","horse","motorbike","person","pottedplant","sheep",

"sofa","train","tvmonitor")COLORS=rand(Uniform(0,255),length(CLASSES),3)#numpy.random.uniform(0,255,size=(length(CLASSES),3))FONT=cv2.FONT_HERSHEY_SIMPLEX8.3

代码实现

8.3.2代码解释4.加载网络模型&加载并处理图像#加载网络模型net=cv2.dnn.readNetFromCaffe(prototxt,model)#读取图像并进行预处理image=cv2.imread(image_path)(h,w)=size(image)[1:2]input_img=cv2.resize(image,(300,300))blob=cv2.dnn.blobFromImage(input_img,0.007843,(300,300),127.5)rimg=permutedims(image,ndims(image):-1:1)pyimg=PyReverseDims(rimg)8.3

代码实现

8.3.2代码解释5.加载网络执行推理#将图像传入网络net.setInput(blob)detections=net.forward()#对结果进行处理foriin1:size(detections)[3]

idx=floor(Int,detections[1,1,i,2])

confidence=detections[1,1,i,3]

ifconfidence>0.2

#画矩形框

#println(size(detections))

box=detections[1,1,i,4:7].*[w,h,w,h]

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论