人工智能YOLO-V2-图像识别实验报告_第1页
人工智能YOLO-V2-图像识别实验报告_第2页
人工智能YOLO-V2-图像识别实验报告_第3页
人工智能YOLO-V2-图像识别实验报告_第4页
人工智能YOLO-V2-图像识别实验报告_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上第一章前言部分1.1课程项目背景与意义1.1.1课程项目背景视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要

2、进展是在80年代取得的。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”

3、的科学。科学技术的发展是推动人类社会进步的主要原因之一,未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信息将有助于社会的现代化建设,这其中图像信息是目前人们生活中最常见的信息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概

4、念由Hinton等人于2006年提出。基于深度置信网络提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习中的一个新的研究领域,通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向,引起更多计算机视觉领域研究者对深度学习进行探索和讨论,并推动了目标和行为识别的研究,推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势,我们小组选择了基于回归方法的深度学习目标识别算法YOLO的研究。1

5、.1.2课程项目研究的意义众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载体,计算机要实现智能化,就必须能够处理图像信息。尤其是近年来,以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。深度学习是机器学习中一种基

6、于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚

7、目标出现在图像中哪个区域。图像中的目标可能出现在任何位置,目标的形态可能存在各种各样的变化,图像的背景千差万别,这些因素导致目标检测并不是一个容易解决的任务。这次课程项目,正是基于视觉、深度学习、目标识别而进行的,是一个热度很高的话题。基于深度学习的目标识别研究具有重大的意义,深度学习的目标识别算法对于未来能够使用目标检测和图像识别的手段运用于物联网、智能设备、生物制药经济调控等多领域有很大的作用。1.2国内外研究现状机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器能否像人类一样能具有学习能力呢?1959年

8、美国的塞缪尔(Samuel)设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题。深度学习最近几年发展速度十分快,因此同时也推动了目标识别技术的发展,技术的革新总是相互影响的。目标检测是图像处理和计算机视觉的一个重要分支,在理论和实践上都有重大意义。近年来,随着物联网的高速发展与智能终端的广泛普及,目标检测技术成了机器视觉领域的研究热点,被国内外学者广泛关注。目标检测的研究主要包括了基于视频图像的目

9、标检测和基于静态图片的目标检测。本文主要讨论基于静态图片的目标检测算法,即在静态图片中检测并定位所设定种类的目标。基于静态图片的目标检测的难点主要在于图片中的目标会因光照、视角以及目标内部等变化而产生变化。针对以上的难点,国内外学者进行了很多尝试。目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标特征的检测方法。计算机视觉是指用计算机实现人的视觉功能,它的研究目标就是使计算机具有用过一幅或多幅图像认知周围环境的能力(包括对客观世界三维环境的感知、识别与理解)。运动目标检测作为计算机视觉技术的一个分支,就是对视场内的运动目标,如人或交通工具,进行实时的观测,并将其分类,然后分析他们的行为

10、。目前,国际上许多高校和研究所,如麻省理工学学院、牛津大学等都专门设立了针对运动目标检测的研究组或者研究实验室。美英等国家已经研究了大量的相关项目。一些著名公司和研究机构,如IBM、Microsoft、麻省理工学院等近几年来投入了大量的人力物力来进行智能监控系统的研究,部分成果已经转化为产品投入了市场。目前在国内的研究机构中,中国科学院北京自动化研究所下属的模式识别国家重点实验室视觉监控研究处于领先地位。他们在交通场景视觉监控、人的运动视觉监控和行为模式识别方面进行了深入研究。另外他们也总结了英国雷丁大学VIEWS的车辆交通监控原型系统的研究经验,在之前的理论研究的基础上,自行设计并初步实现了

11、一个拥有完全自主知识产权的交通监控原型系统vstart(Visual surveillance star)。国内其他高校如上海交通大学、北京航空航天大学也对这方面进行了研究。尽管这样,目前在运动目标检测和视觉监控这方面仍然存在着许多不足:目前国内市场上所见到的大部分智能监控产品来源于国外,性能和可靠性不够,并且维护和安装问题需要外方全方位参加,给国家安全带来了巨大的隐患。目标之间互遮挡和人体自遮挡问题,尤其是在拥挤状态下,多人的检测更是难处理。1.3本论文结构本文是基于回归方法的深度学习目标识别算法YOLO的研究。第一章:前言。主要介绍课程项目背景与意义、国内外研究的现状,以及本论文的结构。第

12、二章:使用工具介绍及安装。包括CentOS系统、OpenCV工具、CUDA开发环境、环境的搭建。第三章:YOLO算法简介。包括YOLO方法特点、核心思想和实现方法、以及YOLO的创新。第四章:训练数据采集与制作。包括训练数据的采集、训练数据的制作。第五章:训练配置、训练及测试训练效果。包括具体的训练配置、训练过程和测试训练效果。第六章:总结。包含对本次课程项目实践过程的感想与收获,以及对未来的展望。第二章使用工具介绍及安装2.1 CentOS系统CentOS(Community ENTerprise Operating System)是Linux发行版之一,它是来自于Red Hat Enter

13、prise Linux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的Red Hat Enterprise Linux使用。两者的不同,在于CentOS并不包含封闭源代码软件。CentOS,我们有很多人叫它社区企业操作系统,不管怎么叫它,它都是linux的一个发行版本。CentOS并不是全新的linux发行版,在RedHat家族中有企业版的产品,它是Red Hat Enterprise Linux,CentOS是RHEL的克隆版本,RHEL是很多企业采用的linux发行版本,需要向RedHat付费才可以使用,并能得到付过费

14、用的服务和技术支持和版本升级。这个CentOS可以像REHL一样的构筑linux系统环境,但不需要向RedHat付任何的费用,同样也得不到任何有偿技术支持和升级服务。CentOS有很多特点:CentOS就是对Red Hat AS进行改进后发布的,各种操作、使用和RED HAT没有区别;CentOS完全免费,不存在RED HAT AS4需要序列号的问题;CentOS独有的yum命令支持在线升级,可以即时更新系统,不像RED HAT那样需要花钱购买支持服务;CentOS修正了许多RED HAT AS的BUG。基于开源的特性,Linux环境被很多技术人员和公司使用。Linux以它的高效性和灵活性著称

15、,Linux模块化的设计结构,使得它既能在价格昂贵的工作站上运行,也能够在廉价的PC机上实现全部的Unix特性,具有多任务、多用户的能力。我们这次的课程项目“基于深度学习的目标识别研究”也是在Linux环境下完成的,因此本次项目实现使用的是CentOS 7.0系统。2.2 OpenCV工具OpenCV的全称是:Open Source Computer Vision Library。OpenCV是一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效,由一系列 C 函数和少量 C+ 类构成,同时提供了Python、Ruby、MAT

16、LAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV致力于真实世界的实时应用,通过优化的C代码的编写对其执行速度带来了可观的提升,并且可以通过购买Intel的IPP高性能多媒体函数库得到更快的处理速度。OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库。无论是做科学研究,还是商业应用,OpenCV都是一个理想的工具库。因为,对于这两者,它完全是免费的。该库采用C及C+语言编写,该库的所有代码都经过优化,计算效率很高,因为,它更专注于设计成为一种用于实时系统的开源库。OpenCV采用C语言进行优化,而且,在多核机器上面,其运行速度会更快。它的一个目标是提供友

17、好的机器视觉接口函数,从而使得复杂的机器视觉产品可以加速面世。该库包含了横跨工业产品检测、医学图像处理、安防、用户界面、摄像头标定、三维成像、机器视觉等领域的超过500个接口函数。 同时,由于计算机视觉与机器学习密不可分,该库也包含了比较常用的一些机器学习算法。图像识别、机器视觉在安防领域有所应用。并且在航拍图片、街道图片中,也要依赖于机器视觉的摄像头标定、图像融合等技术。近年来,在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域,OpenCV的应用及其广泛,而这些,仅仅是其应用的冰山一角。一个典型的计算机视觉算法,应该包含以下一些步骤:(1) 数据获取(对OpenCV来说

18、,就是图片);(2) 预处理;(3) 特征提取;(4)特征选择;(5)分类器设计与训练;(6)分类判别;而OpenCV工具对这六个部分,分别提供了API。2.3 CUDA开发环境随着显卡的发展,GPU越来越强大,而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVidia推出CUDA运算平台,CUDA即Compute Unified Device Architecture,是NVidia利用GPU平台进行通用并行计算的一种架构,该架构使GPU能够解决复杂的计算问题,它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发

19、人员可以利用C语言、OpenCL、Fortran、c+等为CUDA架构编写程序。(1) CUDA体系架构 CUDA体系架构由两部分组成,分别是流处理器阵列(SPA)和存储器系统。 流处理阵列(SPA)的结构又分为两层:TPC(线程处理器群)和SM(流多处理器)。GPU的巨大计算能力来自于SPA中的大量计算单元。 存储器系统由几个部分组成:存储器控制器(MMC)、固定功能的光栅操作单元(ROP)以及二级纹理操作。(2) CUDA执行模型 将CPU作为主机(Host),而GPU作为协处理器(Coprocessor)或者设备(Device),从而让GPU来运行一些能够被高度线程化的程序。 在这个模型

20、中,CPU与GPU协同工作,CPU负责进行逻辑性强的事务处理和串行计算,GPU则专注于执行高度线程化的并行处理任务。 一个完整的CUDA程序是由一系列的设备端kernel函数并行步骤和主机端的串行处理步骤共同组成的。 CUDA执行模型如下图:Grid(网格)运行在SPA上;Block(线程块)运行在SM上;Thread(线程)运行在SP上。Kernel不是一个完整的程序,而只是其中的一个关键并行计算步骤。Kernel以一个网格(Grid)的形式执行,每个网格由若干个线程块(block)组成,每一个线程块又由若干个线程(thread)组成。在 CUDA 的架构下,一个程序分为两个部份:Host

21、端和 Device 端。Host 端是指在 CPU 上执行的部份,而 Device 端则是在显示芯片(GPU)上执行的部份。Device 端的程序又称为 "kernel"。通常 Host 端程序会将数据准备好后,复制到显卡的内存中,再由显示芯片执行 Device 端程序,完成后再由 Host 端程序将结果从显卡的内存中取回。由于 CPU 存取显卡内存时只能透过 PCI Express 接口,因此速度较慢,因此不能经常进行这类动作,以免降低效率。 由于显示芯片大量并行计算的特性,它处理一些问题的方式和一般 CPU 是不同的。主要的特点包括:(1)内存存取 latency (等

22、待时间)的问题:CPU 通常使用 cache 来减少存取主内存的次数,以避免内存 latency 影响到执行效率。显示芯片则多半没有 cache(或很小),而利用并行化执行的方式来隐藏内存的 latency(即当第一个 thread 需要等待内存读取结果时,则开始执行第二个thread,依此类推)。 (2)分支指令的问题:CPU 通常利用分支预测等方式来减少分支指令造成的流水线。显示芯片则多半使用类似处理内存 latency 的方式。不过,通常显示芯片处理分支的效率会比较差。 因此,最适合利用 CUDA 处理的问题,是可以大量并行化的问题,才能有效隐藏内存的 latency,并有效利用显示芯片

23、上的大量执行单元。使用 CUDA 时,同时有上千个 thread 在执行是很正常的。因此,如果不能大量并行化的问题,使用 CUDA 就没办法达到最好的效率了。在这个过程中,CPU担任的工作为控制 GPU执行,调度分配任务,并能做一些简单的计算,而大量需要并行计算的工作都交给 GPU 实现。另外需要注意的是,由于 CPU 存取显存时只能通过 PCI-Express 接口,速度较慢,因此不能经常进行,以免降低效率。通常可以在程序开始时将数据复制进GPU显存,然后在 GPU内进行计算,直到获得需要的数据,再将其复制到系统内存中。2.4 环境的搭建1、 项目源代码下载与安装1.使用git把项目源代码下

24、载到本地git clone 2.进入项目目录,编译cd darknetmake2、 项目目录结构编译完成后,项目主要文件如下:darknet 项目目录cfg 配置文件存放目录data 数据存放目录examples C语言测试用例include darknet头文件python Python测试用例scripts 训练中用到的辅助脚本src 项目源代码darknet 编译后产生的darknet可执行文件 config.php 模块配置文件 common.php 模块函数文件3、 测试对象识别1. 下载官方提供的训练好的权重数据wget 2.测试识别对象:./darknet detect cfg/

25、yolo.cfg yolo.weights data/dog.jpg在上述命令中,detect表示调用darknet的对象识别功能,cfg/yolo.cfg是配置文件,包含各层网络的参数、要识别的物体种类数等,yolo.weights是上一步下载的权重数据,data/dog.jpg是要进行对象识别的照片,照片内容如下图:执行命令:上图显示检测过程在0.35秒内完成,这是安装完显卡驱动后运行的结果,在安装显卡驱动前,使用CPU进行图像检测,花费时间大约为8秒。命令执行完成后,将会把识别结果生成到predictions.jpg,打开图片如下图所示:4、 训练环境安装1.使用YUM安装OpenCVs

26、udo yum install opencv2.安装显卡驱动及其开发工具包CUDA,安装CUDA必须要有一个Nvidia的显卡,本机的显卡是GTX 860M。CUDA下载网址为:官方还提供了CUDA安装过程所需的pdf文档,仔细阅读并按照其步骤安装即可。此次安装使用runfile安装。首先检测本机是否有Nvidia显卡,执行以下命令: lspci | grep -i nvidia有任何输出说明本机有Nvidia显卡,本机输出结果如下:01:00.0 3D controller: NVIDIA Corporation GM107M GeForce GTX 860M (rev a2)接下来查看系统

27、内核版本:uname -m && cat /etc/*release该命令会显示系统架构以及内核版本信息,本机主要的输出信息如下:x86_64 CentOS Linux release 7.3.1611 (Core) 确认编译器gcc已经安装,该命令会打印gcc的版本,如果提示找不到命令则说明没有安装gcc:gcc -version安装Kernel-header和kernel-devel,这两个包的版本需要和本机的内核版本一致,安装命令如下:sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname

28、 -r)开始安装cuda,本次实验使用的是runfile安装。Nouveau是一个开源的3D驱动,安装Nvidia驱动之前需要先将其关闭。首先要把Nouveau加入黑名单,创建/etc/modprobe.d/blacklist-nouveau.conf 文件并写入以下内容:blacklist nouveauoptions nouveau modeset=0重新生成内核initramfs: sudo dracut -force重新启动计算机,在进入登录界面时,不要登录,按下ALT+F2进入命令提示符模式,使用root用户登录,然后使用 init 3 命令进入多用户模式开始安装Naidia驱动。执

29、行以下命令开始安装CUDA:./cuda_8.0.61_375.26_linux-run安装过程会提示是否安装CUDA工具箱、CUDA例子等,此次试验中选择安装。最后将cuda加入到环境变量中、重启,即完成安装。将cude加入到环境变量: export PATH=/usr/local/cuda-8.0/bin$PATH:+:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64 $LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH3.安装完成OpenCV和CUDA后,需要修改YOLO的Makefile文件并重新编译。打开M

30、akefile文件,将OPENCV=0改为OPENCV=1,将GPU=0改为GPU=1,并执行make命令重新编译。第3章 YOLO算法原理3.1 YOLO算法简介基于深度学习方法的一个特点就是实现端到端的检测。相对于其它目标检测与识别方法(比如Fast R-CNN)将目标识别任务分类目标区域预测和类别预测等多个流程,YOLO将目标区域预测和目标类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更加适合现场应用环境。YOLO为一种新的目标检测方法,该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单

31、个神经网络直接预测物品边界和类别概率,实现端到端的物品检测。同时,该方法检测速非常快,基础版可以达到45帧/s的实时检测;FastYOLO可以达到155帧/s。与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性优于当前最好的方法。人类视觉系统快速且精准,只需看一眼即可识别图像中物品及其位置。传统目标检测系统采用deformable parts models (DPM)方法,通过滑动框方法提出目标区域,然后采用分类器来实现识别。近期的R-CNN类方法采用region proposal methods,首先生成潜在的bounding boxes,然后采用分类器识别这些bound

32、ing boxes区域。最后通过post-processing来去除重复bounding boxes来进行优化。这类方法流程复杂,存在速度慢和训练困难的问题。而YOLO方法将目标检测问题转换为直接从图像中提取bounding boxes和类别概率的单个回归问题,只需一眼即可检测目标类别和位置。3.2 YOLO方法特点 YOLO采用单个卷积神经网络来预测多个bounding boxes和类别概率,如图所示:本方法相对于传统方法有如下优点:(1) 速度非常快。YOLO预测流程简单,速度很快。基础版在Titan X GPU上可以达到45帧/s;快速版可以达到150帧/s。因此,YOLO可以实现实时检

33、测。(2) YOLO采用全图信息来进行预测。与滑动窗口方法和region proposal-based方法不同,YOLO在训练和预测过程中可以利用全图信息。Fast R-CNN检测方法会错误的将背景中的斑块检测为目标,原因在于Fast R-CNN在检测中无法看到全局图像。相对于Fast R-CNN,YOLO背景预测错误率低一半。(3) YOLO可以学习到目标的概括信息,具有一定普适性。采用自然图片训练YOLO,采用艺术图像来预测。YOLO比其它目标检测方法(DPM和R-CNN)准确率高很多。本方法有如下缺点:(1) YOLO对相互靠的很近的物体,还有很小的群体 检测效果不好,这是因为一个网格中

34、只预测了两个框,并且只属于一类。(2) 对测试图像中,同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。(3) 由于损失函数的问题,定位误差是影响检测效果的主要原因。尤其是大小物体的处理上,还有待加强。3.3 YOLO的核心思想和实现方法1. YOLO的核心思想 YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。2. YOLO的实现方法YOLO的实现过程图解和方法如下:(1) 将一幅图像分成SxS个网格(grid cell),如果某个目标的中心落在这个网格中,则这个网格就负责预测这个目标。(2) 每个

35、网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值,这个confidence代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息,其值是这样计算的: (其中如果有目标落在一个grid cell里,第一项取1,否则取0。 第二项是预测的bounding box和实际的groundtruth之间的IOU值)。(3) 每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。则SxS个网格,每个网格要预测B个bounding bo

36、x,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,confidence信息是针对每个bounding box的)。举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。 整个网络结构如下图所示: (4) 在测试的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score: 等式

37、左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。(5) 得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS处理,就得到最终的检测结果。3.4 YOLO的实现细节 1. 预训练:使用imageNet预训练,网络结构是前20层网络加上一个平均池化层和一个全连接层。2. 预测:由于预测需要更加精细的像素,所以把输入扩展成448*448,并且增加了四个卷积层和两个全连接层

38、。在最后一层预测中,需要预测概率和bounding box,这里把bounding box的预测归一化成0到1。3. 激活函数:最后一层的激活函数使用线性激活函数,而其他层使用leaky ReLU的激活函数:4. 误差传播:误差的计算采用简单的平方和误差函数。但是,从网络结构可以知道,预测概率的维数比预测bounding box的维数要高,而且,在图片中大多的格子是没有物体的,这会使得它们的confidence趋于0。它们的贡献过大,会使得网络无法收敛。我们采用的一个办法就是加权,赋予不同的权值,对于预测bounding box的,而对于没有目标物体的格子的误差赋予权值。同时,对于大的box的

39、小误差肯定要比小box的小误差影响更小,于是,采用对w,h,x,y取平方根的做法,因为平方根函数的图像随着x的增大会变得平缓。此外,一个网格可能会预测多个box,希望每个box负责专门的目标物体的预测。方法是,对于一个物体的truth box,看哪个bounding box的IOU更大,就让它负责这个box。公式为:其中对应格子i如果有物体,那相应的bounding box j负责这个物体的预测。表示格子i中是否有物体。5. 训练方法:使用随机梯度下降法,以及dropout的方法。3.4 YOLO的创新YOLO将物体检测作为回归问题求解。基于一个单独的端到端网络,完成从原始图像的输入到物体位置

40、和类别的输出。从网络设计上,YOLO与RCNN、Fast RCNN及Faster RCNN的区别如下:(1) YOLO训练和检测均是在一个单独网络中进行。YOLO没有显示地求取region proposal的过程。而RCNN/Fast RCNN采用分离的模块(独立于网络之外的selective search方法)求取候选框(可能会包含物体的矩形区域),训练过程因此也是分成多个模块进行。Faster RCNN使用RPN(region proposal network)卷积网络替代RCNN/Fast RNN的selective search模块,将RPN集成到Fast RCNN检测网络中,得到一个

41、统一的检测网络。尽管RPN与Fast RCNN共享卷积层,但是在模型训练过程中,需要反复训练RPN网络和Fast RCNN网络。(2) YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而RCNN/Fast RCNN/Faster RCNNA将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。第4章 训练数据采集与制作4.1训练数据的采集准备需要训练的图片:本次实验训练的是水果的识别,种类一共5种,分别是WaterMelon、StrawBerry、Orange、P

42、ineapple、Apple,每种水果图片约30-40张,总共有171张图片。图片全部从百度图片中下载,图片分辨率一般在400*300像素左右。 将图片按照按照5位数字从00000递增开始命名,并将其全部放到一个文件夹中。4.2 训练数据的制作1. 下载并编译安装LabelImg,使用这个软件给171张水果图片标记对象位置和名称。2. 标记完成后,LabelImg将会生成一个记录了对象名称和位置的xml文件,每张图片对应一个xml文件,xml文件内容如下。3.按照VOC数据集的格式创建一下文件夹结构。darknet 项目目录cfg 配置文件存放目录.src 项目源代码VOCdevkit VOC

43、数据集目录 VOC2017 数据标记年份 Annitations 存放xml标记文件 00000.xml xml标记文件 00001.xml xml标记文件 . 00171.xml xml标记文件 ImageSets 图片相关信息 Main文件位置信息 train.txt保存了全部图片位置的文件 JPEGImages 需要训练的图片 00000.jpg 水果图片 00001.jpg 水果图片 . 00171.jpg 水果图片 labels labels文件 00000.txt labels文件 00001.txt labels文件 . 00170.txt labels文件4.YOLO不能识别x

44、ml文件,需要将其转化成其识别的格式。使用项目自带的voc_label.py脚本可以将xml格式转换成YOLO所需的label文件。打开voc_label.py,修改数据集年份,要识别的对象种类名称,以及xml文件存放位置等信息。文件内容如下图所示。该脚本同时会生成上面目录结构中的train.txt文件。修改完成后运行,将会生成上面目录结构所示的labels文件。生成label文件后,打开其中一个,内容如下所示。其中第一项“0”代表的是水果的编号,“0”代表草莓,“1”代表西瓜等,后面4项分别是标记的对象在图片中的位置的比例。第5章 训练配置、训练及测试训练效果5.1训练配置第四章是准备训练数

45、据的全部过程,接下来要修改配置文件。创建cfg/s文件,该文件包含了5种水果的名称,每行一个。顺序需与前面python脚本中配置的一致,文件内容如下。strawberrywatermelonappleorangepineapple创建cfg/myd.data,该文件包含了要识别的对象的种类个数、train.txt文件位置,上述s文件位置,以及生成的训练权重文件位置。该文件内容如下:classes = 5train = /home/myd/new/darknet/VOCdevkit/VOC2017/ImageSets/Main/train.txtnames = /

46、home/myd/new/darknet/cfg/sbackup = backup_myd复制一份cfg/yolo.cfg文件,命名为yolo-myd.cfg,并编辑这个文件,主要修改文件末尾region层中classes为5.即要识别的水果种类个数,修改region层上一层convolution层,把其中的filters值修改成50,根据网上教程,计算公式为(classes+ coords+ 1)* (NUM), 此次试验中具体数据为 (5+4+1)*5=50。5.2训练过程执行以下命令开始训练:./darknet detector train ./cfg/myd.data

47、cfg/yolo-myd.cfg 执行命令后的输出如下:mydlocalhost darknet$ ./darknet detector train ./cfg/myd.data ./cfg/yolo-myd.cfg yolo-mydlayer     filters    size              input        &

48、#160;       output    0 conv     32  3 x 3 / 1   416 x 416 x   3   ->   416 x 416 x  32    1 max          2 x 2 / 2   416 x 416 x  32   ->   208

49、 x 208 x  32    2 conv     64  3 x 3 / 1   208 x 208 x  32   ->   208 x 208 x  64    3 max          2 x 2 / 2   208 x 208 x  64   ->   104 x 104 x  64  &#

50、160; 4 conv    128  3 x 3 / 1   104 x 104 x  64   ->   104 x 104 x 128    5 conv     64  1 x 1 / 1   104 x 104 x 128   ->   104 x 104 x  64    6 conv    128  3 x 3 / 1   104 x 104

51、 x  64   ->   104 x 104 x 128    7 max          2 x 2 / 2   104 x 104 x 128   ->    52 x  52 x 128    8 conv    256  3 x 3 / 1    52 x  52 x 128   -> 

52、  52 x  52 x 256    9 conv    128  1 x 1 / 1    52 x  52 x 256   ->    52 x  52 x 128   10 conv    256  3 x 3 / 1    52 x  52 x 128   ->    52 x  52 x 256 

53、0; 11 max          2 x 2 / 2    52 x  52 x 256   ->    26 x  26 x 256   12 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512   13 conv&

54、#160;   256  1 x 1 / 1    26 x  26 x 512   ->    26 x  26 x 256   14 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512   15 conv    256  1 x 1 / 1

55、0;   26 x  26 x 512   ->    26 x  26 x 256   16 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512   17 max          2 x 2 / 2    2

56、6 x  26 x 512   ->    13 x  13 x 512   18 conv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024   19 conv    512  1 x 1 / 1    13 x  13 x1024   ->  

57、60; 13 x  13 x 512   20 conv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024   21 conv    512  1 x 1 / 1    13 x  13 x1024   ->    13 x  13 x 512   22 co

58、nv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024   23 conv   1024  3 x 3 / 1    13 x  13 x1024   ->    13 x  13 x1024   24 conv   1024  3 x 3 / 1    13

59、 x  13 x1024   ->    13 x  13 x1024   25 route  16   26 conv     64  1 x 1 / 1    26 x  26 x 512   ->    26 x  26 x  64   27 reorg       &#

60、160;      / 2    26 x  26 x  64   ->    13 x  13 x 256   28 route  27 24   29 conv   1024  3 x 3 / 1    13 x  13 x1280   ->    13 x  13 x1024   30 conv

61、60;    50  1 x 1 / 1    13 x  13 x1024   ->    13 x  13 x  50   31 detectionLearning Rate: 0.01, Momentum: 0.9, Decay: 0.0005Resizing.训练过程中会打印训练进度的信息,如下所示:Loaded: 0. secondsRegion Avg IOU: 0., Class: 0., Obj: 0., No Obj: 0., Av

62、g Recall: 0.,  count: 2Region Avg IOU: 0., Class: 0., Obj: 0., No Obj: 0., Avg Recall: 0.,  count: 11: 186., 186. avg, 0. rate, 0. seconds, 2 imagesLoaded: 0. secondsRegion Avg IOU: 0., Class: 0., Obj: 0., No Obj: 0., Avg Recall: 0.,  count: 5Region Avg IOU: 0., Cl

63、ass: 0., Obj: 0., No Obj: 0., Avg Recall: 0.,  count: 12: 216., 189. avg, 0. rate, 0. seconds, 4 imagesLoaded: 0. secondsRegion Avg IOU: 0., Class: 0., Obj: 0., No Obj: 0., Avg Recall: 0.,  count: 2Region Avg IOU: 0., Class: 0., Obj: 0., No Obj: 0., Avg Recall: 0.,  count: 13: 279., 198.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论