人工智能YOLO V2 图像识别实验报告材料_第1页
人工智能YOLO V2 图像识别实验报告材料_第2页
人工智能YOLO V2 图像识别实验报告材料_第3页
人工智能YOLO V2 图像识别实验报告材料_第4页
人工智能YOLO V2 图像识别实验报告材料_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章前言部分课程项目背景与意义课程项目背景视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。计算机视觉与人类视

2、觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。这里所指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。科学技术的发展是推动人类社会进步的主要

3、原因之一,未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信息将有助于社会的现代化建设,这其中图像信息是目前人们生活中最常见的信息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度

4、置信网络提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习中的一个新的研究领域,通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向,引起更多计算机视觉领域研究者对深度学习进行探索和讨论,并推动了目标和行为识别的研究,推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势,我们小组选择了基于回归方法的深度学习目标识别算法YOLO的研究。课程项目研究的意义众所周知,当前是信息时代,信息

5、的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载体,计算机要实现智能化,就必须能够处理图像信息。尤其是近年来,以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使

6、用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在图像中哪个区域。图像中的目标可能出现在任何位置

7、,目标的形态可能存在各种各样的变化,图像的背景千差万别,这些因素导致目标检测并不是一个容易解决的任务。这次课程项目,正是基于视觉、深度学习、目标识别而进行的,是一个热度很高的话题。基于深度学习的目标识别研究具有重大的意义,深度学习的目标识别算法对于未来能够使用目标检测和图像识别的手段运用于物联网、智能设备、生物制药经济调控等多领域有很大的作用。国外研究现状机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器能否像人类一样能具有学习能力呢?1959年美国的塞缪尔(Samuel)设计了一个下棋程序,这个程序具有学习

8、能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题。深度学习最近几年发展速度十分快,因此同时也推动了目标识别技术的发展,技术的革新总是相互影响的。目标检测是图像处理和计算机视觉的一个重要分支,在理论和实践上都有重大意义。近年来,随着物联网的高速发展与智能终端的广泛普及,目标检测技术成了机器视觉领域的研究热点,被国外学者广泛关注。目标检测的研究主要包括了基于视频图像的目标检测和基于静态图片的目标检测。本文主要讨论基于静态图片的目标检测

9、算法,即在静态图片中检测并定位所设定种类的目标。基于静态图片的目标检测的难点主要在于图片中的目标会因光照、视角以及目标部等变化而产生变化。针对以上的难点,国外学者进行了很多尝试。目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标特征的检测方法。计算机视觉是指用计算机实现人的视觉功能,它的研究目标就是使计算机具有用过一幅或多幅图像认知周围环境的能力(包括对客观世界三维环境的感知、识别与理解)。运动目标检测作为计算机视觉技术的一个分支,就是对视场的运动目标,如人或交通工具,进行实时的观测,并将其分类,然后分析他们的行为。目前,国际上许多高校和研究所,如麻省理工学学院、牛津大学等都专门设立了

10、针对运动目标检测的研究组或者研究实验室。美英等国家已经研究了大量的相关项目。一些著名公司和研究机构,如IBM、Microsoft、麻省理工学院等近几年来投入了大量的人力物力来进行智能监控系统的研究,部分成果已经转化为产品投入了市场。目前在国的研究机构中,中国科学院自动化研究所下属的模式识别国家重点实验室视觉监控研究处于领先地位。他们在交通场景视觉监控、人的运动视觉监控和行为模式识别方面进行了深入研究。另外他们也总结了英国雷丁大学VIEWS的车辆交通监控原型系统的研究经验,在之前的理论研究的基础上,自行设计并初步实现了一个拥有完全自主知识产权的交通监控原型系统vstart(Visualsurve

11、illancestar)。国其他高校如交通大学、航空航天大学也对这方面进行了研究。尽管这样,目前在运动目标检测和视觉监控这方面仍然存在着许多不足:目前国市场上所见到的大部分智能监控产品来源于国外,性能和可靠性不够,并且维护和安装问题需要外方全方位参加,给国家安全带来了巨大的隐患。目标之间互遮挡和人体自遮挡问题,尤其是在拥挤状态下,多人的检测更是难处理。1.3本论文结构本文是基于回归方法的深度学习目标识别算法YOLO的研究。第一章:前言。主要介绍课程项目背景与意义、国外研究的现状,以及本论文的结构。第二章:使用工具介绍及安装。包括CentOS系统、OpenCV工具、CUDA开发环境、环境的搭建。

12、第三章:YOLO算法简介。包括YOLO方法特点、核心思想和实现方法、以及YOLO的创新。第四章:训练数据采集与制作。包括训练数据的采集、训练数据的制作。第五章:训练配置、训练及测试训练效果。包括具体的训练配置、训练过程和测试训练效果。第六章:总结。包含对本次课程项目实践过程的感想与收获,以及对未来的展望。第二章使用工具介绍及安装CentOS系统CentOS(CommunityENTerpriseOperatingSystem)是Linux发行版之一,它是来自于RedHatEnterpriseLinux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器

13、以CentOS替代商业版的RedHatEnterpriseLinux使用。两者的不同,在于CentOS并不包含封闭源代码软件。CentOS,我们有很多人叫它社区企业操作系统,不管怎么叫它,它都是linux的一个发行版本。CentOS并不是全新的linux发行版,在RedHat家族中有企业版的产品,它是RedHatEnterpriseLinux,CentOS是RHEL的克隆版本,RHEL是很多企业采用的linux发行版本,需要向RedHat付费才可以使用,并能得到付过费用的服务和技术支持和版本升级。这个CentOS可以像REHL一样的构筑linux系统环境,但不需要向RedHat付任何的费用,同

14、样也得不到任何有偿技术支持和升级服务。CentOS有很多特点:CentOS就是对RedHatAS进行改进后发布的,各种操作、使用和REDHAT没有区别;CentOS完全免费,不存在REDHATAS4需要序列号的问题;CentOS独有的yum命令支持在线升级,可以即时更新系统,不像REDHAT那样需要花钱购买支持服务;CentOS修正了许多REDHATAS的BUG。基于开源的特性,Linux环境被很多技术人员和公司使用。Linux以它的高效性和灵活性著称,Linux模块化的设计结构,使得它既能在价格昂贵的工作站上运行,也能够在廉价的PC机上实现全部的Unix特性,具有多任务、多用户的能力。我们这

15、次的课程项目“基于深度学习的目标识别研究”也是在Linux环境下完成的,因此本次项目实现使用的是CentOS7.0系统。OpenCV工具OpenCV的全称是:OpenSourceComputerVisionLibrary。OpenCV是-一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上。它轻量级而且高效,由一系列C函数和少量C+类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。OpenCV致力于真实世界的实时应用,通过优化的C代码的编写对其执行速度带来了可观的提升,并且可以通过购

16、买Intel的IPP高性能多媒体函数库得到更快的处理速度。OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库。无论是做科学研究,还是商业应用,OpenCV都是一个理想的工具库。因为,对于这两者,它完全是免费的。该库采用C及C+语言编写,该库的所有代码都经过优化,计算效率很高,因为,它更专注于设计成为一种用于实时系统的开源库。OpenCV采用C语言进行优化,而且,在多核机器上面,其运行速度会更快。它的一个目标是提供友好的机器视觉接口函数,从而使得复杂的机器视觉产品可以加速面世。该库包含了横跨工业产品检测、医学图像处理、安防、用户界面、摄像头标定、三维成像、机器视觉等领域的超过500个

17、接口函数。同时,由于计算机视觉与机器学习密不可分,该库也包含了比较常用的一些机器学习算法。图像识别、机器视觉在安防领域有所应用。并且在航拍图片、街道图片中,也要依赖于机器视觉的摄像头标定、图像融合等技术。近年来,在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域,OpenCV的应用及其广泛,而这些,仅仅是其应用的冰山一角。一个典型的计算机视觉算法,应该包含以下一些步骤:数据获取(对OpenCV来说,就是图片);预处理;特征提取;特征选择;分类器设计与训练;分类判别;而OpenCV工具对这六个部分,分别提供了API。CUDA开发环境随着显卡的发展,GPU越来越强大,而且GPU

18、为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVidia推出CUDA运算平台,CUDA即ComputeUnifiedDeviceArchitecture,是NVidia利用GPU平台进行通用并行计算的一种架构,该架构使GPU能够解决复杂的计算问题,它包含了CUDA指令集架构(ISA)以及GPU部的并行计算引擎。开发人员可以利用C语言、OpenCL、Fortran、c+等为CUDA架构编写程序。(1)CUDA体系架构CUDA体系架构由两部分组成,分别是流处理器阵列(SPA)和存储器系统。流处理阵列(SPA)的结构又分为两层:TPC(线程处理器

19、群)和SM(流多处理器)。GPU的巨大计算能力来自于SPA中的大量计算单元。存储器系统由几个部分组成:存储器控制器(MMC)、固定功能的光栅操作单元(ROP)以及二级纹理操作。(2)CUDA执行模型将CPU作为主机(Host),而GPU作为协处理器(Coprocessor)或者设备(Device),从而让GPU来运行一些能够被高度线程化的程序。在这个模型中,CPU与GPU协同工作,CPU负责进行逻辑性强的事务处理和串行计算,GPU则专注于执行高度线程化的并行处理任务。一个完整的CUDA程序是由一系列的设备端kernel函数并行步骤和主机端的串行处理步骤共同组成的。CUDA执行模型如下图:Gri

20、d(网格)运行在SPA上;Block(线程块)运行在SM上;Thread(线程)运行在SP上。GridISrhl日!XK/Bl由K;BlXk0划(1,VC21JJJ8I霍一#专LGrid2-IJBIS3MkSlek徨0|Glock(1町Kernel1SRririlKsrnaI伽(LnHr*祁TtltMAmT(LhriuTddnjpgM-7ES憎素吉產=576憎可PEG图價宜件大小:1&.4K&文件喪-四、训练环境安装使用YUM安装OpenCVsudoyuminstallopencv安装显卡驱动及其开发工具包CUDA,安装CUDA必须要有一个Nvidia的显卡,本机的显卡是GTX860M。CUD

21、A下载网址为:https:/developer.nvidia./cuda-downloads官方还提供了CUDA安装过程所需的pdf文档,仔细阅读并按照其步骤安装即可。此次安装使用runfile安装。首先检测本机是否有Nvidia显卡,执行以下命令:lspci|grep-invidia有任何输出说明本机有Nvidia显卡,本机输出结果如下:01:00.03Dcontroller:NVIDIACorpora*onGM107MGeForceGTX860M(reva2)接下来查看系统核版本:uname-m&cat/etc/*release该命令会显示系统架构以及核版本信息,本机主要的输出信息如下:x

22、86_64CentOSLinuxrelease7.3.1611(Core)确认编译器gcc已经安装,该命令会打印gcc的版本,如果提示找不到命令则说明没有安装gcc:gcc-version安装Kernel-header和kernel-devel,这两个包的版本需要和本机的核版本一致,安装命令如下:sudoyuminstallkernel-devel-$(uname-r)kernel-headers-$(uname-r)开始安装cuda,本次实验使用的是runfile安装。Nouveau是一个开源的3D驱动,安装Nvidia驱动之前需要先将其关闭。首先要把Nouveau加入黑,创建/etc/mo

23、dprobe.d/blacklist-nouveau.conf文件并写入以下容:blacklistnouveauoptionsnouveaumodeset=0重新生成核initramfssudodracut-force重新启动计算机,在进入登录界面时,不要登录,按下ALT+F2进入命令提示符模式,使用root用户登录,然后使用init3命令进入多用户模式开始安装Naidia驱动。执行以下命令开始安装CUDA:./cuda_8.0.61_375.26_linux-run安装过程会提示是否安装CUDA工具箱、CUDA例子等,此次试验中选择安装。最后将cuda加入到环境变量中、重启,即完成安装。将c

24、ude加入到环境变量:exportPATH=/usr/local/cuda-8.0/bin$PATH:+:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH安装完成OpenCV和CUDA后,需要修改YOLO的Makefile文件并重新编译。打开Makefile文件,将0PENCV=0改为OPENCV=1,将GPU=0改为GPU=1,并执行make命令重新编译。第三章YOLO算法原理YOLO算法简介基于深度学习方法的一个特点就是实现端到端的检测。相对于其它目标检测与识别方法

25、(比如FastR-CNN)将目标识别任务分类目标区域预测和类别预测等多个流程,YOLO将目标区域预测和目标类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更加适合现场应用环境。YOLO为一种新的目标检测方法,该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物品边界和类别概率,实现端到端的物品检测。同时,该方法检测速非常快,基础版可以达到45帧/s的实时检测;astYOLO可以达到155帧/s。与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性优于当前最好的

26、方法。人类视觉系统快速且精准,只需看一眼即可识别图像中物品及其位置。传统目标检测系统采用deformablepartsmodels(DPM)方法,通过滑动框方法提出目标区域,然后采用分类器来实现识别。近期的R-CNN类方法采用regionproposalmethods,首先生成潜在的boundingboxes,然后采用分类器识别这些boundingboxes区域。最后通过post-processing来去除重复boundingboxes来进行优化。这类方法流程复杂,存在速度慢和训练困难的问题。而Y0L0方法将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题,

27、只需一眼即可检测目标类别和位置。YOLO方法特点YOLO采用单个卷积神经网络来预测多个boundingboxes和类别概率,如图所示:本方法相对于传统方法有如下优点:(1)速度非常快。YOLO预测流程简单,速度很快。基础版在TitanXGPU上可以达到45帧/s;快速版可以达到150帧/s。因此,YOLO可以实现实时检测。(2)YOLO采用全图信息来进行预测。与滑动窗口方法和regionproposal-based方法不同,YOLO在训练和预测过程中可以利用全图信息。FastR-CNN检测方法会错误的将背景中的斑块检测为目标,原因在于FastR-CNN在检测中无法看到全局图像。相对于FastR

28、-CNN,YOLO背景预测错误率低一半。YOLO可以学习到目标的概括信息,具有一定普适性。采用自然图片训练YOLO,采用艺术图像来预测。YOLO比其它目标检测方法(DPM和R-CNN)准确率高很多。本方法有如下缺点:YOLO对相互靠的很近的物体,还有很小的群体检测效果不好,这是因为一个网格中只预测了两个框,并且只属于一类。对测试图像中,同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。由于损失函数的问题,定位误差是影响检测效果的主要原因。尤其是大小物体的处理上,还有待加强。YOLO的核心思想和实现方法YOLO的核心思想YOLO的核心思想就是利用整图作为网络的输入,直接在输出层回归b

29、oundingbox的位置和boundingbox所属的类别。YOLO的实现方法YOLO的实现过程图解和方法如下:RizcTheImage黒Mbidingho-3JS申DivideTheImageiMe寻7禺卩肿$Aw4gftdthKlMHniIo号ridcelhb口s*donlh-irccrlc-rs.将一幅图像分成SxS个网格(gridcell),如果某个目标的中心落在这个网格中,则这个网格就负责预测这个目标。每个网格要预测B个boundingbox,每个boundingbox除了要回归自身的位置之外,还要附带预测一个confidence值,这个confidence代表了所预测的box中含

30、有目标的置信度和这个box预测的有多准两重信息,其值是这样计算的:Pr(目标)IOUtruth(其中如果有目标落在一个gridcell里,第一项取1,pred否则取0。第二项是预测的boundingbox和实际的groundtruth之间的IOU值)。每个boundingbox要预测(x,y,w,h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。则SxS个网格,每个网格要预测B个boundingbox,还要预测C个categories。输出就是SxSx(5*B+C)的一个tensor。(注意:class信息是针对每个网格的,confidence信息是针对每个bound

31、ingbox的)。举例说明:在PASCALVOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:2x2-i-22x2-i-23x3x10243x3m1024-2ixlx2561x1x5123x3x5123x3x1024MaxpoolrMaxpoolLa艸2x2-s-22x22C&nn.Layer在测试的时候,每个网格预测的class信息和boundingbox预测的confidence信息相乘,就得到每个boundingbox的class-specificconfidencescore:Pr(cla

32、ssIobject)*Pr(object)*IOUtruth=Pr(class)*IOUtruthpredipred等式左边第一项就是每个网格预测的类别信息,第二三项就是每个boundingbox预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。得到每个box的class-specificconfidencescore以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS处理,就得到最终的检测结果。YOLO的实现细节预训练:使用imageNet预训练,网络结构是前20层网络加上一个平均池化层和一个全连接层。预测:由于预测需

33、要更加精细的像素,所以把输入扩展成448*448,并且增加了四个卷积层和两个全连接层。在最后一层预测中,需要预测概率和boundingbox,这里把boundingbox的预测归一化成0到1。激活函数:最后一层的激活函数使用线性激活函数,而其他层使用leakyReLU的激活函数:误差传播:误差的计算采用简单的平方和误差函数。但是,从网络结构可以知道,预测概率的维数比预测boundingbox的维数要高,而且,在图片多的格子是没有物体的,这会使得它们的confidence趋于0。它们的贡献过大,会使得网络无法收敛。我们采用的一个办法就是加权,赋予不同的权值,对于预测boundingbox的,而对

34、于没有目标物体的格子的误差赋予权值。同时,对于大的box的小误差肯定要比小box的小误差影响更小,于是,采用对w,h,x,y取平方根的做法,因为平方根函数的图像随着x的增大会变得平缓。此外,一个网格可能会预测多个box,希望每个box负责专门的目标物体的预测。方法是,对于一个物体的truthbox,看哪个boundingbox的IOU更大,就让它负责这个box。公式为:其中-对应格子i如果有物体,那相应的boundingboxj负责这个物体的预测。“表示格子i中是否有物体。训练方法:使用随机梯度下降法,以及dropout的方法。Y0L0的创新YOLO将物体检测作为回归问题求解。基于一个单独的端

35、到端网络,完成从原始图像的输入到物体位置和类别的输出。从网络设计上,YOLO与RCNN、FastRCNN及FasterRCNN的区别如下:(1)YOLO训练和检测均是在一个单独网络中进行。YOLO没有显示地求取regionproposal的过程。而RCNN/FastRCNN采用分离的模块(独立于网络之外的selectivesearch方法)求取候选框(可能会包含物体的矩形区域),训练过程因此也是分成多个模块进行。FasterRCNN使用RPN(regionproposalnetwork)卷积网络替代RCNN/FastRNN的selectivesearch模块,将RPN集成到FastRCNN检测

36、网络中,得到一个统一的检测网络。尽管RPN与FastRCNN共享卷积层,但是在模型训练过程中,需要反复训练RPN网络和FastRCNN网络。(2)YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而RCNN/FastRCNN/FasterRCNNA将检测结果分为两部分求解:物体类别(分类问题),物体位置即boundingbox(回归问题)。第四章训练数据采集与制作4.1训练数据的采集准备需要训练的图片:本次实验训练的是水果的识别,种类一共5种,分别是WaterMelon、StrawBerry、Orange、

37、Pineapple、Apple,每种水果图片约30-40,总共有171图片。图片全部从百度图片中下载,图片分辨率一般在400*300像素左右。将图片按照按照5位数字从00000递增开始命名,并将其全部放到一个文件夹中。OMM.jpgOODOl.jpgQft&32.jpgOOGD2.jpg3DO04.jpg0&0&.jpgOOOO&.jpg&Q01ftjpgOOOll.jpg0C0L3jpgODD16.jpgMD17.jpgQ&OiajpgV0M19.jpg0D024.jpgOOO25.jpg0002ftjpg00027.jpg0002a.jpg00029jpg00022jpg00022.jpg

38、00032Jpg00032.jpg0(034jpg00025.jpg0036.jpg00037jpg00038.jpg训练数据的制作1.下载并编译安装Labellmg,使用这个软件给171水果图片标记对象位置和名称。0FkUW.B,TmIrw/OWNuMIl0MW.H.*.irTw,Mm|1jut-M0i,4iXKi.ppI.tun,ifTvcllM|Tui.冋Jhkrwi-OU-vpjWT.E.*w.EmiWEi,*pfl.tm-.HVJ.MlTufrw,iUH?M*=*z卩十2mO-Mjidijwe-b&KviUrUhEp冶*17100,I旳xmltrj=F-R:r!T:一L1十殆.:-.

39、Lm出tuiui|WWFk&k,工!九孤兀El!w比耐如心itmdfiTiTir-3.Ejhft/WEfEBCI.q|Ta,WK2曲.2*叶3冋1“*歸M,HKnj+r*.抑.tiflo.imrc,&!frwi-.KiXi円!Mlrwp|WC?*,+Kini.TrwiiWiTdItbOCOW.paiTMlrBTijjwAv.打5ie*EWbi网BC.pj/mTW丽r3.防,g*心Hfj*血.切.*g*i-aiq.BuJgr#啊事itwH*X-|U.hvJJA.打JT(o-rsiODOB9.xml-JUrDstlmage探存(町=-nx2标记完成后,Labellmg将会生成一个记录了对象名称和位

40、置的xml文件,每图片对应一个xml文件,xml文件容如下。annotationverified=no,folderDstlmaqe/foldea吃filename胡0089UnknawnOLZO400300c/heights3Dsrmslonpo5QHJnspecifiadu/p。刍gnDD/difTiulta53114BLB7:/bndbox/objectobjnameat9rmelonDD85uwmi门a114uFvmirin3.按照VOC数据集的格式创建一下文件夹结构。darknet项目目录Icfg配置文件存放目录src项目源代码VOCdevkitVOC数据集目录V0C2017数据标记

41、年份Annitations存放xml标记文件OOOOO.xmlxml标记文件OOOOl.xmlxml标记文件00171.xmlxml标记文件|ImageSets图片相关信息|Main文件位置信息train.txt保存了全部图片位置的文件|JPEGImages需要训练的图片OOOOO.jpg水果图片OOOOl.jpg水果图片00171.jpg水果图片|labelslabels文件OOOOO.txtlabels文件OOOOl.txtlabels文件00170.txtlabels文件4.YOLO不能识别xml文件,需要将其转化成其识别的格式。使用项目自带的voc_label.py脚本可以将xml格式

42、转换成YOLO所需的label文件。打开voc_label.py,修改数据集年份,要识别的对象种类名称,以及xml文件存放位置等信息。文件容如下图所示。该脚本同时会生成上面目录结构中的train.txt文件。修改完成后运行,将会生成上面目录结构所示的labels文件。列=号兰iW)訂I-口*Importxml,et:ree.ElEmEntTreiEasETimportpickleimportosfromosimportlistdlrTgetewdfromd占.palhiinportJoinsets=20171train1)classes=strafftberr,watenrielonrappl

43、a.orangerpineappledefconvert(size,box):drf=1./sizefOdh=lB/sizslx=bax0+boxL)/2a0y-box2+box3)/2-Qw二bosL-box:h-box3-box:lx-x*dww二w*dwy二y*dhh-h*dhreturnt羔昭h)dlefconvert_an门Dt凸tici门(y(&凸厂imagi&_icl):in_file=open(1VOCd&vkit/WOC%s/ftnnotations/%s.MiniD%(year,imagedd)out_file=open(VOCd&vkit/VDCs/lab|&Ls/l%s

44、.txt%(y&arimage_id)r1w)tree=ET.parse(ln_file)root=tree.getroot()size=root.find(size)iju=int(size.find(width.text)h=int(size.find(height1).text)Python制凄符宽度;合厅27列41*插入生成label文件后,打开其中一个,容如下所示。其中第一项“0”代表的是水果的编号,“0”代表草莓,“1”代表西瓜等,后面4项分别是标记的对象在图片中的位置的比例。00001上ct/nrknet/VOCdevkit/VOC2017/Labels00.426041666&

45、670.5850.431250.7433333333330D.6781250.3766666666670.356250.746666666667第五章训练配置、训练及测试训练效果5.1训练配置第四章是准备训练数据的全部过程,接下来要修改配置文件。创建cfg/s文件,该文件包含了5种水果的名称,每行一个。顺序需与前面python脚本中配置的一致,文件容如下。strawberrywatermelonappleorangepineapple创建cfg/myd.data,该文件包含了要识别的对象的种类个数、train.txt文件位置,上述s文件位置,以及生成的训练权重文件位置。该文件容如下:class

46、es=5train=/home/myd/new/darknet/VOCdevkit/VOC2017/lmageSets/Main/train.txtnames=/home/myd/new/darknet/cfg/sbackup=backup_myd复制一份cfg/yolo.cfg文件,命名为yolo-myd.cfg,并编辑这个文件,主要修改文件末尾region层中classes为5.即要识别的水果种类个数,修改region层上一层convolution层,把其中的filters值修改成50,根据网上教程,计算公式为(classes+coords+1)*(NUM),此次试验中具体数据为(5+4+

47、1)*5=50。训练过程执行以下命令开始训练:./darknetdetectortrain./cfg/myd.datacfg/yolo-myd.cfg执行命令后的输出如下:mydlocalhostdarknet$./darknetdetectortrain./cfg/myd.data./cfg/yolo-myd.cfgyolo-mydlayerfilterssizeinputoutput0conv323x3/1416x416x3-416x416x321max2x2/2416x416x32-208x208x322conv643x3/1208x208x32-208x208x643max2x2/22

48、08x208x64-104x104x644conv1283x3/1104x104x64-104x104x1285conv641x1/1104x104x128-104x104x646conv1283x3/1104x104x64-104x104x1287max2x2/2104x104x128-52x52x1288conv2563x3/152x52x128-52x52x2569conv1281x1/152x52x256-52x52x12810conv2563x3/152x52x128-52x52x25611max2x2/252x52x256-26x26x25612conv5123x3/126x26x

49、256-26x26x51213conv2561x1/126x26x512-26x26x25614conv5123x3/126x26x256-26x26x51215conv2561x1/126x26x512-26x26x25616conv5123x3/126x26x256-26x26x51217max2x2/226x26x512-13x13x51218conv10243x3/113x13x512-13x13x102419conv5121x1/113x13x1024-13x13x51220conv10243x3/113x13x512-13x13x102421conv5121x1/113x13x10

50、24-13x13x51222conv10243x3/113x13x512-13x13x102423conv10243x3/113x13x1024-13x13x102424conv10243x3/113x13x1024-13x13x102425route16conv641x1/126x26x512-26x26x64reorg/226x26x64-13x13x256route2724conv10243x3/113x13x1280-13x13x1024conv501x1/113x13x1024-13x13x50detectionLearningRate:0.01,Momentum:0.9,Decay

51、:0.0005Resizing训练过程中会打印训练进度的信息,如下所示:Loaded:0.000000secondsRegionAvgIOU:0.160720,Class:0.231168,Obj:0.521430,NoObj:0.413074,AvgRecall:0.000000,count:2RegionAvgIOU:0.180606,Class:0.679878,Obj:0.386150,NoObj:0.408220,AvgRecall:0.000000,count:11:.851959,.851959avg,0.000000rate,0.950000seconds,2imagesLoa

52、ded:0.000000secondsRegionAvgIOU:0.254033,Class:0.317158,Obj:0.520064,NoObj:0.409462,AvgRecall:0.200000,count:5RegionAvgIOU:0.241384,Class:0.085939,Obj:0.527829,NoObj:0.407437,AvgRecall:0.000000,count:12:216.814362,.848206avg,0.000000rate,0.550000seconds,4imagesLoaded:0.000000secondsRegionAvgIOU:0.22

53、6418,Class:0.028838,Obj:0.529031,NoObj:0.421976,AvgRecall:0.000000,count:2RegionAvgIOU:0.001094,Class:0.286836,Obj:0.057044,NoObj:0.412083,AvgRecall:0.000000,count:13:279.181519,.781540avg,0.000000rate,0.550000seconds,6imagesLoaded:0.000000secondsRegionAvgIOU:0.161439,Class:0.111352,Obj:0.491796,NoO

54、bj:0.411375,AvgRecall:0.000000,count:5RegionAvgIOU:0.245507,Class:0.220506,Obj:0.330526,NoObj:0.407965,AvgRecall:0.000000,count:54:250.851227,203.988510avg,0.000000rate,0.580000seconds,8imagesLoaded:0.000000seconds训练过程中会每5分钟生成一次训练数据文件到backup_myd/yolo-myd.backup,同时分阶段生成训练权重,如yolo-myd_100.weights,yolo-myd_200.weights,yolo-myd_300.weights等。经过大约24小时的训练,生成的训练文件如下:mydlocalhostbackup_myd$Isyolo-myd_10000.we

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论