基于深度学习的行人检测和分析 工商管理专业_第1页
基于深度学习的行人检测和分析 工商管理专业_第2页
基于深度学习的行人检测和分析 工商管理专业_第3页
已阅读5页,还剩46页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于深度学习的行人检测与识别PEDESTRIAN DETECTION AND RECOGNITION BASED ON DEEP LEARNING摘 要行人检测作为计算机视觉的热门研究方向之一,其本质就是运用检测算法对计算机获取的特定场景的图像进行检测与识别,收集相关行人行为的数据,并对其展开研究和分析,以此来对行人的后续行为进行预测,或者对其进行身份验证和识别、轨迹进行跟踪。在实际生活中,行人检测与识别最广泛的应用就是视频监控场景。然而由于行人检测场景的复杂性,导致行人检测与识别的准确度还有待提高。目前的相关算法往往采用人工设计特征,这类特征需要由学者进行专门的设计,鲁棒性不强,并且无法实现

2、图像或者视频行人的实时检测。因此本文提出基于卷积神经网络的行人检测与识别研究,旨在提高其识别准确率和实时性。本文主要工作为:(1)针对深度学习模型的训练需要大量的数据,并且网络层次越多训练所需要的样本数据量就越大的问题,本文采用数据检索的方式对INRIA数据集进行扩充,克服数据量不足的缺陷,从而防止深度学习模型过拟合的出现。在充分考虑到INRIA数据集中行人背景分布和行人分辨率等问题上,对INRIA数据集进行扩充。扩充后的数据集结构以及数据分布均不变,通过增加样本数据的方式提高训练处理模型的精确度。(2)针对传统行人检测鲁棒性不强,并且无法实现图像或者视频行人的实时检测的缺点,提出基于YOLO

3、v2的端到端的目标检测方法,通过融合深度残差神经网络,提出了一种改进的深度残差神经网络的行人检测方法。针对行人的行人图像横向信息不足的缺陷,提出了一种矩形输入的分类模型,加强了对于行人特征的提取能力;与此同时,通过聚类算法K-means重新设计了预测初始框,进一步提高了行人的定位能力。关键词:深度学习,卷积神经网络,深度残差神经网络,行人检测与识别ABSTRACTPedestrian detection is one of the hot research directions of computer vision. Its essence is to use the detection al

4、gorithm to detect and identify the images of specific scenes acquired by the computer, collect the data of relevant pedestrian behaviors, and conduct research and analysis on them. The follow-up behavior of the pedestrian is predicted, or it is authenticated and identified, and the trajectory is tra

5、cked. In real life, the most widely used application for pedestrian detection and identification is the video surveillance scene. However, due to the complexity of the pedestrian detection scene, the accuracy of pedestrian detection and recognition needs to be improved. At present, related algorithm

6、s often adopt artificial design features. Such features need to be specially designed by scholars, and the robustness is not strong, and real-time detection of images or video pedestrians cannot be realized. Therefore, this paper proposes a pedestrian detection and recognition based on convolutional

7、 neural network, aiming to improve its recognition accuracy and real-time. The main work of this paper is: (1) In general, the training of the deep learning model requires a lot of data, and the more the sample data is needed for the more training at the network level, which is possible to avoid the

8、 network overfitting effectively. Based on this, the INRIA data is extended by data retrieval to overcome the defect of insufficient data quantity in our article, so as to prevent the occurrence of over-fitting of deep learning model. This method takes full account of the pedestrian resolution and b

9、ackground distribution of the original database when database expansion is extended, so that the extended database still maintains the original data distribution of the database, which is beneficial to the training of logarithms. What we do is to train a better deep learning network for database det

10、ection.(2) In order to solve the problem that the traditional pedestrian detection needs artificial design features, and the trouble of poor real-time and weak robustness, we propose an improved depth residual neural network for pedestrian detection based on the end to end target detection method of

11、 YOLOv2 and the fusion of deep residual neural network. In view of the deficiency of pedestrians pedestrian image, a classification model of rectangular input is proposed, which strengthens the ability to extract the pedestrian characteristics. At the same time, the initial frame is redesigned by th

12、e clustering algorithm K-means, which will further improve the ability of pedestrians to locate.Key words: deep learning, convolution neural network, deep residual neural network, pedestrian detection and recognition目 录 TOC o 1-3 h z u HYPERLINK l _Toc2504184 摘 要 PAGEREF _Toc2504184 h I HYPERLINK l

13、_Toc2504185 ABSTRACT PAGEREF _Toc2504185 h II HYPERLINK l _Toc2504186 目 录 PAGEREF _Toc2504186 h III HYPERLINK l _Toc2504187 第1章 绪 论 PAGEREF _Toc2504187 h 1 HYPERLINK l _Toc2504188 1.1研究背景及意义 PAGEREF _Toc2504188 h 1 HYPERLINK l _Toc2504189 1.2国内外研究现状 PAGEREF _Toc2504189 h 2 HYPERLINK l _Toc2504190 1.

14、2.1 行人检测与识别的研究现状 PAGEREF _Toc2504190 h 2 HYPERLINK l _Toc2504191 1.2.2 深度学习在计算机视觉领域的研究现状 PAGEREF _Toc2504191 h 3 HYPERLINK l _Toc2504192 1.2.3 基于深度学习的行人检测与识别的研究现状 PAGEREF _Toc2504192 h 4 HYPERLINK l _Toc2504193 1.3行人检测难点 PAGEREF _Toc2504193 h 6 HYPERLINK l _Toc2504194 1.4论文的主要内容及创新点 PAGEREF _Toc2504

15、194 h 6 HYPERLINK l _Toc2504195 1.4.1主要研究内容 PAGEREF _Toc2504195 h 6 HYPERLINK l _Toc2504196 1.4.2论文创新点 PAGEREF _Toc2504196 h 7 HYPERLINK l _Toc2504197 1.5论文的内容结构安排 PAGEREF _Toc2504197 h 7 HYPERLINK l _Toc2504198 1.6本章小结 PAGEREF _Toc2504198 h 8 HYPERLINK l _Toc2504199 第2章 行人检测与深度学习相关基础理论与技术 PAGEREF _

16、Toc2504199 h 9 HYPERLINK l _Toc2504200 2.1 基于运动特征的行人检测算法 PAGEREF _Toc2504200 h 9 HYPERLINK l _Toc2504201 2.1.1 帧间差分法 PAGEREF _Toc2504201 h 9 HYPERLINK l _Toc2504202 2.1.2 光流法 PAGEREF _Toc2504202 h 10 HYPERLINK l _Toc2504203 2.1.3 高斯背景建模法 PAGEREF _Toc2504203 h 12 HYPERLINK l _Toc2504204 2.2 基于行人特征的检测

17、算法 PAGEREF _Toc2504204 h 13 HYPERLINK l _Toc2504205 2.2.1Edgelet PAGEREF _Toc2504205 h 13 HYPERLINK l _Toc2504206 2.2.2Shapelet特征 PAGEREF _Toc2504206 h 14 HYPERLINK l _Toc2504207 2.2.3Haar特征 PAGEREF _Toc2504207 h 15 HYPERLINK l _Toc2504208 2.2.4HOG PAGEREF _Toc2504208 h 17 HYPERLINK l _Toc2504209 2.

18、3 行人数据库及评测标准 PAGEREF _Toc2504209 h 18 HYPERLINK l _Toc2504210 2.4 本章小结 PAGEREF _Toc2504210 h 19 HYPERLINK l _Toc2504211 第3章 基于深度学习的行人检测 PAGEREF _Toc2504211 h 20 HYPERLINK l _Toc2504212 3.1 全连接神经网络 PAGEREF _Toc2504212 h 20 HYPERLINK l _Toc2504213 3.2 反向传播算法 PAGEREF _Toc2504213 h 22 HYPERLINK l _Toc25

19、04214 3.3 卷积神经网络 PAGEREF _Toc2504214 h 23 HYPERLINK l _Toc2504215 3.4 基于深度学习的行人检测 PAGEREF _Toc2504215 h 24 HYPERLINK l _Toc2504216 3.4.1系统框架 PAGEREF _Toc2504216 h 24 HYPERLINK l _Toc2504217 3.4.2基于图像检索扩充的深度学习行人检测 PAGEREF _Toc2504217 h 25 HYPERLINK l _Toc2504218 3.5 实验结果与分析 PAGEREF _Toc2504218 h 28 H

20、YPERLINK l _Toc2504219 3.6 本章小结 PAGEREF _Toc2504219 h 29 HYPERLINK l _Toc2504220 第4章 基于改进的深度残差网络行人检测方法 PAGEREF _Toc2504220 h 30 HYPERLINK l _Toc2504221 4.1引言 PAGEREF _Toc2504221 h 30 HYPERLINK l _Toc2504222 4.2相关工作 PAGEREF _Toc2504222 h 31 HYPERLINK l _Toc2504223 4.2.1YOLOv2 目标检测方法 PAGEREF _Toc25042

21、23 h 31 HYPERLINK l _Toc2504224 4.2.2深度残差网络 PAGEREF _Toc2504224 h 31 HYPERLINK l _Toc2504225 4.3针对图像特征的行人检测方法 PAGEREF _Toc2504225 h 32 HYPERLINK l _Toc2504226 4.3.1基于图像的行人特征分析 PAGEREF _Toc2504226 h 32 HYPERLINK l _Toc2504227 4.3.2基于维度聚类的预测框选取 PAGEREF _Toc2504227 h 33 HYPERLINK l _Toc2504228 4.3.3Res

22、-P-YOLO网络设计 PAGEREF _Toc2504228 h 34 HYPERLINK l _Toc2504229 4.4 实验设计 PAGEREF _Toc2504229 h 35 HYPERLINK l _Toc2504230 4.4.1实验环境 PAGEREF _Toc2504230 h 35 HYPERLINK l _Toc2504231 4.4.2行人检测模型评价方法 PAGEREF _Toc2504231 h 35 HYPERLINK l _Toc2504232 4.4.3混合数据集训练效果验证 PAGEREF _Toc2504232 h 36 HYPERLINK l _To

23、c2504233 4.4.4矩形输入性能对比 PAGEREF _Toc2504233 h 37 HYPERLINK l _Toc2504234 4.5 实验及分析 PAGEREF _Toc2504234 h 37 HYPERLINK l _Toc2504235 4.6 本章小结 PAGEREF _Toc2504235 h 39 HYPERLINK l _Toc2504236 第5章 总结 PAGEREF _Toc2504236 h 40 HYPERLINK l _Toc2504237 参 考 文 献 PAGEREF _Toc2504237 h 42 HYPERLINK l _Toc250423

24、8 致 谢 PAGEREF _Toc2504238 h 46绪 论本章首先介绍了关于行人检测与识别的研究背景和国内外对行人检测与识别技术的研究现状;其次,结合国内外技术的研究状况总结并分析了行人检测技术所面临的技术难点和原因;最后提出了本论文的创新点,并对论文的主要内容和各个章节所做的工作进行总结。 研究背景及意义行人检测涉及图像处理技术、计算机视觉技术以及机器学习相关算法等多个领域的技术,它在许多领域都有重要应用。近年来,随着深度学习的兴起,计算机视觉的许多领域都有了质的飞跃,行人检测便是其中一个领域1-4。现阶段,公众对于安防的需求随着计算机技术和安保技术的成熟而越来越来大,那么怎么样让计

25、算机更理解人们的需求以及更高效地为人们服务,是计算机的应用价值体现,也是科研工作人员奋斗的目标。为了实现行人检测和识别,市面上常见的是对图像和视频通过机器学习进行特征提取,之后的学者也将引入深度学习,提高检测精确度,减少相关从业人员的工作量,让技术更好地为大众服务。伴随着社会的发展和技术的进步,计算机能够代替人做的工作越来越多,如:智能交通调度,智能电力调度,无人驾驶,繁忙公共场所的人流量检测等。在实际应用中,利用计算机获得视频图像,并且理解和分析这些图像的潜在信息一直是当前模式识别的研究重点。行人检测作为计算机视觉的热门研究方向之一,其本质就是运用检测算法对计算机获取的特定场景的图像进行检测

26、与识别,收集相关行人行为的数据,并对其展开研究和分析,以此来对行人的后续行为进行预测,或者对其进行身份验证和识别、轨迹进行跟踪。简单来讲,行人检测和识别的原理对图像序列或者视频序列进行检测,判断其中行人是否存在。这一检测往往通过计算机视觉技术和机器学习方法实现。若在图像序列或者视频序列图像检测出存在行人,则还需要提取行人的位置信息,之后通过提取的位置信息进行行人的行为和步态分析,甚至实现对其身份进行识别。在实际生活中,行人检测与识别最广泛的应用就是视频监控场景。然而由于行人检测场景的复杂性,导致行人检测与识别的准确度还有待提高。目前的相关算法往往采用人工设计特征,这类特征需要由学者进行专门的设

27、计,鲁棒性不强,并且无法实现图像或者视频行人的实时检测。行人检测与识别根据分类方法的不同,可以分为以下三种:(1)形变部件模型变体;(2)基于决策森林的行人检测方法;(3)基于深度学习的行人检测方法5。近年来,这三种方法在公开的数据集上都能取得不错的实验结果。但是,传统的行人检测方法(例如方向梯度直方图、局部二值模式等方法)严重依赖于手工设计特征,同时,设计得到的特征维度较高,在实际应用中泛化性能较差6-8。基于深度学习(卷积神经网络)的行人检测方法能够自动从图像中学习得到行人特征,相比于传统的方法,具有更好的泛化性能,且性能也大幅度提升,因此成了当下计算机视觉的研究热点之一9。 国内外研究现

28、状行人检测是进行行人识别和行为分析的先决条件,行人检测简单来说就是从视频序列以及视频图像中将行人及其位置提取出来5,6。研究发现,目标检测与识别鲁棒性和计算复杂性两个方面做的还不够好,还需要进一步改进。具体地,类内表现差异和类间表现差异是影响鲁棒性的主要原因,如果类间表现差异比较小或者类内表现差异比较大会降低目标检测方法的鲁棒性;另一方面,待检测目标的类别数目和其他的一些因素都会严重影响目标检测方法的计算复杂度。然而,真实世界中物体的类别成千上万,影响的因素也多。但是,近年来深度学习技术的发展,给目标检测领域带来了新的活力,无论是在学术研究还是工程应用领域,深度学习技术的引进,都给目标检测方法

29、的精度带来了质的突破,因此众多学者都纷纷将深度学习技术应用于目标检测这一具有很大发展前景的领域。1.2.1 行人检测与识别的研究现状行人目标信息的识别和行人的其他一系列的分析都需要建立在行人检测的基础上,因此行人检测是至关重要的一环。帧间差分法、高斯背景建模和光流法等算法7是常见的基于物体运动特征的目标检测算法,它们的优点有:1. 算法的原理容易理解;2. 实现的代码量小,稳定性好;3. 在某些理想的场景下,检测的效果好。但是,这类算法检测的对象不单单是行人,是所有运动的物体,因此无法对检测到的目标进行识别。所以希望能够有算法能获取行人独有的特征,并且能够很好的对行人进行识别。然而,实际中,行

30、人的姿态、服饰、所处的背景多种多样,不太容易能够很好地提取行人的特征。所以需要一种较为鲁棒的算法,能够应对行人这样复杂场景下的对象,并且很好地完成特征提取的任务,这是一个不小的挑战。目前,提取行人特征常用的方法有:1. 提取行人颜色特征;2. 提取行人Edgelet特征8;3. 提取行人Haar特征9;4. 提取行人HOG特征10。2014年,吴波等人11结合红外图像的处理技术和行人特征中的局部形状特征,提出了一种效率较高的行人检测方法。将行人检测识别的准确率提升到了80%。2015年,朱聪聪等人12融合雷达和红外图像技术,提出了能够在光线不好(夜晚也可以)的环境下也能对行人进行很好的目标识别

31、的技术,结合雷达和红外图像技术,在红外感应区域提取出HOG特征,这也是该技术能够应用于较弱光线下的一个主要原因。2016年,向应等人13将Haar特征提取技术和AdaBoost分类器技术结合起来,提出了一个应用效果比较好的行人检测算法,该算法首先运用Haar特征提取器快速对行人图片进行粗分类,接着再利用AdaBoost分类器对候选人目标进行检测,使得检测准确率提升到了90%以上。2017年,孟祥云等人14通过提取行人目标的四维形状特征,并且利用SVM对提取的特征进行识别和分类,从而在一些行人、车辆数据集上达到95%的准确率。1.2.2 深度学习在计算机视觉领域的研究现状深度学习的提出得益于人工

32、神经网络的研究,其目的在于模拟人类大脑建立一个学习数据表征的机制,这是人工智能领域近几年来取得的重大突破。本质上来说,深度学习就是通过多层的非线性变换从海量数据中自动提取出不同层次的特征,而这些特征比人工设计的特征更能表征数据的特性,更有利于学习器进行拟合,达到比传统机器学习方法更高的准确率。从而减少数据的预处理操作,真正实现端到端(end-to-end)的设计。2006年,Hinton在Nature上发表注定注入深度学习历史的文章,从而正式提出深度学习15。2012年,Hinton的团队将卷积神经网络运用到图像分类中,赢得了当年ImageNet图像分类比赛的冠军16。无独有偶,徐珊珊等人17

33、在2014年将卷积神经网络运用到木材识别中,提高了木材识别的准确率。许西邵等人18在2016年将卷积神经网络用于人脸识别,提高了人脸识别的准确率。2017年,赵晨光等人19提出将卷积神经网络运用于掌纹识别,在数据量较少的情况下就可以达到98%的准确率。综上所述,深度学习中的卷积神经网络具有极强的图像特征提取能力,能够应用于各种各样的图像应用中。在2015年的ImageNet ILSVRC比赛中20,微软研究院队伍基于深度残差系统来设计神经网络结构,以图像识别错误率低至3.57%的成绩获得了该比赛的冠军。目前所使用的都是多层的神经网络结构,通常会达到20至30层。而在这次比赛中,微软队所使用的网

34、络层数达到152层,网络层数越深训练起来就会越复杂,这么深层的网络结构在之前根本不敢想象它会被成功应用。微软通过残差网络的使用,在训练以及使用深层网络结构的时候,可以跳过不需要的某些层级,而需要用到的时候再重新返回应用就可以了。魏云超等提出了Hypotheses-CNN-Pooling(HCP)网络结构,这是一种非常灵活的CNN模型,该模型可以使任意的输入量与一个共享CNN连接,最后将CNN的输出结果通过最大池聚集起来,以产生最终的多标签预测21。SatoIkuro检测驾驶员的驾驶行为,通过CNN训练相关数据样本,并将训练得到的CNN模型应用于实际数据,若其行为不符合规范则给予其提供相应的警告

35、,从而避免了由于驾驶操作不规范而导致的交通事故,大大提高了汽车驾驶的安全等级,给交通安全提供了重要的保障22。Ossama等实现了多扬声器的语音识别,将卷积神经网络应用于语音识别领域。通过实验数据可以看出,Ossama提出的语音识别方法可以减少10%以上的相对误差。Patrice等构建了一个体系结构,适用于文件分析,通过将卷积神经网络应用到视觉文献分类,所设计的体系结构在MNIST样本库测试效果显著23。传统的目标检测算法主要分为以下3个步骤:1. 区域选择;2. 特征提取;3. 分类回归。但是传统的目标经检测算法存在两个缺点:(1)检测算法的时间复杂度高;(2)手工提取的特征鲁棒性较差;(3

36、)区域选择的策略效果差。直到2013年,Ross Girshick等人14采用卷积神经网络(CNN)进行特征提取,解决了上述的两个问题,一举改变了这种现状。在其后的发展中,按照处理方式的不同,主要分为两大类:一类是以R-CNN为代表,另一类则是以YOLO为代表。以R-CNN为代表的方法将目标检测过程分为两个步骤,首先生成候选区域,之后再用分类器进行检测。2014年,何凯明等人17在R-CNN的基础上提出了SPP Net(Spatial Pyramid Pooling Neural Network),SPP Net首先进行的是卷积,然后才生成候选区域,这样做减少了存储量的同时,也加快了训练速度;

37、另外,SPP Net还设计了一个金字塔池化层,将特征数据(特征图)进一步处理,然后拼凑成和神经元个数相同的特征数,极大地减少了计算的冗余度。2015年,Ross Girshick等人21提出了Fast R-CNN,将原来R-CNN的串行结构改为并行结构,同时保留了SPP Net的优点。同年,Shaoqing Ren等人11提出了Faster R-CNN,利用神经网络去学习生成候选区域,这种方式不仅提高了生成的候选区域的可靠程度,也大大减少了参数的数量。2017年,何凯明等人9提出了Mask R-CNN,增加了一条信息通道,提升了检测的效果。以YOLO为代表的方法使用回归的方式输出目标的边框和类

38、别,这样做的优点就是检测速度快,但是会有许多漏检。2015年,Joseph Redmon等人6提出了YOLO(You Only Look Once),将输入图片划分成一个 SxS 的网格,每个网格负责检测网格里面的物体,并输出 Bbox 信息和置信度。YOLO的做法虽然快,但是检测的边框有点大,小的物体容易从这个框中漏出去。同年,由于YOLO存在使用整图特征在粗糙网格内回归对目标的定位不精准的问题,Wei Liu等人10提出了SSD算法,将YOLO结合region proposal思想,提高定位的精确度,高效预测某个位置使用的是这个位置周围的特征。另外,与YOLO最大的差别是,SSD没有接全连

39、接层,极大地减少了参数量,提高了检测速度。1.2.3 基于深度学习的行人检测与识别的研究现状行人检测与识别属于对运动对象或者目标进行检测和识别的研究分支,而行人分离主要试将感兴趣的物体从图像中分离出来。从各种复杂的背景中提取待分离目标的方法主要有:1. 背景差分法;2. 混合高斯背景建模法;3. 帧间差分法; 4. 光流法20-23。其中,背景差分法首先将非目标区域的图像提取出来,然后用目标帧图像与该背景帧图像做强度或者能量的差分,最后再删除不变的背景区域。帧间差分法的原理类似于背景差分法,也是通过计算视频中相邻两帧图像的强度或者能量差分,从而实现对运动目标的识别。混合高斯背景建模方法则是通过

40、概率密度函数来对背景像素进行精确量化,解决了两种差分方法容易受到其他因素影响的问题,成为应用最为广泛的运动目标检测方法之一(深度学习未出来之前)。上述的三种方法只是用于固定场景,而光流法则可以用于非固定的场景,应用范围更加广泛。光流法是利用运动物体在成像面上形成的运动矢量来对运动物体目标进行识别的,该方法较为稳定,所以才能在多种场景中进行使用。在目标检测领域未采用深度学习技术之前,在复杂背景下进行行人的检测与识别仍然是一个巨大的难题,因为复杂背景的图像中存在有太多未知的因素,比如光线明暗、图像的分辨率等,都是影响最终识别准确率的重要因素。之前采用的方案主要是将计算机视觉算法与传感器技术进行结合

41、,从而完成对各种场景下对行人的检测与识别。而在视频中对行人的检测与识别则往往需要依靠滑动窗口,通过滑动窗口对视频中的帧图像进行分类。滑动窗口(包括固定的和非固定的)会在同一张图像所形成的图像金字塔上进行扫描,从而判别该区域中是否包含行人目标。而且通常最后都会对检测的结果进行相应的处理,并用可视化的方框对图像金字塔中的行人进行标记。虽然视频是一种动态的序列,但是该动态序列可以看成是由静态图像序列构成的,因此仍然可以采用分析静态图像序列的方法来分析视频。同时,又可以将视频中动态的行人特征添加进来,进一步提高视频中行人检测的准确率。除了滑动窗口的方法之外,对视频中的行人进行检测的方法还有多视角、多部

42、位以及基于整体局部特征等方法,都是具有相当的准确率的。另外,为了更好地对静态的图像进行建模,提出了许多的方法来对行人进行特征提取和描述,主要有:协方差描述算子、Haar小波特征集合、隐马尔可夫(HMM)特征、统计直方图和梯度方向直方图(HOG)等24-27。当然这些方法虽然在一些场景下取得了不错的结果,但是都存在不同程度的缺陷。比如,协方差描述算子在光线不足的图片中无法很好地提取出行人的特征、隐马尔可夫(HMM)方法计算的复杂度较高、Haar小波特征提取方法对于背景复杂的图像无法很好地对行人特征进行提取等。因此,在深度学习技术出来之后,这些方法在学术研究中就很少被采用了,当然,在一些工业领域上

43、,还是有一些简单的场景采用这些方法,也都有不俗的效果。从2012年开始,由于大数据以及硬件计算速度的支持,深度学习技术开始飞速发展,在传统技术的目送下取得极大的突破。在目标检测中,从解决的方式进行分类,深度学习可以分为两大派系:“一刀流”和“两刀流”,其分别的代表就是R-CNN和YOLO。“一刀流”的做法是使用回归的方式输出目标的边框和类别,与之相反,“二刀流”则将目标检测过程分为两个步骤,首先生成候选区域,之后再用分类器进行检测。两种方式各有优点,比如“一刀流”讲究的是一个快字,而“二刀流”主要讲究的是一个准字,因此两者的目标不同,没有什么比较的价值,而是应该根据问题的场景选择相应的方法。

44、行人检测难点经过这么多年的发展,对视频图像中的行人进行检测和识别的技术已经比较成熟,但是与人类的识别能力相比,还是有很大的进步空间。目前来讲,行人检测与识别技术面对的问题主要有:1. 实时性差;2. 在复杂多变场景中的检测效果差强人意。具体一点来讲,主要有以下的这些问题:1. 行人的穿衣搭配差异较大;2. 行人运动姿态变化多;3. 行人之间存在相互簇拥和遮挡的情况;4. 图像背景复杂、分辨率不同;5. 图像的拍摄视角不同;6. 训练样本制作困难,需要大量人工。为了解决上述的问题,已经有很多的学者针对其中的某一点问题,进行算法或者相关技术的改进,但是仍然存在不同程度上缺陷,因此行人检测领域依然存

45、在巨大的挑战。 论文的主要内容及创新点主要研究内容本文主要对深度学习中的卷积神经网络模型在行人检测与识别领域所遇到的问题进行探究,旨在通过改进行人检测与识别算法提升其识别的实时性和准确率。本文的主要工作为:(1)简要介绍了卷积神经网络在行人检测与识别应用的理论基础。同时,这一章还对常用的基于行人特征的行人检测算法进行分析和实验。实验结果也表明了卷积神经网络能够很好地表征纹理和梯度特征,从而能够从行人图像中将行人特征提取出来。(2)通常情况下,要想更好地训练深度学习的模型,大量的训练样本是必不可少的,同时随着网络层数的增加,所需要的训练数据就越多,这样才有可能有效地避免网络过拟合。基于此,本文采

46、用数据检索的方式对INRIA数据集进行扩充,克服数据量不足的缺陷,从而防止深度学习模型过拟合的出现。在充分考虑到INRIA数据集中行人背景分布和行人分辨率等问题上,对INRIA数据集进行扩充。扩充后的数据集结构以及数据分布均不变,通过增加样本数据的方式提高训练处理模型的精确度。(3)本文提出基于YOLOv2的端到端的目标检测方法,解决了人工训练特征稳定性不强,不能实时检测的缺点,通过融合深度残差神经网络,提出了一种改进的深度残差神经网络的行人检测方法。针对行人的行人图像横向信息不足的缺陷,提出了一种矩形输入的分类模型,加强了对于行人特征的提取能力;与此同时,通过聚类算法K-means重新设计了

47、预测初始框,进一步提高了行人的定位能力。论文创新点(1)为了有效地训练深度学习网络模型,本文提出了对原数据库扩充的方法,该方法在进行数据库扩充时该方法在进行数据库扩充时充分考虑到原数据库的行人分辨率,背景分布等因素,使扩充后的数据库仍然保持数据库原有的数据分布,从而有利于训练对数据库检测效果更佳的深度学习网络。(2)为了解决传统行人检测需要人工设计特征以及检测鲁棒性不强和实时性差等问题,本文基于YOLOv2的端到端的目标检测方法,通过融合深度残差神经网络,提出了一种改进的深度残差神经网络的行人检测方法。针对行人的行人图像横向信息不足的缺陷,提出了一种矩形输入的分类模型,加强了对于行人特征的提取

48、能力;与此同时,通过聚类算法K-means重新设计了预测初始框,进一步提高了行人的定位能力。论文的内容结构安排本章主要安排五个章节,各个章节的主要内容如下:第一章为绪论。首先介绍了课题相关背景知识,对国内外行人检测技术的研究现状;其次,结合国内外技术的研究状况总结了并分析了行人检测技术所面临的技术难点和原因;最后提出了本论文的创新点,并总结了论文的主要内容结构和各个章节所做的工作。第二章为行人检测与深度学习的相关理论与技术。首先,分析对比了当前比较流行的基于运动特征的行人检测算法,然后介绍了目前用的较多的行人特征,并具体分析了各个算法的工作流程。最后,文章介绍了行人检测最常使用的行人数据库及其

49、评测标准,并分析了各个行人库的应用场景。本章是后两章研究工作展开的基础。第三章为基于深度学习的行人检测。先对深度学习的基础知识展开介绍,从最初的全连接神经网络FNN到后面发展的卷积神经网络CNN,在此基础上,进一步介绍了深度学习是如何应用到行人检测的(常用的框架是什么),并且还使用Resnet 50进行试验,从而验证了基于深度学习的行人检测方式较与传统的行人检测方式具有更优越的性能。第四章为基于改进的深度残差网络行人检测方法。本章提出了一种新的行人检测方法,针对行人图像横向信息不足的缺陷,引入了矩形输入的CNN模型,从而更好地表征行人特征;为了进一步特征模型的准确率和泛化能力,对两个公开数据集

50、的样本进行混合训练;同时,通过聚类算法K-means对预测的初始框进行重新选择,提高了定位行人的能力。本文提出的方法较传统的方法具有更低的误检率,将每张测试图片的漏检率降低至12.38%,并且本文提出的方法具有良好的实时性和泛化能力,能够用于实际工业界。第五章为论文的总结与展望部分。此章节对本文所做的工作进行了总结,并指出当前算法所存在的不足,为未来的改进提供了方向。本章小结本章主要介绍了行人检测的研究背景和意义,同时介绍了国内外对行人检测与识别的研究现状以及论文的主要内容,最后列出了本论文的基本框架和结构安排。行人检测与深度学习相关基础理论与技术行人检测技术是行人识别的前提,检测结果的好坏对

51、识别的准确率有直接的影响,只有检测算法稳定并且高效才能保证后续识别效率。目前,基于运动特征的行人检测算法和基于行人特征的行人检测方法是最常用的两种行人检测算法。本章重点结合经典行人检测算法和常用行人特征,并且对卷积神经网络的相关理论进行简要介绍,同时结合实例对卷积神经网络在行人检测与识别的应用进行说明。2.1 基于运动特征的行人检测算法帧间差分法,光流法和高斯背景建模法是基于运动特征的行人检测最常用的算法,这些算法的原理简单,占用内存小,代码精简,在实验环境中具有较好的效果36-40。2.1.1 帧间差分法帧间差分法37-38主要适用于目标运动或摄像机移动的场景,它通过对运动目标取相邻两帧来做

52、差分运算,从而获得运动目标的轮廓。在视频场景中,如果图像移动前后的两帧有比较明显的差别,那么就可以说明运动目标所在区域的像素值发生了明显地改变,反之,若所在区域的像素值没有明显改变则说明并不存在运动目标。下面将以一段常用的彩色视频序列为例来简要说明下帧间差分法的流程。由于灰度图像比彩色图像包含的图像信息少,便于运算,所以本文第一步就是将彩色图像灰度化,而不是直接使用;接下来,假设该灰度化的视频帧中第K帧某一位置(x, y)所对应的像素值为。假设T是灰度阈值,该阈值的设定是根据具体应用需求来设定的,若像素值不小于T,则可判定该点是像素点,否则,该点可判定为背景点,由此可得到分割后用0表示背景点和

53、用1表示像素点的二值图像。整个帧间差法的流程如图2.1所示:图2.1 帧间差法的流程图对该算法的描述如下:为确保所有基于图像的操作都是基于灰度图像的,首先将彩色视频帧灰度化,再取相邻灰度化的视频帧进行差分运算,得到差分图像 为:(2.1)(2)使用预先设置好的阈值T对上一步骤得到的差分图像进行二值化处理,得到 为:(2.2)根据二值化后图像的颜色标注(0用黑色,1用白色表示),筛选出运动目标所在的区域。按照以上对帧间差分法算法的描述,本文运用该算法对运动目标进行了实践,其结果如图2.2所示。 (a)帧间差分法检测前(b)帧间差分法检测后图2.2 帧间差分法检测实验结果如图2.2所示,图(a)是

54、使用帧间差分法检测前的视频图像,图(b)是经帧间差分法处理后的图像。帧间差分法在处理视频序列时所表现出来的优缺点为:优点:算法的原理简单,占用内存小,代码精简,是实时性高,对背景干扰和光照影响比较小。缺点:(1) 很难提取运动目标运动缓慢情况下的所有相关像素点,容易产生空洞现象;(2) 算法在复杂的运动场景下(有多个运动对象或者运动物体之间存在遮挡)并不能准确的进行识别;(3) 检测目标的外接矩阵会在物体的运动方向上存在一定程度的拉伸,从而使得检测结果的错误发生。另外,虽然帧间差分法在固定场景中能够准确的识别行人,但是在运动的场景下并不能很好地识别行人;而且帧间差分法并不只是识别行人,也会识别

55、所有的运动物体。2.1.2 光流法光流法38是最常使用的运动目标检测算法之一,它是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来确定各自位置的运动,从而追踪目标的运动信息。该算法的使用对视频序列具有特别的要求,必须满足以下三个条件:(1)相邻的视频帧之间亮度需要为固定值,即亮度不能改变;(2)相邻的视频帧之间物体的运动幅度不能太大;(3)同一视频帧上像素点的运动必须保持一致,即保持空间一致性。光流法的原理:光流法的关键是将图像目标的运动处理成了位置与函数的关系,因而首先给相邻帧的每个像素点设点一个速度矢量,得到该图像序列的矢量场。然后再根据图像帧运动后的信息,得出运动后的位置信息,

56、再根据图像的坐标变换,从而得到相邻图像之间的匹配关系,值得注意的是,以上原理的实现都是基于相邻的视频帧之间的亮度不发生改变,即亮度不变的假设下。图2.3 视频序列的运动状态模拟图如上图所示,将视频序列的运动状态模拟成坐标的形式来分析,左图 是运动前的视频帧,图中箭头表示其运动方向,右图是该帧运动后的状态。对于H中特定的像素点,可以在通过光流法在I图中找到对应位置的相同或相近的像素点,并得到相邻帧之间的运动信息。同样地,这里也必须满足光流法所必须假设的三个条件:亮度不能改变,运动幅度不能太大和保持空间一致性。图2.4 视频序列中的图像运动图如上图所示,视频序列中的图像图沿着箭头方向运动,产生出的

57、偏移量,经运动后的位置信息为。(a) (b) (c)图2.5 光流法检测运动目标实验结果按照以上对光流法算法原理的描述,本文运用该算法对运动目标进行了实践,其结果如图2.5所示:图(a)和图(b)是图像序列中连续运动的相邻视频帧,图(c)是使用光流法对(a)和(b)的检验结果,图中红线表示的是特征点的运动,为了达到更加明显的显示效果,实验选择了2000个特征点进行展示。在进行实验时,本文也发现了光流法需要耗费的计算代价非常大。并且选择的特点越多,代码所要计算的数据量也越大,实验耗费的时间就越长,此外,利用光流法进行运动目标检测时,实时性无法保证,这样就限制了该方法的实用性。2.1.3 高斯背景

58、建模法高斯背景建模法39-40是目标检测的经典算法之一,该方法是一种背景差分法,算法思想与帧间差分法有相通之处,只是高斯背景建模算法是将当前视频帧与建立的高斯背景模型进行差分,根据预先设定好的阈值,来判断像素点是属于背景区域还是运动目标区域,其算法流程如下图所示:图2.6 高斯背景建模法流程图如上图所示, 是某一视频序列的当前帧图像, 是实时更新的背景图像, 表征经差分运算后的图像,是经阈值处理后的二值图像。该算法的基本过程为:取检测目标视频帧,并建立高斯背景模型,将两者的像素值做差分运算,从而得到当前视频帧的差分图像:(2.3)(2)据预先设定好的阈值,来判断像素点是属于背景区域还是运动目标

59、区域,对差分图像进行二值化,得到图像:(2.4)(3)根据二值化后图像筛选出运动目标所在的区域。按照上述分析可知,高斯背景建模法的主要任务和最大难点就是建立背景模型和实时更新背景模型。通过不断更新背景模型,使当前背景更加符合所要检测的帧序列的背景,从而保证检测的有效性。按照以上对光流法算法原理的描述,本文运用该算法对运动目标进行了实践,其结果如图2.5所示。 (a) (b) (c)图2.7 高斯背景建模检测行人实验结果如图2.7(a)是行人运动的视频序列,图(b)是高斯背景建模更新的背景,图(c)是使用高斯背景建模法检测出来的行人图像。实验过程中发现,实验效果受环境的影响较大,每一次的光线变化

60、,亮度变化和摄像头位置的变化都会对实验结果产生一定的影响。但是,高斯背景建模法的算法容易理解,代码简单,并且能够检测出完整的运动目标的轮廓。通过以上对帧间差分法,光流法和高斯背景建模法的分析,以及它们各自在应用场景中的表现来看,每种算法都有各自的缺陷,并不存在一种通用的算法可以在所有的场景下进行精确识别。在实际中,应该根据不同算法的特点来选择其相应的应用场景,如在交通系统中选择光流法效果比较好一些,因为车辆是处于源源不断的运动状态的,因此图像处理的对象也是动态的,而在安防监控系统中,摄像头是处在静止不动的状态,因此图像处理的对象也是静态的,这时选择帧间差分法和高斯背景建模法的会比较适合一些。本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论