




文档简介
电子科技大学 UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 硕士学位论文 MASTER THESIS 论文题目基于深度学习的目标检测算法研究及应用 学 科 专 业计算机软件与理论 学号201221060338 作 者 姓 名万维 指 导 教 师匡平副教授 分类号密级 UDC 注1 学位论文 基于深度学习的目标检测算法研究及应用 (题名和副题名) 万维 (作者姓名) 指导教师匡平副教授 电子科技大学成都 (姓名、职称、单位名称) 申请学位级别硕士学科专业计算机软件与理论 提交论文日期2015.3.15论文答辩日期2015.7.10 学位授予单位和日期电子科技大学2015 年 12 月 答辩委员会主席 评阅人 注 1:注明国际十进分类法 UDC的类号。 The Object DetectionAlgorithm ResearchAnd Application Based On Deep Learning AMaster Thesis Submitted to University of Electronic Science and Technology of China Major:Computer Software and Theory Author:Wei Wan Supervisor:A.P. Ping Kuang School: School of Information and Software Engineering 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名,日期,年月日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、 使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此规定) 签名,导师签名, 日期,年月日 摘要 I 摘要 目标检测是计算机视觉领域中一个富有挑战性的课题,其主要目的是从静态 图片或视频中检测并定位特定的目标。它综合运用了图像处理、模式识别、人工 智能和自动控制等技术,在道路交通事故预防、工厂可疑危险品警告、军事禁区 监控、高级人机交互等方面有着广泛的应用。由于目标所处环境复杂多变,目前 还没有一种比较通用成熟的检测方法,在实际应用中目标检测算法研究的机遇与 挑战并存。 本论文首先分析了国内外目标检测算法的研究现状,着重介绍了当前应用较 为广泛的方法,使用目标特征训练分类器进行目标分类检测。针对使用现有特征 训练的分类器进行目标分类检测时存在误检率较高的缺点,本文在深度学习的基 础上提出了一种基于卷积神经网络的行人目标检测算法。为了解决直接使用卷积 神经网络进行滑动窗口检测效率较低的问题,本文将算法分为两大步骤:(1)疑似 存在行人窗口确认;(2)行人检测。在疑似存在行人窗口确认中,本文使用融合特征 作为行人的描述特征训练分类器,采用了邻近尺度特征值相似的思想构建分类器 金字塔,在待检图像上利用不同尺度的滑动窗口进行滑动遍历确定疑是存在行人 窗口;在行人检测中,使用大量正负样本训练了一个卷积神经网络,为了更好的 适应行人检测,将该卷积神经网络的拓扑结构进行改进。将疑似存在行人的窗口 输入改进后的卷积神经网络进行行人检测,在保持原有的检测率的基础下降低了 误检率。 为了验证本文所提出算法的准确性, 在 INRIA 行人数据库进行行人检测实验。 分别以每个窗口和每幅图像为检测单位,统计本文算法的检测率和误检率,在平 均每幅图像存在一个误检窗口的标准下, 达到了 93%的检测率。 检测率比使用 ACF 特征训练的检测器高三个百分点,检测速度比单独使用卷积神经网络检测提升四 倍以上。实验结果证明了本文算法的有效性。 关键字关键字:目标检测;行人检测;深度学习;卷积神经网络 ABSTRACT II ABSTRACT Object detection is a challenging problem in the field of computer vision and which main purpose is to detect and locate specific goals from static images or video. It is based on the technology of technology of image processing, pattern recognition, artificial intelligence and automatic control and widely used in traffic accident prevention, suspicious warned of dangerous goods in factory, military restricted zone monitoring and senior human-computer interaction. The current lack of a mature and general method to detect object because of the environment is complicated. Object detection research exist opportunities and challenges in practical application. This thesis first analyzes the domestic and foreign research status of object detection algorithm, emphatically introduces the application method which are widely used is based on the object feature trained classifier to classify object. Because of the existing feature of the trained classifier to classify object has high false positives rate, this thesis present a pedestrian object detection algorithm based on convolution neural network on the basis of deep learning. The algorithm consists of two steps in order to solve the low efficiency of sliding window with convolution neural network, (1) the suspected pedestrian window confirmation; (2) the pedestrian detection. In suspected existing pedestrian window confirmation, this thesis use the fusion feature as the description of the pedestrian training classifier and the ideal of nearby scale feature similar to build classifier pyramid. On the inspected images, this thesis use different scales of sliding window to slide traversal to confirm suspected exist pedestrian window. In the pedestrian detection, this thesis rely a large number of positive and negative samples to train and get a convolution neural network. In order to better adept the pedestrian detection, this thesis improve the topology of traditional convolution network. Input suspected existence of pedestrians window into the improved convolution neural network to detect the pedestrian. In order to verify the accuracy of the proposed algorithm, this thesis test pedestrian detection experiments in the INRIA pedestrian database. Separately treat each window and each image as detection unit, this thesis statistics the detection rate and error detection rate of the algorithm. On the standard of the existence of an error in every imagedetectionwindow,thisthesisgets93% detectionrate.Comparedthe ABSTRACT III experimental results with train detector using ACF feature, under the same false positive rate, the algorithm in this thesis has 3% detection rate higher than the detector trained from ACF feature and detection time less four folds than single use convolutional neural networks. The experimental results certify the effectiveness of the algorithm in this thesis. Keywords: Object Detection, Pedestrian Detaction, Deep Learning, Convolutional Neural Network 目录 IV 目录 第一章 绪论.1 1.1 研究背景及意义.1 1.2 国内外研究现状.2 1.3 本文主要内容及结构安排.4 第二章 相关基础知识.6 2.1 行人目标检测算法原理.6 2.1.1 基于模板匹配的检测算法.6 2.1.2 基于分类的行人检测算法.7 2.2 典型的人体特征.9 2.2.1 HAAR-LIKE 特征.9 2.2.2 HOG 特征.10 2.2.3 SIFT 特征. 12 2.3 典型分类器.15 2.3.1 支持向量机算法.15 2.3.2 ADABOOST 算法.18 2.4 深度学习.20 2.4.1 深度学习概述.20 2.4.2 典型的深度学习结构.21 2.5 本章小结.27 第三章 基于融合特征的疑是行人窗口确认.28 3.1提取融合特征.28 3.2分类器训练.34 3.2.1训练标准尺度级联分类器.34 3.2.2快速构建邻近尺度分类器.38 目录 V 3.3滑动窗口检测.38 3.4本章小结.42 第四章 基于卷积神经网络的行人检测.43 4.1本文所使用的卷积神经网络拓扑结构.43 4.2训练卷积神经网络.44 4.3卷积神经网络的参数调节.49 4.4行人目标检测过程.51 4.5本章小结.52 第五章 实验结果及性能分析.53 5.1实验结果说明及对比.53 5.1.1行人检测评价标准.53 5.1.2实验过程.54 5.1.3实验结果与分析.54 5.1.4性能比较.58 5.2本章小结.59 第六章 总结与展望.60 6.1论文总结.60 6.2进一步研究工作.60 致 谢.61 参考文献.62 攻读硕士学位期间取得的成果.66 第一章 绪论 1 第一章 绪论 1.1 研究背景及意义 人类所接触的外界信息大约有 80%属于视觉信息。对人类来说,图像以及视 频是对客观事物形象与逼真的描述,是人类最主要的信息来源。目标检测与跟踪 是计算机视觉研究领域的热门课题,它融合了图像处理、模式识别、人工智能、 自动控制等许多领域的前沿技术,在智能化交通系统、智能监控系统、工业检测、 航天航空等诸多领域得到了广泛的应用1。 自然界的一切图像都是连续变化的模拟图像,日常生活中,图像里某些特定 的目标才是我们比较关心的,例如在军事禁区、工厂中的危险场所里面可疑的行 人。因此,目标检测也就成为了近年来理论和应用的研究热点,是图像处理和计 算机视觉学科的重要分支。它的目的就是快速、准确的检测出视频中的特定目标, 在连续变化的模拟图像中将目标提取出来。 其典型的应用主要包括: (1) 智能交通监管系统, 自动监测车辆和行人在交通中出现的违规及不文明现 象,大大减少交通管理的麻烦。 (2) 安全场合智能监控, 主要是来自那些对安全要求敏感的场合, 如银行、 商 店、停车场等。自动完成对复杂环境中人和车辆进行实时观测及对感兴趣目标的 行为进行分析和描述。 (3) 军事应用中,在雷达跟踪、制导、遥感定位等领域,目标检测都占有极其 重要的地位。 由于现实世界中的物体(尤其是行人)、场景存在多变性,使其很难用一个同意 的方法进行研究。目前目标检测所遇到的主要问题有:如何准确快速分割目标、 尽量减小复杂背景对目标检测的影响以及如何降低因目标尺度、大小和形状发生 变化引起的目标检测精确度下降的问题。 此外,在目标检测系统中,系统的鲁棒性与实时性这两方面的性能存在矛盾。 鲁棒性对目标检测系统,特别是行人检测系统十分重要,因为行人检测系统通常 需要自动、连续的工作,对噪声、光照、天气等因素的影响不能太敏感;实时性 是系统必须满足的要求,这也就说明系统采用的图像处理算法不能太复杂。鉴于 传统的目标检测算法在不同场景下进行准确检测比较困难,结合现有的研究现状 和技术水平,本文通过结合传统的行人特征与深度学习的方法,对目标检测技术 具有重要的理论和实际意义。 电子科技大学硕士学位论文 2 1.2 国内外研究现状 目标检测是图像处理和计算机视觉的一个重要分支,在理论和实践上都有重 大意义。近年来,随着物联网的高速发展与智能终端的广泛普及,目标检测技术 成了机器视觉领域的研究热点,被国内外学者广泛关注。 目标检测的研究主要包括了基于视频图像的目标检测和基于静态图片的目标 检测。本文主要讨论基于静态图片的目标检测算法,即在静态图片中检测并定位 所设定种类的目标。基于静态图片的目标检测的难点主要在于图片中的目标会因 光照、视角以及目标内部等变化而产生变化2。针对以上的难点,国内外学者进行 了很多尝试。目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标 特征的检测方法。 基于形状的目标检测方法一般是通过对目标外部轮廓进行提取来完成检测任 务。在行人目标检测中,形状是人体明显的一个特征,例如头肩部呈“”形, 躯干部分呈竖直型等。Gavril 等人3构建人体轮廓模板库,计算待检窗口与人体的 相似度,提出了基于轮廓的分层匹配算法;Farhadi 等人4在对改算法进行进一步 改进,其将行人的形状特征同边缘信息结合,该方法表示行人有更好的效果。在 Felzenszwalb P.F.等人5从大量正样本中学习到行人的轮廓模板,通过 Hausdorff 距 离测量待检窗口的边缘信息和模板判定该窗口是否为行人。上述三种方法优点是 实现简单,不需要对图像进行预处理,可以保留图像的全部信息。但是由于行人 姿态各异,基于模板匹配的行人检测算法需要构建大量的形状模板才能取得较好 的匹配效果,并且对行人目标存在遮挡的情况下分类效果不好。 基于特征及机器学习的方法是通过对目标进行特征提取、特征学习和检测等 过程实现目标检测。人体特征一般通过统计图像的局部亮度变化,用该变化近似 表达人体。常见的人体特征有 Haar 小波特征6、HOG 特征7、Edlgelet8特征和混 合特征9-11。 Haar 小波特征6由 Papageorgiou 和 Poggio 等人提出,该特征使用检测窗口中 指定位置的相邻矩形,计算每一个矩形的像素和并取其差值,然后用这些差值对 图像的子区域进行分类。 Haar 特征最初用于人脸目标检测; 然后 Viola 使用积分图 计算 Haar 特征12,积分图是一个与原始图像一样尺寸的二维矩形的查找表,每一 个元素是原始图像在对应位置左上角所有像素和,可以使用查表的方法快速找出 指定区域的 Haar 特征。Viola 将该方法用于行人检测,取得了较好的检测效果,为 行人检测技术的发展奠定了基础。研究人员提出了大量基于 Haar 小波特征的改进 算法进行行人检测13。 Dalal 等人7首先提出了使用梯度方向直方图进行行人检测,梯度方向直方图 第一章 绪论 3 将图像分成小的连通区域,采集连通区域中各像素点的梯度的边缘或边缘的方向 直方图,最后将这些直方图组合起来构成特征描述。HOG 描述器对图像几何和光 学的变化都能保持较好的不变性,而且在粗空间采样、精细方向抽样和较强的光 学归一化等条件下,行人保持站立的姿态做一些轻微的肢体动作,这些肢体动作 可以忽略而不影响检测效果。综上所述,HOG 特别适合于做图像的行人检测,其 在 MIT 行人数据库14获得了接近 100%的检测成功率; 在 INRIA 行人数据库11上, 也获得了约 90%的检测成功率。随后 HOG 成为了使用最广泛的行人特征描述子。 Zhu 等人15使用积分直方图计算 HOG 特征,加速了 HOG 特征的提取速度,然后 训练了多个不同尺度的分类器,构成了一个级联分类器用于检测行人;Qu 等人16 在检测视频中的行人时,将行人与背景分离出来后提取行人的 HOG 特征,减少了 背景对目标 HOG 的影响,又加快了 HOG 特征的提取速度。 B.Wu17等人首先提出了 Edgelet 特征,使用该特征检测在复杂场景中的单幅 图像行人,获得了较好的检测效果。文献18将 Edgelet 特征用于对已知类别的物体 进行检测和分割,取得了较好的效果。Edgelet 特征对光照变化的鲁棒性强;只存 储位置和方向信息用来计算,匹配计算简单快速;对行人的遮挡、视角和姿态的 变化不敏感。但是 Edgelet 特征是依靠人工进行标定,工作量比较大,且标定完全 符合人体曲线的 Edgelet 特征十分困难。 Tuzel9等人使用各种不同特征的协方差矩阵描述行人的局部区域,将协方差 矩阵视为联通的黎曼流,在黎曼几何空间中对行人分类。Watanabe10等人提出了 共生梯度方向直方图特征(Co-occurrence Histograms of Oriented Gradients),该特征 类似灰度共生矩阵,能更好的描述梯度空间的分布,但是向量维数太高。Dollar 等人11使用积分图的技术对图像各特征通道(线性或非线性变换后的图像)进行快 速计算,提出了积分通道特征。该特征不仅可以将多种特征有机的结合起来,且 解决了融合计算较慢的缺点。 Geoffrey Hinton 等人19在Science上首次提出了深度学习的概念,其主要 思想是通过深度神经网络模拟人脑学习认识目标的过程,依靠该神经网络从低到 高逐层传递目标的特征,层次越高特征越抽象,输出结果为该目标最准确的特征 表达 20。 深度学习提出后, 在诸多领域均取得了巨大成功, 受到广泛关注。 在 2012 年,Hinton 等人21采用深度学习赢得了 ImageNet22图像分类比赛的冠军,他们在 原始的 RGB 像素空间训练了深度卷积神经网络模型,该模型包含 6000 万个像素, 65 万个神经元构成的 5 层卷积网络,准确率超过使用传统手工设计特征的亚军 10 十个百分点。Ji 等人23提出多层的 3D 卷积神经网络来学习视频块的时空特征,并 通过卷积操作来实现对整个视频的特征学习,从而替代之前的时空兴趣点检测和 电子科技大学硕士学位论文 4 特征描述符提取。 Taylor 等人24提出使用卷积限制波兹曼来学习视频中相邻两帧的 时空特征,在 KTH 和 Hollywoods2 视频数据库中的对比试验结果表明,利用深度 学习得到的特征与手工设计的 HOG 等特征具有类似效果。而 Y. Sun25,26等人通过 卷积神经网络学习人的脸部特征,将该特征用来训练贝叶斯分类器进行人脸识别, 获得了 99.47%的识别率,而非深度学习算法中,最好的识别率只能达到 96.33%。 深度学习在学术界受到了广泛关注,同时在工业界也产生了巨大影响。百度 和谷歌在 Hinton等人赢得 ImageNet比赛之后6 个月都更新了自己的图像内容搜索 引擎。他们使用 Hinton 在比赛中的深度学习模型,应用在各自的数据上,图像搜 索的准确率都得到了大幅度提高。鉴于深度学习在学术界和工业界的巨大影响力, 2013 年被 MIT Technology Review 列为世界十大技术突破之首。 1.3 本文主要内容及结构安排 本文首先介绍了目标检测算法的发展现状,讲解了目标检测的基本步骤以及 一些常用的行人目标特征,接着介绍了深度学习的原理和几个深度学习模型,然 后使用卷积神经网络加上积分通道特征训练一个能精确判断静态图像中行人的行 人检测器。本文结合传统的行人特征与卷积神经网络学习的行人特征进行行人检 测,检测的具体步骤如图 1-1 所示。 本文的章节安排如下: 第一章简单讲解目标检测的研究背景意义,以及目标检测和深度学习在当前 的研究状况。 第二章简述了行人目标检测的基础知识,阐述了基于模板匹配和基于分类这 两种行人目标检测算法的基本流程;详细讲解了三种常用的行人特征:Haar-like 特征、HOG 特征和 SIFT 特征,并比较了这三种特征的优缺点;介绍了支持向量 机和 AdaBoost 这两种分类算法,并详细讲解了他们的训练过程。简述了深度学习 的背景原理,并详细讲解了稀疏自编码器、深度信念网和卷积神经网络这三种常 用的深度学习模型。 第三章详细给出了疑是行人窗口确认的过程,首先对样本图像做各种线性和 非线性变换求出其图像通道,使用积分图快速求出其通道的矩形特征,随机选取 一组特征进行分类器训练;利用邻近尺度相似性的原理,使用公式计算出于标准 尺度分类器邻近的分类器参数;使用不同尺度的分类器对待捡图像进行滑动窗口 处理,找出疑是存在行人的窗口并输出至卷积神经网络。 第四章给出了本文所使用卷积神经网络的拓扑结构图,根据实际情况对原有 的神经网络进行了改进,使其适合于做行人检测;详细说明了该卷积神经网络的 第一章 绪论 5 训练过程;使用不同参数的网络进行行人检测实验,证明本文使用的网络效果最 佳。 第五章给出了使用本文算法的实验结果,并与使用 ACF 训练的检测器进行对 比试验,证明了本文算法的有效性。 第六章对本文研究工作进行总结并提出了一些需要继续深入研究的问题。 待检图片 提取融合特征 多尺度分类器滑动窗口检测 确认疑是行人窗口 疑 是 存 在 行 人 窗 口 确 认 基 于 卷 积 神 经 网 络 的 行 人 检 测 卷积神经网络提取特征 单层神经网络分类 根据分类结果确定窗口是否存在 行人 检测结果 图 1-1 本文检测行人步骤 电子科技大学硕士学位论文 6 第二章 相关基础知识 要设计出具有良好环境适应能力的检测方法,首先需要充分分析了解现有的 行人检测技术,了解现有技术在特征选择和分类器设计的优势与不足,才能做出 针对性的改进。本章将重点分析介绍行人检测技术的相关知识,典型的行人特征 和典型的分类器两个个部分。 2.1 行人目标检测算法原理 行人检测算法属于计算机视觉领域中目标检测的研究领域,实现该算法需要 用到图像处理、机器学习和模式识别等专业领域的知识。目前最流行的行人检测 方法是通过特征加机器学习的方式进行,有大量的研究对行人特征和机器学习算 法进行了优化和创新。优秀的行人检测算法一般以获得更快的检测速度以及更高 的准确率为目标。然后行人检测算法存在许多挑战27: 1) 行人外形特征不固定,图像中的行人可能随着衣着的改变而改变外形,并 且根据行人距离的不同,行人的大小也会随时变化; 2) 行人所处的环境变化多样,不同的光照、天气以及路况等背景因素的变化 都将严重影响行人检测算法的稳定性。 3) 行人检测算法一般都用于视频监控中,这就要求能在实际工程中使用的算 法具有较高的实时性。 针对上述研究难点, 当前的主流行人检测算法分为基于模板匹配的行人检 测算法和基于分类的检测算法。基于模板匹配的行人检测算法通过建立行人模板 库,提取待捡图片模板与模板库中行人匹配,根据匹配结果判断是否为行人;基 于分类的行人检测算法需要准备大量包含行人的正样本和不包含行人的负样本, 提取样本图像中行人特征,使用该特征训练分类器,根据训练好的分类器判断待 捡图像是否存在行人。 2.1.1 基于模板匹配的检测算法 基于模板的行人检测算法主要思想是通过预先收集不同形态的行人图像,针 对这些图像建立一个行人模板库。当需要进行检测时,提取输入图像的模板特征, 在行人模板库中查找是否具有匹配的行人。 根据所使用的模板类型可以分为基于整体模板的行人检测算法和基于局部模 板的的行人检测算法。由于行人的外部轮廓是行人与其他目标最容易区分的特征, 第二章 相关基础知识 7 因此行人轮廓是最常用的基于整体的模板,如图 2-1(a)所示。图 2-1(b)为行人的局 部模板,该模板分为人体的头肩部、躯干和四肢三个类型的模板,提取每个模板 中的特征集训练分类器,找出最佳匹配的模板。 基于行人整体模板行人检测算法具有较快的检测速度,但是在行人存在遮挡 情况下检测率不佳;与此相反,基于局部模板的匹配算法由于复杂的计算过程导 致检测速率较慢,但是其在行人存在遮挡的情况下仍然可以获得较好的检测效果。 基于模板匹配的行人检测算法能够较好的处理行人拥挤,相互遮挡的情况。其缺 点是精度和速度受模板库的影响较大,由于需要将特征模板与模板库中每一个模 板进行一一对比,模板太小影响精度,太大又影响检测速度。并且每一个模板只 能对应一种姿态的行人,扩展性低,无法适应各种各样的行人姿态。而且基于模 板的行人检测算法受限于模板库,无法识别出模板库中不存在的行人姿态。 图 2-1 几种常见的行人模板 2.1.2 基于分类的行人检测算法 基于机器学习的行人检测算法是当前的主流行人检测算法,其核心思想是提 取描述行人的主要特征,使用这些特征训练一个分类器用作二分类判断,即通过 该分类器判断输入的特征是否为行人相关特征28。这类算法的基本步骤如图 2-2 所示。由图 2-2 可知,该类算法的核心部分是特征提取和分类器设计。 图 2-2 基于机器学习的行人检测算法框架图 用于描述行人的图像特征主要分为三类: 1) 基于局部像素值的特征 行人检测领域比较常用的特征为基于局部像素值的特征。 其中由 Papageorgiou 电子科技大学硕士学位论文 8 等人提出的非自适应 Haar 小波特征是行人检测领域经常使用的基于像素基于局部 像素值的特征,通过计算图像相邻区域不同位置、不同方向和不同大小的矩形区域 内像素总和值的差值得到29。完备的 Haar 特征集合特征数量特别庞大,选定特定 的 Haar 特征有两种方法: 手动指定有针对性的 Haar 特征; 使用基于 Adaboost 算法的特征选取方法,自动从 Haar 特征集合中选取出部分最优的 Haar 特征。 2) 基于局部边缘的特征 基于物体局部边缘特征中使用较多的是梯度方向直方图(Histogram of Gradients,梯度方向直方图)特征。 HOG 特征适用于构建稠密特征空间与构建稀疏特 征空间描述行人。通过对图像进行预处理找到感兴趣的区域,在该区域计算 HOG 特征,产生的特征空间称为稀疏特征空间;在图像中以一个像素为移动距离,通 过矩形框遍历整个图像, 计算矩形框中的 HOG 特征产生的特征空间为稠密型特征 空间。另外局部二值模式是用来描述图像局部纹理特征的算子,该特征是通过记 录像素点与周围像素点的对比信息产生的,与 HOG 结合使用,可以提高检测的准 确率同时能够有效的检测出部分遮挡的行人。 3) 基于运动信息的特征。 行人的步态特征这类基于空间运动信息的特征也是一类广泛采用的行人描述 特征。 例如文献30提出的对计算图像间光流变换的 HOG 特征来描述行人的运动信 息。该类型的特征的优点是可以在使用较小的训练样本的情况下仍然具有较高的 检测准确率;缺点是往往需要较大的计算量,运算比较耗费时间。 获取到所需要的特征后,选择合适的分类器算法进行样本的分类。行人检测 算法的分类器主要目标是在特征空间中寻找一个能将行人特征和非行人特征划分 的最优分割平面。 在模式识别、分类回归领域使用最广泛的分类器是支持向量机(Support Vector Machine, SVM)。其思想是通过最大化分割平面与超平面之间的距离来确定最优特 征空间分割平面,产生最佳的分类判断。常见的 SVM 分类器分为线性分类器和非 线性分类器。线性分类器的优点是结构简单,计算速度快,可以与多个比较复杂 的非线性特征集合联合使用以提高分类器的准确性;非线性分类器将特征空间映 射到更高维来实现分类判断,但在提高分类性能的同时需要进行复杂的数学计算。 使用 Adaboost 算法不仅可以实现最优特征选择,并且可以用来构建性能较强 的线性分类器。其思想是通过多个最优分类特征构建弱分类器,将这些弱分类器 赋予不同的权重构成分类性能较强的强分类器。Viola Paul 等人12提出的级联分类 器提高Adaboost分类器处理非线性分类问题的能力以提高Adaboost分类器整体分 类性能。由于基于特征+分类器的行人目标检测算法一般需要通过滑动窗口滑动整 第二章 相关基础知识 9 幅图像以检测行人,滑动窗口在滑动时将产生大量的非行人窗口图像,使用 Adaboost 分类器构成的级联分类器能够尽早排除非相认窗口以提高检测的速率及 准确性。 2.2 典型的人体特征 比较常见的基于机器学习的行人检测特征有:Haar-like 特征、HOG(Histogram of Oriented Gradient)特征、SIFT(Scale Invariant Feature Transform)特征以及融合多 种特征的混合特征。 2.2.1 Haar-like 特征 Haar-like 特征又称为矩形特征,由于其算法思想与 Haar 小波变化有相似之处 而得名。该特征由 Viola 等学者首次提出,由于在人脸识别领域效果较好,被其他 学者改进和扩充到了行人识别领域。目前常用的 Haar 特征主要有边缘特征、线性 特征、点特征和对角线特征。如图 2-3 至 2-6 所示,特征值为白色矩形像素和减去 黑色矩形像素和,反映了图像的灰度变化情况。例如脸部的一些特征就可以用这 些灰度差来表示,眼睛的颜色比脸颊的深;鼻梁两侧的颜色比鼻梁深;嘴巴比周 围颜色深等等。 图 2-3 边缘特征 图 2-4 线性特征 图 2-5 中心特征 电子科技大学硕士学位论文 10 图 2-6 对角特征 按照 Haar 特征的定义计算特征值需要计算每个矩阵中的像素值, Papageorigiou 等人提出的积分图像(Integral Image)是一种快速计算 Haar 特征的方 法。积分图像定义如下: , ( , )( ,) xx yy ii x yi x y (2-1) 其中,( , )ii x y为积分图像,( ,)i x y为原图像,, x y和,x y分别表示像素点在 积分图和原图中的位置。预先计算并存储图像中每一个像素的积分图像,大幅度 缩短了 Haar 特征的计算时间。 图 2-7 积分图像计算示意图 一个区域的像素值,可以利用该区域端点的积分图计算,如图 2-7 所示。其中 (1)ii为区域 A 的像素值,(2)ii为 A+B 的像素值,(3)ii为 A+C 的像素值,(4)ii为 A+B+C+D 的像素值。当需要计算原始图像中矩形区域内的像素值时,可通过积分 图像中对应矩形区域四个顶点的像素值的简单操作得到,如计算区域 D 内的像素 值总和为:(4)(2)(3)(1)iiiiiiii 2.2.2 HOG 特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保税区企业入驻协议书7篇
- 合作办厂协议书格式经典版5篇
- 合作实验协议合同范本
- 委托代理进口合同格式5篇
- 涂料仓储配送合同范本
- 武侯区企业保安合同范本
- 和房东租房合同范本
- 唐山市房屋租赁标准合同3篇
- 住房设计装修合同范本
- 报废汽车回收合同范本
- 硒鼓基础知识培训内容课件
- 心脏猝死教学课件
- 子宫内膜病理课件
- T-CITSA 57-2025 高速公路基础设施主数据标准
- 质量风险预警系统-洞察及研究
- 2025-2026学年北师大版(2024)小学数学一年级上册教学计划及进度表
- 【星图研究院】2025中国RFID无源物联网产业白皮书
- (2025)全国辅警考试题库及答案
- 棋牌室员工管理制度
- 新课标(水平三)体育与健康《篮球》大单元教学计划及配套教案(18课时)
- 建筑工人临时用工协议书
评论
0/150
提交评论