HOG 研究报告_第1页
HOG 研究报告_第2页
HOG 研究报告_第3页
HOG 研究报告_第4页
HOG 研究报告_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HOG特征提取方法研究摘要:本文详细介绍了HOG特征提取方法中用到的理论知识和实验,分别阐述了梯度的计算、三线性插值和区块表量化,然后对HOG的结果进行可视化,最后对HOG的优缺点进行总结。关键字:HOG,梯度,三线性插值,标准化1. 引言 方向梯度直方图(Histogram of Oriented Gradient,HOG)是一种用于目标检测的特征描述子,广泛应用在计算机视觉和图像处理领域。在2005年的CVPR上被Navneet Dalal和Bill Trigg提出,并用在静态图像的行人检测中,取得了显著的效果。作者是法国国家计算机技术和控制研究所French National Insti

2、tute for Research in Computer Science and Control (INRIA)的研究员,后来,他们也将其应用在电影和视频中的行人检测,以及静态图像中的车辆和常见动物的检测。2. 国内外研究现状 HOG自2005年提出以来,引用率为11600多次,HOG的改进和应用广泛。3. 方法分析 HOG的基本思想是利用局部图像的密集梯度特征,体现图像中物体的边缘特征,在一幅图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。具体的实现方法是:首先将图像分成小的连通区域即细胞单元(cell)。然后采集细胞单元中各像素点的梯度或边缘的方向直方图。最后,把这

3、些直方图组合起来就构成了特征描述子。为了提高性能,把这些局部直方图在图像的更大范围内即区间(block)进行对比度归一化(contrast-normalize)。所采用的方法是,首先计算各直方图在这个区间中的密度,然后根据这个密度对区间中的各个细胞单元作归一化。通过这个归一化后,能对光照变化和阴影获得更好的效果。与其他特征描述子比较,HOG描述子有很多优点,首先,由于HOG是在图像的局部细胞单元上进行操作,所以它对图像几何的和光学的形变都能保持良好的不变性,这两种形变只会出现在更大的空间领域上。其次,原文作者通过实验发现,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人

4、大体保持直立姿势,就容许行人有一些细微的肢体动作,这些细微动作可以被忽略而不影响检测效果。综上所述,HOG方法是特别适合做图像中的行人检测的。下面,我们按照HOG的计算过程,梯度计算,三维线性插值和区域对比度标准化,对每个部分进行详细分析。3.1 梯度计算 梯度是一个数学名词,在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅可比矩阵的一个特殊情况。2在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率

5、。梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。梯度算子是计算机视觉领域的一种重要处理方法。主要用于获得数字图像的一阶梯度,常见的应用和物理意义是边缘检测。在技术上,它是一个离散的一阶差分算子,用来计算图像亮度函数的一阶梯度之近似值。在图像的任何一点使用此算子,将会产生该点对应的梯度矢量或是其法矢量。梯度算子即一个特殊的掩膜,或者说是滤波器。计算过程如图1-1所示。梯度的幅度和角度的计算公式为,公式(1)和公式(2).Ix、Iy代表水平方向和垂直方向的梯度值,M(x,y)代表梯度的幅度值,(x,y)代表

6、梯度的方向。如图1所示,在梯度算子为-1,0,1时,点A5的水平梯度为A6-A4,垂直方向的梯度幅值为A8-A2。图1 3×3图像示意图在 Dalal的论文中,对各种平滑函数做了评估。 计算梯度前的平滑会严重影响检测效果。对于高斯平滑函数,从 方差为0到2会使误检率约增加1 倍,从 11%到 20%。梯度掩膜测试包括了行向量面罩、3 ×3的 Sobel掩膜和 2 ×2的对角掩膜。其中简单的1 0 -1行向量面罩的到的检测效果最佳且该面罩计算梯度最简单。采用2 ×2的对角掩膜、3×3的 Sobel掩膜和立方修正面罩做梯度计算会严重削弱检测准确率。

7、非中心的面罩1 -1也表现不好,因为非中心的面罩会使x 方向和 y 方向的梯度偏向不同的中心。各梯度算子的比较如表1-1.使用其他形式的平滑滤波器和复杂的梯度算子都会削弱检测效果。造成这种现象的主要原因可能是图像中的规整信息对目标检测非常重要: 从根本上说 HOG 特征是基于边缘的,而平滑处理会削弱边缘信息。综上,最有 效的边缘信息可以通过简单快速地计算得到。 表1-1 各梯度算子比较梯度算子中心向量非中心向量立方修正向量对角Sobel操作符【1, 0,-1】【1,-1】【1, 8, 0,-8,-1】3.2 三线性插值3.2.1 HOG的区域划分HOG 特征是在单元(cel1)和块(block

8、)的网格内进行密集计算而得到,cell 由8×8个像素点构成,block由4个相邻的cell 组成,如图2所示。根据公式(5),每个单元的特征可由一个9维的向量表示,每个块由4个单元组成,从而每个块的特征可由一个36维向量表示,即大小为64×128的训练样本具有7×15=105个block。对于每个cell,由(1)-(4)式计算其中所有像素的梯度向量并按照(5)式进行投影,形成每个cell各自的梯度方向直方图。然后,将每个block中4个cell的梯度直方图数据串联起来形成一个36维向量。最后将所有block中的数据依次串联起来,便形成了对每个训练图像的3780

9、(36×105)维编码。因为HOG是一个局部特征,因此如果对一大幅图片直接提取特征,是得不到好的效果的。因为从信息论角度讲,例如一幅640*480的图像,大概有30万个像素点,也就是说原始数据有30万维特征,如果直接做HOG的话,就算按照360度,分成360个bin,也没有表示这么大一幅图像的能力。从特征工程的角度看,一般来说,只有图像区域比较小的情况,基于统计原理的直方图对于该区域才有表达能力,如果图像区域比较大,那么两个完全不同的图像的HOG特征,也可能很相似。但是如果区域较小,这种可能性就很小。最后,把图像分割成很多区块,然后对每个区块计算HOG特征,这也包含了几何(位置)特性

10、。例如,正面的人脸,左上部分的图像区块提取的HOG特征一般是和眼睛的HOG特征符合的。 HOG的图像分割策略,一般来说有overlap和non-overlap两种,如下图所示。overlap指的是分割出的区块(patch)互相交叠,有重合的区域。non-overlap指的是区块不交叠,没有重合的区域。这两种策略各有各的好处。overlap,这种分割方式可以防止对一些物体的切割,还是以眼睛为例,如果分割的时候正好把眼睛从中间切割并且分到了两个patch中,提取完HOG特征之后,这会影响接下来的分类效果,但是如果两个patch之间overlap,那么至少在一个patch会有完整的眼睛。overla

11、p的缺点是计算量大,因为重叠区域的像素需要重复计算。non-overlap,缺点就是有时会将一个连续的物体切割开,得到不好的HOG特征,优点是计算量小,尤其是与Pyramid(金字塔)结合时,这个优点更为明显。如图2所示,左图黑色的线表示无重叠分割,右图表示有重叠分割。图2 左图为无重叠分割,右图为重叠分割 3.2.2 三线性插值三线性插值是三维离散采样数据的三维空间上进行线性插值的方法。与双线性插值相比,它增加了z轴方向上的插值计算。三线性插值的结果与插值计算的顺序没有关系,也就是说,按照x,y,z的维度顺序进行插值,与沿着z,y,x 顺序插值将会得到同样的结果。通常将某个变量范围固定划分为

12、几个区域进行某种计算时,由于边界变量与相邻区域也有相关性,如果只对当前区域进行计算而完全忽略与相邻区域的关系,就会产生区域混叠效应。这种混叠效应会在特征向量中产生突变。在这种情况下就需要采用插值算法对计算结果进行修正。在HOG特征提取方法中,位于不同cell交界处的像素如果只对所在的cell进行投影同样会对其他区域产生混叠效应,此时需要采用三维线性插值的方法对梯度向量直方图进行修正。插值运算在图像放大中应用较多,这里借用插值运算的思想对累积直方图进行修正,即将某个像素点的梯度幅值以不同的权重累加到相应的bin上。确切地说,这是一种权值分配,但多数文献中仍然延续“插值”这一说法。由于提取HOG特

13、征时需要在两个位置坐标(x, y)和一个方向坐标()共三个维度上进行插值运算,因此称为三线性插值。首先以二维情况为例说明线性插值的思想。在两个维度上进行线性插值称为“双线性插值”。双线性插值在图像放大或图像旋转中应用广泛,它是利用周围4个邻点的灰度值在两个方向上作线性内插以得到待采样点的灰度值,即根据待采样点与相邻点的距离确定相应的权值计算出待采样点的灰度值。如图3所示,点P为待采样点,Q11、Q12、Q21、Q22为点P的四个相邻点,用线性插值法对P点进行插值运算的数学表达式为:图3 二维线性插值模型根据上述插值思想,可在各像素的梯度方向上进行加权运算,如图4所示,将区间0°,18

14、0°以20°为一个区间划分,每个小区间以中心角度作为直方图的中心数值,假设要对梯度方向为15°的像素点进行处理,显然15与以10和30为中心的直方图最近,应该将该点的梯度幅值加权累加到这两个直方图上,权重分别为(30-15)/20=0.75和(15-10)/20=0.25。图4 对待处理像素点的方向进行线性加权同理运用线性插值方法在各个像素的位置上进行加权运算,如图5所示4,左图中的方框处为待处理像素点,它位于block中的C0单元中,利用该点与四cell中的中心像素点(图中4个圆点)的距离计算权值,将待处理像素点的梯度幅值分别加权累加到C0、C1、C2、C3中相

15、应的直方图上。图5 对待处理像素点的位置进行线性加权综合考虑,在两个位置坐标(x,y)和一个方向坐标()上进行三线性插值,关键要解决的问题是应该在哪些bin上进行加权累加,累加时权值又是多少。将一个像素点处的梯度幅值加权分配到4个cell中与该点梯度方向相邻的2个bin上。按照公式(7)修正直方图向量,其中x、y轴表征像素点的空间位置,z轴表征该点的梯度方向(即)。对于待处理像素点(x,y),设其梯度幅值为 ,梯度方向为z,z1和z2分别是与之最邻近的两个bin的中点坐标。四个像素点(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2) 为待处理像素点(x,y)所在区域中四个cell的

16、中心点。梯度直方图h沿x、y、z三个维度的直方图带宽分别为b=bx, by, bz,bx=by=8,bz=180°/9。如图6所示为三线性插值计算梯度方向直方图向量的示意图,左图中的方框处为待处理像素点,计算block的每个cell中与该点梯度方向相邻的2个bin,共计8个直方图柱上的权值,将该点的梯度幅值进行加权累加,即形成block中的梯度方向直方图5。由于线性插值法考虑了待采样点周围直接邻点对待采样点的影响,因此能够克服区域混叠的问题。图7展示了对一幅行人图像提取的HOG特征。图6 三线性插值计算梯度方向直方图向量3.2.3 区域的对比度标准化在统计学中,归一化的具体作用是归纳

17、统一样本的统计分布性。归一化的定义:归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。归一化有同一、统一和合一的意思。在图像处理中,标准化是改变像素亮度值范围的一个处理过程。 由于局部光照的变化以及前景-背景对比度的变化,使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化,作者采取的办法是:把各个细胞单元组合成大的、空间上连通的区间。这样以来,HOG描述器就变成了由各区间所有细胞

18、单元的直方图成分所组成的一个向量。这些区间是互有重叠的,这就意味着:每一个细胞单元的输出都多次作用于最终的描述器。区间有两个主要的几何形状矩形区间(R-HOG)和环形区间(C-HOG)。R-HOG区间大体上是一些方形的格子,它可以有三个参数来表征:每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。作者通过实验表明,行人检测的最佳参数设置是:2×2细胞/区间、8×8像素/细胞、9个直方图通道。作者还发现,在对直方图做处理之前,给每个区间加一个高斯空域窗口是非常必要的,因为这样可以降低边缘的周围像素点的权重。Dala和Triggs 探索了四种方法对

19、区块进行标准化,v是没有标准化的特征向量,|v|k是它的K范式,其中k=1,2。表示一个常数。四个框架为:(a) L2-范式,(b) L2-Hys,它可以通过先进行L2-范式,对结果进行截短(限制特征向量v中的最大值为0.2),然后再重新归一化得到,(c)L1-范式,(d)L1-开平方根,作者发现:采用L2-Hys, L2-范式, 和 L1-开平方根方式所取得的效果是一样的,L1-范式稍微表现出一点点不可靠性。但是对于没有被归一化的数据来说,这四种方法都表现出来显著的改进。4. 实验结果分析了Matlab代码,输出的特征是一个向量。,图7位原图,图8为HOG的可视化结果图。 图7 人物图 图8 HOG特征图5. 结论本文对HOG所涉及的理论做了详细的分析,并对实验结果进行分析。HOG的优点:HOG表示的是梯度的结构特征,因此可以描述局部的形状信息;位置和方向的量化可以抑制平移和旋转带来的影响。采取局部区域归一化直方图,可以部分抵消光照变化带来的影响。由于一定程度上忽略了光照颜色对图像造成的影响,使得图像所要表征数据的维度降低了。而且也由于分块分单元的处理方法,也使得图像局部像素点之间的关系可以很好的得到表征。缺点是,描述子生成过程冗长,导致速度慢,实时性差;很难处理遮挡问题。由于梯度的性质,该描述子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论