版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2.3 线性组合预测模型下的肤色BAYES检测方法经 研究发现,肤色BAYES检测方法的关键是计算出当前待分割帧的肤色区域与背景区域的直方图。因此,如何由相关联的过去帧的直方图预测出当前帧的直方图就成了关键。在阅读了相关文献后,经提出了基于“线性组合预测模型下的肤色BAYES检测方法”,下面先整体介绍该肤色分割方法基本原理,然后重点汇报直方图的初始化、肤色BAYES检测方法的原理、直方图帧间变化的三维仿射变换模型、线性组合预测模型、试验数据以及算法分析等主要内容。2.3.1基本思路在连续视频图像序列中,人体目标的运动情况是随机的,既有时运动有时静止,基于运动特征(如高斯混合模型方法、背景差分法
2、等)分割人体目标的方法,当人体运动很缓慢或静止的时候,就变得无效。皮肤颜色是人体表面最为显著的特征之一,不依赖于细节特征,具有较高的稳定性且与大多数背景物体的颜色相区别17。因此采用基于人体肤色特征的人体目标分割方法,即使在分割、预测和跟踪过程中光照变化较大时,这种方法也能对皮肤进行很可靠的分割。算法基本思路描述如下,借助采集到的图片数据库在HSV彩色空间建立初始的前景皮肤和背景的直方图,求出各类概率值,在光照基本不发生变化时,对每输入视频根据Bayes分类器对每帧中的每个象素点进行前景和背景的判决,可以分割出其中的人体皮肤区域。当光照发生剧烈变化时,前景皮肤和背景的直方图分布会随之变化,因此
3、分割之前,应对当前帧的直方图分布进行重新估计。为保证光照变化条件下的分割精度,假设每帧肤色区域像素在HSV彩色空间的分布构成相对集中的“点云”三维几何体,光照变化时每帧“点云”三维几何体在HSV空间位置的变化都可以通过平移、缩放和旋转来参数化,因而可用3-D仿射变换对皮肤分布区域的帧间变化进行建模(假设皮肤区域的变化是整体变化,不考虑局部的变形)。在一定长度的观察窗内,采用线性组合预测模型对该仿射变换所需的8个参量进行预测,从而可预测当前待分割帧的直方图分布。再利用Bayes分类器对当前帧进行皮肤区域的分割,以保证光照变化时人体目标分割算法的鲁棒性。2.3.2 HSV彩色空间中直方图的初始化根
4、据建立的图像库数据库来计算皮肤和背景分布的直方图。数据库包含4668个带有相应模板的皮肤图像和8960个非皮肤图像,对这些图像统计皮肤区域的分布,可得到皮肤和背景分布初始化直方图18。采集的视频一般在RGB颜色空间,分辨率为256×256×256颜色。为了减少运算量,在保证精度的条件下,用32×32×32颜色分辨率计算直方图的分布,得到的结果显示该分辨率在分割中不仅能保障分辨率的要求,而且还会降低运算量。另外,低维直方图的优势主要是需要较少的训练象素,即估计256×256×256的直方图比32×32×32的直方图多
5、需要512倍的训练数据。统计每个直方图(柱状图)一个bin条中某一颜色(rgb)像素的数目以及前景皮肤和背景的像素的总数,可以计算得到各类概率密度记为:p(fg)、p(bg)、p(rgb|fg)和p(rgb|bg)。其中fg代表前景,bg代表背景,为像素颜色,。考查皮肤颜色分布的不同表现,可推断出皮肤颜色分布的一些结构特点,发现皮肤颜色在彩色空间分布很集中地占据一个紧凑(compact)的区域19。近年来在皮肤物理外观上的研究表明20,21,皮肤反射区(locus)直接紧密地与光照(区域locus)相关,而且试验证明:当光照强度没有剧烈变化时,皮肤颜色分布变化是平滑的(smoothly)。有数
6、据资料22表明单个人的皮肤颜色分布随光照的改变,可通过彩色空间中皮肤颜色分布全局的仿射变换被精确地模型化。 图3-1肤色在YCbCr空间的分布 图3-2 Cr/Cb中的分布Fig.3-1 Skin color distribution in YCbCr space Fig.3-2 Skin color distribution in Cr/Cb 2.3.3 Bayes分类器针对当前帧任意一点像素的颜色,初始化直方图得到的是条件概率p(rgb|fg)和p(rgb|bg),而在皮肤分割时更关心的是p(fg|rgb)和p(bg|rgb),利用贝叶斯公式得: (2-3-1) (2-3-2)令p(fg|
7、rgb)和p(bg|rgb)的比率称为分类界限K,即误分类的极限值, 取K =0.0673 (2-3-3)计算得: (2-3-4)p(fg)是图像中任意像素的皮肤概率。很明显,这个概率随图像不同而改变,但利用一个足够大的数据集就可得到一个最佳的概率。用整个数据库作为数据集p(fg)表示为: (2-3-5)是前景直方图中像素的总数,是背景直方图中像素的总数。在训练数据库中,=80306243,=861142189,因此,p(fg)=0.09。根据p(fg),根据经验得出极限K。极限的选择应使正确分类达到至少85%并且错误警报少于25%,根据大量实验极限取K =0.067323。(提问:相比第二讲
8、中的Bayes Decision为什么不采用p(fg|rgb)>p(bg|rgb),即K=1来实现肤色分割,而是取K =0.0673。因为背景中也含有肤色的rgb成分)关于K的确定见下图,它与p(fg)=0.09有关。上面所介绍的象素分类的结果是一个二进制的图像模板,当(2-3-4)式成立时该像素位置判为1,与前景皮肤像素相对应;否则,为0与背景像素相对应。为了将噪声影响最小化,在二进制模板进入学习阶段前对其采用形态学滤波器进行滤波理。2.3.4 直方图帧间变化的三维仿射变换模型一、 三维仿射变换表征直方图帧间变化可行性在2.3.2节发现从数据库中手工得到的皮肤颜色分布是很紧凑的,近年来
9、在皮肤物理外观上的研究表明,当光照强度没有剧烈变化时,皮肤颜色分布变化是平滑的(smoothly)。文献24也发现,每一帧皮肤颜色的分布在彩色空间中,都仅占某一小部分区域,因此,在背景光照变化的环境下,可跟踪那一小部分区域的轨迹变化,来表征相应的皮肤颜色变化会更方便。 图3-1肤色在YCbCr空间的分布 图3-2 Cr/Cb中的分布Fig.3-1 Skin color distribution in YCbCr space Fig.3-2 Skin color distribution in Cr/Cb为了模型化和预测这种变化,需要假设在彩色空间皮肤颜色的分布所经历的运动类型。这里假设肤色分布
10、作为整体变化,即不能有任何局部的变形,这类似于假设全局的光照在图像的所有皮肤片上有均匀的表现。文献24试验表明,皮肤颜色的分布区域上HSV参数随每帧时间间隔非线性平滑改变。为了进一步简化预测模型,限定该区域仅发生最重要的三种仿射转变:平移、旋转和缩放。每帧皮肤区域各像素点的色彩坐标(h,s,v)在HSV空间组成一个紧凑的三维几何体(离散的),相邻两帧皮肤区域的这种三维几何体的演变(由于光照变化和目标运动引起)可以借助仿射变换的旋转、平移、缩放过程来描述,该仿射变换需8个参数来刻画。表平移;表旋转;表几何体旋转的角度。二、 三维仿射变换8参数的几何含义设m是观察窗口的长度,即从第帧到帧观察到连续
11、的m帧图像,令第帧(这里)的皮肤区域所有象素点颜色(h,s,v)组成的集合为,在具体的程序中表示为(该帧皮肤区域象素点个数N)× 3 的二维矩阵Matrix_fg,每一行为前景皮肤区域像素的h、s、v分量。其中,分别为该矩阵H、S、V三个列向量的均值,表示几何区域的帧间平移距离。分别为该矩阵H、S、V三个列向量的方差,代表几何区域的帧间缩放程度。角度的含义较复杂,下面专门介绍它们的几何意义。总之,由于外面光照的随机变化,导致观察窗内m个8维向量序列可以视为随机过程的一次实现。一般情况下,对一维随机信号常采用自相关函数进行统计描述,而对多维随机信号的统计描述常采用协方差矩阵或相关函数矩
12、阵(不同量纲时)。某帧前景皮肤区域像素集合颜色(h,s,v)之间的相关性可用三维随机信号的3×3协方差矩阵Matrix_描述。如式(2-3-6),式中各元素可通过矩阵Matrix_fg计算而得。 (2-3-6)所得的协方差阵反映了该集合的分布函数。求解该协方差矩阵的特征值和特征向量,这三个特征向量构成了HSV空间的一个基, 这样当前帧前景皮肤数据集合VSH图2-3-1 HSV彩色空间皮肤区域随光照的变化在HSV三维空间中所占据的几何区域,可以用该向量基建立的三维坐标系来描述,该坐标系的原点在该几何区域的质心。由于光照变化以及目标运动等原因,各帧对应的这种数据集合不断的变化,相应地该数
13、据集合对应的三个特征向量构成的基也发生变化,这种帧间皮肤区域数据集合对应的几何体的变化可以用3-D仿射变换来描述,这种几何体的旋转可以用3×3协方差矩阵的特征向量构成的基坐标系的旋转来表示,如图(2-3-2)所示。图2-3-2 HSV彩色空间3-D仿射变换旋转参数的几何意义设分别为第 帧的前景区域对应的协方差阵(如式2-3-6)由大到小的三个特征值对应的特征向量,对应第帧的协方差阵由大到小的三个特征值对应的特征向量。指向量的夹角:是指向量的叉乘:其中代表投影矩阵,表示向量在向量 所决定的平面 上的投影,则指该投影向量和向量的夹角。从第 帧到第帧前景皮肤区域在HSV空间的变化如图2-3
14、-1,与的几何含义如图2-3-2。在m长观察窗口内,可得到过去m帧前景皮肤在HSV坐标系中所占据几何区域的8参数向量,它们是一个随机过程的一次实现。若能预测出当前待分割帧的8参数向量,则可通过3-D仿射变换公式(2-3-7)预测出当前帧中皮肤区域在HSV坐标系中的分布区域,进而可统计其直方图。这样再利用式(2-3-4)实现对当前帧的人体目标检测,提高分割方法在光照变化时的鲁棒性。 (2-3-7)其中,。 2.3.5 八维参数向量的线性组合预测模型没有任何一种预测方法或预测模型会在各种情况下都比其他方法或模型表现得更好25。为了实时地估计和预测肤色分布状态,需要对其建立一个预测模型。对复杂系统的
15、预测仅仅应用一种预测方法,往往很难进行精确而可靠的预测。如果对同一预测问题采用各种不同的预测方法,并加以适当的组合,则可以较充分地利用各种信息,达到提高预测精度的目的。经选用线性组合预测方法来预测当前待预测帧的仿射变换需要的8维向量。首先分别采用维纳一步预测模型和二阶Markov预测模型预测下一帧的八个参数,为达到更好的预测效果,基于平方和误差最小原理将这两种预测算法进行线性组合,课题组构造一种新的线性组合预测模型。一、 维纳一步预测模型相关文献26,27实验证明,视频图像皮肤区域在HSV空间随光照的帧间变化是符合布朗运动规则的,而布朗漫步运动可用稳态高斯过程描述。因此项目组选用维纳一步预测方
16、法来预测当前待预测帧的仿射变换需要的8维向量。设仿射变换中八维列向量的任一分量表示为,可通过维纳一步预测模型预测随光照的变化。维纳一步预测的原理是由过去p个观测数据,的某种线性组合,来预测当前数据,用公式表示为: (2-3-8)如果令,则。由此可见,维纳一步预测器对应一个长度为p的FIR滤波器,其单位脉冲响应即位。误差函数表达式为: (2-3-9) 均方误差为 (2-3-10)为求出使E最小的,,将上式对各求偏导数,并另其等于0,得, (2-3-11)整理可得: (2-3-12)此式称为Yule-walker方程,它反映了相关函数与最佳单位脉冲响应之间的关系。Yule-walker方程的解就是
17、维纳预测器的系数,也就是FIR数字滤波器的单位脉冲响应,此时维纳预测器的输出是信号的最佳一步预测。其中Yule-walker方程可通过Levinson算法求解。二、 二阶Markov预测模型28-29记为已知的第n帧的八维列向量,为的期望值,为要预测的第n+1帧的八维列向量,、是矩阵,B为矩阵,为随机部分。二阶马尔科夫预测模型用公式表示为: (2-3-13)二阶马尔科夫预测模型共有三个参数和。矩阵表示帧间的相关性,决定了运动模型的确定部分;而决定随机部分。随机部分通过标准高斯分布来模型化,它通过加权系数加入到中。所以可将公式(2-3-13)变形为:。 (2-3-14)课题组采用MLE算法估计这
18、些参数,并且在估计过程中并不直接求解,而是估计。在长度为m帧的观察窗内,前m-2帧用来估计参数和,第m-1和第m帧与要预测的第m+1帧相关性强,用来预测第m+1帧的八参数向量。前m-2帧的仿射变换参数向量的联合概率密度函数:(取对数后)为: (2-3-15)上式分别对求偏导,并令偏导为零得出下面的等式,从而求出: (2-3-16)其中, (2-3-17)公式(2-3-16)对求偏导,偏导为零可以求出。并代入得: (2-3-18)其中 (2-3-19)由(2-3-18)式可以求得B。如果将仿射变换的8个参数视为独立的变量,则估计动态模型的参数仅需要较少的观察帧(m)。本系统至少需要4帧,但是帧数
19、越多估计得越好。在我们的实验中,取8到30帧效果较好。最后将前m-2帧估计得到的参数、和第m-1、 m帧的两个向量、代入公式(2-3-13),即可计算出要预测的第m+1帧八参数向量。三、线性组合预测模型系数的求解建立线性组合预测模型的一个重要步骤是对组合权重进行优化,其目的是通过选择组合权重向量,使线性组合预测模型的精度满足预测对象的要求。常见的预测模型精度综合评价指标30-31有: 平方和误差(SSE)、平均误差(MAE)、均方误差(MSE)、平均百分比误差(MAPE)、均方百分比误差(MSPE) 等。我们从线性组合预测模型绝对误差序列出发,根据统计学思想对线性组合预测模型进行精度分析,以选
20、择合适的组合权重。用表示组合中的t时刻第i个预测模型,则线性组合预测模型可表示为,其误差为,其中为第i种预测模型的组合权重。设t时刻第i个预测模型的预测绝对误差 ( i= 1, 2)。线性组合预测模型的精度信息包含在绝对误差序列,中。为使线性组合预测模型绝对误差序列分布为优化模型,课题组以平方和误差(SSE)为精度综合评价指标,观察窗长度为N,即 (2-3-20) 满足平方和误差(SSE)的 即为线性组合预测模型的最优组合权重,即通过求解下式便可得到。 (2-3-21)由于为对称正定矩阵,可进行Cholesky分解,其中B为下三角矩阵,公式(2-3-20)可写为。可见最优解即为满足一定条件的方
21、程的最小二乘解,即,表示B的广义-逆。根据以上的分析,如果对每期的单项预测模型进行无偏性调整,并不影响组合权重向量的计算。为了叙述方便,用表示维纳预测模型得到的预测信号,表示二阶马尔可夫预测得到的预测信号。无偏性调整的过程可以用信号的值减去信号的均值,Matlab提供了求解信号均值的函数,使用方法如下:。经过以下处理后;显然和代表无偏性调整后的误差。根据式(2-3-21),研究如何求解组合权重向量。为元素全为1的维行向量,可根据式(2-3-20)得到。具体到组合预测模型只用到了两种基本的预测模型,则(2-3-22)组合权值的计算表示为Matlab脚本: W0=(inv(E)*Rm')/
22、(Rm*inv(E)*Rm'); (2-3-23)其中,返回一个矩阵的逆矩阵 (2-3-24)此时,已经求出了加权系数,线性组合预测模型的预测信号只需要由两种基本模型的预测信号线性加权求和即可得到。 (2-3-25)2.3.6直方图的预测更新 第t+1时刻输入帧的前景皮肤区域在HSV空间分布的八参数向量预测得到后,通过三维仿射变换和直方图统计可求出该帧的预测直方图。为考虑直方图的关联性,第t+1时刻输入帧分割的直方图应为当前帧和预测结果的加权平均值32-33: (2-3-26) 是从0到1之间取值,表示更新的速度,当说明无适应,说明直方图无记忆地全更新。严格说来,背景和皮肤颜色分布都要
23、更新适应,但当摄像机固定不动或缓慢移动时,可以认为背景分布变化缓慢,因而认为背景分布的改变远小于前景分布的改变。这里只对前景颜色的变化预测,对背景直方图分布的更新是用过去两帧的背景直方图的加权平均得到: (2-3-27)最佳更新常数的选择一般通过经验得到,课题组实验表明半适应的系统(,)效果最好。举例2.3.7 组合彩色模型下相近色干扰的去除原理 文献34对Compaq数据库中12000个具有肤色和非肤色图像进行统计分析,发现人体肤色(R,G,B)中,具有更高成分的红色(Red)分量,尤其是R/G的比值更为突出,它明显地区别于非肤色区域。而且该比值随光照不会发生明显的变化。文献中图形数据显示肤
24、色(R,G,B)分量之间的比值稳定在:,。而非肤色区域三个分量的比值关系一般为:,。可见,肤色区域的相对较集中,而非肤色区域的分布更广泛,具有更大的随机性。通常情况下分割是在单独的肤色空间,如RGB,YCBCR,HSV等空间中,根据肤色聚类性设定合适的阈值来分割肤色。但是单独在每个彩色空间下的分割都有其特定的局限性,上述在RGB空间虽然肤色与非肤色大致占据不同的区域,但它们仍有一部分重合,并且该空间对光照变化比较敏感。文献对常用的彩色空间HSV, YIQ, RGB-Y, YES, YUV, CMY, CIE, XYZ, GB 等进行了分析比较,认为没有一个空间能很好地将肤色和非肤色区域彻底分开
25、,因而提出了一种组合彩色空间的概念,即该三维空间的三个分量是互补的,他们的组合能最大限度地将肤色和非肤色区域分开,尽可能地减少两者的重叠区域,以便更好的分割肤色。该文献提出的组合彩色空间为(E, R/G, H),其中,E分量来自彩色空间(Y,E,S);R/G是(R,G,B)空间中R和G分量的比值;H分量来自(H,S,V)空间。彩色空间(Y,E,S)各分量的含义如下,Y是亮度,E和S是色度空间,其中E=0.5*(red-green);HSV空间在前面已介绍过,其中分量H和S是色度和饱和度,V是亮度值;文献中给出了它们的取值范围分别为:E>13.4224,R/G<1.7602,H<
26、;23.89。其中E和R/G两个分量充分考虑了人体肤色中的红色分量占据主导位置的这一生物特性,他们两个分量联合起来表明:20+green<red<1.7602*green。文献后面对H分量的取值中做了进一步调整-17.4545<H<26.6666,这样得到的彩色空间对室内室外采集到的图像进行实验,肤色分割识别率分别为97.95%和93.74%。总之,该文献的组合彩色空间比常见的任何单独彩色空间相比,具有将肤色和非肤色分离的特性。在上述贝叶斯初分割的基础上,我们考虑采用该复合色彩空间下的再分割,建立E,R/G,H空间模型,利用给定的参数阈值,可以进一步消除背景相近色的干扰
27、。后面的实验会验证这一效果的。2.3.8实验结果与分析一、线性组合预测方法有效性的验证任何具有有理功率谱的随机信号都可以看作高斯白噪声通过线性系统的输出,因此,在matlab环境下,利用randn()函数产生高斯白噪声信号,然后通过一个AR模型的滤波器,这样可产生彼此之间具有相关性的随机信号,用来作为测试信号。在下图中红色曲线为真实信号,蓝色曲线为预测值。表2-3-1与2-3-2为三种预测方法预测误差的均值和方差的比较。图2-3-3. 三种预测方法结果比较-1实验结果分析:线性组合预测模型关键问题是求出各个预测模型的最优线性组合加权系数。在运用基本预测模型研究结果的基础上建立的线性组合预测模型
28、,其预测效果比各个基本模型的预测效果更好。线性组合预测模型综合了各个基本的预测模型的优点,更全面得反映了系统的特性,因此线性组合预测模型能够有效地提高预测精度。图2-3-3. 三种预测方法结果比较-2表2-3-2 三种预测模型一步预测结果的比较-2预测方法过去49点学习数据的预测误差的方差一步预测的真实值一步预测的结果维纳一步预测0.698154 1.60161.9053二阶马尔科夫预测1.123376 1.60162.7221线性组合预测0.693363 1.60161.8089二、人体目标检测实验1、光照无明显变化时的人脸肤色检测图2-3-4. 光照无明显变化时的人体检测结果光照无明显变化
29、时的人体肤色检测采集的无压缩视频格式转化为.bmp格式,用Matlab编程在微机上处理。为了验证算法的实时性和鲁棒性,进行了实验测试,此处列举了视频中的部分处理结果并加以分析。实验结果分析:在光线基本不发生较大变化的条件下(如自然光源)如图2-3-4所示,在该图中人体目标所处的背景是在自然光源条件下作各种动作,使露出的皮肤区域动态变化,另外,人体背后栅栏连接处有与皮肤相近的矮墙(砖头颜色与人体肤色接近)。如图2-3-4中的第四幅图(以自上而下的顺序,以下同),可以清晰检测出人体头部转动后仅剩下脖子部分的皮肤区域;其它几幅图的结果可以看出,人体漏出的皮肤区域可完整地分割出来,如图2-3-4中的第
30、二幅图当人抬手扶眼镜时,他的上肢胳膊也可清晰分割到,且分割的区域很完整。试验表明该算法在光照稳定的条件下,有很好的检测灵敏性。静态分割肤色特征后处理线性组合预测模型Markov预测模型图 a图 b图 c图 d图 f图 e图2-3-5 光照有明显变化时的人体检测结果2、光照有明显变化时的人脸肤色检测实验结果分析:在光照有明显变化,静态分割算法由于每帧的直方图不能更新,在分割时导致分割的肤色区域不完整,如图b所示。用和线性组合预测模型进行参数预测时的分割结果分别如图c和d,这两种方法都对肤色特征比较敏感,从而将相近色“黄色的照明灯”也检测出来,造成误判;比较图c和d,课题组的线性组合预测模型分割方
31、法造成的误判程度要小于Markov预测模型预测方法。图e是课题组利用人体肤色特征方法,消除与肤色相近的背景干扰得到的肤色区域二值图,图f是对应的肤色区域。课题组的方法优于静态分割方法和Markov预测模型预测方法。对应原图的分割结果再参考肤色特征为b对应的原图分割结果Markov预测模型线性组合预测模型图a图b图c图d图e图f图2-3-6 相近色干扰时的人体肤色检测结果3、与背景色相近时的人体肤色检测结果实验结果分析:由背景相近色干扰时,课题组的方法也可以较好的消除它的干扰。如图a所示为采集视频图像中的其中一帧,图中有与肤色相近的黄色纸箱。用线性组合预测模型和Markov预测模型进行参数预测时
32、的分割结果分别如图b和c,这两种方法都对肤色特征比较敏感,从而将相近色“黄色的纸箱”也检测出来,造成误判;比较图b和c,课题组的线性组合预测模型分割方法造成的误判程度要小于Markov预测模型预测方法。图d为二值图象b对应的肤色区域和误判区域。图e是课题组利用人体肤色特征方法,消除与肤色相近的背景干扰得到的肤色区域二值图,图f是对应的肤色区域。课题组的方法优于静态分割方法和Markov预测模型预测方法。2.4基于二维Gabor小波变换和SVM的视频人脸图像性别识别早期的计算机视觉性别分类大都基于神经网络的机器学习方法,包括Gollomb 35等的两层神经元网络SEXNET,在30×3
33、0的人脸图片上进行性别判别,在90张图片(男女各45张)中性别正确识别率达到91.9%;Edelman 36等用人脸的3个不同部分(整个人脸、人脸上半部分和下半部分)分别训练,采用线性神经元网络进行分类,并对3种情况的分类性能做了分析比较;Tamura 37等利用了与Gollomb相近的技术,采用多层神经网络对不同分辨率的人脸进行了分类分析,在8×8的超低分辨率下得到平均7%的错误率;以上基于神经网络的方法,需要的人脸训练样本数量比较大,且泛化能力差,另外神经网络的训练速度比较慢。近年,Baback Moghaddam和M.H.Yang 38首次将支持向量机方法引入性别判别领域,采用
34、像素特征并与RBF网络、FLD、最邻近分类器等经典分类方法做了比较,用FERET人脸库做了分类实验,证明了支持向量机分类的有效性。另外,直接用灰度值特征有对亮度变化敏感且维数高的弱点,基于PCA降维的方法虽然可以达到降维的目的,但是PCA方法考虑的只是在最优熵准则下来表示人脸,并没有充分利用训练样本中的性别类别信息,并且要求人脸是正方形的,而通常人脸都是具有一定长宽比的矩形。为了克服上述方法的缺点,课题组采用二维Gabor小波变换提取人脸特征,利用支持向量机作为分类器实现对视频中监测到的人脸图像进行性别识别。 2.4.1 二维Gabor小波变换 直接用灰度值特征有对亮度变化敏感且维数高的弱点,
35、基于PCA降维的方法虽然可以达到降维的目的,但是PCA方法考虑的只是在最优熵准则下来表示人脸,并没有充分利用训练样本中的性别类别信息,并且要求人脸是正方形的,而通常人脸都是具有一定长宽比的矩形。在此基础上为了克服上述方法的缺点,课题组采用二维Gabor小波变换提取人脸特征。自1996年,Tai Sing Lee将一维紧致小波扩展到二维Gabor小波39,Gabor小波在机器视觉和医学图像处理等领域得到了广泛的应用,将其用在人脸识别上是基于它与生物方面的相关性,哺乳动物视觉皮层简单细胞的感受空间结构可以在数学上用Gabor函数来描述。简单细胞对大面积的弥散光无反应,而比较适合于检测具有明暗对比的
36、边缘,并对边缘的位置和方位有严格的选择性。二维Gabor小波变换是在时频域进行信号分析处理的重要工具,其变换系数有着良好的视觉特性和生物学背景,具有以下优点:(1)具有良好的时频局部化特性。即非常容易地调整Gabor滤波器的方向、基频带宽及中心频率从而能够最好地兼顾信号在时空域和频域中的分辨能力。(2)多分辨率特性及变焦能力。即采用多通道滤波技术,将一组具有不同时频域特性的Gabor小波应用于图像变换,每个通道都能够得到输入图像的某种局部特征,这样可以根据需要在不同粗细粒度上分析图像。(3)小波变换对光照变化不敏感,且能容忍一定程度的图像旋转和变形,当采用基于欧氏距离进行识别时,性别模板和待识
37、别图像不需要严格的对应,故能够提高系统的鲁棒性。总体而言,Gabor小波变换优于其他图像特征提取方法,这也是本文采用Gabor小波变换提取人脸特征的原因所在。Gabor 函数是一个用高斯函数调制的复正弦函数,能够在给定区域内提取局部的频域特征。二维Gabor小波核函数定义为: (2-4-1)其中,为复数算子,是行矢量,规定向量范数;参数决定了高斯窗口的大小,这里取取;为小波的波矢量,其不同取值构成了该小波族中不同小波函数,定义为: 其中,其中频率系数决定了Gabor滤波的波长,即小波的不同核频率;方向系数决定了Gabor核函数的方向,为滤波器的中心频率。Gabor小波函数表达式中:方括号中的第
38、二项为去除直流分量,使得 Gabor 特征对光强变化具有鲁棒性;对比度的变化则由于小波进行了规范化而具有鲁棒性;是Gauss 函数,这实际上是通过加窗限制了振荡函数的范围,使其只在局部有效,这样使得Gabor滤波可以容忍图象有一定的扭曲情况。本文取;表示小波的不同方向,每种核频率的小波可进一步衍生出8个方向的小波,即,这样便定义了由4×8个Gabor小波组成的小波族用于提取人脸特征。Gabor小波变换是通过计算每个Gabor小波核函数(共32个)与图像的卷积来实现的,其公式定义为: (2-4-2)其中,为图像对应坐标的像素值。小波变换后的结果是复数,可取复数的模作为Gabor小波变换
39、的结果。2.4.2 支持向量机的性别分类原理一、支持向量机的分类原理支持向量机(Support Vector Machine)简称SVM,是统计学习理论中较年轻的内容,也是最实用的部分,其核心内容是1992年到1995年间提出的,目前仍处在不断发展阶段40。支持向量机是Vapnik 41等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则42为理论基础,通过适当选择函数子集及该子集中的判别函数使学习机的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差仍然最小,得到一个具有最优分类能力和推广泛化能力42的学习机。该方法从样本集中选择一组特征子集,
40、使得对于特征子集的划分等价于对整个样本集的分割,这组特征子集称为支持向量(SV)。SV尽管数量少,但却包含了分类所需的信息。1、线性最优分类超平面把训练样本分成两个有限子集,正样本子集和负样本子集,这两个子集对于超平面可分的条件是,存在一个单位向量和一个常数c,使得不等式 (2-4-2)成立,“”表示向量点积运算。对于任何单位向量,我们确定两个值考虑单位向量,它在满足不等式(2-4-2)的条件下最大化函数(2-4-3)由约束(2-4-2)和最大化函数(2-4-3)得到的向量与常数确定一个超平面,它将正样本集和负样本集分开,并具有最大间隔(2-4-3),称这样的超平面为最大间隔超平面,也就是最优
41、分类超平面(见图2-4-1)。可以证明:最优分类超平面是唯一的。分类学习的目标是找到构造最优分类超平面的有效方法。为此要考虑问题的一种等价表述:找到一个向量和一个常数(阈值),使得他们满足约束条件(2-4-4)并且向量具有最小的范数 (2-4-5)此时,分类函数为在满足约束(2-4-4)的条件下最小化(2-4-5)所得到的向量与构成最优分类超平面的向量之间的关系是等式。最优分类超平面与分类向量之间的间隔为因此,具有最小范数且满足约束(2-4-4)的向量定义了最优分类超平面。具有最小范数且以满足约束(2-4-4)的向量则定义了过原点的最优分类超平面。为了简化符号,我们把约束(2-4-4)改写成等
42、价形式 (2-4-6)因此,为了找到最优分类超平面,我们必须求解二次规划问题:在线性约束(2-4-6)条件下,最小化二次型(2-4-5)。对于二次规划问题,经典的求解方法可由Lagrange乘子法求解。上一节提到,为了求解这个二次规划问题必须找到Lagrange函数的鞍点(2-4-7) 其中, 为Lagrange乘子。为了找到鞍点,必须对和最小化此函数,并对非负Lagrange乘子最大化这个函数。根据Fermat定理,这一泛函的最小值点必须满足条件因此,定义最优分类超平面的向量,必须满足以下等式 (2-4-8) (2-4-9)将式(2-4-8)代入式(2-4-7)并考虑式(2-4-9),可得到
43、 (2-4-10)因为上式只涉及到Lagrange乘子向量的求解,所以我们把符号改成,此式也称为原问题的对偶问题。为了构造最优化超平面,我们必须在非负象限内,在满足约束(2-4-9)的条件下,对Lagrange乘子极大化函数(2-4-10),把最终求解得到的代入式(2-4-8)得到向量 (2-4-11)在对这类约束条件下的最优化问题的求解和分析中,Karush-Kuhn-Tucke条件(Kuhn-Tucker 定理由Vapnik在1995年应用到SVM的求解,在其文献中成为Karush-Kuhn-Tucke条件,简称KKT条件,本文后面的内容都简称其为KKT条件)将起重要作用,根据KKT条件,
44、在最优点,Lagrange乘子与约束条件的乘积为零,即此处的最优解必须满足: (2-4-12)从KKT条件(2-4-12)和超平面等式(2-4-11)可得到,那些对应于的样本向量对于超平面不起作用,而只有的样本向量对构造超平面起作用,从而决定分类模型。对于,此时(2-4-12)可改成满足等式:(2-4-13)从几何位置上来看,其所对应的是最靠近最优超平面的向量,称这样的向量为支持向量。最优解和可以由二次规划训练算法显式求得。选取一个支持向量样本,可由(2-4-13)式求得: 最后,最优分类函数具有下列形式(2-4-14)2、不可分样本集的最优分类超平面上面的方法在保证训练样本全部被正确分类,即
45、经验风险为0的前提下,通过最大化分类间隔来获得最好的推广性能。如果希望在经验风险和推广性能之间求得某种均衡,Cortes和Vapnik在1995年引入了“软边缘”(soft margin)最优超平面的概念,可以通过引入非负松弛因子来允许错分样本的存在。这时,约束(2-4-6)变为 (2-4-15)同时对目标函数引入惩罚项: (2-4-16)其中,C是一个给定的正常数;向量也被称为对错分误差的度量。为了求解(2-4-16),我们构造Lagrange函数: (2-4-17)其中,分别为对应于约束(2-4-15)两式的非负Lagrange乘子,式(2-4-17)的解就是参数最小化、最大化Lagran
46、ge函数的鞍点。对(2-4-17)求导,可得:因此,可得到 (2-4-18a)(2-4-18b)(2-4-18c)把(2-4-18a)、(2-4-18b)和(2-4-18v)代入(2-4-17),并由Lagrange乘子最大化(2-4-17),最终可得到对偶问题:(2-4-19)通过求解此最优化问题,可得到Lagrange乘子,再由(2-4-18a)可得到最优超平面,但还有参数必须求解。为了求解参数,利用KKT条件可得到:根据上式以及(2-4-19)的约束条件,我们可以推导出如下结论:若,则; (2-4-20a)若,则对应的样本为支持向量;(2-4-20b)若则对应的样本称为边界支持向量(Bo
47、unded SV); (2-4-20c)因此,由(2-4-20b),我们可得到参数和代入(2-4-14),可得到最优分类函数。3、非线性最优分类超平面前面介绍了在线性空间中可分的支持向量机最优超平面的求解,而对于线性不可分的分类问题,必须对最优化问题作一些改动。可以通过非线性变换把样本输入空间转化为某个高维空间中的线性问题,在高维空间中求线性最优分类超平面,这样的高维空间也称为特征空间或高维特征空间(Hilbert空间)。这种变换可能比较复杂,且高维特征空间的转换函数也很难显式的表示出来,因此这种思路在一般情况下不易实现。但是注意到,在线性情况下的对偶问题中,不论是寻优目标函数(2-4-10)
48、(或(2-4-19)还是分类函数(2-4-14)都只涉及训练样本之间的内积运算。假设有非线性映射将输入空间的样本映射到高维(可能是无穷维)的特征空间中。当在特征空间中构造最优超平面时,训练算法仅使用空间中的点积,即,而没有单独的出现。因此,如果能够找到一个函数,使得,这样,在高维特征空间中实际上只需进行内积运算,而这种内积运算是可以用输入空间中的某些特殊函数来实现的,我们甚至没有必要知道变换的具体形式。这些特殊的函数称为核函数。根据泛函的有关理论,只要核函数满足Mercer条件,它就对应某一变换空间中的内积。因此,在最优分类超平面中采用适当的核函数就可以实现某一非线性变换后的线性分类,而计算复
49、杂度却没有增加,此时目标函数(2-4-10)(或(2-4-19)变为:(2-4-21)约束条件不变,而相应的分类函数也变为(2-4-22)称为支持向量机。支持向量机巧妙地利用输入空间的核函数取代了高维特征空间中的内积运算,这一特点提供了解决算法可能导致的“维数灾难”问题的方法:在构造判别函数时,不是对输入空间的样本作非线性变换,然后在特征空间中求解;而是先在输入空间比较向量(例如求点积或是某种距离),对结果再作非线性变换。这样,大的工作量将在输入空间而不是在高维特征空间中完成。SVM分类函数形式上类似于一个神经网络,输出是个中间节点的线性组合,每个中间节点对应一个支持向量,如图2-4-2所示。
50、简而言之,SVM建立在SLT的VC维理论和结构风险最小化原理的基础上,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和泛化能力(即无错误地识别任意样本的能力)之间寻找最佳折衷,以期获得最好的推广能力。SVM能够有效地避免经典学习方法中出现的过学习、欠学习以及陷入局部极小点等诸多问题。SVM将输入空间线性不可分问题,通过非线性变换转化为某个高维空间中的线性可分的问题,在高维的变换空间中寻找最优分类面,通过核函数巧妙的在输入空间实现高维空间中的內积运算实现分类,而且计算复杂度并没有增加,SVM是针对二分类问题的强分类器,而人脸性别分类问题是典型的二分类问题,因此,课题组采用SVM作
51、为性别判别器。选用BioID人脸库作为SVM的学习训练样本,首先将库中具有大片背景的人脸图像的尺寸进行规范化为21*18的人脸图像,然后进行Gabor变换人脸特征向量构成训练样本。将1520张的人脸特征向量训练SVM;最后用不同核函数的SVM完成人脸图像的性别测试。二、支持向量机的训练 整个人脸识别的过程分为训练和识别两个阶段来进行。采用台湾大学林智仁教授的支持向量机libsvm软件包,在matlab7.0平台下进行开发。1、 训练过程(a)图像预处理选用BioID人脸库,在1520张人脸图片中包括不同光照、不同姿态、不同表情和不同面部情况(有无戴眼镜、胡须等)的976张男性图片,544张女性
52、图片,大小为286×384,图2-4-3给出部分人脸图片。图2-4-3 BioID人脸库部分人脸图片将这1520副图像作为训练样本,经过人工定位人的眼睛和嘴巴,经过直方图均衡化、缩放和剪切等预处理最终得到21×18的人脸图片,预处理过程如图2-4-4所示:(a)原图像 (b)定位人的眼睛、嘴巴 (c)预处理之后的图像图2-4-4 人脸预处理过程经过图像预处理后,所有的图像都变为在尺寸规格上保持一致、灰度直方图均衡的图片。(b)支持向量机的训练过程将上述标准化的人脸图片在像素上展开为特征向量,一副人脸图片对应一个特征向量,这样1520副人脸图像总共得到1520个特征向量,而每
53、个向量的维数为378,将这些特征向量连同标号送入支持向量机进行训练。训练可以调用软件包中的svm-train函数,该函数输入参数为训练样本的标号和他们所对应的特征向量,以及训练用的参数,比如采用什么核函数及其对应的参数,输出为按给定参数和训练样本训练好的支持向量机模型文件,后缀名是.model,此文件主要用于识别过程的判别支持向量机模型。2、识别过程 识别采用软件包中的svm-predict函数,该函数的输入为检测出的人脸区域经过插值下采样变为规格大小的人脸图像,并将其展开为像素值的向量作为测试样本,此外,还需要将训练生成的支持向量机模型送入predict函数,函数的输出为类别标号,如+1代表
54、男性,-1代表女性,此处标号应当是与训练时规定的一致。三、支持向量机的核函数选择以及对分类影响总结核函数的思想是把原本应该在高维特征空间中的计算,通过核函数在输入空间中即可完成,这样就无须知道高维变换的显式公式,况且高维变换公式一般是无法得到的。同时,核函数的引入解决了高维数带来的麻烦。但是,计算依然严格地受训练样本数目的影响,而如果想在高维特征空间中得到一个样本比较均匀的分布,又必须提供大量的训练样本,此时的计算也会很复杂。对给定的函数,高维特征空间中的内积可以用输入空间中的函数来表示的充要条件是:对于任意给定的函数(2-4-23)且 那么就对应了特征空间中的一个内积。采用不同的函数作为支持
55、向量机的核函数,可以构造实现输入空间不同类型的非线性决策面的学习机器。目前常用且效果比较理想的核函数主要有多项式核函数(Polynomial)、径向基核函数(Radial Basis Function,RBF)、多层感知机(Multi-Layer Perceptron,MLP)。1) 多项式核函数多项式是最常使用的一种非线性映射:(2-4-24)所得到的是阶多项式分类器(2-4-25)2)径向基函数径向基函数是应用很广泛的,经典的径向基函数使用下面的判定规则:(2-4-26)其中,取决于两个向量之间的距离。对于任何的值, 是一个非负的单调函数。最通用的判定规则是采用高斯径向基函数:(2-4-27)采用径向基函数的传统技术涉及某种确定一组中心点集的方法。典型的情况是首先采用一种聚类方法选取一组中心点集。SVM的一个特征就是它的这种选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年超时完成处罚协议
- 安全监督培训重点考点练习题
- 定制化货物配送服务协议
- 慢阻肺急性加重期营养免疫支持策略
- 图像识别系统实施协议合同
- 精准配送同城配送合同
- 二次配送配送服务物流协议
- 医院防火巡查检查制度
- 2026年企业安全生产隐患排查治理培训考核试卷及答案
- 慢病防控策略中的多学科团队协作机制
- 港口货物装卸合同
- 2024-2029年米酒项目融资商业计划书
- HG/T 6262-2024 再生磷酸铁(正式版)
- 中华民族风俗文化智慧树知到期末考试答案2024年
- 六宫格数独100题
- 建筑工程类竞争性谈判文件范本
- 输电线路工程导线压接技术培训
- 店铺搬迁通知文案(7篇)
- 北大企业家俱乐部
- 酒店入住单-电子版
- 中国文化要义(总)
评论
0/150
提交评论