(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf_第1页
(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf_第2页
(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf_第3页
(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf_第4页
(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf_第5页
已阅读5页,还剩101页未读 继续免费阅读

(仪器科学与技术专业论文)基于子空间分析的人脸特征提取及识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 i 摘 要 人脸识别是当前计算机模式识别领域中的一个非常活跃的研究课题,在法律、 商业等领域具有广泛的应用前景。如何有效的从人脸图像中提取使之区别于其他 个体的特征,是人脸识别研究的一个关键问题。在众多的特征提取技术中,子空 间分析因其计算简单、有效等特性引起了人们的广泛注意,现已成为人脸图像特 征提取和识别的主流方法之一。该文以人脸识别为目标,以基于子空间分析的人 脸特征提取为重点进行了相关研究,并取得了如下创新性成果: 1、该文采用投影分析的方法对图像奇异值特征的有效性进行了分析,发现该 特征实质上是通过对图像进行投影变化所得到的,而在提取奇异值特征时,对不 同的图像采用了不同的投影变化,即选用了不同的基准,因此仅采用奇异值特征 不足以进行有效的人脸识别。在此基础上,该文基于奇异值分解和投影的方法提 取了一种新的称为投影系数主元特征的代数特征,并将其用于人脸识别。在标准 的 orl 人脸库和 yale 人脸库上的实验结果表明,与传统的奇异值特征相比,所提 取的这种新特征在较低的维数内包含了更多的有用信息,是一种稳定的、更为有 效的代数特征。 2、 该文首次将基于 chernoff 准则的异方差线性鉴别分析(hclda)应用于人脸 识别研究当中。由于 hclda 能同时提取包含在类均值和类协方差之间的鉴别信 息,因此理论上优于经典的基于 fisher 准则的线性鉴别分析。然而,在 hclda 方法中要求总体类内散布矩阵和各类的类内散布矩阵均可逆,而在人脸识别中这 些散布矩阵往往是奇异的。该文首先根据样本的可分性,提出了一种新的称为最 大广义 fisher 值的主元选择策略,并基于该策略采用主元分析的方法对原始的高 维图像矢量进行降维,然后采用最大熵协方差估计策略对各类的类内散布矩阵进 行估计,从而解决了总体类内散布矩阵和各类的类内散布矩阵不可逆这一问题。 3、该文基于相关加权和统计不相关两种思想,提出了一种新的基于相关加权 fisher 准则的不相关鉴别分析(rwulda)方法。 该方法考虑了样本两两类别之间的 可分性, 能有效的抑止可分性较好的类别在求解最优鉴别向量过程中所产生的 “欠 适应”效应,在提高相邻类别之间的可分性的同时去除了提取的鉴别特征之间的 统计相关性。在大型 ar 人脸库和 feret 人脸库的子库上的实验结果验证了该方 法的有效性。 4、该文对 efm、dlda 以及 nlda 这三种以解决小样本问题为目的的线性 重庆大学博士学位论文 ii 鉴别方法进行了深入的理论分析,证明了采用这三种方法所提取的特征的统计不 相关性;进一步分析了这三种方法所采用的子空间的合理性,从而解释了 nlda 方法优于其他两种方法的原因。在此基础上提出了一种加权不相关零空间线性鉴 别分析(wunlda)的方法,该方法首先基于“在高维空间中类间距离较小的类别 之间应赋予较高的权重”这一原则,给出了一种新的权函数,进而导出了一种新 的判别准则及其相应的约束条件,最后采用拉格朗日乘子法求解其最优鉴别向量, 并给出了求解定理。在 ar 人脸库和 feret 人脸库的子库上的实验结果验证了所 提出的方法的有效性和优越性。 5、核函数虽然是数学中一个早已存在的概念,但基于核的子空间分析方法 却在最近几年才得到人们的广泛关注。该文对核方法的基本理论构架进行了较为 深入的研究,在此基础上将前面所提出的 wunlda 方法拓展为非线性的加权不 相关零空间核鉴别分析(wunkda)方法 ,并给出了相应的模型及其求解定理。该 方法继承了 wunlda 方法的所有优点,而且还能有效的提取非线性特征。在具 有光照、表情和姿态等变化较大的 feret 子库上的实验结果表明,该方法能有效 的简化人脸模式的复杂分布,且能较大幅度的提高分类效果。 关键词:人脸识别,特征提取,奇异值分解,线性鉴别分析,小样本问题, 核方法 英文摘要 iii abstract face recognition continues to be a hot topic in pattern recognition field due to its wide range of applications such as commercial and law enforcement applications. a central issue to a successful approach for face recognition is how to extract discriminant feature from the facial images. many feature extraction methods have been proposed and among them the subspace analysis has received extensive attention owing to its appealing properties. now the subspace analysis method has been the most popular technology for feature extraction and face recognition. the dissertation investigated the use of subspace analysis for feature extraction from the facial images and recognition. the main contributions of the dissertation can be noted as following: 1. the dissertation gave a detailed analysis on the singular values (svs) of facial images using projection analysis and then the reason why the svs are not enough for face recognition was revealed. based on this observation, a new algebraic feature was proposed by using singular value decomposition and projective method. its robustness was also proven. the experimental results on the standard orl face databse and yale face database demonstrate that in comparision with the traditional svs, the proposed algebraic feature contains more useful information in a smaller dimensionality and is a robust and more effective algebraic feature. 2. the dissertation extended the applicability of the latest heteroscedastic lda which is based on the chernoff criterion (hclda) to face recognition for the first time. as the hclda is able to simultaneously extract the discriminant information present in the differences between per class means and the differences between per class covariance matrices, it should be superior to the tradition fisher criterion-based lda in theory. however, in hclda the total within-class scatter matrix and per class within-class scatter matrices are required to be full rank, which is seldom satisfied in the face recognition tasks. in order to overcome this problem, the dissertation first improved the traditional pca by introducing a named maximum generalized fisher value principal component selection (mgpcs) strategy and then used the improved pca for dimensionality reduction to make the total within-class scatter matix nonsingular. furthermore, the latest maximumum entropy covariace selection strategy was selected to estimate the per class within-class scatter matrices. the experimental results show that during the dimensionality reduction stage, the improved pca based on the prosoped mgpcs strategy can reserve more discriminant information than the 重庆大学博士学位论文 iv traditional pca and thereby improving the final classification results. 3. the dissertion proposed a novel variant on lda that was referred to as relevance weighted uncorrelated lda or rwulda by integrating the relevance weighted fisher critierion and uncorrelated lda. the rwulda method can not only restrain the negative influenence of the so-called outliner classes on the derivation of the optimal discriminant vectors, but also guarantee the obtained discriminant feature components are statistically uncorrelated. the experimental results on two subsets from the ar face dataase and feret face database demonstrate the promising performance and effectiveness of the proposed technique. 4. after studied three typical variants on lda, i.e. efm, dlda and nlda, which are proposed to address the well-known small sample size problem, the dissertation revealed that the discriminant features derived from efm, dlda and nlda are all statistically uncorrelated. in addition, the orthogonality of the discriminant vectors derived from nlda was also revealed. furthermore, the dissertation performed a detailed analysis on the selected subspace of each lda methods and then gave the answer to the question why nlda always outperforms than the other two methods. in order to simultaneously solve the small sample size problems and weaken the dominant influence of outlinear classes, the dissertation extended the nlda technology by integrating the weighting scheme and uncorrelated lda. the resulting method was referred to as weighting uncorrelated nlda or wunlda. the efficiency and superiority of wunlda were demonstrated by the experiments on two subsets from the ar face database and feret face database respectively. 5. in the dissertation, motivated by the success that svm, kernel pca and kernel fda have in pattern classification tasks, the proposed wunlda was generalized to nonlinear wunkda method by integrating kernel method. obviously, the novel wunkda method retains all merits of the wunlda method, while being able to extract the nonlinear feature. the new wunkda algorithm was tested, in terms of the simplified ability and recognition accuracy, on a more complicated subset from the feret face database. the experimental results indicate that the proposed methodology is not only able to simplify the distribution of the face patterns, but improves the final classification results. keywords: face recognition, feature exactration, singular value decomposition, linear discriminant analysis, small sample size problem, kernel trick 1 绪 论 1 1 绪 论 1.1 人脸识别研究的重要意义 随着社会的发展,各个方面对快速有效的自动身份验证的要求日益迫切,由 于生物特征是人的内在属性,具有很强的自身稳定性和个体差异性,因此是身份 验证的理想依据。美国政府在 “9.11”事件后连续签署了三项国家安全法案,要求 采用生物识别技术。2003 年 6 月,联合国国际民用航空组织已公布了其生物应用 规划,将在个人护照中加入生物特征,并在入境时进行个人身份确认。据国际生 物集团的统计,到 2005 年底,全球生物特征认证技术市场将达到 22 亿美元,并 将以每年超过 80的速度增长,2007 年可达 41 亿美元。据估计,在未来的 5 年 内我国也将形成近百亿的市场。 目前人们研究和使用的生物特征识别技术主要有人脸识别、虹膜识别、手形 识别、指纹识别、掌纹识别、签名识别、声音识别等。这其中,利用人脸特征进 行身份验证又是最自然最直接的手段,相比于其他人体生物特征,它具有直接、 友好、 方便和稳定性强等特点, 易于被用户接受1, 可广泛应用于医学、 档案管理、 身份验证、罪犯追踪、视频会议、通道控制乃至出纳机(atm)等多种场合,因而具 有极大的市场前景,甚至可能形成一个巨大的、对人类生活产生深刻影响的产业。 人脸识别研究在学术上也有重要意义。它涉及到图像处理、模式识别、计算 机视觉和神经网络等学科,也和人脑的认识程度紧密相关。因此对人脸识别的深 入研究能够推动这些基础研究的发展。 1.2 人脸识别研究的主要内容和困难 人脸识别是指采用机器对人脸图像进行分析,进而提取有效的识别信息从而 达到身份辨认的目的。其研究范围就广义上来说大致可包括人脸检测(face detection)、人脸表征(face representation)和人脸识别(face recognition)三部分。首 先是人脸的检测与定位,即从各种不同的场景中检测出人脸的存在并确定其位置, 并将人脸从背景中分割出来。然后采用某种表示方法表示检测出的人脸和数据库 中的已知人脸,一般是提取能代表人脸图像的某种特征来表征人脸。最后一步才 是将待识别的人脸与数据库中的已知人脸进行比较,从而达到人脸识别的目的。 这一过程的核心是选择适当的人脸的表征方式(即特征提取)和匹配策略(即设计分 类器)。现阶段,人脸识别的各种算法的检验大都是在已经分离了背景的人脸数据 库上完成的,从人脸识别这一课题的特殊性来看,这是合理的。 虽然人类能毫不费力的识别出人脸,但人脸的自动识别却是一个难度极大的 重庆大学博士学位论文 2 课题,其困难主要来源于:1) 人脸是由复杂的三维曲面构成的可变形体,很难用 精确的数学模型描述;2) 所有人的脸部结构均高度相似,从统计意义上来讲,属 于典型的类内散布大于类间散布的统计模式识别问题;3) 人脸图像受到各种成像 条件的影响,诸如表情、姿态、尺度、光照和背景等的大幅度变化等。这诸多因 素使得人脸识别成为一项极富有挑战性的课题。 1.3 人脸识别的研究现状 人脸识别的研究可以追溯到 20 世纪 6070 年代2,但由于受技术条件限制, 发展缓慢。80 年代开始,特别是 90 年代以来,随着计算机技术以及图像处理和模 式识别技术的发展,人脸识别技术得到巨大发展,并进入了商用领域,代表性的 商用人脸识别软件有 faceit,viisage system,trueface 等。关于人脸识别的文章很 多,有代表性的文献综述可参见文献345678910。 目前的人脸识别大致可分为基于几何特征的人脸识别、基于子空间分析的人 脸识别、基于小波特征的人脸识别、基于隐马尔可夫模型的人脸识别以及基于神 经网络的人脸识别等。 1.3.1 基于几何特征的人脸识别 人脸由眼睛、鼻子、嘴巴、下巴等部件构成,正因为这些部件的形状、大小 和结构上的各种差异才使得世界上每张人脸千差万别,因此对这些部件的形状和 结构关系的几何描述,可以作为人脸识别的重要特征。早期的人脸识别研究主要 是基于几何特征,bledsoe2以人脸特征点的间距、比率等参数为特征,建成了一 个半自动的人脸识别系统。kelly11在 bledsoe 的工作的框架上,用机器自动测量 了头部的宽度、眼睛之间的距离、头顶到眼睛的距离、眼睛到鼻子的距离以及眼 睛到嘴巴的距离等作为特征进行分类。 该方法较 bledsoe 方法的最大进步是在识别 过程当中不需要人的干预。 brunelli 和 poggio12利用改进的积分投影法提取出用欧 氏距离表征的 35 维人脸特征矢量,包括眉毛厚度、眉毛与眼睛中心之间的垂直距 离、眉毛弧度的 11 个描述参数、嘴宽、上下嘴唇厚度及嘴的垂直位置、下巴形状 的 11 个描述参数、鼻孔位置的脸宽、鼻孔与眼睛中间位置的脸宽等。roeder 等13 则全面的对基于特征的人脸识别方法的准确性进行了研究。他们对眼睛、面颊、 嘴巴、下巴等定义了 12 个测量量,每一幅人脸图像为一个样本,采用最小平方和 准则进行聚类,识别时采用最近邻准则。 基于几何特征进行人脸识别,首先必须自动提取人脸的几何特征。常用的方 法有灰度的水平或垂直投影、基于边缘的特征提取等。由于对人脸器官的关键点 进行水平或垂直投影后对应波峰或波谷,因此可以用来定位脸部主要器官。这种 方法比较简单,但精度较差。边缘检测是图像处理中的一个经典的方法,它是利 1 绪 论 3 用图像的灰度变化来反应图像的特征,分别检测每个象素的邻域并对灰度变化率 进行量化,通常也包括方向的确定。根据检测的邻域和权值系数的不同,可将边 缘算子分为:梯度边缘算子、laplace 边缘算子、roberts 边缘算子、 sobel 边缘算 子、 prewitt 边缘算子、 kirsch 边缘算子、cany 边缘算子等。基于边缘的特征提 取往往不是把提取出的边缘作为最终结果,而是在这个基础上进一步处理,如利 用一些先验知识和规律进行边缘的连接、拟合等。边缘的连接一般要考虑物体的 实际形状以及当前点的邻域情况,而曲线的拟合则可能需要用分段线性和高阶样 条曲线来拟合这些点,通常采用抛物线、椭圆等来拟合物体。hough 变换对直线 和圆进行拟合时能达到较好的效果,在人脸识别中通常它来对眼球进行检测,从 而完成对眼睛的定位。 huang 等14使用了另一种几何特征提取机制,即采用动态模板(deformable template)与活动轮廓模型(active contour models)提取人脸器官的轮廓。其实早在 1988 年,kass15等就首先提出了称为 snake 的活动轮廓模型,它实质是一种能量 极小化模型,内力约束它的形状,外力引导它的行为。内部力起到平滑性的限制 作用,而外部力引导轮廓线向图像特征运动,活动轮廓线在内、外力作用下找寻 其能量函数的极小值。最早开始设计出的活动轮廓模型是交互式的,近年来随着 sa(simulated annealing)、dp(dynamic programming)等算法的提出,实现了活动轮 廓算法的自动化16。snake 方法主要用于提取眉毛和下巴的轮廓。yuile1718等提 出了动态模板模型提取眼睛和嘴巴的轮廓。动态模板是参数化的简单图元模型, 用一组根据特征形状的先验知识设计的参数来定义,参数向能量函数减少的方向 调整,当能量函数达到最小时,对应的模板即为所提取的特征轮廓。能量函数的 设计同样也必须以人脸先验知识为依据,具体采用何种图元需视待提取特征的形 状而定。snake 方法和动态模板方法一般能提取人脸特殊部位精确的几何轮廓,比 较灵活,可适用于质量比较差的人脸图像,但这两种方法都需要预先给定起始位 置,能量函数收敛与否以及其收敛速度同起始位置有关,起始位置的不正确往往 会导致轮廓提取的失败。起始位置的确定一般是经过投影或边缘检测的方法,在 基于一定的先验知识(如“三庭五眼”等)的条件下得到的。这种几何特征提取方法 的另一个缺点是它的计算比较繁琐。 paul19对用神经网络提取几何特征进行了尝试, 对人脸中的每一个器官, 都构 建了一个神经网络。对每一个器官,输入大量的子图进行训练,得到稳定的神经 元系数后,输入新图像即可知该器官特征在子图中的位置,再反向映射回人脸图 像,就最终确定了该器官在人脸图像中的位置。但该方法自适应性不强,无法适 应图像的旋转变化,同时它无法提取细节特征,仅可用来定位器官。 相比于一维特征(如人脸侧面轮廓上的特征点等)、二维特征(正面提取的五官 重庆大学博士学位论文 4 位置、形状等),人脸三维特征的提 取就要困难的多,因为从二维图像 重建三维模型是病态(ill-posed)过 程,一般通过加一些光滑性约束条 件进行估计,但人脸更具有其特定 的结构,因此光靠添加光滑性约束 条件的效果不理想。mirhosseini 等 20把人脸看成一刚性旋转体,采用 14 个特征点, 建立了人脸三维模型 (如图 1.1)对人脸的旋转度估计后 进行补偿来解决旋转人脸识别的问 题。而等灰度线分析方法21则试图 通过从二维图像的人脸图上提取等 灰度线来反映人脸的三维信息,其根据是地图上的等高线能反映地形特征,不同 人脸的等灰度线也可以用来比较人脸的相似度。 总体说来,人脸的几何特征属于直观性特征,简单却容易受到人脸表情、光 照条件、噪音的因素的影响,如人脸表情变化会直接影响提取的人脸五官的轮廓、 形态和位置的很大变化,因此稳定性不高,且识别效果差。 1.3.2 基于子空间分析的人脸识别 由于人脸图像的复杂性,显式的描述人脸特征具有一定的困难,因此近年来, 基于统计分析的子空间方法越来越受到重视,成为当前人脸识别方法的主流。由 于人脸图像的维数通常都是很高的,而实际上人脸图像在这样的高维空间中分布 很不紧凑,因而不利于分类,并且在计算上的复杂度也非常大,因此人们往往将 人脸图像投影到低维的子空间进行判别。子空间方法的基本出发点是根据一定的 性能目标来寻找一线性或非线性的空间变换,把原始信号数据压缩到一个低维的 子空间中,使数据在该子空间的分布更加紧凑,为数据的描述提供了更好的手段, 另外,其计算复杂度也大为降低。特征脸方法2223就是典型的一种线性子空间方 法。子空间分析方法除了有线性和非线性之分以外,根据不同的性能目标要求, 得到的子空间也是不一样的。目前在人脸识别中得到成功应用的子空间分析方法 包括主元分析(pca)、 奇异值分解(svd)、 线性鉴别分析(lda)、 独立主元分析(ica)、 和非负矩阵因子(nmf)等。基于核方法的非线性子空间方法主要有核主元分析 (kpca)、核 fisher 判别分析(kfda)等。 k-l 变换是图像压缩中的一种最优正交变换,它以样本的最优重建为目的。 sirovich和kirby22首先采用主元分析法(principal component analysis, pca)将k-l 图 1.1 人脸的三维模型 fig 1.1 3d model of face 1 绪 论 5 变换用于人脸图像的最优表征。turk 和 pentland23具体将 k-l 变换应用于人脸识 别,提出了经典的“特征脸”(eigenfaces)方法。该方法将人脸图像看成随机变量, 通过图像矢量化(图像的每个象素视为矢量的一个元素, 串连所有的行或列)后采用 k-l 变换获得其正交基,通过保留部分主元 (也称主分量),得到低维的人脸向量 空间。每个待识别图像和训练样本均可以用该向量空间中的一点表示,通过计算 他们之间的欧式距离即可进行识别。如将主元按图像阵列排列,则可以看出这些 主元呈人脸形状,因此这些主元也称为特征脸。关于正交基的选择可以有不同的 考虑,主元可用来表达人脸的大体形状,而具体细节还需要用与小特征值对应的 特征向量(也称次元或次分量)来加以描述。也可理解为低频成分用主元表示,而高 频成分用次元表示。从人脸识别的角度上来讲,所有人脸的大体形状和结构相似, 真正用来区别不同人脸的信息是那些用次元表达的高频成分。 k-l 变换在 90 年代初受到了很大的重视,从压缩能量的角度来说,k-l 变换 是最优的,不仅使得降维前后的均方差最小,而且变换后的低维空间有很好的人 脸表达能力。但具有很好的人脸表达能力并不是说就具有了很好的人脸鉴别能力, 因为它采用的是图像统计的方法而非人脸统计的方法。虽然它考虑到了图像之间 的差异,但是由于它不管这样的差异是由光照、背景和姿态变化等其他因素导致 的还是人脸的内在差异,因此在光照和人脸姿势等变化较大的时候识别率急剧下 降24。其改善的一个思路为对输入图像做规范化处理,如姿态校正、均值方差归 一化、人脸尺寸归一化等;lanitis 等25提出的形状无关脸(shapelessface),就是依 据脸部基准点将人脸变形到标准脸后再进行特征脸处理。另一种改进是在考虑到 人脸的局部图像相对受干扰较少,turk 和 pentland 不仅计算了特征脸,还计算了 特征眼、特征嘴、特征鼻等,对各种特征进行加权匹配可以改善识别效果。 考虑到人脸的镜像对称性,杨琼26等对特征脸方法进行了改进,提出了一种 称之为对称主元分析的人脸识别方法。该方法根据奇偶分解原理,由原始图像生 成镜像奇、偶对称样本,扩大了样本容量,并分别采用 k-l 变换提取主元特征。 但该算法仍是以最优重建而不是最优鉴别为目的的。akamatsu27等提出 kl_ipat 和 kl_fsat 这两个标准化 kl 系数对特征脸方法进行改进。kl_ipat 首先对每幅 图像进行标准化,即经过变换、放缩、旋转使三个参考点(两眼中心、嘴中心)以一 定的空间距离分布,然后对变换后的图像进行 kl 变换;kl_fsat 则是先将标准 化的图像进行傅立叶变换,然后对傅立叶频谱进行 kl 分解。akamatsu 等首先用 在同一条件下取得 20 幅人脸图像(其中 5 幅作为测试样本)分别进行识别,采用 kl_ipat 标准化 kl 系数的方法获得 85的识别率而 kl_fsat 则获得 91的识 别率。随后,他们对人脸位置的分别变化 4 个象素和 8 个象素进行了实验,采用 kl_fsat 的错误率明显低于采用 kl_ipat 的错误率,akamatsu 把此归功于频域 重庆大学博士学位论文 6 的位移不变属性。然而,当头的位置发生变化时,采用 kl_fsat 和 kl_ipat 进 行识别效果都差强人意。 attick2829等在特征脸的基础上进一步提出了特征头(eigenheads)的概念,从 人脸的二维图像重建人脸的三维模型。类似于特征脸,人脸也可通过训练样本得 到的特征头进行加权表示。显然,采用曲面能更有效的表征实际人脸,而且对光 照差异等有很强的稳定性, 因而比特征脸方法更为有效。 pentland 等30利用对每个 视角都作局部主元分析来实现多视角的人脸识别。moghaddam31等根据主元分解 后得到的两个正交子空间的特性,提出了基于主元分析的贝叶斯框架,讨论了在 简单情况下可用单高斯函数来描述样本在主元子空间的分布,在存在光照、姿态 等变化的复杂情况下,则选择混合高斯形式,混合高斯的参数可通过 em 算法来 估计。然而,人脸识别是一个典型的高维小样本问题,因此用混合高斯来描述有 些不切实际,因为它通常需要一定量的训练样本才能得到可靠的结果。liu 等32 提出结合主元分析的概率推理模型(probabilistic reasoning models),假设在主元子 空间中每类的类条件概率服从一正态分布。基于分层的主元概率子空间方法33的 思想是分别用主元分析去提取与描述人脸的类内变化和类间变化的特征,然后再 结合文献31的思想,用贝叶斯决策规则来分类。实验的结果表明结合贝叶斯分类 框架和主元分析的人脸识别方法比经典特征脸方法要优越些,这说明了贝叶斯决 策的优越性。文献34中提出了 eigenhill 的方法实际上是先对原始图像采用边缘滤 波和局部平滑的预处理,再利用主元分析提取特征,实验表明可以更为有效的处 理人脸图像中的表情变化。 洪子泉等35最早提出了采用 svd 方法提取图像的奇异值特征, 并论证了该特 征是一种有效的图像识别特征。程永清等36进一步发展了奇异值方法,并将其用 于人脸识别,取得了较好的效果。本质上,svd 方法和特征脸识别方法同属子空 间方法分析的范畴,都是将表达人脸的图像数据投影到子空间进行模式分类,其 区别仅是给出的变换基不同。奇异值特征是将图像投影至其自身的两个正交矩阵 所得到的系数表征,这意味着采用奇异值特征进行识别的方法实质上是将人脸在 不同的基准下进行比较,因此这种算法具有很大缺陷,我们将在第二章详细说明 这个问题,并给出一种新的方法。 lda 则是以样本的可分性为目标的,寻找一组线性变换,使得每类的类内离 散度最小而类间离散度最大,因此从理论上来说,lda 较 pca 更适合于人脸识别 问题。然而,主元分析和线性鉴别分析都是基于训练样本的二阶统计信息,而忽 略了高阶统计信息,实际上高阶统计信息有时对识别来说也是非常有用的。独立 主元分析(ica)3738的思想就是通过线性变换,从训练样本中找到一组互相独立的 基(独立元), 并以此来描述样本数据。 主元分析实际上是在二阶统计意义上去相关, 1 绪 论 7 而独立主元分析则是在所有阶统计意义下去相关,从而使信号的二阶统计和高阶 统计都得到了有效利用。由于 ica 基于所有阶的统计信息,因而其求解较 pca 和 lda 更复杂。bartlett39等首先将 ica 应用于人脸识别中,把人脸图像看成多个独 立的基图像的线性叠加。文献40先采用 ica 方法提取特征,然后结合支持向量机 来提高分类效果。文献41对 ica 方法进行了详细的评价说明,并与特征脸方法和 fisherfaces 方法进行比较,结果显示 ica 略好于后两者。但在文献42中作者指出 在选择各自最佳的距离度量后,ica 明显不如 pca,且 ica 计算复杂。 神经科学和认知科学的相关分析研究表明,利用对象的局部稳定性有时对识 别是非常有利的43,而 pca、lda 等均是作为一种全局描述,尽管在自然场景的 图像中,独立主元分析也类似于一个边缘滤波器,但是用基图像的线性组合来描 述原图像时,可能会存在复杂的减性关系,不符合由局部累加为一个整体的直观 性,同样 pca 和 lda 也存在这样的弱点。非负矩阵因子43的思想就是寻找一线 性空间 w,使得原样本 x 在 w 上的投影 h 满足 x y = wh ,且 w、h 中的元 素都时非负的。li 等4344将它应用于人脸检测和识别,但没有验证它的稳定性, 另外对子空间基的个数的选定等,也没有一个可参考的标准。 基于线性子空间的人脸识别,实际上是把人脸图像中存在的表情、姿态及光 照等复杂的变化进行了线性简化,因此不可能得到人脸充分的描述。最近非线性 的核方法由于其在支持向量机(svm)45上的成功应用而引起了广泛的关注。核方 法的思想就是利用一非线性映射,把原空间的数据映射到一隐特征空间,然后在 这一隐特征空间中对数据进行分析,而在计算上并不需要明确计算这个非线性变 换,只需要通过一内积核函数来计算在隐特征空间中两两向量的内积即可。目前 已应用于人脸识别中的有核主元分析(kpca)46和核 fisher 判别分析(kfda)4748 等。yang 等49将 kpca 和特征脸方法和 ica 方法进行了比较,实验结果表明核主 元分析具有一定的优越性。尽管 kpca 比 pca 能更有效的描述人脸的复杂变化, 但它同 pca 方法一样, 得到的非线性主元基仍是以所有样本的最优重建为目标的, 所以对于分类也不一定是最优的。kfda 是结合了核方法和线性判别分析的思想, 来提取非线性的判别特征,既有线性判别分析的特点,又能有效描述数据中复杂 的非线性关系, 因此从理论上来说应该比 kpca 更适合于人脸识别问题, liu 等50 的实验也验证了这一点。 总体说来,子空间分析的方法具有计算代价小、描述能力强、可分性好等特 点,现已经成为人脸识别的主流方法之一。每种子空间方法都有优缺点,但从理 论上和大多数的实验结果来看,基于可分性准则的线性鉴别分析在人脸识别研究 中具有一定的优越性;此外,由于核方法的引入,使得基于核的非线性鉴别分析 倍受关注。本文将详细介绍基于鉴别分析的子空间方法。 重庆大学博士学位论文 8 1.3.3 基于小波特征的人脸识别 将信号变化到频域后再对其进行分析是信号处理中的经典方法之一。图像是 一类复杂的非线性非平稳信号源,图像信息的处理要求相应的非线性非平稳的信 号处理方法。近年来小波变换由于其优良的时频局部性能成为研究者们普遍接受 的信号分析处理工具。人们总希望借助人类视觉系统机理对人脸进行识别,而小 波变化实质上是对信号用一组不同尺度的带通滤波器进行滤波,将信号分解到不 同的频带上,进行分析处理,这与人类视觉系统的多通道滤波模型理论上是一致 的,而且由于小波滤波器的带宽在对数尺度下是相同的,与人类视觉通道按对数 特性变化一致。因此,采用小波变换提取特征进行识别的方法已经成为人脸识别 领域的又一新方法。manjunath51 等采用小波分解和局部尺度分析提取图像曲率 极大点的特征进行识别。nastar52等研究了人脸表情变化与其频谱变化的关系。他 们发现人脸表情变化和少许遮掩只影响局部光强度流(intensive manifold locally), 如果用频率来表达,只会影响到高频部分,称为高频现象(high frequency phenomenon)。赖剑煌等5354提出了一种基于小波变换和 fourier 变换提取人脸的 位移不变特征和表情不变特征进行人脸识别的方法,称为频谱脸(spectrofaces)。他 们首先对人脸图像进行降维表达,即采用某种具有一定光滑度、紧支撑和正交的 小波函数,对人脸图像进行若干层二维小波分解,并取低频子带图像作为其低维 的近似表达,然后对选择出来的低维图像作傅立叶变换,以其振幅信息作为该人 脸的特征表达。识别时根据 euclidean 距离最小进行分类。此外,他还采用矩的方 法55对图像进行预处理,认为矩方法可以有效 的对人脸的伸缩和平面旋转进行矫正。 同时, 他 们对最近邻法、平均法、hausdroff 距离法和修 正的 hausdroff 距离法等四种经典的相似性度量 方法进行比较后,认为最近邻法是最有效的方 法,因为它对诸如位移、伸缩、平面转移、少许 遮掩及姿势、 表情和光照条件变化等诸多影响人 脸识别的因素均具有最佳的容错性。 人脸识别同其他 3d 物体识别一样,但投影不同形状发生改变时,如何保持视 觉的拓扑结构是非常重要的一点。解决这一问题的有效途径是采用动态链接结构 (dynamic link architecture, dla)56,并采用属性拓扑图来表达人脸(如图 1.2 所 示),其拓扑图的任一顶点均包含经一系列 gabor 小波变换后的小波特征,边则表 示拓扑连接关系并用几何距离来标记。人脸的相似度可以用拓扑图的距离来表示, 而最佳匹配应同时考虑顶点特征矢量的匹配和相对几何位置的匹配。lades 等56 将匹配分为严格匹配(rigid matching)和弹性匹配(deformable matching)两种,并分 图 1.2 基于网格的拓扑图 fig 1.2 topological graph of face based on lattices 1 绪 论 9 别对这两种不同的匹配方式定义其能量函数,从而把最佳匹配问题转化为最小化 能量函数问题。但由于对每个局部特征矢量都要进行穷举匹配,计算复杂,很难 在有效的时间内获得最小的能量函数。wiskott57等在弹性匹配方法的基础上进一 步提出了弹性串图匹配,进一步采用人脸基准点(如图 1.3 所示),而不是采用二维 网格作为拓扑图的节点,同时节点特征也是 小波特征,即它忽略了除重要人脸部件以外 的特征数据。 此外, dla 中特征库的存储是 面向人脸的,因而导致人脸的特征库很大, 而 wiskott 等提出的特征存储方法是基于人 脸基准点的,因此是存储数据量大大减少; 另一个优点是该存储结构具有更强的表达 潜力。 zhang 等24分别采用特征脸和弹性匹配方法对综合 mit, olivetti, weizmann, bern 等 4 个人脸库进行识别,得出弹性匹配的方法优于特征脸方法的结论。他们 认为这是因为拓扑图的顶点采用的是小波特征,它对光照、变换、尺寸以及角度 具有一定的不变性。由于采用弹性匹配的方法,在一定程度上容忍了表情等的微 小变化,因而稳定性强。弹性匹配的方法是在保留了部件拓扑结构的基础上提取 局部特征,而特征脸提取的则是人脸的整体特征,整体特征相对而言更容易受光 照视角等的干扰,因此 zhang 等认为这也是弹性匹配识别效果优于特征脸方法的 一个重要原因。另外,在特征库的扩充方面,弹性匹配具有特征脸方法无法比拟 的优势24。 弹性匹配方法是一种基于小波局部统计特征的方法,该特征类似于人眼视网 膜对图像的响应,在一定程度上容忍光线等干扰,对细微表情也不敏感,而且弹 性匹配中的人脸模型还考虑了局部人脸细节,并保留了人脸的空间分布信息,且 它的可变形匹配方式一定程度上能够容忍人脸从三维到二维投影所引起的变形。 这众多的优点使得弹性匹配方法在上世纪末成为最为有效的方法之一,但其计算 复杂、耗时长、难达到实时处理等缺点阻碍了其进一步的发展。 1.3.4 基于隐马尔可夫模型的人脸识别 隐马尔可夫模型(hidden markov model, hmm)是语音处理中的一种成功的概 率统计方法,适合于识别一维时变信号序列。samaria58最早采用线性的从左至右 的 hmm(linear left-right hmm)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论