版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
...wd......wd......wd...人脸识别技术的发展与现状研究摘要人脸识别是一个具有很高理论和应用价值的研究课题。人脸是人类视觉中最为普遍的模式,它所反映的视觉信息在人与人的交流和交往中有着及其重要的作用意义。人脸的特殊性,使得人脸识别技术成为最具潜力的身份识别方式。人脸识别技术应用广泛,并且日益受到人们的广泛关注并成为模式识别领域研究的热点。同时人脸识别又是一个复杂和困难的课题,其原因有:人脸是由复杂的三维曲面构成的可变形体,难以用数学描述;所有的人脸构造高度相似,而人脸图像又易受年龄和成像条件的影响。人脸识别涉及的技术很多,其中关键的是特征提取和分类方法,本文就以此为重点进展了相关研究。主要工作包括以下几个方面:1.在人脸图像特征提取方面,提出了一利〞有效的基于ICA的人脸整体特征提取方法;2.在优化ICA算法方面,提出了一种改良的FastICA算法,该算法通过减少耗时的雅可比矩阵求逆的次数,进一步加快了收敛速度;3.建设了SVM/HMM的混合人脸模型。关键词:人脸识别主分量分析;独立分量分析;隐马尔可夫模型;支持向量机目录第1章引言61.1人脸识别技术的应用与难点61.1.1人脸识别技术的广泛应用61.1.2人脸识别技术的难点81.2人脸识别技术的开展与现状81.2.1人脸识别技术开展的三个阶段91.2.2国内外开展现状91.3人脸识别的研究内容与主要方法101.3.1人脸识别的研究内容101.3.2人脸识别的视觉机理111.3.3人脸识别系统的组成111.3.4主要的人脸识别方法121.4人脸识别测试数据库161.5本文的主要内容17第2章基于主分量分析的人脸识别方法182.1引言182.2主分量分析的理论根基182.2.1多维统计数据的线性变换192.2.2主分量分析方法202.3基于主分量分析的人脸识别方法212.3.1基于主分量分析的人脸特征提取212.3.2基于主分量分析的人脸分类识别222.4实验结果及分析242.5本章小结27第3章基于独立分量分析的人脸识别方法283.1引言283.2独立分量分析的理论根基283.2.1独立分量分析与盲源别离283.2.2独立分量分析的线性模型293.3基于独立分量分析的人脸识别方法303.3.1人脸图像的预处理313.3.2基于独立分量分析的人脸特征提取323.3.3独立分量的排序及选择343.3.4基于ICA系数的人脸分类识别353.4独立分量分析的算法研究353.4.1Informax算法363.4.2FastICA算法及其改良373.5实验结果及分析393.6本章小结41第4章基于隐马尔可夫模型的人脸识别方法444.1引言444.2隐马尔可夫模型的理论根基444.2.1马尔可夫链444.2.2隐马尔可夫模型464.2.3隐马尔可夫模型中的三大问题474.2.4隐马尔可夫模型的类型484.3基于隐马尔可夫模型的人脸识别方法概述484.3.1基于HMM人脸识别的基本原理484.3.2基于HMM人脸识别的系统概述494.4基于一维隐马尔可夫模型的人脸识别方法494.4.1特征提取504.4.2模型训练504.4.3分类识别524.5基于伪二维隐马尔可夫模型的人脸识别方法524.6基于I以特征和SMV/1翎以的人脸识别方法534.7实验结果及分析544.8本章小结56第5章完毕语575.1人脸识别方法评估575.1.1人脸识别方法评估的性能指标575.1.2本文中人脸识别方法的评估结果585.2本文工作的总结及进一步研究方向的展望595.2.1本文的主要工作595.2.2进一步研究方向的展望60第1章引言1.1人脸识别技术的应用与难点人脸是自然界存在的一种特殊的、复杂的视觉模式,它包含着极其丰富的信息。首先,人脸具有一定的不变性和唯一性,人脸识别是人类在进展身份确认时使用的最为普遍的一种方式,其次,人脸图像还能提供一个人的性别、年龄、种族等有关信息。人类在人脸识别中所表现出来的能力是令人惊异的,但是让计算机能够识别人脸,却是非常困难的问题。迄今为止,人脸识别的认知过程和内在机理仍然是一个未解之谜,若何实现一个自动的人脸识别系统仍然是一个悬而未决的难题。从上个世纪六十年代以来,随着计算机和电子技术的迅猛开展,人们开场利用计算机视觉和模式识别等技术对人脸识别进展研究。近年来,随着相关技术的不断开展和实际需求的日益增加,人脸识别已经引起了越来越多的关注,成为了信息处理和人工智能等领域研究的热点之一,新的研究成果和实用系统也不断涌现。人脸识别技术的广泛应用一项技术的问世和开展与人类的迫切需求是密切相关的,飞速开展的社会经济和科学技术使得人类对安全(包括人身安全、隐私保护等)的认识越来越重视。人脸识别的一个重要应用就是人类的身份识别。一般来说,人类的身份识别方式分为三类:a.特殊物品,包括各种证件和凭证,如身份证、驾驶执照、房门钥匙、印章等;b.特殊知识,包括各种密码、口令和暗号等;c.人类生物特征,包括各种人类的生理和行为特征,如人脸、指纹、手形、掌纹、虹膜、DNA、签名、语音等。前两类识别方式属于传统的身份识别技术,其特点是方便、快捷,但致命的缺点是安全性差、易伪造、易窃取。特殊物品可能被丧失、偷盗和复制,特殊知识容易被遗忘、混淆和泄露。相对比而言,由于生物特征是人的内在属性,具有很强的自身稳定性和个体差异性,因此生物特征是身份识别的最理想依据。基于以上相对独特的生物特征,结合计算机技术,开展了众多的基于人类生物特征的身份识别技术,如NDA识别技术、指纹识别技术、虹膜识别技术、语音识别技术和人脸识别技术等。表1-1为各种生物识别技术的综合对比。表1-1各种生物特征识别技术的综合对比生物识别技术在上个世纪己经有了一定的开展,其中指纹识别技术己经趋近成熟,但人脸识别技术的研究目前还处于起步阶段。指纹、虹膜、掌纹等识别技术都需要被识别者的配合,有的识别技术还需要添置复杂昂贵的设备。人脸识别则可以用已有的照片或是摄像头远距离捕捉图像,无须特殊的采集设备,系统的成本低。并且自动人脸识别可以在当事人毫无觉察的情况下即完成身份确认识别工作,这对反恐惧活动等有非常重大的意义。由于人脸识别技术具有如此之多的优势,因此它的应用前景非常广阔,已成为最具潜力的生物特征识别技术之一。本文将人脸识别技术的各种应用及其特点总结在表1-2中。表1-2人脸识别技术的应用人脸识别最初的应用源于公安部门关于罪犯照片的存档管理和刑侦破案。现在该技术在安全系统、商业领域和日常生活中都有很多应用,主要有以下几类应用:1.刑侦破案。当公安部门获得罪犯的照片后,可以利用人脸识别技术,在存储罪犯照片的数据库中找出最相像的人作为嫌疑犯,极大的节省了破案的时间和人力物力。还有一种应用就是根据目击证人的描述,先由专业人员画出草图,然后用此图到库里去找嫌疑犯。罪犯数据库往往很大,由几千幅图像组成。如果这项搜索工作由人工完成,不仅效率低,而且容易出错,因为人在看了上百幅人脸图像后,记忆力会下降,而由计算机来完成则不会出现此问题。2.证件验证。身份证、驾驶执照以及其他很多证件上都有照片;现在这些证件多由人工验证完成。如果应用人脸识别技术,这项工作就可以交给机计算机完成,从而实现自动化及智能管理。当前普遍使用的另一类证件是用符号或者条形码标记的,比方信用卡。这类卡的安全性对比低,可能遗失、被窃取,使用场合(比方自动提款机)的安全性也对比差。如果在这类卡上加上人脸的特征信息,则会大大改善其安全性能。3.入口控制。需要入口控制的范围很广,它可以是重要人物居住的住所、保存重要信息的单位,只要人类觉得安全性对比重要的地点都可以进展入口控制,对比常用的检查手段是核查证件。人员出入频繁时,保安人员再三检查证件是很麻烦的,而且证件安全性也不高。在一些保密要求非常严格的部门,除了证件外,已经使用了生物特征识别手段,如指纹识别、掌纹识别、虹膜识别和语音识别等。人脸识别与这些技术相比,具有直接、方便和友好的特点。当前计算机系统的安全管理也备受重视,通常使用由字符和数字组成的口令(Password)进展使用者的身份验证,但口令可能被遗忘,或被破解,如果将人脸作为口令,则既方便又安全。4.视频监控。在银行、公司、公共场所等处设有24小时的视频监控,若何对视频图像进展筛选分析,就需要用到人脸检测、跟踪和识别技术。除了以上应用外,人脸识别技术还可以用于视频会议、机器人的智能化研究等方面。尤其从美国9.11事件后,人的身份识别问题更是提升到了国家安全的角度,若何利用人脸信息迅速确定一个人的身份成了各个国家重点研究的技术。1.1.2人脸识别技术的难点虽然人类可以毫不困难地根据人脸来区分一个人,但是利用计算机进展完全自动的人脸识别,仍存在许多困难。人脸模式的差异性使得人脸识别成为一个非常困难的问题,表现在以下方面:1.人脸表情复杂,人脸具有多样的变化能力,人的脸上分布着五十多块面部肌肉,这些肌肉的运动导致不同面部表情的出现,会造成人脸特征的显著改变;2.人脸随年龄而改变,随着年龄的增长,皱纹的出现和面部肌肉的松弛使得人脸的构造和纹理都将发生改变;3.人脸有易变化的附加物,例如改变发型,蓄留胡须或者佩戴帽子和眼镜等饰物;4.人脸特征遮掩,人脸全部、局部遮掩将会造成错误识别;5.人脸图像的畸变,由于光照、视角、摄取角度不同,可能会造成图像的灰度畸变、角度旋转等,降低了图像质量,增大了识别难度。所以很难从有限张人脸图像中提取出反映人脸内在的、本质的特征。另外人脸识别还涉及模式识别、图像处理、计算机视觉、生理学和心理学等学科领域。这诸多因素使得人脸识别至今仍是一个有待深入研究,极富挑战性的课题。同时一个成功的、具有商用价值的快速的人脸识别系统将会给社会带来极大的影响。1.2人脸识别技术的开展与现状人脸识别的研究可以追溯到20世纪60年代末,最早的研究见于文献[1]。Bledsoe以人脸特征点的间距、比率等参数为特征,建成了一个半自动的人脸识别系统。人脸识别的开展大致经过了三个阶段,其中伴随开展了多样的人脸识别技术。1.2.1人脸识别技术开展的三个阶段第一阶段一非自动识别阶段:主要研究若何提取人脸识别所需的特征。通过简单的语句描述人脸数据库成为待识别人脸设计逼真的摹写来提高面部识别率。这是需要手工干预的阶段。此阶段以Bertillon、Allen和Parke为代表。在Bertillon系统中,用了一个简单的语句与数据库中的某一张脸相联系,同时与指纹识别相结合,提供了一个较强的识别系统。为了提高面部识别率,Allen为待识别人脸设计了一种有效逼真的摹写[2],Parke则用计算机实现了这一想法[3],并且产生了较高质量的人脸灰度图模型。在此阶段,识别过程全部依赖于操作人员,所以不是一种自动识别的系统。第二阶段一人机交互阶段:这一阶段虽然实现了一定的自动化,但还需要操作员的某些先验知识,仍然不是一个完全自动的识别系统。此阶段的代表性工作有:Goldstion、Harmon和Lesk等人用几何特征参数来表示人脸正面图像[4]。他们采用21维特征矢量表示人脸面部特征,并设计了基于这一表示法的识别系统。Kaya和Kobayashi则采用了统计识别的方法,用欧氏距离来表示人脸特征[5],例如嘴和鼻子之间的距离,嘴唇的高度,两眼之间的距离等。更进一步的,T.Kanad设计了快速且有一定知识引导的半自动回溯识别系统[6],创造性的运用积分投影法从单幅图像上计算出一组脸部特征参数,再利用模式分类技术与标准人脸相匹配。Kanad的系统实现了快速、实时的处理,是一个很大的进步。总的来说,上述方法都需要利用操作员的某些先验知识,始终摆脱不了人的干预。第三阶段一自动识别阶段:这一阶段真正实现了机器自动识别,产生了众多人脸识别方法,出现了多种机器全自动识别系统。近十余年来,随着高速度、高性能计算机的开展,人脸识别方法有了较大的突破,提出了多种机器全自动识别系统[7]。近年来,人脸识别技术研究也非常活泼,除了基于K一L变换的特征脸方法与奇异值特征为代表的代数特征方法取得了开展外[8][9],人工神经网络[10][11]、隐马尔可夫模型·小波变换等也在人脸识别研究中得到了广泛的应用[12][13],而且出现了不少人脸识别的新方法[14][15][16]。本文将在1.3节介绍人脸识别的主要内容与方法。1.2.2国内外开展现状目前,国外对人脸识别问题的研究对比多,其中对比著名的有MTI、CMU、Cornell和Rockfeller等,MPEG标准组织也已经建设了专门的人脸识别草案小组。国际上发表的相关论文数量也大幅度增长,EIEE的著名国际会议,如EIEEInternationalConferenceonAutomaticFaceandGestureRecognition、InternationalConferenceonImageProcessing、ConferenceonComputerVisionandPatternRecognition等,每年都有大量关于人脸识别的论文。截至2005年3月,EIEE/IEE全文数据库中收录的关于“face〞的文章8916篇,其中有关“facerecognition〞的3280篇,约占36.8%,并且每年的文献呈急剧上升趋势。同样在工程索引El中,至2005年3月,共有81657篇有关“face〞的文献,数目是惊人的,并且2000年后快速增长。国内对人脸识别领域的研究起步较国外晚,但近十年来呈现飞速开展,据中国期刊网统计,1996年至2005年3月,有关“人脸〞的文献1467篇,其中人脸识别领域的文章494篇,并且再近几年获得快速增长,也预示人脸识别领域得到快速开展。目前国内大局部高校有人从事人脸识别相关的研究,其中技术对比先进的有中科院自动化所、清华大学、浙江大学等。1.3人脸识别的研究内容与主要方法自动人脸识别技术(AFR)就是利用计算机技术,根据数据库的人脸图像,分析提取出有效的识别信息,用来“识别〞身份的技术。人脸识别技术的研究始于六十年代末七十年代初,其研究领域涉及图像处理、计算机视觉、模式识别、计算机智能等领域,是伴随着现代化计算机技术、数据库技术开展起来的综合穿插学科。1.3.1人脸识别的研究内容人脸识别的研究范围广义上来讲大致包括以下五个方面的内容。1.人脸定位和检测(FaceDetection):即从在动态的场景与复杂的背景中检测出人脸的存在并且确定其位置,最后别离出来。这一任务主要受到光照、噪声、面部倾斜以及各种各样遮挡的影响。2.人脸表征(FaceRepresentation)(也称人脸特征提取):即采用某种表示方法表示检测出人脸与数据库中的己知人脸。通常的表示方法包括几何特征(如欧氏距离、曲率、角度)、代数特征(如矩阵特征向量)、固定特征模板等。3.人脸识别(FaceIdentification):即将待识别的人脸与数据库中人脸对比,得出相关信息。这一过程的核心是选择适当的人脸表征方式与匹配策略。4.表情姿态分析(Expression/GestureAnalysis):即对待识别人脸的表情或姿态信息进展分析,并对其加以归类。5.生理分类(PhysicalClassification):即对待识别人脸的生理特征进展分析,得出其年龄、性别等相关信息,或者从几幅相关的图像推导出希望得到的人脸图像,如从父母图像推导出孩子的脸部图像和基于年龄增长的人脸图像估算等。人脸识别的研究内容,从生物特征技术的应用前景来分类,包括以下两个方面:人脸验证与人脸识别。1.人脸验证(FaceVerification/Authentication):即是答复“是不是某人?(AmIwhomIclaimIam?)〞的问题。它是给定一幅待识别人脸图像,判别它是否是“某人〞的问题,属于“一对一〞的两类模式分类问题,主要用于安全系统的身份验证。2.人脸识别(FaceIdentification/Recognition):即是答复“是谁?(WhoamI?)〞的问题。它是给定一幅待识别人脸图像,在已有的人脸数据库中,判别它的身份的问题。它是个“一对多〞的多类模式分类问题,通常所说的人脸识别即指此类问题,这也是本文的主要研究内容。1.3.2人脸识别的视觉机理近几年的研究说明[17],人类视觉数据处理是多层次的过程,其中最低层的视觉过程(视网膜功能)起到信息转储作用,即将大量图像数据转换为较为抽象的信息,这一任务由视网膜中的两类细胞完成:低层次的细胞对空间的响应与小波变换作用类似,高层次的细胞则依据低层次细胞的响应,而作出具体的线、面乃至物体模式的响应。这说明在视觉处理过程中,神经元并不是随便的、不可靠的把视觉图像的光照强度投射到感觉中枢,它们可以检测模式单元,区分物体的深度,排除无关的变化因素,并组成一个令人感兴趣的层次构造。人脸识别不仅有着以上普通视觉过程的特点,而且具有以下独特之处[18-22][23]。1.人脸识别是大脑中一个特有的过程。针对人脸识别,大脑中存在一个专门的处理过程;2.在人脸感知与识别过程中,局部特征与整体特征均起作用。假设存在明显的局部特征,整体特征将不起作用;3.不同的局部特征作用对识别的奉献也不同。在正面人脸图像中,头发、人脸轮廓、眼睛以及嘴巴对识别和记忆有着重要影响,鼻子的作用则不是很重要。但在侧面人脸识别中,鼻子对特征点的匹配很有作用。通常来讲人脸的上部比下部对识别作用更大些;4.不同空间频率上信息的作用不同。低频信息代表了整体的描述,高频信息包含了局部的细节。对于性别的判断,仅利用低频信息就足够了,对于身份识别没有高频信息就无法完成;5.光照对视觉有影响。有实验说明,从人脸底部打光会导致识别困难;6.动态信息比静态信息更利于识别。研究还发现,对熟悉的人脸,人类的识别能力在动态场景中要高于静态场景;7.十岁以下的儿童识别人脸较多的采用显著特征,而较少的使用整体分析;8.不同的种族。性别的人脸识别的难易程度不同,这可能因为不同类型的人脸图像具有不同的特征;9.面部表情的分析与人脸识别并行处理。通过对脑部受损的病人研究说明,表情的分析与识别虽有联系,但总体来说是分开处理的。人脸识别是一种复杂的信息处理任务,它的研究涉及计算机技术、心理学和神经生理学。视觉机理、心理学和神经生理学的研究结果无疑将非常有益于人脸识别技术的开展,这些结论对于设计有效的识别方法起到了一定启发作用。但除少数文献外[24],机器识别人脸的研究还是独立于心理学和神经生理学的研究的。1.3.3人脸识别系统的组成在人脸识别技术开展的几十年中,研究者们提出了多种多样的人脸识别方法,但大局部的人脸识别系统主要由三局部组成:图像预处理、特征提取和人脸的分类识别。一个完整的自动人脸识别系统还包括人脸检测定位和数据库的组织等模块,如图1-1。其中人脸检测和人脸识别是整个自动人脸识别系统中非常重要的两个技术环节,并且相对独立。下面分别介绍这两个环节。图1-1人脸识别系统框图人脸检测与定位检测图像中是否有人脸,假设有,将其从背景中分割出来,并确定其在图像中的位置。在某些可以控制拍摄条件的场合,如警察拍罪犯照片时将人脸限定在标尺内,此时人脸的定位很简单。证件照背景简单,定位也对比容易。在另一些情况下,人脸在图像中的位置预先是未知的,比方在复杂背景下拍摄的照片,这时人脸的检测与定位将受以下因素的影响:1.人脸在图像中的位置、角度、不固定尺寸以及光照的影响;2.发型、眼镜、胡须以及人脸的表情变化等;3.图像中的噪声等。特征提取与人脸识别特征提取之前一般需要做几何归一化和灰度归一化的工作。前者是指根据人脸定位结果将图像中的人脸变化到同一位置和大小;后者是指对图像进展光照补偿等处理,以抑制光照变化的影响,光照补偿能够一定程度的抑制光照变化的影响而提高识别率。提取出待识别的人脸特征之后,即可进展特征匹配。这个过程是一对多或者一对一的匹配过程,前者是确定输入图像为图像库中的哪一个人(即人脸识别),后者是验证输入图像的人的身份是否属实(即人脸验证)。以上两个环节的独立性很强。在许多特定场合下人脸的检测与定位相比照拟容易,因此“特征提取与人脸识别环节〞得到了更广泛和深入的研究。近几年随着人们越来越关心各种复杂的情形下的人脸自动识别系统以及多功能感知研究的兴起,人脸检测与定位才作为一个独立的模式识别问题得到了较多的重视。本文主要研究人脸的特征提取与分类识别的问题。1.3.4主要的人脸识别方法人脸识别技术作为模式识别领域的一个研究热点,每年都有许多相应的研究成果发表,并且涌现出各种各样的识别方法,可以说信息处理领域的各种新方法的研究和算法的改良都尝试在人脸识别中得到应用。文献[25][26]对近十年来人脸识别领域取得的成果进展了总结。人脸识别方法的分类,根据研究角度的不同,可以有不同的分类方法,这是研究人脸识别方法首先遇到的问题。本文在深入研究国内外人脸识别技术的开展和研究成果的同时,将已有的不同的分类方法做一个对比,目的是希望能从不同角度认识人脸识别问题,在较全面的了解各种方法优缺点的根基上,给本文的人脸识别方法提供研究方向。根据输入图像中人脸的角度,人脸识别技术可分为基于正面、侧面、倾斜人脸图像的人脸识别。由于实际情况的要求,对人脸正面模式的研究最多,这也是本文的研究内容。根据图像来源的不同,人脸识别技术可分为两大类:静态人脸识别和动态人脸识别。静态人脸识别,即人脸来源为稳定的二维图像如照片。如果人脸的来源是一段视频图像,则人脸识别就属于动态人脸识别。在头部运动和表情变化状态下的人脸识别都可以看作动态人脸识别,如视频监视中的人脸识别。动态人脸识别具有更大的难度:首先,视频输出的图像质量较差:其次,背景较复杂,目前对动态人脸识别的研究还局限于简单背景,较少人物的情况,对静态人脸识别的研究对比多。本文的研究也是基于静止图像的。根据人脸识别技术的开展历史,人脸识别方法大致可分为基于几何特征的人脸识别方法、基于模板匹配的人脸识别方法和基于模型的人脸识别方法。a.基于几何特征的人脸识别方法这是人脸识别技术开展中,应用最早的方法。该方法是通过提取人脸的几何特征,包括人脸部件的归一化的点间距离、比率以及人脸的一些特征点,如眼角、嘴角、鼻尖等部位所构成的二维拓扑构造进展识别的方法。所构造的几何特征既要清晰区分不同对象人脸的差异,又要对光照背景条件不敏感,常规的几何特征量很难满足这些要求。因此该方法识别效果不理想。b.基于模板匹配的人脸识别方法基于模板匹配的方法,主要是利用计算模板和图像灰度的自相关性来实现识别功能。一般基于人脸的全局特征,利用人脸模板和相关参数如灰度的相关性来进展检测和识别的。Berto在[27]中将基于几何模型的人脸识别方法和模板匹配进展了全面对比后,得出结论:前者具有识别速度快和内存要求小的优点,但在识别率上后者要优于前者。增加几何特征对于基于几何特征的人脸识别方法只能轻微的提高识别率,因为要提高几何特征的提取质量本身就十分困难,而且随着图像质量的下降和人脸遮挡的引入,基于几何特征的人脸识别效果会大幅下降。总之,认为模板匹配法要优于几何特征法。c.基于模型的人脸识别方法通过统计分析和匹配学习找出人脸和非人脸,以及不同人脸之间的联系。该方法包括特征脸法(Eigenface)、神经网络方法(NN)、隐马尔可夫模型方法(HMM)和支持向量机(SVM)等方法。和模板匹配的方法相比,基于模型方法的模板是通过样本学习获得,而非人为设定。所以该方法,从原理上更为先进合理,实验中也表现出更好的识别效果。根据人脸表征方式(即特征提取)的不同,还可以将人脸识别技术分为三大类:基于几何特征的识别方法、基于代数特征的识别方法和基于连接机制的识别方法。a.基于几何特征的人脸识别方法该方法在上文中已有阐述,它将人脸用一个几何特征矢量表示,用模式识别中层次聚类的思想设计分类器到达识别目的。该方法的困难在于没有形成一个统一的、优秀的特征提取标准。由于人面部的模式千变万化,即使是同一个人的面部图像,由于时间、光照、摄影机角度等不同,也很难用一个统一的模式来表达,造成了特征提取的困难。不过,由于现在各种优秀特征提取算法(如动态模板、活动轮廓等)的提出,使得人脸的几何特征描述越来越充分。而且在表情分析方面,人脸的几何特征仍然是最有力的判据。b.基于代数特征的人脸识别方法这类识别法仍然是将人脸用特征矢量表示,只不过用的是代数特征矢量。该方法在实际应用中取得了一定的成功[28]。由于代数特征矢量(即人脸图像向各种人脸子空间的投影)具有一定的稳定性,识别系统对不同的倾斜角度,乃至不同的表情均有一定的鲁棒性。所以,也说明了这种方法对表情的描述不够充分,难以用于表情分析。c.基于连接机制的人脸识别方法这类识别法将人脸直接用灰度图(二维矩阵)表征,利用了神经网络(NeuralNetwork,NN)的学习能力及分类能力[29][30]。这种方法的优势在于保存了人脸图像中的纹理信息及细微的形状信息,同时防止了较为复杂的特征提取工作。而且,由于图像被整体输入,符合格氏塔(Gestalt)心理学中对人类识别能力的解释。与前两种识别方法相比,基于连接机制的识别法具有以下明显不同:信息处理方式是并行而非串行;编码存储方式是分布式。但由于原始灰度图像数据量十分庞大,因此神经元数目通常很多,训练时间很长。另外,完全基于神经网络的识别法在现有的计算机系统(冯一诺伊曼构造)上也有其内在的局限性。神经网络虽然有较强的归纳能力,但当样本数目大量增加时,其性能可能会严重下降。本文根据人脸表征方法与特征综合方式的不同,认为将人脸识别方法分为基于几何特征的方法、基于模板匹配的方法和基于统计学习的方法,对比适宜。此分类方法即符合人脸识别技术开展的历史,又将人脸特征提取与分类识别有机的结合在一起。识别人脸主要依据那些在不同个体之间存在较大差异,而对于同一个人对比稳定的特征,具体的特征形式和综合方式(分类方式)的不同决定了识别方法的不同。图1-2列出了主要的人脸特征与综合方法。早期静态人脸识别方法研究较多的是基于几何特征的方法和基于模板匹配方法。目前,静止图像的人脸识别方法主要是基于样本通过统计学习识别人脸的方法,主要研究方向有:基于代数特征的识别方法,包括特征脸(Eigenface)方法[8]和隐马尔可夫模型(HMM)方法[31];基于连接机制的识别方法,包括一般的神经网络方法和弹性图匹配(ElasticGraphMatching)方法[32],以及以上方法的一些综合方法。基于统计学习的方法属于基于整体的研究方法,它主要考虑了模式的整体属性。因为基于整体的人脸识别不仅保存了人脸部件的拓扑关系,而且也保存了各部件本身的信息。文献[27]认为基于整个人脸的分析要优于基于部件的分析,理由是前者保存了更多信息。对于基于整个人脸的识别而言,由于把整个人脸图像作为模式,那么光照、视角以及人脸尺寸会对人脸识别有很大的影响,因此若何能够有效的去掉这些干扰就尤为关键。神经网络的方法在人脸识别上有其独到的优势,即它防止了复杂的特征提取工作,可以通过学习的过程获得其它方法难以实现的关于人脸识别的规律和规则的隐性表达。但是NN方法通常需要将人脸作为一个一维向量输入,因此输入节点庞大,降维就显得尤为重要。根据文献[32]对于自组织神经网络方法的分析,认为可采用自组织神经网络的P个节点来表达原始的N个输入(P<N),但由于将P个节点进展分类,其识别的效果仅相当于提取人脸空间特征向量后进展的识别分类,因此采用此类神经网络进展识别的效果只能是特征脸的水平。除此之外,由于人脸处在高维空间,如一幅不大的100x100的图像为10000维,这样神经网络的输入节点将很庞大,因此实际训练网络的参数繁多,实现起来很困难。神经网络方法的优点是可以针对特定的问题进展子空间设计,比方用于人脸检测、性别识别、种族识别等(不属于本文的研究内容)。鉴于以上考虑,本文未对此方法进展重点研究。图1-2可以提取的各种人脸特征,图下方为各种特征的综合方式通过对不同的人脸识别分类方法的总结,多视角的、全面的介绍了主要的人脸识别方法。从对人脸识别方法的分析中可以看出,每种方法各有其优缺点,因此一些学者倾向于将多种方法综合起来,或同时利用不同种类的特征,图1-2为人脸图像可以提取的特征以及可能的特征综合方法。在对各种人脸识别方法进展理论分析后,本文主要研究基于统计学习的、整体的人脸识别方法,包括特征脸法、基于独立分量分析的人脸识别方法和基于隐马尔可夫模型的人脸识别方法,并尝试新的特征提取和分类方法。1.4人脸识别测试数据库人脸识别是近年来研究的热点,各国研究人员提出了各种新的识别算法,为测试和对比各种识别技术的优缺点及其识别率的上下,世界各研究机构都建设了各自的人脸测试和测评数据库,下面介绍一些著名的标准数据库。英国ORL(O一OliverttiResearchLaboratory)人脸数据库ORL人脸图像库是由英国剑桥011vetti实验室从1992年4月到1994年4月期间拍摄的一系列人脸图像组成,共有40个不同年龄、不同性别和不同种族的对象。每个对象10幅图像共计400幅灰度图像组成,图像尺寸为92xlZl,图像背景为黑色。其中人脸局部表情和细节均有变化,例如笑与不笑,眼睛睁着或闭着,戴或不戴眼镜等,人脸姿态也有变化,其深度旋转和平面旋转可达20度,人脸的尺寸也有最多10%的变化。该库是目前使用最广泛的标准数据库,它含有大量的对比结果。英国Manchester人脸数据库该数据库由30人的690幅图像组成,图像有不同的光照和背景特征,而且对于每个人而言,前后两张照片之间的时间间隔至少为3周。训练集对光源有一定的约束。虽然Manchester人脸数据库远比ORL数据库全面,但因发表的对比结果不够多,从而远不如ORL数据库使用广泛。Yale耶鲁人脸库该数据库包括15人每个人11幅正视图,每幅图像具有不同的面部表情、有或者无眼镜,这些图像在不同光照条件下拍摄。该库的特点就是光照变化显著,且有面部局部遮掩。欧洲M2VTS多模型数据库该库是用来作为多模型输入的通路控制实验,它包括37个人的序列人脸图像。每人的5幅图像间隔一个星期,每个图像序列包括从右侧轮廓(-90度)到左侧轮廓(90度)之间的图像,而且拍摄时每个人用他们的母语从一到九数数。该库主要用于测试多模式身份识别。美国FERET(FaceRecognitionTechnology)人脸数据库FERET人脸数据库是目前最大的人脸数据库,由美国军方研究实验室提供,其中每人的图像数目不等,有些人提供了更多不同视点和不同表情的照片。该数据库中不包含戴眼镜的照片,拍摄条件也有一定的限制。人脸大小约束在规定范围内。1996年6月,该数据库己存储了1199个人的14126幅图像,而且逐年增加。但到目前为止,该数据库并未提供运动图像系列或包含语言信息。FERTE数据库的最大缺点是非美研究机构的获取不便。其他数据库还有CMU(CarnegieMellonUniversity)正面人脸数据库,MIT单人脸数据库等。不同的人脸数据库,图像的质量和内容也是不同的,为了客观的、全面的测试人脸识别方法的性能,考虑不同因素对识别方法的影响,本文的人脸识别方法主要应用了ORL、Manchester、Yale和局部FERET人脸数据库进展测试。1.5本文的主要内容本文主要研究基于静止图像的正面人脸识别技术,方法包括基于主分量分析的人脸识别方法、基于独立分量分析的人脸识别方法和基于隐马尔可夫模型的人脸识别方法。在分析人脸识别方法理论根基的同时,针对其中的特征提取与分类识别的关键环节进展了改良,提高了识别性能。第2章基于主分量分析的人脸识别方法2.1引言早期的人脸识别方法主要是基于几何特征的方法和基于模板匹配的方法。基于主分量分析(Pr1neipalComponentsAnalysis,PCA)的人脸识别方法是首次将人脸看作一个整体,特征提取由手工定义到利用统计学习自动获取特征,是人脸识别方法上的一个重要转变。在该方法的开展过程中,sirovich和Kirby首先将K一L变换(Karhunen一LoeveTransfer)用于人脸图像的最优表示[33],Turk和Pentland进一步提出了“特征脸〞(Eigenfaces)这个概念,该方法又被称为“特征脸法〞[34]。特征脸法是将整个人脸的图像区域看作一随机向量,通过CPA获取正交向量基的方法。其中对应较大特征值的向量基具有与人脸相似的形状,所以被称为特征脸,如图2-1。图2-1FERET人脸库中提取的特征脸例如利用这些向量基的线性组合可以描述、表达和逼近人脸图像,因此可以进展人脸的识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上,对比其与己知人脸在特征脸空间中的位置,完成分类识别的。PAC至今仍是传统的人脸特征提取方法。本章首先以多维数据的统计变换的概念引出主分量分析的基本理论和主要特点;其次介绍基于CPA的人脸特征提取方法和人脸识别方法:最后从理论分析结合实验结果论述基于PCA的人脸识别方法存在缺乏。2.2主分量分析的理论根基人脸图像原始特征的数量很大,或者说样本处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个过程称为特征提取。如果不对特征进展选择而直接进展分类器设计,无论从计算的复杂程度还是分类器性能来看都是不适宜的。因此研究若何将高维数据空间压缩到低维特征空间以便有效的识别分类便成为一个重要的课题。特征的选择和提取的基本任务是从样本的许多特征中找出那些最有效的特征,所以它满足以下两条原则:a.尽可能的去除人脸图像中的相关性,降低人脸表示的维数,减少数据计算量;b.抽取人脸最本质的,最能表现不同人脸间差异的特征,以提高识别率。映射后的特征称为二次特征,它们是原始特征的某种组合(通常是线性组合)。所谓特征提取在广义上就是一种变换。2.2.1多维统计数据的线性变换在科学研究的众多研究领域,一个普遍存在的问题是若何从采集的数据中获取信息。随着科技的高速开展,大量数据的测量及存储已经不再成为问题,但是获取数据本身所含的信息是不够的,提取产生这些数据的系统的固有的信息才是基本目的所在。在诸如数据分析、信号处理、神经网络等应用领域,找到多维数据的一个恰当的描述是经常会遇到的问题。为了使问题尽可能的简单化以及考虑到计算的复杂性,最好使得这种描述是一个对原始数据的线性变换,因为这会对各种形式的后继分类带来极大的方便,如数据压缩、特征提取、模式识别等。在多维信号处理中,为了便于研究,通常把采集得到的数据(如一系列人脸图像)看作多维随机信号的一系列样本值,以便于将随机矢量的数值统计方法[36][37]应用到原数据。这样做虽然忽略了信号的时间特性,但是可以尽可能的利用其统计特性。假设所有分量都是零均值的,即有E{x}=0,如果不满足此条件,通过减去其均值可以很容易获得。对多维信号x=(x1,x2,…,xn)T的某一观测样本矢量,其中x1,i=l,2,…,n为各个分量,按照某种规则对其做线性变换,记为T:Rn→Rm,Y=Tx(2-1)y=(y1,y2,…,ym)T为变换后的结果。假设这里T是一个线性变换,于是y中的每个分量都是原数据所有分量的线性组合:(2-2)对应每个yi的一组系数wij,j=1,2,…,n称为一个基向量,式(2-2)写出矩阵形式为:Y=Wx(2-3)所以多维数据的线性变换就是按照一定的准则寻找一系列的加权系数玛组成线性变换矩阵砰中的各个基向量(碎的行向量),而这m个基向量构成一个新的坐标系。将原数据在这样一个坐标系上展开,得到各个分量便是变换的结果。要求变换后的数据夕在最大程度上表达原数据间隐含的实质构造,并且y的各个分量尽可能的代表产生原数据的系统本身的物理机制。基于多维随机变量统计分析的框架,变换矩阵砰的寻找方法通常是建设在一个表达输出结果y的统计特性的目标函数g(y)的根基上。而这种统计特性因算法中的基本准则不同而不同,可能是一阶、二阶的,如相关系数、协方差等;也可能是高阶的,如互信息、非高斯性等,这样随之产生了不同的线性变换技术,如主分量分析(PCA)、奇异值分解(SVD)、投影法(ProjectionPursuit)等[38]。简而言之,所有的线性变换都是寻找这样的砰矩阵,只是因输出y的目标函数的不同,使得不同方法得到不同的变换矩阵。2.2.2主分量分析方法主分量分析的目的是在数据空间中找到一组向量以尽可能的解释数据的方差,最终将数据从原来的n维空间降到m维(n>m),降维后仍保存了数据中的主要信息。主分量分析是一种正交变换,在多维数据统计分析中是一个应用广泛的工具。假设原始向量特征维数为n,即xi=(xi1,xi2,…,xni)T,i=1,2,…,N,要求构造N个新的特征yl,y2,…,yn,并使它们满足以下的条件:a.每个新特征是原有特征的线性组合,即(2-4)b.各个新变量之间是不相关的,即相关系数为零:(2-5)c.wi使yi的能量到达极大,i=1,2,…,N可以证明满足条件的城为样本的协方差矩阵Sx=E{XXT},对应于λi特征值的正交标准化的特征向量ui,满足以上条件的新特征y1,y2,…,yn分别称为样本点的第1,2,…,N个主分量。令W=(ul,u2,…,un)T,且满足正交归一化,即(2-6)经过Y=WTX的变换之后,因为X的协方差矩阵SX为实对称阵必然与一个对角阵相似,所以对应于Y的协方差矩阵如下式:(2-7)这就是说,新特征y1,y2,…,yn两两之间的协方差为零,即它们是不相关的。由于yi也是零均值,每个特征的方差数值E{yi2}在一定意义下反映了它所包含的能量即信息量。由前面表达可知,所有这些映射矢量作为基向量,便构成主分量分析对应的变换矩阵W={w1,w2,…,wm,…,wn,}T其中前几个基向量wl,w2,…,wm,对应能量占主导地位的几个主分量的映射方向,现将余下的基向量置零,得到W΄={wl,w2,…,wm,0,0,…,0}T。利用W΄对信号进展近似恢复,得到x΄=W΄W΄Tx。其中W΄Tx为所选择的前m个主分量。重构信号的均方误差为E{||x-x΄||2}。中选择m个主分量去重构原信号时,由于原信号的维数n>m,所以从信号维数的角度来讲PCA起到了对信号降维的作用。在很多情况下,有效的降维会使得在最大程度保持原信号中所蕴涵的信息的情况下,大大降低运算复杂度。譬如在进展人脸识别应用中,输入的人脸图像的维数往往很高,采用P以方法对其进展特征提取可以降低样本的维数,从而降低计算复杂度,提高了计算速度。主分量分析是是一种基于统计特征的最正确正交变换,称其为最正确变换是因为它具有优良的性质,使变换后产生的新的分量正交或不相关。主分量分析也是一种最小均方误差(MSE)意义下的最优变换[39]。也就是说,变换后的信号能量主要集中在前几个主分量中,而由这少数几个主分量张成的子空间去重构原信号,逼近效果从最小均方误差意义下是最优的。主分量分析使变换矢量更趋确定,能量更趋集中等,这使得它在特征提取、数据压缩等方面都有着及其重要的作用。2.3基于主分量分析的人脸识别方法2.3.1基于主分量分析的人脸特征提取任何基于统计学习的模式识别系统都包括两个过程,一个是训练阶段(trainingProcess),二是测试阶段(testingprocess),且两个阶段都需要特征提取,应用CAP的人脸识别系统也不例外。假定在训练阶段,数据库中有K个人,每个人有M幅人脸灰度图像,其中每一幅图像都用NxN的二维数组I(x,y)来表示,数组元素表示象素点的灰度值。同样,每一幅图像都可以视为一个N2xI的向量。因此,它等同于N2维的人脸象素域空间中的一个点。设xij表示一个N2xI的向量来表示数据库中第i个人的第j幅图像(0≤i≤k-1,0≥j≥M-1)然后,定义平均人脸μ如下:(2-8)表示了每一幅人脸与平均人脸的差值,它是零均值的。它们组成了一个N2xMK的矩阵,=(00,01,…,K-1,M-1),PCA方法就是要找到对应于矩阵T的前m个较大特征λi的正交标准化的特征向量μi:(2-9)因为T是N2xN2的矩阵,求它的N2个特征值的计算量非常大。一般而言,训练过程中人脸数据库里的图像数目MxK比人脸空间的维度N2要小,所以我们可以先求得T见的正交标准化的特征向量城μi΄:(2-10)在式(2-10)两边左乘,然后与式(2-9)对比,我们可以得到:(2-11)这些特征向量,称为特征脸,构成了人脸空间的一个子空间的正交基,这个子空间就是通常所说的特征空间。特征空间有训练图像的协方差的特征向量构成,将数据库中的每一幅人脸x从人脸空间转化到特征空间:(2-12)既然每一幅人脸都可以用特征空间里的向量y=(w0,wl,…,wm-1)T,利用最近邻法就可以在特征空间里进展人脸识别。在训练阶段,数据库中的所有人脸xij到特征空间为,那么,第i个人在特征空间里的平均向量为:(2-13)在测试阶段,给出测试人脸,首先,将按照同样的步骤式(2-12)转化到特征空间,得到在特征空间各坐标上的系数向量。然后,利用最近邻法则将判定为求得dj最小的一类:(2-14)综上所述,基于主分量分析的人脸识别方法的具体步骤如下:a.初始化,获得人脸图像的训练集并计算特征脸,定义为人脸空间;b.输入新的人脸图像,将其映射到特征脸空间,得到一组坐标系数;c.通过检查图像与人脸空间的距离判断它是否为人脸;d.假设为人脸,根据坐标系数判断它是否为数据库中的某个人。2.3.2基于主分量分析的人脸分类识别人脸图像被投影到特征空间中后,剩下的任务就是若何利用待识别人脸图像在此特征子空间的投影系数,实现分类识别了。此任务由两局部构成:一是相似性测量;二是分类器设计。传统的分类识别是基于欧氏距离的最近邻分类方法,实验证明效果并不理想。因为欧氏距离容易受到图像光线、噪声等整体干扰因素的影响。分类器选取与特征提取一样也是模式分类中的一个重要环节,不同的分类器对不同特征空间的分类效果优劣相差很大。本文采用两个坐标向量夹角的余弦值作为相似测度以及采用SVM分类器。实验证明比传统的基于欧氏距离的最近邻法效果好。具体方法如下。相似性测量假设为待测试人脸图像的PCA系数向量,即PCA特征,为训练人脸库中的样本特征,二者欧氏距离计算公式如下:(2-15)其中n为特征向量的维数。相应的的角度距离(Cosineistnaee)如下式:(2-16)分类器设计分类器的功能是先计算出c判别函数gj(x),再从中选出对应判别函数最大值的类作为结果。分类器的核心是预先定义的判别函数,根据其判别函数定义的不同可分为基于距离的分类器(如最近邻法)、基于概率的分类器和基于智能方法的分类器(如SVM)。另外,根据分类器的输出结果的多少,大致可分为两类分类器和多类分类器。多类分类器可由两类分类器按某种策略组合而成。最近邻分类器是由Cover和Hart于1968年提出的[40],至今仍是模式识别非参数法中最重要的方法之一。假定有c模式类别{ωi,i=1,2,…,c}每类有标明类别的Ni个样本xji(i=1,2,…,Ni)。类的判别函数定义为:(2-17)其中xik的角标i表示ωi类,k表示ωi类Ni个样本中的第k个。按照式(2-17),决策规则可以写为,假设(2-18)则决策x∈ωj。这一决策方法称为最近邻法(Nearestneighbor)。其直观解释是相当简单的,就是说对未知样本x1只要对比x与个未知类别的样本之间的欧氏距离或者角度距离,并决策:为与离它最近的样本同类。此方法三直接基于模式样本建设判决函数的方法。支持向量机(SupportVecorMachuines,SVM)源于统计学习理论,它使用构造风险最小化(RSM)原理构造决策超平面使每一类数据之间的分类间隔最大。SMV是从线性可分情况下的最优分类面(OptimalHypePrlnae)提出的。最优分类面要求分类面不仅能将两类无误的分开,而且要求两类的分类空隙最大。前者是保证经历风险最小,而后者的作用是使推广性的界中的置信范围最小,从而使实际风险最小。对于非线性分类,首先使用一非线性映射ƒ把数据从原空间X映射到高维特征空间Z,使数据在高维空间线性可分,从而可以在特征空间Z上建设最优分类面。高维特征空间Z维数可能很高,但是因为在线性情况下只用到了原空间的点积运算,所以在非线性空间也只考虑在高维特征空间Z的点积运算ƒ(x)∙ƒ(y)=K(x,y)称为核函数。也就是说只需选择一个核函数使其成为特征空间Z的一个点积,即存在函数满足(2-19)径向基形式的内积函数和人的视觉特性很类似,所以在实验中,本文选择了参数为δ2=0.3的径向基函数学习机器:(2-20)SVM最初是用来解决两类问题的识别问题,本文将其改良,使它能解决人脸识别这样的多类模式识别问题。改良方法理论根基是,N类分类问题(N>2)和两类分类问题之间存在一定的对应关系,即如果一个分类问题N类可分,则这N类中的任何两类间一定可分;反之,在一个N类分类问题中,如果己知其任意两两可分,则通过一定的组合法则,可由两两可分来最终实现N类可分。所以可以将支持向量基与二叉决策树的基本思想结合起来构成多类的分类器。本文采用了如图2-2的SMV决策构造。图2-2SVM分类器构造2.4实验结果及分析在ORL、Manchester、Yale和FERTE标准人脸库中分别测试基于主分量分析的人脸识别方法,重点对比了改良的相似度测量和分类器对识别性能的影响。预处理阶段将不同尺寸大小的图像,都统一成60x50每象素8比特的图像。以上人脸库在引言1.4节中己有介绍。在ORL人脸库中,本文选取了40人每人5幅图像作为训练集,余下5幅构成测试集。有关其他人脸库的训练集和测试集的选取,参考表2-1,其中FERTE人脸库中,同一人的图像数目不同(3~13不等),本文只选择了30个拥有正面图像数目(含一定角度偏侧面的图像)6幅以上对象的图像。表2.1训练集与测试集的组成本章实验主要测试了传统特征脸法、改良相似测度(用角度距离代替欧氏距离)的特征脸法和相似测度和分类器都加以改良(用SMV代替最近邻法)的特征脸法的识别性能,实验结果如表2-2。表2-2特征脸法在不同人脸库中的识别性能对比由实验结果分析可得,基于角度的相似性测度优于基于欧氏距离的相似性测度,这点在Yale人脸库中尤为明显,识别率将近提高了4%,这说明角度距离更适合人脸识别这样的任务。在分类器的改良方面,SVM分类器要优于最近邻法,但是没有相似测度的改良表现的明显。同时由于SVM分类器远比最近邻分类器复杂的多,所以在实际应用中,应综合加以考虑。在不同人脸库中的实验说明,相似性测度和分类器的改良虽然一定程度上改善了特征脸的识别效果,但是总的来说,特征脸的识别率并不高,表现在以下方面:在ORL人脸库中,图像质量较好,背景均为黑色,统一的光照条件下,识别率最高可达84.7%;Manchester人脸库中的图像比ORL人脸库,背景变化略多些,但由于背景占图像很少一部分,并且光照条件也有所限制,所以识别效果基本和ORL相当。与以上人脸库相比,Yale人脸库的特点就是光照变化明显,如图2-3。图2.3YALE人脸库中错误识别例如(a)列为错误识别例如(b)列为正确识别结果所以在Yale库中,识别率明显下降了约15%,FERTE人脸库中的图像接近真实情况,变化因素对比多,所以识别率是最低的。分析实验结果本文得出以下结论:基于主分量分析的人脸特征提取,易受光照等因素影响(即对能量敏感),对细节不敏感,识别效果不理想,PCA提取的人脸特征,并不适合于人脸识别。相似度测量和分类方法的改良,未能基本改善特征脸法的识别性能,基于PCA的人脸特征提取方法存在理论上的缺陷。CPA提取人脸特征存在缺乏,但由于P以是最小均方误差下的正交变换,极大的保存了人脸图像的能量,Manchester人脸数据库中的重构实验证实了这点,如图2.4。并且CPA运算速度快,所以是较好的降维方法。人脸本质的、细节的特征可由后续特征提取来完成,比方本文下一章所提出的基于独立分量分析的人脸特征提取方法。图2-4Manchester人脸数据库中的重构实验(a)列为局部遮掩的图像(b)列为重构图像(c)列为未经遮掩处理的原图2.5本章小结特征脸法是一种简单、快速、实用的基于变换域系数的算法。“改良后的特征脸法一定程度上提高了它的性能,该方法存在如下优点:a.图像的原始灰度数据直接用来学习和识别,不需要任何低级或中级处理;b.通过低维子空间表示高维数据,有效的对数据进展了压缩;c.不需要人脸的先验和几何知识;d.与基于几何特征和基于模板匹配的方法相比,识别简单有效。但是,由于特征脸法在本质上依赖于训练集和测试集图像的灰度相关度,所以它有着很大的局限性,表现在以下方面:a.对尺度变化很敏感,识别前必须进展尺度归一化处理,而且由于PCA在图像空间是线性的,它不能处理几何变化;b.只能处理正面人脸图像,在姿态、发型和光照等发生变化时识别率明显下降,对光照条件的改变尤为敏感;c.要求背景单一,对于复杂变化背景,需要先进展复杂的图像分割处理;d.扩展性差。训练库中添加新的图像,必须重新计算训练库的特征向量。综上所述,基于主分量分析的人脸识别方法,并没有提取出反映人脸本质的,内在的特征,人脸识别期待新的特征提取方法。基于独立分量分析的人脸识别方法3.1引言独立分量分析(IndependentComponentAnalysis,ICA)是近年才开展起来的一种基于统计理论的信号处理技术,该方法的目的是将观察到的数据进展线性变换,使其分解成统计独立的分量。CIA与PCA同属于基于子空间的特征提取方法,即用低维的子空间参数描述高维的数据特征。在PCA中,首先考虑的是若何保存信号的最大能量,在最小均方误差的准则下重构数据,并且要求主分量两两正交。而ICA的基本思想是用基函数来表示一个随机变量集合,其基向量是统计独立的,或者尽可能的独立。ICA的概念可以看为是PCA的一种扩展。目前ICA主要应用于特征提取[43]、盲源信号别离[44]、语音信号分析[45]、图像处理[46]和人脸识别[47]等。特征脸法应用用传统的PCA方法提取人脸特征,该方法只能考虑图像数据间的二阶统计特性,未能利用高阶统计信息,同时要求提取的人脸特征两两正交。与PCA不同,基于ICA的特征提取方法得到的独立图像基,能够反映像素间的高阶统计特性,并且不要求向量基两两正交。在人脸识别中,重要的人脸信息一般存在于象素间的高阶统计信息中,所以ICA可以看作是值得期待的人脸特征提取方法。本章首先简要介绍了ICA的理论根基,包括ICA的起源和ICA的线性模型;然后介绍了基于ICA人脸识别方法,以及独立元的选择和改良的ICA快速算法;最后分析基于ICA人脸识别的实验结果。3.2独立分量分析的理论根基独立分量分析作为一种新的多维信号处理方法,主要用于提醒和提取多维统计信号中的潜在成分,是在具有较长研究历史的盲源别离问题(BlindSourceSeparation,BSS)[36]中涌现出的新的信号分析技术,二者联系严密。ICA与传统的多维信号分析方法截然不同的是,经ICA处理得到的各个分量不仅去除了相关性,还是相互统计独立的,并且是非高斯分布的。ICA在许多方面对传统方法的重要突破使得其越来越成为信号处理中一个极具潜力的分析工具。3.2.1独立分量分析与盲源别离ICA源于盲源别离问题的解决,该问题是信号处理中一个传统而又极具挑战性的课题。盲源别离是指仅从观测的混合信号(通常是多个传感器的输出)中恢复独立的源信号,这里的“盲〞是有两层含义:其一是指源信号是不可观测的;其二指混合系统是事先未知的。在科学研究和工程应用中,很大观测信号都可以假设成是不可见的源信号的混合。所谓的“鸡尾酒会〞问题(cocktailPartyProblem)就是一个典型的例子,简单来说就是当很多人(作为不同的源信号)同时在一个房间里说话时,声音信号由一组麦克风记录下来,这样每个麦克风记录的信号是所有人声音的一个混合,也就是我们所说的观测信号。接下来的问题是:若何从这组观测信号中提取每个说话者的声音信号,即源信号。由于输入输出两端的连接权值是未知的,所以属于盲源别离的范畴。如果这些连接权值是己知的,或者说混合矩阵是的,则上面的问题就退化成简单的求逆过程,即求混合矩阵的逆矩阵。但是在更多的情况下,我们无法获取混合系统的先验知识,这就要求我们从观测信号来推断这个混合矩阵,实现盲源别离。ICA技术正是为了解决盲源别离问题而不断开展起来的,并成为阵列信号处理和数据分析中的有力工具。将ICA应用在盲源别离中,能够从混合信号中重现不可观测的源信号成分,所利用的仅仅是假设源信号统计独立这样一个容易满足的先验条件。与传统的基于二阶统计特性的方法(比方PCA等)相比,ICA不仅可以去除各分量之间的一、二阶相关性,同时还具有开掘并去除数据间的高阶相关信息的能力,使得输出分量相互独立。目前ICA在诸如语音识别、通信、生物医学信号处理等很多领域都得到了极大的重视。针对人脸识别中的人脸图像样本和人脸特征向量之间的关系,符合盲源别离中的观测向量和源信号间的关系,本文尝试将其应用到人脸识别的特征提取中,取得了良好的实验结果。3.2.2独立分量分析的线性模型ICA的起始点基于一个非常简单的假设,假设存在N个相互独立的源信号,写成矩阵形式为S=(s1,s2,…,sN)T,独立表示有下式成立:(3-1)以及N个观测信号,表示成矩阵形式为X=(x1,x2,…,xN)T。同时假设观测信号是由源信号线性混合而成。(3-2)写出矩阵形式就是:(3-3)其中A为称为混合矩阵,由混合系数组成。对照式(3-2),矩阵A的每个行向量中的N个元素作为N个源信号的加权系数对源信号进展混合,即得到对应的一个观测信号。ICA的基本目标就是寻找一个线性变换W,称之为别离矩阵。该矩阵使得观测信号X经过线性变换后,输出信号Y=(y1,y2,…,yN)T向量间尽可能的相互独立,表示成矩阵形式就是:(3-4)输出Y就是源信号S的一个估计,上述的ICA模型如图3-1所示。图3-1ICA模型的原理图但是从盲源别离的观点看,Y中各个分量与S相比存在次序的不同以及对应分量幅度相差一个常数项的可能,这称之为ICA问题的不确定性,造成这种不确定性的原因是由于没有关于独立源的先验知识。在线性变换中,为了便于说明其原理,均假设变换前后数据维数相等。在实际应用中,当观测信号维数m大于源信号维数n时,总可以通过降维的方法使得m=n,所以这种假设不失一般性。ICA、PCA和SVD均属于线性变换技术,但是后两者只能按能量大小对数据进展分解,消除数据之间的二阶相关性,而ICA能够消除输入数据之间的高阶相关性。在图像中,可以提取的特征很多,特征之间存在相关性,并且重要特征一般隐藏在高阶统计特性中,因此使用ICA方法能够约减特征维数,并且使特征保持高阶相互独立,而不像PCA和SVD只能消除二阶相关性。3.3基于独立分量分析的人脸识别方法一般情况下,人脸识别过程可以分三步完成:预处理、特征提取和分类识别。基于ICA的人脸识别方法也不例外。ICA涉及的预处理的方法除了传统的几何归一化,灰度归一化外,还有中心化和白化的过程,本节将主要阐述这两种预处理方法。将工以应用到人脸的特征提取中,则ICA问题可以描述如下:观测的数据矢量就是人脸的训练样本,令xi为一个人脸图像样本,则由n个训练图像构成训练集X=(sl,x2,…,xN)T是一样数目的独立源信号S=(s1,s2,…,sN)T经过混合矩阵A线性混合而成,如式(3-3)。在人脸识别中,ICA的研究目的是从仅有的观测数据(人脸图像)X出发寻找一个别离矩阵W,使得Y=WX的各个分量统计独立。图3-2给出了人脸图像CIA的原理图,X中的人脸图片被认为是S中统计独立源的线性组合,A是未知的混合矩阵,W是ICA算法估计得到的别离矩阵,Y就是ICA提取的人脸特征空间。图3-2人脸图像的ICA原理图在获得ICA人脸特征空间Y后,就可以给出人脸的特征表示,如图3-3,其中(b1,b2,…,bN)为ICA系数,即用人脸在特征空间Y上的投影来表示人脸。图3-3人脸图像的ICA特征表示3.3.1人脸图像的预处理将ICA应用于人脸识别,随机向量即待训练的人脸图像。矩阵运算中,每幅人脸图像就是一个行向量,行向量的维数为其包含的像点数。在对图像进展ICA前,必须对图像进展预处理。最基本的预处理是将X减去其均值,得到均值为零的X,如下式:(3-5)此过程称为中心化,仅仅为了简化运算。在估计出混合矩阵后,中心化得到的源信号可以重新获得它的均值(3-6)在应用ICA之前,还有一个重要的预处理就是将观测数据白化。所谓白化,是指各分量间互不相关,且每个分量的能量是归一化的,即(3-7)(3-8)根据统计独立的概念,不相关是独立的必要条件,而不是一个充分条件。源信号就是白化信号,对于独立的源信号S=(sl,s2,…,sN)T,各分量必然是不相关的,所以有:(3-9)因为在ICA的输出结果中,被提取出分量的幅度具有不确定性,某个分量s1乘上一个系数所产生的作用,只需让混合矩阵A对应的列向量a1除以一个一样的数就可抵消。所以简单起见,不妨假设独立源的能量是归一的。(3-10)其中U是由E{XXT}的特征向量组成的正交矩阵,是由特征值组成的对角阵,。白化对应的变换矩阵就是,称之为白化矩阵。白化后的数据为:(3-11)其中可由其对角线上的特征值开平方求得,,可以验证,过程如下:(3-12)(3-13)(3-14)(3-15)由白化数据计算得到混合矩阵为,由混合矩阵的定义得到:(3.16)数据的白化使得新的混合矩阵是正交的,如下式:(3-17)由于的正交性,需要估计的参数由一般矩阵包含的N2个元素,减少到正交矩阵包含的N(N-1)/2个元素,元素个数几乎减少了一半。由此可见,白化这种常规方法作为ICA的预处理可以有效的降低问题的复杂度,降低了过学习(Overlearning)的可能性(这是ICA中可能遇到的问题),而且运算简单。下文中所指的X、A均指经过预处理的、。3.3.2基于独立分量分析的人脸特征提取本文2.2.2节可知,PCA方法有以下优点:a.可以完全去除原始样本间的相关性;b.进展数据压缩时,所得到的均方误差最小,而且该均方误差等于所舍去的特征值之和;c.假设将n个特征值按大小顺序排列λ1≥λ2≥…≥λn,那么将λm+1,λm+2,…,λn舍去后,余下的λ1,λ2,…,λm就保存了最大的能量,样本经过K一L变换之后,仍保存原样本的最大能量。PCA所获得特征空间能够很好的表示人脸,但是此特征空间是二阶不相关的,高阶仍然相关,而且它所提取的特征向量只呈现出人脸的形状。在人脸识别这样的应用中,由于人脸几何特征以及人脸部件的特殊性,如果提取的特征具有区域性和高阶不相关性,那么识别率将获得提高。而这正是ICA方法的理论优势所在。本文3.2.2节可知,由ICA算法提取的特征空间的特征向量个数总是和输入样本数据的个数相当,所以当输入样本个数非常庞大时,会造成严重计算负担。由图3-2可知,假设X中的人脸图像是一组未知统计独立源的线性组合,所以即使用X中人脸图像的某种其他线性组合来取代原始人脸图像不会有什么影响。这为本文在对图像数据进展ICA之前,采用PCA降维提供了理论根基。本文采用训练图像数据的前m个主元(principlecomponent一PC)近似原数据。由于PCA的局限性,此m个主元仍包含象点间的高阶统计特性,此特性只能由ICA别离出来。设Pm表示前m个特征值对应的特征向量组成的矩阵,每个主分量为一列。PmT包含原训练样本矩阵X的最可能多的能量,认为它近似于X。对PmT执行ICA算法如下:(3-18)基于Pm可以得到X中一组零均值图像的主分量表示:(3-19)则X的在最小均方误差准则下的近似重构为:(3-20)由ICA算法训练得到别离矩阵W:(3-21)其中为白化矩阵,得到源信号的估计Y(3-22)因此可以得到:(3-23)式(3.24)表示,矩阵每一行包含的系数就是由统计独立的特征图像Y线性组合构成的系数。于是,人脸图像的独立分量表示可由如下矩阵中的行向量给出:(3-24)对待识别的人脸图像,基于独立分量表示为:(3-25)这样高维的人脸图像数据,经过以PCA为根基的ICA提取特征后,就可以在低维的ICA特征空间进展识别分类了。3.3.3独立分量的排序及选择PCA提取的特征向量对应不同的特征值λi,并且按照特征值的大小排序。假设要使得重构数据满足最小均方误差准则,选择前m个特征值对应的特征向量即可。由本文3.2.2节可知,经ICA提取的独立分量存在排序的不确定性,所以选择独立分量存在困难。本节根据特征不同的分类能力(Classdiscriminability)选择独立分量,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年天津职业大学单招职业倾向性测试题库附答案详解(黄金题型)
- 2026年安徽工商职业学院单招职业倾向性测试题库有完整答案详解
- 2026年安徽工商职业学院单招职业倾向性考试题库附答案详解(突破训练)
- 2026年安徽工商职业学院单招职业技能考试题库及答案详解(必刷)
- 2026年安徽工商职业学院单招职业适应性测试题库含答案详解(新)
- 2026年安徽工商职业学院单招职业适应性考试题库带答案详解(培优)
- 2026年安徽工贸职业技术学院单招职业倾向性测试题库附参考答案详解(能力提升)
- 2026年安徽工贸职业技术学院单招职业技能考试题库及答案详解(名师系列)
- 2026年安徽工贸职业技术学院单招职业适应性测试题库含答案详解(满分必刷)
- 2026年安徽工贸职业技术学院单招职业适应性考试题库带答案详解(夺分金卷)
- 2026年春季青岛版(六三制)2024新教材三年级下册小学数学教学计划含进度表
- 线路施工班组考核制度
- 销售行业开年收心会课件
- 2026四川能投综合能源有限责任公司招聘19人备考题库及答案详解(基础+提升)
- 2026年建筑工地节后复工安全生产专题会议
- 公共浴池卫生管理制度
- 第7课《月亮是从哪里来的》课件
- 《平凡的世界》解读课件
- 人教版七年级数学下册《第七章相交线与平行线》单元测试卷(带答案解析)
- 2026年湖南石油化工职业技术学院单招综合素质考试题库附答案
- AI赋能药物研发:技术应用与实践案例
评论
0/150
提交评论