基于统计学习人脸识别的抽样分析_第1页
基于统计学习人脸识别的抽样分析_第2页
基于统计学习人脸识别的抽样分析_第3页
基于统计学习人脸识别的抽样分析_第4页
基于统计学习人脸识别的抽样分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于统计学习人脸识别的抽样分析    卫小强摘要:该文研究了小样本统计学习在生物识别中的数学模型估计问题,并探讨了先验风险优化替代实际风险优化的可行性以及机器学习的深度与广度的矛盾性,最后在小样本采集,识别,建立样本数据库等方面进行了分析研究。关键词:统计学习;学习深度;svm;小样本采样:tp311 :a :1009-3044(2017)18-0178-02人脸的识别与重建是一个系统辨识的课题。人脸特征是维度非常高的复杂特征模式,即使通过pca处理,相应维数也多至40-60维,但这些特点使得在实践中去采集相当数量的人脸图像是不可行的,所以人脸分

2、类验证是一个小样本统计学习问题。样本之间的聚类,辨别及验证实质上是样本间的分界面数学模型的选择问题。人脸的特征提取过程中不仅维度高,还受到如肤色,头发,阳光,环境,眼镜,帽子等诸多因素的影响。这些因素使得建模很难实现,求解也过于复杂,是以统计学习法成为新兴的有效可行手段。然而经典统计分析理论大多构建于大样本条件下,大样本的一致性,无偏性等理论是统计分析的前提和基础。另一方面如神经网络,遗传算法等新兴智能学习方法在系统辨识方面有选择网络拓扑结构,局部最优,过学习与欠学习等弊端。所以有限小样本的机器学习理论即统计学习理论在现实中有着无可比拟的优势。1统计学习问题的实质即函数模型构成3学习深度与适应

3、性的矛盾人工神經网络研究中,为追求remp(a)的最小,通过多次迭代使误差变小,在某些情况下,由此带来人工学习机器对未来输出进行正确预测能力的柔性下降,即适用的场合范围下降即过学习的问题。因此在实际应用中出现使用的分类器相对比较简单如线性分类器,却比神经网络分类器适用性更广。之所以出现过学习原因:一是因为学习样本毕竟有限而非全面,提取样本时不具同一性。二是学习机器总体设计不完备。两者有关联,但首要原因是主要矛盾方面。试图用一个复杂模型去拟合有限不具有独立同一性的样本,结果反而丧失其应当具备的适应性或可移植性。如神经网络中对于有限样本,其网络学习能力过强,在此基础上经验风险很小几乎收敛为零。但对

4、一些未出现的新的同类样本,该网络则出现拒绝而非合并的结果。从而形成了学习深刻性与模型适用性之间的柔性矛盾。由此可得出下面的结论:(1)经验风险最小并不总是与期望风险最小具有一致性。(2)学习机器的深度不但与所构建的系统相关,而且与有限的学习样本获得密切相关。因此我们研究了相应弥补方法,如训练中对学习函数矩阵复杂性进行修正,或通过交叉验证等进行模式选择以控制复杂度等。但以上方法终究只是相应对矛盾进行调整或缓解,真正需要修正的是对有限样本进行科学及合理的采集和选择。4小样本统计学习的生物识别抽样分类小样本统计学习的训练原则,首先使用一个人脸典型样本集合a来训练svm,接着应确保该svm对所有的训练

5、样本完全分类正确即学习修正过程,接着使用修正过的svm来验证人脸。对于验证失败样本,将其在充实到人脸样本集a中,再进行svm迭代训练。通过学习错误修正样本集整合再学习的迭代运算,以提高改善svm性能并且更需要保持所获样本的普遍性和典型性。但不管如何选取样本图像以及选取的图像范围有多广泛,都无法保证所选的样本图像有足够典型性和普遍性,也不能够保证所选的图像样本涵盖了全部样本范围。这一点在非人脸样本的选取中已得到证实。是以选取尽可能多的人脸图像,使人脸样本分布尽可能遍布整个范围。在整个图像空间之中所有人脸样本为其中一子空间集合,这个子空间要小得多且易聚类。与其说尽可能多的人脸样本,不如尽可能拓宽该

6、子空间的外围分界面函数,这些间接可改善分类器性能,但受实际条件限制。人脸样本图像获取数量也是有限的,另一方面人脸样本和非人脸样本具有复杂多样性,无法一开始就搜集到足够多并且足够普遍的样本,并且训练样本集的选择也缺乏合理正确理论指导,实际上还没有相应理论来指导选择训练样本,也没有给出明确相关参数,用来度量训练样本集普遍性和典型性。正是由于系统性能受到训练样本的极大制约,甚至可以说缺乏样本选择理论的指导,已经成为限制系统性能的一个瓶颈。针对于此可采用一种再学习机制解决这一问题促使系统的性能得以完善。所谓再学习机制,是指人脸验证系统首先具有一定人脸先验知识,即在人脸验证中如存在错分现象则将这一新的错

7、分样本赋于较大训练权值并添加到样本系统,另一方面若出现新的未知人脸将其处理归类添加入数据库,接着再对人脸验证系统进行再学习,来调整网络的支撑向量和相关权值,从而使其对新的添加样本具有新的适应性。正是通过这样的过程对于一个初始的,具有不完整的样本库的系统,经过不断再学习循环,再添加再扩充的过程,可使得该系统不断的完善修正。样本库中的每个人包含多幅图像既有不同的偏移角度又有不同表情,如每个人脸共20幅图像,选其16幅图像作为训练样本,剩余4幅作为测试图像,通过独立同分布的选取,要使得训练样本和测试样本同时具备较大的差异性或典型性,也要使样本尽可能具有普遍性。是以训练图像分别为免冠正面,各种偏转角度

8、,而且表情各异。测试样本可选正面,左偏20度,上偏5度或下偏5度,带说话表情变化。为保持系统有高辨识精度的要求,且保证系统实时性。我们不是对每个人所有样本进行主成份分析,而是以人脸样本的共性聚类特征为依据,以人体测量学生物识别的分类方法为基础,选取形态面指数和颧下颌宽指数这两个面型参数作为脸型的一级粗分类,需检测测点包括鼻根点,左右颧点,左右下颌角点及颏下点,进而得到面宽,下颌间宽,形态面高这三个测量数据。在实际中人脸可能会发生各种角度偏转,这会产生相应的测量误差。为了避免此类平面内旋转,通常采用两点间欧氏距离取代水平或垂直距离已达到几何不变性。形态面指数=(形态面高/面宽)*100%颧下颌宽

9、指数=(下颌间宽/面宽)*100% (5)其中,形态面指数用来区分大致的脸型特征。指数越大则面部越瘦长,反之面部宽短;而颧下颌宽指数用来区分面部轮廓,即可按参照值大小分为方下巴,椭圆下巴,尖下巴等。通过上述计算可将人脸大致分为圆型,椭圆型,方型,三角型或其他脸型5个大的一级子类。在对每一个一级子类通过相应特征等间隔细分类分成若干第二级子类。任一级子类都要对其进行pca分析,以至到第n级子类。以保证每个人脸都可通过一系列相应特征脸的投映特征来表征,将人脸对应的相应n维向量作为训练样本,来对多个支撑向量基组成的矩阵进行训练,这些训练矩阵可实现对人脸的准确实时归类。当进行人脸图像识别时,先将测试样本

10、与第一级子类进行欧氏距离阈值自适应归类,自动归入距离最小的一类,并确定相应类别。以此类推,再对第二级以至到第n集的子类进行阈值自适应归类。当到了第n级的子类中每一个人脸特征数据,在阈值之内就可确认进行了适当分类,即测试获的样本数据若为数据库已存在的人脸数据,若无相关人脸数据,则确定为新的人脸数据,在其计算数据最接近的子类,归入该类成为数据库新的人脸数据。5结束语该文深入探讨了统计学习理论在人脸识别中的可行性,从采样学理论上合理地解决广义上样本的无穷性与实际样本的有限性之间的矛盾,在阐述样本采样的重要性的基础上,论述了一些科学采样的方式与方法,对人脸检测定位和识别以及为今后收集样本保证样本的普遍性和典型性提供了依据。e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论