人脸表情识别研究_第1页
人脸表情识别研究_第2页
人脸表情识别研究_第3页
人脸表情识别研究_第4页
人脸表情识别研究_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要 工业大学学位论文摘 要人脸表情识别技术是人工智能领域新兴的一个研究方向,它在智能化的人际交互中具有广阔的应用前景。同时,该技术还被广泛应用在交通、医疗和公共安全等方面。近年来,人脸表情识别技术受到了更多学者的关注,成为了人工智能领域的又一研究热点。因此,对人脸表情识别技术的研究具有重要的理论意义和实际的应用价值。人脸表情识别技术主要包括图像预处理、特征提取和分类识别。在人脸表情图像预处理中,针对人眼定位的问题,给出了一种基于Sobel边缘提取的人眼定位新方法。主要包括眼部粗定位、眉眼分离和精确定位三个步骤。眼部粗定位是在对图像进行中值滤波和归一化预处理后,根据先验知识来完成。眉眼分离是利

2、用灰度积分投影曲线来确定眉眼分离线,然后进行分离。眼睛的精确定位是通过对眼睛区域应用Sobel算子提取边缘后,根据二值图像的边界来确定精确的位置。该方法与Hough变换圆检测法和传统模板匹配法相比较,在计算时间上具有明显优势,适合应用于实时人脸表情识别系统中。 针对特征提取,给出一种应用Gabor小波变换和非负矩阵分解相结合的特征提取方法。结合Gabor小波变换的特性,设计了相应的Gabor滤波器组,利用它对面部信息区域进行滤波处理,获取不同的子图信息。接着,对各个滤波器滤波产生的子图分别进行非负矩阵分解,实现数据的降维及特征的选择。针对分类识别,设计了基于最近邻思想和概率统计原理的两级分类模

3、式。从各个滤波器获得的子图信息为输入信息,将其输入作为第一级分类器的最近邻分类器,对第一级分类器的输出结果进行概率统计,以实现第二层分类,第二层分类器的输出结果作为最终的识别结果。两级分类模式使每幅图像实现了多次判别,降低了错误分类的可能性,提高了算法的鲁棒性。在MATLAB编程环境下,采用日本女性人脸表情数据库(JAFFE)进行了实验测试。实验结果表明了本文所给方法的有效性。除此以外,还将所给出的方法应用于小样本下的人脸识别中,并在Yale人脸库中进行了实验,结果显示该方法也适用于小样本的人脸识别技术中。关键词:表情识别;人脸识别;非负矩阵分解;Gabor小波变换VAbstract 工业大学

4、学位论文AbstractFacial expression recognition is a new research direction, and it has broad application prospects in the intelligent human-computer interaction. At the same time, facial expression recognition is widely applied in the fields of the traffic, medical treatment and public safety. In recent

5、years, facial expression recognition has been paid close attention by more and more scholars. And this technology has become a hot research in the area of artificial intelligence. Therefore, research on facial expression recognition technology has important theoretical significance and practical app

6、lication value.Facial expression recognition technology includes image preprocessing, feature extraction and classification. In image preprocessing, a new eye location method based on Sobel edge extraction was proposed. The new method includes three steps for coarse positioning of eyes, segmentation

7、 of eyebrows and eyes, and precise position of eyes. After median filtering and normalization for image, the coarse area of eye was located according to the priori knowledge. The segmentation of eyebrows and eyes was implemented according to the segmentation line of eyebrows and eyes, and the line w

8、as determined by the gray integral projection curve. Then, the precise location of the eyes was realized according to the boundary of binary image obtained by extracting eye edge with Sobel operator. Compared with the traditional template matching and circle examination of Hough transform, the metho

9、d proposed has obvious advantages in computing time and is suitable for real-time system.In feature extraction, the feature extraction method based on the Gabor wavelet transform and Non-negative Matrix Factorization was proposed. Considering the characteristics of Gabor wavelet transform,correspond

10、ing Gabor filters were designed. The facial information area was filtered by Gabor filters, and different sub-picture information was obtained. Then, sub-pictures generated from each filter were decomposed by non-negative matrix factorization, implementing data dimensionality reduction and feature s

11、election process.In classification, the two-layer classification model based on nearest neighborhood classifier and the probability statistics was designed. As input information, sub-picture information achieved from each filter was input the nearest neighborhood classifier, which was regard as the

12、first layer classifier. The output results from the first layer classification were calculated probability to implement the second layer classifier. The output results of the second layer were the final results. Under the design of the two-layer classification model, each image was distinguished two

13、 times, reducing the possibility of misclassification and improving the robustness of the algorithm.Under the MATLAB programming environment, the JAFFE facial expressions database was applied in experiments. Experimental results showed this method is effective. In addition, the method had also been

14、applied in face recognition with small samples. Related experiments were done in the Yale face database, and the results showed the method proposed is also suitable for face recognition. Key words: facial expression recognition; face recognition; non-negative matrix factorization; Gabor wavelet tran

15、sform目录 工业大学学位论文目 录摘 要IAbstractII1 绪论11.1 论文的研究背景与选题意义11.2 国内外研究现状21.3 论文的主要内容及结构安排42 人脸表情识别概述62.1 人脸表情识别的一般过程62.2 人脸表情特征提取常用方法62.3 人脸表情分类识别常用方法82.4 人脸数据库介绍102.4.1 JAFFE人脸表情库102.4.2 Yale人脸库112.5 本章小结123 人脸表情图像预处理133.1 图像预处理133.1.1 平滑去噪133.1.2 尺度归一化143.1.3 直方图均衡化143.2 人眼定位153.2.1 传统的人眼定位方法153.2.2 基于S

16、obel边缘提取的人眼定位173.3 本章小结234 基于Gabor小波变换和非负矩阵分解的特征提取244.1 基于Gabor小波变换的特征提取244.1.1 Gabor小波概述244.1.2 Gabor滤波器的设计与实现254.2 非负矩阵算法274.2.1 算法简介274.2.2 目标函数274.2.3 迭代规则284.2.4 收敛性证明284.3 基于非负矩阵分解的特征选择324.4 本章小结335 基于最近邻和两层模式的分类识别345.1 基本理论概述345.1.1 最近邻法简介345.1.2 概率统计原理345.2 两层分类器的设计与实现355.3 算法描述365.4 实验结果与分析

17、365.4.1 人脸表情识别实验结果与分析365.4.2 人脸识别实验结果与分析385.5 本章小结406 总结与展望426.1 总结426.2 展望43参考文献44发表学术论文情况47致 谢481 绪论 工业大学学位论文1 绪论1.1 论文的研究背景与选题意义人脸面部表情活动时刻存在于人们的生活交流过程中,它是人类情绪表达的一种途径,是人类情感信息传递的一种方式,还是人类进行非语言交流的一种渠道,所以它具有举足轻重的作用。据心理学家A. Mehrabian研究表明,日常交流信息的传递主要包括三种方式:语言传递、声音传递和面部表情传递。在这三种方式中,通过面部表情所传递的信息量高达信息总量的5

18、5%1。也就是说,人脸面部表情携带了丰富的情感信息,对面部表情的判别分析是获得这些信息的重要途径。通过观察分析人脸面部表情,可以推测人们的心理活动,预测人体行为,进而做出人类所期待的响应。因此,许多学者提出了人脸面部表情识别技术。人脸表情识别技术是结合特定的算法并通过计算机提取面部特征信息,然后根据获得的特征信息完成表情分类判断的一个过程。近几年,计算机科学技术的快速发展将人们的生活逐渐推向信息化轨道。智能化的生活离我们越来越近,而且让我们感受到了它所带来的前所未有的舒适感,这加快了人机交互技术的发展,吸引了更多的学者和机构加入该领域的研究行列。同时,人与计算机之间的情感交流问题引发了更多的讨

19、论,随之人脸表情识别技术日益成为学术界的重要科研课题之一。在人机交互过程中,人脸表情识别技术的应用非常广泛,例如以下几个场景: (1)游戏应用2。通过电脑摄像头捕捉游戏玩家的表情图像,结合心理学知识,分析其表情所包含的信息,建立个性化日志文件,为人机交互式游戏发展奠定基础。现在,Android和iOS系统的发展使得各种移动设备成为人们生活中形影不离的“朋友”。在公交车上或者地铁里,大家手里捧着手机或者平板电脑,都在玩着各种休闲游戏度过无聊的时光,所以小游戏也逐渐成为生活中不可缺少的一部分。如果将人脸表情识别技术植入小游戏中,根据玩家的面部表情变化来改变游戏的难度、策略或者风格,这便会是一种神奇

20、的体验。(2)安全监控。目前,人脸面部动作识别系统已问世。它是一种高智能识别系统,它能够实现在复杂人群中对特定人脸的辨识工作,并且可以通过识别被辨识者的面部状态,来预测其行为活动,分析其行动意图。该系统可以安放在一些公共场所,对靠近危险地带的人员或者某些可疑人员的面部表情进行监控,遇到紧急事件时,做出相应的反应(如报警等),以避免公共场所突发事件的发生,减少不必要的损失。(3)辅助医护3。现在,许多医院或者疗养院引进了辅助医护人员对病人进行看护的机器人,该机器人带有人脸面部表情识别功能。将这些监护机器人放在病房里,它可以根据病人的面部表情变化,推测其身体状况。如果检测到病人表现出痛苦煎熬的面部

21、状态,机器人可以立即向值班室的医护人员报警。这种带有表情识别功能的机器人也可以用在独居老人的家里,当机器人发现老人有不适的表情时,通过网络等向其家人报告信息。(4)安全驾驶。由于交通事故的频繁发生,安全驾驶技术成为汽车爱好者最为关心的问题之一。在汽车上安装带有表情识别功能的摄像头,用它时刻监视驾驶人员的面部表情变化,判断其是否进入疲劳状态。一旦发现驾驶员在疲劳驾驶,立刻发出警报,提醒驾驶员停车休息或者协助驾驶员完成自动停车等。将人脸表情识别技术应用在这种安全驾驶辅助系统中,可以有效避免交通事故的发生。图像的特征信息提取是人脸表情识别过程中的关键步骤,对图像进行Gabor小波变换可以获取不同方向

22、和不同尺度的信息。由于Gabor小波变换能够获得丰富的特征信息,所以它常被应用在人脸表情识别和人脸识别中进行特征的提取。如Liu等人采用Gabor特征提取和稀疏表示相结合的方法进行了表情的识别,Nazari利用Gabor滤波器提取人脸全局和局部的特征来完成人脸的识别过程,Gu等人则对提取的局部Gabor特征进行径向编码来实现人脸表情的识别4-6。然而,Gabor小波变换会使数据量急剧增长,这样增加了数据处理的时空复杂度,所以有必要对数据实行降维。主成分分析方法(Principal Component Analysis,PCA)和线性判别分析方法(Linear Discrimination An

23、alysis,LDA)常用来对Gabor小波变换引起的高维数据进行降维。邓等人提出利用Gabor滤波器组及PCA和LDA相结合的方式进行人脸表情的识别,将主成分分析和线性判别分析的思想应用于数据的降维7。Li等人提出基于自适应权重的Gabor线性判别分析法,对PCA降维方法做出了改进8。罗飞等人将Gabor小波变换与2DPCA结合应用于表情识别,通过2DPCA对数据进行降维9。尽管主成分分析法和线性判别分析法是常用的数据降维方法,但这些方法具有使分解系数正负抵消的共同特性,这个特性会使特征减弱,从而使识别率降低10。而非负矩阵分解算法(Non-negative Matrix Factoriza

24、tion,NMF)在输入数据非负的条件下克服了这个不足。基于上述研究,本文给出了一种人脸表情识别的新方法。利用非负矩阵分解算法对Gabor小波变换后的图像矩阵进行数据的降维和特征的选择,同时根据Gabor小波变换和非负矩阵分解算法的特性设计了两层分类模式来实现图像的分类识别。综上所述,人脸表情识别技术在科技研究和现代生活中都起着极其重要的作用,所以,对人脸表情识别方法的研究具有重大的理论意义和实际的应用价值。1.2 国内外研究现状早在20世纪70年代,许多学者就开始了面部表情识别的研究,但那时的研究主要集中在生物学和心理学方面。在1971年,美国心理学家Ekman和Friesen对人的面部表情

25、进行了分类,将人类表情分为6种基本情况:高兴(happiness)、愤怒(anger)、厌恶(disgust)、恐惧(fear)、悲伤(sadness)和惊奇(surprise)11。目前,大多数的人脸表情识别技术都针对这6种基本表情进行识别。1978年,他们又开发出面部运动编码系统(Facial Action Coding System,FACS系统),该系统主要用于对面部表情变化进行检测12。1995年,美国麻省理工学院(MIT)媒体实验室的Rosalind W. Picard提出了情感计算(Affective Computing)的概念,这标志着对人类情感的研究正式开启13。基本表情的分

26、类、FACS系统的开发及情感计算的提出将人类情感的研究推向了更高的层次,对后期的人脸表情识别技术的发展奠定了坚实的基础。在20世纪90年代以后,越来越多的研究机构和科研人员开始进入人脸表情识别研究领域进行相关的研究,由此开始,这项技术取得了快速的发展。近几年,国外的人脸表情识别技术发展迅速。在美国、英国、日本、澳大利亚、德国等科技发达的国家,他们专门成立了相关的科技研究小组进行这方面的科研工作,这些科研机构的研究成果尤为突出。如:麻省理工大学的媒体实验室(MIT)开发出能够通过识别面部基本表情而做出回应的新一代机器人,东京理科大学(Tokyo University of Science)设计制

27、造出能够随着人类的行动来表现不同基本表情的面部机器人等。国外还有许多大学和研究所已投入这方面的研究,如:剑桥大学(University of Cambridge)、斯坦福大学(Stanford University)、加利福尼亚大学的机器感知研究所、瑞士的戴尔莫感知人工智能研究所(IDIAP)和澳大利亚国立大学(Australian National University)等。除此以为,像新加坡、印度等发展中国家对人脸表情识别技术的研究也开始活跃起来,如:新加坡国立大学、印度坎普尔理工学院等。在推进各项研究成果的同时,许多研究机构还创建了自己的数据库,如:日本的国际电气通信技术研究所(ATR)

28、构建了日本女性人脸表情数据库(JAFFE),耶鲁大学(Yale University)开发出的Yale人脸数据库等。目前,很多机构开始研发人脸表情识别系统。卡耐基梅隆大学视觉和自动化研究中心开发出了人脸面部自动分析系统,现在该系统已投入使用14。2012年,在沙特举行的工业安全展会上,高智能面部动作识别系统问世。这一切将推动人脸表情识别技术向更加智能化的方向发展。相对于国外的研究,国内在这方面的研究开始的比较晚。在上世纪90年代,中国科学院计算机研究所的高文教授和哈尔滨工业大学的金辉博士开始了针对表情识别的相关研究15。近些年来,国内开展表情识别并获得突出研究成果的研究机构有很多。如:清华大学

29、、中科院、哈尔滨工业大学、东南大学、南京理工大学、北京航空航天大学、中国科学技术大学、西北工业大学、浙江大学、北京科技大学和郑州大学等。其中,清华大学采用Adaboost方法设计了实时的面部表情识别系统。东南大学针对儿童的脑科学分析问题,借助已经拥有的丰富的数据库资源,自主研发了小孩面部表情识别系统,并将其应用于该医学领域。南京理工大学的付衍志提出基于压缩感知原理,并满足Johnson-Lindenstrauss定理的表情特征提取方法,将压缩感知理论在速度上的优势应用于人脸表情识别中16。哈尔滨工业大学的研究小组将人工智能技术、并行处理技术、人脸识别技术、表情识别技术和文字识别技术等多种技术相

30、结合在一起,研发出一款多功能感知器,构造出一个可以将软件和硬件进行结合的平台,并用它来研究和解决多融合问题。该研究小组还与海尔公司达成合作计划,在上述研究的基础上,设计开发能够提供相关服务的服务型机器人17。目前,中国科学院计算研究所也专门成立了研究人脸表情识别技术的实验团队,他们正在研究开发带有表情和动作变化的新型机器人。表情识别系统和智能机器人的开发将人脸表情识别技术由理论发展提升到了实际应用。除此以外,2003年12月,首届中国情感计算与智能交互会议在北京隆重召开。此次会议的召开标志着我国开始步入情感计算研究领域并着手展开相关的研究工作。2005年10月,首届国际情感计算与智能交互会议也

31、在北京召开。本次会议吸引了来自大陆、台湾、美国、日本、韩国及欧洲等国内外的众多学者,会议在我国召开标志着国内的情感计算研究进入世界行列。2006年,国家自然科学基金对人脸表情识别的相关研究工作正式立项,这将推动国内表情识别技术的快速发展。2011年1月,合肥工业大学正式成立了情感计算研究所,主要从事高智能情感计算研究工作,进一步推进我国在情感计算领域的研究。2013年,融合几何纹理动态特征的三维人脸表情识别研究项目成为北京市自然科学基金资助项目,该项目由北京工业大学和澳大利亚国立大学合作完成,这标志着我国越来越重视国内和国外机构对人脸表情识别的合作研究。1.3 论文的主要内容及结构安排论文的主

32、要工作围绕人脸表情识别方法展开。对人脸表情识别过程中的图像预处理、特征提取和分类识别三个阶段分别进行讨论与分析。结合这三个阶段的目的,以及三个阶段中所采用方法的优势,给出了一种将Gabor小波变换和非负矩阵分解相结合进行人脸表情识别的新方法。本文的主要内容分为五章,其详细结构安排如下:第一章 绪论。介绍了论文的研究背景与选题意义,国内外研究现状和论文的主要研究内容与整体结构安排。第二章 人脸表情识别概述。描述了人脸表情识别系统的框架结构,阐述了识别过程中各个阶段的目的与意义,介绍了常用的特征提取方法和分类识别方法,并分析了这些方法各自的优势与不足。第三章 图像预处理。总结了图像预处理的过程与方

33、法。在此基础上,给出一种基于Sobel边缘提取的快速人眼定位方法。这种方法可以用来完成实时人脸表情识别系统中所进行的特征提取前的预处理工作。第四章 基于Gabor小波变换和非负矩阵分解的特征提取。本文给出了一种新的特征提取与选择的方法,设计Gabor滤波器组对表情库中图像进行特征信息的提取,采用非负矩阵分解实现数据的降维与特征的选择。该方法克服了传统降维方法中存在的不足。第五章 基于最近邻和两层模式的分类识别。设计了两层分类器来完成图像的分类识别。两层分类器可以让每幅图像实现两次判别,使得图像的识别结果更加准确,鲁棒性更好。同时,将本文方法应用在人脸表情识别和小样本下的人脸识别中进行了相关的实

34、验测试。第六章 总结与展望。对本文的研究工作进行了总结与分析,指出了仍存在的不足之处,并阐述了下一步的研究计划与目标。482 人脸表情识别概述 工业大学学位论文2 人脸表情识别概述人脸表情识别是通过对输入图像进行特征提取,并将提取的信息作为判别属性输入分类器,完成分类识别的一个过程。人脸表情识别技术是实现人机交互的关键技术。计算机通过提取人脸的表情信息,分析推断人的内心活动,才能做出人类所期待的响应。信息技术的发展和智能系统的推广,使得人脸表情识别技术被广泛应用在人工智能等领域。本章主要介绍人脸表情识别的一般过程和常用方法。2.1 人脸表情识别的一般过程人脸表情识别过程主要包括图像预处理、特征

35、提取和分类识别三个阶段。对所有的样本图像做同样的预处理工作,并分别进行特征的提取。然后,选定训练样本训练分类器,并将测试样本输入训练好的分类器进行测试。人脸表情识别的一般过程如图2.1所示。训练图像预处理特征提取分类器训练样本测试样本图像预处理特征提取输出结果测试图2.1 人脸表情识别框架Fig. 2.1 Frame of facial expression recognition图像的预处理主要是为了消除一些干扰因素,避免这些干扰因素对特征提取和分类识别产生不利的影响;特征提取的目的是获取能表征图像类别的属性信息;分类识别则是根据输入图像的特征信息进行类别判定的一个过程。2.2 人脸表情特征

36、提取常用方法特征提取是人脸表情识别过程中的重要组成部分。目前,常用的特征提取方法主要可以分为三类。一类是基于图像几何特征的方法;一类是基于图像灰度变换的方法;另一类是基于线性变换的方法。基于图像几何特征的方法主要是将眼睛、眉毛、嘴巴等面部器官的尺度和它们的距离作为判别属性,从而完成人脸表情识别的过程,Perveen等人就是采用面部器官的几何尺度作为属性特征,实现了人脸表情的判别18。这种方法需要通过对关键特征点进行定位与跟踪来实现,然而面部易变的特性使得特征点的准确定位难以实现,这直接影响特征信息的准度和识别结果的精度。基于图像灰度变换的方法主要有以下几种:(1)小波变换小波变换19是一种由空

37、间域到频域的转化方法,它是在傅里叶变换的基础上发展而来。傅里叶变换是一种全局变换,而小波变换是一种局部变换,因此,小波变换提取的是局部精细特征,这使它更加适合应用于提取分类所需的特征信息。常用的小波变换方法有Gabor小波变换和Haar小波变换。Haar小波变换虽然计算简便、快速,但是单个特征所包含的信息较少。Gabor小波变换具有良好的生物学背景,它与人眼的生物作用相仿,与人眼视觉特性相似,可以获取多尺度、多方向的丰富的特征信息,非常适合应用在人脸识别和人脸表情识别中进行面部特征的提取。(2)局部二值模式(Local Binary Pattern,LBP)局部二值模式是一种进行局部特征比较的

38、方法,通过图像的局部灰度变化关系来代表局部纹理特征。Ojala等人提出最原始的LBP算子20,之后出现了大量的改进算法,并被广泛应用在纹理特征提取中。LBP算子的原理及计算过程如图2.2所示。图2.2(a)是一个的局部灰度矩阵区域,它的中心像素值作为该区域的阈值,邻域内的其余8个值与该阈值进行比较,大于该阈值的像素区域置为1,小于该阈值的像素区域置为0,如图2.2(b)所示。然后,根据像素的位置对获得的二进制码进行加权求和,得到中心像素的LBP码。(a)灰度矩阵 (b)二进制模式图2.2 LBP变换过程Fig. 2.2 Transformation process of LBP图2.2(b)中

39、的二进制码为:01100110,中心像素点的LBP值计算如下: (2.1)LBP原理简单,计算复杂度较小,但是这种方法容易受到噪声的影响。然而,由于光照不均等自然条件的影响,获取的绝大多数图片都存在噪声。在这种情况下,采用LBP所提取的特征信息作为判别属性会造成分类不准确的结果。基于线性变换的方法主要有以下几种:(1)主成分分析(Principal Component Analysis,PCA)主成分分析是一种基于统计思想的分析方法,它是通过线性变换将图像原有的大量的向量转化为能反映图像特征的较少的向量的方法。主成分分析方法的步骤如下:数据标准化处理;计算样本矩阵的协方差矩阵;求协方差矩阵的特

40、征值和相应的特征向量;选择主成分,并计算贡献率;计算主成分。该方法分解获得的基矩阵存在负值,不符合图像中像素值非负的特性。除此以外,在计算过程中,需要计算图像矩阵的协方差矩阵,这将要求有足够大的内存空间,并且高维的协方差矩阵会使系统的运行速度变慢。(2)局部线性嵌入(Locally Linear Embedding,LLE)局部线性嵌入是一种流形学习方法。该方法由S.T.Roweis等人提出21,主要针对非线性数据进行降维,通过局部的线性关系来反映全局的非线性结构,从而实现数据的降维。人脸图像被认为具有高度的非线性结构,因此,局部线性嵌入被广泛应用在人脸识别和人脸表情识别中,通过对人脸图像矩阵

41、进行降维来完成有效特征的提取与实现。LLE算法的主要步骤如下:寻找每个样本点的个近邻点;构建目标函数,通过个近邻点计算该样本点的局部重建矩阵;根据局部重建矩阵计算样本点的输出值。在该方法中,参数的选择对实验结果有很大的影响。然而,现在仍没有明确的理论来指导参数的选择。在很多情况下,相对合理的参数依靠经验值来获取,因此,实验结果在很大程度上依赖于主观判断22。2.3 人脸表情分类识别常用方法分类识别是人脸表情识别过程中不可或缺的一步。目前,常用的人脸表情分类方法可以分为两类。一类是基于距离的方法;另一类是基于统计学习的方法。基于距离的方法主要有以下几种:(1)支持向量机(Support Vect

42、or Machine,SVM)1992年,Vladimir Vapnik,Isabelle Guyon和Bernhard Boser发表了第一篇关于支持向量机的文章23。支持向量机的目的是为了找到有限样本下的最优分类面,使不同类别间的距离最大化。它是在统计学习中的VC维理论和结构风险最小原理这两者的基础上形成,通过寻求有限样本下的最佳学习结果,以获得最优的推广能力。它的执行过程如下:使用一种非线性映射,将训练数据映射到高维空间中;在该空间中,寻找满足类间距最大的分类超平面;将该学习结果应用到测试样本中。支持向量机适合应用于小样本数据的分类,在大样本的情况下,由于矩阵的计算需要耗费大量的内存资源

43、,所以运行效率会直接受到影响。(2)K-最近邻(K-Nearest Neighbor,KNN)K-最近邻法是最近邻算法的一种扩展,也是一种简单的机器学习分类算法,目的就是确定待分样本属于哪个已知的类别。它的分类思想如下:将待测样本的特征信息和已知类别样本的特征信息进行比较(通常采用“距离”等尺度进行衡量),选出个最相似的样本,记录每个样本所属的类别,包含样本数最多的类别即为测试样本的类别。设有3个类别,分别是A1、A2、A3,其中A1中包含、,A2包含、,A3包含、,待测样本为b。时,算法的执行过程如下:计算待测样本b到各个训练样本的距离 寻找5个最近邻设,则5个最近邻为、。分类由于、和属于A

44、2,属于A1,属于A3,因此,待测样本b属于类别A2。基于统计学习的方法主要有以下几种:(1)隐马尔科夫模型(Hidden Markov Model,HMM)隐马尔科夫模型24是Markov链的一种,它是在此基础上发展起来的新模型。HMM的基本理论思想非常简单,主要通过观测向量来观察它的状态,而每一个观测向量是由一个状态序列产生,并且该状态序列具有与之相应的概率密度分布。在实际应用中,HMM主要被应于以下3类问题的解决中:评估问题,利用向前-向后算法计算观测序列发生的概率。解码问题,利用Viterbi算法选择能够合理解释观测序列的最优状态序列。学习问题,利用Baum-Welch算法来调整能使观

45、测序列的概率为最大的参数。分类识别属于学习问题,因此,运用Baum-Welch算法来调整参数,从而提取相应的隐马尔科夫模型。在人脸表情识别过程中,用训练的方法获得各种HMM模型,进一步组成人脸表情的HMM库,将待测模型与训练模型进行比较,概率最大的类别就是样本所属的类别。虽然隐马尔科夫模型这种分类算法的思想比较简单,但是它所取得的识别率不是很高,因此,一些相关的改进算法被提出,这些算法的共同缺陷是计算复杂度过高,运行效率低下。(2)人工神经网络(Artificial Neural Networks,ANN)人工神经网络25是模拟动物大脑神经突触联接结构所设计的一种数学模型,该模型主要被用于对信

46、息的智能处理。它是由大量的神经元节点相互连接而形成,每个节点都被看作一种输出函数。目前,使用最广泛的神经网络结构是BP神经网络。1986年, Rumelhart和McCelland等人组成的科研小组提出了BP神经网络,它是一个多层的前向非循环网络。只有一个输入层、一个隐含层和一个输出层的三层BP神经网络结构如图2.3所示。输入层隐含层输出层图2.3 BP人工神经网络的结构Fig. 2.3 Structure of BP Artificial Neural Networks由于人工神经网络是一个非线性自适应系统,它具有处理信息的自适应能力,因此,该方法被广泛应用于各种智能信息处理系统。但是,人工

47、神经网络需要进行学习训练,这需要大量的训练样本,并且学习时间较长。2.4 人脸数据库介绍2.4.1 JAFFE人脸表情库目前,普遍使用的人脸表情数据库是由ATR机构开发的日本女性人脸表情数据库(Japanese female facial expression database,JAFFE),它是一个完全开放的数据库。JAFFE中有213幅图像,包含10个人,其中每个人有7种表情,分别是生气(anger)、厌恶(disgust)、害怕(fear)、高兴(happy)、中性(neutral)、悲伤(sad)和惊奇(surprise),每种表情由2-4幅图像组成,每幅图像的大小为像素,并且都有原始

48、的标准表情定义,使用较为方便。数据库中的图像均为正面图像,图像中人脸面部的位置大致相同,面部尺寸基本一致,只是光照强度存在一些差异。JAFFE中的部分表情图像如图2.4所示。厌恶悲伤生气高兴吃惊害怕中性图2.4 JAFFE中的部分人脸表情图像Fig. 2.4 Part of facial expression images in JAFFE由于此数据库是开放性数据库,所以它被广泛应用在各种表情识别研究中,成为一种标准型数据库。本文主要采用它做人眼定位和人脸表情识别的测试。2.4.2 Yale人脸库Yale人脸数据库是由美国耶鲁大学计算视觉与控制中心所创建。该数据库采集了15位志愿者的图像,每人

49、有11幅,共165幅。每个人的图像都是在不同的背景、不同的光照和不同表情下所采集,并且部分图像的眼部有眼镜或者眼罩遮挡。Yale人脸数据库中的部分图像如图2.5所示。 图2.5 Yale中的部分人脸图像Fig. 2.5 Part of face images in YaleYale人脸库也是开放性数据库,大量人脸识别实验采用该数据库进行测试。本文主要应用Yale人脸库做小样本下的人脸识别研究。2.5 本章小结本章主要介绍了人脸表情识别的一般过程,给出了人脸表情识别的框架结构,总结了人脸表情特征提取和分类识别过程中的常用方法,阐述了各种方法的基本思想及执行步骤,并且分析比较了各方法的优势与不足,

50、最后介绍了通用的日本女性人脸表情数据库JAFFE和耶鲁大学开发的Yale人脸数据库。3 人脸表情图像预处理 工业大学学位论文3 人脸表情图像预处理3.1 图像预处理人脸表情库中的图片经常包含背景、头发、配饰和肩部等对表情识别无关的信息,这些信息不仅对表情识别没有任何贡献,而且可能对其造成不利的影响,所以它们应该在特征提取之前被裁剪并剔除。图片在自然条件下进行拍摄的过程中,常存在光照明暗不均匀的情况,这使得获取的图像存在光照过强(或过暗)的问题,所以要采取相应的措施消除光线对图像带来的影响。因此,为了消除对表情识别产生影响的客观因素,要对选择的人脸表情库中的图像做预处理,这项工作具有非常重要的意

51、义。基于上述问题,本文所给方法的预处理工作主要包括以下3个步骤:(1)平滑去噪,消除噪声的干扰;(2)尺度归一化,方便图像的变换和特征的提取;(3)直方图均衡化,消除光线不均的影响;3.1.1 平滑去噪不管是现有的人脸表情数据库中的图片,还是人工采集到的照片,它们都不可避免地伴有噪声,而这些噪声会对面部特征信息的准确表达产生十分巨大的影响,直接关系到表情识别的精度。为了减少噪声带来的影响,首先对图像进行滤波处理,常用的滤波方法有中值滤波法。中值滤波是一种具有良好特性的传统非线性平滑技术,它的特性主要体现在滤波过程中对图像边缘信息的保持上,也就是说,它在去除噪声的同时还能够很好地保持并突出图像边

52、缘的信息,不会对边缘的提取造成很大的影响。中值滤波器的基本原理是将图像中每一像素点的灰度值进行修改,将其设置为该点所在的某个设定大小的邻域窗口内的全部像素点灰度值的平均值。本文采用的窗口,其中是输入图像在坐标处的灰度值,如图3.1所示。图3.1 滤波窗口Fig. 3.1 Filtering window 经滤波窗口滤波后,中心点处的灰度值为: (3.1)中值滤波前后的图像对比如图3.2所示。 (a)滤波前 (b)滤波后图3.2 滤波前后的图像Fig. 3.2 Acquired images before and after filtering3.1.2 尺度归一化为了去除与表情识别没有关系的图

53、像区域,对包含表情信息的面部区域进行裁剪,这会导致裁剪后的图像大小不一致,同时造成图像矩阵的维数不一致的问题。然而,图像的各种变换都基于相同的尺度。因此,有必要对图像进行尺度变换,将其归一化为相同的大小,即宽度和高度包含相同数量的像素点。经过裁剪及尺度归一化的图像如图3.3所示。图3.3 尺度归一化前后的图像Fig. 3.3 Images before and after scale normalization3.1.3 直方图均衡化针对图片中存在的光线不均问题,本文主要采用直方图均衡化的方法来解决。直方图均衡化26的思想是通过一定的数学变换使原图像的灰度值由局部集中的模式变为均匀分布的模式。

54、它的数学变换如下: (3.2)对图像进行直方图均衡化处理,会使图像的对比度变大,清晰度也变大,这将有助于提取更加有效的特征信息。直方图均衡化前后图像的对比如图3.4所示。 图3.4 直方图均衡化前后的图像Fig. 3.4 Images before and after histogram equalization3.2 人眼定位人脸面部特征信息的提取主要分为两种方式,一种是基于面部器官几何尺度的特征提取方法,另一种是基于灰度变换的特征提取方法。人眼定位是实现第一种方法的关键步骤。另外,眼部周围包含着丰富的特征信息,对这些信息的分析直接影响着人脸表情识别的准确性,对眼睛的精确定位是获得眼部有效信

55、息的重要前提。因此,对人眼定位的研究具有重要的意义27-28。在灰度图像中,常用的人眼定位方法有Hough变换圆检测法和传统模板匹配法等,研究证明这两种方法是有效的,但是存在计算量大的问题29-30。本文提出一种利用灰度积分投影与Sobel边缘提取相结合快速定位眼睛的新方法。该方法主要包括图像预处理、眼部区域粗定位、眉眼分离和眼睛精确定位几个步骤。在预处理阶段,对图像进行归一化和滤波;在眼部粗定位阶段,根据面部器官布局的先验知识粗定位眼部区域,并对该区域进行灰度积分投影,实现眉眼分离;在眼睛精确定位阶段,应用Sobel算子提取眼睛边缘,确定眼睛的边界,从而对眼睛进行精确定位。3.2.1 传统的人眼定位方法(1)基于Hough变换圆检测的人眼定位Hough变换理论是将X-Y二维平面中的圆转换到a-b-r三维参数空间中31。在平面X-Y中,圆的表达式为: (3.3)其中为圆心,为半径。由式(3.3)可知,经过平面图像上任意一点,以半径作圆时,所有圆的圆心轨迹同样构成一个新圆,如图3.5所示。新圆不同的半径图3.5 圆心构成新圆Fig. 3.5 New circles compose

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论