(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(电路与系统专业论文)基于HMM的人脸表情识别研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 人脸表情识别技术是模式识别、计算机视觉、情感计算、心理学等领域的一 个极富挑战性的交叉课题,是近年来的一个研究热点。尽管人脸表情自动识别技 术在各种潜在应用的推动下发展很快,但到目前为止,要建立鲁棒的实时人脸表 情自动识别系统还有许多难点问题尚未解决,人脸表情识别技术因而受到了研究 者们的广泛关注。 人脸表情识别包含三个重要的技术环节,即人脸的定位与人脸表情图像的标 准化处理、人脸表情特征的提取,以及人脸表情的识别。因此,本文主要基于以 上三个方面进行了基于h m m 的人脸表情识别的研究。 在人脸表情图像的预处理部分,我们利用人脸灰度分布的已知性与可预测 性,结合j a 胞人脸表情数据库的成像特点,采用灰度垂直投影和水平投影以及 自动阙值分割方法,实现了人脸图像中人眼的准确定位,并通过旋转、裁剪、缩 放等操作最终完成了人脸表情图像的标准化处理。 在表情特征提取部分,由于l o gg a b o r 小波变换能够有效地提取与表情变化 有关的特征,并能有效地屏蔽光照变化及个人特征差异的影响,因此,我们采用 l o gg a b o r 变换,实现了人脸表情特征矢量的有效提取。 作为一种概率统计模型的一种,隐含马尔克夫模型在语音信号的识别和合成 中已经得到了广泛的应用,因此,我们采用该模型实现人脸表情的识别。 研究结果表明,通过选择合适的h m m 参数,可实现日本女性表情数据库 j a f f e 中七种人脸表情的识别率较高的识别。 关键词: 人脸表情识别,人眼定位,特征提取,模式识别,l o gg a b o r 变换,隐含马尔克 夫模型 a b s t r a c t f a c i a le x p r e s s i o nr e c o g n i t i o ni so n eo ft h em o s tc h a l l e n g i n gp r o b l e m si nt h e f i e m so fp a t t e r nr e c o g n i t i o n , m a c h i n ev i s i o n , a f f e c t i v ec o m p u t i n ga n dp s y c h o l o g y i t h a st u r n e di n t oa l la c t i v er e s e a r c ht o p i ci nt h er e c e n td e c a d e s 。a l t h o u g hf a c i a l e x p r e s s i o na u t o m a t i cr e c o g n i t i o nt e c h n i q u ed e v e l o p sq u i c k l ya l o n gw i t hv a r i o u s a p p l i c a t i o n s , t h e r ea r es t i l lm a n yp r o b l e m su n s e t t l e dy e t t h e r e f o r et h ea u t o m a t i c r e c o g n i t i o nt e c h n o l o g yo ff a c i a le x p r e s s i o nh a sr e c e i v e dt h er e s e a r c h e r s e x t e n s i v e c o n o g m f a c i a le x p r e s s i o nr e c o g n i t i o nc o n s i s t so fl o c a l i z a t i o no fh u m a ne y e s ,f e a t u r e e x t r a c t i o no ff a c i a le x p r e s s i o na n df a c i a le x p r e s s i o ni d e n t i f i e dt h r o u g hh m m t h u s , t h e s em a i nt h r e ep r o b l e m sa r er e s e a r c h e di nt h i sp a p e r i nt h ep a r to ft h ep r e t r e a t m e n to ff a c i a le x p r e s s i o ni m a g e ,f i r s t l yv e r t i c a li n t e g r a l p r o j e c t i o n c t l l v ei su s e dt o a c q u i r ef a c e sl e f ta n dr i g h tb o u n d a r i e s s e c o n d l y , e y e - h r o wa 瑚i sa p p r o x i m a t e l yl o c a t e dt h r o u g hv e r t i c a li n t e g r a lp r o j e c t i o na n d h o r i z o n t a li n t e g r a lp r o j e c t i o n t h i r d l y , e y el o c a t i o nc a nb er e a l i z e dt h r o u g hi n t e g r a l p r o j e c t i o na n da u t o m a t i ct h r e s h o l ds e g m e n t a t i o n f i n a l l y , b yr o t a t i n g ,c r o p p i n ga n d z o o m i n gt h ei m a g e ,t h u sas t a n d a r di m a g ec a nb ea c h i e v e d i nt h es e c o n dp a r t ,e x p r e s s i o nf e a t u r ev e c t o r so ft h ee x p r e s s i o ns u b - r e g i o n sa r e e x t r a c t e db yl o gg a b o rw a v e l e tt r a n s f o r m a t i o nt of o r me x p r e s s i o nf e a t u r ev e c t o r e x p e r i m e n ts h o w st h a te x p r e s s i o nf e a t u r e sc a l lb ee x t r a c t e de f f e c t i v e l yb a s e do nl o g g a b o rw a v e l e tt r a n s f o r m a t i o n ,w h i c hi si n s e n s i t i v et oi l l u m i n a t i o nv a r i e t ya n d i n d i v i d u a ld i f i e r e n c e a sas t a t i s t i c a lm e t h o d h i d d e nm a r k o vm o d e lh a sb e c o m ep o p u l a ri nt h ef i e l d o fs p e e c hr e c o g n i t i o na n dt h e s i si nr e e e n ty e a r s 。s ow es e l e c ti ta sf a c i a le x p r e s s i o n r e c o g n i t i o n e x p e r i m e n t a lr e s u l t sb a s e do nj a f f ef a c i a le x p r e s s i o nd a t a b a s ed e m o n s t r a t et h a t f a c i a le x p r e s s i o nc a nb er e c o g n i z e dg r e a t l yt h r o u g ht h es t a t i s t i c a lm e t h o d - h m m k e y w o r d s : f a c i a le x p r e s s i o nr e c o g n i t i o n , l o c a l i z a t i o no fh u m a n e y e s , f e a t u r ee x t r a c t i o n ,p a t t e r n r e c o g n i t i o n ,l o gg a b o rw a v e l e tt r a n s f o r m a t i o n ,h i d d e nm a r k o vm o d e l i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取锝的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包括其他人已经发表或撰写过的研究成果,也不包含为 获得西北师范大学或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名:日期:翘:么:弓 关于论文使用授权的说咀 本人完全了解西北师范大学有关保留、使用学位论文的规定,u p : 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 导师签名:亟盐叁日期: 良o o7 。6 , 第一章绪论 近年来,随着人机交互技术的日趋发展与成熟,情感计算成了一个非常热门 研究课题,人脸表情的自动分类也随之受到广泛关注。 所谓人脸表情识别就是对人脸的表情信息进行特征提取分析,按照人的认识 和思维方式加以归类和理解,利用人类所具有的情感信息方面的先验知识使计算 机进行联想、思考及推理,进而从人脸信息中去分析和理解人的情绪,如惊奇、 恐惧、厌恶、愤怒、高兴、悲伤及中性等“1 尽管人脸表情识别对于人类而言很容易实现,但对于计算机,却非易事,由 于它综合了数字图像处理、模式识别、人工智能、计算机视觉、心理学、应用心 理学、生命科学、认知科学等众多学科领域的知识,故对计算机是一个极富挑战 性的交叉课题。因此,人脸表情自动识别技术在各种应用的推动下发展很快,但 鲁棒的自动人脸表情识别系统至今尚未建立。 本论文的研究工作主要包括三个部分:一是日本女性表情数据库q a f f e : j a p a n e s ef e m a l ef a c i a le x p r e s s i o n ) 中人脸的准确定位与人脸表情图像的标准化处 理;二是基于l o gg a b o r 变换的人脸表情特征参数的提取:三是基于h m m ( h m m : h i d d e nm a r k o vm o d e l ) 的人脸表情识别的实现与研究。在本章中,将重点介绍 人脸表情识别方法的研究背景、意义、国内外的最新研究状况与进展,并扼要地 介绍本文所进行研究工作的方法与出发点。 1 1 人脸表情识别 人脸是人类最重要的生物特征之一,包含着极其丰富的人体行为信息,对它 的研究可以进一步了解人类对应的心理状态,并且人脸表情识别也是人工智能和 人工心理理论的重要组成部分。 1 1 1 背景及意义 人脸表情的产生机理是由于人的心理作用,通过肌肉的牵引,使正常的人脸 变形为有表情的人脸。随着计算机技术和人工智能技术的发展,人机交互技术日 益成为研究的热点,计算机和机器人若能够像人类那样具有理解和表达情感的能 力,并能够自主适应环境,这也将从根本上改变人与计算机之间的关系,也就能 够使得计算机更好地为人类服务。 人脸表情识别技术的应用领域包括:情感机器人的技术支持,拟人机械,人 性化商品设计,感性市场的开发,人机和谐环境技术,人机和谐多通道接口,而 且,在其他一些领域也有着巨大的潜在应用价值,譬如心理学研究、图像理解、 合成脸部动画、视频检索、虚拟现实技术、新型人机交互环境等。1 。 1 1 2 国内外研究状况 计算机人脸表情识别技术是近几十年才逐渐发展起来的,现在逐渐成为科 研热点。 s c h l o s b e r g 首先提出了表情描述的3 个量化尺度:注意拒绝( a r ) 、高兴一 不高兴( p 功和活跃程度。斯托曼在文献旧中提到面部表情的分析有两种不同的 体系:一类是对情绪的维量分析;另一类是对情绪分类。在e k m a n 和f r i e s e n 嘲提 出的面部运动编码系统( f a c s ) ( 如l s t 1 所示1 幽1 1f a c s 中采用4 4 个能够独立运动的表情活动单元( a 们描述面部动作,在这个系统中还 定义了六种最基本的表情:惊奇、恐惧、厌恶、愤怒、高兴、悲伤以及3 3 种不同 的表情倾向,说明了具有这六种表情的人脸特征与无表情的人脸特征相比有相对 独特的肌肉运动规律,后来进一步的研究大多数都是在f a c s 系统的基础上构建 入脸表情模型,故该系统的提出具有里程碑的意义。i a e s s a 等人“1 把提取的新运 动单元命名为f a c s + ,它基于物理和几何模型,用模板匹配的方法识别表情。国内 的研究者提出7 f a c s ( 转换f a c s ) 的表情编码,把运动单元的运动转化为基于物 理结构和肌肉模型的运动特征向量序列对眼部和嘴部分别进行表情编码,相应的 运动基于f a c s 的规则,同时又克服了f a c s 的弱点。 进入9 0 年代,对人脸表情识别的研究变得非常活跃,吸引了大量的研究人员和 基金支持。美国、日本、英国、德国、荷兰、法国等经济发达国家和发展中国家 如印度、新加坡都有专门的研究组进行这方面的研究。其中m r r 、c m u 、m a r y l a n d 大学、s t a n f o r d 大学、日本城蹊大学、东京大学、a t r 研究所的贡献尤为突出。 国内的清华大学、哈尔滨工业大学、中科院、中国科技大学、南京理工大学、北 方交通大学等都有人员从事人脸表情识别的研究。 计算机实现人脸表情的自动识别与人类相比,有众多难点,具体表现在:建 立精确的人脸表情模型和情绪的准确分类,并把它们同面部特征与表情的变化联 2 系起来。但是,人脸是一个弹性体而不是刚体 彳艮难把脸部运动和表情变化联系 起来。另外人脸表情丰富( 包括表情的各种倾向) ,人类具有对表情的自我控制能 力和自我掩饰能力,而且,表情的变化细微而复杂,对表情变化特点的概括等诸多 方面因素,都成为人脸表情识别的难点另外,人脸表情识别还涉及到众多其他 学科的相关知识,这诸多因素使人脸表情识别成为一项极富挑战性的课题。 1 2 本文的贡献 本文主要针对日本女性表情数据库l a f f e 进行了人脸眼睛的准确定位,人脸 图像的标准化处理,人脸表情特征参数的提取以及基于隐含马尔克夫模型的人脸 表情识别等四个方面进行了研究并取得了如下成果: 1 根据j a f f e 数据库的成像特点,提出采用人脸灰度图像的垂直投影和水平 投影方法确定人脸的左右边界,进而确定人脸的眉眼区域,然后对眉眼区域经大 津方法自动阈值分割后的二值图像进行形态学处理与投影操作,以实现人脸图像 中左右眼睛的精确定位,再根据左右眼睛的中心对图像进行旋转、缩放等操作, 最终实现了人脸图像的标准化处理,仿真结果表明,这种方法较大程度上克服了 头发等边缘遮挡物、人脸表情、年龄、光照等因素对眼睛定位的影响。显著提高 了人脸图像中眉眼区域的检测率与眼睛的精确定位率。( 第二章) 2 充分利用l o g g a b o r 可表示神经细胞感受的特点,以及不同参数的l o g g a b o r 小波变换能很好地捕捉图像中不同空间频率、空问位置以及方向的局部特性信息 与纹理信息等优点,实现了标准化人脸图像中表情特征矢量的有效提取。实验结 果表明,采用l o gg a b o r 变换方法,可有效克服旋转对表情特征提取的影响,并 最终有效地提取了人脸表情的特征参数,这将为进一步的人脸表情识别奠定基 础。( 第三章) 3 作为马尔克夫链的一种改进和扩展,h m m 作为一种概率统计模型,具有 观察可测,状态隐含的特点,非常有益于描述非平稳信号,即可很好地描述信号 的长时变特性与短时不变特性,并在语音识别和小语音库语音的合成中已经取得 了非常好的应用效果,因此,本论文充分利用隐含马尔克夫模型这种具有良好的 训练性能与识别性能的统计模型方法进行人脸表情的识别。( 第五章) 1 3 论文的组织安挣 第一章介绍了人脸表情识别的概念、国内外的研究进展、选题的背景和意义、 以及研究的主要内容和本论文的组织安排。 第二章介绍了常用的人脸定位方法、j a f f e 人脸表情数据库的组成与成像特 3 点、人眼定位方法、人脸表情图像的标准化处理方法与实现过程。 第三章介绍了g a b o r 变换原理与特点、改进的g a b o r 变换- i o gg a b o r 变 换,以及基于l o gg a b o r 变换的人脸表情特征提前方法与结果。 第四章介绍了h m m 理论、h m m 基本算法、h m m 在实际应用中应注意的 一些基本问题,以及如何利用h m m 实现人脸表情识别的基本流程。 第五章详细介绍了人脸标准化处理流程与结果,人脸表情特征提取流程与结 果,基于h m m 的人脸表情识别流程与结果,并作了相应的分析与评价。 第六章总结并展望了基于h m m 的人脸表情识别方法,并提出了今后工作的 研究方向与重点。 4 第二章人脸的定位方法及改进 人脸定位本身是一个很具有挑战性和趣味性的问题,同时,它也是计算机视 觉中一个亟待解决的难题,其原因在于:首先,不同个体的人脸易受头发、眼镜、 胡须等脸部饰物的影响;其次,人脸图像易受不同光照、三维姿势、混乱背景等 因素的影响;最后,人脸是非刚性的,弹性的,它在大小,形状、颜色和构造方 面有高度的收缩性。在进行有关人脸方面的研究中,任何与头部相关位置的改变 都会对后续的研究工作产生重要的影响,而作为人脸表情识别的三个关键性技术 环节之一,人脸定位对后续的人脸表情特征的提取和最终的识别都有着极为重要 的意义,因此,本章首先扼要地介绍常用的人脸检测与定位方法,然后重点介绍 了本论文所采用的灰度投影方法与改进原理,并给出了相应的实验结果。 2 1 典型的人脸定位方法 典型的人脸定位方法可按其基本原理分为基于知识的人脸定位方法与基于 概率统计理论的人脸定位方法,以下将对其作简单的介绍。 2 1 1 基于知识的方法 基于知识的人脸检测方法指的是基于研究者对入脸的先验知识,如人脸器官 的对称性,人脸器官的已知性,人脸器官灰度分布的可预知性等,譬如:人脸中 心有四个亮度分布基本一致的单元( 即两只眼睛、一个鼻子、一张嘴巴) ;眼睛 以上附近的区域有基本一致的亮度:中心区域与眼睛以上区域的平均灰度值有明 显差别。 这种方法的难点是怎样把人脸知识转化为定义良好的准则,如果准则过于详 细,那么部分人脸将被漏检,因为其没有通过所有的准则。如果准则过于粗略, 则将可能犯很多积极错误。 2 1 2 特征不变方法 基于特征不变方法的思想来源是人类对人脸的识别原理,即人类能够轻而易 举地在多姿态、不同光照情况下检测出人脸,因此,撇开这些变化的因素应该存 在一些不变的因素,而这些不变的因素就指的是人脸特征的不变量。该方法通常 是利用边缘检测器对人脸器官进行特征提取,如眉毛、眼睛、鼻子、嘴巴、头发 边缘,然后建立统计模型,以描述特征之间的关系,进而验证人脸的存在与位置。 这些基于特征的算法都存在的一个问题是,图像特征会受光照、噪声等因素 的严重破坏。 5 2 1 3 模板匹配方法 模板匹配中方法指的是给定一副包含人脸的图像,通过与人工预先定义或用 函数参数化一个标准人脸模式( 通常是正面的) 相比较,分别计算出人脸轮廓、 眼睛、鼻子、嘴巴等脸部器官标准模式的相关值,而人脸的存在就是由这些相关 值决定的。 这种方法的优点是执行起来比较简单,但是,实验证明它不足以检测出人脸, 因为它不能有效地处理大小、姿势、或因表情而致使形状发生改变的人脸。此后, 为了达到大小、形状不变的目的,提出了多方案、多路、子模板和可变形模板等 方案。 2 1 4 基于神经网络的方法 人工神经网络已经成功地应用在许多模式识别问题上,比如字符识别、目标 识别和自动机器人驾驶等。因为人脸检测可以看作两种模式的识别问题,所以多 种神经网络结构可以用于利用。使用人工神经网络的优点是系统网络训练识别复 杂人脸模式的可行性。但是网络结构有一个缺点,那就是它必须不断地协调来( 许 多的层,许多的节点,学习效率等) 取得更好的性能”1 。 2 1 5 支持向量机 支持向量机( s v m :s u p p o a v e c t o r m a c h i n e ) 是v a p n i k 等提出的基于结 构风险最小化原理的统计学习理论,它比基于经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o np r i n c i p l e 。e r m ) 的人工神经网络方法具有更好的泛化能力。o s u n a 最先将非线性s v m 应用于人脸检测并取得了很好的分类效果,但计算量比人工 神经网的方法要大得多”。 2 2j a f i e 数据库及特点 随着大量人脸检测与定位方法的涌现与应用,人脸数据库也处于不断的构建 和完善之中在用于入脸表情识别的数据库方面,起初e k m a n 和f r i e s e n 系统地 建立了一个有上千幅不同人脸表情的图像库,近来美国c m u 机器人研究所和心 理学系共同建立了c o h n k a n a d e a u c o d e d 人脸表情库,现有2 1 0 个1 8 岁到5 0 岁成年人的脸部表情图像序列,c m u 还建立有p i e 表情库,其中包括6 8 人的 4 1 3 6 8 幅图像。加州大学圣克鲁兹分校知觉实验室的人脸运动表情图像库是基于 f a c s 模型,主要用于神经网络方法分类面部行为的训练图像。耶鲁大学、普渡 大学、马里兰大学也各自建立了自己的人脸表情图像库,而日本a r t 建立了日 本女性表情数据库j a f f e 。 6 由于j a f f e 人脸表情图像库包含1 0 个人的六种基本情绪,如惊奇、恐惧、厌恶、 愤怒、高兴、悲伤外加中性( 无表情) ,而且,j a f f e 库中所有图像均存在成像背 景单一,光照充分,姿势端正,无眼镜、胡须等遮挡物等特点,因此,本论文将 以该数据库作为研究对象,用于基于h m m 的人脸表情的识别与研究。 2 3 基于灰度投影法的人脸定位与眉眼定位 如2 1 节所述,尽管目前存在多种人脸定位方法,但是考虑到本论文的研究 重点与所选择的人脸表情图像库j a f f e 的图像特点,我们选择基于知识的人脸检 测方法,充分利用人脸图像灰度分布的可预知特点,实现图像库中人脸的准确定 位。 近年来国内外研究者在人脸定位方面做了大量的工作“”,最常用的方法是 先确定出人眼的两个瞳孔位置,并将两个瞳孔之间的距离作为比例系数进行图像 的旋转、裁剪、缩放等操作。选择瞳孔作为人脸图像的最基本特征是因为瞳孔具 有人脸其他器官不具有的特征优势。首先,人眼的两个瞳孔在图像中灰度值最小, 使瞳孔更容易被找到;其次,瞳孔的间距相对较固定,不易受人脸的表情、倾斜 等因素的影响,适合作为裁剪的尺度。 b a l a 等人“”提出了一种基于遗传算法和决策树的眼睛定位方法该方法用 一种混合遗传结构使基本视觉规则不断进化,最终得到可用于眼睛定位的决策树 形式的视觉规则。w u 和7 _ , h o u m l 提出了一种基于灰度对比的眼睛定位方法,该方 法利用眼睛区域的灰度较大这一特点找出眼睛的位置。r e i n d e r s 等人“”提出了一 种基于神经网络的眼睛定位方法,该方法将搜索窗口的像素作为神经网络的输 入,如果该窗口包含眼睛图像,则神经网络的输出较大。但是,上述方法只能确 定人眼的大致位置,并不能获得精确定位眼睛的中心,为了获得效果更佳的人脸 标准化图像,有必要研究瞳孔精确定位的方法。 图2 1 人脸表情图像 对图2 1 中人脸表情图像的观察,可以看出,在人脸图像中,脸部的平均灰 度明显不同于背景灰度,脸部所在区域的灰度值比较均匀,且灰度值偏高,而人 7 脸与背景的交界处则会产生突变,即分界处的那一点会有一个大的梯度值。 同 时,在人的嘴与眼处也会产生两个突变,会形成两个灰度值的波谷。 本文应用垂直灰度投影函数和水平灰度投影函数来分别描述人脸图像在水 平方向和垂直方向上的灰度变化。设所处理的图像为8 位( 2 5 6 级灰度) 灰度图像 ,o ,y ) 。大小为m ,则其垂直灰度投影函数和水平灰度投影函数分别定义为: 昂o ) 。荟7 ,y ) m v h ( y ) 。荟。o ,j ,) 工一1 ,2 ,m y 一1 ,2 , ( 2 1 ) ( 2 2 ) 为去除噪声对灰度投影曲线的影响,厦进行一定的平滑处理,通常采用的是均僵 平滑滤波器,滤波窗口尺寸为k ,对垂直投影和水平投影的滤波描述如下; 岛o 卜- - k + - * l 。 - 囊v ,刍:, ( o ( 2 - 3 ) p 掰 ) 。志;三予a ) ( 2 - 4 ) f,ft f 图2 - 2 人脸图像灰度投影 8 我们针对j a f f e 数据库中的部分人脸图像作了垂直灰度投影和水平灰度投影,并对 其投影曲线进行了相应的平滑滤波处理,结果如图2 2 所示。 观察人脸图像的垂直灰度积分投影曲线,可以发现人脸所在区域使垂直灰度 投影曲线形成一个具有一定宽度的凸峰,这个凸峰的左右边界大致就是人脸的左 右边界。这是因为与背景相比,人脸区域往往具有较高的亮度。在人脸左右边界 处,垂直方向上灰度值的总和迅速减小,从而形成一个明显的凸峰。因此,只需确定 垂直灰度积分投影曲线中主要凸蜂的左右边界,即可得到人脸的左右边界,其结 果如图2 3 所示: 图2 - 3 人脸图像左右边界 观察人脸区域图像平滑后的水平灰度积分投影曲线可以发现,此曲线的第一 个极小值点对应人的头顶,因为头发的低灰度产生了水平灰度积分投影曲线的低 谷;而曲线的最大值点和次最大值点则对应人的额头部位和人的鼻中部( 因为发 型不同,可能使额头部位对应的投影值大于或小于鼻中部的投影值) ,在额头和鼻 子中部之间存在一个极小值点,这一点对应眼睛所在的大致水平位置 如上所述,可通过灰度投影法实现人脸的左右边界定位和眼睛的粗定位,即 实现了人脸图像中眉眼区域的粗定位,如图2 4 所示: 图2 4 眉眼区域定位 2 4 眉眼区域的阈值分割与形态学处理 在获取了人脸表情图像的眉眼区域时,也就完成了人眼的初始粗定位,接下 来就是如何实现眉眼区域中左右眼睛的精确定位。 2 4 1 眉眼区域的自动阙值分割 如何实现灰度图像的自动阈值分割长期以来一直吸引着众多学者,o t s u 于 1 9 7 9 年提出的最大类n t y 差法( 也称之为大津方法1 一直被认为是阙值自动选取 9 方法的最优方法“”,该方法计算简单,在一定条件下不受图像对比度与亮度变化 的影响,因而非常有益于实现人眼的精确定位,大津方法定义为,设f ( x ,y ) 为图 像i m “位置o ,y ) 处的灰度值,若设灰度级为k 。则f ( x ,y ) e o ,k - 1 1 ,i 己p ( k ) 为灰度值为k 的频率,则有: p m 去,露 ( 2 - 5 ) 假设用灰度f 为阈值分割出的目标与背景分别为: 厂o ,y ) s f ,和 ,似y ) f ,则 目标部分比例为:( f ) - 互p o ) 目标部分点数:。( f ) 一m n p o ) 背景部分比例为:q o ) - 罗p o ) 背景部分点数为:l ( f ) = b i n 罗p i 盘一l,盎女一l 目标均值:口。( f ) 罗印 ) ( f ) 背景均值:“,( f ) 一罗印o ) ,q o ) o 嚣刍f t 盏。 总的均值:“一o ) l l 。( f ) + q ( f 扣。( f ) 大津方法求解最佳阈值g 的公式为: g 一_ r g 恶唆( f 地。( f ) 一口r + q ( f ) 0 ,( f ) 一“) 2 】 ( 2 6 ) 该式右边括号内实际上就是类问方差值,阈值g 分割出的目标和背景两部分构成 了整幅图像,而目标取值“。o ) ,概率为( f ) ,背景取值( f ) ,概率为a h c t ) ,总 均值为“,根据方差的定义即得该式。因方差是灰度分布均匀性的一种度量,方差 越大,说明构成图像的两部分差别越大,当部分目标错分为背景或部分背景错分为 目标都会导致两部分差别变小,因此使类间方差最大的分割意味着错分概率最小, 这便是大津方法的基本原理“”。 本文利用大津方法,很好地实现了眉眼区域的自动阈值分割,分割结果如图 2 5 所示: 图2 - 5 眉眼区域二值化处理 2 4 2 左右眼睛的精确定位 在自动阈值分割与及二值化处理的基础上,就可以实现人眼的精确定位了。 观察图2 - 6 就可以发现,其垂直投影和灰度投影比较有规则,我们可以充分利式 ( 2 - i ) 、( 2 2 ) 所描述的灰度投影原理,实现人眼的精确定位。 1 0 图2 - 6 眉眼区域投影 利用水平投影的右波峰值位置,可以确定眼睛的垂直位置,而右波峰值左侧 的波谷则对应着眼睛与眉毛之间的区域,故可根据此关系,实现眼睛区域的裁剪, 裁剪结果如图2 - 7 所示: 图2 - 7 眼睛区域定位 利用垂直投影的两个峰值,可以确定左右眼睛的水平位置,即而可以实现人眼的 精确定位,部分人眼定位结果如图2 8 所示: l l 图2 - 8 部分人眼定位结果 2 5 人脸图像的标准化处理 在完成人脸图像中左右眼睛精确定位的基础上,就可以实现图像的标准化处 理,其主要步骤包括对原始图像的旋转、脸部图像的裁剪、缩放、以及直方图修 正等n 。1 。 2 5 1 进行图像的旋转操作 设d 和田分别为左右眼睛的中心,则需使d 和目的连线e r e i 保持水平。 这保证了人脸方向的一致性、体现了人脸在图像平面内的旋转不变性。 设瓴,y 。) 也,y :) 分别为左右眼睛的坐标,则瞳孔间连线e r e i 与水平方向夹 角可表示为: 0 。口t a n f 丝丑1 ( 2 7 ) i x :一j 若0 0 ,则需要对图像进行旋转操作,旋转公式为: 工i 嘲o + y s i n 0 - 4 螂弘6 8 妯口( 2 - 8 ) i y 一- x s i n 0 + y c o s o + a s i n 0 一b c o s 0 + b 其中,k ,y 1 ) 为旋转后图像的坐标,g ,y ) 为原图像的坐标,a ,6 ) 旋转前图像中 心的坐标,假定旋转前后图像大小不发生变化,则旋转后图像中心的坐标仍为 ( 口,6 ) 。旋转过程中要考虑插值处理,由于双线性插值的频域特性优于最近邻域 插值,其频谱的旁瓣远小于主瓣,具有较好的带阻特性,而且,双线性具有运算 量小的特点,因此我们采用双线性插值方法。双线性插值法输出像素的值是它在 输入图像中2 x 2 邻域采样点的平均值,它根据某像素周围四个像素的灰度值在 水平和垂直方向上对其进行插值操作。 设m r 肼+ l n ,。 一4 - l a i i - r a ,b i j - n ,是要插值点的坐标,则双 线性插值公式为: g ( f ,) 一0 - = l - b ) g ( m ,九) + a ( 1 - b ) g ( ,竹+ 1 ,以) + ( 1 一口物伽,n ) + a b g ( m + l n + 1 ) ( 2 9 ) 2 5 2 根据图2 - 9 所示比例关系进行图像的裁剪。 设0 为连线e r e i 的中点,且d l 西匹玑经过裁剪,在2 d 2 d 的图像内,可 保证0 位于似,0 钳) 位置,即保证了人脸位置的一致性,体现了人脸在图像平面 内的平移不变性 翻2 - 9 人脸不意图 2 5 3 进行图像的缩小和放大变换,得到统一大小的标准图像,即实现尺寸归一 化处理。若规定标准图像的大小为3 2 x 3 2 ,则可确定缩放倍数3 2 2 d ,缩放中也 需要进行图像的插值处理,本论文中采用的插值方法为双线性插值,如式( 2 9 ) 。 2 5 4 为改善图像的对比度,部分地消除光照强度的影响,需采用直方图修正技 术使图像具有统一的均值和方差,即完成灰度归一化处理。直方图修正公式为: i ( x ,_ ) ,) 一! 亘( ,o ,j ,) 一“) + “o ( 2 1 0 ) o 其中,o ,y ) ,o ,) ,) 分别为直方图修正前后的灰度图像,o 。,吼) 分另j j 为修正 后的均值和方差, ,口) 为图像修正前的均值和方差。标准化处理结果 3 2 3 2 灰 度图像,如图2 1 0 所示: 原始圈像旋聿阜蠕作 就剪蟾作直方圈修正蠕倌 图2 - 1 0 人脸图像标准化结果 2 6 本章小节 本章首先介绍了一些常用的人脸定位方法,然后重点介绍了本文所采用的 人眼定位方法灰度投影法与自动阈值分割法,以及标准化处理过程,并展现 了部分实验结果。 1 4 第三章人脸表情特征的提取 作为人脸表情识别的另一个关键技术环节,人脸表情特征的提取将直接影响 到分类器的设计与性能。根据所处理图像的特点,可将人脸表情特征提取方法分 为两大类,即基于静态图像的静态表情特征提取和基于视频序列的动态表情特征 提取,相比较而言,静态表情特征提取方法处理的数据量少,方法简单可靠,其 提取的特征较为典型,因而也能获得较高的识别率,但要求所处理图像中人脸的 表情处于比较夸张的状态。人脸表情特征可分为两类:持久性表情特征和瞬态表 情特征,前者包括嘴巴、下巴、眼睛和眉毛,决定了基本表情状态,后者包括脸 颊和额角皱纹的瞬间变化,能在一定程度上揭示表情状态。实验表明“1 ,嘴角形 状对表情的影响最大,其次是眼睛和眉毛,而皱纹变化属于动态特征,且受年龄 等因素影响较大,对表情的贡献不大,甚至会对表情识别产生不利影响。因此表 情识别应重点提取嘴巴、下巴、眼睛和眉毛等局部表情特征,并忽略其它一些细 节的影响,譬如年龄、皱纹等。 3 1 人脸表情的分类 关于情绪的类别,长期以来说法不一。我国古代有喜、怒、忧、思、悲、恐、 惊的七情说,而美国心理学家普拉切克( p i u t c h i k ) 提出了八种基本情绪:悲痛、恐 惧、惊奇、接受、狂喜、狂怒、警惕、憎恨,还有的心理学家提出了九种类别。 虽然类别很多,但一般认为有四种基本情绪,即快乐、愤怒、恐惧和悲哀。美国 心理学家克雷奇( k r e c h ) 、克拉奇菲尔德( c r u t c h f i e l d ) 和利维森( l i v s o n ) 等人把情 绪分作以下4 类:( 1 ) 将快乐、愤怒、恐惧、悲哀视为最基本的或原始的情绪: ( 2 ) 与感觉刺激有关的情绪,包括疼痛、厌恶和轻快,这类情绪可以是愉快的, 也可以是不愉快的;( 3 ) 与自我评价有关的情绪,包括成功的与失败的情绪、 骄傲与羞耻、内疚与悔恨等,这些情绪决定于一个人对自身行为与客观行为标准 关系的知觉;( 4 ) 与他人有关的情绪,发生在人与人之间的情绪种类似乎无限繁 多,按照积极的与消极的维度,可以把它们分为爱和恨两大类。 在人脸表情的自动识别与研究中,目前主要是对七类基本表情的识别与研 究,即:愤怒( a n :a n g e r ) ,厌:恶( d i :d i s g u s t ) ,恐惧( f e :f e 砌,高兴( h a :h a p p i n e s s ) ,悲 伤( s a :s a d n e s s ) 。惊奇( s u :s u r p r i s e ) ,以及中性( n e :n e u t r a l ) 。j a f f e 人脸表情库中 1 0 个人的七种基本表情图像如图3 1 所示: 愤怒厌恶恐惧喜悦中性悲哀惊讶 圈3 - 11 0 个人的七种表情图像 3 2 人脸表情特征的提取方法 人脸是由眼睛、眉毛、鼻子、嘴巴、下巴等器官组成。而人脸表情的产生正 是受这些器官大小、形状、方向、相对位移和尺寸变换的影响。 3 2 1 基于几何特征的人脸表情提取方法 基于几何特征的人脸表情识别方法正是通过对这些器官一系列动态特征的 描述,即测定其大小、距离、形状以及相互比例等,以实现人脸表情特征的提取 与参数化处理,这种方法也是研究人员最早采用的人脸表情特征提取与识别方法 1 9 jo 基于几何特征的人脸表情提取方法很大程度上减少了数据的冗余度,但是由 于采用有限的数据代替人脸图像,一些重要的表情特征容易丢失,因此其精度并 不乐观( 7 4 ) ”1 3 2 2 基于模型的人脸表情特征提取方法 该方法将人脸图像建模为可变形的3 d 网格表面,把空问和厌度放在一个3 d 空问中同时考虑。其思想来源于解剖学,它基于物理的合成面部缔结组织和一组 基于解剖学的面部肌肉活动的结合,因为在一个确定的人脸物理模型中很难精确 地说明肌肉收缩引起皮肤运动的方向,故这种物理模型的精度确定了人脸表情特 征提取的准确性与有效性。 3 2 3 基于整体的人脸表情特征提取方法 基于整体的人脸表情特征提取方法将整幅图像作为输入,并对其进行适当的 变换以提取参数。当然,这种变换所得参数不同于基于几何特征的人脸表情特征 提取方法所得参数,这种参数并无准确的含义,但是这最为有效,其原因有二, 其一,该方法最大程度上保留了人脸图像中的表情信息与纹理特征,因而也有助 于进一步实现人脸细微表情的识别与研究;其二,该方法接近人类的识别方式, 即从整体上实现人脸表情的识别,也可以充分利用目前最为流行的人工神经网络 方法,实现人脸表情的识别。 3 3 基于l o gg a b o r 小波变换的人脸表情特征提取原理 有研究表明,神经细胞的感受可以用l o gg a b o r 函数( g a b o r 函数的改进) 来表示啪1 ,不同参数的二维l o gg a b o r 滤波器能够捕捉图像中对应不同空间频率、 空间位置及方向的局部特性信息,并且l o gg a b o r 滤波器对于亮度和人脸姿态的 变化并不敏感,因此,已广泛用于图像编码、手写数字识别、人脸识别和边缘检 测等方面。本节主要介绍l o gg a b o r 变换及其原型g a b o r 变换,并给出了部分 人脸表情特征提取结果。 3 3 1g a b o r 变换及函数特性 g a b o r 变换时一种短时傅立叶变换( f o m i e r ) 方法,它首先由d g a b o r 于1 9 4 6 年提出,它在非平稳信号的分析中起到了很重要的作用。在g a b o r 变换中,平稳 信号看作一系列短时平稳信号的叠加,也就是说,该变换是一个窗函数g o f ) 与 信号,( f ) 相乘实现在f 附近开窗和平移,然后旌以f o u r i e r 变换。对于 ,( f ) r 俾) 。g a b o r 变换定义为。1 : 6 - ,( n ,f ) 一r f ( t ) - g ( t f ) e j * d t 0 1 ) 其中,g ( f f p 一脚是积分核。该变换在r 附近局部测量了频率为的正弦分量的 幅度,通常g o ) 选择能量集中在低频处的实偶函数;g a b o r 变换采用高斯( g a u s s ) 函数作为窗函数,相应的f o u r i e r 变换仍为g a u s s 函数,从而保证了g a b o r ( 窗口 f o u r i e r 变换) 在时域和频域均有局部化功能。 令窗口函数为g 。( f ) ,则有: 舭) 。志一2 “ 。2 式中a 决定了窗口的宽度,( f ) 的f o u r i e r 变换用以( 曲表示,则有: 晶和) 。d 胁叫锄嘉扣e 咖出 ;一,。p 一毛p 一皿出 r 。p _ 三+ 埘出 2 册j - 一2 朋j 4 - _ 再二玉2 e 一2 ( 3 - 3 ) 2 册 由此可得: 如,枇- e e f g i o t ! ) e - j e t d t d f - j = = ,( f 弦咖仁g 。( f f ) d t d f a c 舭和忙击e 十 , 一e - 厂p 弦p 。- j 瓦1e 4 如卜 。c 腓和( 嘉瓜卜 一仁,( f 弘巾d t - f ( 3 _ 4 ) 显然,信号,( f ) 的g a b o r 变换按窗口宽度分解了f ( t ) 的频谱f ( 叻,提取它的局 部信息,当f 在整个时间轴上平移时,就给出了整个非平稳信号的g a b o r 变换。 相应的重构公式为: f ( o 一勺z 瓯( 咖弦咖删f ( 3 - 5 ) 对一维g a b o r 变换进行二维扩展,假设h ( x ,y ) 为二维g a b o r 基本函数, ,0 ,y ) r 僻2 ) ,则函数,o ,y ) 的二维g a b o r 变换g j ,( ,o ,) ,) ) 定义为: q ,( ,o ,y ) ) 。正:f ( a ,) i l + 似一x ,卢一) ,v 甜卢 3 6 ) 基本函数 “,y ) 和及其f o u r i e r 变换五亿,y ) 具有以下形式:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论