(信号与信息处理专业论文)面部表情识别研究.pdf_第1页
(信号与信息处理专业论文)面部表情识别研究.pdf_第2页
(信号与信息处理专业论文)面部表情识别研究.pdf_第3页
(信号与信息处理专业论文)面部表情识别研究.pdf_第4页
(信号与信息处理专业论文)面部表情识别研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)面部表情识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 面部表情是一种刻画情绪、认知、主体状态以及他们在社会交往中的作用和角色的方法 4 。在面对面的交流中面部表情和其他的手势能够传达非语言的交流信息,这些信息能 够作为语音的辅助帮助听者推断出说话人的意图。由于面部表情携带信息的原因,因此它对 于自然和谐的人机接口目标的实现具有相当重要的意义。 有关面部表情识别的研究工作可以追溯到1 9 7 8 年s u w a 1 等人的工作,而真正兴起则 开始于m a s e 和p e n t l a n d 在9 0 年代所作的开创性工作 2 。最近几年来,面部表情识别已经 成为心理学、计算机视觉、模式识别等领域一个十分热门的研究课题,具有良好的应用前景。 但是,表情识别是多学科交叉的研究课题,因此,仍然有很多相关问题需要解决。本文主要 从模式识别和机器学习的角度对面部表情识别进行了研究,取得了一定的研究成果。 本文中利用支持向量机对面部表情识别进行了研究,具体做法是首先从每一幅人脸图 像中提取3 4 个基准点,并将这些基准点的坐标为刻画表情变化的数据,然后采用支持向量 机作为分类器来对表情进行分类。针对j a f f e 的实验证实这种方法获得了较好的识别率。 提出了基于核判别面方法的面部表情识别。核判别面方法通过对s a m m o n 的最佳判别 面采用核化原理,能将其由线性应用领域扩充到了非线性领域。在对面部表情识别时,我们 仍使用3 4 个基准点的坐标作为输入数据,然后先将面部表情这种多类别分类问题转化为多 重二元分类问题,再在每一重分类问题中采用核判别面方法进行处理。实验证明相对于已有 的方法,该方法具有较好的识别效果。 提出了基于核典型相关分析的面部表情识别。核典型相关分析是研究非线性问题中两 组向量之间相互关系的一种方法。在表情识别实验中,一方面我们采用了图像在3 4 个基准 点出的g a b o r 小波系数来表示该图像的表情特征;另一方面用一个包含了每一幅图像的语义 分级的语义表情矢量作为语义表情表示。通过核典型相关分析研究矢量图和语义表情矢量之 间的相互关系。根据这种相互关系,估计出一幅给定的测试图像相应的语义表情矢量,然后 根据这个矢最来进行表情分类。针对j a f f e ( 日本女性面部表情库) 和e k m a n 表情库的实验 证明了核典型相关分析在面部表情识别中是确实有效的。 关键词:面部表情识别,支持向量机,晟佳判别面,核判别面,核典型相关分析 a b s t r a c t a b s t r a c t f a c i a le x p r e s s i o na r et h ef a c i n lc h a n g e si nl _ e f f p o n $ et oap e r s o n se m o t i o n a ls t a t e s ,i n t e n t i o n s , o r s o c i a lc o m m u n i c a t i o n s f a c i a le x p r e s s i o n s ,a n do t h e rg e s t u r e s ,c o n v e yn o n v e r b a l c o m m u n i c a t i o nc u e si nf a c e - t o f a c ei n t e r a c t i o n s t h e s ec u e sm a ya l s oc o m p l e m e n ts p e e c hb y h e l p i n gt h el i s t e n e rt oe u c i tt h ei n t e n d e dm e a n i n go fs p o k e nw o r d s a sac o n s e q u e n c eo ft h e i n f o r m a t i o nt h a tt h e yc a r r y , f a c i a le x p r e s s i o n sc a l lp l a ya ni m p o r t a n tr o t ew h e r e v e rh u m a n s i n t e r a c tw i t hm a c h i n e s a u t o m a t i cf a c i a le x p r e s s i o n sr e c o g n i t i o n ( f e r ) c o u l db et r a c e db a c kt ot h ep r e l i m i n a r yw o r k o fs u w ae ta 1 【l 】i n1 9 7 8a n dg a i n e dm u c hp o p u l a r i t ys t a r t i n gw i t ht h ep i o n e e r i n gw o r ko fm a s e a n dp e n t l a n d 2 】i nt h en i n e t i e s m o r er e c e n t l y , f a c i a le x p r e s s i o na n a l y s i sh a sb e c o m eav e r yh o t t o p i ci nc o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n ,a n dv a r i o u sa p p r o a c h e sh a v eb e e np r o p o s e dt o t h i sg o a l b e c a u s ef a c i a le x p r e s s i o na n a l y s i si sar e s e a r c ht o p i cr e l a t i n gw i t hm u l t i - s u b j e c t , t h e r e f o r et h e r ea r em a n yp r o b l e m sr e l a t i n gw i t hi tt od e a lw i t hi nt h i sp a p e r ,w ec o n d u c tt h ef a c i a l e x p r e s s i o nr e c o g n i t i o nu s i n gp a t t e r nr e c o g n i t i o na n dm a c h i n el e a r n i n gm e t h o d s ,a n dh a sg a i n e d s o m ea c c o m p l i s h m e n t s i nt h i sp a p e r , s u p p o r tv e c t o rm a c h i n ea r eu t i l i z e df o rf a c i a le x p r e s s i o nr e c o g n i t i o n ,t h e p r o c e d u r ec o n t a i n st w op a r t :( 1 ) e x t r a c t i n g3 4f i d u c i a lp o i n t sf r o me a c hf a c i a li m a g e a n du s i n gt h e c o o r d i n a t e so ft h e s ep o i n t st of o r mav e c t o ra st h ei n p u td a t a ;( 2 ) t h es v mc l a s s i f i e ri su s e dt o c l a s s i f yt h ef a c i n le x p r e s s i o n t h ep e r f o r m a n c eo f t h ep r o p o s e dm e t h o di sc o n f i r m e db yu s i n gt h e j a p a n e s ef e m a l ef a c i a le x p r e s s i o nd a t a b a s e ( j a f f e ) f a c i a le x p r e s s i o nr e c o g n i t i o nb a s e do nk e r n e ld i s c r i m i n a n tp l a n ei sp r o p o s e di nt h i sp a p e r t h i sm e t h o di san o n l i n e a re x t e n s i o no ft h es a m m o n so p t i m a ld i s c r i m i n a n tp l a n ev i at h ek e m e l t r i c kw h e nw ec o n s t r u c tt h er e c o g n i t i o n ,w ea l s ou s et h ec o o r d i n a t e so ft h ef i d u c i a lp o i n t sa s t h ei n p u td a t a t h ep r o c e d u r e sa r ea sf o l l o w s :( 1 ) c o n v e r t i n gam u l t i - c l a s sc l a s s i f i c a t i o np r o b l e m i n t oam u l t i p l eb i n a r yc l a s s i f i c a t i o np r o b l e m ;( 2 ) t h es v mc l a s s i f i e ri su s e dt oc l a s s i f yt h ef a c i a l e x p r e s s i o ni ne v e r yb i n a r yc l a s s i f i e r t h eb e t t e rp e r f o r m a n c eo f t h ep r o p o s e dm e t h o di sc o n f t r m e d b yt h ej a p a n e s ef e m a l ef a c i a le x p r e s s i o nd a t a b a s e ( j a f f e ) i nt h i sp a p e r ,f a c i a le x p r e s s i o nr e c o g n i t i o nb a s e do nk e r n e lc a n o n i c a lc o r r e l a t i o na n a l y s i si s a b s t r a c t p r o p o s e d t h ep r o c e d u r ea r e f o l l o w s :( 1 ) l o c a t i n g3 4f i d u c i a lp o i n t sf r o me a c hf a c i a li m a g ea s t h el a n d m a r kl o c a t i o n sa n dc o n v e r t i n gt h e s eg e o m e t r i cl o c a t i o n si n t oal a b e l e dg r a p h ( l g ) 3 v e c t o ru s i n gg a b o rw a v e l e tt r a n s f o r m a t i o nt o r e p r e s e n t t h ei m a g e :( 2 ) u s i n gas e m a n t i c e x p r e s s i o nv e c t o rc o n s i s t i n go f t h es e m a n t i cr a t i n go f e a c hf a c i a li m a g e a st h es e m a n t i ce x p r e s s i o n r e p r e s e n t a t i o n ;( 3 ) l e a m i n gt h ec o r r e l a t i o nb e t w e e nt h el gv e c t o ra n dt h es e m a n t i ce x p r e s s i o n v e c t o ri sp e r f o r m e db yk e m e lc a n o n i c a lc o r r e l a t i o na l i a l y s i s ;( 4 ) e s t i m a t i n gt h ea s s o c i a t i n g s e m a n t i ce x p r e s s i o nv e c t o ro fag i v e nt e s ti m a g ea n dp e r f o r m i n gt h ec l a s s i f i c a t i o na c c o r d i n gt o t h i ss e m a n t i ce x p r e s s i o nv e c t o et h eb e r e rp e r f o r m a n c eo ft h ep r o p o s e dm e t h o di sc o n f i r m e db y t h ej a p a n e s ef e m a l ef a c i a le x p r e s s i o nd a t a b a s eo a f f e ) a n dt h ee k m a n se x p r e s s i o nd a t a b a s e k e yw o r d s :f a c i a le x p r e s s i o nr e c o g n i t i o n ,s u p p o r tv e c t o rm a c h i n e ,o p t i m a ld i s c r i m i n a n tp l a n e , k e r n e lo p t i m a ld i s c r i m i n a n tp l a n e ,k e r n e lc a n o n i c a lc o r r e l a t i o na n a l y s i s i i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文巾不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:f 塾堕廛日期:型2 3 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:直堕壅导师签名期:2 0 0 5 - ;凹 第一章绪论 1 1 引言 第一章绪论 面部表情是一种刻画情绪、认知、主体状态以及他们在社会交往中的作用和角色的方法 5 】。在面对面的交流中,面部表情和其他的手势能够传达非语言的交流信息,这些信息能 够作为语音的辅助帮助听者推断出说话人的意图【l 】。在【6 中,m e h r a b i a n 指出在对话的交流 中面部表情具有相当大的作用。将对交流的作用以百分比的形式表示,其中面部表情占了 5 5 ,剩余部分中声音的音调占了3 8 ,说的话占了7 【l 】。 由于面部表情携带的是信息序列,所以不论人们在哪里与机器进行交互作用,面部表情 都能起到重要的作用。面部表情的自动识别在行为上类似自然的人机界面的组成部分 7 】( 它 的一些变量叫做临时界面【8 】或者对话界面【9 】) ,这样的界面能够将信息自动的供应给设备, 这些设备就能对使用者情绪状态做出很好的评价。这种评价在某些场合具有重要的作用,如 在谈判时对对方的情绪有所了解的情况下,可设当改变谈判的策略,这样有助于顺利的达成 共识。在 1 0 l 中指出一些机器人也具有了识别情感的能力。面部表情的自动分析对于行为科 学和机器科学而言是另一种可能的应用领域【5 】 1 1 。 就自动识别的观点来看,面部表情可以被认为是脸部组成部分和它们的空间关系的变_ 形 或是脸部的颜色变化。对面部表情自动识别的研究围绕在这些变形或脸部颜色的静态或者动 态特性的表示和分类上。 1 2 研究的目的和意义 在社会生活中,情绪对于协调人与人之间的相互关系具有很重要的作用。对人的情绪 研究也越柬越受到社会的关注,且在在心理学界也开始了比较深入的研究。而表情又是情绪 第一章绪论 的独特表现形式,在人与人的交往中,面部表情是除了声音之外的非常重要的通信方式。它 作为信息的载体,能够表达很多语音所不能传达的信息。 在科学研究中,面部表情的研究也在很多方面有着十分重要的意义。 1 在语言学中,面部表情可辅助唇语,帮助听觉有问题的人进行日常交流; 2 在医疗中,表情分析可作为辅助手段,帮助医生分析病人的精神状态,对病人的精神 问题做出正确的诊断: 3 在商业方面,在不久的未来必将能制造出这样的设备,它能够跟踪使用者的面部表情。 将这样的技术用于可视电话或者电视会议中,对于加强国内或者国际的商业合作无疑具有十 分重大的意义: 4 就计算机科学领域的研究而言,面部表情的研究对于实现自然的人机交互以及自动的 图像理解也具有重大的意义。随着科学的进步,计算机经过人的训练,在一定程序上已经能 够模仿人类的行为,但是其仍然不具有人类的情感能力,如自动地识别表情。在人机交互中, 人脸表情的识别能够很大程度上促进其自然化的发展。自8 0 年代计算机视觉经过十几年的 发展已取得了相当的进步,但是作为其中+ 个研究内容的图像理解却进展不大。而表情识别 的研究对图像的理解也有很大的推动作用。另一方面,通过对人脸面部信息的理解,能够在 空间和时间上估计脸部组成部分的变化表示面部表情;表情识别的研究对于研究低带宽的 数据传送和动态图像中的人脸识别以及面部图像处理,均有很大的贡献【3 3 】。 1 3 表情识别系统的结构【1 】 面部表情自动识别系统就是对人脸的表情信息进行特征提取分析,按照人的认识和思维 方式加以归类和理解,利用人类所具有的情感信息方面的先验知识使计算机进行联想、思考 及推理,进而从人脸信息中去分析理解人的情绪,如快乐、惊奇、愤怒、恐惧、厌恶、悲伤 等【3 4 】。系统通常以程序块的序列结构表示,这与经典的模式识别模型一致( 见图 1 ) 【5 1 2 】【1 3 】。主要的块包括:图像的获得、预处理、特征提取、分类和后续处理。 至于图1 中块之间的互相连接,虽然反馈对于提高识别率可能是有益的,但是大多数的 表情识别系统的各块之间的反馈是被忽略的。对脸部组成的空间区域应用特征提取和后继的 分类,表情识别能分为全面的和局部的识别。局部的识别包括了特征提取器或者分类器的全 2 第一章绪论 体,而组成一个联合单元。在全局识别中,整个人脸提供给识别系统个单一的输入。 自动表情识别系统的组成部分中嵌入的主要方法如下所示: 1 ) 获得图像:用于面部表情识别的图像包括静态或者动态图像。因为一个图像序列也描 述了表情的时间特征,所比它比一幅静态图像潜在地包含了更多的信息。考虑输入图像的空 间、彩色、时间维数,二维灰度人脸幽像序列是最常用来进行自动表情识别的图像形式。然 而,由于低成本彩色图像获得设备的实用性的增加和彩色图像能够传达诸如脸红这样的情感 信息,冈此未来彩色图像可能会变得流行。 2 ) 预处理:图像预处理常常采用信号处理的形式( 如去噪、蒙素位置或者光照变晕的标 显示人脸几何的标准脸部五官采用隐 多路分类判别为高 举例正面或者化( 包括头部 的几何尺m a r k o v 模型 1 4 】 侧面的二的平移、旋 寸的估计 1 5 、神经网 维图像转、尺寸变 1 7 】络 1 6 】、k 近邻 1 4 换) 5 】 1 5 密集运动 【1 7 】、基于准 使用肤色的参数的空则的专家系统 高斯混合模间维数的 1 4 分类 型【1 6 】或者脸缩减 1 5 】 部器官的可肌肉运动 变形摸板进参数的估 行人脸切割计【1 1 【1 4 1 6 】 图1 1 面部表情自动识别系统 准化) ,还包括人脸及它的组成的分割、定位或者跟踪。表情的表示对图像中头的平移、,尺 寸变化和旋转是敏感的。为了消除这些不必要的变换的影响,人脸图像可以在分类前进行几 何标准化。这种标准化通常是基于由眼睛或者鼻孔提供的参考位置来实行的。 第一章绪论 分割关心的是表达有关人脸信息的图像部分的划分。人脸分割常常处理人脸及其组成 部分的外形、运动、颜色、肌理和空间结构 1 8 1 。人脸定位过程以分割的结果为基础,得出 图像中脸的位置和空间范围。各种人脸检测技术在 1 8 1 e p 已有介绍。然而,在现实条件下要 想获得人脸或者它的组成部分的鲁棒检测仍是困难的。跟踪在一个图像序列中常以定位出人 脸或者它的部分的形式执行,因此先自口定出的位置常被用来在随后的图像帧中来估计位置。 3 ) 特征提取:特征提取是将象素数据转换为一个更高水平的人脸及其组成部分的外形、 运动、颜色、肌理和空间结构的表示。提取出的表示被用来进行后续的表情分类。特征提取 通常会缩减了输入空间的维数。缩减程序应该保留本质的信息,并拥有较高的判别能力和稳 定性。这种维数的减少可以减轻维数的负担 1 2 。基于几何的、运动的、统计的或者空间变 换的特征常用来作为在分类前的面部表情的可供选择的表示方法 5 】。 4 ) 分类:表情分类由一个分类器执行,该分类器由模式分布模型组成,与判决程序相结 合。很多包含参数和非参数的技术的分类器已经被应用于自动表情识别系统中【5 。在面部 表情识别中两个主要的类型标准是动作单元( a u s ) 【2 】和由e k m a n 定义的面部表情原型 1 9 。 与情绪状态有关的6 种原型表情是高兴、悲伤、惊奇、生气、害怕和厌恶 1 9 1 。然而由 于表情的复杂性和意义的变化,现实中包含的表情远远不i p 这六种 1 5 1 。此外,虽然许多实 验性的表情识别系统以原型表情作为输出类别,但是这种表情很少出现,并且脸的一部分的 变化就可以表示出情绪和意l e d 5 1 1 】。 个动作单元足4 6 个引发脸部运动及其相应的变形 的原始单元之一,而一种表情就是由几个动作单元的连接所产生的 5 【1 9 】。动作单元在脸部 动作编码系统中进行了描述( f a c s ) 2 0 i 。 有时动作单元和原型表情类型在一个有层次的识别系统中一起使用,举例来说分类为 动作单元可以作为低级别的表情分类,接着将动作单元和原型表情相结合可作为高级别的分 类 1 4 1 。 5 ) 后续处理:后续处理的目的在于通过各领域的知识来修正分类的错误率或者联合一 种分类等级中的几个标准来提高识别的准确性。 1 4 表情识别的国内外研究概况1 3 3 】 1 ) 国内方面:人脸识别中的经典方法特征脸饵i g e n f a c e ) 方法已被应用于表情识别中 4 第一章绪论 采用静态图像作为训练集,将表情投影到不同的空间,用距离大小来进行表情的判别【2 1 】。 亦有人采用表情序列进行识别,但仍然提取的是静态的信息 2 2 1 。由于两者均采用静态的图 像进行训练和识别,不能反映出脸部的动作变化,因此不包含时间和运动信息,而脸部的动 作变化是表情聚类的核心。另外提取出来的特征是局部和线性的。 2 ) 国外方面:在国外,进行人脸面部表情识别及其相关领域研究的机构主要有美国的麻 省理工大学( m i t ) 、弓里兰大学( m a r y l a n d ) 、卡耐基梅隆大学( c m u ) 、日本的城蹊大学 ( s e i k e i ) 、东京大学( t o k y o ) 和大坂大学( o s a k a ) 等。而美国m i t 媒体实验室提出了一个 新的研究方向一情感计算,研究组的领导人p i c a r d 教授在1 9 7 9 年给出了情感计算的定义一 是关于、产生于、或故意影响情感方面的计算,其目的是通过赋予计算机识别、理解、表达 和适应人的情感能力来建立和谐的人机环境,并使计算机具有更高的,全面的智能【2 3 】。 目前,在面部表情识别的研究上,主要在合成、跟踪与识别方面取得了一些显著的成果。 1 9 9 3 年t e r z o p o u l o s 和w a t e r s 2 4 通过跟踪线性的脸部特征,产生出面部表情。他们采用一 个简单的模型来合成一个基于物理的组织结构模型( p h y s i c a l l y - b a s e ds y n t h e t i ct i s s u em o d e l ) 的三维模型,由组织、生物动力学( t i s s u eb i o m e c h a n i c s ) 来驱动它,通过分析图像序列中的 表情,从而跟踪在脸上由手工初始化标注的1 1 个基本轮廓。这种方法的不足之处在于:面 部特征需要化装,虽然采用了主动的轮廓模型,但由于系统是被动的,这是因为脸部的结构 是通过被跟踪的轮廓特征被动形成的,没有任何基于观察性的主动控制。 m a s e 使用光流法来跟踪运动单元【3 2 5 】。m a s e 的表情分析工作是由从上至下和从下至 上两个方向上开展的【2 5 】。工作的重点都是围绕在计算脸部肌肉的运动,而不是特征的运动。 ( 1 ) 在从上至下方面:假定面部图像被分为肌肉单元( a u s ) ,再将肌肉单元连接成矩形,在矩 形中计算光流。这种方法的不足之处在于,当肌肉单元对应的是平滑和无特征的表面时,将 严格的依赖于定位这些包含肌肉单元的矩形。( 2 ) 在从r 至上方面:从矩形。p 计算光流,量化 成4 个方向,每个方向上提取一个主要的肌肉收缩方向。实验中定义并提取一个1 5 维的特 征向量来表示表情变化的图像序列中光流变化最活跃的点( m o s ta c t i v ep o m p ) 。实验采用作 者本人的若干组不同表情的图像序列作为数据,图像大小为2 5 6 2 4 0 ,将表情分为四种类型: 高兴、愤怒、厌恶及惊奇,2 0 组作为样本数据( 每种类型5 种) ,3 0 组作为测试数据,采用k 近邻方法进行分类,识别率为8 0 。并与由人进行主观识别的结果进行了比较。 h a i b ol i 等人提出了一种基于模型的表情编码方法【2 6 ,将计算机图_ 形学和计算机视觉 处理之间的反馈控制思想应_ 于面部图像编码系统中。这种方法的不足在于只能在预先定义 好的、比较大的区域内进行观察而不能估计运动变化的细节,虽然这对于图像编码系统来 5 第一章绪论 说是可以接受的,但是无法真实的反映驱动肌肉的模型。 y a c o o b 和d a v i s 采用基于f a c s 编码的表情识别方法【2 7 】。他们工作的重点在于分析 跟睛、嘴巴和眉毛边缘的相关性运动,将光流场量化成8 个方向。规定每种表情以中性表情 作为开始和结束从而建立卟时问模型- - b e g i n n i n g a p e x - e n d i n g ,通过定义表示每个阶段 开始与结束的规则来检测各时间段。实验l 卜t 使用包含3 2 个人的1 0 5 个各种表情的数据库, 图像大小为1 2 0 ) ( 1 6 0 ,识别是采j h j 简化的f a c s 规则进行的。显示的各种表情的识别率为: 高兴为8 6 、悲伤为8 0 、惊奇为9 4 、生气为9 2 、害怕为8 6 和厌恶为9 2 。 m a r kr o s e n b l u m 等人采用神经网络中的r b f n ( r a d i a lb a s i sf u n c t i o nn e t w o r k s ) 结构 2 8 ,通过学习人的面部特征与情绪之问的相关性,在低级恢复运动方向,中间级决定面部 特征的运动,在最高级进行识别。提取到的特征不是面部的肌肉运动,而是特征部件边缘的 运动。肖检测得到的特征部件的运动是同方向的,则认为这样的图像帧是无效的。实验结果 显示该方法的识别率为8 8 。k a t s u h i r o 等人通过人脸网膜对边缘图像的感应区域和势能网 进行单帧图像中的表情识别,识别率为9 2 。t a t s u m i 等人利用小波变换来提取出图像的频 域特征后进行识别,实验采用包含了4 个人的6 种表情的数据库,每种表情5 幅图像,识别 率为8 4 1 。 t r e v o rd a r r e l l 等人用插值和相关网络进行表情的实时合成【2 9 】。这种方法由于初始阶段 采用的是手工定位,因此比较适用于特定人的表情识别。a n t a i p e n g 等人采用遗传算法来编 码,通过纹理来合成自然的表情 3 0 1 。 i t f a n 等人用图像序列来观察脸部的运动单元,通过优化估计光流和描绘脸部结构的集 合和物理模型相结合来完成视觉观察与感知。最终产生随时间变化的的面部模板和独立的肌 肉运动的参数表征。实验采用的是7 个人的5 2 幅表情图像序列,图像大小为4 5 0 x 3 8 0 。定 义的表情类型为高兴、生气、惊奇、厌恶,识别率为9 8 。由于几何网格是在初始化阶段 由手工完成的,而且用于识别的图像序列是长度同定的,因此不能反映出肌肉随时间的运动 变化信息。 作为表情识别的发展目标一情感计算正在世界各国积极地开展着相关的研究工作,并取 得了一定的研究成果。其中以美国m i t 媒体实验室的工作较为突出。他们将研究的内容分 为了九个方面:情感机理、情感信息的获取、情感模式识别、情感的建摸与理解、情感的合 成与表达、情感计算的应用、情感计算机的接口、情感的传递与交流和可穿戴计算机,图2 是情感计算研究的内容与关系图。 3 3 】 而我国也在逐步开展情感信息处理的研究,并也引起了相关部门的关注。在1 9 9 9 年的 6 第一章绪论 国家自然科学基金中的“和谐人机环境中情感计算理论研究”被列为了重点项目。同时中国科 学院自动化所、心理所以及国内众多高校也在这方面取得了一定的进展。2 0 0 3 年,在北京 举行了第一届中国情感计算与智能交互学术会议,会议期间集中展示了国内各研究机构近几 年来从认知、心理、模式识别、系统集成等多种角度在情感计算领域取得的研究成果,一定 程度上孙补了我国这方面的空白 3 5 。 图1 2 是情感计算研究的内容与关系图( 引f l p 3 1 ) 。 1 5 表情识别中的难点 人类在现实生活中很容易地就可以识别出面部表情但是让机器来可靠地识别情感仍然 是困难的。经常在模式识别领域中出现的问题在表情识别中也经常会碰到 1 2 。关键在于当 7 第一章绪论 输入数据多变的情况下,怎样实现优化的预处理、特征提取或者特征选择以及分类。为了达 到较好的识别效果,目前的大部分成功的识别方法对图像均需要一定的限制。对图像的要求 包括以下几方面: ( 1 ) 头的位置或者观察。我们常常对头部相对于相机的位置和方向,以及相机的缩放设 置做出种种约束。但也发展了一些对于头的平移,比例变化以及平面内的旋转有好的敏感性 的处理技术。超平面旋转的影响很难去除,因为这可能导致图像更大的变化性。关于变化一 无变化的表情识别仍需进一步的研究。 ( 2 ) 环境的杂乱和光照。复杂的图像背景模式和不受控制的光照对于识别来说都是不利 的影响这些因素使得人脸分割的可靠实现变得困难。此外由于与面部表情无关的信息影 响使得特征提取也受到干扰。因此,许多研究人员采用简单背景和控制的光照,虽然这与表 情识别的一些潜在的应用的实际环境并不一致。 ( 3 ) 人脸数据源的混杂多变性。人脸特征由于多方面的因素显示出高度的多变性,这些 因素包括:人群之间的差异( 如年龄、疾病、性别、种族等等) ,成长或者胡子或者头发有无, 化装,几种表情的混合等等。 图像情况的控制对于普遍的表情识别系统的开展是无益的因为许多现实的应用需要 操作具有适应性。然而很少有关于在不利情况下鲁棒的自动表情识别的系统性的研究 3 1 】。 至于在原始输入多变情况下鲁棒性的识别问题仍需进一步的技术研究。特别地,对于自动表 情识别系统周期性地或者连续地将研究成果应用于系统中的能力的研究还没有得到足够的 重视。 情感也包含声学特性。虽然声学和视觉特性的融合一定会提高识别的准确性,但是有效 的融台技术的发展仍然是一个挑战,目前还没有很多涉及。但已有些关于声音的一视觉的 说话人识别的研究中提出了一些有用的方法 3 2 】。 1 6 本文的主要研究工作 1 6 1 基于s v m 的面部表情识别 利用在统计学习理论基础上由v a p n i k 等人发展起来的一种新的机器学习方法一支持向 量机来进行面部表情识别。支持向量机的基本思想是:通过某种事先选择的非线性映射将向 第一章绪论 量x 映射到一个高维特征空间z ,在这个空间中构造最优分类超平面来进行模式分类 3 6 】。 在表情识别实验中,首先从每一幅人脸面部图像中提取3 4 个基准点,并选用这些基准点的 坐标作为刻画表情变化的数据,然后采用支持向量机作为分类器来进行表情的分类。针对 j a f f e ( 日本女性面部表情库) 的实验证明此种方法的有效性。 1 6 2 基于核判别面方法的面部表情识别 表情识别就本质而言是种模式识别。在模式识别领域中,f i s h e r 线性判别方法有着重 大的意义,其基本思想就是在f i s h e r 准则函数取极值的条件下,求得一个最佳的判别方向, 然后将多维向量投影为一维向量,从而在一维空间中进行模式分类。s a m m o n 发展了上述方 法,他提出在已求得f i s h e r 最佳判别方向后。再求与其正交的,并能使f i s h e r 准则函数也取 得极值的向量,将其作为第二个最佳判别方向一即最佳判别面。以上两种方法对于线性模式 是有效的,但是当遇到非线性模式,如面部表情时,则无法进行分类。而通过核化就可将非 线性问题转化为线性问题,于是我们针对s a m m o n 的最佳判别面方法采用核技巧就可成 功地解决问题。在实验中,同样首先从每一幅人脸面部图像中提取3 4 个基准点,并选用这 些基准点的坐标作为刻画表情变化的数据,然后将表情识别这一多类别分类问题转化为多重 二元分类问题,在每一重分类中采用核判别面方法进行分类。针对j a f f e ( 日本女性面部表 情库) 的实验证明此种方法相对于已有的方法具有较好的识别效果。 1 6 3 基于核典型相关分析的面部表情识别 典型相关分析是研究两组随机向量之间相关程度的一种统计方法,它是一种重要的特征 提取算法,但是只能提取数据的线性特征。同样应用统计学习理论中的核化原理就可以将这 样的线性特征提取算法推广到非线性的应用场合。本文采用核典型相关分析来针对面部表情 这种非线性模式进行了处理。在实验中,一方面我们采用了图像在3 4 个基准点出的g a b o r 小波系数束表示该图像的表情特征;另采用一个包含了每一幅图像的语义分级的语义表情矢 量作为语义表情表示。通过核典型相关分析研究g a b o r 表示矢量和语义表情矢量之间的相互 关系。根据这种相互关系,我们可以估计出一幅给定的测试图像相应的语义表情矢量,然后 根据这个矢量来进行表情分类。针对j a f f e ( 日本女性面部表情库) 和e k m a n 表情库的实验 9 第一章绪论 证明了核典型相关分析在面部表情识别中的有效性。 1 7 章节安排 本论文的章节安排如下: 第一章是论文的绪论部分,阐述了表情识别的研究目的和意义,介绍了表情识别的系 统结构和目前国内外的研究概况,指出了识别中的难点问题,最后列出了本文的主要工作和 文章的章节安排。 第二章提出了基于支持向量机的面部表情识别。首先提出了最优分类超平面的概念, 随后介绍了如何构造它,在此基础上提出了支持向量机的概念,并详细介绍了如何进行构造 的问题。最后利用支持向晕机进行了面部的表情识别。 第三章提出基于子空间方法的面部表情识别。f i s h e r 线性判别分析是模式识别领域中的 经典方法但是这种方法获得的特征很少,于是s a m m o n 提出了最佳判别面的思想,但是 这两种方法都只能提取出数据的线性特征,而碰到诸如面部表情识别这样的非线性分类问 题,就不再适用了。因此本章中提出了最佳判别面的核化版本,该方法成功地将非线性问题 转化为线性问题。最后利用该方法进行面部表情识别。 第四章提出基于典型相关分析的面部表情识别。本章先介绍了典型相关分析的概念, 随后提出了其核化版本一即核典型相关分析,然后利h j 这种方法对面部表情进行了识别。 第五章对本文的研究成果进行了总结并对未来的研究进行展望。 1 0 第二章基于s v m 的面部表情谢别 第二章基于s v m 的面部表情识别 传统统计模式识别的方法都是在样本数目足够多的前提下进行研究的,2 0 世纪9 0 年代 有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个新的并且较完善的理论体系 一统计学习理论。随后在统计学习理论的基础上发展除了种新的模式识别方法一支持向量 机,它在解决小样本、非线性及高维模式识别问题具有很多优势。本章从最优分类面出发引 出支持向量机的概念最后将其应用于面部表情识别。 2 1 最优分类面1 5 0 1 最优分类面由v a p n i k 和c h e r v o n e n k i s ( 1 9 7 4 ) 3 8 2 3 2v a p n i k1 9 7 9 1 3 9 提出。首先我们考虑 线性可分的情况,然后再推广到线性不可分的情况。 先考虑数据是二维线性可分的情况,图中圆圈和叉分别表示两类的训练样本,h 为将两 类没有错误地分开的分类线,h t ,h z 分别为过两类样本离分类线最近的点且甲行于分类线的 直线,它们之间的距离称为分类间隔。所谓最优分类线就是不但能将两类无错地分开,且使 分类间隔最大的线。推广到高维空问中就成了最优分类面。 h 图2 1 最优分类超平面是以最大间隔将数据分开的超平面 假定训练数据 可以被一个超平面 x y 卜,x 。,y 。) ,x r7 y + 1 , - 1 ( w x ) + 6 = 0 ( 2 ,1 ) 第二章基于s v m 的面部表情识别 分开。如果这个向量集合被超平面没有错误地分开,并且离超平面最近的向量与超平面之间 的距离是最大的,则我们说这个向量集合被这个最优超平面( 或最大间隔超平面) 分开( 图 2 1 、a 为了描述分类超平面,我们使用下面的形式 w - x 。) + 6 1 , m x i ) + 6 一1 在后面,我们采用这些不等式的一种紧凑的形式 若y 。= 1 若y = 一1 y l 【( w 一) + 6 1 ,i = 1 ,h 容易验证,最优分类超平面就是满足条件( 2 2 ) 式并使得 垂( w ) = 0 州2 最小化的超甲面。( 最小化是关于向量w 和标量b 进行的。) 2 2 构造最优分类面 3 6 】 ( 2 2 ) ( 2 3 ) 要构造最优分类面,我们必须用系数的模最小的超平面把属于两个不同类, - 1 ,1 的 样本集 c y 。,x ,1 ,( y 。,_ ) 中的向量x 分开a 要找到这个分类面我们需要解下面的二次规划问题:最小化泛函 约束条件为不等式类型 y 。 ( x 。w ) + 6 一1 0 ,i = l ,2 ,- 一,n 这个优化问题的解是由下面的拉格朗日泛函( 拉格朗日函数) 的鞍点给出的 ( 2 4 ) ( 2 5 ) l ( w ,6 ,五) = i 1 ( w w ) 一窆丑m 玉w ) + b l y ,一1 ) , ( 2 6 ) 其中,五为拉格朗日乘子。我们需要把对拉格朗日函数关于w ,b 求其最小值和关于 0 1 2 第二章基于s v m 的面部表情识别 求其最大值。 在鞍点上,解w ,b ,刀必须满足以下条件 丝血:! ! :! 墨:j :o a 6 丝血:! :! 竺) :o a w 以显式重写这些方程,我们得到最优超平面的下列特性 ( 1 ) 对最优超甲面,系数钟必须满足约束 g y ,= 0 ,霉0 ,i = l ,h ( 2 ) 最优超平面( 向量w ) 是训练集中的向量的线性组合 w = y ;g x 。,笸0 , ( 2 7 ) ( 2 _ 8 1 ( 3 ) 进一步,只有所谓的支持向量可以在w + 的展开中具有非零的系数刀。支持向鼍就 是使不等式( 2 5 ) 中的等式成立的向量。因此我们得到 w + = 咒刀x 。,掣0 支持向量 ( 2 9 ) 这一点是从传统的k “h n t u c k e r 条件得到的。根据k u h n t u c k e r 条件可知,最优分 类面的充分必要条件是分类面满足条件: 霉骶w + ) + 6 k 一1 = 0 ,i = 1 ,”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论