(信号与信息处理专业论文)融合面部表情的语音情感识别研究.pdf_第1页
(信号与信息处理专业论文)融合面部表情的语音情感识别研究.pdf_第2页
(信号与信息处理专业论文)融合面部表情的语音情感识别研究.pdf_第3页
(信号与信息处理专业论文)融合面部表情的语音情感识别研究.pdf_第4页
(信号与信息处理专业论文)融合面部表情的语音情感识别研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

s p e e c he m o t i o n a lr e c o g n i t i o nr e s e a r c hf u s e sf a c i a l e x p r e s s i o n b y z h a oh u i u n d e rt h es u p e r v i s i o no f p r o f w a n gy u t a i at h e s i ss u b m i t t e dt ot h eu n i v e r s i t yo fj i n a n i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t s f o rt h ed e g r e eo fm a s t e ro f e n g i n e e r i n gs c i e n c e u n i v e r s i t yo fj i n a n j i n a n ,s h a n d o n g ,p r c h i n a m a y3 0 ,2 0 1 2 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得 的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或 撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名:之型易 日期: 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学校保留或向国家有 关部门或机构送交论文的复印件和电子版,允许论文被查阅和借鉴;本人授权济南大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其 他复制手段保存论文和汇编本学位论文。 d ,开口保密(年,解密后应遵守此规定) :锄一:磷期:r 匆沏 济南大学硕士学位论文 目录 第一章绪论1 1 1 课题的研究背景及意义1 1 2 国内外研究现状2 1 3 课题的研究内容及创新点4 1 4 论文的组织结构5 第二章情感数据库7 2 1 情感的定义及分类7 2 2 情感数据库概述9 2 2 1 语音库9 2 2 2 人脸表情库1 0 2 3 情感数据库的建立1 1 2 3 1 数据库采集工具1 1 2 3 2 文本选择1 2 2 3 3 数据录制1 2 2 4 本章小结1 3 第三章语音情感识别1 5 3 1 语音信号处理1 5 3 2 语音情感特征参数选择1 8 3 3 语音情感特征提取与分析1 9 3 4 情感识别方法2 4 3 4 1 常用分类器2 4 3 4 2 分类器用于语音情感识别2 5 3 4 2 1 人工神经网络2 5 3 4 2 2 高斯混合模型2 6 3 4 2 3 主元素分析2 6 3 5 语音情感识别结果2 8 3 6 本章小结2 9 第四章面部表情识别3 1 融合面部表情的语晋情感识别研究 4 1 人脸检测3 2 4 2 图像预处理3 2 4 3 面部表情特征提取3 3 4 4 面部表情识别方法3 4 4 5 面部表情实验结果3 5 4 6 本章小结3 9 第五章融合面部表情的语音情感识别4 l 5 1 融合算法4 l 5 2 语音表情融合实验4 2 5 3 融合结果分析4 4 5 4 本章小结4 5 第六章结束语4 7 6 1 总结4 7 6 2 展望4 7 参考文献,4 9 致谢5 5 附录5 7 济南大学硕士学位论文 摘要 情感在人类的感知、决策等过程中具有重要作用,人类情感主要通过语言、面部表 情、体态等方式表达出来。语言是人类交流最普遍、最有效的方式,语音是语言的声学 表现形式。使得计算机在接收到语音信号后能获取人的情感信息,感知人类的真正意图, 就是语音情感识别技术。同时人类的情感也通过面部表情变化,如眼睛、眉毛和嘴巴的 变化表现出来。通过分析面部表情变化来识别表情分类的过程称为面部表情识别。它是 通过提取人脸的表情变化特征,进行分析,按照人类通常的认识和思维方式加以归类和 理解,即利用人类所具有的情感信息方面的先验知识,使计算机进行理解和判断,进而 从人脸信息中去分析识别人类情感的重要方法。随着情感识别研究的不断深入,在人机 交互、心理学研究等领域其理论价值和应用前景得到了广泛认可。 目前,依靠语音、表情、生理信号等单一模态的情感识别方法较为普遍,并取得了 一定的研究成果。但人类是通过听觉、视觉、触觉等多个通道的信息来表达情感的,单 纯依靠语音或者表情等某个通道的信息来识别情感,不能融合不同性质的情感信号,达 到信息上的互补,具有很大的局限性,也越来越不能满足当前的实际研究需求。因此, 情感识别的研究需要沿着多模态识别的方向发展,其中双模态的情感识别研究,可以利 用两通道的信息互补来提高分类器的鲁棒性和情感识别率,是目前我们进一步深入情感 研究的主要途径。 为了改进目前单模态的情感识别研究,本课题提出在基于语音韵律特征的情感识别 研究的基础上,融入面部表情信息,来提高情感识别率。首先对情感进行分类,建立包 含情感语句与面部表情的情感数据库。通过对语音信号预处理、提取韵律特征参数、选 择分类器进行识别,得到单模态的语音情感识别结果。然后处理面部表情信息,经过特 征提取、融合算法,实现融合语音及面部表情的双模态情感识别,输出识别结果。本课 题主要包括以下几个方面的研究内容: 第一,通过查阅国内外参考文献,选择平静、高兴、惊奇、悲伤和愤怒五种基本情 感状态。在实验室环境下,针对特定样本语句,采集普通话语音信号及说话人的面部表 情图像信息,建立情感数据库。 第二,对数据库中不同情感状态的语音信号进行预处理,提取情感特征参数,选择 语句发音持续时间、语速、振幅平均值、振幅变化范围、基频均值、基频范围、基频变 化率、共振峰均值、共振峰范围、共振峰变化率十个韵律特征参数来分析语音情感。利 i i i 融合面部表情的语音情感识别研究 用主元素分析( p c a ) 法进行情感识别实验。实验所得到的语音情感平均识别率达到 8 4 4 。 第三,对表情信息进行处理,通过人脸检测、定位、光线补偿、归一化、灰度化、 高斯平滑等预处理以获取有效的表情图片信息。然后将处理过的表情图片提取人脸几何 特征分别形成特征向量,与经过训练建立的表情模板库中的样本比较,进而判别图像所 属的情感类别。 第四,在单模态情感识别的基础上,研究多模态信息的融合算法,建立双模态情感 识别系统。融合语音及面部表情信息,进行情感识别实验。 通过对实验数据进行对比分析,结果证明,与单模态的语音情感识别相比,融合语 音及面部表情后的情感识别率提高了约六个百分点。 关键词:情感数据库;语音;面部表情;情感特征;情感识别;融合算法 i v 济南大学硕士学位论文 a b s t r a c t t h ee m o t i o np l a y sa ni m p o r t a n tr o l ei nh u m a np e r c e p t i o na n dp o l i c yd e c i s i o np r o c e s s h u m a ne m o t i o ni se x p r e s s e dm a i n l yt h r o u g hl a n g u a g e ,f a c i a le x p r e s s i o n ,p o s t u r e ,e t cw a y s p e e c hi st h ea c o u s t i cm a n i f e s t a t i o n so fl a n g u a g e ,w h i c hi st h em o s tc o m m o na n de f f e c t i v e w a yi nh u m a nc o m m u n i c a t i o n t h es p e e c he m o t i o n a lr e c o g n i t i o nt e c h n o l o g yi sm a k i n gt h e c o m p u t e rr e c e i v es p e e c hs i g n a l st oo b t a i nt h ep e r s o n s e m o t i o n a lp e r c e p t i o no ft h et r u e i n t e n t i o n w h i l e ,f a c i a le x p r e s s i o n st oe x p r e s st h ee m o t i o n a ls t a t e sm a i n l yt h r o u g he y e ,f a c e a n dm o u t hm u s c l ec h a n g e s t h ef a c i a le x p r e s s i o nr e c o g n i t i o ni st om a k et h ec o m p u t e rt h i n k i n g a n dr e a s o n i n g ,u s et h ep r i o rk n o w l e d g eo fh u m a ne m o t i o n ,a n a l y s i sa n du n d e r s t a n dh u m a n e m o t i o n s i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to fe m o t i o nr e c o g n i t i o n ,i t st h e o r e t i c a lv a l u e a n da p p l i c a t i o np r o s p e c th a sb e e nw i d e l yr e c o g n i z e di nh u m a n - c o m p u t e ri n t e r a c t i o n , p s y c h o l o g ya n do t h e rf i e l d s a tp r e s e n t ,t h ee m o t i o n a lr e c o g n i t i o nm e t h o d sr e l y i n go nas i n g l em o d eo fs p e e c h ,f a c i a l e x p r e s s i o n s ,p h y s i o l o g i c a ls i g n a l s ,i sm o r ec o m m o n ,a n dh a sb e e nm a d es o m ea c h i e v e m e n t s b u th u m a nb e i n g se x p r e s se m o t i o n so fm u l t i p l ec h a n n e l sb ys p e e c h ,f a c i a le x p r e s s i o n s ,t a c t i l e a n ds oo n t h ee m o t i o n a lr e c o g n i t i o nr e l y i n gs ol e l yo ns i n g l em o d ei n f o r m a t i o n ,h a v em a n y l i m i t a t i o n s ,b e c a u s ei tc a nn o tb ef u s e st h ee m o t i o n a ls i g n a l so f d i f f e r e n tn a t u r ec o m p l e m e n t a r y , a n du n a b l et os a t i s f yt h ec u r r e n tp r a c t i c a ln e e d s t h e r e f o r e ,t h es t u d yo fe m o t i o n a lr e c o g n i t i o n n e e d sd e v e l o p m e n ta l o n gt h ed i r e c t i o no fm u k i m o d a l i tc a nb es a i dt h a tt h eb i m o d a le m o t i o n r e c o g n i t i o n c a nu s et w oc h a n n e l si n f o r m a t i o nc o m p l e m e n t a r yt oi m p r o v et h er o b u s t n e s sa n d e m o t i o n a lr e c o g n i t i o nr a t eo fc l a s s i f i e r ,i st h em a i nw a yo fe m o t i o nr e s e a r c ha tt h em o m e n t i no r d e rt oi m p r o v et h ee m o t i o n a lr e c o g n i t i o nr a t eo fs i n g l em o d e ,t h eb i m o d a lf u s i o n m e t h o db a s e do ns p e e c ha n df a c i a le x p r e s s i o n si sp r o p o s e d f i r s t ,w ec l a s s i f yt h ee m o t i o n s , e s t a b l i s he m o t i o n a ld a t a b a s ew h i c hi n c l u d es p e e c ha n df a c i a le x p r e s s i o n s f o rd i f f e r e n t e m o t i o n s ,c a l m ,h a p p y , s u r p r i s e ,a n g e r ,s a d ,w ee x t r a c tt h ep r o s o d i cf e a t u r ep a r a m e t e r s o f s p e e c hs i g n a l sa n ds e l e c tt h ec l a s s i f i e rm e t h o dt or e c o g n i z et h es p e e c he m o t i o n s t h e nw e a n a l y z et h eb i m o d a le m o t i o n a lr e c o g n i t i o no ff u s i n gf a c i a le x p r e s s i o ni n f o r m a t i o n ,w h i c h i n c l u d ef e a t u r ee x t r a c t i o n ,c l a s s i f i c a t i o nr e c o g n i t i o na n dt h el e v e lf u s i o na l g o r i t h m ,o b t a i nt h e r e c o g n i t i o nr e s u l t s t h em a i nc o n t e n t so f t h i st h e s i sa r ea sf ol l o w s : v f i r s t ,w es e l e c t _ c a l m ,h a p p y , s u n r i s e ,s a da n da n g e rf i v et y p i c a l e m o t i o n st h r o u g h s t u d y a n du n d e r s t a n d i n g i nl a b o r a t o r ye n v i r o n m e n t ,w er e c o r dt h ec h i n e s es p e e c hs i g n a la n dt h e s p e a k e r sf a c i a le x p r e s s i o nf o rs p e c i f i cs a m p l es t a t e m e n t ,e s t a b l i s ht h ee m o t i o n a ld a t a b a s e s e c o n d ,w ep r e p r o c e s st h es p e e c hs i g n a l so f e m o t i o n a ld a t a b a s ea n de x t r a c tt h ep r o s o d i c f e a t u r ep a r a m e t e r sf o rd i f f e r e n te m o t i o n s t h i sp a p e rs e l e c tt h e p r o n u n c i a t i o nd u r a t i o n ,s p e e c h r a t e ,a m p l i t u d ea v e r a g e ,a m p l i t u d er a n g e ,p i t c ha v e r a g e ,p i t c hr a n g e ,p i t c hr a t e ,f o r m a n t a v e r a g e ,f o r m a n tr a n g ea n df o r m a n tr a t ea st h et e np r o s o d i cf e a t u r ep a r a m e t e r sf o re m o t i o n a l r e c o g n i t i o ne x p e r i m e n t s w eu s et h ep c am e t h o dt or e c o g n i z et h es p e e c he m o t i o n t h e a v e r a g er e c o g n i t i o nr a t eo fe x p e r i m e n ti s8 4 4 t h i r d ,w ep r o c e s st h ef a c i a le x p r e s s i o ni n f o r m a t i o n o b t a i nt h ev a l i di n f o r m a t i o nb v p r e - p r o c e s s i n g ,s u c ha s f a c ed e t e c t i o na n dl o c a t i o n ,l i g h t c o m p e n s a t i o n ,n o r m a l i z a t i o n , g r a y - s c a l e ,g a u s s i a ns m o o t h i n g ,h i s t o g r a me q u a l i z a t i o n e x t r a c tt h eg e o m e t r i cf e a t u r e sf o r m e d t h ef e a t u r ev e c t o r sa n d c o m p a r e dw i t ht h es a m p l ei nt h ee x p r e s s i o nt e m p l a t el i b r a r ye s t a b l i s h e d b yt r a i n i n g t h e nj u d g et h ee m o t i o n a lc a t e g o r yo ft h ee x p r e s s i o ni m a g e f o u r t h ,w es t u d yt h ef u s i o na l g o r i t h m ,b u i l dt h eb i m o d a le m o t i o n a lr e c o g n i t i o ns y s t e m , f u s e st h es p e e c ha n df a c i a le x p r e s s i o n si n f o r m a t i o ni nt h ee m o t i o n a l r e c o g n i t i o ne x p e r i m e n t f i n a l l y , w ec o m p a r ea n da n a l y s i st h ee x p e r i m e n td a t ao fs i n g l e m o d ea n dt h eb i m o d a l t h er e s u l t ss h o wt h a tt h ee m o t i o n a lr e c o g n i t i o nr a t ew i t hb i m o d a lf u s i o ni sa b o u t6p e r c e n t p o i n t sh i g h e rt h a nr e c o g n i t i o nr a t ew i t ho n l ys p e e c hp r o s o d i cf e a t u r e s t h eb i m o d a le r n o t i o n a l r e c o g n i t i o ne f f e c t i v e l yf u s e ss p e e c hp r o s o d i cf e a t u r ea n df a c i a le x p r e s s i o n ,a n di m p r o v e dt h e r e c o g n i t i o nr a t e k e y w o r d s :e m o t i o n a ld a t a b a s e ;s p e e c h ;f a c i a le x p r e s s i o n ;e m o t i o n a lc h a r a c t e r i s t i c s ; e m o t i o n a lr e c o g n i t i o n ;f u s i o na l g o r i t h m v i 济南大学硕士学位论文 第一章绪论 1 1 课题的研究背景及意义 语言在人类交流中扮演着最为常用、最为普遍、最为重要和最为有效的角色。对语 言的声学等特征的分析处理过程称为语音信号处理。语音识别的研究是语音信号处理中 的一个重要研究内容,它是让机器通过分析、理解和识别过程把语音信号转变为相应的 文本或命令。语音识别的最终目的是赋予计算机听觉,使其能听懂人的语言,辨明话音 的内容和说话人,并且进一步按照人的意志进行操作,实现人机的无障碍交流,使计算 机逐步实现智能化。这一实现智能化的过程就是人机交互发展的过程。使得计算机可以 自动、实时地感知周围的环境,识别周围对象的态度和情感,自动的对说话人的指令做 出反应,消除人机之间的交流障碍,最终实现计算机的智能化,是当前计算机研究领域 的重大课题。 语音信号作为语言的声学表达形式,包含了大量的文字信息、语调信息和情感信息。 有研究表明,人机交互中所需要解决的问题,同人与人的交流过程所要解决的问题是一 致的,最关键的都是“情感智能”的能力。而传统的语音处理研究往往更注重语音词汇 传达的准确性研究,却忽略了包含在语音信号中的重要情感因素,所能反映的信息也较 为片面。于是,对语音信号中的情感信息进行研究是现阶段语音研究的重要方面。如何 使人们在接受大量语音文字信息的同时,有效地利用语音信息中的情感因素信息来达到 最佳的信息传递和交流效果,成为语音信号处理研究的重要发展方向。 解决现阶段人机交互中所存在的问题,使得计算机主动了解和适应操作者的要求, 识别出操作者的情感,并且根据情感的判断做出人机交互方式的调整,无障碍地实现人 机交互的自然化、智能化、人性化,这一过程的实现中语音情感识别研究成为最为关键 的步骤。使得计算机在接收到语音信号后能获取人的情感信息,感知人类的真正意图, 就是语音情感识别技术。识别过程主要是通过分析语音对应于情感变化的特征分布规 律,利用计算机从语音信号中准确提取能有效反映情感变化的情感特征,然后根据这些 特征来判断被测对象的情感状态,从而理解和认识语音信号的感性意义,获得语音信号 的深层次信息。 要让计算机具有情感识别和人机情感交流能力,我们必须首先探讨人类的情感交流 融合面部表情的语音情感识别研究 习惯和相应的情感表达机制。人类情感的产生过程总是伴随着人体某些生理特征或行为 特征的变化,受到所处环境、文化背景、人的个性等一系列内外因素的影响,通过语言、 面部表情、人体姿态、肢体动作和生理信号反映出来。其中,面部表情主要是通过人脸 的眼睛、眉毛、嘴巴和口部肌肉的变化来表现各种情感状态的变化。研究表明,人脸情 感的表现区域主要包括嘴巴、脸颊、眼睛、眉毛和前额等。人的姿态两以称为人类的身 体表情,一般伴随着某些身体动作的交互过程而发生变化,并传达着一些情感信息。语 言中的语调信息是指通过语音声音的高低、强弱和抑扬顿挫来表达说话人的内心情感。 其中面部表情识别是通过提取人脸的表情变化特征,进行分析,按照人类通常的认识和 思维方式加以归类和理解,即利用人类所具有的情感信息方面的先验知识,使计算机进 行理解和判断,进而从人脸信息中去分析和识别人的情感的重要方法。人与人之间的情 感交流一般通过听觉、视觉、触觉等通道来感知,因此实现计算机的智能化也必将向组 合多模式信息识别的方向发展。 语音情感识别研究是当前信号处理研究中的重要方向和内容,计算机通过分析人们 在不同情感变化下的语音特征分布规律,从语音信号中提取有效的情感特征来判断被测 对象的情感状态,可以更好地帮助人们理解自己和他人的情感,是实现语音技术更为广 泛的发展和应用的重要突破点。随着情感语音识别研究的不断深入,其理论价值和应用 前景得到了人们的广泛认可。在人机交互方面,语音情感识别可以有效地改变当前人与 计算机之间依靠键盘和鼠标输入的较为呆板的交流方式,实现计算机的智能化;在心理 学研究方面,由于情感反映着人类的心理状态,因此语音情感识别通过计算机的识别和 处理,可以把人类对内心情感的研究从感性认识上升到计算模型,对于更好地探索人脑 对信息的分析和处理研究、加深对情感概念的理解和认识具有重要的意义。另外,语音 情感识别在智能家电开发、情感语音通信模型研究、专为残疾人和无法打字的老年人等 特殊人群设计的情感网络通信系统、自动对话交流系统研发、信息安全系统建设以及电 子商务、远程教育和大众娱乐等方面都有很广泛的应用。 1 2 国内外研究现状 国内外最早出现的关于情感识别的研究是在1 9 7 2 年,w i l l i a m s 发现人的情感变化 对语音的基音轮廓的变化之间的关系。之后麻省理工大学多媒体实验室【1 】构造出“情感 编辑器”,日本东京s e i k e i 大学提出的情感空间的概念、建立语音情感模型对语言情感 识别的研究具有重要意义。近几年,研究者开始进行针对不同语种以及不同模式识别方 2 济南大学硕士学位论文 法的语音情感识别的大量研究,将线性判别分类、神经网络、k 近邻法、高斯混合模型、 隐马尔可夫模型、主元素分析法、支持向量机等识别方法应用于情感识别研究,都取得 了不错的效果。 国外进行语音情感研究的主要机构有美国m i t 媒体实验室情感计算研究所,英国 贝尔法斯特的女王大学情感语音组,美国南加州大学语音情感组,以色列n e m e s y s c o 公司以及日本s g i 研究院等【2 1 。 英国贝尔法斯特的女王大学情感语音组在语音情感研究方面取得了大量研究成果, 他们收集并创建了国内外第一个大规模的高自然度的声音情感数据库。在2 0 0 0 年,由 c o w i e 开发了一个f e e l t r a c e 工具【3 】用来记录人类从语音中感知到的情感信息。 1 9 9 0 年,美国m i t 媒体实验室情感计算研究所的c a h n 开发出了名为“e f f e c te d i t o r ” 的第一个情感语音合成系统。f e m a n d e z 在2 0 0 4 年完成了关于语音情感识别的计算模型 的大量研型4 1 。 美国南加州大学语音情感组,将语音情感识别的研究致力于情感语音的声学分析、 合成和识别,还进行了大量有关笑声的合成研究。在语音情感识别领域,他们以当地呼 叫中心的客服系统为应用背景,研究对于正面和负面这两大类情感的识别。2 0 0 5 年, 他们还首次将语音的声学信息、词汇和语义信息结合在一起进行语音情感识别【5 1 ,结果 证明结合这三种信息进行的语音情感识别要比单纯使用声学信息的识别率平均提高 3 8 5 。成为融合多模态信息进行情感识别研究的开端。 另外,n e c 公司在德国汉诺威2 0 0 6 年c e b i t 展上展出了一种基于日本s g i 研究院 研究的感知技术而开发的能感知人类情感的花:k o t o h a n a 。此花由引擎和一组内嵌 麦克风的花状终端组成。首先通过引擎分析由麦克风输入的语音,根据语音的声调及重 音等特征来识别说话人的情感,然后将识别结果传输到花状的l e d 灯上。花的颜色可 以根据说话人情感状态的改变而改变,同时还能根据情感的激烈程度调整花色的深浅。 比较直观和形象地展现了当前情感识别研究成果。 国内语音情感识别的研究起步相对较晚,目前具有代表性的普通话情感语音识别研 究机构有:东南大学无线电工程系,清华大学计算机科学与技术系,模式识别国家重点 实验室,台湾大同大学资讯工程学系,哈尔滨工程大学等。 2 0 0 3 年,北京科技大学信息工程学院提出基于b d ia g e n t 技术的情感机器人语音识 别方法 6 1 研究。同时,国家自然科学基金委也立项资助哈工大进行心理紧张等情况下的 r o b u s t 语音识别研究。2 0 0 4 年,东南大学的赵力、江苏大学计算机学院也都开始了语 融合面音b 表情的语音情感识别研究 音情感方面的相关研究。2 0 0 6 年,山东大学的田岚开始进行基于多语种的语音情感研 究。2 0 0 9 年,东南大学赵力申请了耳语音情感特征分析与识别方法的研究这一国家自 然科学基金,设立了多项关于语音特征参数提取、语音情感识别方法、面部表情识别等 一系列情感研究方面的课题,并取得了大量研究成果。2 0 1 0 年,赵力,黄程韦,余华 等人,进行了实用语音情感数据库的设计与研究【7 l ,提出了许多重要的语音情感识别方 法,如特征空间分解与融合8 1 、混合蛙跳算法神经网络【9 】、粒子群优化神经网络【1 0 】、改 进的蛙跳算法与支持向量机 1 l 】等。2 0 1 1 年王海鹤、詹永照等人提出了基于增量流形学 习的语音情感特征降维方法【1 2 1 ,黄永明、章国宝提出了基于两种g m m u b m 多维概率 输出的s v m 语音情感识别方法【13 1 。语音情感识别研究进入到深入快速发展阶段。 国外对于面部表情识别的研究始于2 0 世纪7 0 年代,对于表情分类、人脸检测、人 脸建模的研究做了大量工作,并取得了大量成果。近年来,我国部分研究机构,如清华 大学、东南大学、哈尔滨工程大学、中科院、山东大学等也开始了面部表情识别这课 题的研究。国家自然科学基金和国家科技发展计划也为此类研究项目提供资金支持,并 对其发展及应用前景表示认可。近几年有研究者提出了许多创新且有研究价值的面部表 情识别方法,如g a b o r 小波和s v m 结合的方法【1 4 】,层次分析法语义知识的新方法 1 5 】, p c a 特征提取和距离哈希k 近邻分类方法【l 基于混合特征提取的人脸情感识别方法 【l ”。面部表情识别的研究已经相对成熟。 近几年,东南大学、山东大学等也陆续开始了对融合多种信息的多模态实时语音情 感识别的研究。国内的研究机构对情感识别的研究日渐深入,研究方法趋于多样化。 综合国内外的研究结果,可以看出情感语音研究目前主要侧重于声学特征的分析, 而对融合面部表情等多种方法的组合模式识别研究相对较少。有关资料表明,仅从语音 信号或人脸表情来识别情感状态,只能达到6 0 到7 0 的识别率,识别结果的鲁棒性 也得不到保证。但结合人脸表情和语音信号声学特征的双模态情感识别能在信道间取长 补短,在理论上可以大大提高我们的识别率。因此,融合多模态信息进行情感识别研究 逐渐成为研究者提高情感识别率的主要途径和手段,成为情感研究的重要方向。 1 3 课题的研究内容及创新点 本课题是融合面部表情的语音情感识别研究,让计算机系统借助各种“感官”设备, 如摄像机、麦克风等进行“看”、“听”,获取语音和说话人的表情信息,建立双模态情 感识别系统,融合多通道的信息,模拟人类获取情感信号的过程,改进目前单模态的情 4 济南大学硕士学位论文 感识别研究中信息获取的不足,以此来提高情感识别率,让计算机更加准确地识别人类 的情感状态。 本课题的总体研究思路是首先建立满足研究需求的情感数据库,对数据库中的语音 信号进行声学特征分析,提取有效的语音情感特征参数,得到基于语音声学特征的单模 态情感识别结果。然后对数据库中说话人的面部表情图像进行情感识别,得到识别结果。 在此基础上构建双模态情感识别系统,有效地融合面部表情识别及语音识别结果,提高 情感识别率。具体设计方案如下: ( 1 ) 确定情感分类,在实验室环境下,针对特定样本语句,采集普通话语音信号 及说话人的面部表情图像信息,建立一个扩展性与应用能力良好的情感数据库,为情感 识别研究打好基础; ( 2 ) 分析语音信号的声学特征,得到普通话语音情感特征的一般规律,寻求一组 抗干扰能力强,与情感状态紧密相关的特征向量,然后进行基于语音声学特征参数的单 模态情感识别; ( 3 ) 对采集到的说话人的人脸表情图像信息进行预处理,提取面部表情特征,进 行表情识别; ( 4 ) 构建融合语音声学特征与面部表情的双模态情感识别系统框架,进行情感建 模、特征提取和情感识别,解决双通道的信息传输和识别结果融合问题。在同一情感数 据库上,比较语音声学特征的单模态情感识别与融合表情后的双模态情感识别的识别 率,并对实验结果数据进行分析总结。 本课题的主要创新点是建立了包含语音及面部表情信息的情感数据库。在单模态 语音情感识别研究的基础上,进行改进,提出融合语音及表情信息进行双模态情感识别 的研究思路,理论上可以弥补单模态情感识别信息的不足,提高情感识别率。通过情感 识别实验得到的实验结果数据表明,融合语音及面部表情信息进行的双模态情感识别与 基于语音的单模态情感识别相比,识别率提高了大约六个百分点。实验结论验证了本课 题研究思路的可行性,对更为深入的多模态情感识别研究来讲具有一定的参考价值。 1 4 论文的组织结构 论文的内容编排结构如下: 第一章,介绍课题的研究背景及意义,分析国内外研究现状,阐述本课题的研究内 容、创新点以及论文的组织结构。 融合面部表情的语音情感识别研究 第_ 章,概述情感的定义、分类以及情感数据库的相关内容,介绍本课题研究所建 立的情感数据库。 第三章,介绍语音情感识别的研究内容,包括语音信号处理,情感特征参数选择、 提取与分析,情感识别方法以及选取分类器进行情感识别实验所得到的情感识别结果。 第四章,介绍面部表情识别研究的相关内容,包括人脸检测,图像预处理,特征提 取,表情识别方法以及实验所得到的情感识别结果。 第五章,进行融合面部表情的语音情感识别研究,介绍多模态的信息融合算法,构 建双模态情感识别系统,通过语音表情融合实验,得到最终的识别结果。 第六章,对研究成果进行分析总结,阐述本课题研究的意义,总结课题研究中存在 的问题,展望今后情感识别研究的发展方向。 济南大学硕士学位论文 2 1 情感的定义及分类 第二章情感数据库 情感以一般的意义范畴来定义,是指对外界刺激所做出的肯定或否定,这样或那样 的心理反应,如高兴、喜欢、愤怒、悲伤、惊奇、恐惧和厌恶等。文献【1 8 中作者总结 出了1 0 0 多种对于情感的不同定义。由此看来,人们至今为止还很难给出情感的准确定 义。同时,情感研究的复杂性也就显而易见。人类情感主要通过语言、面部表情、体态 等方式表达出来。语言表达方式主要是指说话人通过语音的高低、强弱、快慢、抑扬顿 挫来表达内心情感。面部表情表达方式主要是指依靠眼睛、眉毛、嘴巴、鼻子、面部肌 肉等器官的运动的变化来进行情感的表达。 对于情感的研究,首先需要对情感进行有效合理的分类,然后才能在此基础上对不 同的情感类别进行情感特征的分析和情感种类的识别。因此,对情感的分类也就变得更 为重要。情感的分类方法有很多种,过去有大量学者对此做了深入的研究,得出许多不 同的情感分类方法,前期主要的情感分类研究成果如表2 1 所示【1 9 】。 表2 1 情感的前期分类研究成果 研究组主要的情感分类 m o z z i a c o n a c c is k l a s m e y e rg s h e r e nk r m c g i l l o w a ys k a n g ,b o n g - s e o k j o y , a n g e r , s a d n e s s ,n e u t r a l i t y , f e a r , b o r e d o m ,i n d i g n a t i o n h a p p i n e s s ,a n g e r , s a d n e s s ,n e u t r a l i t y , f e a r , b o r e d o m ,d i s g u s t j o y , a n g e r , s a d n e s s ,f e a r , d i s g u s t h a p p i n e s s ,a n g e r , s a d n e s s ,f e a r h a p p i n e s s ,a n g e r , s a d n e s s ,n e u t r a l i t y 对情感分类研究影响较大的主要有s c h o l o s b e r g 提出的情感由高兴轴和赞成轴两个 情感轴组成;t o m k i n 在1 9 6 2 年建立的八种情感的分类模式 2 。】;r u s s e l l 2 1 1 提出的用代 表愤怒、高兴、悲伤和中性四种主要的情感的四个象限来定义情感空间,如图2 1 所示; 以及p l u t c h i k 等人提出的在激活评价空间上用“情感轮”【2 2 】对情感进行分析的方法,如 图2 2 所示;f o x 在2 0 0 5 年提出三级情感模型的划分方法,按照情感中表现的主动和被 动的程度不同将情感分成不同等级,如表2 2 所示【2 引。 融合面部表情的语音情感识别研究 9 0 。 a l a r m e d a r o u s e d t e n s e a n g e r y a s t o n i s h e d a f r a i d a n n o y e d e x o i t e d a n g e r j o y f r u s t r a t e d h a p p y m i s e r a b l e p l e a s e d s a d n e s s n e u t r a l i t y 出d s a d s e r e n e 3 m y d e p r e s s e d c o n t e n t s a t i s f l e d d r o o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论