(计算机应用技术专业论文)基于高斯混合模型的语音情感识别研究与实现.pdf_第1页
(计算机应用技术专业论文)基于高斯混合模型的语音情感识别研究与实现.pdf_第2页
(计算机应用技术专业论文)基于高斯混合模型的语音情感识别研究与实现.pdf_第3页
(计算机应用技术专业论文)基于高斯混合模型的语音情感识别研究与实现.pdf_第4页
(计算机应用技术专业论文)基于高斯混合模型的语音情感识别研究与实现.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着计算机在生活中的作用越来越重要,人们越来越渴望计算机能更加人 性化、更加智能化,形成更加和谐的人机交互系统。 语音是人类最自然的交流方式,如何使计算机能够理解人类语言已经成为 人们研究的重点课题。传统的语音处理系统往往忽略了情感因素,如何使计算 机理解语音信号中的情感信息越来越受到人们的重视。要想让计算机能够真正 与人自然的交流,理解通过语音信号反映出来的人的情感,计算机应该具有情 感能力。在目前的语音情感识别研究中,情感特征提取和情感识别的方法多种 多样,而由于大多研究使用的情感语音数据库和语音情感特征不同,识别结果 也各不相同;特别是对汉语语音的情感分析处理还比较少,有待进一步的研究。 本文首先为实验录制了汉语情感语音库。选取本身不带有情感信息的语句 文本,分别用高兴、恐惧、惊奇、悲伤、厌恶、愤怒和平静7 种不同的情感去 朗读,录制并选取其中情感表达较好的情感语音构成情感语音数据库。然后观 察并分析不同情感状态下,语音信号的基频、谱信息、语速等特征的变化规律, 选择和定义了具有较好情感区别力的特征组成用于语音情感识别的特征向量。 最后,在对现有语音情感识别领域常用算法进行分析的基础上,本文选取 高斯混合模型( g m m ) 作为识别算法,研究该模型的参数训练和识别算法,建 立基于g m m 的语音情感识别系统,使用选取的特征向量对语音进行情感识别 实验,结果表明:基频相关的参数对悲伤、平静的识别率较高;共振峰对高兴、 愤怒能较好的区分;语速和平均能量对各类情感都具有较好的区别力。 关键词:情感语音库,语音情感特征,语音情感识别,混合高斯模型 a b s t r a c t a b s t r a c t a sm eu s eo fc o m p u t e rh a sb e e nb e c o m i n gm o r ea n dm o r ei m p o r t a n t ,w eh o p e t oe n h a n c et h eh u m a n i t ya n dt h ei n t e l l i g e n c e o fc o m p u t e ra n dr e a l i z em o r e h a r m o n i o u $ i n t e r a c t i o nb e t w e e nh u m a na n dm a c h i n e a st h em o s tn a t u r a lm o d eo fh u m a nc o m m u n i c a t i o n ,s p e e c hc o n t a i n sl o t so f e m o t i o n a li n f o r m a t i o no ft h es p e a k e r , s oh o wt or e c o g n i z es p e a k e r s e m o t i o n a ls t a t e h a sb e e np a i dm o r ea t t e n t i o nb yr e s e a r c h e r s i no r d e rt oa c c o m p l i s ht h a t ,c o m p u t e r s s h o u l df i n i s ha f f e c t i v ec o m p u t i n g r e c e n ts t u d i e so ns p e e c he m o t i o nr e c o g n i t i o n u s e dd i f f e r e n tm o d a l s ,e m o t i o n s p e e c hd a t a b a s e sa n ds p e e c he m o t i o nf e a t u r e s ,s ot h e r e s u l t sa r ed i f f e r e n t e s p e c i a l l yr e s e a r c h e si nc h i n e s es p e e c he m o t i o nr e c o g n i t i o n n e e dm o r ed e v e l o p m e n t f i r s t , ac h i n e s ee m o t i o n a ls p e e c hd a t a b a s e h a sb e e nc o n s t r u c t e df o r e x p e r i m e n t s s e n t e n c e s ,w h i c hd o n tc o n t a i na n ye m o t i o nt h e m s e l v e s ,w e r er e a d w i t l l7e m o t i o n s w es e l e c t e dt h es e n t e n c e st h a te m o t i o n sw e r ew e l le x p r e s s e df o r o u ra n a l y s i sa n de x p e r i m e n t s t h e nt h r o u g ho b s e r v i n ga n da n a l y z i n g , w es e l e c t e d a n dd e f i n e dt h ef e a t u r e s ( p i t c h ,r e s o n a n c e ,e n e r g y , e t c ) w h i c ha r et h em o s ti m p o r t a n t i nd i s t i n g u i s h i n ge m o t i o n s b a s e do nt h es e l e c t e df e a t u r e sa n da n a l y s i so fa l g o r i t h m su s e di ns p e e c h e m o t i o nr e c o g n i t i o n ,t h ep a p e rs e l e c t e dg m ma st h er e c o g n i t i o na l g o r i t h mt o r e c o g n i z es p e e c he m o t i o n w es t u d i e dt h et r a i n i n ga n dr e c o g n i t i o na l g o r i t h m s o f g m m ,b u i l tg m m sf o r7e m o t i o n s b yh a v i n ga n a l y z e dt h ee m o t i o nr e c o g n i t i o n e x p e r i m e n t s ,t h ep i t c hr e l a t e df e a t u r e sa r eu s e f u lt od i s t i n g u i s hs a de m o t i o ns t a t e a f t e rc o n s i d e r i n gt h er e s o n a n c e ,w ea c h i e v e dt h ei m p r o v e dr e c o g n i t i o nr a t e sf o rt h e 7e m o t i o n s e x p e r i m e n tr e s u l t sa l s os h o wt h a ts p e e da n da v e r a g ee n e r g y a r e d i s c r i m i n a n tf o rt h e7e m o t i o n s k e yw o r d s :c h i n e s ee m o t i o n a ls p e e c hd a t a b a s e ,s p e e c he m o t i o n a lf e a t u r e , s p e e c he m o t i o n a lr e c o g n i t i o n g m m i i 天津师范人学硕十研究生学侮论文 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得苤鲞! 重整盘堂或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 学位论文版权使用授权书 期: 本人完全了解天津师范入学有关保留、使用学位论文的规定,i i - 学校有权将学位论 文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、 汇编以供查阅和借阅。同意学校向国家有关部f j 或机构送交论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签 名:罩复芝红虹导师签名: 第一章绪论 第一章绪论 1 1 研究背景 本课题来源于天津市科技攻关重点项目“和谐人机交互系统中情感计算的 理论方法研究 和天津市自然科学基金项目“基于多特征融合的人机情感交互 关键技术研究。课题通过人脸、语音及手势等方面考虑,识别其中的情感信息 以辅助人机交互。本人在课题中主要负责语音情感信息的识别。 随着信息技术的高速发展和人类对计算机依赖性的不断增强,对于人机交 互能力的研究越来越受到重视。如何使计算机更加人性化、智能化,使其能感 知、理解人的情感,自然地如人类进行沟通,己经成为和谐人机交互环境的目 标。比尔盖茨曾预言:“电脑冷冰冰毫无表情的时代即将结束,2 1 世纪将是情 感电脑大行其道的新时代。”尽管今天我们还看不到这种聪明得可以与人们进行 感情交流、能体会人的喜怒哀乐、同时自身也有感情和意识的电脑,但是从事 人工智能研究的科学家们正在加紧研究工作,并且在情感电脑的关键研究领域 情感计算上取得了不小进展。计算机要能够更加主动地适应操作者的需要,首 先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。 实现这些,计算机应该具有情感计算能力。 随着美国麻省理工大学媒体实验室的p i c a r d 教授在1 9 9 7 年出版了第一部关 于情感计算的专著( ( a f f e c t i v ec o m p u t i n g ) ) ,情感计算受到越来越多的国内外学 者和研究机构的重视。美国的各大信息技术实验室也紧进行情感计算系统的研 究。例如,麻省理工学院媒体实验室的情感计算小组研制的情感计算系统,通 过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据,然后 由一个“情感助理 来调节程序以识别人的情感。目前国内的情感计算研究重 点在于,通过各种传感器获取由人的情感所引起的生理及行为特征信号,建立 第一章绪论 “情感模型”,从而创建个人的情感计算系统【1 1 。 情感计算【2 】研究就是试图创建一种能感知、识别和理解人的情感,并能针 对人的情感做出智能、灵敏、友好反应的计算系统。也就是说,要使计算机能 够做到“善解人意”,使人机之间的交流像人与人之间的交流一样自然流畅,这 是建立和谐人机环境的基础。情感计算研究包括多个方面,主要有情感特征分 析、情感识别( 例如肢体情感识别、面部情感识别和语音情感识别等) 、情感模 拟( 例如情感语音的合成等) 。目前,关于情感信息处理的研究正处在不断深入 之中。 在人际交往中,语音是人类进行思想、观点和情感交流最自然便捷的交互 方式,语音信号和面部表情一样,也传递情感信息。同样一句话,往往由于说 话人的情感不同,其意思和给听者的印象就会不同,这就是所谓的“听话听音 的道理。例如“你真伟大啊! ”这句话,既可以表示赞赏,也同样可以表示讽刺 或妒忌。包含在语音中的情感信息是一种很重要的信息资源,因此对语音信号 中情感信息处理的研究越来越受到人们的重视。 语音中的情感是通过语音的高低、强弱、抑扬顿挫来表达的。而人类的情 感是复杂多样的,目前只能从语音中识别人类的几种基本情感,比如高兴、愤 怒、悲伤、惊奇等。目前情感语音研究主要侧重于情感的声学特征的分析,研 究主要通过分析情感语音信号的语速、振幅、基频、频谱等变化特点,寻找能 够反映情感特征的物理参数,建立语音情感特征与情感模型之间的对应关系, 从而识别说话人的情感状态。 语音情感识别具有广阔的应用前景:在远程教育系统中,识别学生的情感 状态并做出适当处理,可以提升教学效果:在自动远程电话服务中心增加自动 感知人们情绪状态的功能,可以及时发现客户的不满情绪,提供更好的服务; 在信息检索过程中,通过情感分析解析功能,则可提高智能信息检索的精度和 效率;在辅助临床精神诊断和治疗以及刑事侦察中,也能帮助了解对象的心理 状态;此外,还能应用在机器人、智能玩具、电话会议系统的应用场合。语音 2 第一章绪论 情感识别的研究,不但可以推动计算机技术的进一步发展,也助于实现和谐的 人机交互,提高人们工作效率、学习效率以及生活质量。 1 2 国内外语音情感识别研究现状 语音信号处理领域中,语音识别已经有很长的研究历史,但是研究语音中 的情感信息是近几年才形成的热点。人们从生理、心理学角度的情感建模到语 音情感的声学关联特征,以及各种针对语音情感识别和合成的算法、理论展开 了深入的研究。 在国外,研究最活跃的是美国麻省理工大学( m i t ) 媒体实验室( m e d i al a b ) 的情感计算研究小组( a f f e c t i v ec o m p u t i n gg r o u p ) 。国际语音通信协会 ( i n t e r n a t i o n a ls p e e c hc o m m u n i c a t i o n a s s o c i a t i o n ,i s c a ) 为此也做了很大的贡献, 2 0 0 0 年i s c a 在北爱尔兰的贝尔法斯特召开了一个称为“语音与情感:研究的 概念框架的研讨会,使众多不同领域的研究者聚集到一起讨论语音情感识别 的问题,为语音情感识别的研究做了很大的贡献,现在该协会每两年举办一次 的e u r o s p e e c h 或i n t e r s p e e c h 国际会议,是语音研究领域非常出名的大会。此外, c m u ( c a r n e g i em e l l o nu n i v e r s i t y ) 、伊利诺伊州大学、剑桥大学、瑞士日内瓦大 学、日本a t r 等也都做了相当多的工作。微软、i b m 、英国电信、索尼等公司 也都相继成立了情感计算和智能交互的研究小组。而在国内,中科院自动化所、 清华大学、北京航空航天大学、东南大学、浙江大学等高校和研究机构都丌展 了这方面的研究工作。国家自然科学基金委也立项资助哈尔滨工业大学进行心 理紧张等情况下的语音识别研究。【5 ,6 1 语音的情感识别就是通过分析人类语音在情感表示方面的变化规律,利用 计算机从语音信号中提取情感特征参数,并根据这些特征参数确定被测对象的 情感状态,以便给出下一步反应。语音情感识别是目前信号处理及模式识别领 域的一个研究热点,在人工智能、虚拟现实技术、新型人机交互技术、心理学 研究等许多领域有着重要的意义。 3 第一章绪论 语音情感识别系统的建立主要有以下几个重点:情感的分类、建立情感语 音数据库、选择语音情感特征参数和情感识别模型的构建。下面分别讨论这几 个方面的研究现状。 1 2 1 情感分类 要研究语音信号中的情感信息,首先需要根据某些特性标准对语音情感做 一个有效合理的分类,然后再在不同分类的基础上进行后续的工作。目前对于 情感分类的研究,大部分采用高兴、悲伤、惊奇和愤怒四种基本情感的分类模 式,部分研究者在其中增加害怕与厌恶的情感。然而,人类的情感是丰富的, 很难确定其分类,所以如何能更好的描述情感还有待于今后进一步的研究。 1 2 - 2 情感语音数据库 研究语音的情感,必须有一个合适的情感语音数据库,到目前为止,还没 有一个被广泛使用的情感语音库,不同研究者所使用的情感语音数据库存在许 多差异。在这方面,英语、德语,日语等已经有了较好的发展。在我国,中国 语言资源联盟( c h i n e s e l d c ) 已经完成了一套c a s i a 汉语情感语料库,其中 包括四个专业发音人的愤怒、恐惧、高兴、悲伤、惊奇和平静六种情绪的共9 6 0 0 句;另外清华大学、北京航空航天大学也进行了相关工作,但是这些语音库中 发音人数量过少,而且由于我国自身多民族、多方言的特点,在借鉴国外研究 成果基础上,还需结合我国的实际情况,研究出符合汉语特点的情感语音库。 1 2 3 语音情感特征参数 要得到较好的语音情感识别效果,必须准确选取语音情感特征参数。在过 去的几十年,针对语音信号中的何种特征能有效的体现情感,学者们作了大量 的研究。由于人对语音的感知是非常多样化,全面考虑语音的情感特征是一个 非常困难的工作。 4 第一章绪论 目前的研究中,采用的情感特征各不相同,但总是局限于一个较小的范畴, 大部分研究者使用的都是韵律特征参数,它之所以这么受重视除了其本身的情 感表现比较明显之外,还有一个原因是因为最初对语音情感的研究常常侧重于 情感语音的合成,对于合成只要找到一种情感表现的特例就足够了,而通过修 改语音的韵律特征就可以产生各种不同情感效剽丌。但情感的识别却要尽可能 考虑到一种情感的各种不同表现方式才不会导致错误的识别,另外由于个体差 异和背景文化差异,说话人的情感并不都是通过韵律特征来表现。因此,到底 何种特征能够较好的反应情感的信息还没有一个明确的结论,关于这些特征以 及这些特征的衍生特征的有效性评价也和情感识别在同步研究进行之中。 1 2 4 语音情感识别模型 不同的情感识别模型,对不同的情感特征参数有不同的效果。语音情感识 别实际就是一个模式识别问题。到目前为止,大部分模式识别和分类的方法都 被尝试用于进行语音中情感的自动识别。例如主元素分析( p c a ) 、k 最近邻方 法( k 卜沦i ) 、人工神经网络( 砧州) 、支持向量机( s v m ) 以及隐马尔可夫模型 ( h m m ) 等。下面就现阶段国内外常用来进行语音情感识别的方法作一概括的 介绍。 ( 1 ) 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) a n n t 8 】是一种在模拟人脑神经组织的基础上发展起来的,它是由大量的计 算单元( 神经元、处理器件、光电器件等) 广泛连接而成的复杂网络,可以通 过训练获得知识并解决问题。a n n 是一种应用广泛的模式识别方法,其最主要 的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高 度的稳健性和学习联想能力。同时又具有不可预测性、不可逆广泛连结性和自 适应性等。因此,神经网络实际上是一个超大规模非线性连续时i 、日j 自适应信息 处理系统。对于语音情感识别问题,根据使用的特征和情感分类的不同,可以 使用不同的网络拓扑结构。 5 第一章绪论 目前在语音情感识别中用得较多的网络拓扑结构是多层感知器 ( m u l t i l a y e rp e r c e p t i o n ,m l p ) 。n i c h o l s o n t 9 】等人使用一种称为 o n e c l a s s i n o n e 的网络拓扑结构,为每一种情感训练一个子网络,根据各个子 网络的输出结果判断情感类别。p a r k 1 0 】等人使用一个具有一个输入节点、两个 隐层节点和四个输出节点的动态循环神经网络( d y n a m i cr e c u r r e n tn e u r a l n e t w o r k ,d r n n ) 进行情感识别。s a t o 等人的神经网络有3 层,并采用了b p 方 法进行学习,但是该方法只能把平静时的情感和其它3 种情感( 愤怒、悲伤或 喜悦) 区分开来,还不能具体识别每一种情感。 ( 2 ) 支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) s v m 是2 0 世纪9 0 年代由v a p n i k 和c h e r v o n e n k i s 等人提出的,来源于统 计学习理论的一种新兴机器学习算法。其主要思想就是将原始的数据空间通过 一个核函数转换到另一个高维特征空间,并在新的空间实现最优分类。作为一 种分类器,s v m 对于小训练样本库也可以得到较好的结果。目前,s v m 已成 为国际上机器学习领域新的研究热点,近年来不少研究者将s v m 也应用于语 音情感识别的研究。 m eg i l l o w a y 等人研究了3 2 个语音韵律特征的情感判别能力,比较了s v m 、 线性判别分类( l i n e a rd i s c r i m i n a n tc l a s s i f i c a t i o n ,l d c ) 和群组式向量量化 ( g r o u pv e c t o rq u a n t i z a t i o n ,g v q ) 三种分类算法的性能,其实验结果表明l d c 方法的分类性能最优,五种情感状态的平均识别率在5 5 左右,s v m 方法性能 略低于l d c 方法,识别率在5 2 左右。y u 等人使用了一个具有高斯核函数的 s v m 和十六个基音统计特征识别四种情感状态,还将s v m 与a n n 和k n n 算 法进行试验比较,结果表明s v m 的识别精度明显优于其他两种算法,对四种 情感的平均识别率为7 4 3 。同时,s v m 的训练和识别速度明显快于另外两种 方法,且相对于a n n ,s v m 更具鲁棒性。国内的赵力等人也曾使用了基于s v m 的语音情感识别算法,并将s v m 方法与p c a 方法及修正p c a 方法进行比较, 通过实验证明s v m 的识别方法得到好的识别结果。 6 第一章绪论 ( 3 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) h m m 是一种统计信号模型,它用特征矢量序列作为输入训练得到。h m m 在语音识别中的应用已经有很长时间了。它有一个比较明显的优势,就是由于 其状态转移矩阵的存在,可以捕捉语音在时间轴上的动态特性,对时间序列有 很好的建模能力,因此被广泛地应用。这种方法能够比较有效地识别出语音所 包含的情感,但还不足以反映情感的细节,对情感进行精确的区分。 当h m m 只有一个状态且观测概率为加权高斯组合的特殊情况下,该模型 就称为高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 。g m m 使用一组加权 的高斯分布来逼近特征矢量的实际分布,并根据最大似然准则进行分类决策。 n e w 1 1 】等人使用了一种称为l f p c 系数的特征作为特征矢量,基于矢量量 化的离散h m m 模型对六种情感进行分类,试验得到六种情感状态的平均识别 率为7 8 。此外作者还将l f p c 参数与语音识别中常用的l p c c 和m f c c 系数 进行比较,结果表明l f p c 性能优于其他两种参数。s e h u l l e r f 眨1 等人在其情感识 别试验中分别使用了连续的h m m 和g m m 两种方法。对应这两种语音情感识 别方法,分别使用了两种不同类型的特征矢量,在h m m 方法中使用了短时特 征序列,而在g m m 方法中使用了基于整句语音的全局特征,结果g m m 方法 获得了较好的识别效果。 ( 4 ) 其他方法 除了上述三类识别方法之外,历年来研究者们也尝试了许多经典和新兴的 模式识别方法。 v e = 酣d i s 【1 3 】等人使用了基于p a r z e n 窗函数估计和高斯分布的两种贝叶斯 分类算法,研究了8 7 种基于频谱、基音和能量的语音统计特征参数对五种情感 状态的识别能力。d e l l a e r t 等人比较了最大似然贝叶斯分类、核回归和k n n 等 三种方法的识别性能,结果k n n 方法的识别性能最优。r o y 等人使用了f i s h e r 线性判别方法【1 4 】。赵力等人分别比较了p c a 加马氏距离和p c a 加主元素得分 准则方法对四种情感状态的分类性能,试验表明后性能较好【1 5 】。 7 第一章绪论 虽然世界各国的研究人员在语音情感识别研究领域取得了许多的研究成 果,采用的特征以及识别模型各种各样,但是由于目前各文献使用的情感语音 数据库不同,得到的识别结果也相去甚远,不具有可比性,因而很难客观地判 别所选特征及建模方法的优劣。 1 3 论文的主要工作和结构 在阅读和研究大量相关资料的基础上,针对国内外的研究现状,本文的主 要研究内容和工作包括以下几方面: ( 1 ) 录制汉语情感语音数据库。我们选取本身不带有情感信息的2 0 句文 本,由1 5 名在校学生分别用不同情感去朗读,录制了带有高兴、恐惧、惊奇、 悲伤、厌恶、愤怒和平静7 种不同的情感的语音数据库,经过听取实验选取其 中情感表达较好的1 4 0 0 句情感语音作为实验数据。 ( 2 ) 对语音信号进行预处理,提取情感特征。基于自行录制的情感语音数 据库,对语音信号进行端点检测等预处理工作,提取基频、共振峰等短时特征, 以及能量、语速等全局特征,并从这四类特征衍生出统计特征,形成2 0 维的特 征向量作为语音情感识别模型输入。 ( 3 ) 语音情感识别研究。在提取的特征参数基础上,建立g m m 模型,并 研究该模型的参数训练和识别算法。同时设计实现了基于g m m 的语音情感识 别系统,该系统能够进行语音信号预处理,语音情感特征提取,g m m 模型参 数训练和语音情感识别,为今后语音情感识别研究提供了方便。 本论文的结构为: 第一章介绍了语音情感识别的研究背景,以及国内外的研究现状,对现阶 段常用的语音情感识别模型进行了概述。 第二章将情感划分为7 类,建立含有7 种情感状态的情感语音数据库,并 分析语音信号特性,进行预加重、加窗分帧及端点检测等预处理。 第三章分析并提取语音信号中的情感特征参数。选定用于情感识别的特征 r 第一章绪论 向量。 第四章介绍了g m m 的基础理论,设计并开发了基于g m m 的语音情感识 别系统,基于自行建立的情感语音数据库,提取的2 0 维特征向量进行识别实验, 并对实验结果进行了分析。 第五章是工作总结和下一步的展望。 9 第二章语音信号分析与处理 第二章语音信号分析与处理 2 1 情感分类 研究语音信号中的情感信息、进行语音情感识别要在不同情感类别的基础 上进行,所以必须首先根据需要和某些特性标准对情感做一个有效合理的分类。 随着情感计算研究的发展,研究人员根据情感的纯度和原始度,将情感分 为主要情感( 原始情感) 和次要情感( 派生情感) 两大类【1 7 】。但是对于主要情 感的分类,研究者始终未达成一致意见。表2 1 描述了不同学者对主要情感的 分类。 表2 1 主要情感分类 研究者情感划分 愤怒,厌恶,勇气,灰心,渴望,绝望,恐惧, a r n o l d 憎恨,希望,热爱,悲伤 愤怒,好奇,轻蔑,厌恶,悲伤,恐惧,高兴, t o m k i n s 羞愧,惊奇 m c d o u g a l l 愤怒,厌恶,得意,恐惧,征服,温柔,惊愕 e k m a n ,f r i e s e na n d 愤怒,厌恶,恐惧,高兴,悲伤,惊奇 e l l s w o r t h f 川d a 渴望,快乐,好奇,惊愕,悲伤 j a m e s恐惧,悲伤,热爱,愤怒 舫f s o n恐惧,热爱,愤怒 m o w r e r 痛苦,快乐 次要情感由主要情感变化混合得到的,这类情感包括自豪( 高兴的一种变 化) ,憎恨( 厌恶的强化) 等。 除了将情感分为主要情感和次要情感外,还有些研究者在连续的空问中描 1 0 第二章语音信号分析与处理 述情感,也称作维度论。维度论认为人类所有的情感是由几个维度组成的空间, 不同情感之间的相似性和差异性是根据彼此在维度空间中的距离来显示的。 经过p l u t c h i k t l 8 】等人的研究,通过在激活评价空间上对情感进行分析,认 为情感分布在一个圆形的结构上,结构的中心是自然原点。对于自然原点,认 为它是一种具有各种情感因素的状态,但是由于这些情感因素在该点的强度太 弱而得不到体现。通过向周围不同方向的扩展,表现为不同的情感。情感点同 自然原点之间的距离体现了情感的强度。由于各种情感在自然原点的周围排成 了一个圆形,所以这种对情感进行分类的方法叫做“情感轮 ,如图2 1 所示。 高兴7 一、攀同 商k 自然原点 ? 愤怒、,7 惫奇 厌惑、。一,一,7 悲伤 图2 1 情感轮 对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮组成 的二维平面中用唯一的一个情感矢量e 来表示。其中情感强度表现为这个情感 矢量的幅度值,而情感方向则表现为该情感矢量的角度。 在目前的研究中,多数只是针对四种情感:高兴、愤怒、悲伤和惊讶。而 在本文中,我们选择将情感分为悲伤、愤怒、惊奇、恐惧、喜悦和厌恶,同时 加入平静( 自然原点) 状念,采用七种情感类别进行对比分析,更全面的识别 了人类语音中的情感信息,对今后的语音情感研究具有重要意义。 第二章语音信号分析与处理 2 2 情感语音数据库 语音情感识别必须依靠一个高质量的情感语音数据库来提供大量的训练和 测试数据,这是进行语音情感识别研究的基础。 通过对国内外研究状况的了解,我们根据自身的需要,自行录制了汉语情 感语音数据数据库。 情感语音库的录制需要遵守特定的规范,以提高情感语音数据的质量。情 感语音质量的直接影响语音情感识别的性能。 在进行录制情感语音数据时,还要考虑语音资料的选择,数据的存储技术 以及实验环境等问题。 用于语音情感识别的语句必须满足两个原则:【1 9 】 ( 1 ) 语句本身不含有某一方面的情感倾向; ( 2 ) 具有较高的情感自由度,即对同一个语句应该能施加各种情感进行比 较分析。 本文根据上述原则,选择了2 0 句文本作为情感分析用语音资料,如表2 2 所示。我们邀请1 5 名在校大学生( 其中男生7 人,女生8 人) 参加录音,分别 用高兴、恐惧、惊奇、悲伤、厌恶、愤怒和平静7 种情感状态去朗读语音文本 资料。 为了保证录制情感语音数据的质量,我们选择在多媒体教室( 最大限度的 保证环境安静) 进行录音,使用w i n d o w s 系统白带的录音机,通过高质量麦克 风录入语音信号,将文件存储为“1 6 k h z ,1 6 位,单声道,3 1 k b p s ”的p c m 编码格式的毒w a v 文件。其中文件命名格式为“发音人序号语句文本序号情 感状态”,如“0 1 _ 0 1 _ h a p p y 代表一号发音人的第一句文本的高兴情感状态语 音数据。 录音完成后,经过多人多次听取实验进行检测,留取了其中情感表达较好 的1 4 0 0 句情感语音作为实验数据。 1 2 第二章语音信号分析与处理 表2 2 录音文本 语句编号语句文本 0 1 你好 0 2 谢谢 0 3 不客气 0 4 不用谢 0 5 对不起 0 6 没关系 0 7 早上好 0 8 晚安 0 9 你真伟大 1 0 太棒了 1 1 这是真的 1 2 今天是星期天 13 啊,下雨了 1 4 就是下雨也去 15 快点干 1 6 这下全完了 17 我看到你的名字了 1 8 这段时问你瘦了 1 9他就快来了 2 0 路上的人真多啊 2 3 语音信号特性分析 语音信号分析是语音信号处理的前提和基础,通过分析可以方便有效地提 取并表示语音信号所携带的信息。只有分析出语音信号的本质特征参数,才能 利用这些参数进行高效语音识别处理。 声音是声波透过空气的传播而产生的,是模拟信号,是无法被计算机处理 的,为了将原始的模拟信号变为计算机可处理的数字信号,必须首先进行采样 和量化。在我们的研究中,语音数据是通过计算机声卡等设备采集的,在这个 过程中就已经完成了模拟信号向数字信号的转化,本文就不再作过多介绍。 语音信号的特性主要是指它的声学特性、时域波形和频谱特性以及语音信 1 3 第二章语音信号分析与处理 号的统计特性等【l q 。根据所分析的参数的性质不同,可将语音信号分析分为时 域分析、频域分析、倒谱域分析等。其中时域分析是最简单、最直观的方法, 它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能 量和平均幅度。图2 2 给出了一个语音信号的时间波形图。但是由于语音中最 重要的感知特性反映在频谱中,所以相对于时域分析来说,围绕频域进行分析 更为有效。另一方面,根据分析方法不同,又可将语音分析分为模型分析法和 非模型分析法两种。其中模型分析法是指依照语音信号产生的数学模型,来分 析和提取表征这些模型的特征参数,如共振峰模型分析及声管模型( 即线性预 测模型) 分析。而不进行模型化分析的其他方法都属于非模型分析,包括上面 提到的时域分析、频域分析及倒谱域分析等。 h 懈州帅 1 硼 图2 2 语音信号的时间波形 不论是分析什么参数或采用什么分析方法,贯穿语音分析全过程的是“短 时分析技术4 。因为语音信号从整体上看,其特征的参数都是随着时间的变化而 变化的,所以它是一个非平稳时变信号。这就意味着不能用处理平稳信号的处 理技术对其进行分析处理。但是由于发生器官的状态变化速度相对于声带震动 的速度来说是非常缓慢的,因此在一个短的时6 】内( 一般认为是1 0 3 0 m s ) , 语音信号基本保持不变。所以任何语音信号的分析和处理都必须建立在“短时” 基础上,即将语音信号分为一段一段来分析,其中每段称为一个“分析帧”, 帧长一般取l o 3 0 m s 。这样,对于整体语音信号,分析出的是由每一帧特征参 1 4 第二章语音信号分析与处理 数组成的特征参数时间序列。 在按帧进行语音分析、提取语音特征参数之前,有一些经常使用的技术必 须预先进行,即语音信号的预处理。 2 4 语音信号预处理 在对语音信号进行处理和分析以前,必须先对所采集的语音信号进行一些 处理,主要包括数字化以及预加重、加窗分帧和端点检测等预处理。 2 4 - 1 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在 8 0 0 h z 以上会按6 d b 倍频程跌落,会对求语音信号高频部分的频谱造成困难, 为此要进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平 坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便进行频 谱分析或声道参数分析。 对数字化语音信号的预加重一般通过一个滤波器实现,它一般是一阶数字 滤波器: h ( z ) = 1 a * z 1 ( 2 1 ) 其中,a 为预加重系数,且0 9 耋伐姜1 0 。本文的实验中a 取0 9 5 。 设n 时刻的语音采样值为x ( n ) ,经过预加重处理后的结果为: y ( n ) = x ( n ) - a 木x ( n 1 1 ( 2 2 ) 如图2 3 所示为同一语句经过预加重前后的波形对比。 1 5 第一二章语音信号分析与处理 血_ 山 l 虬l j , , i k 。“l 1 1 r r 唧唧 _ 1 p 哪”叩 ( a ) 预加苇酊 。l 州 呷r i l i i | 啼 。 k u _ _ 4 ( b 1 预加苇后 图2 3 同一语句预加重前后的波形对比 进行过预加重数字滤波处理后,就要对语音信号进行加窗分帧处理。 2 4 2 加窗分帧 语音信号的分析帧通常用一个长度有限的窗函数来截取形成,对该分析帧 进行处理就相当于对固定特性的持续语音进行处理。窗函数将需处理区域之外 的点置零来获得当前语音帧。经过处理后将从原始语音序列产生一个新的依赖 于时间的序列,被用于描述语音信号的特征。 在语音信号处理中,常用的窗函数有矩形窗和汉明宙等。 1 6 ( 1 ) 矩形窗 r 1, w ( 妒弋 lo , 第二章语音信号分析与处理 o 耋n 羹( n - 1 ) 其他 ( 2 3 ) ( 2 ) 汉明( h a m m i i l g ) 窗 w 。n ,:f 。- 5 4 - 。4 6 c o s 2 i n - 1 1 , 。兰n 至n - 1 lo , 其他 ( 2 4 ) ( 3 ) 汉宁( h a n n i n g ) 葑 ( - 0 5 - 0 5 c o s 2 兀n f n - 1 ) , 0 兰n 耋( n - 1 ) w ( n ) = p ( x i 五) 。新的模型 参数兄再作为当前参数进行训练,这样迭代运算直到模型收敛。 首先,引入辅助函数: m q ( 2 ,名) = p ( x ;,i2 ) l o g p ( x ;,i ) i _ l ( 4 5 ) 经过推导可以得到以下结论:q ( 3 - ,3 - ) 与p ( x i i 五) 不仅在递增性质上保持一 致,而且极值点的最终集团也是一致的。这样就可以通过求q ( 2 ,五) 的局部极 值来得到p ( x i i 五) 的局部最大的优化参数3 - 。借助这个辅助函数,我们还可以用 l o gl ( 3 - i x i ) 来代替l o gp ( x i la ) 以简化分析过程。 接下来执行e s t e p ,即计算训练数据的第t 个特征向量x t 落在高斯混合模 型中的第i 个高斯成员( 情感状态) 的概率,p ( x 。,i1 3 - ) = p ( x 。1 名) p ( ilx t ,兄) 。 根据贝叶斯准则可以得出: 砸i x t 棚2 而p ( x , , i l 2 ) 2 意 然后再执行m s t e p ,调整参数值。迭代过程中采用下面列出的重估公式 ( 4 7 ) 、( 4 8 ) 以及( 4 9 ) 或( 4 1 0 ) 可以保证模型似然度的单调递增。 第四章基于g m m 的语音情感识别系统设计与实现 ( 1 ) 混合权值重估公式: “2 吉善p ( ii wiix )2 = 己p ut ,以j ( 2 ) 均值向量的重估公式: p ( i | x 。,五) x 。 u i = 气广一 p ( i | x 。,名) t = l ( 4 7 ) ( 4 8 ) ( 3 ) 方差的重估公式: d - - p ( i lx 。,元) ( x 。一u i ) ( x 。一u i ) t i = 旦百一 p ( iix 。,们 t = l ( 4 9 ) 如果协万差矩阵为对角矩阵,则: p ( i ix 。,五) x 。 i = 旦f 一一u i 2 p ( i ix 。,z ) ( 4 1 0 ) 在训练完成后,看各个高斯成员的权重,如果某个高斯成员的权重值特别 小,为了节省计算量可以减少高斯成员的个数。 本文的研究中,我们选择用7 个高斯成员来逼近7 种情感状态的特征概率 分稚函数,特征向量为本文第三章中所提取的2 0 维特征值,然后通过情感语音 数据库中的训练语音样本( 选取所录语音库中的9 0 0 句) 训练g m m 模型,对 参数五进行调整,最终得到用于识别的g m m 模型。模型训练的具体流程如图 4 2 所示。 第四章基于g m m 的语音情感识别系统没计与实现 图4 2g m m 模型的训练流程 4 3 3g m m 模型的语音情感识别 语音情感识别过程就是进行模式匹配的过程。根据从待测语音信号中所提 取的2 0 维特征参数x _ x l ,x 2 ,x 3 ,i i * s o e 9x 2 0 ) ,将其分别输入已经训练好的 g m m 情感识别模型的七个高斯成员分量,得到该特征序列对于各个情感模型 成员的后验概率p ( 2d x ) ( i = l ,2 ,7 ) ,从中选取最大的后验概率,则该后 验概率值所对应的情感模型就是识别的结果。图4 3 所示为基于g m m 的语音 情感识别流程。 3 9 第四章基丁二g m m 的语音情感识别系统设计与实现 待 测 语 立 日 数 据 图4 3 基于g m m 的语音情感识别流程 情 感 识 别 结 果 从情感语音数据库中用于识别的5 0 0 句情感语音中随机抽取不同情感状态 的语音样本,输入已经训练好的g m m 模型进行情感识别实验,得到的识别结 果统计如表4 1 所示: 表4 1 基于g m m 的语音情感识别结果 识别结果高兴恐惧惊奇悲伤厌恶 愤怒平静 高兴7 4 1 9 1 2 1 2 1 恐惧2 6 8 5 9 1 0 4 2 样惊奇1 0 5 6 5 2 9 8 1 本 悲伤1 7 2 7 1 3 1 1 5 类 别 厌恶4 7 1 2 8 6 0 3 6 愤怒 l o 1 7 3 1 7 6 2 平静1 4 1 1 1 7 3 7 3 4 3 4 实验结果分析 分析实验结果,得到七种情感状态的平均识别率达到6 9 6 。比较目前该 领域研究现状,正如第一章所介绍,多数研究针对的情感状态较少,如m c g i l l o w a y 等人对五种情感状态的识别率在5 5 左右,n e w 等人使用h m m 得到 六种情感的平均识别率为7 8 ,而本文的实验针对七种情感状态也得到了较高 的识别率,对该领域研究有重要意义。 第四章基于g m m 的语音情感识别系统设计与实现 本文实验中愤怒的正确识别率最大,其次是高兴和平静,而高兴和愤怒容 易被相互误识,悲伤容易被误识为平静。基频相关的参数对愤怒、平静的识别 率较高;共振峰对高兴、愤怒能得到较好的区分效果;相对语速和t e o 能量算 子对各类情感都具有较好的区别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论