(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf_第1页
(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf_第2页
(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf_第3页
(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf_第4页
(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)基于hmm模型的语音情感识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着人机交互系统的快速发展,语音情感识别近年来越来越受到人们的重 视。包含在语音信号中的情感情息是一种很重要的信息资源,它是人们感知事物 的必不可少的部分信息。例如同样的一句话,由于说话人表现的情感不同,在听 者的感知上就可能会有较大的差别。所谓“听话听音”就是这个道理。 本文首先介绍了语音情感识别的发展历程、研究背景、研究领域及其主要 应用,接下来介绍了目前语音情感识别主要研究方法及本文在语音情感识别中所 用的情感的分类及其韵律特征。 重点分析了各种特征参数的提取方法( 不仅包括韵律特征参数还有非韵律特 征参数如共振峰) 。其中基音检测算法采用一种自动调整窗口长度的算法,能够 根据不同的人、不同的发音的差异来调节窗的长度,提高基频提取的准确性。 本论文应用隐马尔可夫模型( h m m ) 的进行语音情感识别,对其分析过程和 设计思想进行了深入详细地探讨。本文使用的汉语语音库包含了高兴、愤怒、悲 伤、惊讶、恐惧和平静语音,提取了语音库中情感语句的短时能量及其一阶、二 阶差分,基频及其一阶、二阶差分,第一共振峰和m f c c 共八维情感特征参数。 使用从左向右的连续隐马尔可夫模型( c h m m ) 进行情感语音识别,每个c h m m 模型用六个状态,每个状态用四个混合高斯概率密度函数来估计输出概率密度函 数,并应用b a u m w e l c h 参数重估算法来训练c h m m 模型参数。为了使训练结 果更好地收敛为全局的最优,我们用“分段k 均值算法重估h m m 模型的观 察值概率距阵。最后应用v i t e r b i 算法对该语音库情感语句进行识别,实验结果 表明,六种情感的总体识别效果较为理想,其中悲伤和愤怒的识别率更好一些。 最后讨论了该领域存在的一些问题和今后需要进一步研究的课题。 关键词:语音处理情感特征提取语音情感识别 隐马尔可夫模型分段k 均值算法 a b s t r a c t w i t hr a p i dd e v e l o p m e n to fh u m a n c o m p u t e ri n t e r a c t i o ns y s t e m ,e m o t i o n r e c o g n i t i o no fs p e e c h h a sr e c e i v e dg r e a ta t t e n t i o n r e c e n t l y e m o t i o n a l f a c t o r s i n v o l v e di nt h es p e e c hs i g n a la r eo fg r e a ti m p o r t a n c eb e c a u s et h e ya r en e c e s s a r y i n f o r m a t i o nf o rp e o p l e ss e n s a t i o no ft h i n g s f o re x a m p l e ,t h es a l t l es e n t e n c ec a l l c o n v e yd i f f e r e n tm e a n i n gt ot h es a l n el i s t e n e rd u e t ot h ed i f f e r e n te m o t i o n a lf a c t o r si t i n v o l v e s i nt h i sp a p e r w ef i r s t l yi n t r o d u c et h es t u d ya c t u a l i t y ,b a c k g r o u n d , r e s e a r c hf i e l d a n dm a i na p p l i c a t i o no fe m o t i o nr e c o g n i t i o no fs p e e c h t h e nw ei n t r o d u c ek e y t e c h n o l o g i e so fs p e e c he m o t i o nr e c o g n i t i o nb a s e do na u d i oi n f o r m a t i o na n de m o t i o n c l a s s i f i c a t i o nu s e dr e c e n t l y ,e x t r a c t i n gn o to n l yt h ef e a t u r e so fs o m ep r o s o d i c p a r a m e t e r sb u ta l s ow i t hs o m en o - p r o s o d i cp a r a m e t e r ss u c ha sf o r m a n t s d u r i n g e x t r a c t i n gt h ep a r a m e t e r so fb a s ef r e q u e n c yo fs p e e c h ,w eu s et h ea l g o r i t h mo f a d a p t i v el e n g t ho fh a m m i n g f i l t e r i nt h i sp a p e lo u rc l a s s i f i c a t i o nm e t h o d ,t h eh i d d e nm a r k o vm o d e l ( h m m ) i su s e d t oc l a s s i f ys i xe m o t i o n a ls t a t e s :h a p p i n e s s ,a n g e ls a d n e s s ,s u r p r i s e ,f e a ra n dan e u t r a l s t a t ei nw h i c hn od i s t i n c te m o t i o ni so b s e r v e d t h eb e s tf e a t u r ev e c t o rw i 也a d i m e n s i o no fe i g h ti sd e t e r m i n e df r o mt h ei n s t a n t a n e o u sf e a t u r e sw h i c ha r ee x t r a c t e d f r o ms p e e c hs i g n a lo fo u rm a n d a r i ne m o t i o n a ls p e e c hd a t a b a s eb e f o r eb e i n gi n p u ti n t o t h eh m mc l a s s i f i e r t h ei n s t a n t a n e o u sf e a t u r e si n c l u d ee n e r g ya n d i t sf i r s ta n ds e c o n d d e r i v a t i v e f oa n di t sf i r s ta n ds e c o n dd e r i v a t i v e ,f o r m a n t sa n dm f c c e a c hh i d d e n m a r k o vm o d e le m p l o y e di nt h ee x p e r i m e n t sh a ss i xs t a t e sa n dt h eo b s e r v a t i o n p r o b a b i l i t yd i s t r i b u t i o ni ne a c hs t a t ei sa m i x t u r eo ff o u rn o r m a lg a u s s i a np r o b a b i l i t y p r o b a b i l i t yd e n s i t yd i s t r i b u t i o n s b a u m w e l c hp a r a m e t e r sr e e s t i m a t i o na l g o r i t h mi s u s e dt ot r a i n0 1 1 1 c h m mp a r a m e t e r s s e g m e n t a lk - m e a n sr e e s t i m a t i o n ,w h i c hc a n m a k et h et r a i n i n gr e s u l t sb e t t e rc o n v e r g eo nt h eg l o b a lo p t i m u m ,i sc o n d u c t e dt ot r a i n t h eo b s e r v a t i o np r o b a b i l i t yd i s t r i b u t i o no fh m mp a r a m e t e r s f i n a l l yw eu s ev i t e r b i a l g o r i t h mt or e c o g n i z ee m o t i o n a ls t a t e so ft h es p e e c hs i g n a li no u rd a t a b a s e ,a n dt h e r e s u l t sf r o mp r a c t i a le x p e r i m e n t si n d i c a t et h a tc h m mh a sg o o dd a t ac l a s s i f i c a t i o n a b i l i t ya n dr e c o g n i t i o na b i l i t y t h er e c o g n i t i o nr a t eo ft h es i xe m o t i o n a l s t a t e si sg o o d o fw h i c hs a d n e s sa n da n g e ri sb e t t e r i nt h ee n do ft h i sp a p e r ,w es u m m a r i z es o m ep r o b l e m st h a th a v en o tb e e ns o l v e d a n dt h ef u t u r ew o r k si nt h i sf i e l dw i l lb ed i s c u s s e d k e yw o r d s :s p e e c hp r o c e s s i n g ,e m o t i o nf e a t u r e se x t r a t i o n ,s p e e c h e m o t i o nr e c o g n i t i o n ,h i d d e nm a r k o vm o d e l ,s e g m e n t a lk - m e a n sp r o c e d u r e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得 的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得苤盗盘堂或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文作者签名:鹰龛嚏 签字同期:刀o7年彳月肜日 学位论文版权使用授权书 本学位论文作者完全了解鑫鲞盘堂有关保留、使用学位论文的规定。 特授权丕盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意 学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:彦鑫嫱 签字同期:冲7 年石月谚只 导师签名:祁砌 l 签字日期:坩7 年 ,月 2 j r 日 第一章绪论 1 1 研究背景与研究领域 1 1 1 背景 第一章绪论 随着信息技术的高速发展和人类对计算机的依赖性的不断增强,人机的交 互能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的 环境和气氛以及对象的态度、情感等内容,自适应地为对话对象提供最舒适的对 话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。 斯坦福大学的r e e v e s s 和n a s s 的研究表明,在人机交互中需要解决的问题实际 上与人和人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。因此 计算机要能够更加生动地适应操作者的需要,首先必须能够识别操作者的情感, 而后再根据情感的判断来调整交互对话的方式。对于情感信息处理技术的研究包 括多个方面,主要有情感特征分析、情感识别( 例如肢体情感识别、面部情感识 别和语音情感识别等) 、情感模拟( 例如情感语音合成等) 。目前,关于情感信息处 理的研究正处在不断的深入之中,而其中语音信号中的情感信息处理的研究正越 来越受到人们的重视。 通过语音相互传递信息是人类最基本的功能之一,语言是人类特有的功能, 是人类相互传递信息的最重要的手段【l 】。虽然人类可以通过多种手段获得外界信 息,但是最重要的信息源只有语音、图像和文字三种。与用声音传递信息相比较, 显然用视觉和文字相互传递信息其效果要差得多,这是因为语音中除包含实际发 音内容外,还包含发音者是谁及喜怒哀乐等各种信息。所以语言是人类最重要、 最有效、最常用和最方便的交换信息的形式。另一方面,语言和语音与人的智力 活动密切相关,与文化和社会的进步紧密相连,它具有最大的信息容量和最高的 智能水平。 包含在语音信号中的情感信息是种很重要的信息资源,它是人们感知事物 的必不可少的部分信息。例如同样的一句话,由于说话人表现的情感不同,在听 者的感知上就可能会有较大的差别。所谓“听话听音”就是这个道理。然而传统的 语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给 去掉了。实际上,语音信号不仅包含了文字信息,还包含了语调及情感信息。人 们同时接受各种形式的信息,怎样有效地利用各种形式的信息以达到最佳的信息 第一章绪论 传递和交流效果,是今后信息处理研究的发展方向。所以包含在语音信号中的情 感信息的计算机处理研究,分析和处理语音信号中的情感特征、判断和模拟说话 人的喜怒哀乐等是一个意义重大的研究课题。 语音信号中的情感信息处理因为涉及到不同语种之间的差异,发展也不尽相 同。英语、日语、德语、西班牙语等语种的语音情感分析处理都有较多的研究, 而汉语语音的情感分析处理还处在刚刚起步的阶段,国内东南大学、微软亚洲研 究院等都在进行研究,国家自然科学基金委也立项资助哈工大进行心里紧张等情 况下的r o b u s t 语音识别研究。情感信息有一个重要的特点就是状况依存性,各 国的民族习惯不同,表达信息的方式就不同。所以不可能完全借鉴国外的研究成 果,必须结合我国的实际情况,研究出符合汉语特点的情感信息处理技术。 1 1 2 涉及的研究领域及应用 近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、 心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别 和合成的算法、理论展开了深入研究。美国的m i t 媒体实验室的情感计算研究 小组( a f f e c t i v ec o m p u t i n gr e s e a r c hg r o u p ) 就在专门研究机器如何通过对外界信 号的采样,如人体的生理信号( 血压、脉搏、皮肤电阻等) 、面部快照、语音信号 来识别人的各种情感,并让机器对这些情感做出适当的响耐2 j p j 。 语音情感识别,就是通过分析人们的语音对应于情感的变化规律,利用计算 机从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。相对 于有几十年研究历史的语音信号处理,语音情感识别着眼点不是语音信号处理中 语音词汇表达的准确性,而是从前研究中完全忽略的包含在语音信号中的情感和 情绪信息。语音中主要包含两部分的信息:语义部分携带着语言信息,这是按照 语言的发音规则产生的:非语义部分含有说话人情感状态的信息。对于传统的语 音信号处理把语音中的非语义部分通过规则化给去掉了,然而这部分恰恰是人们 感知说话人所要表达情感的必不可少的信息。因此对语音情感信息的处理在一定 程度上可以说是对这部分被去掉信息的复权研究。特别需要指出的是,语音情感 识别和人的情绪识别是两个不同概念。人的情绪是多种因素影响的结果,这些因 素的状态可能表现出来,也可能不表现出来,其表现的方式是多样的,比如脸部 表情、姿态、手势、眼睛凝视的方向,当然也包括情绪化的语音。情绪一般能够 完全体现人的意图,但由于情感语音与所处的情绪状态并不是一对应的,某些 情绪并不通过可视的情感语音变化表现出来,即使人类自身也很难十分准确地仅 通过语音表情理解一个人的情绪状态,往往要借助于当时特定的环境以及上下文 信息,这便对使用计算机进行人脸表情识别的研究提出了挑战。另一方面,情感 2 第一章绪论 语音又和内在情绪有着密切的联系,情绪是情感语音的重要来源,大多数情感语 音都由特定的情绪所支配。由此可见情感语音在人们交流过程中起着重要的作 用,使用计算机进行语音情感识别进而确定人的内心情绪的研究是完全可行的。 语音的情感识别是目前信号处理及模式识别领域的一个新的研究热点,在许 多领域有着重要的意义,涉及领域有:信号处理、心理学研究、虚拟现实技术、 新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工智能等。 从心理学和生理学上对情感的研究已有较长的历史,但从工程学的角度将情 感作为信息信号工学的研究对象时间很短。从语音情感的研究方面来看,在1 9 8 1 年,w i l l i a m s 和s t e v e n s 通过对语音产生机理的分析【4 j ,总结出不同情感状态下, 生理上起主导作用的神经系统及相应的生理反应。在1 9 9 6 年,d e u a e r t 提出以基 音频率相关信息为主要特征分类的方法【5 】,并考虑了恐惧、愤怒、悲伤和高兴四 种情感状态。通过研究,他指出语音情感识别中最显著的特征包括:基音频率的 最大值、最小值和中值,基音频率包络线在上升部分的导数,并采用k 氏最近 判别法来识别。在2 0 0 0 年提出的a s s e s s 系纠6 】可识别恐惧、愤怒、悲伤和高 兴四种情感特征。该系统采用了基音频率包络线的峰谷、语音强度、停顿分界和 爆破音这几个特征参数,并利用分析判别式的方法将语音样本归入相应的分类。 近年来,随着h m m 、小波变换等新方法的应用,以及高性能的计算资源的使用, 都极大地推动了语音情感识别技术的研究与发展,并使其成为科研热点。 语音情感识别在众多领域有着极大的应用价值。( 1 ) 交互电影中自发 ( s p o n t a n e o u s ) 交互的判定,日本a t r 媒体集成和通讯研究实验室,通过情感识 别将自发交互能力引入到了交互电影中。( 2 ) 辅助残疾人讲话,产生了一些辅助 残疾人进行情感语音输出的系统。( 3 ) 情感语音将使人机界面更具人性化,产生 更自然、更智能、更人性化的人机界面。( 4 ) 情感语音与其它多媒体技术相结合, 将情感语音配之以相应的面部特征的视频来传达情感,使声音、表情同步,这就 是当前比较热门的“视觉语音 ( v i s u a ls p e e c h ) 技术,利用这一技术实现虚拟 主持人。可以预见,语音情感识别技术将被广泛应用于包括新型人机交互在内的 诸多领域,并将产生很好的经济效益和社会效益。 1 2 论文结构概要 本章是绪论,主要是介绍了语音情感识别的研究发展历史、研究领域及其应 用,并为后面的各章的内容进行简单介绍。 接下来的第二章是语音情感识别概述,首先介绍了目前语音情感识别主要研 究方法,包括主元分析法、神经网络法、混合高斯模型法;接着介绍了情感的分 第一章绪论 类,语音情感的研究首要的是确定情感如何分类,针对不同的情感分类的识别结 果也会不同;在情感分类确定后,对所用的情感语音库进行听取实验,为以后的 情感识别打下基础。 第三章语音信号的情感特征分析和提取,进行情感识别,必须要提取出相应 的情感特征,这种特征一方面要携带情感的信息,另一方面必须适合对情感语句 进行识别所用的模型结构特点。本章介绍了语音信号的时域分析方法,语音信号 在不同情感下时间构造、振幅构造、基频构造、共振峰构造特征的构造特点和分 布规律,然后介绍了常用情感特征参数的提取方法。 第四章介绍了本文所采用的识别方法h m m ,引入h m m 模型进行情感识 别的优点、h m m 模型的基本算法和在实际应用中的常见问题的解决方法。 第五章为本论文的核心,是应用c h m m 模型进行语音情感识别,介绍 c h m m 模型参数的训练算法和识别算法,分析试验结果,并在此基础上进行总 结和展望。 4 第二章语音情感识别概述 第二章语音情感识别概述 语音信号处理作为一个重要的研究领域,已经有几十年的研究历史。然两 传统的语音信号处理技术至今仅着眼于语音词汇的准确性,而完全忽略了包含在 语音信号中的情感和情绪信息。实际上,同一句话,往往由于说话人的感情不同, 其意愚给瞬者的印象会不同,郎“听话听音”就是这个道理。实际上,语音信号孛 不仅包含文字信息,还包含语调及情感信息。所以分析和研究语音信号中的情感 特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。 语音情感识别是建立在对语音信号的产生枫制深入分析的基础上,对语音 中反映个人情感信息的一些特征参数进行提取,薨利用这些参数采用相应模式识 别方法确定语音情感状态的技术。 2 1 语音情感识别研究现状 9 0 年代中期之后,对于语音情感信息处理受到了越来越多的关注,这方面 的研究也在不断深入,并取得了一定觞进展。在语音情感的识别方嚣,取得了许 多研究成果。实际的研究表明,主元分析方法、神经网络方法、g m m 方法等传 统手段在语音的情感识别中能取得较好的效果。下面介绍目前主要的语音情感识 别方法。 1 ) 主元分析法( p c a ) 对于要识别的数据,假设有个样本信号,使用的特征参数个数为k 个。 对这个样本信号求k 个特征参数所对应的协方差阵,然后对协方差阵进行特征 僮分解得到足个特征值和相应的特征矢量。对于不同的情感,利用样本库中的 样本分别计算不同的主元k 相对于不同的情感类型j 所具有的均值措和方差 矿硅。并用下歹f 各式进行最大可分性处理。 l 。= 谚爱。一一1 2 ( 2 一1 ) m ;专 二。l ( 2 - 2 ) , h 。= 二兰_( 2 3 ) “ 埘女 这里是采用的情感的类型个数,厶表示第露个主元在情感类别中的分离 性,m ;表示第k 个主元在情感类别中的集中性。用日。来反映主元在情感类别孛 5 第二肇语音情感识别概述 的辨别能力,曩;越大时,辨剐畿力越强。按顺序对鬈个主元进行排列,选取p 个日。较大的主元作为识别用的主元。 识别时,首先获取识别用信号的特征参数矢量墨并利用已知的各参数在不 同情感中的均值和方差对该特征参数进行标准化得到x 蚵( 由子矢量孛的各维 元素的单使不统一,所以在多变量分析前,应把各维元素都化成均值为0 、方差 为l 的正态分布参数) 。然后将,甜对选取的各个主元的基向量4 分别进行投影 求和,获得待识别语音在各个有效主元的得分值忍。 zk=a女x删(2-4) 按公式( 2 5 ) 计算不同情感中各有效主元的综合概率。 p 乞= n k - - i 南卜 压秸墙l ( 2 5 ) 最后选取概率最大的情感作为识别情感。利用主元分析方法进行语音信号 情感识别的训练和识剐流程【7 】如图2 1 所示。+ 训练语舒集 圈2 1 谰练秽识别方法概匿 2 ) 神经网络方法( a n n ) 对神经隧络的研究可以追溯到西十年代w s 。m c c u l l o c h 和w h p i t t s 翻发表的 著名文章:“神经网络中所蕴藏的逻辑运算”。早期研究成果有线性感知计算法灼 推导,但这种简单网络模型的局限性在于仅仅能够解决阶的谓词问题,对于稍 微复杂的高阶问题却是无能为力。近年来,随着人们对入工神经网络的深入研究, 有一些研究者将它应熙到语音情感的识别上。如在2 0 0 3 年,k 堪。戤d 9 】等人就采 用了自适j | 燕神经网络对语音情感状态进行了研究。 6 第二章语音情感识别概述 神经网络是一种具有大量连接的分布式处理器,具有通过学习获褥知识并 解决问题的能力。对于情感识别的问题,首先对每个情感构造一个网络。这种类 型的网络叫做o c o n ( o n c e c l a s s i n - o n c e - n e t w o r k ) 。可以采用如图2 - 2 所示的子网 络并行结构,将提取盘的特征矢量输入到每个子神经网络中,每个子网络采焉二 层神经元的m l p 结构,输出为个界于0 到1 之间的数值,表示输入的参数矢 量可能属于某种情感的似然程度。 对于每个予网络,首先构造一个神经网络结构,选定各层传递函数,根据 给定一个籀量理想输挺和实际输出的能量函数。不同情感予网络具有樵同的结 构,仅仅在权值上有所不同。利用这个函数对网络中各个节点的权值求偏导数来 确定实际的权值,使每个予网络遁近于实际的情感慨率模型。 在识别时,把获取的特征参数输入到不同的情感予网络中,对各个情感鼷 络的结果进行判决来选择似然程度最大的情感作为识别结果。 图2 2 利用神经网络识别语音情感 3 ) 混合高斯模型法( g m m ) 混合高斯模型( g m m ) 是只有一个状态的模型,在这个状态里具有多个高斯 分布函数。 r 茸= e 0 3 ;五( y ) i - - i 其孛楚一个z 高斯分布甥数, y 照= 1 j _ ( 2 6 ) 不同高斯分布之闻的加权系数皴满足条件: 0 7 ) 在调练时首先利用矢量量化( v q ) 抽取各类情感中有效主元矢量集的鹚本, 7 第二章语音情感识别概述 并对每个码字求出摇应的方差,这样每个玛字帮相应的方差就露以缝成一个高额 分布函数。在识别时,对于某个语音情感主元特征矢量y 求取它相对于每个情感 类别的概率值,概率最大的郎为识别结果。 2 2 语音情感分类 要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有 效合理的分类,然后在不同类别的基础上磺究特征参数的性矮。 情感分类是一个有趣而复杂的问题,已有许多学者对这个问题展开讨论川。 目前从心理学的角度相应的研究资料有不同的划分方法:在1 9 9 6 年,d e l l a e r t 提出以基音频率相关信息为主要特征分类的方法骖】,并考虑了恐惧、愤怒、悲伤 和高兴四种情感状态;19 9 9 年,n i c h o l s o n 6 】分析了包含有八种情感状态( 恐惧、 愤怒、悲伤、高兴、戏弄、沮丧、惊讶和中性) 的语音信号;在2 0 0 1 年,c o w i e 等f l 】提出了“调色板理论”,该理论认为就像通过混合溅色可以调潞萁德颜色那 样,通过确认最主要的几种基本情感状态也可以生成其他情感状态。 一 大多数过去的研究方法中,研究者都用日常语言标签来标识和分类情感【l 叭。 比如:害怕、愤怒和高兴等。根据情感的纯度和原始度,情感可分为两大类p j l ”j : 主要情感( 原始情感) 翻次要情感( 派生情感) 。除上蘧介绍到的这耪分类方法外, 还有其他些基于不同准则的分类方法。如基于不同情感表现行为的分类、基于 生理特征的情感分类等。例如,f o x 提出的三级情感模型f 咿】,则是按照情感中 表现的主动和被动的程度不阍将情感分成不同豹等级,如表2 1 所示。等级越低, 分类越粗糙,等级越赢,分类越精细。 表2 1f o x 酶情感三级分类摸蘩 f i r s tl e v e l a p p r o a c h w i t h d r a w a l s e c o n dl e v e l j o y i n t e r e s t a n g e r d i s t r e s s d i s g u s t f e a r t h i r dl e v e lp r i d ec o n c e r l l h o s t i l i t ym i s e r yc o n t e m p t h o i t o r b l i s sr e s o o n s i b i l i t yj e a l o u s ya g o n y r e s e n t m e n t a n x i e t y 2 。2 。1a c t i v a t i o n e v a l u a t i o n 空间 除了以标签法来将情感分成离教的类别以外,还有些研究者在连续的空问 中描述情感,也称作维度轮。维度轮认为几个维度组成的空间包括了人类所有的 情感。维度轮把不同的情感看作是逐渐的、平滑的转交,不嗣情感之间的相似性 8 第二章语音情感识别概述 和差异性是根据彼此在维度空间中的距离来显示的。最近2 0 年,情感维度轮得 到了许多学者的青睐,但是对采用哪些维度也有许多的争论。最广为接受的维度 模式是如下两个维度组成的a c t i v a t i o n - e v a l u a t i o n 二维空间: ( 1 ) 激活度或唤醒度( a c t i v a t i o no r a r o u s a l ) ,指与情感状态联系的机体能量 激活的程度。 ( 2 ) 评估度或快乐度( e v a l u a t i o no rp l e a s u r e ) ,其理论基础是正负情感的分离 激活,这得到了许多研究的证明。 图2 3 给出的就是a c t i v a t i o n e v a l u a t i o n 空间 1 2 j 。 v e :r y c 兀垤 尹 - 一| o j 1 i _ _ 。o 图2 - 3a c t i v a t i o n e v a l u a t i o n 空问 2 2 2 情感轮( e m o t i o nw h e e l ) 经过p l u t c h i k 等人的多年研究,通过在激活评价空间上对情感进行分析, 认为情感分布在一个圆形的结构上,结构的中心是自然原点。对于自然原点,认 为它是一种具有各种情感因素的状态,但是由于这些情感因素在该点的强度太弱 而得不到体现。通过向周围不同方向的扩展,表现为不同的情感。情感点同自然 原点之间的距离体现了情感的强度。由于各种情感在自然原点的周同排成了一个 圆形,所以这种对情感进行分类的方法叫做“情感轮( e m o t i o n w h e e l ) u 儿1 1 】如图。 对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮所组成的二 维平面中用唯一的一个情感矢量雷来表示;其中情感强度表现为这个情感矢量的 幅度值,而情感方向则表现为该情感矢量的角度。 9 第二章语音情感识别概述 2 2 3 本文分类 哆”、靛 。一7 7 、 i 髓 b j 爨燃 、宣纛糕点? 、。 簟纂、稼寿 , 毒- - 一一一,;馋 图2 _ 4 情感轮( e m o t i o nw h e e l ) 通过对国内外研究状况的了解,并结合自己对语音情感状态的理解和分析, 在砑究孛,我们将情感类型分为离兴、愤怒、惊奇、悲伤霹恐惧,具体憾感识别 中我们引入平静作比较,并尽可能的将所有情感纳入这些情感状态。各情感状态 的表达方式及韵律特征如下: l 高兴:语音中包含有抉感、满足感、有暖意、有发笑,表现出强烈豹喜 悦;高兴语句的时长和平静的平叙句相当,但这主要是由句子的尾部带来的影响, 句子的前部和中部都比相应内容的平静叙述语句的语速要快一些;句子的振幅强 度也集中在甸子的末尾的一两个字,整个匐子的声调的诱域要比平静叙述语句 毫。说话对音调高且有较大变化,节奏较快,很少有重读的音节,最后一个词是 重读的,所有音素的包络线都是上升的特点。 2 ) 愤怒:语音中包含令入讨厌的声音,情绪处于怒不可遏的状态。因发怒 发出的声音,具有说话时音调高屋鸯较大变化,节奏很快,音素持续时阈变化很 小;含怒的语句的时长约为平叙句的一半左右,其振幅强度也很高;有很多重读 的音节,最后一个词不重读,所有音素的包络线都呈下降的特点。 3 ) 惊奇:语音中包含有缀强烈的吃惊,感到毒 常意羚、难以接受的感觉。 具有说话时音调高但比喜悦要低、节奏较慢,音素持续时间变化很大,极少有重 读音节,最后一个音节重读;整个句子的平均振幅强度比平静平叙句略高,原因 在于匀尾的平均振幅强度增高了;所有啻素的包终线在尾端都是有明显上翘的特 点。 4 ) 悲伤:语音中包含有呜咽声、哭声,口齿不清和较重的鼻音。具有说话 时音调低整有变化较小,节奏较慢,音素持续时闻变化很大,含悲的语匈的时长 约为平叙旬的一倍左右,其振幅强度也比平叙旬低许多:极少有重读的音节,最 后。个词是不重读的,所有音素的包络线都是下降的特点。 5 ) 恐惧:恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语 1 0 第二章语音情感识别概述 句相类似,不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程 中目前还没有找到识别该种情感的有效特征参数。 以上是我们总结出来的情感语句的变调规律。因为在语言交际中,说话人 的习惯不同,语言环境不同,就不可能有什么铁定不变的规律。但其基本趋势是 不变的。 对上述分类,我们注意到每种情感状态实际上包含几个较小的类别。但通 过语音情感特征参数的提取可知,对于经过m c n e m a r 检定0 3 1 后的情感语音有相 近的趋势。当然,正如上面所提的那样,这些语音情感分类并不足以充分代表所 有的情感状态,但对语音情感自动识别原型系统而言它们是有效的输出方式。 2 3 汉语语音情感库的建立 情感语音是情感建模、语音情感合成和语音情感识别的基础,只有建立大 规模、高真实科】4 】的情感语音数据库才有可能从事上述各项研究。情感语音数据 库为情感语音分析和建模提供大量的分析数据;为情感语音合成提供建模基础和 合成语料;为语音情感识别提供训练及测试用语音。 但是,到目前为止,还没有一个实际可用的汉语情感语音数据库。因此在 进行下面的研究之前,必须建立我们自己的汉语情感语音数据库。情感语音数据 库的建立必须依据以下四个原则【1 5 】【1 6 】: ( 1 ) 真实性,数据库中的素材必须是人们所经历过的真实的情感体验。 ( 2 ) 交互性,数据库中的情感素材必须是人们在人与人之间交互过程中产生 的,这样更接近于语音情感人机交互的目的。 ( 3 ) 连续性,情感素材必须在连续的情感场景中发生,存在着多种情感状态 的转移。 ( 4 ) 丰富性,数据库中的情感素材必须包含多媒体信息,有声音,有表情等。 语音情感数据库中的素材可以通过多种途径获得,各种方法各有各的优缺 点。目前大部分研究者采用邀请一些不同性别的专业播音员或善于表达情感的人 录音的方法获取情感语音。这种方法的优点在于它可以在短时间内获取符合性别 要求、文字要求和情感要求的情感语音,但是这些语音的真实度不高,情感的表 达不受心理活动刺激,并且没有情感的视频表达,不利于以后的扩展研究。 另一种方法是从电影电视剧等各种多媒体信息中截取我们感兴趣的包含情 感的语音片断。这种方法的优点是情感的真实度高,情感表达直接由心理状态触 发而成,并且有上下文内容关联信息。更为重要的是多媒体素材中通常包含视频 信息,情感的视频信息可以为以后进行语音视频联合的情感研究提供良好的扩展 第二章语音情感识别概述 憔。它的缺点是寻找这些多媒体素材花费的时闻、人力爨:较多,焉且很难满足性 别、文字和情感的要求。截取的语音还必须经过预处理,把噪声、环境声等无用 信号剔除。 本文采魇录制好豹语音库,语音库是壶4 位话者( 两男两女) 将表2 - 2 所示的 鼬个语句用欢快、愤怒、惊奇、悲伤、恐惧及不带任何感情尽可能平静的方式 等情感类型各发音l 遍。实验用情感语句由1 2 0 0 个语音样本构成。数据都保存 为w a v 文件( 样本的抽样率为1 6 k h z ,t 6 b i t ) 。这些情感语句大都在5 秒| 以内。 表2 - 2 实验用情感语句 1 、就是下雨也去 1 4 、排球很有意思2 7 、国家改革企业4 0 、老师教授知识 2 、我马上拿来1 5 、下两耽误工作2 8 、汽车摊出尾气4 l 、上海开放港翳 3 、孙英开飞机1 6 、你们称呼长辈2 9 、烟囱图出浓烟4 2 、北京召开奥运 4 、国华来完成1 7 、形状成为水壶3 0 、竞争增加效益 4 3 、苏梅打扫房问 5 、石头峡和牛1 8 、翥囊们到达这犟 3 l 、团结产生力量箱、天空变成蓝色 6 、小塞逮老鼠1 9 、你们殴打他们3 2 、噪音产生污染4 5 、家具搬到房间 7 、大月去种菜2 0 、世界变得和平3 3 、工厂增大产值 4 6 、公司开设讲座 8 、四万四块四2 l 、市场制造机3 4 、居民购买房屋 4 7 、职工完成任务 9 、他 | 】支持中国2 2 、美露垄断市场 3 5 、政府干预市场4 8 、股民丧失信心 1 0 、银行拥有保安2 3 、集团进行改革3 6 、国际进行合作4 9 、笑话逗得大家 1 1 、人民保留资格2 4 、我们需要帮助3 7 、厂家提供原料 开心 1 2 、农民盖起j 。痨2 5 、工作还有疆难3 8 、农民释檀豢树 5 0 、期光使得你 | 、】 1 3 、苏联代表世赛2 6 、员工询阅老板 3 9 、工人生产手表 温暖 为了减少数据的误差,取出情感模糊的语甸,邀请6 个人坐在电脑终端前, 随枧播放所有情感语句( 每旬重复两次) ,在不绘任何提示的情况下,让听音者主 观评价所播放语音的情感类型,对情感特征不明显的数据进行删除,得到了一个 有效的、能够在语音情感识剐研究中用于分析和处理的情感语音库。对这1 2 0 0 勾语音样本情感数据,进行听取实验。同对将听取实验的识别结果作了汇总,如 表2 3 所示。 通过对听取实验结果的汇总,可以观察n - 对于愤怒和悲伤情感状态的识 别错误率率比较低,瑟对于高兴和惊讶则较易发生混淆,恐惧黔识别错误率也是 比较赢的。这也是由于愤怒和悲伤的情感语句具有楣当鲜明的情感特征,且易于 识别;反之,高兴和惊讶则区别不明显,易混淆。通过分析实验结果,达到了以 下两个目的;考察了主观分辨取得情感语音样本的能力;同时为语音情感识别原 1 2 第二章语音情感识别概述 型系统试验效果的分析提供了参考。 表2 3 情感语音的听取实验结果 情感类型高兴惊奇愤怒悲伤恐惧 平静错误率 高兴1 6 72 0612 4 1 6 4 惊奇1 6 1 7 3710 31 3 5 愤怒421 9 10124 7 悲伤 l 501 8 92 3 5 4 恐惧2 451 2 1 7 521 2 5 平静12384 1 8 2 9 1 2 4 总结 对于语音情感识别而言,首先要确定合适的情感状态,这对于系统的识别 研究是至关重要的。研究发现,不同的语音情感划分的情感识别率也是不一样的; 通过国内外的研究并结合自己的实验,将情感类型划分为高兴、愤怒、惊奇、悲 伤、恐惧利平静;并遵循相应的原则,对实验用情感语音库的语句进行听取实验, 通过删除情感模糊的语句,为后续工作提供了一个较为标准的实验用情感语音 库。 1 3 第三章语音信号的情感特征分析和提取 第三章语音信号的情感特征分析和提取 在对语音信号进行分析和处理前,必须对其进行预处理;通过对语音信号的 预处理,得到语音质量较好的情感语音样本。预处理之后,对语音信号进行分析 并采用相应的方法提取出包含情感信息的特征参数用于语音情感识别。情感特征 参数提取效果的好坏,对于整个系统识别的正确率有着决定性的影响。 3 1 语音信号的时域分析 在语音情感识别研究中,对于语音信号预处理的目的是改善语音信号质量, 统一语音信号格式,并为后继的语音特征提取和情感识别打好基础。图3 1 为一 般语音数字分析处理的系统框图: 语 语 图3 1 语音信号处理系统框图 语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、a d 变 换及编码( 一般就是p c m 码) ;语音信号预处理包括反混叠失真滤波、模数变换、 偏差校正、预加重、去噪处理以及语音信号的平滑处理等许多方法。当然,在分 析处理之前必须把要分析的语音信号部分从输入信号中找出来,这项工作叫语音 信号的端点检测。 语音信号虽然是一种典型的非平稳信号,但由于语音的形成过程是与发音器 官的运动密切相关的,这种物理运动比起声音振动速度缓慢得多,因此可以假定 语音信号为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱特征和某些物 理特征参量可近似的看作是不变的。这样,就可以采用平稳过程的分析处理方法 来处理了。由于这个假定导出了各种“短时”处理方法【7 】i 】【1 8 1 ,本文中提及的短时 能量、振幅之类与时域相关的参数也是基于这个假定分析。 1 4 第三章语音信号的情感特征分析和提取 3 1 1 短时能量和短时平均幅度 能量是语音的一个重要特性,清音的能量较小,浊音的能量较大。对语音 能量的分析主要集中在短时能量和短时平均幅度上。 1 ) 短时能量和短时平均幅度 短时能量的定义如下: e = 【j ( 朋) 以刀一朋) 2 = 工( 历) 以刀一聊) 】2 ( 3 1 ) 其中,w ( ) 为窗函数,n 为窗长。上式也可改写为: e = i x 2 ( 坍) w 2 ( 刀一朋) 】_ x 2 ( m ) h ( n - m ) = x 2 ( 刀) 幸厅(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论