




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于独立分量分析的语音情感识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e u d c : s p e e c a n d i d a t e :l i a n gz h i l a i l s u p e r v is o r :p r o f l ix u e y a o a c a d e m i c d e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e ci a li t y :c o m p u t e ra p p l i c a ti o nt e c h n o l o g y d a t eo fs u b m i s s i o n :j a n u a r y ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0 0 9 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 憎卜 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :浆眢欠 日期:只一6f ) 年3 月日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可囱在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇 作者( 签字) :裂贸互 导师( 签字) : 日期:幺一口7 年弓月7 ) 日7 矿7 年3 月夕日 哈尔滨工程大学硕士学位论文 摘要 随着人机交互系统的快速发展,语音信号中的情感信息近几年来越来 越受到人们的重视,特别是在语音合成和语音识别领域。语音情感识别的 研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心 理学等学科的发展,有着重要的现实意义,并最终产生很大经济效益和社 会效益。本文的研究目的就是通过深入分析各种语音情感特征,找出其中 对情感识别有效的特征,并寻找适合的模型对语音情感分类。 语音情感识别主要包含四个方面:语音情感分类、语音情感数据库建 立、语音情感特征参数提取和语音情感识别。通过对国内外相关研究的了 解,本文将语音情感分为高兴悲伤愤怒和惊奇四类并建立了一个 s p e a k e r - d e p e n d e n t 的小规模汉语语音情感数据库。从语音信号中提取了基 于基音频率、振幅能量、语速和共振峰和m e l 频带子带能量等相关的统计 特征参数。然而初始提取的特征参数组成的输入特征矢量通常具有一定的 相关性,即存在一定的冗余。因此本文对提取的特征参数作了独立分量分 析。经过独立分量分析算法,去除了特征矢量之间的相关性,即去除了特 征矢量之间的冗余。然后用支持向量机的方法对语音情感进行识别。 最后,给出了识别结果和实验分析,并讨论了该领域存在的一些问题 和今后所需的进一步研究。 关键词:语音情感识别;情感特征;独立分量分析;支持向量机 哈尔滨 :程大学硕士学何论文 a bs t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to f h u m a nc o m p u t e ri n t e r a c t i o ns y s t e m , e m o t i o ni ns p e e c hi sat o p i ct h a th a sr e c e i v e dm u c ha t t e n t i o nd u r i n gt h el a s tf e w y e a r s ,e s p e c i a l l yi nt h ef i e l do fs p e e c hs y n t h e s i sa sw e l la si na u t o m a t i cs p e e c h r e c o g n i t i o n t h es t u d yo f t h es p e e c he m o t i o nr e c o g n i t i o nh a si m p o r t a n tr e a l i s t i c v a l u e si ns u c ha s p e c t sa se n h a n c i n gt h ei n t e l l i g e n c ea n dh u m a n i t yo fc o m p u t e r , d e v e l o p i n g n e wh u m a n m a c h i n ee n v i r o n m e n t s ,p r o m o t i n gt h es t u d y o f p s y c h o l o g y t h em a i ng o a lo f t h i st h e s i si st os e a r c ht h ee f f e c t i v ef e a t u r e sb y a n a l y z i n gt h ef e a t u r e sr e l a t e dw i t he m o t i o n s ,a n df i n d ar e c o g n i t i o nm o d e lt o c l a s s i f ys p e e c he m o t i o n s s p e e c he m o t i o nr e c o g n i t i o ni sc o n s i s t e dm o s t l yo ff o u ra s p e c t s ,i n c l u d i n g t h es o r t so fs p e e c he m o t i o n 、t h ef o u n d a t i o no fs p e e c he m o t i o nd a t a - b a s e 、t h e p i c k u po fs p e e c he m o t i o nf e a t u r e sa n ds p e e c he m o t i o nr e c o g n i t i o n t h r o u g h r e l a t i v er e s e a r c ha th o m ea n da b r o a d , e m o t i o n sa r ec l a s s i f i e di n t of o u r c a t e g o r i e s ( j o yi n d i g n a t i o n s a d n e s ss u r p r i s e ) i nt h i sp a p e r o n es m a l l 。s c a l e m a n d a r i ns p e e c he m o t i o nd a t a b a s e s ( s p e a k e r - d e p e n d e n t ) h a v eb e e n s e tu pb y r e c o r d i n g p i t c h 、e n e r g y 、s p e e c hr a t e 、f o r m a n ta n dm e l s u b - b a n de n e r g ye t c r e l a t e ds t a t i s t i cf e a t u r e sa r ee x t r a c t e df r o ms p e e c hs i g n a l b u tt h ec o m p o n e n t so f t h ei n i t i a li n p u tf e a t u r ev e c t o r sa r eh i g h l yc o r r e l a t e d s ow ep r e p r o c e s st h e f e a t u r ep a r a m e t e rb yi n d e p e n d e n tc o m p o n e n ta n a l y s i s t h r o u g hi n d e p e n d e n t c o m p o n e n ta n a l y s i s ,t h e c o r r e l a t i o no ft h ei n i t i a l i n p u t f e a t u r ev e c t o r si s r e m o v e d t h es p e e c he m o t i o ni sr e c o g n i z e db ys v m f i n a l l y ,t h er e c o g n i t i o nr e s u l ta n dt h ee x p e r i m e n ta n a l y s i sa l er e p o r t e d ,a t t h es a m et i m e ,s o m ep r o b l e m st h a th a v en o tb e e ns o l v e da n dt h ef u t u r ew o r k s i nt h i sf i e l da l s ob ed i s c u s s e d k e y w o r d s :s p e e c he m o t i o nr e c o g n i t i o n ;e m o t i o nf e a t u r e s ;i c a ;s v m 哈尔滨工程大学硕士学位论文 目录 第1 章绪论4 1 1 1 研究意义1 1 2 语音情感识别研究涉及的领域及应用1 1 3 国内外语音情感识别技术研究现状3 1 4 研究内容与章节安排4 1 4 1 主要研究内容4 1 4 2 章节安排5 第2 章语音产生机理、情感分类和数据库建立6 2 1 语音情感的定义及分类6 2 2 语音情感数据库的建立8 2 2 1 情感语句选择9 2 2 2 情感语句录音1 0 2 3 本章小结1 1 第3 章语音情感特征参数的分析提取1 2 3 1 语音信号预处理1 2 3 1 1 语音信号的采样和量化1 2 3 1 2 语音信号的预加重处理1 2 3 1 3 语音信号的加窗分帧处理1 3 3 2 语音情感特征分析1 4 3 3 语音情感特征参数提取15 3 3 1 语速的提取1 5 3 3 2 基音频率参数的提取1 6 3 3 3 振幅能量参数的提取1 8 3 3 4 共振峰参数的提取1 9 3 3 5 美尔子带能量参数的提取2 4 3 4 本章小结2 5 哈尔滨工程大学硕士学位论文 第4 章语音情感特征的独立分量分析2 6 4 1 独立分量分析概述2 6 4 2 独立分量分析算法定义2 6 4 3f a s t l c a 算法2 7 4 3 1f a s t i c a 预处理。2 8 4 3 2f a s t i c a 算法原理2 8 4 3 3f a s t i c a 的优良特性3 0 4 4 基于独立分量分析的特征提取3 l 4 5 本章小结3 2 第5 章基于s v m 的语音情感识别3 4 5 1 常用的语音情感识别技术3 4 5 1 1 主成分分析方法( p c a ) 3 4 5 1 2 人工神经网络3 5 5 1 3 隐马尔可夫模型3 6 5 1 4 高斯混合模型3 7 5 2 统计学习与支持向量机理论3 8 5 2 1 统计学习理论3 8 5 2 2 支持向量机理论4 1 5 3 基于s v m 的仿真试验及分析4 6 5 3 1 独立分量分析前的情感识别4 7 5 3 2 独立分量分析后的情感识别4 8 5 4 本章小结4 9 结论5 1 参考文献5 2 攻读硕士学位期间发表的论文和取得的科研成果5 6 致谢5 7 哈尔滨工程大学硕士学位论文 1 1 研究意义 第1 章绪论 近几年,人机交互越来越受到研究者的重视。自然和谐的人机界面的 沟通应该能理解用户的情绪和意图,对不同用户、不同环境、不同任务给 予不同的反馈和支持。情感识别研究就是试图创建一种能感知、识别和理 解人的情感,并针对人的情感做出智能、灵敏、友好反应的计算系统,即 赋予计算机像人一样地观察、理解和生成各种情感特征的能力,使计算机 能够更加自动适应操作者。实现这些,首先必须能够识别操作者的情感, 而后根据情感的判断来调整交互对话的方式。 研究表明,在人机交互中需要解决的重要问题与人和人交流中的重要 因素是一致的,关键都是“情感智能”的能力。计算机要能够更加主动适 应操作者的需要,首先必须能够识别操作者的情感,再根据情感的判断来 调整交互的方式,而语音是人们之间相互交流的重要手段,也是人机交互 中最为方便直接的方式之一。语音信号中的情感信息是重要的信息资源, 它是人们感知事物必不可少的部分。例如同一句话,由于说话人表现的情 感不同,在听者的感知上就会有较大的差别,所谓“听话听音就是这个 道理。因此,要使计算机具有人类智能就必然要求其具有情感智能。要使 计算机具有情感智能,第一步就必须使它能正确的识别人类的情感。语音 是人类相互交流的最重要工具之一,也是传递情感的一种重要媒介,因此, 如何让计算机从语音中自动的识别出说话者的情感状态,是当前倍受关注 的研究课题。 1 2 语音情感识别研究涉及的领域及应用 语音情感识别是目前信号处理及模式识别领域的一个新的研究热点, 哈尔滨工程大学硕士学位论文 在许多领域有着重要的意义,涉及有信号处理、心理学研究、虚拟现实技 术、新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工 智能等领域。 从心理学和生理学上对情感的研究己有较长的历史,但从工程学的角 度将情感作为信息信号的研究对象时间很短。1 9 8 1 年,w i l l i a m s 和s t e v e n s 1 j 通过对语音产生机理的分析,总结出不同情感状态下,生理上起主导作用的 神经系统及相应的生理反应。在1 9 9 6 年d e l l a e r t l 2 j 提出以基音频率相关信息 为主要特征分类的方法,并考虑了恐惧、愤怒、悲伤和高兴四种情感状态。 通过研究,他指出语音中最显著的情感特征包括:基音频率的最大值、最小 值和中值;基音频率包络线在上升部分的梯度,并采用k 近邻判别法来识别。 在2 0 0 0 年提出的a s s e s s 3 】系统可识别恐惧、债怒、悲伤和高兴四种情感 特征。该系统采用了基音频率包络线的峰谷、语音强度、停顿分界和爆破 音这几个特征参数,并利用分析判别式的方法将语音样本归入相应的分类。 近年来,随着h m m 、小波变换等新方法的应用,以及高性能的计算资源的 使用,都极大地推动了语音情感识别技术的研究与发展,并使其成为研究 热点。 说话人情感状态的自动识别具有非常广阔应用前景,它不仅仅可以应 用于人机交互系统,另外,还可以用于语音识别,提高语音识别的鲁棒性: 或者用于说话人辨别,提高说话人辨别率:可以用于手机通信:可以将其用 于自动远程电话服务中心,及时发现客户的不满情绪:可以用于临床医学: 可以用于远程教学和婴儿教育,及时识别学生或婴儿的情绪并做出适当的 处理,从而提高教学教育质量:可以用于辅助临床精神分裂症的诊断和治疗: 此外也可以用于刑事侦察中自动的检测犯罪嫌疑人的心理状态,辅助测谎, 例如,说谎者常常会企图隐藏其真实的情感如果能够自动识别其真实情感 状态并同时设法发现其隐藏真实情感的企图,结合其他技术,判断其是否 在说谎或者在隐瞒某些事实。自动语音情感识别的研究,不但可以推动计 算机技术的进一步发展,同时也将进一步丰富人类的生活,提高人们的生 活质量。 2 哈尔滨工程大学硕士学位论文 1 3 国内外语音情感识别技术研究现状 一个人说一句话可以包含不同的情感,语音情感识别的主要目的是对 同一句话识别出不同的情感。情感作为一种复杂的心理现象,可以通过各 种生理特征表现出来,并且人类通过各种现象可以感知它。 目前许多国家都在致力于该领域的研究。在国外,早在1 9 7 2 ,w i l l i a m s 发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早的语音 情感方面的研究之一;1 9 9 0 年,麻省理工大学多媒体实验室构造了一个“情 感编辑器”对外界各种情感信号进行采样,如人体的生理信号、脸部表情 信号、语音信号来识别各种情感,并让机器对各种情感做出适当的反应【4 1 ; 1 9 9 6 年,日本东京大学的s e i k e i 提出情感空间的概念并建立了语音情感模 型;2 0 0 0 年,m a r i b o r 大学v l a d i m i rh o z j a n 研究了基于多种语言的语音情 感识别【5 1 。近两年,采用神经网络与隐马尔可夫模型为语音情感识别建模也 取得一定的成功。 国内,语音情感分析与识别方面的研究起步比较晚,2 0 0 3 年,北京科技 大学信息工程学院提出基于b d ia g e n t 技术的情感机器人语音识别技术研究 方法【6 】;同年1 2 月中科院自动化所等单位在北京主办了第一届中国情感计算 及智能交互学术会议;微软亚洲研究院,台湾的一些大学和研究所也进行该 方面的研究;同时,国家自然科学基金委也立项资助哈工大进行心理紧张等 情况下r o b u s t 语音识别研究;2 0 0 4 年,东南大学赵力申请了关于语音信号 中情感特征分析与建模的国家自然科学基金【7 】;2 0 0 5 年l o f t 中科院自动化所 又在北京主办了首届国际情感计算及智能交互学术会议,将众多国内乃至国 际上该领域的专家聚集到一起,交流各自的研究进展,为情感计算与语音情 感识别在中国的研究推广做了较大的贡献;近期,江苏大学计算机学院也启 动了语音情感方面的研究; 总之,语音情感分析是一个新兴的课题,对它的研究是进一步发展人机 交互技术的基础。 哈尔滨工程大学硕士学位论文 1 4 研究内容与章节安排 1 4 1 主要研究内容 本课题的总体目标是实现语音情感识别,首先对语音情感分类,建立 相应的语音情感数据库。然后分析和提取语音信息中包含的情感特征参数, 并通过语音情感识别模型或情感识别算法,对语音情感进行分类。 ( 1 ) 语音情感分类及语音数据库的建立 要研究如何从语音中识别情感,首先必须有情感理论作为基础,在心理 学领域,对情感的研究已经有很长的历史,但到目前为止,还没有一个统一 定义的情感理论模型。目前有两种最活跃的理论情感模型,一种是空间情感 模型,另一种是离散情感模型,本文利用离散情感模型把研究的目标投向了 四种“基本 情感( 高兴、生气、悲伤和惊奇) ,并在此基础上建立合适的情 感语音库,它是研究工作展开的基础。根据实际情况,本课题采用非专业人 士的录音来建立语音情感数据库。 ( 2 ) 语音情感特征参数的提取 语音之所以能够表达情感,是因为其中包含了能体现情感特征的因素。 情感的变化通过情感特征参数的差异而体现。本位从韵律特征,音质特征中 提取特征参数,韵律特征在声学上通常有基频、时长及振幅等表示。在声学 上,音质特征除了用共振峰体现,还用频谱中能量在高f 氐频段的分布情况、 基频的不规则抖动及语音中噪音成分的多少来体现。本文从语音的语速、基 音频率、振幅能量、共振峰和美尔子带能量等几个方面提取语音情感特征参 数。 ( 3 ) 语音情感特征参数的二次提取 由于初始提取的特征参数组成的输入特征矢量具有一定的相关性,即 存在一定的冗余。因此本文对输入的数据作了独立分量分析。经过独立分 量分析算法,使得到的新的特征向量各分量之间具有独立性,即去除了特 征矢量之间的相关性,也就是除了特征矢量之间的冗余,这样能有效的提 高分类性能。 ( 4 ) 语音情感识别模型的建立 4 一 哈尔滨工程大学硕士学位论文 建立合适的语音情感识别模型是语音情感识别的最后一步也是十分重 要的一步,有一个好的模式识别模型对提高情感识别率有重要作用。目前 常用的识别方法有隐马尔可夫模型、混合高斯模型、矢量分割型马氏距离 判别法、人工神经网络和支持向量机。由于支持向量机有以下优点:可 以解决小样本情况下的机器学习问题,可以提高泛化性能,可以解决 高维问题,可以解决非线性问题,可以避免神经网络结构选择和局部 极小点问题,并且它在很多领域得到广泛应用并取得不错的效果。所以本 文选用支持向量机的模式识别方式。 1 4 2 章节安排 论文章节安排如下: 第1 章简要介绍了语音情感识别的意义、研究领域、应用及研究现状。 第2 章介绍了语音情感的分类和语音情感数据库的建立。 第3 章介绍了语音信号的预处理,各个情感特征的分析和提取。 第4 章首先给出了独立分量分析的定义,然后介绍了最常用的f a s t l c a 算法,最后给出了基于独立分量分析的特征提取。 第5 章首先介绍几种常用语音情感识别方法,接着着重介绍了模式分类 领域性能较好的支持向量机的原理及实现,最后给出实验结果及分析。 最后,总结所做工作并对今后工作做了展望。 哈尔滨- 丁程大学硕士学位论文 第2 章情感分类和数据库建立 2 1 语音情感的定义及分类 情感在人类之间的交流中扮演着重要的角色,人们通过它的外在表现 来彼此交流想法、意图、和愿望。人类很早就已经注意到情感在交流中的 重要性,今天,情感更是越来越受到来自不同领域的研究人员的关注。 究竟什么是情感? 到目前为止,虽然心理学家对情感的机理进行了大量 的研究,但还没有一个确切的情感理论得到广泛的认同。下面就通过“情 感 及其相关词语在中英文词典中的解释来了解下情感一词本身的含义。 情感“对外界刺激肯定或否定的心理反应,如喜欢、愤怒、悲伤、 恐惧、爱慕、厌恶等”。现代汉语词典 感情“对外界刺激的比较强烈的心理反应 。现代汉语词典 情绪“人从事某种活动时产生的兴奋心理状态 。现代汉语词典 e 1 n o t i o n “s t r o n gf e l l i n gi fa t lk i n d :l o v e ,j o y , h a t e ,f e a ra n dg r i e fa r e e m o t i o n s ”牛津高阶英汉双解词典 上述词典中的定义仅仅代表了“情感的最一般的意义范畴,已经有许 多西方学者就情感的准确定义展开了讨论。o a t l e y 和j e n k i n s 认为情感是人 与人之间相互交流的信息,由思想和外部事件引起的行为、生理变化和主 观体验组成。d a v i d s o n 等认为情感是瞬变的心理和生理现象,它代表机体 对不断变化的环境所采取的适应模式。s c h e r e r 认为情感是说话人因所处环 境而引起的心理、生理状态的反映,它不同于情绪、立场、态度、和性情, 虽然它们之间不是完全的独立。在文献【8 j 中,作者总结了1 0 0 多位学者对于 情感的定义。 要研究如何从语音中自动的识别情感,首先必须有情感理论作为基础。 人类的情感是一种极其复杂的现象,要对其准确的定义和描述并不是一件 容易的事情。在心理学领域,对情感的研究已经有很长的历史,但到目前 为止,还没有一种统一的定义和理论模型。现在,在语音情感识别领域最 6 活跃的情感理论模型主要有两种【9 。0 1 ,一种是空间情感模型,另一种是离散 种理论模型中,每种情感是一个连续体的一部分【1 2 】,不同的情感被映射到 如下两个维度组成的a c t i v a t i o n e v a l u a t i o n 二维空间【1 3 】。如图2 1 曲i ,歹碡 删厶黪巍,鼬酬 姆删si 丫州 黪 一 一黪 垤刚l 一a e s 垤o a 哪o 一o 厶 一 图2 1a c t i v a t i o n e v a l u a t i o n 空间 在连续的空间上表示情感的好处是可以利用连续模型来研究情感与声 学参数的映射关系,但情感在空间上分布的参数需要专业人员来标注,并 且目前的连续空间也未必能够完全地描述情感的各方面。 离散情感模型,则认为每种情感是一个离散的实体【1 2 j ,并且存在几种 “基本的情感【1 4 1 ,每种情感都是由特定生理模式以及面部表情和声音表 达【1 5 】,其他的各种情感都是这些“基本”情感的不同程度的修改和组合【1 2 】。 在目前的语音情感识别研究中,使用最多的就是这种离散情感模型,人们 7 哈尔滨| 下程大学硕士学位论文 把研究的目标投向某几种“基本”情感,比如高兴、悲伤、生气、害怕、 惊奇等。 两种理论模型虽然对情感有不同的解释,但并不是截然对立的,目前 的研究趋向于忽略这两种模型对情感的解释,而是同时结合了两种模型对 情感的表示,将几种基本模型映射n - 维或三维的情感空间中。由于难以 对情感进行定义,在语音情感识别领域,大部分研究者基本上只针对生活 中最常见的几种情感进行识别研究,或者根据实际的应用目的,缩小研究 的情感类别,以提高识别的准确度。 通过上述总结及实际情况,本文把语音情感分为四类,它们分别为高 兴、愤怒、惊奇、悲伤。 2 2 语音情感数据库的建立 进行语音情感研究的前提是必须有一个合适的语音情感数据库,到目 前为止,还没有一个为大家所广泛使用的情感语音库,不同情感语音库根 据其获取方法和真实度、自然度的不同大致分为三种,三种语音库各有利 弊。 第一种数据库来自专业或业余演员的表演,或者是高校的学生和职员的 模仿,这些参加录音的人想象自己处于某种情感状态中,朗读预先准备的句 子或段落。用这种方法获取情感语音数据库的优点就是试验条件容易控制, 且可以用不同情感重复同样的句子或段落,去除语意的影响,在同样条件下 比较各种不同情感状态的语音特征。由于这种方法操作简单,目前大部分情 感语音数据库都是用这种方法获得的。但这类方法也有缺点,最大的问题就 是其自然度很受质疑【1 6 1 ,参加录音的人只是“想象 自己处于某种情感状态 下或者是模仿专业演员的录音,因此跟现实情感还是有差距,当他们真的处 于这种情感状态下时表现是否一样无从考证。此外,录音者的个体差异也会 对数据库产生影响,一般专业演员的表演能力较强,而业余演员甚至普通人 的表演能力较弱,因此可能出现有些录音所表现出来的情感比现实更明显甚 至夸大了实际的情感。 第二种数据库来自于虚拟环境中诱引出来的语音,这种方法让录音者置 8 哈尔滨丁程大学硕士学位论文 :, 身于一个虚拟场景中,比如使用w o z 场景”1 8 j 让录音者感觉自己就像真的在 跟一个计算机进行对话一样,从而发出尽可能真实的情感语音。或者使用计 算机游戏让玩游戏者发出自己真实的喜怒哀乐【1 9 1 。这种情况下录制的情感语 音相对于第一种方法更接近现实,但由于录音者知道自己处于虚拟场景中, 因此所表达的情感无法确定是否跟其在真实情况下一样,其自然度也无法保 证。此外,虚拟场景的设置使得这一方法的操作比较困难,个体差异及其配 合程度也直接影响语音情感的真实度。 第三种数据库来自现实生活,是人们在现实生活中表现出最真实情感的 语音,但要用这种方法获得情感语音数据库非常困难,参加录音的人必须不知 道自己正在被录音,因此这也涉及到很多社会问题,目前还没有存在这种情感 语音库的报道,只是研究者人普遍认为这是最真实的情感语音来源( 2 0 l 。除此 之外还有一些从广播,电视,电影等媒体材料收集的情感语音库,但用这种 方法获得数据库的工作量比较大,而且大部分媒体材料除了语音之外,常常 有其他声音,比如背景音乐等,适合试验要求的素材比较难找。 同过以上分析,本文采用第一种方式建立一个s p e a k e r d e p e n d e n t 情感语 音数据库。 2 2 1 情感语句选择 为了能够建立一个尽可能完善的情感语音库,对实验用的语句的选择 要遵循以下原则: ( 1 ) 选择的语句不能有明确的语义倾向性,只有这样才能够保证构建语 音库时不会影响实验者的判断; ( 2 ) 所选语句应能够较容易加入说话人的不同情感。如果所选择语句是 比较中性的或者说很难强加一定的感情,那必然对发音和识别都会带来很 大的困难,从而无法比较针对同一句语句各种不同情感状态下各种特征参 数的不同之处; ( 3 ) 发音时间控制在5 秒以下,时间过长不利于情感的表达,也会引起 用于情感判断特征参数的弱化; ( 4 ) 选择语句中的汉语,均要标准普通话的表达方式,不能带有各种方 言的表达形式; 9 哈尔滨工程大学硕士学位论文 ( 5 ) 尽可能避开无声辅音,如c 、p 、s 、t ,避免由这些音可能引起的基 音周期轨迹的不连续: ( 6 ) 男性和女性均适用。 当然,在选择时以上原则可能无法完全满足,则优先满足前面的条件。 根据以上条件和对国内外文献阅读的基础上,本文选取了如表2 1 所示的7 个语句作为语音情感识别用的语句。 表2 1 实验所用情感语句 序号录音脚本 1啊,下雨了。 2 快点干。 3这下全完了。 4 你真伟大啊1 5他就快来了。 6明天我们要搬家。 7明天就是周末了。 2 2 2 情感语句录音 以上本文对情感语句进行了选择,接着对情感语句录音,为了避免语 音情感的表达过于夸张,本文语音库的录制选择了非专业的说话入作为语 音采样对象。 ( 1 ) 录音人员概况 由于条件限制,录音人员选定为本实验室的学生,年龄在2 4 2 8 岁之 间,共五人,女生3 人,男生2 人。普通话标准,没有喉病,具有较强的 情感表达能力。 ( 2 ) 录音环境介绍 录音环境选择在空旷的实验室中进行。录音时将门窗紧闭,保证录音 1 0 哈尔滨工程大学硕士学位论文 较少受到外界噪音的干扰。同时,在录音时只有本人和说话人在场,尽量 保持室内安静。 ( 3 ) 录音设备、软件及相关参数 录音设备采用联想台式计算机,r e a l t e k a c 9 7a u d i o 声卡,耳戴式麦 克风。录音软件用c o o le d i tp r o2 0 ,采样率为1 6 0 0 0 h z ,1 6 比特单声道。 ( 4 ) 语音数据存储方式 录音录制成标准p c m 编码格式的w a v 文件。并以文件夹和文件名方 式组织和管理录制的语音。以录音语句为文件夹名,该语句的各个情感录 音语句放在该文件夹中。 当然,对于本文而言构建由数千句语音样本组成的数据库是不现实的。 因此,本文对表2 1 所示的每个情感语句都按四种情感状态( 愤怒、高兴、 惊奇、悲伤) 进行采样。每位说话人按照四种情感状态依次表达各旬,且每 种情感状态均重复采集三遍,共计每人8 4 句,共4 2 0 句。 为了检验所收集情感语音的有效性,做了试听实验。邀请以上5 位情 感语音获取者之外的2 名同学随机听取这些包含情感的语音,要求这2 位 试听者通过主观评判说出所播放语音的情感类别,对情感类型不明显的语 句进行补录。完成采集后,试验用的情感语音库由4 2 0 旬语音样本组成。 2 3 本章小结 本章首先对情感进行了定义和分类,然后根据实际情况建立了一个情 感语音数据库。对于语音情感的研究而言,选取合适的情感状态对于语音 情感的识别研究是至关重要的,通过对国内外相关研究的了解并结合自己 的实际情况,本文将情感类型划分为高兴、愤怒、惊奇和悲伤四类,并遵 循相应的原则,对实验用的情感语音库的语句进行了录制,同时对所收集 的情感语音进行了有效性验证,为下一步语音情感特征的提取提供了一个 较为标准的情感语音数据库。 哈尔滨工程大学硕士学位论文 第3 章语音情感特征参数的分析提取 3 i 语音信号预处理 语音信号预处理是指对信号进行采样、量化、预加重和加窗处理,是 进行语音信号特征参数提取的前提和基础,在语音信号处理应用中具有举 重轻重的作用。 3 1 1 语音信号的采样和量化 众所周知,语音信号是时间和幅度都连续变化的一维模拟信号,要想 在计算机中对它进行处理,就要先进行采样和量化,将模拟信号变成时间 和幅度都离散的数字信号。这个过程叫做模数转换过程。根据奈奎斯特采 样定律,信号的采样频率应为原始语音频率的两倍以上,这样才能在采样 过程中不会丢失信息,且可以从采样信号中精确的重构原始信号波形。正 常人的发音频率范围一般在4 0 h z 到5 0 0 0 h z 左右,对语音信号处理通常采 用8 h z 的采用率。在实际语音信号处理中,为了使系统得到更高的识别率, 采样率通常取15 - 2 0 k h z 。 采样后的信号在时间域上是离散的形式,但在幅度上还保持着连续的 特点,所以要进行量化。量化的目的是将信号波形的幅度值离散化。一个 量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一 个区间的样本点都用同一个幅度值表示,这个幅度值称为量化值。 本文使用的c o o le d i tp r o2 0 录音软件可以直接得到能够被计算机存储 和处理的信号( p c m 编码格式数据) 。 3 1 2 语音信号的预加重处理 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约 在8 0 0 h z 以上按6 d b 倍频程跌落,所以求语音信号频谱时,频率越高相应 的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行 预加重处理。预加重的目的是提高频部分,使信号的频谱变得平坦,保持 1 2 哈尔滨工程大学硕士学位论文 在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析 或声道参数分析。预加重一般是在语音信号数字化之后,在参数分析之前 在计算机里用具有6 d b 倍频的提升高频特征的预加重数字滤波器来实现, 它一般是一阶的高频数字滤波器: 日( z ) = l - a z 1( 3 - 1 ) 式( 3 一1 ) 中a 值接近1 。在本文中取o 9 6 。 有时要恢复原信号,需要从做过预加重的信号频谱来求实际的频谱, 这时要对测量值进行去加重处理,即加上6 d b 倍频程的下降的频率特征来 还原成原来的特征。 3 1 3 语音信号的加窗分帧处理 经过预加重数字滤波器处理后,接下来就要对语音信号进行加窗分帧 处理。语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是 与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓 慢的多,因此语音信号可以认为是短时平稳的,二般在几十毫秒的范围内, 其语音频谱特性和某些物理特征参数可近似的看作是不变的。这样,我们 可以将平稳过程的处理方法和理论引入到语音信号的短时处理中,每个短 时的语音段称为一个分析帧,分析帧即可以是连续的,也可以采用交叠分 帧的方法。 通常采用长度有限的窗函数来截取语音信号形成分析帧,窗函数w ( 聆) 将处理区域之外的样点置零来获得当前帧。在语音信号处理中最常用的两 种窗函数是矩形窗和汉明窗,其表达式如下。 矩形窗: w ( n ,= 菇 p 2 , 际 仔 实在这但 警 瓣 如, 有 , 且 由 并 一 置: 卜 窄 ,l l 雎、 “ 狭 聆 艮 册 很 2 无3 鼢。 慨b 0 瓣 c 1 1 主 4 b 球 一 要 舛 应 r?【 外 f刊l 率 功 。频 ,l i= 以 长的 膏数 : 为函 窗 三窗 明 中想 汉 式理 哈尔滨工程大学硕士学位论文 工程中是无法实现的。矩形窗的主瓣宽度最小,因此具有较高的频谱分辨 率,但其旁瓣高度最高,其频谱泄漏比较严重。相对而言,虽然汉明窗主 瓣宽度为矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性, 能够在较高程度上反映短时信号的频率特性【2 1 l ,因此,本文选用汉明窗来 提取语音信号的分析帧。本文中的汉明窗函数采用的窗长为3 0m s ( 4 8 0 点) , 窗移1 0m s ( 1 6 0 点) 。这样,语音信号就被分割成一帧一帧加过窗函数的短 时信号,然后再把每一个短时语音帧看成平稳的随机信号。在进行处理时, 按帧从数据区中取出数据,处理完后再取下一帧,最后得到由每一帧参数 组成的语音特征参数的时间序列。 3 2 语音情感特征分析 语音之所以能够表达情感,是因为其中包含能体现情感特征的因素。情 感的变化通过特征参数的差异而体现。因此研究从语音信号中提取反映情感 的参数,对于情感语音识别具有及其重要的意义【2 2 1 。基于心理学和韵律学研 究的结果,说话者的情感在语音中最直观的表现就是韵律特征和音质特征的 变化,因此对语音情感识别的研究也是普遍从韵律特征和音质特征开始。尤 其是韵律特征,被认为是最主要的语音情感特征【2 3 】,在声学上韵律特征一般 用基频、时长及幅度三个声学参数度量。音质特征参数,除了典型的共振峰 参数之外,还可以用频带能量分布,基频的不规则抖动及语音中噪音成分的 多少来表示。 当说话人处于不同情感状态时,会在语速上表现出一定的变化,总体来 说,愤怒所对应得语速较快,然后是高兴和惊奇,而悲伤则对应较慢的语速。 因此可以利用语音信号中的语速或发音持续时间来辨别情感中激动成分的程 度。 信号中的振幅特征与各种情感信息也具有较强的相关性,对于喜怒惊等 情感,信号的振幅具有较大的幅值,而悲伤的振幅较低,而且这些振幅差异 越大,体现出情感的变化越大。 语音的振动速率决定了语音信号的基频,不同的语音情感其发音振动速 率不同,从而导致其语音信号的基频不同,由于愤怒、高兴等情感对应交感 1 4 哈尔滨工程大学硕
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度商业地产销售代理全面执行协议
- 语音管理知识培训内容课件
- 语言文字知识专题培训课件
- 2025合作协议委托版合同书
- 2025年合同印花税税目税率表合同税收优惠政策解析
- 红豆课件教学课件
- 红色物业法律知识培训课件
- 2025房屋买卖合同终止协议范本
- 诗词社团课课件
- 物流运输计划模板成本控制与效率优化版
- 软件工程概论第三版课件
- 心理健康与寝室生活
- 糖尿病病人饮食健康宣教
- 慢阻肺护理查房
- 儿童健康开学第一课-守护成长,从健康开始
- 支付宝迎新活动策划方案
- 在线教研室活动方案
- 安保日常培训课件
- DB11-T 695-2025 建筑工程资料管理规程
- 1《我三十万大军胜利南渡长江》跨学科公开课一等奖创新教案统编版语文八年级上册
- 工程概算、预算、结算审核报告模板
评论
0/150
提交评论