情感语音识别本科论文_第1页
情感语音识别本科论文_第2页
情感语音识别本科论文_第3页
情感语音识别本科论文_第4页
情感语音识别本科论文_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档,值得收藏!基于mfcc和zcpa的语音情感识别摘要随着计算机技术的不断发展,人们对计算机的要求越来越高,逐渐要求计算机具有人工智能,而语音情感识别是人工智能领域的研究热点。语音情感识别包括语音信号预处理、语音情感特征提取和语音情感识别分类器等。本文使用太原理工大学录制的情感语音库,该数据库包含高兴、生气和中性三种情感,本文采用的情感语音库中的600句情感语音,文中对情感语音进行了预处理,包括抗混叠滤波、预加重、加窗以及端点检测等,并对高兴、生气和中性三种语音情感提取mfcc和zcpa特征,使用支持向量机对语音的三种情感进行识别,实验结果表明,mfcc和zcpa特征均取得了较好的识别效

2、果。 关键字:语音情感识别,mfcc,zcpa,支持向量机speech emotion recognition based on mfcc and zcpaabstractwith the development of computer technology, peoples requirements of computer are higher and higher, and artificial intelligence is gradually important for computers. speech emotion recognition is one of the hotspo

3、ts in the field of artificial intelligence. the speech emotion recognition consists of speech signal pretreatment, feature extraction and speech emotion recognition classifier, etc. this paper used the emotional speech database recorded by the taiyuan university of technology, which contains happine

4、ss, anger and neutra. in this paper, we use 600 emotion sentences from emotional speech database. firstly, this paper pretreated emotion sentences, including aliasing filter, the pre-emphasis, adding window and endpoint detection, etc. this paper extracted mfcc and zcpa features from three emotions,

5、 and recognized by support vector machine (svm), the experimental results show that mfcc and zcpa features can get better recognition rate. key words: speech emotion recognition; mfcc; zcpa; svm;精品文档,值得下载!目录摘要iabstractii第一章绪论51.1语音情感识别概述51.1.1引言51.1.2语音识别的发展过程及其现状51.1.3语音情感识别中面临的问题和困难71.2.论文研究的主要内容以

6、及章节安排7第二章语音情感识别原理和技术82.1综述82.2.预处理82.2.1语音情感信号的预加重处理82.2.2语音情感信号的加窗处理102.2.3短时平均能量122.2.4短时平均过零率132.2.5语音情感信号的端点检测152.3语音情感特征的提取162.3.1美尔频率倒谱系数(mfcc)162.3.2过零率与峰值幅度(zcpa)182.4 本章小结19第三章语音情感及语音情感库203.1语音情感203.1.1语音情感的分类203.1.2情感语句的选择213.1.3国际情感数据库213.2语音情感数据库223.3本章小结23第四章 语音情感识别分类器244.1语音情感识别技术基本原理2

7、44.2语音情感识别的方法244.3支持向量机254.3.1支持向量机发展历史254.3.2支持向量机的理论基础254.3.3最大间隔分类超平面264.3.4支持向量机的原理274.3.5支持向量机的核函数294.4 两种特征参数的语音情感识别实验304.4.1 情感语句的两种特征参数识别实验304.4.2 实验分析和结论314.5 本章小结32参考文献33致谢35附录一:外文翻译36附录二:外文文献翻译45附录三:程序52第一章绪论1.1语音情感识别概述1.1.1引言 随着信息技术的高速发展以及人类对计算机的依赖性不断加强,人机交互(hci)的深度和能力受到了越来越多研究者的青睐,计算机与人

8、类的交流的语言有各种各样,其中包括各类的低级语言和高级语言。几年来,研究者们倾向于如何与机器进行语音交流,让计算机明白你在说什么,更进一步了解到你说话的情感状态,自适应地给对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍。如果说以前的研究是属于“智”,那么近年来研究的方向则为“心”1,这些研究的目的终究是为了让计算机更加人性化、情感化。研究计算机的情感识别技术,可以从两大方面分析:一是通过面部表情,在hci领域中,面部表情和手势向来是情感识别系统中的基本方式;二是语音,在沟通过程中想要得知对方的动机和情绪,语音是最有利和最直接的方式。在语音信号中的情感信息是一种很重要的信息资源,它

9、是人们感知事物必不可少的部分信息,同样说的一句话,由于说话人的情感不同,在听者的感知上就可能会有较大的差别。语音之所以能够表达出不同的情感,是因为语音信号中含有能体现情感特征的参数,研究认为,在某种特定的情感状态所引起的语音参数在不同的人之间是大致相同的。因此计算机可以利用提取语音情感特征的方式来识别人的情感。目前,相关的情感识别的研究在不断的深入中,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视2,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行语音情感处理的研究工作。语音情感识别的研究也有相当大的研究前景,比如:用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程

10、教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦查中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。语音情感识别是一门涉及面很广泛的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经心理学和人工智能等学科都有着密切的关系。语音情感识别的最大优势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音情感识别系统实现成为可能。近二三十年来,语音情感识别在工业、军事、交通、医学、民用诸方面,特别是计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用3-5。1.1.2语音

11、识别的发展过程及其现状语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。在1972年williams发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年mit多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感6。1996年日本东京seikei大学提出情感空间的概念并建立了语音情感模型。2000年,maribor大学的vladimir hozjan研究了基于多种语言的语音情感识别7。2009年4月,日本产

12、业技术综合研究所(aist)研制一个具有丰富表情的新型女性机器人“hrp-4c”。通过对主人语音情感信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等8。在国内,语音情感识别的研究起步较晚。2001年,东南大学赵力等人提出语音信号中的情感识别研究。2003年,北京科技大学的谷学静等人将bdi agent技术应用与情感机器人的语音识别技术研究中。另外,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议。2005年10月又在北京主办了首届国际情感计算及智能交互学术会议。目前许多国家的研究机构都在致力于该领域的研究。在国外,研究最活跃的是美国麻省理工大学媒体实验

13、室。国际语音通信协会(isca)为此也做了很大的贡献,2000年isca在北爱尔兰的贝尔法斯特召开了一个称为“语音与情感:研究的概念框架”的研讨会,使众多不同领域的研究者聚集到一起讨论语音情感识别的问题,为语音情感识别的研究做了很大的贡献,现在该协会每两年举办一次的eurospeech或interspeech国际会议,是语音研究领域非常出名的大会。而在国内,目前在该领域研究比较活跃的单位有中国科学院自动化研究所和东南大学学习科学研究中心等。特别是中科院自动化所为中国情感计算研究的发展做了不可磨灭的贡献,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议,200

14、5年10月又在北京主办了首届国际情感计算及智能交互学术会议,将众多国内乃至国际上该领域的专家聚集到一起。对于情感语音识别的研究现在还存在许多难点,比如情感的定义及不同情感的界定,情感语音数据库的采集,有效情感语音特征的寻找以及高效的情感识别算法的研究等。另外,如何提高系统的鲁棒性也是一个比较突出的难点,目前还没有相关报道。要研究如何从语音中自动的识别情感,首先必须有情感理论作为基础。人类的情感是一种极其复杂的现象,要对其准确的定义和描述并不是一件容易的事情。在心理学领域,对情感的研究已经有很长的历史,但到目前为止,还没有一种统一的定义和理论模型。美国瓦萨大学心理学系的cornelius教授总结

15、了过去125年左右心理学领域对情感理论研究的四种主要观点结果表明四种观点对情感有截然不同的定义和研究传统,但他认为,四种观点并不是截然对立的,已经逐渐相互融合和交叉,当今的许多研究者都同时继承了不同的观点,如美国加州大学的ekman教授及其“基本”情感理论.瑞士日内瓦大学的scherer认为在言语交流中情感的重要性及其对听者产生的巨大影响很早就为许多学者所认同,最早的可见于古希腊和古罗马对雄辩学(rhetoric)的记载,如亚里斯多德的手册。在19世纪由于现代进化生物学的出现重新激发了人们对情感表达的研究兴趣,最有代表性的是达尔文的研究及其在1872年出版的著作the expression o

16、f the emotion in man and animals。对语音情感的系统研究始于20世纪60年代,当时的精神病学家试图从病人的声音中诊断出他们的情感状态。近年来由于人们对计算机智能的要求越来越高及情感计算的兴起,更多的人投入到了情感识别的研究中9。1.1.3语音情感识别中面临的问题和困难 虽然世界各国的研究人员在语音情感识别研究领域中取得了许多的研究成果,采用的特征以及识别模型各种各样,但是究竟应该选择什么特征?用什么建模方法?由于目前各种文献使用的情感语音数据库不同,得到的识别结果也相去甚远,不具有可比性,因而很难客观地判断特征及建模方法的优劣,现阶段主要存在的问题如下:语音情感数

17、据库中该领域研究的基础,目前没有一个多语言情感的数据库可以研究,根据某些研究发现,不同的语言的情感识别率有比较大的差距,如何建立一个比较规范的多语言的情感数据库是现阶段研究的首要任务。现阶段用于情感识别的特征有各种各样,总结起来,可以大致分为两类,即基于全局的静态特征和基于局部的动态特征。基频中的峰值、均值、方差是描述情感的最重要特征,在很多文献中,研究者都是采用该特征作为特征参数。1.2.论文研究的主要内容以及章节安排本文主要是对语音信号特征参数的提取的基础之上进行语音情感识别分析的,所使用的数据库是太原理工大学实验室录制的含有高兴、生气和中性三种情感的语音。在分析这些数据时,选取了能够辨识

18、情感的有效特征参数mfcc和zcpa,重点分析mfcc、zcpa之后采用支持向量机的分类器进行语音情感的识别。本文在详细论述了语音情感信号处理、语音情感识别以及支持向量机理论的基础上,研究了如何利用支持向量机进行语音情感识别。具体章节安排如下:第一章是绪论,概括介绍了语音情感识别研究的背景、语音情感识别涉及的领域、国内外研究现状和该领域研究中所面临的困难,同时对语音情感识别的应用领域进行了简单描述;最后介绍了本论文的主要研究内容和章节安排。第二章主要介绍了语音情感识别原理和技术,重点介绍了对语音信号进行处理的各个步骤,包括预加重、加窗处理、端点检测。另外还重点讨论了语音情感识别系统中常用到的两

19、种特征参数:mfcc和zcpa。这两种参数为后续文章中的语音情感识别中奠定了基础。第三章主要介绍了语音情感的分类和选择的常用规则,并且讨论了当今国际上较为著名的几种语音情感数据库。另外还详细介绍了本文中所使用太原理工大学的语音库。选取了该库中的600句包括高兴、生气和中性三种情感。第四章介绍了语音情感识别技术的基本原理和方法,重点介绍了支持向量机的相关理论和原理,其中包括最大间隔分类超平面和支持向量机的核函数。还将两种情感特征参数的语音情感识别实验做了大致地介绍,并列出了实验结论和对实验结果进行了分析。第二章语音情感识别原理和技术2.1综述不同的语音情感识别系统,其设计和实现的细节是不一样的,

20、但是其采用的基本技术都是相似的。语音情感识别系统与语音识别系统类似,分为语音情感语句预处理、特征参数提取和模式匹配三个部分。其识别过程如下:首先对情感语句进行预处理,语音情感语句预处理包括预加重、分帧加窗和端点检测等;其次是对情感语句提取特征参数,如和等频谱特征参数;然后在此基础之上建立模板,这个建立模板的过程称为训练过程;将特征参数与模式匹配的过程称为识别过程。2.2.预处理实际的语音情感信号是模拟信号,因此对语音情感信号进行数字处理之前,首先要将模拟语音情感信号以周期为的采样,将其离散化为,采样周期的选取应根据模拟语音信号的带宽来确定,以避免信号的频域混叠失真。对语音情感信号进行预处理包括

21、:预加重、加窗和端点检测。2.2.1语音情感信号的预加重处理对输入的语音情感信号进行预加重处理的目的是对语音信号的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800hz以上按6db/倍频程跌落,即6db/oct(2倍频)或20db/dec(10倍频),所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(pre-emphasis)处理预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析

22、预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比但预加重一般是在语音情感信号数字化之后,参数分析之前在计算机里用6db/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器: (2-1)其中的值接近于1。若时刻的语音采样值为,经预加重处理后的结果为: (2-2)图2.1给出了预加重滤波器的幅频特性和相频特性;图2.2分别给出了预加重前和预加重之后的一段浊音信号以及频谱。图2.1预加重滤波器的幅频特性和相频特性图2.2 预加重前和预加重后的一段浊音信号及频谱2.2.2语音情感信号的加窗处理在预加重数字滤波处理

23、后,需要进行加窗分帧处理。由于人自身的发音器官的运动,语音情感信号是一种典型的非平稳信号。但是相比于声波振动的速度,发音器官的运动就显得非常缓慢了。因此,工程技术人员通常认为10ms-30ms这样长度的时间段中,语音信号是平稳信号。几乎所有的语音情感信号处理方法都是基于这个假设。这样每秒的帧数大约为33-100。分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移帧长的比值一般取为0-0.5。分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数来乘,从而形成加窗语音情感信号: (2-3

24、)在语音信号数字处理中常用的窗函数是矩形窗(rectangular window)和汉明窗(hamming window)等,矩形窗如式(2-4)所示: (2-4)汉明窗如式(2-5)所示: (2-5)窗函数的选择(形状和长度),对于短时分析参数的特性影响很大。为此应选择合适的窗口,使其短时参数更好地反映语音信号的特性变化。下面从窗口形状和窗口长度两方面来讨论这个问题。1 窗口形状 虽然不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征参数可能对窗函数的要求不一样,但一般来讲,一个好的窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引

25、起急剧变化而平滑过渡到零,这样可以是截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3db带宽以及较小的边带最小值。这里以典型的矩形窗和汉明窗为例进行比较。1) 矩形窗时: (2-6)对应于该单位函数响应的数字滤波器的频率响应为: (2-7)它具有线性的相位频率特性,其频率响应为第一个零值时对应的频率为: (2-8)这里,为采用频率,为采样周期。2) 汉明窗时: (2-9)发现其频率响应的第一个零值频率(即带宽)以及通带外的衰减都比矩形窗要大许多。2 窗口长度采样周期、窗口长度和频率分辨率之间存在下列关系: (2-10)可见,采样周期一定时, 随窗口宽度的增加而减小,即频率分

26、辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。图2.3为程序运行后相应的矩形窗时域波形和幅频特性图。图2.4为程序运行后相应的汉明窗时域波形和幅频特性。图2.3矩形窗及其频谱图2.4汉明窗及其频谱通过对比图2.3和图2.4可以看出矩形窗的主瓣宽度小于汉明窗,具有较高的频谱分辨能力,但是矩形窗的旁瓣峰值较大,因此其频谱泄露比较严重。相比较,虽然汉明窗的主瓣宽度较宽,约大于矩形窗一倍,但是其旁瓣衰减较大,具有更平滑的低通特性,能后在较高的程度上反映短时信号的频率特性。2.2.3短时平均能量由于语音信号

27、的能量随时间而变化,清音和浊音之间的能量差别相当显著。因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变化情况。语音信号在时刻的短时平均能量如下式所示: (2-11)式中为窗长,可见短时能量为一帧样点值的加权平方和。当窗函数为矩形窗时,为 (2-12)当时, (2-13)即语音信号各个样点值的平方,通过一个冲激响应为的滤波器,输出为由短时能量构成的时间序列:图2.5 语音信号的短时平均能量实现框图短时平均能量的曲线由图2.6所示:图2.6 帧长为200的语音短时能量短时平均能量的主要用途如下:1. 可以作为区分清音和浊音的特征参数。实验结果表明浊音的能量明显高于清音,通过设置一个能

28、量门限值,可以大致判定浊音变为清音的时刻,同时可以大致划分浊音区间和清音区间。2. 在信噪比较高的情况下,短时能量也可以作为区分有声和无声的依据。3. 可以作为辅助的特征参数用于语音识别中。2.2.4短时平均过零率短时平均过零率是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。对有时间横轴的连续语音信号,可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号的情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数为过零率,一段长时间内的过零率为平均过零率。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率

29、是固定的。因此过零率在一定程度上反映信号的频率信息。语音信号不是简单的正弦序列,所以平均过零率的表示就不那么确切,但由于语音是一种短时平稳信号,采用短时平均过零率可以在一定程度上反映其频谱性质,短时平均过零率可以定义为: (2-14)式中,代表符号函数,其表达式如(2-15)式所示: (2-15)是窗长为n的矩形窗,如(2-16)所示: (2-16)当相邻样点符号相同时,时,可以认为没有过零,当相邻两个样点值相反时,该值为过零次数的2倍,因此窗函数也可以表示为: (2-17)在矩形窗的条件下时,短时平均过零率为: (2-18)图2.7是一段语音的短时平均过零次数的变化曲线,其中窗长为220,帧

30、重叠为50%,从图中可以看出清音段和浊音段的短时平均过零率。图2.7一段语音的短时平均过零率短时平均过零率可以语音信号清音和浊音的判断,语音产生模型表明,由于声门波引起了谱的高频跌落,所以浊音语音能量约集中在3khz以下。但对于浊音语音,多数能量却是出现在较高的频率上。所以如果过零率高,语音信号就是清音,如果过零率低,语音信号就是浊音。但是由于某些语音位于浊音和清音的重叠区域,仅靠短时平均过零率就不可能来清楚地判断清音和浊音。2.2.5语音情感信号的端点检测语音信号的端点检测就是从包含语音的一段信号中准确地确定语音的起始点和终止点,从而区分语音和非语音信号,它是语音处理技术中的一个重要方面。经

31、过端点检测后,不仅能减少语音情感特征的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音情感识别系统的性能。语音信号是时变非平稳信号,一般将其视为短时平稳信号进行处理,其特征依赖于时间。在识别时,由于噪声环境的引入,使系统无法正确判断有效语音的起始点和终止点,从而造成起点和终点的虚检或漏检情况,甚至把一段噪声作为语音信号来进行识别。因此,端点检测的准确性在某种程度上影响了特征提取及其识别的好坏。端点检测是语音信号处理中的一个基本问题,其目的是从包含语音的一段信号中确定出语音的起始点和结束点。有效地端点检测不仅能使处理的时间减到最少,而且能抑制无声段的噪声干扰,以高语音处理的质量。判别

32、语音段的起始点和终止点的问题主要归结为区别噪声和语音的问题,如果能够保证系统的输入信噪比很高(即使最低电平的语音能量也比噪声能量高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声段区别开来。但是,在实际应用过程中很难有那么高的信噪比,仅仅根据能量来进行端点检测是不行的。因此还需要利用短时平均过零率进行判断,因为清音和浊音的短时平均过零率比噪声的平均过零率要高出好几倍。通常采用基于短时帧能量和过门限率的双门限端点检测法来进行端点检测。在基于短时能量(energy)和过门限率(zcr)的双门限端点检测算法中,首先为短时能量和过门限率分别确定两个门限,一个是比较低的门限,其数值比较小,对信

33、号的变化比较敏感,很容易被超过。另一个是比较高的门限,数值比较大,信号必须到达一定的强度,该门限才可能被超过。低门限超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限基本确信是由于语言信号引起的。整个语音信号的端点检测可以分为四个阶段:静音段、过渡段、语音段和结束。在静音段,如果能量或过零率超越了低门限,就开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就认为当前状态恢复到静音状态。而如果在静音段中两个参数的任何一个超过了高门限,就可以确信进入语音段。一些突发性的噪声也可以引起短时能量或过零率的数值

34、很高,但是往往不能维持足够长的时间。所以当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限10,则认为这是一段噪音,继续扫描以后的语音数据,否则标记好结束端点。2.3语音情感特征的提取特征参数提取是语音识别的关键步骤。所谓特征提取,即对不同的语音寻找其内在特征来判别未知语音,所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要,选择的标准应体现对异音字之间的距离尽可能大,而同音字之间的距离应尽可能小,特征参数的好坏将直接影响到语音识别的精度,一个好的特征参数应具有以下特点:1. 能有效代表语音特征,包括声道特征和听觉特征,具有很好的区分性

35、。2. 各阶参数之间应有良好的独立性。3. 特征参数要计算方便,最好有高效的计算方法,以保证语音识别系统的实时实现。语音的特征参数多种多样,在实际应用中,可以根据需要选择不同的语音参数或几种参数的组合。在语音识别中经常用到的特征参数有过零率与峰值幅度(zero-crossing with peak-amplitudes, zcpa)、美尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)和线性预测倒谱系数(linear prediction cepstrum coefficient, lpcc)等。下面对这几种参数依次作出说明。1. 线性预测系数(l

36、pc)线性预测分析是从人的发生机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数是全极点数字滤波器的形式,从而某一时刻的信号可以用若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到最小均方误差,这样就可以得到线性预测参数。2. lpc倒谱系数(lpcc)倒谱系数是信号的z变换的对数模函数的逆z变换,一般先求信号的傅里叶变换,取模的对数,再求傅里叶逆变换得到。lpcc的主要优点是比较彻底地去掉语音产生过程中的激励信息,反映了声道响应,并且通常只需要几个倒谱系数就能够很好的描述语音的共振峰特性。3. 美尔频率倒谱系数(mfcc)和过零峰值幅度(zcpa)在后文

37、中详细介绍。2.3.1美尔频率倒谱系数(mfcc)mfcc是由davies和mermelstein提出的,该特征参数利用了听觉原理和倒谱的解相关性。另外,mel倒谱也具有对卷积性信道失真进行补偿的能力。由于这些原因,mel参数被证明是在语音识别任务中应用最成功的特征描述之一。根据生理学的研究结果,人耳对不同频率的声波有不同的听觉灵敏度,在相应的临界带宽内的信号会引起基底膜上不同位置的振动。由此可用带通滤波器组来模仿人耳听觉,从而减少噪声对语音的影响。对人耳听觉特性的研究表明200hz到5khz之间的语音信号对语音的清晰度影响最大,低音掩蔽高音容易,而高音掩蔽高音较困难,在低频处的声音掩蔽的临界

38、带宽较高频处小,据此,人们从低频到高频这一段频带内按临界带宽的大小由密到疏排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号的量作为信号的基本特征,对此特征进行进一步处理后就可以作为语音识别系统的输入特征。由于这种特征不依赖于信号的性质,对输入的信号不作任何假设和限制,又利用了听觉模型研究成果,当信噪比降低时仍然具有较好的识别性能。由于声音激励导致的人耳基底膜最大振动与基音频率的对数值成正比。人的听觉系统的这一感知特性可以用mel尺度表示,mel频率尺度试图将音调、高音等感知特性映射到线性尺度上。mfcc参数正是在研究人的听觉系统的基础上得出的声学特征。对人的听觉机理的研究发现,

39、当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称为掩蔽效应。mel尺度就是对这一临界带宽的度量方法之一。mfcc参数的计算是以mel频率为基准的,它和实际频率的转换关系是: (2-19)这里,实际频率的单位是hz。mfcc参数是按帧计算的。首先要通过fft得到该帧信号的功率谱,然后转换为mel频率下的功率谱。这需要在计算前先在语音的频谱范围内设置若干个带通滤波器: (2-20)其中,为滤波器的个数,本文取为26;n为一帧语音信号的点数,为了计算fft的方便,取为256。

40、根据临界带宽(critical band)的划分,可将语音信号的频率划分成一串三角滤波器,即滤波器组,频率尺度滤波器组如图2.8所示: 图2.8 mel频率尺度滤波器组滤波器的输出如式(2-21)所示: (2-21)的逆函数如下式所示: (2-22)其中,b代表频率。滤波器的中心频率定义为: (2-23)其中为帧长,为采样频率,本文中取11025hz;、为滤波器应用范围的频率的最高频率和最低频率,可由式(2-19)求出;本文中,滤波器的中心频率是在、之间按照刻度以间隔150,带宽300均匀排列,其中相邻两个滤波器的过渡带之间相互搭接,并且频率响应之和是1。图2.9为mfcc提取流程图。图2.9

41、 mfcc提取流程图2.3.2过零率与峰值幅度(zcpa)特征参数的好坏最直接决定着系统的识别性能。要想使系统具有较好的鲁棒性,必须要求提取的特征参数有很强的抗噪性。经典的特征参数在无噪环境下都取得了相当好的效果,但是在有噪声的情况下,系统的识别率就会显著下降。人类的听觉系统在噪声环境下就能很好的工作,因此如果语音识别系统能够模拟人类听觉感知的特点,噪声的识别率就会有一定的提高。zcpa就是完全基于人耳听觉特性的,它从物理意义上模仿了人耳听觉处理过程。首先来介绍人耳对声音信号的处理过程。人耳由外耳、中耳、内耳三部分构成。语音信号在外耳膜上转化为机械运动,通过中耳传递到内耳的耳蜗上,中耳充当外耳

42、和内耳的匹配阻抗。而语音信号的主要处理任务是在内耳中进行的,尤其是在内耳的耳蜗中进行的。耳蜗中的基底膜对外来的声音信号有频率选择和调谐的作用。在耳蜗基部通过前庭窗传递来的语音信号被转换为基底膜的行波,沿基底膜传播,其峰值出现在基底膜的不同位置。频率越底,振动峰值位置越靠近蜗孔,随频率增高,该峰值越靠近基底膜根部。约800hz以上,声音频率沿基底膜按对数分布。其位移和频率的关系可用(2-24)式表示: (2-24)其中是频率(hz),是基底膜的归一化距离,和是常数,分别为、。在听觉系统中耳蜗对声音的感受和换能作用是整个复杂的听觉系统中非常重要的一个环节,同时耳蜗具有串/并转换器的功能,它实际上相

43、当于一组并联的带通滤波器,串行输入的声音信号在耳蜗中被分解并以多路并行的方式输出。这样为仿真耳蜗滤波器的模型提供了一定的依据。图2.10给出了基于人耳听觉特性的zcpa特征提取原理图:图2.10 zcpa系统原理框图该系统由带通滤波器组、过零检测器、峰值检测器、非线性压缩器和频率接收器组成。带通滤波器组由16个fir滤波器组成,用来仿真耳蜗基底膜;过零检测器、峰值检测器、非线性压缩部分则仿真听觉神经纤维。从过零检测器获得频率信息,峰值检测器获得强度信息,经非线性压缩后,用频率接收器合成频率信息和强度信息,最后将16路所获得的信息合成为语音信号的特征。分析表明:在噪声存在的情况下,随着门限制的提

44、高,门限跨越的间隔扰动也变得越大,此时过零率显得就更具有鲁棒性,此时在噪声环境下,能够提供较好的语音信号表示方法。zcpa模型的原理与传统的信号处理方案有显著的不同,它需要测量信号在一个时间段内的瞬时频率和强度信息,并在随后需要进行一个时域信息的积累操作以获取最终输出。2.4 本章小结本章主要介绍了语音识别的基本原理与相关技术。首先详细介绍了语音信号的预处理过程,包括预加重、加窗分帧处理及端点检测等环节,并且列出了matlab程序,以及语音情感信号经预加重、加窗和端点检测所得的图像;然后在语音的特征参数提取方法的中介绍了一般常用的几种特征参数,并且详细说明了本文中设计的两种特征参数:mfcc和

45、zcpa。第三章语音情感及语音情感库3.1语音情感3.1.1语音情感的分类情感是人类经历的一种最普遍、最重要的心理体验之一。日常生活中,我们每个人都能体会到各种各样、程度不一的情感。到底什么是情感?人类的情感是怎样产生的?由什么构成的?或者怎样对情感分类才是最合理的?这些问题现在都没有定论。要研究如何从语音中识别情感,首先要对情感进行分类,必须有情感理论作为基础。人类的情感是一个极其复杂的现象,要对其精确的定义和描述并不是一件容易的事情,已有许多学者,对这个问题展开讨论。情感和情绪是不一样的,情感被用来表示各种不同的内心体验,情绪被用来表示非常短暂但强烈的内心体验。许多心理学家长久以来都在讨论

46、是否存在几种基本情绪,复杂情感则是由基本情绪的不同组合派生出来的问题。mcdougall在1926年就根据人类潜在本能列出生气(anger)、厌恶(disgust)、兴高采烈(elation)、害怕(fear)、屈服(subjection)、柔情(tender-emotion)和惊奇(wonder)七种基本情绪;后来ekman.p根据普遍的人脸表情体现给出了生气(anger)、厌恶(disgust)、害怕(fear)、高兴(joy)、悲伤(sadness)和惊讶(surprise)六种基本情绪;1987年oatley.k和johmon-laird.p.n提出五种基本情绪,它们分别是当前目标取得

47、进展时的快乐(happiness),自我保护的目标受到威胁时的焦虑(anxiety),当前目标不能实现时的悲伤(sadness),当前目标受挫或遭遇阻碍时的愤怒(anger),以及与味觉目标相违背的厌恶(disgust)。魏哲华提出了状态空间法的情感建模,该方法考虑了三种基本情感,即恐惧、愤怒、喜欢,认为人在某一时刻的情感均是这三种基本情感或这三种情感在不同程度上的组合。这样一来,任意时刻情感状态均是一个三维向量,在这个三维情感空间中存在着27个情感状态,构成了一个立方体。ortony.g.clore和a.collins三人在the cognitive struchure of emotion

48、s一书中,提出occ情感模型。他们认为每个情感组中的情感类之间是相互关联的,有着相似的认知起源。occ模型把人对外界的事件结果(events)、对象(objects)和其他智能行为(agents)反应而产生的情感分为三组。人对事件完成好坏表现出高兴和不高兴,对对象表现出喜欢和不喜欢,对其他智能行为表现赞同和不赞同。在这三个情感组中分别体现出了22种具体的情感。这在情感研究领域给出了一个不同于以往情感研究的情感认知框架。与上述两种方法不同,fox11提出的三级情感模型,则是按照情感中表现的主动和被动的程度不同将情感分成不同的等级,等级越低,分类越粗糙,等级越高,分类越精细。对于情感的分类,真可谓

49、“仁者见仁,智者见智”,研究者对主要情感的种类始终没有达成共识,但可以看出大部学者认为主要情感包括:愤怒(anger)、悲伤(sadness)、高兴(happy)和厌恶(disguss)。本篇论文用的情感语音包括生气(anger)、高兴(happiness)和中性(neutral)三种类型。3.1.2情感语句的选择正如其他研究人员在采集语音样本时采用了某些约束条件一样,为了能够建立尽可能完善的语音数据采样库,我们采用了一些折中办法。用于情感分析的语音信号是研究工作开展的基础,但从国内外的研究现状来看没有一个收集情感分析用语音资料的标准。所以本文选择了自己录制的方式并设计了一个用于独立文本情感语

50、音识别的数据库。对实验用语句的选择主要遵循了以下原则:1. 选择的语句不能有明确的语义倾向性,只有这样才能够保证构建语音库时不会影响实验者的判断;2. 所选语句应能够较容易加入说话人的不同情感。如果所选择语句是比较中性的或者说很难强加一定的感情,那必然对发音和识别都会带来很大的困难,从而无法比较针对同一句语句各种不同情感状态下各种特征参数的不同之处;3. 发音时间控制在5秒以下,时间过长不利于情感的表达,也会引起用于情感判断特征参数的弱化;4. 选择语句中的汉语,均要标准普通话的表达方式,不能带有各种方言的表达形式;而对英语则要求按照标准的英音表达;5. 尽可能避开无声辅音,如c、p、s、t

51、,避免这些音可能引起的基音周期轨迹的不连续;6. 男性和女性均适用。 schere和abelin等人的研究12-13表明,无论有着什么样的文化背景,对于与语音相关的基本情感而言,人们的生理反应是具有普遍意义的,所以选择英语和汉语将不会影响到研究结果。3.1.3国际情感数据库目前国际上具有代表的语音数据库主要有:1. 英国queens大学(d-cowie2000)。该语音库为开发基于面部表情和语音的情感识别系统而建立,采用录音和影视剪辑两种方法获取情感数据。情感数据是长度约 10-60秒的视频片断(包含语音),从视频中提取的情感语音文件及描述情感状态解释文件作为附属文件,库中包含来自10个说话者

52、的20多条语音和视频情感数据。在此基础上,系统地提出了构建语音情感数据库的注意点(d-cowie 2003),包含情感语音数据的规模和范围、情感语音发音的自然度、情感语音的内容和语义以及情感语音数据的描述方法。2. 日本meikai大学(makarovazooz)。该语音库建立了一个包含61个说话人(男12人,女49人)的俄语情感语音数据库ruslana,每人用自然、惊讶、高兴、愤怒 、悲伤和害怕朗读61个语句,ruslana将被用于说话人、性别无关以及说话人相关、性别相关的语音情感识别研究。3. 中国科学院自动化所(自动化所2005)。该语音库开发了共包括四个专业发音人和5种情感,分别是高兴

53、、悲哀、生气、惊吓和中性。每种情感有500句语音,其中前300 句是相同文本的,即对相同的文本赋以不同的情感来阅读,这些语音可以用来对比分析不同情感状态下的声学及韵律表现;另外100句是不同文本的,这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表达情感。选取录音人男声、女声各两人,每人按照以上所述五种不同的情感朗读文本2500句,共9600句,采样率16000hz,16bit,pcm格式存储。4. 台湾大同大学资讯工程学系(pao2004)。该语音库开发了包含愤怒、高兴、悲伤、厌烦和中性 5个情感类别,18个男性和16个女性说话人讲述约20个语音文本,每个文本的长度从1个字至6个字

54、逐一增加,共获取情感语音约340句。经过3个层次评估语音情感表达质量的听取实验筛选后,最终获取839句情感语音。听取实验后各长度情感语音所占的比例表明,人类很难识别文本长度较短语音的情感类别,录制情感语音时应避免使用短长度的文本。5. 柏林的情感数据库该语音库由10个德国演员(5男5女)进行表演,对10个情感语句进行录制,共494个情感语句,表达的情感共有六种:狂怒、悲伤、高兴、恐惧、厌烦以及中性14。虽然目前国内外己有一些情感语音数据库,但就采集、评测和管理等方面还没有形成一套可遵循的标准。由于语种的差异,不同语种的情感语料库建设可能有所不同。目前,有关普通话情感语音数据库的研究刚刚起步,缺

55、少一套完整的、可供参考的采集和管理方案。特别是缺少可供研究共享的情感语音数据库,这使得国内同行的各项研究成果缺少可比较的基础。这些事实都迫切要求我们对情感语音数据库进行研究。3.2语音情感数据库本文中所采用的语音情感数据库是太原理工大学实验室的非专业人士录制的。该语音库由实验室26名同学录制,这些同学年龄在22岁到24岁之间,情感把握能力比较强,英语和普通话发音标准,没有咽喉疾病。该语音情感库包括高兴、生气和中性3种情感表达11句情感语料(表3.1),最终选取600句情感语句(其中高兴200句、生气200句、中性200句)组成原始情感语音库。情感语句如图3.2所示:情感语句1. 爸爸给我买了一辆车。2. 这下全完了。3. 我们要搬家。4. 这件事是他干的。5. 我到北京去。6. 啊,下雨了。 7. my name is lily. 8. i will go home. 9. good morning. 10. open your book 11. the pen is on the fl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论