基于SVR的语音情感识别重点讲义_第1页
基于SVR的语音情感识别重点讲义_第2页
基于SVR的语音情感识别重点讲义_第3页
基于SVR的语音情感识别重点讲义_第4页
基于SVR的语音情感识别重点讲义_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SVR的语音情感分析与研究基于SVR的语音情感识别学生姓名:吴红霞 指导老师:杨鸿武学生届别:2009届 专业:电子信息工程班级:电子(2)班 学号:200572020234摘要随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human MaChine Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义,并最终产生很大经济效益和社会效益。 本文提出了一种连续语音情感识别方法, 提取了含有10种情感语音信号的基频,时长,能量,停顿等

2、情感特征。通过与不带情感的平静的语音信号的比较,总结了不同情感语音信号情感特征的分布规律,利用SVR建立了情感特征参数的匹配模型进行语句情感特征的识别 。关键词:情感识别;语音信号;支持向量回归算法。Abstract With the rapid development of computer network communication and multi-media technology of new Human machine interaction(HCI)has becomea very active study subject in the computer science fiel

3、d at present . The studyas enhancing the intelligence and humanity of computer ,development new human-machine environments, promoting the study of psychology. This paper puts forward a kind of voice classification method, containing 10 kinds of emotions extraction of speech signal frequency, duratio

4、n, energy, pause, such as characteristic. Without emotion with the calm voice signal, summarizes the characteristics of different emotional speech signal, the distribution of emotion is established using the SVR emotional characteristic parameters matching model identification of emotional statement

5、.Keywords: emotion recognition; speech signal; SVR. 目录摘要Abstract第一章 引言1.1 语音情感识别的研究背景及意义1.2 论文的研究内容第二章 语音情感识别技术产生机理及模型2.1 语音产生的生理基础2.2 语音产生的物理模型2.3 语音信号中的情感特征分析第三章 情感语音库的建立3.1 情感语音的分类3.2 情感分析用语音资料的选择3.3 语音数据的音节切分第四章 语音情感的特征参数分析与提取4.1语音信号的预处理4.2语音情感特征的分析4.2.1时间构造的分析4.2.2振幅能量构造分析4.2.3基音构造的分析4.3基于汉明窗的情

6、感特征参数提取4.3.1汉明窗简介4.3.2振幅能量参数的提取4.3.3时间参数的提取第五章 语音情感识别5.1 支持向量回归SVR5.2 利用SVR建立特别参数识别模型5.3 语音情感的识别第六章 结论致谢参考资料第一章 引言1.1 语音情感识别的研究背景及意义 语音信号中的情感信息是重要的信息资源,它是人们感知事物必不可少的部分。例如同样一句话,由于说话人的表现的情感不同,在听者的感知上就会有较大的差别,所谓“听话听音”就是这个道理。然而,传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样有效的利用各种形式的信息以达到

7、最佳的信息传递和交流效果,是今后信息处理研究的发展方向。 语音情感识别是建立在对语音信号的产生机制深入分析的基础上,对语音中反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别方法确定语音情感状态的技术。随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研究方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人隐私保护等。而其中,语音情感识别技术的研究是伴随着这些主要的研究方向的兴起而发展。它在这些方向中,具有广泛的运用。在个人机器人的研制中,提出最基本的要求就是它能够领会人的情感,并能够在理解人情感的同时以适当方式表达出自己的情感;同时考虑到目前个人

8、机器人在接受信息和自身运算上的限制,对于语音情感的研究将是它理解情感的最有效途径。在语音识别中,对特定人的语音进行训练时,即使说相同的内容,但在不同年龄段,不同的地点,不同的情绪等环境下都会直接对训练效果产生重要的影响,而利用语音情感识别技术,可以尽量将各种不同情感状态下的语音统一起来,保持主要的个人信息、在统一刻度下,这样就可以大大提高识别率。在语音合成中,特别是基于音素连接的文本到语音合成系统中,可以通过结合语音情感识别技术,使重建的语音具有符合要求的情感成分;这样就可以避免为录制不同情感状态的语音库而付出昂贵费用;同时,重建的语音需要进行相关的韵律修改工作,借以产生合适的基频、能量等信息

9、。在语音的转换和语言翻译中,目前的系统往往在对语音进行变换后,扭曲了原有语音中的情感信息;通过采用语音情感识别技术可以对处理后的语音进行情感的恢复,从而保证了语音中信息表达的完整与准确。语音情感识别还可以应用在教学辅导、自动告警及娱乐等方面。随着工internet的普及以及计算机性能的大幅提高,语音情感识别技术将被广泛应用在更多的领域,会有非常好的经济效益和社会价值。1.2 论文的研究内容 语音情感识别,就是通过分析人们语音对应于情感的变化规律,利用计算机从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。 本文针对含有放松,温顺,惊奇,喜悦,轻蔑,厌恶,恐惧,悲伤,焦虑和愤怒等1

10、0种情感的语音信号,分析了它们的时间构造、振幅构造和基频构造的特征。并且通过和不带感情的中性语音信号进行比较,找出了不同情感信号特征的分布规律,利用SVR建立了情感特征参数的匹配模型进行语句情感特征的识别。语音情感识别的流程框图: 语音输入结果输出预处理特征提取模式匹配识别构建SVR参数模型第二章 语音情感识别技术产生机理及模型2.1 语音产生的生理基础 人类发声是由肺部收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生的,声道起始于声门处而终止于嘴唇,包括咽喉(连接食道和口)、口腔,鼻道则是从小舌开始的到鼻孔为止。当小舌下垂时,鼻道与声道祸合而产生语音中的鼻音。发声过程中声道各处的截面积

11、取决于舌、唇、额及小舌的位置。声道截面积随纵向位置而变的函数,称为声道截面积函数。声道的共振峰特性主要决定于声道截面积函数,共振峰特性决定了所发声音的频谱。这里我们可以看到,声道是对发音起绝对性作用的器官;但从声学的观点来看,可以将声道拉直而完全不影响其声学特征,这样就便于我们从物理声学的角度来分析它的贡献。人类的发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音,清音和爆破音:(1)浊音的情况:当气流通过声门时,声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期的空气脉冲串,这些空气脉冲激励声道便产生浊音。此时,声带的绷紧程度不同,振动的频率也不同。一般来说男子低,女子高;老

12、人低,小孩高。同时要注意的是,浊音不光包括所有的元音;也包括一些浊辅音(如:发r,1,m,n等)。(2)清音的情况:声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度和横截面积之比大于某个门限时(临界速度)便产生摩擦音,即清音。包括了清辅音,还有r,1,m,n以外的声母。(3)发爆破音的情况:如果声道的某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音(如:发p,t,k,d,b,g等。)2.2 语音产生的物理模型 在研究发声器官和语音的产生过程后,便可以建立一个离散时域的语音信号产生模型。如图2.1所示,该离散模型也称之为声源调制模型。由图2.1可知,模型包括三部分:激励源,

13、声道模型和辐射模型。激励源分为浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音情况下,激励信号是由一个周期脉冲发生器产生的序列是一个周期为的冲激序列,即每隔点便有一个样值为1,而其它皆为0。周期。取决于基音频率和语音信号的采样率,即,其中和皆以Hz计算。与脉冲激励周期相关的语音感知特性,称为音高。为了使浊音的激励信号具有声门气流的实际波形,还需要使上述的冲激序列通过一个声门脉冲滤波模型,其Z域传输函数为,其中都很接近1,由之形成的浊音信号频谱很接近于声门气流脉冲的频谱。乘系数的作用是调节浊音信号的幅度或能量。在清音情况下,激励信号由一个随机噪声发生器产生。

14、可设其平均值为0,其自相关函数是一个单位冲激函数,则表明它的任何两个不同样点都不相关且其均方差值为1。此外还假定它的幅度具有正态概率分布(高斯分布)。乘系数 的作用是调节清音信号的幅度或能量。声道模型V(Z)给出了离散时域的声道传输函数,把实际声道作为一个变截面的无损声管加以研究,采用流体力学的方法导出,在大多数情况下它是一个全极点函数。这样,V(Z)可以表示为: (2.1)这里,把截面积连续变化的声管近似为p段声管的串连,每段短声管的截面积是不变的。如果给出声管的截面积随其轴向长度的变化曲线,就能得到它的面积函数,图2.2即为这样的例子。为了分析方便把连续变化的面积函数表示成阶梯形状,值为0

15、cm时表示喉部,值为18cm时,表示嘴唇处。采用流体力学的方法,计算出不同面积函数处声管的频率响应及其共振峰。p为这个全极点滤波器的阶。显然,p值取得越大,模型的传输函数与声道实际传输函数的吻合程度越高。但是,对大多数实际应用而言,p值取816就足够了。若p取偶数,V(Z)一般由p/2对共轭极点,k=1p/2.各个分别与语音的各个共振峰相对应。辐射模型R(Z)与嘴唇有关,嘴唇的辐射影响引起的输出信号高频提升作用大约有每倍频程60db,这时R(z)表示为 模型中,除了G(Z)和R(Z)保持不变以外。、Av、Au、浊音/清音开关的位置以及声道模型中的参数都是随时间而变化的,由于发声器官的惯性使这些

16、参数的变化速度受到限制。对于声道参数,在10至30ms的时间内可以认为它们保持不变,因此语音的短时帧一般取为20ms左右。对于激励源参数,大部分情况下这一结论也是正确的。根据这个模型,离散时域语音信号s(n)的Z变换S(Z)可以用一个统一的公式来计算:S(Z)=A·E(Z)·H(Z) (2.2)在浊音的情况下,E(Z)是一周期冲激序列的Z变换且A=,H(Z)=G(Z)·V(Z)·R(Z) (2.3)在清音的情况下,E(Z)是一个随机噪声的Z变换且A=,H(Z)=V(Z)·R(Z) (2.4)2.3 语音信号中的情感特征分析 从语音产生的物理模型

17、中,我们可以更准确的了解语音的产生过程,这将是分析语音信号的基础。在现实生活中,每个人的语音都具有自身的特点。通过一些研究人员在说话人识别的研究中发现,包含在语音信号中的个人信息是一系列各种因素的综合体,一个说话人区别于另一个说话人语音个人特征包括很多方面。在这些因素中,主要的可以分成三类特征:(1)基于音段的特征:主要指语音的音色和听觉方面的特征,在声源调制的语音产生模型中,主要指声道响应的频谱包络特性,比如共振峰的中心频率和带宽等因素,研究表明人类语音的主要区别在于共振峰的差别;(2)基于超音段的特征:又称语音的韵律特征,主要指说话人的种类特征、说话人风格、说话的语调、音高、情绪等方面的特

18、征,在语音的声源一调制产生模型中常常和激励源的性质有关,比如浊音激励的周期性质,决定了说话人的音高的轨迹;(3)基于语言的特征:主要指由于地理区域的不同而使用的语种和方言的不同而表现出的特征。 第三章 情感语音库的建立3.1 情感语音的分类 对情感语音识别系统的输出结果是由标识情感状态的标签组成,因此选取合适的情感状态对于系统的识别研究是至关重要的。从心理学和生理学的角度,对情感的研究已有近一个世纪的历史。在语音情感的领域中,语言学家有很丰富的词汇来描述不同的情感状态,如Schubiger、OConnor和Amold在研究中曾经用了300个标签来区分不同的情感状态。然而,从工程学的角度将语音情

19、感作为信息信号工学的研究对象来研究才刚刚开始。最初,为建立语音理解和会话系统,有人通过分析语音的韵律变化来判断说话人的态度、意图,来控制人机会话的过程。近年来随着计算机多媒体信息处理技术等领域的发展,情感信息处理技术也被越来越多的研究者重视,对情感状态类型的划分也是情感分析研究的一个重要部分。目前从心理学的角度以及相应的研究资料有不同的划分方法:在1996年,Dellaert提出以基音频率相关信息为主要特征分类的方法,并考虑了恐惧、愤怒、悲伤和高兴四种情感状态;1999年,Nihcolsno分析了包含有八种情感状态(恐惧、愤怒、悲伤、高兴、戏弄、沮丧、惊讶和中性的语音信号;在2001年,Cow

20、ie等提出了“调色板理论”,该理论认为就像通过混合原色可以调出其他颜色那样,通过确认最主要的几种基本情感状态也可以生成其他情感状态。“基本”情感状态包括:喜悦、悲伤、害怕、愤怒、惊奇和厌恶,它们往往被用作原型情感。尽管这几种情感状态只是生活中所有情感状态的一小部分,但它们仍代表众所周知的情感状态并被用来验证情感自动识别系统。 通过对国内外研究状况的了解,并结合自己对语音情感状态的理解和分析,在研究中,我们将情感分为基本情感和衍生情感两类。 基本情感:每种情感是一个离散的实体,存在几种“基本”的情感,每种情感都由特定生理模式以及面部表情和声音表达。例如:喜悦,悲伤,恐惧、愤怒,惊奇,厌恶。 衍生

21、情感:“基本”情感的不同程度的修改和组合。例如:放松、温顺、轻蔑、焦虑等。 对上述这些语音情感分类并不足以充分代表所有的情感状态,但对语音情感自动识别原型系统而言它们是有效的输出方式。3.2 情感分析用语音资料的选择本文对分析实验用语句的选择主要考虑了以下三个方面。(1) 所选择的语句必须不包含某一方面的情感倾向;(2) 必须具有较高的情感自由度,对同一个语句能施加各种情感进行分析比较。(3) 对于语句的长度,辅音以及助词成分的构成,男女性的差异等都作了考 虑。 根据上述原则,我们设计了11 段适合于用中性和其他10种情感情感表达的文本语料. 在录音时, 为了兼顾情感的自然表达和语音文本内容的

22、体现, 首先通过心理学测试选择专业录音人, 然后设置特定的场景激发录音人的情感表露. 录音中, 选择了一位男性普通话录音人(不是专业演员) 在录音棚中录音. 首先录制中性语音, 然后录制情感语音. 在录制中性语音时, 要求录音人用无表情的、语调和语速基本不变的方式朗读录音文本. 在录制11种情感语音时, 首先设置特定的场景激发录音人相应的情感表露. 当录音人的情感被激发出来后, 让其按照自然的情感表达方式读出11句情感语句. 表1 列举了5 句录音文本.表1 情感分析用 录音文本例句1(平静)在数字系统中常常采用二进制数,这是因为二进制数的基数为二,它只有零和壹两个数字,运算规则简单,便于电路

23、实现。二进制数也采用位置计数法。每一个细胞都仿佛呼吸着一种叫做中性的情绪,我不由得说:“啊,荧光数字管、发光二极管、数字显示器等,经常采用七段字形显示,它可以显示数字和英文字母。”例句2(喜悦)把准备好的放着新家钥匙的盒子轻轻放在她手上,在看到她打开盒子眼睛里绽放出喜悦光彩的那一瞬间,我雀跃了,紧紧地握着她的手,就像紧紧握着幸福一样,每一个细胞都仿佛呼吸着一种叫做喜悦的情绪,我不由得说:“啊,我们有自己的家了!将来我们的孩子在那里长大,然后结婚,生子,你和我就天天哄孙子”例句3(惊奇)这是什么状况?我完全傻了眼的站在原地,手还保持着转动钥匙的样子,五秒中后才把大张的嘴巴勉强合上,眼神逐一扫过面

24、前的每一个人,表情变得越来越微妙。每一个细胞都仿佛呼吸着一种叫做惊奇的情绪,我不由得说:“啊,这是做梦吗?你,还有你,不是在国外吗?怎么会出现在这里? 快告诉我,是怎么回事?”例句4(悲伤)美丽的双眼紧闭着,已经有多久没有注视过我了啊。抚摸着那自己最爱把玩于手的秀发,眼泪却不争气的滴落在她美丽的脸庞上,赶紧用手抚去,每一个细胞都仿佛呼吸着一种叫做悲伤的情绪,我不由得说:“啊,如果我从不曾爱上你该多好,我也就不会知道心痛是什么滋味,可是,我还能做些什么呢心好痛。”例句5(愤怒)两次!三次!四次!五次!六次!第六次了!大周末的,谁这么无聊?什么鬼蛋节也不能这么玩啊!这还让不让人睡啦!气死我啦,我叫

25、你响!一把抓起听筒。每一个细胞都仿佛呼吸着一种叫做愤怒的情绪,我不由得说:“啊,你有毛病啊!有完没完!有完没完!有本事打江泽民家!打邓小平家!打阎王老子家去阿!” 录音是在安静的房间里并且使用CoolEdit设备完成的。录制的语音用16 kHz 采样、16 bit 量化后以WAV 文件格式保存。为了检验所搜集的实验用情感语音数据的有效性,我们做了一个听取实验。我们要求以上三名发音者以外的另二名实验者坐在电脑终端前,然后随机播放所搜集到的带有各种情感的语句,让实验者通过主观评价说出所放语音的情感类型。经过反复听取比较以及数学上的有意性检定(Mcnemar检定),对其中情感特征不明显的句子进行了删

26、除和重新制作。3.3 语音数据的音节切分对语音数据的音节切分、文本校对、基频标注已经完成。标注结果如下图所示 图3.3 “喜悦”与“悲伤”的语音数据通过对五种情感基频的分析可知,喜悦与愤怒的基频相对其他情感来说较高。 第四章 语音情感的特征参数分析与提取4.1语音信号的预处理由于条件的限制,所录制的语音样本中含有环境噪音、电流声等影响情感识别的因素。通过对语音信号预处理的研究,可以改善语音信号质量,统一语音信号格式,并为后继的语音特征提取和情感识别打好基础。语音信号预处理包括反混叠失真滤波、模/数变换、偏差校正、预加重、去噪处理以及语音信号的平滑处理等许多方法。因为录音是用CoolEidt录制

27、,用16 kHz 采样、16 bit 量化后以WAV 文件格式保存的,所以没有在预处理中没有再进行采样量化。 l、预加重因为发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共振峰的振幅,进行预加重的目的就是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分。广泛使用的预加重网络是个固定的一阶数字系统,信号方程为:y(n)=x(n)-ax(n- l) 0.9<a<1.0 (2.1)其中“为预加重系数,一般为0.95,0.97或0.98。实验a取为0.98。实验表明,预加重可有效地提高系统的性能。2、分帧和加窗由于对语音信号常采用短时分析技术,在语音信号分析之前,首先要对其进行

28、分帧、加窗。分帧的长度一般取2030ms。帧与帧之间的偏移量通常取为帧长的1/2或l/3,即每隔帧长的l/2或l/3进行分帧。分帧后是加窗。通过分帧处理,我们可以将其理解为,将原始语音信号序列x(m)分成一些短段等效于乘以幅度为1的移动窗。当移动幅度不是1而是按一定的函数取值时,所分成的短段语音的各个取样值将受到一定程度的加权。窗函数的选择,对于短时分析参数的特性影响很大,为此应选择合适的窗,使其短时参数更好地反映语音信号的特性变化。在语音信号数字处理中,常用的窗函数是矩形窗和汉明窗等。一般来讲,一个好的窗函数的标准是;在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口两端不引

29、起急剧变化而平滑过渡到零,在频域矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失,而汉明窗则相反。汉明窗比矩形窗更为合适。本系统采用的是汉明窗(Hamming),其公式为: 在分帧、加窗的基础上即可对语音信号进行语音分割和特征提取等处理。3、端点检测语音端点检测是语音分析、语音合成和说话人识别中的一个重要环节。在实际运用中,通常要求首先对系统的输入信号进行判断,准确地找到语音信号的起始点和终止点。这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。在说话人识别中,通常是先根据一定的端点检测算法,对语音信号中的有声段和无声段进行分割,而后再针对有声段,依据语音的某些特征进行识

30、别。语音的端点检测算法包括自动语音端点检测算法和手工语音端点检测算法。在语音端点检测后,要去除能量很小的帧,相当于去除寂静或无声段。4.2语音情感特征的分析情感信息的重要特点就是对所处的条件具有一定的依赖性。研究已经表明各国的语言和民族习惯不同,但语音中表达情感信息的方式是相同的。语音超音段特征,例如时序结构、节奏的基本层次特点、韵律词、韵律短语的特点,在不同情况下的音高,音长,音强的特点和关系等对情感的表达起了重要作用。下面通过通过表1平静和其他10种情感语音的韵律特征参数统计结果分析了语音信号的时间构造、振幅构造、基频构造特征的构造特点和分布规率,同时这也将作为语音情感特征选取的依据。 表

31、1平静和其他10种情感语音的韵律特征参数统计结果MeanF0RangF0VarF0mean EmeanSilmeanDurVarDurMeanv中性219.890.49.034.8314.93428.316936.1 308.8放松238.3144.988.632.6453.03307.8218954.0 368.8温顺269.2166.3310.032.4453.92893.793080.2 305.6惊奇382.4377.32367.640.7216.82278.083622.7 196.5喜悦428.6320.93688.741.3229.42447.6107305.4 212.0轻蔑2

32、34.7272.9373.233.2350.42895.6122243.9 286.4厌恶277.8304.71201.737.2400.12636.992265.5 233.4恐惧405.3205.78932.037.6252.12320.192265.6 210.2悲伤300.8171.73726.632.8875.83278.1420285.8 419.8焦虑406.8302.53650.340.2105.81884.113279.1 161.7愤怒412.0366.53006.340.998.81833.259716.6 151.8注:基频均值(mean F0)、基频范围(rang F

33、0)、基频方差(var F0)、平均能量(mean E),平均停顿(mean Sil),平均时长(mean Dur),说话速率(mean v)时长方差(var Dur) 4.2.1时间构造的分析时间构造分析着眼于不同情感语音的发话时间构造的差别。通过分析比较,可以计算出每一情感语句从开始到结束的持续时间,该时间包括句中的无声部分,而无声部分对情感是有贡献的。然后就情感语句的发话持续时间长度(以下简称为mean Dur)以及平均发话速率(音节/秒)和情感的关系进行了分析比较,结果如表1所示。从表中可以看到,在发话的速率上,除放松和悲伤外的发音速率和平静发音相比加快了,。在被加快的情绪中,愤怒的发

34、音最短,其次是焦虑。放松和悲伤相比,悲伤缓慢很多,而放松只是稍稍放慢。通过进一步的观察可知,这些现象的产生是由于和平静语音相比,在情感语音中一些语素被模糊地发音、拖长或省略掉了的缘故。根据上述分析结果,可以利用情感语音的时间构造很容易地区分悲伤和其他情感信号。当然也可以通过设定某些时间特征阀值,来区分高兴和悲伤的情感信号。至于愤怒和焦虑情感信号,显然仅用时间构造特征不足以进行有效的区分。4.2.2振幅能量构造分析语音信号的振幅特征与各种情感信息具有较强的相关性。在实际生活中也有感觉,当愤怒或者惊奇时,人们的音量往往变大;而当沮丧或悲伤时,讲话声音往往很低。因此,振幅构造特性是情感分析研究中不可

35、或缺的重要特征。振幅构造分析主要针对振幅能量以及动态范围等特征量进行。通过求语音信号每帧的短时能量(mean E),分析其随时间的变化情况。为了避免无声部分和噪音的影响,取短时能量超过某一阀值的振幅的绝对值的平均值。分析结果如表1所示。从中可知,放松,温顺,轻蔑和悲伤等4种情感发音信号和平静发音信号相比振幅变小;相反其他感情和平静相比,振幅将变大。根据振幅能量可以把放松,温顺,轻蔑和悲伤与其他情感区分开来。4.2.3基音构造的分析基音频率(简称F0)是反映情感信息的重要特征之一。为分析情感语音信号基频构造特征,先求出情感语音信号的平滑的基频轨迹曲线,然后分析不同情感信号基频轨迹曲线的变化情况,

36、找出不同的情感的基频构造特征。通过分析可知,不同情感信号轨迹曲基频范围(rang F0)、整个曲线的基频均值(mean F0)以及基频方差(var F0)等特征可以反映情感变化。平静和其他10种情感语音的韵律特征中, 喜悦与愤怒情感的平均基频相对其它情感较高, 中性情感的基频变化范围最小, 而惊奇的基频变化范围最大; 从停顿(mean Sil)来看, 悲伤的停顿最长。4.3基于汉明窗的情感特征参数提取 4.3.1汉明窗简介通常采用长度有限的窗函数来截取语音信号形成分析帧,窗函数w(n)将需处理区域之外的样点置零来获得当前帧。理想窗函数的频率响应要求主瓣无限狭窄并且没有旁瓣(即无频谱泄露),但在

37、实际工程中是无法实现的。汉明窗和矩形窗是语音信号数字处理中最常用的两种窗函数,表达式如下:(其中N为帧长)矩形窗: (4.3.1) 汉明窗: (4.3.2) 它们的时域波形如图4.3.1所示,都是以时间轴N/2为偶对称的。图4.3.1 矩形窗和汉明窗的时域波形 在图4.3.2中给出了矩形窗和汉明窗的频率响应曲线,从图中可以看出,矩形窗的主瓣宽度最小,因此具有较高的频谱分辨率,但是它的旁瓣峰值较大,其频谱泄露比较严重。相对而言,虽然汉明窗主瓣宽度为矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性,能够在较高程度上反映短时信号的频率特性。因此,在本文的研究中采用了汉明窗来提取特征参数。 图

38、4.3.2矩形窗和汉明窗的频率 对于汉明窗函数而言,主瓣宽度与窗长成反比。而窗函数参数的选择(形状和长度),对于短时分析参数的影响很大。为此要选择合适的窗口,使其短时参数更好地反映语音信号的特性变化。设采样周期、窗口长度N和频率分辨率之间存在关系如下: (4.3.3)可见,采样周期一定, 随窗口宽度N的增加而减少,频率分辨率得到提高,但时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,两者是矛盾的。要根据不同需要选择合适的窗口长度。如对于时域分析,如果N很大,则等效于很窄的低通滤波器,信号通过时反映波形细节的高频部分被阻碍,短时能量随时间有急剧的变化,不能得到平滑的能量函数。综合

39、相关研究及试验结果,本文中的汉明窗函数采用的窗长为23.22ms(256点),窗移10ms。这样,语音信号就被己经分割成一帧一帧加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号。在进行处理时,按帧从数据区中取出数据,处理完后再取下一帧,最后得到由每一帧参数组成的语音特征参数的时间序列。4.3.2振幅能量参数的提取由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著。因此对时能量进行分析,可以描述语音的清浊音变化情况。短时能量为一帧采样点值的加权平方和,其定义如: (4.3.4)式中w(n)为汉明窗函数,N为窗长。在这里,窗函数w(n)平方的物理含义是一个冲激响应为的

40、滤波器。先求出语音信号各样本点值的平方,然后样通过滤波器,输出由短时能量构成的时间序列。w(n)的选择影响着短时能量的算。若窗长N过长,这样的窗等效的低通滤波器,对信号的平滑作用太强,使时能量几乎没有变化,无法反映语音的时变特性;反之,若窗长N过小,不能供足够的平滑,语音振幅瞬间变化的细节被保留下来,就看不出振幅包络的变规律。本文采用的窗长,在满足对语音振幅瞬间变化的细节进行有效平滑的前下,保证了短时能量的明显变化。识别时将情感语句短时能量变化率作为特征参数。 语音振幅能量是随时域变化的,如4.3.3所示: 短时能量函数存在的一个主要问题是凡对信号电平值过于敏感。由要计算信号采样值的平方和,在

41、定点实现时很容易溢出。为了解决这一问题,定义了一个平均振幅函数M,来衡量语音幅度的变化,其定义如下: (4.3.5) 上式可理解为w(n)对x(n)的线性滤波运算。与短时能量比较,短时平均振幅用绝对值之和代替了平方和,简化了运算。 由于振幅的瞬间最大值很难屏蔽掉一些干扰导致的突变,那么取得的值将是不准确的。因此,本文选取从发音开始到发音结束之间的平均振幅的最大值作为最大振幅。由于每帧包括了256个数据点,即使在中间出现扰动,也会由求平均值而有效地屏蔽掉扰动导致的振幅突变。识别时将短时平均振幅和有声分最大振幅作为特征参数加以考虑。 第五章 语音情感识别通过前面的工作,完成了语音资料库的建立、信号

42、的预处理,并在此基础上提出了汉明窗提取情感特征的算法。实验表明,提取到的语音情感特征参数基本包含了语音中与情感相关的特征。但对语音情感识别系统而言,仅有特征参数是不够的,还要有相应的语音情感识别模型和算法。语音情感识别过程是根据模式匹配原则,计算待测语音信号与语音情感模板库中每个模板的距离测度,从而得到最佳的匹配模式。通过比较国内外相关研究并结合实验,本文利用支持向量回归算法SVR对每一种感情建立情感特征识别模型。5.1 支持向量回归SVR SVR( Support vector machine) 可用于分类,也可用于回归问题的处理. 与SVR 的不同之处在于;SVM 的目标是寻找一分为二的平

43、面, 所对应的是离散的相关类别; 而SVR 的目标是寻求空间中的最佳平面, 对应的标签则为连续的实数。 SVR 的优点是使用了结构风险最小化的原理,,从而保证了SVR 在有限样本的情况下有较好的预测能力, 这不同于传统意义上的经验风险最小化, 这种回归算法主要是通过升维, 在高维空间中构造决策函数来实现回归,从中寻找最佳的回归超平面,从而使得更多的训练样本能够落在这个超平面的边缘的范围内。 与一般的方法相比, SVR通过引入核函数代替线性方程中的线性项, 使原来的线性算法“非线性化”, 在达到“升维”目的的同时, 也适时控制了拟合过程中的过拟合风险。若假定根据某种概率分布 生成的样本 (1)

44、SVR 希望若输入特征向量 , 输出特征回归值时, 能找到适当的实值函数 来拟训练样本点, 使得 最小, 其中 为损失函数. 实值函数 定义为 (3)其中, > 0 , > 0 ,i=1,2,, 不等于零的项所对应的 是支持向量。表示所采用的点积核函数。一般情况下由于 未知, 不能直接极小化, 因此通过极小化 (3)求解( 2 ) 式中的系数,b 。( 3 ) 式中, 第一项(·) 定义了模型复杂度,第二项表示训练集上的经验损失函数,C 为平衡常数,体现一、二两项之间的折中关系. 其中为不敏感损失函数.引入一对松驰项 和后,( 3 ) 式最小化问题转化为最优化问题 (4)

45、引入Lagrange 乘子 和 后, 根据Wolfe 对偶原理, ( 4 ) 式等价于(5)通过( 5 ) 式得到最优的后, 利用任意训练数据由( 2 ) 式可求得参数, 这样便可对新的输入数据进行预测.PAD介绍 PAD 情感状态模型由UCLA 大学的Mehrabian博士开发。它由三个维度组成: 1. Pleasure-Displeasure: 愉悦度。表示情绪状态的正、负性。 2. Arousal-Nonarousal: 激活度。表示情绪生理激活水平和警觉性。3. Dominance-Submissiveness: 优势度。表示情绪对他人和外界环境的控制力和影响力 与传统的情感描述方法相

46、比,PAD 模型主要有以下特点: 1. 在PAD 情感模型中,每一种情感都可以与PAD 空间的位置相对应。当PAD 得分被标准化以后,可以用唯一的三维坐标表示。表5.1 显示了当每一维被标准化至-1,1区间时,Mehrabian 总结的常见情感状态对应的参考PAD 坐标值。 2. 高置信度的评价。该模型中,PAD 情感坐标的评定通过一套精心设计的量表完成, 经过大量的实验得到的Alpha 内部一致性系数为(0.97,0.89,0.80)。该量表的汉化由中科院心理所完成,适用于评定中国人和汉语中的情感。 3. 三个维度基本独立。统计得到的PAD 三个维度之间的互相关系数为(0.06,0.03,

47、0.03)(p>0.05),而维度间的独立性对于计算性研究是非常有义的:不同情感维度的语音声学表现将更容易分离,模型也可以得到简化。 表5.1 常见情感状态的参考情感坐标情感PAD情感PAD愤怒的-0.510.590.25迷恋的0.870.54-0.18厌倦的-0.65-0.62-0.33困惑的-0.410.48-0.33好奇的0.220.62-0.01困倦的0.20-0.70-0.44威严的0.550.220.61心不在焉的-0.13-0.410.08得意的0.500 .420 .23狂暴的-0.500.620.38饥饿的-0.440 .14-0.21愤怒的-0.510.590.25羞

48、怯的-0.54-0.04-0.41好奇的0.220.62-0.01愤怒的-0.510.590.25迷恋的0.870.54-0.18厌倦的-0.65-0.62-0.33困惑的-0.410.48-0.33好奇的0.220.62-0.01困倦的0.20-0.70-0.445.2 利用SVR建立特别参数识别模型 根据情感语音的参数统计结果, 选取语音情感特征, 建立情感语音的特征参数识别模型. 在分析差异过程中, 选用情感特征来进行测量. 表3 列出了SVR 算法的输入参数和输出参数.输入参数输出参数特征参数F0、E、Dur、SilPAD参数利用SVR算法训练基频均值,能量均值,时长及间隔等特征的识别模型。 本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论