已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人机交互中的语音情感识别一 研究内容及其意义随着信息技术的高速发展和人类对计算机的依赖性不断增强,人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能感知周围的环境和气氛以及对象的态度、情感的内容,自适应地为对话对象提供最舒适的对话环境,尽量消除操作者和机器之间的障碍,已经成为下一代计算机发展的目标。显然,人的大脑所表现出来的心智现象不仅仅体现在“智”的方面,而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上,而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。例如,同样一句话,由于说话人表现的情感不同,在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样利用各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而,情感的变化能够通过语音的特征参数来反映,研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生理上的变化会对语音带来直接的影响,而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外,语音情感识别中所采用的识别方法也会对结果产生影响。目前,关于情感信息处理的研究正处在不断的深入之中,而其中语音信号中的情感信息处理的研究正越来越受到人们的重视,如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如,用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。二 国内外的研究现状语音情感识别是语音信号处理领域崛起的新秀,相关研究至今已有二十余年的研究历史,对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响,这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样,如人的语音信号、脸部表情信号等来识别各种情感1。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别2。2009年4月,日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别,机器人可以做出喜、怒、哀、乐和惊讶的表情等3。在国内,语音情感识别的研究起步较晚。2001年,东南大学赵力等人提出语音信号中的情感识别研究。2003年,北京科技大学的谷学静等人将BDI Agent技术应用与情感机器人的语音识别技术研究中。另外,2003年12月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议。2005年10月又在北京主办了首届国际情感计算及智能交互学术会议。三 采用的研究方法 语音情感识别关注语音中的隐层情感信息,是一门涉及心理学、生理学、信号处理和模式识别等领域的交叉学科,主要任务是通过对语音信号的感知和分析,剥离出情感表达相关的声学特征,进而识别出话者所处的情感状态。整个识别系统中,对情感特征数据的处理能至关重要。通常地,语音情感特征向量少则数十维多则上百维,且随着语料数量的增多,特征数据的数量将变得十分可观。而我们受到所处的三维物理空间的限制,对高维空间中的数据的理解已经十分困难。因此,面对这批数量庞大的高维数据,如何找出相同情感类别的特征数据之间的共性和不同情感类别的特征数据之间的差异变成一项复杂的工程。目前常用的特征处理方法实际上是对传统模式识别手段的沿用(如支持向量机、神经网络、隐马尔可夫模型等),然而由此得到的非特定人语音情感识别性能并不理想。下面从几个方面对语音情感识别的研究方法加以说明。 情感的分类要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。人类的情感是相当复杂的,常见的是喜、怒、哀、乐等目前语音情感识别研究中对于情感的分类没有一个统一的标准,研究者一般针对研究对象而做出不同的分类。目前使用较多的是四种基本情感类型:愤怒、高兴、悲伤、惊奇。在心理学领域被普遍接受的是Robert Plutchik教授提出的八种原型情感模型,八种情感为:恐惧、惊奇、悲伤、厌恶、愤怒、期望、高兴、接受。对于情感的分类,研究者始终没有达成共识。 情感语音库的建立情感语音库是语音情感识别研究的基础,如何建立一个有效的情感语音库对于提高语音情感识别率具有重要影响。语音库的建立大体上分为三种形式第一种数据库来自专业或业余演员的表演,朗读预先准备的句子或段落。由于这种方法操作简单,目前大部分情感语音数据库都是用这种方法获得的。第二种数据库是让录音者置身于一个虚拟场景,从虚拟环境中诱引出语音。第三种数据库来自现实生活,是人们在现实生活中表现出最真实情感的语音,但要用这种方法获得情感语音数据库非常困难。用三种方法获取的数据库其自然度各不相同,文献4通过试验发现,在使用同样特征参数的情况下,用不同方法获得的数据库其情感识别率不同。Batliner等人使用线性判别分析(LDA)法结合韵律特征,对三种不同自然度的情感语音数据库进行了分类试验,结果表明,情感语音的自然度越高,识别率越低。 语音信号的情感特征提取一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明,高兴时,通常是语速较快,音量较大;悲伤时,通常是语速缓慢,音量较小。基音是最常用的判定情感的语音特征,它反映了超音段的信息。在语音情感识别中使用的特征参数有基频(Pitch),其次才是能量(Energy)、语速(Speech Rate)、共振峰频率(Formant)、单个音节的持续时间(Duration)、音节之间的停顿时间(Pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等,以及它们的各种变化形式,如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。基于心理学和韵律学研究的结果,说话者的情感在语音中最直观的表现就是韵律特征和语音质量的变化。因此对语音情感识别的研究普遍从韵律特征和音质特征开始,尤其是韵律特征,被认为是最主要的语音情感特征。下面是采用MFCC参数的具体提取过程。MFCC 系数是基于人耳听觉特性提取的特征参数,对人类听觉系统的研究表明,人耳对不同频率的声音信号的响应是非线性的。不同频率声音形成的波,在沿着耳蜗基底膜传播的过程中,峰值出现在耳蜗基底膜的不同位置,且与声音频率呈对数关系。为模拟人耳的这种非线性特点,提出了各种频率弯折方法,如Bark 度、等效矩形带宽度和Mel 频率尺度,其中Mel 频率尺度是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点,所谓Mel 频率尺度,它的值大体上对应于实际频率的对数关系。其与实际频率的具体关系如下: ( 3-1)其中实际频率f 的单位为Hz。下面是本文进行MFCC 计算的具体过程,用短时分析技术,应用了窗长为21.33ms(256),帧移为10ms 的汉明窗。计算过程如下图3-1 所示:其具体的计算步骤如下:对语音信号用滤波器作高频预加重,然后对其进行分帧,用汉明窗函数(窗长为21.33ms,窗移为10ms)对每帧进行加窗处理,减少吉布斯效应,使原语音信号变为短时信号;用长度为256 的FFT 对加窗后的语音信号由时域信号变为频域信号,并计算出信号的功率谱;根据上式(3-1)将p(f)由在频域轴上的频谱转化为美尔(Mel)坐标上的p(M),其中M 表示Mel 坐标频率。通过一个具有24个滤波器的滤波器组,得到频率在0-4000Hz 之间的能量信号;计算通过各频带的能量并取对数得到;对进行下式的离散余弦变换(DCT)就得到了MFCC系数。 (3-2)为了进一步提高Mel 倒谱特征参数的抗噪性能和改善识别性能,可以将MFCC 和其一阶差分参数、二阶差分参数结合起来组成一组特征矢量进行训练。设定MFCC 的阶数为12,那么其一阶差分的计算公式为: (3-3) 语音持续时间计算每一情感语音从开始到结束的持续时间提取持续时间时应包括无声部分,因为无声部分对情感是有贡献的。 基音频率基音是指物体振动时所发出频率最低的音,利用倒谱法逐帧计算出基音频率,考虑到可能产生检测错误,因此对结果进行中值滤波和线性平滑处理。可以选取平均基音频率,最大基音频率、基音频率的平均变化率等参数用于情感识别 语音信号的能量由于语音信号的能量随时间变化,清音和浊音间的能量差别相当显著,因此对短时能量进行分析,可以描述语音的清浊音变化情况。短时能量定义为: (1)式(l)中,汉明窗函数平方的物理含义是一个冲激响应为的滤波器。首先求出语音信号各样本点值的平方,然后样点通过滤波器输出由短时能量构成的时问序列。采用窗长N=23.22ms(256点),在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化。识别时可以将情感语音短时能量变化率和有声部分平均短时能量作为特征参数。语音信号的振幅信号的振幅特征与各种情感信息具有较强的相关性。短时能量函数存在对信号电平值过于敏感的问题,可通过平均振幅函数来衡量语音幅度的变化,其定义为 (2)式(2)可以理解为窗函数对信号进行了线性滤波运算。与短时能量比较,短时平均振幅用绝对值之和代替了平方和,简化了运算。由于振幅的瞬间最大值很难屏蔽掉一些干扰导致的突变,那么取得的值将是不准确的。因此,可以选取从发音开始到结束之间的平均振幅的最大值作为最大振幅同时提取振幅平均变化率作为参数用于语音情感识别。 共振峰共振峰是反映声道特性的一个重要参数,因为不同情感的发音可能使声道有不同的变化,所以能够预料到不同情感发音的共振峰的位置不同本文首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。可以选取共振峰频率的平均值、共振峰频率的平均变化率、共振峰峰值点回归直线的平均斜率以及共振峰峰值的平均值等作为识别用特征参数。 语音情感识别方法 基于隐马尔可夫模型的识别方法隐马尔可夫模型可用下面三个模型参数来定义,即=(,A,B)。其中A为状态转移概率的集合,B为输出观测值概率的集合,为系统初始状态概率的集合。根据HMM模型,对于一个含有V种情感状态语音,每个情感状态有K个语音样本的待识别语音库进行语音情感识别,要完成以下工作15: 对于每个情感状态V,要建立对应的隐马尔可夫模型v= (,A,B)。四 结论总之五参考文献【1】S Chennonkh。A Gerrits,G Miet,R SlnijterSpeech Enhancement viaFrequency Extension using Spectral FrequencyAProcICASSPCSaltLakeCity,20015【2】陈建厦语音情感识别综述A第一届中国情感计算会议C.北京,2003【3】方恨少日本新型女机器人HRP-4C会说话表情丰富EBOLhttp:/infochinaalibabacomnewsdetailv5000441-d1004571420html2009-3-16【4】Ktlsmef D,Tato R,Kemp T,et a1Towards Real Life Applications in Emotion Recognition:Comparing Different Datab
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园立夏节气主题活动设计
- 大型工程项目招投标流程解读
- 地理课程《中国地形》教学导学案
- 劳务派遣代发工资协议标准范本
- 印度地理概况七年级下册说课稿
- 施工合同重点条款风险提示指南
- 高考英语听力策略解析与训练技巧
- 养老护理员老年心理支持技巧
- 口腔正畸课程实验项目教学设计
- 故事创作技巧及写作模板详解
- 输血病例书写规范
- 物料质保协议书范本
- 2024年系统分析师考试试题及答案全面解析
- 冰雪文化在推动冰雪经济发展中的重要作用
- 2025年维修电工(高级)职业技能鉴定参考试题库(含答案)
- 2025年森林管护员考试题及答案
- 生物技术合成天然香料香精课件
- 平年与闰年(教学设计)-2024-2025学年三年级上册数学沪教版
- 新疆富蕴县可可托海镇二矿沟脉石英矿露天开采设计
- ARDS-急性呼吸窘迫综合征课件
- 2025年人民教育出版社有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论