(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf_第1页
(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf_第2页
(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf_第3页
(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf_第4页
(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)多特征结合的语音情感识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多特征结合的语音情感识别方法研究 ii_ 摘要 语言是现实中人与人之间交流的主要手段,而语音是传递语言的最基本、最直接的 途径。在语音信号中包含说话人要表达的语义信息以及说话人的情感信息,其中,情感 信息在人们的交流中具有重要作用。因此,随着人机交互技术的快速发展,语音信号中 个情感信息越来越受到研究人员的重视。作为语音信号情感信息处理的一个重要研究方 向,语音情感识别是计算机理解人类情感的关键,是实现智能化人机交互的前提。但是, 目前对情感识别的研究还不够深入,在情感语音数据库的建立、情感特征参数的提取、 情感识别方法等诸多方面的研究还没有形成系统的理论。因此,可以说语音情感识别尚 处于初步阶段,还有许多工作要深入下去。 本文首先概述了语音信号情感识别涉及的研究领域及应用,并简单介绍了近几年国 内外语音情感识别的最新研究动态。在此基础上,针对传统的情感特征提取大部分只是 提取反映唤醒度的韵律特征,而没有或很少关注反映愉悦度的音质特征以及反映听觉特 性的m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i e n t s ,m f c c ) 的问题,提出了结 合韵律特征、音质特征和m f c c 特征的参数情感特征提取,并用主成分分析法对提取出 的原始特征进行降维和去冗余处理,最后用支持向量机进行语音情感识别实验,并进行 了分析。论文的主要研究内容和工作包括以下几个方面: ( 1 ) 构建情感语音数据库。本文选取本身不带有情感信息的1 2 句文本,由1 0 名在 校学生分别用不同情感去朗读,录制了带有高兴、愤怒、惊奇和悲伤4 种不同的情感的 语音数据库,为了进一步增强语音库的情感真实性,又搜集了电影的、电视里的四种情 感语句,最终形成了2 4 4 0 句情感语音作为实验数据。 ( 2 ) 情感特征参数的分析与提取。情感的变化通过情感特征参数的差异而体现。本 文分别从韵律特征、音质特征和m f c c 中提取特征参数,韵律特征在声学上通常由基音、 振幅和语速等表示。在声学上,音质特征用共振峰体现和谐波噪声比来体现。本文从语 音的语速、基音频率、振幅能量、共振峰、谐波噪声比和m f c c 等几个方面提取语音情 感特征参数,总共提取出韵律特征参数1 2 个、音质特征参数1 6 个和m f c c 特征参数 1 2 个共4 0 个的原始特征参数。 ( 3 ) 基于主成分分析和支持向量机的语音情感识别实验。语音情感汉别属于模式识 别的一种,是建立在特征参数提取的基础上。本文结合提取出的4 0 个特征参数,经过 主成分分析,使得到的新的特征向量各分量之间具有独立性,去除了特征矢量之间的冗 余,同时也降低了输入的特征矢量的维数,采用支持向量机进行了情感识别,并对采用 不同的特征参数的识别结果进行了比较和分析,验证了音质特征和m f c c 特征的有效 哈尔滨工程大学硕十学位论文 性。 关键词:语音情感识别;支持向量机;韵律特征;音质特征;m f c c 多特征结合的语音情感识别方法研究 a b s t r a c t s p e e c hi so n eo ft h em o s tc o n v e n i e n tm e a n so fc o m m u n i c a t i o nb e t w e e np e o p l ea n d i ti s o n eo ft h ef u n d a m e n t a lm e t h o d so fc o n v e y i n ge m o t i o na sw e l la ss e m a n t i ci n f o r m a t i o n m o r e o v e r ,e m o t i o np l a y sa ni m p o r t a n tr o l ei nc o m m u n i c a t i o n s oe m o t i o ni n f o r m a t i o np r o c e s s i n g i ns p e e c hs i g n a l sh a sg a i n e di n c r e a s i n ga t t e n t i o nd u r i n gt h el a s tf e wy e a r sa st h en e e df o r m a c h i n e st ou n d e r s t a n dh u m a nw e l li nh u m a n - m a c h i n ei n t e r a c t i o nh a sg r o w n b e i n go n eo f t h em o s tb r a n c h so fe m o t i o ni n f o r m a t i o np r o c e s s i n gi ns p e e c h ,e m o t i o nr e c o g n i t i o ni ns p e e c h i st h ef u n d a m e n t a lo ft h en a t u r eh u m a n m a c h i n ec o m m u n i c a t i o n h o w e v e lt h er e s e a r c ho f e m o t i o n a lr e c o g n i t i o ns t i l ln e e d sf u r t h e rs t u d y t h eb u i l d i n go fe m o t i o n a ls p e e c hd a t a b a s e ,t h e s e l e c t i o na n de x t r a c t i o no fe m o t i o n a lc h a r a c t e r i s t i cp a r a m e t e r s ,a n dt h ee m o t i o n a lr e c o g n i t i o n h a v en o tf o r m e ds y s t e m a t i ct h e o r y t h e r e f o r e ,i tc a nb es a i dt h a ts p e e c he m o t i o n a lr e c o g n i t i o n i ss t i l li nt h ep r e l i m i n a r ys t a g e ,a n dm o r ed e e pr e s e a r c hi sn e e d e d i nt h i sw o r k ,w ef i r s t l yo v e r v i e wa p p l i c a t i o nt h er e s e a r c hf i e l di n v o l v e ds p e e c hs i g n a l s e m o t i o nr e c o g n i t i o n ,a n ds i m p l yu n d e r s t a n dt h el a t e s tr e s e a r c hd e v e l o p m e n t so fs p e e c h e m o t i o nr e c o g n i t i o ni nr e c e n ty e a r s a f t e ra n a l y z i n gt h em e t h o d sc u r r e n t l yu s e db yo t h e r s , m o s to ft h et r a d i t i o n a lf e a t u r ee x t r a c t i o ne x t r a c t so n l yp r o s o d i cf e a t u r e sr e f l e c t i n ga r o u s a l d i m e n s i o n ,a n dq u a l i t yf e a t u r e si sn o ta p p l i e d ,p r o p o s e dc o m b i n a t i o no fq u a l i t yf e a t u r e s , m f c ca n dp r o s o d i cf e a t u r e so fe m o t i o n a lf e a t u r ee x t r a c t i o n ,a n du s e sp r i n c i p a lc o m p o n e n t a n a l y s i sf o re x t r a c t e do r i g i n a lf e a t u r e st or e d u c et h ed i m e n s i o na n dr e d u n d a n tp r o c e s s i n g , f i n a l l y , t h es p e e c he m o t i o ni sr e c o g n i z e db ys u p p o r tv e c t o rm a c h i n e s 1 a ne m o t i o n a ls p e e c hd a t a b a s eh a sb e e nb u i l d t h ea r t i c l es e l e c t e d12e m o t i o n a lt e x t ,10 s c h o o ls t u d e n t sw e r eu s e dt or e a d i n gw i t hd i f f e r e n te m o t i o n s ,r e c o r d e d4d i f f e r e n t e m o t i o n a ls p e e c hd a t a b a s ew i t hah a p p y ,a n g e r ,s u r p r i s ea n ds a d n e s s ,s e l e c t e d2 4 4 0t e x ta s t h ee x p e r i m e n t a ld a t a 2 a n a l y s i sa n de x t r a c t i o no fe m o t i o n a l c h a r a c t e r i s t i cp a r a m e t e r s t h ea r t i c l ee x t r a c t e d p a r a m e t e r sf o r mq u a l i t yf e a t u r e s ,p r o s o d i cf e a t u r e sa n dm f c c f e a t u r e sp r o s o d i cf e a t u r e s u s u a l l ya r ec o m p r i s e d o fp i t c h ,a m p l i t u d ea n ds p e e d q u a l i t yf e a t u r e su s u a l l ya r e c o m p r i s e do ff o r m a n t ,h a r m o n i cn o i s e r a t i oa n dm e ls u b b a n de n e r g y t h ea r t i c l e e x t r a c t e d12p r o s o d i cf e a t u r e s ,16q u a l i t yf e a t u r e sa n d12m f c cf e a t u r e s 3 t h er e s e a r c ho ff e a t u r es e l e c t i o na l g o r i t h ma n ds p e e c he m o t i o nr e c o g n i t i o n s p e e c h e m o t i o nr e c o g n i t i o nc a nb ev i e w e da sap a t t e r nr e c o g n i t i o np r o b l e m ,w h i c hi sb u i l to nt h e 哈尔滨工程大学硕士学位论文 b a s i so ff e a t u r ee x t r a c t i o n t h e p a p e rm a d eu s eo f4 0f e a t u r ep a r a m e t e r s ,a d o p tp r i n c i p a l c o m p o n e n ta n a l y s i st or e d u c ed i m e n s i o n ,t h e ne m p l o ys v mt oe m o t i o nr e c o g n i t i o n ,a n d a n a l y z et h er e c o g n i t i o nr e s u l t s ,v e r i f yt h ev a l i d i t yo fv o i c eq u a l i t yf e a t u r e sa n dm f c c f e a t u r e s k e y w o r d s :s p e e c he m o t i o nr e c o g n i t i o n ;s u p p o r tv e c t o rm a c h i n e ;p r o s o d i cf e a t u r e ;v o i c e q u a l i t yf e a t u r e :m f c c 菊1 章绪论 1 1 研究意义 第1 章绪论 近些年,随着计算机智能化的发展,人机交互越来越成为学者关注与研究的重点。 理想中的人机交互是指计算机能根据不同的人、不同的环境、小同的要求下而做出正确 的反应,在此之中,计算机必须感知、识别、理解人类的情感状态,从而根据不同的情 感做出不同的对策,使计算机能够更加适应人类的需要和要求。情感是计算机是否拥有 智能化的重要标志之一,关于情感计算的研究正被广泛深入之中。情感计算的目的就是 要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终使计算机像 人一样能进行自然、亲切和生动的交互,让计算机具有人一样的情感智能。对于情感信 息处理技术的研究包括多个方面,主要有情感特征分析、情感识别( 例如肢体情感识别、 表情识别和语音情感识别等) 和情感模拟( 例如情感语音的合成等) 。在人与人的交流 中,识别他人所处的情感状态是人类情感智能的核心,因此,要使计算机具有情感智能, 首先就必须使它能正确地识别人类的情感。 语言是现实中人与人之间交流的主要手段,而语音是传递语言的最基本、最直接的 途径。在语音信号中包含说话人要表达的语义信息以及说话人的情感信息,其中,情感 信息在人们的交流中具有重要作用,它是人们感知事物的必不可少的信息。智能计算机 对语音的情感识别能力是情感识别中的重点,同时也是智能计算机能以自然方式参与人 类智能活动的最有效方法。因此,语音情感信息的研究,即分析语音中的情感特征,判 断说话人的喜怒哀乐是一个具有重大意义的研究课题。 1 2 语音情感识别涉及的研究领域及应用 语音情感识别是一个综合性交叉领域的研究热点,涉及的领域具体包括:信号处理、 心里学研究、虚拟现实技术、新型人机交互技术、模式识别、信息论、人工智能等。它 同传统的信息处理技术不同,不是认识和理解语音信号中表征的表层信息,而是用机器 来实现理解和认识语音信号的感性意义。 语音情感识别有着非常广泛的应用前景,它不仅仅可以应用于入机交互系统,还可 以用于语音识别,提高语音识别的鲁棒性;可以将其用于自动远程手机或电话服务中心, 及时发现客户的不满情绪;也可以用于婴儿教育和远程教学,及时识别婴儿或学生的情 哈尔滨t 程大学硕士学位论文 绪并做出适当的处理;还可用于精神诊断,帮助医生判断说话人的心理特征、诊断疾病; 可以用于辅助测谎,有些人可能会隐藏自己的真实情感,使人很难辨别真想,计算机可 以通过语音情感识别判断说话人是否在说谎。自动语音情感识别的研究,不但可以推动 计算机技术的进一步发展,同时也将进一步丰富人类的生活,提高人们的生活质量。 1 3 语音情感识别的关键技术问题 语音情感识别的过程主要有以下几个重点:情感的分类、建立情感语音数据库、选 择语音隋感特征参数和情感识别模型的构建。下面分别讨论这几个方面的研究现状。 1 3 1 情感分类 要研究语音信号中的情感信息,首先需要根据某些特性标准对语音情感做一个有效 合理的分类,然后再在不同分类的基础上进行后续的工作。目前对于情感分类的研究, 大部分采用高兴、悲伤、惊奇和愤怒四种基本情感的分类模式,部分研究者在其中增加 害怕与厌恶的情感。然而,人类的情感是丰富的,很难确定其分类,所以如何能更好的 描述情感还有待于今后进一步的研究。 1 3 2 情感语音数据库 研究语音的情感,必须有一个合适的情感语音数据库,到目前为止,还没有一个被 广泛使用的情感语音库,不同研究者所使用的情感语音数据库存在许多差异。在这方面, 英语、德语,日语等已经有了较好的发展。在我国,中国语言资源联盟( c h i n e s e l d c ) 经完成了一套c a s i a 汉语情感语料库,其中包括四个专业发音人的愤怒、恐惧、高兴、 悲伤、惊奇和平静六种情绪的共9 6 0 0 句;另外清华大学、北京航空航天大学也进行了 相关工作,但是这些语音库中发音人数量过少,而且由于我国自身多民族、多方言的特 点,在借鉴国外研究成果基础上,还需结合我国的实际情况,研究出符合汉语特点的情 感语音库。 1 3 3 语音情感特征参数 要得到较好的语音情感识别效果,必须准确选取语音情感特征参数。在过去的几十 年,针对语音信号中的何种特征能有效的体现情感,学者们作了大量的研究。由于人对 语音的感知是非常多样化,全面考虑语音的情感特征是一个非常困难的工作。 目前的研究中,采用的情感特征各不相同,但总是局限于一个较小的范畴,大部分 2 第1 章绪沦 研究者使用的都是韵律特征参数,它之所以这么受重视除了其本身的情感表现比较明显 之外,还有一个原因是因为最初对语音情感的研究常常侧重于情感语音的合成,对于合 成只要找到一种情感表现的特例就足够了,而通过修改语音的韵律特征就可以产生各种 不同情感效果【l 】。但情感的识别却要尽可能考虑到一种情感的各种不同表现方式才4 i 会 导致错误的识别,另外由于个体差异和背景文化差异,说话人的情感并不都是通过韵律 特征来表现。因此,到底何种特征能够较好的反应情感的信息还没有一个明确的结论, 关于这些特征以及这些特征的衍生特征的有效性评价也和情感识别在同步研究进行之 中。 1 3 4 语音情感识别模型 不同的情感识别模型,对不同的情感特征参数有不同的效果。语音情感识别的内在 还是模式识别问题。近些年,几乎所有的模式识别方法都被应用到语音情感识别中。目 前常用的方法有高斯混合模型( g m m ) 【引、人工神经网络( a n n ) 【3 1 和隐马尔科夫模型 ( h m m ) t 4 】等等。 1 高斯混合模型 高斯混合模型【5 1 可以看作是只有一种状态,在这个状态里具有多个高斯分布函数。 个高斯概率密度函数加权求和即可得到一个阶高斯混合模型的概率密度函数。 最= 嵋z ( y ) ( 1 1 ) i = l 式中厂是一个高斯分布函数,不同高斯分布之间的加权系数w 满足条件: , 咩=1(1-2) j = l 在训练时首先利用矢量量化抽取各类情感中有效主元矢量集的码本,并对每个码字 求出相应的方差,这样每个码字和相应的方差就可以组成一个高斯分布函数。在识别时, 对某个语音情感主元特征矢量y 来求取它相对于每个情感类别的概率值,概率最大的即 为识别结果。 g m m 是可以平滑地逼近任意形状的概率密度函数,每个密度分布可以表示出基本 的声学类别,并且模型稳定、参数容易处理:但g m m 阶数和初值比较难以确定,特别 是阶数很难从理论上推导出来,通常根据实际的语音样本由实验确定。 2 人工神经网络 神经网络是一种具有大量链接的分布式处理器,具有通过学习获得知识并解决问题 的能力。对于情感识别问题,首先对每一个情感构造一个网络。这种类型的网络叫做 哈尔滨t 程大学硕十学位沦文 i l l! o c o n 。将提取出的特征矢量输入到每个子神经网络并行结构,每个子网络采用三层神 经元的m l p 结构,输出为一个界于0 到1 之间的数值,表示输入的参数矢量可能属于 某种情感的似然程度。 不同情感网络具有相同的结构,仅仅在权值上有所不同。利用这个函数对网络中各 个节点的权值,使每个子网络逼近于实际的情感概率模型。在识别时,把获取的特征参 数输入到不同的情感子网络中,对各个情感网络的结果进行判决来选择似然程度最大的 情感作为识别结果。 神经网络主要特点有: ( 1 ) 自适应和自学习能力。 ( 2 ) 具有对大量定性或定量信息的分布储存能力,并行处理与合成能力。 ( 3 ) 具有很强的鲁棒性和容错能力。 同样由于神经网络的自学习功能非常强大,导致其复杂度和计算量较高,从而随着 网络的增大,训练的时间会增加地很快。 3 隐马尔可夫模型 隐马尔可大模型是语音处理领域公认的热点统计模型。自b a u m 等人【6 】提出模型的 相关理论基础以来,它先后在语音识别【7 1 、说话人确认1 8 1 、语音情感识别 9 , 1 0 l 上取得了巨 大的成功。 隐马尔可夫模型是一个时间和状态离散,并隐含未知参数的马尔可夫过程。这个过 程的将来状态仅仅依赖于现在的状态而不依赖于过去的状态。而且模型的状态序列本身 是隐藏的,无法直接被外界观测到。但是,每个状态下都有输出观测事件的概率分布, 外界可见的是各个时刻输出的观测事件。通过研究可见的观测事件序列,能够发掘状态 序列的隐藏信息。 一个隐马尔可夫模型通常由五元组名= ,m ,死么,b ) ,其中,是模型中状态 s = s ,& ,s u ) 的总个数;肘表示不同的观测事件数目;刀= 乃) 则是起始状态的概 率分布。f f i i a = a ,= p q j + = s j q j = s ) ,l i ,_ ,是状态转移矩阵,每个元素代表 从吼时刻的s 状态跳转到下一时刻q 川的s ,状态的概率,每个时刻的状态只和前一个状 态有关;而每个时刻的输出观测事件只和该时刻所处的状态有关,但每个状态下,都会 有各自的观测事件唯的输出概率,其概率分布为 b = e ( 尼) ) ,1 j n ,1 k m( 1 3 ) 吃( 后) = 尸 ki 吼= 墨) ,l ,1 七m 4 ( 1 - 4 ) 第1 章绪沦 给定上述参数,隐马尔可大模型就可以唯一确定。而如何确定这些参数是本文需要 解决的问题,这就涉及隐马尔可夫模型的三个经典问题f l l 】: ( 1 ) 估计问题 给定模型参数五= ,m ,7 ,a ,b ) 和观测序列d = o l ,d :,0 ,) ,快速求解该模型下 的观测事件序列发生的概率p ( d i 彳) ; ( 2 ) 解码问题 给定模型参数五= ,m ,z , a ,b ) 和观测序列d = d ,0 2 ,0 r ) ,找出一个对应的状 态序列q - q ,q 2 ,q ,) ,使其能最合理地解释观测序列0 ; ( 3 ) 学习问题 调整估计模型见- - n ,m ,万,a ,b ) 中的五个参数。 隐马尔可夫模型的这三个问题分别由前向后向算法、v i t e r b i 算法、b a u m w e l c h 算 法来解决。采用隐马尔可犬模型对语音进行情感识别,是把语音的时序特征和状态转移 模型联系起来,而不是孤立地利用这些时序特征,它的正确性在于把情感的变化看作是 语音时序特征动态变化,不同的情感可以由不同的隐马尔可大模型来表现。基于隐马尔 可夫模型的语音情感识别扩展性非常好,增加的样本只需训练新样本而不需要对所有的 样本进行重新训练;缺点是模型结构参数的选择仍然与待处理的语音数据有关,需要由 实验确定,并n 矽i i 练时的计算量比较大。 1 4国内外语音情感识别技术的研究现状 语音情感识别,就是通过分析人们语音在情感方面的变化规律,利用计算机从语音 信号中准确提取语音情感特征参数,并根据这些参数确定被测对象的情感状态。相对于 有几十年研究历史的语音识别,语音情感识别着眼点不是语音信号处理中语音伺候表达 的准确性,而是从前研究中完全忽略的包含在语音信号中的情感和情绪信息。 从心里学和生理学上对情感的研究已有较长的历史,但从工程学角度将情感作为信 息信号工学的研究对象的时间则很短。本节将给出语音情感识别的国内外的最新研究动 态。 1 4 1国外相关技术的研究 ( 1 ) 英国贝尔法斯特的女王大学情感语音组 由贝尔法斯特女王大学的r o d d yc o w i e 和e l l e nd o u g l a s c o w i e 教授领导的情感语音 小组研究的重点在于心里学和语音分析,他们在情感识别及情感感知界面方面做了大量 哈尔滨t 程大学硕十学位论文 工作。他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一 个f e e l t r a c e 工具2 j 用来记录人类从语音中感知到的情感信息。他们还开发了一个情 感语音分析的a s s e s s 工具【1 3 , 1 4 1 ,用统计的方泫分析语音的声学特征与情感的相关性, 并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴 和悲伤4 类主要情感进行了分类,用判别分析的方法达到了5 5 的识别率。 ( 2 ) 美国m i t 媒体实验室情感计算研究所 由m i t 媒体实验室r o s a l i n dwp i c a r d 教授领导的情感计算小组是世界上第一个大 规模研究情感及其计算的科研机构。c a h n 1 5 】在那里开发了第一个情感语音合成系统 “e f f e c te d i t o r ”,首次尝试用基频、时长、音质和清晰度等声学参数的变化来合成情感 语音。“e f f e c te d i t o r 的诞生首次描述了声学参数与情感状态的关系,为语音情感识别 的声学特征选择打下了基础。r a u lf e r n a n d e z 1 6 】通过对司机驾车时语音的重音分析来评 估其感知负荷,从而有效提高车辆行驶安全并通过对语音韵律学特征参数的分析,完成 了关于语音信号情感识别的计算模型研究。他以t e a g e r 能量算子为情感特征,用h m m 进行语音情感识别,识别率为6 1 2 。 ( 3 ) 美国南加州大学语音情感组 南加州大学语音情感组由n a r n y a n a n 教授领导。在语音情感识别方面,他们以客服 系统的呼叫中心为应用背景,研究识别正面情感和负面情感。首次将语音的声学信息、 词汇和语义信息结合,并将模糊推论系统用于识别系统n ”,初步试验结果表明,结合这 三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了3 8 5 。 ( 4 ) 以色列n e m e s y s c o 公司 以色列n e m e s y s c o 公司n 踟将语音情感识别技术成功应用于实际生活,他们主要研究 分层声音分析技术( l 、,a ) ,通过对说话人语音中的各式重音、感知过程和情感反应的 分析,组成标识该说话人惟一的情感签名。由该技术产生的g k l 产品已经用在机场安 全检查中。 ( 5 ) 日本s g i 研究所 s g i 研究所研究语音情感的感知和识别,其开发的k o t o h a n a 1 9 】能够根据语音的 重音和声调识别说话人的情感,并将识别结果通过l e d 显示出来:黄色表示高兴,蓝 色表示悲伤,绿色表示平静,红色表示兴奋。 1 4 2国内相关技术的研究 语音与其它情感的载体不同,它作为语言的载体具有地域和文化的差异,不同语种, 甚至同语种不同地域之间情感表达的声学特征是不尽相同的。英语等西方语系是重音语 6 第1 章绪沦 言,它们以重音来区分语义;普通话作为声调语言,它与英语等西方语系有着很大的差 异,因此西方语系的语音隋感识别研究成果彳i 能全盘适用于普通话语音的情感研究。目 前,国内相关科研院所也相继开展了普通话情感语音识别的研究工作,具有代表性的机 构有: ( 1 ) 东南大学无线电工程系 东南大学无线电工程系赵力乜叫教授的实验小组在国内率先开展了普通话语音情感 识别的研究。他们分析了不同情感的语音在时间构造,能量构造,基音构造,共振峰构 造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分 分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约8 0 的 识别率。 ( 2 ) 清华大学计算机科学与技术系 由清华大学计算机科学与技术系的蔡莲红乜门教授领导的人机语言交互实验室也开 展了普通话语音情感识别研究。蒋丹宁通过特征的区别特性分析和分类实验,研究了韵 律特征在普通话语音情感识别中的作用。将韵律特征分解为纯语音的特征和纯情感的特 征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到甲均8 2 4 的识别率。 ( 3 ) 模式识别国家重点实验室 模式识别国家重点实验室,以陶建华矧博士为主的研究小组较早致力于普通话情感 语音的研究。在普通话语音情感识别方面,陶建华分析了情感语音在基音、时长、能量 等方面的特点,并用加权延时神经网络对1 2 个特征根据其各自的识别效果进行了排序, 从而提取有效的情感特征用于语音情感识别。 ( 4 ) 台湾大同大学资讯工程学系 台湾大同大学资讯工程学系的包苍龙瞳3 1 教授领导的数据通讯与信号处理实验室也 较早地致力于普通话语音情感识别的研究。他们构建一个包含愤怒、高兴、悲伤、厌烦 和中性五个情感类别,约8 0 0 句情感语音的普通话情感语音数据库。在语音情感识别中, 提取1 6 个l p c 参数,1 2 个l p c c 参数,1 6 个l f p c 参数,1 6 个p l p 参数,2 0 个m f c c 参数组成向量,作为识别特征,用l d a ,k n n 和h m m 分类器对说话人无关和说话人 相关两组语音素材做识别,得到最高8 8 7 的识别率。 1 5 本文主要的研究内容和组织结构 本文在广泛阅读国内外现有的关于语音信号处理和语音情感识别技术的文献后,比 较和借鉴现有成功的语音情感识别方法,针对传统的情感特征提取大部分只是提取反映 哈尔滨工程大学硕士学位论文 唤醒度的韵律特征,而没有关注反映愉悦度的音质特征的问题,提出了结合音质特征和 韵律特征的情感特征提取,并用主成分分析法对提取出的原始特征进行降维和去冗余处 理,最后用s v m 进行语音情感识别。论文的主要研究内容和工作包括以下几个方面: ( 1 ) 语音情感分类及语音数据库的建立 要研究如何从语音中识别情感,首先必须有情感理论作为基础,在心理学领域,对 情感的研究已经有很长的历史,但到目前为止,还没有一个统一定义的情感理论模型。 目前有两种最活跃的理论情感模型,一种是空间情感模型,另一种是离散情感模型,本 文利用离散情感模型把研究的目标投向了四种“基本睛感( 高兴、愤怒、悲伤和惊奇) , 并在此基础上建立合适的情感语音库。 本文选取本身小带有情感信息的1 2 句文本,由l o 名在校学生分别用不同情感去朗 读,录制了带有高兴、愤怒、惊奇和悲伤4 种不同的情感的语音数据库,经过听取实验 选取其中情感表达较好的1 4 4 0 句情感语音作为实验数据。 ( 2 ) 语音信号的预处理 由于条件的限制,所录制的语音样本中含有影响情感识别的因素。通过预处理的研 究,可以改善语音信号质量,统一语音信号格式,并为后继的语音特征提取和情感识别 打好基础。 ( 3 ) 情感特征参数的分析与提取 情感的变化通过情感特征参数的差异而体现。本文分别从韵律特征、音质特征和 m f c c 特征中提取特征参数。韵律特征在声学上通常由基音、振i 幅和语速等表示。在声 学上,音质特征常用共振峰和谐波噪声比来体现。本文从语音的语速、基音频率、振幅 能量、共振峰、谐波噪声比和m f c c 等几个方面提取语音情感特征参数。共提取出韵律 特征参数1 2 个、音质特征参数1 6 个和m f c c 特征参数1 2 个共4 0 个的原始特征参数。 ( 4 ) 语音情感特征的选择算法 由于语音情感特征参数较多,将所有特征用于语音情感识别存在无关特征和冗余特 征,不能达到很好的识别效果。因此本文对输入的数据做了主成分分析。经过主成分分 析,使得到的新的特征向量各分量之间具有独立性,即去除了特征矢量之间的相关性, 也就是除了特征矢量之间的冗余,这样能有效的提高分类性能。 ( 5 ) 语音情感识别研究 语音情感识别属于模式识别的一种,是建立在特征参数提取的基础上。结合提取出 的4 0 个特征参数和经过主成分分析后的特征参数,采用s v m 进行了情感识别,并对采 用不同的特征参数的识别结果进行了比较和分析。 论文的章节安排如下: 第l 章简要介绍了语音信号情感识别的意义、研究领域、应用及研究现状。 8 第1 章绪论 第2 章介绍了语音情感的分类、建立了情感数据库,并对录制的语音信号进行了 预处理,为后续研究工作奠定了实验基础。 第3 章分析和介绍了韵律特征、音质特征和m f c c ,并提取了1 2 个的韵律特征参 数、1 6 个的音质特征参数与1 2 个m f c c 特征参数。 第4 章分析了主成分分析与支持向量机的原理,给出了基于主成分分析的特征提 取和基于支持向量机的分类,最后给出了实验结果及分析。 最后,总结所做工作并对今后工作做了展望。 9 哈尔滨t 程大学硕七学位论文 第2 章情感的分类、情感语音库和语音信号处理 2 1 情感的定义 情感,第一种意思是代表实体,即有明确边界的、能计数的自然单位。通常说害怕、 生气是两种情感。第二种意思是代表一定状态的某种属性,如当某人的声音受到情感影 响时。心里学和生理学上所研究的情感强调的是第一种意思,它在全部可能的感觉中寻 找应该被称为情感的离散状态,并对这些状态及表述出的一些范围进行命名。 已经有许多西方学者就情感的准确定义展开了讨论。o a t l a y 和j e n k i n s 认为情感是 人与人之间相互交流的信息,由思想和外部事件引起的行为、生理变化和主观体验组成。 在文献1 2 4 , 2 5 中总结了1 0 0 多位学者对于情感的定义。这些定义通常是复杂的、难以理解 的,这也从一个侧面反映给出情感准确定义的难度。 情感不仅是一个主观概念,同时也受社会文化等因素的影响,很难给出一个普遍而 准确的情感定义。但是,在大多数场合,不同人之间确实存在着一些确定的、具有一致 性的情感表现,例如当取得成功时,人们都会表现出高兴;而当有亲人去世时,人们都 会表现出悲伤。因此,研究人员的目光己经逐渐从关注纷繁的情感定义逐渐转向研究情 感的表示方法和人类对于情感的认知方面。 2 2 情感的分类 要研究语音信号的情感,首先要对情感进行一个有效合理的分类,而不同的历史时 期,不同的研究人员对基本情感的定义不尽相同。 根据情感的纯度和原始度,情感可分为两大类,即:主要情感( 原始情感) 和次要 情感( 派生情感) 嘶卫训。主要情感是所有社会化的哺乳动物( 人类、猫、狗、猴子等) 共有的,有特殊的表现( 面部表情、行为趋势、生理模式) 。但对于主要情感的种类, 研究者始终没有达成共识。表2 1 描述了一些研究者对于主要情感的定义与划分。 从表2 1 可以看出大部分学者认为主要情感包括:害怕( f e a r ) ,愤怒( a n g e r ) ,高 兴( j o y ) ,悲伤( s a d n e s s ) 和厌恶( d i s g u s t ) 。从这些种类的情感来看,主要情感的特点 表现为它是所有人类文化和所有具有社会性的哺乳动物所共有的,而且它的产生都会伴 随着一些特殊的表现,比如日常常常通过面部表情来区分人类的主要情感。主要情感来 自于进化的需要,比如,害怕是警告同类有危险出现。 次要睛感由主要情感变化或混合得到,就像色彩混合原理一样,情感的生成理论也 叫情感的调色板理论啪3 。这类情感包括自豪( 高兴的一种变化) ,感激( 高兴的一种派 1 0 第2 章情感的分类、情感语音库和诱哥信口处师 生表现形式) ,悲痛,惊奇等等 表2 1 主要情感表( o r t o n y & t u r m e ri n1 9 9 0 ) 研究者主要情感 a m o l d e k m a n ,f r i e s e na n de l l s w o r t h f r i d j a g r a y i z a r d j a m e s m c d o u g a l l m o w e r o a t l e ya n dj o h n s o n l a i r d p a n k s e p p p l u t c h i l k t o m k i n s w a t s o n w e i n e ra n dg r a h a m a n g e r a v e r s i o n ,c o u r a g e ,d e j e c t i o n ,d e s i r e ,d e s p a i r , f e a r , h a t e ,l o v e , s a d h e s s a n g e ;d i s g u s t , f e 虬l o v e ,s a d n e s s ,s u r p r i s e d e s i r e ,h a p p i n e s s ,i n t e r e s t ,s u r p r i s e ,w o n d e r , s o r r o w r a g ea n dt e r r o r , a n x i e t y , j o y a n g e r ,c o n t e m p t , d i s g u s t ,d i s t r e s s ,f e a r , g u i l t ,i n t e r e s t , j o y , s h a m e ,s u r p r i s e f e a r , g r i e f , l o v e ,r a g e a n g e ;d i s g u s t , e l a t i o n ,f e a r , s u b j e c t i o n ,t e n d e 卜e m o t i o n ,w o n d e r p a i n , p l e a s u r e a n g e r , d i s g u s t ,a n x i e t y , h a p p i n e s s ,s a d n e s s e x p e c t a n c y , f e a r , r a g e ,p a n i c a c c e p t a n c e ,a n g e r , a n t i c i p a t i o n ,d i s g u s t ,j o y , f e a r , s a d n e s s ,s u r p r i s e a n g e r ,i n t e r e s t ,c o n t e m p t ,d i s g u s t ,d i s t r e s s ,f e a r , j o y ,s h a m e ,s u r p r i s e f e a r , l o v e ,r a g e h a p p i n e s s ,s a d n e s s 1 9 7 0 年,p l u t c h i k 提出了情感的立体模型,如图2 1 所示。该模型由八个橘瓣体组 成,其中每个橘瓣体代表一类基本情感,如悲伤、哀伤和忧郁就属于同一类情感。在这 八类情感中,各种最强烈的情感位于橘瓣体的上部;越往下走情感强度就越弱。如,憎 恨比厌恶强,厌恶比厌烦强。该模型还反映了各种情感在性质上的关系:互为对顶角的 橘瓣体所对应的情感性质正好相反,如悲伤和狂喜;而空间上邻近的橘瓣体所对应的情 感性质相似,如恐惧和惊奇。 和将情感标识为离散的情感类别不同,另有一些学者尝试用连续的维度来表示情 感,现在应用最广泛的是唤醒度一愉悦度一控制度( v a l e n c e a r o u s a l p o w e r ) 三维情感模 型。唤醒度是指与情感状态联系的机体能量的激活程度,这个维度所表现的是单体对于 各种活动的参与程度,例如,活跃或沉默,兴奋或冷淡。愉悦度表示情感的积极或消极 的程度,喜哀程度。控制度是指主体对情感状态的主观控制程度,用以区分情感状态是 由主体主观发出的还是受客观环境被动影响的。 哈尔滨工程大学硕士学位论文 图2 1 情感的立体模型 但在目前的语音情感识别的研究中,使用的最多的还是离散情感模型,人们常采用 几种最摹本的情感,比如高兴、悲伤、愤怒、惊奇等进行研究,缩小研究的情感类别, 以提高识别的准确率。 通过对国内外研究状况的了解,并结合自己对语音情感状态的理解和分析,在研究 中,本文将情感类型分为高兴、愤怒、惊奇和悲伤四类,并尽可能地将所有情感纳入这 四种情感状态之中。 2 3 情感语音库的建立 情感语音是情感建模、语音情感合成和语音情感识别的基础,只有建立大规模、高 真实感的情感语音数据库,才有可能从事上述各项研究。情感语音数据库为情感语音分 析和建模提供大量的分析数据;为情感语音合成提供建模基础和合成语料:为语音情感 识别提供训练及测试用语音。 但是到目前为止,还没有一个为大家所广泛使用的情感语音库。不同的研究者使用 的数据库存在许多差异。根据各类文献的报道,至今己有英语、德语、日语、荷兰语、 西班牙语、丹麦语、瑞典语、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论