(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf_第1页
(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf_第2页
(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf_第3页
(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf_第4页
(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于多重分形的语音情感识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

s p e e c he m o t i o nr e c o g n i t i o nb a s e do nm u l t i f r a c t a l b y z h a n g m i - x i a b e ( c h a n g s h au n i v e r s i t yo fs c i e n c e t e c h n o l o g y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro f e n g i n e e r i n g l n c o m p u t e ra p p l i c a t i o nt e c h n o l o g y l n c h a n g s h au n i v e r s i t yo fs c i e n c e & t e c h n o l o g y s u p e r v i s o r p r o f e s s o ry ej i x i a n g m a r c h ,2 0 1 1 67删0删4 88 iii 咖y 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承 担。 作者签名:动欠喂,智一 日期:p ,f 年上月岁7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“) 作者签名: 狱絮r 钇 导师虢叶锄¥ 日期:) 口- 1 年j 月;7 日 日期:幽f 年f 月亏1 日 摘要 随着科学技术的快速发展,新型的人机交互( h u m a nm a c h i n ei n t e r a c t i o n h m i ) 技术逐渐成为当前计算机科学领域的研究热点。语音情感识别的研究对于 增强计算机的人性化和智能化,建立新型人机交互环境等具有重要的现实意义, 并将产生很好的经济和社会效益。 本文首先简述了课题的研究背景及文中的主要研究内容,回顾并分析了现阶 段国内外语音情感识别中涉及的几个关键技术,包括情感的分类、情感语料库的 建立、语音情感特征提取以及情感分类算法等。在此基础上,采用多重分形理论 分析语音信号在高兴、生气、悲伤和平静4 种不同情感状态下的混沌特性,进而 提取了多重分形谱特征和广义h u r s t 指数作为新的情感特征参数参加语音情感识 别。具体内容如下: ( 1 ) 基于柏林实验室的德语语料库e m o d b ,观察并分析了在高兴、生气、 悲伤和平静四种情感状态下,语音信号的基频、能量振幅、过零率、共振峰以及 m e l 倒谱系数m f c c 等特征的变化规律。 ( 2 ) 提出了基于多重分形的语音情感特征参数的提取方法。介于传统情感 语音特征缺乏对语音混沌特性的表征,采用多重分形理论通过分析不同语音情感 状态下的多重分形特征,提取多重分形谱参数和广义h u r s t 指数作为新的语音情 感特征参数。多重分形特征的引入,弥补了传统线性特征在刻画不同情感类型特 征上的不足。 ( 3 ) 根据多重分形对将强度较高的情感( 高兴和生气) 与强度较低的情感 ( 悲伤和平静) 有良好区分度的特性,通过建立s v m 二叉树的中间节点,实现 对情感类别间的粗分类,保证了将容易混淆的情感类别划归为一组,以便深入分 析不同情感状态之间的细微差别。进而采用贡献最大的特征矢量对中间节点上的 每组情感再进行分类,其贡献值的确定由经验而得。最后,实现了较为理想的基 于经验性特征的s v m 二叉树语音情感识别。 关键词:语音情感识别;语音情感特征;多重分形;广义h u r s t 指数 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , t h et e c h n o l o g yo fn e w h u m a nm a c h i n ei n t e r a c t i o n ( h m i ) h a sb e c o m eav e r ya c t i v es t u d ys u b je c ti nt h e c o m p u t e rs c i e n c ef i e l da tp r e s e n t t h es t u d yo ft h es p e e c he m o t i o nr e c o g n i t i o nh a s f o u n di m p o r t a n tr e a l i s t i cv a l u ei ns u c ha s p e c t sa se n h a n c i n gt h ei n t e l l i g e n c ea n d h u m a n i t yo fc o m p u t e r ,d e v e l o p i n gn e wh u m a n - m a c h i n ee n v i r o n m e n t ,a n dw i l l p r o d u c eg o o de c o n o m i ca n ds o c i a lb e n e f i t s t h et h e s i s f i r s t l y i n t r o d u c e st h e s t u d yb a c k g r o u n d o fs p e e c he m o t i o n r e c o g n i t i o na n dt h em a i nr e s e a r c hc o n t e n t ,t h e nc a l ls o m ek e yi s s u e si nt h ec u r r e n t s t u d i e so fs p e e c he m o t i o nr e c o g n i t i o n ,i n c l u d i n gt h eo v e r v i e wo fe m o t i o n a lc o r p u s , t h ek i n d so f e m o t i o n a l s t a s e s ,f e a t u r e se x t r a c t i o no fs p e e c he m o t i o ns i g n a l s , e m o t i o n a lf e a t u r es e l e c t i o na n dc l a s s i f i c a t i o n a l g o r i t h m s a f t e ra n a l y z i n g t h e m e t h o d sc u r r e n t l yu s e db yo t h e r s ,w ef i r s t l yt a k et h em u l t i f r a c t a lt h e o r yi n t ot h e s p e e c he m o t i o n a lr e c o g n i t i o n ,b ya n a l y z i n gt h em u l t i p l ef r a c t a lf e a t u r e so nt h ef o u r o fs p e e c he m o t i o n a l ( h a p p i n e s s 、a n g e r 、s a d n e s sa n dn e u t r a l ) ,a n dp r o p o s e d m u l t i f r a c t a l s p e c t r u mp a r a m e t e r s a n dg e n e r a l i z e dh u r s t i n d e xa sn e we m o t i o n a l c o n v e n t i o n a lp a r a m e t e r sf o rs p e e c he m o t i o nr e c o g n i t i o n t h ec o n t e s t sa r ed e s c r i b e d a sf o l l o w s : ( 1 ) b a s e do nt h eb e r l i nl a b o r a t o r yg e r m a nc o r p u se m o d b ,w eo b s e r v ea n d a n a l y z et h a ts p e e c he m o t i o n sw e r ew e l le x p r e s s e df o ro u ra n a l y s i sa n de x p e r i m e n t s t h e nt h r o u g h ,w es e l e c t e da n dd e f i n e dt h ef e a t u r e s ( p i t h ,r e s o n a n c e ,e n e r g y ,m f c c , e t c ) w h i c ha r et h em o s ti m p o r t a n ti nd i s t i n g u i s h i n ge m o t i o n s ( 2 ) i no r d e rt oo v e r c o m et h ei n a d e q u a t eo fe m o t i o n a lc o n v e n t i o n a ll i n e a r a r g u m e n ta td e p i c t i n gd i f f e r e n tt y p e so fc h a r a c t e rs e n t i m e n t s ,w et a k et h em u l t i p l e f r a c t a l st h e o r yi n t ot h es p e e c he m o t i o n a lr e c o g n i t i o n ,b ya n a l y z i n gt h em u l t i p l ef r a c t a l f e a t u r e so nt h ed if f e r e n t s p e e c h e m o t i o n a ls t a t e ,a n d p r o p o s e d m u l t i f r a c t a ls p e c t r u m p a r a m e t e r sa n dg e n e r a l i z e dh u r s ti n d e x i tp r o v i d e san e wi d e af o rs p e e c he m o t i o nr e c o g n i t i o n b yu s i n gn o n - l i n e a rp a r a m e t e r s ( 3 ) ar o u g hc l a s s i f i c a t i o ni st a k e na c c o r d i n gt ot h eg o o dd i s c r i m i n a t i o nb e t w e e n h i g hi n t e n s ee m o t i o n ( h a p p ya n da n g e r ) a n dl o wi n t e n s ee m o t i o n ( s a d n e s sa n d n e u t r a l ) o fm u l t i f r a c t a l ,t oe n s u r ee m o t i o n st h a ta r ee a s i l yc o n f u s e da r eg r o u p e da n d t of u r t h e rd e t a i lt h en u a n c ea m o n gt h e m t h er o u g hc l a s s i f i c a t i o nc r e a t e sb i n a r y i n t e r m e d i a t en o d e sf o rs v m t h e nt h ec l a s s i f i c a t i o ni st a k e no nt h e s ei n t e r m e d i a t e n o d e su s i n gt h ef e a t u r e so ft h eg r e a t e s tc o n t r i b u t i o n ,w h i c hi sd e t e r m i n a t eb y e x p e r i e n c e a tl a s t ,e m p i r i c a l c h a r a c t e r i s t i c sb a s e do ns v mb i n a r yt r e e s p e e c h e m o t i o nr e c o g n i t i o ni sr e a l i z e di d e a l l y k e yw o r d s :s p e e c he m o t i o nr e c o g n i t i o n ;s p e e c he m o t i o nf e a t u r e ;m u l t i f r a c t a l ; g e n e r a l i z e dh u r s ti n d e x h i 目录 摘要i a b s t r a c t i i 第一章绪论 1 1 选题背景及意义。1 1 2 国内外研究现状。l 1 2 1 语音情感识别研究现状1 1 2 2 多重分形发展动态2 1 3 语音情感识别概述一3 1 3 1 语音情感特征提取3 1 3 2 特征选择5 1 3 3 语音情感识别5 1 4 论文组织结构6 第二章语音情感传统特征的分析与提取 2 1 情感的分类。7 2 2 情感语料库概况。7 2 3 语音信号预处理一9 2 3 1 预加重9 2 3 2 分帧加窗9 2 4 传统语音情感特征参数的分析与提取1 0 2 4 1 基音频率lo 2 4 2 能量幅度1 1 2 4 3 短时过零率1 2 2 4 4 共振峰1 2 2 4 5m f c c 13 2 5 本章小结1 4 第三章多重分形及其在情感语音中的分析 3 1 分形理论_ 15 3 2 多重分形15 3 2 1 多重分形定义l5 3 2 2 多重分形过程1 6 3 3 广义h u r s t 指数的估计1 7 3 4 尺度函数t ( g ) 、奇异指数a 及多重分形谱八口) 之间的关系1 8 3 5 语音情感多重分形分析1 8 3 5 1 广义h u r s t 指数的估计2 0 3 5 2 多重分形谱分析2 1 3 6 本章小结2 3 第四章基于多重分形和s v m 的语音情感识别 4 1 支持向量机原理2 4 4 1 1 最优分类面2 4 4 1 2s v m 核函数2 6 4 1 3s v m 多分类算法2 6 4 2 基于s v m 一对一算法的语音情感识别2 7 4 2 1 实验步骤及方法2 7 4 2 2 实验结果及分析2 7 4 3 基于二叉树s v m 的语音情感识别2 9 4 3 1s v m 二叉树的建立2 9 4 3 2 基于多重分形的s v m 二叉树粗分类3 0 4 - 3 3 基于经验性选择的s v m 细分类3 0 4 3 4 实验结果分析与比较3 1 4 4 小结3 2 第五章总结与展望 5 1 全文总结3 3 5 2 研究展望3 3 参考文献3 4 致谢3 9 附录( 攻读硕士学位期间发表录用论文) 4 0 1 1 选题背景及意义 第一章绪论 随着信息技术飞速发展和人们对计算机依赖程度的进一步增强,新型的具有 自然和谐特性的人机交互技术受到众多研究者的青睐,成为研究热点。关于如何 来实现计算机的拟人化和智能化,使之能够感知周围气氛环境、说话人情感及其 状态变化,并以此来确定说话人的情感取向,自适应地做出合理的反应,已成为 未来计算机发展的方向。 研究表明,在人机交互技术中“情感智能 是亟须解决的问题n 1 ,若要计算 机能主动适应用户需求,首先必须能判断出用户情感状态的变化,然后实时得调 整交互对话的方式。处理情感信息的技术主要包括:情感特征的提取与分析,情 感识别( 包括面部表情、肢体语言和语音情感识别等) 以及情感模拟等。迄今为 止,关于人类情感识别的研究还处于探索阶段,而语音情感识别作为情感处理的 一个重要分支,是计算机自适应地识别人类情感、实现智能化人机交互的必要前 提。 语音是人类进行交流的重要媒介,语音信号在传递语句含义信息的同时,也 伴随着情感信息的传递,它对人们认知事物起着不可忽视的重要作用。然而传统 的语音识别技术却把人类的这种特殊语音情感信息当作噪声给处理掉了。直到近 年来,随着对情感识别研究的加深,研究者发现由情感和态度所引起的语音变化 对语音识别和合成、说话人确认等都会产生较大的影响。于是,研究者开始关注 这些情感信息,对其进行专项分析并应用到各个研究领域,产生了很好的经济和 社会效益。 1 2 国内外研究现状 1 2 1 语音情感识别研究现状 语音情感识别,是指分析并提取可以表征情感状态变化的特征参量参加模式 识别,通过确定研究对象的情感趋向,使计算机及时准确地做出与之相适应的反 应。它是语音信号情感计算和模式识别两大研究领域结合的产物。在人工智能、 本a r t 等也都在这方面作了众多工作。像微软、i b m 、索尼等公司也分别成立 了属于自己的智能交互研究小组。 在国内,一些高校和研究机构,如中科院、清华大学、东南大学和江苏大学 等也都陆续在这方面开展了研究工作。国家自然科学基金委也专门立项资助哈工 大进行心理紧张等情况下的r o b u s t 语音识别研究【6 1 。 1 2 2 多重分形发展动态 “分形”一词是由数学家m a n d e l b r o t 在19 7 3 年首次提出并引入到自然科学 研究领域的,其目的是为了分析研究不规则图形和复杂过程。此后,分形作为描 述对象的建模,逐步被应用到图形图像等信息科学的各个领域。 在语音情感识别方面,分形作为语音信号的描述模型,分析维作为描述语音 2 混沌特性的重要特征参数,目前也已渗透到其中。如陈佳【7 】比较了分形盒维数在 不同情感状态下的分布情况,发现分形盒维数对语音情感的不同状态具有一定的 影响。蔡莉莉【8 1 在基音频率曲线上提取分形盒维数进行分析,得出了同样的结论, 同时她采用特征融合的方法将不同识别特征的优势相互补充,最终得到了较好的 识别率。 随着对分形理论研究的不断深入,人们发现,简单分形维只有一个标度指数, 它只是从整体或平均对非线性体进行定量描述,缺乏在不同层次结构上的波动特 性描述。也就是说,对非线性体的描述仅仅依靠一个简单的标度指数( 即分形维 数) 是远远不够的。为此,研究者m a n d e l b r o t 提出了将多个标度指数“混合一 的理论一一多重分形理论。文献【9 】用多重分形分析并检测x 线头影片的边缘, 得到了较为确定的大多数标志点。关键等【1 0 l 在海杂波中提取以多重分形关联谱 为特征进行目标检测。董远【1 1 l 采用多重分形相关方法对语音信号进行分割处理。 可见,多重分形已被广泛应用于其他目标检测与识别,取得了较多的研究成果, 这对我们研究语音信号的情感识别具有一定的参考价值。 1 3 语音情感识别概述 一个典型的语音情感识别系统主要由语音情感特征提取、特征降维( 也称特 征选择) 以及情感分类三部分组成。其流程图如图1 1 所示: 垂噩耍垂圆专 垂噩耍垂酉习一 垂噩亘囫口 图1 1语音情感识别流程图 接下来分别对这三个模块的现状及其存在的问题进行概述性的描述。 1 3 1 语音情感特征提取 究竟哪些特征能够有效地表征语音情感状态的变化,学者们进行了大量的研 究。一方面他们从语言学的角度解释语音信号情感状态及其变化。比如 c a u l d w e l l 1 2 1 研究并发现了语音与语义之间存在某种关系;b j o r ns c h u l l e r t l 3 1 基于 经典三阶段( 即声学、语义和语法以及目的阶段) 来解释语音,并成功用于语音 情感研究领域。用语言学知识解释人类情感的确是一种好方法,但语义分析需要 过硬的相关语言学知识做铺垫,而语言学本身又相当难以理解与分析,这无意之 3 中又给情感分析增加了难度,因此,就目前而言,该方法较难实现。 另一方面,心理学和语言心理学家认为,韵律特征( 如语速、音调和音强等) 和语音质量特征( 如呼吸声、喉化音等) 是说话者的情感在语音中的最直观表现, 而情感状态的变化对韵律特征的影响最为显著,这一发现为研究语音情感提供了 有力的参考依据。随后,相关的研究也纷纷涌现。如x i a ol i n t l 4 】等认为:与自 然语音相比,带感情的语音在语音质量、说话语速和音调上存在较大差异。王治 平【1 5 l 等基于语音韵律和共振峰特征参数,提出了基于模糊熵的特征有效性分析 方法。王颖【1 6 】认为,是变化导致了情感,如语调、语气的变化均为产生不同的 情感影响。为此,在韵律特征参数的基础上,他还提取了一部分反映情感变化的 参数,即导数参数进行情感识别。 随着语音情感识别研究的深入,人们发现语音情感状态的变化除了受韵律特 征和语音质量特征影响外,频谱特征也是人类语音传递情感信息的重要介质之 一。l i e b e r m a n 【1 7 l 也用实验证明了这一点,实验中他将情感语句中的频谱信息尽 可能全部滤掉,只保留音强和基频特征,通过人类听力实验得到仅4 7 的情感 识别率,较原始语音情感识别率降低了3 8 个百分点。t s p o l z i n t ”】在其实验 中除使用韵律特征外,还提取了情感信号倒谱系数及其一、二阶导数参加情感识 别。另外,线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r u mc o e m c i e n t s ,l p c c ) 、 梅尔倒谱系数( m e lf r e q u e n t l yc e p s t r u mc o e f f i c i e n t s ,m f c c ) 、短时能量谱等特 征亦相继用于语音情感识别,并取得了一定的效果【1 9 御】。 随着非线性技术的不断发展,人们发现语音信号的产生是一个复杂的非平 稳、非线性过程,其中存在着混沌机制2 1 1 。于是,基于t e a g e r 能量算子2 2 1 、希 尔伯特边际谱【2 3 】等特征也相继被用于语音情感识别中。但这些特征本质上都是 基于确定性线性系统理论的,仍无法有效的刻画语音的混沌特性。 介于以上分析可知,韵律特征和音质特征是影响语音情感状态变化的最主要 特征参数,频谱特征也是人类传递情感不可缺少的部分,同时,语音信号本身又 存在混沌机制。介于此,在本文中,对特征参数的提取,抓住语音产生的本质, 在韵律参数、音质特征以及频谱特征等线性特征参量的基础上,结合非线性技术 分析语音情感信号,提取新的特征参数,即多重分形谱和广义h u r s t 指数特征参 量参与识别,做出了大胆的尝试。该部分在3 5 节做了重点描述。 4 1 3 2 特征选择 特征选择就是从较大特征集( 假设维数为d ) 中选择一个最小的特征子集( 维 数为d ,且d d ) ,使得由该子集确定的类的概率分布最接近真实类的概率分布, 且当用该子集进行情感语音分类时,识别结果较原始特征集不应下降,甚至可能 有所上升。进行特征选择一方面是为了避免一些不必要特征的提取,减少算法的 时间复杂度;另一方面则是为去除冗余特征,提高情感分类器的精度。在语音情 感识别领域,最常用的特征选择方法有:主成分分析方法【2 4 1 ,次优搜索法【2 5 之6 】 和神经网络贡献分析法【2 7 1 等。 1 3 3 语音情感识别 语音情感识别本质上是一个模式识别问题。截止目前,几乎所有的模式识别 方法都被应用到情感识别中。同时新方法的应用和对比层见迭出。 f r a n kd e l l a e r t t 2 8 1 等人在高兴、愤怒、悲伤和害怕等不同情感状态下的基频 轮廓曲线提取相应的特征参量,分别采用最大似然b a y e s 算法、k 一近邻法以及 k e r n e l 回归法等进行情感分类,取得6 0 - 6 5 的识别率。 t y a m a d a 2 9 1 等采用神经网络技术对四类基本情感( 欢乐、兴奋、悲伤和 愤怒) 进行研究,达到了7 0 的精度。 h s a t o 3 0 】等通过仿真实验,发现采用神经网络分类器可以很好将平静从其 他三类情感中区分出来。 n i c h o l s o n 3 1 1 根据分类情感的种类及每类情感单独使用一个子网的思想,将 系统设计成含有8 个子网的神经网络。试验结果显示,对于负面的情感( 如悲伤 和生气) 可得到较好的识别率,但正面的情感( 如高兴) 则难以识别。同时该网 络设计的一个好处是可扩展性良好,增加情感类别时无须重新训练整个网络。 t i nl a yn e w l 3 2 】在提取m e l 频率能量系数特征的基础上,借用h m m 分类器 能够有效识别出语音所包含的情感,但无法精确的区分情感细节。 张永皋【3 3 1 提取了m f c c 及其衍生参数组成情感特征矢量,并采用连续的隐 马尔可夫模型( c h m m ) 进行情感识别,总识别率达到了8 6 7 ,其中生气的识别 率竟达到l o o 。 t a t o 3 4 1 则跨越韵律特征学来扩展情感维数,实验不仅展示了将“结构特征 作为“韵律学特征”的补充来提高多种情感的分类效率,而且使用s v m 对四类 5 情感( 喜、怒、悲、平常) 进行分类,最终达到7 3 的平均精确率。 尽管世界各行各业的研究人员在情感语音研究领域已取得了一定的研究成 果,但若将其进行对比不难发现,目前整个情感研究领域仍处于较低的发展水平。 一方面,情感特征提取手段极为受限,大多数研究成果都是基于诸如韵律特征和 语音质量特征或其衍生参数作为情感识别的研究对象。尽管随后基于t e a g e r 能 量算子、希尔伯特边际谱等特征也相继被用于语音情感识别中,但所有这些特征 参数都让无法刻画语音信号的混沌特性。其次,对于情感分类器,虽然目前有很 多不同的分类算法,但是由于研究人员所用情感语料库的差异,使得他们之间的 研究成果难以对比。m a j ap a n t i e 3 5 】分析并对比了近几年的1 4 个有关语音情感的 文献,发现各文献所研究的对象相差甚大,结果亦各异,仅识别率就形成了从 5 3 到9 0 这么大程度的悬殊。 语音情感研究仍存在颇多问题,有待于人们深入研究。 1 4 论文组织结构 本文针对基于多重分形的语音呢情感识别研究开展研究,其组织结构如下: 第一章简要叙述本课题的研究背景和相关发展现状,对语音情感识别作了 简要的概述,并对后面各章的内容进行简单介绍。 第二章简要介绍了现阶段语音情感的分类和情感语料库的概况,并分析讨 论了语音情感识别中传统情感特征参数的提取方法。 第三章概述分形理论,并运用m f d f a 方法对不同情感状态下的语音信 号波形进行考察,在比较实例分析的基础上,提取多重分形谱特征以及广义h u r s t 指数作为新的语音情感识别特征参数。 第四章概述支持向量理论及分类算法,并结合多重分形特征参数应用于语 音情感语音识别。 第五章对全文进行了总结,并对还需深入研究的问题作进一步展望。 6 第二章语音情感传统特征的分析与提取 2 1 情感的分类 要对语音情感进行分析研究,首先必须对情感作出清晰的划分。那么到底有 多少类情感? 分别又是哪些? 这个有趣而又颇有难度的问题一直缠绕在许多研 究者脑海。对情感缺乏明确有效的定义已成为阻碍情感语音深入研究的关键问题 之一。 依据分类标准的不同,可将情感理论模型分为两大类。一类是每类情感都是 一个离散的个体,亦称离散型情感模型。如r u s s e l l 3 6 1 认为情感空间是空间坐标 的这四个象限构成,其中每一象限分别对应高兴、生气、悲伤和平静;而社会普 遍公认的是r o b e r tp l u t c h i k 3 7 1 教授建立的“情感轮”,他将情感分为:a c c e p t a n c e 、 a n g e r 、a n t i c i p a t i o n 、d i s g u s t 、j o y 、f e a r 、s a d n e s s 和s u r p r i s e 八种情感。尽管这些 分类方式在原理上有所差别,但也存在相似的表现形式。并且对所有分类方式而 言,情感分类过细都会带来识别率的大幅度降低,因而一般采用4 - 6 种情感分类。 另一类是基于连续维度的情感模型。即认为每个情感都是一个二维或三维空间体 中的一个点。最具代表性的是唤醒度愉悦度控制度( v a l e n c e a r o u s a l p o w e r ) 三维模型。文献【3 8 】对情感空间色三维度作了描述,并探讨了情感维度和音质特 征关系。 虽然两种情感理论模型对情感的表示有所差异,但当条件达到一定程度则可 相互转化。就现阶段的研究趋势看来,结合两种模型对情感加以表示,可以更好 地描述人类情感。 2 2 情感语料库概况 对语音情感进行分析研究,首先需要解决的一个问题就是情感语料库的来 源。它是开展语音情感识别研究工作的先决条件,它需要为情感语音处理提供大 量的分析数据、训练数据及测试数据。 纵观国内外此方面的研究,不难发现,情感语音识别系统大都是基于语音资 料库的统计学习来实现的。但到目前为止,国际上仍没有一个权威统一的、供大 7 家所广泛使用的标准数据库。为此,国内外相关研究人员在采集情感语料方面投 入了大量的精力和财力,建设完成了许多较大规模的语料库。下表2 1 列出了国 内外比较主流的语音情感库。 表2 1 国内外较主流的语音情感库 录制人及时间语种采集方式包含情感类型 c o w i e ( 19 9 6 ) 1 3 9 】 英语自然高兴、悲伤、愤怒、惊奇、中性 b e l f a s t ( 2 0 0 0 ) 英语模仿高兴、愤怒、恐惧、悲伤、中性 a n g ( 2 0 0 2 ) 英语自然 愤怒、轻松、失败、疲倦、中性 f e r n a n d e z ( 2 0 0 3 ) 英语自然心理紧张、中性 b a n s e ( 19 9 6 ) 德语模仿生气、高兴、悲伤、大怒 s c h e r e r ( 2 0 0 0 ) 德语模仿 高兴、悲伤、厌恶、恐惧、愤怒 t a t o ( 2 0 0 2 ) 德语引导 厌恶、高兴、悲伤、愤怒、中性 l i d a ( 2 0 0 0 ) 日语 模仿高兴、悲伤、愤怒 k a w a n a m i ( 2 0 0 3 ) 日语 模仿高兴、悲伤、愤怒、中性 m a k a r o v a ( 2 0 0 2 )俄语模仿高兴、惊奇、悲伤、恐惧、愤怒 i r i o n d o ( 2 0 0 0 )西班牙语模仿高兴、悲伤、惊奇、恐惧 y u ( 2 0 0 1 ) 中文引导高兴、悲伤、愤怒、平静 c a s s e s c ( 2 0 0 3 ) 中文模仿嘲讽、高兴、害怕、难过、生气、厌恶、平静 目前虽然已有很多基于以上语料库的研究成果公诸于众,但这些数据库本身 并没有或者只有部分公开,加则各预料库从属的语音系别不同,使得各研究成果 无法共享、不同的研究方法之间缺乏可比性。 本文所用的数据来自于柏林实验室的德语情感语料库e m o d b 4 0 1 ,此情感 库的数据由1 0 人录制完成( 5 男5 女) ,包括七类情感,其语句的情感倾向性较 小,情感自由度较高。基于r u s s e l l 的情感空间理论,高兴、生气、悲伤和平静 分别位于激活一一评估二维空间坐标系中的第一、二、三、四象限,本文选取此 四类典型情感进行分析研究,并从每类情感中选择4 0 句作为训练样本,3 0 句用 作测试样本。 8 2 3 语音信号预处理 预处理是语音信号特征提取和情感识别的先行工作,其目的是对语音信号进 行一系列数字处理,以消除信号冗余部分,减少后续处理的计算量,并最终达到 提高情感识别率的效果。语音信号预处理的好坏,在一定程度上直接影响到情感 特征参数的准确提取,乃至情感识别的正确率。其流程图如2 1 所示。 声音录入专匝壅圃j 区至豆圄专匝圆_ 匝垂亟圃j 特征提取 图2 1 语音信号预处理流程图 声音由声波通过空气传播而产生,是一模拟信号,若让计算机对输入的声音 进行处理,则必须先通过抽样将其转换为数字信号。而在抽样之前需对其进行低 通滤波,以得到我们感兴趣的一定频率范围内的信号。目前市场上流通的这种低 通滤波与a d 转换器( 采样和量化) 被集在一个芯片上,当语音通过话筒输入 到声卡后,得到的将是经低通滤波、a d 转换和量化处理后的w a v 文件,它 是一离散的数字信号。 2 3 1 预加重 受声门激励等因素的影响,语音信号高频段( 约8 0 0 h z 以上) 的频谱会有 6 d b o e t 的衰减。为此,需对语音信号预加重,使得高频信号加以一定程度的提 升,信号的频谱变得平滑,方便进行语音频谱分析或声道参数的研究。由于预加 重在抑制随机噪声的同时可有效的提高信噪比,所以本文在语音信号量化之后、 特征提取之前进行预加重,即通过一个一阶的滤波器来实现,其传递函数为: 日( z ) = l 一甜z 一1 ( 2 1 ) 式中,甜为预加重的系数,取值范围一般在0 9 1 之间。本文所有实验都采 用0 9 3 。 2 3 2 分帧加窗 语音信号是一非平稳信号,其波形和特征参数均随时间的变化而变化,不能 简单的用处理平稳信号的方法对其进行处理研究。但就发声机理可知,发声器官 状态的变化速度较声音振动的速度要慢得多,可认为,在较短时间内( 5 5 0 m s ) , 语音信号的频谱特性和其他一些物理特性基本保持不变,即语音信号具有短时平 9 稳特性。为此,采用具有特定长度的窗函数将语音信号分割成一些小段( 其中的 每一小段称一分析帧) ,进而对每一分析帧借作处理平稳信号的方法来对其进行 分析处理。一般帧长取值为1 0 3 0 m s ,同时要求帧与帧之间要存在部分重叠( 重 叠部分称为帧移,一般取帧长的1 3 ) ,以保持相邻分析帧之间的平滑度。此外, 窗函数选取的差异在一定程度上对短时分析参数( 特别是短时能量) 的影响较大, 故在实验中还要重视窗函数的选取。 纵观相关实验与结果不难发现,无频谱泄漏( 即主瓣无限狭窄且无旁瓣) 是 选择窗函数的首要考虑条件,但这只是理想化,在实际工程是难以实现的。与其 他窗函数比较,汉明窗的旁瓣较少且衰减程度较大,具更平滑的低通特性,能够 更好地反映语音信号的短时平稳特性。故本文采用了汉明窗函数来对语音信号进 行分帧,并取窗口长度为3 0 m s ,相邻帧与帧之间的重叠长度1 0 r e s 。汉明窗的表 达式如式( 2 2 ) 所示: w ( n ) 4 以4 6 c o 吼2 肋“肛d l 巍州。 ( 2 2 ) 2 4 传统语音情感特征参数的分析与提取 2 4 1 基音频率 基音频率是表征情感变化的最重要特征之一,它包含了反映语音情感的大量 的有用信息,决定了音质高低,被认为是声音的基础音调。c a h n 等认为,人在 平静状态下,交感和副交感神经相互制约,处于平衡状态;当情绪激动( 如高兴 和生气) 时,交感神经活动其主导作用,语音基频变高,基频的变化范围增大, 速度加快;而在情绪低落( 如悲伤) 下,副交感神经活动其主导作用,语音基频 降低,基频的变化范围缩小,变化速度减慢。 本文采用自相关基频检测法【4 1 】求得情感信号的基频轨迹曲线,分析了在高 兴、生气、悲伤和平静状态下的基频轨迹曲线的变化情况,并列出( 图2 2 ) 对 应的统计值( 动态变化范围、最值以及均值) 进行比较。能够看出,基频变化范 围的变大对应着强烈的情感( 高兴和生气) ,而较小的基频变化范围则对应着较 平缓的情感,特别是悲伤,采用基频特性可以更好地将从中分离出来。这一结论 与c a h n 等人的研究结果是相一致的。 1 0 2 4 2 能量幅度 基频相关统计特征 图2 2 不同情感状态下基频统计值比较 语音信号的能量特征与情感语音信号存在较强的关联性,当人的情绪较激动 ( 比如高兴或生气) 时,声音往往会变大,声音所携带的能量较高;而悲伤或平 静时,发音会变小,声音所携带的能量较低。因此在以往的有关情感研究中,能 量被作为重要的特征加以分析研究。 文中采用定义法提取相应的短时能量,如式( 2 3 ) 所示: e = b ( 加渺。一朋) 】2 = 阢( 历m ( 万一所) r 图2 3 是语料库中所有语料的能量均值和最值在不同情感下的变化情况。 短时能量统计值 图2 3 不同情感状态下短时能量统计值比较 可以看出,悲伤的能量特征无论是极值还是均值,都要小于其它三类情感; 而生气的能量参数则要略微高于其它情感。这同实际生活经验结论是一致的,即 生气的平均能量最大,悲伤的平均能量最小,其情感效应表现的越明显。 2 4 3 短时过零率 当语音信号的两个连续抽样值符号不同时,即出现“过零”现象。短时过零 率是指一分析帧语音在单位时间内穿越零电平( 即横轴) 的次数,它可以粗略地 表征的是语音信号的频谱特性,如清音主要集中在高频区,信号穿越零电平的次 数较多,过零率较大;而浊音则主要集中在低频区,信号穿越零电平的次数较少, 过零率较低。 本文采用定义法提取短时过零率的相应的特征参数。对某一语音帧,若前一 采样值的符号与后一采样值符号相反,则记为一次过零,遍历并统计该帧总的过 零数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论