(信号与信息处理专业论文)普通话语音情感信息的分析与研究.pdf_第1页
(信号与信息处理专业论文)普通话语音情感信息的分析与研究.pdf_第2页
(信号与信息处理专业论文)普通话语音情感信息的分析与研究.pdf_第3页
(信号与信息处理专业论文)普通话语音情感信息的分析与研究.pdf_第4页
(信号与信息处理专业论文)普通话语音情感信息的分析与研究.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广 阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号 不仅包含语言信息,还包含着说话人的情感信息。语音情感信息处理技术的研 究对于提高计算机的智能化具有重要的现实意义。 基于包含高兴、愤怒、悲伤、害怕、惊奇和中性6 种情感状态的情感语音 数据库,本文主要探讨了语音信号中情感信息的处理方法,重点研究了语音情 感识别的相关技术。首先对语音的情感特征参数进行提取,包括韵律特征参数 和谱相关参数( m f c c 系数) 。为了比较情感语句相对于中性语句的韵律参数 的变化特性,选择了基频轨迹、能量包络和时间构造参数的统计特征进行了对 比实验,并得出了具体的数量变化和比值直方图。 采用g m m 模型建立了基丁m f c c 特征参数的语音情感识别系统。在最优 参数配置下,g m m 分类器的平均识别率可达到7 2 3 4 。分别研究了基于清浊 音分段和基丁整个情感语句的韵律特征及其在表征情感状态方面的性能,并采 用k n n 算法和g m m 算法分别设计了基于韵律特征的语音情感分类器。实验证 明,基于清浊音分段的韵律特征更能区分不| 一j 的情感状态,在g m m 算法下, 最高平均识别率可达到达到6 7 9 2 。针对两种分类算法,分析了各个情感的识 别率、6 种情感的平均识别率及系统参数对性能的影响,同时比较了分类器对 不同情感状态的识别性能并指出了算法可能存在的缺陷。 在此基础上,研究了连续语音识别系统的设计过程,并搭建了基于h t k 的 情感语音识别系统。该系统在识别说话内容的同时,也能识别出情感语句的情 感状态。为了消除情感引起的语音声学特征的变异,对每个情感状态的声韵母 基元进行h m m 建模。对于情感语音信号,系统的音节平均识别率达到5 0 以 上。 本文在情感特征的选择和情感分类器的设计等方面进行了深入细致的研 究,并总结了系统存在的不足和下一步工作的研究思路,为语音情感分类的进 一步研究提供了有价值的参考。 关键字:语音情感识别;基于清浊音分段的韵律特征;情感语音识别系统 山东大学硕士学位论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fm u l t i - c h a n n e lh u m a n - m a c h i n ei n t e r a c t i o n t e c h n o l o g y ,t h es t u d yo fh u m a n m a c h i n ei n t e r a c t i o np a t t e mh a sh u g ep o t e n t i a l si na w i d er a n g eo fa p p l i c a t i o n s a so n eo ft h em o s tn a t u r a la n de f f e c t i v ec o m m u n i c a t i o n w a yo fh u m a nb e i n g ,t h es p e e c hm o d a lh a sg a i n e di n c r e a s i n g l yi n t e r e s t sa m o n g r e s e a r c h e r sa n di n d u s t r i a ld e v e l o p e r s s i n c es p e e c hi sas i g n i f i c a n tm e t h o do f c o n v e y i n ge m o t i o n sa sf a c i a le x p r e s s i o nd o e s ,t h es t u d yo fd e a l i n gw i t he m o t i o n a l s p e e c h e s h a sf o u n di m p o r t a n tr e a l i s t i cv a l u e s t h i sp a p e rr e s e a r c h e so nt h ek e yt e c h n o l o g yo fe m o t i o n a ls p e e c hp r o c e s s i n ga n d f o c u s e so ns p e e c he m o t i o nr e c o g n i t i o no nt h eb a s i so fa ne m o t i o n a lm a n d a r i ns p e e c h d a t a b a s e t h eu t t e r a n c e so ft h ed a t a b a s ea r ec o l o r e db ys i xb a s i ce m o t i o n si n c l u d i n g a n g r y ,f e a r ,h a p p y ,s a d ,n e u t r a la n ds u r p r i s e b o t ht h em f c c sa n dt h ep r o s o d i c p a r a m e t e r sa r ee x t r a c t e da st h ef e a t u r ev e c t o r s t om e a s u r et h ea c o u s t i cv i b r a t i o n so f e m o t i o n a ls p e e c hc o m p a r e dt ot h en o r m a lo n e s ,as t a t i s t i c a la n a l y s i so fp r o s o d i c f e a t u r e si n c l u d i n gp i t c ha n de n e r g yc o n t o u ra sw e l la st i m ed o m a i np a r a m e t e r sa r e m a d ea tf i r s t as e g m e n t - b a s e da p p r o a c hi su s e dt oi n v e s t i g a t et h ep r o s o d i cf e a t u r e si n d e t a i ls i n c et h ev o i c e da n du n v o i c e ds o u n dh a v ed i f f e r e n tc h a r a c t e r i s t i c so fe m o t i o n f e a t u r e s c o m p a r e dt o t h et r a d i t i o n a lu t t e r a n c e b a s e da p p r o a c h ,t h es e g m e n t b a s e d a p p r o a c hi sp r o v e dt ob em o r ee f f e c t i v ei nr e c o g n i z i n ge m o t i o n t w ov o c a le m o t i o nc l a s s i f i e r s ,e m p l o y i n gg m mo rk n na l g o r i t h m ,a r et r a i n e d a n de v a l u a t e db a s e do nm f c c sa n dp r o s o d i cf e a t u r e sr e s p e c t i v e l y u n d e ro p t i m a l p a r a m e t e r s ,t h er e c o g n i t i o nr a t eo fg m m c l a s s i f i e rc a nr e a c h7 2 3 4 as e g m e n t b a s e da p p r o a c hi su s e dt or e p r e s e n tt h ee m o t i o n so fs p e e c ha n dp r o v e dt ob em o r e e f f e c t i v et h a nt h er e g u l a ru t t e r a n c e b a s e da p p r o a c hf o rp r o s o d i cf e a t u r es t a t i s t i c s t h e h i g h e s tr e c o g n i t i o nr a t ef o rt h i sa p p r o a c hu s i n gk n nc l a s s i f i e ri s6 4 8 9 f o rt h e b o t hc l a s s i f i e r s ,t h ei n f l u e n c eo fp a r a m e t e rs e ti si n v e s t i g a t e da n dt h es e t b a c k sa r e d i s c u s s e dt h e n ah t kb a s e de m o t i o n a ls p e e c hr e c o g n i t i o ns y s t e mi si m p l e m e n t e dw h i c hc a n r e c o g n i z et h ee m o t i o na sw e l la st h ec o n t e n t so f e m o t i o n a ls p e e c h p h o n el e v e lt t m m i i i 山东大学硕士学位论文 m o d a l sa r eb u i l tf o re a c he m o t i o nt oe l i m i n a t et h ed i s t o r t i o no ff e a t u r ev e c t o r so f e m o t i o n a ls p e e c h e s ,t h eo v e r a l ls p e e c hr e c o g n i t i o nr a t ei sa b o u t5 0 t h i sp a p e rc o n c l u d e sa l lt h er e l a t e dw o r ka n dp r o b l e m st ob es o l v e da tt h ee n da n d t h e d i r e c t i o no ff u t u r ew o r ko nv o c a le m o t i o nr e p r e s e n t a t i o n sa n dc l a s s i f i c a t i o n a l g o r i t h m si sp r o p o s e d k e y w o r d s :v o c a le m o t i o nr e c o g n i t i o n ;s e g m e n t - b a s e dp r o s o d i cf e a t u r e s ;e m o t i o n a l s p e e c hr e c o g n i t i o ns y s t e m i v 山东大学硕士学位论文 1 1 研究背景及意义 第一章绪论 随着信息科学与计算机技术的快速发展,人机交互问题越来越受到研究者 的重视,情感语音识别在人机交互中扮演着重要角色。神经系统学研究表明, 情感识别可以有效增强计算机的决策能力【1 1 。近年来,情感分析与识别在人脸 表情、姿态分析等方面取得一系列进展。作为人机交互的一个重要途径,语音 信号也携带丰富的情感信息,而且相对于心电图、血压、肌肉电压和脉搏等内 部生理信号,语音信号可以不通过任何的人体接触获得。另一方面,情感和态 度所引起的语音变化对于自然语音合成、语音识别和说话人识别等也具有重大 意义。如何使计算机通过语音信号感知人类的情感和态度,受到研究者的广泛 关注。语音情感识别以语音信号为研究对象,涉及到信号处理、生理学、心理 学、模式识别和人工智能等多个学科领域。 语音情感识别技术可用丁提高自动语音识别系统的鲁棒性、识别效率和正 确率,改善说话人辨别系统的辨别率【8 一。自动语音情感识别町以进一步推动人 机交互技术的发展,有助于实现拟人化的多媒体计算机系统。结合情感语音合 成技术,可以创造出能够与操作者进行自然对话的智能机器人。提取和分析语 音中的情感信息是一个意义重大的课题,并广泛应用于公共安全、医疗、教育 等方面。 在语音通信方面,语音情感自动识别技术可以应用于自动远程电话服务中 心,能够及时发现客户的不满情绪并采取适当的应对措施【2 ,3 】。在幼儿保健方 面,通过对婴儿哭声的分析和研究,可以及时识别婴幼儿的情绪和需求【4 j 。在 教育方面,语音情感识别可增强远程教学的互动性,提高教学质型5 1 。在临床 医疗方面,语音情感自动识别可以辅助治疗情感表达方面存在障碍的心理疾病 患者或者失聪患者【6 】。在某些特殊领域,如军事、公安等,通过语音情感信息 处理技术可以利用计算机获得更多的信息应用于侦察、搜索等任务。在刑事侦 查中,可自动的检测犯罪嫌疑人的心理状态和辅助测谎【”。语音情感识别技术 在很大程度上提高人们的工作和学习效率,同时也可以进一步丰富人们的娱乐 生活,提高人们的生活质量。 山东大学硕士学位论文 1 2 语音情感识别的研究现状 情感的研究具有较长的历史,开始于从心理学和生理学角度对情感进行界 定,而从工程学的角度把语音信号作为研究对象,分析和处理情感信息时问较 短。上世纪8 0 年代末,有研究者建立了根据说话人语音韵律变化判断其态度的 人机会话系统模型,开始了由信号处理角度处理情感信息的尝试1 9 。 进入二十世纪9 0 年代后,随着计算机多媒体信息处理技术和智能人机交互 技术的发展,很多机构和组织参与到到语音情感领域的研究。英国贝尔法斯特 女王大学情感语音组创建了大规模高自然度情感数据库,并设计了语音情感信 息统计分析工具f e e l t r a c e 1 0 1 。m i t 媒体实验室开发了第一个情感语音合成系 统“e f f e c te d i t o r ”,他们通过对驾车司机语音分析对司机的感知负荷进行有效评 估,从而提高了车辆行驶安全的研究1 1 1 1 。以色列的n e m e s y s c o 公司将将语音情 感识别技术应用在机场安检系统中,其g k i 产品通过对乘客进行简单的人机对 话,辨别说话人可能存在的兴奋、欺诈和暴力等行为【1 2 1 。 近年来,语音情感识别领域研究取得一些进展和成果。d e l l a e r t ,p o l z i n 和 w a i b e l p 根据5 0 个文本和5 类情感录制了1 0 0 0 句英语情感语音,包括高兴、愤 怒、悲伤、害怕和中性情感 13 1 。提取情感语音的基频相关特征作为情感特征矢 量,分别运用核回归( k r ) 、k 近邻法和最大似然贝叶斯分类器( m l b ) 等分 类算法进行语音情感识别并比较了不同算法的性能。通过留一法进行的交叉验 证结果表明,k 近邻分类器取得较好的识别性能。 v a l e r ya p e t r u s h i i n 建立了3 0 个说话人,7 0 0 个情感的情感语句数据库,包 括高兴、愤怒、悲伤、害怕和中性5 种情感【1 4 j 。通过提取基频、第一、二个共 振峰、能量及语速等特征,测试了多种模式分类器的情感识别性能并在此基础 上建立了一个实时的情感语音识别系统,用于呼叫中心用户电话受理。该呼叫 中心根据录制的1 8 个说话人用愤怒和中性情感讲述的1 3 9 0 秒的电话语音,运 用神经网络分类模型进行情感识别,获得平均7 7 的识别率。 b j o r ns c h u l l e r 等人录制了包括英语和德语两种语言的情感语料库,5 个说话 人分别用高兴、愤怒、悲伤、害怕、厌恶、惊奇和中性7 种情感表达1 5 0 个相 同语句【l5 1 。将情感语句所提取的基频曲线和能量曲线的统计值作为g m m 情感 分类器的输入特征矢量,可取得8 6 的识别率。他f i 、j 的实验虽是文本无关,却 , 山东大学硕二学位论文 是说话人相关的。 yw a n g 等人根据性别分别建立了男声和女声的普通话情感数据库,包含高 兴、悲伤、愤怒、害怕、惊奇和厌恶6 重情感。提取包含基频、幅度、短时能 量等特征的2 3 维特征矢量,采用遗传算法进行语音情感识别,并取得了 8 8 1 5 的情感识别掣1 6 】。w j h a n 等人研究分析了包含高兴、愤怒、悲伤和惊 奇4 的1 2 5 6 个汉语情感语句,并提取能量包络和持续时问等韵律特征和声学特 征作为人工神经网络分类器的输入特征矢量1 1 7 1 。他们提出了一种基于v q 算法的 m f c c 参数提取算法,并证明这种新方法将情感识别率提高至7 1 1 。 与英语等话方语系不同,普通话是一种声调语言,我国对汉语普通话语音 情感识别研究的起步较晚,但进步很快。国内的一些大学和研究机构在语音情 感识别的基础理论、数学模型、算法和实用系统开发等方面做了大量工作,并 取得一系列成果。东南大学无线电工程系赵力教授的实验小组在国内率先开展 了普通话语音情感识别的研究,他们将情感语音的全局声学特征和基频的时间 序列特征绑定在一起,进行四种基本情感的语音情感分类,在m q d f ( m o d i f i e d q u a d r a t i cd i s c r i m i n a n tf u n c t i o n ) 和m m d ( m o d i f i e dm a h a l a n o b i sd i s t a n c e ) 两种分类 算法下均达到了9 0 以上的识别率【l8 1 。清华大学计算机科学与技术系的蔡莲红 教授领导的人机语音交互实验室对语音情感特征的区分特性进行了深入研究, 提出了以类问离散度和类内离散度的比值来度量特征的区分特性的理论【l9 1 。他 们用g m m 模型和p n n 模型分类器,对韵律特征进行模式分类,并达到7 6 7 的 平均识别率。模式识别国家重点实验室以分类回归树和权衰减型神经网络为模 型进行情感识别和特征重要性分析实验,他们的研究工作对声学特征在情感状 态重要性的评价以及普通话语音情感合成与识别都有借鉴意义1 2 0 1 。台湾大同大 学包苍龙教授领导的数据通讯与信号处理实验室提出了情感雷达图的概念,对 普通话语音情感进行可视化的评估,最高平均识别率可达到8 8 7 【6 】。 虽然情感语音识别技术的研究取得一定进展,并在许多领域得到应用。但 是,目前不论从国外还是国内来看,语音情感识别的研究整体还处在较低水 平,有规模的商用推j “技术还不成熟,产品质量上还不能满足人们的要求。语 音情感识别领域还有大量的理论和技术问题有待深入研究,如情感语音数据的 采集和整理,更全面更有效的语音情感特的征开发,特征向量维数简化的问 题。 3 山东大学硕士学位论文 1 3 语音情感识别技术概述 1 3 1 语音信号的情感特征分析 语音的声学特征通常分为两类:音段信息的语音特征( p h o n e t i cf e a t u r e ) 和 超音段信息的韵律特征( p r o s o d i cf e a t u r e ) 【1 5 】。很多研究者对语音信号情感特 征的选择和提取做了大量的工作,包括从时间构造、基频轨迹、能量包络等方 面分析情感语音的韵律特征,研究与声音质量相关的前三个共振峰参数等。通 常在语音情感识别中使用的主要特征参数总结如表1 1 。 表1 1 韵律特征参数 特征参数意义变化形式 d u r a t i o n 单个音节的持续时问样本持续时长 语速,单位时问内音节通 r a t e 过速率 p a u s e 音肖之问的停i 颐时问 p i t c h基频均值、变化范围、极值、抖动值、平均变化 基音频率 ( f 0 )率等 均值、变化范围、带宽、第一共振峰均值、第一 f o r m a n t 共振峰频率 共振峰变化范围 i n t e n s i t y 强度,语音信号的振幅 e n e r g y 语音信号的能量语音信号能量的均值、极值、范围和抖动 m f c cm e l 倒谱系数 l p c 线性预测系数 预测余量 1 3 2 语音情感识别的研究方法 作为一个典型的模式识别问题,语音情感识别技术有两大主流算法:基于 概率生成模型的方法,如高斯混合模型和隐马尔可夫链模型;基于判别模型的 方法,如人工神经网络,遗传算法和支持向量机等。这些方法各有优势和缺 陷,适用的领域也有所不同。 人工神经网络算法( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 具有学习复杂的非线 性映射问题的能力,能够以较高的精确程度实现任意有限样本集的训练。对于 语音情感识别问题,常用的人工神经网络拓扑有a c o n ( a 1 1 c l a s s i n o n e ) 署l l o c o n ( o n e c l a s s i n o n e ) 两种结构。由于许多情感语句特征向量与情感状态 4 山东大学硕上学位论文 的关系缺乏显性的描述,人工神经网络可以通过反复的学习过程获得对这些规 律的隐性表达。但是,这要求采取具有大量神经元的隐含中间层,从而导致计 算量和计算复杂度增加。 支持向量机方法( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一种基于统计学习理论 的模式识别算法。其基本思想是经过非线性变换将输入特征矢量映射到更高维 特征空间,然后求得最优超平面分类面。s v m 方法自适应性比较强,能够得到 现有数据信息下的最优解,可以有效解决过拟合和维数灾难等模式识别的问 题。但是,s v m 算法性能很大程度上受到核函数的影响,由于缺乏成熟的理论 指导,难以根据训练情感语音特征集特点选择和构造适合的核函数。另外, s v m 算法复杂,需要的训练和模式匹配的时间都比较长,在实时语音情感识别 系统中并不适用。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是一种基于转移概率和输 出概率的随机模型【3 6 1 。由丁它既能通过隐马尔可夫链的各状态描述语音信号相 对稳定时间段的声学特性,又能用状态的转移刻画稳定时间段之间的变化过 程,因此在基于时序特征的语音情感识别方面受到许多研究者的青睐。h m m 模 型拓展性较好,对于新增加的训练样本,只需要对已有h m m 模型进行自适应即 可。但是模型的结构的确定和参数的选择与待处理的情感语音数据相关,需要 试验确定,且在训练阶段,计算复杂度和计算量都比较大。 基于判别模型的分类方法通过研究不同类别数据之间的差异,从而实现最 优化分类,而基于概率生成模型的方法是通过分析同类别数据本身的相似度特 性进行分类。一些研究者尝试将这两种分类方法结合起来,形成混合模型进行 语音情感识别。混合模型基本分为串联融合和并联融合两种模式。串联融合是 将上一级分类器的输出作为下一级分类器的输入,最终的识别结果由最后一级 的分类器决定;并联融合是将相互独立的各利,语音情感分类算法通过一定的融 合算法进综合,从而得到最终分类结果。 h m m 和g m m 模型是基于概率生成模型的方法,而a n n 和s v m 是基于 判别模型的方法,两类模型在识别机理上具有很大的互补性。语音情感识别通 常将这两类分类器结合,形成混合语音情感分类模型。这能够综合不同算法的 优势,在一定程度上提高情感识别率,但其缺陷是模型复杂度比较高,计算量 比较大。 s 山东人学硕士学位论文 1 4 论文内容安排 论文在章节上的组织结构为: 第二章介绍了情感空间的界定和分类方法,情感语音数据库的建立原则和 实现方法,以及本文所采用数据库的特点。 第三章对比分析了语音情感特征参数的选择和提取算法。从语音信号的基 本处理方法入手,讨论了所需声学参数和韵律参数的提取方法。并且采用统计 方法对情感语音数据库的语音数据的韵律参数进行了观察和分析,对所选情感 韵律特征的有效性进行评价。 第四章分别研究了g m m 模型和k n n 算法的实现原理,在m a t l a b 平台下 仿真实现基于语音学特征的情感语音识别系统和基于韵律特征的情感语音识别 系统。详细分析了仿真实验结果,比较了两种语音情感分类器的优缺点,并讨 论了系统参数选取对于分类器性能的影响。 第五章利用h t k 工具包搭建了基于h m m 的小词汇量情感语音识别系统, 对于输入的情感语音,系统既能识别说话内容,也能对语句的情感状态进行分 类。同时,为了提高连续语音识别率,对每个声韵母建立相应的情感模型,利 用情感分类的结果选择相应的h m m 模型集。 第六章总结了论文的工作内容和实验结论,指出了不足之处和尚待解决的 问题,并提出了下一步的工作方向。 6 山东大学硕_ 上学位论文 第二章汉语普通话情感语音库 高质量的情感语音数据库是进行语音情感分析和研究的基础。数据库中情 感语句的质量直接影响到情感识别系统的性能。由于目前尚未出现汉语普通话 情感语音分类的统一标准和情感语音数据库建立的原则,需要研究者根据自身 研究需要对情感语音的定义进行界定并录制相应的数据库。 2 1 语音情感分类 情感类型的合理界定是对语句进行情感标注的基础。在情感计算领域,许 多学者从不同的角度研究了情感的分类问题,并提出了相应的情感类型定义。 传统的研究通常用日常语言标签来标识和分类情感,比如把情感分为高兴、愤 怒、害怕等【2 1 】。c o w i e 提出了“调色板理论”,该理论认为就像通过混合原色可 以调出其他颜色一样,通过确认最主要的几种情感状态町以生成其它的情感状 态【2 2 , 2 3 | 。按照情感中情绪表现的主动和被动程度不同也可以将情感分成不同等 级,j t h f o x 提出的三级情感模型7 】,如表所2 1 示,等级越低,分类越粗糙,等 级越高,分类越精细。 表2 1i 级情感模型 第级主动被动 第二级愉悦兴趣愤怒 窘迫厌恶 害怕 自豪关心 敌意 痛苦轻蔑惊吓 第三级 炊愉 责f t 感 嫉妒苫恼激怒焦虑 除了以标签法将情感分成离散的类别之外,一些研究者尝试在连续的空间 中描述情感,也称作维度轮【2 1 l 。在此基础上,p l u t c h i k 等人提出了“情感轮 理 论,认为情感分布在一个类似于钟表盘的圆形结构上,圆心是自然原点,表示 人在内心平静时的情感状态,而网周上的标注标明几种基本情感类犁,其排列 方式可根据具体研究需要设置t 2 4 】。情感语句的情感类型和强度可用情感轮组成 的二维空间中的情感矢量表示,该矢量同自然原点之间的距离体现了情感的强 度,方向则表示情感类别。 目前,对于“情感”这一概念,无论是从定义还是分类都没有统一的标 准。为了降低冈标签概念偏筹而引起的分析理解差异,希望在进行语音情感标 山东人学硕士学位论文 注时选取容易区分的概念标签。本文采用离散类别标注法,把情感划分为高 兴、愤怒、惊奇、悲伤、害怕和中性6 个类型。 2 2 汉语情感语音数据库 可以按照表达的自然度将情感语音数据分为三个类别:自然型情感语音、 表演型情感语音和引导型情感语音【1 2 】。 自然型情感语音是在说话人不知情的情况下获取的完全放松状态下的情感 语音。这种类型的语音被普遍认为是最理想最可信的情感语料。然而,由于涉 及法律和版权问题,这类情感语音的录制较为困难,成本也比较高。 表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获 得的情感语料。相对于自然型情感语音,表演型情感语音较容易获取,可控制 性较强,可以根据需要录制任意说话内容的情感语句。然而表演型情感语句中 的情感成分被夸张了,而且自然度也受说话人的演技高低影响。 引导型情感语音是指通过一定的外界环境和手段,引导说话人的情绪进入 某种特定的状态,从而录制情感语音的方法。引导型情感语音通常通过文字对 说话者进行引导,即通过说话人朗读带有一定感情色彩的文本,获得所需要的 情感语句。引导型情感语音是自然型和表演型情感语音录制方法的一种折中, 定制性比较强且语料的获取相对方便,适合基于不同文本的语音情感方面的研 究。然而,纯文木引导对于内一t l , 情感状态的生成比较缓慢和微弱,这种方式获 得的情感语句对文本内容的选择性比较强。 由于语音情感信息的地域性差异,目前情感语音研究领域中缺乏标准数据 库,需要研究者录制符合自身研究要求的情感语料库。在对现有的普通话情感 语音数据库进行调研的基础上,本文采用中国科学院自动化所( c a s i a ) 开发 的,包括四个专业演员,6 种情感( 分别是高兴、愤怒、惊奇、悲伤、害怕和 中性) 的普通话情感语音数据库。每种情感类型包含4 0 0 旬语句,其中,前 3 0 0 句是对相同文本用6 种不同的感情来发音的情感语句。这要求3 0 0 个语句的 文本是中性的,本身并不带有任何感情倾向,因而属于表演犁情感语音;另外 1 0 0 句情感语句是基于不同文本的,这些语句的文本从字面上就可以判断其情 感类型,属于引导型情感语句。选取录音人男、女各两人,按照上述6 种不同 山东大学硕士学位论文 的情感分别朗读相应文本,每人合计发音2 4 0 0 句,总共9 6 0 0 个情感语句,以 1 6 0 0 0 采样率,1 6 b i t ,w a v 格式存储。这些情感语句大都包含3 1 3 个字,持续 时间5 秒以内,表2 2 给出了实验所用情感语句的文本示例。经过反复的主观 听觉实验,认为该情感语音数据库的语料情感辨识度较高,自然度也比较理 想,可以满足本文的研究需求。 表2 - 2 情感语句文本示例 l 吃只苹果1 4 工资后天发放2 7 股票本ji :涨4 0 卜面审企财务 2 这种努力1 5 _ | j j j 友周末旅游2 8 汽车排f i 尾气4 l 阳光使得你们温暖 3 最后挖出来的1 6 你们称呼长莘2 9 烟囱冒 f 浓烟4 2 中等智力的正常人 4 产生一些变化1 7 形状成为水壶 3 0n - :- 6 t i 晚上维修 4 3 苏梅打扫房问 5 其他审问方法1 8 公园中午关闭3 1 团结产生力量4 4 队员同到起点很快 6 国民见4 富缩水1 9 春天万物复苏3 2 欧洲孩子的生命4 5 比赛正在英因举行 7 大j 】去种菜2 0 冬天白霉降临 3 3t 厂增大产:值 4 6 一架飞机卜的飞行员 8 学生成绩提高2 l 市场制造机会3 4 居民购灭房屋4 7 铅笔所划出的曲线 9 中国小组f | 现2 2 美国垄断市场3 5 政府t 预市场4 8 我们尝试登山 1 0 工人修珲冰箱2 3 秋人枯f 飘落3 6 国际进行合作4 9 反映了智力情况的一 1 1 人民保留资格2 4 我们需要帮助 3 7j 家提供原料个侧面 1 2 农民盂起j 房 2 5 夏大荷化歼放 3 8 农民种植果树5 0 交给那些持有证书的 1 3 苏联代表世界2 6 贝工询l l u j 老板 3 9 _ t 人生广:丁表泫因武器制造商 该语料库同时提供了语句的拼音标注,以及每个音节所对应的抽样时间 点,格式为“水1 a b 。表2 3 所示语句“就是下雨也去”,一个女性说话人在愤 怒的情感状态下的标注文件,其中s i l 表示停顿。 表2 3 标注文本示例 起始抽样点结束抽样点拼音 02 8 9 0 0 0 0s i l 2 8 9 0 0 0 0 4 1 9 0 0 0 0 j i u 4 4 1 9 0 0 0 05 5 1 0 0 0 0s h i 4 5 5 1 0 0 0 0 8 1 6 0 0 0 0 x i a 4 8 1 6 0 0 0 0l0 0 8 0 0 0 0 y u 2 l0 0 8 0 0 0 01 1 6 7 0 0 0 0 y e 3 1 1 6 7 0 0 0 01 1 8 8 0 0 0 0s l l 1 1 8 8 0 0 0 0l4 0 4 0 0 0 0 q u 4 l4 0 4 0 0 0 0l7 9 0 0 0 0 0 s i i 。 9 山东大学硕士学位论文 第三章情感语音特征参数的分析和提取 选择能够体现情感信息的语音特征是进行语音情感识别的关键。需要在分 析各种备选语音情感特征参数的特点和提取方法的基础上,确定实验所用模型 和参数。进而对情感语音数据库的大量情感语句进行统计实验,论证备选特征 的合理性。 3 1 语音信号预处理 受声门激励和口鼻辐射影响,语音信号8 0 0 h z 以上的高频端幅度会下降, 因此在对语音信号进行谱分析时需要进行预加重处理。可通过一维数字滤波器 对语音信号进行高频增强。语音信号在1 0 3 0 m s 的范围内可认为是短时平稳 的,通常采用有限长度的窗函数将语音信号分帧,从而进行短时分析。 h a m m i n g 窗旁瓣衰减较大,能够较准确地反应短时信号的频率特性,因此在语 音信号处理领域被广泛应用。 在对语音进行特征提取时,正确判断输入语音信号的语音部分和无声部分 是非常重要的。另外,本文分别研究了情感语音清音段和浊音段的语音特征的 情感辨识能力。凶此,有效的“浊音清音无声”判断是进行后续研究的基础。 本文采用双门限检测法进行语音信号的端点检测【2 5 1 。 3 2m f c c 参数提取 m f c c ( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 参数将人耳的听觉感知特性和语 音的产生机制相结合,是语音和乐音信号处理技术中广泛使用的特征【2 6 1 。研究 者根据心理学实验得到了类似于耳蜗作用的一组滤波器组,模仿人耳对高频语 音信号敏感的感知特性。m e l 频率可用如下公式表示: 氏= 2 5 9 5 l o g ( 1 + f 7 0 0 ) ( 3 1 ) 按公式3 1 将语音信号的频率变换到m e l 域后,按照m e l 频率的排列设计 带通滤波器组的巾心频率。在实际应用中,m f c c 参数计算过程如下: 将语音信号进行预处理,包括分帧,预加重和加h a m m i n g 窗,进行短时傅 里叶变换得到其频谱。 1 0 山东大学硕士学位论文 计算频谱平方,得到信号能量谱,应用m 个m e l 滤波器对其进行滤波,将 每个滤波器频带内的能量相叠加,则第七个滤波器输出功率谱为z ( 七) 。 为得到相应频带的对数功率谱,将每个滤波器的输出取对数,并进行反离 散余弦变换,得到三个m f c c 系数。m f c c 系数为: 旦 e = 芝:l o g x ( k ) e o s x ( k - 0 5 ) n m , 甩= 1 , 2 ,l( 3 - 2 ) 量! l 在一些情况下,除了m f c c 参数以外,还需要m f c c 参数的动态变化特 征。实验中提取1 3 阶m f c c 参数,以及相邻两帧之间m f c c 参数的一。阶、二 阶差分组成的3 9 维m f c c 特征矢量作为情感分类器的输入特征。 3 3 基音轨迹参数定义及提取 基音周期是指声带振动频率的倒数,通常采用短时平均的方法来估计,基音 周期的提取过程称为基音检测【2 6 1 。汉语是一种声调语言,声调由基音的变换模 式体现,同时,基频轨迹的变化特点蕴含着丰富的韵律信息,对于语音情感特 征的分析具有重要意义。 浊音信号的自相关函数在基音周期的整数倍位置上出现峰值,而清音的自 相关函数没有明显的峰值出现。因此可通过检测浊音峰一峰值的方法进行基频检 测。这种方法通常称为自相关法具体步骤如图3 1 所示【2 7 】。 阿圈 图3 - 1基频检测算法流程图 基频检测算法通常采用带通滤波的方法对语音信号进行预处理,带通滤波 器带宽为5 0 5 0 0 h z ,可以滤除高次谐波分量,有效去除低频电源干扰和大部分 共振峰和对基音周期检测的影响。 通过双门限算法和短时能量分析相结合的方法对语音信号进行清浊音判 断,对浊音段重新进行分帧番n ) j n 窗处理,窗长一般至少大于两个基音周期。实 验中帧k 取4 0 m s ,帧移5 0 ,采用h a m m i n g 窗。 对于每一帧浊音信号,进行自相关分析,得到自相关函数的最大值。对于 长度为的加窗语音信号s 。( ,z ) 其短时自相关函数为 山东大学硕士学位论文 r 。( 尼) = s 。( 刀砖。( 刀+ 七)( 3 3 ) n = 0 自相关法得到的基频轨迹与真实的基频轨迹不可能完全吻合,在一些局部 区域中有若干基频值偏离正常轨迹,称之为野点。由于语音信号的基音频率通 常情况下是缓慢连续变化的,因此可采用中值滤波或线性滤波的方式对基频轨 迹进行平滑处理。 由于语音情感识别的研究多是以句子为单位的,需要对整个情感语句的基 频特征进行统计分析,形成固定维数的特征矢量,作为情感分类器的输入。表 3 1 分别记录了情感数据库中男声和女声的基频统计特征。 表3 1情感语音基频统计特征 甲均值( h z )动态范围( h z )平均变化率( h z 帧) 情感类型 男女男女男女 高兴 2 5 8 93 6 5 36 0 68 8 37 67 2 愤怒 2 2 4 53 2 2 45 8 58 0 28 55 9 害怕 1 7 9 32 8 3 53 1 37 6 82 32 5 悲伤 1 8 0 72 6 6 73 4 47 3 32 42 8 惊奇 2 7 8 54 2 2 27 2 91 2 0 28 21 0 9 中性 1 8 2 32 7 8 35 1 26 0 83 85 4 其中,平均变化率一项由整个语句浊音段的基频差分求平均得到。可以看 出,各情感状态下,女性语音基频平均值高于男性1 0 0 h z 左右,并且总体上, 女性语音基频变化范围和基频平均变化率均高于男性。考虑到情感之外的可变 因素对基频轨迹的影响,仪仪对各种情感状态下基频特征的绝对值进行分析是 不够的,需要进一步分析5 种情感状态下基频特征相对于中性情感的变化。分 别计算高兴、愤怒、害怕、悲伤和惊奇情感语句的基频统计特征与中性情感状 态下的比值,并以直方图的形式表示,如图3 1 所示。 可以看出,不同性别下5 种情感的基频统计特征体现出一致的规律:相对 于中性情感,高兴、愤怒和惊奇的基频平均值较大,而悲伤和害怕的基频平均 值较小。惊奇和愤怒的基频动态范围和平均变化率都很大,而悲伤和害怕的则 与中性情感状态相接近。对于情感语句基频平均变化率这一特征,男女声之间 的差异较小。 由上述分析可知,基频轨迹的统计值,包括均值、变化范围、和平均变化 率等,均可作为韵律特征矢量的分量,表征在不同情感状态下语音的韵律特征 差异。 山东丈学硕士学位论文 ( a ) 男性 ! i i “n “i 一 声音的响度蕴含情感信息,在实际生活中可以有直观的感受。当人们处在 高兴、愤怒或者惊奇的情感状态下,声音的响度会增强,而当处在悲伤或害。晌 的情感状态下时,响度会降低。语音的能量包络的统计信息,在一定程度上叫 以反映情感的变化。本文从语音对数能量的平均值及平均变化率两个方面对不 同情感语句的能量特征进行分析比较。实验中取窗长 o r e s ,窗移为5 0 的矩形 窗,求取每帧语音信号的短时能量并分析其随时间的变化情况。 图3 3 比较了不同情感状态情感语句的对数能量平均值的统计结果。害怕 和中性能量相近,悲伤的能量水平较低,高兴、愤怒和惊奇的能量较高。这与 人对声音响度的直观感受相符。就对数能量平均值而言,语音的情感特征的性 别差异上并不明显。 中性恐伤鬲害怕愤怒嶂奇 。 中性峦伤高只害怕啤鬈佾奇 男性( b 成性 冈3 - 3 对数能量均值直方矧 韵律特征体现在能晕包络的变化中,本文对对数能餐包络随语音帧的变化 特l i 也进行了相应研究。图3 4 给了不同情感状态下对数能量的平均变化 率。由图i - j 知,在惊奇和愤怒的情感状态卜语音能量变换较伙,而悲伤和中 1 3 山东人学硕士学位论文 性的情感状态下,能量变化较慢。对于高兴情感状态,女声比男声的能量变化 稍快。 一: f - ) 男性 图3 - 4 3 5 时间参数定义及提取 仙 对数能量平均变化率直方图 语音时长的相关特征也包含了韵律信息。传统的情感语音时问构造参数分 析中,通常把语速作为区分情感状态的一个有效特征,单位是字节秒。本文统 计了相同文本的语句在不同情感状态下的语速特征,如表格3 2 所示。图3 5 给 出了不同情感下情感语句的语速与中性情感状态f 语速的比值。从图中可以看 出,在惊奇和愤怒的情感状态下,说话人的语速会变快,而在害怕和悲伤的情 感状态下,语速变慢。这是由于在不同情感的影响下,一些音节的发音被拖k 或压缩的缘故。总体看来,男声比女生的语速快一些。 图3 5 语速比值盲方图 表3 2 情感语音时间构造 高兴愤怒害怕,出伤惊奇q 1 性 情感类型 男女男女男女男女男女男女 平均时长( 秒) 2 62 4 73 1 33 0 91 7 71 6 41 7 51 6 93 2 43 182 52 3 语速比值 1 1 51 1 21 2 61 2 80 7 lo 6 70 6 40 7 21 3 21 3 1l1 农3 2 中语速的计算用到情感语句从丹始剑结束的持续时间,包括无声部 分,囚为无声部分本身是对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论