




已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)语音信号中情感信息的分析和处理研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语音信号中的情感分析和处理研究 硕士研究生:周沽导师:赵力教授 东南大学无线电工程系 本篇硕士论文介绍了语音信号中情感信息的分析和处理。语音信号处理作为一个研究领域,已 有几十年的历史。传统的研究仅着眼于语音信号传达的准确性,而忽略了其中所包含的情感信息。 本文针对汉语普通话发音中包含的情感特征信息进行了提取和分析处理,此项硼f 究和相关实验方法 还未见之于国内的文献,再加上汉语语音的独特性,所以本文中提出的一些方法和实验数据仅是初 步的结果。 首先将情感类型大致划分为欢喜、愤怒、惊奇和悲伤四种。然后请擅长表演的舌者对设计好的 文本施加各种情感发音若干遍。为了建立有效的情感语音库便于t f 亓续处理,对这些发音逐句进行了 有意性检定并进行了增删。 我们分析了和韵律特征相关的参数变化情况,还选择了非韵律特征参数( 如共振峰) 的变化情况。 为了比较情感发音相对于平静发音在特征参数上的变化,我们选择了涉及时长、基音周期、振幅和 共振峰等四个方面共九个参数进行了对比实验研究,使用,如峰值检出法等一些成熟算法得出了具 体的数量变化和比值直方图。 不同情感语音的识别研究是本文的重点。在基于非时问序列特征的情感语音识别中,我们在主 元分析法的基础上,使用大量数据形成了不同情感语音的模板,然后提出了三种方法对含情感的语 音进行了判别实验。实验结果表明,三种方法的识别率均达到了8 0 以上。 我们还进行了基于时问序列特征方而情感语音识别的研究,提出_ 基于m o d r 和基于的 情感特征识别方法。经过对情感测试语句识别实验结果表明,使用该识别方法获得了较好的识别效 果。 关键词:情感语音信号,有意性检定,峰值检出法,主元分析,m o d f , 批9 a b s t r a c t a b s t r a c t j no 坩e r t op u s bt h er e 】u c t a n tr e s e a r c hj nd o m e s t j ca c a d 锄i cc j r c j e ,j n t r o d u c e dh o wt o 卸a l y s e 肋d p m c e s se m o t i o n a l i n f b i t n a t i o no fs p e e c hi n t h j st h e s i ss i n c et h e 佗1 a t i v e “p l o r i n ga 1 1 de x p e r i m e n t a l m e t h o di sn o ts e e ni nt h ed o m e s t i cl i t e r a t u r e s ,廿1 em e t h o d s 锄dd a t ap r e s e n t e di n t h i sp a p e ra r eo n l y p r e l i m i n a r y a sa n t i a t i v er e s e a r c h ,w ed l v i d et h ee m o t i o ni n t oh a p p i n e s s ,a n g e ls u i p r i s ea n ds a d l l e s s t h e nw e l e ts e v c m ip e r s o l l sw h oa r eg o o di np e r f o m l a 工1 c ea 1 dh a v eag o o dc o m m a n do fm a n d a “nr e a dt h e 把x t s w i t hf o u re m o o n a is t a 把sm a n yt i m e sw h i l em a k j n gt h er c c o r d i n 舻i no r d e rt om a k et h ee m o t i o n a l u t t e r 肌c e sb 蛳ke f f b c t i v ea n db ec o n v e n i e n tf o rf o i l o w i n gp r o c e s s i n g ,w em a d et h ee f f e c t i v ei n v e s t i g a t i o n f o re v e r yu t t e r a n c e t ba c c o u n tf o rn o r r na 1v i b r a t i o n si ns p e e c h ,n n ef e a t u r ep a r a m e t e r si n c l u d i n gd o m a i n ,p i t c h ,e n e 唱y a n df o n n a n to fs p e e c hw a v e f o r mw e r ec a l c u l a t e d d i 行色r e n c e sb e t w e e nn e u t r a la n de m o t i o n a ls p e e c hw e r e f o u n d t h er e c o g n i t i o nr e s e a r c hf o re m o t i o n a lu t t e r a n c e si s 血em a i na s p e c to ft h ep 印e ro nt h eb a s i so f m a i nc o m p o n e n ta na l y s i s ,w em a d e 血et e m p l a t e sf o rf o u rt y p e so f e m o t j o n a ls p e e c hu s i n gl a 7 9 ea m ou i 】to r s p e e c hd 咖w ep r e s e n t e dt h r e em e t h o d st or e c o g n i z et h e t e s tu 仕e r a l l c e t h ee 彘c ts h o w st h a tt h e r e c o g n i t i o nr a t ea r em o r et h a n8 0 w h i c hi sc l o s et ot h eh u m a l l et a s k k e yw o r d s :e m 。t i o n a ls p e e c hs i g n a l ,e 船c t i v ei n v e s t i g a t i o n ,p e a l 【p i c k i n g ,m a i nc o m p o n e n ta n a l y s i s , m o d f ,埘- 埘d 学位论文独创性声明 本人声明所呈交的学位论文足我个人在导师指导下进行的研究:】:作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 签名f 至丝日期:望巫:生 关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生 院办理。 日期:兰坚:兰 第璋绪论 1 1 问题的提出 第一章绪论 随着信息技术的高速发展和人类对计算机的依赖性的币断增强,人机的交互能力越来越受到研 究者的重视。如 口j 实现计算机的拟人化,能感知周阳的环境、气氛,对象的态度、情感等内容,白 适应地为对话对象提供虽舒适的对话环境,尽量消除操作者和机器之问的障碍,已经成为了下一代 计算机发展的目标。斯坦福大学的r e e v e s 和n a s s 的研究发现表明”j ,在人机交互中所需要解决的 问题同人和人交流中的重要因素是一致的,最重要的都是“情感智能”的能力。因此计算机要能够更 加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断米调桨对话 的方式。现代计算机多媒体技术的不断发展,使能处理包含在媒体中的情感信息的拟人化的多媒体 计算机系统的研究越来越引起人们的兴趣。而本项目的研究就有助丁实现拟人化的多媒体计算机系 统。另外,本研究还可以进一步提高计算机语音信号处理的能力,尤其在语音理解和语音会话系统 方面,利用讲者的情感信息可以大大提高识别正确率和效率。再者,利用本文的研究技术可模仿各 种特殊的声学环境,如在军事、公安和其他特殊领域上用户可通过情感信息处理技术从计算机上获 取更多的信息,增加可靠性。所以,包含在语音信号中的情感信息的分析和处理研究是一个意义重 大的研究课题。分析和处理语音信号中的情感特征,判断和模拟蜕话人的喜怒哀乐等方面的研究具 有理论方面和应用方而的重要意义。 1 2 情感信息分析和处理研究的成果和前景 从心理学和生理学的角度对情感的研究已有较长的历史。然而从丁= 程学的角度把情感作为信息信 号工学的研究对象来进行研究还刚刚开始。从语号情感的研究方面来看,最初,在8 0 年代末9 0 年代初 期,为了建屯语音理解和语音会话系统的会话模型,有人进行了根据说话人语音的韵律变化来判断说话 人的态度,意图,从而控制人机会话过程的研究。这也许足最甲- 从工学处理的角度来处理情感信息。从 9 0 年代中后期开始,随着计算机多媒体信息处理技术等研究领域的d 现,各国才开始重视情感信息处 理技术的研究,1 9 9 6 年日本文部省作为重点研究领域曾下达了“情感信息处理的信息学、心理学研究” 的重点课题,参加该项目的有十几个学校和研究单位( 研究代表者:人板人学的迁i 郎) ,主要目的是把 情感信息的研究从心理学角度向心理学、信息学这一交叉学科领域过度。从几年来的研究成果来看,有 关情感信息的工学处理方法等方面的研究成果非常少,较多的是对情感信息韵律特征表现的观察和分 析,同时,在情感特征的识别方面,利用重回归分析、主元素分析等多变量解析方法取得了8 7 1 以上 的平均识别率口j ,利用神经网络技术进行情感识别的研究也被进行,但由于情感特征学习收敛性存在问 题,并没有得到好的结果。 对于情感识别研究包括多个方面,如肢体情感识别、面部情感识别和语音情感识别。各国在这些方 而都投入了人量的资金进行研究。美国的m i t 媒体实验室的a 舶c t i v e c o m p u t i n gr e s e a r c h g m u p 就 专门研究机器如何通过对外界信号的采样,如人体的生理信号( 血压,脉搏,皮肤电阻等) 、面部快 第一章绪论 照、语音信号来识别人的各种情感,并让机器对这些情感作出适当的反应【3 】。目前,关于情感的研 究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。传 统的以人工智能为代表的信息处理技术是用机器来实现理解和认识用符号表示的客观事物,它是立 足在利用客观知识为基础的处理符号信息的“无神经”的知识世界。实际上任何一个信息系统都是一 个感知器,它既有知性的一面,也有感性的一面。根据近年来脑生理科学的研究结果可知,人们知觉的 信息首先是通过所谓的感性滤波器被感知和被认识的【4 j 。人们通过视觉和听觉等获取信息时,不仅 要理解它的符号理论意义,而且还必须理解它的感性意义。知识信息处理是用机器来实现理解、认 识、再现用符合表示的客观事物,感性信息处理是用机器来代行人们对事物情绪的主观感觉,两者 都是认识事物的必要组成部分。所以现在的知识信息科学世界只是反映了信息的一个方面,与知识 信息世界相对应且具有同等重要地位的感性信息科学世界,也是信息和信息处理领域的重要组成部 分,情感信息特征的人工处理,在信号处理和人工智能等领域具有重要意义。日常通过听觉获得的语 音信息是一种模式信息,这种模式信息既包含符号信息,也包含非符号信息。传统的语音信号处理 把模式的变动和差异作为噪声通过规则化处理给去掉了,然而这种非符号信息是人们感知模式的重 要的必不可少的部分信息。所以情感信息处理的日的之一可以说是一种传统的被去掉的噪声信息的 复权。实际上,人们利用各种感觉器官同时接受各种形式的信息,怎样有效地利用各种形式的信息 以达到最佳的信息传递效果,是今后信息处理研究的发展方向。所以包含在语音信号中的情感信息 的计算机处理研究是一个意义重大的研究课题。 但姓,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需 要进一步深入研究的课题。如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特 征;对情感语句中主要反映情感变化的关键词和短语的研究;在以后的工作中,对这几方面需进行更多 更深入的研究。 1 3 本文研究的内容 由于汉语普通话发音中包含的情感特征信息研究还处于初级阶段,需要有一个内容丰富的、多 话者发音的、含有多种情感发音的,并且是有效的语音库供研究用,本课题建立了这样一个语音库。 选择能够反映情感特征的参数是本研究的重要方面,我们选择了时间构造、基音构造、振幅构 造、芡振峰构造等四个方面的九个参数进行了研究。 我们除了在基于非时间序列特征方面对情感语音进行识别研究外,我们还进行了基于时间序列 特征方面情感语音识别的研究,并提出了基于m o d f 和基于 血z d 的情感特征识别方法。 一情感语音库的建立 选择合适的情感分析用语音资料具有重要意义。然而,现在情感分析用语音资料的标准和分析 条件还没有被提出。本文对分析实验用语句的选择主要考虑了以下两个方面。第一,所选择的语句 必须不包含某一方面的情感倾向;第二,必须具有较高的情感自由度,对同一个语句能施加各种情 感进行分析比较p 】。根据这两个原则,我们让多位话者将我们收集到的适合转变成为各种情感的语 句各按喜、怒、惊、鼍和平静方式发音若干遍。为了保证语音库的适用性,我们做了一个听音实验, 就是让发音话者以外的听者对这些情感语音进行判别,分别记录下听出来的人数和没听出来的人数, 2 东南大学硕士学位论文 用m c n i m e r 判别方法计算情感语句的有效性。把有意性水准不够的发音删除,从而形成一个能对 库中情感发音进行各种分析和处理的有效情感语音库。具体将在第二章中阐述。 二情感特征参数的分析和提取h 我们根据人的发音机制和听觉系统对情感信息感受的机理,提取了九个情感特征参数,分别是 语句发音持续时间( t ) ,平均基音频率( f 0 ) ,最大基音频率( f o 。) ,基音频率的平均变化穿( f n 。) , 平均振幅能量( a ) ,振幅能量的动态范围( a ) ,第一共振峰平均值( f 1 ) ,第一共振峰的动态范围( f 。 。) 以及第一共振峰的的平均变化率口lr a f e ) 。作为情感分析和识别用参数。 为了使求得的参数尽可能地准确,一方面,我们兼顾频率分辨率和时间分辨率的统一,另一方 面,选择比较合适的算法。为了对比情感语音和平静语音在特征参数上的相对关系,我们作出了各 情感特征参数和平静参数的比值直方图,这里取平静特征参数值为l 。另外,还具体演示某些语句 的特征参数曲线。 表1 1 是本文中对算法和基本参数的选择。 表1 1 特征提取中的参数和算法选择 鳓采样频率量化阶数帧长( 点)窗型l p c 阶数算法 符征( k ) 基音频率 l l1 62 5 6汉明窗1 5 l p c 残差 振幅 1 11 61 0 0 矩形窗 帧内累加 共振峰 1 l1 62 5 6 汉明窗1 5 峰值检出 三基于非时间序列特征情感语音识别 情感语音的识别属于模式识别的一种,是建立在特征参数提取的基础上。为了去掉语句内容和 发音人对识别的影响,我们实际使用的是情感特征参数和平静参数的相对值作为原始特征参数矢量。 考虑到具体情况,我们使用了语句发音持续时间长度、f o 的平均变化率、f 平均变化率和相应的平 静语句的值的比值:情感语句平均振幅能量、振幅能量的动态范围、f 。的平均值、f o 的最大值、f 】 平均值、f 】的动态范围和相应的平静语句的值的差值。 我们从语音信号中提取了九个有代表意义的特征参数变量,由于这些变量之间存在着相关关系, 我们希望通过一个正交变换以消除各变量之间的相关关系,即使正交变换后新变量之间的协方差为 0 ,从而使数据分析简单化。另一方面,我们从语音信号中提取九个参数从不同角度说明了语音信号 中包含的情感信息,因此希望设计出一个综台指标,它一般地表示语音信号中包含的情感信息。本 文中使用的主分量分析就是一种把原来多个指标化为少数几个相互独立的综合指标的一种统计方 法。本文在主分量分析方法的基础上提出三种情感判别方法。经过对2 0 0 句情感测试语句使用 m a t l a b 的仿真识别实验结果表明,使用本文提出的识别方法获得了基本上接近于人的正常表现的 识别效果。另一方面,所选韵律等情感特征参数对欢快和惊奇的识别效果还不很理想。今后的工作 主要集中在寻找更有效的情感特征参数和识别方法,在更广的范围进行进一步的分析和识别实验。 第一章绪论 图1 2 表示了学习和识别的具体步骤。 四基于时间序列特征情感语音识别 针对现有情感识别研究中基本都是使用整个情感语句为单位的全局特征,没有考虑情感语音的 时序结构特征的问题,本文研究了情感语句全局特征和元音时序结构特征并用进行语音信号中情感 特征分析和识别的方法。针对含有欢快、愤怒、j 凉奇、悲伤等4 种情感的语音句子,分析了它们的 时间构造、振幅构造、基频构造和共振峰构造的特征。并根据这些分析,利用整个句子的全局和各 元音时序结构的组合特征进行了情感识别实验。同时针对特征维数的增加,还提出了一种基于修正 型2 次判别函数( m q d f :m o d m e do d f ) 以及修改型马氏距离判别式( 机f d :埘b d i f i e d 胁h a l a n o b i s d 7 s ta r i c e ) 进行情感语音识别的方法。对于从1 0 名话者中搜集的l 0 0 0 句情感语句,获得了较好的平 均情感识别率。今后的工作主要集中在寻找反映情感变化的关键词和短语的时序结构特征上,改变 现有方法中特征参数过多的问题;寻找更适合于语音情感特征识别的方法, 识别 语句 4 训练语句集 圈1 _ 2 学习和识别方法框图 识别 结果 塑三主堕壁堕童堕塑垄皇塑塑塑生堕塞一 第二章情感语音库的建立和有意性检定 2 1 情感的分类 要研究语音的情感,首先需要根据某种特征对情感做一个有效合理的分类,然后在不同类 别的基础上研究特征参数的性质。经过p l u t c 蛐k 等人的多年研究,通过在激活一评价空间上对情 感进行分析,认为情感分布在一个圆形的结构上。结构的中心是自然原点。对于自然原点,认为它 是一种具有各种情感因素的状态,但是由于这些情感冈素在该点的强度太弱而得不到体现。通过向 周围不同方向的扩展,表现为不同的情感。情感点同自然原点之间的距离体现了情感的强度。由于 各种情感在自然原点的周围排成了一个圆形,所以这种对情感进行分类的方法叫做“情感轮( e m o t i o n w h e e l ) ”。在情感轮所组成的二维平面中,对于任何一个情感矢量e ( m a g ,a i l g ) ,可以通过测量该矢量 的长度m a g 来确定情感的强度 期望 生气 图1 情感轮( e m o t i o nw h e e l ) 惊奇 不同于p i u t c h i k 的分类手段,f o x 提山的三级情感模型【7 】,则是按照情感中表现的主动和被动的 程度不同将情感分成不同的等级( 见图2 ) 。等级越低,分类越粗糙,等级越高,分类越精确。 除上面提高的这两种分类方法外,还有其它一些基丁二不同原理的分类方法。如基于不同情感表 现行为的分类,基于生理特征的情感分类等。尽管这些方法再原理上有所区别,但是都具有近似的 表现形式,目前在语音情感研究中常用的情感分类大多是8 情感模型( 如图1 中所示8 种情感) 或者4 情感模型( 喜、怒、惊、悲) 。 本文采用4 情感模型,把情感划分为欢快、愤怒、惊奇、悲哀等四种。我们尽可能将通常认为 的所有情感纳入此分类中。 , 伤,悲 点 赚 一 一 自 一 、恶 、 厌 东南大学硕士学位论文 a p p r o a c h w j m d r a w a l 2 玎d l e v e l j o y i m e r e s t a n g e r d i s t r e s s d i 蹭u s t f e a r p r i d ec o n c e m h o s t i l i t y b 1 i s s r e s p o n s i b i l i t yj e a l o u s y 图2 f o x 的情感3 级分类模型 2 2 情感语音数据库的建立 2 2 1 原始数据库收集的客观条件 m i s e r v a g o n y c o m e m p t r e s e n t m e n t h o ”o r a m ( i e t v 录音是在本教研宝的实验室进行的,场地较火,无回声干扰。门窗紧闭,排除了一切来自外界 的嵘音。录音时只有本人和实验者两人在场,尽量保持室内安静。我们使用索尼d a t ( d i g i t a l a u d i 。 t 却er e c o r d e r ) 设备和高保真头带式话筒完成录音。录音数据使用创通公司p c l 6 4 位声卡通过采样率 为1 2 k h z 、量化位数为1 6 b i t 的a ,d 变换转化成数字信号存储在p c 机中。 本研究中共有发话者1 0 人,均为本教研室的同学,且都是男性。年龄从2 3 岁到3 4 岁,四人来自江 苏省;三人来自陕西省,其余分别来自湖北省、安徽省和四川省。发音时无任何喉病且普通话较标 准。 在本研究中,包含情感的语音数据的收集是是重要的,同时也是最困难的事情。每一位话者对 各种感情的理解可能不同,对所选语句内容的理解可能也不尽相同。即使某一语句从内容上具有某 种情感倾向,但经某话者发音后,用信号处理分析后未必是有效的。本文对分析实验用语旬的选择 主要考虑以下两个方面【”。第一,所选择的语句必须不包含某一方面的情感倾向;第二,必须具有 较高的情感自由度,对同一个语句能施加各种情感进行分析比较。根据这两个原则,这样一来,为 了得到有效的情感语音数据,我们根据以上两个原则细分出以下选择语句的原则。 a ) 发话时间控制在1 秒3 秒之间。 b ) 尽可能选择那些适合在各种情感f 表达的语句,也就是说,所选语句尽量不偏向 某种情感。 c ) 尽量避开那些无声的辅音,如c 、p 、s 、t ,因为这些音会引起基音周期轨迹的不 连续。 d ) 减少语句中的助词成分。 e ) 用普通话表达情感,不能带有各种方言。 f ) 如果某语句表达某种情感有困难,经过少许修改即可以表达。 g ) 男性和女性均适用。 6 第二章情感语音库的建立和有意性检定 在实际选择语句时,以上原则不可能都满足,但应优先照顾前面的条件。条件a 指出语句的 长度在1 0 2 0 音节。条件b 对语句的内容加以限制,但条件f 进行了缓和。因为某些方言有其独 特的表达情感的方式,所以为了保持一致,均用普通话发音。语句中的_ i 匀词容易被发话者省略,这 样整个语句的情感色彩会发生一些变化,所以尽量减少助词。 2 2 2 有效数据库的建立( 有意性检定) 本文用有意性检定的方法对以上收集到的原始数据进行处理。根据参考文献 9 ,有意性检定也 称为m c n e m a r 检定,是对某种处理的结果进行统计性检定,以确定这种处理是否有效的一种方法。 具体到本研究,将检定前后的结果按以下类别进行分类。 检定前检定后判别的人数 既定的平静或情感语句正确的情感语句 其它类别 图2 2有意性检定示意图 d ( 人) a ( 人) 我们按照以l 示意图做了一个听取实验,就是让与发话者无关的若干听者听所有的经过情感处 理后的语句,并且不让听者知道所听语句的情感类型。听过之后,让听者回答所听语句的情感类型。 a 表示对某一语句回答为预定情感类型的人数,d 表示为回答为其他类型( 包括不能确定) 的人数。 在a d 和a = d 的时候,我们可以直接断定某一施加了情感处理后的语句是无效的。在a o s g n x ( 3 6 ) l 一1 当x o 3 3 2 加窗分帧处理” 众所周知,语音是非平稳随机过程,其特性是随着时间变化的,所以图3 - l 模型中的岛,爿y ,如 浊音清音开关以及声道模型中的参数口l 口。都是随时间而变化的。但这种变化是很缓慢的。所以, 进行预加重数字滤波处理后,就要进行加窗分帧处理。一般每秒的帧数约3 3 1 0 0 帧,基于此,就 可以将语音信号分为一些相继的短段进行处理。这些短段一般长l o 2 0 m s ,称为帧。为了使帧与帧 1 3 东南大学硕士学位论文 之问平滑过度,保持其连续性,相邻的帧可以有部分重叠。分帧是用可移动的有限长度窗口进行加 权的方法来实现的,这就要用到一定的窗函数w ( n ) 来乘信号x ( n ) ,从而形成加窗语音信号 x w ( n ) = x ( n ) t w ( n ) ,其短时傅里叶变换定义为式( 3 7 ) : 石。0 ,”)x ( m 加0 一所k 1 “ ( 3 7 ) 这是透过位于n 处的窗口所观察到的语音短段的傅里叶变换。n 取不同值时,窗w n 一) 沿时 间轴滑到不同位置,取山不同的语音短段。因而并。0 一) 不仅是频率w 的函数,而且还是时间n 的 函数,这反映了语音信号的频谱随着时间变化的性质。 移动窗的形状对丁j 短时傅里叶变换有很大影响。常用矩形窗和汉明窗。 矩形窗为 1 , o ! n 9 4 - 1 w ( n ) = o匿l e u h l 东南大学硕士学位论文 图3 、8 各种情感的f 0 参数相对值图3 _ 9 各种情感的f 0 曲线 表3 1 各情感语音的参数平均值 隋感类型最人值( i i z )平均值( h z )平均变化率( h z 帧) 喜2 6 2 72 0 0 36 2 l 怒2 3 331 7 599 9 4 慷2 9 4 9 2 3 66 9 1 5 悲1 7 6 31 4 0 92 5 6 平静1 7 7 9 1 3 8 24 4 6 和平静语音信号相比、欢快、愤怒和惊奇的平均基频、动态范围、平均变化率比较大,而相 反,悲伤语音信号的则较小。对比较大的欢快、愤怒、惊奇来讲,惊奇语音信号的特征量最大,其 次是欢快和愤怒。另外,通过观察语音信号的基频轨迹曲线,我们发现了一个区分惊奇和其它情感 信号的重要特征,那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。 3 5 2 共振峰提取算法和轨迹参数定义 由于声道可以看成一根非均匀截面的声管,当准周期脉冲激励进入声道时会引起共振特性,产 生一组共振频率,即共振峰,其参数包括共振峰频率和频带宽度。共振峰信息包含在频谱包络中, 认为包络中的最大值就是共振峰。本文利用线性预测进行频谱包络峰值估计来求取共振峰参数。 语音的传输模型函数一般用下式的全极点模型表示: g 1 + 即“ 其中的全极模型的系数a ( 就是线性预测法求得的系数。 在时域上表示全极模型时,有 又由 由以上两式得 巳= + 掣。 ( 3 2 8 ) ( 3 2 9 ) ( 3 - 3 0 ) ( 3 3 1 ) 输入信号u 。与误差信号岛i 成正比,其比例系数就是全极模型的增益g l 式表明误差信号 的总能量与g u 。的总能量相等,求误差信号e 。的总能量可变成求增益g 。因此可求出误差信号e , 的总能量2 。 n 甜g 一 j s , 一 = h s 第三章特征参数提取 口口口p s 2 = r + 2 q r + q q 咏一,= r + 2 q r t = lt = 1 ,= jt = 1 q 日= r + q r ( 3 3 2 ) 这就是误差信号e 的总能量。另一方面,当设i l n 为单位输入脉冲时,由于在n = o 时u 。为1 在其他时刻为o ,所以g u n 的总能量为g 2 。由此,g 2 由( 3 3 1 ) 式给出。 g 2 = 月o + d 风 因此,声道的功率传输函数可以表述为 日纠2 ( 3 3 3 ) ( 3 3 4 ) z 1 是信号的一次采样时间t 的延迟算子,用复频率s 则可将其记述为z = e x p ( _ s r ) 。因此 为求频率频谱,令j = ,珊,则有z 一= e x p ( _ ,r ) 。z _ 1 是角频率的函数,给定屙就可求出z 1 日g 】2 表示为下式 l f ,。m 71 2 。f f : i l 南 3 _ 3 5 ) 1 1 + 叩x p ( _ ,彬,m 。j 吨m 玎划s g 圳t g i ,+ 静e x p ( - ,彬1 2 p ,s , 此式第二项的 】括号中的式子为1 + 圭qe x p ( _ 刀矿厶。) ,对此多项式系列序数( 1 ,a 。,a 2 a p ) 进行d f t ,为了提高频率分辨率,可以采用补零的方法增加序列的时间长度,即_ 矸i j 1 ,8 1 ,a 2 ,8 k , o ,o 】 进行f f t 计算就可以求得功率谱,其中所求频谱个数为2 。令 e x p ( _ ,万:。) = 降7 2 3 南 + 卜矿m,卧 t13,211 东南大学硕士学位论文 则其功率谱如f 给定。 直流成分: l + d l o + 4 2 渺。十+ 矿o f 成分 2 f 成分 1 + 口i 1 + d 2 矿2 + - + d t 9 1 + 口l 矽2 + d 2 4 + - + 口女矿2 9 n f 成分 1 + 口1 形”+ d 2 2 ”十+ 印 从用f f t 而顺序求得的实数部分x ( i ) ,虚数部分y ( i ) , 具体计算过程如图3 1 0 所示 利用这种f f t 运算,得频谱值p ( i ) 为 p ( f ) = 2 0 l g g 一1 0 l g 防2 ( f ) + y 2 ( f ) 2 f = o ,1 ,2 。1 ( 3 3 7 ) x ( 2 ) + j y ( 2 ) 功同 速 室 傅 计 里算 变 换 x ( 2 。1 ) + j y ( 2 。一1) x ( 2 。) + j y ( 2 l ) 直流成分、 i f 成分i l2 i , 2 f 成分, i ( 2 。一1 ) f 成州 因为功率谱具有对称形状,所以只要计算到2 l 。1 的一半功率谱就可以了。 我们在本文采用峰值检出法( p e a kp i c k i n g ) ,即抛物线法求取共振峰。如图3 1 l 和3 - 1 2 所示。 第三章特征参数提取 硒一 似 把用某个频率间隔( 此间隔# f s 肘,f s 为取样频率,n 为其k 度对应的点数) 求得的频谱值,与前 个频谱值相比较,得出局部峰值频率为m f 。此时,对于频率( m - 1 ) f 、m f 、( m + 1 ) f 的功 率谱值分别为p ( m 1 ) 、p m 、p ( m + 1 ) ,把这三点示于图3 一1 2 上,用二次方程式即抛物线函数 p ( 舢= a r + b + c 来近似,并求出正确的中心频率f 。这里为了简单,设局部峰值频率m f 为o ,即 m f 为坐标原点建立坐标,此时脚1 = 0 ,且以等间隔的频率f 给出频谱值,从而来求二次近似式 的系数a 、b 、c 。此时,对应= 】二一f 、0 ,+ f 处的频谱值分别为p 1 ) 、p ( o ) 、p ( 1 ) ,可列出下列方 程组。 p 卜1 ) = 以一6 + c p ( o ) = c 尸( 1 ) = d + 6 + c 由此可得到系数为 :掣一p ( o ) ;。= 掣;c = p ( o ) 对于求极大值有下式 丢瑚+ c ) = o 求满足此方程式的丑。,有 一西 九,2 五。 得共振峰频率f 有 只= 以+ m 厂= ( 卺+ 坍) ( 3 3 8 ) ( 3 - 3 9 ) ( 3 4 0 ) ( 3 - 4 1 ) ( 3 4 2 ) 式中,f 是频率分辨率,即频谱上一个点相当的频率数;m f 是p ( o ) 处的频率,而砩f 是幽3 1 2 对应于共振峰的频率。 一奎塑查堂堡兰堡堡苎 共振峰带宽b i ? 可由条件p ( n w ) ,p ( b ) = o ,5 得出 再由下式的带宽 九;垫譬;霉 哪= 2 ( n 埘f 则此时的峰值的功率谱p d 写为 乞叫毗笔笔+ c 6 2 一石+ 6 ( 3 4 5 ) 由以上算法,可以在离散的等间隔频率f 给出频谱的情况下,求出其中心频率。对于全部的局部峰 值,可顺序求出语音的共振峰。我们按上述分析方法分析了十名男性话者的f i 的统计平均值,分析 结果如图3 、1 3 和3 1 4 所示。其中。图3 - 1 3 是各清感语音相对于平静语音特征参数比值的直方图表 示,图3 1 4 是是话者b 发语句“这下全完了”时的基频的逐帧演示。 口f 1 平均值口f 1 动态范围口f l 变化率 喜怒惊悲 平静 1 0 0 0 8 0 0 6 0 0 4 0 0 2 0 0 u 2 04 0 6 08 0 图3 1 3 各种情感的f - 参数相对值 图3 1 4 各种情感的f l 参数曲线 我们选择如下三个参数作为共振峰部分的特征参数:( 本文中出现的第一一共振峰频率均指频率最 低的共振峰频率) 1 第一共振峰频率的平均值 2 第一共振峰频率的动态变化范围 3 第一共振峰频率的帧变化率 令讲忙) ,= 1 ,2 ,上表示由上述算法求得的语音段的第一共振峰频率轨迹,l 表示整个 语音段包含的语音帧数,那么第一共振峰频率的平均值的表达式为 l, 西= 碰如) 乒( 3 - 4 6 ) = 1, 第一共振峰频率的动态变化反范围的表达式为 第三章特征参数提取 顽一= m a x 协 ) ) 一m i n ( 秭( ) ) 越 k越lk 第一共振峰频率的帧变化率的表达式如下,单位为h z 帧。 表3 - 2 情感信号的共振峰构造特征( 1 0 话者的平均) 情感类别 平均值( h z )动态变化反范围f h z l 平均变化孝( h z ,帻) 喜 5 8 76 5 6 2 8 0 怒 5 7 66 4 93 3 8 惊5 2 4 6 9 23 4 0 悲4 0 4 6 2 32 7 3 平静 5 4 26 0 13 44 ( 3 4 7 ) ( 3 - 4 8 ) 从图3 1 3 中我们可以看出,相对丁平静发音,欢快和愤怒的第一共振峰频率略微地升高了, 而悲伤的第一共振峰频率有明显的降低。通过进一步的观察,我们发现,这是因为人们在表达欢快 和愤怒时,嘴比平静发音时张得更大的缘故。而在表达悲伤时,除了嘴张得比平时更小以外,还伴 有模糊不清的鼻音。四种情感的第一共振峰频率的动态范围均比平静时要火,其中,惊奇最大。而 四种情感的第一共振峰频率的变化率均比平静时要小,其中悲伤最小。 3 5 3 振幅参数定义 一般米讲,信号的振幅特征与各种情感信息具有较强的相关性。因此,在一些有关情感分析的 研究中,振幅构造特性都是作为重要特征加以分析研究的。本文主要针对振幅平均能量以及动态范 围( 分别简称为a 和am n d 等特征量进行分析比较。我们按窗长2 1 3 3 m s ( 2 5 6 点) ,窗移1 0 m s 的矩 形窗,求取语音信号每一桢的短时能量,分析它们随时间的变化情况。而且为了避免发音中无声部 和噪音的影响,我们只考虑短时能量超过某一阈值时的振幅绝对值的平均值。分析结果如酬3 1 5 所 示,同时图3 1 6 显示了话者b 发语句“啊,f 雨了”时的振幅能量的逐帧演示。 表3 _ 3 情感信号的振幅构造特征( 1 0 话者的平均) 情感类别最大值平均值 喜 2 1 2 39 1 2 怒 2 3 2 26 2 5 惊 1 7 5 47 5 0 悲5 0 32 4 7 平静 1 0 9 24 5 5 、j 伍西 。m 1 l m 酾 东南大学硕士学位论文 从分析结果可知,欢快、愤怒、惊奇3 种情感发音信号和平静发音信号相比振幅将变人,相反 地,悲伤和平静相比,振幅将减小。而且从听取实验可知,情感信号具有这样的倾向,即,欢快、 愤怒、惊奇的平均振幅越火,悲伤的平均振幅越小,其情感效应表现的越明显。利用振幅特征,我 们可以很清楚地把欢快、愤怒、惊奇和悲伤区分开来,另外,振幅特性也具有一定的区分欢快、愤 怒和惊奇情感信号的能力。 四振幅能量平均值日振幅能量动态范围 2 1 5 l o 5 喜 怒 惊 悲 平静 图3 1 5 各种情感的振幅参数相对值 图3 一1 6 各种情感的振幅能量曲线 3 5 4 时间参数定义 分析情感语音的时问构造主要着眼于不同情感语音的发话时间构造的差别,对由情感引起的持 续时间等的变化进行分析和比较。本文中我们讨贺:出每一情感语句从开始到结束的持续时间,这一 时间包括旬中的无声部分,因为无声部分本身对情感是有贡献的。然后就情感语句的发话持续时间 长度( 简称为d 以及平均发话速率( 音节秒) 和情感的关系进行了分析和比较。分析结果如图3 1 7 所 瑚i 。 从图3 1 7 可以看出,在发话的持续时间上,愤怒、惊奇的发音长度和平静发音相比压缩了,而欢快、 悲伤的发音长度却仲长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次是惊奇。欢快和悲伤 相比,悲伤仲长很多,而欢快只是稍稍伸长。通过进一步的观察可知,这些现象的产生是由于和平 静语音相比,在情感语音中一些音素被模糊地发音、拖长或省略掉了的缘故。根据上述分析结果, 我们可以利用情感语音的时间构造很容易地区分欢快、悲伤和其它情感信号。也可以通过设定某些 时间特征阈值,来区分欢快和悲伤的情感信号。至于愤怒和惊奇情感信号,显然光利用时间构造特 征不足以进行有效的区分。 l ;o n md_=qm 第三章特征参数提取 3 6 结论 2 1 5 1 0 5 o 瞄平均持续时间日平均发音速率 喜怒惊悲平静 图3 1 7各情感时间参数相对值 表3 _ 4情感发音的时间构造 情感类型欢快愤怒惊奇悲伤平静 平均持续时间度比值 0 8 20 6 00 6 91 2 61 平均发音速率 3 55 14 72 12 8 ( 音节秒) 综合以上从4 个方面对含有4 种情感的语音信号进行的分析比较,我们可以归纳出如表3 5 所 示的情感信号的特征规律( 均相对于平静发音而言) 。 表3 5 情感语音中各特征参数的变化情况 t r f 0 m n 萨 f o 呲e aa r 日n b e f if lr 帅g cf 1m 【c 喜 怒 惊 悲 ( 上表中符号意义+ :增加+ 卜:较大增加一:减小一一:较大减小空:无明显变化) 从表3 5 可以看出,各种情感状态下的同一语音数据的特征参数相对丁二平静发音基本上都发生 了变化,这说明我们所选择的特征参数具有一定的代表性。但还不能说明我们所选的参数已能够有 效辨别各种情感状态,在下一章中,我们着重尝试对现有的已测参数进行统计处理,对四种情感状 态进行识别,识别的结果能够进一步说明本章中所选的特征参数的有效程度。 东南大学硕士学位论文 4 1 概述 第四章基于非时间序列特征的情感语音识别 情感语音识别是模式识别的一个领域。在识别中,须将测试模式同一个或多个参考模式进行比 较。测试模式是有待识别的未知模式,参考模式是特性明确的已知模式。每个模式都采取矢量的形 式来表示,而矢量的每个元素都是某一特征的测量值( 特征是输入信号对识别有用的某一可测的特 性) 。由于语音信号中的情感信息多少受到语句词汇内容的影响,所以为了使分析结果消除这方面的 影响,一般都是通过分析情感语音和不带感情的平静语音的相列关系,找出这种相对特征的构造特点 和分布规律,用来处理和识别不同的情感语音信号。根据上一章中分析,实验中我们提取了9 个情感 特征参数,采用多变量分析手法进行了情感识别的实验。每一情感语句的9 个情感特征参数分别是 语句发音持续时间长度、f o 的平均变化率、f - 平均变化率和相应的平静语句的值的比值;情感语句 平均振幅能量、振幅能量的动态范围、f o 的平均值、f o 的最大值、f l 平均值、f ,的动态范罔和相应 的平静语句的值的差值。这样任一情感语句可以转变为一个9 维的原始特征参数矢量。由于原始特 征参数矢量中的各维元素的单位不统一,所以在多变量分析前,应该做某些归一化处理。本文的归 一化处理方法是把笄维元素都化成均值为0 、方差为i 的正态分布参数。 我们的识别系统包括两个阶段,一是学习阶段,这一阶段也称训练阶段,是为参考模式建立模 式库。二是识别阶段,或称测阶段,是利用已有的模式库对未知模式进行识别处理。在学习过程中, 己知类别的数据被送入识别系统,系统通过对多个模式进行统汁平均而形成每一类的参考模式或参 考模板,然后将参考模式纳入模式库。在识别过程中,系统对未知输入进行特征计算而形成测试模 式,然后根据测试模式和哪个参考模式匹配最好进行判决。 4 2 情感识别实验用语音资料的选择 在本章节中,我们选用了如表4 一】所示的八个语句作为实验用语音资料。为_ ,获得原始的语音 数据,我们让1 0 名善于表演的话者按表1 所示的语句用欢快、愤怒、惊奇、悲伤等4 种情感各发音 3 遍,经过第二章中所叙述的有效性检定,删除那些有意性水准小于1 0 的语句,再经过重新录音, 直到有意性水准满足要求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省中甸县2025年上半年事业单位公开遴选试题含答案分析
- 毛织品行业透视
- 河北省新河县2025年上半年事业单位公开遴选试题含答案分析
- 河北省无极县2025年上半年事业单位公开遴选试题含答案分析
- 2025版商场电工系统调试与验收服务合同
- 2025年度水泥产品质量保证与售后服务合同
- 2025年充电桩安装与电力系统接入合同模板
- 2025版影视动画设计费合作协议书下载
- 2025年度企业员工劳动合同绩效评估与薪酬调整合同
- 2025版石膏制品批发采购合同范本
- 电池火灾安全知识培训课件
- 2025年CAD机械制图考试题库及答案
- 云南省澜沧拉祜族自治县2025年上半年事业单位公开招聘教师岗试题含答案分析
- 2025工会基础知识考试题库及参考答案
- 养老护理员基础照护试题(含参考答案)
- 教师职业技能提升培训教程
- 2025年安徽省宿州市辅警协警笔试笔试测试卷(含答案)
- 2025年医院财务科招聘考试题目(附答案)
- 高血压病例汇报
- 六年级上册语文1-8单元习作范文
- 第10课 公共场所言行文明 第1课时(课件)2025-2026学年道德与法治三年级上册统编版
评论
0/150
提交评论