




已阅读5页,还剩94页未读, 继续免费阅读
(信号与信息处理专业论文)情感语音信号特征分析与识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在人与人的交流中,识别对方的情感状态是情感智能的一个重要内容。情感智能是人类智能的一个方 面,对人的社会交往起着非常重要的作用。在传统的语音信号处理过程中,计算机没有被赋予理解操作者 的情绪和心情的能力,只能够理解语音信号的表层符号信息,而不能理解隐层情感信息,不能实现类似人 类交流之间的情感互动。语音情感信号处理就是要赋予计算机类似人一样的观察、理解语音信号中的情感 信息,表达各种情感的能力。本文从认知、心理、生理、特征获取、模式识别等角度对情感语音识别进行 了研究,取得了一些研究成果。 本文首先从心理生理学的角度回顾了情绪理论的研究发展历程,给出了按照生理心理学的研究成果的 不同的情绪分类方法,作为情绪模式识别的分类依据。 针对情感语音研究中所面临的一些问题,对目前使用的一些情感语音数据库进行了分析,指出了不同 类型的数据库各自的优点和缺点。在列举目前所存在的所有数据库的同时,从语音情感识别的角度对数据 库的建立提山了一些观点,并将其作为我们创建中文情感语音数据库的基础。基丁本文的分析观点进行中 文情感语音数据库的建设,我们得到了包括2 2 6 8 个单词样本,2 9 1 6 个短句样本,2 8 0 个长时语句样本的 中规模中文情感语音数据库。 利用模糊熵的理论,本文提出了一种特征参数有效性度量手段。先得到特征参数相对于情感的模糊关 系矩阵,然后将模糊综合判决同利用模糊熵的参数有效性度量相结合,对情感语句进行识别。实验结果表 明,结合参数有效性度量的模糊综合判决方法能较大提高语音信号的情感识别率,并高于常用的主元分析 方法。 汉语音节的韵律特征对情感表达起着非常重要的作用。本文提取情感语句中各元音区间的声学参数组 成时序结构特征。由于元音数目的不同,对不同长短的语句的时序结构特征进行了规整。采用最长的句子 为基准,将较短的句子的时序结构与基准对齐而进行规整,并提出了3 种不同的规整方法。传统的q d f 方法中,计算协方差矩阵所必要的乘法次数随着参数的维数增加,会导致计算量和内存所占容量变得很大。 同时,协方差矩阵的推定误差将增大,从而降低判别的性能。因此,本文提出了一种新的修正二次判别函 数( m q d f ) 。研究结果表明,利用了时序结构特征与采用修正二次函数相结合的方法,可以较高的提高语 音情感识别效率。 利用支持向量机,本文对语音情感识别的二分模式识别和多模式识别进行了研究。在二分模式的情感 语音识别实验中,比较了线性映射和高斯核函数的映射方法。结果表明非线性的映射能够改善情感的分类 效果。在多模式情感实验中,选用“o n e a g a i n s t - a l l ”的s v m 网络进行4 类语音情感的识别。选择具有连 续输出的函数作为软判决,然后选择具有最大输出值的类别作为最终的输出。将多模式的s v m 判决方法 同p c a 方法进行比较,结果表明使用s v m 对语音情感进行识别效率大大高于其他识别方法。 本文研究了利用基音的统计模型信息来进行语音情感的识别方法。提出一种变窗1 2 的p a r z e n 窗法估计 方法对基音的统计模型进行估计,防止了分布模型在高频部分的抖动和低频部分的延伸。通过采用巴氏距 离( b h a t t a c h m 3 , y a d i s t a n c e ) 来衡量不同的分布模型之间的距离,并将这个距离作为模式识别的参数之一。利 用k n n 方法对情感语料进行了识别实验,结果表明基音的统计模型参数的引入能够较明显的提高情感语 i 东南大学博士学位论文 音识别效率。 基音和共振峰的衍生形式经常被用来作为特征参数进行语音信号的情感识别。这些参数和人的生理构 造有着密切的关系,不同的性别上之间具有差异。为消除这些性别差异,本文提出了基于性别分离的特征 参数规整方法。利用基于模糊熵的有效性度量方法对情感特征参数的有效性进行度量,表明消除性别差异 使得特征参数具有更高的有效性。在识别过程中,首先利用男女性别的基音分布规律的差异进行性别分离, 然后再对测试样本利用k n n 方法进行情感识别。实验结果表明,基于传统的基音和共振峰参数的情感识 别正确率为7 2 4 ,而利用本文提出的修正方法得到的参数进行识别,情感识别正确率可以达到7 8 6 。 关键词:语音信号处理情感识别模糊熵时序结构修正二次判别函数基音统计模型支持向量机性别 差异 i i a b s t r a c t a b s t r a c t t h ea b i l i t yt or e c o g n i z ea f f e c t i v es t a t e so fap e r s o nw ea r ec o m m u n i c a t i n gw i t hi st h ec o r eo fe m o t i o n a l i n t e l l i g e n c e e m o t i o n a li n t e l l i g e n c ei saf a c e to fh u m a ni n t e l l i g e n e et h a th a sb e e na r g u e dt ob ei n d i s p e n s a b l ea n d p e r h a p st h em o s ti m p o r t a n tf o rs u c c e s s f u li n t e r p e r s o n a ls o c i a li n t e r a c t i o n i nt r a d i t i o n a ls p e e c hs i g n a lp r o c e s s i n g , t h ec o m p u t e rc a l lp r o c e e dt h ei n f o r m a t i o na b o u ts y m b o lo n l y t h eh i d d e ni n f o r m a t i o nr e l a t e dw i t he m o t i o na n d m o o dw i l lb ed r o p p e dw i t h o u tb e e nn o t i c e d i nf a c t , a l lt h e s eh i d d e ni n f o r m a t i o na v a l u a b l ef o re m o t i o n a l i n t e l l i g e n c e t h i sp a p e ri n v e s t i g a t e st h ea f f e c t i v ei n f o r m a t i o ni ns p e e c h , a r g u e st h ee m o t i o nr e c o g n i t i o ni n c h i n e s es p e e c h , i no r d e rt oi m p r o v et h ec o m p u t e r se m o t i o n a li n t e l l i g e n c e _ 出ea b i l i t yt or e c o g n i z eau s e r s a f f e o t i v es t a t e s ,t ob e c o m em o r eh u m a n - l i k e ,m o r ee f f e c t i v e ,a n dm o r ee f f i c i e n t ar e v i e wo ft h eh i s t o r yo fe m o t i o nt h e o r yi si n t r o d u c e di nt h i sp a p e r 越f i r s t t h ed i f f e r e n c eb e t w e e nt h e e m o t i o na n df e e l i n gi sp r e s e n t b a s e do nt h er e s u l tc o m ef r o mt h er e s e a r c hw i t ht h ep h y s i o l o g i c a lp s y c h o l o g y , s o m ec l a s s i f i c a t i o n so f t h ee m o t i o na l el i s t s o m eo f i tw i l lb eu s e di ne m o t i o nr e c o g n i z ee x p e r i m e n ti nt h i sp a p e r t h i sp a p e rp r e s e n t ss o m ep r o b l e m sf a c i n gs p e e c ht e c h n o l o g i s t si nt h es t u d yo f e m o t i o n a l s p e e c h i td e s c r i b e s s o m ed a t a b a s e st h a ta r ec u r r e n t l yb e i n gu s e d , a n dp o i n t so u tt h es h o r t c o m i n ga n da d v a n t a g ef o rd i f f e r e n td a t a b a s e s i tn o to n l ys e to u tt op r o v i d ea ni n v e n t o r yo f d a t a b a s e sa v a i l a b l ef o rt h es t u d yo f e m o t i o n a ls p e e c hc h a r a c t e r i s t i c s , b u ta l s op r e s e n t st h ei s s u ef r o mt h es t a n d p o i n to f s p e e c ht e c h n o l o g y , r a t h e rt h a nt h a to f p s y c h o l o g y , a n di ts e t so u t s o m et o p i c sf o rd i s c u s s i o na n dr a i s e sq u e s t i o n s ;i nt h eh o p et h a ts o m eo ft h ei s s u e sm a yb er e s o l v e dd u r i n gt h e f o r t h c o m i n gd a y s ac h i n e s ee m o t i o n a ls p e e c hd a t a b a s ei n c l u d i n g2 2 6 8w o r d s ,2 9 1 6s e n t e n c e sa n d2 8 0p a s s a g e s , i sc o n a t r u c t e db a s e do nt h ep o i n t sp r e s e n ti nt h i sp a p e r t h e o r yo f t h ef u z z ye n t r o p yh a sb e e nu s e dt om e a s u r et h eu n c e r t a i n t yo f t h ev a r i a b l e s b a s e do nt h i st h e o r y , a n e wm e a s u r e m e n th a sb e e np r o p o s e dt om e a s u r et h ea f f e e t i v i t yo ft h ee m o t i o n a lf e a t u r ei nt h i sp a p e r i n t e g r a t e w i t ht h ef u z z yd e c i s i o n ,i ts h o w sb e t t e rp e r f o r m a n c et h a nf o r m e rm e t h o d s , w h i l ef o r m e rm e t h o df o re m o t i o n a lf e a t u r ea n a l y s i si ns p e e c hs i g n a lu t i l i z e dg l o b a lf e a t u r e s ,an o v e lm e t h o d t h a tb a s e do nt i m es e q u e n c ef e a t u r ei s p r o p o s e di nt h i sp a p e r a i m e da tt h ed i f f e r e n tn u m b e ro fv o w e l ,t h r e e p r o g r a m m i n gm e t h o d sa r ep r o p o s e dt on o r m a l i z et h el e n g t ho f t h es p e e c hs i g n a l e x p e r i m e n t sw e r ee o n d u o t e do n at a s ko f1 0 0 0s e n t e n c ei n c l u d i n gh a p p y ,a n g e gs u r p r i s ea n ds o r r o w f u le m o t i o n st od e m o n s t r a t et h ee f f e c t i v e n e s s o f t h en e wm e t h o d t h ea v e r a g er e c o g n i t i o nr a t ew a sr e a c h e da sh i g h e ra s9 4 s u p p o r tv e c t o rm a c h i n e s ( s v m s ) a r eu t i l i z e df o re m o t i o nr e c o g n i t i o ni nt h i sp a p e r t h eb i n a r y - c l a s s d i s c r i m i n a t i o na n dt h em u l t i - c l a s sd i s c r i m i n a t i o na r ed i s c u s s e d i tp r o v e st h a tt h ee m o t i o n a lf e a t u r e sc o n s t r u c ta n o n l i n e a rp r o b l e mi nt h ei n p u ts p a c e ,a n ds v m sb a s e do nn o n l i n e a rm a p p i n gc a l ls o l v ei tm o r ee f f e c t i v e l yt h a n o t h e rl i n e a rm e t h o d s m u l t i c l a s sc l a s s i f i c a t i o nb a s e do ns v m sw i t hs o f td e c i s i o n f u n c t i o ni sc o n s t r u c t e dt o c l a s s i f yt h ef o u re m o t i o ns i t u a t i o n s c o m p a r e dw i t ht w oo t h e rc l a s s i f i c a t i o na l g o r i t h m s ,w h i c hh a v e b e e n m e n t i o n e di nf o r m e rl i t e r a t u r e s ,s v m sp e r f o r mt h eb e s tr e s u l ti nm u l t i c l a s sd i s c r i m i n a t i o nb yu s i n gt h en o n l i n e a r t t l 东南大学博士学位论文 k e m e lm a p p i n g s t a t i s t i c a lm o d e lo fp i t c hh a sp r o v e dt oi n v o l v eh i d d e ni n f o r m a t i o ni nf o r m e rl i t e r a t u r e sa n di ti su t i l i z e da f e a t u r ep a r a m e t e ri nt h i sp a p e r am o d i f i e dp a r z e n - w i n d o wi sp r o p o s e dt oe s t i m a t et h es t a t i s t i c a lm o d e lo fp i t c h c o m p a r e dw i t ht r a d i t i o n a lp a r z e n - w i n d o wm e t h o d ,i tc a l le l i m i n a t et h ej i t t e ri nh i g hf r e q u e n c ya n da v o i dt h e o v e r e x t e n di nl o wf r e q u e n c y t h ed i s t a n c eb e t w e e nd i f f e r e n te m o t i o n ss t a t i s t i c a lm o d e l si sm e a s u r e db y b h a t t a c h a r y y ad i s t a n c e a n di ti su s e d o n eo ft h ep a r a m e t e r sf o re m o t i o nr e c o g n i t i o n f i n a l l y , a l le m o t i o n r e c o g n a i o ne x p e r i m e n tb a s e do nkn e a r e s tn e i g h b o ri sd e s c r i b e d a7 7 5 r a t eo fr e c o g n i t i o nc a l lb ea c h i e v e d w h e no u rp a r a m e t e r sa r eu t i l i z e d ;w h e r e a so n l y7 3 8 i so b t a i n e dw h e nn o r m a lp a r a m e t e r sa r eu t i l i z e d g e n d e r sd i f f e r e n c e so fa c o u s t i cp a r a m e t e r si ne m o t i o n a ls p e e c ha r es t u d i e di nt h i sp a p e r t oe l i m i n a t et h e d i f f e r e n c eo f g e n d e ri ne m o t i o nr e c o g n i t i o n , m o d i f i e dp a r a m e t e r so fp i t c ha n df o r m a n ta r ep r o p o s e d b a s e do n t h e o r yo f f u z z yt h e o r y , t h em o d i f i e dp a r a m e t e r sp r o v e dt ob em o r ee f f e c t i v e l y t or e c o g n i z et h ee m o t i o nb a s e do n m o d i f i e dp a r a m e t e r s ,ag e n d e rc l a s s i f i c a t i o nu t i l i z i n gt h es t a t i s t i c a lm o d e li sp r o p o s e df i r s t l y a c c u r a c yc a n a c h i e v e9 8 w h i l el o n gs e n t e n c ei st ob ec l a s s i f i e d f i n a l l y , a l le m o t i o nr e c o g n i t i o ne x p e r i m e n tb a s e do nk n e a r e s tn e i g h b o ri sd e s c r i b e d a7 8 6 r a t eo fr e c o g n i t i o nc a nb ea c h i e v e dw h e no u rp a r a m e t e r sa r eu t i l i z e d ; w h e r e a so n l y7 2 4 i so b t a i n e dw h e nt r a d i t i o n a r yp a r a m e t e r sa r eu t i l i z e d k e yw o r d :s p e e c hs i g n a lp r o c e s s i n g e m o t i o nr e c o g n i t i o n , f u z z ye n t r o p y , t i m es e q u e n c ef e a t u r e ,m o d i f i e d q d f , s t a t i s t i c a lm o d e l s ,s u p p o r tv e c t o rm a c h i n e ,g e n d e rd i f f e r e n c e i v 东南大学博士学位论文 附图目录 2 1 人类大脑结构示意图1 4 2 - 2 杏仁体的联接模式1 4 2 - 3 与情绪有关的神经系统结构1 5 2 4 基于i a p s 和i a d s 的基本情绪反应1 9 2 5 日本人的5 类基本情感的三维空间分布 7 9 k 2 0 2 - 6t a y l o r 的实验中愤怒、中性、快乐、悲伤面部表情在三维空间的规律分布“2 1 2 7 p l u t c h i k 提出的情绪三维模式2 2 2 - 8 不同情感下的面部表情2 3 2 - 9 相同语料在不同情感下的波形图2 4 3 1 情感语音信号样本的有效性检验流程3 2 4 1 语音信号的波形( a ) 、振幅轨迹( b ) 和能量轨迹( c ) 3 6 4 - 2 语音信号的波形( a ) 、d b 能量( b ) 和粗分音节( c ) 和细分音节( d ) ,3 7 4 3 语音信号的波形( a ) 和基音轨迹( b ) 3 9 4 4 语音信号的波形( a ) 、f 1 轨迹( b ) 、f 2 轨迹( c ) 和f 3 轨迹( d ) 4 0 6 1 支持向量机原理示意图5 6 6 2 支持向量机二分模式识n - - 维投影( 悲伤) 5 7 7 1 基音的频率分辨率6 3 7 - 2 男性情感语音的基音统计模型6 4 7 3 女性情感语音的基音统计模型6 5 7 - 4 采用巴氏距离度量不同情感模型之间的距离6 7 7 5 不同性别的基音累积密度函数6 8 8 - 1 不同性别的情感语音材料的基音均值7 2 8 2 不同性别的情感语音材料的基音方差7 3 8 - 3 前三个共振峰的均值7 4 8 4 前三个共振峰的方差7 5 8 - 5 参数有效性分析7 8 v i l l 图图图图图图图图图图图图图图图图图图图图图图图图图图 目录 附表目录 表2 - 1 各国人对表情判断一致的百分数1 7 表2 - 2 基本情绪定义研究。1 7 表3 - 1 不同情感语音材料的比较2 8 表3 - 2 中文语音情感库材料的语料类型3 0 表3 - 3 中文语音情感库的材料组成3 1 表4 - 1 情感特征参数有效性分析4 4 表4 - 2 使用模糊综合判决进行语音情感识别。4 5 表4 - 3 利用了有效性分析的模糊综合判决进行语音情感识别4 5 表4 - 4 使用p c a 方法进行语音情感识别4 5 表4 - 5 采用最大可分性分析的p c a 进行情感识别4 6 表5 1 不同规整方法下的识别结果 吲5 2 表5 2 参数选择和识别方法的组合5 2 表5 - 3 不同识别方法下的识别结果 o o ,5 2 表6 1 核函数的分类效果比较5 8 表6 - 2 使用s v m 的情感识别结果5 9 表6 - 3 使用p c a 的情感识别结果5 9 表6 - 4 采用最大可分性分析p c a 的情感识别结果5 9 表7 - 1 其他语音情感参数6 9 表7 - 2 采用一般基音参数的k - n n 识别结果6 9 表7 - 3 采用基音统计模型距离参数的k - n n 识别结果7 0 表8 - 1f 0 均值和f 0 方差同情感维度的相关系数2 1 7 2 表8 - 2 共振峰参数的性别差异及其同情感的规律。7 5 表8 - 3 参数提取集合分类一7 6 表8 _ 4 采用不经过性别规整的基音和共振峰参数的k - n n 识别结果7 9 表8 - 5 采用经过性别规整的基音和共振峰参数的k - n n 识别结果7 9 1 x 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 日期 第l 章绪论 1 1 情感研究的背景和意义 第1 章绪论 情感计算作为一个崭新的领域,目前日益引起国内外各研究机构的重视。第一次提出“情感计 算”这个概念的美国m i t 媒体实验室情感计算研究小组的领导人p i e a r d 教授在1 9 7 9 年她的专著 “a f f e c t i v ec o m p u t i n g ( 情感计算) ”中给出:“情感计算是关于、产生于、或故意影响情感方面的计 算”,情感计算的目的使通过赋予计算机识别、理解、表达和适应人的情感能力来建立和谐人机环境, 并使计算机具有更高的,全面的智能【1 1 。在传统的计算机与人的交互过程中,计算机没有被赋予理 解操作者的情绪和心情的能力。正是因为没有这种情感能力,就使计算机的工作难以具有类似人的 智能,只能作为一个僵硬的工具,而不能实现人类交流之间类似的情感的互动。情感计算就是要赋 予计算机类似于人一样的观察、理解和表达各种情感特征的能力,通过对情感特征的分析和处理来 获取对情感状态与生理和行为特征相互关系的高层次语义上的解释,最终达到像人一样能进行自然、 亲切和生动的交互。 在情感计算领域,目前世界各国都在积极地开展相关研究,取得了诸多成果,其中以美国m i t 媒体实验室的工作较为突出。我国也在逐步开展情感信息处理的研究,并引起了国家有关部门的关 注。例如,在国家自然科学基金1 9 9 9 年的项目指南中“和谐人机环境中的情感计算理论研究”被 列为重点项目。同时,中国科学院自动化所、心理所以及国内众多高校在情感信息处理的研究上也 取得了一定的进展。2 0 0 3 年1 2 月8 日至9 日,由中国科学院自动化所组织,在北京举行了第一届 中国情感计算与智能交互学术会议,会议中展示了国内各研究机构近几年来从认知、心理、模式识 别、系统集成等不同角度在情感计算领域取得的研究成果,弥补了国内的情感计算领域的空白。 情感计算的研究对象目前主要是生理参数、人脸表情、肢体语言和语音信号这几个方面。在这 几个对象中,生理参数是位于最底层的研究对象。它较少受到文化背景和社会环境的影响,仅仅与 人类个体有关,所以研究时的重点主要集中在生理特征( 皮肤电、心跳、呼吸等) 上。对于面部表 情和肢体语言而言,他们是入的情绪的一种外露表现形式,同样具有跨文化、跨区域等性质。以往 的研究证实,在面部表情和肢体语言方面猩猩和人类具有较多的相似性。然而对于语音信号则不同, 由于语言是随着人类的长期进化演变而来,包含了强烈的社会和文化背景,它具有了语言学和非语 言学双重特征。不同肤色、不同语种的人在存在语言隔阂时,无法通过语言来沟通,但是仍然可以 通过面部表情和肢体语言来达到一些基本的理解。这也说明了语音信号中所存在的信息是高于面部 表情、肢体语言这个层次的信息。 语音信号作为语言的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。人类的 语言不仅包含了语义信息,同时也包含了大量非语义信息。话者的情感因素同时存在于语义信息和 非语义信息中。传统的语音信号处理仅仅着眼于语音词汇传达的准确性,而完全忽视了包含在语音 东南大学博士学位论文 信号中的非语义因素,所以它只是反映了信息的一个方面。即便是提取的语义信息,过去的研究工 作也仅仅停留在字、词、句的识别这个层次,而远没有达到理解的目的。要进一步提高人机交互能 力,让计算机真正的理解操作者的想法、情绪和态度,实现真正意义上的人工智能,就需要让计算 机能从语音信号中挖掘出情感的信息,结合语义来判断操作者的内心活动。 随着情感语音信息处理的发展,国内外的研究者也做出了相当多的工作。在国际口语处理大会 i c s l p ( i n t e r n a t i o n a lc o n f e r e n c eo ns p o k e nl a n g u a g ep r o c e s s i n g ) 的论文集中,有关这个方面的研究 论文逐渐增多。i s c a ( i n t e r n a t i o n a ls p e e c h c o m m u n i c a t i o n a s s o c i a t i o n ) 在2 0 0 0 年专门组织了一个名为 “e m o t i o na n d s p e e c h ”的w o r k s h o p ,以情感和语音作为研究的主要内容。在国内,也有中科院自动 化所、心理所以及微软亚洲研究院等机构开始了初步的研究和探索。 1 2 国内外研究现状和存在的问题 针对语音情感的研究,目前还存在许多问题。2 0 0 0 年由i s c a 举办的i s c a w o r k s h o po i l s p e e c h a n de m o t i o n ,第一次针对语音情感的研究提出了一个研究的框架。他们将语音情感研究分为情感的 理论基础、情感数据源的获取、情感数据的处理工具、语音信号中的情感特性以及语音情感信号处 理的应用几个主要方面。其中情感理论是一切有关情感研究的基础,主要从生理学、心理学方面研 究情感的形成、情感的组成方式和表达方式,从而为情感分析提供一个正确的情感区分手段;情感 数据源的研究主要集中在针对于情感语音处理的数据集的描述和建立,创建一个合理的、丰富的情 感语音数据库,为语音情感识别提供素材;情感数据处理的主要研究对象是语音信号中对应的特征 参数的提取问题;语音信号中的情感特性则研究特征参数和情感类型的对应关系;作为语音情感研 究的最终目标,语音情感处理应用则是综合前面的研究手段,对实际的语音信号进行情感分析,给 出语音信号中的情感特征的表达结果,来满足不同研究的需要。 1 2 1 情绪的理论研究 情绪理论的研究最早可以追溯到公元前5 世纪赫拉克利特( h e r a c l i t u s ) 对情绪的研究。随后, 许多世界知名哲学家包括亚里斯多德( a r i s t o t l e ) ,笛卡尔( d e s c a r t e s ) 和斯宾诺莎( s p i n o z a ) 笥都 对情绪理论方面做出过一定的贡献。到上个世纪5 0 年代,几种颇有影响的学说开始从认知的角度研 究情绪的功能,并明确地提出情绪不仅不是非理性的,而且非常理性化,才开创了情感理论研究的 新局面。 情绪的分类问题是情感理论中的重要问题之一。是否存在彼此独立的、具有人类普遍性的基本 情绪类型? 简单的维度空间是否能够表示出千姿百态的情绪? 对于这些问题,情绪的研究人员有两 种截然不同的观点。一种观点认为人类的情感是由分立的基本情绪组成的,称之为基本情绪论。它 认为情绪在发生上有原型模式,即存在着数种泛人类的基本情绪类型,每种类犁各有其独特的体验 特性、生理唤醒模式和外显模式,其不同形式的组合形成了所有的人类情绪。从个体发展角度来看, 基本情绪的产生是有机体自然成熟的结果。从生物进化的观点看,情绪原型是适应和进化的产物, 也是适应和进化的手段。与基本情绪论相对立的是维度空间论。它认为人类所有的情绪是由几个维 2 第1 章绪论 度空间所组成,特定的情绪状态只能代表一个从亲近到退缩或者是从快乐到痛苦的连续空间中的位 置,不同情绪之间不是独立的,而是连续的,可以实现逐渐的、平稳的转变,不同情绪之间的相似 性和差异性是根据彼此在维度空间中的距离来显示的。 实际上人类确实存在着先天的基本情绪,但这和正负情绪的分离并不矛盾。对于一切生物,情 绪的原型形式也许只有单一的形式。随着不断进化,在个体与环境交互作用过程中,系统变得越来 越细化。一直到人类,情绪高度分化,刚出生的新生儿只有基本情绪,但随着时间的推移,后天环 境和学习的影响,使得情绪变得更为系统化和复杂化,新的情绪类型不断增a n ( 如羞耻和尴尬等) 。而 这样的生物进化和个体发展过程与神经系统的不断进化和发育是分不开的。这就说明了既不是先天 基因,也不是后天环境决定情绪。 1 2 2 情感数据源的获取 情感数据库是进行语音情感分析的基本要素。一个完备的数据库,是进行算法分析的必要条件。 目前虽然国内外对语音情感的研究已经开始成为一个研究的重要内容,但是从整个世界的研究情况 来看,作为其研究基础的数据库的建立还处在一个较低的水平。目前国际上己知的可以作为情感研 究用的数据库是较少,公开共享的数据库的几乎没有,同时由于这些数据库从属于不同的语系,使 得基予各自数据库的研究成果也难以共享。 情感材料的获取有很多途径,目前国际上语音情感研究人员较常采用的数据来源主要有表演数 据、激励数据、启发数据和摘引数据这几种。表演数据主要是利用演员进行带有情感朗读而得到。 这些演员经过专门的训练,他们通过对于那些给定的语句采用不同的朗读模式,改变其中的声学特 征,从而让情感因素融入到语音信号中,在实验室条件下模拟不同的情感。激励数据是另外一种在 实验室环境下获取情感语音材料的方式。研究人员通过让被录制人阅读并朗读具有情感倾向的场景 文本,用文本的内容来激励说话人情感,使人的语音信号中带上情感因素。启发数据则是通过一个 启发者和被启发者的交流诱发后者的情感而获得。摘引数据是指通过对已有的并不是明确地为了科 学的实验而产生的语音数据作为摘引源,提取其中符合要求的语音信号作为数据库的样本。 目前上国际上已知的语音情感库有丹麦语数据库 2 1 、柏林数据库9 1 、g r o n i n g e ne l r a 数据库【4 1 、 r e a d i n g - - l e e d s 数据库p 1 、e s p 数据库“、a m i r 数据库1 7 1 等。虽然这些已有部分基于这些数据库的研 究成果公诸于世,但是这些数据库本身则均没有公开,加上语音情感本身和语言之间的强关联性, 使得不同语言之间的数据库研究人员难以共享研究成果。 1 2 3 语音情感识别 语音情感自动识别技术主要包括两个问题:一是采用语音信号中的何种特征作为情感识别,也 就是特征抽取的问题,是如何将特定的语音数据进行分类,也就是模式识别的问题。 在过去的几十年里,针对语音信号中的何种特征能有效的体现情感,学者们作了大量的研究。 一个主流的方向是基t t t 语言学的信息。由于人对语音的感知是非常多样化,全面考虑情感的声 学特征是一个非常困难的工作,考虑到计算机的处理能力,只能通过部分参数从一定程度上对情 感语音的卢学特性进行了概括。心理学和语言心理学的研究人员提供了火量的关于语音学莆哟律 东南大学博士学位论文 学的研究结果,可以用来作为提取特征。一般情况下,语音的情感相关性的表示形式可以通过说 话人模型或者声学模型来实现。有的观点认为语音识别一般只用语音特征,而语音情感识别应把 重点放在韵律特征:而另外的一些观点认为,语音特征和韵律特征相互结合才能表达情感,仅有 韵律特征是不可能表达情感的i s l 。纵观近几十年的各类文献及各国工作人员的研究。针对情感识 别所采用的特征几乎大都是基于韵律特征,比如基音、强度、持续时间这几个类型。以及在这几 种特征的基础上衍生了大量的参数,比如这些基本特征的均值、范围、方差、中值、轮廓变化等。 在部分文献中,也考虑了语音特征的情况,比如共振峰信息等。从总的结果和应用的情况来看。 在语音情感信息处理中所采用的特征总是局限于一个较小的范畴,而到底何种特征能够较好的反 应情感的信息还没有一个明确的结论,关于这些特征以及这些特征的衍生特征的有效性评价也和 情感识别也在同步进行之中。另外,心理学和生理学的研究人员也有一些新的发现,比如a l t e r w 等人研究了韵律和音质之间的关系,发现生气和高兴时的发音在喘气和沙哑等方面是不同的。一 些特定元音在结构上的变化直接依赖于情感,而另一些元音则依赖于句子中的位置及话者是否用 错了重读模式。b r a n k a i i o 在其博士论文中谈到有机体的心理生理状态同语音的产生机制有关( 比 如呼吸,发声,说话等) ,它受到语言的环境因素( 音调包络,重音,结构,词汇,社会和文化限 制) 作用,也在不同层次上影响语音所包含的情感。如何充分利用好这些影响情感产生的因素,如 何使这些语音学和韵律学的参数更好的结合,适用于语音情感信息处理的任务,是一项长远的工 作。 有的研究人员从语言学的角度考虑语音信号中的情感分析,考虑句子的语义成分,利用语句 的语义和语法提供说话人的情感线索。c a u l d w e l l 1 1 1 等人的研究发现声音与语义之间在情感中的相 互作用和分歧,当两者孤立出现时,语义内容好于相对来看比较清晰的声音。带有情感的语音可 能也包含
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 奶类加工生产创新创业项目商业计划书
- 技术与可持续性创新创业项目商业计划书
- 水泥制成工前沿技术考核试卷及答案
- 新能源行业企业风能发电系统智能化升级案例分析报告
- 7-2《归园田居·其一》教学设计 2024-2025学年统编版高中语文必修上册
- 整经工效率提升考核试卷及答案
- 木质废弃物能源化转化效率报告
- 海洋能发电与文化影响研究分析报告
- 2025年新能源商用车辆在旅游客运市场的需求与应用场景分析报告
- 影视行业未来生产模式:2025年工业化制作流程改革与质量控制全景报告
- 2025-2030猫砂盆行业市场发展分析及发展前景与投资研究报告
- 电话卡借用免责协议书
- 2025年新教材道德与法治三年级上册第二单元《学科学爱科学》教案设计
- 航空货物运输管理操作手册
- DB3502T 141-2024城市道路开口设置指引
- 瑜伽入股协议书范本
- 幼儿园教师语言规范培训
- 服装设计开发委托合同
- 静配中心医用耗材管理制度
- 劳动合同附件协议-销售业绩考核协议模板
- 2025年全国中学生数学奥林匹克竞赛(预赛)模拟卷(全国高中数学联赛一试)(含解析)
评论
0/150
提交评论