




已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)语音情感分析的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 情感智能是人机交互智能化的一个关键部分,语音情感分析越来越多地应用 于人机交互系统以提高系统的的智能水平。本文主要从语音情感识别在语音查询 系统中的应用和医学诊断对语音情感强度分析的需求两个方面对语音情感分析 进行了研究。 本文首先分析了语音情感识别在语音信息查询系统中的应用现状,为了解决 识别率低的问题,把“与文本有关且与说话人无关”的语音情感识别应用于语音 信息查询系统中。利用贝叶斯最小错误率决策理论确定最优阈值,提出了一种新 的语音信号端点检测算法。研究了语速、幅度和基频三类语音信号特征,并利用 模糊熵理论分析了这些特征用于情感分类的有效性,然后选择最优的特征参数组 合来进行语音情感识别。研究了适用于语音情感识别的分类器,采用p a r z e n 概 率神经网络完成语音情感状态的识别。实验结果表明,本文采用的研究方案提高 了系统的整体识别率。 本文针对医学诊断对语音情感强度分析的需求,初步研究了语音情感强度分 析中的基本理论问题。首先提出了语音情感偏移假设,并在此基础上给出了语音 情感强度分析的一般理论框架,完成了语音情感强度分析的实现算法。为了验证 该理论的合理性,建立了具有5 个强度级别的语音情感数掘库,对算法的性能进 行了测试。实验结果表明,利用该语音情感强度分析算法得到的强度值与主体录 制语音时的主观情感强度是一致的。 关键词:语音情感识别;语音情感强度分析;语音信息查询系统;语音端点检测 a b s t r a c t t h ei n t e l l i g e n c eo fe m o t i o ni sv e r yi m p o r t a n ti nh u m a nm a c h i n ei n t e r a c t i o n , w h e r et h ea n a l y s i so fs p e e c he m o t i o ni sm o r ea n dm o t eu s e dt o i m p r o v et h e i n t e l l i g e n c eo fs y s t e m i nt h i st h e s i s ,t h es p e e c he m o t i o nt e c h n i q u ei ss t u d i e da tt w o a s p e c t s ,w h i c h 。a r et h es p e e c he m o t i o nr e c o g n i t i o nu s e di nt h es p e e c hi n f o r m a t i o n i n q u i r i n gs y s t e ma n dt h ed e m a n do fs p e e c he m o t i o ni n t e n s i t ya n a l y s i s i nt h e m e d i c i n a ld i a g n o s i s f i r s t l y ,t h es t a t eo fs p e e c he m o t i o nr e c o g n i t i o nu s i n gf o rt h es p e e c hi n f o r m a t i o n i n q u i r i n gs y s t e mw a si n t r o d u c e d t h e nt h es p e e c he m o t i o nr e c o g n i t i o nw i t ht h ef i x e d t e x ta n dt ot h ed i f f e r e n ts p e a k e rh a sb e e np r e s e n t e dt og e tab e t t e rr e c o g n i z i n gr e s u l t an o v e la l g o r i t h mo fe n d p o i n td e t e c t i o ni sp r o p o s e db a s e do nb a y e sm i n i m u me r r o r p r o b a b i l i t yd e c i s i o n a f t e rt h a t ,f e a t u r e sb a s e d o ns p e e c hr a t e s ,m a g n i t u d ea n dp i t c h w e r ea n a l y z e d ,a n dt h em e t h o do ff u z z ye n t r o p yw a se m p l o y e dt oe v a l u a t et h e v a l i d i t yo ff e a t u r e s s ow ec o u l du s et h em o r ee f f e c t i v ec o m b i n a t i o no ff e a t u r e st o a c h i e v es p e e c he m o t i o nr e c o g n i t i o n t h ep a r z e np r o b a b i l i s t i cn e u r a ln e t w o r k ( p p n n ) h a sb e e nu s e dt oe s t i m a t eap o s t e r i o r ip r o b a b i l i t yd e n s i t yi nt h es p e e c he m o t i o n r e c o g n i t i o na f t e ra n a l y z e ds o m ec l a s s i f i e r su t i l i z e df o re m o t i o nr e c o g n i t i o n a tl a s t , t h et e s t i n gr e s u l ti n d i c a t e dt h a tg o tah i 曲e rr a t eo fr e c o g n i t i o n a i ma tt h ed e m a n do fs p e e c he m o t i o ni n t e n s i t ya n a l y s i si nt h em e d i c i n a l d i a g n o s i s ,t h et h e o r yo fs p e e c he m o t i o ni n t e n s i t ya n a l y s i si sr e s e a r c h e di nt h es e c o n d p a r t w ef i r s tp r e s e n t e dt h ee m o t i o n a le x c u r s i o nt h e o r y b a s e do nw h i c haf t a m eo f s p e e c he m o t i o nq u a n t i f i c a t i o nh a sb e e ne s t a b l i s h e d i no r d e rt o t e s tt h i sm e t h o d ,a n e m o t i o n a ls p e e c hd a t a b a s ew i t hf i v eg r a d e so fe m o t i o n a li n t e n s i t yh a sb e e nb u i l ta n d t h ea l g o r i t h mt oa n a l y z et h es p e e c he m o t i o ni n t e n s i t yh a sb e e nt e s t e d t h et e s t i n g r e s u l ti n d i c a t e dt h a tt h e r ei sag o o dc o h e r e n c eb e t w e e nt h ee m o t i o n a lv a l u ea n dt h e e m o t i o ni n t e n s i t ye x p r e s s e db yr e c o r d e r s k e yw o r d s :s p e e c h e m o t i o nr e c o g n i t i o n , i n f o r m a t i o ni n q u i r i n gs y s t e m , s p e e c he m o t i o ni n t e n s i t ya n a l y s i s ,s p e e c h s p e e c he n d p o i n td e t e c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得云洼王些太堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名:敬咎 签字日期:_ 伊易月,1 恫, 学位论文版权使用授权书 本学位论文作者完全了解丞洼王些太堂有关保留、使用学位论文的规定。 特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:投。杏 签字日期:加弓年弓月,y 日 一, 导师躲卅咱 签字日期:加了年月j 阳 , 学位论文的主要创新点 一、基于贝叶斯最小错误率决策理论实现了一种新的语音信号端点检 测算法; 二、研究了“与文本有关且与说话人无关”的语音情感识别应用于语 音信息查询系统中的实现方案; 三、提出了语音情感偏移假设,并在此基础上给出了语音情感强度分 析的一般理论框架。 第一章绪论 1 1 课题的研究背景及意义 第一章绪论 随着信息技术的高速发展和人类对计算机的应用程度的不断增强,入机的交 互能力越来越受到人们的重视。如何实现计算机的拟人化,使其能感知周围的环 境、气氛,对象的念度、情感等内容,自适应地为对话对象提供最舒适的对话环 境,尽量消除操作者和机器之间的障碍,己成为下一代计算机发展的目标。斯坦 福大学的r e e v e s 和n a s s 通过研究发现,人机交互需要解决的问题同人和人交流 的过程是一致的,其中非常关键的一部分是“情感智能”的能力。因此计算机如 果能够更加主动地了解操作者的需要,首先必须能够识别操作者的情感,而后再 根据情感的判断来调整对话的方式。 对于情感识别研究包括多个方面,如生理信号情感识别、肢体情感识别、面 部情感识别和语音情感识别。目前各国在这些方面都投入了大量的资金进行研 究,例如美国的m i t 媒体实验室的情感计算研究小组( a f f e c t i v ec o m p u t i n g r e s e a r c hg r o u p ) 就在专门研究机器如何通过对外界信号的采样,如人体的生理信 号( 血压,脉搏,皮肤电阻等) 、面部快照、语音信号来识别人的各种情感,并让 机器对这些情感做出适当的反应晗1 。 通过语音相互传递信息是人类最重要的基本功能之一,声音是人类相互交流 的常用工具,也是人们表达情感的重要途径。语音信号中的情感信息是重要的信 息资源,它是人们感知事物必不可少的部分。例如同样一句话,由于说话人表现 的情感不同,在听者的感知上就会有较大的差别,所谓”听话听音”就是这个道理。 然而,传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规 则化处理给去掉了。实际上,人们同时接受各种形式的信息,怎样有效的利用各 种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方 向。因此语音情感技术的研究,分析语音中的情感特征、判断说话入的喜怒哀乐 是一个具有广泛应用前景的研究课题。 语音情感识别,就是通过分析人们语音对应于情感的变化规律,利用计算机 从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。相对于 有几十年研究历史的语音识别技术,语音情感识别着眼点不是语音信号处理中语 音词汇的表达,而是被忽略的包含在语音信号中的情感和情绪信息。由于情感语 音和内在情绪有着密切的联系,情绪是情感语音的重要起因,大多数情感语音都 天津工业大学硕士学位论立 由特定的内在情绪所支配。如果说话人的情感状态可准确识别,那么在人机交互 中机器将能更有效地对使用者的要求做出回应。为进一步提高对语音识别的准确 率,通过提取说话人的情感状态,将提高对语言的理解,也能加强语音识别系统 的识别准确率。目前自动语音翻译算法重点集中在语音中语义的理解,如果可以 识别说话人的情感状态,特别是在非面对面的情况下,将给会议交流额外提供一 种有效信息。 说话人情感状态的自动识别具有非常广阔应用前景,它不仅仅可以应用于人 机交互系统,还可以用于语音识别,提高语音识别的鲁棒性“1 ;或者用于说话 人辨别,提高说话人辨别率“”;可以用于手机通信;可咀将其用于自动远程电 话服务中心,及时发现客户的不满情绪”:可以用于临床医学”1 ;可以用于 远程教学和婴儿教育,及时识别学生或婴儿的情绪并做出适当的处理,从而提高 教学教育质量;可以用于辅助l 临床精神分裂症的诊断和治疗;此外也可以用于刑 事侦察中自动的检测犯罪嫌疑人的心理状态,辅助测谎“,例如,说谎者常常会 企图隐藏其真实的情感,如果能够自动识别其真实情感状态并同时设法发现其隐 藏真实情感的企图,结合其他技术,判断其是否在说谎或者在隐瞒某些事实。自 动语音情感识别的研究,不但可以推动计算机技术的进一步发展,也将大大提高 人们的工作和学习效率,更高效率地帮助人们解决问题,同时也将进一步丰富人 类的生活,提高人们的生活质量。 1 2 语音情感研究现状 为了说明情感识别技术的研究现状,利用发表论文的标题( t i t l e ) 和关键词 ( k e yw o r d s ) 检索”s p c c c he m o t i o nr e c o g n i t i o n ”,得到发表论文数与年份的关系如 图l - 1 所示。从图中可以看出,2 0 0 0 年以前关于语音情感识别的研究还不多,2 0 0 0 年后相关的研究逐年增加,这几年更是发展迅猛。 图卜1 近年来语音情感识别茇表论文数量 2 0 0 0 年由i s c a 举办的i s c a ( a n 、r k s h o po rs p e e c he m o t i o n ) ,第一次针对 第一章绪论 语音情感研究提出了一个研究的框架。他们将语音情感研究分为情感的理论基 础、情感数据源的获取、语音的情感特性研究以及语音情感的识别几个方面。 1 情感的理论基础 对情感理论的研究是一切有关情感研究的基础,主要从生理学、心理学方面 研究情感的形成、情感的组成方式和表达方式,从而为情感分析提供一个j 下确的 情感区分手段。情绪理论的研究最早可以追溯到公元前5 世纪赫拉克利特 ( h e r a c l i t u s ) 对情绪的研究。随后,许多世界知名哲学家包括亚早斯多德( a r i s t o t l e ) 、 迪卡尔( d e s c a r t e s ) n 斯宾诺莎( s p i n o z a ) 等都对情绪理论方面做出过一定的贡献。 到上个世纪5 0 年代,几种颇有影响的学说丌始从认知的角度研究情绪的功能,并 明确地提出情绪不仅不是非理性的,而且非常理性化,才丌创了情感理论研究的 新局面。 已经有许多西方学者就情感的准确定义展丌了讨论。o a t l e y 和j e n k i n s 认为情 感是人与人之问相互交流的信息,由思想和外部事件引起的行为、生理变化和主 观体验组成。在文献羽中,总结了1 0 0 多位学者对于情感的定义。这些定义通常 是复杂的、难以理解的,这也从一个侧面反应出给出情感准确定义的难度。由此 可见,对于情感的定义仪有有限的一致,很难给出情感的准确定义。 对情感的分类也有很多的观点: 一种观点认为人类的情感是由分立的基本情感组成的,称为基本情感论。基 本情感论认为情感在发生上有原型模式,即存在着数种泛人类的基本情感类型, 每种类型各有其独特的体验特性、生理唤醒模式和外显模式,其不同形式的组合 形成了所有的人类情感。我国古代思想家苟子将情感分为好、恶、喜、怒、哀、 乐六大类,倡导”六情既”。法国哲学家笛卡尔( d e s c a r t e s ) 认为,人有惊奇、爱悦、 僧恶、欲望、欢乐和悲哀六种原始情感,其他情感都是它们的分支。在近现代, 美国心理学家伊扎德( c e i z a r d ) j 厦过因素分析列出了包括9 种情感的“情感分类 表”:兴奋、喜悦、惊骇、悲痛、僧恶、愤怒、羞耻、恐惧和傲慢。这些关于情 感的分类都是基于基本情感论的划分方法。 与基本情感论相对立的是维度空间论。它认为人类所有的情感是由几个维度 空问所组成,特定的情感状态只能代表一个从亲近到退缩或者是从快乐到痛苦的 连续空问中的位置,不同情感之问不是独立的,而是连续的,可以实现逐渐的、 平稳的转变,不同情感之问的相似性和差异性是根据彼此在维度空问中的距离来 显示的。最广为接受的维度模式是如下两个维度组成的a c t i v a t i o n e v a l u a t i o n = 维 空问,如图1 2 所示。 ( 1 ) 激活度或唤醒度( a c t i v a t i o no r a r o u s a l ) ,指与情感状态联系的机体能量 天津上业大学硕士学位论文 激活的程度。它表现的是情感的激烈程度,如愤怒、高兴等是较激烈的情感,对 应着交感神经的激发;而悲伤则是比较平缓的情感,对应着副交感神经的激发。 ( 2 ) 评估度或愉悦度( e v a l u a t i o n o r p l e a s u r e ) ,其理论基础是正负情感的分离 激活。它描述了情感是正面( p o s i t i v e ) 的还是负面( n 。铲t 押0 的,如高兴是正面 的情感,而愤怒、悲伤等则是负面的情感”。 一一 一o一 一,s 。 h _ t 州 竹 一t 扯 、 一v e y m i v t 幽1 - 2 a c t i v a t i o n - e v a l u a t i o n 空间 2 情感数据源的获取 目前国际上已知的语音情感库有月麦语数据库、g r o n i n g e ne u 渔数据库、 柏林数据库、e s p 数据库、r e a d i n g l e e d s 数据库、a m i d 故据库国内的语音情感 库则较少,只有中国科学院自动化所和台湾大同大学开发了自己的数据库。下面 简单介绍了这些数据库是如何建立的。 f 1 ) 丹麦语数据库1 该数据库的语音材料丰要为表演数据表演人员为四个专业演员。文本材料 为两个词、九个短句和两个段落。其中词为简单的y e s 和n 0 ,短句中包含四个提 问句和五个陈述句。表演的情感为惊奇、快乐、悲伤和愤怒。加上不包含情感的 中性情况,每个语音材料分别用_ 五种不同的情感倾向进行朗读录音。 ( 2 ) 柏林数据库 由5 个男性和5 个女性的德国演员进行表演文本材料为1 0 个语句。表达的情 感为狂怒、悲哀、敢喜、恐惧、厌恶、厌烦以及不包含任何情感的中性。 f 3 ) c a o n i n g e ne l r a 数据库“” g r o n i n g e ne l r a 数据库是个部分包含情感材料的库它共包含2 0 个小时的 语音数据,分别柬f 1 2 3 5 个人朗读文本所得到的读者语音。材料包含段落的两个 文本,部分包含了情感。 第一章绪论 ( 4 ) r e a d i n g l e e d s 数据库 这是英国国防部资助的,l 主l r e a d i n g 大学语音实验室和k e d s 大学心理学系共 同研究的项目。数据来源为摘引数据,主要从广播材料中搜集,比如采访,对话 等节目,通过交互时的内容激发起人的情感。搜集的材料主要为时长大约5 俐、 时左右的情感语音,主要来自于英国本土的电台和电视节目。情感分类分作生气、 恐惧、厌恶、高兴、悲伤。 ( 5 ) e s p 数据库1 8 3 e s p 是日本科技厅于2 0 0 0 年开始的一项五年计划,全称是情感语音处理项目 ( e x p r e s s i v es p e e c hp r o c e s s i n gp r o j e c t ) 。系统通过基于数据库的语音技术的研究, 来理解说话人的真实想法。数据来源同样为表演数据。录制测试人在普通对话情 况下和日常生活中的语音交流,作为样本。然后对每个单独的语句样本进行情感 判断,把他们按照正常、高兴、悲哀、生气几类给予不同的标注,作为研究的数 据库。 ( 6 ) a m i r 数据库7 1 采用4 0 个学生进行数据采集,其中男性1 9 名,女性2 1 名。根据同步采集的生 理数据的方差以及心率,剔除9 名学生的数据。最终数据共包括3 1 名学生,其中 男性1 6 名,女性1 5 名。情感语音分作愤怒、恐惧、高兴、悲伤和厌恶5 类。 ( 7 ) 中国科学院自动化所 开发了共包括四个专业发音人,5 种情感,分别是高兴、悲哀、生气、惊吓、 中性。每种情感有5 0 0 句语料,其中前3 0 0 旬是相同文本的,即对相同的文本赋 以不同的情感来阅读,这些语料可以用来对比分析不同情感状态下的声学及韵律 表现;另外2 0 0 旬是不同文本的,这些文本从字面意思就可以看出其情感归属, 便于录音人更准确地表达情感。选取录音人男声、女声各两人,每人按照以上所 述五种不同的情感朗读文本2 5 0 0 句,共1 0 0 0 0 句,以1 6 0 0 0 采样率,1 6 b i t ,p c m 格式存储。 ( 8 ) 0 湾大同大学资讯工程学系印 开发了包含愤怒、高兴、悲伤、厌烦和中性5 个情感类别,1 8 个男性和1 6 个女性说话人讲述约2 0 个语音文本,每个文本的长度从1 个字至6 个字逐一增 加,共获取情感语音约3 4 0 0 旬。经过3 个层次评估语音情感表达质量的听取实 验筛选后,最终获取8 3 9 句情感语音。听取实验后各长度情感语音所占的比例表 明,人类很难识别文本长度较短语音的情感类别,录制情感语音时应避免使用短 长度的文本。 情感数据库是进行语音情感分析的基本要素,一个完备的数据库,是算法分 析的必要条件,但目前从整个世界的研究情况来看,数据库的建立还处在一个较 天津工业大学硕十学位论文 低的水平。虽然有部分基于这些数据库的研究成果公布于世,但是这些数据库本 身则并没有公开,同时由于各自所从属的语言系有一定的差异,所以造成了基于 这些数据库的研究成果难以共享,不同的研究方法之间缺乏可比性。普通话情感 语音数据库的研究刚刚起步,缺少一套完整的、可供参考的采集和管理方案,及 可供研究共享的情感语音数据库,这使得普通话情感识别的各项研究难以开展。 3 语音的情感特性研究 语音信号中的情感特性研究则是研究特征参数和情感类型的对应关系,也就 是模式识别的问题,两者在一起即是语音情感识别问题。因此语音情感自动识别 技术可以分为两类问题,一是特征抽取问题,一是模式识别问题。 参考各类文献及各国工作人员的研究,针对情感识别所采用的特征几乎大都 是韵律特征,比如基音、强度和持续时间等,以及在这几种特征的基础上衍生出 的大量参数,比如这些基本特征的均值、范围、轮廓变化等,在部分文献中,也 考虑了语音特征的情况,比如共振峰信息等,但是从总的结果和应用的情况来看, 在语音情感处理中所采用的特征总是局限在一个较小的范围,而到底何种特征能 够较好的反映情感的信息还没有明确的结论,关于这些特征以及衍生特征的有效 性评价也在同步的进行当中。 另外,心理学和生理学研究人员也有一些新的发现,有机体的心理生理状态 与语音的产生机制有关,它受到语言的环境因素( 比如词汇、重音和结构等) 作用, 在不同层次上影响语音所包含的情感:a l t e r 1 9 1 等人研究了韵律和音质之间的关 系,发现生气和高兴时的发音在喘气和沙哑等方面是不同的,一些特定的元音在 结构上的变化直接依赖于情感,而另一些元音则依赖于句子中的位置及说话者是 否用错了重读模式。 有的研究人员还从语言学的角度考虑语音信号中的情感,考虑句子的语义成 分,利用语句的语义和语法提供说话人的情感线索。啪l l c a u l d w c l l 瞳叫的研究。 从语言学的角度对说话人的情感进行分析不失为一种好方法,但也存在不足之 处,首先,需要大量的先验知识,而且要求说话的人发音要清晰,才能保证较高 的识别率,另外在对句子进行语义分析时,又需要相关的语言知识,这又给情感 分析增加了一层难度,所以在现阶段较难实现。 声学特征在人类使用语音进行信息交流过程中承担了不同的任务。其中韵律 特征主要承载超语言学信息,超语言学信息是在保证语言学信息能够成功传达的 基础上,通过相关声学特征的变化而实现的。这些相关特征一般为韵律学特征, 如基频、能量和音质等,还可能包括少量的频谱特征。如何选择这些声学特征、 了解其相关性并建立语音情感与这些特征的关联,是十分重要的研究领域。 第一章绪论 在初步选定与情感状态相关的声学特征后,经统计计算会形成特征个数很多 的特征向量,这个特征向量中往往存在着一些对情感分类贡献小,甚至没有贡献 的特征。显然,用这样的高维特征向量进行情感识别是不合适的。模式识别的研 究表明,识别率不与特征空间的维数成正比,在高维情况下泛化能力反而减弱, 甚至导致维数灾难。 4 语音情感的识别 在模式识别方面,各国研究人员在语音情感处理领域几乎利用了所有的手 段,新的方法的应用和对比层出不穷,神经网络分类器、b a y e s 分类器、k 最近 邻分类器、s v m 、g m m 、h m m 分类器都有被使用,比女1 a m i r 等人心圯使用距离 测量分类器取得了正常状态7 0 ,高兴7 6 ,悲伤8 3 ,生气6 1 的识别率,整 体识别率大约7 0 ;d e l l a e r t 等人口羽使用基音轮廓线作为特征,利用最大似然b a y e s 分类器,k e r n e l 回归分类器和k 最近邻分类器,来区分悲伤、生气、高兴和害怕, 达虱j 6 0 - - 6 5 的精度:t a t o 等人口引讨论了利用更多韵律学附加信息来拓展情感的 维数,并通过实验展示了将“结构特征”作为“韵律学特征”的附加来提高多类 情感的分类效率,使用了s v m 作为分类器,作了四类( 喜、怒、悲、平常) 情感的 识别研究,最后实现了7 3 的平均识别率;t y a m a d a 等泓3 用神经网络的方法对四 类语音情感( 悲伤、兴奋、欢乐和愤怒) 进行识别,达到7 0 的识别率:b j o ms c h u l l e r 对将h m m 运用于语音情感的研究作了进一步分析珏刖,他采用两种方法,一种是 从语音信号的基音和能量轮廓中提取参数,用单一状态h a m 对全局统一参数进 行计算;另一种方法使用了连续的h m m ,使用语音信号的瞬时特征来取代全局参 数,均取得较好效果。 虽然在语音情感识别上的研究进行了很多,但整个语音情感信息处理领域还 处在一个较低的水平。因为首先提取的有效特征有限,几乎所有的研究人员都是 采用韵律特征或这些特征的组合或衍生特征作为分析参数,其次,对于模式识别 的手段,虽然有很多不同的应用方法,但是由于研究项目中使用的数据各异,而 使得这些文献间类比的可能性很小,m a j ap a n t i c 瞳6 1 对近几年的1 4 个语音情感文献 的结果进行了对比,研究发现文献中的研究对象差异很大,结果各异,仅从识别 率而言,就形成了从5 3 到9 0 这样的悬殊,而且不能说识别率高的那种方法就 一定比识别率低的那种方法好,这是不具有可比性的。 所以,综合以上介绍,我们可以看到语音情感的识别还处于一个探索和研究 的阶段,很多的问题和困难需要解决,对该领域的突破还需要所有研究工作者的 共同努力。 天津工业大学硕士学位论文 1 3 本文解决的问题及内容概要 作为语音情感分析研究的最终目标,语音情感技术应用则是综合前面的研究 手段,对实际的语音信号进行处理分析,应用于不同的领域,满足不同的需要。 本文将分别对语音情感技术在语音信息查询系统和医学诊断两个领域的应用进 行分析,指出了目前存在的问题,并提出了自己的解决方案。 本文第一部分是研究适用于语音信息查询系统的语音情感识别技术。在语音 信息查询系统中加入语音情感识别能力,能使计算机具有情感分析的能力,可以 进一步提高语音查询系统的服务水平。然而目前把语音情感技术应用于语音信息 查询系统存在情感的正确识别率普遍较低的问题,作者通过把“与文本有关且与 说话人无关”的语音情感识别技术应用于语音信息查询系统中,通过提高系统的 整体识别率,为其实用化奠定技术基础。 本文第二部分是研究应用于医学诊断的语音情感强度分析。患有精神分裂症 等精神疾病的患者往往会出现情感表达障碍,情感障碍主要表现在其情感反应与 其心里活动的不协调,研究人员已经尝试通过量化患者的面部表情来辅助诊断和 治疗这类疾病。目前还没有关于通过语音情感强度分析的方法对患者的表达能力 进行诊断和治疗研究报道,所以本文对这方面的应用进行了探索性研究。 论文共分四章,主要内容概要如下: 第一章,介绍了课题的研究背景和研究意义,分析国内外关于语音情感技术 的研究现状。 第二章,介绍了语音情感技术在信息查询系统中的应用。首先介绍了语音的 预处理技术,然后研究了适合于本文语音情感识别的有效特征参数和分类器,最 后再利用自己录制的语音库进行了相关实验分析。 第三章,介绍了语音情感强度分析的初步研究。首先指出了情感强度分析在 医学诊断领域的应用现状和存在的问题,然后在提出语音情感偏移假设理论的基 础之上,提出了语音情感强度分析的理论框架。 第四章,对全文进行总结,并提出进一步需要开展的工作。 第二章应用于语音信息奄洵的语音情感识别的研究 第二章应用于语音信息查询的语音情感识别的研究 2 1 语音信息查询的研究现状 1 存在的问题 语音信息查询系统是目前语音技术最主要的应用领域之一,例如银行帐目查 询、手机话费查询、交通票务查询、股市信息查询,自动语音客服系统等。为了 增加工作效率和减少相关人员的工作量,同时也为了方便客户的使用,自动语音 识别技术已经广泛应用于各类语音查询系统中。 这类系统一般采纳如下结构,如图2 一l 所示。 图2 - 1 语音信息查询系统的一般结构 从上面的框图可以了解到,用户服务的第个阶段实际上是机器在和用户 进行交流。由于采用自动语音识别技术,使得机器可以听懂人们的讲话,从而增 加了系统的工作效率并且方便了用户的使用。同理,如果在这类查询系统中加入 语音情感识别能力,使计算机具有情感分析的概念解析功能,可以根据用户查询 时的情景状态来决策用户的服务优先级,并做出合适的反映或分派合适的人员为 其服务。比如票务查询系统,如果用户的语气显得非常着急,则可以适当地提前 为其服务,这样可以大大提高智能信息检索的效率,改善服务友好度。 目前关于把语音情感技术应用于语音信息查询系统的研究报道尚比较少见, 在这类应用一个比较成功的案例就是p e t r u s h i n 乜7 3 等人对语音情感识别技术在电 话呼叫中心的应用作了初步的探索。论文研究涉及了两种情形,首先研究了客户 天津工业大学硕士学位论文 通话过程中的情感识别,其目的是对呼叫中心的服务质量起到监督的作用。其次, 还分析了语音留言和语音邮件中的情感识别。2 0 0 7 年w o n j o o n gy o o n 汹1 等报 道了语音情感识另d 技术在电话客服系统中的应用。论文把情感归类为:中性 ( n e u t r a l ) ,高兴( h a p p i n e s s ) ,悲伤( s a d n e s s ) ,生气( a n g e r ) 以及烦恼( a n n o y a n c e ) , 并利用k n n 和神经网络的分类方法进行识别。 在上述研究报道中,情感的正确识别率普遍较低,例如在w o n j o o n gy o o n 和p e t r u s h i 等人的研究中,情感的的识别率普遍在6 0 左右。因此识别率低是影 响这种技术实用化和商业化的主要问题之。 2 解决方案 语音情感识别的真正困难在于:情感类别与语言学信息的无关性,即不同的 语音可以表达相同的情感。情感类别还存在与说话人的无关性,即不周的说话人 可以表达相同的情感。根据情感语音训练样本与测试样本中说话人和文本的异 同,可以将它们分成4 组,如表2 1 所示。所谓说话人相关是样本情感语音的说话 人是同一人,说话人无关是指样本情感语音的说话人是不同人;文本相关是指样 本情感语音的文本是同文本( 或者同一文本集) ,文本无关是指样本情感语音的 文本是不同文本。 表2 一t 基于说话入希f 文本筹异的样本纽织方式 话人 说话人相关说话人无关 文趴 文本相关说话人相关,且文本相关说话人无关,且文本相关 文本无关说话人相关,且文本无关说话人无关,且文本无关 由p e t r u s h i n 和w o n j o o n gy o o n 发表的论文可以知道,他们采用语音情感技术 都属于说话人无关,且文本无关。但是,语音的声学参数用来标识语音的情感表 达,而语音的声学参数受到发声系统及语音文本差异的影响很大,从而直接影响 语音情感的识别结果。一般来说,说话人无关且文本无关的语音情感识别的识别 率较低,但是应用范围更广,而说话人有关且文本有关的语音情感识别虽然识别 率较高,但是应用上受到一定的限制。 。通过对采用自动语音识别技术的语音信息查询系统进行分析发现,由于系统 的用户不固定,因此只能采纳与说话人无关的情感识别技术。但是,由于这类系 统采用了自动语音识别技术,为了减小识别过程的难度,查询过程大多采用选择 第二章应用于语音信息查询的语音情感识别的研究 引导式交互,即大多时候用户只需按照语音提示的固定选项,进行内容相对固定 的语音操作,这样就有可能把与文本有关的语音识别技术应用到这类系统中。 例如,美国大陆航空公司的票务查询客服系统采用了自动语音识别系统,系 统与用户的部分对话如下: c o m p u t e r : 确认机票信息请回答:确认机票;查询航班信息请回答:查询 航班 用户:确认机票 c o m p u t e r : 你是否知道机票i d 号? 回答“我知道”或者“我不知道” 用户:我不知道 c o m p u t e r : 你是否需要别的查询服务? 回答“需要”或者“不需要” 用户:不需要 因此针对目前情感识别应用于语音信息查询系统的主要问题,即识别率较低 的问题,本文采用解决方案是:把与文本有关且与说话人无关的语音情感识别技 术应用于语音信息查询系统中,通过提高系统的整体识别率,为其实用化奠定技 术基础。 2 2 语音信号预处理 与语音信息查询系统中的语音识别类似,语音情感识别过程中在对语音信号 进行分析和处理前,也必须对语音信号进行预处理。在语音情感识别研究中,对 于语音信号预处理的目的是改善语音信号质量,统一语音信号格式,并为后继的 语音特征提取和情感识别打好基础。本文采用的预处理过程,其流程如图2 - 2 所示。 2 2 1 带通滤波 图2 2 语音信号预处理流程 由于本文处理的语音信号是经过通信网络得到的语音信号,主要存在两个失 真。( 1 ) 通过通信网络的信号,信号的频谱已经被削减到一个有限的带宽范围内; ( 2 ) 信号中加入了由于环境、通信设备等引起的噪声。为了消除噪声,文献 3 6 采用了带通滤波器的方法,本文也采用这种方法进行噪声消除。 1 1 天津工业大学硕十学位论文 2 2 2 端点检测 端点检测是对系统的输入信号进行判断,准确找出语音段的起始点和终止 点,保证采集的数据是真正的语音信号数据,从而减少数据量和运算量并减少处 理时间。在语音信息查询系统的实际应用过程中,虽然用户的语音文本是很短的 ( 5 1 0 秒之间) ,但是为了给用户提供足够的时间思考回答,所以记录下来的语 音长度一般都在2 0 - - 3 0 秒之间,因此记录下来的语音文本含有大量的静音片段, 一方面这部分很容易受到周围的噪声污染而影响语音的识别,也会影响语音情感 的识别;另一方面大量的静音片段也会给系统的处理带来沉重负担,从而影响语 音情感识别的速度。因此对原始语音进行准确的端点检测,然后通过语音分割去 除掉无用的语音片段是非常有必要的。 本文提出了一种基于贝叶斯最小错误率的语音端点检测算法。首先,介绍了 短时平均幅度和短时平均过零率相结合的语音特征。然后,具体介绍了基于这两 种特征的检测算法。最后根据最小错误率的贝叶斯决策确定合适的门限值来检测 语音的起点和终点。这种方法在作者建立的语音数据库中进行了测试,实验结果 证明,与仅用幅度或能量特征的方法相比,本文的方法能够提高语音端点检测的 准确性。 ( 1 ) 特征的提取 本文语音端点检测使用短时平均幅度和短时平均过零率相结合的语音特征, 具体的分析及提取算法见2 3 节。 ( 2 ) 判断门限值的确定 本文利用贝叶斯最小错误率的方法来确定幅度门限值g 和过零率门限值 g :。用表示分割状态,则= c o ,表示为有声帧状态,= o j ,表示为无声帧状 态。p ( ,) 和p :) 称为状态的先验概率,p ( 。) + p ( :) = 1 。对于某种特征x , 本文特征x 为短时平均幅度和短时平均过零率,p ( xlt 0 1 ) 表示有声帧状态下观察 特征x 的类条件概率密度,p ( xi :) 表示无声帧状态下观察特征x 的类条件概率 密度。利用贝叶斯公式: p ( qix ) ;孚盟业 p ( xl ,) p ( ,) ( 2 1 ) 得到的条件概率p ( qi x ) 称为状态的后验概率呦1 。p ( p ) 表示平均错误率: p ) 一仁p ( 皿- l p ir ( 七) i 。 ( 4 ) 对确定信号,a ( o ) 值等于信号能量;对随机信号或周期信号尺( 0 ) 值等 于平均功率。 第二章应用丁语音信息查询的语音情感识别的研究 我们知道浊音信号具有周期性的特点以及自相关函数的性质,分析可知浊音 信号的自相关函数在基音周期的整数倍位置上出现峰值,而清音的自相关函数没 有明显的峰值出现,因此检测是否有峰值就可判断是否是清音或浊音,检测峰值 的位置就可提取基音周期值。 具体地说,首先用一个位于n 的移动窗珊0 一肌) 选取一段语音5 沏一m ) , 然后计算该语音段的自相关函数,得到: 尺。( 七) 。【s ( m ) w ( 以一,z ) 】p ( 肌+ 七) w ( 肛- m - k ) ( 2 - 1 8 ) 式中下标刀表示短时自相关函数是对第n 段语音计算出的,自变量堤自相 关的滞后时间。当窗的宽度有限( 设等于彻时,式( 2 - 1 8 ) 变为: r 。( 七) 一e s ( m + ,1 ) w ( ,z ) 】【s ( ,竹+ ,l + 七) w ( ,押+ 七) 】 ( 2 1 9 ) 厕 用上述的方法,短时自相关函数在基音周期的整数倍位置存在较大的峰值, 如果找出第一最大峰值的位置就可以估计出基音周期的位置。但在实际的处理 中,第一最大峰值的位置有时并不一定与基音周期吻合。因为影响从自相关函数 中正确提取基音周期的最主要因素是声道响应部分,声道的共振峰特性会对基音 周期估计造成干扰,这是因为语音信号包含丰富的谐波分量。基音频率的范围分 布在5 0 4 5 0 h z 左右,其中1 0 0 - 2 0 0 h z 的情况占大多数,所以浊音信号有可能包 含3 0 - - - 4 0 个谐波分量。同时,由声道特性决定的语音信号的第一共振峰通常在 3 0 0 - 一1 0 0 0 h z 的范围内,这样就有可能导致语音的第2 8 个谐波分量幅度高于基 频分量。这样,丰富的谐波分量常常会产生基音周期估计出现“倍频或者“半 频错误。 为了减少共振峰的影响,可以采用两种方法解决。一种是通过带通滤波的方 法,将输入信号通过一个频率范围为 6 0 ,9 0 0 h z 的带通滤波器后再进行基音估 计。因为最高基音频率为4 5 0 h z ,所以将上截频设为9 0 0 h z 可以保留语音的一二次 谐波。下截频为6 0 h z 是为了抑$ i j 5 0 h z 的电源干扰。 另外一种方法是中心削波法。它采用如下式的中心削波函数进行处理: 炯m ” 秽 5 0 ) 丁 s ( ,1 ) 一丁 ( 2 2 0 ) is ( n ) l 0 y ( n ) = 0 ( 2 - 2 1 ) y ( n ) 0 r ) 2 荟y 圳o + 七) ( 2 - 2 2 ) 由于y 0 ) 只有+ 1 、0 、一l 三种可能的取值,故互相关计算只需要做加减法, 而互相关序列- 与y ( n ) 的自相关序列的周期性是相似的,所以互相关法可以代替自 相关法并大大节省计算时间。图2 - 1 0 所示,是一段语音基频波形。 图2 1 0 基音轮廓图 同样,在求出了语音的基频波形图后,我们对特征流进行了统计计算,统计 量包括最大值、最小值、均值、范围、标准方差等,具体求法是: 设o 。( o 。,o :,o 。) 为一句语音的基频序列,其中k 为序列的帧数。 基频均值:厂。彳w = 昙妻,。r 基频最大值:f o m a x = m a x ( f o 。,f o :,f o 。) ( 2 - 2 3 ) ( 2 - 2 4 ) 第二章应用于语音信息奈询的语音情感识别的研究 基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 相机租赁合同范本英文
- 食堂员工聘用合同范本
- 塑料成品模具合同范本
- 钢管产品订货合同范本
- 企业招聘中介合同范本
- 众筹合同范本
- 武装押运租车合同范本
- 衣柜拆装服务合同范本
- 单位音响租赁合同范本
- 承包羊舍建设合同范本
- 手术室时间管理课件
- 2025版线上直播场推广服务合同模板
- GB/T 45845.1-2025智慧城市基础设施整合运营框架第1部分:全生命周期业务协同管理指南
- 2025至2030ABF(Ajinomoto积膜)基质行业市场占有率及投资前景评估规划报告
- 智能建造技术课件
- 呼吸科考试试题及答案
- 肿瘤内科胆囊癌护理查房
- 《肺结节规范化诊治专家共识(2024)》解读 课件
- 质量管理五大工具培训教材
- 2025年村支书考试试题及答案
- 锂电池生产企业事故综合应急预案
评论
0/150
提交评论