(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf_第1页
(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf_第2页
(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf_第3页
(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf_第4页
(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf_第5页
已阅读5页,还剩125页未读 继续免费阅读

(计算机科学与技术专业论文)语音情感识别的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学博士学位论文 摘要 摘要 随着人机交互技术的发展,人机接口的研究已经逐渐从机械化时代跨入多媒 体用户界面时代。作为智能人机交互的关键技术之一,语音情感分析与识别已经 成为一个研究热点。各领域研究者十分关注如何从语音中自动识别说话人的情感 状态,并使计算机作出更有针对性和更人性化的响应。 本文首先概述了语音情感识别的研究意义以及文中的主要研究内容,然后回 顾了目前语音情感研究中涉及的多个关键问题,包括情感的分类、情感语料库概 况、语音信号的声学特征,特征降维、分类算法以及基于半监督学习的语音情感 分类。 本文提出了多种特征选择和特征抽取模型。基于类集和类对特征选择相融合 的语音情感识别是一种新型的模型结构,它在关注每一对类别区分度的同时,兼 顾样本数据的全局分布,因而同时引入类集和类对特征选择方式。该模型结构适 用于多种分类算法,而且能有效地提高系统的识别性能。基于特征投影矩阵的特 征选择算法利用特征抽取算法中的投影矩阵,衡量各个初始声学特征的重要性, 据此进行特征子集的选择。实验结果表明,相比于单纯使用投影矩阵进行映射变 换的特征抽取方法,该特征选择算法更具优势。基于多层次特征抽取的语音情感 识别通过对数据的分析,针对不同性别、不同情感类别的语料,选择多样化的降 维算法进行处理。这种思想可以推广到其他语料库上,通过构建合适的基于多层 次降维的识别系统,提高系统整体的识别效果。基于流形学习的增强型l i p s c h i t z 嵌入算法则是一种非线性降维算法,它通过测地距离的计算,将高维特征向量映 射到低维子空间中。该算法在实验室受控环境下的特定人和非特定人语音情感识 别、高斯白噪声和正弦噪声情况下的特定人语音情感识别中,显著地提高了识别 准确率 在传统的语音情感识别系统中,各个声学特征通常是以分量的形式简单地组 成特征向量,作为分类器的数据输入。基于协方差描述子和黎曼流形的语音情感 识别系统考虑了不同声学特征之间的关联性,实验表明该关联性能够反映语音的 情感信息,而且基于此关联性所建立的识别系统稳定性高,抗噪能力强。 n 浙江大学博士学位论文摘要 在只有少量已标记样本和大量未标记样本的情况下,本文提出增强型协同训 练算法,建立起基于半监督学习的分类模型。它通过引入类别预测一致性的限制, 改进标准协同训练算法,减少了分类噪音的产生,并提高了分类器的性能。 考虑到语音情感研究的实用性,使用a d a b o o s t + c 4 5 分类模型对语音信号进 行情感分析,实现了完全实时的情感识别,并将其应用于实时情感语音驱动的人 脸动画生成系统。 关键词语音情感识别,类集和类对特征选择,基于特征投影矩阵的特征选择, 多层次特征抽取,增强型l i p s c h i t z 嵌入算法,协方差描述子和黎曼流形,半监督 学习,实时语音的情感分析与识别 i l i 浙江大学博士学位论文a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fh u m a n - c o m p u t e ri n t e r a c t i o nt e c h n o l o g y , t h er e s e a r c ho f h u m a n c o m p u t e ri n t e r f a c eh a sg r a d u a l l ye n t e r e dt h ee r ao fm u l t i m e d i ai n t e r f a c ef r o m t h ee r ao fm e c h a n i z a t i o n a so n eo ft h ek e y t e c h n o l o g i e si ni n t e l l i g e n th u m a n c o m p u t e r i n t e r a c t i o n ,s p e e c he m o t i o na n a l y s i sa n dr e c o g n i t i o nh a sb e e nah o ts p o t r e s e a r c h e r s f r o mv a r i o u sf i e l d sc o n c e m e da b o u th o wt om a k et h e c o m p u t e ra u t o m a t i c a l l yt o r e c o g n i z es p e a k e r s e m o t i o n a ls t a t e sf r o ms p e e c hs i g n a l s ,a n dr e s p o n dm o r et a r g e t e d l y a n dm o r eh u m a n l y t h er e s e a r c hs i g n i f i c a n c eo fs p e e c he m o t i o nr e c o g n i t i o na n dt h em a i nr e s e a r c h c o n t e n to ft h i sp a p e ra r es u m m a r i z e df i r s t l y t h e nw er e c a l ls o m ek e yi s s u e si nt h e c u r r e n ts t u d i e so fs p e e c he m o t i o n ,i n c l u d i n gt h ek i n d so fe m o t i o n a ls t a t e s ,t h eo v e r v i e w o fe m o t i o n a lc o r p u s ,a c o u s t i cf e a t u r e so fs p e e c h s i g n a l s ,f e a t u r ed i m e n s i o n a li t y r e d u c t i o n ,c l a s s i f i c a t i o na l g o r i t h m ,a n ds e m i s u p e r v i s e dl e a r n i n gb a s e ds p e e c he m o t i o n c l a s s i f i c a t i o n t h i sp a p e rp r e s e n t ss e v e r a lm o d e l so ff e a t u r es e l e c t i o na n df e a t u r ee x t r a c t i o n t h e s p e e c he m o t i o nr e c o g n i t i o nb a s e do naf u s i o no fa l l - c l a s sa n dp a i r w i s e - c l a s sf e a t u r e s e l e c t i o ni san e w t y p eo fm o d e ls t r u c t u r e i tf o c u so nt h ed i s c r i m i n a t i o nb e t w e e ne v e r y t w oe m o t i o n a ls t a t e s ,a n ds i m u l t a n e o u s l yt a k et h eo v e r a l ld i s t r i b u t i o no fs a m p l e si n t o a c c o u n t ,s ot h ea l l - c l a s sf e a t u r es e l e c t i o na n dt h ep a i r w i s e c l a s sf e a t u r es e l e c t i o na r e b o t hi n v o l v e d t h em o d e ls t r u c t u r ei ss u i t a b l et om a n yc l a s s i f i c a t i o na l g o r i t h m sa n di t c a ne f f e c t i v e l yi m p r o v et h ep e r f o r m a n c eo fr e c o g n i t i o ns y s t e m f e a t u r es e l e c t i o nb a s e d o nf e a t u r ep r o j e c t i o nm a t r i xu s e st h ep r o j e c t i o nm a t r i xf r o mf e a t u r ee x t r a c t i o nt o e v a l u a t et h ei m p o r t a n c e so fi n i t i a la c o u s t i cf e a t u r e s ,a n dt h e nc o m p l e t ef e a t u r es u b s e t s e l e c t i o nb a s e do nt h ei m p o r t a n c e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a t ,c o m p a r e dt ot h e f e a t u r ee x t r a c t i o nm e t h o dw h i c hs i m p l yu s e st h ep r o j e c t i o nm a t r i xt od od a t am a p p i n g , t h i sf e a t u r es e l e c t i o na l g o r i t h mh a sm o r ea d v a n t a g e s t h r o u g ht h ea n a l y s i so ft h ed a t a ,a h i e r a r c h i c a lf r a m e w o r ko ff e a t u r ee x t r a c t i o nf o rs p e e c he m o t i o nr e c o g n i t i o ns e l e c t sa v a r i e t yo fd i m e n s i o n a l i t yr e d u c t i o na l g o r i t h mt op r o c e s sd i f f e r e n tg e n d e ro rd i f f e r e n t e m o t i o n a ls t a t e so fc o r p u s t h i si d e ac a nb ee x t e n d e dt oo t h e rc o r p u s ,b yc o n s t r u c t i n ga s u i t a b l er e c o g n i t i o ns y s t e mb a s e do nh i e r a r c h i c a ld i m e n s i o n a l i t yr e d u c t i o ,a n di tw i l l i m p r o v er e c o g n i t i o np e r f o r m a n c e e n h a n c e dl i p s c h i t ze m b e d d i n ga l g o r i t h mb a s e do n i v 浙江大学博士学位论文 a b s t r a c t m a n i f o l dl e a r n i n gi san o n l i n e a rd i m e n s i o n a l i t yr e d u c t i o na l g o r i t h m t h r o u g ht h e c a l c u l a t i o no fg e o d e s i cd i s t a n c e ,t h eh i g h - d i m e n s i o n a lf e a t u r ev e c t o r sa r em a p p e di n t oa l o w - d i m e n s i o n a ls u b s p a c e t h ea l g o r i t h mi m p r o v e s t h e r e c o g n i t i o na c c u r a c y d r a m a t i c a l l yi ns p e a k e r - d e p e n d e n ta n ds p e a k e r - i n d e p e n d e n ts p e e c he m o t i o nr e c o g n i t i o n u n d e rc o n t r o l l e dl a b o r a t o r ye n v i r o n m e n t ,a sw e l la si ns p e a k e r 二d e p e n d e n ts p e e c h e m o t i o nr e c o g n i t i o nu n d e rt h ee n v i r o n m e n to fg a u s s i a nw h i t en o i s ea n ds i n u s o i d a l n o i s e i nt h et r a d i t i o n a ls y s t e mo fs p e e c he m o t i o nr e c o g n i t i o n ,e a c ha c o u s t i cf e a t u r ei s r e g a r d e da so n ec o m p o n e n to fas i m p l yc o m p o s e df e a t u r ev e c t o rw h i c h i st h ei n p u to f c l a s s i f i e r s s p e e c he m o t i o nr e c o g n i t i o nb a s e do nc o v a r i a n c ed e s c r i p t o ra n d r i e m a n n i a n m a n i f o l dc o n s i d e r st h e t h ec o r r e l a t i o nb e t w e e nd i f f e r e n ta c o u s t i cf e a t u r e s t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ec o r r e l a t i o nc o u l dr e f l e c tt h ee m o t i o n a li n f o r m a t i o n , a n dt h er e c o g n i t i o ns y s t e me s t a b l i s h e do nt h ec o r r e l a t i o nh a sh i g hs t a b i l i t ya n d a n t i - n o i s ea b i l i t y o nas m a l ln u m b e ro fl a b e l e ds a m p l e sa n dal a r g en u m b e ro fu n l a b e l e ds a m p l e s , t h i sp a p e rp r e s e n t sa ne n h a n c e dc o - t r a i n i n ga l g o r i t h mt ob u i l dac l a s s i f i c a t i o nm o d e l b a s e do ns e m i s u p e r v i s e dl e a r n i n g i ti n t r o d u c e sar e s t r i c t i o no nl a b e lp r e d i c t o r st o i m p r o v et h es t a n d a r dc o t r a i n i n ga l g o r i t h m 。t h i sa l g o r i t h mr e d u c e st h ep r o d u c t i o no f c l a s s i f i c a t i o nn o i s e sa n di m p r o v e st h ep e r f o r m a n c eo fc l a s s i f i e r s c o n s i d e r i n gt h ep r a c t i c a l i t yo ft h er e s e a r c h s o ns p e e c he m o t i o n ,t h i sp a p e r p r o p o s e sac l a s s i f i c a t i o nm o d e lo fa d a b o o s t + c 4 5t oa n a l y z et h ee m o t i o n a ls t a t e so f r e a l - t i m es p e e c hs i g n a l s w er e a l i z eac o m p l e t er e a l - t i m ee m o t i o nr e c o g n i t i o nm o d e l a n da p p l yi ti nar e a l t i m ef a c i a la n i m a t i o ns y s t e md r i v e nb ye m o t i o n a ls p e e c h k e y w o r d ss p e e c he m o t i o nr e c o g n i t i o n ,a l l - c l a s sa n dp a i r w i s e c l a s sf e a t u r es e l e c t i o n , f e a t u r es e l e c t i o nb a s e do nf e a t u r ep r o j e c t i o nm a t r i x ,h i e r a c h i c a lf e a t u r ee x t r a c t i o n , e n h a n c e dl i p s c h i t ze m b e d d i n ga l g o r i t h m ,c o v a r i a n c ed e s c r i p t o ra n dr i e m a n n i a n m a n i f o l d ,s e m i s u p e r v i s e dl e a r n i n g ,e m o t i o na n a l y s i sa n dr e c o g n i t i o no n r e a l - t i m e s p e e c h v 浙江大学博士学位论文 图目录 图目录 图1 1 语音情感识别的应用场景示例2 图1 2 本文的组织结构图5 图2 1 紧张度的两极性7 图2 2s c h l o s b e r g 的三维情绪模式图。8 图2 3p l u t c h i k 的三维情绪模式图一9 图2 4 频率厶与m e l 频率的关系曲线1 5 图2 5 隐马尔可夫模型示例2 7 图2 6 二维线性空间的支持向量机示意图2 8 图2 7 多层结构的前向人工神经网络2 9 图3 1 训练阶段的结构示意图。3 5 图3 2 识别阶段的结构示意图3 6 图3 3 不同参数k 取值下的系统性能比较4 0 图3 4 不同参数对( y ,c ) 取值下的系统性能比较4 l 图3 5 基于序列前向选择和k 近邻算法的特征索引表示例4 l 图3 6 基于类对特征选择、类集特征选择、类集和类对特征选择相融合的三 种语音情感识别系统的性能比较( 分类算法为k 近邻法) 一4 2 图3 7 基于类对特征选择、类集特征选择、类集和类对特征选择相融合的三 种语音情感识别系统的性能比较( 分类算法为支持向量机) 4 3 图3 8 四种基于不同降维算法的语音情感识别系统的性能比较4 6 图3 9 不同目标维数下的算法性能比较4 8 图3 1 0 基于p c a 、l d a 和p c a + l d a 特征抽取算法的语音情感识别系统的 性能比较51 图3 1 l 基于增强型l i p s c h i t z 嵌入算法的语音情感识别系统框架图5 6 图4 12 2 大小的对称半正定矩阵集合所构成的凸锥6 4 图4 2 拓扑流形中的坐标转换示意图6 6 x 浙江大学博士学位论文 图目录 图4 3 基于协方差描述子和黎曼流形的语音情感识别系统的训练阶段流程图 7 ( ) 图4 4 基于协方差描述子和黎曼流形的语音情感识别系统的识别阶段流程图 7 1 图4 5 基于原有统计量和基于协方差描述子的特定人语音情感识别准确率比 较( 女性) 7 2 图4 6 基于原有统计量和基于协方差描述子的特定人语音情感识别准确率比 较( 男性) 7 3 图4 7 基于原有统计量和基于协方差描述子的系统在不同信噪比下的性能比 较7 5 图5 1 增强型协同算法在不同循环次数下的测试效果8 1 图6 1 决策树示例的结构示意图8 8 图6 2 单一分类器c 4 5 和不同迭代次数的a d a b o o s t + c 4 5 分类模型之间的性 能比较9 4 图6 3 在有、无加权投票约束下的实时语音情感识别系统的性能比较9 5 图6 4 不同情感状态下发“a ,音的关键帧图像。1 0 0 图6 5 不同情感状态下发“f 音的关键帧图像1 0 1 图6 6 关键帧图像的特征点标定1 0 1 图6 7 实时情感语音驱动的人脸动画生成系统1 0 2 x i 浙江大学博士学位论文表目录 表目录 表3 1 声学特征编号及其名称列表3 7 表3 2 基于l d a l 1 i h n l ( 算法的语音情感识别系统在不同参数组合下的性能 比较一4 9 表3 3 基于多层次特征抽取的语音情感识别框架的识别流程5 3 表3 4 大类别a 、b 、c 的识别结果5 4 表3 5 基于p c a 、l d a 、p c a + l d a 降维的识别系统与h f s e r 的性能比较 ! ;。l 表3 6 基于各种特征降维算法的特定人语音情感识别系统性能比较( 女性模 型) 5 8 表3 7 基于各种特征降维算法的特定人语音情感识别系统性能比较( 男性模 i 5 塑) 5 8 表3 8 基于各种特征降维算法的非特定人语音情感识别系统性能比较( 女性 模型) 5 9 表3 9 基于各种特征降维算法的非特定人语音情感识别系统性能比较( 男性 模型) 5 9 表3 1 0 基于各种特征降维算法的特定入语音情感识别系统在高斯白噪声环 境下的性能比较( 女性模型) 6 0 表3 1 1 基于各种特征降维算法的特定入语音情感识别系统在高斯白噪声环 境下的性能比较( 男性模型) 6 0 表3 1 2 基于各种特征降维算法的特定人语音情感识别系统在正弦噪声环境 下的性能比较( 女性模型) 6 1 表3 1 3 基于各种特征降维算法的特定人语音情感识别系统在正弦噪声环境 下的性能比较( 男性模型) 6 1 表5 1 标准协同训练算法7 7 表5 2 增强型协同训练算法7 9 表5 3 基于不同训练算法实现的语音情感识别系统比较8 2 浙江大学博七学位论文 表目录 表5 4 两种协同训练算法在女性模型中引入的分类噪音比较8 3 表5 5 两种协同训练算法在男性模型中引入的分类噪音比较8 4 表6 1 决策树分类的应用示例8 7 表6 2 决策树通用算法8 9 表6 3a d a b o o s t m 1 算法的具体训练流程9 2 表6 4 音素列表9 7 表6 5 情感识别层次的分类效果9 8 表6 6 亚音素识别层次的分类效果。9 8 表6 7 亚音素的视位归类表9 9 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得逝鎏盘鲎或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解滥婆盘鲎 有权保留并向国家有关部门或机构送交本 论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘堂可以将学位论文的 全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:导师签名: 签字日期:年月日签字日期:年月日 浙江人学博士学位论文 致谢 致谢 在本篇论文完成之际,五年的研究生求学生涯即将结束,1 8 0 0 多个日夜里凝结 了难以数清的激动、遗憾、欢笑和忧伤。当初选择加入浙江大学一微软联合感知 实验室是人生的一大幸事。在这里,我和实验室的同学们一起学习和成长,这段 时间将会成为我人生中重要的记忆被永远珍藏。 首先我要深深地感谢我的导师陈纯教授,他在我求学期间给予了悉心的指导和 帮助。他治学严谨的态度、精益求精的科研精神、渊博的知识、敏锐的科研洞察 力以及清晰敏捷的思维都给我留下了深刻的印象。 感谢b 佳俊教授,他给我们营造了一个良好的学术环境,不仅教给我有关的知 识和技能,更重要的是教会了科学研究的方法和独立科研的能力。 感谢实验室课题组负责人宋明黎副教授和李娜博士,他们给予了我相当多的指 导和建议,使我受益非浅。在浙江大学微软联合感知实验室这个具有优良传统和 学术氛围的环境里,大家团结合作、积极探讨、勇于探索科学真谛,在科研上给 了我很多启发和帮助。我还要感谢已经毕业的金城博士、尤鸣字博士、闫文硕士、 王栋硕士、庞晨硕士、张翼硕士、孙卓硕士、王博硕士,以及继续在课题组求学 的林裕旭、毛海力、叶晨羲、张鹿鸣、沙腾等同学的帮助与支持。其中本文的部 分工作是与尤鸣宇( 第3 3 和3 4 节) 、叶承羲( 第4 2 节) 等同学合作开展的,在此 特别向他们表示感谢,与他们之间的良好合作给我留下了深刻的印象,很荣幸能 够在学术上与他们一起共同成长。 此外,我要特别感谢我的家人,是他们对我的理解、支持和鼓励给予了我奋斗 的勇气和积极乐观的生活态度,这是一笔宝贵的财富,始终激励着我不断前进。 最后,感谢所有以上还未提及的曾经帮助过我的师长、同学和好友! 谨以此文 献给所有帮助和关心过我的人! 刘佳 - - - 0 0 九年四月于求是园 浙江大学博士学位论文 第l 章绪论 第1 章绪论 1 1 研究意义 2 1 世纪以来,计算机技术飞速发展,电子商务、电子政务、电子银行、电子 学校等计算机应用不断渗透到社会生活的每个角落,扮演着日益重要的角色。与 此同时,人类与计算机之间的“对话”日趋频繁,自然和谐的人机交互技术成为计算 机科学领域一个十分活跃的研究课题。 目前,人机交互接口技术的研究已经从机械化时代跨入多媒体用户界面时代。 通过键盘、鼠标、触摸屏或手写笔等设备进行准确交互的传统方式,尽管能够满 足人类常规工作与日常生活的需求,但是人们普遍希望机器能够从事更为人性化、 智能化的工作,具有更加便捷、友好、生动的交互界面。这必然要求计算机实现 与人类相似的感知、思维和行为功能,而研究人工情感技术就是其中的重要一环。 作为智能化人机交互技术的关键问题之一,情感计算自提出以来备受关注,已经 成为模式识别、新一代人机接口技术的研究热点。情感计算研究的突破对改进传 统人机交互方式影响重大。 那么,如何使计算机具有情感能力来体会人类的喜怒哀乐呢? 情感计算的研 究重点就是通过各类传感器获取由人类情感引起的生理指标或者行为特征信号 ( 例如脑电波、脉搏、语音、面部表情、手势、姿态等) ,据以建立可计算的情感 模型,使计算机能够感知、识别和理解用户的情感,进而做出友好、智能的反应。 其中,语音作为人类交流的重要媒介,是人与人之间传递信息的最基本途径。语 音信号不仅传递着实际的语义内容,而且通过高低强弱、抑扬顿挫来表达说话人 丰富的情感信息。当说话人愤怒时,音调升高、语速加快;悲伤时,语调低沉、 语速缓慢。听者可以轻易地通过语音信号感受说话人的情感变化。因此,随着新 一代人机交互技术研究的逐步深入,各个领域的研究者们十分关注如何驱使计算 机从语音信号中自动识别出说话人的情感状态及其变化,以此确定说话人的内心 情感,做出合理恰当的反应,最终达到建立和谐人机环境的日的( 如图1 1 ) 。 随着语音情感研究的不断飞跃,语音情感识别技术正在对人们的工作、学习、 生活带来显著的影响,具体包括以下几个方面: 渐a m i 口论女 镕1 # 镕* 一、 ,一 别# 1 心啦! 束占音乐 、冀需燃1 、,口 罔豫茂7 f 一 围1i 语音情感识别的应用场景示倒 ( 一) 教育业 在远程教育平台中,语音情感识别技术能够解砍其中的情感缺先问题,实现 以人文关怀为特征的网络教学,优化计算机辅助学习的功能。通过实时分析远程 学生的语音回答,“情感助理”程序能够监测到学生的情感变化,识别其情感状态并 进行相应调整。例如,当发现学生对某段教学内容表现出困惑时,“- 隋感助理”程序 会提示教学系统重放该片段或者给出具体的解释。这种实时给予情感反馈的网络 教学大大增强了教学效果,提高了学生的学习效率,使教学质量达到最佳。 ( 二) 娱乐业 在智能玩具、电子游戏等相关产业中,情感交互技术可以构筑更加拟人化的 风格和里为逼真的游戏场景。近年来,新型的智能玩具、游戏不断渗入人们的娱 乐生活。自s o n y 公司于1 9 9 9 年推出机器宠物狗a i b o 至今,a i b o 经历了多轮 的更新换代这种机器宠物狗懂得分辨主人对它的称呼和责备,对简单的词语具 有反应,会表达喜,怒,哀,乐等多种情绪。而继a i b o 之后,美国加卅f 机器人 研发企业u g o b e 推出了机器宠物恐龙p l e o ,这是具有自我学习和进步功能的新 型仿真机器玩具。p l e o 会随着生活变化建立独特的个性,它的部分特征与a i b o 非常类似,包括可以表达多种情绪、通过声音与八交流等等p l e o 能够对语调产 生反应, - 3 被王人大声喝斥时,会垂头丧气。对于这个智能宠物机器,有用户给 予高度的评价:“这已并非一般的机械宠物,而是新的生帝”。另外,配备情感交互 技术的游戏软件,可以感知游戏者的情感状态,并且驱使游戏者的化身通过特殊 的动作来表现这种情感变化,使得游戏更为逼真 浙江大学博上学位论文第1 章绪论 ( 三) 工业 将情感识别技术融入工业生产是一个前景广阔、需求广泛的应用领域。我们可 以想象未来的汽车、手机、家用电器都能够理解我们的情感,做出亲切生动的响 应,为我们的生活和工作提供优质服务。 智能车载监控系统具有对驾驶人员提问的功能,同时安装有非接触式的信号感 应装置,动态采集驾驶人员的语音信号。该系统会关注语速、音调、音量、清晰 度等指标的变化,用于识别驾驶人员回答问题时的情感状态。如若探测到驾驶人 员注意力不集中或者情感变化剧烈,系统可进行适当的提醒、安抚甚至交流。这 不仅帮助解决驾驶人员的“道路狂暴症”问题,而且能提高行车的安全性。手机中的 情感语音信箱会根据留言人的语气判断留言信息的轻重缓急,改变播放顺序。情 感香水喷射器在监测到用户情绪不稳时,会喷射出具有镇定功效的香水,以平复 用户的心情。情感音乐播放器可以根据用户的情感或喜好自动选曲播放。情感电 视能够根据观众的情绪调整广告的内容、数量、播放时段等等。 ( 四) 服务业 随着自动化技术的发展,许多公司引入自动客户服务中心,以达到节约人工成 本的目的。但是,当心情不畅的客户“遭遇”操作繁琐、语音机械的自动化客服,客 户的不舒适度会迅速增加。这时,情感分析程序可以通过极其简单的“交流”,发现 用户潜在的不满情绪,及时转为人工服务,为公司留住客户资源。另一方面,语 音情感技术也有利于人工服务的改进:当话务员遭遇态度无礼的客户时,自身的 情绪可能受到影响,系统就会特别提醒他保持冷静;通话结束后,系统还会鼓励 话务员,帮助他整理情绪。 ( 五) 医学 医学上的部分病症( 如抑郁症、焦虑症等心理疾病) 通常需要有人与患者互 动交流,帮助治疗。然而,由于医疗人力资源的缺乏或是患者的抗拒心理,往往 治疗效果缓慢。具有情感交流能力的虚拟人可以通过情感对话系统与患者交流, 降低患者的抗拒程度。当患者表现良好时,虚拟人会赞扬他;当患者出现情绪不 稳定时,虚拟人会安慰他、鼓励他。这种贴心的虚拟人设计还可以解决空巢家庭 中的老年人精神慰藉问题,它可以对独居老人的情感变化进行监测并提供适当帮 浙江大学博士学位论文第1 章绪论 助,有效预防老年人心理疾病的发生。 ( 六) 安全监测 现有的安全监控设备大多是通过摄像头对影像进行实时监控。但是,由于监控 设备的成本过高、建筑物的结构复杂等原因,容易存在监控死角。具有情感分析 功能的声音监控设备可以解决死角问题,增强现有的安全监控能力。它通过语音 信号采集装置,实时探测各类突发状况,例如受害人的呼救,及时发出安全警报。 除了上述六个领域,语音情感识别还能在信息检索、网络通讯等众多方面发 挥作用,其未来的应用场景十分广阔。随着相关技术的进一步发展,拥有情感分 析能力的机器,将为人类提供更为人性化、情感化的服务和产品,打造自然和谐、 亲切生动的人机环境。 1 2 本文的研究内容和组织结构 本文从多方面展开语音情感识别的研究,后续各章节内容归纳如下。 第二章:回顾目前语音情感研究中涉及的多个关键问题,包括情感的分类、情 感语料库概况、语音信号的声学特征、特征降维、分类算法以及基于半监督学习 的语音情感分类。 第三章:探究多种特征选择和特征抽取模型。基于类集和类对特征选择相融合 的语音情感识别相比于传统的基于类集特征选择的系统,额外关注了每个类对的 区分特征。它认为不仅要考虑数据的全局分布,而且要利用每对类别之间的最有 效区分特征。该方法在不同性别、不同分类算法的情况下,均具有明显的优势。 基于特征投影矩阵的特征选择算法利用特征抽取算法求得的投影矩阵,衡量每个 声学特征对于该投影映射的贡献,根据贡献值大小选择特征子集。它相比于单纯 使用投影矩阵进行映射变换的特征抽取方法,提高了系统的识别准确率。基于多 层次特征抽取的语音情感识别通过对数据的分析,针对不同性别、不同情感类别 的语料,选择主成分分析、线性判别分析或是二者的联合降维分别进行处理,提 高了识别系统的整体效果。基于流形学习的增强型l i p s c h i t z 嵌入算法通过测地距 离的计算,将高维特征向量映射到低维子空间中。相比于其他多种特征抽取和特 征选择算法,它在实验室受控环境下性能优异,同时在各种信噪比的噪声干扰下, 4 浙江大学博士学位论文 第1 章绪论 识别效果明显优于其他各种算法。 第四章:提出基于协方差描述子和黎曼流形的语音情感识别系统。协方差描述 子考虑了不同声学特征之间的关联性,并以此反映情感信息由于协方差描述子 构成一个微分流形,则运用黎曼流形的相关理论解决其分类问题。基于协方差描 述子和黎曼流形的语音情感识别系统相比于基于传统特征表征的识别系统在准确 率上有显著提高,并且具备更好的稳定性和抗噪能力。 第五章:简要阐述半监督学习中的多视图学习模型,并提出增强型协同训练算 法。该算法通过对标准协同训练算法的改进,增加了两个视图之间的类别预测一 致性限制,减少了协同训练过程中的分类噪音引入,并且提高了分类器的性能。 第六章:探究实时语音信号中的情感分析与识别,并建立实时情感语音驱动的 人脸动画生成系统。对于实时语音信号,使用a d a b o o s t + c 4 5 分类模型进行情感 识别以及亚音素识别,达到完全实时的分类效果。 第七章:总结全文并对未来的工作进行展望。 本文的组织结构如图1 2 所示: 笫章绍论 l | 第二章语野情感淤) j l j 技术综述 l 第p q 潦堆j :卧h 茬 擒述厂和黎鹾流彤 的语音悄感以! i j l | 第l 学总绵t 拍坦 图1 2 本文的组织结构图 浙江大学博士学位论文第2 章语音情感识别技术综述 第2 章语音情感识别技术综述 1 9 8 5 年,人工智能的奠基人之一m i n s k y 教授提出“要让计算机具有情感能力”, 他明确指出“问题的关键不在于智能机器能否具有情感,而在于没有情感的机器能 否实现智能”【1 1 。然而,这一想法虽独具匠心、富有前瞻性,但在当时的学术界, 赋予计算机情感能力的研究乏人问津。 1 9 9 7 年,美国麻省理工学院媒体实验室的p i c a r d 教授在其专著中第一次提出 了隋感计算”这个概念2 1 ,开启了计算机情感研究的时代大门。此后,q 隋感计算” 备受学术界和企业界的关注,相关专项研究、主题学术会议、系统研发工作如火 如荼地展开。其中,语音情感识别作为“情感计算”研究的一个重要分支,发展迅速, 前景广阔。本章回顾了近年来语音情感识别研究中的主要问题,包括情感的分类、 情感语料库概况、语音信号的声学特征、特征降维、分类算法以及半监督学 - - j 问 题。 2 1 情感的分类 人类在认识客观世界时,会表现出喜、怒、哀、乐等各种主观体验。这些主 观体验复杂繁多,很难明确地定义其客观规范。如何界定情感的分类判断标准就 是其中一个争议颇多的问题 在常见的语音情感识别系统中,情感往往表示为离散的形式。中国古代的典 章制度书籍礼记中记载“喜、怒、哀、惧、爱、恶、欲七者弗学而能”,它认为 人的“喜、怒、哀、惧、爱、恶、欲”七种情感是与生俱来的;类似地,在中国古代 的中医基础理论中,也有“喜、怒、忧、恩、悲、恐、惊”七情之说。 美国著名情绪心理学家i z a r d 在1 9 7 7 年发表情绪理论【3 1 ,他把情绪分为基本情 绪( p r i m a r ye m o t i o n ) 和继发性情绪( s e c o n d a r ye m o t i o n ) 。其中,基本情绪包括 兴趣、愉快、惊奇、痛苦、悲伤、厌恶、愤怒、害羞、恐惧、轻蔑和内疚,这些 情绪被认为是原始的或者是由遗传获得的。继发性情绪则是基本情绪的复合,它 可以由上述的十一种基本情绪通过不同组合派生出来。比如,“愤怒、厌恶、轻蔑” 这三种基本情绪可派生出一种继发性情绪“敌意”,而“恐惧内疚、痛苦、愤怒” 可以组合成“焦虑”。 6 浙江大学博十学位论文第2 章语音情感识别技术综述 美国心理学家k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论