




已阅读5页,还剩151页未读, 继续免费阅读
(计算机科学与技术专业论文)语音情感识别的关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
衔江太学博l 学证论文 摘墨 摘要 语啻情感说别是入工智能领域的一个新兴分支,在自然入机交互、多媒体分段 与检索、安全系统自动监管等方诬有蔫广泛的应用静景。语音情感识别过程包括语 音信号预处理、声学特征提取、特征向量降维处理和基于统计模型的情感识剐。本 文的工作主要集中于语啻情感识别过程中的若干关键问题。提出情感语料库的w 视 亿方法、半篮餐机利的语音情感识嗣、非线侄特征降维簿法e l e 黻及基于对话关联 矩阵的情感识别技术。 探讨情感谮耩库豹采集、鹈;注帮弼褫往技拳。梅建毪括表演语辩、萼| 导语秘秘 自然语料的中义情感语料库c h a d 。j 馥过听辨实验,分析和比较不同来源的语料。 将情感语辩豹糍维声学特征逶适s a m m o n s 算滚躞懿,褥翻二缍磷褫豫空蠲蚕m a s e m a p 。基于图中的位鬻分布分析语料的情感表达以及备情感问的独立与依赖关系。 在分捱各声学耱髹发其提敬葵法载鏊疆土,改进c o - t r a i n i n g 算法,提出半爨警 机制的语音情感识别。该算法结合时域特征和倒谱特征,以未标注语料扩充训练语 鹳集,提毫猿戆识剐零7 4 - 9 。遴过改变寒拓i 室落拱豹搬入规则,减小出予错 误接纳未标注语料造成的分类噪声。 掇究各秘特 匠隆缭算法。程分拆线性特廷撼取算法豹基础上,提出个分艨次 的语音情感识别系统。不同特性的语科采用不同的降维算法,撮高系统的整体性能。 在非特定人情感识别中取褥7 8 7 - 8 3 4 的识别率。提出e l e 非线性流形学翔算 法。基于测地距离估算法,商维特征点被投影副六维予空闻中。同一情感状态的特 征点聚集在予空间的一个平面掰寸近。该分布规律有利于情感语料的分离。基于e l e 的非特定人情戆识别取得9 - 2 6 的谈掰率掇赢,特定入的结巢提高5 2 0 。提 出l d a l 1 r a n k 特征选择算法,并与p c a l 1 r a n k 进行对比实验。在语音情艨识 澍中,弓l 久结合类集和类对的特征选铎算法。练合考虑优于分离所有类澍帮菜两个 类别的特征,兼顾全局和局部的特征分布特性。基于该算法的# 特定人情感识别的 平均f l 衡量撵赢3 2 - 8 4 。 在纯语音情感识别的基础上,进一步研究结合其他信息的情感识别。采集和分 耩对话情感诿瓣盖,鬟窭对话隽懑关联矩阵。瓣话双方豹绩感约束箍褒了蘩感识剜 的j 下确率和鲁棒性。结合人脸表情,实现双模态情感识别。提出t h m m 模型及相 关戆v i t e r b i 最傀爨径搜索算竣秘分段式k - m e a n s 摸型训练算法。逶过竣蹩通道投重 最大化融合视觉和语裔信息,取得9 1 9 的平均识别率,识别结果也慰为鲁棒。根 据实躅纯豹要求,调囊噪声巧撬下夔憾感识割。叠妻曩受控噪声鹣馕感谬辩在提敬声 学特征后,采用本文掇出的e l e 算法进行特征降维。优于其他算法1 0 的识别率 浙江天学博l :学位论交 摘要 表明,e l e 算法能较好地发掘情感语音特征的内在分稚规律,且性能不被噪声等干 扰。 关键调语音壤惑谈爨馕感语麓可程纯拳簸餐学习e l e 菲线馁绞射特薤选择 对话愤感关联多模态绩感谈鄹带嗓语音酌情慧识剐 新汪天攀精:t 学馥论文a b s t m c t a b s t r a c t s p e e c he m o t i o nr e c o g n i t i o ni saf a c e to f a r t i f i c i a li n t e l l i g e n c e ,i t sa p p l i c a t i o n sc a i lb e f o r e s e e ni nt h eb r o a da r e ao fh u m a n m a c h i n ei n t e r a c t i o n 。s u c ha sa u t o m a t i cm e d i a s t r e a m ss e g m e n t a t i o na n dr e l i a b l es u r v e i l l a n c e d e t e c t i o n , e t c s p e e c he m o t i o n r e c o g n i t i o ni n c l u d e ss p e e c hs i g n a lp r e p r o c e s s i n g , a c o u s t i cf e a t u r e se x t r a c t i o n , d i m e n s i o n a l i t vr e d u c t i o na n dm o d e lb a s e de m o t i o nr e c o g n i t i o n t h et h e s i sf o c u s e so n s o m ec r u c i a lt o p i c so fs p e e c he m o t i o nr e c o g n i t i o n i tp r o p o s e st h ev i s u a l i z a t i o nm e t h o d f o re m o t i o n a ls p e e c hc o r p u s ,s e m i s u p e r v i s e ds p e e c he m o t i o nr e c o g n i t i o n , an o n l i n e a r m a n i f o l dl e a r n i n ga l g o r i t h me l ea n de m o t i o nr e c o g n i t i o nb a s e do na ne m o t i o n i n t e r a c t i o nm a t r i x 弧ec o l l e c t i o n , a n n o t a t i o na n dv i s u a l i z a t i o no fe m o t i o n m s p e e c hc o r p u s a r e d i s c u s s e d ac h i n e s ea f f e c t i v ed a t a b t l s e ( c h a d ) i se s t a b l i s h e d w h i c hi n c l u d e s e m o t i o n a lm a t e r i a l sf r o md i f f e r e n ts o u r c e s t h e s ed a t as o u r c e * a r ec o m p a r e db a s e do n l i s t e n i n ga n n o t a t i o n m u l t i - d i m e n s i o n a la c o u s t i cf e a t u r e so fe m o t i o n a ls p e e c ha r e m a p p e di n t oat w o - d i m e n s i o n a lp l a n em a s em a p , w i t ht h es a m m o n sn o n l i n e a r m a p p i n gm e t h o d b ya n a l y z i n gt h em a s 塞m a p , u s e f u lc o r p u si n f o r m a t i o ns u c h3 s e m o t i o nc o n s t i t u e n t s ,i n t e r r e l a t i o n s a m o n gu t t e r a n c e s ,d e g r e eo fo v e r l a p p i n gc a nb e o b t a i n e d a ne n h a n c e dc o t r a i n i n ga l g o r i t h mi sp r o p o s e dt ob u i l das e m i - s u p e r v i s e dl e a r n i n g s y s t e m i tu s e su n l a b e l e de x a m p l e st oa u g m e n tam u c hs m a l l e rs e to fl a b e l e de x a m p l e s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a t t h ep r o p o s e ds y s t e mm a k e s7 4 一9 o i m p r o v e m e n t c o m p a r e dw i t ht h ec o n v e n t i o n a 】c o - t r a i n i n ga l g o r i t h m m o r e o v e r , l h e e n h a n c e dc o - t r a i n i n ga l g o r i t h mr e d u c e st h ec l a s s i f i c a t i o nn o i s ew h i c hi sb r o u g h tb ye r r o r l a b e l i n gu n l a b e l e du t t e r a n c e s d i f f e r e n tk i n d so fa p p r o a c h e si nd i m e n s i o n a l i t yr e d u c t i o na r er e s e a r c h e d b a s e do n t h ed e t a i l e dc o m p a r i s o n sa m o n gl i n e a rm e t h o d s 。an e wh i e r a r c h i c a lf r a m e w o r ki s p r o p o s e df o rs p e e c he m o t i o nr e c o g n i t i o n a na p p r o p r i a t ed i m e n s i o n a l i t yr e d u c t i o n m e t h o di se m p l o y e df o re v e r ye m o t i o ni nt h en e wf r a m e w o r k i ta c h i e v e s7 8 。7 - 8 3 ,4 r e c o g n i t i o na c c u r a c yi ns p e a k e r - i n d e p e n d e n te x p e r i m e n t an o n l i n e a rm a n i f o l dl e a m i n g a l g o r i t h me l ei sp r o p o s e d b a s e do ng e o d e s i cd i s t a n c ee s t i m a t i o n , h i 曲- d i m e n s i o n a l a c o u s t i cf e a t u r e sa r ee m b e d d e di n t oas i x - d i m e n s i o n a ls p a c e i nm i ss p a c e s p e e c hd a t a w i t ht h es a m ee m o t i o na r ec l u s t e r e dt oo n e p l a n e w h i c hi s b e n e f i tt oe m o t i o n c l a s s i f i c a t i o n e x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h ep r o p o s e ds y s t e mm a k e s9 - 2 6 r e l a t i v e i m p r o v e m e n t i n s p e a k e r - i n d e p e n d e n t e m o t i o n r e c o g n i t i o n a n d5 - 2 0 i m p r o v e m e n ti ns p e a k e r - d e p e n d e n t l d a * l 1 一r a n ki sp r e s e n t e d ,d e t a i l e dc o m p a r i s o n so f p c a ,l d a ,p c a l l r a n ka n dl d a - l l r a n ka r ep e r f o r m e di ns p e e c he m o t i o n 辨江j k 学博l 噜j 靛论文a b s t r a c t r e c o g n i t i o n b e s i d e s ah y b r i ds y s t e mb a s e do na 1 1 c l a s sf e a t u r es e l e c t i o na n d p a i r w i s e - c t a s sf e a t u r es e l e c t i o ni sf o r w a r d e d t h es y s t e mc o l l e c t st h ef e a t u r e sb o t hg o o d a ta l lc l a s sc a t e g o r a t i o na n de a c hp a i ro fc l a s s e s s e p a r a t i o n t h ep r o p o s e da p p r o a c h a c h i e v e s3 2 8 ,4 r e l a t i v e i m p r o v e m e n t o nt h e a v e r a g e f 1 - m e a s u r ei n s p e a k e r - i n d e p e n d e n te m o t i o nr e c o g n i t i o n e m o t i o nr e c o g n i t i o nw i t ho t h e l i n f o r m a t i o ns o u r c e si s i n v e s t i g a t e d ah o v e l c o n v e r s a t i o nd a t a b a s ei nc h i n e s ei sc r e a t e da n da l le m o t i o n i n t e r a c t i o nm a t r i xi s p r o p o s e dt oe m b o d vt h ed i s c o u r s ei n f o r m a t i o ni nc o n v e r s a t i o n t h er e c o g n i t i o nm e t h o d w i t hd i s c o u r s ei n f o r m a t i o ns i m u l a t e st h eh u m a ne m o t i o np e r c e p t i o na n da c h i e v e sm o l e r o b u s tp e r f o r m a n c e f a c i a le x p r e s s i o ni sc o m b i n e di n t oe m o t i o nr e c o g n i t i o ns y s t e m a t h m ma n das e g m e n t a lk - m e a n st r a i n i n ga l g o r i t h ma r ep r o p o s e d at r i p l e dv i t e r b i o p t i m a lp a t hs e a r c h i n ga l g o r i t h mi sa l s oi n t r o d u c e dt om a k et h em a x i m u ml i k e l i h o o d d e c i s i o n ,m o r e x ,v e r , aw e i 曲tp a r a m e t e ri se m p l o y e dt ob a l a l i c et h ec o n t r i b u t i o no fa u d i o a n dv i s u a l ,强ew h o l ea p p r o a c hg i v e s9 1 9 a v e r a g ea c c u r a c ya n db e t t e rr o b u s t n e s s 。 i n v e s t i g a t i n gt h ee m o t i o nr e c o g n i t i o nf r o mn o i s ys p e e c hi sm o t i v a t e db yt h ep r a c t i c a l i t y o ft e c h n i q u e 。e l em e t h o di su s e dt oc o m p r e s st h ea c o u s t i cf e a t u r e so fn o i s ys p e e c h a n i m p r o v e m e n to fa p p r o x i m a t e l y10 s h o w se l e sa b i l i t yt od e t e c tt h ei n t r i n s i cg e o m e t r y o f e m o t i o n a ls p e e c h ,e v e nc o r r u p t e db yn o i s e , k e y w o r d s s p e e c h e m o t i o n r e c o g n i t i o n ,e m o t i o n a lc o r p u sv i s u a l i z a t i o n , s e m i - s u p e r v i s e dl e a r n i n ge l en o n l i n e a rm a n i f o l da l g o r i t h m ,f e a t u r es e l e c t i o n , d i s c o u r s ee m o t i o ni n t e r a c t i o n ,m u l t i m o d a le m o t i o nr e c o g n i t i o n ,e m o t i o nr e c o g n i t i o n f r o mn o i s ys p e e c h 浙j 工人学博i 学位论文 图日录 图目录 图1 1 本文各章节的组织结构5 图2 - 1s c h l o s b e r g 的三维情感模型一8 图2 2p l u t c h i k 情绪三维模式图8 图3 1 语句“我不喜欢”的f 0 曲线2 8 图3 2 设计的线性分布点3 5 图3 3 随机生成初始化点3 5 图3 - 4s a m m o n s 法则验证过程3 6 图3 5 单一情感的m a s em a p 3 8 图3 - 6 某个语料库的m a s em a p 4 0 图4 1 语音产生器官4 1 图4 2 语音产生模型4 1 图4 3 级联型共振峰模型4 3 图4 - 4 并联型共振峰模型4 3 图4 5 混合型共振峰模型4 4 图4 6 自左向右的六状念h m m 模型5 2 图4 7 线性分类的二维示意图5 3 图4 - 8 基于不同c o t r a i n i n g 循环次数的平均识别率5 6 图5 1h f s e r 一个分层次语音情感识别框架6 4 图5 2h f s e r 系统和其他算法的性能比较6 6 图5 3 投影到六维空i 日j 的训练样本点( 不同颜色的点表示不同情感状态的语料 样本) 7 0 图5 4 基于不同k 值系统情感识别率的变化7 1 图5 5 基于e l e 降维算法的语音情感识别框架7 2 图5 - 6 基于四种算法的非特定人语音情感识别7 3 图5 7 基于四种算法的特定人语音情感识别7 3 图5 8 基于三种非线性降维算法的非特定人语音情感识别7 4 图5 - 9 基于三种非线性降维算法的特定人语音情感识别7 5 图5 1 0 目标空白j 为3 0 维时基于四种压缩算法的情感识别率7 8 图5 1 1 不同的目标维数t 下四种算法的平均识别率8 0 图5 1 2f 1 一m e a s u r e 的图示8 2 图5 一1 3 融合类集和类对特征选择算法的语音情感识别模型- i j l l 练部分8 3 图5 1 4 融合类集和类对特征选择算法的语音情感识别模型一识别部分8 4 图5 1 5 基于s f s 和k n n 得到的1 6 个特征索引表8 5 图5 1 6k n n 分类器中不同k 值下分类结果的评价一8 5 图5 1 7 不同参数对( ,c ) 下s v m 分类结果的评价一8 6 图5 1 8 基于类对模块、类集模块以及两者融合方式下情感识别率的f l 衡量 8 8 图6 - 1 融合对话情绪互动信息的情感识别框架9 1 图6 2 不同k 值下情感识别率分布9 4 u 浙江人学博l 学位论文 幽日录 图6 3 结合对话情感关联信息的情感识别v s 传统的情感识别9 4 图6 - 4 基于t h m m 的双模情况识别系统9 5 图6 5 跟踪的人脸特征点9 7 图6 - 6 基于g p u 的边界增强和调和映射9 8 图6 7f a p u 的定义说明9 9 图6 8t h m m 拓扑结构示意图1 0 2 图6 - 9 带噪语音的情感识别系统1 0 8 图6 1 0 带高斯白噪声的语料取得的平均识别率1 0 9 图6 1 l 带j 下弦噪声的语料取得的平均识别率1 1 0 图7 1s e r s 系统主界面。1 1l 图7 2 语谱图参数设置1 1 2 图7 3s e r s 包含的语音特征提取算法1 12 图7 4s e r s 系统中实现的特征降维算法1 1 3 图7 5s e r s 中的统计模型模块。1 1 3 图7 - 6 打丌声音文件11 4 图7 7 提取某些声学特征参数1 1 5 图7 8s e r s 情感识别结果。1 1 5 i i i 游江天学耩 二学证论文表鞋录 表目录 表2 - 1 部分情感语料库统计9 表2 2 情感状鑫鸟声学特,谯豹关联1 7 表3 1c h a d 中情感语科的录制方式,3 0 表3 2 三种录制方式所得情感语料的标注矩阵3 1 表3 3 不鹚来源蘩感语糕静标莲蹩阵( ) 。3 2 表3 - 4 设计的距离矩阵3 5 表3 5 还原矩阵3 6 表3 - 6 标准讫醣掰的分量俊3 7 表4 1 改进的c o t r a i n i n g 算法5 4 表4 _ 2 基予鉴督数堋练算法、砖绕c o - t r a i n i n g 算法以及改遴的c o t r a i n i n g 算 法取得的平均情感识别率( 两种c o - t r a i n i n g 箨法中循环运算都是1 8 次) ,。,5 7 表4 3 改进豹c o - t r a i n i n g 算法( 麓黎:嚣# e o ) 毒传统雾法分类噪声憨魄较 ! i 7 表5 1 三种降维算法应用在男性谗料中取得的识别率6 3 表5 2 三释降维算法应震在女毪潺辩串致得懿谖朔率6 4 表5 3m s v m i 的识别率6 5 表5 - 4h f s e r 系统的情感识别率6 6 表5 5p c a l 1 r a n k 的算法描述7 7 表5 - 6l d a l i r a n k 中p 与t 曾不同关系时的模型识别率8 0 表岳l 绘定对话中菜一人傍感拔奎封对方的揍感分匆揍琵9 0 表6 - 2 本系统中用到的f a p 参数9 7 表6 3 收敛时州和搜索错误比较9 9 表6 4 t h m m 模蘩静三元v i t e r b i 嚣法。1 0 3 表6 5 仅基于视觉信号的情感识别结果( 被标注为行所指情绪的测试语句被识 别为列所指情感状态) 表6 - 6 彼基于语裔信号的情感谈剐结果 表6 7 基于t h m m 模型的多模忿情感识别结果 。1 0 5 。1 0 5 1 0 6 浙江大学博i 擘位论文第1 章绪论 第1 章绪论 1 1 引言 e m o t i o n 先生是u i 科技公司的中层管理人员。早上9 点,e m o t i o n 准时地坐在 他的办公室罩,随着一声愉悦的“h e l l o ,a r m y ! ”他丌始天的紧张忙碌。有意思的 是,他打招呼的对象是他桌上的计算机a r m y 。今天老板心情不错,a n n y 把上周遗 留的棘手问题排在e m o t i o n 工作列表的第一项。j u l i a 女士关于昨天会议的摘要汇报, 这个不急,留着老板休息的时候浏览;小e m o t i o n 的老师汇报e m o t i o n 先生儿子的 最近表现,加个标记,提醒老板回信;r u d e 公司关于产品的紧急投诉,这个不能耽 误,需要马上打扰老板。面对各种信件、电话,a r m y 能自行分类处理,只在遇到 紧急事件时才打断e m o t i o n 的工作思路。e m o t i o n 先生习惯在午后浏览下当同的时 事、体育甚至是购物信息。不用费神去各个网页搜索,体贴的a r m y 已经给e m o t i o n 准备妥当。各项可能要关注的内容都清晰地列在表上,有些购物信息甚至是a r m y 昨晚“熬夜”赶出来的。p o l o 刚上市的休闲上衣甚至都按照老板喜好的颜色顺序排列。 下午,a r m y 给e m o t i o n 安排一个管理培i j i i 课程,课程内容以及话题深度都是a r m y 根据公司派发的教程给e m o t i o n 量身定改的。遇到重要内容时,a n n y 不忘重复地 总结一次,引起e m o t i o n 注意。快下班时,a r m y 给e m o t i o n 声情并茂地的“朗读” 今天尚未处理的信件。 这种游刃有余的工作方式是现今诸多白领向往的。e m o t i o n 先生的计算机a r m y 仿佛成了章话世界旱的“宝葫芦”,全心全意地替主人着想。这与目前使用的死板机 器截然不同。a r m y 就是所谓的人性化计算机。它能从用户的声音、表情等判断其 情绪和喜好,并据此做出响应。情感识别是人性化计算机的“必修课”之一。 1 2 语音情感识别的应用及研究意义 语音情感识别是情感识别的一个重要分支,它对于改革现今的人机交互方式起 到关键性的作用。具体可以包括下面几类应用: 1 ) 教育业 随着计算机与网络技术的r 益发展,远程教学、软件教学已逐步被人们接受。 但是,这些教学方式仍然存在诸多弊端,难以取代面对面、一对一的传统教学。将 语音情感识别技术应用于这些教学手段中可以扬长避短,扩大“专家”教学范围。给 远程教学的学员佩戴情感测试仪器( 比如眼镜等) 或者在远程教学的场所配簧情感 检测设备( 比如检测地板、检测坐垫等) 可以给千里之外的老师及时地反馈现场学 浙江人学博f 学位论文 第1 章绪论 员的学习情况,便于其改变授课方式以灵活应对。 结合语音情感识别技术的教学软件通过监控学习者对软件内容的反应,适当地 调整教学进度和难度。将激励和压力合理地运用到教学过程中。既避免机器教学的 枯燥乏味,还能提供超一般教员水准的辅导。 语音情感识别技术的发展和应用能让更多人目睹行业大家的风采,让更多学员 拥有名师指点的机会。 2 1 信息业 在信息爆炸的时代,信息检索尤其重要。g o o g l e 、百度已经成为家喻户晓的检 索工具。除了现在常用的文本检索,诸多研究人员致力于多媒体检索的研究工作。 情感识别和标注将是多媒体检索中不可缺少的一项重要技术。 3 1 服务业 为了节省成本、延长服务时间,很多公司在客服系统中纳入计算机自动呼叫中 心。但现在的呼叫中心常由于过度机械化的操作而不得人心。应用语音情感识别技 术的呼叫中心将更加人性化,它能通过理解客户的“画外音”及时有效地做出变通, 最大限度地保留住可能的客户资源川。 4 1 娱乐业 视频点播系统是广播电视领域的一个研究热点。根据用户需求,个性化地点播 广播电视节目在部分国家和地区已有尝试。个性化点播除了依据常用的节目类型、 节目时间、明星阵容等选项外,更为重要的是考虑到用户的情绪需求。结合情感识 别技术的点播系统能对广播电视节目进行情感标注,根据用户提交的情感需求做出 合理的响应。用户能随心所欲地看到“高兴”或“难过”的节目【2 】。 电子宠物是一项由同本开始,传播到世界各地的,备受人们喜爱的娱乐游戏。 t a m a g o c c h i ”是同本人发明的一个电子宠物蛋,它能对人的动作行为做出有情绪的 响应。当然,这个宠物蛋仅能进行单向的情感交流。拥有双向情感交流能力的电子 宠物将类似于一个真实的动物宠物。它能丰富人们的生活,帮助孩子学习与生物的 情感交流。 盛行的网络游戏衡量的是游戏者闯关或者搏击的能力,游戏评分只依据游戏结 果,很少关注游戏者是如何取得这个结果的。游戏过程中是从容应战还是乱了阵脚。 但在实际项目或者比赛中,游刃有余的态度往往能引来诸多追随者。引入情感识别 的游戏过程将更全面地考验游戏者,具有实际指导价值。 5 ) 刑事与安全 测谎系统是刑事研究领域的一个热点,部分技术已步入实用化阶段。语音情感 识别可以说是测谎系统的一个分支,从语音信号中分析被测者的情绪变化,进而判 断其言语的可靠性。“情侦宝”是北京谟瀚科技有限公司与中科院联合推出的一款占 2 浙江人学博j :学位论文第l 章绪论 语情感检测产品。该产品目前主要用于娱乐。但随着技术的进一步完善,语音情感 识别必能协助相关刑事案件的侦破。 自动监测是保安系统的一个重要部分。但却常因保安人员的疏忽,而让犯罪分 子无视监测系统、有机可乘。人工盯守监测屏幕的做法不可靠。情感识别系统能根 据监测系统中得到的声音,图像数据自动做出判断,发出异常警报。能弥补保安系 统人工监测的不足,提高系统的安全可靠性。 6 1 工业 生产领域各种产品的设计需要征求用户的意见,许多公司的设计部门聘有专业 人员从事客户调查和意见反馈工作。现在常用的用户信息收集方法包括回答问题、 填写表格、拍摄使用过程等。有些还用到限球运动跟踪、脑电波监测等方法。情感 识别系统监测用户在产品使用过程的情绪变化也能为设计部门提供有意义的信息。 汽车驾驶过程中,司机的情绪状态直接影响其能否安全驾驶。车载情感识别系 统通过识别司机疲劳、烦躁等不安情绪,做出相应的保护和提醒措施【扪。类似的系 统还能应用于飞机、火车驾驶甚至是核动力操作等枯燥却又关键的场合。 刀通讯业 视频通讯技术目前已得到一定的应用,但介于网络传输质量的不理想,通讯的 效果差强人意。通过提取语音信号中的情感信息,在传输终端自行合成人脸表情动 作的技术大幅度减小图像传输给网络带宽的压力,极大地提高视频通讯的质量。随 着3 g 技术的推广,提取语音信号中的超语言信息,如情感信息,将有更广泛的应 用l ; 景。 8 ) 医学研究 言语语言病理学是研究言语障碍的一个医学分支,在我国尚属新兴学科。该学 科的研究人员常通过分析病人发音的语音信号来诊断言语障碍的病因。孤僻症患者 是一群缺乏j 下常情感反应和交流的病人。拥有情感识别功能的计算机能帮助这些患 者反复练习情感交流,达到逐步康复的目的。 以上提及的均为实际生产、生活中语音情感识别的应用领域。从长远看,人类 在科幻世界中梦想千百回的超级机器人与现在的计算机相比,一个很重要的突破是 机器人不仅能听懂语言还能洞察情绪 4 】o 若缺乏必要的情感识别,机器人保姆、机 器人教员这些设计将永远与我们无缘。 1 3 语音情感识别的难点 语音情感识别有着美好的应用前景,但其实现过程也存在诸多难处【3 ,5 】: 1 )如何建立情感的基本类别,用怎样的方式描述人类的所有情感; 浙江人学博i :学位论文第l 章绪论 2 1如何获取接近现实生活又易于控制的海量情感数据资源; 3 )从何种来源获取情感信息;如何模拟人类的情感识别方式;如何保证提取 的信息统一、可靠; 4 )以什么方式融合不同信道的情感信息;如何模拟人类融合信息时互补和冗 余的做法; 5 1如何测量和处理复杂而微妙的情感,如怀疑、犹豫、尴尬、自我表现等。 1 4 本文的主要目标和工作 针对语音情感识别面临的难题,本文从多方面丌展研究工作。这些工作贯穿语 音情感识别过程。各章节内容归纳为: 1 1回顾已有的情感识别工作( 第二章) 。对情感语料的采集与标注、声学特征 参数、统计学习模型、特征参数降维算法以及结合其他信息的情感识别进行描述和 分析。 2 )采集和标注情感语料( 第三章) 。通过多种途径采集所需的情感语料,构建 情感语料库c h a d 。设计语料听辨实验,对各来源的情感语料进行详细的比较。在 此基础上,构建m a s em a p 二维空白j 可视化图,依据图中位置关系,分析各语料 的情感表达和情感状态的可区分度。 3 )提取和处理声学特征( 第四章) 。总结常见声学特征提取算法的同时,给出 各算法实现过程的关键细节。结合时域特征和倒谱特征,提出基于改进的c 0 t r a i n i n g 算法的半监督语音情感识别系统。 4 ) 探究声学特征降维算法( 第五章) 。在分析p c a ( p r i n c i p a lc o m p o n e n t a n a l y s i s ) 和l d a ( l i n e a rd i s c r i m i n a n ta n a l y s i s ) 线性特征抽取算法的基础上,提 出分层次情感识别系统。该系统结合各特征抽取算法的优势,取得最佳的整体识别 性能。考虑到语音特征的分布更接近于非线性结构,i s o m a p 和l l e ( l o c a l l yl i n e a r e m b e d d i n g ) 等常用的流形学习算法被用来发掘情感声学特征的内在结构。提出e l e ( e n h a n c e dl i p s c h i t ze m b e d d i n g ) 非线性降维算法用于情感语音的特征降维。实验 表明,e l e 算法较其他更适于情感语音声学特征的降维处理。特征选择也是一种常 用的特征降维算法。除了分析p c a l i r a n k ( 一种基于p c a 的特征选择算法) 和 提出l d a l 1 r a n k ( 一种基于l d a 的特征选择算法) 用于选择最利于分离各状态 的特征参数外,提出一种新的特征选择方法。该方法综合优于区分所有类别和仅优 于区分某两个类别的特征参数。 5 )为了进一步提高情感识别率,系统结合了其他情感信息( 第六章) 。对话环 境下,提出对话情感关联矩阵,建立对话双方情感约束规则。基于这些规则,搭建 4 浙江人学博i 学位论文 第1 章绪论 对话情感识别系统。结合人脸表情和情感语音,研究双模情感识别。采用m p e g - 4 定义人脸特征点,使用g a s m ( g p ub a s e da s m ) 检测人脸特征。以t h m m 模型 ( t r i p l e dh i d d e nm a r k o vm o d e l ) 融合人脸表情特征、视觉语音特征和语音信号特征, 共同识别说话人情感状态。为了推进情感识别技术的实用化,调查带噪语音的情感 识别。实验结果表明,非线性降维算法e l e 擅于发掘带噪情感语音特征参数的内在 分布结构。 6 1简要阐述s e r s 语音情感识别系统( 第七章) 。描述s e r s 系统的基本性能 和算法模块,并演示在该平台上进行语音情感识别的过程。 最后由第八章总结全文并对未来的工作进行展望。本文的组织结构可用图1 1 表述。 ;网章声学特征 的提取与处理 第五章特征向幂 的线性及作线性目 维算法 、, 纯语音情感识别 第七章s e r s 语 音情感识别系统 t 第八章总结与展望 图1 - i 本文各章节的组织结构 辑_ 匿太学薄l :举位论文第2 章语爵情感谖弱鹩技术耐颞 第2 章语音情感识别的技术回顾 人类情感研究怒心理学、生物学和语言学的重鼹方向,近期受到工程研究领域 的关注。其中一个出发点是辅助设计更人性他的人枧交互方式。人机交互除了关心 传递的信息外,还需了解信息传递的途径。心理学家和神经系统学象的研究工作表 明,人类的决策过稷与情感密切相关【6 l 。情感不仅是交流中的感性部分,在人类理 性决策中也起到了鬣关重要的作用【4 ,”。智能化的入机界面应该具裔理解人类情感 的熊力。 脸部和声音情游表达豹研究可遴溯虱1 9 世苑豹现代玺物迸纯论。代表a 扬有 著名的生物举家达尔文【s 】。精神病学家和情感心理学家自2 0 世纪以_ 束,对语音情感 研究有不颡程度的关注 9 - i l 。语言学家帮工簸颁蠛的研究入受于2 0 键纪7 0 年代歼 始研究语音信号中的情感信息 | 2 - 1 4 1 。进入2 0 世纪9 0 年代以来,更怒出现了大量的 骚究天虽秘组稳关注语音潜藏表达。箕孛膏学术实验塞热p i c a r d 带锈静麓球多媒体 实黢室【4 1 ,有a t & t 等工业研究机构,还包括欧盟资助的人机情感交压项目 h u m a i n e i 髑、多语言多模态久撬交互瑗嚣p f - s t a r l 撼l 毅及褥诗籍瓤雩l 入入与入 交流圈的c h i l i 7 】。相关研究论文和报告如雨后春笋般涌现。本章擞要回顾了近期 夔谖音情感磅究援零,毽攒媾感语糕戆采集、声学特征载撼驳、绞诗模型的逡瘸、 特征参数的降维以及情感议别中其他信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年5G网络的5G网络性能优化
- 2025年城市发展导论试题及答案
- 中国邮政2025宝鸡市秋招电子商务与数字营销类岗位面试模拟题及答案
- 2025年事业单位工勤技能考试试题预测试卷含完整答案详解(考点梳理)
- 日照东港区中烟工业2025秋招数据中心运维岗位面试模拟题及答案
- 怒江泸水市中烟工业2025秋招工艺工程师岗位面试模拟题及答案
- 中国邮政2025临沂市秋招信贷审查岗位面试模拟题及答案
- 建筑项目施工期间劳务分配方案
- 2025年人教版8年级数学下册《一次函数》专题测试练习题(含答案解析)
- 2024北京北大方正软件职业技术学院单招《职业适应性测试》预测复习【考点梳理】附答案详解
- 乡镇综合行政执法队队长试用期满转正工作总结
- 2025天津医科大学眼科医院第三批招聘1人备考考试试题及答案解析
- 2025年法院书记员招聘考试笔试试题含答案
- 教科版四年级上册科学全册教案
- 水稻螟虫绿色防控
- 2024版2025秋新版小学道德与法治三年级上册全册教案教学设计含反思
- 家电合伙合同(标准版)
- CPK、PPK和SPC(X-R控制图)模板
- 2025年二级建造师考试施工管理真题及答案
- 光伏发电运行维护定期巡视检查项目和周期
- 特种设备(锅炉、压力容器)培训考试试题及答案
评论
0/150
提交评论