(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf_第1页
(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf_第2页
(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf_第3页
(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf_第4页
(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)基于rbf的语音情感识别方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音情感识别是情感计算领域的重要研究课题,是实现智能化人机交互的前提之 一。语音情感识别的研究目前还处于一个起步阶段,对于如何提高识别速度和识别率已 成为情感计算领域中不容忽视和亟待解决的难题。 传统的语音情感识别中提取的特征参数主要有基音参数、短时能量、振幅、语音信 号傅立叶变换频谱特征、语速等。与传统方法相比,寻找能够反映语音情感特征的参数, 以实现提高语音情感识别的识别率和识别速度。本文首先进行了特征参数提取的研究, 选取语音信号韵律特征和音质特征共同作为情感识别的特征参数,利用新加入分形盒维 作为语音信号的新特征参数,分形维则使用盒维的计算方法提取。针对含有为高兴、愤 怒、悲伤、害怕和中性五类情感的语音信号,分析了语音信号的韵律特征和音质特征, 找出了不同语音情感特征参数的分布规律。 本文采用竞争学习机制、梯度下降法和删除策略相结合的算法,得到了合适的隐层 节点数、聚类中心及其宽度、隐层与输出层的连接权值。实现了基于r b f 神经网络建 立了一个语音情感识别系统,同时还训练了一个b p 网络和概率神经网络进行了对比试 验,从实验结果可以看出,采用基于r b f 神经网络的情感识别在识别率和识别速度上都 有了明显的提高。 关键词:语音情感识别;情感特征参数提取;r b f ;冲经网络; a b s t r a c t s p e e c he m o t i o nr e c o g n i t i o ni sa ni m p o r t a n tr e s e a r c hs u b j e c ti nt h ef i e l do fe m o t i o n c o m p u t i n g ,w h i c hi sap r e m i s ef o rr e a l i z i n gi n t e l l i g e n th u m a n - c o m p u t e ri n t e r a c t i o n s p e e c h e m o t i o nr e c o g n i t i o nr e s e a r c hi si na ni n i t i a ls t a g e ,h o wt oi m p r o v et h er e c o g n i t i o ns p e e da n d t h er a t eo fr e c o g n i t i o nh a sb e c o m ead i f f i c u l tp r o b l e mt h a tc a nn o tb ei g n o r e da n dn e e dt o s o l v e t h ef e a t u r ep a r a m e t e r sw h i c ha r ee x a c t e df r o mt r a d i t i o n a lv o i c ee m o t i o nr e c o g n i t i o n i n c l u d ep i t c hp a r a m e t e r s ,s h o r tt i m ee n e r g y , a m p l i t u d e ,f o u r i e rt r a n s f o r ms p e c t r u ms i g n a l c h a r a c t e r i s t i c s ,s p e e d ,e t c ,t of i n de m o t i o n a lf e a t u r e st h a tr e f l e c tt h ep a r a m e t e r so fs p e e c hi n o r d e rt oi m p r o v es p e e c he m o t i o nr e c o g n i t i o nr a t ea n dr e c o g n i t i o ns p e e d f i r s t l yt h i sp a p e r r e s e a r c h e so ne x t r a c t i o nf e a t u r ep a r a m e t e r s ,c h o o s i n gt h ep r o s o d i cf e a t u r e so ft h es p e e c h s i g n a l sa n ds o u n dq u a l i t yc h a r a c t e r i s t i c s a st h ec h a r a c t e r i s t i cp a r a m e t e r so fe m o t i o n r e c o g n i t i o n ,p r o p o s e sj o i n i n gt h ef r a c t a ld i m e n s i o na st h en e wf e a t u r ep a r a m e t e r s o ft h e s p e e c hs i g n a l ,f r a c t a ld i m e n s i o ni se x t r a c t e db yu s i n gt h eb o xd i m e n s i o nc a l c u l a t i n gm e t h o d a c c o r d i n gt oh a p p i n e s s ,a n g e ls a d n e s s ,f e a ra n dn e u t r a lf i v ee m o t i o n a ls p e e c hs i g n a l s ,t h i s p a p e ra n a l y z e st h ep r o s o d i cf e a t u r e so fs p e e c hs i g n a l sa n dv o i c eq u a l i t yf e a t u r e s ,f i n d s d i s t r i b u t i o nl a w so fd i f f e r e n te m o t i o n a ls p e e c hf e a t u r ep a r a m e t e r s t h i sp a p e rc o m p e t i t i v el e a r n i n gm e c h a n i s m ,g r a d i e n td e s c e n ta n dt h ed e l e t i o np o l i c y c o m b i n i n ga l g o r i t h m ,o b t a i n e dt h er i g h th i d d e nl a y e rn o d e s ,t h ec l u s t e rc e n t e ra n dr a d i u s a l s ou s e dt h eg r a d i e n td e s c e n tm e t h o do ft r a i n i n gm a k e st h en e t w o r kh a saf a s t e rs p e e d o p t i m i z a t i o n r b fn e u r a ln e t w o r ki sp r o p o s e db a s e do nt h ee s t a b l i s h m e n to fas p e e c h e m o t i o nr e c o g n i t i o ns y s t e m ,a n da l s ot r a i n e dab pn e t w o r ka n dp r o b a b i l i s t i cn e u r a ln e t w o r k s c o m p a r e dt e s tr e s u l t sf r o mt h ee x p e r i m e n tc a nb es e e nt h a tr b fn e u r a ln e t w o r kb a s e do n e m o t i o nr e c o g n i t i o ni nt h er e c o g n i t i o nr a t ea n dr e c o g n i t i o nh a v eas i g n i f i c a n ts p e e di n c r e a s e k e yw o r d s :s p e e c hm o t i o nr e c o g n i t i o n ;t h ee x t r a c t i o n o f e m o t i o n c h a r a c t e r i s t i c s ; r b fn e u r a ln e t w o r k ; i i 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:1 军碹 日期:2 纠- 年6 月了日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时 授权中国科学技术信息研究所将本论文收录到中国学位论文全文数据库,并 通过网络向社会公众提供信息服务。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“ ) 作者签名: 邛争碹 导师繇叮芎力芦 日期a 矿f 口年毛月了 日 日期:。p 年6 月孑日 第一章绪论弟一早z 百t 匕 人类的语言是人类智慧的结晶,是人与人之间人际关系交往过程中,最主要的交流 的工具之一。人们相互交流过程中所表达的话语,不仅包含了文字符号所传递的字面信 息,而且还包含了说话者在不同状况下的心理情感信息。当人们通过打电话的方式进行 交流的时候,一方说话者能够通过另一方的声音感知到对方所想要表达的含义,还可以 感知到对方说话者声音中所带有的某种情感,因此通过分析说话者的声音,来进行判断 说话者在当时的心态状况下的情感,这是可行的。语音情感识别研究是当前的新兴研究 课题,它在实际的应用中,具有重大的意义和广泛的应用前景。 1 1 研究背景与课题的意义 随着计算机技术和人工智能研究的飞速发展,人类已经开始步入了全民信息化的时 代。在这个信息化的时代晕,计算机对人类的工作和学习以及生活发挥着越来越大的作 用,人类的发展已经开始离不开计算机了。相应的人们对计算机的性能和智能化要求也 就越来越高了,希望今后的计算机能够具有像人类一样的智慧,使人与计算机之间的交 互方式能够像人与人之间交流一样那样简单畅通无阻,使计算机的能力能够得到发挥更 大的影h 向作用,为人类的进行发展提供更好的和更方便的服务,促进了人类文明进程的 改革和发展。语音是作为人们相互之间交流的重要媒介,也是作为人与计算机相互之间 交互最为方便直接的快捷方式之一。为了使的人类与计算机之间实现更加智能化更加自 然的交互方式,对新型的人机交互技术研究已经成为了当前情感计算领域的研究热点。 从计算的诞生以来,为实现人与计算机之间通过自然语言进行交流,已经成为当今世界 上许多计算机技术研究科学家以及语言学领域的科学家们的梦想。根据当前科学研究表 明了,在人和计算机之间相互交互中,最需要解决的关键问题就是使的计算机具有一定 情感智能化的一种能力。要想使的计算机具有更大智能化,使它能够更加主动方便的去 适应满足操作者的需要,首先要求计算机必须能够识别操作者的具有的某种情感,再根 据情感来判断并不断调整相互交互之间交流的方式。为了实现人类的伟大愿望,使得人 与计算机之间能够实现真正通过自然语言来进行相互的交流,这对于进行语音情感识别 的研究有着非常积极重大的意义。 目前在语音情感识别技术最主要的应用领域,那就是让计算机可以像人类那样具有 智能化思想和思考方式,简单一点来说就是能够为他人类提供良好优质的服务。计算机 在情感识别领域中,对人类的语音情感首先进行获取再识别和最后与人类进行相互交 互,这样可以帮助使用者在自然的交互模式下高效准确地来完成既定目标的任务,有效 地减轻人们的生活和工作负担,大大提高了效率,它们甚至可以帮助人们理解自己和他 人的情感世界,具有这样功能的计算机也具有了真j 下意义上的智能。语音情感识别是情 感计算中的一个重要分支,在当前形势发展的背景下主要包括了下面几方面的应用【l ,2 1 : 1 ) 教育行业的应用: 随着计算机智能化与因特网技术不断的向前发展,智能化的计算机教学软件以及通 过网络实现的远程教学已经广泛应用到人们的工作和学习已经生活中去。但是这些教学 方式仍然还存在着许多方面的一些需要解决的问题,它也不能完全替代传统以面对面和 一对一这样的教学方式。但如果我们将语音情感识别技术加入到其中的应用,将被应用 于当前的教育行业中,这样就可以发挥其新技术的一些应用上的优势。例如把它应用到 远程教学上来,在一些远程教学场所上我们利用选择一些辅助教学的情感识别工具,以 及还装配一些用于情感检测的教学设备,通过这种方式可以给远在千里之外的老师们, 及时快速方便地回馈传递现场学员们的学习状态以及实时的学习情况,以方便于老师根 据当时不同的状况,来改变他的授课方式以满足课堂上学生的需要。那些学员们也可以 选择利用一些情感测试的教学仪器,来及时的了解老师们在教学中的情绪状态,以实现 师生更好的交流,对提高学生的学习效率有非常大的帮助。在学习中还可以结合语音情 感识别技术的教学软件,通过监控学习者对软件教学内容的反应,合适地调整教学内容 的进度和难度,以提供学生们的学习效率。 2 ) 信息的检索: 在当前信息的大爆炸时代中,对信息检索尤其非常的重要。例如像“g o o g l e ”、“百度” 等公司推出的信息检索工具己经成为家喻户晓的因特网信息检索工具。除了我们现在常 用的文本方式检索,当前还有诸多研究人员还致力于在多媒体检索领域的研究工作,如 果能够实现情感识别,智能化信息检索和信息快速定位将是多媒体信息检索中不可缺少 的一项重要技术。 3 ) 1 1 务行业应用: 在服务行业应用中,为了节省服务的开支成本和提高服务的质量,很多服务公司在 他们的客服系统中都纳入利用计算机技术的自动呼叫中心。但现在使用的呼叫中心常由 2 于过度机械化提示的操作而不得不到广泛的应用,如果把语音情感识别技术加入到呼叫 中心中去将会满足更加人性化和智能化的客服需求,它能够通过理解客户所提出的要 求,及时有效地做出相应的变通,最大限度地保留住可能会发生的客户资源。 4 ) 娱乐和游戏应用 在目的娱乐和游戏应用方面,大部分的娱乐和模拟情景游戏中,它们所采用的人机 对话界面方式,大部分都是采用文本指令输入的应用方式,这种方式的弊端就是所能传 递信息非常的有限,而且操作起来也非常的麻烦。虽然大部分的娱乐系统以及一些游戏 应用中,也加入了语音情感识别技术的应用,但是比较简单化也只能进行一些简单的语 义内容识别以及对一些特定语音材料的识别,而无法游戏者在不同的状况下,其语音中 所相要表达出来传递的情感。如果我们能够在一些娱乐和游戏系统中,加入当前新兴研 究的语音情感识别技术,模拟人的所具有的情感表达方式,利用更加逼真的虚拟场景画 面。可以使的游戏玩家有同在现实生活中一样的感觉,同时又能够给玩家更加全面的感 官上享受,大大增加了游戏的娱乐性。 5 ) 刑事侦查应用 在刑事侦查与安全方面的应用,当前被广泛应用的测谎系统也就是采用了语音情感 识别技术的,目自 已经开始步入了实用化的阶段。通过语音情感信号中提取分析被测者 的情绪变化状况,来判断被测者言语的是否具有真实性。例如当自仃市场上所使用到的“情 侦宝”,它是通过语音情感识别技术的手段来揭示人们内在情感的一种识别产品,它是 由北京漠瀚科技有限公司与中科院自动化研究所、模式识别国家重点实验室联合推出的 一款语音情感检测产品,目前该产品还主要应用于娱乐和游戏当中。当前的自动监测系 统是作为日常保安维护中的一个比较重要组成部分,该检测系统加入了语音情感识别技 术,通过监测系统采集到声音和图像数据,然后自动做出相适应的判断进行认证。如果 当发生了突发事件,它会自动发出异常警报,以满足弥补了保安人工监测的不足以及人 为的一些漏洞,大大提高了我们的日常生活安全,保障了我们的人身和财产安全。 6 ) t 业化应用 在工业化的应用当中,生产过程中的各种产品需求的设计,需要得到来自用户的认 可和他们的一些修改的意见。目前大多数公司需要聘用具有很高专业知识人员,来从事 这方面的客户调查以及意见的反馈工作。通过采用访问用户,让用户填写相关的使用问 卷表格,以及跟踪用户整个使用过程等这些是我们经常用到的一些信息收集方式。如果 采用语音情感识别方法来进行工业上信息的收集,那么会大大提高了我们的工作效率; 通过采用语音情感识别系统,来监控各个用户在使用整个产品的过程中所产生的不一样 的情绪变化,通过对其进行信息监控,为我们提供了大量的有实际应用价值的用户使用 信息。还例如在汽车驾驶过程中我们也使用了语音情感识别系统,这样就可以根据司机 在不同的情况下所具有某种情绪状念的变化,从而来识别此时司机所积累的疲劳程度以 及烦躁不安的情绪等状态,这样系统就会相应地采用保护方式和提醒措施,这样大大地 保护了司机的人身和财产安全。类似利用到的语音情感识别系统,已经应用到了飞机以 及火车驾驶当中去,还有应用到那些对人有伤害操作而又相当关键的应用场合。 7 ) 通讯行业应用 当前通讯行业的高速发展,视频通讯技术已经在通讯行业中得到了比较广泛的应用 普及。通过加入语音情感识别技术,提取分析语音信号中所传递的人类情感信息,在传 输终端自动实现合成人脸表情,利用该技术将大大地减小图像的传输带宽,这样就极大 地提高了视频传输在网络上传输的质量和速度。目前伴随若3 g 技术的推广和实际应用, 从语音信号中的提取情感信息进行分析,在不久的将来将会有更加广泛的应用前景。 8 ) 医学应用 语言障碍病理学在我国还尚属于一门新兴的学科,该学科是以各种类人群所出现的 语言障碍者为研究的对象,研究人员们常会通过分析病人的发音来诊断其语言障碍的病 因。例如孤僻症患者就是属于缺乏了正常的情感交流的一类病人,如果通过使用具有语 音情感识别能力的计算机,来帮助患者们进行反复情感交流方面的练习,通过练习逐步 的恢复其发音标准,以达到逐步实现康复的目的。 从未来的发展来看,我们怎样有效地来组合任何形式的信息,使用最佳的信息传递 方式,将是今后情感信息处理研究的发展方向。在语音情感信息处理的研究方面,判定 说话人的喜怒哀乐将会是一个新兴的具有重大意义的研究课题。 1 2 国内外研究现状 根据国内外对语音情感声学特征分析的研究发现,在进行语音情感识别时需要我们 解决的核心问题就是选取一个比较合适的模式识别模型。当前的各种模式识别的方法分 类【3 1 如下:线性预测分析技术( l p c ) 5 1 、动态规划( d p ) 1 4 1 、人工神经网络( a n n ) 【7 1 和隐马尔可夫模型( h m m ) 【羽、动态时间规则技术( d t w ) 1 6 1 等等,都已经被广泛应 4 用于语音情感识别中了,并且取得了比较理想的识别效果。 n i c h o l s o n t l 0 】等人研究的语音情感识别系统,是采用了神经网络识别模型结构,并且 由8 个子网组成,每个子网处理相对应的一种特定的情感类别,采用这种子网络结构识 别模型具有了很好的可扩展性,而且在增加情感类别时不再需要重新训练整个识别网 络。通过仿真实验发现,如果在情感识别过程中加入了负面的情感,比如愤怒和悲伤等, 识别系统是很容易识别的,但是如果进行积极的情感识别,比如高兴和欢快等,那么该 情感识别系统就不容易识别了。 d e l l a e r t 等人【1 1 1 使用到了三种不同的分类器来进行语音情感识别方面的研究,其中 这三类分类器它们分别为:核回归方法、k 近邻方法以及最大似然贝叶斯分类方法。采 用从语音基频信号轮廓曲线中来提取用于识别的特征参数,并且对悲伤、愤怒、高兴和 害怕等四类情感进行了识别仿真实验,并取得了较好的识别效果。 v a l e r ya p e t r u s h i n 等人【1 2 1 分析了由五类情感组成的共七百多句语音短旬,这五类情 感他们分别是:悲伤、愤怒、高兴、自然和害怕等。其中进行识别的特征参数分别选取 如下:语音基频信号、两个共振峰值、短时能量和语速等,并且进行仿真实验时还比较 比较了几类识别器模型,都取得了比较好的识别效果。 t a r o 等人【l3 j 进行了对语音情感识别空间的研究,其研究的过程不仅仅只是对特定韵 律特征参数提取和分析。在进行模拟仿真实验中,他们不仅使用到了韵律特征参数,而 且还加入了音质特征参数进行识别。仿真实验结果表明了,采用这两种特征参数方式相 结合,能够有效地提高语音情感识别的识别速度和识别率。 y i n d o n gy u 等人【1 4 】利用k 最近邻方法对四类情感进行了语音情感识别的研究,这四 类情感它们分别是:愤怒、自然、高兴和悲痛等。而且还比较分析了一些特征参数,比 如提取了基频信号和短时能量等识别相关的特征参数,结果从中发现在提取新的特征参 数基础上,再对k 最近邻方法进行相对应的改进,这样就减少了语音情感识别系统所需 的特征参数和相关的训练数据,这样就可以大大提高了识别系统的识别效果。 t i nl a yn e w 等人【l5 】采用了基于对数频率能量系数以及隐马尔可夫模型分类相结合 的方法,把输入的语音信号分成了1 6 m s 的相互重叠的窗口,计算出语音信号的短时能 量,再对确定下来的能量系数采用矢量量化器进行相应的编码处理。基于这种方法就可 以识别出语音信号中所包含那些情感信息,并对语音情感信息进行了精确的划分。 c h u lm i nl e e 等人【l6 】采用了线性判别分类、k 近邻方法和支持向量机等方法进行了 语音情感识别研究。采用线性判别分类法就是使用了带有高斯概率分布的参数,在确定 参数的均值和方差后,再利用了b a y e s 准则法来计算它的最大后验概率,并且对情感信 息进行了简单的分类。采用k 近邻法是通过计算k 邻域的平均值和每类情感信息中的 局部后验概率。在使用支持向量机方法中就是进行线性映射变换,将输入向量映射到高 维的特征参数空间中,然后再进行最后的计算。 法国s o n y 公司计算机科学实验室的,p i e r r e y v e so u d e y e r 等人【1 7 】采用了对同- 7 中情 感语料进行了大量仿真实验。通过仿真实验表明了,采用基于a d a b o o s t e d 决策树的方 法取得识别效果最好,而采用下面这些方法,比如k n n 、r b f 神经网络和s v m 等也 能够取得了令人满意的识别效果。 从目前对情感识别领域的研究中发现,国内外的研究人员在语音情感识别研究领域 中,大部分都采用了相关的模式识别方法来进行情感识别。m p a n t i c 等人【4 3 】对最近几年 中的语音情感识别进行仿真实验的结果进行了对比分析和比较,结果发现各研究学者之 间相差比较大,实验结果差异也比较明显。从当前对该领域的研究总体上来说,目前还 刚刚开始起步,相应的技术还不够成熟,许多方法还尚处在试验的初级阶段,将来还有 非常大的发展潜力。 在我国关于语音识别研究工作最早开始于5 0 年代,在最近年中还来发展比较快的, 对该领域的研究开始由实验室阶段逐步走向了实际的实用。自从国家设立执行8 6 3 计划 后,对该领域的研究水平有了很大的提高,并且设立了国家级的智能计算机专家研究组, 专门为进行语音识别技术的研究设立的【l 引。从现在来看,我国语音识别技术的研究水平 已经基本上达到了国外同步标准。并且在汉语语音识别领域中,在技术上还保留了自己 的研究特点与优势,且已经达到了世界先进水平。 当前在国内关于语音情感计算领域的研究,也有众多的研究学者致力于这方面的研 究。罗森林和潘丽敏等人【1 9 】研究并发布了相关的当前情感计算的发展史、应用方向、技 术研究内容以及所需要的关键技术等。马希荣、刘琳和桑婧等人【2 3 】提出了一个基于情感 计算的e l e a r n i n g 系统结构模型。电子学习 2 3 1 也称通过互联网可以实现网上在线学习, 这其中也包括阅读电子书籍,通过多媒体播放软件实现了远程教育,通过互联网构建虚 拟的网上电子教室以及网上在线数字图书馆等互方式。王伟凝等人【2 5 】进行了关于从图像 中提取的情感信息语义方面的研究,人是通过主观方式上对图像的理解和感知的。薛为 民等人【2 6 】提出m u l t i a g e n t s y s t e m 体系结构,应用该系统可以实现识别人类所具有的情 6 感信息,同时还可以通过虚拟化的方式来表达人各方面的个性情感。谷学静和石志国等 人【2 8 1 提出了基于b d ia g e n t 技术的情感机器人,他主要介绍了b d ia g e n t 技术在情感机 器人中的应用,通过采用基于a g e n t 技术来构建语音情感识别模型,实现机器对外界语 音的输入能够正确地进行识别。张彦铎和吴华等人【2 9 】实现了机器人的舞蹈能够与音乐更 好地结合起来,通过机器人根据音乐响起的节奏来快速地进行编排出它相应的舞蹈。这 是是通过提取音乐中的情感特征参数作为识别基础,采用了以机器人编排的舞蹈系统为 应用研究对象,来提取自动识别音乐的情感特征参数,实现了机器人舞蹈编排系统。王 上飞等人【3 0 1 提出了一种基于情感模型对情感进行分类。王志良等人针对计算机如何能 够进行情感的计算,提出了一种情感空间的概率模型并且对其进行了计算机仿真实验。 王玉洁等人【3 3 】采用基于隐马尔可夫模型建模的基本理论,设计出一个情感识别模型。宋 亦旭等人【3 4 1 总结研究了当前语音情感识别的应用发展,实现了基于语音情感的控制机器 人识别模型体系结构,并且通过仿真实验进行了认证。赵力等人【3 5 】提出了三种关于基于 主元素分析语音情感识别的方法,通过仿真实验认证,采用这些识别方法都获得了比较 好的识别效果。王治平等人【3 6 】采用模糊熵基本理论研究方法,提取和分析了关于语音情 感特征参数与情感识别模式的不确定关系,在此基础上并提出了关于对模糊熵情感特征 参数的有效性进行度量的方法。钱向民等人【3 7 1 分析提取了四类语音情感特征参数,它们 分别是:惊奇、愤怒、欢快、悲伤等4 种情感语音信息,其中提取的特征参数有:时间 构造、振幅构造、基频信号的构造和共振峰的构造等特征参数,并且与不带情感的中性 语音信号的比较了分析,总结发现了不同的情感语音信号的语音特征分布规律。赵力等 人【3 8 】采用在全局特征来进行语音情感特征参数分析的基础上,提出了采用具有情感信息 的语句并且把其中各元音的时序结构作为新特征参数,针对不同的情感语句中包含了不 同元音个数的情况,提出了补齐零、补齐全局均值、补齐前均值等三种不同的方法,对 语音情感特征参数进行提取分析。赵力和王治平等人【3 9 】还针对关于语音情感进行识别的 问题上,采用支持向量机方法,对语音情感识别进行了研究。詹永照等人【4 0 】关于解决语 音情感识别的识别率性与识别速度问题,利用了加权欧氏距离模板匹配的方法来进行语 音情感识别。陈建厦和李翠华【4 l 】等人总结了当前语音情感识别研究领域获得的主要成 果。 关于国内外的语音情感识别研究,目前仍然处在一个初始的阶段,总结分析了当前 应用的研究成果,其主要特点如下: 7 ( 1 ) 语音情感识别过程中所使用到的特征参数,主要集中在韵律学特征上,只有少数 学者对音质特征和频域特征予以了关注,而且基本上是以整个情感语义的全局统计特征 为主,对时序特征的利用相对较少。 ( 2 ) 国内外的研究大多数都是针对特定语种的研究,语音情感识别的研究成果应用不 具有普遍性,各国的语种之间存在较大的差异。 ( 3 ) 有些研究语音情感识别采用人工对比的方法,对说话者的发音和语义内容有很强 的依赖性。 ( 4 ) 识语音情感识别目标是识别说话者语义中所加载的情感状态,通常使用传统的模 式识别方法对事先确定的若干独立的情感状态进行分类。由于缺乏合理的、有针对性的 语音情感模型,这类方法取得的识别效果有一定的局限性。 ( 5 ) 各国语种没有公用情感语音库,实验用语音样本大多是根据要求特别录制的,而 且数量相对比较少。 ( 6 ) 语音情感识别的实验结果具有局限性和争议性,没有得出一致性统一的结论。 语音情感识别研究这是一个新兴的研究课题,对它的研究是进一步人机交互技术发 展的基础。尽管目前在人与计算机的交互取的了一定的研究成果,但是要带到人类理想 的人机交互方式,还有许多问题有待研究学者进一步的去研究和创新发现。 1 3 语音情感识别中面临的问题 当今语音情感计算方面的研究正在蓬勃发展,关于语音情感识别的发展目前面临着 一系列的难题。其中语音情感识别被公认为是情感计算研究领域中最为困难的课题,目 前主要存在的问题有: ( 1 ) 从语音信号中提取情感特征参数,判断说话人的喜怒哀乐,是国外近几年刚 刚兴起的课题研究方向。就目前的研究现状来看,传统的语音信号情感识别中提取的参 数主要有基音参数、短时能量、振幅、语音信号傅立叶变换频谱特征,语速等。与传统 方法相比,寻找能够反映语音情感特征的参数,能够有效提高语音情感识别的识别率和 识别速度。本文首先进行了特征参数提取研究,选取语音信号韵律特征和音质特征共同 作为情感识别的特征参数,利用新加入分形维特征参数作为语音情感识别的新特征参 数,分形维采用盒维计算方法进行提取。针对含有为愤怒、高兴、悲伤、害怕和中性五 类情感的语音信号,分析了语音信号的韵律特征和音质特征,找出了不同语音情感特征 8 参数的分布规律。 ( 2 ) 关于语音情感识别方法的研究,我们对近几年的语音情感文献的结果进行了 对比,研究发现他们的研究对象相差极大,结果各异。本文提出了基于r b f o 经网络建 立了一个语音情感识别系统,同时还训练了一个b p 网络和概率神经网络进行了对比试 验,实验结果表明,采用基于r b f 神经网络的情感识别在识别率和识别速度上都有了一 定程度的提高。 1 4 论文的研究内容和结构安排 本文主要研究内容是:基于r b f 的语音情感识别方法研究。首先进行了特征参数 提取的研究,选取语音信号韵律特征和音质特征共同作为情感识别的特征参数,这些特 征参数主要包括共振峰、基音周期、分形维等特征参数。基音周期参数采用自相关的方 法进行特征提取,共振峰参数提取采用线性预测的方法进行提取,分形维则采用盒维的 计算方法提取。在提取了不同特征参数的基础上,分析出在不同的情感类别中不同特征 参数下的差异。为了提高语音情感识别的识别速度和识别速率,实现了基于r b f 神经 网络建立了一个语音情感识别系统,同时还训练了一个b p 网络和概率神经网络进行了 对比试验,从实验结果可以看出,采用基于r b f 神经网络的情感识别在识别率和识别 速度上都有了显著的提高。 各章节内容安排如下: 第一章:绪论。简要介绍了本文的研究背景和意义,以及国内外研究现状和目i j 语音 情感识别中所面临的问题。 第二章:语音情感特征参数提取分析。主要详细介绍了语音情感特征参数的提取的 方法,提出了新加入分形盒维特征参数作为提取语音信号的新特征。 第三章:基于r b f 的语音情感识别方法研究。介绍了基于r b f 神经网络识别模型 的构建; 第四章:基于r b f 的语音情感识别仿真实验。建立基于r b f 的语音情感识别模型, 同时还训练了一个b p 网络和概率神经网络识别模型进行对比分析。 第五章:总结与展望。总结全文,并给出了情感计算及其应用研究展望。 9 第二章语音情感特征参数提取分析 为了提高语音情感识别的识别率,首先必须进行语音特征参数提取提取分析。下面 我们首先简要介绍了语音情感的分类,以及语音情感信号声学特征参数,接着详细介绍 了语音信号的数字化和主要特征参数的提取。 2 1 语音情感分类 语音情感的含义是什么? 简单来说,语音情感是指说话者的声音带有某种情感。语 音情感是怎么样分类昵? 关于这些问题,目前还没有一个明确的答案。当今国内外的研 究学者提出关于情感的定义,其中k ,o a t l e y 和m ,j e n k i n s 提出的定义获得了大多数研究 学者一致的认可,所谓的语音情感就是说话者通过语音不仅能够把自己的想法表达出 来,而且还可以传递心中触摸不到的情感。在当前情感计算的研究领域中,关于语音情 感分类,学术界还并没有达成一个统一的共识,具体该怎么样表示是出研究课题所决定 的。语音情感分类,见表2 1 的所示: 表2 1 语音情感分类 2 2 语音情感声学特征分析 本文是建立基于汉语语音信号的情感识别系统,所以我们首先要了解一下,在使用 汉语交流过程中情感的表达方式,不同情感状态和汉语语音声学参数之间的对应关系。 语音信号传递了两个方面的信息,一是语义信息,二是非语言学的情感信息。前面是传 递了说话者想要表达的含义,后面则是在不同的环境下声音上发生了不同的声学变化。 前者我们把它称之为语义信息,后者则称之为声学特征。关系如下图2 1 所示: 1 0 图2 1 语音信号所传递的信息 人类的语音信号传递的语义信息和声学特征,对表达情感具有非常重要的作用。语 义信息对于情感识别只是一个最基本的因素,说话者的内在情感只能通过非语义信息的 方式来理解领悟。这是因为在特别的情景状况下,如果语义传递的信息是消极的,而当 时的语音音调却是积极的,那么此时的语义信息不足以传递说话者心中内在情感。 通过对语音特征参数的提取分析研究,寻找最能有效地反映说话者的情感状态的语 音特征参数,以提高语音情感识别的效果。在当前国内外许多研究学者都做了大量的研 究,试图去解决这一语音情感识别难题。在p i t t a m 和s c h e r e r l l 3 1 等人所发表的论文中指 出了关于不同的语音情感信号与声学特征之间的对应关系: 害怕( f e a r ) :唤醒度、基频范围基频均值、清晰度和高频能量都较高; 悲伤( s a d n e s s ) :基频范围、平均能量和基频均值等较低,相对于中性来说清晰 度降低和高频能量衰减; 生气( a n g e r ) :基频范围、平均能量和基频均值等较高,相对于中性来说语音 清晰度提高和高频能量提升; 高兴( h a p p i n e s s ) :基频范围、平均能量和基频均值等较高,伴随有明显的语 音清晰提高和高频能量提升。 表2 2 五种主要情感的声学特征 表2 2 总结了高兴、悲伤、害怕、愤怒等五种主要情感的声学特征,其中韵律特征 包括了基频、能量、语速等特征参数,它对语音情感识别具有重要的影响,是语音情感 识别应用中重要的识别参数。然而当前研究表明,在进行语音情感识别中,如果把音质 特征与韵律特征相结合使用,音质特征对于识别那些韵律特征比较相近的情感,具有明 显的识别效果,我们加入韵律特征和音质特征1 2 2 1 作为语音情感识别共同的识别参数。本 章的下面内容将详细介绍了韵律特征特征参数和音质特征参数的提取。 2 3 语音信号数字化和预处理 在进行语音信号参数提取之前,首先必须进行语音信号的数字化和预处理。在语音 信号数字化过程中一般包括:采样、放大及增益控制、反混叠滤波、量化及a d 变换等。 在语音信号数字化之前,必须首先进行防工频干扰滤波和防混叠滤波。其中防混叠滤波 主要作用是滤除掉那些大于采样频率一半以上的语音信号和噪声。语音信号经过采样和 量化处理之后,然后再进行预加重处理,其作用就是提升高频部分频谱,以方便我们进 行频谱分析和声道参数分析。 语音信号的预处理过程中一般包括:加窗分帧处理、端点检测和预加重等内容。把 预加重处理放在防混叠滤波和a d 变换之前进行的,是为了压缩语音信号的动态变化范 围以提高信噪比。语音信号是一个非平稳变化的过程,随着时间的变化其特征参数和特 性也会发生相应的改变。语音信号也具有短时稳定性,在较短时间的范围内,其特性一 般是保持不变的,我们可以将其看作是一个非标准稳念的过程。我们对语音信号的分析 和处理,是建立在其短时稳定性的基础上,进行分帧处理,然后分析提取其特征参数。 1 ) 语音信号预加重处理 语音信号预加重处理的作用是滤除5 0 h z 或6 0 h z 低频干扰,提升高频部分频谱, 以便于进行特征参数分析。语音信号预加重的一般方法我们又称之为预加重滤波器,通 过一阶高通滤波器,抑制随机噪声和清除掉直流漂移,以提升清音部分能量。 进行预加重滤波器处理的传递函数公式表达式为: h ( z ) = 1 0 9 3 7 5 z _( 2 1 ) 1 2 采用预加重滤波器后得到的语音信号季( 门) 表达式为: s ( n ) = s ( ,? ) 一0 9 3 7 5 5 ( n 一1 )( 2 2 ) 2 ) 加窗分帧处理 一般设定每秒的帧数大约为3 5 1 0 5 帧之间,我们采用交叠分段法进行分帧,保持 其连续性且帧之间平滑过渡。本文设定的采样频率值为1 6 k h z ,规定以2 4 0 采用点为一 帧,且帧移为8 0 个采样点。对于第,帧的第n 个采样点,它与原始的语音信号关系表达 式为: x j ( 嚣) = x 【( ,一1 ) 膨+ n 】 ( 2 3 ) 其式中n = 0 ,l ,一1 ,= 0 ,1 ,l i ( n = 2 4 0 ,m = 8 0 ) 。 加窗后语音信号瓯表达式为: & = s ( ,z ) 幸w ( n ) ( 2 4 ) 其中2 4 式中,w ( n ) 为窗函数表达式,通常采用的窗函数是汉明窗和矩形窗,其表达式 如下:( 式中n 为帧长) 矩形窗: w = 三。篓潞。 仁5 , 汉明窗:其式( 0 刀( n 一1 ) ) w o ) = o 5 4 以4 氏o 。s 眩别一 q 石 选择合适形状和长度的窗函数,使得语音信号特性的变化由短时分析参数反映出来,本 文采用了矩形窗函数。 3 ) 语音信号的端点检测 保证语音信号端点检测的可靠性和准确性,对提高语音情感识别率有非常大的作 用。如果语音信号噪音过多,将会干扰识别结果,所以我们要首先对语音信号进行端点 定位处理,清除掉多余的噪音信号段,将组合完整的语音信号段来进行识别。而如果割 掉不是噪音信号段,那么就会造成语音信息丢失,大大影响了识别率。下面简要介绍几 种常用的端点检测方法: ( 1 ) 短时平均幅度 为了使计算出来的短时能量能够很好的反映出语音能量的时变特性,我们如果采用 短时平均幅度来表示语音能量,其短时平均幅度计算表达式如下: 坂= ix ( m ) c o ( n - m ) ( 2 7 ) 或 m 。= jx ( m ) h ( n - m ) i ( 2 8 ) 其式中h ( n m ) = c o ( n m ) 。采用移动窗函数c o ( n m ) 来选取其中的一段语音信号,然后 再计算这段语音信号取样值的绝对值的和,得到这段语音信号的平均幅度。也可以利用 移动平均窗函数h ( n m ) 进行选取语音信号中绝对值序列中的一段,并对各样值求和, 也可以得到短时平均幅度。 以刚开始发音前已知为静态的连续1 0 帧之内的数据,其帧长为1 0 m s 为依据,计算 i t l ( 低能量阈值) 和i t u ( 高能量阈值) 。计算每帧的短时平均幅度,其最大值设为i m x , 最小值设为i m n ,通过计算可得到: 1 ,= 0 0 3 ( i m x z m n ) + i m n 1 2 = 4 i m n 于是有: 1 t l = m i n ( i l ,1 2 ) i t u = s l t l 首先根据i t u 、i t l 计算得到初始化起点,然后再把它标记为最先升到平均幅度 的帧号,但是随着时间增加,帧幅度在上升到i t u 之前将会又下降到i t l 之下时,将改 为下一个上升到i t l 的点,为初始起点,按照以此方法进行起止点的判别。 ( 2 ) 短时平均过零率 过零率是指在单位时间内发生过零现象的次数。从离散信号中取两个相邻的样值, 当它们之间出现不一样的符号时,则称为过零现象。如果取的离散信号为窄带信号,那 么此时的过零率能够准确的反应出离散信号的频谱特性,当在离散信号为宽带信号时 下,反应出来的效果不是很明显。 采用一个移动窗函数w ( n m ) 选取出某时刻的语音信号段,计算出该时段的过零率 总数并除以该时段的长度,得到短时平均过零率。如果采用矩形窗函数,设窗函数的宽 度为,短时平均过零率计算表达式如下: 乙= 去壹s g n x ( m ) w ( n - m ) l - s g n 瞰州胁m 州川 眩9 , 式中, = 去室s g n 咖) 一s g n 咖1 ) 1 w ( 力训 1 4 w c 咖器蒙掣 唧删= 兰。戮 根据刚开始发音前已知为“静”态的连续1 0 帧的数,计算出过零率的阈值i z c t ,其计算 表达式如下: i z c t = m i n i f ,i z c + 2 盯脚】( 2 1 0 ) i z c ,仃脚分别为所取样值计算过零率的均值及标准差的估值,伊为固定值取为2 5 。 根据i z c t 计算初始起点l ,我们把它标记为最先升到平均过零率阈值的帧号,随 着时间发生变化,当其过零率下降到i z c t 之下,那么这时的点为语音段的终点。 2 4 语音情感特征参数的提取 本文使用m a t l a b 进行模拟仿真实验提取语音情感特征参数,并对提取的语音情 感特征参数进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论