（计算机应用技术专业论文）基于rbf的语音情感识别方法研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：51 大小：3MB 积分：0 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

（计算机应用技术专业论文）基于rbf的语音情感识别方法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要语音情感识别是情感计算领域的重要研究课题，是实现智能化人机交互的前提之一。语音情感识别的研究目前还处于一个起步阶段，对于如何提高识别速度和识别率已成为情感计算领域中不容忽视和亟待解决的难题。传统的语音情感识别中提取的特征参数主要有基音参数、短时能量、振幅、语音信号傅立叶变换频谱特征、语速等。与传统方法相比，寻找能够反映语音情感特征的参数，以实现提高语音情感识别的识别率和识别速度。本文首先进行了特征参数提取的研究，选取语音信号韵律特征和音质特征共同作为情感识别的特征参数，利用新加入分形盒维作为语音信号的新特征参数，分形维则使用盒维的计算方法提取。针对含有为高兴、愤怒、悲伤、害怕和中性五类情感的语音信号，分析了语音信号的韵律特征和音质特征，找出了不同语音情感特征参数的分布规律。本文采用竞争学习机制、梯度下降法和删除策略相结合的算法，得到了合适的隐层节点数、聚类中心及其宽度、隐层与输出层的连接权值。实现了基于r b f 神经网络建立了一个语音情感识别系统，同时还训练了一个b p 网络和概率神经网络进行了对比试验，从实验结果可以看出，采用基于r b f 神经网络的情感识别在识别率和识别速度上都有了明显的提高。关键词：语音情感识别；情感特征参数提取；r b f ；冲经网络； a b s t r a c t s p e e c he m o t i o nr e c o g n i t i o ni sa ni m p o r t a n tr e s e a r c hs u b j e c ti nt h ef i e l do fe m o t i o n c o m p u t i n g ，w h i c hi sap r e m i s ef o rr e a l i z i n gi n t e l l i g e n th u m a n - c o m p u t e ri n t e r a c t i o n s p e e c h e m o t i o nr e c o g n i t i o nr e s e a r c hi si na ni n i t i a ls t a g e ，h o wt oi m p r o v et h er e c o g n i t i o ns p e e da n d t h er a t eo fr e c o g n i t i o nh a sb e c o m ead i f f i c u l tp r o b l e mt h a tc a nn o tb ei g n o r e da n dn e e dt o s o l v e t h ef e a t u r ep a r a m e t e r sw h i c ha r ee x a c t e df r o mt r a d i t i o n a lv o i c ee m o t i o nr e c o g n i t i o n i n c l u d ep i t c hp a r a m e t e r s ，s h o r tt i m ee n e r g y , a m p l i t u d e ，f o u r i e rt r a n s f o r ms p e c t r u ms i g n a l c h a r a c t e r i s t i c s ，s p e e d ，e t c ，t of i n de m o t i o n a lf e a t u r e st h a tr e f l e c tt h ep a r a m e t e r so fs p e e c hi n o r d e rt oi m p r o v es p e e c he m o t i o nr e c o g n i t i o nr a t ea n dr e c o g n i t i o ns p e e d f i r s t l yt h i sp a p e r r e s e a r c h e so ne x t r a c t i o nf e a t u r ep a r a m e t e r s ，c h o o s i n gt h ep r o s o d i cf e a t u r e so ft h es p e e c h s i g n a l sa n ds o u n dq u a l i t yc h a r a c t e r i s t i c s a st h ec h a r a c t e r i s t i cp a r a m e t e r so fe m o t i o n r e c o g n i t i o n ，p r o p o s e sj o i n i n gt h ef r a c t a ld i m e n s i o na st h en e wf e a t u r ep a r a m e t e r s o ft h e s p e e c hs i g n a l ，f r a c t a ld i m e n s i o ni se x t r a c t e db yu s i n gt h eb o xd i m e n s i o nc a l c u l a t i n gm e t h o d a c c o r d i n gt oh a p p i n e s s ，a n g e ls a d n e s s ，f e a ra n dn e u t r a lf i v ee m o t i o n a ls p e e c hs i g n a l s ，t h i s p a p e ra n a l y z e st h ep r o s o d i cf e a t u r e so fs p e e c hs i g n a l sa n dv o i c eq u a l i t yf e a t u r e s ，f i n d s d i s t r i b u t i o nl a w so fd i f f e r e n te m o t i o n a ls p e e c hf e a t u r ep a r a m e t e r s t h i sp a p e rc o m p e t i t i v el e a r n i n gm e c h a n i s m ，g r a d i e n td e s c e n ta n dt h ed e l e t i o np o l i c y c o m b i n i n ga l g o r i t h m ，o b t a i n e dt h er i g h th i d d e nl a y e rn o d e s ，t h ec l u s t e rc e n t e ra n dr a d i u s a l s ou s e dt h eg r a d i e n td e s c e n tm e t h o do ft r a i n i n gm a k e st h en e t w o r kh a saf a s t e rs p e e d o p t i m i z a t i o n r b fn e u r a ln e t w o r ki sp r o p o s e db a s e do nt h ee s t a b l i s h m e n to fas p e e c h e m o t i o nr e c o g n i t i o ns y s t e m ，a n da l s ot r a i n e dab pn e t w o r ka n dp r o b a b i l i s t i cn e u r a ln e t w o r k s c o m p a r e dt e s tr e s u l t sf r o mt h ee x p e r i m e n tc a nb es e e nt h a tr b fn e u r a ln e t w o r kb a s e do n e m o t i o nr e c o g n i t i o ni nt h er e c o g n i t i o nr a t ea n dr e c o g n i t i o nh a v eas i g n i f i c a n ts p e e di n c r e a s e k e yw o r d s ：s p e e c hm o t i o nr e c o g n i t i o n ；t h ee x t r a c t i o n o f e m o t i o n c h a r a c t e r i s t i c s ； r b fn e u r a ln e t w o r k ； i i 长沙理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：1 军碹日期：2 纠- 年6 月了日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所将本论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信息服务。本学位论文属于 l 、保密口，在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“ ) 作者签名：邛争碹导师繇叮芎力芦日期a 矿f 口年毛月了日日期：。p 年6 月孑日第一章绪论弟一早z 百t 匕人类的语言是人类智慧的结晶，是人与人之间人际关系交往过程中，最主要的交流的工具之一。人们相互交流过程中所表达的话语，不仅包含了文字符号所传递的字面信息，而且还包含了说话者在不同状况下的心理情感信息。当人们通过打电话的方式进行交流的时候，一方说话者能够通过另一方的声音感知到对方所想要表达的含义，还可以感知到对方说话者声音中所带有的某种情感，因此通过分析说话者的声音，来进行判断说话者在当时的心态状况下的情感，这是可行的。语音情感识别研究是当前的新兴研究课题，它在实际的应用中，具有重大的意义和广泛的应用前景。 1 1 研究背景与课题的意义随着计算机技术和人工智能研究的飞速发展，人类已经开始步入了全民信息化的时代。在这个信息化的时代晕，计算机对人类的工作和学习以及生活发挥着越来越大的作用，人类的发展已经开始离不开计算机了。相应的人们对计算机的性能和智能化要求也就越来越高了，希望今后的计算机能够具有像人类一样的智慧，使人与计算机之间的交互方式能够像人与人之间交流一样那样简单畅通无阻，使计算机的能力能够得到发挥更大的影h 向作用，为人类的进行发展提供更好的和更方便的服务，促进了人类文明进程的改革和发展。语音是作为人们相互之间交流的重要媒介，也是作为人与计算机相互之间交互最为方便直接的快捷方式之一。为了使的人类与计算机之间实现更加智能化更加自然的交互方式，对新型的人机交互技术研究已经成为了当前情感计算领域的研究热点。从计算的诞生以来，为实现人与计算机之间通过自然语言进行交流，已经成为当今世界上许多计算机技术研究科学家以及语言学领域的科学家们的梦想。根据当前科学研究表明了，在人和计算机之间相互交互中，最需要解决的关键问题就是使的计算机具有一定情感智能化的一种能力。要想使的计算机具有更大智能化，使它能够更加主动方便的去适应满足操作者的需要，首先要求计算机必须能够识别操作者的具有的某种情感，再根据情感来判断并不断调整相互交互之间交流的方式。为了实现人类的伟大愿望，使得人与计算机之间能够实现真正通过自然语言来进行相互的交流，这对于进行语音情感识别的研究有着非常积极重大的意义。目前在语音情感识别技术最主要的应用领域，那就是让计算机可以像人类那样具有智能化思想和思考方式，简单一点来说就是能够为他人类提供良好优质的服务。计算机在情感识别领域中，对人类的语音情感首先进行获取再识别和最后与人类进行相互交互，这样可以帮助使用者在自然的交互模式下高效准确地来完成既定目标的任务，有效地减轻人们的生活和工作负担，大大提高了效率，它们甚至可以帮助人们理解自己和他人的情感世界，具有这样功能的计算机也具有了真j 下意义上的智能。语音情感识别是情感计算中的一个重要分支，在当前形势发展的背景下主要包括了下面几方面的应用【l ，2 1 ： 1 ) 教育行业的应用：随着计算机智能化与因特网技术不断的向前发展，智能化的计算机教学软件以及通过网络实现的远程教学已经广泛应用到人们的工作和学习已经生活中去。但是这些教学方式仍然还存在着许多方面的一些需要解决的问题，它也不能完全替代传统以面对面和一对一这样的教学方式。但如果我们将语音情感识别技术加入到其中的应用，将被应用于当前的教育行业中，这样就可以发挥其新技术的一些应用上的优势。例如把它应用到远程教学上来，在一些远程教学场所上我们利用选择一些辅助教学的情感识别工具，以及还装配一些用于情感检测的教学设备，通过这种方式可以给远在千里之外的老师们，及时快速方便地回馈传递现场学员们的学习状态以及实时的学习情况，以方便于老师根据当时不同的状况，来改变他的授课方式以满足课堂上学生的需要。那些学员们也可以选择利用一些情感测试的教学仪器，来及时的了解老师们在教学中的情绪状态，以实现师生更好的交流，对提高学生的学习效率有非常大的帮助。在学习中还可以结合语音情感识别技术的教学软件，通过监控学习者对软件教学内容的反应，合适地调整教学内容的进度和难度，以提供学生们的学习效率。 2 ) 信息的检索：在当前信息的大爆炸时代中，对信息检索尤其非常的重要。例如像“g o o g l e ”、“百度” 等公司推出的信息检索工具己经成为家喻户晓的因特网信息检索工具。除了我们现在常用的文本方式检索，当前还有诸多研究人员还致力于在多媒体检索领域的研究工作，如果能够实现情感识别，智能化信息检索和信息快速定位将是多媒体信息检索中不可缺少的一项重要技术。 3 ) 1 1 务行业应用：在服务行业应用中，为了节省服务的开支成本和提高服务的质量，很多服务公司在他们的客服系统中都纳入利用计算机技术的自动呼叫中心。但现在使用的呼叫中心常由 2 于过度机械化提示的操作而不得不到广泛的应用，如果把语音情感识别技术加入到呼叫中心中去将会满足更加人性化和智能化的客服需求，它能够通过理解客户所提出的要求，及时有效地做出相应的变通，最大限度地保留住可能会发生的客户资源。 4 ) 娱乐和游戏应用在目的娱乐和游戏应用方面，大部分的娱乐和模拟情景游戏中，它们所采用的人机对话界面方式，大部分都是采用文本指令输入的应用方式，这种方式的弊端就是所能传递信息非常的有限，而且操作起来也非常的麻烦。虽然大部分的娱乐系统以及一些游戏应用中，也加入了语音情感识别技术的应用，但是比较简单化也只能进行一些简单的语义内容识别以及对一些特定语音材料的识别，而无法游戏者在不同的状况下，其语音中所相要表达出来传递的情感。如果我们能够在一些娱乐和游戏系统中，加入当前新兴研究的语音情感识别技术，模拟人的所具有的情感表达方式，利用更加逼真的虚拟场景画面。可以使的游戏玩家有同在现实生活中一样的感觉，同时又能够给玩家更加全面的感官上享受，大大增加了游戏的娱乐性。 5 ) 刑事侦查应用在刑事侦查与安全方面的应用，当前被广泛应用的测谎系统也就是采用了语音情感识别技术的，目自已经开始步入了实用化的阶段。通过语音情感信号中提取分析被测者的情绪变化状况，来判断被测者言语的是否具有真实性。例如当自仃市场上所使用到的“情侦宝”，它是通过语音情感识别技术的手段来揭示人们内在情感的一种识别产品，它是由北京漠瀚科技有限公司与中科院自动化研究所、模式识别国家重点实验室联合推出的一款语音情感检测产品，目前该产品还主要应用于娱乐和游戏当中。当前的自动监测系统是作为日常保安维护中的一个比较重要组成部分，该检测系统加入了语音情感识别技术，通过监测系统采集到声音和图像数据，然后自动做出相适应的判断进行认证。如果当发生了突发事件，它会自动发出异常警报，以满足弥补了保安人工监测的不足以及人为的一些漏洞，大大提高了我们的日常生活安全，保障了我们的人身和财产安全。 6 ) t 业化应用在工业化的应用当中，生产过程中的各种产品需求的设计，需要得到来自用户的认可和他们的一些修改的意见。目前大多数公司需要聘用具有很高专业知识人员，来从事这方面的客户调查以及意见的反馈工作。通过采用访问用户，让用户填写相关的使用问卷表格，以及跟踪用户整个使用过程等这些是我们经常用到的一些信息收集方式。如果采用语音情感识别方法来进行工业上信息的收集，那么会大大提高了我们的工作效率；通过采用语音情感识别系统，来监控各个用户在使用整个产品的过程中所产生的不一样的情绪变化，通过对其进行信息监控，为我们提供了大量的有实际应用价值的用户使用信息。还例如在汽车驾驶过程中我们也使用了语音情感识别系统，这样就可以根据司机在不同的情况下所具有某种情绪状念的变化，从而来识别此时司机所积累的疲劳程度以及烦躁不安的情绪等状态，这样系统就会相应地采用保护方式和提醒措施，这样大大地保护了司机的人身和财产安全。类似利用到的语音情感识别系统，已经应用到了飞机以及火车驾驶当中去，还有应用到那些对人有伤害操作而又相当关键的应用场合。 7 ) 通讯行业应用当前通讯行业的高速发展，视频通讯技术已经在通讯行业中得到了比较广泛的应用普及。通过加入语音情感识别技术，提取分析语音信号中所传递的人类情感信息，在传输终端自动实现合成人脸表情，利用该技术将大大地减小图像的传输带宽，这样就极大地提高了视频传输在网络上传输的质量和速度。目前伴随若3 g 技术的推广和实际应用，从语音信号中的提取情感信息进行分析，在不久的将来将会有更加广泛的应用前景。 8 ) 医学应用语言障碍病理学在我国还尚属于一门新兴的学科，该学科是以各种类人群所出现的语言障碍者为研究的对象，研究人员们常会通过分析病人的发音来诊断其语言障碍的病因。例如孤僻症患者就是属于缺乏了正常的情感交流的一类病人，如果通过使用具有语音情感识别能力的计算机，来帮助患者们进行反复情感交流方面的练习，通过练习逐步的恢复其发音标准，以达到逐步实现康复的目的。从未来的发展来看，我们怎样有效地来组合任何形式的信息，使用最佳的信息传递方式，将是今后情感信息处理研究的发展方向。在语音情感信息处理的研究方面，判定说话人的喜怒哀乐将会是一个新兴的具有重大意义的研究课题。 1 2 国内外研究现状根据国内外对语音情感声学特征分析的研究发现，在进行语音情感识别时需要我们解决的核心问题就是选取一个比较合适的模式识别模型。当前的各种模式识别的方法分类【3 1 如下：线性预测分析技术( l p c ) 5 1 、动态规划( d p ) 1 4 1 、人工神经网络( a n n ) 【7 1 和隐马尔可夫模型( h m m ) 【羽、动态时间规则技术( d t w ) 1 6 1 等等，都已经被广泛应 4 用于语音情感识别中了，并且取得了比较理想的识别效果。 n i c h o l s o n t l 0 】等人研究的语音情感识别系统，是采用了神经网络识别模型结构，并且由8 个子网组成，每个子网处理相对应的一种特定的情感类别，采用这种子网络结构识别模型具有了很好的可扩展性，而且在增加情感类别时不再需要重新训练整个识别网络。通过仿真实验发现，如果在情感识别过程中加入了负面的情感，比如愤怒和悲伤等，识别系统是很容易识别的，但是如果进行积极的情感识别，比如高兴和欢快等，那么该情感识别系统就不容易识别了。 d e l l a e r t 等人【1 1 1 使用到了三种不同的分类器来进行语音情感识别方面的研究，其中这三类分类器它们分别为：核回归方法、k 近邻方法以及最大似然贝叶斯分类方法。采用从语音基频信号轮廓曲线中来提取用于识别的特征参数，并且对悲伤、愤怒、高兴和害怕等四类情感进行了识别仿真实验，并取得了较好的识别效果。 v a l e r ya p e t r u s h i n 等人【1 2 1 分析了由五类情感组成的共七百多句语音短旬，这五类情感他们分别是：悲伤、愤怒、高兴、自然和害怕等。其中进行识别的特征参数分别选取如下：语音基频信号、两个共振峰值、短时能量和语速等，并且进行仿真实验时还比较比较了几类识别器模型，都取得了比较好的识别效果。 t a r o 等人【l3 j 进行了对语音情感识别空间的研究，其研究的过程不仅仅只是对特定韵律特征参数提取和分析。在进行模拟仿真实验中，他们不仅使用到了韵律特征参数，而且还加入了音质特征参数进行识别。仿真实验结果表明了，采用这两种特征参数方式相结合，能够有效地提高语音情感识别的识别速度和识别率。 y i n d o n gy u 等人【1 4 】利用k 最近邻方法对四类情感进行了语音情感识别的研究，这四类情感它们分别是：愤怒、自然、高兴和悲痛等。而且还比较分析了一些特征参数，比如提取了基频信号和短时能量等识别相关的特征参数，结果从中发现在提取新的特征参数基础上，再对k 最近邻方法进行相对应的改进，这样就减少了语音情感识别系统所需的特征参数和相关的训练数据，这样就可以大大提高了识别系统的识别效果。 t i nl a yn e w 等人【l5 】采用了基于对数频率能量系数以及隐马尔可夫模型分类相结合的方法，把输入的语音信号分成了1 6 m s 的相互重叠的窗口，计算出语音信号的短时能量，再对确定下来的能量系数采用矢量量化器进行相应的编码处理。基于这种方法就可以识别出语音信号中所包含那些情感信息，并对语音情感信息进行了精确的划分。 c h u lm i nl e e 等人【l6 】采用了线性判别分类、k 近邻方法和支持向量机等方法进行了语音情感识别研究。采用线性判别分类法就是使用了带有高斯概率分布的参数，在确定参数的均值和方差后，再利用了b a y e s 准则法来计算它的最大后验概率，并且对情感信息进行了简单的分类。采用k 近邻法是通过计算k 邻域的平均值和每类情感信息中的局部后验概率。在使用支持向量机方法中就是进行线性映射变换，将输入向量映射到高维的特征参数空间中，然后再进行最后的计算。法国s o n y 公司计算机科学实验室的，p i e r r e y v e so u d e y e r 等人【1 7 】采用了对同- 7 中情感语料进行了大量仿真实验。通过仿真实验表明了，采用基于a d a b o o s t e d 决策树的方法取得识别效果最好，而采用下面这些方法，比如k n n 、r b f 神经网络和s v m 等也能够取得了令人满意的识别效果。从目前对情感识别领域的研究中发现，国内外的研究人员在语音情感识别研究领域中，大部分都采用了相关的模式识别方法来进行情感识别。m p a n t i c 等人【4 3 】对最近几年中的语音情感识别进行仿真实验的结果进行了对比分析和比较，结果发现各研究学者之间相差比较大，实验结果差异也比较明显。从当前对该领域的研究总体上来说，目前还刚刚开始起步，相应的技术还不够成熟，许多方法还尚处在试验的初级阶段，将来还有非常大的发展潜力。在我国关于语音识别研究工作最早开始于5 0 年代，在最近年中还来发展比较快的，对该领域的研究开始由实验室阶段逐步走向了实际的实用。自从国家设立执行8 6 3 计划后，对该领域的研究水平有了很大的提高，并且设立了国家级的智能计算机专家研究组，专门为进行语音识别技术的研究设立的【l 引。从现在来看，我国语音识别技术的研究水平已经基本上达到了国外同步标准。并且在汉语语音识别领域中，在技术上还保留了自己的研究特点与优势，且已经达到了世界先进水平。当前在国内关于语音情感计算领域的研究，也有众多的研究学者致力于这方面的研究。罗森林和潘丽敏等人【1 9 】研究并发布了相关的当前情感计算的发展史、应用方向、技术研究内容以及所需要的关键技术等。马希荣、刘琳和桑婧等人【2 3 】提出了一个基于情感计算的e l e a r n i n g 系统结构模型。电子学习 2 3 1 也称通过互联网可以实现网上在线学习，这其中也包括阅读电子书籍，通过多媒体播放软件实现了远程教育，通过互联网构建虚拟的网上电子教室以及网上在线数字图书馆等互方式。王伟凝等人【2 5 】进行了关于从图像中提取的情感信息语义方面的研究，人是通过主观方式上对图像的理解和感知的。薛为民等人【2 6 】提出m u l t i a g e n t s y s t e m 体系结构，应用该系统可以实现识别人类所具有的情 6 感信息，同时还可以通过虚拟化的方式来表达人各方面的个性情感。谷学静和石志国等人【2 8 1 提出了基于b d ia g e n t 技术的情感机器人，他主要介绍了b d ia g e n t 技术在情感机器人中的应用，通过采用基于a g e n t 技术来构建语音情感识别模型，实现机器对外界语音的输入能够正确地进行识别。张彦铎和吴华等人【2 9 】实现了机器人的舞蹈能够与音乐更好地结合起来，通过机器人根据音乐响起的节奏来快速地进行编排出它相应的舞蹈。这是是通过提取音乐中的情感特征参数作为识别基础，采用了以机器人编排的舞蹈系统为应用研究对象，来提取自动识别音乐的情感特征参数，实现了机器人舞蹈编排系统。王上飞等人【3 0 1 提出了一种基于情感模型对情感进行分类。王志良等人针对计算机如何能够进行情感的计算，提出了一种情感空间的概率模型并且对其进行了计算机仿真实验。王玉洁等人【3 3 】采用基于隐马尔可夫模型建模的基本理论，设计出一个情感识别模型。宋亦旭等人【3 4 1 总结研究了当前语音情感识别的应用发展，实现了基于语音情感的控制机器人识别模型体系结构，并且通过仿真实验进行了认证。赵力等人【3 5 】提出了三种关于基于主元素分析语音情感识别的方法，通过仿真实验认证，采用这些识别方法都获得了比较好的识别效果。王治平等人【3 6 】采用模糊熵基本理论研究方法，提取和分析了关于语音情感特征参数与情感识别模式的不确定关系，在此基础上并提出了关于对模糊熵情感特征参数的有效性进行度量的方法。钱向民等人【3 7 1 分析提取了四类语音情感特征参数，它们分别是：惊奇、愤怒、欢快、悲伤等4 种情感语音信息，其中提取的特征参数有：时间构造、振幅构造、基频信号的构造和共振峰的构造等特征参数，并且与不带情感的中性语音信号的比较了分析，总结发现了不同的情感语音信号的语音特征分布规律。赵力等人【3 8 】采用在全局特征来进行语音情感特征参数分析的基础上，提出了采用具有情感信息的语句并且把其中各元音的时序结构作为新特征参数，针对不同的情感语句中包含了不同元音个数的情况，提出了补齐零、补齐全局均值、补齐前均值等三种不同的方法，对语音情感特征参数进行提取分析。赵力和王治平等人【3 9 】还针对关于语音情感进行识别的问题上，采用支持向量机方法，对语音情感识别进行了研究。詹永照等人【4 0 】关于解决语音情感识别的识别率性与识别速度问题，利用了加权欧氏距离模板匹配的方法来进行语音情感识别。陈建厦和李翠华【4 l 】等人总结了当前语音情感识别研究领域获得的主要成果。关于国内外的语音情感识别研究，目前仍然处在一个初始的阶段，总结分析了当前应用的研究成果，其主要特点如下： 7 ( 1 ) 语音情感识别过程中所使用到的特征参数，主要集中在韵律学特征上，只有少数学者对音质特征和频域特征予以了关注，而且基本上是以整个情感语义的全局统计特征为主，对时序特征的利用相对较少。 ( 2 ) 国内外的研究大多数都是针对特定语种的研究，语音情感识别的研究成果应用不具有普遍性，各国的语种之间存在较大的差异。 ( 3 ) 有些研究语音情感识别采用人工对比的方法，对说话者的发音和语义内容有很强的依赖性。 ( 4 ) 识语音情感识别目标是识别说话者语义中所加载的情感状态，通常使用传统的模式识别方法对事先确定的若干独立的情感状态进行分类。由于缺乏合理的、有针对性的语音情感模型，这类方法取得的识别效果有一定的局限性。 ( 5 ) 各国语种没有公用情感语音库，实验用语音样本大多是根据要求特别录制的，而且数量相对比较少。 ( 6 ) 语音情感识别的实验结果具有局限性和争议性，没有得出一致性统一的结论。语音情感识别研究这是一个新兴的研究课题，对它的研究是进一步人机交互技术发展的基础。尽管目前在人与计算机的交互取的了一定的研究成果，但是要带到人类理想的人机交互方式，还有许多问题有待研究学者进一步的去研究和创新发现。 1 3 语音情感识别中面临的问题当今语音情感计算方面的研究正在蓬勃发展，关于语音情感识别的发展目前面临着一系列的难题。其中语音情感识别被公认为是情感计算研究领域中最为困难的课题，目前主要存在的问题有： ( 1 ) 从语音信号中提取情感特征参数，判断说话人的喜怒哀乐，是国外近几年刚刚兴起的课题研究方向。就目前的研究现状来看，传统的语音信号情感识别中提取的参数主要有基音参数、短时能量、振幅、语音信号傅立叶变换频谱特征，语速等。与传统方法相比，寻找能够反映语音情感特征的参数，能够有效提高语音情感识别的识别率和识别速度。本文首先进行了特征参数提取研究，选取语音信号韵律特征和音质特征共同作为情感识别的特征参数，利用新加入分形维特征参数作为语音情感识别的新特征参数，分形维采用盒维计算方法进行提取。针对含有为愤怒、高兴、悲伤、害怕和中性五类情感的语音信号，分析了语音信号的韵律特征和音质特征，找出了不同语音情感特征 8 参数的分布规律。 ( 2 ) 关于语音情感识别方法的研究，我们对近几年的语音情感文献的结果进行了对比，研究发现他们的研究对象相差极大，结果各异。本文提出了基于r b f o 经网络建立了一个语音情感识别系统，同时还训练了一个b p 网络和概率神经网络进行了对比试验，实验结果表明，采用基于r b f 神经网络的情感识别在识别率和识别速度上都有了一定程度的提高。 1 4 论文的研究内容和结构安排本文主要研究内容是：基于r b f 的语音情感识别方法研究。首先进行了特征参数提取的研究，选取语音信号韵律特征和音质特征共同作为情感识别的特征参数，这些特征参数主要包括共振峰、基音周期、分形维等特征参数。基音周期参数采用自相关的方法进行特征提取，共振峰参数提取采用线性预测的方法进行提取，分形维则采用盒维的计算方法提取。在提取了不同特征参数的基础上，分析出在不同的情感类别中不同特征参数下的差异。为了提高语音情感识别的识别速度和识别速率，实现了基于r b f 神经网络建立了一个语音情感识别系统，同时还训练了一个b p 网络和概率神经网络进行了对比试验，从实验结果可以看出，采用基于r b f 神经网络的情感识别在识别率和识别速度上都有了显著的提高。各章节内容安排如下：第一章：绪论。简要介绍了本文的研究背景和意义，以及国内外研究现状和目i j 语音情感识别中所面临的问题。第二章：语音情感特征参数提取分析。主要详细介绍了语音情感特征参数的提取的方法，提出了新加入分形盒维特征参数作为提取语音信号的新特征。第三章：基于r b f 的语音情感识别方法研究。介绍了基于r b f 神经网络识别模型的构建；第四章：基于r b f 的语音情感识别仿真实验。建立基于r b f 的语音情感识别模型，同时还训练了一个b p 网络和概率神经网络识别模型进行对比分析。第五章：总结与展望。总结全文，并给出了情感计算及其应用研究展望。 9 第二章语音情感特征参数提取分析为了提高语音情感识别的识别率，首先必须进行语音特征参数提取提取分析。下面我们首先简要介绍了语音情感的分类，以及语音情感信号声学特征参数，接着详细介绍了语音信号的数字化和主要特征参数的提取。 2 1 语音情感分类语音情感的含义是什么? 简单来说，语音情感是指说话者的声音带有某种情感。语音情感是怎么样分类昵? 关于这些问题，目前还没有一个明确的答案。当今国内外的研究学者提出关于情感的定义，其中k ，o a t l e y 和m ，j e n k i n s 提出的定义获得了大多数研究学者一致的认可，所谓的语音情感就是说话者通过语音不仅能够把自己的想法表达出来，而且还可以传递心中触摸不到的情感。在当前情感计算的研究领域中，关于语音情感分类，学术界还并没有达成一个统一的共识，具体该怎么样表示是出研究课题所决定的。语音情感分类，见表2 1 的所示：表2 1 语音情感分类 2 2 语音情感声学特征分析本文是建立基于汉语语音信号的情感识别系统，所以我们首先要了解一下，在使用汉语交流过程中情感的表达方式，不同情感状态和汉语语音声学参数之间的对应关系。语音信号传递了两个方面的信息，一是语义信息，二是非语言学的情感信息。前面是传递了说话者想要表达的含义，后面则是在不同的环境下声音上发生了不同的声学变化。前者我们把它称之为语义信息，后者则称之为声学特征。关系如下图2 1 所示： 1 0 图2 1 语音信号所传递的信息人类的语音信号传递的语义信息和声学特征，对表达情感具有非常重要的作用。语义信息对于情感识别只是一个最基本的因素，说话者的内在情感只能通过非语义信息的方式来理解领悟。这是因为在特别的情景状况下，如果语义传递的信息是消极的，而当时的语音音调却是积极的，那么此时的语义信息不足以传递说话者心中内在情感。通过对语音特征参数的提取分析研究，寻找最能有效地反映说话者的情感状态的语音特征参数，以提高语音情感识别的效果。在当前国内外许多研究学者都做了大量的研究，试图去解决这一语音情感识别难题。在p i t t a m 和s c h e r e r l l 3 1 等人所发表的论文中指出了关于不同的语音情感信号与声学特征之间的对应关系：害怕( f e a r ) ：唤醒度、基频范围基频均值、清晰度和高频能量都较高；悲伤( s a d n e s s ) ：基频范围、平均能量和基频均值等较低，相对于中性来说清晰度降低和高频能量衰减；生气( a n g e r ) ：基频范围、平均能量和基频均值等较高，相对于中性来说语音清晰度提高和高频能量提升；高兴( h a p p i n e s s ) ：基频范围、平均能量和基频均值等较高，伴随有明显的语音清晰提高和高频能量提升。表2 2 五种主要情感的声学特征表2 2 总结了高兴、悲伤、害怕、愤怒等五种主要情感的声学特征，其中韵律特征包括了基频、能量、语速等特征参数，它对语音情感识别具有重要的影响，是语音情感识别应用中重要的识别参数。然而当前研究表明，在进行语音情感识别中，如果把音质特征与韵律特征相结合使用，音质特征对于识别那些韵律特征比较相近的情感，具有明显的识别效果，我们加入韵律特征和音质特征1 2 2 1 作为语音情感识别共同的识别参数。本章的下面内容将详细介绍了韵律特征特征参数和音质特征参数的提取。 2 3 语音信号数字化和预处理在进行语音信号参数提取之前，首先必须进行语音信号的数字化和预处理。在语音信号数字化过程中一般包括：采样、放大及增益控制、反混叠滤波、量化及a d 变换等。在语音信号数字化之前，必须首先进行防工频干扰滤波和防混叠滤波。其中防混叠滤波主要作用是滤除掉那些大于采样频率一半以上的语音信号和噪声。语音信号经过采样和量化处理之后，然后再进行预加重处理，其作用就是提升高频部分频谱，以方便我们进行频谱分析和声道参数分析。语音信号的预处理过程中一般包括：加窗分帧处理、端点检测和预加重等内容。把预加重处理放在防混叠滤波和a d 变换之前进行的，是为了压缩语音信号的动态变化范围以提高信噪比。语音信号是一个非平稳变化的过程，随着时间的变化其特征参数和特性也会发生相应的改变。语音信号也具有短时稳定性，在较短时间的范围内，其特性一般是保持不变的，我们可以将其看作是一个非标准稳念的过程。我们对语音信号的分析和处理，是建立在其短时稳定性的基础上，进行分帧处理，然后分析提取其特征参数。 1 ) 语音信号预加重处理语音信号预加重处理的作用是滤除5 0 h z 或6 0 h z 低频干扰，提升高频部分频谱，以便于进行特征参数分析。语音信号预加重的一般方法我们又称之为预加重滤波器，通过一阶高通滤波器，抑制随机噪声和清除掉直流漂移，以提升清音部分能量。进行预加重滤波器处理的传递函数公式表达式为： h ( z ) = 1 0 9 3 7 5 z _( 2 1 ) 1 2 采用预加重滤波器后得到的语音信号季( 门) 表达式为： s ( n ) = s ( ，? ) 一0 9 3 7 5 5 ( n 一1 )( 2 2 ) 2 ) 加窗分帧处理一般设定每秒的帧数大约为3 5 1 0 5 帧之间，我们采用交叠分段法进行分帧，保持其连续性且帧之间平滑过渡。本文设定的采样频率值为1 6 k h z ，规定以2 4 0 采用点为一帧，且帧移为8 0 个采样点。对于第，帧的第n 个采样点，它与原始的语音信号关系表达式为： x j ( 嚣) = x 【( ，一1 ) 膨+ n 】 ( 2 3 ) 其式中n = 0 ，l ，一1 ，= 0 ，1 ，l i ( n = 2 4 0 ，m = 8 0 ) 。加窗后语音信号瓯表达式为： & = s ( ，z ) 幸w ( n ) ( 2 4 ) 其中2 4 式中，w ( n ) 为窗函数表达式，通常采用的窗函数是汉明窗和矩形窗，其表达式如下：( 式中n 为帧长) 矩形窗： w = 三。篓潞。仁5 ，汉明窗：其式( 0 刀( n 一1 ) ) w o ) = o 5 4 以4 氏o 。s 眩别一 q 石选择合适形状和长度的窗函数，使得语音信号特性的变化由短时分析参数反映出来，本文采用了矩形窗函数。 3 ) 语音信号的端点检测保证语音信号端点检测的可靠性和准确性，对提高语音情感识别率有非常大的作用。如果语音信号噪音过多，将会干扰识别结果，所以我们要首先对语音信号进行端点定位处理，清除掉多余的噪音信号段，将组合完整的语音信号段来进行识别。而如果割掉不是噪音信号段，那么就会造成语音信息丢失，大大影响了识别率。下面简要介绍几种常用的端点检测方法： ( 1 ) 短时平均幅度为了使计算出来的短时能量能够很好的反映出语音能量的时变特性，我们如果采用短时平均幅度来表示语音能量，其短时平均幅度计算表达式如下：坂= ix ( m ) c o ( n - m ) ( 2 7 ) 或 m 。= jx ( m ) h ( n - m ) i ( 2 8 ) 其式中h ( n m ) = c o ( n m ) 。采用移动窗函数c o ( n m ) 来选取其中的一段语音信号，然后再计算这段语音信号取样值的绝对值的和，得到这段语音信号的平均幅度。也可以利用移动平均窗函数h ( n m ) 进行选取语音信号中绝对值序列中的一段，并对各样值求和，也可以得到短时平均幅度。以刚开始发音前已知为静态的连续1 0 帧之内的数据，其帧长为1 0 m s 为依据，计算 i t l ( 低能量阈值) 和i t u ( 高能量阈值) 。计算每帧的短时平均幅度，其最大值设为i m x ，最小值设为i m n ，通过计算可得到： 1 ，= 0 0 3 ( i m x z m n ) + i m n 1 2 = 4 i m n 于是有： 1 t l = m i n ( i l ，1 2 ) i t u = s l t l 首先根据i t u 、i t l 计算得到初始化起点，然后再把它标记为最先升到平均幅度的帧号，但是随着时间增加，帧幅度在上升到i t u 之前将会又下降到i t l 之下时，将改为下一个上升到i t l 的点，为初始起点，按照以此方法进行起止点的判别。 ( 2 ) 短时平均过零率过零率是指在单位时间内发生过零现象的次数。从离散信号中取两个相邻的样值，当它们之间出现不一样的符号时，则称为过零现象。如果取的离散信号为窄带信号，那么此时的过零率能够准确的反应出离散信号的频谱特性，当在离散信号为宽带信号时下，反应出来的效果不是很明显。采用一个移动窗函数w ( n m ) 选取出某时刻的语音信号段，计算出该时段的过零率总数并除以该时段的长度，得到短时平均过零率。如果采用矩形窗函数，设窗函数的宽度为，短时平均过零率计算表达式如下：乙= 去壹s g n x ( m ) w ( n - m ) l - s g n 瞰州胁m 州川眩9 ，式中， = 去室s g n 咖) 一s g n 咖1 ) 1 w ( 力训 1 4 w c 咖器蒙掣唧删= 兰。戮根据刚开始发音前已知为“静”态的连续1 0 帧的数，计算出过零率的阈值i z c t ，其计算表达式如下： i z c t = m i n i f ，i z c + 2 盯脚】( 2 1 0 ) i z c ，仃脚分别为所取样值计算过零率的均值及标准差的估值，伊为固定值取为2 5 。根据i z c t 计算初始起点l ，我们把它标记为最先升到平均过零率阈值的帧号，随着时间发生变化，当其过零率下降到i z c t 之下，那么这时的点为语音段的终点。 2 4 语音情感特征参数的提取本文使用m a t l a b 进行模拟仿真实验提取语音情感特征参数，并对提取的语音情感特征参数进

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于rbf的语音情感识别方法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于rbf的语音情感识别方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档