




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)语音情感识别的特征选择与特征产生.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c ho nf e a t u r es e l e c t i o na n dc o n s t r u c t i o n i nem o t i o ns p e e c hr e c o g n i t i o n g o n gx i l i n g b e ( c h a n g s h au n i v e r s i t y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g m c o m p u t e rs o f t w a r e & t h e o r y i n c h a n g s h au n i v e r s i t yo fs c i e n c e & t e c h n o l o g y s u p e r v i s o r p r o f e s s o ry ej i x i a n g m a r c h ,2 0 1 1 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律后果由本人承担。 作者签名: 奄匆去璧 日期:z o l l 年彳肿) 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密冈。 ( 请在以上相应方框内打“ ) z o1 1 年芎月51 日 砂7 7 年歹月;1 日 期 期 日 日 每哥 h 甜几飞 互叩亿侈 、囊叶 名 名 签 签 者 师 作 导 摘要 语音情感识别是近年的热门研究领域之一,是人工智能、模式识别、语音信 号处理与情感计算的交叉学科产物,在智能机器、人机交互、远程教学、刑事侦 探、产品设计等各个方面都有着重要的应用前景。 本文首先介绍了语音情感识别的基础理论、方法,介绍了最常用的语音情感 特征及其提取方法,并使用基于统计学习理论的支持向量机对语音情感语料库进 行分类识别,得到了较好的识别效果。 随后,本文致力于通过特征选择与特征产生提高语音情感的正确识别率。 特征选择能够有效的去除冗余和不相关特征,提高分类器的正确率和泛化能 力。本文介绍了特征选择的现状,着重研究了前向浮动序列选择( s f f s ) 、r e l i e f f 、 基于遗传算法的特征选择( g a f s ) 这三个基本的特征选择算法在语音情感识别中 的性能区别。实验结果显示g a f s 具有较好的特征选择能力,能够在较短的时间 内选择出具有较高识别能力的语音情感特征,有效的提高语音情感正确识别率。 为了进一步压缩特征空间、提高语音情感特征识别率,本文进一步研究了特 征产生在语音情感识别中的应用。特征产生是一个较新的模式识别技术,它通过 将现有特征映射到新的函数空间来寻找特征之间的关系、压缩特征空间,从而获 得更高的识别率。本文简要介绍了现有的特征产生算法,其中基于基因表达式编 程( g e p ) 的特征产生是较好的特征产生算法。随后本文提出了一种结合混合蛙 跳算法( s f l a ) 与g e p 的特征产生算法,它能够有效的改善g e p 算法收敛速度慢、 容易收敛到局部解的缺点。本文使用由g a f s 算法选择出的一组语音情感特征, 应用s f l a - g e p 算法进行特征产生,实验结果显示s f l a - g e p 的特征产生结果优于 g e p 算法,基于s f l a g e p 的特征产生有效的提高了语音情感的正确识别率。 本文最后对研究工作进行了总结,并指出了今后进一步的研究方向。 关键词:语音情感识别,特征选择,特征产生,基因表达式编程,混合蛙跳算法 a bs t r a c t e m o t i o ns p e e c hr e c o g n i t i o n , w h i c hi sap r o d u c to ft h ei n t e r d i s c i p l i n a r yo f a r t i f i c i a l i n t e l l i g e n c e ,p a t t e r nr e c o g n i t i o n ,s p e e c hs i g n a lp r o c e s s i n g a n da f f e c t i v e c o m p u t a t i o n , i sah o t s p o tf o rr e s e a r c h e r si nr e c e n ty e a r sa n dh a sm a n yi m p o r t a n c e a p p l i c a t i o np r o s p e c t s i n a r e a ss u c ha s i n t e l l i g e n tm a c h i n e s ,h u m a n c o m p u t e r i n t e r a c t i o n , r e m o t et e a c h i n g ,c r i m i n a li n v e s t i g a t i o na n dd e s i g n , e t c f i r s t l y , t h i st h e s i si n t r o d u c e st h eb a s i st h e o r ya n dm e t h o d so fe m o t i o ns p e e c h r e c o g n i t i o n ,a n da l s oi n t r o d u c e st h em o s tg e n e r a le m o t i o ns p e e c hf e a t u r e sa n dt h e i r e x t r a c t i o nm e t h o d s t h e n , t h es t a t i s t i ct h e o r yb a s e dc l a s s i f i e r , n a m e l yt h es u p p o r t v e c t o rm a c h i n e ( s v m ) ,i su s ef o rc l a s s i f i c a t i o na n do u t p u ta g o o da c c u r a c y a r e rt h a t ,f e a t u r es e l e c t i o na n df e a t u r ec o n s t r u c t i o na r eu s e dt oi m p r o v et h e a c c u r a c y f e a t u r es e l e c t i o ni sav e r yi m p o r t a n c ep r o b l e mo fp a t t e r nr e c o g n i t i o n t h et h e s i s i n t r o d u c e st h ec u r r e n ts t a t u so ff e a t u r es e l e c t i o na n dt h r e eb a s i sa l g o r i t h m s ,n a m e l y s e q u e n t i a lf l o a t i n gf o r w a r ds e l e c t i o n ( s f f s ) ,r e l i e f f , g e n e t i ca l g o r i t h mb a s e d f e a t u r es e l e c t i o n ( g a f s ) ,i sr e s e a r c h e di nd e t a i l t h ec o m p a r i s o nr e s u l ts h o w st h a t g a f s ,w h i c hc a ny i e l db e t t e rf e a t u r e si n 筋巧g o o dp e r i o do ft i m e ,i st h eb e s ta m o n g t h et h r e e t h ef e a t u r e ss e l e c t e db yg a f si m p r o v e dt h ea c c u r a c ye f f e c t i v e l y t of u r t h e rc o m p r e s st h ef e a t u r es p a c ea n di m p r o v ea c c u r a c y , f e a t u r ec o n s t r u c t i o n i sr e s e a r c h e d f e a t u r ec o n s t r u c t i o ni san o v e lp a t t e mr e c o g n i t i o nt e c h n i q u e ,w h i c h m a p sp r e s e n tf e a t u r ei n t oa n e wf u n c t i o ns p a c e st h u sc a nf r e dr e l a t i o n s h i p sb e t w e e n f e a t u r e s ,a n dc o m p r e s sf e a t u r es p a c e ,s oa st oi m p r o v et h er e c o g n i t i o na c c u r a c y t h i s t h e s i si n t r o d u c e se x i s t i n ga l g o r i t h m s ,a m o n gw h i c h ,g e n ee x p r e s s i o np r o g r a m m i n g ( g e p ) b a s e df e a t u r ec o n s t r u c t i o ni sb e t t e r t h e nan e wf e a t u r ec o n s t r u c t i o na l g o r i t h m t h a tc o m b i n e st h es h u f f l e df r o gl e a p i n ga l g o r i t h m s ( s f l a ) 诵t 1 1g e pi sp r o p o s e d t h ee x p e r i m e n t ,w h i c hu s e st h ef e a t u r e ss e l e c t e db yg a f s ,t h a tc o m p a r e st h e s f l a - g e pa n do r i g i n a lg e pf e a t u r ec o n s t r u c t i o ns h o w st h a ts f l a - g e pb e y o n d g e pi nb o t hc o n v e r g e n c es p e e da n dc o n v e r g e n c es o l u t i o n t h ef e a t u r e sc o n s t r u c t e d b ys f l a g e pc a l lm a k ee f f e c t i v ei m p r o v e m e n tf o re m o t i o ns p e e c hr e c o g n i t i o n a c c u r a c y k e yw o r d s :s p e e c he m o t i o nr e c o g n i t i o n ,f e a t u r es e l e c t i o n ,f e a t u r e c o n s t r u c t i o n ,g e n ee x p r e s s i o np r o g r a m m i n g ( g e p ) ,s h u f f l e df r o g l e a p i n ga l g o r i t h m s ( s r l a ) i i i 目录 摘要i a b s t r a c t i i 第一章绪论 1 1 研究背景。1 1 2 论文的研究内容及结构2 第二章语音情感识别 2 1 概述4 2 1 1 情感分类4 2 1 2 语料库4 2 - 2 语音信号数字化与预处理5 2 2 1 数字化5 2 2 。2 预加重5 2 2 3 分帧6 2 2 4 加窗6 2 3 语音情感特征的提取7 2 3 1 基音频率7 2 3 2 短时能量8 2 3 3 短时过零率8 2 3 4m f c c t 9 2 4 支持向量机9 2 4 1 语音情感识别方法概述9 2 4 2 统计学习理论1 1 2 4 3 支持向量机1 1 2 5 基于支持向量机的语音情感识别1 4 第三章语音情感特征选择 3 1 特征选择概述1 6 3 1 1 按搜索策略划分特征选择算法1 6 3 1 2 按评价准则划分特征选择算法1 7 3 2r e l i e i f 18 3 3s f f s 19 3 4g a f s 1 9 3 4 1 遗传算法概述19 3 4 2 基于遗传算法的特征选择2 1 3 5 语音情感特征选择结果2 2 3 6d 、结2 4 第四章语音情感特征产生 4 1 特征产生概述2 5 4 2 结合g e p 与s f l a 的特征产生2 6 4 2 1 基因表达式编程:2 6 4 2 2 混合蛙跳算法。2 8 4 3s f l a - g e p 特征产生3 0 4 3 1 算法描述3 0 4 3 2 基于s f l a g e p 的语音情感特征产生。3 2 4 4 小结3 3 第五章结论与展望 5 1 结j 沧3 4 5 2 展望3 4 参考文献一3 5 致谢。3 9 附录( 攻读硕士学位期间发表录用论文) 4 0 1 1 研究背景 第一章绪论 随着计算机技术的迅猛发展,计算机在人类的生产、生活的作用越来越巨大, 人们对计算机的要求也越来越高。人们不仅希望计算机能够按照程序实现人的想 法,而且希望计算机拥有像人一般的智能,使人与计算机的交流和人与人之间的 交流一样顺利和有意义。正如美国m i t 大学的m i n s k y 教授在其专著t 1 1 es o c i e t y o fm i n d ) ) 1 1 】所指出的,“问题不在于智能机器能否拥有情感,而在于智能机器如 何能够没有情感 ,情感是不仅是人类智能的重要组成部分,而且是人工智能的 重要组成部分。 1 9 9 7 年,m i t 媒体实验室的p i c a r d 教授出版了专著 a f f e c t i v ec o m p u t i n g ) ) 【2 】,书中首次提出了“情感计算,并对情感计算的研究领域与方法做了系统介 绍。她把情感计算定义为“与情感有关、由情感引发或者能够影响情感的因素的 计算,其目标是使计算机具有感知、理解以及表达情感的能力。其涉及到的核 心技术主要包括:获取情感信号、识别情感状态、理解情感、反馈情感和表达情 感。 人们在交流中通过各种方式传递情感,比如表情、手势、声音、姿势等等。 除此之外,还有其他人们平常难以注意到的其他方式能够反映情感信息,比如脉 搏、皮表电阻、心率等等。其中语音传递情感信息不仅是最古老常用的方式,而 且是最直接有效的方式,通过语音信号进行情感计算具有广阔的应用前景。以下 简要的列举了语音情感识别的几个应用: ( 1 ) 、远程教学、软件教学。计算机以及网络技术的发展使远程教学、软件教学 得到越来越普及的应用,比如很多家长都会为小孩购买可以同步学习的辅导软 件,也有越来越多的人通过网络听老师上课。然而现在这些学习方式还无法取代 传统的面对面的教学方式,很大一部分原因是因为人与软件或者人与远端的教学 者无法进行一个感情的交互,对他们而言,这仅仅是一台电脑而己,没有人关心、 知道他现在的感受。结合语音情感识别或其它情感识别技术,适时的对使用者的 感情状态做出反应,将大大推动教育业的发展。 ( 2 ) 、精神慰籍。工作越来越忙,没有时间陪伴父母,没有时间陪小孩玩? 能够 与人交流的机器人能够解决你的烦恼,情感识别是关键的技术之一。如果能够识 别出人的情感,能够像人一样表达情感,那么机器人就不再只是冷冰冰的机器和 被动的命令执行者,他可以了解人、安慰人、鼓励人。对小孩子而言,一个能够 陪他开心的玩、能够与他分享哀伤的机器人,会不会是世界上最好的玩伴? ( 3 ) 、刑侦与安全。经常可以在电影上看到测谎仪的应用,实际中测谎仪已经有 一些应用,但实用程度不高。通过分析语音信号等检测被测者的情绪变化,进而 推断被测者的言语真实性,这一直是刑事领域研究的一个热点。随着技术的完善, 语音情感识别必定能够在刑事案件侦破中发挥重要的作用。 ( 4 ) 、商业。现在的产品越来越注重用户体验了。对设计部门而言,设计的产品 是否能够给人带来舒适的感觉,这是个很要的问题,有时候即使是一点点用户体 验的改进也能够带来巨大的商业价值,而一点点小的疏忽也有可能给自己的设计 带来灾难性的后果。然后传统的方法,比如产品试用、使用问卷调查等等,并不 能够完全完整、真实的反映用户状态。研究如何自动监测、收集、分析用户情感, 并做出适当的反馈,这是一项很有意义的工作。 1 2 论文的研究内容及结构 语音情感识别是复杂的多学科交叉的产物,涉及到语音信号处理、人工智能、模 式识别、情感计算等多个领域。语音情感识别是一个复杂的过程,其框架如图 1 1 所述。首先需要采集语音信号,并进行预处理提取有效的语音信号,然后提 取语音中包含情感信息的特征参数,之后利用这些特征进行模式识别以确定相应 的语音情感状态。 本文在对国内外有关语音情感计算的相关研究成果的充分了解、学习之上, 比较和借鉴现有成功语音情感识别方法,提取有效的语音情感特征参数,研究了 各种特征选择算法在语音情感识别中的应用,尝试使用进化算法进行特征选择和 特征产生。论文的主要内容和工作包括以下几个方面: ( 1 ) 、语音情感特征的提取与识别 通过广泛阅读文献,综合现有文献中使用的各种语音情感特征,提取了基本 的语音情感特征,包括基音周期、过零率、m f c c 等等,并用s v m ( s u p p o r tv e c t o r m a c h i n e ) 进行分类识别,得到了较好的识别结果。这部分内容将在第二章进行 2 阐述。 语音情感识别过程 本文的主要工作内容 语音采集 原始语音数据 r + - 一 预处理 有效的语音数据 预加重、分帧、加窗 士 l 特征提取l语音情感特征l 基因频率、m f c c s 、 特征选择与降维 s f f s 、r e l i e f f 、g a f s 厂厂 感特征库l 支持向量机 、 图1 1 语音情感识别的过程以及本文的主要工作内容 ( 2 ) 、特征选择算法 研究了各种常见的特征选择算法的特征选择能力,包括r e l i e f f 、s f f s ( s e q u e n t i a lf l o a t i n gf o r w a r ds e l e c t i o n ) 、g a f s ( g e n ea l g o r i t h m sb a s e df e a t u r e s e l e c t i o n ) 等,证实了g a f s 在特征选择方面的能力优于其他算法。将基于遗传 算法的特征选择应用到语音情感识别,得到一组较优的语音情感特征。这部分内 容将在第三章进行阐述。 ( 3 ) 、特征产生 研究了基于基因表达式编程( g e p ,g e n ee x p r e s s i o np r o g r a m m i n g ) 的特征 产生算法,提出了基于s f l a ( s h u f f l e df r o gl e a p i n ga l g o r i t h m s ) 与g e p 的特征 产生算法,有效的提高了g e p 特征产生算法的收敛速度和收敛值,有效的提高 了语音情感识别正确率。这部分内容将在第四章进行阐述。 3 2 1 概述 2 1 1 情感分类 第二章语音情感识别 进行情感计算的一个基本问题是需要对情感做一个合理和有效的分类。根据 分类标准的不同,研究者建立了很多情感模型。s c h o l o s b e r g 建立了由高兴与赞 成这两个基本的情感轴组成的情感模型;t o m k i n s d 的分类模型由八种情感组 成;r u s s e l l 4 1 的情感由悲伤、生气、中性、高兴这四个象限构成;p l u t c h i k t 5 】建 立了“情感轮”模型,情感用二维平面上的一个矢量e 来表示,其中矢量角度表 示情感方向,而矢量幅度表示情感强度;f o x 6 提出了三级情感模型,其情感按 照表现的被动与主动程度分为不同的等级。尽管这些分类方式在原理上有所区 别,但都有相似的表现形式。并且对所有分类方式而言,情感分类过细都会带来 识别率的大幅度降低,因而一般采用“种情感分类。 本文采用r u s s e l l 的四象限情感分类,使用生气、悲伤、高兴和中性这四种 基本情感进行语音情感识别。 2 1 2 语料库 语音情感识别的另外一个基本问题是需要建立一个丰富、高效的语料库。语 音情感的复杂性和多样性导致语料库的采集和整理工作非常困难,目前尚没有建 立语料库的统一标准,也没有公认的权威的语料库。研究人员使用的语料库多种 多样,导致语音情感识别工作的可比较性很差,研究结论不具备广泛适应性。 本文使用的语料库为本来源于柏林实验室的德语情感语料库e m o d b t 7 。该 语料库由1 0 人采用表演的形式录制( 5 男5 女) ,包括七类情感( 高兴、生气、 悲伤、平静、惊讶、厌烦、害怕) 共5 3 0 个样本,每个样本为一个句子。本文选 取了其中的高兴、生气、悲伤和中性四类样本进行试验。该语料库是一个公开数 据库,使用较广,为本文的实验比较提供了基础。 4 2 2 语音信号数字化与预处理 2 2 1 数字化 为了存储和处理语音信号,需对其进行采样。通常用采样率来描述采样后的 声音质量,采样率即每秒得到声音样本个数。通常较高的采样率意味着较好的声 音质量,但人耳的分辨能力有限,过高的采样率耗费大量计算仅能得到有限的质 量提升。 采样后需要对模拟语音信号进行数字化,此时需要对语音信号进行量化。量 化的目的是从离散样本序列中得到期望精度的数字化样本。根据策略的不同,可 分为非均匀量化和均匀量化。在语音信号处理等领域,量化也称为语音编码,其 目标是尽可能减少量化位数且保证一定的量化精度。原始信号与量化后的信号间 的差称为量化噪声,又称量化误差。 本文所使用的语言情感语料库使用s e n n h e i s e rm k h 4 0 p 4 8 麦克风和t a s c a m d a p 1 移动式录音器,最高采样率为4 8 k h z ,最低采样率为1 6 k h z 。 2 2 2 预加重 受1 2 1 鼻辐射和声门激励的影响,语音信号在高频区域( 约8 0 0 h z 以上) 的频谱 提高两倍时其功率谱降下降大约6 d b 。为了使信号的频谱变得平滑,需要提升高 频部分的频谱,这就是语音信号的预加重处理。在语音信号进行数字化后、特征 参数提取之前,预加重采用6 d b 倍频程( o c t ) 增强语音信号高频部分。语音信号高 频部分经预加重后可以具有与中频部分( 1 2 k h z ) 相当的幅度。预加重使用的数字 滤波器的z 传递函数为: h ( z ) = l 一舷一1 ( 2 1 ) 其中u 的数值接近于l ,称为预加重系数。 需要恢复信号时,比如求实际频谱,需要还原原来的频谱特性,此时要进行 去加重处理,即对做过预加重处理的信号频谱加上6 d b o c t 的功率谱。 2 2 3 分帧 语音信号是一种典型的非平稳信号,但因为发声器官的状态变化比声音振动 的变化要缓慢得多,通常将语音信号视为短时平稳的。一般认为在5 m s - 5 0 m s 的 范围内语音信号的一些物理参数和频谱特性基本保持不变,因此可将语音信号切 分为小段进行处理。切分出具有相对固定特性的短小分析段的过程称为分帧,它 通过可移动的有限长度窗1 2 1 进行加权的方法实现的。用一定的窗函数w ( n ) 乘以 语音信号s ( ”) ,得到加窗信号( 刀) = j ( 胛) w ( n ) 。加窗后取出的每一个短时语音 段称为一帧,分段的长度称为帧长。分帧时通常使前一帧和后一帧有部分交叠, 称为帧移,帧移可以使帧和帧之间的过渡趋于平滑。 2 2 4 加窗 分帧的过程中需要加窗,以使语音信号能够平稳变化。理想的窗函数需要无 频谱泄露,即其频率响应要求主瓣无线狭窄且没有旁瓣,但在实际应用中这是无 法实现的。通常使用的窗函数有汉明窗、余弦窗、矩形窗、汉宁窗、高斯钟形窗 虚盘 寸。 相对而言,汉明窗的旁瓣较少且衰减较大,具有平滑的低通特性,能够比较 好的反映语音信号的短时平稳特性,因此汉明窗是语音数字信号处理中最常用的 一种窗函数,其函数如下: 汉明窗: 似加p 4 - o 4 6 c o s 2 7 r n ( n - 1 ) ,o 0 胚n 。1 ( 2 2 ) 呦户1o , n = e l s pf 忆2 j 其它窗函数的性能缺陷较明显,如矩形窗,函数如下 w ( n 叶眶爱裂。j 眨4 , 虽然矩形窗运算简单,但其旁瓣较大,时域信号的截断使能量在频域卷积过 程中泄露到其它频率处,并且帧长越短这种泄露越明显。 语音信号分析中,除了窗e l 形状,窗口长度是另一个非常重要因素。信号的 6 采样频率z 、窗口长度n 与时间分辨率厂之间存在如下关系: 厂= 志 q 当z 一定时,降低窗长将提高时间分辨率并将降低频域分辨率;提高窗长将 降低时间分辨率、提高频率分辨率,这二者是矛盾的。同时选取窗长需要考虑语 音信号的基音周期,一般一个窗口至少需要容纳2 3 个基音周期,这个才能采用 自相关函数等方法提取基音周期。 本文选用的窗函数为汉明窗,窗长为3 0 m s ,帧移为l o r e s 。 2 3 语音情感特征的提取 2 3 1 基音频率 在语音信号处理,基音频率始终是最重要的特征参数之一,它在语音识别中 起着重要作用,也有研究表明基音频率对语音情感识别有着重要的作用。语音信 号的基音频率是指发浊音时声带振动的频率,一般简称f 0 ,其理论范围为 8 0 5 0 0 h z ,正常人通常在1 0 0 - 2 0 0 h z 之间,一般童声比成人声音高,女声比男 声高。虽然有性别和年龄的差异,研究表明,在同一性别和年龄层次上,基音频 率在不同的语音情感上具有显著的差掣8 l ; 基音频率的提取通常有两类方法,分别为时域估计法和频域估计法。时域估 计法直接由语音的波形特点来估计基音周期,计算量比较小,但是容易受到噪声 的影响;频域估计法将语音信号变换到频域,可以有效的过滤噪声干扰,更加准 确,但计算量较大,实时性较差。本文选用了时域法中的短时自相关函数法,如 下: 首先定义自相关函数r ( x ) , n - i - k r ( 七) = ( 聊) x ( 聊+ | | ) ,o o 是用来平衡分类误差与推广能力 的一个常数。 ( 3 ) 实际问题多为非线性问题。可以通过非线性变化转换为另外一个空间中的 线性问题,从而在这个变换空白j 求得最优分类面或广义最优分类面。只要变换空 间中的内即可以用原空间汇总的变量直接计算得到,就可以不必知道所采用的非 线性变换的形式,这样就可以求出变换空间中的最优分类面。 1 3 如果将最有分类面中的点积用内积k ( x ,x ) 来替代,则相当于把原始特征变 换到了个新特征空间。此时,约束优化问题变换为 其判别函数也变换为 八x ) = s g i l a i y i k ( x i ,x ) + 6 ) t = i ( 2 1 6 ) ( 2 1 7 ) 这样就得到了非线性问题下的支持向量机。由于最终的判别函数中只包含支 持向量的内积求和,其识别时的计算复杂度取决于支持向量的个数。 对于非线性问题,采用不同的内积函数将导致不同的支持向量机算法,目前 主要有以下几种支持向量机内积被应用: 多项式内积:k ( x ,y ) = ( x r y + 1 ) p ( 2 1 8 ) 径向基内积( r a d i a lb a s i s ) :k ( x ,y ) = e x p ( - g | ix - y i | 2 ) ( 2 1 9 ) s i g m o i d 内积:k ( x ,y ) = t a n h ( x r y p ) ( 2 2 0 ) 2 5 基于支持向量机的语音情感识别 这里将给出基本的语音情感识别的实验结果。实验环境为m a t l a b 7 0 ,基于 l i b s v m 的s v m 分类器。语言情感特征是非线性的,因而采用上节所述非线性 不可分情况下的s v m ,使用的核函数为径向基核函数,参数c ,g 由经验设定为 c - - 3 ,g = 1 0 表2 2 同时列出了两种实验方法的结果。方法一为常规识别,每类使用4 0 个训练 样本、2 3 个测试样本的结果。方法二采用4 折交叉验证的识别率( 4 一f o l d c r o s s v a l i d a t i o na c c u r a c y ) 。交叉验证又称循环验证,是一种在统计学 上将样本分割称较小子集的方法,目的是避免学习机器在训练样本上过学习 ( o v e r f i t t i n g ) ,更好地评估学习机器的推广能力,即在新样本上的预测能 1 4 、, 哩 p 疗 x , 三、 墨 乙 k 以 一 = 所 q 吩 人i q q 。w以 卜一 = 一 q q 以 。瑚。斟 觚 丘 献 盯 力。k 折交叉验证将样本随机等分为k 份,每次从中取出一份做为测试样本,其 余样本作为训练样本,求得k 次学习结果的平均值作为最终的学习结果。 由表2 2 可知,4 折交叉验证的结果为8 3 4 6 ,这是一个较好的识别结果, 说明基于s v m 的语音情感识别具有较好的平均识别率和泛化性能。将训练样本与 测试样本分开的常规识别结果为76 9 2 ,由混淆表可知识别最好的情感为平静, 达到了9 1 3 0 ,而高兴与生气的混淆较为严重,拉低了平均识别率;由混淆表 亦可得知高强度的情感( 高兴、生气) 与低强度的情感( 悲伤、平静) 之间具有 很好的分辨能力。 表2 2 基于s v m 与基本声学特征的语音情感识别结果 4 折交叉验证 8 3 46 实际类别 识别类别正确识别率 2 0 4 = 1 2 0 个训 高兴 1 49006 0 86 练样本 生气 61 70o7 3 9 1 悲伤 0 3 1 8l 7 8 26 2 3 x4 = 9 2 个测 平静 0112 19 1 3 0 试样本 合计 76 9 2 2 6 小结 本章详细阐述了常见的语言情感特征( 基因频率、短时能量、短时过零率、 m f c c s 等) 的提取方法,介绍了统计学习相关理论与支持向量机原理,并使用支 持向量及基本的语音情感特征进行情感识别,得到较好的识别效果( 4 折交叉验 证8 3 4 6 ,常规识别7 6 9 2 ) 。本章内容为进一步研究提供了基础,接下来的两 章将进一步运用特征选择和特征产生提高语音情感识别正确率。 第三章语音情感特征选择 3 1 特征选择概述 特征选择是指从d 维的特征f 中选择一个d 维子集,该子集在f 的所有维数 为d 的子集中使某个准则函数j 是最优。特征选择有两个意义:一是减少特征集 中特征个数,从而简化特征提取的过程,避免提取某些复杂而作用较小的特征; 二是可以有效的去除冗余特征和不利特征,提高分类器的精度阱1 。 特征选择最主要的两个步骤是特征子集产生和特征子集评估,即要确定搜索 策略和评价准则。因而通常从这两个角度对特征选择算法进行分类。 3 1 1 按搜索策略划分特征选择算法 特征选择中搜索问题是一个n p 难题,直观的穷举法搜索策略由于计算量巨 大而不具备实用价值,因而研究者提出了很多次优搜索策略,包括全局最优搜索、 启发式搜索、随机搜索以及以上方案的组合上搜索。 1 ) 全局最优搜索 全局最优搜索不进行穷举搜索,但同时保证能够搜索到全局最优解,比如分 支定界算法、自动分支定界算法、迭代式搜索等等。全局最优搜索复杂度数量级 为0 ( 2 d ) ,虽然可以不必所有的2 d 一1 个子集,这仍然非常高,因而使用较少。 2 ) 启发式搜索 启发式搜索策略是平衡解的质量与计算量搜索策略,其基本思想是以待解决 解的某些特点作为启发式策略指导搜索的方向。启发式搜索可以获得质量不错的 解的同时大大降低搜索的复杂度。常见的启发式搜索策略包括增l 减r 法、浮动 搜索法、序列后向选择法( s b s ) 、序列前向选择法( s f s ) 、广义序列后向选择 法( g s b s ) 等。 3 ) 随机搜索 随机搜索随机产生下一个特征子集,该子集与当前特征子集无关或者不能完 全由当前子集确定。常见的随机搜索策略包括遗传算法、模拟退火算法等。 1 6 3 1 2 按评价准则划分特征选择算法 按评价准则与后续学习算法的关系,又可以将特征选择算法分为嵌入式、过 滤式和封装式三类。 1 ) 嵌入式特征选择 嵌入式特征选择将算法本身作为学习算法的一部分,嵌入到学习算法里,学 习的过程同时也是一个特征选择的过程,学习完成后特征选择也随之完成。最典 型的嵌入式算法即决策树算法,如q u i n l a n 的i d 3 算法【2 6 1 、c 4 5 算法【2 刀以及 b r e i m a n 的c a r t 算法【2 引等。决策树算法生成一个判定树,依据样本划分为较小 特征子集后的子集纯度,在树增长的每一步都同时进行特征选择。 2 ) 过滤式特征选择 过滤式特征选择的评价标准是一个与后续分类算法无关的度量准则,这个准 则由数据集内在的属性决定。常用的过滤式特征选择标准包括:距离度量,如欧 式距离、马氏距离、概率距离等;信息度量,如信息增益、最小描述长度、互信 息等;关联性度量,如线性关联性、对称的不确定性、基于信息熵的互信息等; 一致性度量。 3 ) 封装式特征选择 封装式特征选择算法利用学习算法的性能( 通常是分类正确率) 来评价特征 子集的优劣,因而封装式特征选择算法需要先用所选学习算法训练一个分类器, 然后得到在该分类器上的一个分类正确率。用于评价特征的学习算法有很多,比 如近邻法、神经网络、支持向量机、贝叶斯分类器等等。 上述各种特征选择算法均有其优点,又有不足。比如过滤式特征选择算法具 有很强的通用性,选择效率非常高,但选择的特征子集通常较差;而封装式特征 选择算法选择的特征子集具有较高的分类正确率,但是算法计算复杂度非常高, 且因与具体分类器相关而通用性较差。因而特征选择算法的选取需要视问题的不 同而具体考察。在本章详细阐述三种典型的特征选择算法,并将其用于语音情感 识别,比较了三者在时间复杂度和分类正确率上的差异。 1 7 3 2r eiie f f r e l i e f f 2 9 1 算法是k o n o n e k n o 在k i r a 的r e l i e f 算法基础上改进得到的一种典 型的过滤式特征选择算法。r e l i e f f 算法的基本思想是,每次训练时从样本集中 随机选择一个样本s ,然后分别从s 的不同类别和相同类别的样本中找出k 个距 离最近的样本,计算s 与同类之间的差异以及s 与不同类别之间的差异,然后 按照同类之间的差异应当较小而不同类之间差异应当较大的规则更新s 所在类 的权重。重复训练n 次后根据权重决定是否选择该特征。其具体算法流程如下: 算法:r e l i e f f 算法 输入:样本特征集d ,特征权重阈值盯,抽样次数n ,最近距离样本个数k 输出:选择的特征子集s u b s e t 初始化:特征权重w 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机械租用协议
- 小猫和两只兔的故事300字9篇
- 独自面对高三作文800字15篇
- 水利设施占用土地流转协议
- 建设项目投资预算审批协议
- 三方科学研究协议
- 企业合同管理流程及模板
- 员工申请五险申请书
- 残疾人贫困申请书范文
- 多家运营商合作物联网设备租赁协议
- 医疗废物监督管理课件
- 全国律师会费管理办法
- 乙二醇加氢精制催化剂:制备工艺、性能优化与应用前景探究
- 危险源辨识、评价及控制培训
- 延缓慢性肾脏病进展临床管理指南(2025年)解读课件
- 土地管理培训课件
- 2025年山西中考历史试卷真题解读及答案讲解课件
- 2025至2030中国科技成果转换行业发展趋势分析与未来投资战略咨询研究报告
- 除颤仪使用讲课件
- 中国PCBA行业发展前景及发展策略与投资风险研究报告2025-2028版
- 教育科技公司团队管理制度
评论
0/150
提交评论