




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)基于流形学习的语音情感识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-一。r;。;妒卜,擎,; ?:扩;j #k; 、; 0摹iftll4li;tj _ 意纛盖蒜一y 18 9 5 3 8 6 学位论文版权使用授权书 。 本学位论文作者完全了解学校有关保留、使用学位论文的 规定,同意学校保留并向国家有关部门或机构送交论文的复 印件和电子版,允许论文被查阅和借阅。本人授权江苏大学 可以将本学位论文的全部内容或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 学位敝储签名碱修指剥币签名乒鸱 7 叫、午6 月f 弓日加年 月铲日 江苏大学硕士学位论文 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究工作所取得的成果。除文中已注明引用 的内容以外,本论文不包含任何其他个人或集体已经发表或 撰写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的 法律结果由本人承担。 学位论文作者签名:趸齑鹛 日期:加1 1 年6 月侈e l 江苏人学硕士学位论文 摘要 语音情感识别是指利用计算机分析说话人的情感状态及变化,进而确定其内 心情绪或思想活动,实现人机之间更自然更智能化的交互一种技术。语音情感识 别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及推动心理 学等学科的发展,有着重要的现实意义,并最终产生很大的经济效益和社会效益。 本文在综述课题研究背景和国内外已提出的流形学习及语音信号情感特征 的提取、特征降维识别等方法基础上。主要研究了基于流形学习的语音情感特征 降维和情感识别的一些关键问题,提出了一些改进方法,并通过实验进行了有效 性验证。本文的主要工作如下: ( 1 ) 提出基于增量子流行的语音情感特征降维方法。面对高维的语音情感特 征参数,如何消除无关和冗余特征并能够实现对测试样本的增量学习是个很重要 的问题。本文提出基于增量子流行的语音情感特征降维方法,该方法用l l e 将 初始的训练特征维数降至目标维数,再用增量子流形学习的方法求得测试样本的 低维特征,不但减少冗余信息的影响,而且提高特征的利用率和降维复杂度,最 终提高分类识别的准确率。 ( 2 ) 定义半监督情况下的概率距离计算方法,改进流形学习过程中邻域信 息的确定方法,使流形学习更加具有泛化能力,并把相关应用扩展与半监督学习 结合,为后续半监督语音情感识别起基础铺垫作用。 ( 3 ) 提出基于概率距离流形和图模型半监督学习的语音情感识别方法。重 新定义基于标签传递的识别方法中的相关矩阵和向量,并根据算法的需要明确区 分概率矩阵和标签矩阵的定义和作用;改进并提出基于概率距离流形学习的半监 督识别算法中无标记数据标记确定方法,从而形成了完整的识别方法。为了验证 方法的有效性,设计了不同的实验应用于语音情感识别。 ( 4 ) 采用面向对象思想并利用m a t l a b 和v c 结合的开发方式,设计实现基 于流形学习的语音情感识别原型系统,从应用角度验证了上述方法。 关键词:语音情感识别,流形学习,增量流形学习,半监督学习,概率距离 i i i 江苏大学硕士学位论文 a b s t r a c t s p e e c he m o t i o nr e c o g n i t i o ni st h et e c h n o l o g yo fa n a l y s i so f t h es p e a k e r s e m o t i o n a ls t a t ea n dc h a n g e ,a n dd e t e r m i n i n gt h e i ri n n e re m o t i o n a lo ri d e o l o g i c a l a c t i v i t i e s ,f i n a l l ya c h i e v i n gm o r en a t u r a la m o n gt h em o r ei n t e l l i g e n th u m a n m a c h i n e i n t e r a c t i o nw i t hc o m p u t e r s p e e c he m o t i o nr e c o g n i t i o nh a si m p o r t a n tp r a c t i c a l s i g n i f i c a n c ef o rm a k i n gc o m p u t e rm o r ei n t e l l i g e n ta n d m o r en a t u r e ,t h ed e v e l o p m e n t o fn e wm a n m a c h i n ee n v i r o n m e n t ,p s y c h o l o g ya n do t h e rd i s c i p l i n e s t h es t u d yo f s p e e c he m o t i o nr e c o g n i t i o nh a sf o u n di t sv a l u e si ne c o n o m ya n ds o c i e t y t h i sp a p e rr e v i e wt h er e s e a r c hb a c k g r o u n d ,m a n i f o l dl e a r n i n ga b r o a dt h a th a v e b e e np r o p o s e da n de m o t i o n a ls p e e c hs i g n a lf e a t u r ee x t r a c t i o n ,r e c o g n i t i o nm e t h o d f i r s t l y a n dt h e nf o c u so ns o m ek e yi s s u e so fs p e e c he m o t i o nf e a t u r e d i m e n s i o n r e d u c t i o na n de m o t i o n r e c o g n i t i o n b a s e do nm a n i f o l d l e a r n i n g ,m a k e s o m e i m p r o v e m e n ta n dv a l i d a t i o nb ye x p e r i m e n t s t h em a i nw o r ki sa sf o l l o w s : ( 1 ) f e a t u r ed i m e n s i o nr e d u c t i o nm e t h o db a s e d o ni n c r e m e n t a ls u b m a n i f o l d l e a r n i n gi sp r e s e n t e d t h e r ea r em a n ye m o t i o nf e a t u r e s ,i n c l u d i n gr e d u n d a n tf e a t u r e s a n di r r e s p e c t i v ef e a t u r e s ,s ow ep r e s e n tf e a t u r ed i m e n s i o nr e d u c t i o nm e t h o db a s e do n i n c r e m e n t a ls u b m a n i f o l dl e a r n i n gi no r d e rt or e d u c et h ee f f e c to fr e d u n d a n t i n f o r m a t i o n i nt h i sm e t h o d ,101f e a t u r e se x t r a c t e df r o mt h ev o i c eo fq u a l i t y ,e n e r g y , f u n d a m e n t a lf r e q u e n c y ,f o r m a n tf r e q u e n c y ,m f c c sa n dm e lf r e q u e n c ye n e r g y d y n a m i cc o e f f i c i e n ta r eu s e da si n i t i a lf e a t u r e s ,a n dt h e nl l e a r eu s e dt or e d u c et h e i n i t i a lf e a t u r e sd i m e n s i o n a l i t yo f t r a i n i n gs e t t h el o w d i m e n s i o n a lf e a t u r e so f t e s ts e t a l ec a l c u l a t e db yi n c r e m e n t a ls u b - m a n i f o l dl e a r n i n g s ot h ei n f l u e n c eo fr e d u n d a n t f e a t u r e si sr e d u c e d ,a n dt h er e c o g n i t i o nr a t ei si n c r e a s e d ( 2 ) a f t e rt h ed e f i n i t i o no ft h ep r o b a b i l i t y b a s e dd i s t a n c eu n d e rs e m i s u p e r v i s e d l e a r n i n g ,t h ec a l c u l a t e dm e t h o do ft h en e i g h b o r h o o di n f o r m a t i o ni nm a n i f o l dl e a r n i n g p r o c e s si si m p r o v e dt om a k em a n i f o l dl e a r n i n gp r o c e s sh a sm o r eg e n e r a l i z a t i o n a b i l i t ya n de x t e n dt h er e l a t e da p p l i c a t i o nt ot h es e m i s u p e r v i s e dl e a r n i n ga r e a sw h i c h m a k eaf u n d a m e n t a lg r o u d w o r kf o rf o l l o w - u ps e m i s u p e r v i s e dr e c o g n i t i o n 工v 江苏大学硕士学位论文 ( 3 ) t h er e c o g n i t i o nm e t h o db a s e do nt h em a n i f o l dl e a r n i n ga n dv a p h i c a lm o d e l s e m i s u p e r v i s e dl e a r n i n gi sp r o p o s e d t h er e l e v a n tm a t r i c e sa n dv e c t o r si nt h e r e c o g n i t i nm e t h o di sr e d e f i n e d ,a n da c c o r d i n gt ot h ea l g o r i t h mac l e a rd i s t i n c t i o n b e t w e e nt h ep r o b a b i l i t ym a t r i xa n dt h el a b e lm a t r i xi sm a d e ;al a b e l e dm e t h o do f u n l a b e l e dd a t ai n s e m i - s u p e r v i s e dr e c o g n i t i o na l g o r i t h mb a s e do np r o b a b i l i s t i c m a n i f o l dl e a r n i n gi sp r o p o s e d ,a n df i n a l l yac o m p l e t er e c o g n i t i o nm e t h o di sf o r m e d e x p e r i m e n t ss h o wt h a t ,t h er e c o g n i t i o np e r f o r m a n c eo ft h i sm e t h o di sb e t t e r , a n dt h e s p e e c he m o t i o nr e c o g n i t i o na c c u r a c yr a t ei si m p r o v e de f f e c t i v e l y ( 4 ) b yc o m b i n i n gm a t l a bw i t hv c + + ,ap r o t o t y p es y s t e mo fs p e e c he m o t i o n r e c o g n i t i o nb a s e d o nm a n i f o l d l e a r n i n g i s d e s i g n e d ,w h i c hd e m o n s t r a t e st h e e f f e c t i v e n e s so ft h ea l g o r i t h m sm e n t i o n e da b o v e k e yw o r d s :s p e e c he m o t i o n r e c o g n i t i o n ,m a n if o l dl e a r n i n g ,i n c r e m e n t a l m a n i f o l dl e a r n i n g ,s e m i s u p e r v i s e dl e a r n i n g ,p r o b a b i l i t yd i s t a n c e v 江苏大学硕士学位论文 目录 第一章绪论1 1 1 课题研究背景和意义1 1 2 国内外的研究现状及应用2 1 3 论文的研究内容及主要工作5 1 4 论文的结构6 第二章流形学习方法概况7 2 1 概述7 2 2 流形学习的主要分类8 2 2 1 非监督流形学习8 2 2 2 流形学习聚类1 2 2 2 3 监督流形学习1 2 2 2 4 半监督流形学习1 2 2 3 流形学习的应用1 3 2 4 小结1 4 第三章语音信号的预处理和情感特征的提取1 5 3 1 概论1 5 3 2 情感识别语音库1 6 3 2 1 语音库概述1 6 3 2 2 情感语句的选择1 6 3 2 3 语音采集1 6 3 2 4 情感语句的录制和有效性分析1 7 3 3 语音信号预处理1 8 3 4 常用语音情感特征参数的提取2 0 3 5 小结2 3 第四章基于增量子流形的语音情感特征降维方法2 5 4 1 概论2 5 4 2 增量流形学习简介2 5 4 3 基于增量子流形的语音情感特征降维算法2 6 4 4 方法在语音情感识别中的应用试验2 8 4 4 1 不同识别模型下的识别试验2 8 江苏大学硕士学位论文 4 4 2 相关方法比较2 9 4 5 小结3 1 第五章基于概率距离流形和图模型半监督的语音情感识别3 2 5 1 概述3 2 5 2 基于概率距离的s l l e 3 3 5 2 1 监督的局部线性嵌入s l l e 3 3 5 2 2 基于概率距离的s l l e 3 4 5 3 基于概率距离流形和图模型半监督学习的识别算法3 5 5 3 1 基于图的标签传递算法3 5 5 3 2 算法的参数定义及相关条件确定方法3 5 5 3 3 基于概率距离流形学习的半监督识别算法3 7 5 4 语音情感识别应用实验及结果3 8 5 4 1 标记样本不同比例的比较3 9 5 4 2 单样本识别得到识别率数据3 9 5 4 3 与其他方法的比较4 0 5 5 小结4 l 第六章语音情感识别原型系统的设计与实现4 3 6 1 系统功能分析4 3 6 2 原型系统的主要框架4 3 6 3 核心类的设计与实现4 4 6 3 1 面向对象的一般原则4 4 6 3 2 语音处理基本类的设计4 5 6 3 3 情感特征类设计4 6 6 3 4 情感识别类4 7 6 3 5m a t l a be n g i n e 调用4 8 6 4 原型系统实现4 9 6 5 小结5 2 第七章结束语5 3 7 1 工作总结5 3 7 2 下一步工作展望5 4 参考文献5 5 致谢6 0 发表论文6 l 江苏人学硕士学位论文 1 1 课题研究背景和意义 第一章绪论 人机交互自从计算机诞生以来一直是该领域的研究议题,无论是从人体工学 的角度改进鼠标、键盘的设计,还是后来陆陆续续设计出压感笔、触摸屏等新型 的交互设备,计算机科学家们一直都在追求最为自然和便捷的交互方式,而在所 有这些人机交互的u i ( u s e ri n t e r f a c e ) 中,语音交互无疑具有极大的优势,首先它 更接近于人们日常的交互方式,彻底解放了人们的双手,人们不用一直端坐于电 脑屏幕前;其次与目前使用的死板机械截然不同,作为人类最重要、最有效、最 方便的交换信息的方式,语音中除包含实际发音内容的信息外,还包括发音者是 谁以及喜怒哀乐等各种信息,语音交互能从用户发音时的语速、发音的方式、发 音时的情绪等方面判断用户的喜好,做出更有针对性和更人性化的响应,可以毫 不夸张的说,语音交互是人性化计算机的基础“组件”之一。在人机通信技术由 图形用户界面向多通道界面的发展趋势中,语音交互界面的研究开发显示出了巨 大的潜力和光明的前景。一直以来,能够实现人机之间自然的语言交流,成为许 多计算机科学家和语言学家的梦想。实现计算机的拟人化,使计算机能够感知周 围的环境和气氛以及对象的态度、情感等内容,自适应地为对话对象提供最舒适 的对话环境,尽量消除操作者与机器之间的障碍,已经成为下一代计算机发展的 目标。研究表明,在人机交互中需要解决的重要问题与人和人交流中的重要因素 一致,关键都是矾隋感智能”的能力【l l 。因此计算机要能够更加主动地适应操作 者的需要,首先必须能够认识操作者的情感,再根据情感的判断来调整交互对话 的方式。对于情感信息处理技术的研究包括多个方面,主要有情感特征分析、情 感识别( 如肢体情感识别、面部情感识别和语音情感识别等) 、情感模拟( 如情 感语音合成等) 。为了使得有朝一日人机之间能够实现真正自然的语言交流,对 于情感语音的研究是十分必要的。 语音情感识别是指利用计算机分析特定说话人的情感状态及变化,进而确定 其内心情绪或思想活动,实现人机之间更自然更智能化的交互。语音作为语言 的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。包含在语音 信号中的情感信息是一种很重要的信息资源,它是人们感知事物必不可少的部 江苏大学硕士学位论文 分。例如同样一句话,由于说话人所表现的情感不同,在听者的感知上就会有较 大的差别,所谓“听话听音 就是这个道理。然而,传统的语音处理系统仅仅着 眼于语音词汇传达的准确性,而把包含在语言信号中的情感因素作为模式的变动 和差异噪声通过规则化处理给去掉了,所以它只是反映了信息的一个方面。直到 近年来,人们发现由情感和态度所引起的变化对语音合成、语音识别、说话人辨 认和确认影响较大,包含在语音中的情感信息才逐步引起了人们的重视【2 】【3 1 。目 前许多研究者都在致力于研究情感对语音的影响,以及尝试对语音处理算法的适 应技术。 1 2 国内外的研究现状及应用 目前,语音情感识别研究主要集中在三个方面:一是语音情感特征的提取【2 】, 它是提高语音情感识别率的前提,目的是获取能够反映情感状态变化的信息:二 是特征选择方法的研究【3 】,即从大量原始特征中挑选出一个最小特征子集,使由 该特征子集确定的类概率分布最接近真实的类概率分布。三是分类算法的研究 【4 】,语音情感识别是一个模式识别问题,也就是根据所提取语音情感特征的多元 统计特性进行聚类。本文的研究内容主要集中在语音情感特征降维和情感识别两 个方面。 在语音情感特征提取领域中,情感特征可以粗略地分为传统的基于声学的语 音情感特征和基于语义的语音情感特征【3 1 。基于声学的语音情感特征又可分为三 大类:韵律学特征、音质特征以及频谱特征。韵律学特征主要包括音调、音强和 语速等;音质特征主要有呼吸声、明亮度特征、共振峰和喉化音等;频谱特征主 要包括倒谱系数等。此外,基于这三类语音情感特征的不同语段长度的统计特征 是目前使用最为普遍的特征参数之一【2 1 。基于语义的语音情感特征主要包括情感 语料的情感词汇、语法、句法以及语境等,主要利用情感语料中所包含的词汇、 语法以及句法所反映的情感色彩来推断情感语料所属的情感类别。随着实际应用 中对自然环境下语音情感识别的迫切需求,近年来已经有学者开始着力于自然环 境下语音情感特征的研究f 5 】【6 1 。 用于语音情感识别的分类方法大致可分为四种:基于相似性的方法、基于 连接机制的方法、基于概率模型的方法以及集成学习方法。基于相似性的方法, 通过定义特征向量之间的距离来获取似然度,根据似然度的大小,将被测情感归 入最为相似的情感类别中,这类方法速度快,在小样本集上有较好的识别效果, 江苏大学硕士学位论文 但是随着样本集的增大,识别率往往受这种简单分类器识别能力的限制而快速下 降。基于连接机制的方法,利用神经网络的连接方法和学习能力,将各情感类别 的统计特征蕴涵在网络结构和相应的参数中,通过训练学习来调整参数值,提高 算法的分类能力。基于概率模型的方法,通过估计情感特征的参数分布模型,计 算被测情感属于每个类的概率,由概率的大小来判断被测情感特征所属的情感类 别。目前在语音情感识别中,应用最广泛的是s v m ( s u p p o r t e d v e c t o rm a c h i n e ) 7 - s l 和h m m ( h i d d e nm a r k o vm o d e l ) 1 9 - 1 0 等。这种方法识别率较高,对样本集的要求 以及计算的复杂度较基于连接机制的方法也要低得多,近年来,集成学习方法也 取得了比较多的应用,它是采用多个同质或异质分类器来解决同一个模式分类问 题,比较有代表性的集成学习算法是b a g g i n g1 1 1 1 和b o o s t i n g1 1 舶,这种方法具有较 好的泛化能力,可以提高预测结果的准确性和稳定性。 目前许多国家也都致力于该领域的研究【”】。在国外,由贝尔法斯特女王大 学的r o d d yc o w i e 和e l l e nd o u g l a s c o w i e 教授领导的情感语音小组研究的重点 在于心理和语音分析,他们在情感识别和情感感知方面做了大量工作。他们收集 并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个 f e e l t r a c e 工具【1 6 j 用来记录人类从语音中感知到的情感信息。他们还开发了一 个情感语音分析的a s s e s s 工具,用统计的方法分析语音的声学特征与情感的 相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤 怒、害怕、高兴和悲伤4 类主要情感进行了分类,用判别分析的方法达到了5 5 的识别率。由m i t 媒体实验室r o s a l i n dwp i c a r d 教授领导的情感计算小组是世 界上第一个大规模研究情感及其计算的科研机构。c a l m t h l 在那里开发了第一个 情感语音合成系统“e f f e c te d i t o r ,首次尝试用基频、时长、音质和清晰度等声 学参数的变化来合成情感语音。r a u lf e r n a n d e z 在m i t 媒体实验室还完成了关 于语音情感识别的计算模型研究【l 引。美国南加州大学语音情感组由n a m y a n a n 教授领导,致力于情感语音的声学分析、合成和识别,以及有关笑声的合成研究。 他们将语音的情感识别技术集成到语音对话系统,在该系统中他们还首次将语音 的声学信息、词汇和语义信息结合在一起进行语音情感状态的识别【嘲。此外, c m u 、剑桥大学、瑞士日内瓦大学、日本a t r 等也都做了相当多的工作。微软、 i b m 、英国电信、索尼等公司也都相继成立了情感计算和智能交互的研究小组。 江苏大学硕士学位论文 在国内,东南大学赵力教授利用改进的混合蛙跳算法并利用混沌运动的遍历性改 善初始个体的质量和引入高斯变异,提高算法的全局搜索能力,同时将改进算法 与人工神经网络结合,应用到语音情感识别系统中【2 0 l 。另一方面针对情感类别两 两之间的区分度,优化了情感对各自的特征空间,考察了多类分类器分解为两类 分类器的方法,采用置信度判决融合的方法进行两类分类器组的重组,比较了单 个多类分类器和两类分类器组的识别性能。提出了一种语音情感识别中特征空间 的优化方法【2 l 】。哈尔滨工业大学、东南大学等也较早开始了这方面的研究【2 1 1 1 2 2 1 , 中科院计算所、中科院自动化所、微软亚洲研究院,台湾的一些大学和研究所也 在进行该研究。 语音情感状态的自动识别具有非常广阔的应用前景,它不仅可以应用于人机 交互系统;还可以用于语音识别,增强语音识别的鲁棒性;或者用于说话人辨别, 提高说话人辨别率;语音识别作为一个重要的研究领域,已经有很长的研究历史, 未来应用领域也包括广泛的范围:( 1 ) 通讯行业,视频电话、视频会议越来越成 为目前大家远距离交流的第一选择,但是受制于网络传输环境的限制,很多情况 下通讯效果差强人意。加上情感识别达到智能处理信息的目的,将会极大减少对 传输带宽的需求、改善传输质量。( 2 ) 娱乐行业,如网络游戏行业,作为一种新 兴的网络社区,网络游戏越来越受到年青人的喜爱,但是目前网络游戏单纯以砍 怪升级为主的模式完全缺乏真实社区中的人文关怀,如果在游戏中引入语音情感 识别技术,实时关注玩家的情绪变化,在必要的时候给玩家一些针对性的专业建 议,达到寓教于乐的效果,让青少年在潜移默化中学会关心他人。( 3 ) 服务业, 随着高新技术产品越来越多的进入普通家庭,技术支持、售后服务也越来越成为 各家公司的争夺客户资源的战场,而为了节省成本、延长服务时间,许多公司都 已经在客服系统中纳入了自动化服务中心。但目前的自动化服务中心因为其操作 步骤的繁琐和机械化而让许多人望而却步。应用语音音素识别和情感识别的自动 化中心则可以最大化的减少用户的麻烦,它能通过与用户“交流”理解用户的需 求和“画外音,及时有效的做出最有针对性的反馈,最大限度的帮公司保留住 客户资源。( 4 ) 信息检索业,目前的信息检索主要还是基于文本的检索,但是随 着近十几年多媒体信息的大量出现和其在人们日常生活中作用的逐步提升,多媒 体检索必然会成为未来的一大主要研究方向,音素识别和标签、情感识别和标签 4 江苏大学硕士学位论文 都必然会是其中不可缺少。 除此之外还可以可以用于临床医学;可以用于远程教学和婴儿教育,及时识 别学生或婴儿的情绪并做出适当的处理,从而提高教学教育质量;可以用于辅助 临床精神分裂症的诊断和治疗:可以预见,语音情感识别技术将被广泛应用于包 括新型人机交互在内的诸多领域,并将产生很好的经济效益和社会效益。 1 3 论文的研究内容及主要工作 本文在广泛阅读国内外现有的关于语音信号处理和语音情感识别技术的文 献后,比较和借鉴现有成功的语音情感识别方法,提取有效的情感特征参数,对 情感特征参数降维方法以及情感识别方法进行改进和完善,提出自己的算法,并 开发相应的语音情感识别原型系统。论文的主要研究内容和工作包括以下几个方 面: ( 1 ) 研究基于增量子流形的语音情感特征的降维方法 由于语音情感特征参数较多,提取尽可能多的特征将存在无关特征和冗余特 征,将所有特征用于语音情感识别,不能达到很好的识别效果,且时间开销比较 大。本文提出基于增量子流行学习的特征降维方法。将训练集样本提取的全部特 征用流行学习进行降维,按照增量学习的思想,测试集样本的低维特征由降维后 的训练集特征求得。 ( 2 ) 研究半监督情况下的概率距离计算方法,并改进流形学习过程中邻域 信息确定方法,使流形学习更加具有泛化能力,并把相关应用扩展到半监督领域, 为后续半监督识别起基础铺垫作用;重新定义基于标签传递的分类识别方法中的 相关矩阵和向量,并根据算法的需要明确区分概率矩阵和标签矩阵的定义和作 用; ( 3 ) 研究基于概率距离流形和图模型半监督学习的识别方法 改进并提出基于概率距离流形学习的半监督识别算法的无标记数据标记确 定方法,从而形成了完整的识别方法。为了验证方法的有效性,设计了具体的识 别方法应用于语音情感识别的实验,实验结果证实了方法在原有方法基础上得到 改进和提升。 ( 4 ) 对本文提出方法进行了原型系统的开发和试验 5 江苏大学硕士学位论文 采用面向对象的思想利用v c 和m a t l a b 结合的开发方式,设计实现基于流 形学习的语音情感识别原型系统,并从应用角度验证上述方法。 1 4 论文的结构 论文共分六章,主要内容概括如下: 第一章介绍课题的研究背景和研究意义,概述语音情感识别的相关领域研究 现状及其应用,同时分析和提出本文的主要研究工作。 第二章综述流形学习的基础知识,包括流形学习的概念,分类和主要应用等, 为后面的应用做准备。 第三章综述语音情感识别研究中主要涉及的几个方面:语音信号的预处理、 语音情感库、语音情感特征参数的提取,介绍它们在相关研究中常用的典型方法, 并进行比较和分析。 第四章详细阐述基于增量子流形学习的语音情感特征降维方法,首先介绍增 量学习的思想,然后将其与流行学习结合运用到情感特征降维,并给出实验结果 和分析。 第五章详细阐述基于概率距离流形和图模型半监督学习的语音情感识别方 法,首先介绍半监督情况下的概率距离计算方法,并改进流形学习过程中邻域信 息确定方法,基于概率距离流形学习的半监督识别算法的无标记数据标记确定方 法,从而形成了完整的识别方法,最后给出实验结果及分析。 第六章介绍采用面向对象及设计模式的思想,设计并开发基于流形学习的语 音情感识别原型系统的方法与过程。 第七章对全文进行总结,并指出进一步需要开展的工作。 本文的研究内容属于国家自然科学基金项目( n o 6 0 6 7 3 1 9 0 ,6 1 0 0 3 1 8 3 ) 和江 苏省高校自然科学基金项目( 0 9 k j b 5 2 0 0 0 2 ) 中研究内容的一部分。 6 江苏大学硕士学位论文 2 1 概述 第二章流形学习方法概况 高维数据的维数约简是指将数据从高维空间映射到一个低维空间中,从而获 得一个关于原数据集紧致低维表示的过程。数据维数约简是高维数据分析的一个 重要步骤,已成为机器学习模式识别等领域的一个重要研究课题。由于真实世界 中的数据往往是高维的,而高维的数据难以被人理解、表示和处理,因此需要降 维以获得数据的低维表示,以便于更好地理解和进一步的处理数据。 自从2 0 0 0 年s c i e n c e 上的3 篇文章开始2 3 。2 5 1 ,经过近8 年时间的进一 步发展,在机器学习领域出现了许多新的流形学习算法 2 4 - 2 6 】,如l s t a 、l e 、 h l l e 等。随着研究的不断深入及相关的应用推广,流形学习已经成为机器学 习相关领域的一个研究热点。流形学习的目的就是当数据集所在空间表现为流 形结构时,从数据集中提取出相应的内部几何结构及其规律性。研究流形学习 的意义就在于寻找数据中蕴含的规律,包括全局拓扑结构与局部几何结构,这 种规律本质上不依赖于观测空间的维数,而仅取决于决定事物变化的内在变量, 所以通过流形学习我们可以发掘隐藏信息、认清事物的本质。流形学习的主要 目的就是期望在高维数据集中寻找出低维的本征描述,从而找出数据间的内在 关系,完成特征取或数据挖掘等任务。 流形学习就可以形象描述为:假设观测数据是均匀采样于高维欧氏空间的低 维流形,流形学习就是从高维观测数据中发现低维流形结构,并给出从高维空间 到低维嵌入的映射,以实现数据约简或可视化。流形学习的主要目的就是期望寻 找产生数据集的内在规律性,即从观测数据中寻找数据的本征信息。从统计角度 看,流形学习是试图去除更多的先验假设,如属性间相互独立、近正态分布等等, 而去完成在一般意义下针对数据集的各项任务,如数据挖掘、机器学习等。 流形学习的有效性建立在几个基本条件上【2 7 1 ,首先要求两个采样点足够近 时,它们之间的距离与其低维嵌入之问的距离近似等同,此要求为局部同胚假设; 另外称为稠密性假设的要求,要求所有采样点足够稠密地覆盖整个流形。这两条 假设一方面确保了流形的基本形状能够被数据近似表达,另一方面保证了数据点 7 江苏大学硕士学位论文 之间的距离( 包括欧氏距离或测地距离) 可由邻域图中间最短路径近似,进而保障 流形学习算法映射结果的有效性;另外,数据所处的流形被默认为光滑连续,这 是由局部同胚假设与低维嵌入的连续性导出的自然结论,我们称此为连续性假 设。这三个条件总结为三个基本假设,没有这三个基本假设,流形学习算法将成 为空中楼阁。 2 2 流形学习的主要分类 目前,已经有许多种流形学习算法,而且这一研究领域仍然在不断的发展之 中。从不同的角度看流形学习算法可以有不同的分类,从处理数据方式的角度考 虑可以将流形学习算法分为线性的和非线性的,从几何结构保持的角度可以分为 全局算法和局部算法,而依据是否利用数据的类别信息,算法又可分为非监督和 监督方法,此外,半监督算法等方法近年来也是一个研究的热点问题。本文按照 利用类别信息的方式进行分类。 2 2 1 非监督流形学习 最早的流形学习算法都是非监督形式的,大致上可以分成两类:一类是全局 方法,在降维时将流形上邻近的点映射到低维空间中的邻近点,同时保证将流形 上距离远的点映射到低维空间中远距离的点;另一类是流形降维方法只是保证将 流形上近距离的点映射到低维空间中的邻近点的局部方法。无论全局方法还是局 部方法都有着共同的特征:首先构造流形上样本点的局部邻域结构,然后用这些 局部邻域结构来将样本点全局的映射到一个低维空间。它们之间的不同之处主要 是在于构造的局部邻域结构不同以及利用这些局部邻域结构来构造全局的低维 嵌入方式的不同。 1 ) 全局方法 全局的代表性方法是等距映射i s o m e i t r i cm a p p i n g ( i s o m a p ) 和最大差异 投影方法( m v u ) 。 ( 1 ) 等距映射 主要思想是利用局部邻域距离近似计算数据点间的流形测地线距离,通过建 立原数据的测地距离与降维数据间的空间距离的对等关系完成数据降维。 i s o m a p 在降维过程中通过计算点对之间的测地距离,并采用多尺度分析 8 江苏大学硕十学位论文 ( m u l t i d i m e n s i o n a ls e a l i n g ,m d s ) 法来获取全局最优的几何结构,它能够准确 地发现数据流形潜在的参数空间。优化目标为: 厶= 赳苫n 崞n ( 九( 薯,弓) 一d ( ( ) ,厂( _ ) ) ) 2 ( 2 1 ) 。 i j 为了发现流形m 中的内在几何结构,i s o m a p 首先通过构造所有数据点上 的k 最近邻居图g ,图中每条边的权值定义为其邻域距离比( 研,而) = l k 剪i | , 而流形m 上两点间的测地距离咖( 柳,而) 定义为图中任意两点间的最短路径。 设d l ,表示降维后的欧式距离矩阵,于是i s o m a p 旨在最小化如下目标函数: i if ( d g ) 一f ( q ) 吣 ( 2 - 2 ) 其中,r ( d ) = 一h s h 2 ,& = b 2 ,h = ,一_ te e7 ,i 表示单位矩阵, m e = ( 1 ,1 ,1 ) 丁。因而r ( d o ) 的最大特征向量给出了i s o m a p 的最终优化嵌入 】,= ( y l ,y 2 ,y 撕) 。具体算法如下:构造领域图g :由点i ,之间的欧氏距离嘶, 定义,如果在,的半径占之内,或者是i 的k 近邻点之一,则用边连接i 和 歹,该边的长度值等于即,。然后计算最短路径:在邻域图中,如果f 和有边 连接,则靠( f ,) = d ( i ,) ;如果没有边连接,则d o ( ,= + 。然后依次计算点, 和,之间的最短路径: 如( f ,j f ) = m i n d c ( f ,) ,九( f ,后) + 比( 后,) ) ,七= j ,2 , ( 2 - 3 ) 即使用f l o y d 算法计算任意两点f 和歹之间的最短路径d o ( ,。最后构造d 维嵌入:在距离矩阵吃= 如( f ,) 上,采用经典m d s 方法构造能够保持拓扑空 间本质结构的d 维嵌入空间y ,坐标向量弦由最小化下列误差方程得到: e = i ir ( 优) 一f ( 研) 吣 ( 2 - 4 ) 使用i s o m a p 进行维数约简,能够将流形上邻近的点映射到低维空间中邻 近点,同时保证将流形上距离远的点映射到低维空间中远距离的点,较好地表达 了数据的全局结构。但是i s o m a p 存在一个和大多数非线性降维方法相同的缺 点:没有给出降维前后数据之间的映射关系,即只能得出训练数据在低维空问的 表示,新的测试数据并不能直接投影到低维空间。 ( 2 ) 最大差异投影方法 9 江苏大学硕士学位论文 方法的基本思想是:假设样本点中每个点都与其k 近邻点组成近邻图,在不 破坏点与点之间的近邻关系的基础上,如果能够找到一种映射使得非近邻点之间 的距离映射到低维空间后最大,那么样本点在低维空间的嵌入就能通过这种映射 关系得到。 2 ) 局部方法 主要的方法有局部线性嵌入l o c a l l yl i n e a re m b e d d i n g ( l l e ) ,拉普拉斯特征 映射算法l a p l a c i a ne i g e n m a p ( l e ) ,海赛局部线性嵌入算法h e i s s i a n - b a s el o c a l l y l i n e a r ( h l l e ) ,局部切空间排列算法l o c a lt a n g e n ts p a c ea l i g n m e n t ( l t s a ) 。 ( 1 ) 局部线性嵌入 l l e 是一种依赖于局部线性的流形算法,它认为在局部意义下数据的结构式 线性的,于是任取一点,可以用它的最近邻居点的线性组合来表示这一点。因而 l l e 算法的主要思想是建立原高维空间数据的邻近数据局部线性表示,通过在降 维空间中尽可能保持其局部线性表示特征来实现降维。l l e 的算法步骤描述如 下: 首先,确定每个数据点的k 最近邻居,通过最小化如下目标函数: 缈( 形) = 慨一圳2 ( 2 - 5 ) i = l = l 从而得到约束的权值矩阵肌 然后,使用已经获得的权值矩阵职通过最小化如下代价函数: 缈( y ) = 慨一”1 1 2 ( 2 6 ) i = l = i 计算出l l e 的最优嵌入j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训学校学生协议书
- 婚礼意向定金协议书
- 合肥拒绝婚检协议书
- 外包业务保密协议书
- 婚庆中心转让协议书
- 工人意外合同协议书
- 学校留存就业协议书
- 家族土地划分协议书
- 湖南省长沙市麓山国际实验学校2023-2024学年高一下学期第一次学情检测生物含解析
- 精粉绿色智能生产线项目实施方案(参考模板)
- 《民间艺术之剪纸》课件
- 《重大火灾隐患判定规则》知识培训
- 拟投入的勘察设计人员、设计机构设置和岗位职责
- CRC如何做好受试者管理
- 高压燃气管道工程定向钻穿越施工方案
- 未成年离异孩子改姓协议书范文(2篇)
- 2024年4月医学装备质量管理情况简报
- 矿井通风模拟设计-冯树鸣
- 耳石症的诊断与治疗
- 企业形象设计(CIS)战略策划及实施计划书
- 塔吊司机指挥安全培训
评论
0/150
提交评论