实验报告-基于GMM-HMM的语音识别.doc

上传人：简*** IP属地：湖北上传时间：2020-03-25 格式：DOC 页数：13 大小：366.83KB 积分：9.6 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多媒体技术实验报告基于GMM-HMM的语音识别姓名：学号：2015年5 月24 日目录基于GMM-HMM的语音识别1一、马尔科夫初步概念理解2(一)两个重要的图2(二)问题：马尔科夫的开始状态如何确定？3二、马尔科夫的三种问题，以及解法3(一)解码，3解法一：最大似然路径3解法二 : Viterbi algorithm3(二)已知A，B，根据骰子掷出的结果，求出掷出这个结果的概率（模型检验）5解法一：穷举5解法二：前向算法5(三)知道骰子状态有几种，不知道A，知道B，观察到很多次投骰子的结果（可见状态链），我想反推出A。5三、HMM算法使用条件5(一)隐性状态的转移必须满足马尔可夫性5(二)隐性状态必须能够大概被估计。5四、EM算法GMM（高斯混合模型）。6(一)单高斯分布模型GSM7(三)样本分类已知情况下的GMM8(四)样本分类未知情况下的GMM8五、HMM-GMM模型在语音识别中的应用10(一)语言识别的过程10(二)其中HMM与GMM的作用11六、实验结果11(一)代码阅读以及注释11(二)实验结果对比11(三)与DTW结果对比12(四)实验感想与收获12(五)困难与改进12一、马尔科夫初步概念理解(一) 两个重要的图 (二) 问题：马尔科夫的开始状态如何确定？二、马尔科夫的三种问题，以及解法(一) 解码，已知A，B（隐含状态的数量以及转换概率以及B），根据掷骰子掷出的结果（可见状态链），想知道每次掷出来的都是哪种骰子（隐含状态链）解法一：最大似然路径基本思想：求一串骰子序列，这串骰子序列产生观测结果的概率最大算法：穷举解法二 : Viterbi algorithm，求出每次掷出的骰子分别是某种骰子的概率基本思想：算法: 类似于动态规划；：(二) 已知A，B，根据骰子掷出的结果，求出掷出这个结果的概率（模型检验）解法一：穷举思想：穷举所有骰子序列（），计算每个骰子序列对应的概率,然后把这些概率相加算法：呵呵解法二：前向算法基本思想：结果递推，有点像动态规划，就是一步一步往后算，通过前向算法，算出概率加和，其中要用到A和B (三) 知道骰子状态有几种，不知道A，知道B，观察到很多次投骰子的结果（可见状态链），我想反推出A。三、 HMM算法使用条件但是使用HMM进行建模的问题，必须满足以下条件,(一) 隐性状态的转移必须满足马尔可夫性。(状态转移的马尔可夫性:一个状态只与前一个状态有关)(二) 隐性状态必须能够大概被估计。在满足条件的情况下,确定问题中的隐性状态是什么,隐性状态的表现可能又有哪些.HMM适用于的问题在于，真正的状态(隐态)难以被估计，而状态与状态之间又存在联系。四、 EM算法GMM（高斯混合模型）。聚类的方法有很多种，k-means要数最简单的一种聚类方法了，其大致思想就是把数据分为多个堆，每个堆就是一类。每个堆都有一个聚类中心（学习的结果就是获得这k个聚类中心），这个中心就是这个类中所有数据的均值，而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心（分类的过程就是将未知数据对这k个聚类中心进行比较的过程，离谁近就是谁）。其实k-means算的上最直观、最方便理解的一种聚类方式了，原则就是把最像的数据分在一起，而“像”这个定义由我们来完成，比如说欧式距离的最小，等等。想对k-means的具体算法过程了解的话，请看这里。而在这篇博文里，我要介绍的是另外一种比较流行的聚类方法-GMM（Gaussian Mixture Model）。 GMM和k-means其实是十分相似的，区别仅仅在于对GMM来说，我们引入了概率。说到这里，我想先补充一点东西。统计学习的模型有两种，一种是概率模型，一种是非概率模型。所谓概率模型，就是指我们要学习的模型的形式是P(Y|X)，这样在分类的过程中，我们通过未知数据X可以获得Y取值的一个概率分布，也就是训练后模型得到的输出不是一个具体的值，而是一系列值的概率（对应于分类问题来说，就是对应于各个不同的类的概率），然后我们可以选取概率最大的那个类作为判决对象（算软分类soft assignment）。而非概率模型，就是指我们学习的模型是一个决策函数Y=f(X)，输入数据X是多少就可以投影得到唯一的一个Y，就是判决结果（算硬分类hard assignment）。回到GMM，学习的过程就是训练出几个概率分布，所谓混合高斯模型就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。得到概率有什么好处呢？我们知道人很聪明，就是在于我们会用各种不同的模型对观察到的事物和现象做判决和分析。当你在路上发现一条狗的时候，你可能光看外形好像邻居家的狗，又更像一点点女朋友家的狗，你很难判断，所以从外形上看，用软分类的方法，是女朋友家的狗概率51%，是邻居家的狗的概率是49%，属于一个易混淆的区域内，这时你可以再用其它办法进行区分到底是谁家的狗。而如果是硬分类的话，你所判断的就是女朋友家的狗，没有“多像”这个概念，所以不方便多模型的融合。(一) 单高斯分布模型GSM多维变量X服从高斯分布时，它的概率密度函数PDF为：x是维度为d的列向量，u是模型期望，是模型方差。在实际应用中u通常用样本均值来代替，通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和，把x代入（1）式，当概率大于一定阈值时我们就认为x属于C类。从几何上讲，单高斯分布模型在二维空间应该近似于椭圆，在三维空间上近似于椭球。遗憾的是在很多分类问题中，属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。(二) 高斯混合模型GMMGMM认为数据是从几个GSM中生成出来的，混合高斯模型的定义为：其中K为模型的个数，k为第k个高斯的权重，则为第k个高斯的概率密度函数，其均值为k，方差为k。我们对此概率密度的估计就是要求k、k和k各个变量。当求出的表达式后，求和式的各项的结果就分别代表样本x属于各个类的概率。K需要事先确定好，就像K-means中的K一样。k是权值因子，表示在所有样本中，k类占的权重。其中的任意一个高斯分布N(x;uk,k)叫作这个模型的一个component。这里有个问题，为什么我们要假设数据是由若干个高斯分布组合而成的，而不假设是其他分布呢？实际上不管是什么分布，只K取得足够大，这个XXMixture Model就会变得足够复杂，就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能，所GMM被广泛地应用。GMM是一种聚类算法，每个component就是一个聚类中心。即在只有样本点，不知道样本分类（含有隐含变量）的情况下，计算出模型参数（，u和）-这显然可以用EM算法来求解。再用训练好的模型去差别样本所属的分类，方法是：step1随机选择K个component中的一个（被选中的概率是k）；step2把样本代入刚选好的component，判断是否属于这个类别，如果不属于则回到step1。(三) 样本分类已知情况下的GMM当每个样本所属分类已知时，GMM的参数非常好确定，直接利用Maximum Likelihood。设样本容量为N，属于K个分类的样本数量分别是N1,N2,.,Nk，属于第k个分类的样本集合是L(k)。(四) 样本分类未知情况下的GMM在做参数估计的时候，常采用的方法是最大似然。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小，N很大的时候这个连乘的结果非常小，容易造成浮点数下溢。所以我们通常取log，将目标改写成：也就是最大化log-likelyhood function，完整形式则为：一般用来做参数估计的时候，我们都是通过对待求变量进行求导来求极值，在上式中，log函数中又有求和，你想用求导的方法算的话方程组将会非常复杂，所以我们不好考虑用该方法求解（没有闭合解）。可以采用的求解方法是EM算法将求解分为两步：第一步是假设我们知道各个高斯模型的参数（可以初始化一个，或者基于上一步迭代结果），去估计每个高斯模型的权值；第二步是基于估计的权值，回过头再去确定高斯模型的参数。重复这两个步骤，直到波动很小，近似达到极值（注意这里是个极值不是最值，EM算法会陷入局部最优）。具体表达如下： 1、对于第i个样本xi来说，它由第k个model生成的概率为：在这一步，我们假设高斯模型的参数和是已知的（由上一步迭代而来或由初始值决定）。（E step）（M step） 3、重复上述两步骤直到算法收敛（这个算法一定是收敛的，至于具体的证明请回溯到EM算法中去，而我也没有具体关注，以后补上）。五、 HMM-GMM模型在语音识别中的应用(一) 语言识别的过程语音识别问题就是将一段语音信号转换为文字序列的过程. 在个问题里面隐性状态就是: 语音信号对应的文字序列而显性的状态就是: 语音信号.HMM模型的学习(Learning): 语音识别的模型学习和上文中通过观察骰子序列建立起一个最有可能的模型不同.语音识别的HMM模型学习有两个步骤:1. 统计文字的发音概率,建立隐性表现概率矩阵2. 统计字词之间的转换概率(这个步骤并不需要考虑到语音,可以直接统计字词之间的转移概率即可)语音模型的估计(Evaluation): 计算是十四”,四十四等等的概率,比较得出最有可能出现的文字序列.(二) 其中HMM与GMM的作用其中HMM模型如同一根线，从前向后，模拟了人类的发音过程，将其分化为各个状态。而GMM如同线上的一颗颗珠子，以概率的形式描述了每个状态内容参考文献：/jwh_bupt/article/details/7663885/zhangchaoyang/articles/2624882.html六、实验结果(一) 代码阅读以及注释请参见.m文件，作业中提交的.m文件都是经过阅读注释的。(二) 实验结果对比由于跑着实在太费机子了，期间还跑停机两次，于是实验结果不多编号迭代次数发射数Iter1Iter2Iter3HMM13689.0996.3697.27HMM23893.8198.7198.83HMM33994.2598.8799.16发射数为七的数据因为掉电没有了。但是可以清楚的看到随着发射数的增加，识别率明显增加，但是增加的值越来越下，识别率增长的速率随发射数和迭代数的增加而增加而根据“过拟合”原理，如果发射数持续递增，识别率会在到达某个顶点之后下降。(三) 与DTW结

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实验报告-基于GMM-HMM的语音识别.doc

文档简介

温馨提示

最新文档

评论

实验报告-基于GMM-HMM的语音识别.doc

文档简介

温馨提示

最新文档

评论

相关文档