基于连续隐马尔科夫模型的语音识别.doc

基于连续隐马尔科夫模型的语音识别

收藏

压缩包内文档预览:(预览前20页/共89页)
预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图
编号:6350477    类型:共享资源    大小:415.87KB    格式:RAR    上传时间:2017-12-11 上传人:毕****做 IP属地:江苏
12
积分
关 键 词:
获取更多毕业论文/毕业设计 请登录360毕业设计网 www.bysj360.com 或加qq:604664738量身定做!
资源描述:
基于连续隐马尔科夫模型的语音识别,获取更多毕业论文/毕业设计,请登录360毕业设计网,,或加qq:604664738量身定做!
内容简介:
SHANGHAI UNIVERSITY毕业设计(论文)UNDERGRADUATE PROJECT (THESIS)论文题 目基于连续隐马尔科夫模型的语音识别学 院 机自 专 业 自动化学 号 03122669学生姓名 金微指导教师 李昕起讫日期 2007 3.206.6 1目 录摘要 -2ABSTRACT -2绪论 -3第一章 语音知识基础-6第一节 语音识别的基本内容-6第二节 语音识别的实现难点-9第二章 HMM 的理论基础-10第一节 HMM 的定义-10第二节 隐马尔科夫模型的数学描述-10第三节 HMM 的类型-12第四节 HMM 的三个基本问题和解决的方 -15第三章 HMM 算法实现的问题 -21第一节 HMM 状态类型及参数 B 的 选择-21第二节 HMM 训练时需要解决的问题 -23第四章 语音识别系统的设计 -32第一节 语音识别系统的开发环境-32第二节 基于 HMM 的语音识别系统的设计-32第三节 实验结果-49第五章 结束语 -67致谢 -68参考文献 -692摘要语音识别系统中最重要的部分就是声学模型的建立,隐马尔可夫模型作为语音信号的一种统计模型,由于它能够很好地描述语音信号的非平稳性和时变性,因此在语音识别领域有着广泛的应用。隐马尔可夫过程是一个双重随机过程:一重随机过程用于描述非平稳信号中短时平稳段的统计特征;另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性。为了能够对 HMM 有一个全面的认识并能够将其应用于解决实际问题当中,本文介绍了 HMM 的基本理论以及其如何将其应用于语音识别中,在解决 HMM 的三个基本问题以后,还谈论了在具体应用时需要考虑的其他问题,如初始模型参数的选取、数据下溢、HMM 之间距离的度量等等,并给出了相应的解决方法。这个语音识别系统是用 HMM 模型来实现的,用 HMM 来做语音识别的识别率是很高的,其中用到了 HMM 的三个算法。关键词:语音识别,HMM3ABSTRACTThe most important part of a recognition system is the acoustic model construction. As a statistic model for signal, HMM can describe the pronunciation signal non-stability and the variability well.For the sake of understand HMM systematically and apply it to solve real-world problem, this paper introduces the basic theory of HMM and how to use it in the speech recognition. After three basic problem solved,some other important issues in the application, for instance, selecting parameters of the initial model, data over-fitting and the distance degree between HMM, are discussed, then methods for settling those issues are put forward. In addition, it also explains design of the topology and its parameters optimization ways.This recognition system use HMM models come true. It is easier recognizable to use HMM recognize.In this system I use the three arithmetic of HMM.Keyword: Speech recognition,HMM 绪论4计算机技术的飞速发展,使人与机器用自然语言进行对话的梦想逐渐接近现实。人类的语言在人类的的智能组成中充当着极其重要的角色,人与人之间的交流和沟通 70%意商是通过语言的方式有效的完成。作为人与人之间交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。语音识别就是研究计算机听懂人类语言的一门科学。也是人机交互最重要的一步。进入九十年代之后,出现了诸多实用化的研究方向。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已大于 98%,对特定人语音识别系统的识别精度就更高。这些技术已经能满足通常应用的要求。由于大规模集成电路技术的发展,这下复杂的语音识别系统也已经完全可以制成芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些电话机、手机已经包含了语音识别拨号的功能,是有语音记事本、语音智能玩具等产品也包括了语音识别与语音合成的功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达 85%意商的人对语音识别信息查询服务系统的性能表示5满意。可以预测在近五十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,我们只能朝着改进语音识别系统的方向逐渐地前进。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室走向实用。从 1987 年开始执行国家 863 计划后,国家 863 智能计算机专家组为语音识别技术研究专门立项,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。第一章 语音识别基础第一节 语音识别的基本内容6语音识别是一种集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛的应用在信息处理、通信与电子系统、自动控制等领域。语音识别主要包括语音单元的选取,特征提取技术,模式匹配准则及模型训练技术三方面内容。语音识别的原理框图如图 1-1 所示:图 1-1 语音识别的原理框图一、识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词、音节和音素三种,具体选哪种,由具体的研究任务决定。单词单元广泛应用于中小词汇语音识别系统,但不是和大词汇系统,原因在于模型库规模太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多7见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,数量相对较少,并且汉语虽然有大约 1300个音节,但若不考虑声调,约有 408 个无调音节,数量相对较少。因此,对于大、中词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的;音素单元以前多见于英语语音识别系统的研究中,但目前大、中词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母和韵母构成,且声韵母的声学特性相差很大。实际应用中常把声母的不通而构成细化声母。由于协同发音的影响,音素单元的不稳定,所以如何获得稳定的音素单元,还有待研究。二、特征参数提取技术语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息是由特征提取完成的。特征参数提取的目的是对语音信号进行分析处理,提取对语音识别有用的信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于 10-100 之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑个方面的因素,如成本、性能、响应时间、计算量等。8非特定人语音识别系统一般侧重提取反应语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。线性预测分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于 LP 技术提取的倒谱参数。但线性预测模型是纯数学模型没有考虑人类听觉系统对语音的处理特点;Mel 参数和基于感知线性预测分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明采用这种技术语音识别系统的性能有一定提高。三、模式匹配和模型训练技术模型训练是按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW) 、隐马尔科夫模型(HMM)和人工神经元网络(ANN) 。DTW 是较早的一种模式匹配和模型训练技术,它应用动9态归划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被 HMM 模型和ANN 代替。HMM 模型是语音信号时变特征的有参表示法。它由相互关联的两个随即过程共同描述的统计特征,其中一个是隐蔽的具有有限状态的 Markov 链,另一个是与 Markov 链的每一个状态相互关联的观察矢量的随即过程。隐含 Markov 链的特征要依靠可观测到的信号特征表示。这样,语音等时变信号某一段的特征就由对应的观察符号的随即过程描述,而信号随时间的变化由隐蔽 Markov 链的转移概率描述。模型参数包括 HMM 拓朴结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM 模型可分为离散隐马尔科夫模型和连续隐马尔科夫模型以及半连续隐马尔科夫模型。一般来说,在训练数据足够是,CHMM 优于DHMM 和 SCHMM。HMM,模型的训练和识别都已经研究出有效的算法,并不断完善,以增强 HMM 模型的鲁棒性。人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN 本质上是一个自适应非线性动力学系统,模拟人10类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是 HMM 模型不具备的,但 ANN 又不具有 HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。ANN和 DTW 的结合以及 ANN 和 HMM 的结合是当前语音识别研究的一个方向。第二节 语音识别的实现难点语音信号的声学特征随与之前后的语音不同而有很大变化,且连续语音流中各种语音单位之间不存在明显的界线。语音特征随发音人的不同、发音人生理和心理状态的变化而有很大的差异。环境噪声电和传输设备的差异也将直接影响语音特征的提取。一个语句所表达的意思与上下文内容、说话时的环境条件及文化背景等因素有关,而语句的语法结构又是多变的,并且语境信息几乎是计算机语音识别无法利用的,所有这些都给语意的理解带来了和大的困难。11第二章 HMM 的理论基础第一节 HMM 的定义一、信号模型隐马尔科夫过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳的统计特征(信号的瞬态特征,可直接观测到) ;另一个重随机过程描述了每个短时平稳如何转12变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中) 。基于这两重随机过程,HMM 即可有效解决怎样辨识具有不同参数的短时平稳信号段,怎样跟踪它们之间的转化问题。人的语言过程也是这样一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的(不可观察的) 、根据言语需要和语法识别(状态选择) 、所发出的音素(词、句)的参数流,同时,大量实验表明,HMM 的确可以非成精确地描述语音信号的产生过程。第二节 隐马尔科夫模型的数学描述一、马尔科夫链定义随机序列 Xt,在任何时刻 t,可以处在状态 1, 2, n,且在 t+k 时刻的状态 qt+k的概率,只与它在 t 时刻的状态 qt有关,而与 t 时刻以前它所处在的状态无关。P(X t+kq t+k|Xtq t,X tq t)P(X t+kq t+k|Xtq t)K 步转移概率:P ij(t,t+k)P(q t+k j|qt j)13当 Pij(t,t+k)与 t 无关时,称马尔科夫链为齐次马尔科夫链。可写为:P ij(t,t+k)P ij(k)当 k1 时,P ij(1)为一步转移概率,记为 aij(1i+。如在 2-1(a)中,2,表示不允许一次跳跃经过两个以上的状态。图 2-1(b)是一种更常用,更简单的马尔科夫链,与图 2-1(a)相比,它不存在跨越状态,因而成为无跨越由左至右模型。图 2-1 典型马尔科夫链示意图二、全连结或个态遍历 HMM这种模型中从每个状态都可以一步到达其他状态。如图 2-2所示:17图 2-2 全连结 HMM在这种模型中每个系数 aij 都是正值。对应的转移矩阵如下:虽然可将 HMM 划分为全连结和由左至右模型,但还存在很多种可能的变化和组合。如图 2-3 所示的右左至右交叉耦合连接的HMM,严格的说,这种模型属于由左至右模型,因为它满足所有 aij 约束;但它具有由左至右模型所不具有的灵活性。图 2-3 左至右交叉耦合连接的 HMM由重估公式可以看出,如果 HMM 的任何参数造初始使设18置为 0,那么在整个重新估计过程中它仍然保持为零,所以这些加在由左至右或约束跳转模型上的于无数并不影响模型的重估过程。此外,从构成上 HMM 的变体还包括空转移和状态绑定HMM。前面介绍的 HMM 中观察响亮都是与模型状态相关,但也可考虑使观察向量与模型的弧相关联。这种类型的 HMM 在IBM 的连续语音识别中被广泛使用。空转移是指这种模型中从一个状态转移到另一个状态不产生输出的转移,通常用 表示输出的空值。如图 2-4 所示的具有空转移的由左至右 HMM:图 2-4 具有空转移的由左至右 HMM参数绑定 HMM 构成上的另一种变化。基本思想是在不同状态的 HMM 参数之间建立一个等价关系。这样不仅能够减少模型中独立参数的数量,还能简化参数估计。参数绑定应用于已知两个或更多状态的观察密度函数相同的情况,在刻画语音19是这种情况经常发生。此外,在训练数据不足时,使用这种技术非常有效。从观察概率密度方面可以分为离散 HMM、半连续 HMM 和连续概率密度 HMM。虽然通用形式的连续概率密度 HMM 适用于很多问题,但还存在其它非常适合处理语音的其他种类HMM。如自回归 HMM。在这类模型中,观察向量是通过一个自回归过程中提取的。第四节 HMM 的三个基本问题和解决的方法一、HMM 的三个基本问题欲使建立的隐马尔科夫模型能解决实际问题,则必须首先解决以下问题。(1)已知观察序列 O 和模型 (A,B,) ,如何计算由此模型产生此观察序列的概率 P(O| ) 。(2)已知观察序列 O 和模型 ,如何确定一个合理的状态序列,使之能最佳的产生 O,即如何选择最佳的状态序列qq 1,q T?(3)如何根据观察序列不断修正模型参数(A,B,) ,使P(O| )最大?20问题(1)实质上是一个模型评估问题,因为 P(O|)反映了观察序列与模型吻合的程度。在语音识别中,我们可以通过计算、比较 P(O| ) ,从多个模型参数中选择出与观察序列匹配得最好的那个模型。为了解决这个,已经研究出“前向后向”算法。问题(2)关键在于选用怎样的最佳准则来决定状态的转移。一种可能的最佳准则是:选择状态 q*t,使它们在各 t 时刻都是最可能的状态,即这里存在一个问题:有时会出现不允许的转移,即 aij0,那么,对这些 i 和 j 所得到的状态序列就是不可能的状态,而没有考虑整体结构、相邻时间的状态和观察序列的长度等问题。针对这个缺点要求人们研究一种在最佳状态序列基础上的整体约束的最佳准则,并用此准则找出一条最好的状态序列。目前,解决这个问题的最好方案是Viterbi 算法。问题(3)实质上就是如何训练模型,估计、优化模型参数21的问题。这个问题在这三个问题中是最难的,因为没有解析法可用来求解最大似然模型,所以只能用迭代法(BaumWelch 算法)或使用最佳梯度法。二、 “前向后向”算法问题 1 的解决方案从定义出发计算概率 P(O| ) ,可得下式:显然,按上式计算 P(O|)是不现实的,因为它的计算量相当大。为了 有效地解决这个问题,引入了向前概率和向后概率来简化计算。它们的定义及有关的递推公式如下。前向概率定义为 at(i)P (o 1ot,q ti|)即是在给定模型 的前提下,前 t 个时刻的观察序列为o 1ot ,且在 t 时刻处在状态 i 的概率。计算公式如下:后向概率定义为 t(i)P(o t+1oT,q ti|) ,即是在给定模型 下,从 t+1 时刻开始到观察结束这一段的观察序列为22o t+1oT ,且在 t 时刻处在状态 i 的概率。计算公式如下:根据前向及后向的概率定义可推倒出:或三、Viterbi 算法问题 2 的解决方案前面已经提到,如何确定一个最佳状态序列的关键在于选用怎样的最佳准则。考虑到状态序列的整体特性,Vitebi算法采用如下的最佳准则。即在 t 时刻选择状态 i,使模型 沿状态序列 q1,q t运动产生观察序列o 1ot的概率最大。根据定义,可以得到 t(i)的递推计算公式。23其中 t+1(j )的物理含义是若 t+1 的最佳状态为 j,则 t 时刻的最佳状态为 t(j) 。基于此最佳准则,我们可以通过下面的递推得到最佳状态序列 q*q *1q*T和 PO,q *| (在模型 下,按照最佳状态序列路径产生观察序列 O 的概率:四、Baum-Welch 算法 问题 3 的解决方案在介绍 Baum-Welch 算法之前,首先引入两个相关的概率定义 t(i,j)和 t(i) 。 t(i,j)表示在已知观察序列 O 和模型 的情况下,t 时刻处于状态 i,t+1 时刻处于状态 j 的概率, t(i,j)P (q ti ,q t+1j|O, ) 。通常 t(i,j)采用归一化形式,即式中 t(i ) , t(j)为前面提到的前向和后向概率。24t( i)为给定观察序列和模型 的条件下,t 时刻处于状态 i 的概率。根据定义有:结合 t(i,j)和 t(i)的定义,可知:为观察序列中,从状态 i 出发的状态转移次数的 期望。为观察序列中,从状态 i 到 j 的状态转移次数的期望。Baum-Welch 算法的基本思想是:按照某种参数重估公式从现有的模型 估计出新的模型 ,使得 P(O| )0);ind0 = find (trans0);ind0 = find(init0);ind0 = find(trans1if abs(pout(loop)-pout(loop-1)/pout(loop) 5e-3fprintf(收敛!n);returnendend62enddisp(迭代 40 次仍不收敛, 退出);程序中,输入参数有两个,结构数组 samples 内包含了观察序列的信息,每个 samples(k)都包含两个成员 samples(k).wave和 samples(k).data,分别为该观察序列的原始语音和参数。其中成员 data 可以在调用之前计算,也可以由 train 程序内计算。数组 M 包含了各状态对应的高斯混合数。七、测试程序利用训练函数 train.m 和识别函数 Viterbi.m,就可以对观察序列进行训练和识别了。下面是一段训练程序的脚本文件main.m。for i=1:11sample=;for k=1:10file=sprintf(c:Program FilesMATLAB71workcdhmmsamples1%d%d.wav,i,k);disp(file);sampleszik=wavread(file);sample(k).wave=sampleszik;sample(k).data=;end63hmmi=train(sample,3 3 3 3);endsave(hmm2, hmm);识别结果 hmm 为一个 cell 数组,每个元素为一个 hmm 结构,下面一段识别程序。首先用函数 wavread 将其读入,再用函数 vad 进行端点检测,计算出 MFCC 参数后,交由识别函数viterbi.m 计算得到其对数形式的输出概率,最后用 max 函数找到识别结果。下面是识别程序 recog.m 的代码:re=zeros(1,11);for i=1:11for k=1:10fname = sprintf(c:Program FilesMATLAB71workcdhmmsamples1%d%d.wav,i,k);% disp(fname);x = wavread(fname);x1 x2 =Evad(x);m = mfcc(x);m = m(x1-2:x2-2,:);for j=1:11pout(j)=viterbi(hmmj, m);endd,n = max(pout);64% fprintf(第%d识别为类型%dn,i,n)fprintf(词汇类别: %d;第%d 识别为类型%dn,i,k,n)if i=nre(i)=re(i)+1;endendendrate=sum(re)/66;fprintf(系统识别率: %dn,rate);第三节 实验结果本语音识别系统所用的语音库是十个足球术语的语音,它们分别为铲球、冲撞、点球、防守、红牌、加速、进球、起动、手球、暂停。一、训练结果第一次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 65重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.411308e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.392362e+004收敛!第二次:正在计算语音参数66第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.401391e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.382858e+00467收敛!第三次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.403604e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 682,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.381138e+004收敛!第四次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.396534e+004第 2 遍训练计算样本参数.691 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.371477e+004收敛!第五次:正在计算语音参数第 1 遍训练重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.403413e+004第 2 遍训练70计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.381350e+004收敛!第六次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 713,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.407844e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.387210e+004收敛!第七次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 72重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.404516e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.388031e+004收敛!第八次:正在计算语音参数73第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.397830e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.373674e+00474收敛!第九次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.402235e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 752,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.385979e+004收敛!第十次:正在计算语音参数第 1 遍训练1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.394908e+004第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 76重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.371249e+004收敛!第十一次:正在计算语音参数第 1 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.408748e+00477第 2 遍训练计算样本参数.1 2 3 4 5 6 7 8 9 10 重估转移概率矩阵 A.重估混合高斯的参数.1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 4,1 4,2 4,3 总和输出概率(log)=-6.389261e+004收敛!二、识别结果词汇类别:1;第 1 次识别为类型 9词汇类别:1;第 2 次识别为类型 11词汇类别:1;第 3 次识别为类型 4词汇类别:1;第 4 次识别为类型 10词汇类别:1;第 5 次识别为类型 1178词汇类别:1;第 6 次识别为类型 8词汇类别:1;第 7 次识别为类型 4词汇类别:1;第 8 次识别为类型 4词汇类别:1;第 9 次识别为类型 4词汇类别:1;第 10 次识别为类型 8词汇类别:2;第 1 次识别为类型 9词汇类别:2;第 2 次识别为类型 11词汇类别:2;第 3 次识别为类型 4词汇类别:2;第 4 次识别为类型 10词汇类别:2;第 5 次识别为类型 11词汇类别:2;第 6 次识别为类型 8词汇类别:2;第 7 次识别为类型 4词汇类别:2;第 8 次识别为类型 4词汇类别:2;第 9 次识别为类型 4词汇类别:2;第 10 次识别为类型 8词汇类别:3;第 1 次识别为类型 979词汇类别:3;第 2 次识别为类型 11词汇类别:3;第 3 次识别为类型 4词汇类别:3;第 4 次识别为类型 10词汇类别:3;第 5 次识别为类型 11词汇类别:3;第 6 次识别为类型 8词汇类别:3;第 7 次识别为类型 4词汇类别:3;第 8 次识别为类型 4词汇类别:3;第 9 次识别为类型 4词汇类别:3;第 10 次识别为类型 8词汇类别:4;第 1 次识别为类型 9词汇类别:4;第 2 次识别为类型 11词汇类别:4;第 3 次识别为类型 4词汇类别:4;第 4 次识别为类型 10词汇类别:4;第 5 次识别为类型 11词汇类别:4;第 6 次识别为类型 8词汇类别:4;第 7 次识别为类型 480词汇类别:4;第 8 次识别为类型 4词汇类别:4;第 9 次识别为类型 4词汇类别:4;第 10 次识别为类型 8词汇类别:5;第 1 次识别为类型 9词汇类别:5;第 2 次识别为类型 11词汇类别:5;第 3 次识别为类型 4词汇类别:5;第 4 次识别为类型 10词汇类别:5;第 5 次识别为类型 11词汇类别:5;第 6 次识别为类型 8词汇类别:5;第 7 次识别为类型 4词汇类别:5;第 8 次识别为类型 4词汇类别:5;第 9 次识别为类型 4词汇类别:5;第 10 次识别为类型 8词汇类别:6;第 1 次识别为类型 9词汇类别:6;第 2 次识别为类型 11词汇类别:6;第 3 次识别为类型 481词汇类别:6;第 4 次识别为类型 10词汇类别:6;第 5 次识别为类型 11词汇类别:6;第 6 次识别为类型 8词汇类别:6;第 7 次识别为类型 4词汇类别:6;第 8 次识别为类型 4词汇类别:6;第 9 次识别为类型 4词汇类别:6;第 10 次识别为类型 8词汇类别:7;第 1 次识别为类型 9词汇类别:7;第 2 次识别为类型 11词汇类别:7;第 3 次识别为类型 4词汇类别:7;第 4 次识别为类型 10词汇类别:7;第 5 次识别为类型 11词汇类别:7;第 6 次识别为类型 8词汇类别:7;第 7 次识别为类型 4词汇类别:7;第 8 次识别为类型 4词汇类别:7;第 9 次识别为类型 482词汇类别:7;第 10 次识别为类型 8词汇类别:8;第 1 次识别为类型 9词汇类别:8;第 2 次识别为类型 11词汇类别:8;第 3 次识别为类型 4词汇类别:8;第 4 次识别为类型 10词汇类别:8;第 5 次识别为类型 11词汇类别:8;第 6 次识别为类型 8词汇类别:8;第 7 次识别为类型 4词汇类别:8;第 8 次识别为类型 4词汇类别:8;第 9 次识别为类型 4词汇类别:8;第 10 次识别为类型 8词汇类别:9;第 1 次识别为类型 9词汇类别:9;第 2 次识别为类型 11词汇类别:9;第 3 次识别为类型 4词汇类别:9;第 4 次识别为类型 10词汇类别:9;第 5 次识别为类型 1183词汇类别:9;第 6 次识别为类型 8词汇类别:9;第 7 次识别为类型 4词汇类别:9;第 8 次识别为类型 4词汇类别:9;第 9 次识别为类型 4词汇类别:9;第 10 次识别为类型 8词汇类别:10;第 1 次识别为类型 9词汇类别:10;第 2 次识别为类型 11词汇类别:10;第 3 次识别为类型 4词汇类别:10;第 4 次识别为类型 10词汇类别:10;第 5 次识别为类型 11词汇类别:10;第 6 次识别为类型 8词汇类别:10;第 7 次识别为类型 4词汇类别:10;第 8 次识别为类型 4词汇类别:10;第 9 次识别为类型 4词汇类别:10;第 10 次识别为类型 8词汇类别:11;第 1 次识别为类型 984词汇类别:11;第 2 次识别为类型 11词汇类别:11;第 3 次识别为类型 4词汇类别:11;第 4 次识别为类型 10词汇类别:11;第 5 次识别为类型 11词汇类别:11;第 6 次识别为类型 8词汇类别:11;第 7 次识别为类型 4词汇类别:11;第 8 次识别为类型 4词汇类别:11;第 9 次识别为类型 4词汇类别:11;第 10 次识别为类型 8系统的识别率:1.515152e-00185第六章 结束语本文介绍了 HMM 的基本理论以及如何将其应用于语音识别中,并对其在应用过程中的各种问题给出了相应的解决方法。但是,使用 HMM 进行声学建模也存在一定的局限性。通常语音信号的采集是有背景噪声的,同时所采集的语音都是要经过信道的,因此,被用来处理的语音数据事实上都要经过信道的畸变。这样被用来训练产生统计模型的数据实际上是受过污染的。训练数据不仅仅记录了语音的特征,还反映了训练的环境的特征,并且这些特征被记录下到我们训练的统计模型中。这就造成了在训练和测试环境不同情况下的失配。虽然 HMM的训练和识别算法不断被完善,但如何提高 HMM 模型的鲁棒性和适应性的问题还没有根本解决,还有待进一步研究。此外,人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN 本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是 HMM 模型不具备的,但 ANN 又不具备HMM 模型的动态时间归正性能。因此,现在已有人研究如何认把二者的优点有机结合起来,从而提高整个模型的鲁棒性。86致 谢首先,感谢李昕老师,在本文的工作在李昕老师的指导下完成。从最初的论文选题,到其间语音识别系统的设计与实现,无不有李昕老师的精心指导和悉心教诲,李老师对我的严格要求和亲切的鼓励是我前进的动力。李老师儒雅的学者风度、严谨的治学态度、孜孜不倦的科研精神是我一生的学习榜样。其次,感谢李昕老师所带的两位
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:基于连续隐马尔科夫模型的语音识别
链接地址:https://www.renrendoc.com/p-6350477.html

官方联系方式

2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ:2881952447     

copyright@ 2020-2024  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!