




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏师范大学物理与电子工程学院本科毕业论文设计开题报告题目语种辨识和说话者辨识的建模方法研究学生姓名学生学号所学专业班级指导教师一、选题目的、意义及研究现状引言1、语音识别技术的发展起步期5060年代1952年,BELL实验室的DAVIS、BIDDULPH和BALASHEK利用共振峰特征实现世界上第一个十个英文数字的语音识别系统AUDRY系统。发展期60年代末期70年代动态规划(DP)的方法的提出。线性预测编码(LPC)引入语音识别,动态时间规整(DTW)在语音识别领域得到全面的发展。MEL倒谱特征的提出。突破期80年代首先是HMM技术用于语音识别,现在已经成为语音识别的核心技术之一,另一个重要成就是以N元文法为代表的统计语言模型在语音识别中得到广泛的应用,到了80年代末期,由于声学模型和语言模型研究的进展,80年代另一个引人注目的动态是人工神经网络在语音识别领域的应用。成熟期90年代至今语音识别技术从实验室走向实用,并且出现商品化的系统,其中包括IBM公司的VIAVOICE系统,DRAGON公司的NATURALLYSPEAKING,剑桥大学的HTK系统,MICROSOFT的WHISPER等2、语种辨识和说话者辨识的建模方法研究1)语种辨识语种辨识是通过分析一个语言片段以判别其所属语言的语种。最初的方法有基于滤波器组的提取声学特征方法,共振峰矢量量化方法等。HOUSE和NEUBURG最早提出用不同语言的不同音素规范建立语言模型来辨识语种的方法。后来他们又用有限状态模型来研究广义音素集中转移概率。随着语音处理技术的提高,人们又提出了更多复杂的方法,包括矢量量化(VQ)方法、隐马尔可夫模型(HMM)方法、神经网络(NN)方法等。2)说话者辨识说话者辨识的研究起步较早,从20世纪30年代就有人开始研究,目前说话者识别的研究重点集中在说话人个性特征的分离提取、个性特征的增强、对各种反映说话人特征的声学参数的线性和非线性处理以及新的说话人模式匹配方法上,建模方法主要有动态时间规整(DTW)、矢量量化方法(VQ)、隐马尔可夫模型(HMM)方法、神经网络(NN)方法。选题依据和意义汉语语音识别经过40多年的发展,已经开始向实用化的方向转换,但汉语方言分布广泛,各地的方言口音的差异严重影响了语音识别技术的推广,我们通过研究汉语方言辨识来判别不同说话者的方言区域,然后用各方言模型来识别说话的内容,这样能提高识别效果。国外研究较多的是语种辨识,而汉语方言间和国外一些语种在声学上的差距类似,因此,我们可以借鉴语种辨识的建模方法来研究汉语方言辨识的建模。汉语方言辨识的统计建模为语音识别的建模研究提供了一条新的思路,同时通过考察汉语方言在声学模型和语言学模型,我们可以制定汉语方言的模型,这为汉语方言的分区研究提供了量化的准则。前人的工作1、汉语方言辨识的传统方法传统的方言辨识主要依靠人耳的听辨,当然辨识方言的人都是经过一定训练的专家,而且局限性很大,一般即使很熟练的专家在听辨方言也不可能对每种方言都很熟悉。用传统语言学知识建模的另一个弊端是有些知识是针对人来研究的,计算机不好表示,无法作出相应的程序通过计算机来识别方言。但传统的方言学中归纳的方言区别特征对我们有一定的借鉴意义,如方言学中有几条划分方言的标准各方言入声的差异、元音的长短和声韵母的组合等,可以作为先验语言知识,建立语言模型,加入到系统中,提高系统的识别效果,减少训练量。2、基于统计的方法基于统计的方法可以通过在大型的语料库中训练来找出方言之间的区别性的特征,包括声学特征和语言学的特征,然后根据这些特征建立相应的各种方言的模型。用统计的方法可以快速准确的建立方言模型,只要对几种方言能够适用,那对更多的方言也同样适合,具有很强的可移植性,另外基于统计的方法还可以进行大规模的推广。3、国内外研究的现状国外的方言辨识研究主要有ITTKPLI和MITLINCOLNLABORATORYMARCAZISSMAN等人,他们基本上是在研究语种辨识的框架下进行的方言辨识的研究,前面已经介绍了语种辨识的一般方法,这里不在赘述。广西大学的陈海伦曾提出方言的机器识别研究,他通过话语在调域和变调规律的差异来确定其方域范围。台湾的蔡伟和和张文辉等则提出了基于高斯混合二元模型GMBM来识别台湾话、客家话和普通话的方法。蔡伟和等又提出用隐马尔可夫模型(HMM)的方法来辨识方言。首先他们把语音转换成5大类广义音素集(停顿、擦音、塞擦音、鼻音、元音和双元音),然后再通过语言模型进行判别。二、毕业论文(设计)的主要内容本文的研究思路我们的研究方法主要借鉴语种辨识和说话者辨识的方法。由于汉语方言的差异较大,有些汉语方言间语音上的差异距离和国外语种在语音上的差异相似,所以我们可以借用语种辨识的统计建模方法。另外说话者辨识中的一些成熟的统计建模方法,也可以作为我们的参照。具体的汉语方言辨识的统计建模方法主要从声学建模和语言学建模两个方面来考虑一种方法是直接提取语音的声学特征,建立各方言的声学模型。这种方法的主要特点是简单,不需要用复杂的语言学知识,而且可以进行大规模的训练,不足之处是识别的正确率不高。另一种方法是系统中同时要用到声学模型和语言学模型,这里又可以分为两种思路,一条思路是在大词汇连续语音识别的基础上,把语音转写成音素,再加上各方言的语言模型,根据判决规则给出最有可能的语言。还有一条思路就是建立几个音素集,首先把语音转写成音素集,然后建立语言模型进行判别。这种方法的优点是能利用语言的各个层面的信息,识别效率高,缺点是要给每种方言都建立一套大词汇量连续语音识别系统,而且要训练的数据量较大。研究的内容1、声学建模1)基于高斯混合模型(GMM)方法我们首先提取语音的MFCC和F0,这两种特征是由声道的形状和激励信号决定的,计算其一阶和二阶差分,体现语音的动态特征,建立39维参数,建立高斯混合模型(GMM)。GMM的基本概念一个M阶的混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到的,公式如下XBWPII1/其中X是一个D维随机向量,I1,M是子分布,,I1,M是混合权重。,TIWI每个子分布是D维的联合高斯密度概率分布,可以表示为IITIII121EXP是均值向量,是协方差矩阵,混合权值满足以下条件II完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为1MIWMIIIW,1,对于给定的时间序列XXT,T1,2,T,利用GMM模型求得的对数似然度可定义如下TITTPXL/LOG1/GMM模型的参数估计GMM模型的训练是给定一组训练数据,依据某种准则确定模型的参数。最常用的参数估计方法是最大似然值(MAXIMUMLIKEHOOD,简称ML)但对于GMM模型来说,用ML算法来估计参数,很难求得最大值,因此常采用期望最大化算法(EXPECTATIONMAXIMIZATIONALGORITHM,简称EMALGORITHM)来估计参数。EM算法的计算是从参数的一个初值开始,采用EM算法估计出一个新的参数,使得新的模型参数下的似然度。新XP的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛,每一次迭代运算保证模型似然度的单调递增。要注意的是在使用EM算法训练GMM时,GMM模型的高斯分量的个数M和模型的初始参数必须首先确定。GMM模型的识别问题识别的任务是对给定的语音样本,在方言口音集中判别该语音所属的方言,更形象的说就是找到一个方言口音I,其对应的模型,使得待识别语音特征向量组X具有最大后验概率PI/X(具体的系统结构框图略)根据BAYES理论,最大后验概率可表示为其中,其对数形式如下XPIIITTTP1TTT1LOGLOG因为在我们的方言口音样本集中假定P(I)的概率是均等的,也就是每种方言口音的概率平均,对于一个去顶的观察矢量X,P(X)是一个确定的常数值,对每种方言口音也都相同。因此求取后验概率的最大值可以通过求取P(X/I)获得,这样辨认该语音属于语音库中的哪一种说话人可以表示为MAXRGII基于GMM方法的特点使用GMM模型作为汉语方言辨识的分类器,计算量小,能够快速处理数据,而且选取特征容易,不需要太大的语料库,能够做到实时处理。另外用GMM模型是直接从声学信号中提取特征,不需要进行音素的转写,更不需要建立语言模型。缺点是提取的特征不一定能够代表方言的特征,误识率较高。2)基于隐马尔可夫模型(HMM)方法1、HMM的表示其中S模型中的有限集合,O输出的观测值符号,A状态转移的集合,B输出观测值概率的集合,系统初始状态概率的集合,F系统终了状态的集合。2、HMM的识别给定观测符号序列O和模型M,快速计算观测符号序列的输出概率P(O|M),一般用前向后向(FORWARDBACKWARD)算法。3、HMM的最佳状态训练给定观测字符号序列和输出该符号序列的模型M,如何确定与之相对应的最佳的状态序列,维特比(VITERBI)算法。4、模型训练对于初始模型和给定用于训练的观测符号序列O,如何调整M的参数,使的输出概率P(O|M)最大,用BAUMWELCH算法。用HMM做语种辨识时主要有两条道路,一是首先识别语流中的音素序列,然后再用NGRAM模型来计算音素序列概率,这种方法有两个缺点,如果给出待测语音过短,那识别的效果很差,因为缺少必要的上下文信息,另外如果来辨识新的语种时,对一些新的音素和音素组合,那辨识的效果也很差。另一种方法是把发音的特征分为5大类发音的方式、子音的位置、元音的位置、舌头的前后位置和嘴唇的圆与不圆。这种方法的好处是不需要太多的语音材料,另外即使对一些新的方言来说,没有出现的特征也很少。根据汉语方言的特点,首先识别方言中的声韵母,根据声韵母的搭配来辨识方言的种类,另外是提取方言中的超音段音位的信息,如声调信息、韵律信息等来辨识方言。基于HMM的方法要首先识别方言中的音素,然后再通过一定的语言模型来判别待测的方言的种类。2语言学建模在语音识别中常用的语言模型是N元统计模型,其主要的思想是符号序列的第N个元素产生的概率由符号的前N1个元素决定。在我们的汉语方言辨识的系统中用的语言模型主要是对语音转写后的音素序列或音素宽范畴序列进行建模。具体的N元模型介绍如下1)N元统计模型的计算公式WPIIIWNIN1,2,1|12)一般计算方法WINIIIFIII1,2,1,|,|3)常采用的模型二元模型BIGRAM、三元模型TRIGRAM4)参数平滑方法回退法(BACKOFF)或删除插值法(DELETEDINTERPOLATION)3、决策方法本文的汉语方言辨识的决策方法主要用到最近邻决策方法,主要思想是通过计算说话人模型之间的“距离”来得到识别结果。具体的步骤是通过测试语音训练得到一个测试模型,然后计算此测试模型与各个已知说话人模型的距离,将距离最小的那个说话人标记输出为识别结果假设类的判别函数为WI,FSCKXGIKI,21,MN其中的角标表示类,K表示个样本的第K个。XKIIWINI若则决策也即对未知样本,我们只要比较与个已知JXXXCIIN1样本之间的欧氏距离,并决策离他最近的样本同类。论文创新之处和以后研究的方向1、创新之处用高斯混合模型(GMM)的方法来研究汉语方言的辨识。用隐马尔可夫模型(HMM)的方法来研究汉语方言的辨识。为各方言音素建立语言模型。2、以后继续研究的方向建立神经网络模型进行方言辨识研究集成分类器对提高辨识方言的效率的影响研究各方言的区别特征,建立决策树模型来辨识方言。三、毕业论文设计的进度安排CIGIJ,21,MN四、参考文献边肇祺等模式识别清华大学出版社2000陈海伦方言机器识别技术研究公安大学学报2000年1期顾明亮语音识别鲁棒性研究的非线性方法博士论文东南大学1998年江苏省和上海市方言调查指导组编江苏省和上海市方言概况江苏人民出版社1960年第一版高升语境相关的声学模型和搜索策略的研究博士论文中国科学院自动化研究所2001年李如龙汉语方言的对比研究商务印书馆2001刘洋基于声纹特征与语义信息的身份认证系统研究硕士论文中国科学院自动化研究所2002年吴宗济实验语音学概要高等教育出版社1989谢锦辉隐马尔可夫模型基本原理杨行峻等语音信号数字处理电子工业出版社1993詹伯慧汉语方言及方言调查湖北教育出版社1991赵力语音信号处理机械工业出版社2001FREDERICKJELINEKSTATISTICALMETHODSFORSPEECHRECOGNITIONTHEMITPRESS1998JEROMEFARIASFRANCOISPALLEGRINOAUTOMATICRHYTHMMODELINGFORLANGUAGEIDENTIFICATIONKATRINKIRCHHOFF,SONIAPARANDEKAR,JEFFBILMESMIXEDMEMORYMARKOVMODELSFORAUTOMATICLANGUAGEIDENTIFICATION2001KAYMARGARETHEBERKLINGAUTOMATICLANGUAGEIDENTIFICATIONWITHSEQUENCESOFLANGUAGEIDEPENDENTPHONEMECLUSTERSPHDTHESISOREGONGRADUATEINSTITUTE,OCTOBER1996PEDROATORRESCARRASQUILLO,DOUGLASAREYNOLDSANDJRDELLER,JRLANGUAGEIDENTIFICATIONGAUSSIANMIXTUREMODELTOKENIZATIONPONGTEPANGKITITRAKULANDJOHNHLHONSENSTOCHASTICTRAJECTORYMODELANALYSISFORACCENTCLASSIFICATIONRICHARDODUDAPETEREHARTDAVIDGSTORKPATTERNCLASSIFICATIONTANJIASCHULTZ,QINJIN,KORNELLASKOWSKI,ALICIATRIBBLE,ALEXWAIBELSPEAKER,ACCENT,ANDLANGUAGEIDENTIFICATIONUSINGMULTILINGUALPHONESTRINGS2002TAOCHEN,CHAOHUANG,ERICCHANGANDJINGCHUNWANGAUTOMATICACCENTIDENTIFICATIONUSINGGAUSSIANMIXTUREMODELSTIMOTHYJHAZENANDVICTORWZUESEGMENTBASEDAUTOMATICLANGUAGEIDENTIFICATIONJOURNALOFTHEACOUSTICALSOCI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班幼儿育儿小知识培训课件
- 大洋洲地理课件
- 大棚种苗知识培训课件
- 大棚知识讲解员培训内容课件
- 2025年高温超导材料项目规划申请报告
- 三方商标使用协议
- 输出协议模板
- 海南省公考真题2025
- 2024年安顺市西秀区招聘公费师范生真题
- 绿牌车出租协议
- 2025年住培结业考试题库及答案
- 2025年重庆辅警管理知识模拟100题及答案
- 创伤急救基本知识培训课件
- DB42∕T 2151-2023 应急物资储备库建设规范
- 2025年二级建造师继续教育题库及参考答案(完整版)
- 胶水储存管理办法
- 精神患者家属健康教育讲座
- 合同第三方见证人范本
- 分包招采培训课件
- 公司全员销售管理办法
- 实验室生物安全知识培训考试试题(含答案)
评论
0/150
提交评论