科大讯飞语种识别系统介绍.ppt_第1页
科大讯飞语种识别系统介绍.ppt_第2页
科大讯飞语种识别系统介绍.ppt_第3页
科大讯飞语种识别系统介绍.ppt_第4页
科大讯飞语种识别系统介绍.ppt_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语种识别系统介绍,提纲,语种识别系统框架 Acoustic-GMM系统介绍 Acoustic-GSV系统介绍,语种识别系统框架,现有语种识别系统的主流方法包括基于Acoustic的方案和基于Phone Recognize的方案,这两种系统由于建模方法等的差异,具有较好的互补性,图1:语种识别系统框架,Acoustic系统介绍,图2:Acoustic系统框架,Acoustic系统 基于Acoustic的语种识别由于其稳定性和鲁棒性,在语种识别中获得的广泛的应用, 是历届NIST LRE比赛中不可缺少的基本系统之一。Acoustic系统又包括GMM-MMI 系统和GMM-SVM两种建模方式:,Acoustic系统-GMM-MMI系统框架,图3 GMM-MMI系统流程图,GMM-MMI系统可以分成三大块:特征提取模块、模型训练模块以及测试模块,下面分别介绍三个部分,特征提取模块(1),1) MFCC: 语种识别系统中,仅使用MFCC(Mel-Frequency Cepstral Coefficient)的C0C6前7阶参数, 后面在此基础上,进行SDC扩展。 2)VTLN 声道长度规整(Vocal Tract Length Normalization,VTLN),将每个人的声道规整到统一的长 度上,用来减弱不同发音人带来的影响。 3)RASTA RelAtive SpecTrAl这个词组的简称,是Hynek Hermansky等人根据人类语音听觉感知对于激励源缓变不敏感的这种特性,提出的一种对于语音参数的时间轨迹进行滤波,以便从语音的参数表示中减小非语音部分的频谱部分的方法,是一种经验性的滤波器:,图4 特征提取顺序,特征提取模块(2),4) SDC: Shifted Delta Cepstra 也称为移位差分倒谱特征,特征提取模块(3),(5)Voice Activity Detection-VAD对识别性能影响很大,在语种识别系统中主要采用基于能 量四门限的VAD技术 (6)倒谱均值相减(Cepstral Mean Subtraction,CMS) 基于不变信道的假设一种外部信道估计。信道的噪声可以看成是信道固定的系统畸变和随机信道传输噪声(认为是白噪声)的和。倒谱参数上减去均值,相应的也就去除了调制噪声。 (7)特征高斯化 语种识别所用参数,本身都是随机矢量,因而具有相应的概率分布,训练和识别信道的不匹配也就体现在概率分布的差别上。受实际环境的影响,特征参数的概率分布往往发生改变。对特征参数进行规整,使得训练和识别时候的特征参数的概率分布比较接近,这样两者之间不匹配的问题就应该能得到改善。 (8)特征端FA 特征域方法的因子分析可以当成一种鲁棒性前端的算法,就是对特征直接去掉噪声的部分,得到相对“干净”的数据,主要在于去噪 。,GMM-MMI系统模型训练,UBM训练: K-Means聚类得到UBM模型的初始化模型 EM算法迭代训练得到UBM模型 各语种GMM训练 各语种数据在UBM模型基础上MLE估计出各 语种模型 2. MMI区分性准则下训练增加各语种之间的区分度,图5 UBM-GMM训练步骤,GMM-MMI高斯后端训练,高斯后端分类器 包括LDA变换矩阵和各语种模型的单高斯的GMM模型。 开发集的选择:一般要包括和测试集一样的语种类别,并且数据类型要和测试集尽量的相似,并且不能和训练集有任何的重合,否则会造成开发集得分和测试集得分mismatch LDA训练:各语种的测试得分向量通过LDA降维,提取更有区分性的分量,将原始的N维得分向量减为维数为N-1(N为语种总种类)。 各语种单高斯模型的训练:在开发集上利用LDA得到的各语种的得分向量,训练各语种的单高斯模型(每个语种一个模型)。,图6 高斯后端训练步骤,GMM-MMI系统测试流程,图7 GMM-MMI测试流程,Acoustic系统GMM-SVM系统,图8 GSV系统框图,模型训练部分 三个关键部分 GMM Super Vector:每条语音,采用最大后验概率(Maximum a posteriori,MAP)准则,从UBM 中自适应得到这条语音的GMM 模型,然后将所有高斯的每一维均值向量按照顺序排列起来,构成一个超矢量作为SV

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论