基于非均匀mce准则的dnn关键词检测系统中声学模型的训练_第1页
基于非均匀mce准则的dnn关键词检测系统中声学模型的训练_第2页
基于非均匀mce准则的dnn关键词检测系统中声学模型的训练_第3页
基于非均匀mce准则的dnn关键词检测系统中声学模型的训练_第4页
基于非均匀mce准则的dnn关键词检测系统中声学模型的训练_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/8基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练自XX年以来,深度学习已经成为机器学习的一个重点研究领域,而且现已在许多方面取得了卓越进展。而在语音识别领域,基于深度学习的方法也随即应用而生,特别是在声学建模上,深度神经网络已经能够替代高斯混合模型,并和隐马尔科夫模型结合而推出了DNNHMM混合模型,在实际应用中取得了很高的识别率1。当前的关键词检测系统通常是利用大词汇量连续语音识别器来对搜索语音解码产生关键词假设,再通过将输入语音转换为文本形式;基于此,关键词检测系统就可以利用文本搜索的一些技术,但其与文本搜索不同的则是关键词检测多会利用LATTICE来表示语音识别结果23。在语音识别中,常常都是采用不同的区分性训练准则来减小语音识别的词错误率,著名的区分性训练准则主要有MCE4、MMI5、MPE6和MWE6。在关键词检测任务中,关注的重点只是预定义的关键词是否被检测到。至于与目标关键词无关的词,针对其所获的检测结果却并不重要。FU等人提出利用非均匀MCE2/8准则,并开展了运用至语音识别中的尝试78。WENG等人针对传统GMMHMM模型利用非均匀MCE准则来推进关键词检测的研究,也就是通过在声学建模阶段利用非均匀MCE准则来进行区分性训练,提高了关键词检测系统的性能9。研究表本文由论文联盟HTTP/收集整理明,区分性训练可以改善DNN系统的性能10。CHEN等人在非均匀准则的基础上,利用基于KEYWORDBOOSTEDSMBR准则来训练关键词检测中的DNNHMM模型,同时再通过在声学模型训练阶段对定义的关键词进行加重来提高模型对关键词的建模能力,结果即取得了的提升11。在此,立基于对传统GMMHMM模型之上,相较于非均匀SMBR准则而言,非均匀MCE准则能够利用ADABOOST来调整关键词权重系数,而非均匀SMBR准则的权重系数却是固定的,因而非均匀MCE准则要比非均匀SMBR准则获得更佳效果12。从这一结论出发,本文即将文献9中所提出的非均匀MCE准则引入到关键词检测的DNN声学建模阶段,在DNN的参数调整过程中,通过对关键词进行一定程度的侧重来提高DNNHMM模型对关键词的建模能力。1基于非均匀MCE准则的关键词DNN声学模型训练DNNHMM声学模型DNNHMM模型利用DNN替代GMM提供LVCSR中HMM状态的后验概率。特别的,表示语句R时刻T的观测变量,3/8DNN对HMM状态S的输出可以通过SOFTMAX激活函数来计算其中,表示状态S对应的输出层的激活值,识别器通常利用伪对数似然来计算后验概率式中,表示从训练数据中计算得到的状态S的先验概率。网络训练可以通过利用反向传播算法来优化给定的目标函数而获得实现。更经常地,DNNHMM声学模型主要利用交叉熵作为目标函数,优化则主要利用随机梯度下降方法来进行处理和操作展开。1基于MCE准则的区分性训练区分性训练中,MCE训练准则是常用的一种。该准则以最小化经验错误率为目标4,在语音识别中,令XR为训练集中的R个句子,WR为句子XR所对应的标注,W是特定的假设空间,对某个假设W的判别函数可以定义为其中,和分别表示声学模型和语言模型得分,表示声学模型因子,误分类度量通常采用误分类度量的符号反映了给定声学模型参数,句子4/8的分类正确或者错误程度。经过对上式运用SIGMOID函数进行平滑,目标损失函数可以表示为其中,表示SIGMOID函数,目标函数表示针对训练集的经验损失。1关键词检测的非均匀MCE准则非均匀准则的区分性训练是基于某些识别单元可能比其他单元携带更多重要信息的假设9,其目标不是最小错误率而是最小错误损失,最小错误率不区分不同的错误。训练过程中的关键词识别错误比非关键词识别错误代价更大。在DNN系统中,对某一帧T,定义帧级判别函数为其中,I是状态编号,是给定XR和假设标签W的后验概率,研究中只关注关键词是否在标签或假设中出现,定义错误损失函数为语句R在时刻T的损失,关键词检测的非均匀MCE准则的目标函数为为了对公式进行优化,同时与普通的MCE准则进行对比,并推导出非均匀MCE与普通MCE准则优化的不同,进而采取有效的方法来优化非均匀MCE准则的目标函数,即对公式进行求导5/8其中,分别表示标注和假设的帧后验概率,将非均匀MCE准则的导数与原来的MCE准则进行对比,实际使用中,为了便于计算,通常令并忽略,具体公式为可以看到,非均匀MCE与普通的MCE方法的一个区别是,普通MCE对单个句子是不变的。另一个区别是非均匀的错误损失函数,错误损失函数是加在每一帧上的,为了便于计算非均匀MCE目标函数并有效优化参数,在此采用了普通MCE的固定值而不是变化值,目标函数近似为错误损失函数定义为其含义是,如果当前训练实例的标注是关键词,错误损失定义为K1;若对当前训练实例,关键词出现在假设中错误损失定义为K2;当关键词既未出现在标注又未出现在假设空间时,错误损失定义为1。K1、K2应该都大于1,这样在模型训练阶段才可以对关键词进行侧重。公式中的错误损失函数在不同的迭代中对同一帧赋予相同的错误损失,当使用较大的错误损失时可能会导致过训练。与普通的MCE相比,非均匀的MCE相当于对每一帧根据进行了重采样,因此,可以考虑采用基于BOOSTING6/8的方法。ADABOOST方法在每次迭代时均会根据错误率调整错误损失13,因此可以将ADABOOST方法运用到非均匀MCE准则中。训练启动时会使用较大的K1和K2来初始化错误损失函数,这些值会根据识别器的性能进行调整9。具体算法总结如算法1所示。实验结果与分析本文设计了一系列的实验来研究前述的非均匀MCE准则的DNN声学模型区分性训练,主要研究不同的K1、K2值对关键词检测系统性能的影响。本实验所使用的语料库来自于国家863朗读语料库,其中约100个小时的数据用来训练DNNHMM模型的识别器,约10个小时的数据用作关键词检测的搜索集。实验的基线系统由开源的语音识别工具KALDI建立14,关键词检测系统的评测利用NISTOPENKWS15提供,关键词检测系统的评价主要通过ATWV来计算1516,其数学描述如下其中,K是关键词数目,NMISS是漏检的关键词数,NFA是检测到的虚警数,T是测试集的时间长度,是为的常数。本文进行了非均匀MCE准则的训练,迭代次数为4,不同的K1、K2和下系统ATWV值如表1所示。分析可知,较大的K1和K2可以取得较高的性能,但衰减因子会导致7/8波动。表1基于非均匀MCE准则关键词检测实验结果RESULTSOFNONUNIFORMCRITERIABASEDSTD方案K1KATWV基线ADABOOST非均匀MCE准则结束语本文在DNN声学模型的参数训练阶段,通过利用非均匀的MCE准则对关键词进行侧重,由此提高了DNNHMM模型对关键词的建模能力。采用ADABOOST算法,可以解决过训练的问题。研究结果表明,非均匀MCE方法相比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论