（信号与信息处理专业论文）基于统计模式识别的发音错误检测研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：118 大小：6.55MB 积分：0 举报 版权申诉

已阅读5页，还剩113页未读，继续免费阅读

（信号与信息处理专业论文）基于统计模式识别的发音错误检测研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着语音识别技术的进展，计算机辅助语言学习系统的日趋智能化。为了提升计算机辅助语言学习系统的性能。其中一项核心技术就是高性能的发音错误检测技术。基于发音错误检测技术，系统可以生成针对性的改进意见以及设计相应的训练语料来有效改进学习者的发音弱点，提高学习效率。本文在统计模式识别技术特别是统计语音识别技术的基础上，对发音错误的分布、形成及表现都进行了深入而细致的分析，并在分析的基础上开展了声学特征、声学模型、柃错算法、以及声学模型空间等方面的深入研究，最终在实现了对发音错误检测问题本质的深入认识的同时，研发成功了高性能的普通话发音错误检测技术。本论文的具体研究工作和研究成果概述如下：首先，本论文在统计语音识别技术的基础上，对自动发音错误检测技术进行了改进。主要包括在声学特征方面引入c m n 、v t l n 等各种技术，解决声学模型和学习者声学特征之间的不匹配问题；同时，针对声学模型建模，引入语音识别中的基于b i c 的模型压缩策略，首次提出并实现基于发音错误检测的b i c 策略，此策略通过为发音错误严重或声学模型混淆严重的音素分配更多的参数来获得更好的建模精度从而提升检错系统性能；然后，针对声学模型与学习者的不匹配问题，引入语音识别领域中的较为成熟的自适应技术_ m l l r 对模型均值进行了调整，大大降低了发音错误检错声学模型与学习者之间的不匹配，从而提升了检错系统的性能；接着，本文借鉴并改进了初始的后验概率策略，提出基于发音错误混淆列表的修正的后验概率策略来进行发音错误检测；最后，本文提出按照音素设置音素独立：检错门限，取得了较好的检错性能。其次，本文提出以错误发音先验概率( t e x t d e p e n d e n tm i s p r o n u n c i a t i o np r i o r p r o b a b i l i t y ，t m p p ) 作为依托，重新形式化后验概率的表达形式，从而无缝地把发音错误先验概率这一信息融合到了后验概率的计算当中，这就是文本相关正确发音的后验概率策略( t e x t d e p e n d e n tc o 丌e c tp r o n u n c i a t i o np o s t e r i o rp r o b a b 1 i t y ， t c p p ) 。同时，为了解决错误发音先验概率的0 概率问题，借鉴语言模型训练方法，对o 概率事件采取平滑操作。实验结果表明，t c p p 策略能够达到甚至超过启发式的运用错误发音特性的检错策略，并且给出了一种利用发音错误先验概率的普适、有效的方法，同时这种策略能够弥补启发式方法的一些天然缺陷。摘要因此基于t c p p 的检错策略是在后验概率框架下的一种较好的发音错误解决方案。再次，本文通过调研语音识别中的置信度判别发现在置信度判别中通常有三种策略，后验概率只是其中的一种方法。还有一大类的方法是利用语音识别器得到的一些属性作为置信度判别的输入属性，建立分类器进行置信度判别。近年米的说话人识别研究表明，采用区分性的分类方法来解决检验问题是较好的策略。说话人识别中得到广泛运用的s v m 区分性分类方法取得了很好的效果。本文从理论上分析了发音错误检测的特性，并指出后验概率对于发音错误检测的局限性，提出运用识别器输出的针对文本与模型空间内其它模型的似然比作为检错特征，从分类的角度来看到发音错误检测问题，引入s v m 进行区分性分类器训练，从而有效地运用了人工标注数据信息以及识别器内的细节信息，最终有效的提升了发音错误检测性能。然后，本文从发音错误检测的角度出发，分析了以音素为单元的声学模型对发音错误检测的不足之处：这种声学模型仅能较好的处理某音素明确的发音错误成了另一音素，而对于发音偏误但没有明确的错误成另一个音素或者是发音缺陷这些问题并不能很好的处理。本文指出必须要对发音错误和正确的各种情况进行针对性的建模，然后利用这些模型进行错误检测才能够处理变化多端的发音错误。本文利用大量发音者实际数据( 包括发音标准正确，发音有方言口音，发音口音严重等各种情况) 通过无豁督的方法进行数据聚类获得各种发音的数据，然后进行模型训练建立三套发音模型，分别针对发音标准正确，发音正常稍有口音，和发音口音严重这几种情况，然后利用上面提及的s v m 分类方法进行发音错误检测，与传统的仅使用音素模型相比，实现了发音错误检测性能的显著提升。最后，本文针对调型进行了较深入的分析，钊。对不同人调域变化，提出最大似然基频均值规整方法：针对基频求取中出现的半频和倍频现象，利用最大似然特征选择策略进行规整。实验结果表明，采用了特征规整算法以后，调型发音错误检测取得了明显的性能提升。关键词：语音识别，发音错误检测，支持向量机，发音空间模型，调型错误检测 a b s t r a c t w i t ht h ei m p r o v e m e n to fa u t o m a t i cs p e e c hr e e o g n i t i o n ，c o m p u t e ra s s i s t e d l a n g u a g el e a r n i n g ( c a l l ) s y s t e mb e c o m e sb e t t e ra n db e t t e r t h ek e yt e c h n i q u ef o r e n h a n c i n gt h ep e r f o r m a n c eo fc a l ls y s t e mi sa u t o m a t l cm l s p r o n u n c l a t l o nd e t e c t l o n w i t ht h eh e l po fa u t o m a t i cm i s p r o n u n c i a t i o nd e t e c t i o nm o d u l e ，c a l ls y s t e mc a n g i v et h el e a r n e rs p e c i f i ca d v i c ef o rl a n g u a g el e a m i n ga n dg i v eh i mm o s ts u 妇b l e t r a i n i n gm a t e r a l s t h i sp a p e rc a r r i e so u td e t a i l e dr e s e a r c hb a s e d0 ns t a t i s t i c a ip a t t e m r e g n i t i o n ，e s p e c i a l l ys t a t i s t i c a ls p e e c hr e c o g n i t i o n ，w h i c hi n c l u d e sa c o u s t i cf e a t u r e e x 昀c t i o n 。 a c o u s t i cm o d e l i n m i s p r o n u n c i a t i o n d e t e c t i o n a l g o r n ma n d e l c i n s p ir n gb yt h e s er e s e a r c h e s ，t h i sp a p e ro p e n so u tt h en a t u r eo tm l s p r o n u n c l a t l o n d e t e c t i o n t h ed e t a i l e dr e s e a r c ha n dr e s u l t so ft h i sp a p e ra r ea b s t r a c t e da st o l l o w s f i r s t ly ，t h i sp a p e ri m p r o v e st h em i s p r o n u n c i a t i o nd e t e c t i o na l g o r i t h mb a s e do n s t a t i s t i c a ls p e e c hr e c o g n i t i o nt e c h n i q u e s b yi n t r o d u c i n gc m na n dv t l n ，t h e m i s m a t c hb e t w e e nt h ea c o u s t i cm o d e la n dt h el e a m e ri sw e a _ k e n e d a tt h es 锄et i m e ， b l cb a s e dp a r s i m o n i o u sm o d e lc o n s t r u c t i o nm e t h o di s u s e dt op u tt h ee m p h a s l so n t h ec o n f - u s i n gp h o n e m e sa n dt h ep h o n e m e st h a ti sf r e q u e n t l ym i s p r o n o u n c e d t h e n m l l rf m a x i m u ml i k e l h o o dl i n e a rr e g r e s s i o n ) i su s e dt ot r a n s f o r mt h ea c o u s t l c m o d e lt ot a r g e ts p e a k e rt od i m i n i s ht h ea c o u s t i cm i s m a t c h a t l a s tr e v i s e dp o s t e r i o r p r o b a b i l i t yb a s e do n t h e m i s p r o n u n c i a t i o n c o n f u s i n gm a t r i x i su s e da st h e m e a s u r e m e n to fm i s p r o n u n c i a t i o nw i t hp h o n e m e d e p e n d e n tt h r e s h o l d t h e n ，p o s t e r i o rp r o b a b i l i t yi se x t e n d e dt o c 0 v e rt h em l s p r o n u n c l a t i o np r i o r p r o b a b i l i t yu s i n gt m p p ( t e x t d e p e n d e n tm i s p r o n u n c i a t i o np r i o rp r o b a b i i i t y ) ，w h i c h l e a d st ot c p p( t e x t d e p e n d e n tc o r r e c tp r o n u n c i a t i o n p o s t e r i o rp r o b a b i i i t y ) 1 n s p i r i n gb yl a n g u a g em o d e l i n gi ns p e e c hr e c o g n i t i o n ，a b s o l u t ed i s c o u n t i n g m e t h o di s u s e dt oa d d r e s st h ez e r op r o b a b i l i t yp r o b l e m e x p e r i m e n tr e s u l t si n d i c a t et h a tt c p p m 。如o dc a ns i g n i 矗c a n t l yo u t p e r f o mt h eo f i g i n a lp o s t e r i o rp r o b a b n i t y t c p pa l s oc a n g e ta se q u a li fn o tb e t t e rp e r f _ o m a n c ea st h eh e u r i s t i cm i s p r o n u n c i a t i o nc o n f u s i n g m a t r i xb a s e dp o s t e r i o rp r o b a b i l i t ym e t h o d ，w h i l et h eh e u r i s t i cm e t h o ds u 仃- e r sf - r o m h i a b s t m c t z e r op r o b a b i l i t yp r o b l e ma n dn e g l e c t st h ef i e q u e n c yo f m i s p r o n u n c i a t i o n t h e n ，b yi n v e s t i g a t i n gt h ec o n 6 d e n c em e a s u r eo fs p e e c hr e c o g n i t i o n ，t h i sp a p e r f i n d sa n o t h e rm e t h o df o rm i s p r o n u n c i a t i o np r o n u n c i a t i o n ，w h i c h i s c o n s t r u c t i n g c l a s s i 行e ru s i n gf e a t u r e sg o t 仔o ms p e e c hr e c o g n i z e rt od e t e c tm i s p r o n u n c i a t i o n t h i s m e t h o di sf - 0 u n da l s ow i d e l yu s e di ns p e a k e rv e r i f i c a t i o n t h i sp a p e ru s e sl i k e l i h o o d r a t i o sa st h ef e a t u r e sa n du s e ss v m ( s u p p o r tv e c t o rm a c h i n e ) a st h ec l a s s i f i e r a sa d s c r i m i n a t i v ec i a s s i f i e ls v mc a nc a t c ht h ed i s c r i m i n a t i v ei n f o r m a t i o ne m b e d d e di n t h ei i k e l i h o o dr a t i o su s i n gt h eh u m a n l a b e l i n gm i s p r o n u n c i a t i o nd a t aa n dn n a l l y i m p r o v e st h ep e r f _ o 九1 1 a n c eo f m i s p r o n u n c i a t i o nd e t e c t i o n t h e n ，t h i sp a p e ra n a l y z e st h ed i s a d v a n t a g e so fp h o n e m e b a s e da c o u s t i cm o d e l s p h o n e m e - b a s e dm o d e l sa r eh e l p l e s sf o rp a r t i a i l yw r o n gp r o n u n c i a t i o na n dt h e m i s p r o n u n c i a t i o n sf a rf r o ma l lr i 曲tp h o n e m e s f o rap h o n e m e ，a c t u a l l yt h e r ea r e s t a n d a r dp r o n u n c i a t i o n ，r i g h tp r o n u n c i a t i o na n dw r o n gp r o n u n c i a t i o n t h i sp a p e r i n t r o d u c e sp s m ( p r o n u n c i a t i o ns p a c em o d e i ) t od e s c r i b et h ec h a r a c t e r i s t i c so f p r o n u n c i a t i o na n ds p e c i 行cm i s p r o n u n c i a t i o na c o u s t i cm o d e l s a r eu s e dt oh a n d l e v a r i a b l em i s p r o n u n c i a t i o n s t h i sp a p e ru t i l i z e sp l e n t yo fp r o n u n c i a t i o nd a t ac o l l e c t e d 仔o mv a r i o u sp e o p l ea n dv a r o u se n v i r o n m e n t st oc o n s t r u c tm i s p r o n u n c i a t i o nm o d e l s b yu n s u p e r v i s e dc l u s t e r i n gm e t h o d t h em i s p r o n u n c i a t i o nm o d e l sc o n t a i n “s t a n d a r d p r o n u n c i a t i o nm o d e l ”， “a c c e n t e dp r o n u n c i a t i o nm o d e i a n d“h e a v i l ya c c e n t e d p r o n u n c i a t i o n m o d e l s v mi su s e dt oc l a s s i f ym i s p r o n u n c i a t i o na n dr i g h t p r o n u n c i a t i o nb a s e do nt h el i k e l i h o o dr a t i o sg o tf i o mt h em i s p r o n u n c i a t i o nm o d e i s e x p e r i m e n t r e s u i t si n d i c a t et h a tp s ms i g n i n c a n t l yo u t p e r f o m s t h eo r i g i n a l p h o n e m e - b a s e d a c o u s t i cm o d e l s l a s t l y ， t h i s p a p e ri n v e s t i g a t e s t h et o n e m i s p r o n u n c i a t i 。n d e t e c t i o na n d i n t r o d u c e sm a x i m u ml i k e 1 0 0 dp i t c hm e a nn o r m a l i z a t i o nm e t h o dt od e a lw i t ht h e d i 腋r e n c eb e t w e e nd if e r e n ts p e a k e r s m a x i m u m ( e l i h o o df e a t u r es e l e c t i o nm e t h o d i su s e dt oa d d r e s st h e h a ifa n dd o u b i ef i e q u e n c yp r o b i e mo fp i t c he x t r a c t i o n e x p e r i m e n t sb a s e do nt h e s em e t h o d so b t a i ni m p r o v e m e n to ft o n em i s p r o n u n c i a t i o n d e t e c t i o n k e yw o r d s ：s p e e c hr e c o g n i t i o n ，m i s p r o n u n c i a t i o nd e t e c t i o n ，s u p p o r t v e c t o r m a c h i n e p r o n u n c i a t i o ns p a c em o d e l ，t o n em i s p r o n u n c i a t i o nd e t e c t i o n i v 中国科学技术大学学位论文原创性和授权使用声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。作者躲獬一勿访年月产日第一章绪论第一章绪论进入2 0 世纪后半叶，随着计算机的发明，信息时代已经翩然而至。计算机使得整个世界发生了翻天覆地的变化，信息化给人们的生活带来了各种便捷。近 3 0 年来，随着计算机的发展，加之数字信号处理，人工智能等均取得了长足的进步，作为人工智能的一个重要组成部分之一的语音识别的发展尤其引人注目。随着7 0 年代末引入的隐马尔科夫模型( h i d d e nm a r k o vm o d e l ，h m m ) 的应用，语音识别的研究经历了从规则到统计方法的转变。8 0 年代到9 0 年代是语音识别的黄金年代，语音识别器的性能也随之获得了巨大的提升。目前，语音识别系统针对非特定人的大词汇连续语流语音，已经能达到9 5 以上的识别率，基本达到了实用门槛。同时语音识别也衍生出众多运用语音识别技术的应用型技术。语言作为最便捷的人类交流方式，其对人类社会发展的贡献不言而喻。但由于世界上语言的多样性，使得使用不同种类语言的人们交流起来非常困难。同时由于语言学习的先天性，使得后天学习其他语言相当困难。因此，如何有效便捷地进行语言学习一直是研究的热点。传统的语言教学使用课堂学习，由于语言学习的特殊性，加上课堂教学时学生数量众多，语言教学通常仅能在词汇、语法以及语义方面进行。而口语交流以及发音指导，则一直是课堂教学的弱点。有鉴于此，近年来，重视实际交流的语言教学越来越强调使用电子化手段进行辅助教学。 c a l l ( 计算机辅助语言学习) 系统正是在这样的背景下应运而生的一种新兴的电子化技术，该技术期望运用计算机替代( 或辅助) 人进行传统语言教学任务，达到单人独立学习和因材施教的目的。为了指出学习者最严重的发音问题并给出针对性地训练计划，c a l l 系统需要能够辨别学习者的发音错误，这也就是自动发音错误检测模块。自动发音错误检测是c a l l 系统的一个核心模块，该模块运用语音识别技术，对学习者的发音先进行识别，然后提取相应的关键特征，最后根据这些关键特征完成对学习者的发音进行分析，给出发音中具体的发音错误所在。c a l l 系统能够根据自动发音检错模块给出的信息对学习者的错误进行分析并给出相应的处理策略。 1 1 自动发音错误检测研究背景 1 2 1 概述自动发音错误检测就是让计算机像人一样指出学习者发音中的具体发音错第一章绪论误，它是一门典型的交叉学科。它涉及到声学、语音学、语言学、语义学、信息论、信号处理、模式识别、人工智能等众多学科的理论和技术。根据语言学习的不同类型，自动发音错误检测可以分成两类，分别是：1 ) 文本相关的自动发音错误检测。2 ) 文本无关的自动发音错误检测。其中，文本相关的意思是指在进行发音错误检测时，系统是知道学习者的学习文本的。从现有的技术来看，目前，绝大多数的自动发音错误检测系统还仅仅能处理第一类的问题。也就是文本相关的发音错误检测，本文简称“发音检错”，下文中的所有发音检错均指文本相关的发音检错。图1 1 检错系统简介框图图1 1 显示了检错系统的完整流程，首先，学习者的发音经过声学特征提取模块得到声学特征，然后声学特征被送入到语音识别器中，语音识别器利用事先训练好的声学模型对输入的声学特征进行计算，得到检错所需要的检错特征，最后检错模块利用得到的检错特征和事先训练好的检错模型可以得到最终的检错结果。从图1 1 中可以看到为了完成检错，必须要进行诸多的准备工作。相比语音识别，自动发音检错需要考虑更多的问题。选择适合检错的声学特征，进行有利于检错的语音识别器建模这方面跟语音识别比较接近，可以借鉴语音识别领域的一些成熟结论。而如何运用语音识别器得到适合检错的检错特征，以及如何进行检错，传统的语音识别在这方面涉猎不多，这些则需要更深一步的研究。本文在声学特征提取，语音识别器模型，语音识别器搭建方面借鉴了语音识别系统的诸多结论，并把它们引入到发音错误检测系统中。同时借鉴统计模式识别理论，在如何选取合适的检错特征，以及如何针对检错进行建模方面进行了有别于语音识别的研究。 1 2 2 自动发音错误检测研究回顾自动发音错误检测是一个全新的交叉学科的研究课题，其根植于c a l l 系统，下面首先让我们来回顾一下c a l l 系统的研究历程。 2 第一章绪论 c a l l 系统最早起源于2 0 世纪六十年代，但直到7 0 年代后期，它都仅仅是以大学里的项目呈现，6 0 年代的p l a t o 项目是早期c a l l 系统的代表作之一【m a r8 l 】。7 0 年代个人电脑的出现大大加速了c a l l 系统的发展。早期的c a l l 系统大多是一些预先编制好的练习形式的固定程序，这也是为何早期c a l l 系统也被称之为c a l i ( c o m p u t e ra s s i s t e dl a n g u a g ei n s t c t i o n ) 的原因。直到8 0 年代后期，c a l l 这个词才成为主流为大家所使用。8 0 年代是c a l l 系统大发展的年代，在这一期间，交互式的学习机制被引入进c a l l l 系统。9 0 年代互联网的出现大大刺激了c a l l 系统的发展，迄今，基于互联网的c a l l 系统仍然是最有效和广泛的应用。9 0 年代c a l l 系统另一个重大的进步就是人工智能技术的运用【m a t 9 4 】。如前面所说，8 0 年代到9 0 年代是语音识别大发展的年代，期间，语音识别的众多技术被运用进c a l l 系统中用以增进c a l l 系统的智能性。也正是这个时期开始，c a l l 系统才真正迈出了作为虚拟教师角色的第一步。如今，有众多的组织在持之以恒的进行c a l l 系统方面的研究，主要有 e u r o c a l l c a l i c o i a l l l 、这些机构，其中e u r o c a l l 是欧洲盼专业c a l l 研究机构，c a l i c o 则是北美地区的专业c a l l 研究机构，认l l t 则是国际c a l l 研究机构。自动发音检错作为c a l l 系统的一个模块，其历史则相对较短，且其发展主要在9 0 年代以后，主要是由于期间语音识别技术的大进步引起的。最早的自动发音检错之一是h a m a d a 介绍的【h a m 9 3 】，他的方法运用矢量量化( v c c t o r q u a n t i l i z a t i o n ) 和动态时间对齐( d y n a m i ct i m ew a r p i n g ) 策略进行发音度量，仅能在孤立词层面度量标准发音和学习者发音之问的差异程度。9 0 年代后期到 2 l 世纪初，基于语音识别系统计算得到的后验概率策略被几个研究机构独立的提出作为发音错误检测的度量手段 f r a 9 7 ，f r a 9 9 ，w i t o o 】，此策略被认为是最有效的发音错误检测策略之一。同时，9 0 年代后期也有人进行了针对韵律方面的检错和教学试验，具体有针对基频曲线或者是共振峰方面的一些研究【c u c 9 8 ，e s k 9 9 ， h i l 9 3 ，m u r 9 0 ，o s t 9 8 ，s i m 9 6 】，在这些研究中，基频曲线或者语谱图被提供给学习者以帮助他们学习正确发音和纠正错误发音。 1 2 自动发音错误检测方法自动发音错误检测方面的研究主要有两大类，一类是基于语音学知识以及区分性特征的方法，另一类是基于统计语音识别框架的发音检错策略。其中，基于统计语音识别框架的检错策略处于主流位置，绝大多数的检错策略采用此框架。下面对两种策略分别予以介绍。第一章绪论 1 2 1 基于语音学知识和区分性特征的自动发音错误检测在语言学习中，由于学习者受到母语( 第二语言学习) 或者方言( 第一语言学习) 的影响，发音错误通常集中在某些特定的类型上。比如中国人学习标准普通话时，经常发生n 1 ，z z h ，c c h 等类型的错误。因此很多发音错误检测方法针对这种特定错误进行处理，给出检错策略。这一类方法把重点放在典型发音错误类型上，针对这些错误类型设计各种不同的辨别策略，从而实现错误检测的目的。下面分别介绍如下。 k h i e tt r u o n g 的硕士论文f m 0 4 】对外国人学习荷兰语的发音错误首先进行分类，然后分别进行处理。他对韵母发音错误的分类有a 和a ：，和u ，y ，声母有m 和i ( ，。对于a 和a ：，时长被认为是最具有区分性的因素。对于韵母，第一共振峰和第二共振峰的差异也被作为区分性特征。因此，对于两类韵母发音错误，他采用时长特征，第一共振峰，第二共振峰，第三共振峰，以及基频作为区分性的特征。这些特征的动态特性( 也就是差分信息) 也被作为区分性特征加以使用。实验发现，对于w 和a ：，仅仅时长、第一共振峰和第二共振峰具有区分性，其它特征作用很小。对于戌和u ，y ，则所有的特征区分性都不是很好，仅仅在一个特定的库上，时长具有很好的区分性。对于声母刚和l ( ，r o r ( r a t e o f a m p l i t u d er i s e ) 曲线以及相关的r o r 特征被用来作为区分性信息，利用r o r 曲线最大值以及附近的能量值来进行声母辨别。在得到区分性特征以后，文章采用了两种方法进行错误识别，决策树和l d a ，实验结果表明，l d a 方法能够更好的区分发音错误。董滨的文章【d o n 0 6 】介绍了一种运用区分性特征区分汉语中的平舌音和翘舌音的方法。文章指出，去除低频高能带之后，平舌音和翘舌音在能量集中带上具有区分性，平舌音的能量多集中在比翘舌音更高频的频带上。因此，文章首先介绍了一种去除低频高能带的方法，然后提取各音素的能量集中带，以能量集中带为基本属性，运用s v m 进行音素区分。实验结果表明，这种方法对平舌音和翘舌音的区分能达到9 8 3 5 。由于发音错误的多样性和易变性，根据语音学知识确定的典型错误经常会顾此失彼。如果错误不在定义的类别之内，则不管发生多么严重的错误都会被系统忽略，这是一个严重的问题。同时，从语音识别的发展来看，基于规则的音素辨别策略跟基于统计学习的方法得到的音素识别性能相比差距甚远。因此，基于语音学知识和区分性特征的发音检错有天生的缺陷，这类方法只能作为发音检错的一个组成部分而不能完全独立的工作。下一节将介绍基于统计语音识别的发音错误检测方法，这种策略已经成为当前c a l l 系统的主流策略。 4 第一章绪论 1 2 2 基于统计语音识别的自动发音错误检测文本相关的自动发音错误检测与语音识别中的置信度判别非常类似，前者是判断某个发音是不是指定的音素，后者是判断识别出来的音素是否正确。因此，许多基于统计语音识别的发音错误检测策略都采用了置信度判别类似的策略。传统的置信度判别策略主要可以分为三类【j i a 0 5 】，第一类把置信度判别看成是假设检验问题，利用纽曼皮尔逊准则来进行处理。第二类则直接使用模式识别中的后验概率作为置信度的度量。第三类则通过建立一个新的分类器来解决检验问题，利用各种预测属性来迸行置信度判别。第一类方法需要h o 和h 1 假设比较合适，并且需要各自模型假设正确，同时模型的训练数据足够多使得能够通过训练获得足够精确的模型参数。这三个要求在通常情况下都是不能满足的。这一类方法的典型代表有【j i a o l ，r a h 9 7 ，r o s 9 5 ，s u k 9 6 ，s u k 9 7 】。第二类方法则要求能够准确获得后验概率，这在实际的语音识别任务中是非常困难的，这一类方法的代表有【c o x 9 6 ，k a m o o ，k e m 9 7 ，w 色s 0 0 ，w e s 0 1 ，y o u 9 4 】。第三类则要求分类器的分类属性能够对置信度判别有很好的区分性，典型方法有 c o x 9 6 ，c h a 9 7 ，c h i 9 2 ，e i d 9 5 ， g i l 9 7 ，m o m l ，s c h 9 7 ，s u k 9 4 ，s i u 9 9 ，s a n 0 1 ，z h a o l l a 基于统计语音识别的发音错误检测策略把置信度判别策略引入到c a l l 系统中，取得了较好的结果。其中的代表主要有：从假设检验的角度出发，建立发音错误模型，然后进行发音错误检测，这一类方法主要有【r 0 n 9 7 ，i t 0 0 7 ，l i a 0 7 】从后验概率角度出发，计算发音样本的后验概率，利用后验概率作为发音错误的度量进行发音错误检测，这一类方法主要有【l a n 9 8 ，w i t o o ，w 的9 】。其中，利用后验概率的方法占据了主流位置，主要是因为发音错误通常不是十分稳定，同时，发音错误数据需要人工标注，不大可能获得足够多的发音错误数据进行错误建模。 1 3 本论文的研究目标和内容基于自动发音错误检测研究的背景和现状，本文选择基于统计语音识别的发音错误检测方法作为基本策略。本文在统计语音识别方法的基础上，进行了各方面的研究，旨在搭建一个高性能的自动发音错误检测系统。为了达成目标，本文首先对传统的基于统计语音识别的自动发音错误检测方法进行了调研和实现，并进行了针对性的分析，然后基于现有基础根据近年来语音识别技术的进步进行了一些针对性地改进，主要在声学特征提取、模型训练和模型自适应以及检错特征提取等方面进行了针对发音错误检测方面的处理。然后，本文提出了基于发音错误先验概率的文本相关正确发音后验概率( t e x t d e p e n d e n tc o l l r e c tp r o n u n c i a t i o n p o s t e r i o rp r o b a b i 】i 批t c p p ) 发音错误检测，有效的提升了系统对典型发音错误的第章绪论检测性能，同时各种发音错误的检测鲁棒性也获得了提升。此后，本文借鉴和改进了语音识别置信度判别中的基于预测属性分类方法，针对发音错误检测，提出了基于似然比的分类检错策略，并引入s v m 进行区分性分类器设计，取得了检错性能较大的提升。然后，针对发音问题本质，提出了有别于语音识别建模的方案：基于发音空间的声学模型建模，对各种发音现象( 正确发音，缺陷发音，错误发音) 进行了精细的描述。同时将基于发音空间的声学模型引入到s v m 分类检错策略中，进一步的提升了发音检错性能。最后，针对汉语调型进行了检错方面的研究，引入了最大似然基频规整以及最大似然特征选择半倍频规整策略，前者解决基频的动态范围( 即与人相关的调域信息) 规整，后者解决基频提取中的半频倍频规整问题，这些规整策略有效的提升了调型发音错误的检测能力。 1 4 本论文的组织本文的后继章节组织如下： - 第二章传统发音错误检测检测算法在进行本文的研究之初，针对当前已有的发音错误检测策略，本文进行了充分的调研和实现。同时，为了更加充分的进行发音错误检测策略研究，本文对统计语音识别的技术基础以及现有的技术进展进行了较为深入的研究和跟进。然后针对本文的研究目标自动中文发音错误检测，本章介绍了数据库设计，数据库建立，基线系统搭建，发音检错算法性能度量等各方面的研究。本章最后搭建了一个基于中文统计语音识别的，针对中国人学习标准普通话的发音错误检测基线系统。该系统运用h m m 作为声学模型单元，使用声韵母上下文无关模型作为模型基元，使用后验概率作为错误检测度量，使用发音错误检测虚警率和发音错误检测漏检率以及发音错误检测召回率和发音错误检测正确率作为性能度量手段。本章使用该系统在全国各地收集的1 3 3 5 份普通话水平测试发音错误数据库上进行了检错实验，给出了实验结果，这是本文研究的起点和基线，同时也为后面的研究奠定了坚实的基础。一第三章发音错误检测改进算法针对已有的占据主流位置的基于后验概率的发音错误检测算法，本章提出了多项改进技术。包括对声学特征的各种改进，借鉴语音识别技术，引入c m n ， v t l n 等各种技术。同时，针对声学模型建模，引入语音识别中的基于b i c 的模型压缩策略，以及进一步的基于发音错误检测的b i c 策略。然后，针对声学模型与学习者的不匹配问题，引入语音识别领域中的较为成熟的自适应技术 m l l r 对模型均值进行了调整，为了降低错误发音对声学模型的影响，引入语料选择策略进行自适应，大大降低了发音错误检错声学模型与学习者之间 6 第一辛绪论的不匹配，从而提升了系统检错的性能。接着，本文借鉴并改进了初始的后验概率策略，提出利用发音错误混淆列表计算修正的后验概率策略来进行发音错误检测。最后，本文提出按照音素设置独立检错门限，取得了较好的检错性能。 - 第四章基于错误发音先验概率的发音错误检测策略前面的系统表明，利用发音错误混淆列表计算的修正的后验概率策略进行检错有利于提升检错性能。但这种启发式的方法调整起来比较困难，而且得到的结果很难达到最优，本文在此启发式的策略的基础上，提出以错误发音先验概率 ( t e x t d e p e n d e n tm i s p r o n u n c i a t i o np r i o rp m b a b i l 以t m p p ) 作为依托，重新形式化后验概率的表达形式，从而无缝地把发音错误先验概率这一信息融合到了后验概率的计算当中，这就是文本相关正确发音的后验概率策略( t e x t d e p e n d e n tc o r r e c t p r o n u n c i a t i o np o s t e r i o rp r o b a b i l i 吼t c p p ) 。同时，为了解决错误发音先验概率的 o 概率问题，借鉴语言模型训练方法，对o 概率事件采取平滑操作。实验结果表明，t c p p 策略能够达到甚至超过启发式的运用错误发音特性的检错策略。这种策略给出了一个利用发音错误先验概率的普适的有效的方法，同时这种策略能够弥补启发式方法的一些天然缺陷，因此基于t c p p 的检错策略是在后验概率框架下的一种较好的发音错误解决方案。一第五章基于支持向量机的发音错误检测前面的策略都是在后验概率框架下的发音检错策略。通过调研语音识别中的置信度判别发现，在置信度判别中通常有三种策略，后验概率只是其中的一种方法。其中有一大类的方法是从假设检验的角度来看到判别问题，建立h 0 模型和 h l 模型运用似然比检验来进行置信度判别，最后还有一大类的方法是利用语音识别器得到的一些属性作为置信度判别的输入属性，建立分类器进行置信度判别。近年来的说话入识别研究表明，采用区分性的分类方法来解决检验问题是较好的策略。说话人识别中得到广泛运用的s v m 区分性分类方法取得了很好的效果。本文从理论上分析了发音错误检测的特性，并指出后验概率对于发音错误检测的局限性，然后运用识别器输出的针对给定文本与模型空间内其它模型的似然比作为检错特征，从分类的角度来看到发音错误检测问题，引入s v m 进行区分性分类器训练，从而有效地运用了人工标注数据信息以及识别器内的细节信息，最终有效的提升了发音错误检测性能。 _ 第六章基于发音模型空间的发音错误检测前面提到的发音错误检测都是在语音识

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于统计模式识别的发音错误检测研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于统计模式识别的发音错误检测研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档