已阅读5页,还剩114页未读, 继续免费阅读
(信号与信息处理专业论文)基于统计模式识别发音错误自动检测的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 发音错误自动检测是计算机辅助语言学习系统的关键技术,在很大程度上决 定了计算机辅助语言学习系统的性能。可靠的自动发音错误检测技术有助于计算 机辅助语言学习系统了解学习者掌握语言的水平,分析出学习者的发音缺陷,针 对性的给出改进意见,并给出对应的学习材料,有效的提高学习者的语言水平。 本文针对主流的基于统计模式识别的发音错误自动检测技术进行了深入的分析, 在声学模型和后端处理方面都进行了有针对性地研究,建立了性能稳定的发音检 错系统。本论文的具体工作和研究成果概述如下。 首先,本文调研了发音错误自动检测技术,通过对该研究背景和现状的分析, 选择了基于统计语音识别的策略作为发音错误检测的基本方法。在对基本的发音 检错的系统进行介绍时,本文重点说明了系统中的错误检测度量得分算法。针对 原有的错误检测度量得分算法在实际使用中的缺陷,本文提出了s l p p 算法,其 检错性能要明显好于原有算法。在对本文的实验数据库进行介绍时,分析了数据 库上几个专家检错结果的一致性问题,了解了人工发音检错的性能,说明了发音 检错自动任务的挑战性。 其次,在声学模型的改进方面,本文提出了引入统计语音识别中的自适应技 术,将该技术用于测试数据,减少测试数据与训练数据的不匹配,同时也应用于 训练数据,以有效的估计出话者无关的规范模型。在对测试数据采用自适应技术 时,本文引入了语音识别中成熟的m l l r 算法。由于语音检错与语音识别的目 标不一致,m l l r 算法不一定能提高发音检错系统的性能。为此,本文针对发音 检错的目标,提出了s m 已l r 的自适应技术;在对训练数据采用自适应技术时, 本文引入了语音识别中的s a t 算法,以生成规范的声学模型,提高检错性能。 由于规范模型会导致其与测试数据更加不一致,因此需要把s a t 技术和s m l l r 技术结合使用,以有效的提高发音检错系统的性能。 再次,在声学建模的改进方面,本文还提出了采用语音识别中的区分性训练 的思想,针对性的设置与发音检错目标相一致的声学建模目标函数。通过回顾语 音识别中的各种区分性训练的方法,本文说明了这些区分性训练的方法如何与语 音识别的提高识别率的这个目标函数相一致。然后针对发音检错的任务,本文分 析了该任务的目标函数以及与之对应的区分性训练的策略,提出了发音检错的区 分性训练的方法要与错误检测度量得分算法相一致,并且提出在进行区分性训练 时,训练数据库中除了正确发音的样本外,还需要错误发音的样本,否则区分性 训练可能作用不明显。 摘要 此外,除了声学建模的改进以外,本文还从发音检错的后端处理方面,提出 了三维后端归一化的处理策略和基于机器学习的后端处理策略。首先,通过对专 家打分和实验数据的分析,提出了要在说话人层次上引入说话人整体发音水平的 特征:其次,通过对文本相关的后验概率的分析,提出了要在说话内容层次上引 入音素类别的特征;再次,通过对系统使用中的干扰问题的分析,提出了要在说 话时间层次引入前后文得分的特征。最后,通过引入这三个层次的特征,提出了 三维后端归一化的处理策略,大幅度提高了系统性能。三维后端归一化的处理策 略也有一些问题,比如多维特征的处理。为了解决这些问题,我们提出了更加可 靠的基于机器学习的后端处理策略,通过s v m 来处理多维特征的优化。 最后,通过以上的研究工作,可以实现一个性能比较稳定的发音检错系统, 在此基础上,本文提出了发音检错的声学模型自动更新策略,该策略能通过对未 标注的原始数据的获得,针对错误发音样本进行处理,不断的提高发音检错系统 的性能。首先,本文分析了错误检测度量生成算法,说明了对错误发音进行建模 的必要性;接着通过对错误发音的特点和非监督的参数估计的分析,提出了几种 错误发音建模的策略,其中错误发音半监督聚类建模的算法效果最好。进一步, 通过已建立的性能比较可靠的检错系统以及错误发音建模算法,本文提出了发音 检错的声学模型自动更新策略,能够处理未标注的原始数据,改进声学模型的建 模空间,提高发音检错系统的性能。 关键词:发音错误检测,统计语音识别,比例化对数后验概率,选择性最大似然 线性回归,区分性训练,后端处理,机器学习,半监督聚类 n a b s t r a c t a b s t r ac t a u t o m a t i cm i s p r o n u n c i a t i o nd e t e c t i o ni st h ek e yt e c h n i q u eo fc o m p u t e ra s s i s t e d l a n g u a g el e a m i n g ( c a l l ) s y s t e m w i n lt h eh e l po fa u t o m a t i cm i s p r o n u n c i a t i o n d e t e c t i o nm o d u l e ,c a l ls y s t e mc a ne v a l u a t et h el a j l g u a g el e a m e r ,a n a l y s i sh i s p r o n u n c i a t i o nd e f e c t i o na n dg i v eh i mt h es p e c i f i ca d v i c ea n dm o s ts u i t a b l et r a i n i n g m a t e r i a l si no r d e rt oi m p r o v eh i sp r o n u n c i a t i o nl e v e l t h i st h e s i sf o c u s e so nt h e a u t o m a t i cm i s p r o n u n c i a t i o nd e t e c t i o nb a s e do ns t a t i s t i c a lp a t t e r nr e c o g n i t i o na n d c a r r i e so u tt h o r o u g hr e s e a r c hi nt h ea r e a so ft h ea c o u s t i cm o d e ia n dt h eb a c k e n d p r o c e s s i n g t h es p e c i f i cw o r ka n dr e s e a r c hf i n d i n g so ft h i st h e s i sa r es u m m a r i z e d b e l o w f i r s t l y ,t h ea u t o m a t j cm i s p r o n u n c i a t i o nd e t e c t i o ns y s t e mb a s e do ns t a t i s t i c a i s p e e c hr e c o g n i t i o ni su s e da st h eb a s i cs t r a t e g yi nt h i st h e s i st h r o u g ht h es u r v e yo f t h e c u r r e n tt e c h n o l o g y ab r i e fi n t r o d u c t i o no ft h i ss y s t e mi sg i v e n t h i st h e s i sa l s o i n 仃o d u c e st h ed e t a i l so ft h ea i g o r i t h m sp ft h em e a s u r eo fm i s p r o n u n c i a t i o ns c o r i n g a n dt h e i rd e f e c ti na c t u a lu s a g e 1 oe l i m i n a t et h ed e f c c t ,s l p pa l g o r i t h mi sp r o p o s e d h e f e w h j j e i n t r o d u c i n g t h e e x p e r i m e n td a t a b a s e s , t 1 1 ec o n s i s t e n c eo ft h e m i s p r o n u n c i a t i o nd e t e c t i o nb yt h ee ) 【p e r t so nt h e s ed a t a b a s e si sa n a l y z e d ,t h i ss h o w s u pt h ep e r f b m a n c eo ft h ea r t i f i c i a l1 e v e lo fm i s p r o n u n c i a t i o nd e t e c t i o na n dc o n s i d e r s a u t o m a t i cm i s p r o n u n c i a t i o nd e t e c t i o na sa c h a l l e n g i n gt a s k s e c o n d l y ,i nt h ea r e ao f :t h ea c o u s t i cm o d e l i n g ,t or e d u c et h em i s m a t c hb e t w e e n t h et r a i n i n ga n dt e s t i n gd a t aa n db u i l das p e a k e r i n d e p e n d e n tc a n o n i c a lm o d e l ,t h i s t h e s i si n d u c e st h ea d a p t a t i o nt e c h n o l o g yt ot h em i s p r o n u n c i a t i o nd e t e c t i o ns y s t e mi n t e s t i n ga n dt r a i n i n g i nt e s t i n g ,s p e a k e ra d a p t a t i o nb a s e do nm a x i m u ml i k e l i h o o d l i l l e a rr e g r e s s i o n ( m l l r ) f o rs p e e c hr e c o g n i t i o ni si n d u c e dh e r e t a k i n ga c c o u n to f t h ed i f f e r e n c eo b j e c t i o n sf o rs p e e c hr e c o g n i t i o na n dm i s p r o n u n c i a t i o nd e t e c t i o n , s e l e c t i v em a x i m u ml i k e l i h o o dl i n e a rr e g r c s s i o n ( s m l l r ) s t r a t e g yi sp r o p o s e df o rt h e s p e c i a lp u 印o s eo fm i s p r o n u n c i a t i o nd e t e c t i o n ;i l lt r a i n i n g ,a d a p t i v et r a i n i n gb a s e d o n s p e a k e ra d a p t i v et r a i n i n g ( s a t ) f o rs p e e c hr e c o g n i t i o ni s i n d u c e dw h i c hc a nb ea u s e m la p p r o a c ho fs p e a k e rn o 咖a l i z a t i o nt or e d u c et h eo v e r l a p o fs p e a k e r i n d e p e n d e n tm o d e lc a u s e db yv a r i a t i o n 锄o n gt h es p e a k e r so f t h et r a i n i n gd a t a s a t a n ds m l l r s t r a t e g i e sm u s tb eu s e dt o g e t h e ra st h eo n l yc a n o n i c a lm o d e lw i l ll e a dt o m o r ei n c o n s i s t e n tw i t ht h et e s t i n gd a _ t a t h i r d l y ,i nt h ea r e ao ft h ea c o u s t i cm o d e l i n b e s i d e sa d a m a t i o nt e c h n o l o g y ,t h i s t h e s i sa l s om a k e su s eo ft h en o t i o no fd i s c r i m i n a t i v et m i n i n go r i g i n a lf o rs p e e c h t l i r e c o g n “i o na n da n a l y s e s 也es p e c i “o b j e c t e 觚c t i o nc o n s i s t c dw i t ht h et a r g e to f m i s p r o n u n c i a t i o nd e t c c t i o n f r o mt h er e v i e wo ft h ev a r i o u sm e 也o d so f d i s c r i m i n a t e t r a i n i n gf o rs p e e c hr e c o g n i t i o n ,t h ec o n n e 文i o nb e t w e e n t h e s em e t h o d sa n dt h et a r g e t o fs p e e c hr e c o g n i t i o ni ss h o w n w i t ht h e + 锄a l y s i so ft h et a r g e to fm i s p r o n u n c i a t i o n d e t e c t i o nt a s ka n dt h er e l a t e do b j e c t i o nf u n c t i o n s ,t h i st h e s i sp r o p o s e st 1 1 a tt h es 仃a t e g y o ft h ed i s c r i m i n a t i v ef h n c t i o nm u s tb e c o n s i s t e dw i t h t h em e a s u r eo t m i s p r o n u n c i a t i o ns c o r i n g f u r t h e 彻o r e ,t h em i s p r o n u n c i a t i o ns a m p l e sa r en e e d e dm t h et r a i n i n 2d a t a b a s ef o rd i s c r i m i n a t i v ef u n c t i o no f m i s p r o n u n c i a t i o nd e t e c t i o n f o u r t h l y ,b e s i d e si n v e s t i g a t i n gp r o p e rs t r a t e g yf o r a c o u s t l cm o d e 王i n g ,l m p r o v i n g t h eb a c k e n dp r o c e s s i n gc a na l s oi m p r o v et h em i s p r o n u n c i a t i o nd e t e c t i o ns y s t e m i n t h i st h e s i s t h r e e d i m e n s i o nb a c k e n dn o m a l i z a t i o na n dm a c h i n el e a m i n gb a c k e n d p r o c e s s i n gs t r a t e g i e s a r e p r o p o s e d t h r e e d i m e n s i o nm e a n st h es p e a k e r - l e v e i , c o n t e x t 1 e v e la n dt i m e 1 e v e l a st h ea n a l y s i sb a s e do nt h ee x p e r tr a t l n g a n d e x p e r i m e n t a ld a t a ,t h i st h e s i sp r o p o s e st h ef l e a t u r eo f t h es p e a k e ro v e r a l lp r o n u n c i a t l o n s c o r ei nt h es p e a k e r 1 e v e l ; a st h e a n a l y s i so ft h ec o n t e n t - d e p e n d e n tp o s t e n o r p r o b a b i l i t ya l g o r i t h m ,t h i s t l l e s i s p r o p o e s t h ep h o n e m e r e l a t e df e a t u r e i nt h e c o n t e n t 1 e v e l : a st h ep r o b l e mo ft h ea c t u a lu s a g e , t h i st h e s i s p r o p o s e s t h e c o n t e x t r e l a t e df e a t u r ei nt h et i m e 1 e v e l f o rt h eu s a g eo ft h e s et h r e ef e a t u r e s ,t h l s t h e s i sp r o p o s e dt h r e e d i m e n s i o nb a c k e n dn o r m a l i z a t i o ns t r a t e g y t oa v o i ds o m e d e f e c t so ft h l ss t r a t e g y ,m a c h i n el e a m i n gb a c k - e n dp r o c e s s i n gs t i a t e g yl sp r o p o s e d h e r ew h i c hc a nd e a lw i t ht h ei n c r e m e n t a lm u l t i - f e a t u r e sw i s e l y a tl a s t ,ar e l i a b l es y s t e mo fm i s p r o n u n c i a t i o nd e t e c t i o nc a nb ea c h i e v e db yt h e p r e v i o u ss t r a t e g i e si nt h ea c o u s t i cm o d e l i n ga n d b a c k e n dp r o c e s s i n g o nt h eb a s i so f t h i ss y s t e m ,t h et h e s i sp r o p o s e das t r a t e g yo fa u t o m a t i cu p d a t i n go fa c o u s t i cm o d e lb y h a n d l i n g o ft h em i s p r o n u n c i a t i o nm o d e l i n g t h en e c e s s i t yo fm i s p r o n u n c i a t l o n m o d e l i n g i s p r o v e d b y t h e a n a l y s i s o ft h e a l g o r i t h m s o ft h em e a s u r eo f m i s p r o n u n c i a t i o ns c o r i n g 1 om o d e l i n gm em i s p r o n u n c i a t i o n ,s e v e r a ls t r a t e g l e s a r e p r o p o s e d a m o n gt h e m ,t h ep e r f o r m a j l c eo fh a l f - s u p e r v i s e dc l u s t e rm o d e l i n gs t r a t e g y b a s e do nu n s u p e r v i s e dp a r a m e t e re s t i m a t i o ni st h eb e s t c o n s e q u e n t l y ,t h r o u 曲t h e r e l i a b l es y s t e ma n dt h em i s p r o n u n c i a t i o nm o d e l i n ga l g o r i t h m ,t h i st h e s i sp r o p o s e da s t r a t e g yf o fa u t o m a t i cu p d a t i n go fa c o u s t i cm o d e lo fm i s p r o n u n c i a t i o n d e t e c t l o n , w h i c hc a nc o n t i n u o u s l yi m p r o v et h ea c o u s t i cm o d e l i n gs p a c ea n dt h ep e r f o r m a n c eo f t h es v s t e m k e y w o r d s : a u t o m a t i cm i s p r o n u n c i a t i o nd e t e c t i o n ,s t a t i s t i c a ls p e e c hr e c o g n i t i o n , s l p 只s m l l rd t b a c k e n dp r o c e s s i n g ,m a c h i n el e a r n i n 函h a l f s u p e r v i s e dc l u s t e r i v 常用英文缩写对照表 常用英文缩写对照表 c a l l :c o m p u t e ra s s i s t a n tl a l l g u a g el e a r n i n g ,计算机辅助语言学习 h m m :h i d d e nm a r k o vm o d e l ,隐马尔科夫模型 v q :v e c t o rq u a n t i l i z a t i o n ,矢量量化 d t w :d y n 锄i ct i m ew 却i n g ,动态时间对齐 l d a :l i n e a rd i s c 血n i n a n t a n a l y s i s ,线性判别分析 s v m :s u p p o i r tv e c t o rm a c l l i n e ,支持向量机 g m m :g a u s s i a nm i x t u r em o d e l ,高斯混合模型 s l p p :s c a l e dl o g p o s t e r i o rp r o b a b i l i 锣,比例化对数后验概率 p s c :p u t o n g h u as h u i p i n gc e s h i ,普通话水平测试 m l e :m a x i i l l u ml i k e l i h o o de s t i m a t i o n ,最大似然估计( 准则) m l l r :m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ,最大似然线性回归 s a t :s p e a k e ra d 印t i v et r a i n i n g ,自适应训练 s m l l r :s e l e c t i v em a x i r i l u ml i k e l i h o o d “n e a rr e g r e s s i o n ,选择性最大似然 线性回归 d t :d i s c r i m i n a t i v et r a i n i n g ,区分性训练 m a p :m a x i m u ma p o s t e r i o r i ,最大后验概率 m c e :m i i l i m u mc 1 a s s i f i c a t i o ne r r o r ,最小分类错误 m d l :m i 血【i l u md e s c r i p t i o nl e n g t l l ,最小描述长度准则 m f c c :m e l - f r e q u e n c yc e p s t r a lc o e f f i c i e m s ,梅尔频率倒谱系数 m l e :m a x i m u ml i k e l i h o o de s t i m a t i o n ,最大似然估计 m m i e :m a x i m u mm u t u a li n f o m a t i o ne s t i m a t i o n ,最大互信息量估计 m p e :m i n i m u mp h o n ee 1 1 r o r ,最小音素错误 m v e :m i n i m u mv e r i f i c a t i o ne r r o r ,最小验证错误准则 m w e :m i m m 啪w b r de h o r ,最小词错误 s v m :s u p p o r tv e c t o rm a c m n e ,支持向量机 v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的贡献均己在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:蛤 五4 年月j 日 功础傅铅绣 第一章绪论 1 1 引言 第一章绪论 近二十年来,随着信息技术和全球化的迅速发展,国际市场的交流不断增加, 使得语言学习的需求稳定并持续增长。同时,语言学习的重点逐渐转移到提高口 语的交流能力上。因此,如今的语言教学在发音上的需求越来越多。然而,在传 统的课堂环境下,学生的个人发音学习是非常困难的。传统课堂学习,由于学生 数量众多,语言教学通常仅能在语法、语义以及词汇方面进行。口语交流以及发 音指导,则一直是课堂教学的弱点。而针对少数人的发音学习课程,则花费比较 昂贵。此外,对于不同发音水平的学生来说,需要参加不同等级的课程,找到适 合自己的课程也很麻烦。另一方面,语言的辅助学习方法通常还只是听录音等简 单的学习方法,不能与语言学习的需求相一致。 近几十年来,计算机硬件的性能迅速提高,同时,语音处理技术也获得了显 著的进步。随着7 0 年代末引入的隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的应用,语音识别的研究经历了从规则到统计方法的转变。8 0 年代到9 0 年代是 语音识别的黄金年代,这段时间,语音识别器的性能获得了巨大的提升。目前, 语音识别系统针对非特定人的大词汇连续语流语音,已经能达到9 5 以上的识别 率,基本达到了实用门槛。同时语音识别也衍生出众多运用语音识别技术的应用 型技术。这些技术上的发展使得开始有可能,并且人们也开始希望来设计计算机 辅助教学软件,辅助语言老师的教学和学生的自我学习。 计算机辅助语言学习( c o m p u t e ra s s i s t a n tl a n g u a g el e a m i n g ,c a l l ) 系统 正是在这样的背景下应运而生的一种新兴技术,该技术期望运用计算机替代( 或 辅助) 人进行传统语言教学任务。为了指出学习者发音问题并给出针对性地训练 计划,需要能够辨别学习者的发音错误,这就是c a l l 系统的核心模块:发音 错误自动检测模块。虽然人们已经花费了很大的精力研究c a l l 系统,但是对 于发音教学的关注却比较少。其原因在于,通过传统的鼠标键盘等交互设备不可 能给与学生口头上的回应。此外,与语法和词汇练习不同,发音不存在严格意义 上的正确或错误。很多因素导致了发音错误自动检测任务成为了一个挑战性的任 务。 近年来,主流的发音错误自动检测技术运用语音识别,对学习者的发音先进 行识别,然后提取特征,根据这些特征来对学习者的发音进行分析,给出发音中 第l 页 第一章绪论 具体的发音错误所在。c a l l 系统再根据自动发音检错模块给出的信息对学习者 的错误进行分析,并给出相应的处理策略。这样,发音错误自动检测技术就逐渐 转向了实用。 1 2c a l l 系统的发展背景 首先介绍一下c a l l 系统的发展历史。近些年来,人们对通过计算机进行语 言学习的兴趣有了爆炸式的增长。三十年前,仅仅只有很少的专家关注于基于计 算机的语言教学。但是,随着多媒体技术和i n t e m e t 的发展,计算机在语言教学 中的角色变得越来越重要。 c a l l 系统最早起源于2 0 世纪六十年代。这几十年的c a l l 的发展大致可以 划分为三个阶段。 一行动式的( b e h a v i o r i s t i c ) c a l l :这种想法于二十世纪五十年代提出, 在六七十年代得到实现。它产生的原因是受到行动主义学习模型的影响,其特征 是反复的语言练习。一个标准的例子就是把计算机看成是一个机械化辅助工具, 这种工具不知疲倦,不做判断,允许学生按照自己的步骤练习。这种工具开始还 是在大型机上来使用,但是随着计算机技术的发展,逐渐转移到了个人电脑上。 p l a t o 是其中的代表作之一【l 】。该系统运行在其专用硬件上,可以实现重复练 习、语法解释和翻译测试【2 1 。 二交互式的( c o m m u n i c a t i v e ) c a l l :出现于二十世纪七十年代晚期和八 十年代早期。这个阶段,行动式的语言学习方式在理论上和教育方法上都被否决。 同时,个人电脑的发展也为个人学习带来了良好的环境。交互式c a l l 的倡导 者强调基于电脑的语言学习应该着重于形态的使用而不是形态本身,教授固定 的语法但不固定,让学生使用自己的句子而不是熟练掌握预录好的句子【3 巧j 。交 互式的c a l l 符合认知理论,强调学习是一个发现、表达和发展的过程。这段 时期,主流的c a l l 系统开始开发文本重建系统和环境模拟系统。 三一体化的( i n t e g r a t i v e ) c a l l :尽管交互式的c a l l 看上去比行动主义 的c a l l 更加先进,但是也遭受了很多批评。在二十世纪8 0 年代晚期和九十年 代早期,评论家指出,在语言学习过程中,电脑只是在边缘而不是在核心区域做 出了贡献 6 】。许多语言老师的观点也开始从交互式的环境转向社交或社交感知式 的环境,他们更多的强调一个社交环境下语言的综合应用。这种情况下,就出现 了一个新的技术和语言学习的观点,被称作为一体化的c a l l 【7 1 。这种观点要求 既要整合各种技能( 例如听、说、读、写) ,又要将各种技术更充分地融入了语 言学习过程。9 0 年代互联网的出现大大刺激了c a l l 系统的发展,迄今,基于 互联网的c a l l 系统仍然是最有效和广泛的应用。同时,八九十年代语音技术 镐2 页 第一章绪论 开始快速发展,人工智能技术也开始运用嗍。这些技术被运用进c a l l 系统中以 增进c a l l 系统的智能性。也正是这个时期开始,c a l l 系统才真正迈出了作为 虚拟教师角色的第一步。如今,有众多的组织在持之以恒的进行c a l l 系统方 面的研究,主要有e u r o c a l l c a l i c o i a l l t 这些机构,其中e u r o c a l l 是 欧洲的专业c a l l 研究机构,c a l i c o 则是北美地区的专业c a l l 研究机构, i a l l l 则是国际c a l l 研究机构。 1 3 自动发音错误检测概述 自动发音错误检测就是让计算机对学习者所说的话音进行评价,指出其发音 错误所在。错误的指出可以是音节层的,如一个句子中何字有误,也可以是次音 节层的,如声母,韵母,音调等的错误。按照不同类型的学习需求,自动发音错 误检测可以分成两类,分别是:1 ) 文本相关的自动发音错误检测。2 ) 文本无关 的自动发音错误检测。其中,文本相关表示系统己知学习者的学习文本,文本无 关表示系统不知学习者的学习文本。一般来说,文本相关发音检错多用于固定文 本的发音学习,文本无关的发音检错多用于学习者自由演讲或对话的发音学习。 目前,主流的技术还是仅仅能处理文本相关类型的发音检错,对于文本无关类型 的发音检错,还是多停留在研究阶段。本文中的发音错误自动检测系统均指文本 相关类型的发音检错。 囤一厦 国一 丽丽丽 一幽一麓盛幽一邕差錾翻 f 语音识别模块陵别 后端处理模块 黟鞫 图1 1 主流检错系统简介框图 图1 1 表示了现在主流的检错系统流程,大致可分为两个模块:语音识别模 块和后端处理模块。在语音识别模块中,学习者的语音通过特征提取产生声学特 征。语音识别器按照训练好的声学模型对输入的声学特征进行识别,所得到的结 果作为后端处理模块的输入参数。后端处理模块将输入的检错特征通过检查模块 产生最终的检错结果。由于传统的识别器的目标是为了提高语音识别率,而不是 第3 页 第一章绪论 为了产生更好的检错特征,因此,将语音识别引入到发音检错中,可以借鉴语音 识别领域的一些成熟结论,但也会带来很多需要重新研究的问题。 1 4 自动发音错误检测文献回顾 自动发音错误检测是一个全新的交叉学科的研究课题,它涉及到声学、语音 学、语言学、语义学、信息论、信号处理、模式识别、人工智能等众多学科的理 论和技术,根植于c a l l 系统。作为c a l l 系统的一个重要模块,发音检错在 二十世纪九十年代才开始发展,其历史相对较短,原因主要是当时语音识别技术 刚开始大幅度的进步。 最早的一篇发音检错的文章是9 3 年h a m a d a t 提出的【9 1 ,文中为了度量孤立 词层面的标准发音和学习者发音之间的差异程度,采用了矢量量化( v e c t o r q u a n t i l i z a t i o n ,v q ) 和动态时间对齐( d y n a m i ct i m ew a r p i n g ,d t w ) 的策略。 其后,发音错误自动检测方面的研究大致可分为两大类:一类通过语音学的方法 寻找一些区别性的特征,另一类则是基于语音识别技术,采用统计语音识别框架 来进行发音检错。这两类中第二类现在处于主流地位,绝大多数的检错策略采用 此框架。下面对这两种策略分别予以介绍。 1 4 1 基于语音学知识寻找区分性特征的自动发音错误检测 采用这种基于语音学知识和区分性特征的发音检错的根本点在于,人们在语 言学习时,由于受到母语或者方言的影响,经常会出现一些特别典型的发音错误。 例如,中国人在学习普通话时,由于受自身方言的影响,人们常常会发生n 1 , z z h ,c c h 之类的发音错误。对于这种典型的发音错误,可以寻找一些与之对应 的特征,或者设计一些与之对应的辨别策略,来实现发音检错的目的。 董滨的文章【l o 提出了一种区分性特征来检测汉语中的平舌音和翘舌音。文章 发现,平舌音和翘舌音在去除低频高能带之后的能量集中带上具有区分性,平舌 音的能量多集中在比翘舌音更高频的频带上。因此,文章首先介绍了一种去除低 频高能带的方法,然后提取各音素的能量集中带,以能量集中带为基本属性,运 用s v m 进行音素区分。实验结果表明,这种方法对平舌音和翘舌音的区分能达 到9 8 3 5 。 k h i e tn u o n g 的硕士论文【1 1 对外国人学习荷兰语的发音错误首先进行分类, 采用时长、基频、共振峰和r o r 作为区分性的特征来进行发音检错。对于两类 韵母的发音错误a 和勉:,厂影和几,y ,第一共振峰和第二共振峰的差异可以视为 区分性特征。其中对于和a :,时长被认为是最具有区分性的因素。因此,对 第4 页 第一章绪论 于两类韵母发音错误,他采用时长特征,第一共振峰,第二共振峰,第三共振峰, 以及基频作为区分性的特征。对于一类声母的发音错误刖和l ( ,g ,前面所有的特 征区分性都不是很好,除了一个特定的库上,时长具有很好的区分性。但是, r o r ( r a t eo f a m p l i t u d er i s e ) 曲线以及相关的r o r 特征可以被用来作为区分性 信息,利用r o r 曲线最大值以及附近的能量值来进行声母辨别。在得到区分性 特征以后,文章采用了两种方法进行错误识别:决策树和l d a ,其中后者的性 能更好。 采用基于语音学知识寻找区分性特征的发音检错系统有两个主要问题:一是 专注于典型类别的发音错误,对于一些非典型的发音错误处理不够。如果错误不 在定义的类别之内,则不管发生多么严重的错误都会被系统忽略。而第二外语学 习者学习语言时,错误类型比较分散,经常会出现一些非典型的发音错误:二是 由于发音错误的多样性和易变性,根据语音学知识确定的典型错误经常会顾此失 彼。由于这些先天上的弱点,采用基于语音学知识寻找区分性特征的发音检错现 在被看成是发音检错的一个辅助策略,不能独立的工作。 1 4 2 基于统计语音识别的自动发音错误检测 基于统计语音识别的发音错误检测系统运用了这些年来获得很大进步的语 言识别技术,将学习者的发音与语音识别中的训练模型对比,进行发音检错。 由于语音识别中的置信度判决的任务与发音检错的任务非常接近,所以许多 基于统计语音识别的发音错误检测策略都采用了置信度判别类似的策略。置信度 给出识别器的输出词序列的可靠性,使得系统能够根据这个可靠性判断是否接受 或拒绝该词。发音检错也是需要给出发音序列的可靠性,使得系统能够根据这个 可靠性判断该词是否发音有错。语音识别中的置信度判决的方法可分为三类【lz j : 第一类采用假设检验模型,根据n e y m a n p e a r s o n 准则来计算似然比。为了 获得其中h 0 和h 1 假设的分布,一般h 0 假设采用原始模型来估计,而h l 假 设则通过填充模型或者反模型等来模拟,其中又按照层次的不同分为音素层和音 节层两类。a s a d i 等人1 9 9 0 年的文纠1 3 】开始采用全音素网络作为填充模型,而 在文献【1 4 】中,全音素网络和全音节网络都被用来检测新词,并且文中指出全音 节网络模拟新词的效果更好。贝尔实验室s u k k a r 等人1 9 9 6 年的一个工作【l 副提出 了反音素模型。反词模型的代表性工作是i h h i m 等人在 1 6 】中提出来的,用以验 证识别出来的数字串是否正确。 第二类方法只采用识别的原始模型,不增加另外的模型来实现置信度分数的 求取。这里面,有的方法计算识别的后验概率,以此作为置信度分数【l7 。2 0 j 。由于 准确的后验概率计算量很大,这类方法基本都是基于一遍识别结果生成的词图 第5 页 第一章绪论 ( w 6 r dg r a p h ) 或者n - b e s t 列表来进行的。其假设这个词图或n - b e s t 列表可以 代表最容易混淆的部分,由此产生的后验概率可以作为真实的后验概率的近似; 有的方法直接就是采用解码得出的似然度作为置信度分数【2 1 彩】,以便运用在一些 运算资源十分有限的应用场合,如嵌入式系统。 第三类方法则采用多种特征组合来求取置信度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年审核专员招聘面试参考题库及答案
- 2025年加盟经理招聘面试题库及参考答案
- 技工教师招聘题库及答案
- 2025年热线客服人员招聘面试参考题库及答案
- 2025年策略咨询师人员招聘面试题库及参考答案
- 2025年公寓物业管理专员招聘面试参考题库及答案
- 2025年实时通信工程师招聘面试题库及参考答案
- 2025年电子商务策划专员招聘面试题库及参考答案
- 2025年动画制作师招聘面试参考题库及答案
- 2025年商学院教授招聘面试参考题库及答案
- 鼎捷T100-V1.0-应收管理用户手册-简体
- 山西省垣曲县垣曲县马家庄中意铁业有限公司铁矿矿产资源开发利用和土地复垦方案
- 黄山市泓翔科技有限公司年产10000t氨基硅油乳液、7000t油剂、6000t硅橡胶项目环评报告书
- 威海南海新区污水排海工程海域使用论证报告书
- JJG 596-2012电子式交流电能表
- GB 1589-2016汽车、挂车及汽车列车外廓尺寸、轴荷及质量限值
- 优秀个人简历模板可直接下载使用(word版)
- 施工组织 题库(长沙学院,肖婧)
- 员工的自我赋能培训教学课件
- 四年级上册美术教案-第1课 识别公共标志|冀美版(2014秋)
- 高中数学 对数函数的概念(第一课时)课件
评论
0/150
提交评论