




已阅读5页,还剩54页未读, 继续免费阅读
(信号与信息处理专业论文)基于tandem的区分性训练在语音评测中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,以计算机辅助语言学习为代表的语音评测系统越来越多的运用在口 语考试和语言教学活动之中,不仅提高了评分工作的公正性、高效性,保证了考 试成绩的客观性,而且增强了教学反馈的及时性、准确性,激发了学生的学习兴 趣。目前主流的语音评测系统采用的是基于m f c c 特征的最大似然估计( m l e ) 建模方式。这套方法虽然成熟可靠,但也存在着诸如易受模型假设错误的影响、 对模式的识别分类能力较差等缺点,从而制约了系统评测性能的进一步提升。因 此,本文考虑引入区分性训练技术和t a n d e m 特征,分别在声学模型训练准则 和声学特征两个方面对原有系统进行改进。 本文的结构如下: 第一章概述性地介绍了语音评测技术的发展背景,较为详细地说明了语音评 分系统和发音检错系统的基本原理和实现方式,重点阐述了语音评测的识别理论 基础,包括声学特征、声学模型和语言模型等概念。 第二章首先通过对贝叶斯决策理论的叙述指出了传统的最大似然估计( m l e ) 准则存在的不足,在此基础上引入了声学模型区分性训练的思想。再经过对各种 区分性训练准则的目标函数和参数更新算法进行推导和比较,将它们统一地纳入 到一套训练框架体系之中。之后,文章又分析了语音评测系统的各种度量得分与 不同区分性训练准则目标函数的对应关系,从而为区分性训练的建模方式在语音 评测系统中的应用提供了理论基础。 第三章首先分析了h m m g m m 框架和h m m a n n 框架各自的优缺点,之后 提出了一种综合了两者优点的特征变换前端处理技术- t a n d e m 方法,并将 其应用到普通话发音检错系统中。t a n d e m 方法通过使用区分性训练的神经网 络去估计音素级后验概率,经过一系列后续处理将原始m f c c 特征转化为 t a n d e m 特征,作为基于h m m 统计模型的评测系统的输入,进而完成评分或 检错的任务。实验结果证明,t a n d e m 方法使系统的检错性能有了较大的提升, 结合m l l r 等自适应方法的使用效果会更为明显。 第四章首先分析了t a n d e m 特征和区分性训练技术相结合的可能性,之后 介绍了英文评分系统的架构、评分特征和系统性能度量。最后搭建了m f c c m l e 、 t a n d e m m l e 、m f c c m p e 、t a n d e m m p e 四个系统,分别用c h i l d 测试集 和m i d d l e 测试集在不同配置的系统上进行测试,实验结果证明,基于t a n d e m 的声学模型区分性训练技术是一种有效的切实可行的提高目前英文发音评测系 统性能的方法。 第五章对全文进行总结,指出不足之处和改进方向。 i 摘要 关键词:语音评测系统语音检错语音评分区分性训练最小音素错误t a n d e m 多层感知器 a bs t r a c t i nr e c e n ty e a r s ,t h es p e e c ha s s e s s m e n ta n de v a l u a t i o ns y s t e m ss u c ha sc o m p u t e r a s s i s t e dl a n g u a g el e a r n i n gs y s t e ma r em o r ea n dm o r ea p p l i e di nt h eo r a le x a m s a n d l a n g u a g el e a r n i n ga c t i v i t i e s t h e s es y s t e m sc a n n o to n l yh e l pt e a c h e r sg i v es c o r e so f o r a lt e s t sm u c hm o r eo b j e c t i v e l ya n de f f i c i e n t l yb u ta l s oh e l ps t u d e n t se v a l u a t et h e i r p r o n u n c i a t i o np r o f i c i e n c y i m m e d i a t e l y a n da c c u r a t e l y n o wm o s to fs p e e c h a s s e s s m e n ta n de v a l u a t i o ns y s t e m su s em f c cf e a t u r e sa n dm a x i m u ml i k e l i h o o d e s t i m a t i o n ( m l e ) t oe s t a b l i s ht h e s t a t i s t i c a lm o d e l s t h i sp o p u l a rm l eb a s e d s t a t i s t i c a lm e t h o da l s oh a ss o m ed i s a d v a n t a g e s t h em o s tp r o m i n e n to n ei st h a tt h e d i s c r i m i n a b i l i t yo ft h em l es t a t i s t i c a lm o d e l si s l i m i t e d a n o t h e ro n ei sw h e nt h e t r a i n i n gd a t ai s n o tl a r g ee n o u g h ,m l em e t h o di su n l i k e l yt or e a c ha no p t i m i z a t i o n s o l u t i o n t os o l v et h e s ep r o b l e m s ,t h i st h e s i sp r o p o s e s d i s c r i m i n a t i v et r a i n i n g c r i t e r i o n sa n dt a n d e mf e a t u r e sw h i c hi n t e n dt oi m p r o v et h ep e r f o r m a n c eo ft h e c u r r e n ts p e e c he v a l u a t i o ns y s t e m t h ew h o l et h e s i si so r g a n i z e da sf o l l o w s : c h a p t e r1g i v e sab r i e fs u m m a r yo nt h ed e v e l o p m e n ta n db a c k g r o u n do fs p e e c h e v a l u a t i o ns y s t e m t h e nw ee x p l a i nt h eb a s i cp r i n c i p l ea n ds y s t e ms t r u c t u r e f o r s p e e c hs c o r i n gs y s t e ma n ds p e e c he r r o rd e t e c t i o ns y s t e mr e s p e c t i v e l y f i n a l l y , w e g i v ei n t r o d u c t i o nt os o m ec o n c e p to fs p e e c hr e c o g n i t i o nt e c h n o l o g ya st h ef o u n d a t i o n o fs p e e c he v a l u a t i o n s u c ha sa c o u s t i cf e a t u r e s ,a c o u s t i cm o d e l ,l a n g u a g em o d e la n d s oo n c h a p t e r2g i v e sa no v e r v i e wo nb a y e s i a nd e c i s i o nt h e o r yf i r s t l y t oo v e r c o m e t h ew e a k n e s so fm l e ,w eb r i n gd i s c r i m i n a t i v et r a i n i n gm e t h o d sf o rh i d d e nm a r k o v m o d e l si n t os p e e c he v a l u a t i o ns y s t e m f o u rt y p i c a ld i s c r i m i n a t i v et r a i n i n gc r i t e r i o n s a n ds o m eu p d a t i n gm e t h o d so fa c o u s t i cm o d e lp a r a m e t e r sa r ei n t r o d u c e d ,t h e n ,t h e y a r ed e f t n e di nau n i f i e df r a m e w o r k a f t e r , w ea n a l y z et h er e l a t i o n s h i pb e t w e e nt h e t a r g e to fs p e e c he v a l u a t i o nt a s ka n dt h eo b j e c t i o nf u n c t i o no fe a c h d i s c r i m i n a t i v e t r a i n i n gc r i t e r i o n as e l e c t i o ns t r a t e g yo ft h ed i s c r i m i n a t i v ef u n c t i o nw h i c hm u s tb e c o n s i s t e n tw i t ht h em e a s u r eo fp r o n u n c i a t i o ne v a l u a t i o ni sp r o p o s e df i n a l l y c h a p t e r3c o m p a r e sh m m a n nf r a m e w o r k w i t hh m m g m mf r a m e w o r ka t f i r s t h m m a n np e r f o r m so v e rh m m g m mi nd i s c r i m i n a t i v et r a i n i n g a b i l i t i e s h o w e v e r ,i n c r e m e n t a le n h a n c e m e n t ss u c ha ss p e a k e ra d a p t a t i o na n dd i s c r i m i n a t i v e p a r a m e t e re s t i m a t i o nw e r en o te a s i l yi m p l e m e n t e di nh m m a n ns t r u c t u r e i nt h i s m a b s t r a c t w o r k ,w ea p p l yt h et a n d e ma p p r o a c hw h i c hc o m b i n e sn e u r a l n e td i s c r i m i n a t i v e f e a t u r ep r o c e s s i n gw i t hg a u s s i a n m i x t u r ed i s t r i b u t i o nm o d e l i n gt om a n d a r i ns p e e c h e r r o rd e t e c t i o ns y s t e m b yt r a i n i n gm l pn e t w o r kt oe s t i m a t et h ep r o b a b i l i t y d i s t r i b u t i o n s ,t h e nt h ee r r o rd e t e c t i o ns y s t e mb a s e do nh m m g m mf r a m e w o r kt a k e s t h eo u t p u t so fn e u r a l n e ta st h ei n p u tf e a t u r e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ta g r e a ti m p r o v e m e n ti ne r r o r - d e t e c t i n gp e r f o r m a n c ei sa c h i e v e d ,e s p e c i a l l yw h e nu s i n g m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o na d a p t a t i o n c h a p t e r4g i v e sa na n a l y s i so nt h ep o s s i b i l i t yf o rc o m b i n i n gt a n d e m f e a t u r e s b a s e dd i s c r i m i n a t i v et r a i n i n g t h e nw ei n t r o d u c et h es y s t e ms t r u c t u r e ,s c o r i n g f e a t u r e sa n dp e r f o r m a n c em e a s u r e m e n tf o re n g l i s hs p e e c hs c o r i n gs y s t e m f i n a l l y , w e d e s i g na n db u i l df o u rs y s t e m s ,n a m e l ym f c c m l e ,t a n d e m - m l e ,m f c c - m p e a n dt a n d e m m p e w et e s to nt h e mw i t hc h i l dd a t as e ta n dm i d d l ed a t as e t t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt a n d e mf e a t u r e s b a s e dd i s c r i m i n a t i v et r a i n i n g a c h i e v e st h eb e s te v a l u a t i o np e r f o r m a n c ew h i c hs i g n i f i c a n t l yo u t p e r f o r m sm f c c f e a t u r e sb a s e dm l et r a i n i n g c h a p t e r5c o n c l u d e st h et h e s i s t h ep o s s i b l ei m p r o v e m e n t sa r ea l s od i s c u s s e d h e r e k e yw o r d s :s p e e c he v a l u a t i o ns y s t e m ,s p e e c he r r o rd e t e c t i o n ,s p e e c hs c o r i n g , d i s c r i m i n a t i v et r a i n i n g ,m i n i m u mp h o n ee r r o r , t a n d e m ,m u l t i - l a y e rp e r c e p t r o n i v 插图索弓 插图索引 图1 1 语音评分系统的结构图 图1 2 发音检错系统的结构图一 图1 3m f c c 特征的提取流程 图1 4h m m 组成示意图一一 图3 1 神经元模型 图3 2s i g m o i d 神经元激活函数一一一 图3 3 三层m l p 神经网络一 图3 4h m m m l p 框架的结构图 图3 5t a n d e m 方法的结构图 图3 6t a n d e m 特征提取的流程图 图3 7 基于h m m 声学模型的发音检错系统框图 4 4 5 7 2 4 2 7 2 8 2 9 图3 8 单音检错系统的p r e c i s i o n r e c a l l 曲线一3 3 图4 1 基于h m m 声学模型的发音评分系统的框图 图4 2c h i l d 测试集上m f c c m p e 系统的相关度一 图4 3m i d d l e 测试集上m f c c m p e 系统的相关度 图4 4c h i l d 测试集上t a n d e m 。m p e 系统的相关度一 图4 5m i d d l e 测试集上t a n d e m m p e 系统的相关度 4 9 3 6 4 3 4 4 表格索弓 表格索引 表1 1 说明h m m 概念的球和缸的例子 表2 1 区分性训练统一框架中函数和参数选取情况 表3 1 标准数据集的资源描述 表3 2a h 3 2 1 数据集的资源描述一 表3 3 表征发音检错结果的混淆矩阵 表3 4 不同方案在单音检错系统中的性能表现 表3 5 单音检错系统在p r e c i s i o n 约等于r e c a l l 时的性能 表4 1 训练集各批数据资源描述 表4 2 测试集的资源描述 表4 3c h i l d 测试集上的系统性能度量一 表4 4m i d d l e 测试集上的系统性能度量 表4 5c h i l d 和m i d d l e 测试集上m f c c m p e 系统的边界识别率 表4 6c h i l d 和m i d d l e 测试集上m f c c m p e 系统的性能度量 6 1 8 表4 7c h i l d 和m i d d l e 测试集上t a n d e m m p e 系统的性能度量一4 3 表4 8c h i l d 和m i d d l e ;泐! 1 试集上各系统的性能度量对比 ”记弘弭强强柏知叭钒 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:壅型 2 0 | 口年侈具9b 第一章绪论 第一章绪论 1 1 语音评测的发展背景 语言是人类特有的交流工具,人类利用语言相互传递思想和情感,因此,语 言与人的智力活动密切相关,与社会的文明进步紧密相连,具有最大的信息容量 和最高的智能水平。语音作为语言的声学表达形式,方便自然、准确高效,通过 语音传递信息是人类最重要、最常用的信息交换方式。与机器进行语音交流,让 机器明白你在说什么,这是人们长期以来梦寐以求的事情。自从上世纪中叶计算 机诞生以来,随着其数据处理能力的不断加强,运算速度的不断加快,这一梦想 正逐步变为现实。 语音识别技术就是让机器通过识别理解的过程将语音信号转变为相应的文 本或命令。这方面的研究工作可以追溯到2 0 世纪5 0 年代a t & t 贝尔实验室d a v i s 等人研制的a u d r y 系统,这是世界上第一个可以识别十个英文数字的语音识别系 统。在6 0 年代末和7 0 年代初,随着线性预测编码( l i n e a rp r e d i c t i v ec o d i n g , l p c ) 技术和动态时间规整( d y n a m i ct i m ew a r p i n g jd t w ) 技术的提出,语音 信号特征提取和不等长匹配问题得到了有效解决,在特定人、小词汇表、孤立词 方面的语音识别取得了实质性的进展。之后,识别应用领域的不断扩大,特定人、 小词汇表、孤立词等这些约束条件急需放宽,这就带来了许多新的问题:第一, 在非特定人识别时,不同的人说相同的话对应的声学特征有很大的差异,即使是 同一个人在不同的时间、生理、心理状态下说同样内容的话也会有很大的差异; 第二,词汇表的扩大使得d t w 算法中模板的选取和建立产生了不小的困难;第 三,连续语音中各个音素、音节以及词之间没有明显的边界,各个发音单位存在 着受上下文强烈影响的协同发音现象;第四,待识别的语音中有背景噪声或其他 声音的干扰。因此,原先的模板匹配方法已不再适用。隐马尔可夫模型( h i d d e n m a r k o vm o d e l ,删) 在语音识别中的成功应用标志着实验室语音识别研究在 2 0 世纪8 0 年代终于获得了巨大的突破。以马尔可夫链为基础的语音序列建模方 法h m m 有效地适应了语音信号短时稳定、长时时变的特性,能够根据一些基本 建模单元构造出连续语音的句子模型,达到了比较高的建模精度和建模灵活性, 并且具有把从声学语言学到句法等统计知识全部集成在一个统一框架中的优点。 这种方法将h m m 纯数学模型工程化,使研究者的视线从微观转向宏观,不再刻 意追求语音特征的细化,而是更多地从整体平均统计的角度来看待问题,从而使 统计方法成为了语音识别技术的主流。由此扫除了非特定人、大词汇量和连续语 第一章绪论 音这三大障碍,第一次把这三个特性都集成在一个系统中。比较典型的是卡耐基 梅隆大学用v q ( 矢量量化技术,v e c t o r q u a n t i z a t i o n ) h m m 实现了9 9 7 个词的 系统s p h i n x ,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系 统。进入9 0 年代以后,相应的研究工作在模型设计的细化、参数的提取和优化 以及系统的自适应技术等方面取得了一些关键性的进展,特别是隐马尔科夫模型 工具包( h i d d e nm a r k o vt o o l k i t ,h t k ) 等软件的推出以及公开化,使得自动语 音识别研究的门槛大大降低,语音识别器的性能也随之获得了巨大的提升。目前, 针对非特定人的大词汇连续语流语音识别系统的识别率已经超过了9 5 ,基本达 到了实用的门槛,同时也衍生了出众多运用语音识别技术的应用型技术。 以计算机辅助语言学习( c o m p u t e ra s s i s t a n tl a n g u a g el e a r n i n g ,c a l l ) 系 统为代表的语音评测技术正是在这样的背景下应运而生的。该技术以自动语音识 别技术为基础,用学习者发音与标准发音模型之间的匹配程度来衡量发音质量的 优劣,期望运用计算机辅助人进行传统的语言教学任务。传统的语言教学是通过 课堂学习进行的,由于语言学的特殊性,加之学生数量众多,教师难以对学生的 错误发音进行一对一全面纠正。利用语音评测系统进行发音辅助学习,学习者可 以自行获得即时的系统反馈,包括发音得分、发音等级、发音图谱和口型等直观 形式的评价,同时系统还能够辨别出学习者的发音错误并根据具体的发音问题给 出相应的指导意见和针对性的训练计划,从而为语言学习者改进自身的发音水平 提供了一种便捷可靠的手段,大大地提高了学习效率。 很多研究机构在语音评测领域都进行了深入的研究,开发出了各具特色的系 统。比如美国斯坦福研究中心语音技术研究组的v i l t s 系统( f r a n c oe ta 1 1 9 9 7 ; n e u m e y e re ta 1 2 0 0 0 ) ,该系统采用了一种基于后验概率的评价策略,主要侧重于 对语言学习中的发音人总体发音水平的评价。又如英国剑桥大学人工智能实验室 和美国麻省理工学院人工智能实验室联合研制的s c i l l 系统( w i t t1 9 9 9 ;w i t te t a 1 2 0 0 0 ) ,该系统主要侧重于语言学习中的发音错误检测和小尺度的发音质量评 测。再如荷兰n i j m e g e n 大学的v i c k 系统( c u c c h i a r i n ie ta 1 1 9 9 7 ;c u c c h i a r i n ie t a 1 1 9 9 8 ) ,其主要侧重于研究人工打分的合理性,以及人工打分受韵律、流畅度 和音段质量等的影响程度。 1 2 语音评测系统的分类 根据不同的分类标准,语音评测系统可以进行如下的分类。 1 2 1 文本相关评测和文本无关评测 以是否使用文本作为分类标准,语音评测可分为文本相关和文本无关两种形 2 第一章绪论 式。文本相关的语音评测需要发音人按照指定的文本进行发音,该文本也同时作 为评判发音人发音水平的标准,如对朗读题、背诵题的评测。而在文本无关的语 音评测中,文本并不是必须的,即使有文本,也仅仅是一种参考,发音人需要用 自己组织的语言来表达题目所要求的内容,如对复述题、说话题的评测。其中, 说话题是最自由,也是目前计算机语音评测难度最高的题型。本文所涉及的系统 均为文本相关的评测系统。 1 2 2 中文评测与英文评测 按照评价目标语言的不同,又可以分为中文语音评测、英文语音评测、法文 语音评测、俄文语音评测等。 普通话水平测试( p u t o n g h u as h u i p i n gc e s h i ,p s c ) 电子化系统( w a n ge t a 1 2 0 0 6 ;w e ie ta 1 2 0 0 7 ) 是目前推广的较为广泛的中文语音评测系统。普通话水平 测试是为提高全社会普通话水平而设置一项国家级口语考试,包含朗读单音节字, 朗读多音节词,朗读指定短文以及在指定主题下的自由说话四个部分的测试内容, 全部测试均采用口头方式进行考核,满分为1 0 0 分。传统的普通话水平测试完全 由人工完成,随着考生人数的逐年增多,人工评测业已存在的效率低下、费用偏 高、评分员主观因素影响较大等诸多缺点表现的越来越明显。考试的发展趋势便 是运用语音信号处理技术,以计算机为辅助手段,进行高效率、高客观性的电子 化测评。科大讯飞公司的普通话水平测试电子化系统在标准发音人数据库的基础 上,针对汉语发音的特点,利用语言学专家知识,引入了语料选择针对传统的语 音评测算法进行了自适应改进,使得机器评分和人工评分的误差与人工评分之间 的误差基本相当,系统对于普通话水平测试前三部分朗读单音节字、多音节词、 指定短文的自动评分性能达到甚至超过了从事多年评分工作的专业评分员的评 分水平,并已在安徽、上海等地正式的成为普通话水平测试的电子化辅助评分系 统。 蓝鸽机考系统是一种典型的英文语音评测系统。众所周知,口语是英语学习 的重要组成部分,传统的口语考试虽然有客观的评分标准,但由于评分老师人数 众多,人与人之间的评分尺度有所不同,评分一致性难以得到保证,另外由于没 有对考试内容进行保存,无法进行复审并纠正评分错误。因此,口语考试的成绩 缺乏公正性,在正规的英语考试中口语成绩常常与笔试成绩分开列出,人们一般 只关注考生的笔试成绩,这就导致了学生目前普遍不重视英语口语,“哑吧英语” 和“带有各地口音的、中国式的英语”随处可见,口语学习成为了英语教学中最 薄弱的环节。融入了智能化评测功能的机考形式的出现,大大弥* b t 以上的不足。 电子化的语音评测系统能够自动保存语音,克服了考试评分的不可逆性,能够以 统一的标准对每位考生的表现打分,保证了考试的公平性,此外系统支持所有考 第一章绪论 生使用相同的试题,在同一时刻考试录音,不仅方便了大规模组织考试,还避免 了传统的排队式口语考试情况下,先考完的考生对未考考生泄题的情况,很大程 度地提高口语评分的效率和客观性。 1 2 3 语音评分与发音检错 按照系统功能划分,语音评测还可以分成语音评分系统和发音检错系统。前 者常用于电子化的口语考试中,后者常见于日常的语言智能辅助教学中。其中评 分是基础,检错可以看成是评分工作的细化。两类系统的输入可以是字、词,也 可以是句子。下面简单介绍一下这两种系统的实现形式。 语音评分系统的结构框架如图1 1 所示,主要是由预处理、评测和打分映射 三个模块组成。系统的输入为说话人的语音数据,输出为评测得分。预处理模块 的作用是对语音进行特征提取,并生成该语音所对应的文本,以用于后续的处理。 在评测模块中,系统使用声学模型和文本信息对特征进行切分和限制边界的识别, 在此基础上经过细致的统计,得出多维机器得分,再通过打分映射模块将各种机 器得分和人工打分进行映射最终输出评测打分结果,并评判出说话者相应的发音 水平等级。 图1 1 语音评分系统的结构图 果 图1 2 发音检错系统的结构图 4 果 第一章绪论 发音检错系统的实现方式与评分系统类似,有所区别的是将最后的打分映射 模块替换成了检错模块。系统中的语音识别器利用事先训练好的声学模型对输入 的声学特征进行计算,得到检错所需要的检错特征,之后检错模块利用检错特征 和事先训练好的检错模型可以得出最终的检错结果。发音检错系统的结构框架如 图1 2 所示。 1 3 语音评测的识别基础 通过1 2 3 节的论述可知,无论是语音评分系统还是发音检错系统都在声学 特征提取、声学模型训练、语音识别器搭建等方面借鉴了语音识别领域的一些成 熟的技术。因此想要深入地研究和了解语音评测系统,就有必要对声学特征、声 学模型、语言模型等识别基础理论做一下简要的介绍。 1 3 1 声学特征 声学特征的提取与选择是语音识别过程的第一步工作,其目的是在于将一段 采集得到的待识别语音信号转化为计算机能够处理的语音特征向量序列。由于语 音信号的时变特性,特征提取必须在一小段被称之为帧的平稳区间内进行,即进 行短时分析。在这个过程中,我们期望得到的语音特征向量能够符合人耳的听觉 感知特性,并在一定程度上起到增强语音信号和抑制非语音信号的作用。美尔域 倒谱系数( m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,m f c c ) 无疑是满足该条件的理 想的声学特征,它被广泛地应用在语音识别和语音评测系统中。m f c c 的提取流 程如图1 3 所示。首先原始的语音信号s 经过预加重、分帧、加窗等预处理得到 每个语音帧的时域信号x ( n ) ,这里的预加重是用来提升高频部分的语音,加窗是 用来避免短时语音段边缘的影响,之后x ( n ) 经过离散傅立叶变换( d i s c r e t ef o u r i e r t r a n s f o r m ,d f t ) 后得到离散频谱x ( k ) ,x ( k ) 再通过m e l 域三角形滤波器之后得 到m e l 频谱,并通过对数能量的处理得到对数频谱s ( m ) ,最后经离散余弦变换 d c t 得到m f c c 系数。其中,离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ,d c t ) 的作用是去掉各维特征之间的相关性,以方便后续的h m m 建模和处理。 d f t i 叫预加重卜- 叫加窗卜叫i 一一l 岳 m f c r 特征向 广1s ( m ) r :1 m e l 域频侧m e l | 或 叫d c t | 鼍叫避世簟卜叫滤波器组 图1 3m f c c 特征的提取流程 第一章绪论 1 3 2 声学模型 语音识别和评测系统中通常都含有声学模型和语言模型,它们分别对应于语 音到音节的概率计算和音节到字的概率计算。本节和1 3 3 节将先后介绍声学模 型和语言模型方面的技术。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 作为语音信号的一种统计 模型自从上世纪7 0 年代i 扫b a u m 等人提出以来,因为其简洁的数学形式和易于处 理的特点而被广泛使用,目前仍然是公认的最有效的语音识别方法。h m m 是在 马尔可夫链的理论基础上发展而来的,它可以通过参数的形式来描述语音信号这 一类随机过程的统计特性。h m m 是一个双重随机过程,其中之一就是马尔可夫 链,这是基本随机过程,描述的是状态的转移。另一个随机过程描述的是状态和 观察值之间对应的统计关系。从观察者的角度来看,我们只能看到观察值,却不 能直接看到状态,只能通过一个随机过程去感知状态的存在及其特性。这就是我 们称之为“隐”马尔可夫模型的原因。下面我们用球和缸的例子来具体解释一下 h m m 模型,如表1 1 所示。 表1 1 说明h m m 概念的球和缸的例子 缸1缸2 缸n p ( 绿) = b 1 ( 2 )p ( 绿) = b 2 ( 2 ) p ( 绿) - - b n ( 2 ) 够臻。一一琴7 蕊静獬矿:。一l 露! 西? 毒丁o 簪鞭 一+ : ; 嚣! p ( 蓝) = b l ( 3 ) j ,。; ) ( 蓝) = b 2 ( 3 ) j 。4 0 。二_ ! ? 。t :p ( 蓝) = b n ( 3 ) :1 设有n 个缸,每个缸中装有很多彩色的球,球的颜色由一组概率分布描述。 实验是这样进行的:根据某个初始概率分布,随机地选择n 个缸中的一个。例如 第i 个缸,随机地选择一个球,记下球的颜色,记为o ,;再把球放回缸中,又根 据描述缸之间的转移概率分布,随机选择下一个缸,例如第j 个缸;再从缸中随 机选一个球,记下球的颜色,记为0 2 ,一直进行下去。可以得到一个描述球的颜 色的序y u o 】,0 2 ,由于这是观察到的事件,因而称之为观察值序列。但缸之 间的转移及每次所选取的缸被隐藏起来,并不能直接观察到。每个缸中选取球的 颜色是由该缸中彩球颜色概率分布随机决定的,每次选取哪一个缸则由一组转移 概率决定。 结合球和缸的例子,一个h m m 可以由下列参数来描述: n :模型中马尔可夫链的状态数目。记n 个状态为0 】,0 n ,记t 时刻 马尔可夫链所处的状态为q t ,显然,q t ( e 1 ,e n ) 。在球和缸的例子中,缸 就相当于状态。 6 第一章绪论 m :每个状态对应的可能的观察值数目。记m 个观察值为v 1 ,v “, i e t 时刻观察到的观察值为o 。,其中,o t ( v l ,v h ) 。在球和缸的例子中, 所选择的彩球颜色就是观察值。 t 【:初始状态概率,t 【= 1 ,n ) ,式中 l t l = p ( q x = o i ) ,1 i n ( 1 1 ) 在球和缸的例子中指开始时选取某个缸的概率。 a :状态转移概率矩阵,( a i j ) u n ,式中 a i j = p ( q t + 1 - - 0 j l q t = 0 i ) ,1 i ,j n ( 1 2 ) 在球和缸的例子中,描述在当前缸的条件下选取下个缸的概率。 b :观察值概率矩阵,( b j k ) n n ,式中 b j k = p ( o t = v k l q t = e j ) ,1 j n ,1 k m ( 1 3 ) 在球和缸的例子中,b j k 就是第j 个缸中球的颜色k 出现的概率。 这样就可以记一个h m m 为 九= ( n ,m ,a ,b )( 1 4 ) 或简写为 九= c r t ,a ,b )( 1 5 ) 更形象地说,h m m 可分为两个部分:一部分是马尔可夫链,由t 【、a 描述, 产生的输出为状态序列;另一个部分是一个随机过程,由b 描述,产生的输出为 观察值序列,如图1 4 所示,其中t 为观察值的时间长度。 卜需链 q 1 q 2 q r随机过程o l ,0 2 ,o t r 状态序列 ( b )观察值序列 图1 4 h m m 组成不意图 由此可知,作为具有双重随机过程的有限状态机,隐马尔科夫模型对多变的 语音观察序列拥有很强的表达能力。为了将其真正使用到语音识别和评测系统中, 还需解决好三个基本问题:首先,在给定模型参数九= ( r t ,a ,b ) 的情况下,如何 有效地计算观察值序列0 0 0 输出概率p ( o i 的,这也被称为评估问题;其次,在给 定模型参数九的情况下,如何选择最优的状态序y u s = f s ,s ,s t - 去描述对 应的观察值序列o 以找出其中所隐藏的状态转移过程,这被称为解码问题;最后, 在给定模型参数九的情况下,如何更新参数九,使得参数对观察值序y u o 的输出概 率p ( o l x ) 达到最大,这被称为训练问题。上述三个问题解决的好不好,直接决定 了最终声学模型性能的优劣。 7 第一章绪论 经过多年的研究,目前人们对这三个问题都有了较好的解答。h m m 评估、 解码和训练分别采用了前向后向算法、v i t e r b i 算法和b a u m w e l c h 重估算法。由 此得到的h m m 模型参数能够可靠的应用于声学模型建模,这种训练方法也被称 为最大似然估计( m a x i m u ml i k e l i h o o de s t i m a t i o n ,m l e ) 。 在语音识别和评测中通常是用从左向右单向、带自环、带跨越的拓扑结构来 对识别基元建模的,一个音素就是一个三至五状态的h m m ,一个词就是构成词 的多个音素的h m m 串联起来构成的h m m ,而连续语音识别的整个模型就是词 和静音组合起来的h m m 。 1 3 3 语言模型 统计语言模型的基本原理是,采用大量的文本资料,统计各个词的出现概率 及其相互关联的条件概率,并将这些知识与声学模型匹配相结合进行结果判决, 以减小由声学模型不够合理而产生的误识。 设w = w 1 ,w 2 ,w o 的词序列产生的概率为 p ( w ) = p ( w l ,w 2 ,w q ) = p ( w x ) p ( w 2i w l ) p ( w 3i w l w 2 ) p ( w q l w t w 2 w q 一1 )( 1 6 ) 要想可靠地估计出一种语言所有词在所有序列长度下的条件概率几乎是不 可能的事,因此对上式的条件概率我们可以假定只考虑与前n 一1 个词相关,即n 元文法模型( n g r a m ) ,如下式 p n ( w ) = n 兰】p ( w i l w i 一1 w i 一2 w i n + 1 ) ( 1 7 ) 通常系统中采用的是二元文法模型( b i g r a m ) 和三元文法模型( t r i g r a m ) 。 1 4 本文的主要内容和组织结构 本文主要讨论语音评测系统中声学模型区分性训练以及将t a n d e m 特征与 区分性训练相结合的相关问题。 本文第二章介绍了经典的区分性训练准则,并将他们纳入到统一的框架之中, 同时也讨论了如何将其运用于语音评测系统中等问题;第三章主要介绍了 t a n d e m 的基本原理,将这种特征运用在中文发音检错系统中,比较其与传统 m f c c 特征的评测性能;第四章主要介绍了t a n d e m 特征与区分性训练相结合 的方法,并在英文语音评分系统上证明了其有效性:第五章为全文的总结。 第二章区分性训练准则及其在语音评测方面的应用分析 第二章区分性训练准则及其在语音评测方面的应用分析 2 1 引言 基于m l e 准则训练h m m 模型直以来作为主流的声学模型建模方法被广泛 地使用在语音识别和评测系统中。这是因为:首先,m l e 提供了一种简单高效、 节省运算资源的训练途径;其次,由于采用了e m ( e x p e c t a t i o nm a x i m i z a t i o n ) 算法和b a u m w e l c h 算法,m l e 估计可以放松对参考文本标注精度的要求:再次, 前向后向算法中的每步迭代可以确保目标函数被正向优化。正是以上这些优点, 使得复杂的语音识别问题可以通过h m m 这种简洁的数学模型来表述和解决。 m l e 通过对类概率密度函数的拟合来刻画语音数据的分布,这在理论上需要 做出一些假设,以满足以下两个条件:一是要有正确的模型假设,建模时使用的 概率密度函数要能够代表实际语音的真实分布;二是要有无穷多的训练数据,并 可以由无穷多的语音数据估计出模型的真实参数。然而,在现实条件下,以上两 点假设条件均无法满足。其一,在实际中准确地获知语音数据的真实分布非常困 难。更不用说去用混合高斯分布或指数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林省高中2026届高三化学第一学期期中调研试题含解析
- 2025-2030中国户外防火涂料市场发展动态与投资规划预测报告
- 光伏电站太阳能资源评估方案
- 风电场运维数据采集与分析
- 2025年服装批发行业研究报告及未来行业发展趋势预测
- 2025年多功能支架行业研究报告及未来行业发展趋势预测
- 2025年有机薄膜电容行业研究报告及未来行业发展趋势预测
- 混凝土搅拌站运营管理方案
- 国家公务员申论考题试卷及答案
- 安全员C题库含答案
- 刘润年度演讲课件20241026
- 《植物种植要领》课件
- DB52T 1724-2023 城市道路指路标志设置与管理规范
- 分子生物学课件第一章医学分子生物学绪论
- DB11T 1794-2020 医疗机构临床用血技术规范
- 应急信息报送规章制度
- 某港池航道疏浚和吹填造陆工程施工组织设计
- 质量为纲-华为公司质量理念与实践
- 统编版语文一年级上册第八单元单元任务群整体公开课一等奖创新教学设计
- 新媒体视频节目制作全套教学课件
- 矿山企业采掘作业规程
评论
0/150
提交评论