




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)汉语连续语音识别中自适应技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘耍 摘要 y 叮6 7 8 5 5 f 在计算机自动语音识别中,当训练和识别的环境由于信道和背景噪声的不同 而产生差异,或者所训练的模型无法很好地表示测试的数据时,将导致系统的识 别率急剧下降。自适应方法集中于使用少量的自适应数据来提高系统在测试环境 中盼| 生能。自适应按应用场合可分为环境自适应和说话人自适应,按工作方式可 分为有监督和无监督的自适应,或静态和动态的自适应。还有一种称为撰写方式 的自适应利用测试集本身米进行自适应,反过来提高测试集的识别率。, 本论文回顾了汉语连续语音识别的基础知识,包括隐含马尔可夫模型、语音 特征参数的提取、声学模型、语言模型、识别过程和汉语的声学特点。 自适应技术从实现方法上可分为基于特征向量转换和基于模型参数转换两 大类。倒谱均值归一化是一种简单有效的基于特征向量转换的方法,基于模型参 数转换的方法最流行的是最大后验概率算法和最大似然线性回归技术。本文对以 上的算法进行了详细的介绍。 在实验中我们建立了汉语的关键词识别系统和汉语的大词汇表连续语音识 别系统。在关键词识别系统的环境自适应方面,我们得出:少量数据即可明显改 善系统喻识别率;基于m l l r 的方法要优于基于m a p 的方法;当自适应的人数 较少时,结合m l l r 与m a p 的方法稍微劣于只基于m l l r 的方法;当自适应 的人数增 适应方面 好的效果 合m l l r 与m a p 的方法较优。在大词汇表连续语音识别的自 行了倒谱均值归一化和有监督的说话人自适应实验,取得了较 研究了撰写方式的说话人自适应,提出了多遍处理的自适应方 法:置信度评估则分两步:先用较为简单的方法排除一部分错误识别结果,再用 基于n b e s t 的评分方法挑出置信度最高的结果,新的方法相对非特定说话人的 模型和参考模型都有明显改进。 ,一7 、 、 , 关键词:环境岔适砬、说话心酊吾应、倒谱均矗面一化、最大后验褫荤算法、最 大似然线性回归、汉语关键词识别、汉语大词汇表连续语音识别 分类号: 疆翌厂、 、。 摘要 a b s t r a c t t h ep e r f o r m a n c eo fac o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e md e g r a d e ss e v e r e l yw h e nt h e r e e x i s t sm i s m a t c hb e t w e e nt e s t i n ga n dt r a i n i n gc o n d i t i o n s ,o rt h er e c o g n i t i o nm o d e ld o e sn o t r e p r e s e n t t h et e s td a t a p r o p e r l y a d a p t a t i o nt e c h n i q u e s f o c u so ni m p r o v i n g r e c o g n i t i o n p e r f o r m a n c e w i t has m a l la m o u n to fd a t a a d a p t a t i o nc a nb ec l a s s i f i e da se n v i r o n m e n t a l a d a p t a t i o na n ds p e a k e ra d a p t a t i o n a n di tc a r lo p e r a t ei nan u m b e ro fm o d e s ,s u c ha ss u p e r v i s e d a n du n s u p e r v i s e do rs t a t i ca n dd y n a m i c t r a n s c r i p t i o nm o d ea d a p t a t i o ni sd o n eo nt h et e s ts e t i t s e l fi no r d e rt oi m p r o v et h em o d e l sf o ras u b s e q u e n tr e c o g n i t i o np a s s t h i st h e s i sr e v i e w st h eb a s i ce l e m e n t so fs p e e c hr e c o g n i t i o nf o rm a n d a r i n , i n c l u d i n gh i d d e n m a r k o vm o d e l s ( h m m s ) ,f e a t u r ee x t r a c t i o n ,a c o u s t i c m o d e l s ,l a n g u a g em o d e l s ,r e c o g n i t i o n p r o c e s s ,a n da c o u s t i cc h a r a c t e r i s t i c so f m a n d a r i n t op e r f o r ma d a p t a t i o nw ec a nm o d i f ye i t h e ri n p u tf e a t u r ev e c t o r so rm o d e lp a r a m e t e r s c e p s t r a lm e a nn o r m a l i z a t i o n ( c m n ) i sas i m p l eb u te f f i c i e n tm e t h o di nf e a t u r es p a c e t h em o s t p o p u l a rt e c h n i q u e si nm o d e ls p a c ea r em a x i m u map o s t e r i o r i ( m a p ) a n dm a x i m u ml i k e l i h o o d l i n e a rr e g r e s s i o n ( m l l r ) w ed e s c r i b et h e s ea l g o r i t h m si nd e t a i l w eb u i l dam a n d a r i nk e y w o r ds p o t t i n g ( k w s ) s y s t e ma n dam a n d a r i nl a r g ev o c a b u l a r y c o n t i n u o u ss p e e c hr e c o g n i t i o n ( l v c s r ) s y s t e m i ne n v i r o n m e n t a la d a p t a t i o nf o rm a n d a r i nk w s s y s t e m ,w ef o u n dt h a tas m a l la m o u n to fa d a p t a t i o nd a t ac a ni m p r o v et h er e c o g n i t i o np e r f o r m a n c e s i g n i f i c a n t l y w ef u r t h e rc o n c l u d et h a tm l l rb a s e da p p r o a c h e sp e r f o r mb e t t e rt h a nm a ps c h e m e i ft h en u m b e ro fs p e a k e r su s e df o r a d a p t a t i o nw a ss m a l l ,m l l ra d a p t a t i o np r o d u c e das l i g h t b e t t e rr e s u l t st h a nt h ec o m b i n a t i o no fm l l ra n dm a p a p p r o a c h e s w h e nt h en u m b e ro f s p e a k e r s i n c r e a s e d ,m a ph e l p e dw h e nc o m b i n e dw i t hm l l ra d a p t a t i o na n dt h eb e s tp e r f o r m a n c ew a s a c h i e v e d 。i na d a p t a t i o nf o rm a n d a r i nl v c s rs y s t e m ,e x p e r i m e n t sw e r ep e r f o r m e df o rc m n a d a p t a t i o na n ds u p e r v i s e ds p e a k e ra d a p t a t i o n ,b o t ho fw h i c h _ a c h i e v es o m ei m p r o v e m e n t s m o r e o v e r , t r a n s c r i p t i o nm o d ea d a p t a t i o nw a ss t u d i e d w ei n t r o d u c ea ni t e r a t i v ea d a p t a t i o n a p p r o a c h t w os t e p sb a s e do nn b e s tl i k e l i h o o ds c o r ea r ep r o c e s s e dt oe s t i m a t et h ec o n f i d e n c e m e a s u r e :am o r ed e l i c a t ea l g o r i t h mf o l l o w sac o a r s ec l a s s i f i c a t i o n t h ee x p e r i m e n tr e s u l t ss h o w e d t h a to u rp r o p o s e da p p r o a c ho u t p e r f o r m st h ei n i t i a ls p e a k e r - i n d e p e n d e n ts y s t e ma n dt h eb a s e l i n e m o d e l k e y w o r d s :e n v i r o n m e n t a la d a p t a t i o n ,s p e a k e ra d a p t a t i o n ,c e p s t r a lm e a nn o r m a l i z a t i o n , m a x i m u map o s t e r i o r i ,m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ,m a n d a r i nk e y w o r ds p o t t i n g , m a n d a r i nl a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n 第一章引言 1 1 背景及意义 第一章引言 计算机自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,简称a s r ) 经过了近 五十年的研究已经取得了很大的发展。8 0 年代以来,基于统计的隐含马尔可夫 模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 语音识别技术取代了传统的模板匹配 技术,使语音识别取得了突破性进步。虽然近年来基于h m m 的语音识别系统已 经取得了很大的发展并成功应用于商业用途上( 如i b m 公司的产品v i a v o i c e ) , 但在实际的应用中训练和识别的环境常常会由于信道和背景噪声的不同而产生 差异,或者所训练的模型无法很好地表示测试的数据,从而导致系统的识别率急 剧下降。最直接的解决方法是在新的环境下或针对特定的说话人重新收集数据对 所有模型进行训练,但这样做需要采集和处理大量的数据,费时而不切合实际。 因此,集中于只使用少量的数据的自适应技术作为语音识别技术的一个组成部 分,正吸引着越来越多研究者的关注。 语音识别中的自适应技术既可以针对特定的环境也可以针对特定的人,前者 称为环境自适应,后者则称为说话人自适应。使用自适应技术对一个用于非特定 环境或者非特定人的语音识别系统来说非常有帮助。首先通过自适应我们希望能 从总体上提高系统的识别正确率,当自适应的语句逐渐增加时系统的性能也能不 断地提高。对于地方口音较重或者不能被训练集很好地表示的说话者来说,通过 自适应更是能明显地降低识别的错误率。其次因为用作自适应的语音较少,使得 系统可以对这些数据进行快速的处理,这对于一个交互或者实时的系统来说十分 有意义。最后如果我们假定自适应后新的声学模型是通过对原始模型的某种转换 得到的话,我们可以仅仅对表示这种映射的参数进行估计和存储,而这些参数通 常比实际的声学模型的参数要少得多。这种通过模型转换的方法有两个好处,一 是利用少量的数据来估算较少的参数将使得自适应的结果更加可靠,二是相对于 个没有自适应的识别系统来说将减少所需存储的参数数目。而这种做法的缺点 是当自适应的数据增加时,算法将损失一定的精度。 实际应用中语音识别系统的自适应可以在几种不同的方式下工作。如果自适 应的语音数据所对应的文本是已知的,则称为有监督( s u p e r v i s e d ) 的自适应: 否则就称为无监督( u n s u p e r v i s e d ) 的自适应,这时系统需要对该文本进行估计。 自适应还可以分为静态( s t o i c ) 的方式或者动态( d y n a m i c ) 的方式:静态的方 式是指在自适应以前所有的数据已经准备好了,动态的方式是指自适应开始的时 候只有一部分的数据,在自适应的过程中新的数据会逐渐加进来。具体使用何种 第一章引言 方式将视应用场合而定。例如在一个连续语音识别的听写系统中,当一个新的说 话人登记的时候,系统可对其进行静态的有监督的自适应;而当这个说话人开始 使用这个系统以后,则可以根据识别的结果来做动态的无监督( 或者有监督) 的 自适应。对于无监督的自适应我们希望能缩小它与有监督的自适应之间的差距。 此外有一种自适应方式利用测试集本身来进行自适应,反过来提高测试集的 识别率。这种方式通常被称为撰写( t r a n s c r i p t i o n ) 方式,属于无监督的自适应。 因为它不需要额外的数据也能提高系统的识别率,所以最吸引人而且最具有挑战 性。这种方式可以应用在广播语音、磁带、以及大批语料的识别等非实时的系统 中 4 6 1 1 4 7 ,因此不要求快速的运算能力。通常的做法是对语音数据进行多遍识 别,在前一遍识别结束后进行非监督的自适应来改进后一遍识别的精度,它所涉 及的主要问题是如何保证用于自适应的语料所对应的文本的正确性。本文将对撰 写方式的自适应方式作一定的研究。 大词汇表连续语音识别( l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n , 简称l v c s r ) 和关键词识别( k e y w o r ds p o t t i n g ,简称k w s ) 是连续语音识别 的两个分支,分别有着不同的应用领域。前者的任务是正确无误地将口述语言逐 词逐句地转换成书面文字,后者则要从连续无限制的语音中识别出给定的若干个 关键词。两者在实现上虽然有很大的区别,但它们的底层语音信号的表示和 声学模型( h m m ) 的建立是用同样的方法来实现的。因此本文所讨论的自适应 技术可分别应用在这两种不同的任务中。 针对不同的工作方式和不同的任务所使用的自适应方法会有一定的差别。但 对于h m m 来说,最重要的参数是每个状态的概率密度函数,它通常由混合高斯 模型( g u a s s i a nm i x t u r em o d e l ,简称g m m ) 来表示。本文所讨论的自适应方法 主要针对g m m 中的最重要参数均值向量进行修改。 1 2 论文组织 本文的第二章首先介绍h m m 的基本原理:然后讨论语音识别系统实现中的 几个基本问题,包括预处理与特征提取、声学模型、语言模型和识别过程;最后 介绍了汉语普通话的声学特点。 第三章介绍了语音识别系统中主要的自适应技术,包括基于特征向量转换的 自适应方法和基于模型参数转换的自适应方法。倒谱均值归一化、最大后验概率 算法和最大似然线性回归算法是当前流行的自适应技术,我们对这些算法的细节 内容进行了深入讨论。 在第四章我们建立了一个汉语的关键词识别系统,并讨论如何针对训练和测 试环境的差异进行自适应。这章介绍关键词识别系统的基本框架和填充模型的 第一章;l言 构造,并试验了三种基于模型参数转换的自适应方法。 第五章讨论的是汉语大词汇表连续语音识别系统中自适应技术的实现。在这 章中我们首先介绍为实验准备的大词汇表连续语音系统,然后进行了倒谱均值 归一化实验和有监督的说话人自适应实验,最后讨论撰写方式的说话人自适应。 第六章是本文的总结以及对未来工作的展望。 第二章汉语语音识别的基础知识 2 ,1 引言 第二章汉语语音识别的基础知识 作为一个专门的研究领域,语音识别是一门交叉学科,它与声学、语音学、 语言学、数字信号处理、人工智能、模式识别等众多科学紧密相连。它所涉及的 这些学科中有两个方面最为特出,同时也是目前语音识别研究所集中的方向。一 方面是把语音作为一种信号来进行处理,求出它的特征参数。6 0 年代中期形成 的一系列数字信号处理方法的算法如数字滤波器、快速傅里叶变换( f f t ) 等与 语音信号处理的需求是分不开的。在7 0 年代初期产生了线性预测编码( l p c ) 和同态信号处理的算法,它们已成为进行语音信号处理最强有力的工具,并广泛 应用于语音信号的分析、合成及其它领域。以后的章节中我们用到的将是基于 f f t 的m e l 频率倒谱系数( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,简称m f c c ) 。 另一方面是用模式识别的方法来对输入模板( 语音) 和参考模板进行匹配。6 0 年代末7 0 年代初最重要的发展是动态时间规整( d y n a m i ct i m ew a r p i n g ,简称 d t w ) 技术,它有效地解决了不等长语音的匹配问题,对特定人孤立语音的识 别十分有效。8 0 年代以来,基于统计的h m m 语音识别技术取代了传统的模板 匹配技术,使语音识别技术取得了突破性进展。h m m 它不仅具备了d t w 的优 点,并且提供了一个精简的模型使得覆盖整个训练集的目标函数最大化,成功解 决了非特定人连续语音识别的关键问题,从而取代了d t w 在语音识别领域的主 导地位。本文的研究对象是汉语普通话,汉语作为世界上最多入使用的语言,与 西方语言有着明显的差别,我们研究汉语语音识别必须考虑到它的声学特征。下 面我们将首先介绍h m m 的基本原t n 1 1 1 2 1 1 3 1 ,然后讨论基于h m m 的语音识别 系统,最后介绍汉语普通话的声学特点 3 8 1 。 2 2h m m 的基本原理 2 2 1 马尔可夫链 马尔可夫链描绘了这样一个过程:一个有限状态自动机在时间内的状态 变化。自动机在任一离散时刻t ,只能处于有限状态集s 中的某一状态,弘拈, 以,轧 。我们用x ,x 2 ,x ,表示自动机在t = i ,2 ,时刻所处的状态。 这一条状态链的产生概率满足以下式子: 第二啻汉语语音识别的基础知识 j p ( z ,z :,z 。) = p ( x 。) 丌p ( 一k ;,x :,t 一,) ( 2 1 ) t = 2 x = nx a,x n 表示一条随机变量链,这样产生的一条状态链称为马尔可夫链。 在n = i 时刻,自动机所在的状态x ,取决于一个初始状态概率矢量 万= 防,吼 ,它的每一个分量乃表示x 1 等于s l 的概率,即: 万,= p ( x l = 5 ,) ,= 1 ( 2 2 ) 如果假设这个自动机在任何时刻,x ,取某个状态的概率只取决于前一个时 刻( t - 1 ) 自动机所在的状态札,而与更前的任何时刻的状态无关,我们称之为 “马尔可夫假设”( m a r k o va s s u m p t i o n ) ,由此产生的状态序列x 构成了一个离 散时域的阶马尔可夫链。( 2 1 ) 式变为: n p ( 一,z :,工。) = p ( x 。) 兀尸( x ,) ( 2 ,3 ) l = 2 在相邻两个时刻中已知前一时刻的状态为毋,后一时刻状态为s j 的概率由一个 l 维的矩阵爿= 口来表示,即: 口u = p ( x = j jx 2j ,) ,i ,j 2 1 l 2 2 。2 隐含马尔可夫模型( h m m ) ( 2 4 ) 考察上节提到的自动机:如果在任何时刻玎,外界都无法观测到系统所在的 状态靠,而只能得到与这个状态有关的一个随机输出矢量o 。,这就构成了个 一阶隐含马尔可夫模型( h m m ) 。隐含是指状态岛隐藏在系统内部,不为外界 所见。如无特殊说明,本文中的隐含马尔可夫模型均指一阶隐含马尔可夫模型。 输出矢量o 。可以具有连续分布或者离散分布,相应的概率密度函数或概率分布 只取决于为何种状态,而与n 无关。个概率密度函数构成了一个矢量 丑= b l ,b 2 ,矽,b d o ) : b ,( 0 ) = 只。,t ( o 。) = p ( o 。lx 。= s 。) = 只,( d ) ,f = 1 ( 2 5 ) 这也被称为“输出独立性假设”( o u t p u t - i n d e p e n d e n t a s s u m p t i o n ) 。输出独立性假 设和上节中提到的马尔可夫假设是一阶隐含马尔可夫模型的两个前提假设。 初始状态概率矢量石、状态转移概率矩阵a 以及概率输出矢量b 一起构成了 h m m 的三个特征参量。因为4 、b 、t 的元素都是概率,它们必须满足: 0 s 万;,口口,6 。( d ) i ,i ,= 1 。 ( 2 6 ) 第二章汉语语音识别的基础知识 l 互= 1 t 爿 ( 2 7 ) d 。= l ( 2 8 ) j = l b 如) = 1 ,i = l l( 2 9 ) 隐含马尔可夫模型通常可以表示成九= 伍a ,曰) 。一个3 状态的h m m 如图 2 1 所示。 b t o ) 巧,乃,乃i a 3 3 图2 1 、一个3 状态的h m m 。s 。:第i 个状态;n ,:初始状态为品的概率; 状态s ,转移到状态s j 的概率;6 ,纠:输出矢量在状态s ,的概率密度函数。 2 2 3i t m m 的三个问题 给定一个h m m 九= 阮a ,功,有三个基本问题需要解决,它们是: 评价问题 给定一个观察序列o = o l ,0 2 , o n 和一个模型九= 怃a ,b ) ,如何计算观察 序列由九产生的概率,即p ( o i x ) 。 解码问题 给定一个观察序列o = o o a ,o 和一个模型九= ( n - , a ,b ) ,如何找到一条 最佳的状态序列,使它产生观察序列o 的概率最大。 学习问题 给定一个观察序列o = o o a ,o n 和一个初始模型九= 亿a ,占) ,如何调整a 第二章汉语语音识别的基础知识 的参数使得九产生0 的概率,即p ( 0 i 九) 达到最大值。 我们用输出矢量具有离散分布的h m m 为例讨论这三个问题,连续分布时清 况类似。 2 2 3 1 解决评价问题:前向算法 给定一个模型九= 怃a ,b ) ,为了计算观察序列0 = os ,0 2,0 产生的概率 最直接的方法就是利用全概率公式把所有可能的状态序列的概率相加: p ( o l 旯) = p ( s l2 ) p ( o 五) 】 ( 21 0 ) s 对任何一个给定的状态序列乒( s ,印,s n ) ,p ( s i 九) 可以写作: n p ( sl 五) = p ( j 】i 五) 兀j p ( “h 十五) = 厅s 口s d s 。巩 ( 2 1 1 ) 月= 2 对于同一条状态序列p ( j ,5 ,跗) ,观察序列0 的输出概率可以分解为: p ( o i s ,五) = 兀p ( o 。ls n 五) = b s ( o 。) 6 s :( 0 2 ) b 如( o 。) ( 2 1 2 ) 因此我们得到: p ( o i 五) = p ( s i x ) p ( o 旧旯) = 万s i b s ( d 1 ) 口s i s 2 b s :( 0 2 ) 口s 。,p b s ,( o ) ( 2 1 3 ) 这个公式的算法复杂性为o ( 2 n * l n ) ,不可能在实际中应用,取而代之的是类似 于动态规划的前向算法( f o r w a r da l g o r i t h m ) ,其策略是存取被不同的状态序列 所用到的中间结果,以节省计算量。 首先定义前向概率: 口一) = p ( o f ,石,= j ,l 旯) ( 2 1 4 ) 表示给定模型九,从时间1 到f 观察到值0 1 0 扛0 ,且t 时刻状态停留在最的概率。 前向概率a ,( ,) 可以通过下面的递推式来计算: 厅,b ,( 0 1 ) , r = 1 ,1 s 上 口r u ) 2 1 l 口。( f 扣。 6 ,o ,) ,2 f ,1 - ,三 ( 2 1 5 ) l ;l 计算完最后一个时刻,我们得到: p ( o i 兄) = 窆口,( f ) ( 21 6 ) 第二蕈汉语语音识别的基础知识 与式( 2 1 3 ) 相比,时间复杂度已经降低到o ( t * l 。) 。 2 2 3 2 解决解码问题:v i t e r b i 算法 虽然前向算法可以计算一个隐含马尔可夫模型产生特定观察序列的概率,但 它是把所有可能状态序列产生观察向量的概率累加起来,并没有给出最佳的状态 序列。但在许多应用中,我们希望能找到最佳的状态序列。事实上,找到最佳状 态序列是连续语音识别的基础。 最佳的状态序列指的是所有可能的状态序列中概率最大的一条,也就是说寻 找某条状态序列乒s i s j ,使得尸( s d 九) 达到最大。为了避免对所有路径的穷 举,我们采用类似于动态规划算法中寻找最佳路径的方法,即v i t e r b i 算法来解 决。 首先定义v i t e r b i 概率: l ( ) 2 。要氅一 p b 一,一2s ,。1 l ) ( 2 1 7 ) 表示在f 时刻,产生。,0 2 ,d f 且最后停留在状态j ,的所有状态序列中,概率 最大的那条状态序列所对应的概率。v i t e r b i 概率所倒可以通过下面的递推式计 算: o ) = 石j b j ( o t ) , ,= 1 ,1 - ,l m 。a ;x 。 z , 一d k 。) 屯( 口,) ,2 ,i 三 ( 21 8 ) 再定义变量b ,记录在f 时刻,最后一个状态为毋的最佳状态序列中t - 1 时刻的 状态,即: 1 3 , o ) = a r g m a x _ 一。( f k 。 ,2 茎r 蔓,1 ,l( 2 1 9 ) l e l 由式( 2 1 8 ) 和( 21 9 ) ,我们可以通过下面的回溯过程得到最佳的状态序列 x i ,z :,z : : x ;= a r g m a x ( f ) 、s f l x ? = e 。0 - 。) ,1 f 一1 2 2 3 3 解决学习问题:前向一后向算法 ( 2 1 2 0 ) 学习问题是指得到一个给定训练集以后如何优化h m m 参数的问题,它是这 第二章汉语语音识别的基础知识 三个问题中最困难的一个。目前通用的方法是前向一后向( f o r w a r d b a c k w a r d ) 算法,又称作b a u m w e l c h 算法。 首先定义后向概率: f l , ( f ) = _ p ( d f h = t ,兄) ( 2 2 1 ) 表示在f 时刻,系统停留在状态s ,产生部分观察矢量序列o h ,o ,o 的概 率。后向概率口,御可以用下面的递推式来计算: f 1 ,f = ,1 i l 屈( f ) = 圭刚,m ( ,n - 1 狁1 1 螂工 ( 2 2 2 ) lj = l 然后定义: y ,( f ) = p b ,= s ,o ,兄)r 2 2 3 ) 表示在f 时刻,已知h m m 和观察矢量序列时,模型停留在状态s 。的概率,可以 利用前向概率和后向概率来求九( f ) : y 。( f ) = 尸b ,= 一0 ,旯) p b ,= ,o ,i 五) p ( o , 同时定义 口,( f 旭( f ) 2 1 一 口,( f 地( f ) l = l 告,( f ,) = p ( x ,:s t ,x t + 1 = s ,0 ,旯) ( 2 2 4 ) ( 2 2 5 ) 表示在,时刻,发生状态s 。到状态町的转移的概率。同样我们用前向概率和后向 概率来求孝,( f ,) : 善,( f ,) = p c c ,= s i ,x t + l = s ,1 0 ,a ) 一p ( x t = “。= s ,。,l 旯) 一1 丽万一 :! ! ! ! 塑! ! ! 鱼兰! 塑:! 立! l 口。( f ) j - i 图2 2 表示了善,( f ,- ,) 的计算过程: f 2 2 6 ) 第二章汉语语音识别的基础知识 图2 2 、掌,( f ,) i 拘i , h g q b ,互) :p ( o ,s l a ) 1 0 9 尸( 。,s ,c ) ( 2 2 7 ) 为了使q h ,五) 达到最大,利用拉格朗日乘数法,可以得到式( 2 2 8 ) 、( 2 2 9 ) , 1 1 ( 2 3 0 ) 而。= h ( i ) ( 2 2 8 ) 鲁( f ,j ) a ,= 号广 ( 2 2 9 ) n ( f ) 6 。( 七) 按照上面三个式子对所有训练样本反复进行迭代,直到q b ,五) 收敛为止。 2 3 自动语音识别 f 2 - 3 0 ) 自动语音识别可以被认为是一个模式匹配的问题 2 】,它的工作流程如图2 3 所示: 输入语 音信号 图2 3 、自动语音识别的工作流程 输出 文本 么n蓉渗 第二章汉语语音识别的基础知识 识别系统对输入的语音信号进行预处理与特征提取,得到表示这段语音的特征向 量,该特征向量与参考模板进行比较,以选择最接近的一个模板。用于比较的参 考模板包括训练时所建立的声学模型和语言模型。本文的训练和识别都是用 h t kh m m 工具包( 3 0 版本) 来实现的 1 。 2 3 1 预处理与特征提取 常见的对语音信号的预处理手段包括预滤波、噪声消除和语音增强等。对经 过滤波的语音信号进行采样和a d 转换,就形成了计算机可以处理的数字信号。 语音信号具有“短时性”,只有在一段比较短的时间间隔( 通常为5 5 0 m s ) 内, 才保持相对稳定一致的特性。因此对语音信号的处理必须建立在“短时”的基础 上。在语音处理中用“帧”来表示一段短的语音。本文所处理的语音均采用1 6 k h z 的采样率和1 6 位的采样位数,每1 0 毫秒为语音数据提取特征参数,每一帧的长 度为2 5 6 毫秒。 我们对每一帧的语音信号提取表征它的一组特征参数,形成该帧的特征矢 量。 2 1 3 】 1 4 】等对特征提取的基本问题做了详细的讨论,特征提取的技术已经 比较成熟。根据不同的应用目的,特征矢量的选取有很多不同的选择,大部分系 统使用的特征是倒谱系数、能量以及它们的动态参数:一阶、二阶差分。倒谱系 数有基于l p c 的l p c c 系数 2 和m e l 倒谱系数( m f c c ) 1 j 1 3 两种。本文采 用的m e l 频率倒谱系数及其动态参数与其他特征矢量相比,能够更好地反映听 觉系统的“临界带效应”,在大部分情况下优于其他系数。 m f c c 系数的提取过程如下: 堕! ! 笪到亭频预加重滤垫 l 加h a m m i n g 窗 快速傅立叶变换 ( f f t ) 前1 2 个倒谱系数 m e l 标度 三角形滤波器簇 图2 4 、m f c c 的提取过程 3 9 维 m f c c 特征矢量 第二章汉语语音识别的基础知识 2 3 2 声学模型的建立与训练 确定所使用的特征后,先要选取适当的建模单元,然后为每个单元建立一个 模型,再从训练语音中提取特征,供模型进行训练。对于不同的语言和不同的识 别任务,建模单元的选取也有所不同。但总的来说,它必须满足下面三个准则: 准确性;能够准确地刻划语音信号,反映包含在其中的声学信息 可训练性:有足够的语料来训练模型参数 普遍性:模型集合应该是开放的,能够用它组成任何新的词汇 我们采用在2 2 节中详细介绍的h m m 来建立声学模型。 2 3 2 1h m m 的结构和参数的选取 结合语音信号的特点,本文采用无跳转自左向右模型( 图2 5 ) 。其中第一个 状态为进入状态( e n t r ys t a t e ) ,最后一个状态为退出状态( e x i ts t a t e ) ,它们都 不产生输出。 b 2 ( )b 3 ( )b 4 ( )b s ( ) b 6 ( ) 图2 5 、无跳转自左向右模型 h m m 中最重要的参数是每个状态生成观察矢量的概率密度函数b ,它可以 具有离散或连续分布。对于离散h m m ,需要先进行聚类、矢量量化( v e c t o r q u a n t i z a t i o n ,简称v q ) ;连续h m m 则可以直接将特征矢量作为训练样本,但 连续h m m 需要估计更多的参数。本文中的采用的是连续分布函数,每个观察矢 量的概率分布是一个混合高斯模型( g m m ) 。状态j ,产生观察矢量o k 的概率 b 。( o ) 满足: 兰 6 ,( o k ) = 艺c 。n ( o 女;卢,。,。)( 2 3 1 ) 撕,) 2 丽1 p m 一 ( 2 - 3 2 ) 其中m ,是状态s 。中混合高斯分布的个数;c ,。是状态s 。的第m 个混合高斯分布的 第二章汉语语音识别的基础知识 权重;( 0 j ,) 是一个月维高斯函数,其中是均值矢量,是协方差矩阵。 为了简化计算但又不引入大的误差,我们假定特征矢量的每一维是互相独立 的,即为对角阵。 2 3 2 2h m m 参数的估计 声学模型建立以后我们用训练语料对h m m 的参数进行估计,用到的方法是 2 2 3 3 节所介绍的b a u m w e l c h 算法。如果训练语料中每个建模单元的起始和终 止位置( 时刻) 已知,我们称为孤立训练。孤立训练可以直接使用b a u m w e l c h 算法来重估参数,但训练样本中必须标注出每一个建模单元的起止位置,对大量 的没有标注的连续语音训练数据来说无能为力,这时我们采用嵌入式训练。嵌入 式训练把每个语音数据文件看作对应h m m 的组合,这个组合的模型由前一个 h m m 的退出状态和后一个h m m 的进入状态连接起来形成的。训练时先从所有 的样本中获取数据,通过v i t e r b i 算法自动对齐,最后同时对所有的模型参数进 行更新。因此,在进行嵌入式训练时,只需提供每个语音数据文件对应的h m m 序列,而不必标出每个模型的起止位置。这种训练方法大大方便了大词汇表连续 语音识别系统的建立。 2 3 3 语言模型 对于一段连续语音而言,识别单元之间的搭配符合一定的规律,因此可以通 过对大量的语料统计来得到一个统计语言模型。在识别时,结合语言模型可以提 高系统的识别率。最基本的语言模型是用长度为k 一1 的历史( ”“,w 订,w “+ ) 来估计当前识别单元的出现概率: p ( w il w i 1 ,w 2 w i k + ,) ( 2 3 3 ) 其中,w 是音素等识别单元;k = 2 时,称为b i g r a m 模型,k = 3 时,称为t r i g r a m 模型。 理论上,只要有足够多的训练语料,( 2 3 3 ) 式可以用 墼兰尘生旦鉴墨竺型生生二立( c ( ) 表示出现频率)( 2 3 4 ) c ( w i 一1 ,w i 一2 ,w i k + i ) 来估算。但实际上,由于可能的元组( w ,w ,w m ,w m ,) 的数目非常巨大,大 部分元组根本不在语料中出现,所以数据稀疏问题非常突出,要用概率平滑等方 法来近似估计( 2 3 3 ) 式。 1 5 给出了多种概率平滑、回推的方法。绝大多数的系统 只能用到t r i g r a m 模型 1 6 。 由于( 2 3 3 ) 式中,k 的值很小,所以也被称为“短距离语言模型”。为利用更 第二章汉语语音识别的基础知识 多的“历史”,研究者们提出了不少改进方案,如f 1 7 提出了可变长的n 。g r a m 语 言模型;【1 8 】提出了基于触发器( t r i g g e r b a s e d ) 的“长距离”语言模型;【1 9 结合“长距离”和“短距离”语言模型各自的特点,提出了“多尺度”( m u l t i s p a n ) 语言模型。f 2 0 贝q * q 用信息检索技术,根据较长的上下文,确定当前的主题,从 而动态调整n g r a m 模型的概率。f 2 1 1 提出了相似的思路,但用最大熵方法来实 现。 1 6 详细介绍了语音识别中常用的语言模型、统计方法。语言模型可以与全 局h m m 网络结合,t r i g r a m h m m 网络搜索时需要专门的搜索策略,主要方法 有2 遍搜索 1 6 】、多遍搜索 2 2 、动态规划( d y n a m i cp r o g r a m m i n g ) f 2 3 1 等。 2 3 4 识别过程 模式匹配模块的任务是:寻找与观察矢量序列0 匹配、符合语法的最佳句子 谛,也就是使后验概率尸( w f o ) 达到最大的谛,即: 谛= a r g 。m a x p ( w l 。) = a r g ,m a x 掣= a r g 。m a x p ( w ) p ( o l w ) ( 2 3 5 ) 其中,p 是句子w 出现的先验概率;尸r 0 i 训是当输入句子为w 时产生观察矢 量序列o 的概率。 连续语音识别的时候把各个单独的h m m 连接起来组成一个全局的h m m 网 络,然后采用2 2 - 3 2 节介绍的v i t e r b i 算法,把语音数据和识别网络匹配,得出 最优的n 个结果。对于不同的识别任务和语言模型,全局h m m 网络有很大区 别,我们将在第四和第五章中结合汉语的特点进行详细介绍。此外,对各识别路 径进行剪枝,可以提高识别速度。 2 4 汉语声学特点 音节( s y l l a b l e ) 是语音的自然单位,就是人们听觉上自然感到的、很容易 分辨出来的最小的语音片段。就汉语来说,一个汉字的读音就是一个音节。我们 通过声母、韵母和声调来对汉语中不同的音节进行区分。 2 4 1 声母和韵母 我们如果把音节进行细分,得到最小的语音单位,也就是音素( p h o n e m e ) 。 比如“心”可以划分出x 、i + 、”n , r 三个音素。汉语普通话有三十多个音素,可 以组成四百多个无调音节。语言里的音素,按其特点可以分为元音和辅音两大类。 第二章汉语语音识别的基础知识 汉语中有1 0 个元音和2 2 个辅音。 汉语普通话里的音节由声母和韵母两部分组成。一个音节起头的音就是声 母,它后边的是韵母,此外还有一个“零声母”,即韵母自成音节,声母等于零。 普通话声母共2 1 个,都是由辅音充当的。辅音的最大特点是发音的某一处有阻 碍,气流要克服阻碍才能通过。气流受到阻碍的部位称为发音部位,气流受到阻 碍以及克服阻碍的方式称为发音方法。我们按照发音方式和发音部位来对声母进 行分类,如表2 1 所示: 表2 1 、普通话声母表 、莲膏方式 塞音塞擦音擦音鼻音边音 发音部位、 双唇音 b ,p 唇齿音 f 舌尖前音z ,cs 舌尖中音d ,t i 舌尖后音 z h c h s h r 舌面音 j ,q 舌根音 g ,k h 汉语的韵母有3 8 个,按照构成音素个数和成分的不同,可以分为三类: 单韵母:由一个元音构成,发音时发声器官的状态基本保持不变。 复韵母:由两个或三个元音构成,但发音时并不是几个元音的简单叠加,而 是从起始元音向收尾元音的平滑过渡,其中有一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客房清扫考试题及答案
- 2025年国能铜陵发电有限公司招聘考试试题(含答案)
- 2025年广州市从化区社区专职人员招聘考试笔试试题(含答案)
- 消毒技术基础知识参考题库(附答案)
- 2025年导游知识培训考试题附答案
- “消除艾梅乙母婴传播”知识测试卷附答案
- 营养与膳食知识练习题(附答案)
- 2025年G2电站锅炉司炉从业资格证安全技能知识考试题(附含答案)
- 2025年档案业务比赛理论考试题库及答案
- 2024年全国信息化技师知识考试题库(附含答案)
- 定点零售药店医保管理制度
- 婚内债务协议
- 2025年中电科太力通信科技限公司招聘自考难、易点模拟试卷(共500题附带答案详解)
- 70岁老年人三力测试能力考试题库附答案
- 苏教版科学新教材
- 新任教师学生管理方法培训
- 2025年智慧校园校企合作专业共建服务合同3篇
- POS机终端设备销售合同
- 定额〔2025〕2号文-关于发布2020版电网技术改造及检修工程概预算定额2024年下半年价格
- 《脑卒中与急救》课件
- 三位数除以一位数(首位不够除)
评论
0/150
提交评论