已阅读5页,还剩60页未读, 继续免费阅读
(电路与系统专业论文)线性变换方法用于提高概率统计模型性能的研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 概率统计模型是当今的模式识别领域中的一种非常成功的模型。它有较完善 的理沦支持,高效的训练算法,能用较少的模型参数来描述大量数据的分布,因 而成为连续语音识别,说话人以别等任务中的主流模型,并且在实际应用中获得 了很大的成功。概率统计模型的性能取决于模型形式的选择以及模型参数的估 计。在训练数据足够充分的情况n 模型参数越多,模型对于训练数据的描述越 精细,模型的性能也就越好。然而,在实际应用中,训练数据总是有限的,模型 过于复杂会导致模型参数无法得到可靠估计,反而影响模型的性能。因此,如何 在有限数据情况下,选择合理的模型形式,控制参数数量,是提高模型性能,保 证系统实用性的关键。 仂、方差矩阵是概率统计模型参数的最主要部分,其形式的选择对模型性能的 影响很大。选择全矩阵形式,模型能显式的刻画特征矢量各维之间的相关性,然 而,对于高维的特征矢量,要估计的参数数量会很大,不仅计算量大,而且在有 限训练数据情况下不容易得到稳健的估计。而选择对角矩阵,模型的参数数量较 少,较容易得到充分可靠的估计。因此,在实际应用中,一般将协方差矩阵选为 对角形式。然而,使用对角形式的前提假设是特征矢量各维之间不相关,在很多 实际应用中,这种假设并不合理,它将明显影响到模型的描述能力,从而影响到 系统的识别性能。 针对这个问题,本论文分别研究了利用线性变换提高高斯混合模型( g m m ) 和隐马尔科夫模型( h m m ) 两种用于语音识别的概率统计模型的相关性描述能 力。 论文首先研究了采用特征空问的线性变换对特征矢量进行解相关来提高 g m m 模型相关性描述能力的方法。论文分析并实现了p c a ,l d a ,m l l t 三种 特征空删线性变换算法,用于与文本无关的说话人识别。实验结果表明,对于基 于对角协方差形式的g m m 以别系统,采用了三种不同特征空间线性变换,都使 系统性能有明显提高,证明了陔方法的有效性和稳定性。 然而,对f 与文本无关的说话人识别等比较复杂的任务,由于训练数据量大, 中义摘要 想在全特征空川找到一个全局的线性变换矩阵对所有的特征矢量解相关是很困 难的。如使用多个线性变换,将特征矢量分类解相关,则可望获得更好的效果。 因此,本论文进一步提出了一种基于g m m 的模型分类子空间线性解相关的框 架。同时提出了基于协方差矩阵相似性的无监督聚类算法,将g m m 各个高斯成 分按相似性进行分类,获得框架所需要的模型分类子空间。这种框架可以根据训 练数掘量大小,采用任意多个变换阼,具有很好的灵活性,既能精细的对特征矢 量进行解相关,又能保证模型参数的可靠估计。此外,该框架仍采用对角协方差 形式,具有模型参数数量较少,计算量较低的优点。实验表明,模型子空间线性 解相关的框架不仅比基于对角协方差矩阵的g m m 系统有超过3 5 的相对提高, 并且相对于特征空俐线性解相关也有超过2 5 的提高。 对于h m m 模型,论文研究实现并比较了在不同级别上共享s t c 和多类 h l d a 两种最大似然模型空间线性变换算法,用于提高基于h m m 的连续语音识 别系统的性能。随着分类数的增加,由于s t c 和多类h l d a 算法的线性变换矩 阵参数难以获得可靠估计,从而影响了算法的鲁棒性。论文进一步提出了将协方 差矩阵补偿算法h c c 与s t c 和多类h l d a 相结合的方法,提高了线性变换矩 阵估计的可靠性和稳定性。实验表明,标准的s t c 算法在r m 数据库上能获得 124 7 的相对误识率下降,而我们的h c c + s t c 能获得1 9 3 2 的误识率下降。 英文摘筮 a b s t r a c t s t a t i s t i cm o d e lh a sg a i n e dg r e a ts u c c e s si np a t t e r nr e c o g n i t i o nf o ri t si n t e g r a t e dt h e o r y , e f f e c t i v et r a i n i n ga l g o r i t h ma n dt h ea b i l i t yo fm o d e l i n gl a r g ed a t a sd i s t r i b u t i o nb ya i e wp a r a m e t e r s t h e r e f o r e ,s t a t i s t i cm o d e li st h es t a t e o f - t h e a r cm o d e lf o ra u t o m a t i c s p e e c hr e c o g n i t i o na n ds p e a k e rr e c o g n i t i o n t h ep e r f o r m a n c eo ft h em o d e li s d e t e r m i n e db yt h ef o r mo fm o d e la n de s t i m a t i o no f p a r a m e t e r s m o r ep a r a m e t e r sl e a d t oh i g h e ra c c u r a c yb e c a u s et h em o d e lw i t hm o r ep a r a m e t e r si sm o r ep r e c i s ew h e n t r a i n i n g d a t ai s e n o u g h h o w e v e r ,e x c e s s i v e l yc o m p l i c a t e dm o d e lm a yc a u s e o v e r - t r a i n i n gt r a d e rl i m i t e dt r a i n i n gd a t a ,a n di n f l u e n c et h ep e r f o r m a n c ew es h o u l d c h o o s ea p p r o p r i a t em o d e lp a r a m e t e r s ,g u a r a n t e et h e i rs t e a d ye s t i m a t i o na n dt h e r e f o r e i m p r o v et h ep r a c t i c a l i t yo ft h es y s t e m f h e r ei sa ni m p o r t a n tc h o i c em a d ei nt h ef o r mo ft h ec o v a r i a n c em a t r i xt ob eu s e di n s t a t i s t i cm o d e li tm a ye i t h e rb ed i a g o n a lo rf u l l d i a g o n a lc o v a r i a n c em a t r i xi m p l i e s s t r o n ga s s u m p t i o nt h a te l e m e n t so ft h ef e a t u r ev e c t o ra r ei n d e p e n d e n t ;w h i l ef u l l c o v a r i a n c em a t r i xc a ne x p l i c i t l ym o d e la l lo rs o m eo ft h ec o r r e l a t i o n s ,b u ti ts u f f e r s f r o n tad r a m a t i cp a r a m e t e r si n c r e a s e ,a n dt h ei n c r e a s i n gp a r a m e t e r sa r eh a r dt ob e e s t i m a t e dr o b u s t l yb yl i m i t e dd a t a t oa l l e v i a t et h ep r o b l e m ,t h et h e s i si n v e s t i g a t e si m p r o v i n gc o v a r i a n c em o d e l i n gf o r g m ma n dh m mb yl i n e a rt r a n s f o r m a t i o n f h et h e s i sf i r s ts t u d i e so ni m p r o v i n gc o v a r i a n c em o d e l i n gf o rg m m b yf e a t u r e - s p a c e l i n e a rt r a n s f o r m a t i o nd i f f e r e f i tl i n e a rt r a n s f o r m a t i o ne s t i m a t i o na p p r o a c h e s ,i e ,p c a , l d aa n dm l u f , a r ep r o p o s e da n dc o m p a r e d e x p e r i m e n t so nt e x t i n d e p e n d e n t s p e a k e ri d e n t i f i c a t i o nt a s k ss h o wt h a to u ra l g o r i t h mu s i n ge a c ho ft h ea p p r o a c h e sh a s a c h i e v e d s i g n i f i c a n t i d e n t i f i c a t i o ne r r o rr e d u c t i o no v e rt h eb a s e l i n e d i a g o n a l c o v a r j a l l c e1 1 1 0 d e l s h o w e v e r i ti sh a r dt of i n das i n g l et r a n s f o r mw h i c hd e c o r r e l a t e sa l le l e m e n t so ft h e f e a t u r ev e c t o ri ns o m e c o m p l i c a t e d t a s k ss u c ha s t e x t i n d e p e n d e n ts p e a k e r i d e n t i f i c a t i o nm o d e l b a s e ds c h e m e sa r eam o r ef l e x i b l ea p p r o a c h ,w h i c ha l l o wm a n y 英文摘要 d e c o r r e l a t i n gt r a n s f o r m st ob eu s e d t h et h e s i sp r o p o s e saf r a m e w o r kf o rs h a r i n g l i n e a l t r a n s f o r m a t i o n sa m o n gt h ec o m p o n e n t sa n di n t r o d u c e san e wu n s u p e r v i s e d h i m a r c h i c a lc l u s t e r i n ga l g o r i t h mt oi m p l e m e n ti t t h ef r a m e w o r kc a na c q u i r ea t r a d e o f fb e t w e e nc o r r e l a t i o n sm o d e l i n ga n dt h en u m b e ro fp a r a m e t e r s m o r e o v e r , i t a l s od e c r e a s e ss t o r a g er e q u i r e m e n ta n dc o m p u t a t i o n a lr e q u i r e m e n t e x p e r i m e n t ss h o w t h a tt h en e wf r a m e w o r kn o to n l ya c h i e v e sa b o v e3 5 i d e n t i f i c a t i o ne r r o rr a t e ( i e r ) r e d u c t i o no v e rt h ed i a g o n nc o v a r i a n c em o d e l s ,a n da l s oa c h i e v e sa b o v e2 5 i e r r e d u c t i o no v e rf e a t u r e s p a c el i n e a rt r a n s f o r m a t i o ns y s t e m m e a n t i m e t h et h e s i ss t u d i e so ns t ca n dm u l t i p l eh l d aa n dt i e s l i n e a r t r a n s f o r m a t i o n sa td i f f e r e n tl e v e l sf o ri m p r o v i n gc o v a r i a n c em o d e l i n gf o rl v c s r w l l ht h ei n c r e a s eo fl i n e a rt r a n s f o r m sn u m b e r , t h et r a n s f o r m so fs t ca n dm u l t i p l e h l d ai sh a r dt ob es t e a d i l ye s t i m a t e d i nt h i st h e s i s ,w ec o m b i n eh c c ,at r e e b a s e d e s t i m a t i o na l g o r i t h mw i t hs t ca n dm u l t i p l eh l d at oi m p r o v et h et r a n s f o r m s e s t i m a t i o ne x p e r i m e n t ss h o wt h a ts t a n d a r ds t cc a na c h i e v e1 2 4 7 w o r de r r o rr a t e ( w e r ) r e d u c t i o no nr md a t a b a s e ,w h i l eo u rh c c + s t cc a l la c h i e v e19 3 2 w e r r e d u c t j o n 第一章绪论 1 1 研究背景与意义 在当今的模式以别领域,概率统计模型已经被证明是一种非常成功的模型。 概率统计模型具有较完善的理论支持,同时复杂度低,具有高效的训练算法,特 别是它能够使用较少的模型参数描述大量数据的分布,因而成为连续语音识别, 说话人识别等任务中的主流模型,并且在实际应用中获得了很大的成功。 在语音识别中,隐马尔柯夫模型( h m m ) 已经无可争议的成为音素建模的 酋选,很多著名的语音识别系统都是基于h m m 的,例如剑桥大学的h t k 1 , 卡内基梅隆大学的s p h i n x 2 以及i b m 的t a n g o r a 3 等。在说话人识 别领域,h m m 在9 0 年代初就被用于与文本有关的说话人识别中e 4 3 。同时, 麻省理工学院l i n c o l n 实验室的r e y n o l d s 等人将g m m 用于与文本无关的说话人 以别建模f 5 6 。到今天为止,尽管存在一些其他的说话人建模方式,例如人工 神经网络( a n n ) 7 8 和支持向量机( s v m ) 【9 1 1 1 0 等,但g m m 仍然是与文 本无关的说晒人识别中最好的模型。 h m m 和g m m 都属于概率统计模型,它们基于贝叶斯判决理论,将语音识 别巾的分类问题转换成对数据分布的估计问题,从而将复杂的语音训练、匹配的 问题分解为模型表达形式的选择、模型参数的训l 练,以及概率的计算等子问题, 解决了语音以别任务中的很多难题。例如在美国国家标准及技术署( n i s t ) 举 办的一年一度的与文本无关的晚话人识别评测中,领先的系统基本上都是基于 h m m 和g m mf 1 4 j 11 1 2 。 在概率统计模型中,模型形式的选择以及模型参数的估计对于模型性能是非 常重要的。在训练数据足够充分的情况下,模型参数越多,模型对于训练数据的 刻矾越精细,模型的性能也就越好。然而,在实际应用中,训练数据总是有限的, 模型过于复杂会导致模型参数无法得到可靠估计,反而影响模型的性能。因此, 如伺在有限数据情况下,选择合理的模型形式,控制参数数量,是提高模型性能, 保证系统实用性的关键。 在概率统汁模型中,协方差矩阵不仅是模型的重要成分,而且占据了模型参 数的最主要部分,因此,它形式选择刺模型性能的影响很大。协方差矩阵一般可 第一章绪论 以选择对角和全方差矩阵两种形式。对于d 维的特征矢量空间,对角协方差矩阵 的参数个数为d ,而全矩阵l 办方差的参数个数为d ( d + 1 ) 2 。由于通常在语音识 别中特征参数矢_ 鬓= 维数d 一般较高,全矩阵模型的参数数量都很多。以一个典型 连续语音识别系统为例,m f c c 特征矢量为3 9 维,h m m 模型中高斯成分为1 0 0 0 0 个。如果采用对角矩阵,待估计的方差参数数量为3 9 0 0 0 0 ;如果采用全矩阵, 则参数数量增长为7 8 0 0 0 0 0 。可见,虽然全矩阵能够显式的刻画参数各维之间的 相关性,然而,其模型要估计的参数数量很大,不仅计算量大,而且在有5 艮i ) l l 练 数据情况下很难得到稳健的估计。因此,在实际应用中,一般将协方差矩阵选为 对角形式。然而,使用对角阵的前提假设是特征矢量各维之间不相关,在很多实 际应用中,这种假设是不合理的。这个假设会明显影响到模型的描述能力,从而 影响到整个系统的识别性能。 目i h 在连续语音识别和说话人识别中,主流特征矢量是基于短时声道特征 m e l 倒谱特征( m f c c ) 。虽然m f c c 特征参数在提取过程中,采用了离散余弦 变换( d c t ) 1 3 可以部分的减弱参数各维之间的相关性,但是与各维之间不 相关的假设仍然有很大差距。 为了解决这个问题,目前有很多方法被提出,主要分成两个方向。一个方向 就是对特征矢量进行解相关。通常采用线性变换对原特征空间进行变换,使得在 新特征空间中特征矢量各维之间相关性减弱甚至消除,以满足对角协方差矩阵的 i n 提假设,例如主分量分析( p c ap r i n c i p a lc o m p o n e n ta n a l y s i s ) 1 4 ,线性区 分性分析( l d al i n e a rd i s c r i m i n a t ea n a l y s i s ) 15 ,最大似然线性变换m l l t ( m a x i m u m l i k e l i h o o d l i n e a r t r a n s f o r m ) 1 6 等。另一个方向就是利用补偿、共 享等方法提高协方差估计的可靠性,比如逆协方差混合( m i x t u r eo fi n v e r s e c o v a r i a n c e ,m i c ) 1 7 ,s p a m 18 f f 口分层相关关系补偿( h i e r a r c h i c a lc o r r e l a t i o n c o m p e n s a t i o n ,i t c c ) 【19 。 出于线性解相关物理相对意义清晰,数学形式简单,近年来受到越来越多研 究单位的重视。 1 2 论文的主要研究内容 为j 7 减弱对角形式、方差矩阵关于特征矢量各维不相关的不合理假设对模 型性能的影响,提高模型对于参数相关性的描述能力,论文分别对与文本无关的 说话人模型( g m m ) 和连续语音识别模型( h m m ) 进行了深入的研究和探讨,并利 用线性变换提高概率统计模型的描述能力,取得了一些研究成果和有用的结论。 第一鼋绪论 本论文由以下几个章节的内容组成: 第一章主要介绍基于g m m 的文本无关配话人识别的基本原理、模型参数估 汁方法及系统以别行能进行了深入的讨论和实验研究。通过实验研究,重点讨论 了概率统汁模型的性能对语音训练大小的依赖关系;分析了在一定语音训练集 卜g m m 混合度的合理选择的重要性,揭示了系统性能最优时,模型参数个数 与训练集大小的关系:最后还验证了测试语音长度对系统性能的影响。 第= 章提出采用特征空削线性变换对于特征矢量进行解相关,提高g m m 模 ) 型棚关性描述能力,从而提高整个系统的识别性能。本章分析并实现了p c a , l d a ,m l u f 二种特征空i b j 线性变换算法。实验结果表明,基于三种不同特征空 问线性变换框架的g m m 识别系统,其性能相对于通常的对角g m m 识别系统性 能都有明显的提高,证明了方法的有效性和稳定性。 第四章提出了一种基于g m m 模型的分类子空间线性解相关的框架。本框架 可以根据数据量大小,采用任意多个变换阵,具有很好的灵活性,从而能够更精 细得对特征矢嚣进行解相关。同叫,本框架保留模型协方差的对角形式,从而保 持了参数数量较少,计算量较低的优点。本章又提出了新的高斯成分分类算法, 可以按照相似性:舟高斯成分无监督分类到各个子空间,从而在每类高斯成分之间 芡享线性变换矩阵。实验表明,本章提出的模型空间线性解相关的框架不仅优越 ,i 基准f l ;j x , 角协方差矩阵的g m m ,比基准系统有超过3 5 的相对提高。并且相 对于特征空问线性解相关也有超过2 5 的相对提高。 第五章实现并比较了在不同级别上共享s t c 和多类h l d a 两种模型空间线 性变换算法,用于提高基于h m m 的连续语音识别系统的性能。更进一步,通过 将h c c 算法与s t c 和多类h l d a 相结合,我们提高了线性变换矩阵的鲁棒性。 实验表明,标准的s t c 算法在r m 数据库上能获得1 2 ,4 7 的相对误识率下降, 而我们的h c c + s t c 能获得1 9 3 2 的误识率下降。 最后,是本论文的结论与展望。 第二章基于高斯混台模型的说哺人识别系统 第二章基于高斯混合模型的说话人识别系统 2 1 引言 高斯混合模型( g a u s sj a nm i x t u r em o d e l ,g m m ) 是一种概率统计模型,在 与文本文无关的说话人识别任务中获得了广泛的应用,是目前最为成功的文本无 关晌说话人模型。 理论上,g m m 可以通过无限多个高斯分布的线性加权来拟合一个任意形式的 分机。因此当说话人模型采用g m m 时,可以通过增加g m m 的混合度,来逼近况话 人特征矢量的空间分布。所以,提高模型的混合度可以有效的提高模型对特征矢 量空问分布拟合的精度。 但是,g m m 作为概率统计模型,其模型参数估计的可靠性要依赖于训练数据 集的大小。当训练数据量不足时,就无法对数据的分布形式做出一个可靠的估计, 因此也就无法得到g m m 模型参数的可靠估计。所以,虽然提高模型混合度可以有 效提高模型对特征矢量空f 自j 分布拟合的精度,但是混合度的高低还要受到训练集 大小的制约。 选择g m m 作为说话人模型时,还需要选择高斯成分的协方差参数的矩阵形式, 对角或者全矩阵。由于全矩阵形式的协方差包含的参数数目远比对角形式的多, 出于降低模型参数数量与训算量的考虑,一般采用对角形式的协方差矩阵。其隐 含的假发是,特征矢量各维之问不相关。 本章首先介绍了基于概率统计模型的晓话人识别原理,然后分析了与文本无 关的晚话人识别系统的基本结构,并详细讨论了模型参数估计的准则和算法。最 后通过实验分析与讨论训练数据集大小对文本无关说话人识别性能的影响,g m m 混合度刊训练及大小的依赖关系,以及固定训练集大小测试语音长度变化对系统 性能的影响。 第二章基于高斯混台模型的说话人识别系统 2 2 基于概率统计模型的说话人识别原理 目动晚话人识别的研究始丁上世纪6 0 年代,从识别目的上来分,说话人识 别包括辨认和确认两方面。辨认目的是识别出未知语音属于哪一个说话人,而确 认是判定未知语音是否属于其声明人,给与接受或者拒绝的判决。从识别方式上 求分,j j 要又可分成两种方式:与文本有关和与文本无关。其中语音文本内容受 艰的方式具有安全| 生较高,训练和测试语音较短的特点,可用在用户比较配合的 场合。而文本无关的方式则可以使用自由文本内容,其安全性较低,训练与测试 所需语音较长,但是其易用性较高,并且可用在用户不配合的场合。文本无关的 说话人识别因为较高的易用性而成为研究的热点,本文也将以文本无关说话人识 别为目标展丌研究,包括辨认与确认两个方向。 同前,说话人识别主要面临以下的一些问题:1 说话人特征的提取;2 说话 人的建模;3 环境及通道鲁棒性;4 有限的训练及测试样本;5 在说话人确认任 务中的确认阀值选取。本文将主要研究说话人的建模,提高模型的描述能力。 说话人识别研究初期,当时的主要手段是基于频谱和模板匹配的方法。进入 7 0 年代后,动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 和矢量量化( v e c t o r q u a n t i z a t i o n ,v e ) 被应用到说话人识别中,使得说话人识别的性能得到了大幅 度的提高。8 0 年代以来,隐马尔可夫( h i d d e nm a r k o vm o d e l ,h m m ) f 2 0 ,2 1 】 在浯音识别领域中得到了成功和广泛的应用,并且成为文本相关的说话人识别的 核心技术。进入9 0 年代后,特别是r e y n o l d s 6 ,11 】对混合高斯模型( g a u s s i a n m i x t u r em o d e l ,g m m ) 做了详尽的介绍之后,由于其简单灵活有效以及具有较好 的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术,将说话人识别 带入到一个新的阶段。1 9 9 5 年以来,各种新的说话人识别技术层出不穷,如 g m m u b m ( u n i v e r s a lb a c k g r o u n dm o d e l ,u b m ) 架构 2 2 1 、大规模连续语音识 别( l v c s r ) 、谚用于与文本无关的浇活人识另q 2 3 1 、支持向量机( s u p p o a v e c t o r m a c h i n e ,s v m ) 1 g m m 的结合 2 4 ,2 5 1 、基于评分的说话人规整技术h n o r m 2 2 、z n o r m 矛d t n o r m 2 6 】,语音高层信息的探讨,以及针对通道失配问题的 s m s ( s p e a k e rm o d e ls y m h e s i s ) 2 7 ,2 8 技术等。从上世纪6 0 年代到现在,说 话人以别所处理的语音从小语料库( 较少的说话人) ,干净语音和受限文本发展 到令天的大规模语料库,各种类型语音以及任意内容的文本。经过4 0 多年的研 究,近年来说话人谚 别的研究重点已经从实验系统转移到实用系统,如实用背景 坏境下特别是基于电话语音的识别系统上来。 作为当今与文本无关的说话人识别中的主流技术,o m m 属于概率统计模型, 第一章撼于高斯混台模型的说衍人识别系统 它将说话人识别中的分类问题转换成对数据分布的估计问题,从而将复杂的语音 训练、匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计 算等子问题,解决了说话人 t 5 4 1 i 1 任务中的很多难题。 2 3 说话人识别基本过程 如下图所示,首先是收集训练语音数据。对于文本无关说话人识别,不限定 洲练语音的文本内容,一般是一些文本内容完全不同的训练语音。在特征提取阶 段,目日仍然主要采用短时倒谱参数,比如m f c c ,这将在下- 4 , 节详细介绍。 匿 哑习 圈 幽2ia 蜕活人模型训练过程 l 划2 1b 说话人识别过稃 g m m 的训练基于m l 准则,使用e m 算法来估计模型的参数。生成的说话人模 型将被存放到模型库中。 识别时,任意未知语音,其语义是不限定文本的,经过特征提取,然后与模 型库中所有的说话人模型进行匹配,得到相应的概率输出。最后的判决基于概率 最大的原则,即匹配概率最大的相应院话人模型为最后判决结果。 如果测试语音集中的未知语音一定属于模型库中某一说话人,则这种测试语 音集成为闭集,否则为丌集。对于丌集,需要设定一个阈值来判断是否属于模型 库巾晚话人的语音。在本文的实验中,都是闭集测试。 第一二章基于高斯混合模型的说话人识别系统 2 4 高斯混合模型( g m m ) 高斯混合模型( g m m ) 可以看作一种状态数为l 的h m m ,由m 个高斯概率密 度函数线形加权求和构成。由于无限多个高斯分布就可以拟合一个任意形式的分 卸,因此当g m m 的混合度m 足够高时,就可以足够精细的逼近说话人特征矢 量的空间分布。 假设o 是多维特征空问的个观察矢量,其和混合度为m 的高斯模型进行 匹配n 勺概率输出如式( 21 ) 所示 p ( o ,l ) = z w , p ,( 。) ( 21 ) 公式( 21 ) c h w ,为各个高斯成分的权重,满足限定关系式 ( 22 ) p ( q ) ( i = l ,m ) 为g m m 中不同高斯成分的概率输出函数,如公式( 2 3 ) p ,( o ,) 丙环下唧 韭掣 。, 这罩,c ,为特征参数矢量维数,为第i 个高斯分布的d 维均值矢量,为第f 个 南斯成分的协方差矩阵,是个d d 的矩阵。因此一个g m m 可以由下列参数 描述: ( 1 ) m ,模型中的高斯密度函数的数目。 ( 2 ) 描述每个高斯密度函数的参数:均值矢量,协方差矩阵。 ( 3 ) 每个高斯密度函数的权重,w ,。 这样,可以记一个g m m 的模型参数为 = m , ,饥 , 。通常g m m 的混 合度是事先选定的,因此模型参数中需要估计的为:= ) , “) , m 。 根据公式( 21 ) ,g m m 的基本结构以及观察特征矢量与模型匹配的基本示 意图如下所示: 中因科学披术j 、学坝l 学位论文第二章基于高斯混合模型的说晒人识别系统 ! :互i = 一二一- 二一= - 一- - y ,- 二二一二一二= j 二:二_ :j i ! j 二一二i = 二一- 二一= 观察特征父主 酗2 2 高斯混合模型与观察特征矢量匹配示意图 2 5 模型参数估计 g m m 的模型训练是一个有监督的训练过程。对于给定的训练集,g m m 训 练的好坏需要一个评价标准,本文采用的是最大似然准则。在最大似然准则 f ,最大期望( e x c e p t i o nm a x i m u m ,e m ) 估计算法被用来估计g m m 模型参数。 251 最大似然准则 最大似然( m a x i m u ml i k e l i h o o d ,m l ) 是一种评价模型好坏的标准。本 质上,最大似然就是要求模型描述的分布能够最大限度逼近训练数据集的分布。 假定训练集为观察特征矢量集o = o i 吼,o ,) ,g m m 混合度选为m ,则 m l 准则下最优的模型参数满足如f 公式: r 7 、 = a r g m a x n p ( ql 扎) ( 2 4 ) 即最优模型参数能够使得训练集与模型匹配似然度达到最大。由此可以看出, m l 使得模型所描述的分布最大可能的逼近训练集的分布形式。因此,训练集越 大并目越能反映i 兑话人特征的真实分却,则训练得到的最优g m m 越能接近真实 分靠,从而说话人识别系统性能也就越高。 第二章摹于高斯混台模型的说衍人识别系统 2 j2 最大似然估计 m l 准则要求估计出的g m m 参数能够使得模型与训练参数匹配的似然度最 火。当观察矢量为。,其来自模型五描述的分布的似然度为p ( 五l0 ,) ,估计旯的 参数就是要使p ( 五q ) 最大。根掘贝叶斯准则, 刚h ,= 掣铲, s , p l o ,j 假发语言模型五的概率p ( z ) 为常量,并且由于p ( o ,) 与参数估计无关,所以最大 化p ( 2 l0 ,) 就等于最大化p ( o ,1 五) ,即已知模型为五,则观察到矢量0 ,的概率。然 而,观察矢量0 ,是不完全数据( i n c o m p l e t ed a t a ) ,在这里就表现为,我们不知 道o ,来自于g m m 中的哪一个高斯成分,所以要借助e m 算法。假定隐变量已知, y 为完全数据,那么可以计算, m 旧耻黜圳m ) = 揣。 通过对右式耿i o g 求条件期望,对所有可能的隐变量求期望,就可以避免在将来 的公式中出现未知的隐变量。同时采用迭代方法,即使用新的参数能获得更 火的期望。所以令 ( 丑7 ) = e 1 0 9 p ( o ,y i 五) 一l o g p ( y l0 ,a ) 1 0 ,丑) 定义h ( 丑 ) = e 1 0 9 p ( y | 0 ,五) i0 ,五】,根据j e n s e n 不等式,有h ( i 兄) h ( 旯l 五) , 所以估计参数 7 使得l ( 五) 最大化,只要保证q ( a l ) q ( 五l 丑) 即可,这早 9 ( 7 丑) = 6 1 0 9 p ( o ,y l 矗) 10 ,五】 ( 2 6 ) = i p ( y l 。,五) l o g p ( o ,y l z ) 方, 这罩f 表不对所有可能的隐变量取值积分。上式即为e m 中的e 步,求期望。 。,j 7 m 则是最大化,使上式最大化。通过不断的e 、m 迭代,得到模型参数的估计 值。 假定g m m 混合度为肘,训练参数矢量个数为丁。 第一章暴r 高斯混台模型的说r 一人识别系统 q ( 川 ) = q ( 川丑) ,代入( 26 ) 有 2 喜莓p c yq ,五,l o g p ( o , , y ,= 喜莓号若书鲁- 。s p c y h ,c z 刘g m m 而言,隐含变量为观察矢量从第几个高斯成分得到,所以上式可以写为 争萝丛幽l o gp ( ” r ) ( 28 ) 智_ :| fp ( o ,i 矗) 一 钆( ) 2 瓮等,这郸 将( 27 ) 式代入l o g p ( q ,只2 然后对( 4 ) 分别就模型参数求导并等于零可 , ,( ,) w = 音专一 x r , ( o ,f 净肯一一 h ( ,) 旧li = i 一( ,) ( o ,一删。,一,) 7 ,= 旦矿丁一 一( f ) ( 2 9 ) ( 21 0 ) ( 21 1 ) ( ,) 的含义是观察矢量o ,落在第i 个高斯分布的后验概率。在训练集t ,第f 个高斯成分出现的概率。 这早需要对( 27 ) 式做一个说明。如果按照( 26 ) 式,由于在时刻1 ,2 ,r 隐臧变量可能的取值为1 m m 。那么q 函数应该如下定义: , q ( 川 ) = ,( ,o i , 2 ) l o g p ( o ,y 第二章摧于- 岛斯混合模型的说矾人识别系统 i , ,t ,- p ( 只| 0 f ,a ) l o g p ( o ,y l 五) ( 2 1 2 ) 、l h = ij = l _ = i 通过这个式子也能得到同样的结果,但是比较复杂。( 4 ) 式比较简单,即认为每 个观察矢量贡献了单独的q ( 1 1 3 ,作后整个q 函数的构造采用的是所有这些 r p 独q 函数的求和。 2 6 对角化协方差假设 式。 g m m 在实际应用中需要选择高斯函数中一个重要的参数,协方差矩阵的形 剀2 3 列角矩阵o 全矩阵参数数目比较 如图( 23 ) ,对于d 维的特征矢量空间,对角协方差矩阵的参数个数为d , 而全矩阵协方差的参数个数为d ( a + 1 ) 2 。由于通常在语音识别中特征参数矢量 维数d般较高,大多为3 0 维以上。因此,使用全矩阵协方差将导致模型参数 数同过多,在有限的训l 练集下不能可靠估计。 同时,在计算特征观察矢量与模型的匹配概率过程中,如公式( 2 _ 3 ) ,如果 采剧全矩阵仂、方差计算量为o ( d 11 的量级,而采用对角协方差计算量为o ( d ) 。 因此,在特征矢量维数比较高时选用全矩阵胁方差对计算量的要求也比较高。 因此,在实际使用中出于参数数量与计算量的考虑,通常是假设特征矢量各 维不相关,采用对角形式的协方差。也就是认为非对角元素为零,计算公式如下: 1 一( f ) ( q 一“) ( o 。一“) 7 ,m :w 2 d 涵g ( ,) = d 池g j1 生_ = ;j f l鲁智7 ( 21 3 ) c p 阳利学技术凡学顺1 学位论卫第一二章基于高斯混合模型的说l 人识别系统 另外,在实际应用中,往往得不到大量充分的训练数据对模型参数进行训练。 由于训练数据的不充分,g m m 模型的协方差矩阵的一些元素可能会极小,而这 些极小值会影n 州似然度计算的数值精度。为了避免极小值,对协方差矩阵中每个 元素的数值大小设置一个门限值。存计算中所有小于门限值的数都强制设定为门 限值。本文将门限设置为o0 0 5 。 2 7 实验与讨论 本节通过实验分析与讨论j 7g m m 用作晚话人模型在文本无关的说话人识别 中的性能,特别是分析了模型参数估计与训练集的依赖关系,不同混合度对识别 性能的影响,测试语音长度对识别性能的影响等。 27 1 数据库捕述 数据库是来自于微软亚洲研究院( m s r a ) 的中文普通话数据库 2 9 】。共有 10 0 个男性说话人,其中每人各有2 0 0 不同文本内容的语音。每条语音的长度约 为4 秒到18 秒不等,平均为6 秒。所有原始语音都是在安静的办公室环境下, 1 6 k h z 采样率,1 6 比特量化,使用麦克风以及s o u n d b l a s t e r 采集卡录制。 在本章的实验中,随机选取每人2 0 0 条语音中的2 0 条作为训练集,总长度 大约为1 0 0 秒,每条约为5 秒。测试集随机选取了每个人2 0 0 条语音中与训练集 不祥交的5 0 条,一共有1 0 0 x 5 0 共5 0 0 0 条测试语音。测试时,以一条语音( 平 均长度为5 秒) 作为一次测试。 在特征参数提取阶段,对语音进行分帧处理,1 0 m s 帧移,3 0 m s 帧长。每帧 提取从l 阶到1 6 阶m f c c 参数,并提取一阶动态差分( 5 帧窗长) ,构成3 2 维 倒谱参数。在参数提取的后处理中使用了倒谱均值扣除 3 0 和r a s t a 3 1 方法, 目的是为了降低通道失配的影响。 272 混合度对识别率的影响 混合高斯模型的一个重要参数就是高斯模型的混合度,也就是高斯成分的个 数。理论上,无限多个高斯函数就可以拟合任意的分布形式,因此混合度是越高 越好。但是,实际上由于训练集火小有限,因此,模型能够可靠估计的模型参数 数目是有限的。当g m m 的混合度增加时,g m m 总的模型参数数目也在增加。 当混合度到达定数目时,由,二模型总的参数数目过多,导致参数估计不可靠, 因而反而会使系统性能下降。 第二章基于高斯混台模型的说讯人识别系统 这早,训练语音选取i ) i l 练语音集罩的全部语音,即每个说话人各2 0 条训练 语音,总长度达约为l o o 秒。系统性能评价采用识别错误率( i d e n t i f i c a t i o ne r r o r r a t e e r ) 来表示。不同混合度下系统性能的变化如图所示: 1 bj z6 4g b1 2 8 幢馄俞度 幽2 4 不同混合度r ,系统性能比较。 可以看出,在定训练集下,随着模型混合度的增加,g m m 对数据分布的描述 越来越精细,系统性能也越来越高。当模型混合度为6 4 时,系统的性能最优。 但是当g m m 混合度继续增加时,山于模型参数数目过多,而训练集大小有限, 因此,过多的模型参数会导致估计不可靠,因而系统性能反而下降。 2 7 3 训练集大小的影响 概率统计模型的性能在很大程度上取决于用于训练模型的训练集。训练集越 充分并且越能够反映【兑话人特征矢量的真实分布,则模型的性能就越好。为了比 较圳练集大小划系统性能的影响,本节分别选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年育婴师职业技能资格考试题库(含答案)
- 2025年黑龙江省大兴安岭地区公开招聘消防员模拟二笔试卷含答案
- 建筑架子工(普通架子工)考试题(附参考答案)
- 公开选聘中小学校长笔试题含答案
- 呼吸机相关肺炎预防与操纵指南试题(附答案)
- 《数控车削编程与加工》期末测验及答案
- 综合解析苏科版八年级物理下册《力与运动》专项攻克试题(含答案解析版)
- 2025年会计初级实务考试真题及答案解析单选题
- 2025年董办岗位笔试题及答案
- (2025年)财经岗考试真题及答案
- 1-投入产出表与模型-投入产出分析教学课件
- 家政服务职业技能家庭照护员理论知识考核试题及答案
- 砂石系统拆除方案
- 小学语文人教四年级下册第五单元我家的杏熟了
- 《大卫·科波菲尔(节选)》《复活》比较阅读课件 2022-2023学年统编版高中语文选择性必修上册
- 《细胞的生命历程》教材教法分析课件
- 神经内镜手术技术在脑出血手术中的应用课件
- 体检中心耳鼻喉科操作规程
- 江苏省高考数学二轮复习 专题24 直线与圆的最值问题精品课件
- 福建省中药资源概况课件
- 初中数学人教七年级上册(2023年更新) 一元一次方程合并同类项解一元一次方程教案
评论
0/150
提交评论