(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf_第1页
(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf_第2页
(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf_第3页
(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf_第4页
(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信号与信息处理专业论文)基于高斯混合模型的语种识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 语种识别经过最近十年的飞速发展,已经从算法研究的角度逐渐走向成熟的 应用了。本文研究的目标是以g m m 模型为基础,在公开的n i s t 数据库上,尽 可能的提高语种识别的准确率,并且从系统角度,建立了一个完整的以g m m 为 基础的语种识别系统,具体而言,包括以下几个关键的内容: 首先,搭建基于g m m u b m 模型的系统框架,以此作为基线系统。基线系 统的配置和所采用的相关关键技术的优化包括三个方面:特征提取,模型训练和 得分处理。特征提取模块,作用在于从语音中间提取出声学性能很好的特性参数, 能够对噪声和信道具有良好的鲁棒性,g m m 系统采用的特征采用了很多技术, 比如v t l n ,r a s t a 滤波,s d c 等等,可以说好的特征是整个系统的基础;模 型训练模块,用于训练通用背景模型以及自适应各个语种的声学模型,模型训练 基于m l e 准则,采用经典的e m 算法估计模型参数;测试模块,主要处理得分, 包括得分归一化和后端分类器。高斯后端分类器对最终结果具有很大的改进作 用。在n i s tl r e 标准数据库上的实验结果表面,该基线系统取得了良好的性能, 对我们的g m m 系统打下了坚实的基础。 其次,把因子分析应用到基于g m m 模型的语种识别系统中。与话者识别不 同的是:在语种识别任务中,噪声不仅仅是信道的差异,还包括说话人的差异等 因素。文中根据语种识别的特点,采用经典的e m 算法,应用因子分析技术估计 噪声( 包括说换人、信道差异) 子空间,从模型域和特征域两个方面提出了消除 噪声影响的算法。在最新的n i s tl r e 0 7 上,性能和g m m u b m 基线系统比较, 相对提高了3 6 5 。 最后,对g m m 采用区分性的m m i 准则。首先,给出了m m i 准则下g m m 模型一些参数的选择,比如训练语料切分时长的影响,采用硬切分和音素识别器 切分的差别;基于m m i 运算量大,做t o pn 简化运算的一些尝试;以及相同语 种不同方言在训练中遇到的问题等等。这些问题对g m m m m i 系统本身有着很 大的影响。最后,把因子分析的方法和区分性训练方法结合起来,进一步提升系 统性能。基于因子分析的g m m m m i 系统也是目前我们语种识别中g m m 方向 性能最好的系统,在最新的n i s tl r e 0 73 0 s 达到了e e r2 1 3 ,为同类系统的 先进水平。 关键词:语种识别,高斯混合模型,因子分析,区分性训练 a b s t r a c t a b s t r a c t l a n g u a g ei d e n t i f i c a t i o nh a sb e e nr a p i d l yd e v e l o p e di nt h ep a s t10y e a r s i tc o m e s t op r a c t i c a la p p l i c a t i o n t h ea i mo ft h i st h e s i si st oc o n s t r u c tt h eg m m b a s e d l a n g u a g ei d e n t i f i c a t i o ns y s t e mf r a m e w o r k ,a n dm i n i m i z et h es y s t e m se r r o rr a t eo n n i s tl r et e s tc o r p u s t h er e s e a r c ha n dr e s u l to ft h i sp a p e ri sa b s t r a c t e da sf o l l o w s : f i r s t l y , t h eg m m - u b mi s c o n s t r u c t e da so u rb a s e l i n e o u rb a s e l i n es y s t e m m a i n l y h a st h r e em o d u l e s :f e a t u r ee x t r a c t i o nm o d u l e ,m o d e lt r a i n i n gm o d u l ea n d e v a l u a t i o nm o d u l e f e a t u r ee x t r a c t i o nm o d u l ee x t r a c tf e a t u r ew h i c hd i m i n i s ht h e v a r i a b i l i t yo fc h a n n e l ,s p e a k e ra n ds oo n w ee m p l o y san u m b e ro ft e c h n i q u e st h a t h a v ep r o v e nt oi m p r o v eg m mm o d e l i n gc a p a b i l i t y , s u c ha sv o c a lt r a c tl e n g t h n o r m a l i z a t i o n ,r a s t af i l t e r i n g ,s h i f t e dd e l t ac e p s t r a m o d e lt r a i n i n gm o d u l et r a i n s u b ma n de a c hl a n g u a g ea c o u s t i cm o d e lw i t hm a x i m u ml i k e l i h o o de s t i m a t i o n c r i t e r i o n 。e v a l u a t i o nm o d u l ep r o c e s ss c o r e sw i t hg a u s s i a nb a c k e n dc l a s s i f i e r , w h i c h i m p r o v et h ep e r f o r m a n c eo fs y s t e mr e m a r k a b l e i nn i s tl r et e s tc o r p u s ,o u r b a s e l i n es y s t e ma c h i e v e sag o o dp e r f o r m a n c e s e c o n d l y , f a c t o ra n a l y s i s h a sb e e n p r o p o s e d i ng m m - b a s e dl a n g u a g e i d e n t i f i c a t i o ns y s t e m ,t h ev a r i a b i l i t yo ft h es p e a k e ra n dc h a n n e li so n eo ft h em o s t i m p o r t a n tf a c t o r sa f f e c t i n gt h ep e r f o r m a n c e s e s s i o nv a r i a b i l i t ys u b s p a c ei se s t i m a t e d w i t he ma l g o r i t h mb a s e do nt h ep r o p e r t yo fl a n g u a g ei d e n t i f i c a t i o n b o t hm o d e la n d f e a t u r ed o m a i nc o m p e n s a t i o nm e t h o d sa r ep r o p o s e d i nn i s tl r e2 0 0 7c o r p u s3 0 s e v a l u a t i o n ,t h ee q u a le r r o rr a t e ( e e r ) o ft h ep r o p o s e ds y s t e mc a nr e d u c eb y3 6 5 a g a i n s tt h eb a s e l i n eg m ms y s t e m 。 l a s t l y ,d i s c r i m i n a t i v et r a i n i n g o fg m mm o d e l sw i t hm a x i m u mm u t u a l i n f o r m a t i o nc r i t e r i o ni sd i s c u s s e d a tf i r s t ,al o to fe x a mi sd o n ei nm m it r a i n i n g , s u c ha s :t h et r a i n i n gu t t e r a n c el e n g t h ,u t t e r a n c es e g m e n t a t i o no fh a r dd e c i s i o no r p h o n e m er e c o g n i z e rd e c i s i o n ,t o pns t r a t a g ef o rt i m ec o n s u m p t i o np r o b l e m ,t h e p r o b l e mo fd i a l e c ti nm m i n e x t ,b o t hd i s c r i m i n a t i v et r a i n i n ga n df a c t o ra n a l y s i s m e t h o d sa r eu s e di no u rs y s t e m i nn i s tl r e2 0 0 7c o r p u s3 0 se v a l u a t i o n ,e e r e q u a l s2 13 o u rs y s t e ma c h i e v e ss t a t e o f - t h e a r tp e r f o r m a n c ei ng m m a r e a k e y w o r d s :l a n g u a g ei d e n t i f i c a t i o n ,g m mm o d e l ,f a c t o ra n a l y s i s ,d i s c r i m i n a t i v e t r a i n i n g i i i 论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 芷丝 h 哆年己只弓e l 第一章绪论 第一章绪论 1 1 语种识别的背景和历史 自动语种识别( 1 a n g u a g ei d e n t i f i c a t i o n ,l i d ) 通过对给定的一段语音信号分 析处理,识别其所属语言的种类,语种识别往往作为语音识别和其他相关应用的 一个前端处理技术。随着信息时代的到来,自动语种识别技术得到了越来越多的 重视,在信息检索和安全领域比如跨语言通信系统的前端处理,多语种信息服务、 机器自动翻译等,都有着很重要的应用。 传统的基于并行音素识别器结合语言模型( p a r a l l e lp h o n er e c o g n i t i o na n d l a n g u a g em o d e l i n g ,p p r l m ) 方法i l 】的语种识别的性能最佳。该方法主要是将 不同的语种有着不同的典型音素,将这些音素进行人工标注后训练建模可以用来 区分不同的语种,并且这些音素的相互排列方式即音素配位信息则体现了该种语 言的句法结构,这种句法结构可以通过建立相应的语言模型加以利用。但是此类 系统仍存在着较为明显的缺点,首先需要专业的语言学知识以建立适合各语种特 点的音素集合,其次需要大量人工标记的语料以训练音素识别器。 与p p r l m 方法相比,采用高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 的方法根据参数向量空间的概率统计分布特征构建语种相关的模型,不需要专门 的语言学知识,也不用知道各语种语音信号中的语言内容。当g m m 模型的混合 高斯数足够多时( 1 0 2 4 或2 0 4 8 ) 时,利用其对不同语种的声学得分,可以取得 与p p r l m 相比拟的性能。 近年来,支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 由于其良好的模型区 分能力和理论基础,在图像识别、文本、视频处理等领域得到了广泛的应用。自 动语种识别中s v m 的方法作为一种区分性模型,和产生性模型g m m 是一种很 好的补充。 根据l i d 系统不同层次,把当前主流的自动语种识别方法分为几类:并行音 素识别器结合语言模型( p p r l m ) ,它主要采用音素层信息,通过训练语种模型 来进行识别的一种方法;基于高斯混合模型( g m m ) 和基于支持向量机( s v m ) 的方法等【2 】,主要采用最底层的声学信息建模。当然还有其他声学层的特征,比 如韵律层,词法层,以及更高的句法层,由于受到技术限制,目前应用有限。 总体而言上述方法可以分成两类:第一种基于音素识别器的方法,如 p p r l m ;第二种是基于声学模型的方法,如g m m 和s v m 。不同声学层次的方 法,相互之间有着良好的互补性。 1 第一章绪论 图1ll i d 系统不同层次的特征 美国国家标准及技术署( n a t i o n a l i n s t i t u t eo f s t a n d a r da n d t e c h n o l o g y n i s t ) 从1 9 9 6 年起不定期举办语种识别比赛( l a n g u a g e r e c o g n i t i o n e v a l u a t i o n ,e r e ) ”i - 为参加者提供统一的电话语音测试平台用来评估现今语种技术的进步水平。自 1 9 9 6 年起,语种识别领域最知名的国际研究机构都陆续参入到评测比赛中,如 m i t 林肯实验室”,捷克b m o 大学i ”,意大利f f j l p t t 4 峙。n i s tl r e t z 赛代表了 当今语种识别技术的最高水准。 本论文主要研究的领域是在n i s t 标准数据库上的语种的确认,由于语种确 认是语种识别的一种,因此后面的描述中除非特别指出,语种识别就是指的语种 确认。 1 2 基于高斯混合模型的语种识别的研究 g m m 模型的语种识别算法利用底层的声学信息,根据特征向量空间的概率 统计分布特征构建语种相关的模型。特别是随着移位差分倒谱( s d c ) 的广泛应 用,高阶g m m 模型以及模型自适应技术的发展,其性能得到很大的改进。由于 本身不需要标注,算法复杂度小,基于g m m 模型的语种识别系统得到广泛的应 用。目前基于混合高斯通用背景模型【7j ( g a u s s i a nm i x t u r em o d e l u n i v e r s a l b a c k g r o u n dm o d e l ,g m m u b m ) 的系统框架,由于其稳定性,高混合数,以及 鲁棒性得到广泛应用,作为历届n i s t l r e 比赛的必不可少的基本系统之一a 其次,测试语音中说话人和信道的差异,对系统性能产生很大的影响,针对 这一问题,各研究机构提出了一系列去除噪声的方法,其中因子分折的方法披广 泛采用。它开始在话者识别中被广泛采用【8 1 1 9 1 1 ” ,在n i s tl r e 2 0 0 7 比赛中,系 统性能最好的几家机构各自把这种方法引入到自动语种识别中。因子分析的方法 2 第一章绪论 可以作用于特征域和模型域,具体而言,模型域方法主要利用训练出来的噪声子 空间对模型进行补偿,使测试数据与补偿后的模型更匹配,主要在于补偿;特征 域方法则是对特征直接去掉噪声影响的部分,得到相对“干净”的数据,主要在于 探,o 另外,采用特征域方法,因子分析可以当成一种鲁棒性前端的算法,所以 g m m 系统的高斯数相对于模型域上因子分析的方法不存在限制,因此,这样的 特征完全可以引入自动语种识别的其他系统。 另外,捷克的b u t 把区分性的模型训练方法首次引入到自动语种识别领域 【l l 】【1 2 1 。传统的基于最大似然估计( m a x i m u ml i k e l i h o o de s t i m a t i o n ,m l e ) 的算 法,主要是最大化目标数据在声学空间的似然度。而基于区分性准则( m m i , m c e 等) 的算法,不光考虑目标数据的似然度,还尽可能减小非目标数据的似 然度,这样就增加了训练模型的区分性。最大互信息量准则( m a x i m u mm u t u a l i n f o r m a t i o n ,m m i ) 是目前语种识别领域最主流的方法。相比与语音识别领域 中的区分性训练,l i d 中对性能提升更大。这是因为在语音识别领域中,h m m 模型对目标( 比如音素) 声学空间的描述足够精细,用m l e i ) i 练就已经达到很 好的效果了。在l i d 中,目标间的声学空间重叠比较严重,要提高性能就只能借 助于提高g m m 的混合数。而区分性训练就是减小目标之间的重叠性,加大区分 性。区分性训练主要的缺点是运算开销很大,推广性较差,主流系统一般采用 2 5 6 5 1 2 的混合数。 1 3 语种识别的数据库及其评测标准 1 3 1 数据库 数据库是整个语种识别研究的基础,一个好的数据库需要考虑发音人规范 ( 语种,数量,年龄、教育水平、性别、地区分布等) ,数据采集环境规范( 信道 一固话、移动,环境一室内、室外、办公,) ,音段长短规范,声学及语音 学特征平衡规范等方面进行数据库规范设计。 n i s t 从1 9 9 6 年以来语种识别大赛,积累了大量的语音数据库,这些数据库 涵盖了多种电话信道的情况,包括固定电话、移动电话( g s m 、c d m a 、t d m a ) 、 无绳电话:话筒的信息也包含了多种。语种方面,扩展到了几十种语言和方言; 随着研究机构的研究的深入,n i s t 的测试的数据库也逐步地贴近实际的应用情 况,甚至超过实际应用中的复杂程度。在训练和测试语音的长度上,训练语音长 度是1 0 分钟左右;测试语音的长度有3 秒、l o 秒、3 0 秒三种时长。总之,n i s t 的数据库基本上涵盖了实际中语种识别的应用的大部分情况。根据时间顺序分别 3 第一章绪论 分为n i s tl r e l 9 9 6 ,n i s tl r e 2 0 0 3 ,n i s tl r e2 0 0 5 和n i s tl r e2 0 0 7 的测试 数据,下面对实验中用到的数据库做一个简单的介绍,详细情况见n i s tl r e 网 页1 。 1 ) n i s tl r e l 9 9 6 ,第一届n i s tl r e 比赛,包含1 2 个语种,全部语料来自 c a l l f r i e n d 数据库。 2 ) n i s tl r e 2 0 0 3 ,语种和n i s tl r e l 9 9 6 类似,测试数据来自c a l l h o m e , 以及s w b 。 3 ) n i s tl r e 2 0 0 5 ,数据库包括m i x e r ,o h s u ,c a l l f e n d ,其中主要 是o h s u 数据库,由于加入了方言i n d i a ne n g l i s h ,和e n g l i s h 混淆程度很 大,使得对方言识别提出了更高的要求。 4 ) n i s tl r e 2 0 0 7 ,包括了更多的语种,包括1 4 个大语种,方言类2 1 个,继 续增加方言对的识别,比如h i n d i 和u r d u 语混淆厉害。数据库方面包括了 c a l l f i u e n d ,f i s h e r ,m i x e r 3 ,o g i 。 本文的大部分的实验都是基于n s t 的数据库之上的。由于工作的先后时间 不同,主要是在最新的n i s tl r e 2 0 0 7 标准数据测试集上给出我们的实验结果。 1 3 2 性能评测指标 语种识别是一个典型的分类的问题,一般的研究都是集中在两个量来表示, 即虚警概率e 力和漏警概率既栅: 啄2 老 k = 鳖 n t a r g c f ( 1 2 ) 在语种识别中,q 肼蛔。是用冒认语种作测试的次数;是用上面缸删段 冒认语种作测试时判决为真,即被接受的次数。 掣t 是用目标语种作测试的次数;。是用上面n t a r 9 e t 段目标语种作测试时 判决为假,即不被接受的次数。具体地,系统的性能可表示为: 1 ) 等概率错误( e q u a le r r o rr a t e ) 4 第一章绪论 取= e 妇= e 时的e 来衡量系统性能,这个概念与大家在语种辨识中的 识别率( 选准率) 概念最贴近,平时认为选准率等于l 减去等错误率,但是等错 误率并不与识别率( 选准率) 一一的对应,选准率的要求要高于等错误率。 2 ) 检测代价( d e t e c t i o nc o s t ) 3 3 、3 4 、3 5 、3 6 】 = 木宰+ 木。水( j - 。) ( 1 3 ) 这里q 咖和c ,4 分别是漏警代价和虚警代价,不同的应用情况下c 卅埘和c 加 是设置不同的,比如语种识别中,就会把= c 向。只。州是用目标做测试的 概率,f 一圪。是用冒认语种作测试的概率。检测代价可以很好的表示系统的性 能,由最小检测代价可以推出门限设置的理论公式。检测代价是描述发生错误后 造成损失的大小的一个函数。 在n i s tl r e 0 5 年评测中,在检测代价函数基础上有给出了q 。指标,又称 为平均代价函数,就算分为开集和闭集。它可以看成在门限确定下的情况下,系 统的实际性能,并且作为比赛的主要参考指标。 其中: c 。g q 。妇,兄佛。e 。( 岛) 2 击;卜莓 只。勘恻。( 岛,“) + 兄埘。( 岛,l o ) 书c l o s e - s e e t 。 ( 1 4 ) 只蛳缸啦。= ( 1 一f 0 粥。一兄。o ,耐) ( 虬一j ) 3 ) 平衡图 用鲰和b 伽之间的相互对应关系来表示系统性能。一般用r o c 图 ( r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c r e l a t i v eo p e r a t i n gc h a r a c t e r i s t i c ) 和d e t 图 ( d e t e c t i o ne r r o rt r a d e o f f ) 来表示。特别是d e t 图,可以非常明显的看出不同系 统整体的性能差异。 在本文中,主要采用e e r 、d c f 函数和d e t 曲线来实现对系统性能的评价, 一般情况下为简单起见,采用e e r 作为评价。 1 4 本论文内容安排 本文研究的一个主要目标是在公开的n i s t 数据库上,以g m m 模型为基础, 5 第一章绪论 尽量地提高语种识别的准确率。基于这个目的,本文主要围绕g m m 系统展开研 究,分为以下几个部分: 1 ) 第二章主要介绍基于g m m u b m 模型的系统框架,以此作为基线模型。 基线系统主要分为三个方面:特征提取模块,模型训练模块和测试模块。 并给出n i s tl r e 2 0 0 7 标准数据库上的实验结果。 2 ) 第三章把因子分析应用到基于g m m 模型的语种识别系统中,从模型域和 特征域两个方面提出了消除噪声影响的算法。模型域方法主要利用训练出 来的噪声子空间对模型进行补偿,使测试数据与补偿后的模型更匹配,主 要在于补偿;特征域方法则是对特征直接去掉噪声影响的部分,得到相对 “干净”的数据,主要在于“去噪。实验在n i s tl r e0 7 的测试数据上,我们 采用改进的因子分析方法在模型域、特征域上分别进行了实验,实验结果 相对基线系统性能取得了很大的提升。 3 ) 第四章主要针对g m m 模型训练的问题,对g m m 采用区分性的m m i 准 则,传统的m l e 训练更重视调整模型参数以反映训练数据的概率分布, 而m m i 准则更重视调整模型之间的分类面,以更好的根据设定的准则对 训练数据进行分类。实验部分,首先给出了m m i 准则下g m m 模型一些 参数的选择,相对m l e 的模型基线系统提升显著。最后,把因子分析的 方法和区分性方法结合起来,进一步提升系统性能。 4 ) 最后在第五章中,对本论文进行总结和未来研究的展望。 6 第二章g m m u b m 模型系统框架 第二章g m m u b m 模型系统框架 2 1 系统框架 语种识别是一个典型的模式识别的问题,因此也具有模式识别中最典型特 点,当前的语种识别的研究重点可粗略地分为: 1 ) 特征提取:寻求一种能很好区分不同语种的特征,并对噪声和信道有很好 的鲁棒性。 2 )模型选择:寻求一种能够准确利用所提取的特征来描述语种的语音分布。 3 )计分和判决:从模型得到分值作出可靠的判决。 语种识别的g m m u b m 系统框架如下图,基于上面的讨论,可以分为三个 模块:特征提取模块,作用在于从语音中间提取出声学性能很好的特性参数,能 够对噪声和信道具有很好的鲁棒性;模型训练模块,用于训练通用背景模型 ( u n i v e r s a lb a c k g r o u n dm o d e lu b m ) 以及自适应各个语种的声学模型;测试模块, 主要处理得分,包括得分归一化和后端分类。 2 2 特征提取 图2 。1g m m u b m 系统框架 我们首先对数据提取m f c c 参数,采用h t k - v 具提取特征参数,得到7 阶 m f c c 系数( c 0 - - c 6 ) 。m f c c 按7 1 3 - 7 ( n dpk ) 扩展为4 9 维s d c 。我们把7 阶m f c c 系数和4 9 为s d c 拼起来得到5 6 维特征。在提取5 6 维特征中,我们采 用w 国算法去除静音帧,特征参数还通过c m s t l 4 1 ,高斯僻i i r a s t a 1 5 1 进行倒 谱域滤波去除信道卷积噪声。具体流程如下: 7 第二章g m m u b m 模型系统框架 爵娑e 兰m 三二k 三 墨旺二 四世t 一= = _ | j 刊l = _ 二型二口 - := = 二 2 2 1 梅尔频率倒谱系数 图2 2 特征提取流程 梅尔频率倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 是一种听觉 感知频域倒谱参数【1 6 l 【1 7 】【1 8 1 ,该参数从人耳对声音频率高低的非线性心理感觉角 度反映了语音短时幅度谱的特征,因此无论在语音识别还是语种识别中都得到了 极为广泛的应用。 根据s t e v e s 和v o l k m a n 的研究,人类听觉系统所感知到的声音的频率( m e l ) 与该声音的物理频率( h z ) 的对应关系并不是完全线性的,而是在一定范围内呈对 数关系。若定义1 0 0 0 h z 处的频率对应于1 0 0 0 m e l ,则这样一种对应关系在1 0 0 0 h z 以下近似为线性,而在1 0 0 0 h z 以上则近似为对数关系。m e l 频率与实际频率的 关系可以用下式近似表示: m e l ( f ) = 2 5 9 5 l o g ( 1 + f 7 0 0 ) ( 2 1 ) 或者 m e l ( f ) = 1 1 2 7 i n ( 1 + f 7 0 0 ) ( 2 2 ) 0 f f ,在电话语音中,语音信号一般分布在5 0 - 4 k h z ,所以在语种识 别的应用中一般f 取4 k h z 。 在解释m f c c 的提取过程以前,首先说明一下临界带宽( c r i t i c a l b a n d ) 的概 念,临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音 调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。 研究发现:在声压恒定的情况下,当噪声被限制在某个带宽时,人耳感觉的主观 响度在该带宽内是恒定的。同样地,当声压恒定时,在这个带宽内一个具有复杂 包络的信号的响度等价于在这个带宽中心频率位置上的一个纯音的响度,而与信 号本身的频率分布无关。临界带宽随着频率的变化而变化,并与m e l 频率的增 长一致,在1 0 0 0 h z 以下,大致呈线性分布,带宽为1 0 0 h z 左右:在1 0 0 0 h z 以 上呈对数增长。根据临界带的划分,可以将语音频率划分成一系列三角形的滤波 8 第二章g m m u b m 模型系统框架 器序列,即m e l 滤波器组,如下图2 1 ,取每个临界带宽内所有信号幅度加权和 作为某个临界带通滤波器的输出,入耳的听觉特性大致就如这种三角滤波器组, 这是m f c c 特征参数提取的核心。 图2 3 梅尔刻度三角滤波器组 m f c c 参数的提取过程如下图2 2 ,具体流程下: 1 ) 预加重,减少尖锐噪声的影响,提升高频信号,x ( ) 为原是信号 y ( 玎) = x ( 舱) 一o 9 7 * x ( n - 1 ) ( 2 3 ) 2 ) 加汉明窗,减少吉伯斯效应。( 以) 是窗函数,( 玎) 是加窗后的信号: s 伽( 刀) = y ( 以) 拳( ”) ( 2 4 ) 语 音 信 号 - 付 二 离 预 汉 角 散 业 取 滤取 余 加 明叶波 对 重窗变 模 弦 函 数 变 换 数 组 换 图2 4m f c c 提取的过程 3 ) 对信号s 。( 玎) 进行d f t n - ! x o ( k ) = x ( 玎) p 叩枞o 七n ( 2 5 ) 打;0 9 第二章g m m u b m 模型系统框架 4 ) 把式( 2 5 ) 得到的频谱系数用图2 3 的三角滤波器进行滤波处理,得到一组 系数嬲,编f f = l ,2 ,m ) ,m 为滤波器组个数,一般取2 0 - 2 8 之间。滤波器组中每一个三角滤波器的跨度在m e l 标度上是相等的,所有 滤波器总体上覆盖从0 h z 到奈奎斯特频率,在实际的电话语音中,一般取 奈奎斯特频率为4 k h z ,有时也取3 4 0 0 h z 。 三角滤波器组的加权系数为下式( 2 6 ) 。 0 k ( f + 1 ) 跳,= 而者篙蒜厕 厂( f 一1 ) 尼 厂( f ) ( 2 6 ) 而j塑f(of(i+1)-f(i-1)(f(i+1) 姚巾+ 1 ) (一厂( 川 一叫v 7 f ( i 】是三角滤波器的中心频率,满足: m e l ( : i + 1 ) - m e l ( f i ) = m e l ( s i l ) - m e l ( f i - 1 ) ( 2 7 ) 5 ) 计算每个滤波器组输出的对数能量: 厂a - i、 s ( f ) = l n l 艺l x o ( i ) 1 2 h m ( i ) l o i m ( 2 8 ) k = o 之所以取对数是实现同态信号处理,也为今后去除卷积信道噪声打下基础。 6 ) 经离散余弦变换( d c t ) 得到m f c c - 一l c ( n ) = s ( f ) c o s ( 万玎( f o 5 ) l m ) o i m ( 2 9 ) t = 0 采用d c t 变换是因为一般语音处理中协方差( c o v a r i a n c e ) 矩阵一般取对角 阵,而每个三角滤波器组的对数能量输出与其他的滤波器输出存在着很大的相 关,采用d c t 这种正交变换可以去除参数之间的相关性,从而使后端识别模型 采用对角阵具有更高的识别率。 一般而言,m f c c 只需取d c t 前面的输出参数就可以了,在语种识别中 m f c c 参数取0 , - - 6 阶,它作为移位差分倒谱特征的一个基础扩展。 2 2 2 声道长度规整 在语种识别系统中还有另外一种干扰存在,那就是不同发音人的影响。发音 人对声学特征的影响比较复杂,它不仅仅是由于发音者生理上的不同,性别和年 龄的不同( 比如基频,声道形状等) ,还因为一些语言学上的不同( 比如1 2 音, 1 0 第二章g m m u b m 模型系统框架 方言甚至身体精神状态等) 。但是一个普遍的看法是:造成人与人之间发音不同 的主要是声道的形状,特别是声道的长度( v 0 c a lt r a c tl e n g t h , v t l ) 造成的【1 们。 因此如果能把声道长度规整到一个标准长度,那么就消除了说话人的不同,声道 长度规整( v o c a lt r a c tl e n g t hn o r m a l i z a t i o n ,v t l n ) 就是这样一种技术。 尽管有很多种实现v t l n 的方法【2 0 】,但基于频域线性变换实现v e n t 2 1 】【2 2 】是 最简单易行的方法,下面对这种方法进行简单介绍。 线性变换实现v t l n 是基于声道传输模型的分析,一般粗略的假设认为声 道是截面均匀的声管,因此, y 儿:业( 2 1 0 ) 彳z 其中y 儿指声道长度,c 指空气中的声速,f 则是f 阶共振峰。 这说明声道长度和共振峰的倒数成正比。因此在频域进行线性变化即可实现 声道长度规整,其策略如下式: 厂= a f( 2 1 1 ) 但是这种线性变换会造成带宽的扩展或者压缩,因此,一个保持带宽的线性 变换如公式( 2 1 2 ) 所示,用图形表示如图2 5 所示。 卜 0 挑班0 厂f 地t h r 础e s h f ( 2 1 2 ) 由公式( 3 1 6 ) 可以发现,线性变换实现声道长度规整非常简单,仅需要在f f t 变换之后对频域信号按照公式( 2 1 1 ) 进行简单操作即可以完成。当然,在此之前 需要先估计当前发音人的规整因子a 。 一般采用最大似然准则来计算规整因子口,其策略具体请参见【2 3 1 1 2 4 1 1 2 5 1 。 i d 疆z 4 o 3 5 3 o 2 5 2 0 1 5 1 0 0 5 标准说话人 第二章g m m u b m 模型系统框架 2 2 3r a s t a 滤波 图2 5 保持带宽的线性频率变换 r a s t a t l 5 】是r e l a t i v es p e c t r a l 这个词组的简称,是h y n e kh e r m a n s k y 等人根 据人类语音听觉感知对于激励源缓变不敏感的这种特性,提出的一种对于语音参 数的时间轨迹进行滤波,以便从语音的参数表示中减小非语音部分的频谱部分的 方法。最初把这个算法用在p l p 特征参数上,后来发现用在其他的倒谱参数上也 可以使性能提高。 r a s t a 处理通常在对数谱或对数功率谱域进行,也可以在经非线性压缩后 的倒谱域或功率谱域进行。它使用的主要部分是一个带通滤波器,此带通滤波器 是一个a r m a 滤波器,可以表示为如下的形式: 酢) - o 以篙岳 z i l u y 移z ) 在式( 2 1 3 ) 系数情况下,r a s t a 滤波处理是一个低端截止频率为0 2 6 h z , 从1 2 8 h z 开始每弧度衰减6 d b ,在2 8 9 和5 0 h z 附近有0 点出现的带通滤波器。 通过r a s t a 处理后,频谱中的常量或者变化缓慢的部分被抑制,动态成分被增 强。 实际上r a s t a 滤波器应该是一种经验公式,纯粹是从实际应用中总结推广 出来的,上式的系数也可以任意变化,公式( 2 1 3 ) 是一个带通的滤波器,实际中 对于频谱的滤除不一定需要带通,但是在实际应用中上式一般都能取得良好的效 果。 2 2 4 移位差分倒谱特征 s d c 特征( s h i f t e dd e l t ac e p s t r a ) 也称为移位差分倒谱特征,是由多个连续 语音帧的一阶差分谱扩展连接而成。对于语种识别来说,特征提取一般是通过计 算第t 帧语音信号的倒谱和差分倒谱来实现的。然而,近来相关研究表明,通过 使用由若干块跨多帧语音的差分倒谱构成的转移差分倒谱特征向量,从而使一帧 特征能够包含其后多帧语音的长时声学信息,能取得更好的语种辨识效果。 图二说明了移位差分倒谱特征向量的计算。 移位差分倒谱特征向量主要有四个参数:n dpk 。 n 定义了每帧语音计算用到的倒谱个数, d 定义了计算差分的时移, 1 2 第二章g m m - u b m 模型系统框架 p 定义了差分倒谱块的转移量, k 定义了一个s d c 特征向量包含差分倒谱块的个数 显然,每一个s d c 特征向量包含k ) ( n 个元素,如下公式,在给定第t 帧数 据,有倒谱数据a e ( t ,0 ,如下公式所示: a c ( t ,f ) = c ( t + i p + d ) 一c ( t + i p d ) ( 21 4 ) 国) = 瞰f ,吖,耐“,c 以科a 4 t ,k 一1 ) 0 - t n - l , 0 i k _ 1 a15 ) 西 图2 6s d c 扩展示例 s d c 特征更多的包含了时间上前后相关的信息,而且通过对n ,d ,p ,k 参数的选择,可以使s d c 表述特征的时长范围与一个音索的时长相比拟。因此 在s d c 特征所建立的g m m 模型可以看成对各语种语音在音素级上底层特征的 一种统计描述。在语种识别系统中s d c 的n ,d ,p ,k 参数一般采用的( 7 , 1 ,3 ,7 ) ,再加上7 维m f c c ( c o c 6 ) ,一共5 6 维特征。 实际上,在基于g m m 模型的语种识别系统中,s d c 更多可以看成一种扩 展算法,它用来对m f c c 的一种扩展。其他声学特征也可以扩展为s d c 特征, 比如f l p ,l p c c 等。 2 25 高斯化 语种识别所用参数,k l 女n m f c c ,本身都是随机矢量因而具有相应的概率 分布,训练和识别信道的不匹配也就体现在概率分布的差别上。受实际环境的影 响,特征参数的概率分布往往发生改变。这时,一个很自然的想法就是对特征参 数进行规整,使得训练和识别时候的特征参数的概率分布比较接近,这样两者之 间不匹配的问题就应该能得到改善口7 脚】。 虽然特征参数的概率密度函数匹配应该是我们最直接的目标,但由于对它的 第二章g m m u b m 模型系统框架 估计既不方便也很难准确,所以我们一般还是通过概率密度函数的积分累积 分布函数( c u m u l a t i v ed i s t r i b u t i o nf u n c t i o n ,c d f ) 来表述概率分布匹配原理。 根据这个原理,特征参数变换函数可以由数据的累积分布函数获得,如下: 设特征参数变换函数为x = r y 】,y 是规整前的特征参数,x 是规整变换后 的特征参数。 再设z 的累积分布函数为c 上( x ) ,y 的累积分布函数是c y ( y ) ,则特征参数 变换函数应该使得: c r ) = g ( 工) ( 2 1 6 ) 由此可以得到: x = g 1 ( c y ( y ) ) ( 2 1 7 ) 上述方法也被称为参数补偿,实际应用当中,为了简化算法实现过程,经常 把训练和测试的数据概率分布都变到同一个事先给定的标准分布( 通常是标准高 斯分布n ( o ,) ) ,这称作参数规整。 在实际的语种识别中,一般认为语音是短时平稳的,因此规整就采用3 秒钟 作为一次规整的单位 2 7 1 ,但是在实际中发现,采用3 秒或者整段话( 2 5 分钟) 规整基本上效果是一致的。这也就说明,3 秒钟语音的分布与5 分钟的语音的分 布基本一致。 2 2 6 倒谱域减均值 在倒谱域减去均值【2 9 j 【3 0 1 ( c e p s t r a lm e a ns u b t r a c t i o n ,c m s ) 是广泛应用于语 音识别和语种识别中去除信道卷积噪声的一种算法。在完成语音到电信号的转化 过程中,也就相应的会将原始语音进行调制,这种调制反应在时域上是一种卷积, 在倒谱域上是一种相加的关系。因此,在倒谱参数上减去均值,相应的也就去除 了调制噪声。c m s 有一个前提假设是认为这个卷积噪声是一个线性时不变的过 程,因此可以直接去除,实际的信道噪声远远不是一个线性、平稳的、时不变的 过程,以电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论