




已阅读5页,还剩58页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于声学特征的自动语言辨识研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于声学特征的自动语言辨识研究摘要本文主要利用各种声学特征参数基于g m m 建模的方法开展了自动语言辨识的研究,主要的研究工作包括:1 六语种语音语料库的建立:利用已有的汉语语料库和从网络上采集的英、德、日、法、西班牙等五种语言的语音建立了多语种语料库i 语料库的训练集中有2 6 4 个说话入、每人6 0 3 0 0 秒的语音,测试集中每个语种有3 0 5 0 个训练集外的说话人,每个人有至少5 0 个平均时长为4 5 秒的语音片段。2 自动语言辨识系统的初步实验研究:建立了基于g m m 的六语种识别系统,研究了系统识别率、g m m 的混合分量数目与训练数据多少的关系,以及r a s t a 滤波和c m s 处理对m f c c 参数性能的影响。3 提出了一种新的二次弯折函数,研究了基于基音频率均值的说话入归一化技术在自动语言辨识系统中的应用。利用对比实验来比较二次弯折函数与常规的线性弯折函数和分段线性弯折函数的性能。4 提出了滑动倒谱的概念,并将两种常用特征参数r a s t a m f c c和r a s t a p l p 的滑动倒谱与当前研究中广泛采用的滑动差分倒谱进行了对比研究。然后进一步考察了r a s t a p l p 滑动倒谱的控制参数在不同的取值情况下对识别性能的影响,利用爬山法确定了达到局部最优控制参数组合的路径。最后研究了r a s t a p l p 的滑动倒谱与其它参数的特征级和决策级数据融合。关键词:自动语言辨识声学特征滑动倒谱高斯混合模型i ia c o u s t i c b a s e dr e s e a r c ho na u t o m a t l cl a n g u a g ei d e n t i f i c a t i o nt h i sp a p e rf o c u s e so nt h er e s e a r c ho fa u t o m a t i cl a n g u a g ei d e n t i f i c a t i o nb a s e do ng m m su t i l i z i n gs e v e r a lk i n d so fa c o u s t i cf e a t u r e s m a i nr e s e a r c hw o r ki n c l u d e st h ef o l l o w i n g :1 b u i l d i n gl l pam u l t i p l el i n g u a lc o r p u si n c l u d i n gs p e e c h e so fc h i n e s e ,e n g l i s h ,g e r m a n ,j a p a n e s e ,f r e n c ha n ds p a n i s h t h et r a i n i n gs e tc o n t a i n ss p e e c hp i e c e sf r o m2 6 4s p e a k e r sw i t hd u r a t i o nf r o m6 0 st o3 0 0 s f i f t ys p e e c hu a e r a n c e sw i t ha v e r a g ed u r a t i o no f4 5s e c o n d sf r o m3 0 5 0s p e a k e r so u t s i d et h et r a i n i n gs e ta l ec h o s e nf o re a c hl a n g u a g et of o r mt h et e s t i n gs e t 2 p r i m a r ye x p e r i m e n to na l i ds y s t e m s g m ms y s t e m sf o rt h et a s ko fs i x l a n g u a g er e c o g n i t i o na r ee s t a b l i s h e di no r d e rt oi n v e s t i g a t et h er e l a t i o n sa m o n gr e c o g n i t i o nr a t e ,n u m b e ro ft h eg m mm i x t u r e sa n dq u a n t i t yo ft h et r a i n i n gd a t a t h ee f f e c to fr a s t aa n dc m so nt h ep e r f o r m a n c eo fm f c ci sa l s od i s c u s s e d 3 an e wq u a d r a t i cw a r p i n gf u n c t i o ni sp r o p o s e df o rs p e a k e rn o r m a l i z a t i o ne m p l o y i n gp i t c hm e a nb a s e d 厅e q u e n c yw a r p i n g c o m p a r a t i v et e s tw i t ht r a d i t i o n a ll i n e a rf u n c t i o na n dp i e c e w i s el i n e a rf u n c t i o ni sp e r f o r m e dt ov e i l 匆t h ev a l i d i t yo f t h en e wq u a d r a t i cw a r p i n gf u n c t i o n 4 s h i f t e dc e p s t r a ( s c ) i sp r o p o s e da n da p p l i e dt ob o t hr a s t a m f c ca n dr a s t a p l pi nc o m p a r a t i v et e s t sw i t ht h ep r e v a i l i n gs d cf e a t u r e s e f f e c t so np e r f o r m a n c eo fd i f f e r e n tp a r a m e t e rc o n f i g u r a t i o n sn - p r kf o rr a s t a - - p l p s ca r es t u d i e da n dt h eb e s tp e r f o r m i n gp a t hi sd e t e r m i n e dt h r o u g ht h eh i l l c l i m b i n gm e t h o d d a t af u s i o no fr a s t a p l p s cw i t ho t h e rf o r m so fv e c t o ri si n v e s t i g a t e da tb o t hf e a t u r ea n dd e c i s i o nl e v e l k e yw o r d s :a u t o m a t i cl a n g u a g ei d e n t i f i c a t i o n ,a c o u s t i cf e a t u r e ,s h i f t e dc e p s t r a ,g a u s s i a nm i x t u r em o d e li独创性( 或创新性) 声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特矧j j n 以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:壬沣禹畜日期:知0 1 f f关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定)本学位论文不属于保密范围,适用本授权书。本人签名:主兰! 查煎导师签名:日期:竺! :! !第一章引言1 1自动语言辨识介绍第一章引言自动语言辨识( a l i d ) 是计算机通过分析处理一个语音片段以判别其所属语种的过程。它在多语种信息检索和查询、机器翻译和多语种语音识别的前端处理以及军事领域中扮演着很重要的角色。尤其随着网络技术的快速发展,不同语种之问的交流更加频繁,使自动语占辨识具有了更广阔的应用前景。自动语言辨识的研究主要包括三个方面:特征提取、模型建立和匹配、判决规则,其基本的实施过程可分为训练和识别两个阶段。在训练阶段,首先将不同语言的语音数据转换成特征向量序列,然后根据某种训练算法为每种语言建立参考模型。在识别阶段,将测试语音转换成同类的特征向量,然后与每种语言的参考模型进行比较得出似然测度,然后根据判决规则确定识别结果,其基本原理和流程如图1 1 所示。训练测试图1 - 1 自动语言辨识的原理和流程f i g u r ei - i p r i n c i p l ea n dp r o c e s so f a u t o m a t i cl a n g u a g ei d e n t i f i c a t i o n 从2 0 世纪7 0 年代到1 9 9 2 年近2 0 年的时间罩,a l i d 研究经历了一个缓慢发展的过程,这与当时没有统一公用的语音语料库有很大关系。关于这期问研究成果的介绍可以参见文献。1 9 9 2 年,美国俄勒冈技术学院的ykm u t h u s a r n y 等人为语言辨识研究设计了专门的多语种电话语音数据库( 简称o g i t s ) 【2 】。它包括有自然发音和固定词汇语音的1 1 种语言:英语、波斯语、法语、德语、北印度语、日语、朝鲜语、汉语、西班牙语、泰米尔语和越南语。每种语言由9 0 个母语说话人在实际电话线路上第一章引言录制而成,语音片段的时长从1 秒到5 0 秒,平均时长1 3 4 秒。1 9 9 3 年3 月,o g i t s被美国国家标准和技术协会( n i s t ) 确定为评估语言辨识方法的标准语料库。1 9 9 6年,美国的语言学数据组织( l i n g u i s t i cd a t a c o n s o r t i u m ,l d c ) 公布了包含1 2 种语言的电话语音语料库c a l l f f i e n d 3 l 。它比o g i t s 多了阿拉伯语,其中英语、汉语和西班牙语各包含两种方言。每种语言包括6 0 个未做音素标注的电话对话,每个对话片段时长5 3 0 分钟。该语料库发布不久就被n i s t 所采用。这些多语种语料库的出现以及n i s t 从1 9 9 3 年开始举行的竞争性评比活动极大地促进了a l i d 研究的发展,各种新的模型和算法不断涌现。以下结合对a l i d 主要研究方法的介绍回顾一下1 9 9 3 年之后a l i d 研究的进展情况。1 2自动语言辨识研究的主要方法根据研究中所采用的识别信息的不同,a l l d 研究的方法可以归结为基于卢学特征的方法、基于韵律特征的方法、基于音素识别的方法、基于高层语言信息的方法等四种主要的方法。1 2 1基于声学特征的方法这种方法是利用不同语占的频谱差别作为语言识别的依据。由于讲同一种语言的不同说话人的语音也存在着频谱差异,而这种差异和不同语言之间的频谱差异又难以区分。因此,通过降低不同说话人之间的影响来确定保留下来的语言之间的差异就成为a l i d 研究的基本问题。为此,k u n g p ul i 借鉴了说话人识别中的最近邻法1 4 】,w o n g p l和l u k a sb u r g e t 等人1 则采用了声道长度归一化( v t l n ) 处理技术。除了传统的说话人归化和说话人自适应技术之外,寻找对不同说话人具有良好自适应性的鲁棒特征参数直是研究人员努力的方向。h e g d e 和m u r t h y 等人将包含语音信号相频信息的修正群延迟函数( m o d i f i e dg r o u pd e l a yf u n c t i o n ,m o g d f ) 应用到a l i d 研究中p 1 ,通过对i v i o g d f 做离散余弦变换( d c t ) 来提取语音信号的特征信息,代替传统的m f c c 和p l p 参数输入到g m m 模型中。a l l e n 等人也研究了将m o g d f 与基于幅频的特征参数如m f c c 和p l p 结合在一起的情况一j 。然而,在新参数应用方面取得突破性进展的成果则是滑动差分倒谱参数( s d c )h 0 l 。s d c 参数由若干块跨多帧语音的差分倒谱组成,其详细介绍见本文的2 5 节。由于它在同一帧内同时考虑了i j i 后帧差分倒谱的影响,并且融入了更长的时序信息,因而它能够更好地刻画长时问间隔的过渡期特征。听觉实验研究表明,人类的听觉特性第一章引言对语音频谱的过渡信息非常敏感,虽然差分倒谱参数可以描述5 0 1 0 0 m s 时间p j 隔的过渡信息特征,但是它却无法刻画更长时间间隔如2 0 0 - - 3 0 0 m s 的长过渡期特征,而这种长过渡期信息对应着音素到音素、音节到音节的过渡信息】。因此,s d c 参数具有反映不同语言信号本质的特性,并且表现出了对不同说话人具有良好的自适应性和对噪声干扰的鲁棒性。s d c 已经成为目前研究中普遍采用的一种特征参数【6 t 7 ”“”。g m m 和h m m 是研究中经常使用的模型,参数估计依据最大似然度( m l ) 准则。然而m l 准则在训练时并没有考虑到模型之间的相互关系,分类时并不一定能够得到最佳性能。为此,屈丹等人采用了基于最小分类误差( m c e ) 准则【1 “,l u k a s 等人则研究了基于最大互信息( m m i ) 的训练方法n 这两种准则的最大优点在于在训练过程中利用类外信息来改善不同模型之间的区分性。除了改进训练准则之外,新的判别模型一支持向量机( s v m ) 也在a l i d 研究中得到了应用。c a m p b e l 等人利用s d c 系数作为输入参数,通过训练为每种语言建立一个两类分类器的s 模型。识别时,每个s v m 模型对测试语音的输入参数进行处理后给出评分,所有的评分通过后端处理系统进行比较得出最终识别结果 1 7 】。1 2 2 基于韵律特征的方法不同语言的音素时长、基音频率和重音等都有很大差异。因此,韵律信息可以作为a l i d 系统的特征输入。i t a h a s h i 等人认为在噪音环境下基音估值比其它信息更具有鲁棒性,他们首先用平均幅度差函数法计算基音频率f 0 ,然后分别用折线模型和指数模型近似表示其轨迹,从中得到的特征参数可以单独使用,也可以与m f c c 结合在一起进行语言谚 别”。p e u e g r i n o 等人认为韵律是语言中除音素之外最明显的区别特征之一,不同语言之间韵律的区别主要在于音节结构以及元音转换是否出现。首先,他们利用频率分析的算法自动识别出语音中的元音来描述语言的韵律特征,然后通过l b g r i s s a n e n 训练算法得到每种语言的元音系统模型( v s m ) 来进行语言识别【旧】。另外,他们还选择了一种虚拟音节作为刻画韵律的模型单位,虚拟音节用c “v 表示,其中c 代表辅音,v 代表元音,利用g m m 为待识别的每种语言建立虚拟音节模型1 2 0 1 。然而,r o u a s 认为元音系统模型和虚拟音节模型仅仅反映了韵律的静态特征,他进一步利用韵律中的长组分和短组分来描述韵律的动态特性。长组分描述了跨几个虚拟音节的韵律变化,短组分是针对虚拟音节内的韵律变化。长短组分用n 多元文法来建模。考虑韵律动态模型的方法可以对多种语言进行强制性识别【2 l 】。第一章引言l i n 等人在最新的研究中也考虑了韵律的动态特性。他首先提取语音的基音频率,然后将基音轮廓进行分割,并用三阶l e g e n d e r 多项式表示每段基音轮廓,多项式的各项系数作为输入的特征矢i t o l l 练g m m 2 2 1 或各态历经的马尔可夫模型( e m m ) 【2 3 1 。他们认为g m m 模型无法反映基音轮廓的时变特性,而动态的马尔可夫模型则可以捕捉跨基音轮廓的时变信息。1 2 3基于音素识别的方法由于不同的语言具有不同的音素表,因此可以利用音素识别的方法区分语言。的种类。这种方法需要使用大量经过音素标注的训练语料建立音素识别器。然而,语言中音素的数量很多,为了降低计算复杂度,d a l s g a a r d 等人根据声学一语音学特征的相似性将音素划分为与特定语言相关的单音素和与特定语言无关的多音素,并将各种语言中的多音素进行有效地合并。他们认为单音素携带着语言中绝大部分的区别性信息,在识别过程中通过一定的加权算法获得比多音素更高的权重。而多音素可以在归类之后共享几种语言的训练数据进行训练,这样音素模型的数量减少,而并不降低识别精度2 ”。除了音素本身之外,不同语占之间音素的组合方式差别也很大。z i s s m a n 将这种不同的音素配位方式用一种内插的1 1 元文法语言模型描述,并与音素识别的方法结合使用,建立了基于音素识别加语言模型( p r l m ) 的语吉识别系统以及并行的p r l m( p p r l m ) 识别系统,系统中的前端处理器为一个或几个单语占的音素识别器,最终依靠每种语占的n 元文法语言。模型的得分进行评判。研究中常用的语言模型是一种2 元文法模型。y a n 在前向2 元文法模型的基础上提出了后向的2 元文法模型,并将两者综合在一起建立新的语言模型,它可以利用左右音素的限制信息,但又比3 元文法需要更少的训练数据【2 6 】。p r l m 和p p r l m 方法的发展变型是利用标谚 符号或音素特征来代替音素。t o r r e s利用g m m 标示器输出的符号序列作为语占模型的训练数据【2 ”。识别时,g m m 标示器获得的声学分数可以和语言模型的得分一起输入g m m 后端分类器进行识别。p a r a n d e k a r 等人根据国际音素表i p a 的规定将手工标注的音素转换成对应的发音特征,包括发音方式、辅音发音的位置、元音发音的位置、舌的前后位置和圆唇等血类。由于发音特征的数目远远少于音素的数量,因此,每种发音特征可以用充分多的数据来训练。实验表明,这种方法对于短的测试语音更有效,并且对新语种有比较好的适应性【2 8 】。4第一章引言1 2 4基于高层语言信息的方法高层语占信息包括词汇、词法和句法等语言学信息。不同的语言各自使用不同的词汇表,并且词根、词素和构词方式也不相同,这些都是语言特有的标志性信息。基于词汇信息的方法使用了比音素配位模型更为复杂的序列模型。k a d a m b e 所建立的a l i d 系统首先将语音信号输入前端处理系统,经过音素识别、三元文法音素配位模型和贝叶斯分类器获得特定的音素序列,然后根据已有的词汇手册确定各音素序列产生特定单词的似然度。最终进行语言识别时按照相同的前端处理方式并根据最佳匹配的单词条目确定识别的语种【2 9 】。通常词汇手册包括数以千记的词汇条目,t h o m a s认为基于语言的词汇条目不需要预先获得,而是可以从训练数据中自动学习得到p 。基于连续语音识别的方法将更多的语言学信息引入系统,希望依此获得更好的识别性能。l i m 等人利用大量的训练语料为所研究的每种语占建立一个语音识别器。在识别过程中,所有的识别器都并行运行,得分最高的识别器所代表的语言即为识别结果i j “。这种方法的识别率比较高。但是,每种语言的语音识别器都要经过复杂的训练过程,识别过程中的计算复杂度也是所有a l i d 系统中最高的。1 3自动语言辨识系统评测从1 9 9 3 年开始,美国n i s t 组织对a l i d 系统进行正式的评测。1 9 9 3 1 9 9 5 年采用了包括1 1 种语言的o g i t s 语音数据库,基于音素识别的系统在三次评比中都获得了最好的识别效果,对于4 5 秒和l o 秒长度语音的错误识别率如图1 2 所示【3 2 】。1 9 9 6 年,n i s t 转为采用c a l l f r i e n d 语料库中1 2 种语言的语音对参评系统进行评比,依然是基于音素识别的方法都获得了最高的识别率( 基于连续语音识别的系统一直没有参加评测) 。对于3 0 秒和1 0 秒的语音,英语与其它语言成对区分的最好结果分别为误识率5 和1 3 ,对于1 2 种语言的误识率分别为2 3 和4 6 弛】。误识率上升的原因是测试语音由正式的独白变为非正式的谈话方式。第一章引言图1 - 2 1 9 9 3 - 1 9 9 5 年n i s t 评比中最佳系统的误识率”“f i g u r e1 - 2 e r r o rr a t e so f t h eb e s ts y s t e m sa t t h r e en i s te v a l u a t i o n sn i s t 2 0 0 3 年的评测手段及所用的语料库与1 9 9 6 年基本类似,其中部分测评结果见表l - l p ”。从表中可以看出,参评系统的识别效果比1 9 9 6 年的水平有了大幅度的提高,尤其值得注意的是基于声学特征的方法通过使用新的语音特征参数s d c 和在高阶的g m m 模型中应用特征匹配技术获得了比p p r l m 模型更好的识别效果,改变了人们长期以来的观点【”1 。表l 1 2 0 0 3 年n i s t 语占辨识部分评测结果( e e i l ,e q u a le r r o rr a t e )参评组织和方法e e r ( )e e r ( 1e e r ( )3 0 s1 0 s3 sm i tf u s e l 6 12 87 82 0 3m i tg m m 6 14 89 8 ,1 9 8m i ts v m l 6 16 11 6 42 8 2m i tp p r l m l 6 16 61 4 32 5 5o g ip p r l m l 3 4 】7 7 ll l8 82 2 6 03 b tt r a pp r l m t 3 5 】1 2 7 12 2 7 13 2 1 9m i t 林肯实验室提交的系统在1 9 9 6 - - 2 0 0 5 年的三次评比中都获得了令人瞩目的6第一章引言成果,图1 3 表示了其参评系统对于c a l l f r i e n d 语料库的识别结果,从中可以反映出a l i d 研究水平的发展情况。姜j 笋图卜3 m i t l l 参评系统的识别结果1f i g u r e1 - 3 ,e r r o rr a t e so f m i t l ls y s t e m sa tn i s te v a l u a t i o n1 4国内的研究现状与国外蔚蔚壮观的研究队伍和研究成果相比,国内在这方面的研究起步晚,并且研究成果也是凤毛麟角。解放军信息工程大学在国家自然科学基金资助项目“电话信道自然语言的语言辨识技术研究”的支持下开展了基于声学特征和韵律特征的一系列研究 1 6 2 6 】。中科院自动化所吲和西南电子电信技术研究所【3 8 】也进行了相关的研究。徐州师范大学在汉语方言的自动识别方面也做了一些工作【3 9 】。但是,这些研究还没有形成一定的规模,理论和方法上的创新点还比较少,在有影响的国际学术杂志和国际学术会议上也很少能见到国内学者的文章。另外,国内也没有开展关于自动语言辨识系统的评估活动,评测标准的建立和评测活动的定期可以对研究起到导向作用,并为其持续发展提供动力。并且,国内目前对多语种公用语音语料库等基础建设方面的投入也明显缺乏,在一定程度上制约了该项研究的深入开展。因此,国内要尽快缩小与国际先进水平的差距还任重道远。在以上所讨论的几种方法中,基于音素识别和基于高层语言信息的方法一般都能获得良好的识别效果。但是,这两种方法往往需要经过音素标注的语料进行训练,可移植性比较差。并且这两种方法的计算复杂度比较高,往往很难做到实时处理。文献1 6 q b 的实验表明,基于声学特征的g m m 模型对1 2 种语言的识别完全可以做到实时处7葛卫五佰加5d芒z第一章引言理,而基于p p r l m 的系统则需要1 4 倍的实时处理时间。而从应用的角度来分析,a l i d 系统作为多语种信息处理的前端往往不能负担巨大的运算成本,因此,a l i d 研究人员所面l 临的课题就是在降低计算复杂度的基础上提高系统的正确识别率。从这个角度看,基于声学特征的方法应当是今后发展的方向,提取反映各语种语音信号独特性的特征参数和建立具有良好分类性能的模型应是今后研究的重点。作者就是从这个角度出发重点利用基于声学特征的方法开展了自动语言辨识的研究。1 5论文的组织和章节安排第一章自动语言辨识介绍、主要的研究方法及及国内外的发展状况;第二章介绍以前研究中常用的几种特征参数,包括r a s t a p l p 、m f c c 、r a s t a m f c c 、c m s m f c c 、滑动差分倒谱( s d c ) :第三章介绍高斯混合模型,模型参数估计的两种方法,即常规的期望最大( e m )算法和贪婪期望最大( g r e e d ye m ) 算法:第四章介绍了包括汉、英、德、日、法、西班牙等六个语种的语音语料库的建立过程,以及训练集和测试集的组成情况;第五章识别系统的初步实验,分析训i 练数据的多少及高斯混合分量数目的选取对系统性能的影响,以及r a s t a 和c m s 对m f c c 参数性能的影响;第六章介绍新提出的二次频率弯折函数,将基于基音频率均值的说话人归一化方法应用到自动语言辨识系统中,利用对比实验来比较二次弯折函数与常规的线性弯折函数和分段线性弯折函数的性能:第七章介绍新提出的滑动倒谱( s c ) 参数以及数据融合的两种方式,利用对比实验来比较r a s t a m f c c 和r a s t a p l p 的滑动倒谱与s d c 参数的性能,优化滑动倒谱的控制参数组合的实验过程,以及r a s t a p l p 的滑动倒谱与其它参数进行的特征级和决策级数据融合实验;第八章对本文进行总结及对未来工作的展望。第二章语音信号特征参数第二章语音信号特征参数语音信号的特征参数是语音处理和语音识别研究的基础。其性能的好坏将直接影响到识别系统的识别能力和鲁棒性。对于自动语言辨识而占,特征参数提取的任务是从信息量庞大的原始输入信号中提取能够表征不同语占声学差异的信息,去除与识别无关的多余信息或共性信息,降低原始语音信号的冗余度。感知线性预测倒谱系数( p l p ) 和基于m e l 频率的倒谱系数( m f c c ) 就是具有这种特点并且常用的两类特征参数。2 1r a s t a - p l p 特征参数感知线性预测p l p ( p e r c e p t u a ll i n e 盯p r e d i c t i o n ) 方法运用听觉心理学的研究成果,模仿人耳的听觉特性,对短时语音谱进行了分析和处理i 帅1 。p l p 具体的处理过程如下:( 1 )频谱分析语音信号经过采样、加窗分帧、离散傅立叶变换后计算短时能量谱p ( u ) ;( 2 ) 临界带分析将频谱p ( u ) 的频率轴映射到b a r k 频率q ,两者的转换关系为:q ( ( o ) = 6 l n ( 1 2 0 0 兀) + 【( m ( 1 2 0 0 兀) ) 2 + 1 】o5 )( 2 一1 )将临界带曲线对q 进行变换后得到新的临界波段曲线t f ( q ) ( 1 3 9 逛2 5 ) ,它更接近人类的听觉特性。将i ,( q ) 与p ( c o ) 进行离散分段卷积得到如下的l 临界带功率谱( 分频段的原则是在b a r k 刻度上各频段等宽) :2 5o ( n ,) = p ( n - n , ) + 、 ,( q )( 2 2 )n = 一i3( 3 ) 等响度预加重o n ( ) 】按模拟等响度曲线e ( ( o ) 进行预加重,有:r n ( ) 】= e ( ) o n ( ) 】( 2 3 )函数e ( ) 近似地反映了人耳对不同频率的不同敏感性,其表达式为:脚,= 而篆鬻4 ,9第二章语音信号特征参数( 4 ) 强度一响度转换用立方根幅度压缩进一步近似和模拟声音的强度与人耳感受的响度问的非线性关系: ( f 2 ) = r ( f 1 ) 0 , 3 3( 2 5 )( 5 ) 自回归建模对0 ( q ) 进行1 d f t 变换以产生自相关函数。前m + 1 个自相关值用于从y u l e w a l k e r 方程中解出m 阶全极点模型的自回归系数,然后转换成倒频谱系数。经过处理后的频谱更符合人耳的听觉特点,因而更适合于进一步的语音处理。但是,与其它许多基于短时谱的参数一样,经过多次处理和转换后的p l p 参数对通信信道噪声的影响非常敏感,而经过r a s t a 技术处理后则可以提高对信道噪声的鲁棒性1 4 1 】。r a s t a ( r e l a t i v es p e c t r a l ) 技术是运用感知试验的研究成果来抑制传输通道对语音信号产生影响的种方法。通常,传输通道的变化相对于语音信号的变化来说是常量或是缓变的。感知试验的研究表明,人类的听觉感知性可以抑制平稳的非语言背景,并增强变化的语占信息。r a s t a p l p 技术正是利用了这些研究成果及语音传输通道变化的相对平稳性,在每个p l p 频带对数频谱上使用一个低端截止频率非常低的带通滤波器进行滤波处理,滤波器的传递函数一般取为如下形式:酢等2 斋1u 岳i y 石zj( 2 6 )这样,每个频带上的常量或缓变部分将被抑制。对数频域上频谱的常量部分反映的是输入信号中卷积的影响,而这种卷积的影响j 下好来自传输通道。一些研究结果表明,r a s t a p l p 技术对消除通道噪声有良好的效果【4 如。r a s t a p l p 具体的实施过程为:输入语音f f t 短时频谱分析临界带分析取对数r a s t a 滤波等响度预加重强度响度变换对数反变换d f f t 反变换白回归模型求线性预测系数感知线性预测系数。2 2m f c c 参数m f c c 系数是基于人耳的听觉特性在m e l 频率域提取的倒谱特征参数。实验心理0第二章语音信号特征参数学的研究表明,人的听觉系统对频率的感知呈现非线性的特征,即1 0 0 0 h z 以下的低频段,人耳对频率感知是线性的;而在1 0 0 0 h z 以上的频段,则呈现非线性的近似对数的关系。这就使得人耳对低频信号比高频信号更敏感。利用m e l 频率尺度可以将人耳的这种感知特性表现为m e l 频率坐标上的近似线性关系。m e l 频率尺度与实际频率的具体关系如下:= 2 5 9 5 x l o g ( 1 + f 7 0 0 )( 2 - 7 )其中实际频率厂的单位为h z 。图2 1 表示了两者的关系。在1 0 0 0 h z 以下的低频段,两者的关系是线性的;而在1 0 0 0 h z 以上的频段,两者表现为对数关系。图2 - 1m e l 刻度与频率的关系f i g u r e2 - 1 l i n e a rf r e q u e n e yv s m e ls e r em f c c 系数的具体计算过程如下1 4 3 1 :( 1 ) 语音信号的预处理对输入的语音信号进行预加重、加窗分帧处理( 2 ) 对预处理的信号进行快速傅立叶变换( f f t ) ,将时域信号x ( n ) 转化为如下的频域信号x ( k ) :n i2 肚x ( t ) = x ( 甩) p 1 了,0 k n 一1( 2 8 )( 3 ) 计算短时能量谱p ( f ) ,利用公式( 2 7 ) 将p ( 厂) 转换为m e l 频率尺度下的能量谱p ( m ) ,转换前后的功率谱对比见图2 2 和图2 3 ;第一二章语音信号特征参数图2 - 2 未经m e l 频率转换的功率谱f i g u r e2 - 2 p o w e rs p e c t r u mw i t h o u tm e l f r e q u e n c yw a r p i n g图2 - 3 经过m e l 频率转换的功率谱f i g u r e2 - 3 p o w e rs p e c t r u mw i t hm e l - f r e q u e n c yw a r p i n g( 4 ) 使能量谱p ( m ) 通过m e l 频率尺度下的一组三角形滤波器组,每个滤波器的中心频率为f ( k ) ,k = l ,2 k ,k 是m e l 频带的个数,它们按照m e l 频率刻度均匀排列的。( 5 ) 将每个滤波器的输出取对数,得到相应频带的对数功率谱。由于每一个频带中分量的作用在人耳中是叠加的,因此将所有滤波器频带内的能量进行叠加:2第一二章语音信号特征参数s ( m ) = l n ( 艺 x a k ) 1 2 以( t ) ) ,1 tsk( 2 _ 9 )k = l( 6 ) 如果用s ( k ) 表示第k 个滤波器的输出能量,则通过离散余弦变换( d c t ) 可以得到美尔频率倒谱参数( m f c c ) 。kc ( n ) = s ( k ) e o s ( x n ( k 一0 5 ) x )1 h p( 2 1 0 )西其中,k 是m e l 频带的个数,p 是m f c c 的维数。对比图2 2 和图2 3 可以看出,图2 3 比图2 2 包含的高频信息少,但是,图2 3中的低频信息却得到了增强,也就是说m e i 频率转换去除一些次要的信息,而保留了有用的信息,j 下好反映了人耳对低频信号比对高频信号更敏感的非线性,因此,m f c c参数在抗噪性能和提高系统的识别率方面具有一定的优势。2 3r a s t a - m f c c 参数另外,一些研究表明,上面介绍的r a s t a 滤波也可以应用到m f c c 参数上,并收到到了较好的效果1 6 , 7 , 1 0 】。实际上,p l p 和m f c c 都是模拟人的听觉感知特性而获得的特征参数,对通道卷积噪声的抑制主要依靠r a s t a 处理部分进行。假设用h ( z ) 代表r a s t a 处理中使用的带通滤波器,n ( z ) 和允( z ) 分别代表z 变换域上r a s t a 处理i i i 后的第k 个m e l 频带对数频谱,则有:允( z ) = h ( z ) y k ( z )经过r a s t a 处理后的m e l 频带对数频谱经过离散余弦变换( d c t ) 得到( 2 1 1 )e ( z ) = 窆 c o s ( 七一o 5 ) 爿7 允( z ) ) ,= 1 ,2 ,p( 2 - 1 2 )i ;lle ( z ) 是z 变换域上经r a s t a 处理后的第- 个m f c c ,k 是m e l 频带的个数,p是m f c c 参数的维数。把( 2 i i ) 式代入( 2 1 2 ) 式,则有:t ( z ) 2 喜k c o s 叭t o 5 ) 詈】h ( z 耽( 拼= h ( 咖喜 c o s 【,( 一0 5 ) 专】儿( 纠,k 2 ,1 3 )t iat ;laz j ,= h ( z ) e ( z )第一二章语音信号特征参数其中,c j t z ) 是z 变换域上未经r a s t a 处理后的第,个m f c c 。由此可见,r a s t a处理可以从对数频谱域扩展到倒谱域,即先求出m f c c 参数,然后再做带通滤波处理。2 4c m s m f c c 参数除了r a s t a 滤波之外,倒谱均值减c m s ( c e p s t r a lm e a ns u b t r a c t i o n ) 也是一种常用的去除通道畸变影响的方法。c m s 也称为倒谱均值归一化c m n ( c e p s t r a u mm e a nn o r m a l i z a t i o n ) 4 4 j 。其计算过程如下:给定一个信号y 【n 】,通过短时分析计算其倒谱特征,从而得到t 个倒谱的矢量集y = y l ,y 2 ,耳) ,这些矢量的均值为:1r歹= 去”( 2 1 4 )将每个矢量y ,都减去均值歹,从而得到归正后的倒谱矢量多,即y 1 2 y 一y( 2 1 5 )对于m f c c 倒谱系数,y 【n 】是x n 】通过m e l 频率尺度下的一组三角形滤波器组h n 】后的输出。在倒谱域上用矢量h 表示该滤波器的影响,其每个元素缸为:一扎( 萎k c o 咖( k - 0 5 0 ) 虽山i ( q ) 1 2 一= l i l ( c o s 【,() 鲁山i ( q ) 1 2 t = 1、( 2 1 6 )其中,k 是m e l 频带的个数,i ( q ) i 是h 【n 的频率响应的第k 个频带的幅值。由于滤波器在时域上对信号是卷积作用,变换到频域后卷积运算变为乘法运算耿对数后进一步变为加法运算,因此样本均值歹为:y t = x t + h歹= ;喜y ,= 喜c + ,= i + 一1 4( 2 1 7 )( 2 一1 8 )第 二章语音信号特征参数综合考虑式( 2 1 5 ) 、式( 2 1 7 ) 和式( 2 1 8 ) 得到归正后的倒谱为:或= 咒- y = + 一( i + ) = 一i = 暑( 2 1 9 )这样,经过c m s 后萝,等于归正后的语音倒谱毫,从而c m s 抑制了通道畸变的影响。经过c m s 处理的m f c c 参数标注为c m s m f c c 。实际的研究表明,即使在同一种录音环境下不存在通道不匹配的情况下,使用c m s 仍然可以改善系统的性能。一种解释是,即使使用相同的录音设备和声学环境,不同说话人的嘴部与麦克j x l 的距离也不尽相同,从而引入了通道差异,而使用c m s 处理可以降低这种通道差异的影响。另外,倒谱平均不仅刻画了传输通道的特性,也反映了不同说话人之间平均的频率特性,通过去除这种长时不同说话人的平均特性,c m s 也可以作为一种说话人归一化的方法【4 5 1 。2 5滑动差分倒谱参数( s h i f t e dd e l t ac e p s t r a )滑动差分倒谱参数( s h i f t e dd e l t ac e p s t r a ) 是差分倒谱系数的扩展,它同时考虑了前后帧差分倒谱的影响,在语音特征参量中融入了更多的时序信息。s d c 由若干块跨多帧语音的差分倒谱组成。差分倒谱参数一般通过以下公式计算:6j ( t ) = c j ( t + d ) 一c j ( t d )( j = o ,1 ,n 一1 )( 2 2 0 )其中,c j ( t ) 是第t 帧语音中第j 个倒谱系数,每帧语音中包含n 个倒谱系数。滑动差分倒谱通过串联k 块差分倒谱在一帧内对差分倒谱进行了扩展,其中每块差分倒谱向后滑动了p 帧,其表达式为4 6 】:s ( t ) = 8 0 ( 0 ,6 t ( t ) ,6 n 1 ( t ) ,8 0 ( t + p ) ,8 t ( t + p ) ,6 n i ( t 十p ) ,8 0 0 + ( k 1 ) p ) ,6 l ( t + ( k 一1 ) p ) ,6 n 1 ( t + ( k 一1 ) p ) 】( 2 2 1 )这样,每帧内的差分倒谱系数由n 个扩展到了k n 个,每帧s d c 特征跨越了k p个语音帧的范围,并且第t 帧和第t + p 帧有k 一1 块特征重合,其本质上类似于音素识别器在多个帧得到的音素串信息。实际上,这种长时序语音信息的整合使用也正是受启发于跨多帧的音素识别器的成功应用【4 7 】。s d c 特征向量由四个参数确定:每帧语音中包含的倒谱系数个数n ,计算差分倒谱的时移d ,差分倒谱块的滑动帧数p 和一个第二章语音信号特征参数s d c 特征向量中包含的差分倒谱块的个数k 。k o h l e r 等人的研究表明,不同的n d p k 参数组合对系统识别性能的影响不同。最佳的参数组合与所要识别的语占类型有关1 4 6 1 。1 6第二章高斯混合模犁第三章高斯混合模型模型是利用特征参数描述语音信号本质的一种数学方法。a l i d 中经常使用的模型有矢量量化( v q ) 【4 7 1 、人工神经网络( a n n ) 【4 】、支持向量机( s v m ) 1 7 , 3 8 1 高斯混合模型( g m m ) 4 s l 、隐马尔可夫模型( h m m ) 1 4 9 5 0 1 。g m m 由于具有简便和高效的特点,尤其是在使用新的s d c 特征参数之后使识别系统的整体性能大大提高,因而在最近的研究中获得了广泛的应用i m l 6 i 。3 1 高斯混合模型g m m 是一种多维的概率密度函数,其特点是其成员函数的线性叠加可以对任意形状的分布进行近似。具有m 个混合分量的g m m 可以表示为m 个成员函数的概率密度的加权和:i ,p ( x2 ) = q n k ,( 3 1 )ii = 1其中,x 是一个d 维观测矢量,w d 卢l ,2 ,m ) 是混合权值,相当于每个成员函数出现的概率,并且w r - - 1 。n 【k ,】为d 维高斯密度函数,即:n x l “,。 2 南e 。c p 一丢( x 一“厂。1 ( x 一“) ) c ,一z ,其中,为均值矢量,。为协方差矩阵。这罩共有m 个高斯成员函数,每个成员函数受加权取和后得到特征参数序列x 的概率分布。整个高斯混合模型可以由各均值矢量、协方差矩阵及混合分量的权值来描述,因此,可以将g m m 的参数x 表示为:a = 沁,以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版高端酒店窗帘采购供应合同示例
- 2025年企业定制化电脑配置采购合同示例
- 2025年新能源车型个人购销合同书
- 2025年事业单位职工劳动合同范本及实施指南
- 2025版农业生态园观光果园使用权转让合同
- 2025版生态修复工程施工合同范本下载
- 2025版智能交通信号控制系统建设与维护合同参考样本
- 2025年度酒店住宿行业第三方代付款协议
- 2025年节能LED灯具研发与生产合作协议
- 2025动产抵押个人消费贷款合同参考范本
- 艺术家品牌影响力构建-洞察分析
- 孕产妇急救技能考核试卷
- 消防水池及泵房基坑土方开挖方案
- 北师大版(2024新版)七年级上册数学全册教案
- 深圳市城市规划标准与准则
- 小小少年三声部童声合唱谱
- 2024年白酒酿造技术师知识考试题库与答案
- 高二上学期数学开学第一课《新学期新期望》课件
- 数字经济背景下企业商业模式创新
- HG∕T 4586-2014 化工用缠绕成型钢丝网骨架聚乙烯复合管
- DL∕T 1100.1-2018 电力系统的时间同步系统 第1部分:技术规范
评论
0/150
提交评论