




已阅读5页,还剩69页未读, 继续免费阅读
(电路与系统专业论文)噪声环境下特定人孤立词识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音识别系统的噪声鲁棒性是关系语音识别技术能否走向实用的重要方 面,因而成为这一领域的研究热点和研究难点。由于语音识别系统是一种基于 训练的系统,实际应用环境噪声与形成系统参数的训练环境噪声的失配是造成 系统性能下降的根本原因。本文以连续隐m a r k o v 模型( c m 皿v i ) 为基础,分别 从选择强噪声鲁棒性的语音特征参数、系统识别模型及对模型参数的补偿与修 正等几方面对加性平稳鳃直珏境下特定人的理塞虱识剐方法进行了研究。 ( 本文的研究内容包括以下几个方面: 1 对连续隐m a r k o v 模型用于孤立词识别的一些重要问题,如m a r k o v 链的状 态数、训练集大小、训练数据不足以及语音的端点检测方法进行了研究,确 定了系统的优化设置。 2 深入分析了噪声生成的数学模型,引入了一种抗噪语音特征参数 ( r a sm f c c + a r a s _ m f c c ) 。利用这种特征参数,加性平稳噪声和通道 卷积噪声可分别在语音自相关域和倒谱域通过短时滤波而得到有效抑制,明 显地提高了系统的噪声鲁棒性。 3 在语音特征参数级去噪的基础上,提出了连续隐m a r k o v 模型和人工神经网 络( a n n ) 相结合( c h m m a n n ) 的抗噪孤立词识别模型。以连续隐m a r k o v 模型进行系统的前端处理,完成语音时间序列的建模并提供一次识别信息; 以人工神经网络作为系统的识别后端,利用其较强的模式分类和自学习功能 对一次识别信息进行非线性映射,获取二次识别信息,系统的识别过程由两 次识别信息共同完成。实验证明,这种组合抗噪模型可进一步提升系统在噪 声下的识别性能。 4 针对应用环境噪声与训练环境噪声的失配是造成系统性能下降的根本原因, 采用了基于加性平稳噪声的含噪语音和干净语音组成的混合语音训练集,分 别对c h m m 和c h m m a n n 模型参数进行相应地补偿与修正,有效地改善 、 了系统的噪声鲁棒性,尤其是低信噪比环境下的识别率。户一、) , a b s t r a c t t h en o i s er o b u s t n e s si so n eo f t h ei m p o r t a n tf a c t o r st h a th a v ed e e pi n f l u e n c eu p o nt h e p r a c t i c a b i l i t yo ft h es p e e c hr e c o g n i t i o ns y s t e m ,s o ,i th a sb e c o m et h ef o c u si nt h e r e s e a r c hf i e l do fa u t o m a t i cs p e e c hr e c o g n i t i o n b e c a u s et h es p e e c hr e c o g n i t i o ns y s t e m i st r a i n i n g - b a s e d ,i t sp e r f o r m a n c ew i l ld e g r a d ed r a s t i c a l l yw h e nt h ec h a r a c t e r i s t i c so f n o i s ei np r a c t i c a le n v i r o n m e n t si sf a rf r o mt h a to fi nt r a i n i n ge n v i r o n m e n t s i nt h i s d i s s e r t a t i o n ,f o rt h er e c o g n i t i o no fs p e a k e r - d e p e n d e n ti s o l a t e dw o r d sw h e nt h es p e e c h s i g n a li sc o r r u p t e db ya d d i t i v es t a t i o n a r yn o i s e ,s e r i a l so fc h m m - b a s e d ( c o n t i n u o u s h i d d e nm a r k o vm o d e l s ) t e c h n i q u e sl i k ec h o o s i n gt h er o b u s tf e a t u r e s ,a m e n d i n g r e c o g n i t i o nm o d e l sa n dc o m p e n s a t i n gt h ep a r a m e t e r so f m o d e l sa r ep r e s e n t e d t h em a i nc o n t e n ta n dr e s u l t so fs t u d yi n v o l v e di nt h i sd i s s e r t a t i o na r ed i v i d e d i n t of o u rp a r t s : f i r s t l y , t oo p t i m i z et h es y s t e m ss e t t i n g s ,s o m ei m p o r t a n ti s s u e sa b o u tt h e r e c o g n i t i o no fs p e a k e r - d e p e n d e n ti s o l a t e dw o r d sb a s e do nc h m m a r ed i s c u s s e d ,s u c h a st h es t a t u sn u m b e ro f m a r k o vc h a i n s ,t h es c a l eo f t r a i n i n g s e t ,h o wt od e a lw i t ht h e d e f i c i e n c yo f t r a i n i n gd a t a ,t h ed e t e c t i o no fs p e e c he n d p o i n t ,e t c s e c o n d l y , w eh a v ed e e p l ys t u d i e dt h ed i a g r a mo f t h ed e g r a d a t i o no f s p e e c ha n da r o b u s ts p e e c hf e a t u r e s ( r a sm f c c + a r a sm f c c ) a r ep r o p o s e d s i n c et h ea d d i t i v e s t a t i o n a r yn o i s ea n dc o n v o l u t i o n a ln o i s ea r es u p p r e s s e db yt e m p o r a lt r a j e c t o r y f i l t e r i n gi na u t o c o r r e l a t i o nd o m a i na n dc e p s t r a ld o m a i nr e s p e c t i v e l y ,t h ef e a t u r e s e n h a n c et h er o b u s tp e r f o r m a n c eo f t h er e c o g n i t i o ns y s t e me f f e c t i v e l y t h i r d l y , o nt h eb a s i so fr e m o v i n gn o i s e si ns p e e c hf e a t u r e sl e v e l ,w ep r e s e n ta r o b u s tr e c o g n i t i o nm o d e lc o m b i n i n gc h m mw i t ha r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) f o rt h er e c o g n i t i o no fi s o l a t e dw o r d si nn o i s ye n v i r o n m e n t s w i t ht h i sm o d e l ( c h m m a n n ) ,t h ec h m m i sa p p l i e da st h ef r o n t - e n dt op r o c e s st h et i m es e q u e n c e o fs p e e c ha n dt h ep r i m a r yr e c o g n i t i o ni n f o r m a t i o ni sp r o v i d e di nt h i ss t e p i nt h en e x t s t e p ,a n ni sa p p l i e da st h eb a c k e n da n db e c a u s eo fi t ss u p e r i o rf u n c t i o n so fp a t t e r n c l a s s i f i c a t i o na n ds e l f - s t u d y , t h ep r i m a r yr e c o g n i t i o ni n f o r m a t i o ni s n o n - l i n e a r l y m a p p e di n t ot h es e c o n d a r yr e c o g n i t i o ni n f o r m a t i o nt h e f i n a lr e c o g n i t i o np r o c e d u r ei s a c c o m p l i s h e dw i t ht h et w ok i n d so fr e c o g n i t i o ni n f o r m a t i o n e x p e r i m e n t sp r o v et h a t u s i n gt h i sr o b u s tm o d e l ,t h ec o r r e c tr e c o g n i t i o nr a t ec a l lb ef u r t h e ri m p r o v e di nt h e n o i s ye n v i r o n m e n t s f o u r t h l y , s i n c et h em i s m a t c h i n gb e t w e e nt r a i n i n ga n dp r a c t i c a le n v i r o n m e n t si s t h ef u n d a m e n t a lr e a s o nf o rt h ed e g r a d a t i o no fp e r f o r m a n c eo fa u t o m a t i cs p e e c h r e c o g n i t i o n , w eh a v ep r o p o s e dam e t h o d t oc o m p e n s a t ea n dm e n dc h m ma n d c h m m a n nu s i n gm i x e ds p e e c ht r a i n i n gs e t ( c o m p o s e do fc l e a ns p e e c ha n d c o r r u p t e ds p e e c h ) e x p e r i m e n t ss h o wt h a tb e a e rn o i s er o b u s t n e s sc a l lb ea c h i e v e d , e s p e c i a l l yi nt h ee n v i r o n m e n t sw i t hl o w e rs i g n a l t o n o i s er a t i o 2 中国科大硕士学位论文 第一章:绪论 第一章绪论 1 1 语音识别及其发展 随着计算机技术的高速发展和普及,计算机语音识别与理解的研究愈来愈 受到人们的重视。语音识别的成果可广泛应用于社会的经济、军事各个领域, 例如办公室自动化系统、智能机器人听觉系统、军事命令的指挥控制系统等一 切与语音信息有关的信息交互系统。在现今的信息社会里,计算机己成为接受、 加工、处理、存储和传递信息的主要工具,由于语言是最方便、最自然、最理 想的通讯方式,让计算机获得听懂人类语言的能力,一直是人类追求的理想。 自上个世纪五、六十年代以来,语音识别一直是一个非常活跃的研究领域。 广义上的语音识别包括说话人识别和语义识别。 1 )说话人识别 1 - 7 】 分为说话人辨认和说话人确认。前者是把未标记的语音判定是属于个参 考说话人中的哪一位的语音,其输出有个可能的结果,是多者择一的问题。 后者则是根据说话人的语音确定是否与某一特定人的语音相符。这种确认只有 两种输出结果,或是肯定( 即得到确认) ,或是否定( 拒绝承认) 。 2 )语义识别睁”1 语义识别是语音识别的主要方面,它可从多个角度进行分类。 从识别的基元或识别的单位来分,有孤立词识别、音素识别、音节识别、 连接词( 即孤立句) 识别、连续语音的识别与理解等; 从识别系统的词汇量来分,有小词表( 1 0 。5 0 个) 、中词表( 5 0 。2 0 0 个) 、大词表( 2 0 0 个以上) 等识别系统; 从说话人的语音来源来分,有单个特定人、多个说话人和与说话人无关 三类语音识别; 从识别方法来分,由目前的发展情况可以分为三种7 【1 ”:模板匹配法、 随机模型法和概率语法分析法。 同时,语音识别也是一个相当复杂的问题。语音识别的难处主要表现在: 从信号模式的角度来看,语音信号是非平稳随机信号,取决于发音人当 时的发音状况。人和人之间的差别很大,即使是同一个话者发同一个语 音,两次发音也是不同的。 中国科大硕士学位论文 第一章:绪论 人类的听觉机理至今尚未被人们完全认识,因此,缺乏一种真正反映人 类听觉过程的听觉感知模型。虽然我们并不认为语音识别系统必须完全 模拟人类的听觉感知过程,但人类的语音感知机能仍然是我们努力期望 语音识别系统能达到的性能的标准。 语音包含了丰富的信息量,人们对语音的理解是个复杂而漫长的积累 过程,需要不断地学习。 近二十多年来,由于隐m a r k o v 模型( h m m ) 6 【”“”开始应用于语音识别 技术,取代了传统的基于动态时间弯折算法( d t w ) 1 “8 3 的模板匹配法,使得 语音识别研究取得了一系列重大的进展,一些较简单的语音识别系统已进入商 品化阶段。语音识别研究的主攻方向己逐渐从特定人、小词汇量、孤立字向非 特定人、大词汇量、连续语音识别算法、系统开发以及各种非特定人的语音响 应系统的研制( 大部分用于电话传送的语音) 等方面发展。这些系统大多采用 h m m 的算法框架,并且随着高速d s p 芯片的运算速度的曰益提高( 例如,t a x a s 公司的t m s 3 2 0 c 4 0 系列芯片) 以及人工神经网络的出现,许多复杂的算法得 以实时实现,并推动语音识别技术逐步走向实际应用阶段。例如,美国m m 公 司的“v i av o i c e 计算机语音输入系统”,国内的汉王电脑技术公司的“汉王语 音识别输入平台”都己走向了实用。 8 0 中后期以来,我国语音识别研究逐渐发展起来。国家自然科学基金研究 项目、8 6 3 高科技研究项目中都有汉语语音识别的重大研究课题,我国的语音 识别研究正在走向世界。 1 2 目前抗噪语音识别的研究概况 在信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴 领域里,自动语音识别正日益成为核心技术之一。然而,语音识别系统的鲁棒 性是关系语音识别技术能否走向完全实用化的关键,因而成为这一领域的研究 热点和难点。一般来说,语音识别系统的鲁棒性主要包括对环境的噪声鲁棒性、 对说话人的鲁棒性和时间的鲁棒性等几个方面。 噪声鲁棒性 语音识别系统是基于训练的系统,当形成系统参数的训练环境噪声和应用 环境的噪声失配时,表现为系统性能的大幅下降。而多数语音识别系统必须工 作在噪声的环境里,所以提高系统的噪声鲁棒性具有迫切的现实意义。本文主 要针对这一类鲁棒性进行研究。 对说话人的鲁棒性 即系统对说话人的适应性。表现为对不同人及同个识别人在不同生理、 中国科大硕士学位论文 第一章:绪论 心理情况下,系统对他的语音识别性能的变化。 时间鲁棒性 表现为当测试语音和训练语音来自同一段时间时,系统的识别性能很理想; 而当测试语音和训练语音存在一定的时间间隔时,系统的识别性能会不同程度 地下降。 由于噪声鲁棒性是语音识别系统鲁棒性的重要方面,因此对于噪声鲁棒性 的研究也是自动语音识别领域里的一个重点。目前,国内外所采用的噪声鲁棒 性语音识别技术大体分为以下几类: 1 语音增强 6 】 2 ”1 先从带噪语音信号提取尽可能干净的原始语音,再进行后续处理。在实际 应用中,语音增强往往是语音识别系统中必不可少的前端处理。有效的语音增 强为语音信号的后处理提供了良好的前提,直接影响着系统的噪声鲁棒性。常 用于语音增强的方法有减谱法和滤波法。减谱法适用于滤除加性平稳噪声,它 的缺点是容易残留音乐噪声;滤波法是用于语音增强的主要方法,如对应于最 小均方误差( l m s ) 原则的w i e n e r 滤波、k a l m a n 滤波等。前者适用于平稳噪 声干扰下的语音增强,后者从语音生成模型出发,适用于非平稳噪声干扰下的 语音增强。近年来,基于自适应滤波和基于子带滤波的语音增强方法得到了广 泛地应用。 自适应滤波 由于基于w i e n e r 滤波的最佳滤波器设计要求信号和噪声均是稳定的,并且 它们的统计特性都是预先可知的,这在实际中很难做到。这里我们介绍一种基 于l m s 原则的自适应滤波法【2 3 】,用来处理语音信号中的加性噪声。和传统的l m s 算法不同的是,首先,这种滤波算法减去的是纯语音信号,它利用了语音信号 的准周期性,利用在时n t 二,( 丁为基音周期) 的值来估计t 时刻的纯语音信号 值。其次,它不需要预先知道噪声信号的详细性质。图1 1 示出了自适应滤波 消噪的大致原理图。 图1 1 自适应滤波消噪原理图 中国科大硕士学位论文 第一章:绪论 噪声抵消器的输入w ,倒和信号中的加性噪声w 俐是高度相关的,但和无 噪信号s 俐无关。参考信号m 例滤波后的输出w7 例是加性噪声w 俐的估计。系 统输出z 例为输入x 例中无噪信号删的估计,并且用于调节自适应噪声抵消器。 设s 例和w ,例、w 例无关,调节自适应滤波器使系统输出z 俐的能量达到最 小,那么,2 砂就是j 砂在最小均方误差下的估计。z 例的能量为 e c z t t n ) 1 = e s 。( n ) + 1 w c n ) 一w ji n ) 1 七2 s ( n 、l i n ) 一w j ( n ) ) 1 u 、 因为s 砂和w 倒不相关,则 e z z ( n ) j = e s | ( n ) ) + e f ( w ( n ) 一w j ( n ) ) | ) t 窃 s 例的能量对于有限区间而言是一个定值,所以输出最小能量为 m i n e z 1 ( n ) j = e s 2 ( n ) 1 + m i n e ( w c n ) 一w j ( n ) p 1 u 曲 这样,调节滤波器使e z 2 r 玎 为最小时,e ,r w c n ) 一w 。r 玎2 _ ,也达到最小。 因此,滤波器输出w 7 砂就为w 例在最小均方误差下的最佳估计。因为 z r 门j 一吖拧j = w r 押j w r 疗, ( 1 4 ) 所以,e 吖z 阳,一s c n ) ) 2 1 也达到最小,z ( nj 即为j 例在最小均方误差下的 最佳估计,再利用语音信号的准周期性滤除噪声。实验表明,这种自适应滤波 技术可以大大提高加性噪声污染的语音信号的质量。 子带滤波 在实际环境中,很多噪声的特性并非是宽带平稳的,例如,汽车噪声。子 带滤波法是按照人的听觉特性,把语音信号谱分成一些子带。在每个子带里, 根据噪声的不同特性,分别进行估计和滤波,最后得到增强后的语音【2 4 i 。图1 2 示出了这种去噪方法的示意图。 图1 2 子带滤波去噪 中国科大硕士学位论文 第一章:绪论 2 提取鲁棒性特征参数2 ” 特征参数是系统抗噪的内在因素,而不同的特征参数的识别性能和抗噪性 能有着较大的差异。选择强噪声鲁棒性的特征参数能明显地提高系统的抗噪性 能,如基于单边自相关序列l p c 分析的特征参数;基于短时修正的一致性特征 参数等抗噪语音特征参数的提取方法。 3 选取鲁棒性识别模型,并进行模型的自适应补偿与修正 即改进语音识别模型以减少噪声的影响,并能自适应于不同特性的噪声。 例如,在识别过程中采用一个由高斯型h m m 构成的滤波器;对背景噪声和 待识别语音分别建立不同形式的i - i m m 的方法【2 8 i ;基于最大似然估计的信号噪 声抑制等方法f 2 9 1 。 4 采用鲁棒性的距离测度( 失真测度) 对语音信息的各种变化,一般的语音处理算法都采用不变的测度( 如距离 测度) 来对似然函数进行判决,这种不变的距离测度在噪声的影响下往往会降 低系统的识别性能。实际上,我们可以根据噪声下的语音参数分布特征,采用 局部加权技术,使测度更符合或接近于最佳,从而提高系统的噪声鲁棒性。这 方面的有代表性的工作是j u a n g 等人从谱距测度出发对语音所做的工作o ” n “,其基本思想为: 设c 为测试谱矢量( 含有未知噪声) ,n 为无噪声谱矢量,与一般欧是距离 不同,这里加了均衡因子0 ,那么,距离为 d ( c ,”j = r c o n ) 7 r c e 1 1 j 其中 e 一斧 “5 或者写成 d ( c ,1 1 j = 盯r 1 一c o s 2p j 其中 唧= 品 n 6 根据这种距离测度可以构造出一种具有一阶均衡的h m m ,即其观察值概密函 数包含有均衡因子e ,如式( 1 7 ) 所示。 f ( c lk e x p 一- 、1l c o r lp一0 1 1 = k e x p w ( c0 1 1 l l 、。1 、 ,c )一i c 一,一) j ( 、1 1 这里,k 为归化因子。孤立词识别实验表明m ,这种方法能很好地对抗噪声 中国科大硕士学位论文 第一章:绪论 的影响,相当于s n r 提高1 5 2 5d b 。 由于噪声特性的复杂多变,针对不同的应用场合,往往采用一种或多种技 术相结合以提高语音识别系统的噪声鲁棒性。 1 3 论文的主要研究内容 虽然语音识别的主要研方向已逐渐从特定人、小词汇量、孤立字向非特定 人、大词汇量、连续语音识别发展,但研究噪声环境中的孤立词识别仍具有实 际意义。例如,驾驶员需要在汽车噪声环境中进行电话的语音拨号;飞行员需 要在轰鸣的飞机噪声中发出一些控制命令;西方国家普遍存在的信用卡的卡号 和金额的认证也需要考虑到噪声的影响。 本文以噪声环境中特定人的孤立词识别方法作为研究内容。应用特征参数 级抗噪和系统模型级抗噪等技术手段,以改善系统的噪声鲁棒性为研究目标。 全文由五个章节的内容组成: 第一章介绍了语音识别及其发展,讨论了抗噪语音识别方法的国内外研究 现状,并在此基础上提出了本文的主要研究内容和研究目标。 第二章介绍了连续隐m a r k o v 模型的基本原理和算法,讨论了隐m a r k o v 模型中链的形状、状态数、系统训练集对于孤立词识别系统性能的影响,得出 了连续隐m a r k o v 模型应用于孤立词识别的一些有益的结论。 第三章分析和比较了传统的线性预测倒谱系数( l p c c ) 和m e l 倒谱系数 ( m f c c ) 识别性能和抗噪性能,同一种特征参数和其差分参数的抗噪性能。 并在此基础上,深入分析了噪声生成的数学模型,引入了一种对加性平稳噪声 具有较强抑制作用,且对于噪声的先验知识无特别要求的抗噪语音特征参数( 理 论证明,它对通道卷积噪声亦有较强的抑制作用) ,即语音相对自相关序列的 m e l 倒谱系数( r a sm f c c ) 及其差分倒谱系数( a r a sm f c c ) ,达到了语 音特征参数级的抗噪。同时,本章还提出了基于混合语音训练集( 由带噪、干 净语音组成) 的c h m m 训练法,使c h m m 参数相对于噪声特性作适应性的修 正,取得了较好的抗噪效果。 第四章提出了连续隐m a r k o v 模型和人工神经网络相结合的抗噪孤立词识 别模型。以连续隐m a r k o v 模型进行系统的前端处理,完成语音时间序列的建 模,并以v i t e r b i 输出的解码向量作为一次识别信息。以人工神经网络作为系统 的识别后端,利用其较强的模式分类和自学习功能对一次识别信息进行非线性 映射,获取二次识别信息,由两次识别信息共同完成识别过程,明显地提高了 中国科大硕士学位论文第一章:绪论 系统在噪声下的识别率,尤其是低信噪比环境下的识别性能。这种抗噪模型对 于非加性平稳噪声环境下的孤立词识别亦有一定的借鉴价值。另外,在这一章 里,还讨论了神经网络的规模确定的原则、神经网络的精度与泛化性能的关系。 第五章对本文所作的工作进行了概括性的总结,并对进一步的工作进行 了初步的展望。 7 中国科大硕士学位论文 第二章;连续隐m a r k o v 语音识别模型 第二章连续隐m a r k o v 语音识别模型 2 1 引言 语音信号是短时平稳的随机信号,在足够小的语音段上特性近似稳定,就 整个语音序列而言,它可以看成是依次从相对稳定的某一状态过度到另一状态。 尽管如此,语音信号序列用一个按预定顺序的状态转移来描述是不充分的,因 为不同人、不同的发音环境、不同的发音时间发相同音时,各状态的持续时间、 状态的转移过程各不相同,因而传统线性理论不能很好地描述语音信号的时变 特征。 隐m a r k o v 模型( h i d d e nm a r k o vm o d e l s ,简称为h m m ) 是一种双重随机过 程,它用概率统计的方法来描述语音信号的变化过程1 3 ”。从语音信号产生模 型看,语音是由激励源激励声道而产生。人的声道特性可划分为有限个特性平 稳的部分或状态,相应地,语音信号可以看成由这些平稳状态产生的短时信号 的时域级连,而每个状态对语音信号的作用取决于该处的声道物理参数或语音 概率分布。如果将声道特性的变化用h m m 的状态转移概率来描述,某一声道 特性产生短时语音信号特征参数的概率分布用h m m 状态的输出观察值概率( 或 概率密度) 来表征,则h m m 模型就能有效地用于描述时变语音信号i ”】。 由于h m m 能够描述语音信号的强时变特性及对语音信号有很强的时间规 整能力,并能集中表述各种语音特征,已经广泛用于语音信号处理的大部分领 域:孤立词识别、连接词及连续语音的识别、话者识别、共振峰估计和信号的 端点检测等,成为目前世界上公认的语音信息处理的主流技术。美国a t & tb e 1 表2 1 不同方法的语音识别率比较 算法识别率 d t w 离散h m m 连续h m m 9 8 2 9 7 1 9 & 1 实验室曾用h m m 技术( 采用离散 的概率分布和连续的概率密度参数 两种模型) ,对1 0 个数字的词,研 制成个与话者无关的语音识别系 统,并与用一般的动态时间归正 ( d t w ) 的识别结果作了比较,其 正确识别率表如2 1 所示。 由此可见,连续h m m 的正确识率己达到d t w 的水平,但其运算量却比 d t w 的运算量要小得多,约为d t w 的五分之一。h m m 的种类大致可以分为 以下三种; ( 1 ) 离散隐m a r k o v 模型( d h m m ) 1 6 1 1 ”】【”1 1 3 5 1 离散i - i m m 的各状态输出的观察值矢量西是m 个离散可数的观察值矢量 8 中国科大硕士学位论文 第二章:连续隐m a r k o v 语音识别模型 中的一个,m 为观察值矢量序列的矢量量化( v q ) 码本的容量。某个状态对应 的观察值矢量的统计特性可由一组概率缸,k = l ,m 来描述: m 缸= 1 ,= 1 ,“,l ( 2 1 ) k = l 为d h m m 的状态数。 ( 2 ) 连续隐m a r k o v 模型( c h m m ) 2 1 连续h m m 的各状态输出的观察值矢量j 具有连续分布,因此,某个状态j 对应的观察值矢量的统计特性可由一个观察值概率密度函数西( ) ) 表示。易( ) 在实际应用中多采用若干高斯( g a u s s ) 分布函数的线性叠加来逼近。 f b j ( x ) = y :c j k b j k ( z ) 1 n( 22 ) 其中,n ( x ,琢,p ) 为多维高斯概率密度函数,瓦为其均值矢量,业为方 差矩阵,k 为组成西( z ) 的混合概率密度个数,q 为组合系数,且 o = 1 k = l ( 2 3 ) ( 3 ) 半连续隐m a r k o v 模型( s e m i c h m m ) ( 3 ”8 l 半连续m 日u 是在对离散m o i 和连续娅m d 进行综合,由h u a n g 等人提 出并进行研究的。由于离散i - i m m 需要先使用v o 训练产生m 个码本,即将训 练矢量空间划分为m 个部分,这种划分是丢失语音特征信息的原因,因此,用 m 个高斯型概密函数取代m 个码本来逼近实际输出观察值矢量的分布,损失的 信息就会大大的减少。此时,状态i 对应的观察值概率函数为: m 6 j ( x ) = 瞄弘,( ) ( 2 4 ) j = 1 其中,( x ,) 是第j 个码本叶对应的高斯概密函数;反( j ) 是状态为i 时输出码 本v 的概率。 这几种隐马尔柯夫模型各有特点,离散h m m 计算量最小,但是其误识别 率较其它系统高。对于连续h m m ,当概率密度函数的混合度m 较大时,误识 率相当低,但运算量很大,适用于中小规模的语音识别系统。而对于半连续 h m m ,在相对较小的运算量的情况下可获得较低的误识别率,因而对于中大规 模的语音识别系统,半连续h m m 受到重视。 本论文重点着眼于噪声环境下数码语音的噪声鲁棒性识别方法研究,采用 连续h m m 为系统的识别模型,运算开销较小,可获得较高的识别率。 力 觋 叫 。“ = 中国科大硕士学位论文 第二章:连续隐m m k o v 语音识别模型 2 2 语音信号的时变特征及短时处理 2 2 1 语音信号产生的时域模型 图2 1 给出了语音产生的离散时域模型1 6 】,这是一个较简单的模型,对于 大多数研究和应用而言( 例如语音编码、语音识别等) ,这个模型完全可以满足 需要。它包括三个部分:激励源、声道模型和辐射模型。在浊音的情况下,激 励信号由一个周期脉冲发生器产生,所产生的序列是一个周期为坼的冲激序 列。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲 激序列通过声门脉冲模型滤波器,其z 域传递函数为:g 刃= l a - g , z - 9 一嘿0 , 其中,g 、9 2 接近l 。在清音的情况下,激励信号由一个随机噪声发生器产生。 图2 1语音信号产生的离散时域模型 声道模型v ( z ) 给出了离散时域的声道传输函数,把实际声道作为一个变截 面声管加以研究,在大多数情况下它是一个全极点函数。v ( z ) 可以表示为: 1 矿r z j = 1 - _ 二一,a o = l ,q 为实数 ( 2 5 ) q z l i = 0 辐射模型r f :矽与居型有关,一般r f :矽可表示为尺匈= ( i - r z ) ,一l 。 2 2 2 语音信号的短时处理技术 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在 “短时”基础上。为了实现各种具体应用目的而做进一步的处理之前,一些常 用的、共同的短时分析技术必不可少。 中国科大硕士学位论文 第二章;连续隐m a r k o v 语音识别模型 1 预滤波 预滤波的目的有两个:( 1 ) 抑制输入信号各分量中频率超出五2 的所有分 量( 正为采样频率) ,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源干扰。预滤波器是 一个带通滤波器,上下截止频率分别为厶和 a 当采样频率五= l o k h z 或 第k 帧 l - - - - _ 一 第k + 1 帧 i - - - - - - - - - - - - - - - - - - - - - - - - - - - - _ 一 第k + 2 帧 卜一 | i 卜叫 帧移帧长 图2 2 帧长和帧移的示例 f s = 2 0 k h z 时,f h = 4 5 0 0 h z 或$ 0 0 0 h z , 兀= 6 0 h z 。 2 数字语音的存储及加窗 在语音信号处理中可用循环队列来存储已数 字化的语音序列,这样可实现用有限容量的数据 区处理大量的语音数据。在进行处理时,按先进 先出的原理读取语音帧。帧长一般取2 0 m s 3 0 m s 不等,帧移与帧长之比一般为0 ,1 2 ,如图2 2 所示。 为了平滑语音由于截断而产生的g i b b s 效应,般语音帧s ( n ) 要经过加窗 处理,即用一定的窗函数w ( n ) 来乘s ( n ) ,从而形成加窗语音s ( n ) = s ( n ) w ( n ) 。 在语音信号处理中常用的窗函数是方窗和哈明窗,其表达式如下( n 为帧长) 。 方窗 哈明窗 ,、f 1 ,力= 0 r 一l j w f 胛2 1 0 ,打:其他值 咖斗s 4 世。伽 矧一n = o - ( n - 1 ) 1 0 , 胛= 其他值 3 语音短时特征参数 语音信号经采样、编码、分帧和加窗处理后,必须逐帧对语音信号进行声 学参数分析,提取能充分表征语音短时特征的一组参数即特征参数。虽然,每 一帧语音的全部样值可以构成一组输出元,脚标刀即是帧的时序标号,但是, 直接以矗作为语音的特征参数并不常见。原因在于: 这种矗的维数太高( 一般都在1 2 8 以上) 处理十分困难。 只是时域序列,而入耳对语音的频率特性( 语音短时谱) 敏感,时域序列不能 恰当地反映这种特征。 中国科大硕士学位论文 第二章:连续隐m a r k o v 语音识别模型 目前,语音信号处理中较常使用的特征参数有: m e l 倒谱系数( m f c c ) 3 9 | m f c c 考虑了人耳对声音感知的非线性特征,用得较多,它的维数一般取 为1 6 1 7 。 线性预测倒谱系数( l p c c ) 6 1 l p c c 反映了语音全极点模型平滑谱的对数幅值,应用也很广泛,它的维数 一般取为1 2 2 0 。 线谱特征参数( l s p ) i ” l s p 特征参数能够表征短时语音谱中共振的特点,因此正日益受到重视, 它的维数一般取为1 0 2 0 。 以上三种参数的共同特点是能够表征语音短时幅度谱的特性且计算简便。 4 语音信号的短时能量、短时平均幅度和短时过零率 当窗的起点n = o 时,语音信号的短时能量用磊表示,其计算公式如下: e o = s :r 胛, ( 2 6 ) 如果窗w r 胛j 的起点不是n = o 而是某个其他整数m ,那么相应的短时能量用五m 表示,其取和限为玎= 埘沏+ - ) 。 窗起点为n = o 时,语音的短时平均幅度用 以表示,其计算公式为: m 。= i s 。r 作 ( 2 7 ) 同样,当窗的起点为任意整数肼时,可表示为 矗。 磊也是一帧语音信号能量 大小的表征,它与厶的区别在于计算时小取样值和大取样值不因平方而造成较 大差异,在某些应用领域中会带来一些好处。 当窗的起点为n = o 时,语音信号的短时过零率用磊表示,以表示一帧语音 信号中波形窗过横轴( 零电平) 的次数。它可以用相邻两个取样改变符号的次数 来计算如下: 1i n - il z 。= 寺 忉b 。俐卜咿b 。阳一1 ( 2 8 ) 其中s g n 【】为符号函数,即 咿阱釜髦 同样,当窗的起点为任意整数m 时,过零率用磊表示。 e 、m 和z 都是随机参数,但是对于不同性质的语音它们具有不同的概率分 布。例如,对于无声( 用s 表示) 、清音( 用u 表示) 、浊音( 用v 表示) 三种情况, e 、m 和z 具有不同的概率密度函数,图2 3 示出了m 和z 在三种情况下的条 中国科大硕士学位论文 第二章:连续隐l 饥m r k o v 语音识别模型 件概率密度函数。 p ( m s ) 队m p ( t q v ) l 一 0 1 02 0,04m p ( z v ) ,9 ( g s j 一 0 1 02 03 0 4 05 0 6 0 7 0 8 09 01 0 0 z 图2 3 在s 、u 、矿三种情况下, 短时平均幅度m 和短时过零率z 的条件概率密度示意 在语音处理技术中常常要判断一段输入语音中那些是语音段,那些是无声 段( 这时只有背景噪声) ,这对于提高语音系统的性能很重要。由于不同性质的 语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一 致的语音特性,它们不会在s 、u ,矿之中随机的变化,这为我们的判断提供了 依据。 本文研究的识别系统针对数码语音,采用语音的短时平均幅度m 和短时过 零率z 结合的方法判断输入语音的起点和终点,如下式: ( 2 9 ) 其中,f 为一帧语音的目标函数值,7 为判断语音起始与否的闽值,旺和b 分别 为短时平均幅度m 和短时过零率z 的权重系数,为语音帧长。实验证明,在 l = 2 5 6 时,取o 8 ,p 取0 2 ,t 取2 8 5 ( t 的取值与帧长和语音采样的增益有关1 , 能较好地检测语音的起止。 己 y z p 段段 + 音声 m 语无 车 , ,七旧 f, 中国科大硕士学位论文 第二章:连续隐m a r k o v 语音识别模型 2 3c h m m 的基本原理 2 3 1 基于c b m m 的语音识别系统 语音识别系统都是基于先训练后识别的模式,图2 4 示出了基于c h m m 的语音识别系统的训练识别框图。图中,语音的预处理包括预加重处理、分帧、 加窗等。在训练阶段,用c h m m 的训练算法( 详见后述) 为系统词汇表中每个词 彬建立一个c h m m 参数,记为九,所有的九,组成系统的c h m m 参数库;在 识别阶段,从c h m m 参数库中依次取出一个参数九,用v i t e r b i 算法计算输入 语音在参数九,下的输出概率密度值吖九,j ( 通常称为v i t e r b i 评分) 。v i t e r b i 评分 比较即选取最大的p ( x j 所对应的词彬为识别结果。 图2 4 基于c h m m 的语音训练识别框图 2 3 2m a r k o v 链 m a r k o v 链是m a r k o v 随机过程的特殊情况,即m a r k o v 链是状态和时间都 离散的m a r k o v 过程。从数学上可以给出如下定义: 随机序列。,在任一时刻门,它可以处在状态只,钆,且它在卅+ k 时刻 所处的状态为q 。的概率,只与它在m 时刻的状态q 。有关,而与m 时刻以前它 所处状态无关,即有: p ( x = q ,- ,卅= q 。,j ,卅一l = q h ,x i = q 1 ) = p ( x 。+ t = q 。+ x 。= q ,) 其中, q l ,q :,q m , q 。+ t ( q ,0 2 ,o u ) 则称z 。为m a r k o v 链,并且称 b ( 肼,r a + 七) = p ( q m = 0 ,q 。= 只) , l f ,n ,肼,k 为正整数 为k 步转移概率,当b 似,m + k ) 与m 无关时,称这个m a r k o v 链为齐次 m a r k o v 链,此时 只( m ,m + 七) = 只( 七) 1 4 中国科大硕士学位论文第二章:连续隐m 出v 语音识别模型 当i = i 时,b ( 1 ) 称为一步转移概率,简称为转移概率, 移概率,1 f ,可以构成一个转移概率矩阵,即 爿乜习 = 1 j = 1 记为,所有转 ( 2 1 0 ) ( 2 1 1 ) ( 2 1 2 ) 由于k 步转移概率b ( k ) 可由转移概率口。得到,因此,描述m a r k o v 链的最 重要参数就是状态转移概率矩阵a 。但a 矩阵还决定不了初始分布,即由a 求 不出9 1 = 曰,的概率,这样,完全描述m a r k o v 链,除a 矩阵之外,还必须引进初 始概率矢量厅= ,万。) ,其中 7 ,= p ( q l = 只) , l f n ( 2 1 3 ) 显然有0 厅。l( 2 1 4 ) 曩= 1 ( 2 1 5 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海城市消防员考试笔试试题(含答案)
- 2025年国盛证券招聘考试笔试试题(含答案)
- 2025年广州市天河区华融小学招聘教师考试笔试试题(含答案)
- 汽车音乐与汽车结合资讯集创新创业项目商业计划书
- 2025年福建福州港后铁路有限公司招聘考试笔试试题(含答案)
- 农垦土地资源利用创新创业项目商业计划书
- 电商全渠道订单管理系统创新创业项目商业计划书
- 原木特色家居饰品电商平台创新创业项目商业计划书
- 辐射安全知识培训心得
- 2025年疼痛医疗服务行业品牌建设与市场影响力研究
- TCCEAS001-2022建设项目工程总承包计价规范
- 大学普通化学-课件文档
- 《专题地图设计与编制实验》课程教学大纲
- DB37T 4010-2020 含阿胶的食品中阿胶含量的测定方法
- 《植物生理学》课件第五章+同化物的运输
- 质量成长记-过程模式作业表
- 漆黑的魅影-精灵分布图鉴
- 小学语文分层作业设计
- 《只有一个地球》说课课件课件
- 200T钻具点压校直机技术方案
- 挡土墙计算书(共19页)
评论
0/150
提交评论