(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf_第1页
(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf_第2页
(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf_第3页
(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf_第4页
(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(检测技术与自动化装置专业论文)基于chirp模型的语音增强方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 噪声的存在将导致语音处理系统的性能急剧下降,因此有必要研究语音增强方法以抑 制噪声。传统的语音增强方法一般需要对噪声做出一定的条件假设,这使其实际应用受到 限制。人类听觉系统对噪声有很强的抑制能力,语音感知分析对人类听觉系统如何辨识来 自同一音源的语音信号做了系统的阐述。由语音感知分析理论可知,人耳将混合的声音信 号分解成一系列子成分的组合,这些子成分具有独立的声学感知意义,听觉系统根据重组 规则将那些可能来自同一音源的子成分进行重组。受语音感知分析理论启发,本文研究了 基于c h i r p 模型的语音增强方法。 语音信号是非平稳的,c h i r p 原子是g a b o r 原子的扩展,其具有高时频聚集性,且具 有刻画非平稳信号时频结构的能力,本文提出使用( 蛐r p 模型对语音信号建模,并介绍了 如何使用匹配追逐算法提取c h 卸模型的参数。为了克服传统的语谱图分析受测不准原理 限制,本文使用c h 卸原子的时频分布来对语音信号进行时频分析。该分布继承了魏格纳 一维尔时频分布( w v d ) 高时频聚集性的优点,同时避免了w v d 分布中存在交叉项的 弱点。通过在时域和时频面上的分析,本文验证了使用c h 卸模型对语音信号进行建模的 可行性和有效性。 本文所研究的语音增强方法需要对语音信号的基本单元进行处理,为此本文研究了语 音端点检测算法。基于跟踪谱包络动态特性的语音端点检测算法无需噪声的先验信息,对 低信噪比的各种噪声环境下的语音都有比较好的检测性能。由于在汉语的过渡成分中谱包 络会急剧下降,使得其对汉语的过渡成分进行检测时会出现误差,本文提出在谱包络边界 的更新滤波器中加入补偿因子对谱包络的边界进行补偿,使得算法的检测准确率得到提 自 月。 根据语音感知分析理论的成果,在用c h 卸模型对含噪语音信号进行建模的基础上, 本文根据语音和噪声的c 硫p 原子的参数之间的差异,提出了对模型中的原子进行重组的 规贝0 。通过对含噪语音的c h i r p 原子进行重组,噪声原子被去除,从而达到语音增强的目 的。本文所研究的基于c h i i p 模型的语音增强方法无需知道噪声的先验信息,仿真结果显 示其对低信噪此下的高斯白噪声和有色噪声环境下的语音皆有较好的增强效果。 关键词:语音增强c h i r p 模型匹配追逐算法语音感知分析语音端点检测算法 1 a b s t r a c t s p e e c he i l l l a l l c e l e n tp r o c e s si se s s e 埘a lb e c a u s eo ft l l ew e a kp e r f b 瑚a n c eo fs p e e c h p r o c e s ss y s t c mw j t h i nn o i s ye i i m n m e n t t a d i 在o n a ls p e e c he n h a n c 伽e n tm e t h o dh a ss o i i l c c o n s t r a i n t si n 吐l e 印p l i c a t i o nb e c a u s eo ft l l ea s s u i p t i o nt ot l l e o i s e h u m a l l sa u d i t o r ys y s t e m h a ss 廿o n ga _ b i l i t yt or e s 俩nm en o i s e a u d i t o r ys c e n ea n a l y s i s ( a s a ) p r i n c i p l eh a sd o n ed e 印 r e s e a r c ht ot l l ep h e n o m e n a a c c o r d i n gt oa s a ,m ei n p u tl i l i x t u r ei s d c c o i n p o s e di n t on l e t i m e f r e q u e n c ye i e m e n t s i 1 1t 1 1 ef i r s ts t a g e t h e s ee l e m e n t sc a nb er e g a r d e da s 趾a t o i i l i cp a r to f t h ea u d i t o r ys c e n e s u b s e q u e n n y ,ag m u p i n g p r o c e s sc o m b i l l e se l e m e n t st h a ta r el i k e l yt oh a v e a r i s e n 丘d mt t l es a m ea c o u s t i cs o u r c e h s p i r e db ya s a ,w er e s e a r c h c d 廿l es p e e c he l l h 锄c e m e n t m e t i l o d b a s c do nc h i i pm 0 d e l s p e e c hs i 盟a li sn o n - s t a _ d o n a 够t h ec h i r pa t o mi sm ee x p 锄s i o no fg a b o ra t o m i th a s h i g ht i m e f 蛔p e n c yr e s o l l n i a n dh a st l l ea b i l i t yt op i c t i l r em en o n s t a d o n a r i t ys m 】c t l l r w e u s e dc h i i pt om o d ds p e e c hs i g l l a la l l di n 删u c e dh o wt ou s em a 曲l i n gp l 】r s l l i ta 培o r i t l l mt o e x 打a c tt h ec h 卸m o d e l sp a r a l n e t e r s t ob r e a l 【山ec o n s 仃a i mo fu n c e n a i n l y 面n c i p l ei n m l d i t i o n a ls p e c 仃d 铲a p m ca n a l y s i si i 世n l o d ,w ep r o p o s eu s i l l gm ec o m b i n a t i o no fc h i r p 砒o m s w v dt oa n a l y z em es p e e c h st i m f r c q u c n c ys 咖c t i l r e t h i sm c t h o d h a sl l i g l lt i m e 一嘲u e n c y r e s o l u t i o na sw v db m 也ec r 0 驰一t 锄i n t e 疵r e n c ei nw v d ,i h m u g h 廿l ea n a l y s i sb e t w e e 血n e 柚dt i m e f r e q u e n c yp l a l l ,w ep r o v 酣山a t 主ti sr e a s o n a b l et 0u s ec h i r pt o l o d e ls p e e c hs i g n a l hm es p c e c he l l a n c e m e mm e t l l o dw er e s e a r c h e d ,i tn e e d st 0p r o c e s st l l en o i s ys p e e c h s i 弘a lu p o n t h es i n g l e n e s ss p e e c h 删v i 哆s ow eh a v er e s e a r c h 酣山ev b i c e a c t i v i t y d e t e c t i o n ( v a d ) a l g 训l m t h ea l g o d t l l i nb a s e do n 眦k i n gp o w e re n v e l o pd ”a i n i c sd o e s n t n e e da yp r e k n o w l e d g eo ft h en o i s e a n di th a sg o o de 仃e c ti ns o m eh n d so fn o i s y e n v i r o i l i n e n tw i ml o ws n r b u t ,i tm a yh a v eaw r o n gr e s l l l tw h e na n a l y z i n gm et r a n s i t i o np a r t o fc h i n e s es p e e c h w eh a v ei m p m v e d l i sm e t l l o dt om a k ei tm o r ea c c u m t et oa n a l y z ec h i n e s e s p e e c l ib ya d d i n gc o m p e n s a t j o ng e n e a c c o r d i n gt 0 t l l ec o n c l u s i o n o fa s a ,w eh a v ed e s i g n e d g r o u p i i l gm l e sf b r 山e d e c o m p o s e dc h i 印m o d e lb a s e d0 nm ed i 断e n c eo fc h i r p sa 1 1 dn o i s e sa t o mp a r 锄e t e r s a r c g r o u p i n gp m c e s s t l l ea t o m sw h i c hb e l o n gt on o i s ew i l lb er e m o v e d s oa f t e r 。r e g r o u p i n g ,t l l e n o i s ys p e e c hi se l l l l a n c e d t h es p e e c he n l l a n c e r n e n tm e 廿l o d ,w eh a v ep r o p o s e d ,d o e s n tn e e d a i l yp r e l o w l e d g ea b o u tn o i s e s i i n u l a t i o nh a ss h o w no 叫m e m o di s e f f e c t i v en o to n l yi i l , g a l l s sw h i t en o i s ee n v i m 砌e n tb u ta l s oi i ln o n s t a l i o n a r i t yn o i s ee n v i m n m e n t k e yw r o r d :s p e e c he i l l l a n c e m e n t c h i r pm o d dm a t c h i n gp 1 1 r s l l i t a s a d 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名:。亟鲴缸 日期:矽6 年g 月日 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 t 保密的学位论文在解密后也遵守此规定。 签名:苤鲴盏导师签名: 日期:彬苦 第一章绪论 1 1 引言 第一章绪论 语音做为语言的声学表现,是人类交流信息最自然,最有效,最方便的手段之一。 语音是现代信息时代重要的信息交互手段,随着现代科学的发展,人类社会开始信息化, 通信或信息交换成为人类社会存在的必要条件。 目前的语音信号应用大都是基于无噪环境的1 2 j ,然而人们在语音通信的过程中将不 可避免地会受到来自周围环境的干扰,例如传输媒介引入的噪声、通信设备内部的电噪声、 其他讲话者的语音等,噪声的存在会使许多语音处理系统的性能急剧恶化。比如语音识别 系统,一般是设计在安静环境中工作,当噪声存在时识别系统的误识率会急剧升高。在另 一语音信号处理的领域一低速率语音编码中,这个问题依然存在。语音生成模型是低速率 参数编码的基础,由于噪声的存在,使得在语音编码过程中对语音参数的提取出现误差, 当噪声干扰严重时,会导致语音重构时出现较大的误差,甚至完全不可懂。另外在军事场 合等极端条件下,噪声的存在使得普通的语音通信几乎无法进行。在上述情况下,必须对 含噪语音信号进行预处理,以抑制背景噪声,提高通话质量,增强语音处理系统的抗干扰 能力,保持系统的稳定性。 语音增强是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音信号中提 取尽可能纯净的原始语音。语音增强已发展成为语音信号数字处理的一个重要分支。它的 主要应用范围是降低听觉噪声,识别系统和线性预测编码的预处理,研究语音增强技术在 实际应用中有着非常重要的意义。目前语音增强技术已经广泛应用于各种语音信号处理系 统和通信系统中。 1 2 语音增强的目的及依据 语音增强的主要目的1 2 j 有两个:一是改进语音质量、抑制背景噪声、提高语音的质量 并提高听者的舒适度;二是提高语音的可懂度。这两个目的往往不能兼得。 语音增强的问题一般可以描述为从一被污染信号x = s + n 中,尽可能地恢复出原始语 音信号s 的过程,这里x 为含噪语音信号。n 为加性噪声,其主要有:冲激噪声、周期噪 声、宽带在噪声、语音干扰等。语音增强与语音信号处理理论有关,而且涉及到人的听觉 感知和语音学。噪声来源众多,随应用场合不同而特性各异,因此难以找到一种通用的语 音增强算法可以适用于各种噪声环境,必须针对不同环境下的噪声采取不同的语音增强策 略。要语音增强首先要了解语音和噪声的有关特性。 语音增强通常是依据语音信号和噪声信号在时域或频域上特性的不同来进行区分真 实语音和噪声的”1 。 江南大学硕士学位论文 语音可以看成是时变、非平稳、非遍历的随机过程。语音发声是一个时变过程,很多 因素造成了发声系统的时变性,例如声道的面积随着时间和距离改变,气流速度随着声门 处压力的变化而变化等。但是声道形状有相对稳定性,在一段时间内( 1 0 m s 3 0 m s ) ,人 的声带和声道形状是相对稳定的,可认为其特征是不变的,因而语音的短时谱具有相对稳 定性,在语音分析中可以把语音信号分为若干帧,每一帧的语音可以认为是准平稳的。 语音可以分为周期性的浊音和清音。浊音和清音经常在一个音节中同时出现。浊音部 分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结构,而且大部分 能量集中在较低频段内;清音则没有明显的时域和频域特征,其类似于白噪声,能量较小, 在强噪声中容易被掩盖,但在较高信噪比时能提供较多的信息。在语音增强中,可以利用 浊音的周期性特征,采用梳状滤波器提取语音分量来抑制非语音信号,而噪声一般在频域 上的分布显得较为零散。 1 3 国内外语音增强研究的现状 目前常用的语音增强方法一般可分为两大类:基于语音生成模型参数法,非基于语音 生成模型参数法。此外还有一些其他综合上述两种方法的语音增强方法。 一基于语音生成模型参数法 基于语音生成模型参数法主要依赖于语音生成模型,在语音增强过程中通过提取模型 参数( 如基音厨期,l p c 系数) 等来还原“纯净”语音。该类语音增强方法包括分析一 综合法和滤波器法。 在人类发声器官和语音产生的基本声学理论研究的基础上,人们建立了离散时域的语 音信号模型。语音信号被堪称时线性时变滤波器在激励源激励下的输出。根据浊音和清音 分别有两种激励源,在浊音情况下激励信号由一个周期脉冲发生器产生;在清音情况下, 激励信号由一个随机噪声发生器产生。通常认为声道模型是一个全极点时变滤波器,滤波 器参数可以通过线性预测分析等到。如果能够知道激励参数和声道滤波器的参数,就能利 用语音生成模型合成得到“纯净”的语音。这种方法的关键在于如何从含噪语音信号中准 确的估计语音模型的参数( 包括激励参数和声道参数) 。 然而在实际应用中由于噪声的存在,导致很难准确估计模型的激励参数,这限制了分 析一合成法的实用。为了克服这个缺点,滤波器法利用声道参数来构造滤波器对含噪语音 信号进行滤波处理。 利用语音信号浊音段由明显周期性的特点,采用梳状滤波器提取语音分量来抑制噪 声。滤波器输出信号是输入信号的延时加权和的平均值,当延时与语音信号的基音周期一 致时,这个平均过程使周期性分量加强,而非周期分量或不同于语音信号的其他周期分量 被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。由于在真实语音信 号中,基音频率实际上是变化的,其次在强噪声背景下,基音频率的估计是一个难题,因 第一章绪论 此梳状滤波器法的应用和效果也有着较大的局限性。 卡曼滤波器【4 l 【5 】【6 】是在已知状态方程和噪声统计特性的条件下,用线性预测分析参数 实现波形最小均方误差意义下的最佳估计器。通过合理的模型构造,通过卡曼滤波器法可 以提取出语音的生成模型参数。卡曼滤波器的优点是它没有假定噪声是平稳的,并且由于 是基于语音生成模型的,因此其在非平稳条件下也可以保证最小均方误差意义下的最优。 不过其也有局限性,主要体现在:( 1 ) 需要迭代估计模型参数,在低信噪比下误差会增大; ( 2 ) 语音生成模型中假定激励是白噪声,其并不满足所有的语音情况;( 3 ) 计算量较大; ( 4 ) 其仅是在时域上对语音信号进行增强,可能会造成可懂度上的误差。 二非基于语音模型参数法 非参数方法不需要从含噪语音信号中估计模型参数,因此应用比较广泛。这类算法包 括谱减法用【8 】【9 1 ,自适应滤波法【l l 】,子空间分解法等【1 3 】【1 4 】【1 5 】。 语音是非平稳随机过程,但在1 0 m s 3 0 m s 的短时帧内可以近似看成是平稳的。如果 能从含噪语音信号的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。 谱减法的原理是:假设噪声是平稳的,于是可以用噪声帧中的噪声功率谱去近似含噪 语音帧中的噪声功率谱,最后通过在含噪语音帧中减去噪声的功率谱,并利用含噪语音的 原相位重建信号来达到语音增强目的。谱减法的关键在于嗓声功率谱的估计。它的优点是 比较简单,只需要进行傅立叶运算,容易实时实现。其缺点在于需要对噪声进行平稳性假 设,实际上噪声并不严格平稳,因此在用噪声帧的功率谱去近似含噪语音帧中的噪声的功嚣 率谱时会存在着误差,误差会导致对原语音信号频谱结构的破坏,也就影响了增强语音的 可懂度。 自适应滤波法是通过双麦克风分别采集噪声和含噪语音信号,从含噪语音谱中减去经 过自适应滤波器滤波后的噪声谱,然后利用原含噪语音信号的相位信息来恢复信号,达到 语音增强的目的。自适应滤波器通常采用f i r 滤波器,系数采用最小均方( u s ) 误差 准则来迭代估计。自适应滤波器法的问题在于如何获得和含噪语音信号中的噪声一致的噪 声,这在实际应用中往往很难,为了准确获得对噪声的估计,多麦克风阵列降噪法也提了 出来,但是在真实环境中往往是使用单麦克风,故其应用范围也有较大局限。 子空间分解法是通过将含噪语音信号分解成语音子空间和噪声子空间来达到语音增 强的目的的。其有如下的假设:( 1 ) 语音信号和噪声信号都是零均值的随机过程;( 2 ) 在 短时帧内假设语音是平稳的;( 3 ) 假设语音和噪声正交;( 4 ) 噪声为白噪声随机过程。然 而真实的语音信号是非平稳的,且语音并不和所有的噪声都正交,此外真实的噪声环境多 为有色噪声,因此子空间分解法也是有着较大的局限性。 三其他方法 基于统计学方法【16 1 7 】【1 8 】充分利用了语音和噪声的统计特性,在此类方法中首先要建 立信号的统计模型,一般有两种途径:一是假设一个合理的概率分布模型;另一个是通过 实际统计的方法来获得信号的概率分布。在这类方法中需要知道噪声的统计特性,然而在 实际应用中往往不知道噪声的先验知识,在含噪信号中统计概率模型的参数非常困难。 小波分析19 】【2 0 】【2 l l 在现代信号处理中占有重要的位置。基于小波分析的语音增强方法 将含噪语音信号在不同尺度空间上进行分解,噪声分量和语音分量在不同的尺度空间内的 特性不同,可以认为语音信号和噪声之间具有不同的l i p s c i l i t z 指数,其表现为语音信号 的变换模值随尺度的增加而增加,而噪声的变换模值随尺度的增加而减小,故一般通过根 据一个闽值根据小波分解系数对含噪语音信号进行去噪处理。在基于小波变换的语音增强 方法中如何设置闽值是一个难题。 人耳对噪声有着惊人的抑制能力,比如人耳可以在嘈杂的环境中准确获得音源的位置 和内容,人耳的这些特性引起了人们的关注,并对声学属性在生理上的关联感兴趣( 即大 脑检测这些声学属性并最终引导出信息含义的机理) ,人们系统研究了人耳的语音感知属 性【2 ) 【2 2 l 【捌【柳,期望在机器上能够模拟人耳处理语音信号的方式来对含噪语音信号进行处 理,并将其应用到语音增强领域【2 5 】【2 甸【2 7 】中。目前在语音增强中应用比较多的语音感知 属性为人耳的掩蔽特性,一系列传统的语音增强算法如谱减法等经利用人耳的掩蔽特性进 行改良,性能得到了一些显著的改进。 1 4 本文的主要工作 受人耳对噪声的强抑制作用的启发,在语音感知分析理论的基础上,不同于传统的语 音增强方法思路,本文研究了基于c h i i p 模型的语音增强方法。通过自适应分解算法将含 噪语音信号分解成包含了语音感知信息的c h i r p 原子的组合,然后根据语音信号和噪声在 时频面上的不同特性,通过对c h 卸原子的甄选来达到对含噪语音信号进行增强的目的。 本文的主要工作包括四个内容: ( 1 ) 提出用c h 卸模型对语音信号进行建模,模型内的原子包含了语音感知信息。研究 了匹配追逐算法( m a t c l l i n gp u r s u i t ) 的原理,并应用匹配追逐算法来提取c h 卸模 型的参数。本文验证了无论在时域还是在时频域,对语音信号进行c h i r p 建模是可 行且合理的。 ( 2 ) 对语音信号进行c h i r p 建模后,基于w v d 分布理论,提出使用c h 卸模型的w v d 时频分布来对语音信号进行时频分析,并和传统的语音信号时频分析法一语谱图进 行比较。仿真结果表明本文所采用的时频分析方法更适合揭示语音信号的时频结 构。 ( 3 ) 研究了语音端点检测算法( v o i c ea c t i v i t yd e t e c t i o n ) 。对基于跟踪谱包络动态特性 的语音端点检测算法进行了改进,使之对低信躁比下的含噪中文语音信号的检测更 准确。 ( 4 ) 在对含噪语音信号进行c h i r p 建模后,根据语音信号在时频面上的特性,提出依据 c h 卸原子的参数的差异,设计了被分解语音信号原子的重组规则,以达到语音增 d 强的目的。 1 。5 论文结构 本文的组织结构如下: 第二章:本章对语音感知分析进行了介绍。根据语音感知分析的结果,学习了人耳抑 制噪声的原理,并介绍了目前常见的语音信号建模方法。 第三章:本章提出了对语音信号的c h i r p 建模,并介绍了如何使用匹配追逐算法来提 取语音信号的c h 卸模型参数。使用经匹配追逐算法得到的c h i r p 原子的参 数来对语音信号的时频结构进行分析,并将该法同语谱图分析法进行比较。 第四章:本文所研究的语音增强算法的重要环节之一是语音端点检测。本章介绍了如 何利用含噪语音信号的全通带,低通带和高通带的能量谱包络的信息来对含 噪语音信号进行语音端点检测。 第五章:根据语音信号在时频面的特性设计了语音信号的c h 卸原子的重组规则,并 利用重组规则对被分解含噪语音信号的c h 卸原子进行重组,以达到语音增 强的目的。 第六章:对本文的研究内容和方法进行了总结,并提出了对以后的研究工作的展望。 第二章听觉感知分析和语音信号建模 现有的常用语音增强方法如谱减法,自适应滤波法,子空间分解法等均对噪声有特定 的限制,在复杂多变的实际噪声环境下其往往不能得到期望的效果。人耳的听觉系统具有 计算机识别系统望尘莫及的抗噪声和智能处理能力,例如,我们能够在对话环境中准确分 辨出其中一个说话人对象的说话内容,即使在噪音非常大的情况下,若仔细的听,仍然可 以分辨出一些我们感兴趣的语音信息。人耳的抗噪声特性激起了众多研究者的兴趣,人们 希望通过研究人耳的听觉感知模型来得到更高级更智能的语音信号处理算法。 2 1 听觉感知分析( a u d i t o r ys c e n ea n a i y s i s ) 现实生活中,人耳对背景噪声有惊人的抑制能力,了解其中的机理对于语音增强技术 的进一步提高有重要的作用。研究者们对听觉组织现象进行了详细的实验研究,1 9 9 0 年, b r e g m a n 提出了听觉感知分析理论。根据听觉感知分析理论【2 3 1 ,人耳对复合语音的处 理过程包括两个步骤:第一步,复合语音信号被分解成子成分的组合,这些子成分有着特 定的语音感知意义,其描述了一个重要的声学事件:然后这些子成分通过一个聚类过程进 行重组,聚类过程会遵循一个聚类准贝4 将那些可能来自同一个音源的子成分挑出来重组成 一个感知结构一“流”。 听觉感戋口分析的研究结果表明,聚类的准则1 2 3 j 是依靠基于语音成分分析的一些“线 索”( c u e ) 来完成对语音子成分的重组的。下面列举了一些重要的聚类准则: 基音频率的相似性:当听到两个不同基音频率的音调时,那些和基音频率比较相似的 一些子成分就为被归到相同的“流”里去。比如,在听交响乐时,人耳之所有能分辨出各 种不同乐器所发出来的声音,跟不同乐器所发出的声音的基音频率有差异有关。m i l l e r , h e i s e 以及、细n o o r d e n 分别对这个事实做了验证。 声音的连续性和平滑的过渡:语音在很多方面都体现出了连续性,如基音频率,时间, 谱形状以及幅度。这些连续性有助于将相应的子成分重组到相同的流里。不同的音源会导 致复合语音的上述属性产生较大的变化。 开始结束的时问:如果两个子成分有着相同的开始和结束的时间,那他们将可能被 归到同一个语音“流”里去。属于同一个音源的声音必然有一定的相似性,这个准则体现 了子成分在时域上的相似性。 声音强度的差异:声响强度上的差异可以帮助不同音源的分离。 相同的幅度和频率调制:声音可以看做是由若干个同时发生的谐波组合而成,若声音 的基音频率发生变化,相应的谐波成分频率亦发生相似的变化。实验表明入耳能够分辨出 属于不同音源的谐波组合。 可以看到通过聚类过程分离语音和噪声的关键在于需要一个模型能够将语音信号描 6 述成一系列对应着语音本身结构的子成分的组合。 可计算感知分析【2 2 】【2 3 】( c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i s ) 理论对如何在机器上 模拟人耳的语音感知过程做了研究。图2 一l 为典型的可感知分析系统的结构图: 爿銎固一匡姬 图2 1 典型的可计算感知分析系统结构图 在第一步,含噪语音信号在时频面上被分解成包含着声学意义上的特征的子成分,然 后系统根据输入含噪语音信号的声学特征得到语音信号分类规则,接着系统根据重组规则 将含噪语音信号子成分进行重组,最后将重组语音信号进行语音合成。在典型的系统中, 含噪语音信号在时频面上被编码成离散的符号表示,然后重组规则将那些可能来源于相同 的音源的子成分鉴别出来。 在具体的可计算听觉感知分析系统中,第一步首先是模仿耳蜗的频率选择作用先对信 号进行时频分析,通常是通过一组带通滤波器来完成时频分析的,常用的滤波器是 “g a m m a t o n e ”滤波器。通过带通滤波器后,信号被分解成不同时间上的不同频率成分的 组合,然后再模拟人耳听觉系统其他组件的功能对信号进行进一步处理。 受听觉感知分析的启发,本文提出一种语音增强算法,基本思想是先将含噪语音信号 分解成时频原子的组合,然后根据语音信号本身固有的时频结构特点来对时频原子进行取 舍以达到语音增强的目的。算法的第一步就是需要找到一个能准确描述语音信号时频结构 的表示方法,即语音信号的建模。 2 2 语音信号的建模 语音信号的建模是定量描述语音处理中所涉及的某些因素的基础“,一般希望模型是 线性且时不变的。在经典的语音信号数字处理中,通常将语音信号看成是线性时不变系统 ( 声道) 在随机噪声或准周期脉冲序列激励下的输出。在线性语音产生模型中,连续时间 语音信号j ( f ) 假定为激励信号“( f ) 通过一线性时变滤波器的输出,该线性滤波器的冲击响 应为 ( f ,r ) ,它描述了声道特性。语音信号表示如下: s ( f ) = f ( f ,f f ) h ( f ) d r ( 2 1 ) 根据发不同性质的音,激励分两种:( 1 ) 发浊音时。此时气流在通过绷紧的声带时, 冲激声带发声振动,使声门处形成准周期性的脉冲串,这些脉冲串再激励声道;( 2 ) 发清 音时。此时声带松弛而不振动,气流通过声门直接进入声道,一般用随机白噪声来做为激 江南大学硕士学位论文 励。 一组不f 霹频率,幅度和相位的正弦波的组合可以用来表示任何信号,如果用正弦波组 合来表示激励“( f ) ,财: ( 1 ) “( f ) = r e q ( f ) e x p 磁( f ) 】 ( 2 2 ) 女= 0 其中相位函数: 纯o ) = f q 。( 盯) d 盯+ 纯 ( 2 3 ) k ( f ) 为t 时刻的正弦分量个数。对于第k 个正弦分量,q ( f ) 和q ( f ) 分别表示时变幅 度和频率,戎为固定相位偏移,这是由于考虑到在f = 0 时刻这些正弦分量通常并不同相。 将正弦波表示为复指数的实部( “r e ”) 是因为这样可以简化关于正弦相位模型的分析。 在下面的推导过程中为了方便,将略去r e 符号。 如果激励参数q ( f ) 和q 。( f ) 在声道滤波器的冲激响应持续时间内保持不变,则语音信 号可写成如下形式: 印) = 胁) 静e x p 【删洲r ( 2 4 ) 为了得出上述积分的解析表示,交换积分和求和次序,上式可以转化成: 印) = 喜胁眦) e x 聃耻r ( 2 5 ) 其中f 是 ( f ,卜f ) 的有效开始时间。若假定激励信号的幅度和频率在 ( r ,f f ) 的有效 持续时间内为常数,贝有: ! t ( 7 7 2 竺l f f f ( 2 6 ) q 。( f ) = qj 于是么( r ) 可以写成: 吮o ) = r q 。( 仃 d 盯+ 欢 = f q 。d 盯+ fq 。d 盯+ 氟 = q 。0 一f ) + 纯( f 。) ( 2 7 ) 将( 2 7 ) 式代入( 2 5 ) 式: 第二章听觉感知分析和语音信号建模 s ( f ) = 窆吼f 地卜f ) e x p 【,q 。( h ) e x p m ( f + ) 】d r t = l = 鲁e x 舭+ ) 胁h ) e x 山刚川刖r = qe x p 【j 欢( r ) 】日( f ,q ) e x p 【j q 女( f f ) 】 女= 1 = h ( f ,q 女) n te x p j 慨( f 1 ) + q 女( f f 。) 】 女= 1 = 日 f ,q ( f ) 川f ) e x p m ( f ) 】 其中h p ,q 。( f ) 为声道的转移函数 日p ,q 女( f ) 】= 肘【f ,q 女( f ) 】e x p j o ( f ,q t ( f ) ) 2 j ,讹f f ) e x p 【一,q i ( r _ f ) 如 将( 2 9 ) 式代入( 2 8 ) 式: r 5 ( r ) = f 【r ,q t ( f ) 】q ( f ) e x p ,【织( f ) + 巾( f ,q t ( f ) ) = l 合并幅度项及相位项,则有: k s ( f ) = 4 ( r ) e x p 【尥( f ) 】 t = l 其中, a ( f ) = n 。( f ) m 【r ,q 女( f ) 】 ( 2 8 ) ( 2 9 ) ( 2 1 0 ) ( 2 “) ( 2 1 2 ) 最( r ) = 纯( r ) + 中【f ,q 。( f ) 】 ( 2 1 3 ) 从( 2 1 1 ) 式可以看到如果用正弦模型对语音信号进行建模,可以描述声道和激励的 信息。另外从信号处理的角度看,用正弦模型来刻画语音信号也是可行的。图2 2 和图 2 3 分别是对一段长2 0 m s 的浊音帧“中”进行h 叮和s t f t 分析的结果。 从图中可以看出来,浊音中有着明显的谐波成分,这和产生浊音的物理声学原理有关。 浊音是声带振动在声门处产生的准周期脉冲序列激励声道而产生。在实际应用中,正弦模 型被广泛得应用于语音编码领域2 9 】【矧。在语音信号处理过程中通常会将语音信号进行短 时帧划分,在持续时间较短的一帧信号中,语音信号被看成是平稳信号,于是语音帧可被 描述成: 9 f s ( f ) = 乏:q ( f ) s i n ( 2 石 ( f 弦+ 晚( r ) ) t = l 茎薯舳州 一l 一一一一一一一一 目2 - 2 对2 0 1 1 1 s 的短时语音帧进行f f t 得到的能量谱分布 ( 2 1 4 ) 图2 - 3 对2 0 雠的短时语音帧进行短时傅立叶变换后得到的时频分布 基本的正弦模型并不能准确得描述语音信号的结构,这是由于语音信号包含着许多类 似噪声的成分和一些持续时间很短的瞬时成分,这也可以从图2 3 中可以看出来。为了解 决这些问题,人们扩展了正弦模型,其中具有代表性的一个模型是用时变指数加权 正弦模型和一个平稳噪声的组合来描述语音信号: r s ( f ) = 口 ( f ) “p - 吨( f ) 蝈s i n 【2 口 ( r ”+ 噍( f ) + 7 ( r ) ( 21 5 ) = 1 正弦模型在语音编码领域中应用的很广,但在低速率语音编码算法中正弦模型用的却 不是很多,其根本原因在于经典正弦模型是平稳的,但是语音信号实质上是非平稳信号, o 为了使得正弦模型能够刻画语音信号中的非平稳特性,必须对正弦模型进行改造,比如上 面的时变指数加权模型,这样一来就增加了参数估计的难度,同时由于参数的增加也造成 了其不能用于低速率的语音编码。 虽然语音信号的时域和频域特性和噪声有着明显的差异,使用正弦模型也可以合成高 质量的语音信号,但在语音增强领域,很少有基于正弦模型的语音增强算法,其主要原因 是在含噪语音中对正弦模型参数很难进行准确的估计。文献【4 7 提出一种基于约束正弦模 型的语音增强算法,其是依据语音信号中存在基音频率的特性来对估计到的正弦模型参数 进行约束更新,从而达到去除噪声的目的,然而该算法只适用于高信噪比的高斯白噪声环 境中,因为在低信噪比或有色噪声环境下,使用传统的谱顶点法,最小均方误差法和最小 二乘法等得到的模型参数本身就会存在较大的误差。另外由于语音信号本身的结构特点, 在使用传统的正弦模型来对语音信号进行建模时需要考虑帧一帧间参数的平滑,在噪声环 境中,这是技术难点。 可以看到由于传统的正弦模型及其模型参数提取方法的缺陷,导致其很难应用在语音 增强算法中。c h 卸模型属于广义上的正弦模型,除具有一般正弦模型的特点外,其在时 域上可以“伸缩”,于是通过合理的帧划分,可以避免帧一帧之间参数的平滑操作。在下 一章,本文介绍了c h 卸模型及其模型参数提取方法,验证了使用c h 卸模型对语音信号 进行建模的合理性,以及模型参数的提取方法在噪声环境下有着较强的鲁棒性。 第三章c h i r p 模型及模型参数的提取 在噪声环境中无法准确估计模型的参数的缺陷影响了正弦模型在语音增强领域中的 应用,为此,在语音增强方法中必须采用其他信号模型来表征语音信号。该模型必须具备 以下特点: l ,模型能够准确的刻画语音信号的结构特征。只有能准确刻画语音信号的结构,该 模型才能用于语音增强。 2 ,在噪声环境下存在稳健的算法可以准确的提取该模型的参数。 本章使用c h 打p 模型来对语音信号进行建模,在对语音信号进行c h i i p 建模的基础上, 本章介绍了基于w v d 分布的c h i r p 模型时频表示方法,此外本章还介绍了如何使用匹配 追逐算法来提取c h 卸模型的参数。在本章最后,我们做了仿真实验,使用匹配追逐算法 提取语音信号c h 卸模型的参数,使用c h i r p 模型时频表示方法对语音信号进行了时频分 析,并将其同语谱图进行比较。仿真结果表明,c h i r p 模型可以在时域上对语音信号进行 准确的建模,此外在时频域上c h i r p 模型也可以准确刻画语音信号的结构,同时使用匹配 追逐算法提取模型参数有一定的抗噪声能力。 3 1c h i r p 模型 由于语音信号的非平稳特性,因此要求模型必须具有能够刻画信号非平稳特性的能 力。其中存在的一个问题是如何判定一个模型能够刻画语音信号的非平稳特性,通常的信 号分析工具包括时域和频域分析。时域分析是研究信号的形态随时间变化的规律,抽取必 要的特征向量( 如幅度,周靓,局部的上升时间与下降的时间等) 以作为对信号判断和识 别的依据;频域分析则是研究信号的能量或功率变化的规律,从而为信号的进一步处理提 供依据和手段。频域分析的主要数学工具是傅立叶变换,其在信号处理领域中使用的很广 泛。但傅立叶变换只适用于分析统计量不随时间变化的平稳信号,为了解决这个问题,人 们将语音信号分割成持续时间很短的语音帧,假定在短时间帧内语音是平稳的,然后在使 用傅立叶变换工具对语音进行分析,然而这终究是一个折中,而且语音信号即使在短时间 帧内也是近似平稳的。对于非平稳信号,需要使用时频分析工具来对其进行分析,同样一 个模型如果能准确刻画非平稳信号的特性,即意味着该模型在时频面上的分布能够体现出 原信号的非平稳性。 由于g a b o r 基函数【3 3 】在时频面上具有最小的时频积,从而可以准确的“抓取”某些 信号的时频特征,所以g a b o r 模型在信号处理领域引起了大家广泛的兴趣。g a b o r 基函数 是将归一化高斯窗譬( f ) = ( 1 万“4 ) e 叫o ”1 经过时移、尺度变化、频率调制得到的,其形式如 下: g ,( f ) = 各占( 二二1 ) p 片” ( 3 1 ) j 。 j 一 但使用g a b o r 原子来对语音信号进行建模时存在着问题,虽然g a b o r 基函数在时频面 上具有最小的时频积,但它是平稳的,考虑语音信号的语谱图分析,可以看到语音信号在 时频面的分布实际上是非平稳的,故若采用g a b o r 模型,将会需要多个g a b o r 基函数的组 合才能逼近语音信号的动态频谱特性。即其不符合上述模型的第一个特点。 为了解决g a b o r 基函数在描述信号非平稳时频结构信号时的缺陷,c h i r p 基函数 【圳【3 5 】被提了出来,c h i r p 基函数是g a b o r 基函数的扩展。其表达式如下: g ,( f ) - 去g ( 半) e x 山r ( 3 2 ) 这里,“是时移参数,j 为尺度伸缩参数,s 为频移参数,c 为线性调频斜率。可以看 到c h 卸基函数相比于g a b o r 基函数多了一个线性调频斜率参数,由于线性调频斜率的存 在,相当于将g a b o r 基函数在时频面上进行了旋转,通过旋转,使得c h i r p 基函数能够刻 画具有非平稳时频结构的信号。此外c h i r p 基函数可以看作是正弦基函数的扩展,当尺度 压缩参数较大时,c h i r p 基函数可以近似看成是正弦基函数。由于时移参数h ,尺度压缩 参数5 和线性调频斜率c 的存在,使得c h i r p 基可以很灵活的表示各种不同时频结构的信 号,理论上说c h i r p 模型可以满足能够刻画语音信号时频结构的要求。 使用c h i r d 模型,语音信号可以表示成: k 1 一 一 s o ) = 吼导_ g ( ! 生) e x p u ( & ( f 一) + 等。一) 2 】 ( 3 3 ) 女= l o 女 二 3 2 基于c h i r p 模型的语音信号时频结构分析 语音信号的时频结构特征2 删在语音信号处理中得到广泛的应用,语谱图就是由短 时傅立叶变换得到。对于性能良好的时频分析工具,其应该有如下的性质p 3 】: ( 1 ) 能够确定信号存在的信号分量个数 ( 2 ) 能够识别信号分量与交叉项 ( 3 ) 能够分辨出在时频面上相距很近的信号分量 ( 4 ) 能够估计信号各个分量的瞬时频率 传统的时频分析方法包括短时傅立叶变换和小波变换。短时傅立叶分析需要假设待分 析信号为准平稳信号,而实际语音信号并非如此;小波变换可以将信号分解到不同的尺度 空间中,然而小波变换

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论