(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf_第1页
(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf_第2页
(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf_第3页
(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf_第4页
(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)实环境下的语音增强算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 实环境下的语音增强算法研究 硕士研究生商敏红导师赵力教授 东南大学无线电工程系 现实生活中的语音不可避免的要受到周围环境的影响,语音增强是解 决噪声污染的有效方法,它的首要目标就是在接收端尽可能从带噪语音信 号中提取纯净的语音信号,改善其质量。 本文对加性噪声下的语音增强技术做了较为仔细的讨论。我们先给出 语音信号处理的基本理论,它是语音增强算法研究和实现的基础。其后对 基于短时谱幅度估计增强算法即传统的语音增强算法一谱减法及其衍生 算法一维纳滤波法、基于语音生成模型的增强算法、基于信号子空间的 语音增强算法作了简要的介绍,比较了它们的优缺点。然后对基于人耳掩 蔽阈值的语音增强方法作了讨论。另外本文对非平稳条件下的语音增强方 法即基于小波分析的语音增强算法作了简要介绍。最后对本文所介绍的各 种方法在主观和客观方面做了性能比较。 关键词:语音特性,语音增强,端点检测 作者:商敏红 指导教师:赵力 东南大学硕士学位论文 a b s t r a c t r e s e a r c ho nr e a le n v i r o n m e n ts p e e c he n h a n c e m e n t a l g o r i t h m s c a n d i d a t e :s h a n gm i nh o n gs u p e r i v i s o r :z h a ol i d e p a r t m e n to fr a d i oe n g i n e e r i n g , s o u t h e a s tu n i v e 聃i t y c h i n a s p e e c hu n d e rr e a le n v i r o n m e n ti su n a v o i d a b l e t os u f f e rt h ei n f l u e n c e o fe n v i r o n m e n ta l lr o u n d s p e e c he n h a n c e m e n ti sa ne f f e c t i v em e t h o dt o s o l v et h en o i s ep o l l u t i o n t h ef i r s tp r o j e c ti st og e tp u r es p e e c hs i g n a lf r o mn o i s e s p e e c h a tr e c e i v et e r m i n a la n di m p r o v ei t sq u a l i t y w ed e t a i lt h es p e e c he n h a n c e m e n tt e c h n i q u ei nt h ec i r c u m s t a n c eo fa d d i n g n o i s e f i r s t , w ep r o v i d eb a s i ct h e o r yo fs p e e c hs i g n a lp r o c e s s i n g ,w h i c hi s f o u n d a t i o no ft h er e s e a r c ha n di m p l e m e n to fs p e e c he n h a n c e m e n t s e c o n d ,w e i n t r o d u c es h o r t - t i m e - f o u r i e r - t r a n s f o r m n a m e l y t r a d i t i o n a l s p e e c h e n h a n c e m e n tm e t h o ds u c h 勰s p e c t r a ls u b t r a c t i o n ,w e i n e rf i l t e r i n g ,m o d e l m e t h o da n ds u b s p a c em e t h o de t c ,a n dt h e nw ec o m p a r et h ea d v a n t a g ea n d s h o r t c o m i n go ft h e s em e t h o d s t h i r dw em a k ed e t a i l e dd i s c u s s i o no nt h e m e t h o db a s e d0 1 1h u m a na u d i t o r ym a s k i n gp r o p e r t i e s i na d d i t i o n , w eb r i e f l y i n t r o d u c ew a v e l e ta p p r o a c h e sf o re n h a n c i n gs p e e c h a tl a s tw ec o m p a r et h e p e r f o r m a n c eo f t h e s em e t h o d si ns u b j e c t i v ea n do b j e c t i v ew a y 【k e y w o r d s 】:a u d i t o r yp r o p e r t i e s ,s p e e c he n h a n c e m e n t , e n d d e t e e t i o n i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明 并表示了谢意。 研究生签名:社日期:牛 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名: 第一章绪论 1 1 研究背景 第一章绪论 直接利用语音信号进行的人机对话方式,作为一种自然的,方便的控制和通信手 段,已经广泛地应用到各个实用领域,并已证明了它的有效性。同时,语音信号作为信 息的最普遍,最直接的表达方式,在许多领域也一样具有广泛的应用前景。然而在实环 境下应用语音信号处理的关键是抗噪声技术,因为噪声的消减对语音识别,低码率符号 化等的实用化是必要的。 现实生活中的语音不可避免的要受到周围环境的影响,很强的背景噪声例如机械噪 声、其它说话者的话音等均会严重的影响语音信号的质量;此外传输系统本身也会产生 各种噪声,因此在接收端的信号为带噪语音信号。混叠在语音信号中的噪声按类别可分 为环境噪声等的加法性噪声与残响及电器线路干扰等的乘法性噪声:按性质可分为平稳 噪声和非平稳噪声,除此之外,噪声环境下说话人的发音变化也是实环境下语音信号处 理研究的重要课题。所以,语音增强的研究是当今语音处理的一个非常重要的领域。 语音增强是解决噪声污染的有效方法。它的首要目标就是在接收端尽可能从带噪语 音信号中提取纯净的语音信号,改善其质量。语音增强不仅涉及信号检测,波形估计等 传统信号处理理论,而且与语音特性,人耳感知特性密切相关;再则,实际应用中噪声 的来源及种类各不相同,从而造成处理方法的多样性。因此,要结合语音特性、人耳感 知特性及噪声特性,根据实际情况选用合适的语音增强方法。 1 2 国内外语音增强算法研究概况 有关抗噪声技术的研究以及实环境下的语音信号处理系统的开发,在国内外作为语 音信号处理的非常重要的研究课题,已经作了大量的研究工作,取得了丰富的研究成果。 目前国内外的研究成果大体分为三类解决方法。一类是采用语音增强算法等,提高语音 识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。第二类方法是寻找稳健的 耐噪声的语音特征参数。例如,m a n s o u r 和j u a n g 提出了短时修正的相干系数 ( s h o r t t i m em o d i f i e dc o h e r e n c ec o e f f i c i e n t ,简称为s m c ) 作为语音特征参数, 该参数是基于自相关函数序列的线性预测技术,实验证明,该参数对宽带语音具有较好 的抗噪性;k t a l 提出了倒谱系数零均值算法,该算法在消除麦克风和信道失真方面取 得了较好的效果:c a r l s o n 基于加性噪声只影响倒谱系数的模丽方向不受噪声的影响的 特性。提出了基于子空间投影的特征参数。另外还有基于频率规整的单边自相关序列线 性预测倒谱系数0 s a - w l p c 参数( o n e - s i d e da u t o c o r r e l a t i o n - - w a r p e dl i n e a r p r e d i c t i v ec o d i n g ,简称为0 s a - w l p c ) ,实验证明,该参数在不增加计算量的情况下, 既能模仿人耳的听觉特性提高识别性能,又具有较强的抗噪能力。第三类方法是基于模 型参数适应化的噪声补偿算法,例如,针对加法性噪声的 啦蹦合成法、p a r a l l e lm o d e l c o m b i n a t i o n 法和针对乘法性噪声的s t o c h a s t i cm a t c h i n g 法以及两方面都考虑的方法 等。这类方法可以引入语音和噪声的统计知识,提出具有一定环境稳健性的处理算法, 并且在应用中基本与语音模型的短时平稳的假设一致,所以成为目前研究的热点。但是, 目前的补偿算法通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境 中的效果并不理想。解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们 很早就有这种愿望,但由于技术的难度,这方面的研究进展很小。近年来,随着声场景 分析技术和盲分离技术的研究发展,利用在这些领域的研究成果进行语音和噪声分离的 奎堕查兰堡主兰垡丝奎 研究取得了一些进展。 语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能从带噪语 音信号中提取纯净的语音信号,改善其质量。语音增强不仅涉及信号检测,波形估计等 传统信号处理理论,而且与语音特性,入耳感知特性密切相关;再则,实际应用中噪声 的来源及种类各不相同,从而造成处理方法的多样性。因此,要结合语音特性、人耳感 知特性及噪声特性,根据实际情况选用合适的语音增强方法。 就语音增强算法而言,具体方法大体上分为下面几类:基于短时谱幅度估计的增强 算法,基于语音生成模型的增强算法,基于信号子空间的语音增强技术。基于人耳掩蔽 阈值的增强算法等等。 1 2 1 基于短时谱幅度估计的增强算法 s b o l l 假设噪声是平稳的或变化缓慢的加性噪声,并且语音信号与噪声信号不 相关的情况下,提出了谱减法( s s :s p e c t r a ls u b t r a c t i o n ) ,但是在低输入信噪比情 况下,残留的音乐噪声往往较大:e p h r a i m 伽等将最小均方误差估计引入到减谱法中, 部分解决了音乐噪声问题,但是在信噪比较低时( 小于o d b ) ,背景噪声、音乐噪声和 语音失真都很大。b e r o u t i “1 在传统谱减法的基础上增加了调节噪声功率谱大小的系数 和增强语音功率谱的最小值限制,提高了谱减法的性能,是个较为重大的创新,但其修 正系数和最小值是根据经验确定的,适应性较差。 1 2 2 基于语音生成模型的增强算法 l i m 和o p p e n h e i m 嘲采用了m a p 准则来估计全极点参数。对于平稳语音随机过程而 言相当于乘了一个零相位的维纳滤波器。通过主观评判测量表明它可以减少可感知的噪 声从而改善语音的质量。但是存在以下不足:迭代中缺乏明显的收敛准则,随迭代次数 增加共振峰带宽变小等。h a n s e n 和c l e m e n t s 嘲在上述迭代过程中加入了频谱限制条件, 使极点不太靠近单位圆。以防止共振峰带宽过窄,极点出现较大抖动。 1 2 3 基于信号子空间的语音增强技术 e p h r a i m ”1 提出了一种基于信号子空间的语音增强算法,其基本的思想是把带噪语 音信号的矢量空间通过k l t 变换分解为噪声子空间以及信号加噪声的子空间,去除噪声 子空间后,在信号加噪声子空间中滤波估计出语音信号。y ih u 和p h i l i p o sc l o i z o u 埘 在信号子空间分解的基础上提出了在时域和频域上的针对有色噪声的语音增强算法。但 是该方法是基于k - l 变换的,而我们知道它是最优意义上的正交变换,它不存在快速算 法,这是该方法的不足之处。 1 2 4 基于人耳掩蔽阈值的增强算法 语音增强不仅涉及信号检测,波形估计等传统信号处理理论,而且与语音特性,人 耳感知特性密切相关,语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪 2 兰二翌堕堡 声信号,而使得这部分噪声不为人所感知到。p e t e r s e n 和b o l l 叫把减谱法用到人耳感 知阈,他们用系列带通滤波器模拟人耳感知效应,在降噪过程中,把带噪语音分解于各 个关键频带中,然后将在各个关键频带内处理过后的输出信号重新组合,以便获得输出 语音信号。j o h n s t o n “”提出了一种感知模型,起先应用于语音编码中。这个模型后来放 v i r a g 和t s o u k a l a s 应用于语音增强,取得了较好的语音增强效果。 目前,对非平稳环境下的语音增强算法研究还较少。i c o h e n “j 等人首先估计语音 信号概率密度分布函数,然后在此基础上改进了对数谱估计算法,使得改进的算法对非 平稳的噪声具有良好的抑制作用,该算法的缺点是语音信号的概率密度函数较难估计。 d o n o h o 1 2 】提出在小波域中采用多尺度分析,小波变换系数较小的代表噪声,但是在实 际应用中确定取舍信号和噪声的阈值往往是困难的。总之,对非平稳语音信号的处理是 今后努力的方向。 1 3 本文的结构安排 本文的结构与主要内容如下: 第一章综述了学术界对语音增强技术的研究状况及本文的主要研究内容 第二章介绍语音信号处理的相关概念。 第三章研究了基于短时谱幅度估计增强算法即传统的语音增强算法一谱减法及其衍 生算法锥纳滤波法、基于语音生成模型的增强算法、基于信号子空间的语 音增强算法。 第四章研究了基于人耳掩蔽特性的语音增强技术。 第五章初步研究了基于小波分析的抑噪技术。 第六章研究了语音增强中的端点检测技术。 第七章对减谱法、w e i n e r 滤波法进行了测试和比较 第八章结论和今后研究方向 东南大学硕士学位论文 第二章语音信号处理的基础知识 2 1 语音听觉系统 人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成,在对声音 的感知中起着声源定位和声音放大的作用。由于外耳道的共振效应,会使声音得到l o d b 左右的放大。中耳的主要作用是进行声阻抗的变换,即将中耳两端的声阻抗匹配起来。 内耳的主要构成器官是耳蜗( c o c b 1 e a ) 。它是听觉的受纳器,把声音通过机械变换 产生神经信号。耳蜗由三个分隔的部分组成:鼓阶、中阶和前庭阶。其中中阶的底膜称 为基底膜,基底膜之上是柯蒂氏器官,它由耳蜗覆膜、外毛细胞以及内毛细胞构成。毛 细胞上部的微绒毛受到耳蜗内流体速度变化的影响,从而引起毛细胞膜两边电位的变 化,在一定条件下造成听觉神经的发放或抑制。因此,柯蒂氏器官是一个传感装置。 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是 人耳听觉掩蔽效应。对于耳蜗的时频分析特性,当声音经外耳传入中耳时,会引起行波 沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。 频率较低时,基底膜振动的幅度蜂值出现在基底膜的顶部附近;相反,频率较高时,基 底膜振动的幅度峰值出现在基底膜的基部附近( 靠近镫骨) 。如图2 - 1 所示。如果信号是 一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义 上讲。耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。 基底膜的振动引起毛细胞的运动,使得毛细胞上的绒毛发生弯曲,引起神经的发放 或抑制。在基底膜不同部位的毛细胞具有不同的电学与力学特征。在耳蜗的基部,基底 膜窄而劲度强,外毛细胞及其绒毛短而有劲度;在耳蜗的顶部,基底膜宽而柔和,毛细 胞及其绒毛也较长而柔和。正是由于这种结构上的差异,因此它们具有不同的机械谐振 特性和电谐振特性。有人认为这种差异可能是确定频率选择性的最重要因素。 图2 1 基底膜的频率响应分布 人耳对声音的感受有很大的动态范围,一般人可以感觉到2 0 h z 2 0 k h z 、强度为 一5 d b 1 3 0 d b 的声音信号。因此在这个范围以外的音频分量就是听不到的音频分量,在 语音信号处理中就可以忽略掉,以节省处理成本。但是下面可以看到,人耳的这种感觉 不是绝对的,将随着信号特性的不同而不同。 心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻被掩 蔽掉了,或者说一个声音a 能感知的阈值由于另一个声音口的出现而提高的现象,这时 苎三兰里童堕呈竺里塑苎查垫望 口叫做掩蔽声。a 叫做被掩蔽声。例如,工厂机器嗓音会淹没人的谈话声音。此时,被 掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值( m a s k i n gt h r e s h o l d ) ,在 这个掩蔽阈值以下的声音将被掩蔽掉。图2 2 给出了一个l k h z 的掩蔽声的掩蔽曲线。 即由于掩蔽声( m a s k e r ) 的存在,在其附近产生了掩蔽效应,低于掩蔽曲线的声音即使 阈值高于安静听阈也将变得不可闻。 7 0 6 0 4 0 2 0 o 0 0 20 1o 5 l 一 51 0 2 0 频辜( z ) 图2 - 2 一个l l d t z 的掩蔽声的掩蔽曲线 掩蔽效应分为同时掩蔽和短时掩蔽。同时掩蔽是指同时存在的一个弱信号和一个强 信号频率接近时,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度时就 会导致这个弱信号变得不可闻。一般来说,对于同时掩蔽,掩蔽声愈强,掩蔽作用愈大; 掩蔽声与被掩蔽声的频率靠得愈近,掩蔽效果愈显著。两者频率相同时掩蔽效果最大。 当a 声和曰声不同时出现时也存在掩蔽作用,称为短时掩蔽。短时掩蔽又分为后 向掩蔽和前向掩蔽。掩蔽声b 即使消失后,其掩蔽作用仍将持续一段时间这种效应称为 后向效应。若被掩蔽声彳出现后,相隔0 0 5 o 2 秒之内出现了掩蔽声口,它也会对彳 起掩蔽作用,这是由于彳声尚未被人所反应接受而强大的口声已来临所致,这种掩蔽 称为前向掩蔽。 从纯音对纯音的掩蔽效应实验,得出两点主要结论:对于中等掩蔽强度来说,纯 音最有效的掩蔽是出现在它的频率附近;低频的纯音可以有效的掩蔽高频的纯音,而 高频的纯音对低频纯音的掩蔽作用则小。从噪音对纯音的掩蔽效应实验,得出结论:此 时可把噪声视为许多纯音组成的宽带音。因此,掩蔽作用最明显的是被掩蔽纯音频率附 近的一个窄带的掩蔽分量( 频率群) 。通常认为,在2 0 一1 6 k h z 范围内,可分为2 4 个频 率群即2 4 个b 埘。 纯音对窄带噪声的掩蔽量当加宽噪声带宽时最初是掩蔽量增大,但超过某一带宽后 就不再增大,这一带宽称为临界带宽。当爿声被曰声掩蔽时,若a 声的频率处在以口声 为中心的临界带的频率范围内时,掩蔽效应最明显,当若4 声的频率处在b 声的临界带 以外时,仍会产生掩蔽效应,这种掩蔽效应取决于a 声和口声的频率间隔相当于几个临 界带,这一间隔越宽,掩蔽效应越弱。 2 2 语音信号生成的数学模型 构建语音信号生成的数学模型的基础是人的发音器官的特点和语音产生的机理。建 立了语音信号的数字模型,就能够用计算机来定量地对语音信号进行模拟和处理。 通过对发音器官和语音产生机理的分析,可以将语音生成系统分成三个部分,在声 门( 声带) 以下,称为“声门系统”,它是“激励系统”;从声门到嘴唇的呼气通道是声 查塑查兰堡主堂竺丝兰 道,是“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。 下面先分别讨论激励模型、声道模型和辐射模型,然后再导出语音信号产生的数字 模型。 2 2 1 激励模型 激励模型一般分成浊音激励和清音激励来讨论。发浊音时,将产生间歇的脉冲波。 这个脉冲波的波形类似于斜三角形的脉冲。它的数学表达式如下: 酬= p 誊嬲n 0 s s l ls 疗s 1 + r 2 ( 2 一1 ) 其他 式中,l 为斜三角波上升部分的时间,n 2 为其下降部分的时间。 单个斜三角形波模型为: g 2 南 其中,c 为常数。斜三角波波形串可视为加权了单位脉冲串激励上述单个三角模型 的结果。单位脉冲串及幅值因子可表示为: 荆= 南 ( 2 3 ) 整个浊音激励模型可表示为: 酢) = g ( 力酢) = 专百= 南 ( 2 - 4 ) 也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。 一般把清音激励模拟成随机白噪声。实际情况中一般使用均值为0 的、方差为1 的, 并在时间或和幅值上为白色分布的序列。 2 2 2 声道模型 关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把声 道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模 型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。就实现来说可 分为级联型、并联型和混合型。声道模型的传递函数用矿( z ) 来表示。 2 2 3 辐射模型 辐射模型类似一阶高通滤波器。通常用一个一阶差分方程近似r ( :) ;r ( o ) ( 1 一z - 1 ) , r ( n ) 是信号的自相关函数。它所导致的是输出信号高频提升每倍频6 d b 左右。在语音 信号预处理技术中常用的预加重技术也是用了该方法。 6 第二章语音信号处理的基本知识 2 2 4 语音信号的数字模型 完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的 串联来表示它的传输函数日( z ) 可表示为: 胃( 力2g ( z w ( z ) r ( z ) ( 2 5 ) 声道模型!辐射模型 语音 图2 - 3 语音信号产生的时域模型 这时,浊音信号可以看作是由一个准周期的艿脉冲串激励一个离散线性系统而产 生的输出。在清音的情况下,随机噪声直接接入声道模型。 这里的线性系统的参数是随着时间而变化的,但是它时变过程比语音信号波形的变 化要缓慢的多。因此可以假定在l o 3 0 m s 内其系统参数不变。这就给参数估计和语音 合成带来了极大的方便。 2 3 语音信号的数字化和预处理 语音信号的数字化是数字处理的前提,一般包括抗混叠滤波、采样、a d 变换;预 处理一般包括预加重、加窗和分帧处理等。在语音降噪处理之前往往需要找出语音信号 部分和噪声部分,即语音信号的端点检测。 2 3 1 预滤波、采样、a d 变换 预滤波的目的有两个: 抽样信号符合奈奎斯特抽样定理以防止混叠干扰。 抑制5 0 h z 的电源工频干扰。 这样,预滤波器设计成为一个带通滤波器,设其上、下截止频率分别是厶和五, 一般取矗4 k h z ,五5 0 h z ,采样率五8 k h z ,语音信号经过预滤波和采样后,由a d 变换器变换为二进制数字码。 数字化的反过程就是从数字化语音中重构语音波形,所以必须在接收语音信号之 前,在d a 后加一个平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高 次谐波失真。 7 哥 + 浊一望| 东南大学硕士学位论文 2 3 2 预加重、加窗和分帧 图2 - 4语音信号处理的一般步骤框图 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上 按6 d b 倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越小,为此要在预 处理中进行预加重( p r e - e m p h a s i s ) 处理。预加重的目的是提升高频部分,使信号的频 谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱 分析或声道参数分析。6 d b 倍频程的提升高频特性的预加重数字滤波器来实现,它一般 是一阶的数字滤波器: 眉。( z ) = l c r z 一 ( 2 6 ) 其中口值接近予1 ,典型值为0 。9 4 。 考虑到语音信号是非平稳的,是时变的,但是入的发音器官的肌肉运动速度较慢, 一个短时间范围内( 一般认为在1 0 m s 3 0 m s 的短时间内) ,语音信号特性基本保持不变 即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。因此 语音信号分析常分段或分帧来处理。一般要采用交叠分段的方法,这是为了使帧与帧之 间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值 一般取为0 1 2 。分帧是用可移动的有限长度窗口进行加权的方法来实现的,加窗语 音信号为j 。( 行) = j ( 功似疗) ,其中以疗) 为窗函数。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗。它们的表达式如下( 其中 n 为帧长) : 矩牖州= n 翟1 汉明窗:似疗,= 仉嚣一m 4 6 c 0 虹2 翮托- 1 , ( 2 - 7 ) o s 舱n - l ( 2 - 8 ) n = e t s e 窗的形状,对短时分析参数的特性影响很大。如采用矩形窗则矩形窗的高频成分必 将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,汉明窗的带宽是矩形窗 的两倍,但带外衰减却比矩形窗大得多,所以应根据处理的要求来选择窗形。 由于采样周期= 1 、窗口长度n 和频率分辨率v 之间存在4 厂= l a r t , 的关系。 可见,当采样周期一定时,长窗具有较高的频率分辨率,但时间分辨率较低;短窗频率 分辨率低,但具有较高的时间分辨率。应该根据不同的需要选择合适的窗口长度。 这样,经过上述处理过程,语音信号就被分割成一帧一帧的加过窗函数的短时信号, 然后借助平稳随机信号处理的理论来提取语音特征参数,以备进一步做降噪处理。 3 第二章语音信号处理的基本知识 2 3 3 利用短时傅里叶变换求语音的短时功率谱 定义语音信号x ( ) 的短时傅里叶变换为: k o 一) = x ( m ) w ( n m ) e 一“= v o 扣) “w ( e 一7 4 ) 】 ( 2 9 ) 可见短时傅里叶变换实际就是加窗后的语音信号的傅里叶变换。窗w ( n 一埘) 是一个 “滑动的”窗口,它随行的变化而沿着序列坐标聊滑动。由于窗口是有限长度的,满足 绝对可和条件,所以这个变换是可和的。 根据信号的时宽带宽积为一常数这一基本性质,可知窗函数w ( n ) 的傅里叶变换 矿0 扣) 主瓣宽度与窗口宽度成反比,n 越大,矿0 p ) 的主瓣越窄。但是n 值太大时, 信号的分帧又没有意义。因此,应折衷选择窗的宽度n 。另外,窗的形状也对短时傅氏 频谱有影响,而汉明窗在频率范围中的分辨率较高,而且旁瓣的衰减较大,具有频谱泄 漏少的优点,所以在实际应用中通常选用汉明窗。 这时窗长n 必须是2 的倍数2 ( l 是整数) 。通常采用补0 的办法,在扩大的部分 添若干个0 取样值以凑成2 的指数次幂,然后再对添0 后的序列运用f f t 。 在语音信号数字处理中,常常需要用到功率谱。根据功率谱定义,可以写出短时功 率谱与短时傅里叶变换之间的关系: 最0 归) = x 。0 p ) e 0 归) 爿k 0 归) 1 2 ( 2 1 0 ) 式中宰表示复共轭运算。由w i e n e r k h i n c h i n 定理,若x ( o 为宽平稳过程,且其自 相关函数以( f ) 满足c i f 足( f ) p f m 时,有 = c r a r ) e 1 2 l ,f d r2 上二 1 “p 因此功率谱最一) 是短时自相关函数r ( 七) 的傅里叶变换 ( 2 - 1 1 ) n - 1 瓯。一) 爿k p ) 1 2 = 心( i 弦问 ( 2 1 2 ) k h + l 2 3 4 基于短时傅里叶变换求语音的信号重构 设语音信号位于时间以的截段信号为: = 善( 埘) - w ( n - m ) 若每隔r 时间采样,则信号可表示为: y a m ) = 玎哟以暖一m ) ,= ,- 2 ,一l ,0 ,1 ,2 9 ( 2 - 1 3 ) ( 2 - 1 4 ) 东南大学硕士学位论文 叠加之后可以表示为: y , ( m ) - - - x ( m ) w ( r r - m ) m ,- 当r 很小时,从根一所) = 扣扣) r ,m 这样由i d f t 有; z ( 小) = 丽r 童4n 刍- i 耳( e 脾) e 慨 这样就实现了x ( m ) 的信号重构“”。 2 3 5 语音的短时谱的临界带计算 ( 2 - 1 5 ) ( 2 - 1 6 ) 符合人耳的听觉特性的频率分布应该是按临界带频率分布的,利用短时傅里叶变换 求取的语音信号短时谱是按实际频率分布的。如果用按实际频率分布的频谱作为语音特 征,往往不符合人耳的听觉特性,会降低语音信号处理系统的性能。下面介绍一种简单 的把实际的线性频谱转化为临界带频谱特征的方法。 第一步,首先求出一帧加窗语音) 的功率谱i j 0 ( 七) 1 2 第二步,在,= o 一正2 ( z 为采样率) ,中确定z ,五,隽,a ,若干个临界带频率 分割点。确定的方法是将i = - 1 ,2 ,3 ,代入下式( 2 - 1 7 ) ,求出相应的z ( h z ) 。 i _ 避一o 5 3( 2 1 7 ) 1 9 6 0 + z 这样z 五构成第一临界带,幺z 构成第二临界带,等等。图2 - 5 为临界带宽 b a r k 与频率z ( h z ) 关系图。 图2 - 5 临界带宽b a r k 与频率z ( h z ) 关系图 第二章语音信号处理的基本知识 将每个临界带中的l j 乙( 七) 1 2 取和即可得到相应的临界带特征矢量。临界带特征矢量 从入耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征,可作为语音识 别系统特征矢量。在第四章中我们将依据b a r k 划分频带进行语音增强算法讨论。 东南大学硕士学位论文 第三章常用的语音增强算法及其比较 实际应用环境中的语音不可避免的要受到周围各种各样噪声的影响,这些噪声使语 音质量下降,严重情况下语音完全淹没到噪声中,无法辨认;同时,语音质量的下降也 会使许多语音处理系统的性能急剧恶化。 语音增强是解决噪声污染的有效方法,它的目的是在接收端从带噪语音中提取尽可 能纯净的原始语音信号,它不仅涉及信号检测、波形估计等传统信号处理理论,而且与 语音特性、人耳感知特性及噪声特性密切相关。因此,要根据实际情况选用合适的语音 增强方法。 3 1 语音特性、人耳感知特性及噪声特性 3 1 1 语音特性 语音信号是一种非平稳的随机信号。语音的生成过程与发音器官的运动过程密切相 关,考虑到人类发声器官在发声过程中的变化速度具有一定的限度而且远小于语音信号 的变化速度,因此可以假定语音信号是短时平稳的,即在l o m s 3 0 m s 的时间段内其某 些物理特性和频谱特性可以近似的看作是不变的,从而可以应用平稳随机过程的分析方 法来处理语音信号,并可以在语音增强中利用短时频谱时的平稳特性。 任何语言的语音都有元音和辅音两种音素。根据发声的机理不同,辅音又分为清辅 音和浊辅音。从时域波形上可以看出浊音( 包括元音) 具有明显的准周期性和较强的振 幅,它们的周期所对应的频率就是基音频率;清辅音的波形类似于白噪声并具有较弱的 振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声,而 清辅音的特性则使其和宽带噪声区分困难。 语音信号作为非平稳,非遍历随机过程的样本函数,其短对谱的统计特性在语音增 强中有着举足轻重的作用。根据中心极限定理,语音的短时谱的统计特性服从g a u s s 分 布,当然实际应用时只能将其看作是在有限帧长下的近似描述。 3 1 2 人耳感知特性 人耳对于声波频率高低的感觉与实际频率的高低不呈线形关系,而近似为对数关 系;人耳对声强的感觉很灵敏且有很大的动态范围,人耳对于频率的分辨能力受声强的 影响,过强或者太弱的声音都会导致对频率的分辨力降低;人耳对语音信号的幅度谱较 为敏感,对相位不敏感。这一点对语音信号的恢复很有帮助。共振峰对语音感知很重要, 特别是前三个共振峰更为重要。 人耳具有掩蔽效应,即会产生一个声音由于另外一个声音的出现而导致该声音能被 感知的阈值提高的现象。 人耳除了可以感受声音的强度、音调、音色和空闾方位外,还可以在两入以上的讲 话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知 能力。人类的这种分离语音的能力与人的双耳输入效应有关,称为“鸡尾酒会效应”。 语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知 特性来减少运算代价。 第三章常用的语音降嘬算法及其比较 3 1 3 噪声特性 噪声可以是加性的,也可以是非加性的 非加性噪声往往可以通过某种变换,如同 态滤波,转为加性噪声) 。加性噪声通常分为冲激噪声,周期噪声,宽带噪声。语音干 扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等。 ( 1 ) 冲激噪声 放电,打火,爆炸都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。 消除冲激噪声影响的方法通常有两种:对带噪语音信号的幅度求均值,将该均值作为判 断阈,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时, 也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号去掉冲激 噪声。 ( 2 ) 周期噪声 最常见的有电动机,风扇之类周期运转的机械所发出的周期噪声,5 0 h z 交流电源 哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱,通常可以采用陷波器方法予 以滤除。 ( 3 ) 宽带噪声 说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声,以及量化噪声等都可 以视为宽带噪声,应用中常近似为g a u s s 噪声或白噪声。其显著特点是噪声频谱遍布于 语音信号频谱之中,导致消除噪声较为困难。一般需要采取非线性处理方法。 ( 4 ) 语音干扰 干扰语音信号和待传语音信号同时在一个信道中传输所造成语音干扰称为语音干 扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两 种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢 复出有用语音信号。 ( 5 ) 传输噪声 这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。 处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。 通过语音增强技术来改善语音质量的过程如图3 - i 所示。常用的语音增强技术有: 滤波法、自相关抗噪法、非线性处理法、减谱法、w e i n e r 滤波法等,下面介绍这几种语 音增强方法。 图3 - 1 语音增强处理过程 东南大学硕士学位论文 3 2 基于短时谱幅度估计( s t f t _ s h o r t - t i m ef o u r i e rt r a n s f o r m ) 的增 强算法 3 2 1 减谱法语音增强技术 3 2 1 1 基本原理 减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短 时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得 到较为纯净的语音频谱。 如果设s ( f ) 为纯净语音信号,捍( f ) 为噪声信号,y ( t ) 为带噪语音信号,则有: ) ,( ,) = j ( f ) + 砸) ( 3 1 ) 用l ,) 、s 仞) 、 ) 分别表示灭f ) 、s ( t ) 、n ( t ) 的傅里叶变换,则可得下式: y ( ) = s ( ) + ( 国) ( 3 - 2 ) 由于假定语音信号与加性噪声是相互独立的,因此有: i y ( 国) 1 2 爿s ( 国) 1 2 + i n ( r o ) 1 2 ( 3 - 3 ) 因此,如果用只 ) 、洄) 、只 ) 分别表示y ( r ) 、j ( f ) 和n ( t ) 的功率谱,则有; 只( 国) = ( 国) + 只( 国) ( 3 - 4 ) 而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以通过发 声前的所谓“寂静段”( 认为在这一段里没有语音只有噪声) 来估计噪声的功率谱只p ) , 从而有: 只( ) = ( ) 一只( 国) ( 3 5 ) 这样减出来的功率谱即可认为是较为纯净的语音功率谱,然后,从这个功率谱可以恢复 降噪后的语音时域信号。 在具体运算时,为防止出现负功率谱的情况,减谱时当只 ) 1 ) 这样可以更好的突出语 音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中保留少量的宽带噪声,在听觉 上可以起到一定的掩蔽纯音噪声的作用。考虑这两个方面,改进后的减谱法公式如下: 帕) :j 竺= - 叱! 窖? :( 其中纠,b = 1 ) ( 3 - 7 ) t 6 只( 缈) 只( 国) o ) 可以得到新的 更具一般性的减谱法形式。这种方法称为功率谱修正处理,它可以增加灵活性,修正后 的功率谱为: i 】,( ) r = p ( 国h + i ( 缈) i ( 3 8 ) 令只 ) = 】,仞) i k 、p , ( o j ) 爿s ) r 、只佃) 刊n ( c o ) l 代入式( 3 6 ) 或式( 3 7 ) 即得减谱 法的改进形式。适当调节式中的口、b 、七取值可以取得更佳的增强效果,其灵活性也 是不言而喻的。 3 具有输入幅值谱自适应的减谱法 由于传统的减谱法考虑噪声为平稳噪声,所以对于整个语音段,噪声功率以及权系 数一般取相同的值( 虽然可以通过粗略的辨别语音帧是辅音帧还是元音帧,以确定口 的取值,但不一定准确) 。而实际环境下的噪声,例如展览会中的展示间隔内的噪声是 非平稳噪声,所以用相同的噪声功率值是不确切的。同样,采用相同的权值4 ,有可能 发生减除过度或过少的问题,使得有的区段要么噪声消除不够,要么减除过多产生丘 ) 失真。为此,应该对传统的减谱法进行了如下修改。首先,对于噪声功率估计,采用如 下式( 3 9 ) ,在整个区域用语音以外的当前输入帧功率i 置 ) 1 2 ,对噪声功率进行逐帧 逐次更新: i n , ( o ) 1 2 = ( 1 - p ) i n , - ) 1 2 + 阮( 国) 1 2 ( 3 9 ) ( 0 1 ) 对噪声功率进行逐帧逐次更新时,噪声功率估计采用语音段开始的前几帧来估计, 可以采用带噪语音处理前后能量比来确定语音段与寂静段: 吉卯( f ) d ( f ) = 等等一 ( 3 1 0 ) 吉( d o l - i 母( o ( 帧长是n ) 是第f 帧处理后的值,* ( d 为处理前的值。对于寂静段,处理前后平 均能量变化较大,故d ( f ) 较大;同理,语音段d ( f ) 较小。若为寂静段,则处理前的值 可以做为下一帧的噪声参加运算。但由于语音段与寂静段在低信噪比情况下有时也不易 区分,而且时变的影响有时也会造成较大的误差。 其次,让权值口和输入语音功率相适应,即按如下式( 3 1 1 ) 随输入语音功率谱值 改变。以避免产生减除过多或过少的问题。式中b 和岛为门限阈值,c l 和c 2 为常数, 它们可由实验确定。 由于谱减法中假设语音是短时平稳的,所以在谱减法语音增强的实际应用中需要对 输入语音信号加窗后再处理。这样式( 3 - 3 ) 就应写成i 】:( 由) 1 2 爿s , ( c o ) 1 2 - i - i m 细) 1 2 ,其 下标t 表示加窗分帧后的第t 帧。 1 6 第三章常用的语音降噪算法及其比较 f - c l 阮 ) f b 砸) - _ 器扩+ c l 酬| 2 0 2 3 2 2 利用w e i n e r 滤波法的语音增强技术 本节主要讨论在最小均方准则下用w e i n e r 滤波器实现对语音信号的估计,即对于 带噪语音信号y ( f ) = s ( f ) + 行( r ) ( 其中j ( f ) 为纯净语音信号,疗( f ) 为噪声信号) ,确定滤波 器的冲激响应 ( r ) ,使得带噪语音信号经过该滤波器的输出j ( f ) 能够满足 研ij ( f ) 一s ( t ) 1 2 最小( j ( f ) 为滤波器输出) 。 3 2 2 1 基本原理 假定j ( f ) 和栉o ) 都是短时平稳随机过程,则由w e i n e r h o p f 积分方程为: 岛( ) = h ( a ) r , ,( r - a ) d a ( 3 1 2 ) 两边取傅里叶变换有: 名 ) = 商) 易和) 从而得到: 脚,= 器 再由于: 厶 ) = 只细) 并且考虑到由于j ( f ) 和胛o ) 相互独立,所以有: 厶( ) = 只( 印) + 只( 缈) 将式( 3 1 5 ) 和式( 3 - 1 6 ) 代入式( 3 1 4 ) ,则有下式成立: 荆= 揣 ( 3 1 3 ) ( 3 - 1 4 ) ( 3 - 1 5 ) ( 3 - 1 6 ) ( 3 - 1 7 ) 上式表明,当噪声为0 时,信号全部通过;当信号为0 时,噪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论