




已阅读5页,还剩66页未读, 继续免费阅读
(电路与系统专业论文)基于听觉感知的语音增强算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
擒要 摘要 语啬增强技术广泛应雳于语音通信的背景嗓声抑制、语音压缩编码和语音识 尉匏前端楚理中。语音增强的馨鹃就是消除背景噪声的影响,改善语音质量。 随着对入耳孵镦系统生理机制的研究深入,近年来基于听觉感知的语鬻增强 算法得到了长足的发展。该方法通常与传统的诺音增强算法结合实现去噪,同时 考虑孵擞对语音信号的感稚和语音傣号信嗓比的提高。本文系统深入地磺窥了基 于听觉感知麴语音增强算法,主要研究工俸麴下: 1 传统卡尔曼滤波得到的增强语音信号,其功率谱包络在谱峰处具有很高 的信嗓比,而在语膏能量低的谱谷处信噪比就徽低。入耳听觉系统更容易感知到 誓谷处媳噪声。霾此本文给基一种基予听觉感知麓卡尔曼滤波语音增强方法。辱l 入感知力疆权滤波器,能够在不影响谱峰处听觉效果的前提下提高谱谷处的僚噪比。 实验结果表明,采用这一方法能进步减少人耳感知到的噪声。 2 。磷究夫耳听觉感翔特性在诿音增强中麓应属,给出一种后置感翔滤波器 瘟爝予子空蠢语音增强静方法。掇据掩蔽阉毽,对带嗓语膏谱分量毒选择撼进行 处理,将可闻残留噪声控制在掩蔽门限之下,可以进一步抑制残余噪声。该方法 能够提高增强语音的听觉质量,改蔫增强效果。 3 ,针对传统子空惩方法牵,采用语音活动检测嗍估计噪声不准鳆缺陷, 给出釉基于子空闻域噪声特镊馑估计的语音增强方法。该方法不需要区分有声 段和无声段,能够舞加准确的反映当前时刻的噪声水平,具有鲁棒性。 关键词;语音增强听觉惑知卡尔受滤波信号子空澜 第一章绪论 第一章绪论弟一旱骚形 诱啻是现代信息时代重要的信息交互手段。随着语音通信所处环境的不断扩 震。对话音质量觞要求不断的提高,越来越需要对语音进行增强处理以达到人们 需求的目标。在这种情况下,语音增强的目标是抑制背景环境噪声,提高语音的 质量并提高听者的舒适度,使听者不感觉疲劳。 谗音增强是一f l 涉及面很广的交叉学科,它不但与语音信号数字处理理论有 关,而且涉及到模式识别、数理统计、神经生理学和语音学学科。此外,语音增 强所要面临的噪声来源众多,常见的如街道、机场、工厂车间、人声嘈杂的公共 场合等。因此,人 f j 在研究语音增强的方法时一般是从语音特性、入耳的听觉感 知特性和噪声特性等几方面入手。 1 1 语音增强研究的意义和应用 人们在语音通信过程中不可避免羹耋会受到来皇周围环境和传输媒介弓| 入翦 噪声、通信设备内部电噪声、乃至其他讲话者的干扰。这些干扰最终将使接收者 接收到的语音不再是纯净的原始语音,而是被噪声污染过的带噪语音。例如,汽 车、街道、机场中的电话,常受到强背景噪声的于扰,严重影响通话质量。面且 环境噪声的污染使得许多语音处理系统的性能急剧恶化。例如,语音识别己取得 重大进展,正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作的, 在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速 率语音编码,特别怒参数编码t ,也遇到类似润题。由于语音生成模型是低速率编 码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音 的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,必须加入语音增强系 统,或者季牵制背景嗓声,以提高语音通信质量;或者作为预处理器,以提高语音 处理系统的抗干扰能力,有效改善系统性能。因此,研究语音增强技术在实际中 有重要价值。语音增强方法的研究也成为国内外许多大学和研究机构的一个研究 热点。髫前,语音增强已在语音处理系统、通信、多媒体技术、数字化家电等领 域得到了越来越广泛的应用。 1 2 语音增强研究的发展现状 语音增强算法爵从信号输入的通道数上分为单通道的语音增强算法与多通 道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。 第一章绪论 这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个 信号中得出。算法复杂性较小,硬件要求低。一般这种语音系统下要求噪声要比 较平稳,以便在非语音段对噪声进行估计,再依据估计出来的噪声对带噪声的语 音段进行处理。如果语音系统是一个多通道的语音系统,各个通道之间存在着某 些相关的特性,这些相关特性对语音增强的处理十分有利。 单通道语音增强是语音增强豹基础,本文将重点研究和实现单通道韵语音增 强方法。 在实际需求的推动下,语音增强这个研究课题早在6 0 年代即引起人们的注意; 随着数字信号处理理论的发展,7 0 年代取得了一些基础性成果,并使语音增强发 展成为语音处理领域筋一个重要分支,瀚年代至年代初这十几年阆,各种语音 增强方法不断提出,进而奠定了语音增强理论的基础,并使之逐渐走向成熟。近 些年来随着v l s i 技术的发展和高速d s p 芯片的出现,各种语音增强方法更是不 断涌现并走向实用。由于噪声特性各异,语音增强的方法也各不相同。一直以来, 人们都在宽带加性噪声的模型上进行研究,提出了各种语音增强算法。尽管在理 论卜还没有完全解决语音增强问题,但有些方法已经证明是有效的。 但是由于噪声来源众多,特性各不相同,而语音处理系统的应用场合又千差 万剐,嚣此不存在一种可以通用于各种噪声环境下的语音增强算法。另一方面, 由于噪声信号都是随机产生的,完全地消除噪声也几乎不可能。因此实际语音增 强的目标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦; 提高语音可懂度,方便听者理解。到目前为止,还没有哪种语音增强系统可以同 时很好的改善浯音髓量和可懂度这两个指标。 1 3 语音增强的基本理论 语音增强不仅是一个数字信号处理技术方面的问题,还涉及到人的听觉感知 和语音学。因此要有效地增强语音,必须对语音和噪声的特性、入耳的感知特性 戬及语音信号处理的一些基本方法有充分的了解。 3 语音信号的产生机理 图1 1 是入的发声器富解剖示意图。其中入兹声道包含咽喉、翻腔和鼻腔三 部分。当人发声时,肺中的气流首先会流经气管,通过喉部声门时使拉紧的声带 产生震动,而声带的一紧一松使得气流成为准周期的脉冲,形成激励源。这样的 准周期脉冲在通过咽喉、口腔或者鼻腔之后其频谱被声道的频率响应所改变,当 久的下颚、舌头、嘴唇等器宫鲶位置发生变化时,声道鲍频率响应同时发生变化, 因此多种多样的语啬就被产生了。 2 第一章绪论 嘲 喉 往j 瞧 释腔 肄礼 孵 舌央 才:齿 口腔 下巴 管 肺 横膈膜 图1 7 1 人的发生器官解剖不恿图 1 3 2 语音信号产生的数字模型 根据上文所述语音信号的产生机理,人们在研究了人类发声器官和语音产生 的基本声学理论的基础上,建立了离散时域的语音信号模型( 图1 2 ) 。在这种模型 中,语音信号被看成是线性时变系统在随机噪声或准周期脉冲序列激励下的输出。 ( 1 ) 激励源 激励源分为浊音和清音两个分支,按照浊音清音开关所处的位置来决定产 生的语音是浊音还是清音。在浊音情况下,激励信号由一个周期脉冲发生器产生。 在清音情况下,激励信号由一个随机噪声发生器产生。 ( 2 ) 声道模型 声道模型矿( z ) 给出了离散时域的声道传输函数,它是把实际声道作为一个 变截面声管加以研究,采用流体力学的方法进行推导而来的。通常,y ( z ) 可以 表示为: 1 y ( z ) = 寻 , 口o = 1 ,q 为实数 ( 1 1 ) 乙间a l z 这里把截面积连续变化的声管近似为p 段短声管的串联,每段短声管的截面 积是不变的。p 称为这个全极点滤波器的阶数。p 值取得越大,模型的传输函数 与声道实际传输函数的吻合程度越高。但是,对大多数实际应用而言,p 值取8 1 2 阶就够了。 在这个模型中,激励源参数和声道模型参数都是随时间变化的。由于发声器 官的惯性使这些参数的变化速度受到限制。对于声道参数,在1 0 3 0 m s 的时间间 隔内,可以认为它们保持不变。对于激励源参数,大部分情况下这一结论也是正 3 第一章绪论 确的。不同人之间激励源和声道的结构都是不同的,这些不同必定会在语音信号 中以种隐含的形式表现如来,基于语音产生模型的语音增强方法中,一个关键 任务就是对语音建模后从语音信号中分析漱这种隐含信息,用于螽续增强处理。 篷蒲 矮翠 声f i j 声fj 脉冲脉冲 发生 攘墼 器 g f z 疹遂参数 o 图1 2 语音信譬发生的离散时域模鍪 语音波形 信号x 九 3 3 语音特性 语音信号是一种非平稳的随机傣号,同时也可以看俸是一种短时的平稳的随 机信号。这是因为人类发声过程的变化速度是有一定的限度,一般在短时间内 ( 1 0 3 0 m s ) 入的声带与声道的形状有相对的稳定性,在这段时间里认为语音是物 理特性与频谱特性近似不变的。语音的短时特性是谮音信号分析和处理的基础, 利用这一特性就可以应用平稳随机过程来分析与处理语音信号。 作为一个随机过程,语音信号可以利用许多统计分析特征进行分析。但由于 语音信号非平稳、非遍历,因此长时间时域统计特性对语音增强算法的意义不大。 语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,才近似其 有高额分布。在高斯模型的假设中,认为傅里叶展开系数是独立的高斯随机变量, 均值为o ,而方差是时变的。在有限帧长时这种高斯模型只是一种近似的描述, 可以作为分析的前提在宽带噪声污染的带噪语音增强中应用l l l 。 由于语音信号昀准平稳特性,语音信号处理算法都建立在描短时基础上。 因此语音信号常被分段或分帧来处理。在处理时,按帧取数据,处理完后再取下 一帧。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为o 3 ,4 , 图1 3 给出帧移与帧长的关系。这样做的好处是:在语音短时平稳允许的时间闻 隔内,增加可处理帧数,可减少语音分帧处理造成的不连续性。 4 第一章绪论 第k 帧 卜- - - - - _ 一 第( k + 1 ) 帧 卜一 第( k + 2 ) 哦 帧移帧长 k 叶壬刊 图1 3 帧长与帧移 一帧语音信号x ( 刀) 还要经过加窗处理,形成加窗语音 ( 胛) = x ( 疗) w ( 行) ( 1 2 ) 在语音信号的数字处理中,常用的窗函数有矩形窗和汉明( h a m m i n g ) 窗,其 表达式如下 矩形窗: w c 厶= 怯葛瓣d m3 , 汉明窗: w :p + o 4 6 c o s c 暑斗) ,删, 礼4 , io , 疗为其他值 其中为窗长。 1 3 4 噪声特性 噪声通常可以定义为通信、测量以及其他信号处理过程中的无用信号成分。 由于噪声来源于实际的应用环境,因而其特性变化无穷。根据与输入语音信号的 关系,噪声可分为加性噪声和非加性噪声。考虑到加性噪声更普遍且易于分析问 题,并且对于某些非加性噪声,可以通过变换转变为加性噪声。因此,为简化讨 论,本文主要分析加性噪声的干扰。加性噪声通常分为周期性噪声、冲激噪声、 宽带噪声和语音干扰噪声等。 ( 1 ) 周期性噪声 周期性噪声主要来源于发动机等周期运转的机械。其特点是频谱上有许多离 散的线谱,实际信号受多种因素的影响,线谱分量通常转变为窄带谱结构,而且 这些窄带谱都是时变的,位置也不固定。必须采用自适应滤波的方法才能有效地 区分这些噪声分量, 5 第一章绪论 ( 2 ) 脉冲噪声 脉冲噪声主要来源于爆炸、撞击、放电及突发性干扰。其特征是时闻上的宽 度很窄。消除脉冲噪声通常在时域内进行,其过程如下:根据根据带噪语音信号 幅度的平均值确定闽值,当信号幅度超过这一阈值时判为脉冲噪声,然后对信号 进行适当的衰减,就可消除噪声分量。 ( 3 ) 宽带噪声 宽带噪声的来源很多,热噪声、气流噪声及各种随机噪声源,量化噪声都可 视为宽带噪声。宽带噪声与语音信号在时域和频域上完全重叠,只有在无声期间, 噪声分量才单独存在。因面消除这种噪声比较困难。对于平稳的高斯噪声,通常 可以认为是高斯白噪声。 ( 4 ) 同声道语音干扰 在实际生活中经常会遇到多入同时说话嚣情况,此时不需要的语音就形成了 同声道干扰。区别干扰噪声和有用语音的基本方法是利用它们的基音差别。考虑 到一般情况下两种语音的基音不同也不成整数倍,这样可以用梳状滤波器提取基 音的备次谐波,再恢复出有甩信号。 1 3 5 入耳听觉感知特性 语音感知对语音增强研究有重要作用。这是因为语音增强效果的最终度量是 人的主观感受。入耳对背景噪声蠢着惊人的抑制功能,了解其中机理将大大有助 于语裔增强技术的发展。 人的听觉系统具有复杂的功能。实践证明,语音虽然客观存在,但是人的主 观感懿( 听觉) 和客观实际( 语音波形) 并不完全致。任何复杂的声音对于入耳的 感觉,都可以震响度、音调和音色三个特性来描述。其中晌度是入耳对声音轻或 重的主观反应,它取决于声音的幅度,主要是声压的函数,与频率和波形也有关。 音调是人耳对声音频率的感受。音调与声音的频率有关,频率高的声音听起来感 觉它的音调“高”,磊频率低的声音听起来感觉它的音调“低。僵音调与声音 频率并不成正比,它还与声音的强度及波形有关。音色是由于波形和泛音不同而 造成的声音属性,人据此在主观感觉上区别具有相同响度和音调的两个声音。音 色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音, 囡丽每个声音具有各自不同的音色。 语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个 复杂的问题,有待进一步研究。尽管如此,目前已有一些有用的结论可以应用于 语音增强吲 ( 1 ) 入耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量 的相位则不敏感。 暴 纂一搴绪论 2 ) 入耳对频落分量强度的感受是频率与能艇谱的二元黼数,响度与频谱幅 度熬对数袁正比。 3 入耳对灏率离低懿感受溉戗与该颡霉鹣对数值藏莲魄。 似) 人耳有掩蔽效应,即强信号对弱信号宥掩盖的抑制作用。掩蔽的程度是 声音强度与频率的= 元函数。对频率临近分量的掩蔽要比频麓大的分量有效撂多。 5 ) 篱霹誊孛翡共摄蜂薅语誊辫感舞卡分羹耍,特裂是第二荚振蜂澈第一共 振峰鼹为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 ( 6 ) 入耳在两人以上的讲话环蟪中有能力分辨出需要聆昕的声音。这种分辨 糍力寒源予入戆霰茸输入效应,称淹筇鸡尾滔会效应努。 1 。3 6 带噪语音储号模型 实际应黑环境中的噪声,其褥多样性。噪声可以是加性的,也可以魁嚣加性 羲。考虑裂熬牲嗓声更普速量蓊予努褥,霹予有些菲蠡毪嗓声,爵获蘧避变换转 变为棚性噪声。豳此,为简化讨论,本文主簧研究加性噪声干扰。 带噪语音( 模型风图1 4 ) 可以波示为: 罗羚) = 薹撵毋癣 量。s 这整x ( 聆) 和矗( 理) 分别代表纯净谶膏和干扰噪黟。 耀 + 毒繁嗓语音模鍪 1 。4 语音增强质壁评价 消除噪声是谮警增强算法黪主要量酶之一,信嗓毖i | :姒鹬的提嵩就嶷然嚣然 逆裁为鬻量囊音增强系统往笺黧燕耍准囊。题鏊褥注意懿是,天是语誊髂弩戆最 终接蹙者,人的昕觉系统最后负潇来处理语音信号,因而倍噪比并不一定怒最合 适的准则。因为每个人对语音质爨、语音的可隧度都有不劂的理解,而这类对处 理过魏逶音蔫号簸佟鹤主褒译徐楚不窑曩量傀拣。经过磷究太员豇十年瓣努力, 目前融经有了好凡种对语音质量釉可懂度进行评价的有效手段,大致上可以分为 客观评价和主观评价两种。 毒, 主臻译徐 ( 1 ) m o s 评分( 汀u 标准) f 4 】f 5 j 7 第一章绪论 m o s 评分采用五级评分制,即将重建语音质量分为优( 5 分) 、良( 4 分) ,中( 3 分) ,差( 2 分) 及坏( 1 分) 共5 个等级测验( 表1 1 ) 。 m o s 得分法的优点是:由于编码系统的质量是按数值大小等级排列,所以 不同失真类型系统就可以相互比较;评测者只需实现进行简单训练,就可直接参 与评测,因而容易完 m o s 得分法的缺点是:它把不同种类的失真混为一谈,没有指出失真的原 因,不改进。测试条件的选择及其他一些因素会影响m o s 方法的结果。费时费 力,不宜实施,不可重复性。 表1 1m o s 评分五级标准 m o s 判分质量级别失真级别 5 优不觉察 4 良 刚有觉察 3 由 有觉察且稍觉可厌 2 差明显觉察,可厌仍可忍受 l坏 不可忍受 ( 2 ) 诊断韵字测试 判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使 用若干对( 通常是9 6 对) 同韵母进行测试。让受试者每次听到一对韵字中的某个音, 然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是d r t 得分,通常认为d r t 为9 5 以上时清晰度为优,8 5 9 4 为良,7 5 - 8 4 为中, 6 5 7 5 为差而6 5 以下为不可接受。在实际通话中,清晰度为5 0 时,整句的 可懂度大约为8 0 ,这是因为整句中具有较高的冗余度,即使个别字听不清楚, 人们也能理解整句话的意思。当清晰度为9 0 时,整句话的可懂度已接近1 0 0 。 1 4 2 客观评价 ( 1 ) 信噪比s n r 和分段信噪比s e g s n r 【6 】 s n r 是衡量针对宽带噪声失真的语音增强算的常规方法。假设y ( ,1 ) 表示带 噪信号,x ( 肘) 表示其中的纯净语音信号,量) 表示相对应的增强信号,经典形式 的信噪比定义为: y x 2 ( 胛) 8 洲删0 9 1 0 面杀丽 第一章绪论 在上式中可以看出,要计算信噪比必需知道纯净语音信号,但在实际应用中 这是不町能的。因此,上述方法主要用于纯净语音信号和噪声信号都是己知的算 法的仿真中。 经典信噪比只能给出一个大致的信噪比。由于语音信号是一种缓慢变化的短 时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题, 可以采用分段信噪比。它的定义如下: 距g 洲= 嚣萋唱。 一卜n 7 , ,= 0 lrj d l,1 一,、 【x ( 肌三+ z ) 一曼( 砒+ f ) 】2l 其中,m 表示语音帧数,是语音帧长度,以表示语音帧的开始点。为了克服 计算出来的信噪比过高或者过低,对于每帧计算出来的信噪比设定高低门限,分 别为3 5 d b 和o d b 。分段信噪比s e g s n r 是时域测度方法中最常用的评价方法, 与主观评价的相关度有所提高。 ( 2 ) 对数谱测度l s d l 6 j 频域失真测度也叫谱失真测度,这些测度与时域测度相比性能更可靠,对信 号时间同步要求也不高。若测度计算的结果值越小,则说明失真语音和原始语音 越接近,即语音质量越好。其中最常用的方法为对数谱失真测度l s d 。 l s d 计算如下: 肋:击芝 志篝 1 0 l o 钆眦f ) i - 1 0 l 。g l o i 船棚叶( 1 8 ) 脚。玄丢 南荟 1 0 l o 钆陋 ,f ) i - 1 0 1 0 9 旧i 氟豇di q 8 ) 其中x ( 七,f ) 和又( 后,) 分别为干净语音和增强语音的短时傅立叶变换,为帧长, m 为帧数。一般l s d 值越小,其对数谱的失真度越小。 ( 3 ) 语音感知质量评价p e s q f j 语音感知质量评价p e s q 是国际电信联盟i t u t 的p 8 6 2 建议的算法,它是 最新评价主观语音质量的客观工具。该算法将话音的频率、响度等物理特性与人 类心理上的感知特性的对应关系用数学模型来表示,即用客观数学模型的评价来 模拟主观的评价。该算法( 图1 5 ) 采用时频映射、频率弯折和响度弯折等方法,尽 可能将语音中可以感知的特性在数学上完美的表达。 在p e s q 模型中,提取出的语音特征都是与主观感觉直接相关的,输入语音 和通过设备、网络或系统后的输出语音的任何“非感觉”的差别都不会对语音质 量评价产生影响。所以p e s q 是一种主客观相关性较高的音质客观评价方法。 p e s q 采用线性评分制度,以一0 5 4 5 之间的数值表示被测语音与参考语音相比 语音质量的高低。输出语音质量越接近输入语音,则分数越接近4 5 ,否则评分 第一章嫱论 越 氐。基予该模型的评分结果与m o s 主观详分的相关度离达o 。9 3 5 ,而麒鼹者近 耘裁装性关系,镤差方鸯一羧,爵宠整霎鬻强。运鬻认为,碡分羹醚0 s 分数与 3 7 * 3 9 的p e s q 分数的语音质裁榴当。 语音 m o s 豳1 5 p e s q 黯构框匿 。s 本文主要研究工 乍和结掏安排 本文主要研究基于听觉感知的语音增强算法。立足予躐踪国蠹外的颛技术, 设汁实时实用的增强方法。增强过程不以单纯提高信噪比为目标,同时提高语音 静爵 蒺庭、舒适度,爨诞语音失真小黧无“音乐臻声。 主要霹竞工佟如下: ( 1 ) 广泛地参阅了国内外相关文献,了解语音增强技术背景与常用方法。 2 ) 模型参数估计的准确性对整个卡尔曼语音增强起藩至关重要的作用,深 入缝辑宠蠢祷程噪声珲凌下提取声遭摸墼参数,霹线注豫测系装。为了受好纂获 带嗓语音中直接提取线性预测系数,使褥卡尔曼滤波模型建立更加准确,本文给 出种基于分予带进行谱相减的线性预测熊数提取方法。 3 针对黄统予空霾方法巾,采露语音渣动裣溺v 螽) 镳诗臻声麴缺隧,绘 毒一稃基于子空闯域噪声祷挺傻估计酶语眷增强方法。该方法不需要聪分有声段 和无声段,能够憩加准确的威映当前时刻的噪声水平,飘有鲁棒性。 ( 4 ) 豺对卡尔曼语音增强方法增强后的语音,在谱峰估计较准在谱昝估计不 准酌瓣题,给爨释基于羲黉慧翔蘸卡尔曼滤波语音增强方法。该方法能够在不 影响谱峰处听觉效果的前提下提高谱谷处的信噪比,减少可闻噪声,撼高语音听 觉效果。 5 针对予空褥语音霆强方法孛存在麴“鸯瑟嗓声嚣,谗论簧觉掩蒎模型竣 展掩蔽阂值的簿法,研究入耳呀觉感知特性在子空闰语鬻增强中的应用,给出屠 置感知滤波应用予子空间语谢增强的方法。 第一章绪论 本文的组织如下:第二章介绍基于卡尔曼滤波的语音增强。第三章研究纂于 昕蹙感糍酶卡尔曼滤波语音增强。第霆章讨论基于信号予空闻魏语音增强。第五 章研究基于听觉感知的子空闻语音增强。最蔚第六章总结与展望。 ;6 本章奎结 本章简单地阐述了语音增强的研究意义昶应用、发展现状以及基本原理,然 后提出本论文的主蒙工作和结构安排。 第二章基予卡尔曼滤波的语音增强 第二章基于卡尔曼滤波的语音增强 卡尔曼滤波沿音增强方法基于语音的生成模型,它的解是递归计算的,且在 乎稳期j 平稳条件下都保证最小均方误差意义下的最优估计。通过弓l 入卡尔曼新 患,将要解决的滤波与预测的混合闽题转化为纯滤波和纯预测两个独立的问题, 适合于= 平稳噪声干扰下的语音增强。本章主要讨论卡尔曼滤波及其用于语音增 强的方法,在此基础上给出基于卡尔曼滤波的语音增强方法的基本框架。针对噪 声环境下直接计算线性预测系数不准的问题,绘出一种基予分子带进行谱褶减豹 线性预测系数提取方法。 2 。 语音的全极点生成模型 在上一章讨论了语音信号产生的基本数字模型,图2 1 为这个模型的一种特 殊形式。l p c 全极点模型不仅在计算效率上很高,而且应用上很灵活。本文将重 点讨论语音产生的毛p c 全极点模型。 基膏周期 r 周期| l j l ( 冲 发生嚣 毒难窑立兰 l 臻鬻,l 荐强,| 兀 气, 玎,。、一l 卜护 “、- 厂z ) 语音信号 自噪声发j g l 州v 生爨 图2 1 语音的全极点生成模型 激励源为掰( 撵) ,增益因子为g ,全极点滤波器为: ( z ) = 士 ( 2 1 ) 1 一q z 其中夕为阶数, 嘭 为线性预测系数。该模型的生成语音信号为: p x ( 门) = q 工( 刀一f ) 十g 甜( 丹) ( 2 2 ) f 霄t 巍x 嚣) 为清音时,掰嚣) 为宽带噪声;当嚣) 为浊音时,鬈( 露) 为闻隔是基音 周期t 的脉冲串。 1 3 第二章蘑予卡尔曼滤波的语音增强 2 2 卡尔曼滤波语音增强 2 2 。1 卡尔曼滤波 卡尔曼滤波器f 8 1 【9 1 是一个最优化自回归数据处理算法。它利用状态空间方程 描述动态系统,利用观测方程提供对状态的观测信息,并将状态视为抽象空间中 的点,f 铁面利用 i l b e 戎空闻中的射影定理理论) 解决最优状态 吉诗阉题,实现对 时变随机信号的最优线性滤波。对于解决很大部分的问题,它是最优,效率最高 甚至是最有用的。 一个线性随誊a 离敖系统可以闱嚣维状态方程秘磁维测量方程来描述: x ( 露t 1 ) = 么x ( 船) + 矗甜( 栉) + v ( 蹿) ( 2 3 ) y ( ,z ) = ( x ( 门) + d “( 以) 十w ( 阿) 其中矩阵4 ,。,戤。,巴。和绒。,假定为已知的和时不变。输入矢量掰和输 出矢量y 都为可观测的,但是状态矢量x 却是隐藏在系统内部的,必须通过估计 才能得到,而这一点恰恰就是卡尔曼滤波的主要任务之一。臣不相关的离散白噪 声v ( ”) 和w ( 聊) 分别被称为过程噪声和观测噪声,而且它们满足如下的对称正定 游方差阵: c 。v 黑卜 黑 嚣佧p 乏。m 像4 , 卡尔曼滤波通过在每一步迭代中使估计误差协方差阵p ( 嚣) 达到最小来得到 状态矢量工的估计值曼 尸( 斑) = c o v ( 跨) = g 戈( 嚣媾。( ) f 9 五、 季嚣) 一x ( 搬) 一曼( 斑) 先验估计支( 助l 朋一1 ) 是用,z 时刻以前的所有数据得到的x ( 朋) 的最佳估计值, 即= 材( 1 ) ,材( 2 ) ,材( 您一1 ) ,y ( 1 ) ,y ( 2 ) ,y ( 月一1 ) ,而且此时的协方差阵 p ( 强 裾一1 ) 是己知盼。然后在卡尔曼滤波的测量更新过程中通过孳| 入撵时刻翁观 测数据材( 刀) 和y ( 竹) 来得到状态矢最的后验估计量( 门l 疗) 。 定义前向预测误差p ( 玎) = y ( 门) 一多( 丹i 以一1 ) ,其中多( 聆i 以一1 ) 是用,z l 及其之前 的所商观测值,对聆时刻观测到的随机变量罗 羟,称为预测; 若l f 2 】) ( 2 。3 。) 如果噪声不是囱噪声,可以假设它是广义平稳的,并用个g 阶的l p c 模 型来描述,即 d i 辫) = 皇矗( 嚣一f ) + v ( ,) ,= 1 其中,“封) 是白色高斯过程e v ( 以) ) = o ,e “刀) 1 ,( 哟) = , 程的形式 d ( 丹) 。a j d ( 甩一1 ) 十h d v 仍) d ( 聆) = h :d ( 门) 其中,黔( 鳕) = 【蠢( 鼯一g + 1 ) ,露雄一晕+ 2 ) ,露( 嚣) r , a g = ( 2 3 1 ) 把上式写成状态方 ( 2 3 2 ) o10 oi ool 0l i!。 ol ( 2 。3 3 ) o00 l1 一t一: 6 1 j 。 a g 为状态转移矩阵,珏毋= 【oo l 爹为g l 维的的观测矩阵。将式( 2 3 2 ) 与( 2 1 6 ) 和( 2 1 7 ) 合并可写成 酬2 筌( 刀一1 ) 十h u ( ,l ( 2 3 4 ) y ( 船) = h 。i ( 靠) 其中, 鼬,= + 鼢鼬,= 嗍a = 瞄跏舯月泣3 5 , 通过上述推导可以看到在知道噪声的统计特性之后,对予有色噪声也可以用 卡尔曼滤波的方法来得到纯净语音的估计值。 基于卡尔曼滤波的语音增强,结合语音的生成模型,利用观测值不断修正和 调整预测值,通过孳l 入k a l m 瓢新息,将要解决的滤波与预测的混合阍题转化为 纯滤波和纯预测两个独立的问题。其实就是一个在估计值和测量值之间做一个最 优的平滑,也就是说在估计值和测量值之间做一个平滑滤波。如果测量值比较准 确,滤波怎的最优值就会接近这个测量擅;如果 砉计僮比较准确,滤波盾的最貔 值就越接近估计值;两个值都不是很准确,那么就取他们的一个折中。 王9 第二章蒸予卡尔曼滤波的语音增强 2 3 基本框架 圈2 ,3 为卡尔曼语音增强蕊基本框粱,语音经过采撵蜃分愤褥裂,经过参数 佶汁得到语音和嗓酱的参数再经过卡尔曼滤波( k f ) 得到增强后的语音。图2 4 是 图2 3 中的参数估计部分。 上一节已经讨论避卡尔曼滤波理论及其矮予语音增强的潮题。然瑟此处讨论 酶卡尔燕滤波语音增强,所用豁参数是提裁泰知的,仅有带嗓语音可以利爝。因 而在实际系统中,这些参数通常e l j 估计得到。参数估计的精度直接影响最终的增 强效榘。下面将深入讨论如何扶带噪语音中提取尽可能准确地线性预测系数。 图2 3 卡尔曼语音增强的结构框架图2 4 参数估计 为了麸带嗓语音中提取绣髓预测参数,采用基于最小统计的方法估计带噪语 音中的噪声功率谱,再用多子带谱减的方法络含线性预测分析提取语音信号的线 性预测系数。每帧语音的线性预测系数组成卡尔曼滤波算法的状态转移矩阵。 噪声环境下线性预测系数麓 砉计祷采用如下算法: ( 1 ) 带噪语音信号先通过f f t 得到谱估计,带噪语音的功率谱估计可以采用 非参数谱估计方法中的w e l ch 方法( 修正的平均周期图谱估计) ; ( 2 驭带噪语音功率谱中 鑫计得到噪声功率谱。噪声谱估计方法将在2 ,凄节讨 论: ( 3 ) 再应用谱减法则得到初步的干净语裔功率谱估计。谱减方法将在2 5 节讨 论; 4 攘据w i e n e 量逡i 珏t c h i 鹏定理,分别对树步 舌诗的干净功率谱和噪声功率 谱进行i f f t ,得到千净语音的和噪声自相关函数; 第二章基于卡尔曼滤波的语音增强 ( 5 ) 用自相关法求解线性预测系数。 2 4 噪声谱估计 语音增强首先要利用噪声的特性参数。在基于单通道的语音增强方法中,噪 声源楚无法获得的,背景噪声的特性只能从带嗓语音中获雩慧,因此噪声估计就成 为语音增强技术中非常关键的环节。噪声估计的准确性会直接影响最终效果:噪 声估计过高,则微弱的语音将被去掉,增强语音产生较大的失真;噪声估计过低, 则会有较多的背景残留噪声。因此,对噪声估计方法的研究非常必要。在嗓声估 计时通常假设噪声的均僮为零,需要估计的参数就是噪声的方差。噪声的估计方 法很多,总结起来有两类: ( 1 ) 硬判决 对浯音信号进行语音的有声无声捡测o i c ea 幽矗yd 鼬e c 幻筠,v a 伪,分离 出无声段,这时无声段主要表现为噪声特性,然后再通过某种统计方法,即可获 得对背景噪声特性的近似估计。但是在信噪比较低时,v a d 的误检率会增大, 在不能正确判断出无声段的情况下,估计出来的噪声很难保证准确性。 ( 2 ) 软判决 这类方法不用有声无声的检测,无论在有声或无声段都对噪声估计进行更 新。本章介绍的最小统计算法就是一种软判决的噪声参数估计的方法。不仅在非 语音段,丽置在语音段也可以更新噪声功率谱估计,采闫噪声的最小统计僮来代 替当前帧的噪声,从统计意义上逼近真实的噪声能量,能够很好的跟踪噪声能量 的变化。下面将分别对两类噪声估计方法进行讨论。 2 。4 + 基于语音活动检测的噪声谱估计 语音活动检测( 1 l 】。( v a d ) 又称为语音的有声无声检测。随着语音活动检测 研究的深入,各种关于算法检测的算法相继提出。语音活动检测一般要经历以下 步骤f 如图2 5 所示) : ( 1 ) 语音输入及预处理技术。其中包括对抽样语音信号幅度归一化,对语音 进行分帧加窗等操作。 2 ) 参数提取,计算对应信号特征向量孝歹| l 。要检测出语音段和噪声段,必 然要求特征参数熊够反映语音段和噪声段的差鄹。一般来讲,参数越能体现语音 段和噪声段的差别,v a d 的准确性越高。 ( 3 ) 制定判决准则。提取出参数以后,针对各类参数必须设置判决准则判断 语音,这样才能实现端点检测。在实际瘟震中,般以设置参数门限值来作为判 2 l 第二章基于卡尔曼滤波的语音增强 决准则。门限的设置比较重要,因为设置的合理与否在很大程度上影响算法的准 确性。 ( 4 ) 判定端点。整个语音信号的端点检测一般分为四个状态,即静音状态, 过渡状态,语音状态,当前语音结束状态。现实系统中只有综合考虑上述状态转 化关系,采用一定的判决准则得出结果。 ( 5 ) 利用有效的h a n g o v e r 算法对判决结果进行后处理,最终输出准确v a d 检测结果。后处理目的是为了避免把发声过程中出现的自然停顿当作背景噪声, 同时有效的对字间进行间隙光滑,消除字间间隙对端点检测可能造成的误判。 语音输入 上 图2 5 语音端点检测一般流程图 从实用性、易实现性等方面考虑,大部分v a d 算法都是建立在相对理想的 实验室条件下的,要求背景噪声保持平稳,信噪比较高,而且需要一定的训练算 法以预先得到背景噪声及语音的统计信息。在实际工作中,这些条件很难得到满 足,而且经常会遇到信噪比较低,背景噪声缓慢变化的情况,也不可能预先得到 背景噪声或语音的统计信息。 2 。4 2 基于最小值统计跟踪的噪声谱估计 如前所述,利用v a d 将信号区分为有声段和无声段后,噪声的估计可以通 过对无声段的噪声方差求统计平均获得。这种传统的基于v a d 的噪声估计方法 具有简单、易实现的优点。但是实验证明,v a d 在低信噪比的情况下对噪声特 性的精确估计有很大的缺陷。 一方面,v a d 主要利用带噪信号的能量统计特性和语音信号的一些其他特 征,当噪声的能量统计特性发生变化时,需要v a d 检测到新的噪声样本来更新。 而在实际环境中,更多为非平稳噪声情况,因此,依靠v a d 方法很难实时跟踪 噪声的变化; 另一方面,在信噪比较低的情况下,实时搜索带噪信号中的无声段也变得非 常困难,用v a d 方法会导致噪声估计很不准确,从而产生音乐噪声和语音失真。 2 2 第二章萋于卡尔曼滤波的语音增强 阏此,我们需要一种更加准确和鲁棒的噪声估计算法,不依赖于v a d 的性 簏。熊够在整个信号期间实现噪声的连续估计和不断更毅。 基于最小值统计跟踪的噪声谱估计【1 4 】 2 0 l 是专门用于单通道语音增强系统的 连续更新噪声功率谱的估计方法。不需要语音的有声无声判决,噪声谱在所有 的帧中连续的更新,并不关心本帧是语音帧还是噪声帧,对每一帧都重新计算其 噪声功率谱。 本文将介绍r a i nm a n i n l 9 9 4 年提出并予2 0 0 1 年改进的基于最优平滑和最小 值统计跟踪的噪声功率谱估计算法。这种算法跟踪每一个频点带噪语音功率谱的 最小德,不需对语音信号进行有声7 无声检测( 秘。最小僮统计跟踪算法立足予 下面两个约束条件: ( 1 ) 语音与噪声在统计意义上统计相互独立。这样就可以认为带噪语音功率 谱是干净语音功率谱和噪声功率谱的叠加,即满足功率谱叠加原理。那么,求出 噪声功率谱,再由带嗓语音的功率谱和谱减的原理得到干净信号酶功率谱。 ( 2 ) 在语音停顿阶段或在字与字、音素与音素之间,有效语音信号的能量为 零,带噪语音功率谱近似的就是噪声功率谱。 设带嗓语音僖号为灭嚣) ,它蠢干净语音与嗓声相加而成,y ( 辩) = x ( 拜) + 曩( 摆) , 这里朋代表采样点序号。进一步假设z ( 疗) 与研) 是统计独立的并各自都是零均 值的。 经过变换得到y 仍) 的功率谱,先用一个最优平滑滤波器对带噪语音的功率谱 滤波,经过平滑的带嗓语音功率谱记为尹( 五,动,对p ( 五耄) 进行适当的偏差估计, 在每帧a 和每个频点后,用一个偏差补偿因予缘;。( 兄,七) 乘以经过最优平滑滤波的 带噪语啻功率谱p ( 五,足) 就可以得到的噪声功率谱的一个粗略估计毋:( 五,七) : 毋丢( 名,走) = 置。i 。( 五,惫) 夕( 磊,竞) ( 2 3 国 然后在一定时间窗内,用最小值统计跟踪方法,找出经过最优平滑及偏差补 偿的带噪语音谱中的的最小值,即得到所要估计的噪声的功率谱。 2 4 2 1 最优平滑 要从带噪语音功率谱中跟踪最小值作为噪声功率谱,酋先需要对其进行适当 的平滑。如果不平滑就去跟踪带嗓语音功率谱的的最小值,殛然这时候跟踪的最 小值没有任何意义。因为噪声也是个随机信号,它在任何时候都可以很小。另外, 平滑也要有个度。噪声段可以平滑,但是在有语音段就尽量不要平滑,若平滑了 显然也会丢失语音信息,这个就是一个最优平滑的问题,这可以通过计算带噪语 音信噪音毖实现。 第二章基于卡尔曼滤波的语音增强 在平滑时先对带噪语音信号j ,( ,z ) 加窗,将信号分成长度为个采样点的帧信 号,帧间蕈叠为只点,再对帧信号进行f f t 变换,得到了频域的信号 】,( 兄,七) = y ( 旯尺+ ) 西( ) e 一。2 ”。儿 ( 2 3 7 ) 。 f ,= o 这里五为帧标号,后为频率点的标号,五z ,七 0 ,l ,2 ,三一1 。j f 2 ( ) 是一个 窗序列。 平滑过程如下: p ( 互,后) = 口( 旯,七) p ( 兄一1 ,七) + ( 1 一口( 允,后) ) ly ( 旯,后) 1 2 ( 2 3 8 ) 根据条件均方误差最小准则,得到最优平滑系数: 口叩f ( 允,七) 2 了i i 万i f = _ f 万旁;吾丽 q 3 9 在实际的运用中,最优估计式中的盯;( 见,后) 用前帧的噪声估计值盯言( a 一1 ,七) 代替。令歹( 旯,忌) = 尸( 兄一1 ,七) 仃j ( 力,尼) ,歹( 彳,j i ) 可以看成后验信噪比厂( 五,七) 的平 滑, y ( a ,七) = i 】,( 五一1 ,七) 1 2 仃三( 五,七) ( 2 4 0 ) 当语音停顿的时候,歹( 见,七) 专1 ,由平滑系数计算式得出口掣( 旯,后) 哼1 ,那 么p ( 五,七) 会因为l 一口叩,( 兄,忌) 过小出现死锁的现象。所以应将最优系数口叫( 五,j | ) 设 置一个最大值口懈来避免死锁( 实验中发现= o 9 6 取得比较好的效果) 。同样, 当语音非停顿的时候,歹( 名,七) 会比较大,口叫( 见,七) 一0 ,这样估计值尸( 旯,忌) 就过 于接近ly ( 五,七) 1 2 。口叩,( 兄,露) 应该限制一个最小值。在非平稳噪声环境下为了 提高语音的平滑效果,。取值不能太小。为了保持语音信息,语音段尽量不要 平滑,。取值又不能太大,同样经过试验发现。取o 0 4 较好。a 啊( z ,七) 可以 重新写成: 口叫c 旯,七,= m a x ( 口。衲,:i l ;n ( 口”“l + ( 尸( a l ,七) 盯三( 允一l ,七) 一1 ) 2 1 、1 ( 2 4 1 ) ) 1 实际上,我们估计的噪声功率谱会比当前的噪声功率谱有一个跟踪延迟,那 么用前帧估计的噪声功率谱仃:( 兄一l ,七) 作为当前的噪声功率谱盯j ( 名,七) 又有一 个延迟,这也会影响到平滑因子口( a ,七) 。因此,我们要能够监视到功率谱估计 尸( 五,七) 的跟踪错误,即要当烈五,七) 过于接近1 的时候,要对它进行修正,使得它 自动降下来。 接下来,定义一个软判决: 2 4 第二章基于卡尔曼滤波的语音增强 舀。( 五) = 1 丁毛r 一 ( 2 4 2 ) l + ( 尸( 元一l ,意) ll ,( 元,七) 1 2 一1 ) 2 其值要大于o 7 ,我们再对它进行平滑( 所采用的平滑因子( o 3 ,o 7 ) 是经验值) ,得 到: 敛( 彳) = 0 7 吒( 兄一1 ) + 0 3 m a x ( 西( 兄) ,0 7 ) ( 2 4 3 ) 最后对式( 2 3 9 ) 作出修正: 刚= 而若蒜 眨4 4 , 利用式( 2 3 8 ) 和式( 2 4 4 ) 得到带噪语音的平滑功率谱尸( 旯,七) 。 2 4 2 2 偏差补偿 前面我们得到了带噪语音的平滑功率谱,要从中获得噪声功率谱的初步估计, 这里引入变量 嘶郴删旧啪。和( 埘1 鬻( 2 4 5 ) 在每帧力和每个频点七,用这个偏差补偿因子( 五,七) 乘以尸( 五,j | ) 就可以 得到我们要估计的噪声功率谱彦丢( 五,七) , 矛j ( 五,后) = 氏i 。( 五,七) 尸( 兄,七) ( 2 4 6 ) 偏差补偿因子: 其中, 玩i 。( 兄,七) :1 + ( 丁一1 ) :上 ( 2 4 7 ) ( 名,后) 屯,= 磐等等 眨4 8 , m ( r ) 是关于搜索窗窗长丁的函数,其值可以通过线形插值函数求出,也可以通 过查表得到。 规一化方差1 9 。( 彳,七) 的近似计算为: 赤未罴搿叫 2 ( 2 4 9 ) 一一 ij一ki(2l z q 苫j q 。( a ,七)2 彦:( 五一1 ,七) 叼、7 其中品 p ( 五,七) ) 为p ( 力,后) 的方差估计, 第二耄蒸于卡尔曼滤波的语音增强 v a r p ( 冀,露) = 尸2 ( 盖,七) 一p 2 ( 五,老) 2 。5 0 ) p ( 五矗) 为互 r 五,七) ) 的一阶平滑估计: p ( 五,后) = ( 尢后) 尸( 五一1 ,七) + ( 1 一( 名,七) ) 尸( a ,j ) ( 2 5 1 ) p :名囊) 为联( 戈,老) ;的一阶平滑估计, j p 2 ( 五,七) = 声( 五,七) 尸2 ( 五一i ,七) + ( 1 一( 五,豇) ) p 2 ( 五,七) ( 2 5 2 ) ( 无意) 取为& ( 五,七) 2 ,且( 名,尼) o 8 。 方言( 戈,囊) = 玩讯( 名,蠡) 尹( 名,夤) ( 2 。5 3 ) 对于非平稳噪声,在噪声功率谱处于上升阶段的时候,求出的补偿因子还是 会出现欠估计的情况,通过实验得到民i 。( 名,七) 的值一般处在1 1 到1 2 之间,所以 乘以一个大于l 的偏差纠正因子譬( 蠢) 修歪这时的欠估计 鼠( z ) = l + 口,q 卅( 五) ( 2 5 4 ) 其中,瓯= 2 1 2 , 苏加兑:尼。 ( 2 5 5 ) 在对于平稳噪声,埕
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 去年福州一检数学试卷
- 海宁市许村镇中心幼儿园招聘考试真题2024
- 青岛初二数学试卷
- 浦北县中考数学试卷
- 沿河土家族自治县选调教研员考试真题2024
- 莆田市高三二模数学试卷
- 平潭小升初数学试卷
- 期末季数学试卷
- 濮阳高三一模数学试卷
- 2025山西中医药大学第二批招聘博士研究生25人笔试备考试题及答案解析
- CJ/T 94-2005饮用净水水质标准
- 2025-2030系统级芯片(SoC)测试机产业市场深度调研及前景趋势与投资研究报告
- 《化工和危化品生产经营单位重大生产安全事故隐患判定标准(细化版)》知识培训
- 2025年汉防己甲素项目市场调查研究报告
- (2025)发展对象考试题(附答案)
- 驿站快递合同协议书
- 《新型主动脉夹层护理策略》课件
- 石油合作协议合同协议
- 2025年人教版小学五年级下册奥林匹克数学竞赛试卷(附参考答案)
- T∕CACM 1099-2018 中医治未病技术操作规范 隔药灸干预原发性痛经
- 《箱式快装建筑设计、施工、验收规程》
评论
0/150
提交评论