(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf_第1页
(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf_第2页
(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf_第3页
(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf_第4页
(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(通信与信息系统专业论文)语音增强算法的研究与实现(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y 6 8 9 0 3 2 摘要 语音增强技术是语音处理的一个重要技术, 多年来学者们不懈努力, 寻求各 种优良的语音增强算法。 语音增强算法虽然有许多种, 但目 标都是为了 增强语音的 清晰度与理解度, 这两个目 标并不是相关联的, 在有时甚至是矛盾, 因此任何一个语音增强系统都 是根据不同的应用做适当的折衷。 本文将研究与设计一种能自 动跟踪噪声并能得 到良 好语音清晰度的语音增强系统。 一个完整的语音增强系统包括几个必要过程。 前期需要对噪声进行估计, 将 所得噪声估计应用于合适的去噪算法中,这个去噪算法是整个系统的核心部分。 最后根据不同增强系统的 要求对所得的结果进行后期处理。 一般的噪声估计是对噪声的方差进行估计, 所估计的方差的准确性将对后续 的处理有重大的影响。 本文着重对最小值跟踪法的噪声估计做了详细的研究, 通 过实验仿真对其估计效果进行评价。 最终以最小值跟踪算法作为设计的语音增强 系统的噪声估计部分。 在 去 噪 算 法 上 本 文 重 点 比 较了 谱 相 减 法 、 l o g s t s a - m m s e 与 子 空 间 方 法。 综合比 较了 各自 的增强 信噪比 和主观感受, l o g s t s a - m ms e 算法的增强性能 最 佳,并将其作为整个系统的主要去噪算法。 在后期的处理中,本文主要是为了提高语音的清晰度, 要求语音失真要小, 并要减少“ 音乐噪声” 对主观听觉的不良 影响。 本文在后处理中 将人耳的掩蔽效 应引 入增强系统中, 最终试验表明 掩蔽效应增加了 语音的 清晰度, 提高了 舒适度。 【 关 键 字扮 语 音 增 强 , 噪 声 估 计, l o g s t s a - m m s e , 子 空 间 , 掩 蔽 效 应 a b s t r a c t s p e e c h e n h a n c e m e n t i s a n i m p o r ta n t t e c h n o l o g y o f s p e e c h s i g n a l p r o c e s s i n g . f o r m a n y y e a r s m a n y p r o g r e s s e s h a v e b e e n m a d e i n t h i s f i e l d t o f i n d g o o d m e t h o d s f o r s p e e c h e n h a n c e m e n t . a l t h o u g h t h e r e a r e v a r i o u s m e t h o d s f o r s p e e c h e n h a n c e m e n t , t h e p r i n c i p a l p e r c e p t u a l c r i t e r i a f o r m e a s u r i n g t h e p e r f o r m a n c e o f a s p e e c h e n h a n c e m e n t s y s t e m a r e s p e e c h q u a l i t y a n d i n t e l l i g i b i li t y . t h e t w o p e r f o r m a n c e m e a s u r e s a r e n o t c o r r e l a t e d a n d s o m e t i m e s c o n fl i c t i n g . a g o o d s p e e c h e n h a n c e m e n t s y s t e m i s a c o m p r o m i s e b e t w e e n t w o m e a s u r e s a c c o r d i n g t o t h e r e q u i r e m e n t . i n th i s t h e s i s , a h i g h q u a li ty s p e e c h e n h a n c e m e n t w i t h a u t o n o i s e e s t i m a t i o n i s p r e s e n t e d . a c o m p l e t e s p e e c h e n h a n c e m e n t s y s t e m h a s th r e e c o m p o n e n t s : a n o i s e e s t i m a t o r w h i c h i s u s e d t o t r a c e n o i s e e s t i m a t i o n , a n o i s e r e d u c t i o n a l g o r i t h m w h i c h i s t h e c r u c i a l p a rt i n t h e s y s t e m a n d a p o s t p r o c e s s o r w h i c h i s n e c e s s a r y i f s p e c i f i c d e s i g n i s r e q u i r e d . g e n e r a l l y s p e a k i n g , a n o i s e e s t i m a t i o n a l g o r i t h m i s a n o i s e v a r i a n c e e s t i m a t o r . t h e a c c u r a c y o f n o i s e v a r i a n c e e s t i m a t i o n w i l l a ff e c t n e x t p r o c e s s . a n o i s e e s t i m a t i o n b a s e d o n m i n i m u m s t a t i s t i c s i s d e e p l y s t u d i e d i n t h i s t h e s i s . t h e e v a l u a ti o n o f t h e m e th o d i s g i v e n a f t e r a s i m u l a ti o n e x p e r i m e n t . t h e s p e e c h e n h a n c e m e n t s y s t e m o f t h i s t h e s i s w i l l a d o p t t h e n o i s e e s t i m a t o r b a s e d o n m i n i m u m s t a t i s ti c s . t h e c o m p a r i s o n o f t h r e e s m e t h o d s , s p e c t r a l s u b t r a c ti o n , l o g s t s a - mms e a n d s u b s p a c e a p p r o a c h , i s t h e m a j o r w o r k i n r e s e a r c h i n g t h e n o i s e r e d u c ti o n a l g o r i t h m . t h e l o g s t s a - mms e m e t h o d i s t h e b e s t o n e o f t h e t h r e e m e t h o d s a f t e r m a k i n g a c o m p r e h e n s i v e s u r v e y o f i n c r e a s i n g s n r a n d a u d i t o r y p e r c e p ti o n . l o g s t s a - mms e i s c h o s e i n t h e s p e e c h e n h a n c e m e n t s y s t e m o f t h i s t h e s i s . t h e g o a l i n p o s t p r o c e s s i n g i n t h e t h e s i s i s t o i m p r o v e q u a l i ty o f s p e e c h , r e d u c e d i s t o r t i o n o f t h e s p e e c h a n d d e c r e a s e t h e e ff e c t o f m u s i c a l n o i s e . t h e m a s k i n g e ff e c t i s u s e d i n p o s t p r o c e s s i n g , e x p e r i m e n t r e s u l t s s h o w t h a t s p e e c h q u a li t y i s i m p r o v e d a f t e r p o s t p roc e s s . k e y w o r d s : s p e e c h e n h a n c e m e n t , m e t h o d , m a s k i n g e ff e c t . n o i s e e s ti m a ti o n , l o g s t s a - mms e , s u b s p a c e 浙江大学硕士论文 第一章绪论 1 . 1 引言 语音是现代信息时代重要的 信息交互手段。 随 着语音通讯所处环境的不断 扩 展, 对话音质量的要求不断的 提高, 越来越需要对语音进行增强处理以 达到人们 需求的目 标。 在这种情况下, 语音增强的目 标是从带噪声的语音信号中提取尽可 能纯净的原始语音, 抑制背景环境噪声, 提高语音的质量并提高听者的舒适度, 使听者不感觉疲劳。 另外语音识别正进入实用阶段, 语音识别的应用也不断扩大, 而语音识别中抗噪声千扰是提高语音识别率的一个重要环节。 这时语音增强的目 的 关 键是 加强 语 音识 别 特征, 使语 音易 于识别。 语音增强是一门涉及面很广的交叉学科, 它不但与语音信号数字处理理论有 关, 而且涉及到模式识别、数理统计、 神经生理学和语音学学科。 此外, 语音增 强所要面临的噪声来源也可能众多, 常见的如街道、 机场、 工厂车间、 人声嘈杂 的公共场合等。 因此, 人们在研究语音增强的方法时一般是从语音特点、 人耳的 感知特性和噪声特点等几方面入手。 1 . 2 语音的 特点 语音信号是一种非平稳的随机信号, 同时也可以 看作是一种短时的平稳的随 机信号。 这是因 为人 类发声 过 程的 变 化速度是有一 定的限 度, 一般在 短时间内( 1 0 -3 0 m s ) 人的声带与声道的形状有相对的稳定性, 在这段时间里认为语音是物理 特性与频谱特性近似不变的。 语音的短时特性是语音信号分析和处理的基础, 利 用这一特性就可以应用平稳随机过程来分析与处理语音信号。 任何语音都包含元音与辅音两种音素, 辅音根据声带是否振动又可分为清辅 音与浊辅音两种。 浊辅音在时域上呈现出明 显的周期性和较强的振幅, 在频域上 有共振峰结构, 而且能量大部分集中在较低频段内。 清辅音则完全不同, 它没有 明 显的时 域和频域特征, 类似于白 噪声并振幅较弱。 语音增强中 可以 利用浊音具 有明显的 周期性来区别和抑制非语音噪声, 而清辅音的特性则难与宽带噪声区 分。 根据中心极限定理, 傅里叶展开系数被认为是独立的高斯随机变量、均值为 零, 而方差是时变的。 这种高斯模型应用于有限帧长时只是一种近似的描述, 在 宽带噪声 污染的 带噪语音的语音增强中, 这种假设可做为分析的前提。 浙江大学硕士论文 1 . 3 人耳的感知特性 语音感知对语音增强研究有重要作用。 这是因为语音增强效果的 最终度量是 人的主观感受。 人耳对背景噪声青凉 人的抑制功能, 了 解其中 机理将大大有助于 语音增强技术的发展。 人的听觉系统具有复杂的功能。实践证明,语音虽然客观存在,但是人的主 观感觉 ( 听觉) 和客观实际 ( 语音波形) 并不完全一致。 任何复杂的声音对于人 耳的 感觉, 都可以 用响度、 音调和音色三个特性来描述。 其中响度是人耳对声音 轻或重的主观反应, 它取决于声音的幅度, 主要是声压的函数, 但与频率和波形 也有关。 音调是人耳对声音频率的感受。 音调与声音的 频率有关, 频率高的声音 听起来感觉它的音调“ 高” , 而频率低的声音听起来感觉它的音调“ 低” 。 但音调 与声音频率并不成正比, 它还与声音的强度及波形有关。 音色是由于波形和泛音 不同 而造成的声音属性, 人据此在主观感觉上区别具有相同响度和音调的两个声 音。 音色是由 混入基音的泛音所决定的, 每个基音有其固有的频率和不同 音强的 泛音,因而每个声音具有各自 不同的音色。 语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个 复杂的问 题, 有待进一步研究。 尽管如此,目 前己 有一些有用的结论可以应用于 语音增强: ( 1 ) 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量的 相位则不敏感。 (2) 人耳对频谱分量强度的感受是频率与能量谱的二元函数,响 度与频谱幅度 的对数成正比。 c 3 ) 人耳对频率高低的感受近似与该频率的对数值成正比 c 4 )人耳有掩蔽效应即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音 强度与频率的二元函数。 对频率临近分量的掩蔽要比频差大的分量有效得多。 c s ) 短时谱中的共振峰对语音的感知十分重要, 特别是第二共振峰比 第一共振 峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。 c 6 ) 人耳在两人以 上的讲话环境中有能力分辨出需要聆听的声音。 浙江大学硕士论文 1 . 4 噪声的特点 噪声可以是加性的,也可以是非加性的。 对于非加性噪声,有些可以 通过 变换而转变为加性噪声。 这里仅讨论加性噪声。 加性噪声大致有: 周期噪声、脉 冲噪声、宽带噪声和同声道其他语音干扰。 ( 1 ) 周期性噪声。 它的 特点是在频域上具有许多离散的线谱。 周期性噪声主要 来源于周期性转动的 机械和电 气干扰。 ( 2 ) 脉冲噪声。脉冲噪声表现为时域波形中出 现的窄脉冲。它来源于爆炸, 撞 击和放电等。 c s )宽带噪声。它的来源有很多 种,如热噪声, 气流 ( 如风,呼吸) 噪声及各 种随机噪声源。 由 于宽带噪声与语音信号在时域和频域上都完全重叠, 因而消除 它最为困 难。 这种噪声只有在语音间隙才单 独存在, 对于平稳的宽带噪声 通常可 以 认为是 高斯白 噪声。 对不 具有白 色频谱的噪 声, 可以 先进行白 化处 理转 化为白 噪声。 c a )同声道语音千扰。 人耳可以 在两人以 上讲话环境中 分辨出 所需要的 声音, 这种分辨能力是 人体内部语音理解机理的一种感知能力。 这种能力来源于人的双 耳输 入效 应, 但当 多 个 语音 叠合 在 一 起, 在 单 信 道中 传 输时, 双 耳 信号因 合 并而 消失。 , . 5 语音增强算法简介 由于噪声来源众多,随应用场合而异,它们的特性也各不相同, 难以 找到一 种通用的语音增强算法适用于各种噪声环境。 而且语音增强不但与语音信号数字 处理理论有关, 还涉及到人的听觉感知和语音学, 所以 必须针对不同的噪声, 采 取不同的语音增强对策。 几十年来人们在语音增强方面做了很多不懈的探索, 总 结出适应不同情况的各种增强方法。 语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通 道的 语音增强算法。单通道语音系统在实际应用中 较为常见,如电 话,手机等。 这种情况下语音与噪声同时 存在一个通道中, 语音信息与噪声信息必须从同一个 信号中 得出。 一般这种语音系统下要求噪声要比 较平稳, 以 便在非语音段对噪声 进行估计, 再依据估计出 来的噪声对带噪声的语音段进行处理。 如果语音系统是 一个多通道的语音系统, 各个通道之间存在着某些相关的特性, 这些相关特性对 浙江大学硕士论文 语音增强的处理十分有利。 如在自 适应噪声对消法的语音增强方法中, 采用了 两 个话筒作为输入, 一个采集带噪的语音信号, 另一个用来采集噪声。 从噪声通道 所采集的噪声直接当 作带噪语音中的噪声, 并将它从带噪声语音信号中减去就可 得到纯净的语音。 另一种多通道的语音增强算法是采用阵列信号, 这种方法采用 多个以 一定方式排列的 采集设备接收信号。 由 于不同独立的 信号源与各个采集设 备之间的距离不同, 最后在各个接收设备中的合成信号也会不同, 再根据这些信 号将各个独立信号分离出来。 单声道语音增强是语音增强的基础, 本文将重点研 究和实现单声道的语音增强方法,对于多声道增强方法只做一些简单介绍。 1 . 6 本文的主要工作 本文重点是研究 现有的 语音增强方法, 设计一种实际 应用的 增强方法。 增强 过程不以单纯提高信噪比为目 标, 而是提高语音的舒适度, 保证语音不失真和无 “ 音乐噪声” 。本文的主要研究工作包括: ( 1 ) 广泛地参阅了国内外相关文献资料, 介绍了语音增强技术背景与常用方法。 ( 2 ) 研究噪声估计方法, 重点是基于最小值跟踪方法,并分析了该方法的特点 和跟踪特性。 ( 3 ) 对两类常用的语音增强算法一基于短时谱的方法与子空间方法,进行了 研 究并分析各种算法的 性能, 通过各种语音增强算法的比 较与分析, 确定不同算法 在不同信噪比下增强的优劣。 ( 4 ) 针对语音增强算法中存在的 语音失真与音乐噪声, 研究掩蔽效应在语音增 强中的应用,给出掩蔽闰值的算法与各种增强算法。 ( 5 )设计和实现一个在完整的语音增强系统。完整实现语音增强功能。 1 . 7 本文的组织 第二章将介绍噪声估计算法, 重点介绍最小值跟踪算法。 第三章介绍基于短 时 谱估 计的 语音增强 方 法, 包 括谱相减法、 维纳滤波法 和m m s e 语 音增强 方法。 第四章为子空间法的语音增强方法。 包括掩蔽值的计算和掩蔽效应的应用 第五章介绍掩蔽效应在语音增强中的 应用, 。 第六章, i c a在语音增强的应用。 第七章 介绍语音增强的评价方法。 第八章为整体算法介绍。最后第九章总结与展望。 浙江大学硕士论文 第二章噪声参数的估计 2 . 1 引言 语音增强中首先要利用噪声的 特性参数, 噪声估计的准确性直接会对后续的 算法有重大的 影响, 因此预先准确地估计出 噪声对语音增强的好坏十分重要。 在 噪声估计时通常假设噪声的 均值为零, 需要估计的 参数就是噪声的方差。 噪声的 估计方法很多,一种做法是对语音信号进行语音的有肉无声检测,在无声时更 新噪声估计,在有声时保持原有噪声的估计不变。另一些方法不用有声/ 无声的 检测, 无论在有声或无声都对噪声估计进行更新。 本文介绍一种有效的不用有声 / 无声 检测的 语音参数估计的 方法阅 。 2 . 2 最小值跟踪的噪声估计方法 r a i n e r m a r t i n 12 1 中 提出的统计最小值跟踪算法来估计噪声。 r a i n e r m a r t i n 先 用一个最优平滑滤波对带噪语音的功率谱滤波, 得到一个噪声的 粗略估计。 然后 找出 粗略噪声中的在一定时间窗内的最小值,对这个最小值进行一些偏差修正, 即得到所要估计的噪声的方差。 2 . 2 . 1 最优平滑 设带 噪 语 音信号 为y ( i ) , 它由 纯 净语 音 与噪声 相加 而 成, y ( i ) = s ( z ) + n ( i ) , 这里i 代表采样的时间标号。 进一步假设: ( t ) 与n ( i ) 是统计独立的并各自 都是零均 值的。 为了将信号转化到频域, 将信号分成长度为l个采样点的帧信号, 帧间重 叠为r点。对帧信号进行f f r 计算,得到了频域的 信号 y ( a , k ) = 工y ( a + / 2 ) h (lt ) e - 2,i 1 it ( 2 - 1 ) 这 里a 为 时 间 的 标号, k 为 频率点 的 标号, a e z , k e 0 ,1 , 一 , l - 1 1 . h ( f t ) 是一 l - 1 个 窗 序 列 , 并 假 设 艺 h 2 ( y ) = 1 声 = o 先 用 一 个 平 滑 过 程来 粗 估 计噪 声功 率 谱 密度p ( a , k ) p ( a , k ) = a p (a 一 1 , k ) + (1 一 a ) iy ( ,t , k )l (2 - 2 ) a是平滑参数 噪声 功 率的 进一 步 估计弓( .2 , k ) , 通过 取p ( a , k ) 在一个 滑动窗内 的 最小 值 来决 定。 浙江大学硕士论文 上 述方 法的 估 计 还是 很 粗 糙, 进一 步 提高 噪 声 估 计的 准确 性 还要 考 虑以 下 几 个问 题: 固定的a 值将不适应有肉无声的变化与噪声的 变化 这样的噪声估计将比真 正的噪声要偏小 最小值的 跟踪过程比 真实的噪声要滞后 因此,根据上述问题, 对原有的噪声估计还需要一个随时间变化的平滑系数a、 一个偏差补偿系数与加速跟踪方法。 为了 推导最佳的平滑过程还要假设为无声状态。 将平滑过程写成由时变平滑 系数作用的过程: p ( .2 , k ) 二 。 ( a ., k ) p ( “ 一 l , k ) + ( 1 一 a ( d , k )j iy ( ,k )广(2 - 3 ) 为了 使p ( a , k ) 尽 可 能 的 接 近 真 正 的 噪 声 功 率 谱 密 度嵘( a , k ) , 以 下 式 期 望 值 为 零 作为目标 e jp (a , k ) 一 o n (a ,k )zi p (; 一 ,、 )二 0 ( 2 - 4 ) 由上式可得 e tp (a ,k ) - o -n (a , k )zjp (; 一 1, k )一 。 = a ( .l ,k ) (p ( a 一 i , k ) 一 o l, ( a ,k ) y + 6 n ( a , k ) (1 一 a ( a k ) ) (2 -5 ) a -u k ) 二一 1 + ( p ( a 一 1 , k ) / 9 ( a , k ) 一 1 ) , 在实 际的 运 用中 , 最 优估 计式中 的嵘林, 幻用上 次的 噪声 估 计 值嵘扭- 1 , k ) 代替, 并且 最优 系数 将被限 制在一个 最大值“ r-, 例a , 二 0 .9 6 , 之间 来 避免 ? ( a , k ) 月的 死锁情况发生。 为了 提高 在非平稳的 噪声 环境中 的 平滑效果, 平滑 系数设置一个下限为0 .3 .式( 2 - 5 ) 重新写成: 、!1 、1.ij产 a p , ( a , k ) 二 m a x i 0 .3 , m i n i a _, 1 + (p ( , , 一 1 , k ) / a n ( a 一 i, k ) 一 1 犷 ( 2 - 6 ) 浙案 大学硕士论文 2 . 2 . 2 最小功率谱统计跟踪 最小功率谱统计跟踪的 方法将跟踪短时谱的 最小功率谱密度, 这个最小功率 谱是由 一个连续时间段内的最小功率谱密度求出。 因为随机变量的 最小值总会小 于平均值, 所以 用最小功率谱密度值作为平均值的 估计存在着偏差, 要得到平均 值就要对最小功率谱密度进行偏差修正。 在推导最小功率谱统计跟踪方法时, 为了简化计算, 假设信号处于无语音状 态,在有语音状态只要将噪声的方差用带噪语音信号的方差代替即可。 设在 d个连续的短时功率 谱密 度估计p ( a , k ) 中的最小值为p n , ( +1 , k ) , a e . . . , - i , d + 1 1 a p ( a , k ) 可以 写成 p ( a , k ) = ( 1 一 a ) 艺 a jy ( a 一 i , k )l2 ( 2 - 7 ) 对 于 独 立 、 指 数 和 同 分 布 的 谱 序 列 y ( .2 , 州 , p ( a , k ) 的 概 率 密 度 函 数 为 p cw ) - 1 1 一 j w, ( a , k ) ( 1 一 a ) a ( 2 - 8 ) 由 于 均 值动 ,. ( a , k ) 与嵘( a , k ) 成 正比 关 系 而p ,w . ( a , k ) 的 方 差 正 比 于 弓( a , k ) o 不失一般,只要计算在嵘( a , k ) = 1 的时均值与方差就足够了。定义符号 b - n ( a , k ) = e l p , ( a , k 川 (, * )二 , 和 聪味 , k ) = 2 o ,n ( a , k ) / v a r p 林 ,k ) ) , 呱( a , k ) 可由 q + ( a , k ) 来 估 计 : b ,w a ( a , k ) 二 1 + ( d一 1 ) 2 了二 一 ; , 一 一111 + q , ( a , k )忆 2 q e4 ( a , k ) ( 2 - 9 ) 、1.!,了 q , ( a , k ) ” 乌( a , k ) 一 2 m ( d ) 1 一 m ( d ) 本文中 d取 %,m( 9 b ) ( 2 - 1 0 ) m( d ) 与h( d ) 是关于 d 的系数函数, =0 . 8 7 5 d ( 9 6 ) = 3 .5 5 而 一 般q eg ( a , k ) 在 非 语 音 状 态 时 取 值 较 大 , 式 ( 2 - 9 ) 又 可 简 写 成 , 。二 、 . , 、2 万 _ t a , k ) =1 +t 口一1 ) q + ( a , k ) ( 2 - 1 1 ) 这 样噪 声 方 差6 n ( a , k ) 可以 用 下 式估 计: 浙江大学硕士论文 6 ,2 ( a -, k ) p , r k ) e jp ,n 0 (a , k ) q tz,kr-i 一 。 m io (d , q c, ( a k - ) 底。 ( a , k ) ( 2 - 1 2 ) 实 际 中 q , ( a , k ) 的 估 计 为 : q e, ( a , k ) _ 2 嵘( a 一 1 , k ) ( 2 - 1 3 ) 其中 v a r 护 ( a , k ) 为p ( a , k ) 方 差 的 估 计, v i r p ( a , k ) 其估计式为: v a r = p ( a k ) = p z ( 兄 , k ) 一 万 ( a ., k )( 2 - 1 4 ) 爪 、 ,* ) 与 p - ( a , k ) 分 别 是 e i p ( a , k ) 与 e p 2 ( r , k ) 的 一 阶 平 滑 估 计 。 p ( k ) = ( a , k ) p ( a . 一 1 , k ) + (1 - 3 ( a , k ) ) p ( a , k ) ( 2 - 1 5 ) p z ( a , k ) 二 /3 ( a , k ) p z ( a . 一 l , k ) + ( 1 一 /6 ( a , k ) ) p z ( a , k ) (2 - 1 6 ) fi 为 平 滑 系 数, 且 取( ( a , k ) = 嘛林k ) 为了 在非 平 稳 噪声 环 境中 得 到 更 好的 估 计, 将b , n ( a , k ) 乘以 一 个 系 数b , ( 幻。 q - ( 幻( 2 - 1 7 ) 其 中 q - ( a .) 二 ( 1 1 l ) 艺 b , ( a ) = 1 + a 1 q ., ( , k ) 蠕 ( a , k ) 通过搜索 找出。 算法要 对d个p ( a ., k ) 估 计找出 最小值, 这样 最差 的 情况下延时将达到2 d 。 为了 减少延时, 将d分成u个子窗, 每个子窗为v个 值。 每v个值更新一次最小值。 例如在8 k采样下, f h l , 长度为2 5 6 的 情况下, u= 8 和v= 1 2 . 在每个子窗内的 最小值若不是第一个值与最后一个值, 则认为 是局部最小值。 由 于该算法在对有声 / 无声时使用同一标准来估计噪声,所以 不需要有声 / 无 声判断。 另一方面, 噪声估计是通过最小值来搜索, 所以 对噪声的平稳性没有太 高要求,在非平稳的嗓声的环境下也能做出较好的估计。 2 . 2 . 3 算法流程 本节将详细的算法流程列出。在算法流程中的几个变量需要说明。 s u b w 。 为 子窗 号 标 记, 记 录当 前 所 在 子窗 的 位 置 b , a ( a , k ) 与b , n - , , ( a , k ) 分 别为整个窗的偏差系数与子窗的偏系数。 k - m o d ( k ) 是当 有新的最小值时设为t o 浙江大学硕士论文 l m in _ f la g ( a , k ) 为 更 新 标 志 , 当 设 为1 时 , 允 许 更 新。 n o is e _ s l o p e _ m a x 表 示 噪 声变动范围。 算法的具体步骤如下: 1 、计算平滑系数4 ( a , k ) ,式( 2 - 6 ) 2 、 计算平滑功率p ( .2 , k ) , 式( 2 - 3 ) 3 、 计 算 偏 差 修 正 系 数氏n ( a , k ) 与b , a_ suc ( a , k ) , 式 ( 2 - 1 1 ) 4 、计算q - 1 ( a ) _1 鬓 1l k.-o q (a ,k ) , -z 5 、设置k _ m o d ( k ) = 0 6 , if p ( a , k ) b , , ( ak ) b , ( a ) a c t m i n ( a k ) a c t m i n ( ., k ) 二 p ( x , k ) b ,ri o ( a , k ) b , ( a ) a c t m in - s u b ( a , k ) = p ( r1 , k ) b d 二 二 ; ( a , k ) b r ( a ) k _ m o d ( k ) = 1 7 , i f s u b w c 一 v o习 o0 你0匕 e s d 8 , i f k _ mo d ( k ) 一 1 t m i n _ f l a g ( a , k ) 二0 存储a c t m i n ( a , 在u个存储的a c t m m中 找 出 最 小 值凡。 i f q - ( a , k ) 0 .0 3 , n o i s e - s l o p e - m a x = 8 ; e l s e i f q ( a , k ) 0 .0 5 , n o i s e - s l o p e - m a x 二 4 ; e l s e i fq 一 , 仪, k ) 1 i f k - m o d 伏) = =i 设置t m i n _ f a g ( /i , k ) = 1 计 算6 n ( .1 , k ) = m m (a c t m in _ s u b ( a , k ) , 独立, 而n * 为 零均值的 高 斯分布, 所以 有: e jy k i2 一 : is k i2 + e gn k i2 1 (3 -3 ) 对于一个分析帧内的短时平稳过程,有: iy k i2 = is 12 + a (k ) (3 -4 ) /1 n ( k ) 为 无 语 音 时 in k i, 的 统 计 平 均 值 , 由 此 可 得 原 始 语 音 的 估 计 值 : 一s k 卜 lly k i 一 e (in ,. 12 )l 一 iy k i“ 一 a n (k )l 2 ( 3 - 5 ) 这 郭 增 强 后 语 音 信 号 的 幅 度 定 义 增 益 勇 数 g k = 一s i/ iy . i , 及 后 验 信 噪 比 、 = iy , i2 / a2 ( k ) , a (3 -5 ) 可 改 写 为 : is k 卜 g k iy k i g k = ( 1 一 v y k 1 1 12 ( 3 - 6 ) 式 ( 3 - 7 ) 中 当y k 小 于1时,吼将取到负 值, 将失去意 义。 ( 3 - 7 ) 因此将式( 3 - 7 ) 改写为 g * 一 m a x (e , (1 一 v 、 )l / y k y 2 )( 3 - 8 ) 浙江大学硕士论文 是一个大于零的常数。 从式( 3 - 6 ) 中 可以 清楚地看出谱相减的 物理意义: 它相当于对带噪语音的每一 个频 谱 分 量 乘以 一个 系 数g * 。 信噪比 高时, 含 有语 音的 可能 性 大, 衰 减 小。 反 之,是则认为含有语音的可能性小,衰减增大。 该方法的缺点是增强后的语音中含有明显的“ 音乐噪声” , 这是由 频谱相减 而产生的一种残留噪声,具有一定的节奏起伏感, 故而得名“ 音乐噪声” 。 “ 音乐 噪声” 产生的原因是因为在谱相减法过程中, 是以 无声期间统计平均的噪声方差 代替当前分析帧的噪声频谱分量。 而噪声频谱具有高斯分布, 即 其幅度随变化范 围很宽,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留, 在频谱上呈现随机出现的尖峰, 在听觉上形成有节奏性起伏的类似音乐的残留噪 声。 3 . 3 .2改进谱相减法 在实际的增强过程中更多地使用的是谱相减法的改进形式 19 11一 k 1。 一 )6 z . (k )t j ( 3 - 9 ) 也就是将增益写成: 吼= ( 1 - )8 i 片) , 。( 3 - 1 0 ) 这里引 入了 两个 参数a 和夕 用来调 节增益。 显然, 当a = 2 , 刀 = 1 时就是普通 谱 相减法。 增 大16 可以 增 大 去 噪 程度, 这 样 就能 减 少 剩余 的 噪 声 , 从 而 减 弱 “ 音 乐噪 声” 。 调节a 也会达到相似的结果。 通过适当调节这两个参数可使去噪效果达到比 较好 的增强效果。但过多增加去噪程度会使增强后的语音失真增大。 3 . 4 维纳滤波 若语音是一个平稳过程, 则维纳滤波器对应着时域上的最小均方差准则。 其 频域表达式为: s ,=g k 玖 p ( k ) ( 3 - 1 1 ) g * 二只( k ) + 凡( k ) ( 3 - 1 2 ) a q a 丝 aa 1 i竺一 一. 一叫一 一一 一一一一 其 中 p ( k ) 、 人 ( k ) 分 别 为 语 音 和 噪 声 功 率 谱 密 度 。 然 而 实 际 土 语 音 只 是 短 时 平 稳 的 , 而 且 功 率 谱 也 无 法 得 到 , 因 此 改 写 式 ( 3 - 1 2 ) 为 : g * 匕 e q s , (z l wk 1z + 凡 : (、 ) ( 3 - 1 3 ) 列 s , i 的 获 得 可 以 有 多 种 途 径 , 例 如 可 以 用 谱 相 减 法 或 其 它 谱 估 计 方 法 先 得 到 , 。5 螃f3 3 . 5 . 1 然 后 把 相 邻 帧 呻* 进 行 平 滑 作 为 e rls k l= 1 o s t s a - m m s e估计 基本原理 s t s a - m m s e就是语音短时谱幅度的最小均方误差准则下的 估计。 设带 噪 信号y ( i) 二 s ( i ) + n ( i ) ,s ( i ) ,n ( i ) 分 别 代 表纯 净 语音 和噪 声 信 号, 用 y k = 凡- p ( j o k ) , n k , s * 二 人a x p ( .l a k ) 分 别 表 示带 噪 信 号 , 噪 声 和 纯 净 语音的 第k 个 频 谱 分 量。 a 、 的 估 计 式 为 : a x 二 e ( a k 1 y o x i , - . , y n ) ( 3 - 1 4 ) 进一步假设各 个频 谱分量 之间 彼此独 立的。 这一点 与事实 有 些不符, 但可以 大大 地减少计算量。 此时,由贝叶斯公式, 有 ( 3 - 1 5 ) d一 a- p- a- v幻一 户一 尽一 厂.l叭一 l一 人“ e ( 凡1 玖) 广 j, p (y k i a k ,a k )p (a k ,a x )d a kd a k 一般 考虑利 用前一 帧的 信息来约束 本帧频谱的 估计, 即 此时 认为 语音 前后连 续 两 帧的 语 音 频 谱s , 与s k 之间 存 在一 定 的 相关 性 并 反 映 在 其联 合 概率 分 布 上, 3 . 5 . 2 y a m 的s t s a m m s e 方法 y a r i v和d a v i d 在中 1 2 1提出 一 种s t s a - m m s e 的 方 法。 y a r i v 假设 噪 声 信 号 n ( i ) 为 平 稳的 高 斯噪 声 , 则p ( y k i a k , a k ) 和p ( a k ,47 k ) 有: p ( y k ! a a k ) = 从 ( k )叶a ik)ly, akel l ( 3 - 1 幻 p ( a k , a k ) ” 7 ra( k ) f a ;) e x p i - - , 二 : :t l人 t h l j ( 3 - 1 7 ) 登婆歪羔窭主坚 一 粪中只( ) 、友( ) 分鬟为谣音零鞋骧声功率谶密度。 然掰实际一 :语毒只建短时平稳貔;露量功率谱逸无法褥聪,因越敬写式囝w 1 2 ) n : g 。壁! 堕( 3 - 1 3 ) g e2 丽赫 基s ;1 2 】的获褥可以有多麟途径,侧如可| 丛用谱蝴减法戏其它落估计方法先彳辱烈 陂l 然后把耩邻筷的陵l 。进行平滑俸为硎瓯| 】。 3 5s t s a - m m s e 佶谤 3 5 ,1 蒸本舔溪 s t s a ,m m s e 羧燕港巍短游溪 疆廑熬簸巾聪芳误蓑避熨| j 下瓣傣计。 设带嗓信号y ( 0 = s ( f ) + 露( f ) ,j ( 玲,n ( 1 ) 分羽代表纯净语裔帮噪声僚母,震 墨= 民e 冲( ,壤) ,n 。,s ;= 氐e x l ? ( j 口t ) 分别裘暴带嗓信鼍,嗓声帮纯净语音酌 繁k 个颇满分爨。a 。的估计式为: = 露( 文i 玛,鼍,珞) 3 1 4 ) 遂一步暇设备个藏谱分藿之淘缓魏独立瓣。n - - a n 事实商些不簿,爨胃激大大 遗减少计算爨。此时,由凭叶新公式,套 袖= 器鬻豢刚s , 一羧考虑稠用蓠一喷瓣倍感寨兹柬零峻频谱静嵇诗,帮忿露认为诿酱蓠轰连 续两羧豹谮音频谱s 。与之闻存在一滗稳籀关键箨爱姨程其袋合穰率分商主。 3 5 ,2y a r i v 瓣s t s a - m m s e 方法 y 确v 积d a v i d 在中l 弼提出秘s t s a - m m s e 曲方法。y a r i v 假设噪声信譬 娥i ) 为平爨豹凑戆噪声,鬟| l 尹( 羲i 攫。,嚷) 弱p ( a 。,毽) 套: p t 夏l 魄,壤,= 獗t 1 两盼一魄e 辩| 。 ,鼬 鲰咖未赫e x + 蔫) 仔功 浙江大学硕士论文 这燃五( k ) = e i s 。n ,五( 七) = 耳j n 。嗡为第l 个频点下的语音和噪声的方差。 穆掰式代入式( 3 1 5 ) i 置= f 醢固簪e x p 一i v k ) ( t t 啊,弋i v aj 、+ 略 ( 鲁 1 磁 p ,s , r ( ) 表示镪玛函数,r ( 1 5 ) = 别2 ,j 。( ) 和j ;( o ) 分别代表零阶和一阶贝叶斯函 数,叱定义为 魄5 纛靠( 3 - i 9 ) 英中蠡稿照为 蠡= 豢 嘲 柠? 欺2 赢( 3 - 2 1 ) 轰和赡分别代表先验与后验信噪比( s n r ) , 若将五看作魄乘以一个增益,定义这个增益为 g e 磊= 鲁川,渤e 砷( 音疆e t 帆编浯 饥滢淞- z z , 菝主式霹戳著爨这令滋签灵蠢先验售礤毙磊与嚣验锖潦琵聂有关。 上丽的推导是在假设语音存在时褥

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论