




已阅读5页,还剩54页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于听觉特性的语音增强算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ab s tr a c t ab s t r a c t s p e e c h e n h a n c e m e n t is b e c o m in g a n im p o rta n t b r a n c h o f s p e e c h s ig n a l p r o c e s s , w h i c h i s a l s o a n i m p o r ta n t e l e m e n t i n p u t s p e e c h s i g n a l p r o c e s s s y s t e m i n t o p r a c t i c a l s y s t e m . b a s e d o n t h e m o s t w i d e l y u s e d m e t h o d s p e c t r a l s u b t r a c t i o n , t h i s p a p e r i n t ro d u c e s t h r e e a u d i t o r y p r o p e r t i e s t o i m p ro v e s p e c tr a l s u b t r a c t i o n : a b s o l u t e t h r e s h o l d , c r i ti c a l b a n d s a n d m a s k i n g p r o p e rt i e s , w h i c h r e a c h e s t h e s p e e c h e n h a n c e m e n t p u r p o s e s . f i r s t l y , a c c o r d i n g t o t h e c r i ti c a l b a n 氏t h e s p e c t r u m i s d i v i d e d i n t o a n u m b e r o f n o n - o v e r l a p p i n g fr e q u e n c y b a n d s . i n e a c h fr e q u e n c y b a n d , a c c o r d i n g t o m a s k i n g e ff e c t a n d a b s o l u t e t h r e s h o l d , w e d e s i g n s u b t r a c t i o n f a c t o r a n d s p e c t r a l s m o o t h i n g p a r a m e t e r , w h i c h m a k e s t h e e n e r g y s p e c t r u m o f n o i s e m u s i c b e lo w t h e m a s k i n g t h re s h o l d o r t h e a b s o l u t e t h re s h o l d , m a x i m u m s u p p r e s s e s n o i s e a n d g e n e r a t e a m i n i m u m l e v e l o f s p e e c h d i s t o r t i o n . a c c o r d i n g t o t h e c h a r a c t e r i s t i c s o f p e o p l e p r o n u n c i a t i o n , h i g h - f r e q u e n c y p o w e r s p e c t r u m o f s p e e c h s i g n a l s i s s m a ll . t h e s u b t r a c t i o n f a c t o r w h i c h i s d e s i g n e d 勿 山 e m a s k i n g p r o p e r t i e s i s l a r g e w h e n 血 p o w e r s p e c t r u m i s s m a ll , s o i t w i l l d e s t r o y t h e s p e e c h i n f o r m a t i o n o f h i g h fr e q u e n c y , b u t t h e h u m a n e a r s i s v e ry s e n s i ti v e t o t h e s p e e c h i n t h e h i g h fr e q u e n c y b a n d , e s p e c i a ll y f o r t h e 2 k h z - 4 k h z . t h e r e f o re , w e u s e t h e s p e c t r a l fl a t n e s s m e a s u re , w h i c h c a n e s t i m a t e t h e s p e e c h c o n t e n t , t o re - a d j u s t s u b t r a c t i o n f a c t o r i n h i g h fr e q u e n c y b a n d f o r e a c h c r i ti c a l f a c t o r . e x p e r i m e n ts s h o w t h a t t h e i m p r o v e d m e t h o d p ro t e c t s t h e h i g h - fr e q u e n c y i n f o r m a t i o n i n t h e h i g h s i g n a l - t o - n o i s e r a ti o a n d r e d u c e s t h e s p e c t r a l d i s t o r ti o n . k e y wo r d s : m a s k i n g p r o p e r ti e s , c r i ti c a l b a n d s , s p e c t ra l f l a tn e s s m e a s u re , s p e e c h e n h a n c e me n t , s p e c t r a l s u b t r a c t i o n me t h o d 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、 使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印 刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国 家有 关部门 或者机构送交论文的复印件和电子版; 在不以赢利为目 的的前 提下,学校可以 适当复制论文的部分或全部内 容用于学术活动。 学 位 论 文 作 者 签 名 : 参. 双 问年 , ” i t 日 经指导教师同 意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: ti学位论文作者签名:清 . 双 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内部5 年 ( 最长 5 年,可少于 5 年) 秘密1 o年 ( 最长 1 o 年,可少于 1 o年) 1 竺 1 0* zo 4 -:目 (jr 兰 2 0 年 , 可 好20 4 ) 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导 师指导下, 进行 研究工作所取得的成果。 除文中已经注明引 用的内 容外, 本学位论文 的研究成果不包含任何他人创作的、 已公开发表或者没有公开发表的 作品的内 容。对本论文所涉及的研究工作做出贡献的 其他个人和集 体, 均已 在文中以明确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学 位 论 文 作 者 签 名 :告 、 欢 二 刁 年, 月 l t 日 第一章 引言 第一章引言 语音通信是人类交流最自然的方式,也是最有效、最重要的手段。当今世 界正处于信息时代,计算机、电 子和信息技术的高速发展,让机器能听懂人 类 的语言,实现 人和机器之间自 然语言的 交流,是人类梦寐以 求的。 语音数字 信 号处理正是其中一项至关重要的 应用技术,是一门涉及面很广的交叉学科, 其 研究领域涉及到信号处理、 人工 智能、 模式识别、数理统计、神经生理学、 声 理学和 语言学等许多学科。 语音数字 信号处理 包含的内 容十分广泛: 语音识别、 语音识别、语音合成、说话人识别和语音增强等。在语音通信、声控、自动语 音翻译和多媒体信息处理等许多应 用领域语音数字信号处理都有重要的应用。 语音数字信号处理中的 语音增强是语音 数字信号处理系统能够进入实用阶段的 重要环节。 第一节 语音 增强研究背景 在语音通信过程中不可避免的会受到来自周围环境的背景噪声、传输媒介 引入的 噪声、通信设备内部噪声以 及其 他说 话者的 干扰。 这些干扰和噪声 使语 音接受者接收到的 语音已 非纯净的原始语音 信号, 而是受到噪声污染的带噪 语 音信号。 环境噪声污染使许多语音处理系统的 性能急剧恶 化。 例如, 语音识别 已 取得重大 发展, 正在步入实用阶段, 但目 前的 识别系统大都是在安静环境中 工作的, 在噪声环境中尤其是强噪声环境,语 音识别系统的识别率将受到严 重 影响。此外,语音编码等其他语音信号处理中也会遇到类似问题。 在实际需求的推动下,语音 增强这个 研究课题早在6 0 年 代即引 起人们的 注 意, 随着数字 信号处理理论的成熟, 7 0年 代取得了 一些基础 性成果, 并使语 音 增强发展成为语音信号处理领域的 一个重要 分支。8 0年代以来,各种 语音增强 方法不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟. 语音增强的一 个主要目 标,就是从 带噪语 音信号中 提取尽可能纯净的原 始语 音。 然而,由 于干扰通常是随 机的, 从带噪语 音中提取完全纯净的 语音几乎是 不可能。在 这种情况下, 语音增强的口 的主要 有两个:一是改进语音质量, 消 除背景噪声, 使听者乐于接受, 没有疲劳感, 这是一种主观测量; 二是提高语 音的可 懂度, 这是一个客观测量。 但这两个目 的往往不能兼得, 所以 实际 应用 第一章 引言 中总是视具体情况而有所侧重的。 综上所 述, 语音增强已 经 成为语 音数字信号处理的一 个重要分 支, 也成为语 音数字信号处理系统实用化的一个重要步骤。 第二节 语音与噪声的 特性 语音和噪声有着不同的特性,对这些不同特性的了解和分析,是学习和理 解语 音增强的前提和基础。 语音 增强算法利用和语音不同的 噪声特性,在时域 或频域抑制噪声。针对不同的噪声特性,有着不同降噪算法。 1 . 2 . 1语音特性 1 ) 语音 信号是一种非平 稳的 随 机信号 人类发声系统在发声过程中的变化速度具有一定的限度,在一段时间段 ( 1 0 . 3 0 m s ) 内,人的声带和声道 形状具 有相对稳定性,可认为 其特征是 不变的, 因而也 可以 认为语音信号在这段时间内 是短时平稳的,其短时 谱特性也具有相 对的 稳定 性。 从而可以 应用平稳随即 过程的分析方法来处理语 音信号,并可在 语音 增强中利用短时频谱的平稳 特性。 2 ) 语 音 作 为 一 个 随 机 过 程 , 语 音 信号 可以 用 统 计 分 析 特 性 描 述 语音信号作为非平稳、非遍历的随机过程,长时间时域统计特性在语音增 强中意义不大,但其短时谱的统计特性在语音信号处理中有着举足轻重的作用。 根据中心极限定理, 语音的短时 谱的统 计特性服从高 斯分布。在实际 应用时, 只能 将其看作是在有限 帧长下的近 似描 述。 3 )语音大体可分为 浊音和清 音两 种 浊音在时 域上有明 显的 准周期性和 较强的振幅, 在频域上具有共振峰结构 ( 共 振峰 反映声道谐振特性的 重要 特征, 代表了发音 信息的 最直接的 来源, 而且 人在 语音感知过程中也 利用了 共振 峰信息 ) ,且能量大 部分 集中 在较 低频段内。 而清音在时 域和频域上没有明显的 特征,没有浊音的 共振峰结构, 能量小且集 中 在高频部分,类似于白噪声。 在信造比低的 情况下, 容易 被噪声淹没。 语音 增强中,可利用浊音具有的准周期 性来区分和抑制非 语音噪声, 而清音的 特性 使其很难和宽带噪声区分。 第一章 引言 1 . 2 . 2 噪声特性 对于不同的环 境, 噪声 是不同的。 噪声可以 是加 性的, 也可以 是非 加性的, 如乘性噪声二卷积噪声,这类非加性噪声可通过变换变为加性噪声。加性噪声 更普遍且易 于分析, 所以 本文中 仅讨论加性噪声。 常见加 性噪声通常可分为冲 激噪声、周期噪声、宽 带噪 声和语音干扰。 下面分别 介绍 各类噪 声特性。 1 )冲激噪声: 表现为时 域波形中突然出 现的窄 脉冲, 通常由 突发声音造 成,如打雷、 放炮、 打桩等引 起。根据带噪语 音信号 幅度的平 均值确定阂值。 当信号幅度超过这一阐值时,判为冲激噪声。通过平滑技术消除。 2 )周期噪声: 周期 噪声的 特点是有许多离 散的窄 谱峰, 往往 来源于发动机、 风扇等周期性运转的 机械。 如5 0 h z 交流声会引起周 期性噪声。 通过功率谱发现 噪声所在的频段,通过 滤波 将其除去。 3 )宽带噪声: 宽带 噪声的 来源很多, 如说 话时同时 伴随着呼吸引起的 噪声、 随机噪声源产生的噪声,以 及量化噪声都可视为宽带 噪声。 宽带噪声与语音信 号在时域和频域上完全重 叠, 消除难度大。 实际应用中 近似为g a u s s 噪声或白 噪 声,一般需要采用非线性处理方法。 4 )语音干扰:千 扰语音信号 和待传语音信号同 时在一 个信道中传输所造成 的干扰称为语音干扰。 人 耳可以 在两人以 上讲话环境中分 辨出 所需要的 声音, 这种分辨能 力称为“ 鸡尾 酒会效 应” ,这种分辨能力 是人体内 部语音理解机理具 有的 一种感知能力。 但是在 单信道传输中, 这种双耳信号因而并而消失。区别 千扰语音和有用语音的 基本 方法就是利用它们的 基音差别。可以用梳状滤波器 提取基音和各次 谐波, 再 恢复出有用的信号。 2 . 3 带噪语音模型 加性噪声的 模型图 如图1 . 1 所示: 图1 . 1 带噪语 音模型 其中,y ( n ) , d ( n ) , s ( n )分别表示a d d转化后的 带噪语 音信号采样序列、 第一章 引言 噪声信号采 样序列 和语音信号采样序列。带噪语音 信号可以 用噪声 信号和语音 信号的和表示: y ( n ) = 倒 n ) + d ( n ) ( 1 . 1 ) 针对 带噪语音 模型, 语 音增强算 法有三个基 本假设: 1 ) 噪声信号d ( n ) 和语音信号s ( n ) 统计不相 关. 2 ) 噪声是局部 平稳的.即带噪语 音中 的噪声 统计 特性和该语音前的一段 无 语音段统计特性相同,即可用该语音前的一段无语音段的噪声统计特性 替代整个语音 段的噪声统计特 性。 3 ) 人耳对于相 位不敏感。人们经过 对语音的 振幅谱和相 位谱的 大量研究表 明,对人耳听觉起主要作用的是语音的振幅谱,而人耳对语音相位谱的 误差并 不敏感,因 此研究语音增强的 方法主 要从幅 度谱入手, 这正是基 于短时幅度谱语音增强方法的基础. 第三节 语音增强 1 . 3 . 1语音增强的研究历史 语音增强 这个研究课题 早在6 0 年代即引 起人们的 注意, 随着数字信号处 理 理论的 成熟, 7 0年代取得了 一些基础性成果, 并使语音 增强发展成为语音信号 处理领域的 一个重 要分支. 8 0 年代及9 0 年代初 这十几年间, 各种语音增强方 法 不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟。 语音增强方法的 研究始 于 2 0世纪7 0 年代中期。 随着数 字信号 处理理论的 成熟, 语音增强发 展成为语 音信号处理领 域的一 个重要分 支。1 9 7 8 年, l i m和 o p p e n h e im提出 了 语 音 增 强 的 维 纳 滤 波 方 法 112 1 . 1 9 7 9 年, b o ll 提 出 了 谱 相 减 方 法 来 抑 制 噪 声 3 1 0 1 9 8 4 年, e p h r a im和m a la h 提出 基 于m m s e 短 时 谱 幅 度 估 计的语 音增强方法 0 1 0 1 9 8 7 年, p a l i w a l 把 卡尔曼滤波引 入到语音增强领 域 5 ) 在3 0 多 年的 研究中, 各种语音增强方法不断 被提出, 它莫定了语音增强理 论的 基础并使 之逐渐走向成 熟. 近些 年 涌 现出 来 的 语 音 增 强 新 方 法 还 有 基 于 小 波 分 解 的 增 强 算 法 问 门 , 采 用 神经 网 络 的 方 法 0 119 ., 也 有 采 用 信号 子 空间 方 法 011 11等 . 这 些 方 法 成 为 近 几 年 研 究的热点。 语音增强不但与语音 信号处理理论有关,而且 涉及到人的听觉感知和 语音 第一章 引言 学。噪声来源 众多, 随应用场合而异, 它们的 特性也各不相同。即使 在实验室 仿真条 件下, 也难以 找到一种通用的语音 增强算 法,能 适用于各种噪声环境. 所以必须针对不同的噪声,采取不同的语音增强对策。 3 . 2 语音增强方法 常见的语音增强系统如下图1 . 2 所示, 语音增强方法多种多样, 根据不同的 分类标准,可以 划分为不同的类型:根据语 音输入的信号通道数可分为单、多 通道语音增强;根据增强时语音的处理域不同分为时域和频域语音增强:还可 以 根据是否自 适应分为自 适应和非自 适应语 音增强。但常用的划分是根据语音 处理的不同 阶段,划 分为信号级抗噪处理方 法、特征参数级抗噪处理方法、 模 型级抗噪处 理方法p 气 图 1 2 语音增强系统图 下面我们介绍 几类常见的 语音增强算法 u 执 1 ) 噪声对消 法:基本原理是从带噪语 音信号中 减去噪声,可以 用于 平稳噪 声和准平稳噪声, 但问 题是如何得到说话者 说话时 的噪声. 一般采用两 个话筒, 一个收集语音,另 外一个收集噪声, 如果采 集到的噪声足够逼真, 可直接在时 域上直接和带噪语 音相减。该方法要求话筒间 的距离不能太远或太近, 太远收 集的噪声和带噪语音中的噪声不同, 太近收集 的噪声容易 受到说话人语音的影 响。 2 ) 谐波增强法: 语音信号的浊音 具有明 显的周期 性, 利用这一特点进行 语 音的消噪处理,采用 梳状滤波器法对信号进行 滤波, 允许基频和倍频处的语音 成分通过,而对其它频率处的噪声成分进行衰减,从而达到增强语音的目的。 第一章 引言 虽然语 音的浊 音部分具有良 好的 谐波结构, 在频域中体现出 一定的 周期性。但 语音的 清音部分能量比 较分散, 具有和随 机噪声相仿的性质, 在频域上并未表 现出 周期 性, 导致此类方法往往 对语音 特别 是语音的清音部分造成较大的 损伤。 另外语 音基频的 确定也是此 类方 法的一个 难点,在缺乏先验知 识的 含噪信号中 确定语音的基频是很困难的。而基频的失准又会带来灾难性的后果: 一方面语音 成分会 受到较 大的损失,另 一方面这种失准还会引入高 频噪声到 输出 信号中。 因 此这类方 法在实际环境中 工作的 效果和鲁 棒性受 到了 极大的 质疑。 3 ) 基 于模型的语音增强方法: 如基于i a n m 的合 成法、 平行模型补 偿法等 等。该 类方法利用噪声数据样本, 依据一定的准则对语音模型中的参 数估计、 调整,使模型更加匹配含噪的环境。 4 ) 短时 谱幅度估计 类的 语音增强 方法:如 谱减法、维纳滤波 器法. 此类方 法是在实时 处理场合中应用最多的 一类语音增强方法。一般来讲, 信号的幅度 信息比相位信息在保持语音质量和清晰度方面更为重要。根据这一点,此类方 法首先 对信号的 谱幅度加以 估计, 进而 得到 更高阶的统计特性( 如 功率 谱) . 接着 利用这些统计特性对含噪信号进行处理,最终得到增强后的语音信号。 5 ) 基于听 觉模型的增强算 法:此 类方法的特点是结合了 人耳的 听觉感知模 型, 借助人耳 听觉生理上的特性来抑制噪声、 增强语音。 该方法一般结合其他 语音增强算法一起应用。 6 ) 麦 克风阵 列:该类方法 不同 上述 几种语音增强 方法, 该类方法为多 通道 语音增强算法, 模拟人耳的 双耳效应,辨别目 标语音和噪声 干扰在 空间 位置上 的差异, 通过 波速形成算法对来波方向 上和语音不同 的噪声 干扰进行抑制,从 而增强语音。 其他的语音增强算法,比如小波降噪、神经网络等,目前也是语音增强算法 的研究热点. 第四节 主 要内容和组织结构 谱减法能 够很好的提高 语音的 信噪比 ,以及较少的计算量和空间 上的要求, 使其成为目 前应用最广的语音增强 算法. 本论文的主要工作是在谱减法的 基础 上,结 合人耳的听觉特性,动态的 修正 谱减中 的参数,提高谱减法的语音 增强 效果。本文的主要内容和组织结构如下: 第一章 引言 第一章主要先讲述语音增强的 研究背景、发展历史。 在了 解语音 和噪声的 特性的基础上,简单陈述了 常用的各种语音增强算法。 第二章主要讲解谱减法的 基本原理,并针对基本谱 减法的 缺点, 介绍了 三 种改 进谱减法: b e r o u t i 提出的 改进谱减法、非线 性谱减法、多 带谱减 法。 第三章在陈述人耳听觉系统的生理学的基础上,重点 讲解人耳的三个听觉 感 知特性: 绝对听闽、 临界频 带和掩蔽效应。 第四章主要将人耳三个听觉感知特性应用到谱减法,根据 绝对听阐和掩蔽 效 应动态设计谱减法中的 过减因子a 、谱平滑因 子夕 ,提高谱 减法语音增强效 果。此外,根据针对高频段过减厉害的问题,利用谱平坦度重新调整过减因子, 保护高频段的语音信息。 第五章介绍了 语音增强 系统实验平台的 搭建过程以 及实验结果, 并对实验 数据进行了分析。 第六章对本文进行了全面的总结,讨论了引入听觉感知特性谱减法存在的 问 题,并对以后基于听觉感知特性谱减法的改进方向进行了展望。 第二章 谱减法原理 第二章谱减法原理 谱减法首先由s . b o l l 于 1 9 7 9 3 年提出的, 其针对的 噪声是平稳的或变化缓 慢的加性噪声,并且语 音信号与噪声信号不 相关。该方 法能 够抑制背景噪声, 但由 于其局部平稳性的 假设与 实际情况并不 相符, 因此效 果不理想; 在b e ro u ti 1 a l 在传统谱减法的基础上, 增加调节噪声功率谱大小的系数和增强语音功率谱的 最小 值限 制, 提高了谱 减法的 性能,但其修正 系数和最小 值是 根据经验 确定的, 适 应 性 较 差: p l o c k w o o d 以后,有很多研究人员根据噪声对频 率各频段的影响不一样提出 了多 带谱减【 1 6 , 其他研究 人员也在谱减法的基础上 提出 了 很 多 改 进 的 办 法 【171 181 。 本 章 探 讨了 谱 减 法 的 基 本 原 理 , 并 针 对基 本 谱 减 法的缺点,介绍了三种改进谱减法。 第一节 基本谱减法 . 根据式1 . 1 所示的 加性噪 声模型, 带噪 语音信号可以 用语音信号和噪 声信号 的和表示,由于语音信号是短时平稳的,所以在处理语音信号时,先将其分帧 加窗,为了便于书写, 仍用y t n ) , d ( n ) . s ( n ) 分别表示分帧 后的 一帧带噪语音 信号采样序列、 噪声 信号 采 样序列和语音信号 采样序列。 首 先将式 1 . 1 做离散傅 里叶变换, 将语音信号从 时域 转化到频域, 得到 变换后的表达 式: y ( k ) = s ( k ) + n ( k ) ( 2 . 1 ) 其中,y ( k ) , s ( k ) , n ( k ) 分 别表示y ( n ) , d ( n ) , s ( n ) 的 离散傅里叶变换后 的幅度谱。将 2 . 1 式等式两边求模得: iy ( k )r = is (k )卜1n (k )卜 s(k)n*(k) + s (k )n (k ) - is (k l 2 + in (k )i2 + 2 r e s (k )n (k ) ( 2 . 2 ) 根据加性噪声模型的 假设, 噪 声信号和语音信号相互 独立, 即d ( 川、 s ( n ) 独 立, 根 据 傅 里 叶 变 换 性 质 , s (k ) 与 n ( k ) 也 独 立 . 又 假 设d (n ) 服 从 均 值为 零的 高 斯分布,所以有: e (r e s ( k )n* (k ) 二 0(2 .3 ) 第二章 谱减法原理 对式2 . 2 等 式两边 求取期望并将2 . 3 式带入 得 4 y (k f = e q s (k )iz + e o n (k )i2 + e ( r e s (k )n (k ) ) = e g s (k )12 十 e q n (k )r ( 2 .4 ) 其 中 , e iiy (k )i2 . e is (k )i2 . e iin (k )i2 ! 分 别 表 示 带 噪 语 音 信 号 、 语 音 信 号、 噪 声 信号 的 功 率 谱, 为 了 方 便 书 写, 我 们 用 p ,(k ) 、 p , ( k ) 、p ( k ) 分 别 表 示。则可以得到带噪语音信号模型的功率谱表达式: p ,( k ) = p , ( k ) + p ( k ) ( 2 .5 ) 由于假设噪声是局部平稳的,所以其功率谱在发音前和发音期间可 以认为 基本没有变化。这 样可以 通过发音前的 所谓 “ 寂 静段”( 认为在 这一段里没有语 音 只 有 噪 声) 来 估 计 噪 声 的 功 率 谱p . ( w ) , 从 而 我 们 可 以 得到 语 音 的 功 率 谱 计 算 公式: p , ( k ) = p ,( k ) 一 p ( k )( 2 .6 ) 根据上式计算出来的功率谱即可认为是干净语音的近似功率谱。然后,根 据估计的功率谱求取幅度谱,利用人耳对相位不敏感的特性,结合带噪语音的 相位, 使用离 散傅里 叶逆变换,得到降噪后的 语音时 域信号。 在 具 体运 算 时, 为 了 防 止 出 现 负 功 率 谱 的 情 况 , 减 谱 时 当p , ( k ) p ( k ) 时 , 令p , ( k ) = 0 , 即 完 整 的 谱 减 运 算公 式 如 下: “ ,= 1p,(w)= p0, ,(w ) 一 p . ( w ), p y (劝 之 p ( m ) p , (w ) p . ( m ) ( 2 . 乃 an ) - , , 一 1 。 声 , 、 一 p ( w ) i i 1 9 t w r 图2 . 1基本谱减法的基本原理图 基本原理图如图2 . 1 所 示。 图中 频域处理过程中 只考 虑了功率谱的 变换, 而 最后i f f t 变换中需要 借助相位谱来恢复降噪后的 语音时 域信号。 依据人耳 对相 位变化不敏感这一特点, 可以 用原来带嗓语音信号州n ) 的相位谱来代替估计之 后的语音信号的相位 谱来恢复降噪 后的 语音时 域信 号。 第二章 谱减法原理 势。 p2 0 ( 2 . 9 ) p * k - alal几 rlesesseee 一一 “ 2 )谱 平 滑因 子 ,b ( s p e c tr a l fl o o r p a ra m e t e r ) : 6 1 , 该 参 数 能 有 效的 抑 制 音乐 噪声。 音乐噪声的 产生原因为 语谱中出现孤 立的谱峰, 如果选 取合适的, 6 , 可使 孤立的谱峰周围具 有较高的 谱值, 减少了孤立 谱峰的 存在, 即 减少了 音 乐噪声。选择q 也有 一定的限 制, 如果16 过大,会增强 背景噪声; 而过小, 音 乐 噪 声 就 会 变 得 很 明 显 . 实 验 表 明 【14 1,夕 一 般 取 值在0 .0 1 -0.2 之 间 。 3 )指数r : 基本 谱减法为 功率谱 减, 增加参数y 可以得到 更具一般性的 谱减形 式, 更加灵活。当a = 1 ,声 -0, r = 1 时,算法就变为最简 单的幅度谱 相减, 就是用含噪信号的幅度谱减去噪声信号的幅度谱, 得到增强处理后语音信号 的 幅度谱。当a = 1 , q -0, r - 2时,算法就为本章 第二节叙述的基本谱减 法,也就功率谱相减。 2 . 3 . 2 非线性谱减法 b e r o u t i 提出的谱减法中参数a在谱减时为固定的,虽然针对不同信噪比的 语音, 可采用最优的“, 但对于一段 语音中所有的语音帧, 采用相同的谱减规 则。 而一段语音中的不同语音帧, 具有不同的信噪比, 应采用不同的过减因子“。 在p l o c k w o o d 确定 该 频 带 噪声的过减因子al. 采用多带谱减算法后,增强语音信号的功率谱可以用下式表示: 只( i , k ) = p y ( i , k ) 一 a ,.5 , p , ( i, k ) 刀 凡 ( i , k ) , p ,( i, k ) z p ( i, k ) p y ( i, k ) 尺 ( i, k )b i 5 k 5 e , ( 2 . 1 3 ) 其 中b , , e , 分 别 表 示 第i 个 频 段的 起 始频 率点 和 结 束 频 率 点。a,和a ; 分 别 为 第i 个 频 率 带的 噪 声 过 减 因 子 和 旋 转因 子. a , 是 第i 个 频 率 带 信噪比 p ; 的 函 数 0 6 1, 可 表 示 为, a 2 0 ( 2 . 1 4 ) 八 * 5 曰.几 0. - 541.1 fll - a, 第二章 谱减法原理 其 中 第1 个频 段信 噪比a由 下 式 计算 得 到 : 鑫 qp, (z+ k)r 一 pn (e, k)12 )_ . 八 = i o tg i宁尸2 i ( d b ) 乞p n ( 2, k ) l几 构 ( 2 . 1 5 ) 旋 转因 子s , 为 各个 频 带 噪声 抑 制 度 的 另 一 个 控 制 因 子, 它的 取 值反 映 了 语 音 信 号 能 量 分 布 的 特 点 ,氏 是 一 个 分 段 常 数 , k 16 根 据实 验 得 到 药 的 值 为 ( 2 . 1 6 ) r卜廿|枚|日犷 ee 氏 上 式 中 , 石 表 示 第i 个频 率 带 的 上 限 频 率 值, f , 为 采 样 频率 。 因 为 语 音 信 号 的能量大部分集中在低频段,为了使语音失真最小,因此在低频段取较小的值. 多带谱减中 最重要的是怎 样划分 频带, 可以按 照文献【 , 日 中的划分, 将频带 按式 2 . 1 6 划分为 三个互不重叠的部 分, 也可 根据耳 蜗的时 频分析 特性来 划分, 划分方法将在第三、四章介绍。 第四节 实验和小结 我们以 一段语音来分析基本谱减法和三种改进 谱减法语音增强的效果。图 2 . 4 ( a ) 中 显示的 是一 段采样率为1 6 k h z 的干 净语音的 语谱图.图2 . 4 ( b ) 显示的是 该干挣语音 混入噪声后的 带噪语音的 语谱图, 从语谱图上可以 看出, 千净语音 已 经混入了 大量的 噪声。由 于语音波形图 对于鉴别干 挣语音、带噪语音、增强 语音没有太大的帮 助, 所以 在本文中,只 给出 对 应的语谱图。 图2 .5分 别显示了含噪 语音经 过基本谱减法、 b e r o u t i 谱减法、 非线性谱减 法和多 带谱减法 后, 增强 语音的语 谱图。 从图2 .5 可以 看出, 经过基本谱减后残 留的 噪声 很多, 而b e r o u t i 谱减法、非线性 和多带谱 减法不同程度的降 低了噪声 含量,特别是多带 谱减,因针对不同频带,采 用不同 的过减因子,效果从语谱 图上 看要比b e r o u t i 、非线 性和基本谱 减法好。 从图2 . 5 所示的 语谱图 也可以 看出 ,增强 语音的 语谱图中 均含有孤立的点, 第三章 听觉模型及听觉特性 界带. 当掩蔽噪声的带宽 窄于临界 带的 带宽时, 能掩蔽 住纯音f 的 强度是随噪声 的带 宽的增加而增加的, 但当掩蔽噪声的带宽 达到临界带后,继续 增加噪声带 宽 就不再引 起掩蔽量的提高。临界带宽 是随其中心频率而变的,被 掩蔽纯音的 频率 ( 即 临界带的中心频 率) 越高, 临 界带宽也越宽。 但两者的变化 不是一种线性 关系。 对于大部分人, 临界频 带带宽可 用式3 . 4 近似描述。 b w ( f ) = 2 5 + 7 5 1 + 1 .4 (f / 1 0 0 0 ) r (h z ) ( 3 .4 ) 虽然上 式中f 是连续的, 不过实际系 统中, 均建立一组离散带通滤 波器。 通常人 耳能感受 到的频率范围 为2 0 h z - 2 0 k h z , 在2 0 h z 到2 0 k h z 范围内 有2 5 个临界 频带,如表 3 . 1 所示 表3 . 1 临界频带分布 临界频带 频; 率( hz) ( b a r k ) 中心频率低端高端 宽度 15 02 0 1 0 08 0 21 5 01 0 02 0 01 0 0 32 5 02 0 03 0 0 1 0 0 4 3 5 03 0 04 0 01 0 0 54 5 04 0 051 0 1 1 0 6 5 7 05 1 06 3 01 2 0 77 0 06 3 07 7 0 1 4 0 88 4 07 7 0 9 2 01 5 0 91 0 0 09 2 01 0 8 01 6 0 1 01 1 7 01 0 8 01 2 7 0 1 oo 1 1 1 3 7 0 1 2 7 0 1 4 802 1 0 1 21 6 0 01 4 8 01 7 2 02 4 0 1 31 85 01 7 2 0 2 0 0 02 8 0 1 4 2 1 5 02 0 0 02 3 2 03 2 0 1 52 5 0 02 3 2 02 7 0 03 8 0 1 62 9 0 0 2 7 0 03 1 5 04 5 0 1 7 3 4 0 03 1 5 03 7 0 05 5 0 1 84 0 0 03 7 0 0 4 4 0 07 0 0 1 9 4 8 0 04 4 0 05 3 0 09 0 0 2 05 8 0 05 3 0 06 4 0 01 1 0 0 第三章 听觉模型及听觉特 性 表3 . 1 ( 续) 临界 频带分布 2 17 0 0 0 6 4 0 07 7 0 01 3 0 0 2 28 5 0 07 7 0 09 5 0 01 8 0 0 2 31 0 5 0 09 5 0 01 2 0 0 0 2 5 0 0 2 41 3 5 0 01 2 0 0 01 5 5 0 03 5 0 0 2 51 8 7 7 51 5 5 0 02 2 0 5 0 6 5 5 0 临界频带的 单位叫b a r k ( 巴 克 ) , 1 b a r k 等于 一个临界 频带的宽度。 当 频率小 于5 0 0 h z 时 , l b a r k 约 等 于 f / 1 0 0 ; 频率 大 于5 0 0 h z 时 , 1 b a r k 约 等于9 + 4 1 o g v/ 1 0 0 0 ) ,即约为 某个 纯音中 心频率的2 0 % . 频率由h z 转化为b a r k的 计算公 式 12 11如 下: :。 二 ,、 曰.000 76n 3一 ( f 23arctran(0.00076f) + 3.5arctran 1 l(7500) j一 , ( 3 . 5 ) 临界频带的 划分是以 听觉带宽 信号的听觉特性为根 据的,临界频带 与频率 的关系, 与耳蜗中 基底 膜长度与频率关系完全相同 。因 此, 将频率按临界频带 划分,便于对听 觉特性 进行分析, 便于找出 人耳的主观感 觉与声音的物理性质 之间的关系,对于解决与听觉有关的各种问题以及建立听觉模型是十分有用的. 3 . 2 . 3掩蔽效应 两个声音同时 呈现时, 一个声音因受到另 一个声音影响而减弱的现象就是 掩蔽现象。 在日常生活 中经 常可以 遇到声音的 掩蔽 现象,一个声音由于其它声 音的干扰而使听觉发生困难,前者必须增加强度才能重新听到,这种听闽强度 增加的过程和声 音强 度增加的 量就叫声音的 掩蔽效 应。 要听的声音叫做被掩蔽 音,起千扰作用的声音叫掩蔽音。掩蔽现象可分为同时掩蔽( s i m u lt a n e o u s m a s k i n g ) 和瞬时掩蔽 ( t e m p o r a l m a s k i n g ) 。由 于瞬时 掩蔽效 应主要 利用在音联现 象,目前还没有应用到降噪,所以我们重点讲解同时掩蔽效应。 1 ) 同时掩蔽 一个强纯音 会掩蔽 在其附 近同 时发声的弱 纯音, 这种特性称为频域掩蔽, 也称同时掩蔽( s i m u lt a n e o u s m a s k i n g ) 。当两个响 度不等的声 音作用于人耳时, 则 响度较高的频率成分的 存在会影 响到对响度较 低的 频率成分的 感受,使其变得 不易察觉。 由于频率 较低的声 音在内 耳耳蜗基底膜上行波 传递的 距离远于频率较高的 第三章 听觉模型及听觉特性 声音, 故一般来说, 低频的纯音可以 有效的掩蔽高 频的纯音,而高频的纯音对 于低频的纯音掩蔽作用很小。此外,试验证明对于中等掩蔽强度来说,纯音最 有效的掩蔽 是出 现在它的频 率附 近。 如图 3 .4所示,一个声强为 6 0 0 ,频率为 1 0 0 0 h z的纯音,另外还有一个 1 1 0 0 h z 的 纯音, 前者比 后者高 1 8 d b , 在这种 情况下 我们的耳朵就只能听到那 个1 0 0 0 h z 的强音。 如果有一个1 0 0 0 h z 的纯 音和一 个声强比 它低 1 8 d b的2 0 0 0 h z 的 纯音,那么我 们的 耳朵将会同时听到 这两个声 音。要 想让2 0 0 0 h z 的纯音 也听不到,则需要把它降到比 1 0 0 0 h z 的纯音低 4 5 d b 。一般来说,弱纯音离强 纯音越近就越容易被掩蔽。 户强( b) 8 0。, 一 一 8 频率 ( e m) 1 2 1 4 1 6 图3 .4频率为】 0 0 0 h z 、声强为6 0 d b的 纯音的 掩蔽效应 根据掩蔽音的不同,我们可 以将频率掩蔽分为两种类型:纯晋掩蔽 ( t o n e - m a s k i n g ) , 噪 音掩蔽 ( n o i s e - m a s k i n g ) , 下面我们 将介绍这两种不同掩蔽类 型的特点。 a ) 纯音掩蔽:以 某个定 额频率的 纯音来掩蔽其 它不同 频率的 纯音, 再来观 察后者阐 值提高的 情况.图3 . 5是佛莱 奇尔 ( f l e t c h e r , 1 9 5 3 )的 一个实验结果, 从图上可以看到以 下几种情况:( 1 ) 掩蔽音强度提高, 掩蔽效果随之增加,当 4 0 0 h z 的 掩蔽音是4 0 d b时, 8 0 0 h z 的 纯音要达到1 3 d b时 才能听 到;当 该掩蔽 音提高到8 0 d b时, 8 0 0 h z 的 纯音须 增加 到6 0 d b才能 听到,而且 掩蔽 音愈强, 它的影响范围也愈 大。 例如2 0 d b的4 0 0 h z , 掩蔽音只影 响到2 0 0 - 8 0 0 h z 的频率 范围,而8 0 - 1 0 0 d b的4 0 0 h z 掩蔽音可影响 到4 0 0 0 h z 以 上的频率范围。 ( 2 ) 掩 蔽音对于频率 相近声音的 影响最大. 例如3 5 0 0 h z 掩蔽音 对于3 0 0 0 - 4 0 0 0 h z 纯音 的影响明显大于3 0 0 0 h z以下纯音的影响。( 3 ) 低频对高频的掩蔽效果大于高频 第三章 听觉模型及听觉特性 对低频的 掩蔽。 例如4 0 o h z 掩蔽音对高 频音的 影响范围 和效果相当 大, 而3 5 0 o h z 掩蔽音对低频音的影响范围和效果就相当小。 丸4 0 d a z ion 100 二一 日: 3 5 0 o r t u 月母 j纽j哺1 编厂解 卜洁,!走叮 阂值交化(db) 4020 / . . 丽0一1 6 0 0 2 4 0 0 3 2 0 0 4 0 0 0 丽0 1 6 0 0 2 4 0 0 3 2 0 0 4 0 0 0 数率 ( h z ) 撷率 (r z ) 图3 . 5纯音对纯音的掩蔽效果 b ) 噪声 掩蔽: 在一个临界 频带
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年山东文旅集团科技发展有限公司招聘考前自测高频考点模拟试题及答案详解一套
- 2025年中共黑龙江省委党校(黑龙江省行政学院)公开招聘专业技术人员6人考前自测高频考点模拟试题完整答案详解
- 2025湖南农业大学第二批招聘14人模拟试卷及答案详解(历年真题)
- 2025年宿州学院专职辅导员公开招聘12人考前自测高频考点模拟试题及参考答案详解一套
- 2025年甘肃省临夏州和政羊智慧文旅发展有限公司招聘52人模拟试卷及答案详解(易错题)
- 2025昆明市第二人民医院融城老年病医院(5人)模拟试卷及答案详解(必刷)
- 2025湖南怀化市产业投资集团有限公司高层次及急需紧缺人才引进考前自测高频考点模拟试题及答案详解(新)
- 2025江苏南通市海门区某机关单位招聘5人(某机关单位会务、点心师、服务员、安保)考前自测高频考点模拟试题及答案详解1套
- 2025江苏徐州市中心医院(东南大学附属医院)医疗集团招聘非在编医务人员(临床、医技、管理岗)191人考前自测高频考点模拟试题有完整答案详解
- 2025金沙县国有资本投资运营集团有限公司考前自测高频考点模拟试题完整参考答案详解
- 股份清算协议书范本
- 成人门急诊急性呼吸道感染诊治与防控专家共识 2
- 《湖南民居特色》课件
- 2025年度火锅店合伙人合作协议书:特色火锅底料配方保密协议
- 脑血管造影术围手术期管理
- 岗位化验员述职报告
- 2023年价格鉴证师考试《价格鉴证案例分析》试题真题及答案二
- 小学阶段多音字总汇
- 生育服务证办理承诺书(河北省)
- 2025年中信保诚人寿保险有限公司招聘笔试参考题库含答案解析
- 两人合伙经营网吧协议
评论
0/150
提交评论