




已阅读5页,还剩47页未读, 继续免费阅读
(通信与信息系统专业论文)基于人耳掩蔽效应的谱减算法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 摘要 近年来 随着物联网的提出和兴起 语音在通信和信号处理领域的重要性愈发显著 对语音处理后的效果要求也逐渐提高 本文主要研究了在低信噪比和非平稳噪声情况下 的基于掩蔽效应的谱减算法 其中深入研究了单通道的谱减算法 同时初步研究了双通 道谱减算法的消噪和去干扰性能 文中简单介绍了两种不同的双通道谱减算法的思想和 结构 并通过实验仿真分析提出了一些看法 文中采用的基于人耳掩蔽效应的单通道谱 减算法 与v i r a g 提出的算法相比 主要有三处改进 首先 通过对两种经典的噪声估 计算法 o s m s 算法和m c r a 算法 的研究和对比分析 选用最小控制递归平均 m c r a 噪声估计算法来替代用语音活动检n v a d 估计背景噪声 其次 改进了谱减增益函数 的形式 将过衰减因子乘上一个正数来提高噪声衰减程度 减小残余噪声 第三 在输 入信号进行高通预加重前 先经过一个高通滤波器来去除低频噪声 最后 本文改进的 算法通过客观和主观两种性能评价方式在不同噪声背景下来进行评判 其结果验证该改 进的算法在低信噪比和非平稳噪声背景下的性能比较优越 噪声衰减较大 语音保留度 较高 音乐噪声较少 更符合现代听者的需求 关键词t 掩蔽效应 谱减算法 m c r a o s m s a b s t r a c t h lr e c e n ty e a r s a l o n gw i t ht h ei n t e r n e to f t h i n g s p r o p o s e da n dr a i s e d t h ei m p o r t a n c eo f s p e e c hi nc o m m u n i c a t i o na n ds i g n a lp r o c e s s i n gf i e l di sm o r es i g n i f i c a n t t h i sp a p e r m a i n l y r e s e a r c ham o d i f i e ds p e c t r a ls u b t r a c t i o na l g o r i t h mb a s e do nt h em a s k i n gp r o p e r t yi nl o w s i g n a l t o n o i s er a t i oa n dn o n s t a t i o n a r yn o i s e a m o n gf o c u s0 1 1s i n g l ec h a n n e l s p e c t r a l s u b t r a c t i o na l g o r i t h m a n dp r e l i m i n a r yr e s e a r c ht h ed e n o i s i n ga n di n t e r f e r e n c e sr e m o v a li n t w oc h a n n e ls p e c t r a ls u b t r a c t i o na l g o r i t h m t h i sp a p e rb r i e f l yi n t r o d u c e dt h et h o u g h t sa n d s t r u c t u r e so ft w od o u b l ec h a n n e ls p e c t r a ls u b t r a c t i o na l g o r i t h m s a n dp r o p o s e ds o m ev i e w s a f t e rs i m u l a t i o n sa n d r e s u l t s a n a l y s i s i i lc o m p a r i s o nw i t hv i r a g sa l g o r i t h m t h em o d i f i c a t i o n o fp r o p o s e dm e t h o di np a p e ri sm a d ef r o mt h r e ea s p e c t s f i r s t l y a f t e rr e s e a r c h c o n t r a s ta n d a n a l y s i so ft w oc l a s s i c a ln o i s ee s t i m a t i o na l g o r i t h m s o s m sa n dm c r aa l g o r i t h m t h e v a d w o i c ea c t i v i t yd e t e c t i o n i ss u b s t i t u t e db ym c r a m i n i m ac o n t r o l l e dr e c u r s i v e a v e r a g i n g a l g o r i t h mt oe s t i m a t et h eb a c k g r o u n dn o i s e s e c o n d l y am o d i f i e df o r mo f p a r a m e t r i cs p e c t r a ls u b t r a c t i o ni se m p l o y e d t h eo v e r s u b t r a c t i o nf a c t o ri sm u l t i p l i e db ya p o s i t i v ec o n s t a n t w h i c hw i l lp r o v i d em o r ea t t e n u a t i o nt or e d u c et h er e s i d u a ln o i s e t h i r d l y b e f o r et h ei n p u ts i g n a li m p l e m e n tt h eh i g h p a s sp r e e m p h a s i s d ot h e h i g h p a s sf i l t e rt o r e m o v et h el o w f r e q u e n c yn o i s ef i r s t f i n a l l y o b j e c t i v ea n ds u b j e c t i v ee v a l u a t i o no ft h e m o d i f i e da l g o r i t h mi sp e r f o r m e dw i t hs e v e r a ln o i s et y p e s a n dt h er e s u l t sc o n f i r mt h e p r o p o s e da l g o r i t h m sp e r f o r m a n c ei s m o r es u p e r i o ri nl o ws i g n a l t o n o i s er a t i oa n d n o n s t a t i o n a r yn o i s e w h i c hp r o v i d em o r en o i s ea t t e n u a t i o n m o r es p e e c hr e t e n t i o n a n dl e s s m u s i c a ln o i s e a n dm o r ep l e a s a n tt oam o d e r nh u m a nl i s t e n e r k e yw o r d m a s k i n gp r o p e r t y s p e c t r a ls u b t r a c t i o na l g o r i t h m m c r a o s m s 硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 1 绪论 1 1 应用背景及研究意义 近年来 随着物联网这一新兴产业的推出和政府给予的支持 越来越多的企业和技 术向其方向发展 与物联网相关的技术得到了大量的关注和研究 2 0 0 9 年9 月 在 物 联网与企业环境中欧研讨会 上 欧盟委员会信息和社会媒体司l o r e n tf e r d e r i x 博士给 出了欧盟对物联网的定义 物联网是一个动态的全球网络基础设施 它具有基于标准和 互操作通信协议的自组织能力 其中物理的和虚拟的 物 具有身份标识 物理属性 虚拟的特性和智能的接口 并与信息网络无缝整合 物联网将与媒体互联网 服务互联 网和企业互联网一道 构成未来互联网 从技术架构上看 物联网主要分为三层 感知 层 网络层和应用层 在这三层中 不管是信息的识别 采集 信息的传输 处理 信 息的交互 应用 信息处理技术都是不可或缺的 物联网用途广泛 遍及环境保护 政 府工作 智能交通 公共安全 智能消防 平安家居 工业监测 敌情侦查等多个领域 语音在物联网中的应用更是不可小觑 在物联网广泛的应用领域中 语音智能技术正逐 渐成为新时代的领军关键技术之一 如 语音云计算 声控 人机交互及自动语音提示 或报警等 随着科技的发展 人们对生活品质的要求等 现代社会语音技术的应用将逐 渐赶超按键技术和触屏技术 成为大众化的生活 工作方式 语音是人类最重要 最便捷可靠的交流工具 它自然方便 准确高效 随着社会的 发展 科技的进步 各种各样的机器参与到我们的生活 工作中 摆脱繁重的键盘 鼠 标 按钮等机械设备的束缚 使用更友好 亲切 便捷的人机界面是人们一直所期盼追 求的 而语音信号处理正是可以满足上述要求的重要技术 它是语音学和数字信号处理 技术相结合的交叉学科 其研究领域很广 涉及到信号处理 模式识别 人工智能 语 言学等众多学科 在语音通信 多媒体信息处理 智能通信等方面都有着极为重要的应 用 在语音采集 传输 应用中不可避免的会遭受到各种噪声 干扰的污染 使得采集 到的 处理到的噪声不再是纯净语音 而是各种带噪语音 导致语音处理系统的性能急 剧下降 其噪声 干扰主要来自采集时的背景噪声 或干扰 传输信道的噪声及设备内 部的噪声等 对带噪信号进行处理 尽可能的恢复纯净语音 提高通信系统的性能 其 关键技术之一就是语音增强 而伴随着经济的高速发展 各种各样的噪声无处不在 语 音增强技术的需求正在大幅度增加 同时随着人们对生活质量要求的提高 对语音增强 后的效果也要求越来越严格 这使得语音增强技术的研究称为近几年的关注热点 语音增强的主要目的有两个 一是改进语音质量 提高信噪比 使听者乐于接受 二是提高语音可懂度 使听者便于理解 识别 一般这两种目的不能同时兼得 应该根 据不同的情况和要求 来适当选择偏重一方 达到系统处理的具体要求 l l 绪论 硕士论文 1 2 研究现状及存在的问题 语音增强技术是解决噪声污染的有效方法之一 其主要目标是从带噪语音信号中提 取尽可能的原始纯净语音 降低噪声和干扰的污染 改善语音质量和提高可懂度 随着 现代社会的进步和发展 对受背景噪声污染和干扰影响的语音进行增强去噪具有着较强 的实际应用价值 是一个备受关注的重要课题 语音增强也随之成为当前语音处理中的 一个重要研究方向 语音增强技术有着广泛的应用场景 如语音编码 语音识别 说话 人识别等应用的预处理 应用于军事 医疗等领域如监听器 助听器等 应用在通信 网络等领域如手机 智能导航等 对大部分带噪语音处理应用 语音增强技术都是必不 可少的一部分 经语音增强后系统的信噪比会得到较大的提高 从而使后续语音处理简 便 高效 对于目前研究较热的人机交互等前沿智能技术 语音处理又再一次掀起研究 热潮 而语音增强也成为目前研究不可或缺的一部分 语音增强这一研究课题早在2 0 世纪6 0 年代就已经引起了研究学者的注意 2 0 世 纪7 0 年代随着数字信号处理理论的成熟 曾形成一个研究热潮 取得了一些基础性成 果 并使语音增强发展成为语音数字信号处理中的一个重要分支 2 0 世纪8 0 年代以后 v l s i 技术的发展及高速d s p 的出现为其实时处理实现提供了可能 并使各种语音增强 算法不断涌现并走向实用 近些年来 随着人类听觉感知系统的生理特性研究 人机交 互及全球智能化的热潮等 都在进一步推动着语音增强的研究 语音增强算法种类繁多 从信号输入的通道数上可分为单通道语音增强和多通道 语音增强 多通道语音增强大部分以双通道为主 单通道语音增强是指信号的输入通道 只有一个 即语音和噪声等同时存在于一个通道中 所需的目标语音必须通过输入的带 噪语音信号中提取获得 多通道语音增强是指信号的输入通道有多个 各个输入通道之 间存在某些相关特性 利用这些相关特性可以有效地进行语音增强处理 在某些应用如 现代视听 通信设备中 采用两个麦克风 一个用来采集带噪语音称为主通道 一个用 来采集噪声称为噪声通道 将噪声通道采集到的噪声信号直接当作带噪语音中的背景噪 声 从带噪语音中按比例大小减去噪声信号即可获得纯净语音 还有一种多通道语音增 强是采用阵列信号 多个按一定方式排列的麦克风组成麦克风阵列 由于多个信号源到 达各个麦克风的距离和方位不同 各麦克风接收到不同的叠加信号 利用这些叠加信号 之间的关系采用相关的处理算法即可获得所需的目标信号 本课题以单通道语音增强为 主 第五章会初步研究双通道相关的算法 单通道处理系统是目前最普遍的实时语音增强处理算法选择方案之一 通常情况 下 处理系统的第二个通道在大部分应用场合中比较难以获得 比如助听器 语音识别 系统等 与多通道处理系统相比 单通道系统更容易搭建 花费的代价更少 在众多单 通道语音增强算法中 谱减法凭借其简便易执行 参数调节的高度灵活性 噪声衰减能 2 硕士论文 基于人耳掩蔽效应的谱减算法的研究与实现 力大等优点 得到了较多学者的关注 谱减算法最主要的缺点就是在增强后的语音中引 入 音乐噪声 造成听者的不便和困扰 在低信噪比 非平稳噪声的环境下 语音增 强技术的研究往往存在着降噪能力弱 残余噪声多或者语音失真度较大 音乐噪声明显 等问题 本文通过研究改进的基于掩蔽效应的谱减算法在降噪能力 残余噪声水平和语 音失真度之间进行合理折中 实现了上述问题的最小化 在语音增强的同时提供一种舒 适的听觉效果 1 3 本文主要工作及结构安排 本文首先介绍了语音信号的声学基础特性和噪声特性 其中重点描述了语音信号的 感知方面 为下面课题的研究提供理论基础 接着 重点介绍了两种较经典的噪声估计 算法 并通过仿真对比分析 选择适合本课题研究的噪声估计算法 然后 简单介绍了 语音增强技术 并重点整体分析 研究v i r a g 的基于掩蔽效应的单通道谱减算法 并进 行改进 优化 得到更优越的语音增强效果 此外 对双通道谱减算法也进行了初步研 究 分析 最后 通过客观和主观两种性能评价方法 对本课题研究的算法进行评估并 得出结论 本论文的具体结构安排如下 第一章 绪论 主要阐述了本课题的应用背景 研究意义 研究现状 现存的问题 及主要工作内容 第二章 语音信号的声学基础及噪声特性 主要介绍了语音信号的产生及特征 噪 声特性和语音信号的感知等内容 为下文的研究作准备 第三章 背景噪声功率估计 主要介绍了两种经典的噪声估计算法 基于最优平滑 和最小统计特性噪声估计算法和基于最小值控制递归平均噪声估计算法 并对二者进行 仿真 对比 分析 得出结论 第四章 基于掩蔽效应的单通道改进谱减算法 先简单阐述了语音增强技术 然后 对v i r a g 的基于掩蔽效应的单通道谱减算法进行整体介绍和研究 同时对该算法提出了 自己的改进之处 并对其进行仿真 分析等 第五章 基于掩蔽效应的双通道谱减算法 简单描述了本章中双通道谱减算法的原 理 介绍了两种双通道谱减算法 一体化式的和级联式的 并进行仿真 分析等 第六章 语音增强的性能评价 主要介绍了客观和主观两种性能评价方法 并对所 研究的课题算法进行评估 分析 得出结论 第七章 结论与展望 对全文进行总结 分析本文中的不足 对下一步工作研究提 出建议 2 语音信号的声学基础及噪声特性 硕士论文 2 语音信号的声学基础及噪声特性 噪声污染是现代社会面临的日益加剧的环境问题之一 语音增强可有效的解决这一 问题 其主要目标之一就是从带噪语音信号中提取尽可能纯净的原始语音 即去掉语音 信号中的噪声和干扰 改善它的质量 可见 语音增强不仅涉及信号检测 信号参数估 计等传统信号处理理论 而且同语音特性 人耳感知特性等息息相关 其次 在实际应 用场合中 噪声来源众多 其种类和特性各不相同 造成噪声处理方法多种多样 因此 在研究语音增强课题时一般都要结合语音特性 噪声特性及入耳感知特性等方面 并根 据实际情况选用合适的处理方法 语音增强研究的基础是对语音和噪声特性的了解和分 析 下面介绍语音和噪声的主要特性 2 1 语音信号的产生及特性 语音的产生依赖于人类的发音器官 发音器官包括肺 气管 喉 包括声带 咽 鼻和口等 这些器官共同形成一条形状复杂的管道 其中喉以上的部分称为声道 随发 出声音的不同它的形状是变化的 而喉的部分成为声门 在发音器官中 肺和气管是整 个系统的能源 喉是主要的声音生成机构 而声道则对生成的声音进行调制 i l 语音是由空气流激励声道从口或鼻或同时从口和鼻辐射出来而产生的 按照激励 形式的不同可将语音分为三类 浊音 它的激励源是位于声门处的准周期脉冲序列 清 音 其激励源是位于声道的某个收缩区的空气湍流 类似于噪声 爆破音 其则是位于 声道的某个闭合点处建立起来的气压及其突然释放 类似于冲击性声源 作为激励源l l j 语音信号的特性如下 1 语音信号是时变的 非平稳的随机过程 但由于人类发音器官的变化速度比声 音振动的速度缓慢 在一段短时间i 为 1 0 3 0 m s 声带和声道的形状是相对稳定的 可认 为其特性基本保持不变 即语音信号具有短时平稳性 语音信号的短时平稳性是语音信 号数字处理和分析的基础 利用这一特性就可以将其当作平稳随机过程来进行分析和处 理 2 语音信号主要可分为清音和浊音两大类 二者在产生机理和特征上有着显著的 差异 由声带振动产生的音统称为浊音 其在时域呈现明显的周期性 在频域具有共振 峰结构 并且能量大部分集中在低频段内 浊音部分和音质关系密切 不由声带振动产 生的音统称为清音 它没有明显的时域和频域特征 类似于白噪声 在强噪声中容易被 掩盖 其能量小而且主要集中在高频段 在语音增强中 可利用浊音具有明显的周期性 和共振峰等特性来区分和抑制非语音噪声 而清音则很难与宽带噪声相区分 3 语音信号可以用统计特性来分析描述 由于语音信号为非平稳 非遍历的随机 4 硕士论文 基于人耳掩蔽效应的谱减算法的研究与实现 过程 其长时间的时域统计特性在语音增强处理中的意义不大 语音信号的短时谱幅度 的统计特性是时变的 只有在分析帧长趋于无穷大时 才能近似认为其具有高斯分布 高斯分布模型是根据中心极限定理得到 将高斯模型应用于有限帧长只是看作一种近似 的描述 对于宽带噪声污染的语音增强 可将这种假设作为分析处理的前提f l j 2 2 噪声特性 在实际应用中噪声来源于不同的环境 其种类繁杂 特性变化很大 根据与输入信 号的关系 噪声可分为加性噪声和非加性噪声 如乘性噪声 卷积噪声等 部分非加性 噪声可以通过某些相应的变换 如同态变换等 转换成加性的 本文我们主要讨论研究加 性噪声 并将其作为本课题的背景噪声 常见的加性噪声如下 1 周期性噪声 其主要来源于发动机等周期性运转的机械或电气干扰等 特点是 具有较多离散的窄谱 2 冲激噪声 其主要来源于放电 爆炸 撞击及突发性干扰等 特点是其时域波 形突然出现类似冲激函数的窄脉冲 3 宽带噪声 其来源很多 如热噪声 气流噪声 如风 呼吸等 及各种随机噪声源 等 特点是宽带噪声和目标信号在时频域基本重叠 消除较困难 4 同声道干扰信号 本文主要指同声道的干扰语音 主要是麦克风等拾音器拾得 的非目标语音 2 3 语音信号的感知 语音增强的效果最终的评价标准是听者的主观感受 人类语音感知对语音增强的研 究有着不可替代的作用 主观感知是人体生理和心理多方面统一作用的结果 人耳对背 景噪声有较强的抑制作用 了解其机理可有助于语音增强技术的发展 2 3 1 听觉系统 耳是人类的听觉器官 作用是接收声音 并将其转换成神经刺激 所谓语音感知 就是将所听到的声音经大脑处理后变成确切的含义 2 1 人耳是一个十分奇妙的音频信号 处理器 其对声音的处理能力来自于它独特的生理结构 人耳由外耳 中耳及内耳三部分组成 其中 外耳由耳廓 外耳道及鼓膜组成 外耳道对声波的共振频率大约为3 4 0 0 h z 其共振效应使声音得到1 0 d b 左右的放大 并 通过鼓膜的振动将声音信息传到内耳 一般认为外耳在声音感知中起着声源定位及声音 放大的作用 对声音的放大作用除 y j l 耳道的共振效应外 头部的衍射效应也会增大鼓 膜处的声压 使声音得到2 0 d b 左右的放大 中耳主要由锤骨 砧骨及镫骨三块听小骨 5 2 语音信号的声学基础及噪声特性硕士论文 组成 中耳的作用主要有两个 一是进行声阻抗变换 将中耳两端的声阻抗匹配起来 二是保护内耳 在一定声强范围内 听小骨实现声音的线性传递 而当声强特大时 则 对声音进行非线性传递 内耳主要由耳蜗构成 耳蜗是听觉的受纳器 其将声音信号通 过机械变换产生神经信号 3 1 耳蜗中的一重要组成部分是基底膜 其具有与频谱分析仪 相类似的作用 2 3 2 听觉特性1 1 2 l 任何复杂多变的声音都可用声强 或声压 的三个物理量来表示 幅度 频率和相位 对于入耳的感知 可用另外三个特性来进行描述 响度 音调和音色 即所谓的声音三 要素 1 响度 语音信号是一种复合音 由包含了许多频率成分的谐波组成 对于不同频 率的纯音 人耳有着不同的听辨灵敏度 响度就是一个人对不同频率成分声音强弱程度 主观感知的物理量 单位是方或宋 人耳可以听到的声音的频率范围大约为2 0 i i z 2 0 k h z 年轻人可以听见2 0 1 d i z 的声音 而老年人能听到的声音则衰退为1 0 k h z 左右 当声音小到人耳刚刚能听到时的强度 称为听阈 听阈值和响度的大小是随着频率 的变化而变化的 当声音大到人耳感到疼痛的强度时 称为痛阈 同样 人耳对不同频 率的痛阈也是不同的 如下图2 1 所示 l j 一1 2 0 l i 1 一一 i o一 孓睾 钟 沁 s n 料 o 一 l 种 nr 港 卜 之 一柚 a 7 2 口 7 入 一 7 二 一 7 图2 1 等响度曲线与声强级的关系f 4 j 2 音调 音调是反映人耳对声音频率高低感受的物理量 也称为音高 单位是美 音调与声音的频率有关 一般频率高的声音听起来感觉其音调高 频率低的声音听起来 音调低 但音调和声音的频率并不成正比 而近似为对数关系 因为其还与声音的强度 和波形相关 如下图2 2 所示 6 硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 l 1 一 l l z 图2 2 音调与频率的关系曲线 5 1 3 音色 音色也称音质 反映了声音的属性 是一种声音区别于其他声音的基本 特征 每个声音具有特殊的音色 根据音色在主观感觉上的不同来区别具有相同音调和 响度的两个声音 2 3 3 掩蔽效应1 2 3 l 掩蔽效应是人耳的另一重要听觉特性 当两个响度不同的声音作用于人耳时 由于 响度较高的频率成分的存在会影响到响度较低的频率成分的感知 使其不易被察觉 这 种现象被称作掩蔽效应 较强的声音称作掩蔽者 较弱的声音称作被掩蔽者 掩蔽效应 分为时域掩蔽和频域掩蔽两类 l 时域掩蔽 时域掩蔽又称为异时掩蔽 是指在时间上相邻的两个声音之间的掩蔽现象 其又可 分为超前掩蔽 p r e m a s k i n g 和滞后掩蔽 p o s t m a s k i n g 如下图2 3 所示 从根本上看 在掩蔽者的出现之前 当中或之后 被掩蔽者的绝对可听阈值抬高了 使得被掩蔽者不 易被察觉 一般来说 超前掩蔽持续时间很短 大约只有5 m s 而滞后掩蔽可以持续约 5 0 3 0 0 m s 事实上这都取决于掩蔽者的强度和持续时间 另外 时域掩蔽已经被成功 用于多种音频编码算法中 瑚o鞠l i o铀l l 钮枷 掩裾渚出现后 m s 掩蔽誊茸失后 m s 图2 3 时域掩蔽嘲 7 2 语音信号的声学基础及噪声特性 硕士论文 2 频域掩蔽 频域掩蔽又称为同时掩蔽 是指同时发生的两个声音 强纯音会掩蔽弱纯音使其 变得不可闻 如下图2 4 所示 下图中的虚线是指安静时人耳的绝对听觉阈值曲线 即 当一个声音信号的声强低于听阈 即安静时绝对听觉阈值 时 人耳是听不到的 如果一 个较强声音信号 即掩蔽者 存在 则此时的听觉阈值不再等于安静时的阈值 在掩蔽者 频率附近 听觉阈值会被提高 图中由于频率为l k h z 声强为6 0 d b 的纯音的存在 使 其附近的听阈被提高 本来可以听到的频率为1 5 k h z 声强为2 2 d b 的声音信号变得不可 闻 而频率为2 k h z 声强为4 0 d b 的声音信号仍高于听阈 人耳可以听到 一般来说 对于中等掩蔽强度 纯音最有效的掩蔽出现于它的频率附近 低频声音可以有效地掩蔽 高频声音 而高频声音对低频声音的掩蔽作用则比较小 本课题只考虑频域掩蔽即同时 掩蔽 声鲎 嘞 如 绚 0 9 2 4 58 1 0 1 21 4 菝率甜珊 图2 4 频域掩蔽 4 l 本小节讨论的掩蔽效应是人耳一大重要的听觉特性 在语音信号处理中得到了较好 的应用 在此介绍为后续章节中掩蔽门限的计算作准备 2 4 本章小结 本章主要介绍了语音信号和噪声信号的一些基础知识 包括语音信号的产生及其特 性 噪声信号的分类及其特点和语音感知方面的知识等 本课题是从人耳感知方面出发 研究的语音增强类的算法 所以本章重点介绍了语音信号的感知 如 人类听觉系统的 结构及各部分的主要作用和听觉特性等 其中 又详细介绍了掩蔽效应这一重要特性 主要阐述了掩蔽效应的两大分类及各自特点等 本课题主要考虑和研究频域掩蔽 本章 的内容介绍为后续章节的研究奠定了理论基础 8 硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 3 背景噪声功率估计 3 1 概述 在语音增强系统中 背景噪声估计是至关重要的一部分 特别是在低信噪比情况和 非平稳噪声环境下 对噪声统计特性的变化进行可靠快速跟踪对系统的鲁棒性有着重要 的作用 噪声估计算法对语音增强的整体处理效果有着不可小觑的影响 如果背景噪声 估计过低 则残余噪声会很大 对听者接收正确目标语音有着很大的影响 如果背景噪 声估计过高 则语音部分会被当作噪声衰减掉 造成语音的缺失 可懂度会大大降低 噪声特性参数的估计如噪声功率谱密度或噪声功率等 将直接影响着整个语音增强算法 的性能优劣 噪声估计得越精细 语音增强算法的性能越高 处理后的语音效果越真实 因此噪声估计成为语音增强系统必不可少的关键部分 也是现代学者研究的热门方向之 一 噪声估计的方法有很多种 传统的噪声估计方法 一般是假设噪声是平稳的 可以 利用初始的一段语音间隙期作为整个语音信号的噪声估计 然而 当噪声的幅度随机变 化范围很宽时 如果仍然假设噪声是平稳的就会产生很大的残留噪声 称为 音乐噪声 人耳对音乐噪声的感知非常敏感 由于实际中的噪声常常是非平稳的 噪声的突变是随 机的 因此对背景噪声的估计不能只局限于语音间隙期 在语音存在期间也要连续更新 噪声 语音活动检澳o v a d v o i c ea c t i v i t yd e t e c t i o n 技术首先判断是语音间隙期还是语音 存在期 通过v a d 平均无语音段带噪信号的能量 但它只在语音间隙期对噪声进行更 新 而在语音存在期不进行更新 所以不能及时反应出噪声的变化 相对与利用v a d 进行噪声估计 还有一种方法是不用语音活动检测进行有声 无声判别 无论在有声或 无声时都对噪声估计进行连续更新 传统的噪声估计方法语音活动检测技术 在低信噪比或者语音较弱时 其可靠性会 严重下降1 7 碍 v a d 的误检率会相应的增大 在不能正确判断出无声段时 系统就会出 现过多的残余噪声或音乐噪声等 同时v a d 也很难进行调整 另外 利用v a d 进行噪 声估计也会由于在连续语音段的情况下 检测到无声段不充足使得不能有效 及时地跟 踪时变的噪声谱 造成语音增强性能的严重降低 m a r t i n 提出了一种有用的噪声估计方法一最小统计特性算法 m s f 9 适应于非平 稳噪声环境和实时处理 其不需要语音活动检测部分也可以在有语音时进行噪声估计更 新 这种算法主要是跟踪每个时间窗内的带噪语音的最小值 但是 m s 算法对异常突 变值很敏感 其方差近似为传统噪声估计方差的两倍1 9 且有时能减弱低能量音位 特 别是当最小搜寻窗太短时 l o d o b l i n g e r b q 提出了计算更有效的最小值跟踪方法 它主 要的缺点是在噪声能量突然增加时 噪声估计的更新速度很慢而且趋近于取消这个信号 1 2 1 m a r t i n 提出的改进的最小统计噪声谱估计 1 3 克服了先前算法的缺点 但同时也增 9 3 背景噪声功率估计 硕士论文 加了算法的复杂性 c o h e n 又针对m s 的缺点 先后提出了m c r a 1 4 1 和改进的i m c r a b s 算法 起计算 有效 对输入信噪比和背景噪声稳定 能快速跟踪噪声谱的突变 其后又有一些基于此 算法的改进 1 6 j 在现代信号处理中 周围环境越来越嘈杂 输入信号比越来越低 为了提高噪声参 数估计精度 不用语音活动检测的噪声参数估计方法应用得越来越频繁 下面 本文将 重点对上述两种经典地不用语音活动检测的噪声参数估计算法进行比较研究 3 2 基于最优平滑和最小统计特性噪声估计方法1 1 3 l 19 9 4 年r a i n e rm a r t i n 提出了一种基于最小统计特性 9 m s m i n i m u ms t a t i s t i c s 来估 计噪声的算法 其后又针对该算法进行了优化改进 改进的算法是基于最优平滑和最小 统计特性 o s m s o p t i m a ls m o o t h i n ga n dm i n i m u ms t a t i s t i c s 的噪声估计方法 1 3 主要分 为最优信号功率谱平滑和最小统计特性的分析两部分 先用一阶递归对带噪信号进行最 优平滑滤波 然后求出一定时间窗内的最小值作为噪声的粗略估计值 最后对噪声的粗 略估计值进行偏差修正得到无偏差噪声估计值 即所求的噪声估计参数 假定带噪语音信号可表示为 j j f f 3 1 式中 y f 为带噪语音信号 s f 为纯净语音信号 刀 f 为噪声信号 f 为采样时间点 其中假定s f 和 f 为统计独立且均值为零 为了将信号转换到频域处理 采取帧长为 n 个采样点 帧移为m 个采样点 对其加窗进行短时傅里叶变换 s t f t 得 i r k y i l m h i e 一 2 石7 舢 3 2 i 0 式中 k 为频率采样点 j 为时间帧 办 f 为n 点时间窗序列 则式 3 1 的对应频率关 系为 r k d s k d 七 3 3 本文 我们选用采样率f 8 k h z n 2 m 2 5 6 首先对带噪语音信号进行一阶递归平滑滤波得 e k 口 足 1 p k 一1 1 a k o l r k 纠2 3 4 式中 p k z 是带噪信号功率谱的估计 a k 是时变的平滑因子 为了推导出最优平 1 0 硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 滑因子 假设为无语音时刻 仃 后 兰o 通过最小化均方误差使得尸 七 尽可能的接 近真正的噪声功率谱仃 七 其均方误差为 e 尸 七 t o 寻 k 2 i 尸 后 l 1 3 5 将式 3 4 代入上式 计算得 e p 一仃 2 2p 弘1 口2 后 尸 七 一1 一o i k 2 仃 七 1 一a k 2 通过对a k 进行一阶求导 得到极值点即最优平滑因子为 a 掣 七 1 p k l 二1 o 2 k 一t 1 2 3 7 又因为其二阶导数为正 可知其最优平滑因子为最小值 在实际应用中 最优平滑因子式 3 7 中的o i k 应该用上一帧噪声估计值 l 1 来代替 同时应限制平滑因子不超过一个最大值a 蜊 如a 嘣 o 9 6 来避免 产生死锁a k l 情况的发生 将式 3 7 重新写为 口 卜而丽箫孙 3 8 1 1 式中 a c d 为纠正因子口c 7 2 i 芝要j 面巧二万忑蚕 可石而 a d 为平滑后的纠正因子仅 0 7 a 一1 o 3 m a x 0 u 0 7 其次 在一定时间窗d 内搜索带噪信号功率谱e k 的最小值 后 作为噪声信 号功率谱的粗略估计 最小值的更新方法影响着整个算法的计算复杂度和固有延时 如 果每帧都进行更新 则对每个帧频点将要做d 1 次比较 计算量很大 如果只在d 个 e k 连续采样之后进行更新 则只需比较一次 但同时在最差的情况下延时将达到 2 d 为了尽可能减少计算量和延时 将时间窗d 分成u 个子窗 每个子窗为v 个采样 帧 u v d 这样每v 帧更新一次最小值同时保证了较低的计算量 每个子窗的最小值 由v 个采样帧读完比较后的最小值决定 整个时间窗d 的最小值取所有u 个子窗的最 小值 因此 整个算法每个信号帧和频点只需要作l u 1 v 次比较 延时为d v 本 文语音信号采样率f 8 k h z n 2 m 2 5 6 则选用u 8 v 1 2 因为随机变量的最小值总是小于其均值 所以最小值噪声估计必然存在偏差 要得 到无偏差噪声估计必须对最小噪声功率谱 七 进行偏差修正补偿 在推导偏差补偿 因子时 为了简化计算条件 假定信号处于无语音时刻 在有语音时刻时只要将噪声信 3 背景噪声功率估计 硕士论文 号方差用带噪语音信号方差代替即可 设在d 个连续短时功率谱估计p k 的最小值 七 对于无限序列l y 后 i 1 2 p k 可以写为 o a 1 p k 1 一a z a i 七 一f 1 2 t 0 卜f l d i 3 9 对于独立 指数和同分布的p 七 叫2 p k j 的概率密度函数为 九 叻 f l 卸 一 w u 1 i 西习 3 1 由于p k 的概率密度函数与仃寻 七 呈正比关系 其短时功率谱估计的最小统计 特性也和仃 七 呈正比关系 因此 均值e 七 哪正比于仃 后 方差正比于 仃 七 不失一般性 只要计算在d 三 j j 1 时的均值和方差就足够了 引入符号 砝 后 e 七 霉l 和 七 j 2 武 后 j v a r p 后 近似可得 灿 州 历2 r 1 丽2 尸 3 1 1 q 后 蟛叼 7 式中 6 垒号学 m d 和日 d 是d 的函数 r 代表了完备的g 舭吼a 函剡1 刀 将式 3 1 1 简化近似可得 b 0 七 l d 1 上 3 1 2 子i k z 2砸砥pmi k 1 3 1 3 她 滞蝴 删 端 b 峋 其中 q v a r p 七 p 2 七 一歹2 七 z 声1 七 p 七 p 七 一1 1 一卢 七 p 2 七 1 2 硕士论文基于入耳掩蔽效应的谱减算法的研究与实现 3 3 基于最小值控制递归平均噪声估计方法 1 4 i 基于最小统计特性估计噪声的算法 9 对异常值比较敏感 其方差大约为传统噪声估 计器的两倍 而且该算法有时会衰弱低能量语音 特别是当搜索窗过小时 针对上述缺 点 i s r a e lc o h e n 提出了一种基于最小控制递归平均 m c r a m i n i m ac o n t r o l l e dr e c u r s i v e a v e r a g i n g 的算法来估计噪声 m c r a 通过递归平均来进行噪声估计 其平滑因子通过 语音存在概率调节控制 假定带噪语音信号可表示为 y i s f 力 f 其中 y 为带噪语音信号 s f 为 纯净语音信号 刀 f 为噪声信号 i 为采样时间点 胛 是与s f 不相关的额外背景噪声 通过s t f t 将其变换到频域 帧长为n 个采样点 帧移为m 个采样点 给出两种假设 风 七 和q 尼 分别代表了第 帧第k 个频点处语音不存在和语音存在状态 即 风 后 班y k z n k z 蜀 七 班y k s k n k 3 1 5 式中 s k 和n k 分别代表纯净语音信号和噪声信号的短时傅里叶变换 令 九 j i ej i n k i i 按式3 1 5 对噪声功率谱进行估计 七 乃 后 l 1 口d 九 七 1 1 a d l y k 1 1 3 1 6 日 九 七 1 九 后 式中 平滑因子a d o a d 1 磁和日 分别代表语音不存在和语音存在状态 定义条 件语音存在概率p 七 尸 日 七 圳y k 则式 3 1 6 可进一步写成 丸 j i l 1 九 七 z p 七 陋d 九 七 1 一a d l r k 驯 q p 七 砂 f 3 1 7 a a k 九 七 l a d k i 尼 1 1 式中 时变平滑因子a a k d 1 a d p 后 从上式可以看出 噪声谱估计通过平 滑上一帧的功率谱值得到 其平滑因子由语音存在概率p 后 调节控制 给定帧某频点的语音存在概率由当前时刻带噪语音的能量和在特定时间窗内的最 小值之比来确定 本算法中当前时刻带噪语音的能量通过在时频域平滑其短时傅里叶变 换的幅度平方得到 频域 s r 七 b i l y k f 叫2 3 1 8 式中 6 f 是长为2 w 1 的窗函数 扫 时域 s k a s k 一1 1 a s 七 3 1 9 式中 参数a o a 1 当前能量的最小值 后 的搜索方法可按照上一节m s 的最 小值搜索程序来得到 首先 定义最小值变量 后 j 和临时变量 七 并分别进 行初始化 七 o s 七 0 后 o s 后 o 其次 当前帧的能量和上一帧的最小 值比较得到当前帧的最小值 3 背景噪声功率估计 硕士论文 j j m i i l 趾 后 一1 s k 纠 3 2 0 七 m a n 后 一1 s 后 3 2 1 当读完l 帧时 临时变量重新初始化 七 m i n s p k 一1 s 七 纠 3 2 2 尼 s k 3 2 3 接着按照式 3 2 0 和 3 2 1 继续进行最小值搜索 参数l 决定着当前最小值搜索的分辨 率 一般当前最小值的搜索窗长度至少是l 帧且不能大于2 l 帧 按照 9 和实验可知 选取o 5 1 5 s 长度的窗比较适合 定义参数母 七 o s k 1 后 其代表当前带噪语音的能量和最小值之间的比 值 按照贝叶斯最小代价判决准则可得 p s1 日 之q o 尸 i l o 3 2 4 p s i 风 可 尸 q 式中 尸 h o 和尸 q 分别代表语音不存在和语音存在时的先验概率 白是当日 被判 为耳时的代价因子 由实验可得似然比p s i q p 母i 风 是单调函数 所以判决准则 式 3 2 4 可以写成 局 墨 后 6 3 2 5 即可推出语音存在概率p 七 的估计式 p 七 口pp 后 一1 1 一a p 七 3 2 6 式中 平滑参数a 0 t z 6 则 l k l 否则i k 0 上述语音存在概率的估计主要有以下三方面的优点 1 比 值门限6 对环境噪声的类型和强度不敏感 2 当s 九的概 率很小 所以当有语音状态被误判为无语音状态时 噪声估计的增加也不会太明显 3 通过式中平滑参数a 较好地利用了连续帧中语音的强相关性 递归平均是一种广泛应用的噪声谱估计方法 然而该算法未利用语音活动检测器 未限制只在无语音阶段更新噪声估计 也未计算基于瞬时带噪语音信号和估计噪声幅度 谱的加权平均 而是采用了按照语音存在概率调节的时频平滑因子 使得该算法计算简 便有效 能更快地响应噪声方差的变化 估计噪声的精度更高 3 4 实验结果与分析 实验选用一段背景噪声分别为p i n k 和f a c t o r y 噪声 信噪比分别为在 一5 1 5 d b 范围 内间隔l o d b 的带噪语音 背景噪声来自n o i s e x 9 2 数据库 1 8 1 下同 p i n k 噪声是由高 质量模拟噪声产生器采样而得 其低频部分能量比较高 每l 3 倍频程具有相等的能量 f a c t o r y 噪声是录制于钢板切割机和电流焊接设备附近 其原始纯净语音为一段男女混合 的中文音频 其中女声和男声各两句 该带噪语音的采样率f s s k h z 帧长n 2 m 2 5 6 1 4 硕士论文基于人耳掩蔽效应的谱减算法的研究与实现 o2 4 0 06 0 0 帧数 图3 1o s m s 算法在p i n k 噪声背景下 频点k 5 0 处的噪声估计图 图3 1 是o s m s 算法在p i n k 背景噪声下 信噪比为 5 1 5 d b 范围内频点k 5 0 处的 噪声估计图 其中 o s m s 算法的最小值搜索窗参数选用u 8 v 1 2 d u v 9 6 真 实噪声功率平滑因子设为o 7 5 图中的三列分别表示不同输入信噪比情况 左边一列代 表信噪比为 5 d b 中间一列代表信噪比为5 d b 第三列代表信噪比为1 5 d b 的情况 第 一行和第二行为算法在频点k 5 0 处对不同信噪比的带噪语音的噪声估计图 其中第一 行为原始带噪语音图 第二行为平滑后的原始带噪语音和估计的噪声图 第三行和第四 行为算法在频点k 5 0 处不同信噪比情况下真实噪声和估计噪声的对比图 其中第三行 为原始背景噪声图 第四行为平滑后的背景噪声和估计的噪声图 从上图的第二行可以看出o s m s 算法估计的噪声跟踪速度较快 但是在语音出现 时 其估计值将明显提高 造成估计结果不太准确 其第四行反映了估计噪声功率和真 实噪声功率并不完全相同 是平均意义上的估计 估计的噪声功率平均略大于真实噪声 尤其是在语音存在时 这是因为语音的存在提高了噪声估计的最小值 但偏差仍在噪声 动态变化范围内 在输入信噪比为 5 d b 情况下 背景噪声很大 基本把语音淹没了 估计的噪声功率和平滑的带噪语音功率大小幅度几乎差不多 在较高信噪比1 5 d b 时 从第二行图中可以明显看出平滑带噪语音的峰值处即为语音 估计的噪声功率明显小于 带噪语音功率 3 背景噪声功率估计 硕士论文 旆矛醋 圳i 草薹萼囊黯 i 毫 p 二 二 j 竺i r 原始背景噪声 够辫熊戮 o2 4 0 06 帧数 图3 2m c r a 算法在p i n k 噪声背景 f 频点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会议承办服务协议书8篇
- 国家事业单位招聘2025中国国土勘测规划院招聘应届毕业生拟聘人员笔试历年参考题库附带答案详解
- 奔驰车辆无偿赠与协议9篇
- 南京市2025江苏城乡建设职业学院招聘工作人员26人(第一批)笔试历年参考题库附带答案详解
- 临夏回族自治州2025年甘肃临夏某部招聘民兵教练员笔试历年参考题库附带答案详解
- 2025陕西陕建瑞高科技园有限公司招聘(25人)笔试参考题库附带答案详解
- 2025广东湛江经济技术开发区建设投资发展集团有限公司招聘1人笔试参考题库附带答案详解
- 2025年萍乡市工程咨询管理顾问有限责任公司招聘第一批外聘人员23人笔试参考题库附带答案详解
- 2025年烟台莱州市财金投资有限公司招聘(10人)笔试参考题库附带答案详解
- 2025年江苏昆山创业控股集团有限公司第一批人才招聘15人笔试参考题库附带答案详解
- 教育部首批中等职业学校专业教学标准
- 讲文明讲卫生
- GA 1809-2022城市供水系统反恐怖防范要求
- 近效期药品登记表
- 2022年全国工会财务知识大赛参考题库精简600题(含各题型)
- 特高压交流与特高压直流输电技术特点对比分析
- 康复医学科关于无效中止康复训练的制度与流程
- GB/T 13460-2016再生橡胶通用规范
- 《矩阵论》研究生教学课件
- 中国荨麻疹诊疗指南(2022版)
- 北京市统一医疗服务收费标准
评论
0/150
提交评论