基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf_第1页
基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf_第2页
基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf_第3页
基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf_第4页
基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

基于听觉掩蔽效应的语音增强算法研究硕士论文.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

s t u d yo ns p e e c he n h a n c e m e n tb a s e do n 一 h u m a n a u d i t o r ym a s i n gp r o p r e t i e s at h e s i ss u b m i t t e dt o s o u t h e a s tu n i v e r s i t y f o rt h ea c a d e m i cd e g r e eo fm a s t e r b y z h o uf e n g s u p e r v i s e db y p r o f e s s o rz h a ol i s c h o o lo fi n f o r m a t i o ns c i e n c ea n de n g i n e e r i n g s o u t h e a s tu n i v e r s i t y f e b r u a r y2 0 1 2 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发表 或撰写过的研究成果 也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意 研究生签名 东南大学学位论文使用授权声明 东南大学 中国科学技术信息研究所 国家图书馆有权保留本人所送交学位论文的 复印件和电子文档 可以采用影印 缩印或其他复制手段保存论文 本人电子文档的内 容和纸质论文的内容相一致 除在保密期内的保密论文外 允许论文被查阅和借阅 可 以公布 包括刊登 论文的全部或部分内容 论文的公布 包括刊登 授权东南大学研 究生院办理 研究生签名 拿 导师鲈乏红左 日期 i 专 摘要 摘要 语音信号增强去噪音是现代语音信号处理过程中一个不可缺少的环节 它被广泛的 应用在语音编码 语音识别 语音合成 移动通信 语音网络传输 医疗 军事等领域 本文主要提出了利用人耳听觉掩蔽效应 对含有各种噪声的语音信号抑制噪声 从而获 得高质量的语音信号的算法 本文先给出语音信号处理的基础知识 介绍了人耳的掩蔽效应特性 它们是语音信 号增强 语音降噪声的基础 其后给出了两种传统的语音增强算法 分别是谱减法和维 纳滤波法 并给相应算法的仿真波形和两种算法的优缺点 然后主要研究了基于人耳掩 蔽效应的语音增强算法 提出了两种基于人耳掩蔽效应的语音增强算法 分别是基于短 时谱估计的人耳掩蔽效应语音增强算法和基于多窗谱听觉掩蔽模型的语音增强算法 并 给出了这两种算法的仿真波形和性能分析 这两个算法都能快速跟踪噪声 提取噪声参 数特性 不仅适用于平稳噪声 也适用于非平稳噪声 其听觉效果明显优于传统的语音 增强算法 关键词 语音增强 音乐噪声 语音降噪 多窗谱 掩蔽效应 a b s t r a c t a b s t r a c t s p e e c he n h a n c e m e n tt e c h n o l o g yi sm o r ea n dm o r ew i d e l yu s e d f o re x a m p l ec a nb eu s e d i ns p e e c hc o d i n g s p e e c hr e c o g n i t i o n v o i c en e t w o r kt r a n s m i s s i o n m o b i l ec o m m u n i c a t i o n s m e d i c a l m i l i t a r ya n do t h e rf i e l d s t h i sp a p e rm a i n l yd i s c u s s e st h en o i s ys p e e c hs i g n a li n s p e e c he n h a n c e m e n t w ef i r s tg i v eas p e e c hs i g n a ld i g i t a lm o d e l r e s p e c t i v e l y i st h ev o i c eo ft h ev o c a l m e c h a n i s m e a rf o rs p e e c hs i g n a lp e r c e p t i o n s p e e c hs i g n a lm o d e la n ds p e e c he n h a n c e m e n t a l g o r i t h mp e r f o r m a n c ee v a l u a t i o n s u b s e q u e n t l yi n t r o d u c e db a s e do ns h o r t t i m em a g n i t u d e p o w e rs p e c t r a ld e n s i 够e s t i m a t i o na l g o r i t h mf o rs p e e c he n h a n c e m e n t s p e c t r a ls u b t r a c t i o n w i e n e r f i l t e r i n gm e t h o d a c o m p a r i s o nw a s m a d eb e t w e e nt h et w oa d v a n t a g e sa n d d i s a d v a n t a g e s g a v eo u tt w ok i n d so fs p e e c he n h a n c e m e n ts i m u l a t i o nw a v e f o r m t h e nb a s e d o nt h em a s k i n ge f f e c to fs p e e c he n h a n c e m e n ta l g o r i t h m si nd e t a i l f o c u s e so nt h eh u m a n a u d i t o r ym a s k i n gt h r e s h o l da l g o r i t h m a n da i m e da tn o n s t a t i o n a r yn o i s es i g n a l s p r o p o s e do n e k i n db a s e do nh u m a na u d i t o r ym a s k i n ge f f e c to fs p e e c he n h a n c e m e n ta l g o r i t h m a n dg i v e st h e s i m u l a t i o nw a v e f o r m sa n dt h ea l g o r i t h mf o re v a l u a t i n gt h eq u a l i t yo fs p e e c h f i n a l l y b a s e d o nt h em u l t i p l ew i n d o ws p e c t r u ma n da u d i t o r ym a s k i n ge f f e c to fs p e e c he n h a n c e m e n t a l g o r i t h ma n ds i m u l a t i o nr e s u l t sa r eg i v e na n dt h ep e r f o r m a n c ea n a l y s i s w ef i r s tg i v ea s p e e c hs i g n a ld i g i t a lm o d e l r e s p e c t i v e l y i st h ev o i c eo ft h ev o c a lm e c h a n i s m e a rf o rs p e e c h s i g n a lp e r c e p t i o n s p e e c hs i g n a lm o d e la n ds p e e c he n h a n c e m e n ta l g o r i t h mp e r f o r m a n c e e v a l u a t i o n s u b s e q u e n t l yi n t r o d u c e db a s e do ns h o r t t i m em a g n i t u d ep o w e rs p e c t r a ld e n s i t y e s t i m a t i o na l g o r i t h mf o rs p e e c he n h a n c e m e n t s p e c t r a ls u b t r a c t i o n w i e n e rf i l t e r i n gm e t h o d a c o m p a r i s o nw a s m a d eb e t w e e nt h et w oa d v a n t a g e sa n dd i s a d v a n t a g e s g a v eo u tt w ok i n d so f s p e e c he n h a n c e m e n ts i m u l a t i o nw a v e f o r m t h e nb a s e do nt h em a s k i n ge f f e c to fs p e e c h e n h a n c e m e n ta l g o r i t h m si nd e t a i l f o c u s e so nt h eh u m a na u d i t o r ym a s k i n gt h r e s h o l d a l g o r i t h m a n da i m e da tn o n s t a t i o n a r yn o i s es i g n a l s p r o p o s e do n ek i n db a s e do nh u m a n a u d i t o r ym a s k i n ge f f e c to fs p e e c he n h a n c e m e n ta l g o r i t h m a n dg i v e s t h es i m u l a t i o n w a v e f o r m sa n dt h ea l g o r i t h mf o re v a l u a t i n gt h eq u a l i t yo fs p e e c h f i n a l l y b a s e do nt h e m u l t i p l ew i n d o ws p e c t r u ma n da u d i t o r ym a s k i n ge f f e c to fs p e e c he n h a n c e m e n ta l g o r i t h ma n d s i m u l a t i o nr e s u l t sa r eg i v e na n dt h ep e r f o r m a n c ea n a l y s i s k e y w o r d s s p e e c he n h a n c e m e n t m u s i cn o i s e n o i s er e d u c t i o no fs p e e c h m u l t i t a p e r s p e c t r u m m a s k i n gp r o p e r t i e s 目录 目录 摘要 i a b s t r a c t i i i 目录 v 第l 章绪论 一1 1 1 语音增强研究的目的和意义 1 1 2 国内外语音增强研究概况 2 1 3 论文章节安排和重点 4 1 4 本章小结 4 第2 章语音信号的数字模型 一5 2 1 语音的发声机理 5 2 2 人耳对语音信号感知特性 6 2 2 1 人耳朵结构 6 2 2 2 听觉特性 7 2 2 3 掩蔽效应 8 2 3 语音信号模型 1 0 2 3 1 激励模型 1 1 2 3 2 声道模型 1 2 2 3 3 辐射模型 1 2 2 3 4 语音信号的数字模型 1 3 2 4 语音增强算法的性能评价 1 3 2 4 1 客观评价标准 1 4 2 4 2 主观评价标准 一15 2 5 本章小结 1 6 第3 章基于短时幅度谱估计的语音增强 1 7 3 1 谱减法 1 7 3 1 1 基本谱相减法 1 7 3 1 2 改进谱减法 1 8 3 1 3 谱减法的优缺点 1 9 3 1 4 谱减法的仿真波形 1 9 3 2w i e n e r 滤波法 2 0 3 2 1w i e n e r 滤波法基本算法 一2 0 3 2 2w i e n e r 滤波法仿真波形 2 2 3 3w i e n e r 滤波法与谱减法的比较 2 3 3 4 本章小结 2 4 v 东南大学硕士学位论文 第4 章基于短时谱估计和人耳掩蔽效应的语音增强算法 2 5 4 1j o h n s t o n 阈值计算 2 6 1 2 5 4 2 人耳掩蔽效应的经典算法 2 8 4 2 1v i r a g 增强算法1 2 7 1 2 8 4 2 2g u s t a f s s o n 增强算法 2 8 1 2 8 4 2 3t s o u k a l a s 的增强算法 2 9 1 2 9 4 3 基于人耳掩蔽效应的改进算法 3 0 4 3 1 最小均方误差准则的幅度谱估计 3 0 4 3 2 参数化估计公式 3 3 4 3 3 功率谱估计力厶更新 3 5 4 3 4 算法计算步骤 3 6 4 3 5 实验结果及分析 3 7 4 4 本章小结 4 0 第五章基于多窗谱和听觉掩蔽模型的语音增强 4 1 5 1 引 言 4 1 5 2 修正m e l 尺度及耳语感知尺度 4 2 5 2 1 修正m e l 尺度 4 2 5 2 2 耳语感知尺度 一4 4 5 3 掩蔽闽值的计算 4 5 5 4 感知加权增益 4 5 5 5 语音的预估计及掩蔽阈值偏移量 4 6 5 6 算法实现 4 7 5 7 仿真结果及分析 4 8 5 7 1 高斯白噪声下的客观评价 一4 8 5 7 2 高斯白噪声下的主观评价 4 9 5 8 本章小结 5 0 第6 章全文总结与展望 5 2 致谢 5 3 参考文献 5 4 攻读硕士学位期间的研究成果 一5 9 第1 章绪论 第1 章绪论 1 1 语音增强研究的目的和意义 语音信号是人类传播信息和情感交流的重要媒介 是听觉器官对声音传输介质的机 械震动的感知 也是人类最重要 最有效 最常用 最简单的通信方式 然而 在通信 过程中语音非常容易受到干扰 这些干扰主要是来自周围环境噪声 通信设备内部电噪 声 传输媒介引入的噪声 乃至其他讲话者的声音 1 这些干扰最终将使接收到的语音 信号变成受噪声污染的带噪语音信号 而非纯净的原始语音信号 因此 这里的 噪声 定义为所需语音信号之外的所有干扰信号 噪声可以是窄带噪声或者宽带噪声 白噪声 或有色噪声 加性噪声或乘性噪声 甚至其他无关的语音信号 因为接收到的语音信号 当中含有各种各样的噪声 这会导致许多语音处理系统的语音质量的下降 甚至性能急 剧恶化u 1 由于语音生成模型是低速率语音编码的基础 当语音收到噪声干扰时 提取 的模型参数将很不准确 重建的语音质量急剧恶化 例如 没有语音增强的语音识别系 统一般在实验室的理想环境中可获得较好的效果 但如果在各种噪声环境中 特别是在 较强噪声环境中时 系统的识别率将大大的下降 甚至不能识别 在这些情况下 采用 语音增强技术进行预处理 将有效地改善系统性能 语音增强技术应用广泛 目标是找到一种有较高抗噪效果地算法对带噪语音信号进 行预处理 降低噪声信号对语音信号的影响 一般而言 噪声信号是随机信号 要完全 排除噪声不太可能的 语音增强的目的对人而言主要是提高语音质量 提高语音可懂度 降低疲劳感 而对语音信号处理系统来说 则是提高系统抗干扰能力和系统识别率 国内外的相关专家学着在抗噪声技术的研究和在实际环境下语音处理系统的开发 已经做了大量的研究工作 并取得了许多重要的研究成果 目前国内外的研究成果大概 可以分为三类 5 j 第一类方是采用语音信号增强算法 在语音识别系统前端预处理中 提高输入语音信号信噪比 从而提高抗噪性能 第二类方法是寻找语音信号稳健的语音 特征参数 实验证明 这类参数对宽带语音具有较好的抗噪性 第三类方法是基于语音 信号模型参数自适应的噪声补偿算法 这类方法成为目前研究的热点 主要研究噪声和 语音的统计特性 提出环境稳健性的处理算法 并且基本遵循语音模型的短时平稳这一 假设 目前的补偿算法仅仅考虑到噪声环境是平稳的 这类算法对非平稳噪声环境和低 信噪比语音的效果并不佳 语音信号与噪声信号的自动分离是解决噪声问题的基本方法 但是由于技术的难 度 尽管研究者早就有这种愿望 但这方面的进展不大 语音增强是建立在语音信号处理技术的基础上的 并且涉及到语言学 语音学及人 的听觉感知 在语音增强技术中 因应用场合不同 噪声亦不同 因此试图找到一种可 东南大学硕士学位论文 以应用于各种噪声环境通用语音信号增强算法是不现实的 必须针对不同环境 不同的 噪声采用不同的语音增强方法 6 7 1 另外 要进行语音信号增强还必须要要了解语音信号 特性 噪声特性和人耳感知特性 1 2 国内外语音增强研究概况 语音增强是语音信号识别系统的重要组成部分 主要目标就是从含噪语音中提取尽 可能纯净的原始语音 但由于干扰通常都是随机的 从含噪语音信号中提取完全纯净的 语音是不可能的 因此实际中语音增强的主要目标有 改善语音质量 消除噪声背景 使听者乐于接受 不感到疲倦 提高语音的自然度 可懂度和舒适度 方便听者理解 语音增强作为语音通信和识别系统中信号处理的预处理环节 主要应用在嘈杂环境下的 噪声抑制 语音压缩 语音识别等场合中 语音增强的方法有很多种 本文以图1 1 所 示的脉络分类 i 通道数 噪声类型 r 谱碱法 w i e n e r 滤波法 非参数法 m m s e 幅度谱估计 i 信号子空闻法 a r 模型 参数法 i h m m 模型 k a i m a n 滤渡 k 利用人耳掩蔽效应的方法 图卜1 语音增强方法分类 首先根据应用的不同 声音的采集可分为单通道 双通道和多通道 单通道采集只 用一个麦克风 双通道采集使用两个麦克风 多通道采集使用麦克风阵列 两个麦克风 情形下可用其中一个来采集噪声 由于有参考噪声源 因而可以用噪声对消法实现语音 增强 8 1 麦克风阵列用波束形成技术实现语音增强 引 多通道采集通常用于对声音质量 要求很高的情形 由于能提供比单通道更多的环境噪声的信息 其增强效果要比单通道 情形好 但是多数情况下只能采用单通道采集 如移动通信 由于此时只能获得含噪语 音 其增强难度要大于多通道的情况 更具挑战性 根据噪声的类别 主要分为针对加性噪声 室内回响 线路回声等的语音增强 由 于噪声特性各异 其语音增强的方法也各不相同阻0 1 本文只对单通道加性噪声的情况进 行研究 单通道语音增强可以大致分为三类 基于非语音参数模型的方法 基于语音参数模 型的方法和基于人耳掩蔽效应的方法 非语音参数模型的方法不估计语音的参数模型 至多假设语音的统计分布模型 而是估计噪声的统计特性 对含噪语音滤波来提取原始语音 其中方法有谱减法 s s s p e c t r a ls u b t r a c t i o n w i e n e r 滤波法 最小均方误差幅度谱估计 m m s e m i n i m u mm e a n 2 第1 章绪论 s q u a r ee r r o r 信号子空间法等 这些方法将含噪语音从时域经过d f t d i s c r e t ef o u r i e r t r a n s f o r m 离散傅里叶变换 d c t d i s c r e t ec o s i n et r a n s f o r m 离散余弦变换 k l t k a r h u n e n l o e v et r a n s f o r m k l 变换 小波变换等转换到频域 时频域或空间域中去 处理 三种非参数方法都只对语音幅度谱进行估计 增强语音的相位用含噪语音相位代 替 因为人耳对语音的相位不敏感 4 1 i 参数法利用基于模型估计的语音参数来生成原始语音 如a r a u t o r e g r e s s i v e 自 回归 模型 隐马尔可夫模型 h m m h i d e nm a r k o vm o d e l 卡尔曼滤波等 s b o l l 1 1 基于噪声是平稳的或变化缓慢的加性噪声 且语音信号与噪声信号不相关 的假设 提出了谱减法 其基本思想是从含噪语音的短时幅度谱 s t s a 中减去噪声 频谱估值来得到增强语音的短时幅度谱 谱减法简单 计算量小 但其残留的音乐噪声 往往较大 因此在谱减法的基础上出现了若干改进算法 l o c k w o o de 和b o u d yj 1 提 高了信噪比 自适应调整语音增强的增益系数 但他们发现信噪比并不能正确反映语音 信号的质量 因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量 w i e n e r 滤波 1 4 假设语音和信号是不相关的随机过程 采用最小均方误差准则得到对 纯净语音的线性估计 和谱减法一样 w i e n e r 滤波也存在参数形式 谱减法和w i e n e r 滤波法的缺点是完全放弃了对语音频谱的分布假设 1 9 8 4 年 e p h r a i my 和m a l a hd 1 5 基于语音和噪声的傅里叶系数呈高斯分布 且相互独立的假设 得到了基于最小均方误差的幅度谱最优估计 文献 1 6 是基于m m s e 对数幅度谱的最优 估计 m a r t i nr 1 1 乃假设语音和噪声的傅里叶系数呈l a p l a c e 分布或g a m m a 分布 得到 新的m m s e 幅度谱估计 信号子空间法 1 8 的基本思想是把含噪信号的矢量空间通过k l t 变换分解为信号加 噪声的子空间和纯噪声子空间 利用信号子空间处理技术 消除噪声子空间后 在信号 加噪声子空间估计出语音信号 y i h u 和p h i l i p o sc l o i z o u t l 9 1 在信号子空间分解的基础 上提出了在时域和频域上的针对有色噪声的语音增强算法 该方法基于最优意义上的正 交变换 k l 变换 但它不存在快速算法 这是该方法的不足之处 全极点模型法 a r 模型法 2 0 是将发声系统模型看作一个准平稳的全极点线性系 统 用白噪声作为激励源 根据最大后验概率从含噪语音中估计a r 模型的参数 根据 参数生成语音 文献 1 4 采用m a p 准则来估计全极点参数 对于平稳语音随机过程来说 相当于一个相位为零的维纳滤波器 减少可感知噪声 从而改善语音信号的听觉质量 但该方法缺乏明显的在迭代收敛准则 且迭代次数越多 共振峰带宽越小 为了解决这 一问题 防止共振峰带宽过窄 防止极点抖动较大 c l e m e n t s 和h a n s e n i n 加入频谱限 制条件 使极点不靠近单位圆 在上述分类中 参数法强调的是语音的特点 非参数法从噪声的估计入手 而基于 人耳掩蔽效应的语音增强则是将人耳掩蔽效应与某些方法结合起来实现语音增强 如 3 东南大学硕士学位论文 p e t e r s e n 和b o l l 2 2 1 把谱减法用到人耳感知域 用带通滤波器组模拟人耳感知效应 在降 噪过程中 把含噪语音分解于各个关键频带中 然后将在各个关键频带内处理过后的输 出信号重新组合 获得输出语音信号 v i r a g l 2 s l 和t s o u k a l a s 将j o h n s t o n 2 4 1 提出了应用与 语音信号增强的听觉感知模型 其语音信号增强效果较好 1 3 论文章节安排和重点 语音增强技术应用的领域越来越广泛 比如说语音编码 语音设别 移动通信 语 音网络传输 医疗 军事等应用领域 本文的结构及其内容安排如下 第一章介绍语音增强研究的目的及其意义 以及对国内外语音增前研究进展展开综 述 并指出本论文研究的主要内容和方向 第二章分四个方面介绍了语音信号的数字模型 分别是语音的发声机理 人耳对语 音信号的感知特性 语音信号模型以及语音增强算法的性能评价 第三章介绍了基于短时幅度功率谱密度估计的语音增强算法 给出了谱减法和维纳 滤波法的基本算法和改进算法 比较了两者之间的优缺点 给出了两种语音增强的仿真 波形 第四章首先介绍了j o h n s t o n 人耳掩蔽阈值的算法 给出了三种经典人耳掩蔽效应语 音增强算法 分别是v i r a g 算法 g u s t a f s s o n 算法 t s o u k a l a s 算法 并指出这三种算 法中存在的问题 最后根据这些算法中存在的问题提出一种新的基于人耳听觉掩蔽效应 的算法 并给出语音仿真波形和算法优劣评价 第五章提出了基于多窗谱和听觉掩蔽效应的语音增强算法 分别介绍了修正m e l 尺度 而语音感知尺度 掩蔽阈值的计算 感知加权增益等内容 最后给出了仿真结果 及性能分析 第六章总结本文所做工作 并提出今后进一步改进的方向 本文的重点是j o h n s t o n 人耳掩蔽阈值的计算 新的基于人耳听觉掩蔽效应的算法 基于多窗谱和听觉掩蔽效应的语音增强算法的研究 1 4 本章小结 本章主要介绍了介绍语音增强要到达的目的及其意义 介绍了语音增强的方法及其分类 并对 对国内外语音增强研究展开综述 并指出本论文研究的主要内容和方向 4 第2 章语音信号的数字模型 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科 它的目 的有两个 一个是要通过处理得到一些反映语音信号重要特征的语音参数 比便高效地 传输或存储语音信号信息 另一个是要通过处理某种运算以达到某种用途的要求 例如 人工合成出语音 辨识出讲话者 识别出讲话的内容等 为了用数字信号处理方法对语 音信号进行处理 首先需要了解语音信号的一些重要特性 在此基础上建立实用又便于 分析的语音信号产生模型和语音信号感知模型 2 1 语音的发声机理 人类的语音是由人的发声器官在大脑控制下的生理运动产生的 人的发声器官由3 部分组成 1 肺和气管产生气源 2 喉和声带组成声门 3 由咽腔 口腔 鼻 腔组成声道 图2 1 为发声器官机理模型 1 1 曼孔 j 崭f i 甚 肺 气管可可声道嘴 图2 1 发声器官机理模型 肺的发声功能主要是产生压缩气体 通过气管传送到声音生成系统 气管连接着肺 和喉 它是肺与声道联系的通道 喉是控制声带运动的软骨和肌肉的复杂系统 主要包 括环状软骨 甲状软骨 杓状软骨 和声带 1 其中声带是重要的发声器官 它是伸展 在喉前 后端之间的褶肉 如图2 2 所示 前段有甲状软骨支撑 后端由杓状软骨支撑 而杓状软骨又与环状软骨较高部分相联 这些软骨在环状软骨上的肌肉的控制下 能将 两片声带合拢或分离 声带之间的间隙称为声门 声带的声学功能主要是产生激励 位 于喉前段呈圆形的甲状软骨称为喉结 图2 2 喉的平面解剖示意图 5 东南大学硕士学位论文 声道纵剖面如图2 3 所示 它是指从声门至嘴唇范围内的所有发音器官 声道可以 看成是一根具有非均匀截面的声管 其截面积最小为零 声管闭合 最大可达到2 0 平 方厘米 大小主要由唇 舌 腭和小舌的形状和位置决定 在人讲话的过程中 声道的 非均匀截面是不断地变化的 图2 3 声道纵剖面图 图2 1 为语音生成机理模型 空气由肺部排入喉部 经过声带进入声道 最后由嘴 辐射出声波 这就形成语音 在声门 声带 以左 称为 声门子系统 它负责产生 激励振动 右边是 声道系统 和 辐射系统 当发不通性质语音时 激励和声道的 情况是不同的 它们对应的模型也是不同的 2 2 人耳对语音信号感知特性 入耳对于语音信号频率高低的感知与实际频率的高低近似呈对数关系 并且人耳对 声音强度的感知很灵敏且有很大的动态范围 语音信号的感知过程与人耳的听觉系统密 不可分 1 0 0 多年前 物理学家g e o r go h m 就提出了人耳就是一种频谱分析仪的摄像 2 2 1 人耳朵结构 耳朵是我们人类的感受自然界中各种声音的器官 它的作用是接收各种声音信号 并将声音信号转换成为人的神经刺激 从而能够使人感受到声音 所谓语音感知 就是 将听到的声音经过大脑处理后编程确切的含义 人耳由内耳 i n n e re a r 中耳 m i d d l ee a r 和外耳 o u te a r 三部分组成 1 l 外耳由耳翼 p i n n a 外耳道 e x t e r n a la u d i t o r ym e a t u s 和鼓膜 e a rd r u m 构成 耳翼作用主要是为了保 护耳孔 并且它的卷曲形状具有辨识方向作用 外耳道是声音的传输管道 其大小较为 均匀的耳管 同样有较多的共振频率 因为外耳道的共振效应 会把声音放大l o d b 左 右 一般认为外耳的声音感知中有两个作用 一是对声音来源起定位作用 二是对传来 的声音进行放大 中耳可以看成是充满空气的腔体 由鼓膜将其与外耳隔离 并通过圆形窗和卵形窗 两个小孔与内耳相通 中耳还通过咽鼓管与外界相连 以便使中耳和周围大气之间的气 压得到平衡 中耳的作用有两个 一个是通过听小骨进行声阻抗变换 放大声音 另一 6 第2 章语音信号的数字模型 个是保护内耳 图2 4 人耳的内部结构 内耳深埋在头骨中 由半规管 s e m i c i r c u l a rc a n a l 前庭窗 o v a lw i n d o w 和耳蜗 f c o c h l e a 组成 其中前庭窗和半规管属于本体感受器 与集体的平衡机制有关 内耳的 耳蜗是听觉的受纳器 形似蜗牛壳 由蜗螺旋管旋转两圈半构成 耳蜗很小 蜗螺旋管 总长度只有3 c m 耳蜗中有一个重要部分成为基底膜 b a s i l a rm e m b r a n e 基底膜在靠近 前庭窗的部分硬而窄 而在靠近耳蜗空的部分软而宽 在基底膜之上是柯蒂氏器官 o r g a n o f c o r t i 它相当于一种传感装置 耳蜗内的流体速度变化 可以影响柯蒂氏器官上的毛 细胞两边电位的变化 在一定条件下造成听觉神经的发放和抑制 从而完成机械振动向 神经发放信号转换的过程 随着语音信号频率的增加 该峰值向基底膜根部移动 靠近前庭窗的部分 不同 的声音频率沿着基底膜呈对数分布 见图2 5 在耳蜗的根部 基底膜硬而窄 外毛细 胞及其绒毛短而有劲度 而靠近蜗孔处 基底膜宽而柔和 毛细胞及其绒毛也较长而柔 和 这种结构上的差别使得它们具有不同的机械谐振性和电谐振性 这种差别是基底膜 在频率选择方面有所不同高的重要因素 也是声音频率沿基底膜呈对数分布的主要原 因 2 2 2 听觉特性 图2 5 基底膜的频率响应分布 正常人的听觉系统是极为灵敏的 人耳所能感受的最低声压接近空气分子热运动产 7 东南大学硕士学位论文 生的声压 一般来说 声音从右耳朵传至左大脑的速度比较快 声音从左耳朵传至右大 脑的速度比较慢 既两耳朵传递速度不同 语音信号就是一种复合音 它包含了很多频率成分的谐波 对频率不同的纯音 人 耳具有不同的听辨灵敏度 响度就是反应一个人主观感觉不同频率成分声音强弱的物理 量 单位为方 p h o n e 在数值上1 方等于l k h z 的纯音声强级 而零方对应于人耳的听 阀 所谓正常人的听阀是指声音从小到人耳刚刚能听见时的大小 听阈值及响度的大小 是随着频率的变化而变化的 例如在l k h z 的纯音下 响度为1 0 方时相当于1 0 d b 的升 压级 而对于1 0 0 h z 的纯音 为了使它听起来与1 0 方的l k h z 的纯音同样响 应使声 压级为3 0 d b 人耳的绝对听阀曲线图见图2 6 绝对听阀t f 可以用下面的公式表示 2 5 夏 3 6 4 f 1 0 0 0 0 8 6 5 e 0 6 舯h3 2 1 0 3 1 0 0 0 4 d b s p l 2 一1 这说明入耳对不同频率的声音的响应是不平坦的 人耳感知的声音响度是频率和声 压级的函数 通过比较不同频率和幅度的语音可以得到人耳的等响度曲线 根据国际标 准 10 0 0 h z 纯音的想读和该频率处声强电平相等 即f d b 声强电平的10 0 0 h z 纯音响度 为即方 如图2 7 所示 2 2 3 掩蔽效应 人耳听觉掩蔽现象指一个较强的声音和一个较弱的声音同时或者相邻出现 较弱的 声音在一定的时间范围内不能被人耳感知的现象 其中较强的声音信号我们称为掩蔽 基s o l 啦et h s h d 蠢i g a n 嘴群2s 3 l 嘭 w 鞠 l 船 瓣 j w j 锄 耱 0 j 鼬 一 一r 趣 一 0 o 一 一 一 m s s fr e n e f l 却 图2 6 人耳的绝对听阀曲线 8 第2 章语音信号的数字模型 艮 l 世 w 卅s l 腮4l 1 l r 憋淤 卜 lll l k 罐鬻融黔 越 漆 l l 蹿蕊 州n 骷 添 孓 鼹 f盖 嘲 隧 孓簿 f d lll x 一h 雌 1 k 羚莲l j 一 k 谈 魏兮 蝌 土 气 l 辚 氛 越 m d h 一 一日二 h m一 l x 糯 t 吒 鲢蒯蕊 t w 矜 h 一 r 营 f r 麓 l ll l l 嘲 蠢 鞯辅 两 驾l 州 卞阿 1 飞1 r一一瓤赢蘩l l llll l 5 j i j jit t jd t 一 一 w 图2 7 等响度曲线与声强级的关系 音 而较弱的声音我们称为被掩蔽因 如果较强的声音和较弱的声音同时出现我们称其 为同时掩蔽 如果较强的声音和较弱的声音又先后顺序的出现我们称其为异时掩蔽 1 4 1 人耳的掩蔽效应是因为人耳对不同的语音信号频率分辨能力不同所决定的 正常人 感知语音信号频率范围为2 0 h z 2 0 k h z 感知的强度范围为一5 d b1 3 0 d b 在上述听觉 范围内 人耳对语音信号的感知是非线性的 是随频率变化而变化 人对语音信号频率 最敏感的范围是2 k h z 4 k h z 超出这个范围 其灵敏度急剧下降 人儿刚好听到的最低 声压级称为听阀 它是声音频率的函数 图2 6 中的是人耳在安静时的听阀曲线 人耳 不能听到声压级低于听阀的声音 图2 85 0 d b 频率1 k h z 的掩蔽阈值曲线 因为一个较强语音信号的存在 根据掩蔽效应 我们知道听力阈值大于安静时的阈 值 语音信号低于新的阈值则不能被人耳朵所能感受到 图2 8 中实线是频率为1 k h z 5 0 d b 的语音信号产生的掩蔽阈值曲线 当目标信号的声压级低于掩蔽这的掩蔽阂值时 9 豁 耪 嗡 黪 瓣 溅 麟 鼢 繇 艚 馘 潞 瓣 孥 礴 繇嚣 嚣蕊罄穗罄 镕惑常 漫灏 东南大学硕士学位论文 目标信号被掩蔽 就不被人耳所察觉 我们在语音增强的时候就可以利用这一特性 只 要把噪声降低到掩蔽阈值以下就可以不被人耳所感知 从而达到语音增强的目的 异时掩蔽可以根据掩蔽音和被掩蔽音出现的先后顺序分为前向掩蔽和后向掩蔽 前 向掩蔽 后向掩蔽及同时掩蔽的关系如图2 9 所示 可以看到同时掩蔽持续的时间较长 通常可以达到l o o m s 而异时掩蔽持续时间较短 一般不超过2 0 m s 同时掩蔽有被称 为频域掩蔽 而异时掩蔽被称为时域掩蔽 前掩蔽效应 可以抑制因时间分辨率不够而造成的预回声 语音信号是分帧处理的 帧长的选择受一些因素制约 若帧过长 则会使时间分辨率下降 产生严重的预回声 解决预回声的方法是缩短帧长 以提高时间分辨率 这样预回声的影响就被限制在一个 较短的时间内 当帧长缩短到2 m s 5 m s 之间时 由于前掩蔽效应 预回声会被随之而 来的冲激响应所掩蔽 6 0 4 0 2 0 02 04 01 6 01 8 002 04 0 6 08 010 01 2 01 4 0 时间c 毫秒 2 3 语音信号模型 图2 9 同时掩蔽与异时掩蔽持续的时间 由2 1 节介绍的语音发声机理模型可知 语音生成系统包含三个部分 由声门产生 的激励函数g z 由声道产生的声道模型y z 嘴唇产生的辐射函数r z 语音生成 系统的传递函数由这三个函数级联而成 系统的传递函数为h z 则 h z g z y z r z 下面我们分别讨论激励模型 声道模型和辐射模型 最后再导出语音信号产生的数 字模型 1 0 9 2 锄 加 如 们 第2 章语音信号的数字模型 2 3 1 激励模型 激励模型一般分为浊音激励模型和清音激励模型 发浊音时 由于声门不断开启和 关闭 产生间隙的脉冲 经仪器测试 该波形类似于斜三角形脉冲 图2 6 为三角波及 其频谱图 单个三角波的数学表达式为 0 船 n l n l 2 i 2 2 2 其他 公式2 2 中 l 为斜三角波的上升时间 2 为斜三角波下降时间 图2 一1 0 为其波 彤皮 频谱图 由图 j 知单个斜二角波的频谱g e 表现出一个低通滤波器的特性 可以 把它表示成z 变换的全极点形式 2 而b 陋3 这里c 是一个常数 t l 2 显然 上式斜三角波形可以用一个二极点的模型 来描述 单位脉冲响应则可表示成下面的z 变换形式 酢 与 2 4 因此 浊音语音信号激励模型可以用u 乜 来表示 g 酢 南 志 2 5 图2 1 0 三角波及其频谱图 发清音时 不管是发阻塞音还是发摩擦音 声道一般都被阻碍 从而形成湍流 故 可把清音语音信号激励模型模拟成均值为0 的 方差为1 的 并在时间和幅值上均为白 色分布的随机白噪声 a l 射 册y 吣 a 一 5 刀 却m 5 峪 吼 仉 l 力 东南大学硕士学位论文 2 3 2 声道模型 声道的数学模型一般来说有两种 一种是声管模型 是将声道看成由不同截面积的 声管串联而成的系统 另一种是共振峰模型 将声道视为一个谐振腔体 其谐振频率就 是共振峰 共振峰模型经常被使用 因人耳的听觉部件柯蒂氏器官上的毛细胞按感知频 率大小排列 一般来说最多三个共振峰就可以表示一个元音 5 个以上的共振峰可以表 示较复杂的辅音或鼻音 通常我们用全极点模型来描述共振峰特性 即 矿 三 i 上一 口 z 1 公式2 6 中 p 为极点的个数 取值范围为8 1 2 2 6 当声波通过声道时 受到声腔共振的影响 在某些频率附近形成谐振 反映在信号 频谱图上 在谐振频率处谱线包络产生峰值 一般把它称作共振峰 如图2 11 所示 上面的图为清音的频谱图 下图为浊音的频谱图 具有明显的共振峰 一般元音可以有 3 5 个共振峰 清音信号频谱 2 3 3 辐射模型 频率 l l z 浊音信号频谱 图2 1 l 语音信号的频谱 从声道模型输出的是速度波 而语音信号是压力波 二者倒比成为辐射阻抗z 1 它 表征口唇的辐射效应 如果认为口唇张开的面积远远小于头部的表面积 利用单板开槽 辐射的处理方法 可以得到辐射阻抗 1 2 第2 章语音信号的数字模型 删 器瑚 0 旷z 1 2 7 公船7 中 b 等 t 墨 这里口是口唇张开的半径 c 是声波传播速度 r n 是信号的自相关函数 2 3 4 语音信号的数字模型 根据前面介绍的内容 我们分别得到了激励函数g z 由声道产生的调制函数 矿 z 嘴唇产生的辐射函数r 力 并且知道的语音信号的传输模型由上面三个激励函 数串接而成 语音信号传递函数如式 村 驴 日 z g z y z r z 絮l q z j o 2 8 在式2 8 中 通常n 取8 1 2 个 m 取3 5 个 用8 k h z 或1 0 k h z 采样信号采样 时 h z 在1 0 2 0 m s 范围内可以较好的保留原始语音信号的特征 极点个数p 一般选 为1 0 个 对于要求较高的模型 可以增加零点或增加极点个数 实际上 对于男生来 说 取2 0 个极点已经足够了 女声的阶数可以增加大到3 0 阶 语音信号产生的二元激 励模型如图2 1 2 所示 声道参数 声道模型 辐射模型 图2 1 2 语音信号产生的激励模型 2 4 语音增强算法的性能评价 语音 语音增强算法性能的评价可以分为两大类 主观性能评价和客观性能评价 主观性 1 3 卜j面力 f 蠢兰 一 c 马一 u刈 叭 东南大学硕士学位论文 能评价以人为主体来对增强后的语音进行性能评价的 评判者通过原始语音和失真语音 进行对比 试听 根据约定的尺度准则对失真语音进行评判 常见的主观性能评价方法 主要有 语谱图 平均意见分 m o s 法 失真平均意见分 d m o s 法 等 主观性能 评价法符合人对语音质量的感知 但因费时费力 且不同的评判者标准不一样 客观性 能评价是用数学的方法把原始语音信号和失真语音信号进行数学比对 可以方便快捷的 给出语音质量的结果 客观性能评价方法的缺点是不能正确反映人对语音质量的感知特 性 2 4 1 客观评价标准 语音增强质量的客观性能评价是以原始语音信号与增强后的语音信号之间误差大 小来判断的 常用的客观性能评价方法 语音信噪比 和i s 失真度量系数 l o g 似然 率测度 l l r l o g 域测度 1 语音信噪比 s n r 设j 刀 是原始信号 疗 为增强后的语音信号 则全局信嗓定义为 s 2 刀 s n r 1 0 1 0 9 卫 一 s 玎 一 玎 2 2 9 如果语音中含有较多的浊音信号 语音中会聚集较多能量 导致较高的全局信噪比 如果语音中含有较多清音 则会容易受到噪声影响 从而导致全局信噪比较小 故可以 定义分段信噪比如式2 一l o 所示 6岛忱 圭善 g 三一n i n n n n db c 2 一 爿 嘉驴 2 2 i s 失真度量系数 i s 失真度量系数主要是比较原始语音信号与增强后的语音信号频谱上的差异 i s 失真度量系数大 说明原始语音信号与增强后的语音信号频谱上的差异大 语音品质差 i s 失真度量系数小 说明原始语音信号与增强后的语音信号频谱上的差异小 语音品质 好 i s 失真度量系数定义为 螈州

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论