(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf_第1页
(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf_第2页
(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf_第3页
(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf_第4页
(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机科学与技术专业论文)同声道语音检测与可用语音重构算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院工学硕士学位论文 摘要 目标语音混杂着另一个干扰者语音定义为同声道语音。同声道语音的干扰使 得现有的许多语音处理系统的性能大为下降,甚至导致系统无法正常工作。同声 道语音检测的目的就是从混合的语音中检测出同声道语音,并采用适当的语音增 强或重构技术,从中提取可用的目标语音,使语音处理系统得以正常运行。 本文在深入研究同声道语音检测的s a p v r 算法和基于小波的算法的基础上, 提出了基于循环短时平均幅度值差的同声道语音检测算法( c a m d f ) ,该算法利 用c a m d f 函数从时域范围检测语音波形的类周期性,并根据计算结果判断语音 是否同声道语音。通过实验验证和比较,c a m d f 算法在检出率上高于其它两种算 法,且c a m d f 算法实现结构简单,可操作性好。 可用语音是指目标语音虽被干扰语音或者噪声污染,但仍然可以满足语音处 理系统应用的要求。一般用信噪比( t 瓜) 来判断可用语音。同声道语音中的可用 语音重构问题是语音增强技术领域的一个新的研究方向,本文提出了一种基于小 波多尺度分解的重构思想,并设计了重构算法。模拟实验重构率可达到6 2 ,此 算法的研究对可用语音重构技术的实现具有一定的参考价值。 主题词:同声道语音,可用语音, c a m d f ,小波变换,重构 第i 页 国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t c o - c h a n n e ls p e e c ho c c u i 苫w h e no n es p e a k e r ss p e e c hi sc o r r u p t e db ya n o t h e r s p e a k e r ss p e e c h ac o - c h a n n e ld e t e c t i o ns y s t e mc o u l dp r o v i d ei n f o r m a t i o nt os u s p e n d t h eo p e r a t i o no fas p e e c hp r o c e s s i n gs y s t e mw h o s eo p e r a t i o nw o u l db ed e g r a d e di fi t w e r ep r o c e s s i n gc o c h a n n e ls p e e c h an e wm e t h o d so fc o - c h a n n e ls p e e c hd e t e c t i o nb a s e do nc a m d f ( c i r c u l a r a v e m g e m a g n i t u d ed i f f e r e n c ef u n c t i o n ) a r ed e v e l o p e di nt h i st h e s i s t h ea l g o r i t h mn o to n l y s i m p l i f i e st h ec o - c h a n n e ls p e e c hd e t e c t i o n ,b u ta l s oe f f c i e n t l yi m p r o v e st h ep r e c i s i o no f c o - c h a n n e ls p e e c hd e t e c t i o n l o t so fe x p e r i m e n ts h o wt h a tt h ep e r f o r m a n c eo ft h e a l g o r i t h mi sb e t t e rt h a no t h e rm e t h o d st h a ta r eb a s e do nt h ew a v e l e tt r a n s f o r mo rt h e s a p v r 。 s p e e c ht h a ti sc o r r u p t e db yi n t e r f e r i n gs p e e c h , b u ti ss t i l lu s a b l ef o ra p p l i c a t i o n s s u c ha ss p e a k e ri d e n t i f i c a t i o ni sr e f e r r e dt oa s u s a b l es p e e c h ”t h es p e e c hs e g m e n t sa r e d e c l a r e d u s a b l e ”f o rs p e a k e ri d e n t i f i c a t i o nb a s e du p o nat a r g e t - t o - i n t e r f e r e re n e r g y r a t i o ( t m ) t h e r ei sn o n eo fm e t h o da b o u tu s a b l es p e e c hs e g m e n t sr e c o n s t r u c t i o nu n d e r c o - c h a n n e lc o n d i t i o n s an e wi d e a la n dm e t h o do fu s a b l es p e e c hr e c o n s t r u c t i o nb a s e do n w a v e l e tt r a n s f o r mi s d e v e l o p e da n di n v e s t i g a t i o no ft h em e t h o dr e c o n s t r u c tu s a b l e s p e e c h a b o v e6 2 k e y w o r d s :c o - c h a n n e ls p e e c h , u s a b l es p e e c h , c a m d f , w a v e l e t , r e c o n s t r u c t i o n 第i i 页 国防科学技术大学研究生院工学硕士学位论文 表目录 表3 1r o b e r ty a n t o m o 给出的s a p v r 算法实验结果2 0 表3 2 本文给出的s a p v r 算法对样本库的实验结果。2 2 表3 3r o b e r ty a n t o m o 给出的基于小波变换的算法实验结果2 5 表3 4 本文给出的基于小波变换的检测算法的结果2 8 表4 1 本文给出的c a m d f 算法对样本库的实验结果。3 5 表4 2 三种算法平均值的比较3 7 表5 1 常见小波函数的性质一5 2 第1 v 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图1 1同声道语音检测预处理系统2 图1 2 同声道语音检测。2 图2 1 语音信号产生模型。8 图2 2 傅里叶正弦波与小波函数1 3 图3 1s a p v r 算法框图16 图3 2 峰谷率的计算【l 】1 8 图3 3r o b e r ty a n t o m o 的s a p v r 算法处理过程【1 】1 9 图3 4 本文给出的s a p v r 算法流程图2 1 图3 5 本文s a p v r 算法处理过程2 2 图3 6 本文s a p v r 算法中阈值对检出率和虚警率的影响2 3 图3 7 基于小波变换的同声道语音检测算法框图2 3 图3 8r o b e r ty a n t o m o 的基于小波变换的检测算法的处理过程【4 】2 5 图3 9r o b e r ty a n t o m o 的基于小波变换的阈值的影响【4 】。2 6 图3 1 0 本文给出的基于小波变换的检测算法流程图2 7 图3 1 l基于小波变换的算法处理的过程2 8 图3 1 2阈值变化对基于小波的算法结果的影响2 9 图4 1 求和差值项数减少引起e ( 七) 峰值下降【3 3 1 3 1 图4 2c a m d f 算法框图3 3 图4 3c a m d f 流程图3 4 图4 4c a m d f 算法结果3 5 图4 5 阈值变化对c a m d f 算法结果的影响3 6 图4 6 单个人语音和同声道语音的样本3 6 图4 7 三种算法对同一帧单个人语音和同声道语音计算的最终结果对比3 7 图4 8 三种算法受阈值影响的比较。3 8 图4 9 窗口大小对三种算法的影响3 9 图4 1 0 几种算法运算量对比4 0 图5 1 理想的语音检测系统4 1 图5 2 目标人的语音与同声道语音4 2 图5 3 信号滤波过程4 4 图5 4 滤波4 4 图5 5 抽取4 4 第v 页 国防科学技术大学研究生院工学硕士学位论文 图5 6 多尺度小波分解4 5 图5 7 信号重构4 5 图5 8 镜像滤波器组4 6 图5 9 重构原始信号4 6 图5 1 0 重构信号近似部分4 6 图5 1 1 重构信号细节部分4 7 图5 1 2 多尺度分解与重构4 7 图5 1 3 相邻两帧目标人语音低频分解对比4 8 图5 1 4 相邻两帧目标人语音高频分解对比4 8 图5 15 可用语音重构框图5 0 图5 1 6h a a r 小波示意图5 0 图5 1 7 墨西哥草帽小波。5 l 图5 18m o d e t 小波51 图5 1 9 m e y e r 小波的尺度函数和函数波形5 l 图5 2 0d m e y e r 小波尺度函数和波形5 2 图5 2 1目标人前一帧语音和同声道语音多尺度低频分解5 3 图5 2 2 重构目标人语音5 3 图5 2 3 修正的重构目标人语音j 5 4 第页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:回直道适童撞型曼互周适童重捡簋洼的盈窥 学位论文作者签名:垄哒日期:7 彳年否月z 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留,使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:回岜道适童拴型皇互周适童重掬簋洼曲盈蕉 学位论文作者签名:避日期:夕少6 7 年月2 - 日 作者指导教师签名: 嗍:叩“胞日 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 1 1 课题研究的背景和意义 人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪 声、通信设备内部电噪声、乃至其他讲话人的干扰等等。噪声会影响语音的质量, 严重的情况下语音将完全淹没到噪声中,无法分辨。为了从带噪语音中提取尽可 能纯净的原始语音信号,我们可以采用语音增强技术。由于噪声信号都是随机产 生的,从带噪语音中提取完全纯净的语音信号几乎不可能。因此实际语音增强的 目标主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉 疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。实际噪声 来源众多,特性各不相同。根据与输入语音信号的关系,噪声可分为加性噪声和 非加性噪声两类【1 9 】。对某些非加性噪声,可以通过一定的变换转换成加性噪声。 语音处理中的加性噪声大体可以分为周期性噪声、脉冲噪声、宽带噪声和同声道 其他语音的干扰等t 2 1 1 。实际应用时,必须针对不同的噪声,采取不同的语音增强 算法。 在实际生活中经常遇到多人同时说话的情况,此时不需要的语音就形成了同 声道1 3 j 干扰,通信系统中邻近信道的串话也是同声道干扰。人类的听觉系统擅长分 辨在多入说话时某一人的声音,然而,利用数学方法模仿人类的听觉系统只取得 了有限的进展。在本文中,我们将同声道语音【3 l 定义为一个说话人语音混杂着另一 个人的说话语音。由于语音是宽带信号,目标语音和干扰语音在时域和频域都发 生混迭,不能按照常规的通过滤波器的方法来分离。因此,同声道语音分离,是 语音增强的一个难点。要实现目标语音的提取,首先要能正确地检测出同声道语 音帧。同声道语音和单个说话人语音不同之处在于:单个说话人语音波形具有谐 波性,而同声道语音波形不具有谐波性,这是区分它们的关键特征。 现在许多语音处理系统大都是在安静环境下工作的,噪声或同声道语音干扰 造成的语音质量的下降,会使许多语音处理系统的性能急剧恶化。例如会影响语 音识别系统和说话人辨识系统的识别率1 2 3 】 3 0 】;语音生成模型是低速语音编码【2 1 】的 基础,当语音受到干扰时,提取的模型参数将很不准确,重建的语音质量也急剧 恶化。此时采用语音增强技术进行预处理,将有效地改善系统的性能。对于同声 道语音干扰,我们可以采用如图1 1 所示的一种语音增强预处理过程。 第1 页 国防科学技术大学研究生院工学硕士学位论文 同声道语音或者 单个人语音 图1 1同声道语音检测预处理系统 首先我们可以利用同声道语音检测系统来检测当前输入的语音信号,判断是 单个说话人语音还是同声道语音,如为单个说话人语音,表明输入信号没有受到 干扰,可以进行正常的相关语音信号处理。如果检测出当前输入语音含同声道语 音帧,这时可以指示相应的语音处理系统,要么停止进行下一步的处理,以免造 成系统性能的下降。要么对当前输入语音做进一步的增强预处理,如提取目标语 音,再做相应的语音处理。 同声道语音检测问题的解释如图1 2 所示。在图中,我们有目标语音( 说话人 1 ) 和干扰语音( 说话人2 ) 。混合语音信号含有说话人l 的帧,含有说话人2 的 帧,也含有说话人1 和说话人2 同时存在的帧。研究的目标就是要最终能检测出 目标语音帧和同声道语音帧。 1 - 2 - 1 噪声及语音增强 图1 2 同声道语音检测 1 2 课题研究的现状 同声道语音! 语言是人类进行相互通信和交流时使用最多、最自然、最方便也是最重要的 手段。社会的进步对语音通信提出了更高的要求,需要更高的语音质量和更低的 数码率,从而推动了语音编码技术的发展。而自动控制和计算机科学的发展又要 求用语音实现人与机器的信息交流,要求机器能听懂人说话和模仿人说话,甚至 还要能辨别说话人是谁,这又推动了语音识别和语音合成技术的研究,使语音处 理技术得到迅速的发展。在高度信息化的今天,这一系列的语音处理的技术及其 第2 页 国防科学技术大学研究生院工学硕士学位论文 应用已经成为信息社会不可或缺的重要组成部分。 然而,人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引 入的噪声、通信设备内部电噪声、乃至其他讲话人的干扰。这些干扰最终将使接 收者接受到的语音已非纯净的原始语音信号,而是受到噪声污染的带噪语音信号。 噪声污染使许多语音处理系统的性能急剧恶化。如目前的语音识别系统大都是在 安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将 受到严重影响。采用语音增强技术【2 1 】【1 9 】进行预处理,将有效地改善系统的性能。 语音增强的目的是从带噪语音信号中提取尽可能纯净的原始语音。然而,由 于干扰通常是随机的,从带噪语音中提取完全纯净的语音几乎不可能。因此实际 语音增强的目标是:改进语音质量,消除背景噪声,提高语音可懂度。实际噪声 来源众多,特性各不相同。实际应用时,必须针对不同的噪声,采取不同的语音 增强算法。 1 2 2 语音特性 l 、语音信号是非平稳的随机过程 人类发声系统产生不同语音时的生理结构并不相同,产生的信号也是一个非 平稳信号。但由于生理器官变化速度有限,在一段时间内( 1 0 3 0 m s ) 可以认为人 的声带、声道等特征基本不变,因此语音短时谱具有相对的稳定性1 9 】【2 1 1 。 2 、语音信号基本可以分为清音和浊音两大类 语音可以分为清音和浊音两大类,两者在产生机理上有非常大的区别,特征 上的差异也非常明显。清音没有明显的时域和频域特征,看上去类似于白噪声。 而浊音在时域上有明显的周期性,其能量大部分集中在低频段内,且在频谱上表 现出共振峰结构【1 9 1 。由于两者存在显著的区别,因此最基本的语音生产模型直接 利用白噪声和周期脉冲两种不同的激励源来产生语音。清音由于类似白噪声特性, 很难与宽带平稳噪声区别。 3 、语音信号可以利用统计分析特征描述 作为一个随机过程,语音信号可以利用许多统计分析特征进行分析【1 9 1 。但由 于语音信号非平稳、非遍历,因此长时间时域统计特性对语音增强算法的意义不 大。语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,才能 近似具有高斯分布。在有限帧长时这种高斯模型只是一种近似的描述,可以昨晚 分析的前提在宽带噪声污染的带噪的语音增强中应用。 1 2 3 语音处理时涉及的噪声特性 根据与输入语音信号的关系,噪声可以分为加性噪声和非加性噪声两类。某 第3 页 国防科学技术大学研究生院工学硕士学位论文 些非加性噪声可以通过一定的变换转换成加性噪声。为简化讨论,下面主要分析 加性噪声的干扰。语音处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、 宽带噪声和同声道其他语音的干扰等。 1 、周期性噪声 周期性噪声主要来源于发动机等周期性运转的机械,电气干扰也会引起周期 性噪声【1 9 1 。其特点是频谱上有许多离散的线谱。实际信号受多种因素的影响,线 谱分量通常转变为窄带谱结构,而且通常这些窄带谱都是时变的,位置也不固定。 一般采用自适应滤波的方法才能有效地区分这些噪声分量。 2 、脉冲噪声 脉冲噪声来源于爆炸、撞击、放电及突发性干扰等。特征是时间上的宽度很 窄b 9 1 。消除脉冲噪声通常可以在时域内进行,其过程如下:根据带噪语音信号幅 度的平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声。然后对信号进行 适当的衰减,就可完全消除噪声分量,也可以使用内插方法将脉冲噪声在时域上 进行平滑。 3 、宽带噪声 宽带噪声来源很多,热噪声、气流噪声及各种随机噪声源、量化噪声都可以 视为宽带噪声【1 9 】。宽带噪声与语音信号在时域和频域上基本重叠,只有在无语音 期间,噪声分量才单独存在。因此消除这种噪声比较困难。对于平稳的宽带噪声, 通常可以认为是白色高斯噪声。 4 、背景噪声 背景噪声破坏了信号原有的声学特征及模型参数,因此减弱了不同语音间的 差别,使语音质量下降,可懂度降低【1 9 】。强噪声会使人发生听觉疲劳,从而影响 人耳的听觉特性。同时,较强的背景噪声也使讲话人的发音方式发生变化,即使 发相同的语音,其语音的特征参数也会与安静环境下的发音有所不同。这种效应 称为l o m b a r d 效应。 5 、同声道语音干扰 在实际生活中经常遇到多人同时说话的情况,此时不需要的语音就形成了同 声道干扰1 】【3 】。人耳可以根据需要分辨出其中某个人的声音,这种能力称为“鸡尾 酒会效应”四l 。这种能力来源于人的双耳效应和人类语音中包含的“声纹”特征,这 是人体内部语音理解机理的一种感知能力表现。通常情况下语音经双耳输入,人 们根据两路输入的不同时延特性进行分离。同时有由于人的发音器官生理构造的 差异,每个人都有自身独特的“声纹”,因此即使双耳效应不显著人耳也可以借助声 纹对信号进行分离。对于同声道语音干扰的分离,正是目前国际上语音处理前沿 的热点和难点,本文所要讨论的也正是同声道语音的检测与可用语音的重构。 第4 页 国防科学技术大学研究生院工学硕士学位论文 1 2 4 语音增强技术 语音增强一般都作为预处理或前端处理模块存在于语音处理系统中。由于噪 声的种类很多,针对不同噪声的语音增强的方法大体上可用分为如下几类:滤波 器法、非线性处理法、减谱法、自适应对消法、自相关相减法和近来兴起的基于 小波变换的语音增强方法。 1 、滤波器法 这是针对周期性噪声的语音增强方法。其中又分为固定滤波器法【1 9 】、自适应 滤波器法【1 明和傅里叶变换滤波器法【2 1 1 。周期性噪声的功率谱具有许多离散的窄谱 峰,因此,很容易通过检测功率谱发现它们,从而采用滤波方法将其滤波。 2 、非线性处理法 当干扰噪声为宽带噪声时,在整个频谱范围上都呈现噪声成分,噪声频谱遍 布于语音信号频谱之中,因此去除宽带噪声比较困难,非线性处理【3 2 】是其中一种 方法。其中又分为中心削波和同态滤波法【1 9 1 。 3 、减谱法 减谱法【1 9 1 1 3 2 】是处理宽带噪声最通用的技术。前面已经论述过,语音是非平稳 随机过程,但在1 0 - 3 0 m s 的分析帧内可以近似看作是平稳的。如果能从带噪语音 的短时谱中减去噪声频谱估值,则可得到纯净语音的频谱,达到语音增强的目的。 由于噪声也是随机过程,因而这种估计只能建立在统计模型基础上。这种方法主 要针对短时幅度谱。 4 、自适应对消法 自适应对消法也是处理宽带噪声的技术之一【2 1 】例。它是利用自适应滤波器, 从带噪语音中减去噪声的最佳估值,以得到纯净的语音。自适应滤波器通常采用 有限冲激响应( f i r ) 滤波器吲。这种方法的关键是如何得到噪声的最佳估计值。 5 、自相关相减法 信号的功率谱是其自相关函数的傅里叶变换,因此应用于功率谱上的任何方 法都可以应用到自相关上。自相关相减法【1 9 】【3 2 1 正是基于这一原理,利用信号本身 相关,而信号与噪声、噪声与噪声之间可看作不相关的特性,将带噪语音进行自 相关处理,使其得到与不带噪信号同样的自相关系数帧序列。 6 、小波变换的语音增强方法 小波分析口5 】【2 6 】是近年信号处理研究的热点,被应用到方方面面。小波增强的 基本思想是根据噪声与信号在各尺度( 即各频带) 上的小波谱具有不同表现这一 特点,将各尺度上由噪声产生的小波分量,特别是那些噪声小波谱占主导地位的 尺度上的噪声小波谱分量去掉,则保留下来的就是原信号的小波谱【2 8 】【3 l 】。然后再 利用小波变换的逆变换,重新构造原信号。其关键是如何滤去由噪声产生的小波 第5 页 国防科学技术大学研究生院工学硕士学位论文 谱分量。小波变换针对周期噪声、脉冲噪声、宽带噪声都有相应的算法,去噪效 果比原有的技术要好。 1 2 5 同声道语音检测 同声道语音就是说话人的语音( 目标语音) 被另外一个说话人的语音( 干扰 语音) 所污染【1 1 ,它的特殊之处在于干扰源不是噪声,而是与目标说话人的语音极 其类似的干扰人的语音。所以对于这种干扰语音的处理一直是语音处理研究的热 点和难点。 在国外,同声道语音研究多见于美国天普大学( t e m p l eu n i v e r s i t y ) 语音处理 实验室的r o b e r ty a n t o r n o 、s a r o jk b i s w a s 教授及其弟子a r v i n dr a m a n k i z h a n a t h a m 的论文著作。1 9 9 9 年,r o b e r ty a n t o m o 发表文章同声道语音研究 阐述了同声道语音研究的问题:2 0 0 0 年,r o b e r ty a n t o m o 、a r v i n dr a m a l l k i z h a n a t h a m 在i e e e 智能信号研究( i e e ei n t e l l i g e n ts i g n a lp r o c e s s i n g ) 发表同 声道语音检测中s a p v r 算法对可用语音的判别一文,提出了s a p v r 算法;2 0 0 1 年,l o v e k i n , j 、k r i s h n a m a c h a r i ,k r 、y a n t o m o ,i le 、b e n i n c a s a , d s ,和 w e n n d t ,s j 再次在i e e e 国际智能信号处理和通信系统会议( i e e ei n t e r n a t i o n a l s y m p o s i u mo ni n t e l l i g e n ts i g n a lp r o c e s s i n ga n dc o m m u n i c a t i o ns y s t e m s ) 上发表一种 有效的同声道语音片段检测方法自适应编码比较法:之后,他们又多次发 表同声道语音处理的论文,涉及噪声背景下同声道语音检测、基于声源位置信息 的同声道语音分离等方面的研究。 在国内,清华大学、哈尔滨工业大学、苏州大学等几所高校在传统的语音增 强方面,如环境噪声下的说话人身份识别、语音识别等都有不错的研究成果,但 对于新兴的同声道语音领域的研究关注较少。 1 3 本文的研究内容 本文主要研究同声道语音检测和可用语音重构的问题,有以下工作: l 、建立一个实验语音库,该语音库包括两个男性的个人语音各2 0 0 帧两 个女性的个人语音各2 0 0 帧,合成的男男、男女、女女同声道语音各2 0 0 帧。 2 、对同声道语音检测的s a p v r 算法和基于小波的算法做深入研究。本 文在此基础上提出了基于循环短时幅度差的同声道语音检测算法( c a m d f ) 。 3 、利用语音库对c a m d f 算法和s a p v r 算法、基于小波的算法 ( w a v e l e t ) 进行验证性实验,并就各项参数做了三种算法的对比性研究。 4 、基于图1 1 系统提出的重构概念,研究可用语音重构的问题。本文提 第6 页 国防科学技术大学研究生院工学硕士学位论文 出了基于小波多尺度分解的可用语音重构的思想,并设计出基于该思想的重 构算法。利用实验语音库对基于小波多尺度分解的可用语音重构算法进行模 拟实验,并分析进一步提高重构率的途径。 1 4 论文结构 全文共分为6 章: 第一章主要介绍本课题的研究背景及应用前景。 第二章主要介绍语音处理的基本知识。 第三章深入阐述了同声道语音检测的s a p v r 算法和基于小波的检测算法 ( w a v e l e t ) 。 第四章提出c a m d f 同声道语音检测算法,并与s a p v r 、基于小波的算法 ( w a v e l e t ) 做对比性研究。 第五章提出可用语音的重构思想,设计重构语音的算法,对该算法进行实验 并分析实验结果。 第六章总结全文,并对未来研究方向进行讨论。 第7 页 国防科学技术大学研究生院工学硕士学位论文 第二章语音信号处理基础 本章将简单介绍在本文中用到的语音信号时域分析和语音信号频域分析的基 础知识。语音信号是一种非平稳的时变信号,它携带着各种信息。语音信号分析 的目的就在于方便有效地提取并表示语音信号所携带的信息。根据所分析的参数 模型,语音信号分析可以分为时域和变换域( 频域、倒谱域) 等处理方法。 2 1 1 语音的产生 2 1 语音信号的时域分析技术 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、口腔,鼻 道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生祸合而产生语音 中的鼻音。 人类发音过程有三类激励方式,因而能产生三类不同的声音:浊音、清音和爆 破音【1 9 1 。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形 成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音。这些周期脉冲的周 期称作基音周期,其倒数称为基音频掣1 9 1 。如果声道某处面积很小,气流高速冲 过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产生摩擦音, 即清音。如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆 破音。 语音信号产生模型f 冽的框图如图2 1 所示。 基音周期 图2 1 语音信号产生模型 号 2 1 2 语音短时分析技术 语音信号是一种非平稳的时变信号,其产生过程与发声器官的运动紧密相关。 第8 页 国防科学技术大学研究生院工学硕士学位论文 通过对发声机理的研究表明,发声器官的状态变化速度较声音振动的速度要缓慢 得多,因此语音信号可用认为是短时平稳的。在5 5 0 m s 的范围内,语音频谱特性 和一些物理特征参数基本保持不变。这样,我们可用将平稳过程的处理方法和理 论引入道语音信号的短时处理中,每个短时的语音段称为一个分析帧1 9 1 1 2 1 1 。 通常我们采用一个长度有限的窗函数【2 1 】来截取语音信号形成分析帧,窗函数 w ( 玎) 将需处理区域之外的样点置零来获得当前语音帧。理想窗函数的频率响应要 求主瓣无限狭窄且没有旁瓣( 即无频谱泄露) ,但这种窗函数在实际工程中是无 法实现的。根据不同应用,可用采用下面几种窗函数来逼近理想的频率响应。 1 、矩形窗 w ( 刀) = 协蹊管p( 3 - ,) 2 、汉明窗 以功= 拯蕊6 c o s ( 2 册( n - i ) ) , ( 腓n( 3 - 2 j 3 、汉宁窗 w ( 以) = 惯端义2 删肛d 义呕聪肛n( 3 3 ) 在确定了窗函数以后,要对语音信号分帧处理,实际上就是对各帧进行某种 变化或运算。设这种变换或运算用r x 】表示,x ( ”) 为输入语音信号,w ( n ) 为窗序 列,则各帧经处理后的输出q 可以表示为: q = 丌z ( 坍) 】以刀一朋) ( 3 - 4 ) 2 1 3 短时能量分析 由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著。 因此对短时能量和短时平均幅度进行分析,可以描述语音这种特征变化情况【1 9 1 2 1 】。 定义短时能量为: e = 【x ( 所) w ( 甩一所) 】2 = 【x ( 朋) 以刀一扰) 】2 ( 3 5 ) m - , - a o m = n - n + l 式中n 为窗长。可见短时能量为一帧样点值的加权平方和。 短时平均能量特征主要用途如下: 1 、可以作为区分清音段和浊音段的特征参数。实验结果表明浊音段的能 量e 。明显高于清音段。通过设置一个能量阈值,可用大致判定浊音变为清音 或者清音变为浊音的时刻,同时也可以大致划分浊音区间和清音区间。 第9 页 国防科学技术大学研究生院工学硕士学位论文 2 、在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依 据。 3 、可以作为辅助的特征参数用于语音识别等语音处理。 2 1 4 短时平均过零率 对于时域离散信号,有语音的时域波形通过时间横轴时相邻的采样具有不同 的符号,称为过零。单位时间的过零次数称为过零率1 2 l 】,它可以定义为: ,一l 乙= 去i s 印【x ( ,1 ) 卜s g n x q + 1 ) 】i ( 3 - 6 ) n f f i o 式中s g n x ( n ) 】为符号函数,定义为 s g n x ( ,z ) 】- r 譬焉竺o ( 3 - 7 ) 利用短时平均过零率可以从背景噪声中找出语音信号,可用于判断寂静无语 音和有语音的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的 语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单 词的开始和终止位置。此时,在背景噪声较小时用平均能量识别较为有效,而在 背景噪声较大时用平均过零数识别较为有效。 2 1 5 短时自相关分析 自相关函数用于衡量信号自身时间波形的相似性【1 9 】【2 1 1 。清音和浊音的发声机 理不同,浊音的波形呈现出一定的周期性,波形相似性较好;清音的波形呈现出 随机噪声的特性,样点间的相似性较差。 离散语音的自相关函数定义为: 定义1 - 自相关函数是描述随机信号x ( 七) 在任意两个不同时刻七l ,如的取值 x ( 毛) 和x ( k :) 之间的相关程度。 犬。( 七1 ,乞) = e x ( k o x ( k 2 ) 】 :肌蚺,k :) d x l d x : 3 - 8 定义2 :若离散随机信号x ( k ) 的均值为一常数,自相关函数只与取样时间差 n = 乞一k l 有关,即可表示为足曩( 刀) 且它的均方值为有限,即满足 i m ,( 七) = e i x ( 足) 】= m , r 。( 岛,屯) = 研x ( 毛) x ( 也) 】= 屯( ,1 ) 【e x 砸) 】 o o ( 3 9 ) 则称随机序列x ( k ) 为( 广义) 平稳离散时间随机信号。 第1 0 页 国防科学技术大学研究生院工学硕士学位论文 计算自相关函数的运算量很大,乘法运算所需的时间较长,所以在实际应用 中,一般用f f t 简化自相关函数的计算【1 9 1 【2 1 1 。 自相关函数的周期性、对称性、有界性等性质可以应用与语音信号的时域分 析中。 2 1 6 语音端点检测 从背景噪声中找出语音的起止点是语音信号处理的基本问题。一般来说,要 对高信噪比环节下录制的语音鉴别端点相对容易,因为此时背景噪声的能量远低 于语音能量,仅凭能量特征就可以很好地确定语音的起止点。但实际应用中很少 有这么高的信噪比,仅仅用能量判定是不可靠的。通常用的方法是短时能量和短 时过零率同时判定语音端点【1 9 1 。 2 2 语音信号的频域分析 2 2 1 短时傅里叶变换 语音信号是短时平稳的,因此我们可以对语音分帧处理,计算某一帧的傅里 叶变换,这样得到的就是短时傅里叶变换【1 9 】【2 3 】,定义为: 以( p 7 m ) = x ( m ) w ( n - m ) e 伽 ( 3 - l o ) m = 其中w ( 刀) 为实数窗序列,疗取不同值时,窗w ( n 一肌) 沿时间轴滑动到不同的 位置,取出不同的语音帧进行傅里叶变换。很显然短时傅里叶变换是时间疗和角频 率c o 的函数,它反映了语音信号的频谱随时间变换的特性。短时傅里叶变换还可 以表示为下面的形式: x n ( e 出) = 以肌) x 一肌) e 制肛_ = p 巾x n - ( m ) w ( m ) e 脚 ( 3 - 1 1 ) m = - - 若定义x 一 归) = x n - ( m ) w ( m ) e 脚 则x 。( p 归) = e - 细x u ( e 归) ( 3 1 2 ) 从以上式子可以看出,短时傅里叶变换有两种不同的解释。当刀固定不变时, x 。( p 归) 为序列w ( n m ) x ( m ) ( m ) 的标准傅里叶变换,此时x 。0 归) 与具有 与标准傅里叶变换相同的性质。而当固定不变时,可以将x 。( p 扣) 视为信号x ( n ) 第1 1 页 国防科学技术大学研究生院工学硕士学位论文 与窗函数指数加权w ( g ) e j o j m 的卷积。 信号的时域显示( 采样点的幅值) 可以通过离散傅里叶变换( d f t ) 的方法转 换为频域显示。为了快速计算d f t ,通常采用一种快速傅里叶变换( f f t ) 的方法。 当信号的采样点数是2 的幂时,就可以采用这种方法。 傅里叶变换能把信号按正弦展开成不同的频率值,对于取样信号,用的是离散 傅里叶变换。 f f t 2 2 】是离散傅里叶变换的一种高速算法,在信号和图像处理中有极大的用 处。从很多方面来看,快速傅里叶变换有重要的意义。许多以前在数字计算机上 实现的信号处理算法需要的时间比较多,往往比实时处理时间多几个数量级。因 为频谱分析是信号处理的一个重要组成部分,而以前一直还没有一种行之有效的 办法来实现它。而快速博里叶变换算法把计算博里叶变换需要的时间减少了几个 数量级,就有可能在与系统工作相适应的处理时间内实现日益复杂的信号处理算 法。此外,由于用专用数字硬件也可以实现快速傅里叶变换算法,许多过去认为 不现实的信号处理算法,看来也有可能用专用数字硬件实现了。 快速傅里叶变换算法的另一个重要意义是它本身是离散时域的方法。它可以 直接计算时域离散信号或序列的傅里叶变换,并且有一整套在离散时域上精确成 立的特性和数学关系。它已经不单纯是连续时域傅里叶变换的近似了,它的重要 作用是促使人们利用时域离散数学方法,重新建立许多信号处理概念和算法,在 离散时域上形成一套严格的关系式。从而使人们摆脱了那种认为用数字计算机处 理信号仅是模拟信号处理之近似的观点。由于这种观点上的改变,人们对于新兴 的数字信号处理学科表现出了强烈的关心。 2 3 语音信号的非线性分析 2 3 1 小波变换分析 小波( w a v e l e t ) 2 4 2 5 】,即小区域的波,是一种特殊的长度有限、平均值为0 的波形。它有两个特点:一是“小”,即在时域都具有紧支集或近似紧支集;二是正 负交替的“波动性”,也即直流分量为零。我们可以用小波和构成傅里叶分析基础的 正弦波做有一个比较,如图2 2 所示。傅里叶分析所用的正弦波在时间上没有限制, 从负无穷到正无穷,但小波倾向于不规则与不对称。傅里叶分析是将信号分解成 一系列不同频率的正弦波的叠加,同样小波分析是将信号分解成一系列小波函数 的叠加,而这些小波函数都是由一个母小波函数经过平移与尺度伸缩得来的。根 据直觉,用不规则的小波函数来逼近尖锐变化的信号显然要比光滑的正弦曲线要 好,同样,信号局部的特性用小波函数来逼近显然要比光滑的正弦函数来逼近要 第1 2 页 国防科学技术大学研究生院工学硕士学位论文 好。这里讨论的是一维的情况,小波分析同样可以用于二维图形的分析。 图2 2 傅里叶正弦波与小波函数 小波变换的定义是把某一被称为基本小波( 也叫母小波m o t h e rw a v e l e t ) 的函 数( f ) 做位移f 后,再在不同尺度a 下与待分析的信号做内积。 w t x ( a , r ) = 忑1 胁从等减刚 ( 3 1 3 ) 等效的频域表示是: 呢( 叩) = 百4 a x ( 缈归( 口缈) 矿脚d 国( 3 - 1 4 ) 式中x ( 国) 和v ( c o ) 分别是x ( f ) 和吵( ,) 的傅里叶变换。 可以这样理解上面表达式的意义:打个比喻,我们用镜头观察目标( 即待分 析信号) ,代表镜头所起的作用( 例如滤波或卷积) 。相当于使镜头相对于目 标平行移动,a 的作用相当于镜头向目标推进或远离。由此可见小波变换有以下特 占f 2 6 】1 2 7 】 ,、 1 、有多分辨率( m u l t i r e s o l u t i o n ) ,也叫多尺度( m u l t i s c a l e ) 的特点,可 以由粗及细地逐步观察信号。 2 、可以看成用基本频率特性为的带通滤波器在不同尺度a 下对信号做 滤波。由于傅里叶变换的尺度特性可知这组滤波器具有品质因数恒定,即相 对带宽( 带宽与中心频率之比) 恒定的特点。注意,a 越大相当频率越低。 3 、适当地选择基小波,使少( f ) 在时域上为有限支撑,甲( 国) 在频域上也 比较集中,就可以使孵在时、频域都具有表征信号局部特征的能力,因此有 利于检测信号的瞬态或奇异点。 正是由于上述特性,有人把小波变换誉为分析信号的数学显微镜。 如上所述,小波分析的一个主要优点就是能够分析信号的局部特征,例如可 以发现叠加在一个非常规范的正弦信号上的一个非常小的畸变信号的出现时间。 利用小波分析可以非常准确地分析出信号在什么时刻发生畸变。小波分析可以检 测出许多其他分析方法忽略的信号特性,例如,信号的趋势,信号的高阶不连续 点、自相似特性。小波分析还能以非常小的失真度实现对信号的压缩与消噪,它 在图像数据压缩方面的潜力已经得到确认。在二维情况下,小波分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论