




已阅读5页,还剩103页未读, 继续免费阅读
(通信与信息系统专业论文)小波分析在语音信号基音检测中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业大学硕士学位论文 摘要 在语音信号数字处理的各个领域里, 无论是语音分析与合成、 语音压缩编码, 还是语音识别和说话者确认等, 准确可靠地检测语音信号的基音周期都是至关重 要的任务,将直接影响到整个系统的性能。 本文旨 在寻找一种鲁棒的基音周期检测算法. 首先, 在现代语音学取得的成 果上, 对语音的生成、声学特征, 听觉功能进行分析,以把握语音信号波形的特 点。 其次, 对较典型的几种语音基音检测方法, 作了 较系统的分析、 探讨和比较。 接着, 较为详细地阐述了小波分析的基本理论, 着重在小波函数、 小波变换、 多 分辨分析和m a l l a t 算法的研讨上。最后,将小波变换与归一化自 相关、动态规 划平滑等技术相结合, 得到了一种新的基音周期检测算法。 新算法的基本思想是: 先对原始语音信号进行多级小波变换, 将较高几个层次上的逼近信号进行加权求 和处理, 利用小波变换的带通性和去噪性, 得到含丰富基音信息、 周期性较强的 合成信号 ( 这一结果对含不同基音周期的任意语音段具有普适性) ;接着将该合 成信号作为待处理信号, 采用归一化自 相关法检测基音周期, 并对结果进行动态 规划平滑处理。 用m a t l a b 在计算机上完成算法程序设计, 进行仿真实验。实验结果表明, 新算法估计基音准确性高, 运算速度较快, 稳定性好, 对噪声具有较好的鲁棒性, 充分吸收了自 相关算法和小波变换算法的优点, 有效地克服了自 相关算法的分频 和倍频现象,也比小波变换算法具有更强的抗噪能力,性能明显优于传统方法. 关键词: 基音检测 m a l l a t 算法 语音信号小波分析 归一化自相关动态规划 多分辨率分析 西北工业大学硕士学位论文 ab s t r a c t i n a l l f i e l d s o f t h e d i g i t a l p r o c e s s i n g o f s p e e c h s i g n a l s , f o r i n s t a n c e , s p e e c h a n a l y s i s , s p e e c h s y n t h e s i s , s p e e c h c o m p r e s s i o n c o d i n g , a n d s p e e c h r e c o g n i t i o n w i t h c o n f i r m b y s p e a k e r , e t c , d e t e c t i n g p i t c h p e r i o d a c c u r a t e l y a n d r e l i a b l y i s a n e s s e n t i a l t a s k . i t w i l l i n fl u e n c e t h e p e r f o r m a n c e o f t h e w h o l e s y s t e m s e r i o u s l y . t h i s p a p e r a i m s a t l o o k i n g f o r a k i n d o f r o b u s t p i t c h d e t e c t i o n a l g o r i t h m . b a s e d o n t h e a c h i e v e m e n t o f m o d e m p h o n e t i c s , t h e g e n e r a t i o n o f s p e e c h , i t s a c o u s t i c c h a r a c t e r i s t i c s a n d h u m a n s s e n s e o f h e a r i n g a r e a n a l y z e d a n d c h a r a c t e r i s t i c s o f t h e w a v e f o r m o f s p e e c h s i g n a l a r e a c q u i r e d . t h e n , a m o r e s y s t e m a t i c a n a l y s is a n d c o m p a r i s o n a m o n g s o m e t y p i c a l m e t h o d s o f p i t c h d e t e c t i o n i s m a d e . i n a d d i t i o n , t h i s p a p e r d e s c r i b e s t h e b a s i c k n o w l e d g e o f w a v e l e t t h e o ry i n d e t a i l , s t u d i e s t h e w a v e l e t f u n c t i o n , w a v e l e t tr a n s f o r m , m u l t i - r e s o l u t i o n a n a l y s i s , a n d m a l l a t a l g o r i t h m . f i n a l l y , w e c o m b i n e w a v e l e t tr a n s f o r m , n o r m a l a u t o c o r r e l a t i o n , a n d d y n a m i c p r o g r a m m i n g t e c h n o l o g y , p r o p o s e a k i n d o f n e w p i t c h d e t e c t i o n a l g o r i t h m . t h e m a i n i d e a o f t h e n e w a l g o r i t h m i s : f i r s t l y , w e c a r r y o n m u l t i s t a g e w a v e l e t tr a n s f o r m t o o r i g i n a l s p e e c h s i g n a l , d e a l w i t h t h e a p p r o a c h i n g s i g n a l s o n s e v e r a l h i g h e r l e v e l s b y w a y o f w e i g h t i n g a n d s u m m i n g , g e t t h e s y n t h e t i c s i g n a l w i t h a b u n d a n t p i t c h i n f o r m a t i o n a n d s t r o n g e r p e r i o d i c i t y ( t h i s r e s u l t i s g e n e r a l a n d r i g h t t o t h e r a n d o m s e c t i o n o f s p e e c h i n c l u d i n g d i ff e r e n t p i t c h p e r i o d s ) . s e c o n d l y , b a s e d o n t h e s y n t h e t i c s i g n a l , w e a d o p t t h e n o r m a l a u t o c o r r e l a t i o n m e t h o d t o d e t e c t p i t c h p e r i o d a n d d e a l w i t h t h e f i n a l d a t a b y d y n a m i c p r o g r a m m i n g t e c h n o l o g y . f i n i s h d e s i g n i n g p r o g r a m w i t h m a t l a b o n t h e c o m p u t e r a n d c a r r y o n t h e s i m u l a t i o n e x p e r i m e n t . e x p e r i m e n t s r e s u l t s s h o w t h a t n e w a l g o ri t h m h a s h i g h a c c u r a c y i n p i t c h e s t i m a t e , h i g h s p e e d i n o p e r a t i o n , g o o d s t a b i l i t y , a n d s t r o n g r o b u s t n e s s t o t h e n o i s e . i t c o m b i n e s t h e a d v a n t a g e o f a u t o c o r r e l a t i o n a l g o r i t h m a n d w a v e l e t a l g o r i t h m , o v e r c o m e s t h e p h e n o m e n a o f f r a c t i o n a l fr e q u e n c y a n d d o u b l e fr e q u e n c y i n a u t o c o r r e l a t i o n a l g o ri t h m , a n d h a s b e t t e r c h a r a c t e r o f r e s i s t i n g t h e n o i s e t h a n w a v e l e t a l g o ri t h m . t h e p e r f o r m a n c e o f o u r n e w a l g o ri t h m i s o b v i o u s l y s u p e r i o r t o t h e tr a d i t i o n a l a l g o ri t h m . k e y w o r d s : p it c h d e t e c ti o n , mu l t i - r e s o l u t i o n s p e e c h s i g n a l , wa v e l e t a n a l y s i s , a n a l y s i s ,ma l l a t a l g o r i t h m , n o r m a l a u t o c o r r e l a t i o n ,d y na mi c p r o g r a mmi n g 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 第 1 章绪论 1 . 1 概述 语音是人类相互之间进行交流时最常用、 最方便、 最有效和最重要的信息载 体, 语音信号是人们构成思想疏通和感情交流的 最主要的 途径。 在高度信息化的 今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、 获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 人在发浊音时, 气流通过声门 使声带产生张驰振荡式振动, 产生一股准周期 脉冲气流, 这一气流激励声道就产生浊音, 又称有声语音, 它携带着语音中的大 部分能量。 这种声带振动的频率称为基频, 相应的周期就称为基音周期( p i t c h ) , 它由声带逐渐开启到面积最大( 约占 基音周期的5 0 % ) 、逐渐关闭到完全闭合( 约 占 基音周期的3 5 % ) 、 完全闭合( 约占 基音周期的1 5 % ) 三部分组成。 基音周期具有 时变性和准周期性, 它的大小与个人声带的长短、厚薄、韧性和发音习惯有关, 还与发音者的性别、 年龄、 发音时的力度及情感有关, 是语音信号处理中的重要 参数之一, 它描述了语音激励源的一个重要特征。 基音周期的估计称为基音检测 ( p i t c h d e t e c t i o n ) , 基音检测的 最终目 标是找出 和声带振动 频率完全一致的 基 音周期变化轨迹曲线, 如不可能则找出尽量相吻合的轨迹曲线。由于语音信号自 身的复杂多变性, 准确和可靠地检测基音极其困 难, 从而使基音检测成为语音信 号处理领域最具挑战性的任务之一 随着语音处理技术及相关学科的发展, 人们 己经在理论上找到很多比 较有效的基音检测方法,具代表性的有自 相关函数法、 平均幅度差函 数法、 线性预测分析方法、 倒谱法、 小波变换法等, 这些方法中的 一些方案在不同的语音处理系统中得到了应用。 1 . 2 语音基音检测的意义 在数字通信领域中, 语音信号参数提取的准确性非常重要, 只有获得准确的 参数, 才能利用这些参数进行高效的语音压缩编码和解码, 而在许多参数提取中, 基音周期的提取尤为重要, 它直接影响到合成语音是否真实再现原始语音信号的 频谱。 目 前, 语音信号的数字处理技术正在日 益受到人们的关注, 计算机语音输入 系统以及多种语音识别系统已 经推向了市场。 在这些系统当中, 影响识别率和实 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 第 1 章绪论 1 . 1 概述 语音是人类相互之间进行交流时最常用、 最方便、 最有效和最重要的信息载 体, 语音信号是人们构成思想疏通和感情交流的 最主要的 途径。 在高度信息化的 今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、 获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 人在发浊音时, 气流通过声门 使声带产生张驰振荡式振动, 产生一股准周期 脉冲气流, 这一气流激励声道就产生浊音, 又称有声语音, 它携带着语音中的大 部分能量。 这种声带振动的频率称为基频, 相应的周期就称为基音周期( p i t c h ) , 它由声带逐渐开启到面积最大( 约占 基音周期的5 0 % ) 、逐渐关闭到完全闭合( 约 占 基音周期的3 5 % ) 、 完全闭合( 约占 基音周期的1 5 % ) 三部分组成。 基音周期具有 时变性和准周期性, 它的大小与个人声带的长短、厚薄、韧性和发音习惯有关, 还与发音者的性别、 年龄、 发音时的力度及情感有关, 是语音信号处理中的重要 参数之一, 它描述了语音激励源的一个重要特征。 基音周期的估计称为基音检测 ( p i t c h d e t e c t i o n ) , 基音检测的 最终目 标是找出 和声带振动 频率完全一致的 基 音周期变化轨迹曲线, 如不可能则找出尽量相吻合的轨迹曲线。由于语音信号自 身的复杂多变性, 准确和可靠地检测基音极其困 难, 从而使基音检测成为语音信 号处理领域最具挑战性的任务之一 随着语音处理技术及相关学科的发展, 人们 己经在理论上找到很多比 较有效的基音检测方法,具代表性的有自 相关函数法、 平均幅度差函 数法、 线性预测分析方法、 倒谱法、 小波变换法等, 这些方法中的 一些方案在不同的语音处理系统中得到了应用。 1 . 2 语音基音检测的意义 在数字通信领域中, 语音信号参数提取的准确性非常重要, 只有获得准确的 参数, 才能利用这些参数进行高效的语音压缩编码和解码, 而在许多参数提取中, 基音周期的提取尤为重要, 它直接影响到合成语音是否真实再现原始语音信号的 频谱。 目 前, 语音信号的数字处理技术正在日 益受到人们的关注, 计算机语音输入 系统以及多种语音识别系统已 经推向了市场。 在这些系统当中, 影响识别率和实 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 时性的一个重要因素就是基音检测的精度和快慢。 语音的基音信息在诸如语义及语音学知识的自 动获取和产生、 语病的诊断和 深度聋耳助听设备的研制等与言语相关的信息处理过程中扮演着极其重要的角 色, 能否简便而准确地从语音波形中提取基音信息直接影响这些系统信息处理的 准确性和可靠性。 综上所述, 在语音信号数字处理的各个领域里, 无论是语音分析与合成、 语 音压缩编码, 还是语音识别和说话者确认等, 准确可靠地检测语音信号的基音周 期都是至关重要的任务, 将直接影响到整个系统的性能。 尤其对于汉语这样一种 有调语言, 基音周期的变化模式称为声调, 它携带着非常重要的具有辨意作用的 信息, 有区分意义的功能, 所以 基音的 提取和估计对汉语语音的处理显得尤为重 要。 1 . 3 语音基音检测的现状及发展 1 . 3 . 1 影响 基音检测的因素 尽管基音提取的方法很多, 但迄今尚未有一种能适用于各种场合、 各种说话 人( 包括男人、 女人、 老人和小孩) 的普遍有效的基音提取方法。 这主要是由 于以 下的困难所致: ( 1 ) 语音信号变化十分复杂,声门激励波形不是一个完全的周期脉冲串,在 语音的头、 尾部并不具有声带振动那样的周期性, 有些清浊音的过渡部分很难判 断应属于周期性或非周期性,即 便在理想情况下也只能算是准周期信号。 ( 2 ) 声道共振峰有时会严重影响激励信号的谐波结构,要从语音信号中去除 声道影响,直接取出仅和声带振动有关的音源信息并不容易。 ( 3 ) 在浊音语音段定义每个基音周期的准确开始和结束这一固有困难限制了 基音的可靠测量,这不仅因为语音信号本身是准周期的 ( 即基音是有变化的) , 也是因为波形的峰值点或过零点受共振峰、噪声等的影响. ( 4 ) 区分清音语音和低电平语音是导致基音检测困难的另一个重要因素。在 许多情况下, 清音语音和低电 平浊音段之间的过渡段是非常细微的, 确认它是极 其困难的。 ( 5 ) 在实际 应用中, 背景噪声强烈影响基音检测的 性能, 对于移动通信环境 尤为重要,因为经常会出现高电平噪声。 ( 6 ) 音调周期变化范围大,从低音男性的 5 0 h z到高音女性的 5 0 0 h z ,在 2 m s - - 2 0 m s 之间, 接近三个倍频程, 给基音检测带来了 一定的困难。 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 时性的一个重要因素就是基音检测的精度和快慢。 语音的基音信息在诸如语义及语音学知识的自 动获取和产生、 语病的诊断和 深度聋耳助听设备的研制等与言语相关的信息处理过程中扮演着极其重要的角 色, 能否简便而准确地从语音波形中提取基音信息直接影响这些系统信息处理的 准确性和可靠性。 综上所述, 在语音信号数字处理的各个领域里, 无论是语音分析与合成、 语 音压缩编码, 还是语音识别和说话者确认等, 准确可靠地检测语音信号的基音周 期都是至关重要的任务, 将直接影响到整个系统的性能。 尤其对于汉语这样一种 有调语言, 基音周期的变化模式称为声调, 它携带着非常重要的具有辨意作用的 信息, 有区分意义的功能, 所以 基音的 提取和估计对汉语语音的处理显得尤为重 要。 1 . 3 语音基音检测的现状及发展 1 . 3 . 1 影响 基音检测的因素 尽管基音提取的方法很多, 但迄今尚未有一种能适用于各种场合、 各种说话 人( 包括男人、 女人、 老人和小孩) 的普遍有效的基音提取方法。 这主要是由 于以 下的困难所致: ( 1 ) 语音信号变化十分复杂,声门激励波形不是一个完全的周期脉冲串,在 语音的头、 尾部并不具有声带振动那样的周期性, 有些清浊音的过渡部分很难判 断应属于周期性或非周期性,即 便在理想情况下也只能算是准周期信号。 ( 2 ) 声道共振峰有时会严重影响激励信号的谐波结构,要从语音信号中去除 声道影响,直接取出仅和声带振动有关的音源信息并不容易。 ( 3 ) 在浊音语音段定义每个基音周期的准确开始和结束这一固有困难限制了 基音的可靠测量,这不仅因为语音信号本身是准周期的 ( 即基音是有变化的) , 也是因为波形的峰值点或过零点受共振峰、噪声等的影响. ( 4 ) 区分清音语音和低电平语音是导致基音检测困难的另一个重要因素。在 许多情况下, 清音语音和低电 平浊音段之间的过渡段是非常细微的, 确认它是极 其困难的。 ( 5 ) 在实际 应用中, 背景噪声强烈影响基音检测的 性能, 对于移动通信环境 尤为重要,因为经常会出现高电平噪声。 ( 6 ) 音调周期变化范围大,从低音男性的 5 0 h z到高音女性的 5 0 0 h z ,在 2 m s - - 2 0 m s 之间, 接近三个倍频程, 给基音检测带来了 一定的困难。 西北工业大学硕士学位论 文小波分析在语音信号基音检测中的应用研究 尽管基音检测有许多困 难, 但因为它的重要性, 基音的检测提取一直是一个 重要的研究课题。 1 . 3 . 2 基音检测的现状 从语音波形中准确地提取基音的工作,使全世界的科学家忙了几十年,从 2 0 世纪6 0 年代以来出现了很多种基音周期检测方法, 特别是在有噪环境下的语 音信号的基音周期检测方面更是提出了许多有效的方法。 这些方法大致可分为时 域方法 ( 如自 相关法) 和频域方法 ( 如倒谱法) 两种。 近年来,随着现代信息处 理方法的发展和时频分析的进一步发展, 又提出了时频联合来分析提取语音信号 基音周期的小波分析方法. 小波变换具有良 好的时频局部分析能力, 非常适合于 探测正常信号中的突变,据此,s . k a d a m b e等将小波变换应用到语音荃频提取 中, 并演示了 其相对于自 相关法和倒谱法的 优点。 我国学者将小波变换引入到汉 语基音检测,给出了一系列实用的算法。 目 前, 人们普遍采用的是自 相关函数法、 平均幅度差函数法、 倒谱法和小波 变换法。 自 相关函数法的原理是周期信号的自 相关函数将在时延等于函数周期的 地方产生一个极大值,因此通过计算语音信号的自 相关函数可以估计信号的 基 音。 这种算法的 优点是算法简单, 提取出的基音周期较为精确, 但通常要对语音 信号进行中心削波预处理, 而削波电平门限的选择往往很难确定, 如果选择的不 好会使基音周期的估计出现很大的偏差。 这种方法受噪声的影响较大, 抗噪性能 较差. 平均幅度差函数法无需乘法运算, 因 而算法复杂度小, 但当语音信号幅度 快速变化时, 平均幅度差函 数法估计的精度不够理想。 倒谱法通过对信号的功率 谱取对数, 再通过滤波或者再做一次傅里叶变换来把相当于频谱包络的慢变分量 和相当于基音谐波峰值的快变分量分开。 这种算法的优点是对纯净语音的基音检 测精度较高,可以较好地从语音信号中分离出基音信息和声道信息( 共振峰信 息) , 缺点是算法比 较复杂,反映基音信息的倒谱峰在过渡音和含噪语音中 将会 变得不清晰甚至完全消失, 抗噪性能也不是很好。 k a d a m b e 提出的小波算法能很 好的适应信号的时变特性, 算法的复杂度介于自 相关算法和倒谱算法之间, 具有 一定的抗噪性。 k a d a m b e 算法的缺点是受大尺度平滑作用和噪声的影响, 基音定 位容易产生偏差和漏报。针对 k a d a m b e算法的缺点,d u提出了一种基于小波变 换的锥形检测算法, 提高了声门关闭时刻的检测精度, 降低了 虚普率, 并对噪声 有较好的 鲁棒性, 从而可以 准确地获得语音信号的动态基频。 锥形检测算法的缺 点是至少要在两个尺度空间的锥形域内进行局部极值搜索,计算代价较大。 1 . 3 . 3 基音检测的发展展望 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 自 相关函数法、 平均幅度差函数法、 倒谱法、 小波变换法等都是经典的 基音 检测方法, 但在实际应用中, 语音信号的环境千差万别, 有的是安静环境, 有的 有强烈的背景噪声, 有的方法没有考虑声道的影响, 有的方法没有考虑发音者的 个体差异, 有的方法在预处理和后处理上欠妥, 而基音检测的健壮性及准确性却 与对象、 方法、 环境密切相关。 这使得上述方法在运用中, 在安静的实验室环境 下, 有较高的准确性, 但一到噪声环境, 则准确性剧减。 有的对选定的人群有效, 对任意的个体则性能陡降, 有的在说话者情绪平静时有效, 但一遇情绪激动, 则 大打折扣。 正是由于各种语音环境千差万别及语音信号自 身的复杂性, 基音检测问 题一 直未能得到很好解决,目 前还没有一种方法能够不受讲话者个体变化、 讲话者情 绪和发音语境变化以 及噪声等因素影响而准确可靠地提取出基音。 人们至今仍在 不断研究和改善检测的手段和方法, 以期改进其精度和鲁棒性。目 前围绕基音检 测改进方法的研究主要集中在: 对预处理和后处理方法上进行改进; 突破传统的 语音模型: 适当考虑说话人的个体特征及发音时的情感及力度对基音检测的影响 等。随着信息处理技术日 新月异地发展, 各种先进的基音检测方法将不断涌现, 基音检测的准确性及健壮性将逐渐得到改善。 1 . 4 本论文主 要内 容 本论文主要致力于构造准确性和鲁棒性较好的新的基音检测算法。近几年, 小波分析理论发展迅速, 它对时变信号的分析优于传统的短时傅里叶变换, 随着 这一全新理论的不断提出和完善, 为人们对语音信号的分析和处理提供了一个强 有力的工具, 人们开始逐渐将小波变换理论应用到语音基音检测上来。 基于小波 变换的基音检测尽管具有较好的准确性和抗噪声性能, 也仍有其不可忽视的缺点 ( 见1 . 3 . 2 节) ,为克服其缺点而出 现的 锥形算法,却是以 增加复杂度为代价, 难以满足实时化要求。 鉴于这种情况, 本人在深入研究小波理论和传统基音检测 方法的基础上, 提出了一种将小波分析与其他相关技术相结合的新的基音检测算 法, 并计算机仿真对真实语音进行了 基音检测, 验证本算法的有效性. 本文的结 构安排如下: 第1 章是绪论部分, 阐述了 基音检测的概念及研究的意义, 综述了语音基音 检测的发展状况,并简要介绍了本论文的主要研究内容及各章节的安排. 第2 章从语音信号的人体的发音器官、 听觉器官入手, 简要介绍了语音的发 音机理、语音信号的主客观特性。 第3 章重点研究分析了常用的几种语音基音检测方法:自 相关函数法、 平均 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 自 相关函数法、 平均幅度差函数法、 倒谱法、 小波变换法等都是经典的 基音 检测方法, 但在实际应用中, 语音信号的环境千差万别, 有的是安静环境, 有的 有强烈的背景噪声, 有的方法没有考虑声道的影响, 有的方法没有考虑发音者的 个体差异, 有的方法在预处理和后处理上欠妥, 而基音检测的健壮性及准确性却 与对象、 方法、 环境密切相关。 这使得上述方法在运用中, 在安静的实验室环境 下, 有较高的准确性, 但一到噪声环境, 则准确性剧减。 有的对选定的人群有效, 对任意的个体则性能陡降, 有的在说话者情绪平静时有效, 但一遇情绪激动, 则 大打折扣。 正是由于各种语音环境千差万别及语音信号自 身的复杂性, 基音检测问 题一 直未能得到很好解决,目 前还没有一种方法能够不受讲话者个体变化、 讲话者情 绪和发音语境变化以 及噪声等因素影响而准确可靠地提取出基音。 人们至今仍在 不断研究和改善检测的手段和方法, 以期改进其精度和鲁棒性。目 前围绕基音检 测改进方法的研究主要集中在: 对预处理和后处理方法上进行改进; 突破传统的 语音模型: 适当考虑说话人的个体特征及发音时的情感及力度对基音检测的影响 等。随着信息处理技术日 新月异地发展, 各种先进的基音检测方法将不断涌现, 基音检测的准确性及健壮性将逐渐得到改善。 1 . 4 本论文主 要内 容 本论文主要致力于构造准确性和鲁棒性较好的新的基音检测算法。近几年, 小波分析理论发展迅速, 它对时变信号的分析优于传统的短时傅里叶变换, 随着 这一全新理论的不断提出和完善, 为人们对语音信号的分析和处理提供了一个强 有力的工具, 人们开始逐渐将小波变换理论应用到语音基音检测上来。 基于小波 变换的基音检测尽管具有较好的准确性和抗噪声性能, 也仍有其不可忽视的缺点 ( 见1 . 3 . 2 节) ,为克服其缺点而出 现的 锥形算法,却是以 增加复杂度为代价, 难以满足实时化要求。 鉴于这种情况, 本人在深入研究小波理论和传统基音检测 方法的基础上, 提出了一种将小波分析与其他相关技术相结合的新的基音检测算 法, 并计算机仿真对真实语音进行了 基音检测, 验证本算法的有效性. 本文的结 构安排如下: 第1 章是绪论部分, 阐述了 基音检测的概念及研究的意义, 综述了语音基音 检测的发展状况,并简要介绍了本论文的主要研究内容及各章节的安排. 第2 章从语音信号的人体的发音器官、 听觉器官入手, 简要介绍了语音的发 音机理、语音信号的主客观特性。 第3 章重点研究分析了常用的几种语音基音检测方法:自 相关函数法、 平均 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 幅度差函数法、倒谱法、小波变换法。 第4 章论述小波分析的基本理论。 分析了小波分析与傅里叶分析的关系, 解 释了小波分析在语音信号处理方面优越于傅里叶分析的理论依据; 给出了小波变 换的定义, 概括了小波变换的基本原理和性质; 介绍了多分辨分析的概念, 较为 系统地总结分析了由多分辨分析构造小波函数的一般思路; 给出了二进小波变换 的快速分解与重构算法, 研究了实现快速算法的滤波器组形式, 给小波分析的应 用提供了重要的参考依据。 第5 章利用小波变换的带通性质及多分辨分析理论下的m a l l a t 算法对语音 信号进行分析和处理, 并与归一化自 相关、 动态规划平滑等技术相结合, 提出了 一种新的语音信号基音周期检测算法。并用m a t l a b 编程对新算法和传统算法做 仿真实验,对实验结果进行分析和讨论。 最后对全文所做工作进行了总结,并列出了参考文献以供查询。 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 第 2 章语音信号及其特征 语音信号是携带语言信息的语音声波。 如果经过声电转换就得到语音的电 信 号, 如果经过声光转换就得到语音的光信号。 为了 对语音信号进行数字处理, 首 先要建立一种能够精确描述语音产生过程和语音特征的数字模型。 但是, 语音的 产生过程是极为复杂的, 语音中 包含着十分丰富的多 样的信息, 至今还没有一种 理想的模型能够精细描述语音的产生过程和语音的所有特征。 在己 经提出来的许 多种模型中, f a n t 于1 9 6 0 年提出的线性模型是模拟语音主要特征的 较成功的模 型之一 该模型以人类语音的发音生理过程和语音信号的声学特性为基础, 成功 地表达了语音的主要特征, 在语音编码、 语音识别、 和语音合成等领域得到了 广 泛应用。 为了建立这种模型, 需要了解人类的发音器官、 发音过程、 语音信号的 重要特征及人类听觉的一般特性。 2 . 1发音器官 人类的语音是由 人体发音器官在大脑控制下的生理运动产生的。 人体发音器 官由三部分组成:肺和气管,喉,声道。 2 . 1 . 1 肺和气管 肺的主要生理功能是使血液和空气之间进行气体交换, 即将空气中的氧气吸 入血液, 而将血液中的 二氧化碳排入空气, 这就是人体的呼吸功能。 肺的另外一 个重要功能是将压缩空气供给发音器官。 人是在正常呼吸的情况下说话的, 不说 话时,人的呼吸通常是规则的、平稳的和有节律性。 而在说话时, 为了保持语音 有一定程度的连续性, 人的呼吸就不得不有短暂的停顿, 其特点是吸气短, 呼气 长, 且呼吸受到句子结构的控制, 并没有一个固定的规则。 空气由 肺部排入喉部, 经过声带进入声道, 最后由嘴辐射出声波, 形成语音. 可见, 肺是语音产生的能 源所在。 气管连接着肺和喉,它是肺与声道联系的通道。 2 . 1 . 2 喉 喉是一种由软骨和肌肉组成的复杂系统, 其中有重要的发音器官声带。 它主要包括环状软骨、甲状软骨、 构状软骨和声带, 其顶视解剖结构如图2 . 1 所 示。 声带受到喉部软骨和肌肉的控制。 声带前端由甲状软骨支撑, 后端由构状软 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 第 2 章语音信号及其特征 语音信号是携带语言信息的语音声波。 如果经过声电转换就得到语音的电 信 号, 如果经过声光转换就得到语音的光信号。 为了 对语音信号进行数字处理, 首 先要建立一种能够精确描述语音产生过程和语音特征的数字模型。 但是, 语音的 产生过程是极为复杂的, 语音中 包含着十分丰富的多 样的信息, 至今还没有一种 理想的模型能够精细描述语音的产生过程和语音的所有特征。 在己 经提出来的许 多种模型中, f a n t 于1 9 6 0 年提出的线性模型是模拟语音主要特征的 较成功的模 型之一 该模型以人类语音的发音生理过程和语音信号的声学特性为基础, 成功 地表达了语音的主要特征, 在语音编码、 语音识别、 和语音合成等领域得到了 广 泛应用。 为了建立这种模型, 需要了解人类的发音器官、 发音过程、 语音信号的 重要特征及人类听觉的一般特性。 2 . 1发音器官 人类的语音是由 人体发音器官在大脑控制下的生理运动产生的。 人体发音器 官由三部分组成:肺和气管,喉,声道。 2 . 1 . 1 肺和气管 肺的主要生理功能是使血液和空气之间进行气体交换, 即将空气中的氧气吸 入血液, 而将血液中的 二氧化碳排入空气, 这就是人体的呼吸功能。 肺的另外一 个重要功能是将压缩空气供给发音器官。 人是在正常呼吸的情况下说话的, 不说 话时,人的呼吸通常是规则的、平稳的和有节律性。 而在说话时, 为了保持语音 有一定程度的连续性, 人的呼吸就不得不有短暂的停顿, 其特点是吸气短, 呼气 长, 且呼吸受到句子结构的控制, 并没有一个固定的规则。 空气由 肺部排入喉部, 经过声带进入声道, 最后由嘴辐射出声波, 形成语音. 可见, 肺是语音产生的能 源所在。 气管连接着肺和喉,它是肺与声道联系的通道。 2 . 1 . 2 喉 喉是一种由软骨和肌肉组成的复杂系统, 其中有重要的发音器官声带。 它主要包括环状软骨、甲状软骨、 构状软骨和声带, 其顶视解剖结构如图2 . 1 所 示。 声带受到喉部软骨和肌肉的控制。 声带前端由甲状软骨支撑, 后端由构状软 西北工业大学硕士学位论文 小波分析在语音信号墓音检测中的应用研究 骨支撑。 构状软骨与环状软骨的上部相连结. 这些软骨在环状软骨上的肌肉控制 下, 能将两片声带合拢或分离。当声带分开时, 处于正常呼吸状态。 两片声带之 间的空间叫做声门。当声带闭合时, 肺道便被封闭起来构成一个密闭的小室。 声 带的生物学功能是封闭气管以保护肺部 ( 例如在吃东西时防止食物落入肺道) , 或在胸部和腹腔建立一定气压 ( 例如为了帮助排泄和分娩) .声带的声学功能是 为产生语音提供主要的激励源。 甲状软骨 的伏峨骨 图2 . 1 喉的解剖结构 说话时, 两片声带在构状软骨的 作用下相互靠近但不完全封闭, 这样声门 变 成一条窄缝。 当气流通过这个窄缝时其间的压力减小, 从而两片声带完全合拢使 气流不能通过。 在气流阻断时压力恢复正常, 声带间的空隙再次形成, 气流再次 通过。 这一过程周而复始的进行, 形成进入声道的一串周期脉冲气流 ( 声门脉冲 串) 。 它的典型波形如图2 . 2 所示. 这一周期气流脉冲串的周期称为“ 基音周期”, 用t r 表示; 其倒 数 称为“ 基 音 频 率” , 用f p 表 示,f p 取 决 于声 带的 尺 寸 和 特 性, 也 决 定 于 它 所受的 张 力。 男 性 讲话 者的九值介于5 0 一 一 2 5 0 h z 之间, 女 性 讲话 者 和小 孩的几值介 于1 0 0 - - 5 0 0 h z 之间 . 用 上 述 方式 发出 的 语 音是“ 浊音” 图2 . 2 典型的声门脉冲序列波形 2 . 1 . 3声道 声道是指声门至嘴唇的所有器官, 其解剖结构如图2 . 3 所示。 其中包括咽喉、 口 腔和鼻腔。口 腔包括上下唇、上下齿、上下齿nm 、上下愕、舌和小舌等部分。 上腮又分为硬聘和软胯两部分; 舌又分为舌尖、 舌面和舌根三部分。 鼻腔在口腔 上面,靠软鳄和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便祸合起来: 当小舌上抬时,口腔和鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。口腔 西北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 中各器官能够协同 动作, 使空气流通过时形成各种不同 情况的阻碍, 并产生振颤, 从而发出一些不同的音来。 声道可以看成是一根从声门一直延伸到嘴唇的具有非 均匀截面的声管, 其截面面积主要取决于唇、 舌、 聘和小舌的形状和位置, 最小 面积可以为零 ( 对应于完全闭合的部位) ,最大截面面积可以达到2 0 c m 。在产 生语音的过程中,声道的非均匀截面又是在随着时间不断地变化. 图2 . 3 主要发音器官的纵剖面图 为了便于分析, 可以 把声道看作一段无损声管, 如图2 . 4 所示. 对成年男性 而言,声道的口腔段长度为1 7 c m 左右,而鼻腔段的长度约为1 3 c m。 声门 1 7 口 五 图2 . 4 声道的无损声管模型 西 北工业大学硕士学位论文小波分析在语音信号基音检测中的应用研究 2 . 2 语音产生过程 图2 . 5 为语音产生机理示意图。 空气从肺部排出形成气流, 空气流过声带时, 如果声带是绷紧的, 则声带将产生张弛振动, 即声带将周期性地启开和闭合。 声 带启开时, 空气流从声门喷射出来, 形成一个脉冲; 声带闭合时相应于脉冲序列 的间歇期。 因此, 这种情况下在声门处产生一个准周期性脉冲序列的空气流, 该 空气流经过声道后最终从嘴唇辐射出声波, 这便是 “ 浊音” 语音。 如果声带是完 全舒展开来的, 则肺部发出的空气流将不受影响地通过声门。 空气流通过声门后, 会遇到两种不同的情况: 一种情况是, 如果声道的某个部位发生了收缩而形成一 个狭窄的通道, 当空气流到达此处时被迫以高速冲过收缩区, 并在附近产生出 空 气的湍流, 这种湍流通过声道后便形成 “ 摩擦音” 或 “ 清音” ; 另一种情况是, 如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压 力, 一旦闭合点突然开启便会让气压快速释放, 经过声道后便形成 “ 爆破音” , ) ) 异 , 川。 图2 . 5 语音产生机理示意图 由 此可见, 语音是由空气流激励声道最后从嘴唇或鼻孔或同时从嘴唇和鼻孔 辐射出来而产生的。 对于浊音、 清音和爆破音三种不同类型的语音来说, 激励源 是不同的, 浊音语音是位于声门处的准周期脉冲序列, 清音的激励源是位于声道 的某个收缩区的空气湍流 ( 类似于噪声) , 而爆破音的 激励源是位于声道某个闭 合点处建立起来的气压及其突然释放。 当声音由上述三种激励方式产生出来以后, 便顺着声道进行传播。 气流流过 声道时犹如通过一个具有某种谐振特性的腔体,腔体的一组谐振点称为共振峰, 这些共振峰的位置及各个峰的宽度决定了声道的频谱特性, 共振峰及其带宽取决 于声道的形状和尺寸。 输出气流的频率特性要受到声道共振特性的影响。 声门脉 西北工业大学硕士学位论文 小波分析在语音信号墓音检测中的应用研究 冲序列具有丰富的 谐波成分。 这些频率成分与声道的共振峰频率之间相互作用, 对语音的音质产生很大的影响。 共振峰频率与声道传递函数极点相对应, 当鼻道 关闭,并且声门振动是惟一的激励源时,声道传递函数就不会出现有限的零点, 这将使分析大为简化。共振峰频率由低到高排列为第一共振峰,第二共振 峰, : 相 应的 频率 用f , , f z , 表 示。 为了 精 确描 述语音, 必须 采 用尽 可能多的共振峰, 但实际应用中,只有头三个共振峰才是最重要的。 图2 . 6 中画出了一段浊音产生过程中的有关波形. 图中 准周期脉冲序列是激 励源, 重复周期为t , 对应的 基音频率等于1 / t 。 这就决定了相应的输出 浊音波 形也近似地在一短段时间内是周期性的 ( 即准周期性的) 。输入激励的频谱是线 状谱, 相邻谱线之间的间隔即等于基音频率. 由 于声门 脉冲波形不是无限窄的理 想冲激 ( 一般可以 近似看成是三角形的或锯齿形的或矩形的) ,因而线状频谱的 包络不是水平的而是逐渐衰减的,衰减速度大约为每倍频程 1 2分贝 ( 即 1 2 d b / o c t ) 。声道的共振特性反映在其频率特性上具有一系列共振峰。输出 语音 的频谱是由 激励信号的线状谱与声道的共振峰频谱相乘得到的, 因而其包络反映 了声道的频率特性。当产生不同的语音时,声道的形状和尺寸在不断发生变化, 因而语音频谱的包络也将随之发生变化,当然激励源也在不断改变。 ii a a a ply) zr ; su)rlr 赢 v(op) 4 2 t / t 图2 . 6 准周期脉冲序列激励声道产生浊音 2 . 3 语音信号产生的 数字模型 根据发声器官和语音的产生过程, 语音信号可由图 2 . 7所示的源系统模型 产生, 即把激励特性和声道及辐射特性分离开来, 声道及辐射的影响用一个时变 线性系统来考虑, 激励发生器则产生一种信号, 它或是一串( 声门) 脉冲, 或是 随机变化 ( 噪声) 的信号。 源和系统参数的选择所得到的输出具有所要求的类似 语音的性质。 西北工业大学硕士学位论文 小波分析在语音信号墓音检测中的应用研究 冲序列具有丰富的 谐波成分。 这些频率成分与声道的共振峰频率之间相互作用, 对语音的音质产生很大的影响。 共振峰频率与声道传递函数极点相对应, 当鼻道 关闭,并且声门振动是惟一的激励源时,声道传递函数就不会出现有限的零点, 这将使分析大为简化。共振峰频率由低到高排列为第一共振峰,第二共振 峰, : 相 应的 频率 用f , , f z , 表 示。 为了 精 确描 述语音, 必须 采 用尽 可能多的共振峰, 但实际应用中,只有头三个共
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中医养生护理试题题库及答案
- (正式版)DB65∕T 4227-2019 《基层基础数据共享交换平台 共享数据发布规范》
- 2025年员工安全教育培训试题及答案
- 2025年全国“质量月”全面质量管理知识竞赛题库及答案
- 网络直播技术在戏剧表演中的新机遇-洞察及研究
- 绿色包装解决方案-洞察及研究
- Module 4 Unit 3 Language in use 说课稿 外研版八年级英语上册
- Lesson 44 Volunteering in Summer(教学设计)七年级英语下册同步教学(冀教版河北专版)
- 22.1.3 二次函数y=a(x-h)^2+k的图象和性质(第三课时)(教学设计)九年级数学上册同步高效课堂(人教版)
- “2025年广州医科大学临床医学(呼吸科)哮喘患者护理需求试题及答案”
- TCTBA 001-2019 非招标方式采购代理服务规范
- 冷库储存生姜合同范本
- 《小狗钱钱》完整版
- 《酒类鉴赏威士忌》课件
- 消化道出血患者的护理
- 各种奶茶配方资料
- 《国家电网公司电力安全工作规程(火电厂动力部分、水电厂动力部分)》
- 八年级语文下册-专题08-语言表达与运用-(中考真题演练)(原卷版)
- 肾脏病与药物治疗
- 泵站管理制度
- 20以内的加法口算练习题4000题 205
评论
0/150
提交评论