(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf_第1页
(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf_第2页
(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf_第3页
(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf_第4页
(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)语音基频检测及其频模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:遴! 必垒垃日期:丛颦。必 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:旅,丑歪聿导师签名:翌l 叠l 日期: 矿孙孑0 山东大学硕士学位论文 摘要 近年来随着计算机及数字信号处理技术的发展,人机交互技术有了很大的进 展,作为其中重要组成部分的语音合成技术也得到了迅速的提高。目前已有许多 语音合成方法,合成语音的清晰度达到了令人满意的效果;而其自然度和韵律性 还跟人们的期望有一定的差距,带有很大的机器味。从而寻找一种能够有效模拟 自然语音的韵律特征的方法一直是语音合成技术的一个研究热点。 语音的韵律特征包括基频、时长及幅度等,其中最主要的是基频。自然语音 基频曲线的准确检测在语音信号处理中占重要地位;它不仅是我们分析自然语音 的韵律特征的一个重要工具,而且在语音合成和语音识别中有广泛的应用。为提 高合成语音的自然度,需要建立一个更加有效的基频模型,而良好的模型的建立 是以自然语音基频曲线准确有效的检测为基础的。 论文首先概述了课题的研究背景,并对语音的发音机制、语音产生的数学模 型及语音的时频特性做了介绍。然后,对国内外基频检测的研究现状进行了回顾, 论述了自相关法、倒谱法、平均幅度差法及小波变换等基频检测的原理及算法。 简要的阐述了语音合成中的基频控制的现状;并对小波变换的原理及性质进行了 详细的介绍。 本文提出了一种基于最佳尺度的小波变换基频检测。传统的小波变换基频检 测,通过比较相邻两尺度下的极值点的位置是否一致,来确定声门闭合时刻,求 得基频。由于小尺度下容易引入伪极值点,需要进行多次的小波变换及极值点搜 索和判定,降低了算法的准确性和实时性。本文提出的最佳尺度的小波变换基频 检测方法,利用发声器官的生理特性以及语音基频曲线内在的特点,结合小波变 换的优点,先进行最佳尺度的判定,然后在该尺度下进行基频检测。新算法不仅 有效的去除了伪极值点,增强了检测的准确性;而且不必进行多个尺度下的极值 点搜索和确定,利用改进的极值搜索方法,提高了算法的实时性。 论文利用提出的基频检测方法,对一标准单音节语音库进行了基频的提取, 阐述了各个声调的典型基频曲线模式。在此基础上对t a r g e t 模型中的t a r g e t 进行 更详细的分类,设置了更加合理的t a r g e t t 在设定好t a r g e t 模型的表达式后,用 改进的小波变换的基频检测方法来提取基频曲线,然后采用基于合成的分析方 山东大学硕士学位论文 法,按照最小均方误差的准则来进行模型参数的求解;重新拟和后的基频曲线与 原模型相比,更准确的反映了实际基频曲线的变化情况,从而证明了新模型的有 效性。 论文的最后对论文中的工作进行了总结,指出了实验中存在的不足,并对以 后的研究工作提出了思路。 关键词:基频检测;小波变换;最佳尺度;极值点;t a r g e t 模型 生童奎兰! ! 圭主竺笙兰 a b s t r a c t r e c e n t l ya s t h e d e v e l o p m e n t o f c o m p u t e r a n dd i g i t a l s i g n a lp r o c e s s i n g t e c h n o l o g y , t h eh u m a n - c o m p u t e rt e c h n o l o g yh a sm a d eag r e a tp r o g r e s s ,a sw e l la st h e s p e e c h - s y n t h e s i st e c h n o l o g y , w h i c h i sa n i m p o r t a n tp a r to fh u m a n - c o m p u t e r t e c h n o l o g y m a n ya p p r o a c h e so fs p e e c h s y n t h e s i sh a v eb e e np r o p o s o d w h i l et h e a r t i c u l a t i o no fs y n t h e s i z e ds p e e c hi ss a t i s f a c t o r y , i t sn a t u r ea n dr h y t h mi ss t i l ln o tu p t op e o p l e se x p e c t a t i o n s oi th a sa l w a y sb e e nah o t s p o tt of i n da ne f f e c t i v ew a yt o s t i m u l a t et h er h y t h mo f n a t u r a ls p e e c h t h er h y t h mc h a r a c t e r so fs p e e c hc o n t a i np i t c h ,d u r a t i o na n dm a r g i n ,o fw h i c h p i t c hi st h em o s ti m p o r t a n t a c c u r a t ee x t r a c t i n go fp i t c hc o n t o u ri ss i g n i f i c a n tt o s p e e c hs i g n a lp r o c e s s i n g a sa ne s s e n t i a lt o o lt oa n a l y z et h er h y t h mo fs p e e c h ,i ta l s o h a se x t e n s i v ea p p l i c a t i o ni ns p e e c h s y n t h e s i sa n ds p e e c hr e c o g n i t i o n i ti st h eb a s i so f t h ee s t a b l i s h m e n to fa ne f f e c t i v ep i t c hm o d e lw h i c hc a ne n h a n c et h en a t u r eo f s y n t h e s i z e ds p e e c h , a sw e l l t h et h e s i sf i r s ts k e t c h e st h er e s e a r c hb a c k g r o u n do f t h et o p i c t h e ni te l a b o r a t e s t h em e c h a n i s mo f t h ep r o n u n c i a t i o na n dt h em a t h e m a t i c a lm o d e lo f t h ep r o d u c t i o no f s p e e c h i t a l s od i s c u s s e st h ef e a t u r e so fs p e e c hb o t hi nt i m e - d o m a i na n d f i e q u e n c y - d o m a i n f o l l o w i n gt h i s i st h er e v i e wo ft h ee x i s t e n tp i t c hd e t e c t i o n a l g o r i t h m s i te x p o u n d st h ep r i n c i p l e sa n dp r o c e s s e so ft h ed o m e s t i ca n da b r o a d d o m i n a n tp i t hd e t e c t i o na l g o r i t h m s - - - - - - a u t o c o r r e l a t i o n ,l p c ,a m d fa n dw a v e l e t t r a n s f o r m a t i o n ,a n db r i e f l ys t a t e st h ed o m e s t i ca n df o r e i g na c t u a l i t i e s o fp i t c h c o n t r o l l i n ga n dm o d e l i n g f u r t h e ri te l a b o r a t e st h et h e o r yo f w a v e l e tt r a n s f o r m a t i o n a n di t sp r o p e r t i e s t h et h e s i sp m p e s e san e w p i t c hd e t e c t i o na l g o r i t h mb a s e d o nt h eo p t i m u ms c a l e o f w a v e l e tt r a n s f o r m a t i o n c o n v e n t i o n a lw a v e l e tt r a n s f o r m a t i o nb a s e dp i t c hd e t e c t i o n a l g o r i t h mo u t p u t st h ep i t c hc o n t o u rb yc o m p a r i n gt h ep o s i t i o n so ft h ew a v e l e t c o e f f i c i e n t s p e a k so fa d j a c e n t s c a l e st ol o c a t et h ei n s t a n t so fg l o t t a lc l o s u r e n e v e r t h e l e s s t h e r ea 舱m a n yf a l s ep e a k sw h e nt h es c a l eo fw a v e l e tt r a n s f o r m a t i o ni s 3 山东大学硕士学位论文 l o w , w h i c hr a d u st h ea l g o r i t h m sa c c u r a c y , a n dt h es e a r c ha n di d e n t i f i c a t i o no f p e a l si nm a n yw a v e l e ts c a l e sl o w e rt h es p e e do ft i l ea l g o r i t h m t h en e wa l g o r i t h m i nt h i st h e s i sn o to n l yu t i l i z e st h ew a v e l e tt r a n s f o r m a t i o n ,b u ta l s ot a k e sa d v a n t a g eo f t h ep h :¥s i o l o g i c a ll i m i t a t i o n so fa r t i c u l a t o r sa n dt h ei n t r i n s i cc h a r a c t e r so ft h ep i t c h c o n t o u ro fs p e e c h a tb e g i n ,t h ea l g o r i t h mg a u g e st h eo p t i m u ms c a l e ,a n dt h e ne x t r a c t t h ep i t c hc o n t o u rb yt h ea n a l y z i n go ft h ew a v e l e tt r a n s 内l 咖砒i o nc o e f f i c i e n t so ft h i s s c a l e t h ep r o p o s e da l g o r i t h mc a ne f f e c t i v e l ye l i m i n a t e st h ef a l s ep e a k s ,w h i c h a n h a n c 髓t h ea c c u r a c yo f t h er e s u l t , a n dn e a d n tt os e a r c hf o rt h ep e a k si nm a n ys c a l e s s h o r t e n i n gt h ed u r a t i o no f p i t c hd e t e c t i o n 髂w e l lt h en e ww a yo f p e a k s s e a r c h i n g u s i n gt h ei m p r o v e dp i t c hd e t e c t i o na l g o r i t h m ,a l le x p e r i m e n to fp i t c hc o n t o u r e x t r a c t i o ni sc a r r i e do u tb a s e do nas t a n d a r ds y l l a b l es p e e c hd a t ab a s e w i t hr e g a r d st o s y l l a b l e so fd i f f e r e n tt o n e , t h et h e s i ss u m m a r i z e st h ec l a s s i cp i t c hc o n t o u r so f t h e m o nt h eg r o u n do fe x p e r i m e n t sr e s u l t , a na d v a n c e dt u r g o tp i t c hm o d e li sp r o p o s e d , a n dt h ee x p r e s s i o no ft h em o d e li ss p e c i f i e d t h en e wm o d e lh a sam o r er e a s o n a b l e t a r g e tw h i c hi sc l o s e rt ot h e t u a lp i t c hc o n t o u rt h a nt h ef o r m e rm o d e l a r e rt h e e x t r a c t i o no fp i t c hc o n t o u r , u n d e rt h ec r i t e r i o no fm s e ,t h ep a r a m e t e r so ft h em o d e l f i r ed e r i v e di nt h em e a n so fs y n t h e s i s - b a s a d - a n a l y z e c o m p a r e dw i t ht h eo r i g i n a l m o d e l ,t h ea d v a n c e dm o d e lc a np r o d u c em o r ea u t h e n t i cp i t c hc o n t o u r s ,w h i c ha r e m o r ea b l et or e f l e c tt h ev a r i a t i o no fn a t u r a ls p e e c h t h ev a l i d 时o ft h en e wm o d e li s a p p r o v e d i nt h ee n do ft h i sp a p e r , w ec o n c l u d ea l lo fo u rw o r k t h ep r o b l e m st ob es o l v e d a n dt h eo r i e n t a t i o no f o u rf u t u r er e s e a r c ha r ea l s oa d v i s e a k e y w o r d s :p i t c hd e t e c t i o n ;w a v e l e tt r a n s f o r m a t i o n ;o p t i m u ms c a l e ;p e a k s ; t a r g e tm o d e l 4 山东大学硕士学位论文 第一章绪论 1 i 课题背景 语言是人类最重要的交际和思维工具,是人类进化最主要的标志和人类社会 沿用下来的最方便、最快捷、最常用的传递信息的交流方式,因此也应是人类与 电脑交流“最理想”的方式随着计算机及数字信号处理技术的发展,电脑及人 工智能技术已经逐渐深入人们的生活,人类与电脑之间的交流也越来越多、越来 越重要。让计算机能够具有人类一样的听说能力,是近几十年来人们一直追求的 目标语音合成和语音识别技术是实现这个目标的两项关键技术,是实现方便快 捷的人机交互语言交流的必然要求。 与语音识别相比,语音合成的应用前景更为广泛,发展也更为迅速。目前合 成语音的质量在清晰度方面已经达到了令人比较满意的程度,而其自然度还不是 很理想,这使得合成语音有着很大的“机器味”。所谓自然度就是指合成语音听 起来是否自然,是否像人的自然语音。这是制约语音合成应用的第一要素。计算 机输出的合成语音与人类发出的语音在自然度方面的差距主要是因为合成语音 的韵律特征不像如自然语流那样有着丰富的表现力韵律特征与声调、语调、重 音、时长和停顿等因素有关。其中声调、语调、重音等因素与基频曲线的变化密 切相关从而合成语音的基频曲线是否与真实语流的基频曲线吻合或者接近是影 响合成语音自然度的最主要的一个元素 近年来基于大语料库的波形合成系统采用自然语音波形直接拼接的方法,进 行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可 能最大限度地保留了语音的自然度【l 】。然而这类方法对语料库的设计有着较高的 要求,而且语料库的容量一般在几百兆字节甚至上千兆字节,从而限制了其在个 人数字助理、商务通及无线通信手机等资源有限的嵌入式设备上的应用。基于规 则的参数语音合成系统在可懂度方面已经达到可以接受的程度,但是在自然度方 面离人们的期望还有一定的距离。因此,探索接近自然语言的基频模型对于提高 合成语音的自然度,丰富语音的表现力具有非常重要的意义 i 1 1 基频模型 5 山东大学硕士学位论文 汉语普通话基频模型研究目前的困难是如何在不同的韵律环境下,包括语 调、前后音节的声调类型、情感状态等,生成自然的基频曲线。其实现方法大致 可分为两类:一种是通过有限的参数,用数学表达式生成基频曲线,如采用短语 命令与重音命令的叠加f u j i s a k i 模型2 1 ,将文本上具有语言学意义的韵律事件通 过数学定义与基频的生成结合起来的$ t e r m l 模型【3 l ,及以音节的声调目标为 基础的t a r g e t 模型【4 j 等。另一种方法是预测有限个基频曲线形状,经过局部修正 然后连接成基频曲线,如文献5 中使用1 0 0 个基频曲线模板,通过音节基频规格 化参数s p i s ,调整这些模扳并连接生成整句的基频曲线。 1 1 2 基频检测 在语音合成系统中,不论采用哪一种基频模型方法来进行基频曲线的控制, 都需要先对自然语音的基频曲线进行准确、有效的分析,而准确有效的基频检测 方法是基频分析的基础。基音周期的估计称为基频检测,它的目标是找出和声带 振动频率完全一致的基音周期变化轨迹曲线,或者是尽量相吻合的轨迹曲线。基 频检测在语音信号的各个处理领域中,如:语音分析与合成、有调语音的辨意、 低速率语音压缩编码、说话人识别等,都是至关重要的任务,它的准确性及实时 性对系统起着非常关键的作用,将影响整个系统的性能;此外,基音周期在诸如 语义及语音学知识的自动获取和产生、语病的诊断和深度耳聋助听设备的研制等 与言语相关的信息处理过程中扮演着极其重要的角色,能否准确地从语音波形中 提取基音信息直接影响这些信息处理系统的准确性和可靠性阿 在浊音的发音过程中,气流通过声门使得声带产生张弛振荡式的振动,产生 一股准周期脉冲气流,这一气流激励声道就产生浊音,它携带了语音中的大部分 能量。其中声带的振动频率就称为基频,相应的周期称为基音周期。基音周期具 有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧性及发音习惯有关; 此外,发音者的性别年龄、发音时的力度及情感状态也对基频的大小有影响。基 频周期是语音信号处理中一个非常重要的参数,它描述了语音激励源的一个重要 特征。尤其对于汉语一类有调语言,声调与基频随时间变化的模式相对应,一般 用基频曲线表示,它携带着非常重要的具有辨意作用的信息,有区分意义的功能。 声调的信息主要载于韵母段上,因此可以通过基音检测来获取声调的信息。 随着语音处理技术及相关科学的发展,人们已经在理论上找到了很多比较有 6 山东大学硕士学位论文 效的基音检测方法川,最具代表性的包括自相关法旧、平均幅度差法 9 1 、线性预 测分析方法l i 0 1 、小波变换法【1 1 4 习以及它们衍生的算法等。但是在具体实现过程中, 由于声带激励波形并不是一个完整的周期脉冲串,以及语音信号中包含的丰富的 谐波成分,声道的共振峰的影响,基音周期的准确定位困难,背景噪声的强烈影 响,基音周期的变化范围很大,个人发音习惯及性别年龄发音时的力度对基因周 期的影响等一系列因素的作用,使得这些方法在使用中,其准确性、鲁棒性都大 打折扣,可以说至今没有一种万能的方法能够在任何情况下都能准确可靠的估计 出基音周期 1 2 本论文研究的内容和目的 1 2 1 论文目的 无论是采用基频模型还是数据驱动的方法来控制合成语音的基频轨迹,以达 到提高其自然度和韵律特征的目的,都需要对自然语音的基频曲线变化情况进行 分析;从而准确有效的基频曲线的检测是基频控制研究的基础,它对提高合成语 音的自然度有着至关重要的作用本课题的目的在于提出一种更加快速、准确、 有效的基频检测方法,减少基频曲线的分析过程中的误差,为基频模型的参数设 置提供良好的基础 此外,借助新的基频检测方法,我们希望对一个真实自然的语音库进行基频 检测,通过对其基频曲线的分析,在现有的t a r g e t 基频模型基础上,提出一种改 进的基频模型,以使得在基于规则的语音合成过程中能生成更加自然真实的基频 曲线,从而能够提高合成语音的自然度,并能有效的控制合成语音的其他韵律特 征 1 2 2 论文内容 本文在对现有的基频检测方法的研究基础上,通过各自优缺点的比较,采用 基于小波变换的基音检测方法来进行自然语言的基频检测与分析。针对小波变换 在信号突变检测方面的优越性能及其多尺度分析特征。对检测中伪极值点进行了 分析,并结合人类发音器官的生理限制,提出了一种改进的基于最佳尺度的小波 变换的语音基音频检测方法。仿真实验证明了与传统的小波方法相比,新方法有 着好的性能,能够准确有效的进行基频检测。 在新的检测方法的基础上,我们通过对一相对完善真实的语音库进行基频检 7 山东大学硕士学位论文 测,并对各个声调的检测结果进行分析。根据其统计特性我们对t a r g e t 基频模型 进行了改进,重新设置了其参数,使得它控制生成的基频曲线能够更加贴近真实 的基频曲线,从而能够提高合成语音的自然度及韵律特性。 本论文所作的具体工作如下: ( 1 ) 对人类语音的发音机制及语音信号的时频特征进行了分析,在此基础上 阐述了发音的数学模型,并简述了汉语的组成结构及其相应的韵律特征;对国内 外韵律模型及基频检测的研究现状进行了回顾。 ( 2 ) 采用小波变换的方法来进行自然语言的基频检测;由于自相关法和倒谱 法等基频检测法在进行基频检测时都需要进行加窗处理,所得到的数据都是当前 分析的长度为l 的帧所包含的基频的均值;而小波变换法所得到的基频值为该处 的真实基频值,所以小波变换法检测到的基频值更加准确,能够详细的反映每个 字的基频变化轨迹。 ( 3 ) 根据小波变换在不同尺度下的时频分析特性,对传统小波变换的基音检 测算法中伪极值点的生成原因进行分析。结合人类发音器官的生理限制,提出了 一种改进的小波变换基频检测方法,新方法能有效的去除伪极值点,与传统方法 相比,它估计的基音准确性高,运算速度快 ( 4 ) 以语音库为基础,采用改进的小波变换基频检测方法对自然语音中各个 声调的单音节基频曲线进行了检测与分析;确定了各个声调对应的典型的变化趋 势。 ( 5 ) 在前面基频分析的基础上对t a r g e t 模型中各个声调的t a r g e t 进行了更加 详细的分类设置,使得其和真实基频曲线的变化趋势相吻合。通过实验证明了新 的t a r g e t 能使模型产生更加自然的基频曲线 1 2 3 论文的结构安排 与本文工作相对应,整个论文分为以下几个部分: 第一章是绪论,阐述了课题的背景及现代语音合成面临的困难,综述了语音 合成中的基频控制方法,指出了基频检测在整个语音信号处理领域中的重要性, 最后扼要简明的阐述本文的研究工作和主要内容 第二章介绍了人体的发音器官的构成,及各个器官在发音过程中的功能,在 此基础上引入了传统的语音信号产生模型,并简要介绍了语音的发音机制及语音 8 山东大学硕士学位论文 信号的主客观性 第三章对现有的基频检测方法进行了详细的论述,包括自相关法、平均幅度 差法、倒谱法以及小波变换的基音检测方法;介绍了基音检测的后期处理;此外 阐述了国内外基频模型的研究现状。 第四章论述了小波变换的基本理论给出了小波变换的定义,概括了小波变 换的基本原理和性质;介绍了多分辨率分析的概念。较为系统地总结分析了由多 分辨率分析构造小波函数的一般思路;给出了二进小波变换的快速分解与重构算 法,研究了快速算法的滤波器组形式,给小波分析的应用提供了参考依据 第五章阐明了传统的小波变换基音检测的理论依据:小波变换检测信号的突 变点。简单介绍了基音检测时采用的高低通滤波器组及小波变换尺度的选取;在 小波变换的时频特性基础上,对小尺度下的伪极值点进行分析,提出了一种基于 最佳尺度的小波变换的基音检测方法,提高了检测的准确性和实时性。 第六章阐述了t a r g e t 模型的基本原理。利用新的小波变换基音检测方法对一 个相对完备的单音节语音库中各个声调的基频曲线进行了检测与分析,确定了各 个声调基频的典型变化轨迹。在该基础上,指出了原模型存在的不足,进而提出 了一种改进的t a r g e t 模型,并通过实验证明了新模型生成的基频曲线更加自然。 最后对全文所做的工作进行了总结,指出了整个工作中存在的不足及以后研 究的方向,并列出了参考文献以及致谢。 9 山东大学硕士学位论文 第二章语音信号模型及其时频特征 语音信号处理技术包含了语音通信、语音合成和语音识别等多个方面的内 容,不论哪一种语音信号处理技术,都是在对语音信号进行分析与研究的基础上 进行的只有对语音信号进行准确有效的分析,获得表征语音信号特征的参数, 才能够建立高效的语音通信系统,能够合成高质量语音的语音库,有准确识别率 的识别模板。而语音信号的分析都需要建立一个能够精确描述语音产生过程和语 音全部特征的数学模型,即一个与语音的产生过程相对应的既实用又便于分析的 语音信号模型。对语音信号的一些基本特性的了解,是对语音信号进行各种分析 与研究的基础。 目前已有许多描述语音信号产生过程的模型,但是还没有一种理想的模型能 够详细描述语音的产生过程和语音的所有特性。现有的语音生成模型中,f a n t 于1 9 6 0 年提出的线性模型明是最为经典实用的模型之一该模型以人类发音的 生理过程和语音信号的声学特性为基础,准确的表达了语音信号的主要特性,在 语音通信、识别与合成等语音处理领域得到了广泛的应用。 本章将对语音发音机制进行阐述,介绍了语音产生的生理过程;在此基础上 引入了描述语音信号的特征及产生过程的声源滤波线性模型,并分析了语音信号 的时频特性及其韵律特征,为以后的基频检测及基频模型的建立提供理论基础 2 1 发音机制“町 语音是说话人和听话人之间互相传递的信息,是人类一种自然方便、准确高 效的最重要的交流工具。语音信号的产生过程包括以下几个阶段:首先,说话人 在头脑中产生要表达的信息。然后将这些信息转换成由音素序列、韵律、响度、 基音周期等一系列元素构成的编码,根据这些编码,说话人会用一些神经肌肉命 令在适当的时候控制声带振动,塑造声道的形状,同时协调唇、腭、舌、以及控 制气流进入鼻腔的软腭,最后就发出编码中指定的声音序列,形成了语音。 2 i 1 发音器官 语音的产生是在人体发音器官在大脑控制下的生理运动产生的。发音器官自 下而上包含:肺部、气管、喉、咽、鼻腔、口腔、以及上下唇各个器官的位置 1 0 山东大学硕士学位论文 及名称如图2 1 所示一般将咽、鼻腔、口腔、以及上下唇这些器官统称为声道, 喉也称为声门即发音器官由肺与气管、喉、声道三部分组成 圈2 1 各个发音器官的位置及名称 肺是胸腔内的一团有弹性的海绵状物质,它的生理功能一是完成血液和空气 之问的气体交换,即呼吸功能;另一个功能就是提供语音产生的原动力。不说话 时人的呼吸通常是有规则的、平稳有节律性;而在说话时,为了保持语音有一定 程度的连续性,受语句结构的控制,人的呼吸就变得不再那么有规则,不得不有 短暂的停顿,其特点是吸气短,呼气长。此时,肺先将通过呼吸系统进入其内的 空气压缩,然后腹肌收缩使横膈膜向上,肺内的空气被挤出,形成气流语音产 生的原动力气管是肺和声道联系的介质,它将肺与喉连接起来,把肺部排出的 气流送到喉部 喉位于气管的上端,它是一个由软骨和肌肉组成的复杂系统,其中包含了重 要的发音器官声带。图2 2 为其视顶解剖结构图。软骨系统包含甲状软骨、杓 状软骨、环状软骨和会厌软骨甲状软骨突出在颈部,称为喉结。声带是指从喉 结到杓状软骨之间的韧带褶,它既是一个阀门,又是一个振动部件,其运动受喉 部软骨和肌肉的控制。声带前端由甲状软骨支撑,后端由杓状软骨支撑,杓状软 骨与环状软骨的上部相连接。这些软骨在环状软骨上的肌肉的控制下产生运动, 山东大学硕士学位论文 从而能将两片声带合拢或分离。 图2 2 喉的解剖结构 呼吸时,左右声带打开;说话时声带合拢。两个声带之间形成了一个开闭自 如的声门,声门的开启和闭合是由两个杓状软骨控制的。在浊音的发音过程中, 合拢的声带受声门下气流的冲击而张开;由于声带具有一定的韧性,可以迅速闭 合。当气流通过气管和支气管经过咽喉时,收紧的声带由于气流的冲击产生振动, 声带间的空隙再次形成,气流再次通过,声带的韧性使得它又迅速闭合;这样不 断地张开和闭合,使声门向上送出一连串周期脉冲气流,该气流被进一步调制后 经过咽喉、口腔或者鼻腔,发出不同的声音。周期脉冲气流的周期与声带的振动 周期一致。 声门每开启闭合一次的时间就是基音周期,其倒数称为基音频率,简称基频 f o 。它的取值决定于声带的大小、厚薄、松紧程度以及声门上下之间的气压差等 效应。男性的基频取值范围一般为5 0 - 2 5 0 h z ,女性和儿童的基频介于1 0 0 - 5 0 0 h z 。 声道是指声门至嘴唇的所有器官,是一根从声门延伸至嘴唇的非均匀截面的 声管,其外形是随时间变化的。声道由咽腔、口腔和鼻腔三个空气腔体组成;咽 腔是连接喉和食道与鼻腔和口腔的一段管子,在说话时,咽腔的形状会发生变化, 它和口腔一起使得声道的形状变化多端,因而能发出比较多的不同的声音口腔 是声道中最重要的部分,包括上下唇、上下齿、上下齿龈、上下腭、舌和小舌等 部分双唇位于口腔的末端,它的形状可以是展开的或者是圆形的,因此在发音 法中有是否圆唇的标注;齿的作用是发齿化音的关键;上腭又分为硬腭和软腭两 部分,它是是否发鼻音的阀门,当发鼻化音时,软腭下垂,鼻腔与口腔发生耦合, 产生语音中的鼻音;反之软腭上抬时,声音完全由口腔发出;舌又分为舌尖、舌 面和舌根三部分。舌是口腔中最活跃的发音器官,它的尖部、边缘和中间都能自 山东大学硕士学位论文 由地活动,并且整个舌体也可以上下前后运动;它在发音中有着非常重要的作用, 如语音中元音的发音就是以舌的位置来分类的唇、齿、腭和舌的位置及变化决 定了口腔的大小和形状。鼻腔是指从咽腔开始到鼻孔的一段管子,鼻中隔贯穿全 长,并将鼻腔分为两个部分。鼻腔和口腔都是发音时的共鸣器。如前所述,鼻腔 与口腔的连通情况由小舌和软腭的位置决定,当小舌和软腭下垂时两者耦合,反 之,两者隔离 声道是气流自声门声带之后最重要的对发音起着决定性作用的发音器官。它 包含的各个器官能够协同动作改变声道的形状,使空气流通时形成不同情况的阻 碍,并产生振颤。从而对于同样的周期脉冲序列,由于声道形状变化的不同,最 后发出的语音也不同。用x 光照相技术,可以清楚地看到各种声音时声道的形 状声道的长度因人而不同,对特定人其长度固定,成年男子的声道长度约1 7 c m 而在发音过程中声道的截面积取决于其发音器官的位置,由舌、唇、上下腭与小 舌决定,一般在0 平方厘米至2 0 平方厘米之间,并且在发音的过程中,它又随 着时间而不断地变化。虽然声道的变化非常复杂,但是从声学观点来看,可以把 它拉直而完全不影响其声学特性;为便于分析一般将声道看作一段无损声管,如 图2 3 所示: ,n 秘 卜一l ,蠢- i 图2 3 声道的无损声管模型 2 1 2 语音产生机制悯 由以上分析可知。语音是在各个发音器官的共同作用下,由空气激励声道最 后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来而产生的。其对应的原理图如下所示: 图2 4 发音原理示意图 其中肺部及与声带相连的肌肉相当于声道系统的激励源,空气从肺部排出形 山东大学硕士学位论文 成气流,随着气流经过时声带状态的不同,产生不同类型的激励源。当声带处于 收紧状态时,流经的气流将使声带产生张弛振动,即声门将周期性地开启和闭合。 开启时,气流从声门喷射出来,形成一个脉冲;闭合时类似于脉冲序列的间歇期。 这时在声门处产生一个准周期性脉冲序列的空气流,经过声道后产生的声音便为 “浊音”如果声带处于放松状态时,它是完全舒展的,则肺部发出的空气流将 不受影响地经过声门,此时产生的声音为清音。对于清音,气流经过声门后,会 有两种方式来形成激励:一种方式是,通过舌头,对声道的某一部分进行收缩, 形成一个狭窄的通道,也称为收紧点,当气流经过到达此处时,被迫以高速冲过 这个收缩区,并在附近产生出空气的湍流。随着收紧点的位置不同,声道形状的 不同差异,这种湍流通过声道后便形成不同的“摩擦音”或“清音”另一种方 式是,利用舌头和嘴唇使得声道的某个部位完全闭合在一起,暂时阻止气流,当 空气流到达时便在此处建立起空气压力,当气流压力非常高时,突然放开舌与唇, 使得气压快速释放,产生短暂脉冲音,经过声道后便形成“爆破音” 当激励源由上述三种方式产生后,便顺着声道进行传播。气流通过声道时犹 如通过一个具有某种谐振特性的腔体,腔体的一组谐振点称为共振峰,它的位置 及各个峰的宽度反应了声道的频谱特性。输出气流的频率特性要受到声道共振特 性的影响。当激励的频率达到声道的共振峰频率时,声道会以最大的振幅来振荡, 即产生共鸣,放大与其对应的频率成分,同时衰减其他频率分量。声门脉冲序列 具有丰富的谐波成分,这些频率成分与声道的共振峰频率之间相互作用,对最终 生成的语音种类及其音质产生很大的影响 共振峰频率与声道传递函数的极点相对应,取决于声道的形状及尺寸对于 不同的声道形状,就有不同的传递函数。因此,为了发出各种各样的声音,需要 调整声道的形状,以形成不同的声道传递函数。说话时,由于唇和舌的连续运动, 使声道的外形和尺寸得到改变,相应的共振峰频率也在变化。如果声道的截面是 均匀的,则谐振频率为: e :( 2 n - 1 ) c , n = 1 , 2 3 ( 2 1 ) 4 l 其中c 为声速,在空气中一般为# 3 4 0 m s ;l 为声道的长度;n 表示共振频 率的序号。共振峰频率由低到高排列为舅,e ,e ,为了精确描述声道传递函 数的特性,应该采用尽可能多的共振峰,但实践表明用最重要的前三个共振峰就 山东大学硕士学位论文 可以代表一个元音的频率特性;对于较复杂的辅音或鼻音,一般需要用5 个以上 的共振峰才可以。 2 2 语音信号的数学产生模型 从前面的论述可得,语音是由气流激励声道,最后从嘴唇或者鼻孔,或者同 时从嘴唇和鼻孔辐射出来而产生的。传统的基于声道的f a n t 语音产生模型,就 是从这一角度来描述语音的产生过程;其对应的流程如图2 5 所示。 图2 5 语音信号产生的数字模型 该模型将肺部气流及声带共同作用的激励特性、随声道形状而变化的传输特 性及唇和鼻孔对应的辐射特性分离开来,用激励模型、声道模型和辐射模型来分 别与他们对应。声道及辐射的影响用一个时变得线性系统来表示,激励发生器产 生一串准周期脉冲序列或者随机变化的噪声信号,各个模型参数的选择与要求输 出的语音信号的性质有关。 对于清音,激励模型输出一个随机白噪声,实际上可以用均值为0 ,方差为 l ,并在时间或幅值上白色分布的序列来表示;对于浊音,声门脉冲模型滤波器g ( = ) 的作用是使浊音的激励信号具有声门气流脉冲的实际波形。g ( z ) 的表达式为: 2 f 万丽1 2 2 其中,g ,9 2 都接近l 。 周期脉冲发生器产生的脉冲信号其对应的z 变换形式为; 以z ) 2 专 2 m 匣吾 缸o | l 下 匮回 = 一 广;l 山东大学硕士学位论文 该脉冲通过声门脉冲滤波器后,模型的输出g ( n ) 是一个以基音周期为周期的斜 三角形的脉冲串。其对应的时域表达式为: f 吉【l c 。s ( 厢1 ) 】,o 胛s l g ( 功= e o s 冗( n - 1 ) 2 n 2 】,l 胛2 ( 2 4 ) l o ,其他 【 式中,l 为斜三角波上升部分的时间;2 为其下降部分的时间。图2 6 为单个 斜三角波对应的时域波形及频谱。 田9 图2 6 斜三角波时域波形及频谱 增益因子4 ,以分别用于调节浊音语音和清音语音的幅度或能量。随着各 种语音处理技术的发展,人们发现实际中单纯的将激励信号分为这两类,并不能 涵盖所有的语音信号,如对浊擦音等;为了更好的模拟激励信号,有时需要将两 种激励按照一定的比例叠加合成激励信号;或者采用多脉冲序列和随机噪声序列 的白适应激励方法。 声道模型v ( z ) 对应的是声道的传输函数。由于人耳听觉得柯蒂氏器管的毛 细胞是按照频率感受来排列位置的,所以通常将声道看作一个谐振腔,共振峰就 是这个腔体的频率,从而用共振峰模型来模拟声道的传输特性。在大多数情况下, 采用如下的全极点函数v ( z ) 来模拟共振峰特性: h z ) = 百l ( 2 5 ) 吩f 山东大学硕士学位论文 其中,= l ,q 为声道模型参数,取实数,它随着声道形状的改变而不断变化; p 为全极点滤波器的阶,其值越大则模型的传输函数与声道的实际传输函数的吻 合程度越高。函数的每一对极点对应一个共振峰。实际处理中,考虑声道的惯性 作用,一般认为在1 0 - 3 0 m s 内,珥的取值保持不变,而且取p = 8 1 2 ,就可满 足大多数应用的要求 辐射模型足( z ) 表示的是口唇的辐射效应。研究表明,唇部的辐射效应在高频 段较为明显,而在低频段影响较弱。因此,一般采用一个高通滤波器来表示辐射 模型。其对应的表达式为: r c z ) = ( 1 - r z 。1 ( 2 6 ) 式中,r 的取值接近1 综上所述,一个语音信号完整的模型可以用三个子模型串联而成,其对应的 传递函数为: h c z ) = a g ( z 彤( z ) r ( z ) ( 2 7 ) 2 3 语音信号的时频特性 2 3 1 时域特性 对语音信号进行各种分析处理时,最先接触的是它的时间域形式在时间域 里语音信号经过音电转换、a d 处理后,可赢接用它的时间波形来直观的表示出 来。通过观察时间波形可以看出语音信号的一些重要特性 图2 7 为一标准的语音库“s c s c 提交库”内一男性说的“级j i 2 ”的时域波 形图,该语音库中语音数据的采样频率为1 6 k h z 。每个采样点用1 6 b i t 进行量化。 图中横轴为时间,纵轴表示信号的幅度。从该图中我们不仅可以看出语音信号能 量的起伏,以及语音信号随时间变化的过程,而且也能够大体的判断出清音“j ” 和浊音“i ”各自对应的段落和分界点图a 为清音段,图b 、c 为浊音段。此外 对于浊音,语音信号有着很强的准周期性,而且有较强的振幅;其周期对应的就 是声带振动的频率,也即基音频率,传统的自相关法基频检测的原理就在于此。 然而对于清音,其波形没有明显的周期性,类似于白噪声,而且具有很弱的振幅。 可以轻易的看出语音的能量主要集中在浊音部分低频部分。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论