(信号与信息处理专业论文)语音声源的研究及其应用.pdf_第1页
(信号与信息处理专业论文)语音声源的研究及其应用.pdf_第2页
(信号与信息处理专业论文)语音声源的研究及其应用.pdf_第3页
(信号与信息处理专业论文)语音声源的研究及其应用.pdf_第4页
(信号与信息处理专业论文)语音声源的研究及其应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)语音声源的研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中困科学技术人学碳l 。毕业论文 摘要 摘要 声源研究,作为语音信号处理领域的一个经典课题其内容涉及:语音产生的声学理论 研究、卢渊信号的分析方法研究、卢源变化在信息通信中的功能研究、基丁声源的各种编码、 台成算法研究等很多方面。声源研究在语音编码、语音合成、语音识别等箨个语音学的应川 领域中,都有着广泛的廊川。 本论文闱绕着语音声源雨i 声源研究的廊埘进行了一系3 i 0 的i :作,并在声源编码、语音合 成器雨声源分析等方面等提出了一些新的方法。 本论文的第一章是“语音信号产生的基本声学理论”。本章首先介绍了语音信号的基本 特征币儿种常见的表征语音信号的数学模型。接着本章着重讨论了基丁声源信号与声道滤波 器的源滤波器模型,分析了卢源信号和声道滤波器的定义。最后,本章阐述了卢源研究的重 要意义。 本论文在第二章探讨了“卢源信号的提取方法”。本章首先介纠了逆滤波技术原理,在 研究了各种逆滤波方法后,分析了它们的优缺点。文中着重讨论了一种基音同步的迭代白适 戍逆滤波算法( p s - i a i f ) 的原理羊流科。 在本论文的第三章“利刚逆滤波雨声源编码技术的音库压缩”中。作者首先介纠了自己 在硕十捌间完成的一个基丁d s p 的嵌入式文语转换系统,并通过这个在资源受限环境卜的 语音合成系统阐述了语音合成中音库压缩的意义和常州方法。接r 米,本章针对音库压缩 的应川场合,提山了一种新颖高效的低速率编解码方案。该算法在3 k b p s 左右的码率r 获得 了类似c t 7 2 3 ,1 在5 3 k b p s 码率下的效果,井具有解码端筇法简单的优点。作为技术原型, 该方案可以广泛麻_ l | 丁- 各种场合f 的语音合成系统,特* u 对资源受限情况i - 语音合成,贝有 重要的意义。在针对特定入重新训练码本和确定“分裂边界”后,该编解码算法也适川丁任 意一段特定发音人的录音语料压缩。 本论文的第四章是“声源模牙4 研究”。本章在概述了声源模型的涵义之后首先介鲥了 两个具体的声源模型l f 模型和k l g l o t t 8 8 模型。结合这两个具体模型本章着重讨 论了l f 模型表示卢源信号的充分性问题羽l 卢源信号频谱对声道参数估计军| l 基频调整的影响 的问题,阐述并总结了作者在声源研究方面的一些观点。 在本论文的第五章“基丁逆滤波和卢源建模的语音合成器研究”中,作者提山的一种基 ti a i f 逆滤波币ll f 声源建模的l p c 语音合成器,实现了高音质、低火真的陈述语气的语 音重建:并在语音合成中,提山新的高频补偿策略人人的改善了合成语音高频火真的现象。 此类由声源模删激励的l p c 语音合成器,是开展声音晶质调整、说话人特征转换、感情色 彩语音合成等方向研究的前提利基础。 本论文的第八章是“面向白然语流的声源分析方法的设计与改进”。本章首先研究了传 统的卢源分析方法在分析方法本身、声道模型表征以及声源度茸参数提取等方面存在的不 足;然罱提出了一种改进的声源分析算法和利川该算法臼动分析白然语流的方案提高了声 源分析的鲁棒性雨l 精确度;并通过了针对合成元音以及自然语流的分析实验证明了该方案的 有效性。 3 中周科学拙术人学倾i 哔业论立 a b s t r a c t a b s t r a c t r e s e a r c ho nv o i c es o u r c e ,a sac l a s s i ct o p i ci n s p e e c hs i g n a lp r o c e s s i n gf i e l d ,i n c l u d e s : r e s e a r c ho na c o u s t i ct h e o r yo fs p e e c hp r o d u c t i o n ,r e s e a r c ho nm e t h o d o l o g i e sf o ra n a l y s i n gt h e v o i c es o u r c e ,r e s e a r c ho nc o m m u n i c a t i v ef u n c f i o n so fv o i c es o u r c ev a r i a t i o n ,r e s e a r c ho i lg l o t t a l b a s e dc o d i n ga l g o r i t h ma n ds y n t h e s i sa p p l i c a t i o ne t c t h ev o i c es o u r c er e s e a r c hp l a y sav e r y i m p o r t a n tr o l ei nt h es p e e c ha p p l i c a t i o nf i e l ds u c ha ss p e e c hc o d i n g , s p e e c hs y n t h e s i sa n ds p e e c h r e c o g n i t i o n t h ea u t h o rc a r r i e do u tas e f e so fr e s e a r c hw o r kw h i c hf o c u so nv o i c es o u r c er e s e a r c ha n d ;t s a p p l i c a t i o n s ,p r o p o s i n gs e v e r a l n o v e la p p r o a c h e sf o rg l o t t a lb a s e ds p e e c h c o d i n g , s p e e c h s y n t h e s i z e ra n dv o i c es o u r c ea n a l y s i n g , t h ef i r s tc h a p t e ro ft h et h e s i sf o c u s e so na c o u s t i c t h e o r yo fs p e e c hp r o d u c t i o n a n i n t r o d u c t i o no fb a s i cc h a r a c t e r l z a t i o no fs p e e c hs i g n a ti sp r e s e n t e df i r s t l yi nt h i sc h a p t e rt h e nt h e s o u r c e f i l t e rm o d e lb a s e do ng l o t t a ls o u r c ea n dv o c a li r a c tf i l t e rj sp a r t i c u l a r l yi n 仃o d u c e d t h e d e f i n i t i o no f t h es o u r c ea n dt h ed e f i n i t i o no f t h ef i l t e ra r ea l s od i s c u s s e di nt h i sp a r t i nt h el a s tp a r t o f t h i sc h a p t e r , t h ei m p o r t a n c eo f v o i c es o u r c er e s e a r c hi sd i s c u s s e d t h es e c o n dc h a p t e ro f t h et h e s i sf o c u s e so f ft h et e c h n i q u eu s e df o re x t r a c t i n gt h ev o i c es o u t c c t h eb a s i cp r i n c i p l eo fi n v e r s ef i l t e r i n gi sp r e s e n t e df i r s t l yi nt h i sc h a p t e r a f t e rs t u d y i n gs e v e r a l i n v e r s ef i l t e r i n gm e t h o d s t h ep r i n c i p l ea n df l o wo f ap i t c hs y n c h r o n o u si t e r a t i v ea d a p t i v ei n v e r s e f i l t e r i n g ( p s i a i f ) i sp a r t i c u l a r l yi n t r o d u c e d , f nt h et h i r dc h a p t e ro ft h et h e s i s t h ea u t h o rf i r s t l yp r e s e n t sa ne m b e d d e dc h i n e s e t e x t - t o s p e e c hs y s t e mb a s e do nd s o , w h i c hh a sb e e na c c o m p l i s h e di na u t h o r sm a s t e rd e g r e e p u r s u i n gp e r i o d t h r o u g ht h i s 兀ss y s t e mw o r k i n gu n d e rr e s o u r c e l i m i t e de n v i r o n m e n t t h e r e a s o n sa n dt h et r a d i t i o n a lm e t h o d so f t t sc o r p u sc o m p r e s s i o na r ep r e s e n t e d t h e n a1 0 wb i tr a t e s p e e c hc o d i n ga l g o r i t h mu s e df o rc o r p u sc o m p r e s s i o ni sp r o p o s e d ,w h i c hr e c o n s t r u c t ss p e e c ha t 3 k b sh a v i n gc o m p a r a b l eq u a l i t yw i t hg 7 2 3 1a t5 3 k b s a n dt h ec o m p u t i n gc o m p l e x i t yo ft h e d e c o d e ri sl o w t h i sa l g o r i t h mc a nb eu s e da sat e c h n i c a lp r o t o t y p ei na l lk i n d so ft t ss y s t e m s , a n di se s p e c i a l l yu s e f u lw h e r er e s o u r c ei sl i m i t e d a f t e rr e t r a i n i n gt h ec o d e b o o ka n dr e d e c i d i n g “s p l i tb o u n d a r y ,t h i ss p e e c hc o d i n ga l g o r i t h mi sa l s os u i t a b l ef o ra n yr e c o r d e dn a t u r eu t t e r a n c e c o m p r e s s i o n t h ef o u r t hc h a p t e ro ft h et h e s i sf o c u s e so am o d e l so ft h eg l o t t a ls o u r c e ,a f t e rs u m m a r i z i n g t h ed e f i n i t i o no f t h eg l o t t a ls o u r c em o d e l t w op o p u l a rg l o t t a ls o u r c em o d e l s t h el fm o d e l a n dt h ek l g l o t t 8 8m o d e l a r ei n t r o d u c e di nd e t a i l t h r e u g ht h e s et w om o d e l s s o u r c e m o d e la d e q u a c yf o rv o i c es y n t h e s i sa n dt h ee f f e c tc a u s e db yt h es p e c 打u mo f g l o t t a ls o u r c es i g n a l o ne s t i m a t i o no fv o c a lp a r a m e t e r sa n dm o d i f i c a t i o no fp i t c ha r ed i s c u s s e dp a r t i c u l a r l y i nt h i s c h a p t e lt h ea u t h o ra l s op r o p o s e da n ds u m m a r i z e ds o m eh i si d e n sa b o u t v o i c es o u r c er e s e a r c h i nt h ef i f t hc h a p t e ro ft h et h e s i s ,t h ea u t h o rp r o p o s e dan e wv o i c es y n t h e s i z e rb a s e do ri a l f i n v e r s ef i l t e r i n ga n dl fg l o t l a ls o u r c em o d e l i n g , w h i c hc a nr e c o n s t r u c th i 曲- q u a l i t yl o w - d i s t o r t e d m o d a ls p e e c h i nt h ep r o c e s so fs p e e c h s y n t h e s i s ,a n e wa l g o r i t h mf o rh i g h f r e q u e n c y c o m p e n s a t i o ni sp r o p o s e d b yu s i n gt h i sa l g o r i t h m ,t h ed i s t o r t i o no fs y n t h e s i z e ds p e e c hi nh i g h f r e q u e n c ya r e ac a nb el e s s e n e dg r e a t l y s u c hl p cv o i c es y n t h e s i z e re x c i t e db yg l o t t a ls o u r c e s i g n a l c a np r o v i d eaa p p r o a c ht ot h ef u r t h e rr e s e a r c ho nv o i c eq u a l i t ym o d i f i c a t i o n ,v o i c e 4 中因科学技术人学坝i + 毕业论文a b s t r a e t c o n v e r s i o na n de x p r e s s i v es p e e c hs y n t h e s i s i nt h es i x t hc h a p t e ro ft h et h e s i s ,t h ed e f e c 招o ft r a d i t i o n a im e t h o d sf o ra n a l y s i n gt h ev o i c e s o u r c ea r es t u d i e di na n a l y s i n gm e t h o di t s e l f , v o c a lt r a c tm o d e l i n ga n dg l o t t a lm e a s u r e m e n t s e x t r a c t i o n t h e n ,a f ti m p r o v e dg l o t t a ls o u r c ea n a l y s i n gm e t h o da n da na l g o r i t h mw h i c hu s et h i s m e t h o dt o a n a l y s i sc o n t i n u o u sn a t u r eu t t e r a n c ea u t o m a t i c a l l ya l ep r o p o s e d t h er e s u l t so f s y n t h e s i z e dv o w e l sa n dc o n t i n u o u sn a t u r el i r e r a o c ep r o v et h a tt h e s ea l g o r i t h m sc a l li m p r o v et h e a c c u r a c ya n dr o b u s t i c i t yo f g l o t t a ls o u r c ea n a l y s i se f f i c i e n t l y 中冈科学投术人学坝l j 毕业论文第一章语音竹0 产生的壮奉声学埋论 第一章语音信号产生的基本声学理论 本章介纠了语音信号的基本特征弄儿种常见的表征语音信号的数学模型,井着重讨论了 基丁卢源信号与卢道滤波器的源滤波器模刑,晟厉阐述了卢源研究的垣要意义。 1 1 语音产生模型概述 1 1 1 语音信号的基本特性 语言是人类 斗= 会最直接、最广泛使j h 的信息交流方式。作为语言的载体,语音信号有着 其臼身的特点。 首先,语音信号是一个1 | 平稳的随机过稃,最多只能在一段时间内可被认为是平稳的, 通常是5 - 5 0 m s ,这被称为是语音信号的短时性。语音信号的统计特性和频谱特性都是定义 在一段短时语音上的。其次,语音可以被分为浊音、清音或者两者的混合。浊音利清音在时 域和频域图上都有很人的不同。浊音在时域上时准周期的波形,在频域上具有较强的谐波结 构;而清音在时域上具有类似礤声的波形,在频域上是发散的。另外浊音部分的能培一般高 1 :清音部分。 语音信号的这些特点是由语音产生的机理决定的,浊音是由卢带振动产生的准周期的声 fj 波激励卢道而产生的:清音是由受压迫的空气通过声道限制而产生的:鼻音是将鼻腔羽声 道结合在起而产生的。 1 1 2 表征语音信号的数学模型 在对语音信号的跃划研究过群中。人仃j 根据语音信号的基本特性,针对特定的庶州场台, 提山了许多不同的表祉语音信号的数学模型。这些数学模型有的从发音机理的角度山发,有 的处丁| 稗上的考虑,它们代表了人们对语音信号的不同的理解方式。 比较常见的语音参数模型有:线性预测模型、二弦模型、谐波加噪声模型、s t r a i g h t 模型、基丁声源信号与卢道滤波器的源滤波器模型。 1 1 2 1 源滤波器模型 振幅a u 幽2 1 语音信号产生的源滤波器模刑 6 亘 数 一性一 一量 幅 一 浊皂 一 黼是髅r 受 孰一 中罔科学技术人学坝i 。毕业论义 第一章语音竹0 产生的螭奉声学理论 图2 1 所示的是一个描述的语音信号产生简单数学模型。它是在人们对发卢器官以及语 音产生机理研究的基础上捉山的。对丁一般的研究和戍川而言( 例如语音编码、语音识别等) 这个模型可以满足要求。这个模型包括二个部分:具有清音和浊音两个分支的激励源、可以 川滤波器表示的卢道模型、与唇形相关的辐射模璎。这样的语音的产生模玳暗示了语音信号 可以心式1 】来表示: 5 ( 肘) = e ( n ) + v ( ) 其中:e ( n ) 为激励信号,v ) 为声道滤波器。 式1 i 反映了渊滤波器模型最一般的思想。实际应州中,常见的源滤波器模型有:线性 预测模型_ 乖| l 基丁声源信号幂声道滤波器的模型。前者采心线性预测系数( l p c ) 米表示声道 滤波器,采t l j 线性预测残筹表示激励源。在语音编码领域被j 1 泛使州。后者则采_ h i 实际卢门 处的信号作为激励源,采_ l l jl p 全极点或者离散全极点模型米描述声道特征,本论文将在后 续章竹对其进行详细讨论。 1 1 2 2 正弦模型 止弦模州采_ l | 分析、合成技术将语音信号表示为一组不同幅度、频率、相位的正弦信号 之利。学者r j m c a u l a y 雨t e q u a t i e r i 在这方面作过人昔的研究i :作。 止弦模艰对语音信号的理解是这样的:清音和浊音的激励信号都可以州一组止弦波之和 米表示而将其通过时变的卢道就可以形成晟终的语音信号: s ( 月) = 4c o s ( q ”+ 力) ,= 1 其中劬,4 雨力是每个止弦波的频率、幅度年相位。 ( 1 2 ) 冈此,如果能够获得表示语音信号的止l 玄波的频率、幅度乖相位,语音信号就可以通过 这些参数完全表征。对语音信号的分析可知,当语音信号表现强烈周期性时,它的短时傅立 叶变换( s t f t ) 的幅度谱将在基音频率的整数倍处表现山峰值。这时可以川这些峰值处的 信息米台成出语音信号。当语音信号不是强周) f l j 性时也可以州这种方法米台成语音信号, 但是此时的峰值位置需要搜索得到。止弦模刑晌关键在丁获取信号的s t f t ,然后通过在幅 度潜上搜索峰值米获取合成语音信号所需要的止弦波的频率点上的信息。 在基本止弦模型的基础上,近年米人1 f j 针对语音编解码的应川场合,发展出基丁正弦模 喇的凿波模州、最小相位模刑、全极点模型、迭代模型等。 1 1 2 3 谐波加噪声模型 m c a u l a y 和q u a t i e r i 等在1 9 8 6 年首先提出了语音信号是一组i 皆波的和的假定。在此基 础上,s e r r a 提出分开考虑周期和噪卢信号,井把噪声看成周期信号的残筹,对残差谱进行 处理。s t y l i a n o u 等继续发展了这种理论,提出了h n m 的概念。在h n m 模型中,语音信 号被认为是由谐波与噪声两部分所组成。在浊音段,h 模硝引入了最人浊音频率( m a x i m u m v o i c e df r e q u e n c y ) b 作为谐波部分与噪声部分在频域的分界点。低丁- 的频带被假定为 只包含谐波成分,而高丁b 的频带则假定为只包含噪声成分分别采h j 不同的建模方法。 与t d p s o l a 算法相比,h n m 模型具有更强的韵律滴整能力,可以对语音的幅度、相位 和基频分别进行灵活的调整。 7 中国科学技术人学 0 j i :毕业论义第一章语音信0 产生的埔奉声学理论 1 1 2 4s t r a i g h t 模型 s t r a i g h t ( s p e e c ht r a n s f o r m a t i o na n dr e p r e s e n t a t i o nu s i n ga d a p t i v ei n t e r p o l a t i o no f w e i g h t e d s p e c t r u m ) 模型是近年米由日本学者k a w a h a r a h 提出的,它是一种新的基丁源滤 波器分离思想的语音信号的分析合成算法。s t r a i g h t 通过强调:1 将频谱信息中的激励 的影响完全去除,2 将语音分解为相互独立的频谱参数和一系列脉冲激励的卷积,它能够 获得很高音质合成语音并且有较强的语音调整能力。_ s t r a i g h t 模型分析合成语音的 过群土要由以f ) l 部分组成:玄除周期影响的谱估计,平滑可靠的基频轨迹的提取,合成器 的实现。 i 2 基于声源信号与声道滤波器的源滤波器模型 本仃所讨论的语音产生的基本理论是由g u n n a rf a n t 在1 9 6 0 年提山的。简单的说,该理 论认为语音的产生包括两个基本的部分:声源信号平| j 可以等效为滤波处理的声道模刑;语音 产生的过释可以等效为使用卢源信号激励表征声道的滤波器的过稃。 尽管有些研究人员对该理论的前提有过一些争论( t e a g e r , 1 9 8 3 ,1 9 9 0 ) ,但是该理论的正 确性干表征语音信号的有效性可以被人餐充分的实验数据所支持,特别是在浊音信号的产生 方而。 在f a n t 的语音产生理论中,声源与滤波器被认为是互不相关的独立函数。该近似理论 需要一个简单的假设:卢门的阻抗总是显并高丁卢道的输入阻抗。有了这样的假殴声道的 滤波过样在短时分析的意义上就可以被认为是线性时不变的。 1 2 1 声源信号的定义 完全清晰的定义卢源信号和声道滤波器,起一个1 f :常凼难的命题。即使在不考虑那些能 够影响卢震动的机械上和声学上的交当作_ l j 的情况卜仍然是这样。冈为,声fj 阻抗赵随着 卢面积的变化北线性变化的。它不仅影响着声门激励脉冲的形状。同时也是决定卢道传输 函数的个重要冈素。冈此,一种定义声源的方法就是将卢源信号定义为一个假想信号 ( f a n t ,1 9 7 9 ) ,该定义通过将声道阻抗替换成一小段同路,从而忽略了声道负载。按照这种 方法定义的声源函数是由声fj 处卢压平| 卢门阻抗共同决定( 以= 只。磊) 的,同时它也是完 全独立丁卢道滤波器的。这就是声源函数最甲的原始定义。然而,由丁采川相对简单的无交 且作刚的信号作为卢源,声道滤波器变得1 f 常的复杂,它是时变而竹线性的。虽然,这样定 义的卢源信号在原则上具有相对易丁建模、不包含多重的波纹成份等优点;但是,对丁实际 的语音信号,我甘很难通过采_ l f 像逆滤波这样的技术将其分离山米,冈此不太实川。 另一种定义声源的方法是将声源信号定义为通过声i j 的真实体积速度值酞( f a n t ,1 9 8 l , 1 9 8 2 b ,g 眭f i ne ta 1 j 9 7 6 ) ,在这种定义f ,声道滤波器的定义不包括声阻抗,冈此滤波器 的传输函数变得相对简单。然而这样的声源信号会受到卢道滤波器结构的影响;在山现有限 卢门阻抗,也就是卢门开启的情况卜信号会出现波纹成份。 本文所讨论的卢源信号采川的就是这种定义。然而在人多数的情况卜,卢源研究所关注 的是卢fj 波的微分波形( d i f f e r e n t i a t e d g l o t t a l f l o w ) ,它是真实卢| j 波的时域微分波形:它包 含了唇辐射传输函数的主要特征一阶微分过科。 与相比,真实的声| j 波及其相应的微分波形可以通过逆滤波比较方便的从语音信号 中提取出来。然而值得注意的是,不包括声fj 阻抗的声道滤波器定义意味着:通过逆滤波方 8 中田科学挫术人学坝l 。毕业论史第一章语哥f 古o j 产生的璀奉声学理论 法获得的滤波器参数只能反映卢阻抗无限、也就是声| l j 关闭时的卢道传输函数。在某些情 况r ,很可能在完整的一个卢fj 波周划内都无法获得一个声fj 完全州台的时间点,此时卢源 利滤波器参数的估计就会山现问题。实际中,无论是男声还是女声,这种现象都是很普遍的, 特别是在w h i s p e r y 、b r e a t h y 的发音类型r 。 如何对真实的声j j 波进行建模,是声源研究k 期讨论的问题。建模的凼雉主要是由卢道 的交互作_ l j 所带米的多重波纹成份引起的。一+ 般的说,当参数化卢门波的时候,声源模型捕 捉的是卢源信号的主要方面,波纹成份会被忽略。 1 2 2 声道滤波器定义 将声源函数定义为通过卢r j 的真实气流信号后,卢道传输幽数的定义变得简单,它是体 现了最终的气流信号与声fj 气流信号之间的关系:川j ) = 乩o ) u a s ) 。 声道传输函数可以川一系列复共轭的零极点精确的表示。在元音的情况f ,传输函数可 以认为是一个全极点豳数:卢道能够_ 【 一系列级联的共振峰( 复共轭的极点) 米建模。理论 上共振峰的个数虑该是无限的,并且共振峰的间隔是由声道的& 度所决定的。如果假定卢道 的k = 度是1 7 5 c m ( 男性卢道的典型值) ,音速为3 5 0 m s ,共振峰的问隔人约是1 0 0 0 h z 。在 实际的卢道函数估计中,只有少数的共振峰需要被建模。由丁高阶的共振峰会影响低阶的共 振峰幅度,冈此排除高阶共振峰带米的损火可以通过一个高阶修止滤波器米补偿( f a n t , 1 9 5 9 ;1 9 6 0 ) 。 语音信号的虽终波形实际上是由嘴唇开启处的信号雨唇辐射函数兆同决定的。唇辐射函 数可以川一个微分器米近似,其作刈是在唇开启处信号的频谱上增加6 d b o c t a v e 的上升。 1 3 声源研究的意义 针对语音卢源方面的研究,是语音学研究的一个经典课题。其内容包括:语音产生机理 及源滤波器分离思想的研究、逆滤波等卢源提取方法的研究、声源干卢道的定义以及模型研 究、基t 卢源的语音编解码与合成器研究、声源信号应鼙的研究、卢源平卢道特性在改变卢 音r u l 质中所起的作川研究等等。卢源研究在语音学上的意义主要包括以b ) l 个方面: 通过对语音产生机理以及源滤波器思想的深入研究,卢源研究可以提供为通信、语音合 成臀领域提供高效的语音编解码方案。由r 采川了更先进、台理的分析合成技术,卢滁编码 具有码速率低同时能进行灵活的参数调整等优点。 声源分析是目前研究卢音品质( v o i c eq u a l i t y ) 和发音类型( p h o n a t i o nt y p e ) 的土要研 究手段。所谓卢音i 7 1 质,是指一个人所发语音的在听觉上的特征化风格( t h e 幽d m 胞,打m a u d i t o r y “c o l o u r i n g ”o f a ni n d i v i d u a l sv o i c e ) 。声音晶质是根据发音人喉部的特征生成,贯穿 整个发音过样。它在反应特定人关丁年龄、性别、年龄笛方面的语音特祉的同时,在表现语 气、情感等方面也起剑非常重要的作州。发音类型描述的是,随着说秤人喉部特征的改变而 变化的声源信号能对最终的语音信号产生的影响。对发音类型的分类方法有很多种,一般包 括:b r e a t h yv o i c e 、w h i s p e r yv o i c e 、c r e a k yv o i c e 、f a l s e t t o 、t e n s ev o i c e 、l a xv o i c e 等等。声源 分析指的是通过提取声源信号、分析卢源信号的度鼙参数研究声音品质和l 发音类型的规律, 对语音学的很多领域都具有指导意义。 近年来随着基丁人语料库的语音合成技术的发展,通过各种文语转换系统已经可以获 得白然度相当高的合成语音。但是,目前的文语转换只能实现:常发音类型f 的陈述语气的 文本朗读,无法提供具有表现力和感情色彩的语音合成,其至连语气的表达都存在蚓难。为 9 中困科学技术人学倾i 毕业论文第一章语音信0 产生的桀奉声学删论 了提高语音合成在表现力方面的不足,不仅需要声源研究所提供的指导性规律,更依赖丁声 源研究能够提供的参数语音合成器。可以预计,今,| 亓卢源研究在这个语音领域研究的热点, 将发挥越来越人的作川。 1 0 中因科学技术人学坝| 毕业论文第1 = 章声源竹0 的提取方法 第二章声源信号的提取方法 卢源信号作为是语音产生过榉的激励源在语音分析的研究中贝有十分重要的意义。 数十年来,研究人员为了准确、可信的提取卢源。提出了很多不同的方法。然而。任何种 方法都很难同时具备简单有效和在人多数场合f 估计准确的优点。 逆滤波是一种广泛使州的声源信号提取方法。尽管在逆滤波的具体实现上有很多不同的 方法,但是这些方法都是基丁同一个共同的思想对卢道建模井通过滤波消除共振峰的影 响。 2 1 逆滤波技术概述 语音信号的产生机理以及源滤波器模型的研究告诉我们,语音信号的产生过程可以理解 为:使埘能够表征发音人声门处激励脉冲的声源信号( 有时包括唇辐射的影响) ,玄激励一 个描述卢道传输特性的声道滤波器的过科。这个过科的描述如图2 1 a 所示。所谓对语音信 号的逆滤波,可以理解为语音信号产生过程的逆过程:首先设计个传输函数等丁卢道滤波 器倒数的滤波器,然后州该滤波器对语音信号进行滤波即在语音信号中消除声道的影响, 最终得创的结果被认为是对卢源信号的估计。如幽2 1 b 在频域上表示了逆滤波的过榉。通 常进行逆滤波处理的语音信号可以是口腔气流信号( o r a l a i r f l o ws i g n a l ) ,也可以是语音声乐 波形信号( s p e e c h p r e s s u r e w a v e f o r m ) ,两者经过逆滤波后分别获得卢门波( g l o t t a l a i r f l o w ) 年卢波的微分波形( d i f f e r e n t i a t e d g l o t t a l a i r f l o w ) 。图2 1 - c 在时域上分别表示了针对这两 种信号的逆滤波过稗。 根据j 2 2 小”中给出的卢道模删定义,逆滤波器的结构也可以i 【l j 一组复共轭的零极点 米表示。逆滤波器的零极点在理论上要求能够和声道传输函数的零极点完全相消。住许多席 h 场合,我们希望得到的声源信号是卢门波的微分波形,冈为它对卢源信号的频谱进行了 6 d b o c t a v e 的加重,是研究中对一些听感上重要的卢源特性的估计变得方便。如果需要提取 的声源信号是卢门波,就需要再消除唇辐射的影响,通常的作法是在逆滤波过烈中增加一玖 积分过群( 等效为零频1 1 i ) = 置的实极点) 。 如果卢道传输函数能被非常准确的估计出米,逆滤波技术就可以提供优质、可信的声源 信号。然而通常情况f ,对丁所有类型的语音信号,声道传输函数都需要川全极点模型米近 似。即逆滤波器需要州一个全零点的模型米近似。之所以采州这样的近似,主要是出丁降低 滤波器参数估计复杂度的考虑。另外与函数的零点相比,极点比较容易被准确的检测到。这 样的近似的缺点是:在针对非元音的语音分析时,冈为卢道传输函数会包含零点,所阻户源 依计的精确度会稍有r 降。 逆滤波器的阶数,即传输茁数所需要零点的个数是由声道长度以及语音信号的带宽共同 决定的。例如:男性声道的一般k 度为1 7 5 c m ,平均共振峰间隔为1 k h z 。如果语音信号的 采样频率为1 6 k h z ,那么逆滤波的阶数原则上麻定为8 阶。在实际研究中,作者通过参考语 音编码标准算法中线性预测模璀的阶数米确定逆滤波韵阶数。对于8 k h z 采样率f l 勺语音,使 川l o 阶的逆滤波:对3 - 1 6 k h z 采样率的语音,使刖1 6 阶的逆滤波。 逆滤波的方法主要可以分为两人类:全自动的逆滤波承f 有人i :干预的逆滤波。前者的理 论基础是语音分析中的线性预测理论,通过培小化预测误著,获得纽唯一的逆滤波器参数。 然而线性预测模孤4 假设语音的激励信号都具有平坦的幅频特性。即:对丁浊音,激励类似向 中田科学技术人学颂j :毕业论文笫_ _ 二章声源信0 的提取方法 噪声;对丁清音,激励类似冲击串。为了解决卢源与残著不一致的问题,一些改进的l p c 公式被引入了逆滤波技术( h e d e l i n1 9 8 4 ;1 9 8 6 ;l j u n g q v i s ta n df u j i s a k i1 9 8 5 b ;f u j i s a k ia n d l i u n g q v i s t1 9 8 7 ) 。与传统l p c 模艰相比,改进后逆滤波更能反映实际声源信号特征。全自 动逆滤波技术的不足还反映在对分析语音的类型限制上。例如经典的“闭合段臼相关分析法” ( c l o s e d p h a s ec o v a r i a n c e m e t h o d ) 只有在声源信号具有很欧的“闭合段”时才能精确估计。 人部分的逆滤波算法要求分析的语料具备充分的浊音特性、稳定的基频利频谱特征的条什。 由丁这样的要求白然语流中很难达到。m o k h t a r i 和c a m p b e l l ( 2 0 0 2 ;2 0 0 3 ) 在他们的系统中 使州了“可靠性中心”( c e n l r e so f r e l i a b i f i t y ) 的概念,本论文的第八章将对此课韪作详细的 讨论。全自动逆滤波技术的男一个重要问题是,共振蜂消除的不完全,以及由此导致的声源 信号被“波纹成分”污染的现象。离散全极点模型( e l - j a r o u d ia n d m a k o u l ,1 9 9 1 ) 利迭代的滤 波器参数最优化方法( a l k u a n d v i l k m a n ,1 9 9 4 ,a l k u , 1 9 9 2 ) 的提_ 山,部分的解决了这个问题, 获得了较好的卢源估计结果。 t h es p e e c hp r o d u c t i o np r o c e s s 广1 广_ 1 ls o u r c e 卜iv o c a lt r a c tf i l t e r 卜_ s p e e c ho u t p u t i n v e r s ef i l t e r i n g ( f r e q u e n c yd o m a i n ) f b ) 。k 避一。脐矿一。嗵 i n v e r s ef i l t e r i n g ( t i m ed o m a i n )( c ) 幽2 i 逆滤波原理示意幽 所谓有人。i :干预的逆滤波指的是,实验人员在时域雨频域上的信息的指导f 对声道滤 波器参数进行调整,以获得更准确、可信度更高的卢源信号的逆滤波方法。这种方法需要人 苗的人:介入,代价是明显的。最主要的缺陷是:卢源信号的产生取决于实验人员的主观标 准,缺乏信号分析的一致性。不是本文讨论的重点。 2 中田科学投术人学顿i j 毕业论文 第一二市声源信0 的提取方法 2 2 基音同步的迭代自适应逆滤波算法 本小。1 y 所讨论的基音同步的迭代白适戍逆滤波算法( p i t c h s y n c h r o n o u s i t e r a t i v e a d a p t i v e l n v e r s e f i l t e r i n g ) ,简称p s i a i f 算法 9 1 1 1 0 1 。该算法的原型由p a a v o a l k u 和v i l k m a n 在上世 纪9 0 年代初期提出,经过原作者利许多其它研究人员的努力,已经发展成为一种有效的声 源信号提取方法。由丁本论文第三章所提出的廊 丁音库压缩的语音编码算法和i 第五章所提 山的基丁逆滤波利声源建模的语音合成器,都采用这种算法进行声源信号提取,本小:竹将对 p s i a i f 算法的原理雨i 流稗加以讨论。 h 1h 2v 1i a i f - l p c :l p c 令极点滤波器系数 g ( d : j :- fj 波微分波形 幽2 21 a i f 算法流稃幽 v l 对声源信号的 筇。狄似讣 i a fl p c 的 p s - i a i f 算法是在i a i f 算法( a l k u l 9 9 1 ) 的基础上发展形成的。i a i f 算法的流群如图2 2 所示。其基本原理是:如果我们能把由声源信号引入的频谱倾斜效应( s p e c t r u mt i l te f f e c t ) 从原始语音信号的频谱中分离山去,采川线性预测的分析方法( l p c ) 就可以相当精确的估 计山卢道传输函数,逆滤波也就可以产生准确可信的卢源信号波形。 i a i f 算法的主要流程可以分为两步:第一步,首先埘一阶的l p c 模型( h 1 ) 估计声源 信号对语音信号频谱造成的倾斜效应,通过对原始语音的逆滤波消除这种效应,然斤对消除 了卢源信号影响的语音信号进行高阶的l p c 分析,由此获得表征声道的原始模玳v 1 。通过 逆滤波从原始语音信号中消除了卢道( v 1 ) 以及唇辐射的影响。如此获得的信号被认为是 对卢源信号的第一次估计。第二步,用四阶l p c 的模型( h 2 ) 对第一步估计出的卢源信号 进行更为精确的描述,通过逆滤波消除声门波影响后,再州高阶的l p c 表征出最终的卢道 模型( i a i fl p c ) 。将原始语音信号消除了虽终的声道及唇辐射的影响后即可获得可信的 声源信号波形。i a i f 分析过穰中的两个高阶l p c 分析的阶数对麻_ 丁整个i a i f 逆滤波器的阶 数,由语音信号的采样率决定,设定规则参见2 卜札 在i a i f 对语音信号的分析过科中,l p c 分析起到非常重要的作用。l p c 分析一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论