(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf_第1页
(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf_第2页
(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf_第3页
(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf_第4页
(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf_第5页
已阅读5页,还剩105页未读 继续免费阅读

(信号与信息处理专业论文)基于隐马尔科夫模型的语音合成技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博士学位论文摘要 摘要 随着目前语音合成效果的逐步改善,用户对语音合成系统提出了更高的要 求,尤其是多样化语音合成方面的需求。在这种背景下,一种能够在短时间内通 过自动训练的方式进行合成系统构建,从而满足用户多样化需求的语音合成技 术,有着很高的理论研究及使用价值。对此,本论文在基于h m m 的可训练语音 合成( t r a i n a b l e t t s ) 方面,包括技术框架构建、关键技术改进以及相关技术应 用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下。 首先,本论文对基于隐马尔科夫( h m m ) 的自动切分技术进行分析和改进。 通过分析h m mi ) 1 1 练流程中采用的最大似然准则的( m l ) 训练算法与自动切分 目标的不匹配问题,本文提出一种基于切分误差最小化准则( m s g e ) 的区分性 训练算法。在该算法中,首先通过引入一个新的切分误差度量来定义切分误差函 数,然后基于一般化的统汁梯度下降算法( g p d ) 对模型参数进行优化,从而达 到切分误差最小化的目的。基于h m m 的自动切分技术的分析和改进工作,为本 文后续进行t r a i n a b l et t s 的深入研究奠定一定的基础。 其次,本论文基于现有的模型训练和参数生成技术,建立了一个完整的 t r a i n a b l e t t s 技术框架,包括一个自动化的训练流程和相应的合成后端。它可以 根据用户的需求,通过输入一定的语音数据进行自动训练,并快速形成一个相应 的合成系统。此外,在此框架基础上,本文通过设计和优化中文上下文相关属性 和问题集,进行了中文t r a i n a b l e t t s 系统的训练和构建,对t r a i n a b l e t t s 技术 进行效果验证。 第三,基于前面构建的t r a i n a b l et t s 技术框架,本文对t r a i n a b l et t s 技术 分别进行几个方面的改进。首先在谱参数建模方面,通过对m e l c e p s t r a l ( m c e p ) 和线谱对( l s p ) 参数的特点和建模效果分析,并考虑到l s p 参数与共振峰之间 的对应关系,最终结合l s p 和其相邻阶差分d a l 参数进行谱参数建模。其次, 对于韵律节奏感不强的问题,本文在状态时长模型的基础上加入了基于声韵母单 元的时长模型,并在合成中对两种时长模型进行加权来进行时长预测。 此外,针对现在模型训练流程中采用的最大似然( m l ) 准则与合成目标的 不匹配问题,本文提出了一种基于最小生成误差( m g e ) 准则的h m m 训练算 法。在得到结果验证后,本文对m g e 准则进行一定的简化,并通过设计合理的 分裂问题选择策略,将该准则应用到上下文相关模型的聚类中。最后,在上述模 型训练和聚类算法的改进基础上,本文对整个t r a i n a b l et t s 的训练流程进行重 中国科学技术太学博士学位论文 摘要 新设计,使得模型训练完全围绕着m g e 准则来进行。 最后,本文基于t r a i n a b l et t s 技术框架进行多样化语音合成方面的应用。 在多说话人语音合成方面,本文采用模型自适应的方式进行说话人转换,并针对 少量目标语句的情况,通过对模型自适应的转换矩阵类型进行优化来提高转换效 果。在富于表现力的语音合成方面,本文分别进行了语气语调的实现以及情感语 音合成系统的构建以及效果分析。而对于多语种语音合成应用,_ 方面本文基于 已有的纯英文语音库,通过设计合理的属性和问题集,并针对英文的发音特点进 行相应的人工标注,来实现英文合成系统并优化效果;另一方面,本文还基于模 型自适应技术尝试了东北话的方言合成。最后,本文将t l :a i n a b l et t s 应用到实 际的嵌入式环境下。 r 关键词:语音合成,隐马尔科夫模型,可训练语音合成,最小化生成误差准则 i l 中国科学技术大学博士学位论文 a b s t r a c t w i t ht h eg r a d u a li m p r o v e m e n t0 nt h eq u a l 时o fs y n t h e t i cs p e e c h ,p e o p l eh a v e m o r er e q u i r e m e n t sf o rt h et e x t - t o - s p e e c h ( t t s ) s y s t e m ,e s p e c i a l l yt h e 、r e q u i r e m e n tf o r t h ed i v e r s i f i c a t i o no f s y n t h e t i cs p e e c h d u et ot h i s ,醇h a sh i g hr e s e a r c hv a l u ea n d a p p l i c a t i o nu s a g et os t u d yt h en e wm e t h o d ,w h i c ,hc a nc 。o n s t r u c tt h ef ss y s t e mi na s h o r tt i m eb yat r a i n a b l ew a y , t os a r i s f yt h e = v a r i o u sn e e d 。so fu s e r s ,t h e r e f o r e ,曲i s t h e s i s s t u d i e st h et o p i co f t h eh m m b a s e dt r a i n a b l et t si nd e p t ha n ds y s t e m a t i c a l l y , i n c 1 u d i n g t h ef r a m l _ e w 、o 。r k ? c o n s t r u c t i o n :。, t h e 垮y 警“? 1 0 9 yi m p r o v e m e n t sa n 。dt h e r e l a t e da p p l i c a t i o n t h ed e t a i l e dr e s e a r c hw o r k si nt h i st h e s i sa r ea sf o i l o w s : 、4 7 一_,。11 : ,f k s t l y , t h ea p p l i c a t i o no fh i d d e n ,m a r k o vm o d e l ( r t m m ) f o rs p e e c hs y n t h e s i si s s t u d i e d ,w i t ht h ef o c u so ni m p r o v i n gm eh l v m - b a s e da u t o m a f t ts e g m e n t a t i o n a st h e c o n v e n t i o n a l ,f h m mt r a i n i n g :m e t h o ,db a s e d 。o j 印e ! ! _ _ i 强i 。m u ml i k e l i h o o d 二、l ) c r i t e r i o ni si n c o n s i s t e n tw i t ht h es e g m e m j , t ! o na p p l i c a t i o n ,t h ed i s c r i m i n a t i v et r a i n i n g m e t h o di sa d o p t e da n dan e wc r i t e r i o n n a m e d ,m i n i m u m , s e g m e n t a t i o ne r r o r ( m s g e ) i si n t r o d u c e d , _ i nt h i sn e wm e t h o d ”a 1 0 s sf u n c t i o ni sd e f i n e d j b yi n t r o d u c i n gan e w m e a s u r e m e n t 、f o rs e g m e n t a t i o ne r r o r s 。b ym i n i m i z i n g i t h eo v e r , a l le m p i r i c a ll o s sw i t h t h eg e n e r a l i z e dp r o b a b i l i s t i cd e s c e n t ( g p d ) a l g o r i t h m ,t h e - s e g m e r ! t a t i o ne r r o ri sa l s o m i n i m i z e d t h ,ea n a l y s i sa n di m p r o v e m e n to nh m m b a s e da u t o m a t i cs e g m e n t a t i o n l a y sa s o l i df o u n d a t i o nf o rt h ef o l l o w u pw o r ko nh m m b a s e dt r a i n a b l et t s ,“ 。 。 f 。j s e c o n d l y b a s e d o nt h ea v a i l a b l eh m mt r a i n i n gm e t h o da n d p a r a m e t e r g e n e r a t i o na l g o r i t h m ,t h ew h o l et e c h n i q u ef r a m e w o r k o f t r a i n a b l et q si sc o n s t r u c t e d , w h i c hi n c l u d ea na u t o m a t i ct r a i n i n gp r o c e d u r ea n das y n t h e s i sb a c k - e n d f o rt h e u s e r s ? r e q u i r e m e n t ac o r r e s p o n d i n g 订ss y s t e mc a n b eq u i c k l yc o n s t r u c t e du n d e rt h i s f r a m e w o r kb yt r a i n i n gw i t ht h ei n p u ts p e e c hd a t a m o r e o v e gt oc e r t i f i c a t et h ee f f e c t o ft h et r a i n a b l et t sf r a m e w o r k ac h i n e s et r a i n a b l et t ss y s t e m i sc o n s t r u c t e db y d e s i g n i n ga n do p t i m i z i n gt h ec o n t e x t u a lf e a t u r ea n dq u e s t i o ns e tr e g a r d i n gt ot h e c h i n e s ec h a r a c t e r i s t i c s t h i r d l y , t h eb a s e l i n ef r a m e w o r ko f t r a i n a b l et t s i si m p r o v e di ns e v e m la s p e c t s f i r s t , b ya n a l y z i n gt h ec h a r a c t e r i s t i c sa n dt h em o d e l i n ge f f e c to f m e l c e p s 仃a l ( m c e p ) a n dl i n es p e c t r a lp a i r ( l s p ) p a r a m e t e r , a n dt a k i n ga c c o u n to ft h er e l a t i o nb e t w e e n l l i 中国科学技术大学博士学位论文摘要 t h el s pp a r a m e t e ra n dt h es p e c t r a lf o r m a n t ,t h el s pp a r a m e t e ri sc o m b i n e dw i t ht h e d i f f e r e n t i a lc o e f f i c i e n t so fa d j a c e n tl s p ( d a l ) f o rt h eh m m m o d e l i n g n e x t ,i n o r d e rt oi m p r o v et h er h y t h mo f s y n t h e t i cs p e e c h ,ap h o n ed u r m i o nm o d e li sa d d e da n d i ti sw e i g h t e dw i t ht h es t a t ed u r a t i o nm o d e lt 0p r e d i c tt h ed u r a t i o n m o r e o v e r , d u et ot h ei n c o n s i s t e n c yb e t w e e nt h em l b a s e dh m m t r a i n i n g a n d t h es y n t h e s i sa p p l i c a t i o n ,an e wc r i t e r i o nn a m e dm i n i m u mg e n e r a t i o ne r r o r ( m g e ) i s p r o p o s e d a f t e rt h ec o n f i r m a t i o no ft h ee f f e c t , t h em g ec r i t e r i o ni ss i m p l i f i e d ,a n d a p p l i e d t ot r e e - b a s e d c l u s t e r i n g f o r t h ec o n t e x t u a lh m m sb y d e s i g n i n gt h e a p p r o p r i a t es t r a t e g yf o rs p l i t t i n gq u e s t i o ns e l e c t i o n f u r t h e r m o r e ,t h ew h o l et r a i n i n g p r o c e d u r eo ft h et r a i n a b l el 1 t sf r a m e w o r ki s 。r e d e s i g n e db ya p p l y i n gt h em g e c r i t e r i o r i 。 _ j _ r 二一。 。1 f i n a l l y , t h ea p p l i c a t i o no t t t l ei x a i n a b l et f sf r a m e w o r kf o rt h ed i v e r s i f t e ds p e e c h s y n t h e s i si sp r e s e n t e d f o r 。i h e + m u l t i - j p e a ka i i p l i c a i i o n , t h e 。m l l r b a s e dm o d e l a d a p t a t i o na d o p t e di sa d o p t e d , f o rv o i c e :c o n v e r s i o n , a n dt h ec o n v e r s i o nm a t r i x i s o p t i m i z e dt oi m p r o v e 1 h ec o n v e n e dq u a l i t yw i t hr a r e1 t a r g e td a t a f o ft h ee x p r e s s i v e s p e 。e c h s y ”n t h e s 。i sa p p l i c a t i 6 f i t h et r a i n a b l et t sc w i t hd i f f e r e n t s i s e a k i n g 。s t y l ea n d v a r i o u se m o t i o n sa r ec o n s t r u c t e d a n dt h ei r e s u l t sa r ea n a l y z e d _ _ r e s p e c t i v e l y f o rt h e m u l t i - l i n g u a ls i b e e c hs y n t h e s i s a p p l i c a t i o n , 。t h ee n g l i s ht t ss y s t e mi sd i r e c t l yb u i l d b yd e s i g n i 晦t h ea p p r o p r i a t ec o n t e x t u a lf e a t u r ea n d :q u e s t i o ns e t , a n dt h ed o n g b e i d i a l e c tt t s :s y s t e mi sr e a l i z e d b y 。m o d e la d a p t a t i o nt e c h n i q u e + f u r t h e r m o r e - t h e t r a i n a b l e1 t si sa p p l i e dt ot h er e a le m b e d d e dp r o d u c t k e y w o r d s :s p e e c hs y n t h e s i s ,h m m ,t r a i n a b l et t s ,m i n i m u mg e n e r a t i o ne r r o r 中国科学技术大学博士学位论文 第一章:绪论 第一章绪论 随着信息时代的到来,计算机己成为人类不可缺少的日常工具。在计算机中, 通常人机交互界面以键盘为主。为了使计算机的界面与人更加“友好”,科学家 开发出了若干种易学易懂、操作简单的界面。其中最方便最自然的界面首推口述 语言。基于语音识别、语音合成及自然语言理解的人机语音对话技术是世界公认 的一个难度很大,极富挑战性的高技术领域。它的前景十分光明,领导世界软件 潮流的微软首领比尔盖茨说过,“在不久的将来,9 5 的网络软件将是在语音驱 动下完成的。”近几年来,语音识别、合成技术发展很快,和它有关的语言学、 语音学、语音理解,听觉一“理和语言感知也有较大进展,珈之超大规模集成电路、 电子计算机、数字信号处理、:人工智能等取得了突飞猛进的发展,以及最近两年 的国际互联网的迅速生长和全球信息基础设施建设热潮,这为人机语音对话的研 究提供了更好的理论和物质基础以及需求牵引。 。 。 。 。, 作为人机交互的核心技术之一,语音台成近年在技术和应用方面都取得了长 足进展。随着电子计算机的运算和存储能力的迅猛发展,语音合成技术由早期的 基于规则的参数合成,到基y - d 样本的拼接调整合成,并逐渐发展为现在比较流 行的基于大语料库的拼接合成。与此同时,台成语音的自然度和音质都得到了明 显的改善,在一:定程度上达到了人们的应用需求? :从而促进了其在实际系统中的 应用。目前,语音合成技术已经在自动应答呼叫中心( 包括金融、电信和政府等) 、 电话信息查询( 包括天气、交通和旅游等) 、汽车导航以及电子邮件阅读等方面 得到广泛的应用,。同时针对娱乐和教育方面的应用也正在开展。总而言之,语音 合成技术正在影响着现代社会的方方面面。 1 1 语音合成研究背景 1 1 1 概述 语言合成概括地讲就是可以让计算机象人一样将要表达的信息以普通人可 以听懂的语音播放出来的技术,是一门典型的交叉学科 1 3 1 1 4 】。它涉及到声学、 语音学、语言学、语义学、信息论、信号处理、计算机、模式识别、人工智能、 心理学以及人类的大脑神经活动等众多学科的理论和技术。根据人类语言功能的 不同层次,语言合成可以分成三类层次,它们是:( 1 ) 按规则从文字到语音的合 成( t e x t t o s p e e c h ) 。( 2 ) 按规则从概念到语音的合成( c o n c e p t - t o s p e e c h ) 。( 3 ) 按规则从意向到语音的合成( i n t e n t i o n t o - s p e e c h ) 。从现有的语言合成的水平来 中国科学技术大学博士学位论文第一章:绪论 说,可以解决的还是从文字到语音的合成这个阶段,也就是文语转换( t t s ) , 后面所说的语音合成都是指文语转换。 。 图1 1 文一语转换系统框图 图i 1 显示了个完整的语音合成系统框图。这里我们将语音的合成过程看 成是一个层次化的分析过程,从文本信息到语音信息的文语转换过程可以看成在 不同的层次信息在不同的层面上进行分析处理的过程。在文本的层面上,先要在 语言层、语法层和语义层土进行分析,得到文本的层次信息( 包括词组、短语、 句子等信息) 。然后在层次化信息的基础上在语音层的基础上进行韵律分析,得 出语音层面上的韵律信息( 针对汉语来说就是超音段特征的生成,包括基频、时 长、能量的综合韵律曲线) 然后根据生成的韵律特征,利用合成器生成或者从 语音库中挑选单元来完成语音数据的最后生成。 , 在语言层、语法层、语义层的工作可以归结为前端的文本分析,、而语音层面 上的韵律生成和声学层面上的按韵律合成语音单元或在音库中挑选单元可以说 后端的韵律台成。对于语音合成系统来说,前端的文本分析部分都是相同的,只 是f h 于要求的不同而有不同信息表达方式。而后端的韵律合成方面也可以层次化 的分为两个部分,一个就是按照前端给出的层次化文本信息生成合适的韵律,而 另一个就是按照生成的韵律来产生最后的合成语音,在产生韵律和合成语音的方 法上,各种方法不尽相同,甚至两个部分成为一个不可分割的整体,但是从思想 上来说,每个合成系统都包含这样两个方面。我们后面的工作介绍主要是围绕着 语音合成系统的后端进行的。 i i 2 语音合成历史回顾 语音合成的研究历史【5 】 1 1 】可以回溯到1 8 世纪,k r a t z e n s t e i n 在1 7 7 9 年研制 出一种机械式语音合成器,这种会说话的机械,是用风箱模拟人的肺、簧片模拟 声带、以皮革制成的共振腔模拟声道,通过改变共振腔的形状,它可以合成出一 些不同的元音。自1 9 世纪出现电子器件以来,语音合成达到飞速发展。 1 9 3 9 年,贝尔实验室h d u d l e y 制作出一个电子合成器 1 2 】。这是一个利用 共振峰原理制作得语音合成器,它以一些白噪音似的激励产生非浊音信号,以周 2 中国科学技术大学博士学位论文第一章:绪论 期性的激励产生浊音信号。模拟声道的共振器是通过一个1 0 阶的带通滤波器建 模,模型的增益通过人来控制。 1 9 6 0 年,gf a n t 在i 1 3 1 中系统地阐述了语音产生的理论,极大地推动了语音 合成技术的进步。同时线性预测分析( l p c ) 成为最有效的语音分析技术之一, 利用它可以对语音产生模型的参数进行准确估计。1 9 8 0 年,d k l a t t 设计出串 并联混合型共振峰合成器 1 4 1 _ 。它用串联通道产生元音合浊辅音;并联通道产生 清辅音。还可以对声源做各种选择和调整,以模拟不同的嗓音。 , 到2 0 世纪8 0 年代末,基于时域波形修改的语音合成算法p s o l a ( p i t c h s y n c h r o n o u s o v e r l a p a d d ) 被提出f 3 5 ,该方法较好地解决了语音拼接中的问题, 从而推动了波形拼接语音合成的发展和应用。随着9 0 年代电子计算机的运算和 存储能力的迅猛发展,该方法逐渐发展为基于大语料库的单元挑选和拼接合成方 法,它的基本思想是根据输入的文本分析信息,从预先录制弄标注好的语音库中 挑选合适的单元,进行少量的调整( 或者不进行调整然后拼接得到最终的合 成语音。由于最终的合成单元都是直接从音库中复制过来的,其最大的优势就是 在于保持了原始发音人盼音质。、。 ,j 。一、 。! ,j , “。、而到2 0 世纪末,o 拌随着语音合成技术的应用一用户对语音合成效果也提出 了更高的要求尤其是多样化语音合成方面的需求。对此,“可训练的语音合成方 法。( t r a i n a b l e t t s ) 被提出 6 7 6 9 7 5 】,该方法的基本思想是基于统计建模和机 器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。曲予这种方 法可以在不需要人工干预的情况下,自动快速的构建合成系统,而且对于不同发 者人、不同发音风格:甚至不同语种的依赖性非常小。非常符合多样化语音合成 方面的需求,因此逐渐得到研究人员的认可和重视,并在实际应用中发挥作用。 1 2 语音合成方法 从整个语音合成研究的发展历史来看,早期的机械式语音合成器反应了人们 对语音产生机理了解的比较粗略,现代语音合成的方法基本上都是采用一种语音 模型来合成语音。总的说来,近期语音合成的方法可以归结为四种:1 ) 物理机 理语音合成;2 ) 源一滤波器语音合成;3 ) 基于波形拼接技术的语音合成:4 ) 可训练的语音合成:其中基于波形拼接技术的合成包括基于小样本的波形拼接调 整合成以及基于大语料库的波形拼接合成方法。下面我们将简要介绍这几种语音 合成方法。 1 2 1 物理机理语音合成 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语 中国科学技术大学博士学位论文第一章:绪论 音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模【1 5 nt i t z e 曾经研究 过一个数学模型 9 ,这个模型是对声带振动的过程进行建模。但是也有另外一 些研究是对通过声带的气流来建立模型f 1 6 1 。 。 : 近来,物理机理语音合成的研究受到了制约,因为难以将它在现阶段推向实 用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变化进 行度量非常困难,比如说如何精确记录舌位运动和口腔的变化。第二个原因是和 源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数学建模也 非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计算机的出 现和对发音机理的深入了解,很多学者在推动这方面的研究 1 7 】【1 8 卜 =,? 最早的言语仿造者是k r a 乜e n s t e m ,他曾在1 7 7 9 年以发明声学共振器而获得 皇家学院的奖金j 他发明了一套声学共振器,其形状太小有点跟人类的口腔相似。 它用一片模仿人类声带的振动簧片。切断气流,使共振器发出声音。据报道, c h r i s t i a n 的机器所模仿的五个元音a 、e i 、o 、u 还相当准确。 - : 第一个试图用电气方法合成连续语言的机器叫v o d e r ( 语音合成仪 v o i c e o p e r a t i o nd e m o n s t r a t o r ) ,它曾经在1 9 3 9 年纽约世界博览会和次年旧金山 世界博览会上展出0v o d e r 有两个声源一j 个是宽带的噪声源,一个是周期波 峰呜振荡器。= 这两种声音通过、“共振控制”+ 箱,( f l l 】“声道”) 的时候,音色发生 改变。控制箱有、1 0 个相邻带通滤波器,包括正常语言的频率范围。带通滤波器 的输出通过1 0 个子键的单独操纵矗。进行增益调整。还有三企附件操纵选择滤波 器作瞬时激励,模仿产生三组塞音:t - d ,p - b ,k g 。操作人员用一条转柄来选择噪 音和蜂鸣声,用一个脚踏板控制蜂鸣振荡器的音高。经目l l 练的操作人员,能够用 合成器相当熟练地奏出易懂的语言。 1 2 2 源滤波器语音合成 1 2 2 1 源一滤波器合成基本原理 源滤波器的语音合成基于这样一种声学理论,这种理论认为声音由激励和 相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主要形成 非浊音语音信号;另外种是周期性的激励,主要产生浊音信号。这两种激励有 时也会共同使用,如产生某些浊辅音信号。在该方式里,音库中预先存放各种语 音合成单元的声道参数,这些参数根据控制规则的要求进行修正,以合成出各种 语言环境下的语音。其结构框图如图1 2 所示。 4 中国科学技术大学博士学位论文 第一章:绪论 图1 2 源一滤波器合成方式结构框图 在基于源一滤波器的参数合成中,合成器的工作流程主要可分为三步: 1 ) 首先根据待合成音节的声调特性构造出相应的声门波激励源; 2 ) 然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道的 基础上构造出新的声道参数模型; 。 3 ) 最后将声门波激励源送入新的声道模型中,萁输出就是符合给定韵律特 性的合成语音。 1_ 。 共振峰合成和l p c ( 线性预测分析) 合成是上述源,滤波器型结构的参数合 成器中最常用的两种方法。它们实现原理基本上类似,只是所用声道模型不同。 同时托针对声道模掣的特性,在源的选取上略有差别。下面我们将分别对这两种 参数合成器进行简单介绍。 1 2 2 2l p c 合成器 l p c 指的是线形预测合成 1 9 ,以线形预测误差滤波器为基础来模拟声道 1 3 。由于语音信号存在时域上的相关性,可以考虑用信号z ( n ) 过去的p 个样本 来预测当前值x ( 7 n ) : p 童( n ) = a i x ( n i ) ( 1 ) # 1 对应的线性预测误差为: e ( n ) = 。( n ) 一( n )( 2 ) 然后在最小均方误差准则下,即最小化e f e 2 ( ) 】,就可以计算得到对应的l p c 系 数。,i = 1 ,p 。 由最小均方误差准则,我们可得l p c 系数应该满足如下公式: 掣:一2 曰f e ( n 扣( n i ) 】:o ,e :1 ,p 。( 3 ) 中国科学技术大学博士学位论文第一章:绪论 将( 2 ) 式代八( 3 ) 式可得: ( i o ) 一吩( j ) = 0 ,i = l ,p ( 4 ) ,一 其中 曲( j ) = e z ( n i ) z ( n j ) ( 5 ) 通过直接求解( 4 ) 式的线性方程组,我们就可以得到所有的预测系数o i 。需要注 意的是,由于语音信号的短时平稳性,在实际中一般采用加窗分帧的方式处理, 因此求解咖( i ,j ) 可以分为协方差方法【2 0 和自相关方法 2 1 。此外,除了直接求解 的方法外,也可以通过l e v i n s o n d u r b i n 网格法进行求解 2 2 ,与直接求解法相比, 这种方式在实际应用中的效率和精确度更高。 上述由z f n l 到的过程可以用以下线性预测误差滤波过程表示: 。 x ( 卜a ( z )8 ( “) 卜 j 图1 3 线性预测误差滤波器 。 p 、 其中a ( z ) = 1 _ 三0 2 1a 进一步分析可知,霉过滤波得至! 的孽测误差序到e ( 2 ) 为 一白噪声序列。 由图1 3 可以看出,如果我们已知e ,则通过传递函数为1 a ( z ) 的滤波器, 就可以最小均方误差意义下把z ( 讪恢复出来。实际中的l p c 语音合成器,正是 由下式构造其声道模型: s ( z ) gg 其中g 为增益因子。由此,我们只要输入一个单位方差的白噪声序列e ( n ) ,就可 以恢复出原始语音信号。在实际合成系统中,激励源要根据实际语音的清浊不同 来生成,而非简单的单位方差的白噪声序列。由于声门波激励源在绝大部分时间 很小,可以在采用均方误差最小准则下使e ( n ) 逼近实际的激励源,因而从原理上 仍是相洽的。 在实际的l p c 语音合成器的构造中,除了采用l p c 参数本身以外,也可以 采用反射系数或线谱对( l s p 或l s f ) 来表征 2 2 】,由于线谱对参数在语音合成 和编码中有比较广泛的应用,下面我们简单介绍下该参数的一些性质。 根据l p c 滤波器a ( z ) ,我们构造如下两组多项式: p ( z ) = 4 ( z ) + z - ( p + 1 ) a ( z “)( 7 ) 6 虿 = 砑 中国科学技术大学博士学位论文第一章:绪论 q ( z ) = a ( z ) 一z - ( p + 1 ) a ( z 。)( 8 ) 不难证明,这两组多项式的根都处于z 平面的单位圆上,而且两者交替而且相对 坐标轴成对出现。由此我们将z = c o s ( w ) 代入上两式,则可得到( 0 ,”) 中的p 个根, 即l s p 参数。在已知l s p 参数的情况下,根据( 7 ) 式和( 8 ) 式,我们可以直接得到对 应的l p c 滤波器a f 、z ) = ( p ( z ) + q ( z ) ) , 2 。 l s p 参数之所以在语音合成和编码有比较广泛的应用,主要是由于它具有以 下一些特性:一是其敏感性( s e n s i t i v i t y ) ,即某一阶l s p 参数的量化误差只会影 响其对应频率附近的频谱,而对较远处的频谱基本上没有影响。二是线性内插特 性;三是高效性( e f f i c i e n c y ) ,即l s p 参数对应的频谱失真较小;四是稳定性, 只要l s f 随阶次增高而增大的次序不发生改变,其对应的l p c ,合成器的稳定性 也得到保证。 1 2 2 3 共振峰合成器 。 十 , ” 把人的声道模型看成一+ 个谐振腔,语音信号的共振峰特性由这个腔体的谐振 频率来表证,这种合成方法叫做共振峰合成 1 3 】 1 4 】。由于人耳听觉的柯缔氏器 官的纤毛细胞就是按频率感受而排列其位置的,所以这种模拟基振峰特性的声道 模型方法非常有效。听辩实验表明,用前三个共振峰就能代表元音,对于较复杂 的辅音或鼻音,大概要用到5 个以上的共振峰才行。、 。 由语音产生的模型可知,语音信号谱中的谐振特征( 对应声道传输函数的极 点) ,完全由声道的形状决定,。与激励源位置无关:语音谱中的反谐振特征( 对 应声道传输函数的零点) 出现在下面两种情况:一是当激励源位置不在喉部( 如 发摩擦音时j ,。_ 三是发鼻音时。所以对于二般元音:传输函数可以采用全极点模 型,对于鼻音和大多数辅音,声道模型应采用极零模型。 对于全极点模型的传输函数y ( z ) = g 1 一2 1 ,可以将v ( z 1 分解成多个二 阶极点的网络的串联,即: m 以功2 卫西南 ( 9 ) i = 11 ”户、。 由于二阶谐振器的传输函数参数与其共振峰间有简单明确的对应关系,而谐振器 串联时各部分的共振峰将会保留,所以用这种方法可以很方便地模拟全极点模型 的共振峰特性。而对于零极点模型,则可以用串并联共振峰模型来实现。它可以 模拟谐振和反谐振特征,因而被用来合成辅音和鼻音。 综上所述,共振峰合成系统通常采用下图1 4 所示的混合型实现方法: 中国科学技术大学博士学位论文第一章:绪论 幅度 图1 4 共振峰合成系统 相比于l p c 方法,共振峰合成在参数调整合适的情况下,可望产生较高质 量的合成语音。其最大的优点是基于已有的发音机理,容易确定语音合成所需的 参数变化轨迹以及在语音段边界处的参数内插,可以通过共振峰频率的变动来模 拟不同语气、不同发音人的特征等。最大缺点是合成器结构复杂,参数调整复杂, 很难完全正确地实现这些参数调整,所阻实际的合成系统音质往往也难以达到实 用要求。 1 2 3 基于波形拼接技术的语音合成: 。, 。 由于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然度 的语音,而基于原始语音库的波形拼接合成在实现高自然度的合成系统上,取得 了很大的进展。波形拼接合成方法的基本原理就是根据输入文本分析得到的信 息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整( 也可以 不进行调整) ,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可 以是前端分析得到的韵律文本,也可以是生成的声学参数( 比如基频、时长和谱 参数) ,或者两者兼有。由于最终合成语音中的单元都是直接从音库中复制过来 的,其最大的优势就是在于保持了原始发音人的音质。 其实在单元拼接合成方法最初提出时 3 6 3 7 ,由于受音库容量以及单元调 整算法的限制,其优势并不是很明显,主要是合成语音不连续,自然度不高,而 且单元调整过大时导致语音音质急剧下降。一般我们把这种原始音库比较小( 即 拼接样本数比较少) 的合成系统,称之为基于小样本的波形拼接合成,而与此对 应的就是现在比较流行的基于大语料库的单元拼接合成 3 8 】。这种方法的演变主 要得益于近年来计算机的运算和存储能力的飞速增长,其音库由以前的1 m b 变 为1 0 0 m b ,甚至超过1 g b ,相应的单元挑选策略也越来越精细,使得挑选出来 的单元基本不需要调整,不仅保持了原始语音的音质,而且不连续现象也得到很 大的改善,自然度得到极大的提高。因此,基于大语料库的单元拼接合成系统得 到越来越广泛的应用 3 9 】 4 0 。 8 中国科学技术大学博士学位论文第一章:绪论 为了方便,后面所称的大语料库合成系统指的就是基于大语料库的拼接合成 系统。在构建一个大语料库合成系统时,主要包括以下几个重要环节; 1 ) 单元尺度的选择:可以是音素、双音素、音节、词甚至短语等,对于中 文语音合成系统,比较常用的基本单元是声韵母和音节; 2 1 语料库构建:首先是在保证单元覆盖率的前提下,根据特定的搜索策略 从原始文本语料中挑选出合适大小的语料;然后进行音库录制并对音库 一 进行标注,包括音段切分和韵律标注等; 3 ) 单元挑选算法设计和优化:大语料库合成系统的单元挑选算法一般分为 两步:首先是基于决策树或者其他索引方式的快速预选算法,得到一定 数目候选单元序列;然后再考虑候选单元的自身代价和连接代价进行精 细的单元打分,从而得到最优的拼接单元序列: 4 1 单元拼接算法:主要包括韵律调整和单元平滑: 虽然大语料库合成系统的合成语音的音质和自然度都相当不错,尤其针对一 些特定领域的应用,包括新闻播报和信息查询等。但是,它也存在一些内在的缺 陷和不足,下面我们将一一介绍。 ? ,一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以合 成的很好,而对有些语句则合成效果比较差,、主要体现在虽然每个单元的音质都 很好,但是有些拼接单元之间有比较大的不连续,如果一个句子中出现多个不连 续的拼接点,整个句子听起来效果比较差。因此,大语科库台成系统更适合在受 限领域的应用,比如数字串合成、新闻合成、旅游信息合成等。而对于任意文本 合成,其合成效果还有待提高。 一 - 在大语料库合成系统中,个非常重要的环节就是语料库的构建,具体包括 语料设讨+ 、音库录制以及音库制作,其中音库制作包括韵律和音段标注。由于现 在的音库越来越来( 超过1 g b ) ,使得音库制作的工作量非常大,而且周期也很 长,虽然可以采用一些自动标注的技术来替代人工的方法,但是效果并不是很稳 定,所以现有的系统一般只构建少数几个发音人( 比如只有一个男声和一个女声) 的音库,导致合成系统的合成语音比较单一。 此外,现在很多大语料库合成系统的单元挑选算法都是通过经验总结,并在 具体环境( 包括语种、发音人、语料等) 一f 针对合成效果进行调试和优化得到的, 其鲁棒性不高。如果环境有一定的变动,比如换一个发音人甚至换一个语种,则 需要对单元挑选算法重新设计和优化。 1 2 4 可训练的语音合成 由上面的分析可以看出,虽然现在大语料库合成系统的效果不错,但是也存 9 中国科学技术大学博士学位论文第一章:绪论 在不少缺陷,比如:合成语音的效果不稳定,音库构建周期太长以及合成系统的 可扩展性太差等。这些缺陷明显限制了大语料库合成系统在多样化语音合成方面 的应用,因此,近年来可训练的语音合成( t r a i n a b l et t s ) 的概念被提出来并逐 渐得到越来越广泛的应用 6 8 6 9 1 1 7 5 。 t r a i n a b l e t t s 的基本思想就是基于一套自动化的流程,根据输入的语音数据 进行训练,并形成一个相应的合成系统。般而言,训练是针对模型或者参数进 行的。在语音信号处理中,最普遍有效的建模方法就是隐马尔可夫模型( h m m ) 【2 5 】,它在语音识别中已经有非常成熟的应用,目前的t r a i n a b l et t s 技术也都是 基于h m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论