(信号与信息处理专业论文)多语种语音合成的韵律建模.pdf_第1页
(信号与信息处理专业论文)多语种语音合成的韵律建模.pdf_第2页
(信号与信息处理专业论文)多语种语音合成的韵律建模.pdf_第3页
(信号与信息处理专业论文)多语种语音合成的韵律建模.pdf_第4页
(信号与信息处理专业论文)多语种语音合成的韵律建模.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 韵律控制是语音合成系统中十分重要的一个模块,本论文研究了多语种语音合成中的韵 律建模,提山并实现了一种中英文、混读的韵律建模框架。 一般对单语种语音合成的韵律生成有三种,基丁先验规则的韵律生成、基丁数据驱动的 韵律生成和基丁参数模型的韵律生成。论文详细研究了汉语中这三种类型的韵律生成方法及 优缺点。( i ) 通过对汉语语音学和语言学的研究总结一些通刚的韵律规则,利川这些专家 知识,可以建立一个规则韵律生成系统。通常规则系统包括两个方面:一是汉语语言通_ l f j 规 则;二是日标说话人的特定韵律特征规则。这种方法有效的利州了专家知识,但是韵律产生 的复杂度远远人丁现在已经掌握的人l :规则,尤其是特定语言环境和特定人发音的一些细 则。( 2 ) 随着人语料库制作技术的山现,以及计算机硬什技术的发展年| i 一些高效的机器学习 算法的成熟,使得录制人规模的语料库,圳数据驱动的方法进行机器学习来发掘其中的韵律 规则成为一个可能。数据驱动的方法。可以尽可能的利_ j 已有的语料资源,自动化的机器学 习可以发摭更多更细的规则,对不同的数据库做快速的白适应,人人降低研究者的烦杂的分 析i :作。但是数据驱动一般要求比较人且均衡的数据库,且训练模型没有和语言特征羽i 入的 感知直接建立联系,无法进行转移平调整。( 3 ) 参数模型利川先验知识先分析基频时k = 雨l 语言特征、人的听感的关系,对此关系建模提取基频时艮里和i 语言特征及人的昕感直接相 关的参数。这样的模型有效利川了专家知识,就可以_ j 不多的数据训练山文本语言特征和参 数的关系,同时通过调整模删参数就可以达剑改变听感的韵律特征的目的。论文中分别讨论 实现了t a r g e t 模酗、f u j i s a k i 模型和s f c 模玳在中文韵律上的麻州研究。 多语种的合成系统的一个主要问题米源丁- 不同语言有不同的韵律体系结构。对丁多语种 混读合成的韵律模耻设计的就是要建立一个多韵律的统一的框架,使得在这个框架描述r , 不同语言有相同的一些特征体现,同时也可对并白不同特征进行分别建模。本论文主要研究 了中英文混读的韵律建模。汉语属丁有调语言,韵律模型要专门针对调形进行描述:英语是 无调语言,模型土要对英文重音a c c e n t 进行描述。通过设计一个中英文混读的实验,研究 表明,汉语说话人的混读朗读中英文受中文的影响明显,音高上升、f 倾变陡;而中文受英 文的影响比较小。以s f c 分层叠加模型为框架,设计中英文泄读具有相同的句子利短语层, 而有不同的音肖层。对各自的音节层( 中文为t o n e 层,英文为a c c e n t 层) 可以分别建模, 再考虑相互作川。卜的拼接。这样中英文的韵律就被有机结合起来,实现混读卜的整体韵律建 模。利_ l 1 4 这种框架理念,还可以扩展模型,刚丁 表现多说话人、多语气、多情感等表现力丰 富的语音韵律。 最f l 亓设计了一个公共的韵律评测体系,并结合已完成的洮读韵律模型实现一个基丁 h m m 的t r a i n a b l e 混读合成系统,实现多韵律模型的主观和客观评测。 第2 页共6 2 负 a b s t r - a c t a b s t r a c t p r o s o d yc o n t r o li s av e r yi m p o r t a n tm o d u l ef o rs p e e c hs y n t h e s i ss y s t e m t h i sp a p e rp r e s e n t sa n d i m p l e m e n t sac h i n e s e e n g l i s hh y b r i dp r o s o d i cm o d e l i n gf r a m e w o r kb ys t u d y i n gm u l t i l i n g u a l p r o s o d i cm o d e l s u s u a l l yt h e r e y et h r e ek i n d so fp r o s o d i cg e n e r a t o r sf o ras i n g l el a n g u a g e t h e ya r er e s p e c t i v e l y b a s e do np r i o rk n o w l e d g e ,b yd a t a - d r i v e na n db yp a r a m e t r i cm o d e l s t h e s et h r e eg e n e r a t o r sa r e s t u d i e da n da n a l y z e dd e e p l yi nt h i sp a p e r ( 1 ) ar u l e b a s e dc h i n e s ep r o s o d i cg e n e r a t i n gs y s t e m c a nb ec r e a t e db yi n c l u d i n gt h ee x p e r t t sk n o w l e d g eo fp h o n e t i c sa n dl i n g u i s t i c s t w oa s p e c t s s h o u l db ec o n s i d e r e d :t h ec o m m o np r o s e d i cr u l e so fc h i n e s el a n g u a g ea n dt h es p e c i a lp r o s o d i c r u l e sf o rau n i q u es p e a k er t h i sm e t h o dm a k e sr i s eo ft h ee x p e r t sk n o w l e d g ee n t i r e l y b u tm o r e d e t a i l e dr u l e sa r en o ti n c l u d e d ,e s p e c i a l l yf o rt h ed i f f e r e n ts p e a k e r s d i f f e r e n ts t y l e s ( 2 ) i tb e c o m e s p o s s i b l et om a k ec o r p u sd a t a b a s ea n du s em a c h i n el e a r n i n gt om i n et h ep r o s o d i cr u l e sb y d a t a - d r i v e n ,a f t e rt h e r eo c c u r st h et e c h n i q u eo fr e c o r d i n gl a r g e l y , h i g h - p e r f o r m a n c ec o m p u t e ra n d m a c h i n el e a r n i n ga l g o r i t h m t h em e t h o do f d a t a - d r i v e nc a l ll e a r nt h es p e e c hm a t e r i a l st og e tm o r e a n dm o r er u l e s a n di td o e ss e l f - a d a p t i v el e a r n i n gf o rm o r em a t e r i a l s ,w h i c hc a nd e c r e a s et h e w o r ko fr e s e a r c h e r n o r m a l l yt h i sm e t h o dn e e d sa b u n d a n tm a t e r i a l s t h et r a i n i n gh a sn od i r e c t r e l a t i o nw i t hp e r c e p t i o na n di t sh a r dt oa d j u s tb ye x p e r t s ( 3 ) p a r a m e t r i cm o d e la n a l y z e st h e r e l a t i o nb e t w e e np i t c h ,d u r a t i o na n dl i n g u i s t i c s , p e r c e p t i o n ,a n dc o n s t r u c tam o d e lt od e s c r i b et h e r e l a t i o nb a s e do ne x p e r t sk n o w l e d g e t h ep e r c e p t u a lp a r a m e t e r sa r ee x t r a c t e df r o mp i t c ha n d d u r a t i o nt or e p r e s e n tt h ep r o s o d i ci n f o r m a t i o n k n o w l e d g eo fe x p e r t sa n dm a t e r i a l sa r eu s e db o t h i t sp o s s i b l et oc r e a t ed i f f e r e n tp r o s o d i cs t y l e sb ya d j u s tt h em o d e l sp e r e e p t a a lp a r a m e t e r s t a r g e t m o d e l ,f u j i s a k im o d e la n ds f cm o d e la r es t u d i e da n di m p l e m e n t e di nt h i sp a p e r t h ek e yp o i n to fm u l t i l i n g u a ls p e e c hs y n t h e s i ss y s t e mi st h a td i f f e r e n tl a n g u a g e sh a v ed i f f e r e n t p r o s o d i cs t r u c t u r e s o u rg o a li st oc o n s t r u c tau n i f o r m e dm u l t i - p r o s o d i cf r a m e w o r kf o rh y b r i d l a n g u a g e s p r o s o d i cm o d e l m a k i n gi t a v a i l a b l et h a tc o m m o nf e a t u r e sa n dd i f f e r e n tf e a t u r e sa r e m o d e l e di nt h i sf r a m e w o r k c h i n e s ei sat o n el a n g u a g ew h i c hn e e d sat o n em o d e l ,b u te n g l i s hi sa n o n - t o n el a n g u a g ew h i c hr e e d sa na c c e n tm o d e l a ni m p l e m e n t e dc h i n e s e - e n g l i s hh y b r i dr e a d i n g e x p e r i m e n ts h o w st h a te n g l i s hw o r d sa r ei n f l u e n c e dh e a v i l yb yc h i n e s ee n v i r o n m e n t ( p i t c hg o i n g u p ,g r a d eb e i n gd e e p e r ) ,w h i l ec h i n e s ew o r d sa r eh a r d l yi n f l u e n c e db ye n g l i s h t h e p r o s o d i c f r a m e w o r ki sb a s e do nt h em u l t i - t i e rs f cm o d e l ,t h a tc h i n e s ea n de n g l i s hh a v et h es a m ec l a u s e a n dp h r a s es t r u c t u r eb u td i f f e r e n ts y l l a b l el a y e r , w h i c hc a nb er e s p e c t i v e l ym o d e l e d ( c h i n e s et o n e , e n g l i s ha c c e n t ) a n dt h e nc o n c a t e n a t e d t h u sc h i n e s ea n de n g l i s hp r o s o d i cc o n t o u r sa r eo r g a n i z e d n a t u r a l l yt or e a l i z et h ec o m p l e t e dh y b r i dl a n g u a g e s m o d e l b a s e do nt h i sf r a m e w o r k ,t h em o d e li s a b l et ob ee x t e n d e dt od e s c r i b em u l t i - s p e a k e r , m u l t i i n t o n a t i o n ,m u l t i - e m o t i o n ,e t c f i n a l l yac o m m o np r o s o d i ce v a l u a t i o ns y s t e mi sd e s i g n e d ah m m b a s e dt r a i n a b l e c h i n e s e e n g l i s h 下t ss y s t e mi si m p l e m e n t e dw i t hi n t e g r a t i n gam u l t i - l i n g u a lp r o s o d i cm o d e l t h e s ea r eu s e dt oe v a l t m t et h ep r o s o d i cm o d e ls u b j e c t i v e l ya n do b j e c t i v e l y 第3 页共6 2 受 第l 章语哥仓j j 竞蟓理简介 第1 章语音合成原理简介 1 1 概述 由人:制作出语音称为语音合成( s p e e c hs y n t h e s i s ) 。语音合成是人机语音通信的一个重 要组成部分。语音合成研究的目的是制造一种会说话的机器,它解决的是如何让机器象人那 样说活的问题。使一些以其他方式表示或存储的信息能转换为语音,让人们能通过听觉而方 便地获得这些信息。 语音合成从技术方式讲可分为波形编辑合成、参数分析合成、规则合成三种( 陈永彬a n d 干t :华1 9 9 0 ;赵力2 0 0 3 ) 。 ( 1 ) 波形编辑合成 这种方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编 码,经适当的数据压缩,组成一个合成语音库:重放时,根据待输出的信息,在语料库中取 出相席单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式,也叫录音 编辑合成,合成单元越人,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数 码率较人,存储鼙也人,冈而合成词汇量有限。在自动报时、根号、报站或报警等装置中, 多采朋这种技术。现在流行的人沿料台成系统可以说是这种方法的扩展,采州录制更多、覆 盖更r 的语音单元和有效的单元挑选单元策略,从而合成特定领域内任意文本的高白然度的 语音。 ( 2 ) 参数分析合成 这种合成方式多以音。1 ,、半音协或音素为合成单元。首先,按照语音理论,对所有合成 单元的语音进行分析,一帧一帧地提取有关语音参数,这些参数经编码后组成一个合成语音 库;输山时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接, 顺序送入语音合成器。在合成器中,在台成参数的控制下,再一帧一帧地重新还原语音波形。 主要的合成参数有:控制音强的幅度、控制音高的基频和控制音色的共振峰参数。这种方式 的数码率比波形编辑式小得多,升且合成时可以自由的按需要调整音高和音色,但系统结构 也复杂一些,合成音质也差一些。比如共振峰合成器、l p c 合成器。 ( 3 ) 规则合成 这种合成方式通过语音学规则来产生目标语音。规则台成系统存储的是较小的语音单位 ( 如音素、双音素、j 卜音节或音:i ,) 的声学参数,以及由音索组成音:竹、再由音h 组成词或句 子的各种规! i | 】。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。 由丁语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音甬】辅音不同,所 以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,! f _ 纳其规律而制 第6 贞共6 2 页 笫1 章语哥含成原理简介 定的如共振峰频率规j l ! l | 、时艮规则、卢调和语调规j j ! i j 等。由丁语句中的轻重音,还要 纳出 语音减缩规则。d i p h o n e 系统就是比较典烈的代表。 按 ;f 人类语言功能的不同层次,语音合成也可分为三个层次,即:从文字到语音的合成 ( t e x t t o s p e e c h ) 、从概念剑语音的合成( c o n c e p t t o s p e e c h ) 、从意向剑语音的合成 ( i n t e n t i o n t o s p e e c h ) 。现在展开人培研究平l f 实用的是文语转换系统x t t b s p e e c h s y s t e m ) ,它是一种以文字串为输入的语音台成系统。其输入的是通常的文本字串,系统中 的文本分析器首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号, 再根据语义规则和语音规则,为每一个词、每个音。仃确定重音等级平i i 语句结构及语调,以 及并种停顿等。这样,文字串就转变为符号代码串。这个过程我们称为文语转换系统的前端。 前端除了依赖各种规则( 包括语义学规则、词规则、语音学规则) 外,还必须对文字内容有止 确理解,这就涉及到自然语言理解的问题。后端根据前端分析的结果,生成目标语音的韵律 特征,采川前面介绑的合成技术的一种或者是儿种的结合,台成出输出语音。 1 2 语音产生的声学模型与合成器 研究语音合成技术,是要模仿人发音的心理一生理一物理过程,让机器也能产生清晰而 白然的语音。为此,就需要对人的发音生理过科有一较透彻的了解,在此基础上,建立一个 语音产生的声学模型,进而构成语音合成器。语音产生的生理方面主要涉及三个系统:卢fj f 系统、喉系统以及声j 上系统。 卢f 卜系统,侨称呼吸器官。它由气管、支气管、肺及呼气肌群、吸气肌群_ 和j 膈肌组成。 它提供人类发音的动力,田此是发音的动力器官。 喉是一个空气剃,它有两种基本功能:呼吸时,卢f j 人开;发卢时,卢f j 作有。1 ,律的开 削动作,使肺中呼出的平直气流调1 y 成为脉动气流。这种携带了声能的脉动气流成为言语和 歌唱发卢的基本卢源。 卢fj 上系统义称共鸣腔,或称调音器官。它由口腔、鼻腔和l 咽腔组成。喉部产生的嗓音 流( 卢rj 波) 或气流,通过这些共鸣腔的调1 ,可以产生山不同的音素。 发音系统可以产生二类基本的卢音:浊音、摩擦音和爆破音。浊音( 如元音) 是通过提 高肺部气压,强迫空气通过卢门( 声带之间的孔道) ,使卢带振动而产生的。卢带的振动切 断气流,产生一种似乎周期性的宽频脉冲,激励卢道。声带的振动韧带人约1 8 毫米长,卢 带fj 孔道面积的典型变动范阿庄0 到2 0 平方毫米左右。摩擦音( 如辅音s 、s h 、f 笛) 是卢 道的某些部位部分关刚,空气从紧缩处以足够的速度通过引起湍流而产生的。爆破音( 如塞 音p 、t 、k ) 是声道完全 j j 塞( 一般是唇或舌闭塞) ,空气压力在闭塞部位后面增加,然后突 然打开 i j 塞部位而产生的。当空气释放的时候,这种尖锐的声音常常伴随着摩擦或送气。 通过上面对发音器官和语音产生机理的分析,可以将语音生成系统分成二个部分,在卢 j ( 卢带) 以f ,声门一f 系统负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道 第7 页共6 2 页 第1 章语音合j 戍原理简介 是卢道,是“声道系统”:语音从口腔和i 嘴孵辐射出去,所以是“辐射系统”。卜面介- t f i j l 个 典刑的基丁语音信号处理羽j 卢学模型的语音合成器。 1 2 1 共振峰合成器 共振峰语音合成器模型是把卢道视为一个谐振腔,利州腔体的谐振特性,如共振峰频率 及带宽,以此为参数构成一个共振峰滤波器。冈为音色箨异的语音有不同的共振峰模式,以 每个共振峰颇率及其宽带为参数,可以构成个共振峰滤波器。将多个这种滤波器组合起米 模拟声道的传输特性对激励声源发生的信号进行调制,经过辐射即可得到合成语音。这便 是共振峰语音台成器的构成原理。实际上,共振峰滤波器的个数和组台形式是删定的,只是 共振峰滤波器的参数,随着每一帧输入的语音参数而改变。以此表征音色各异的语音的不同 的共振峰模试。 幽表i 2 - 1 所示的是共振峰合成器的系统模型,从图中可以看山激励声源发生的信号, 经过模拟卢道传输特性的共振峰滤波器的调制,再经过辐射传输效麻斤即可得到合成的语音 输出。由丁发声时器官是运动的,所以上面模型的参数应该是随时间变化的。一般要求共振 峰合成器的参数逐帧修正。简单地将激励分成浊音羽睛音两种类型是有缺陷的,冈为对浊辅 音,尤其是其中的浊撩音,卢带振动产生的脉冲波雨i 湍流同时存在,这时噪卢的幅度要被卢 带振动周期什地调制。冈此为了得剑高质鼙的台成语音,激励源赢具备多种选择,以适应不 同的发音情况。图中激励源有二种类玳:合成浊音语音时川周期冲激序列;合成清音语音时 川伪随机噪卢;合成浊擦音时州周期冲激调制的噪声。激励源对合成语音的自然度有明显的 影响。发浊音时,最简单的是三角波脉冲,但这种模型不够精确,对丁高质培的语音合成, 激励源的脉冲形状是十分重要的,可以采刚其他更为精确的形式,如多项式波、滤波成形波 等。 图表1 2 1 共振峰合成器的系统模型 第8 页共6 2 受 第1 章语音合成原理简介 1 2 2 l p c 合成器 l p c ( l i n e a rp r e d i c tc o d i n g ) 线性预测合成方法是目前比较简单和实刚的一种语音合 成方法,它以其低数据串、低复杂度、低成本,受到特别的重视。八十年代后期发展起来的 则语音分析方法可以有效地估计基本语音参数,如基青、共振峰,谱、声道面积函数等,可 以对语音的基本模型给山精确的估计,而且计算速度较快。因此,l p c 语音合成器利刚l p c 语音分析方法,通过分析白然语音样本,计算山l p c 系数,就可以建立信号产生模型,从 而合成出语音。线性预测合成模型是一种“源滤波器”模猁,由白噪声序列和周期脉冲序训 构成的激励信号,经过选通、放人并通过时变数字滤波器( 由语音参数控制的声道模型) ,就 可以再获得原语音信号。这种参数编码的语音合成器的框幽如图表1 2 - 2 所示。 图表1 2 2l p c 语音合成器 线性预测合成的形式有两种:一是直接埘l p c 系数构成的递门型合成滤波器,这种方 法通过定期的改变激励参数和预测系数就能合成山语音简单易丁实现,缺点要求实现精度 高合成结果对系数的变化非常敏感,不稳定:另一种合成的形式是采川放射系数构成的格 删合成滤波器,稳定,对有限字长引起的带化效应灵敏度比较低。在实际进行语音合成时, 除了构成合成滤波器外,还必须进行清浊音判决_ 手| i 确定音源强度。 1 2 3 p s o l a 合成语音 p s o l a ( p i t c h - s y n c h r o n o u s - o v e r l a p - a d d ,基音同步叠加技术) ( c h a r p c n t i e ra n ds t e l l a1 9 8 6 m o u l i n e sa n dc h a r p e n t i e r1 9 9 0 ) 是川于波形编辑合成语音技术中对合成语音的韵律进行修改 的种算法。它既能保持原始语音的主要音段持征,义能在音耵拼按时灵活调整其基音、能 鼙雨i 音k ( 时长) 等韵律特征,闪而很适合于汉语语音的规则合成。音k 的调肖对丁i 稳定的 波形段是比较简单的,只需以基音周期为单位加,减即可,但对丁语音基元本身的复杂性, 实际处理时采省特定的时长缩放法;音强改变只要加强波形即可,但对一些重音有变化的音 1 m 有可能幅度包络也需政变;音高的人小对应于波形的基音周期,通过搬移基音单元米实 现基音周期的变化。 基音同步盏加技术的实现一般有三种,分别是:时域基音同步叠加( t d p s o l a ) 、频 域基音同步叠加( f d p s o l a ) 和线性预测基音同步叠加( l p c p s o l a ) 。这里我们只对有 第9 页共6 2 页 第j 市语啬合成原理简介 j “泛戍_ i j 的t d p s o l a 做个简单介纠。 t d p s o l a 通过三个步骤米实现语音的合成:基音同步分析、基音同步修改和基音同 步合成。也就是,先对语音合成单元设置基音同步标记,加窗取得短时信号;然后通过同步 标记的凋整产生新的同步标记:对新的短时信号进行叠加从而合成语音。 图表1 2 - 3t d p s o l a 技术改变原始语音波形的基谱和时长的示意图 ( a ) 基音频率增大( b ) 基音频率缩小( c ) 时长延长( d ) 目士长缩短 利川p s o l a 算法合成语音在计算复j e 度、合成语音的清晰度、自然度方面都有明显的 优点,对一些基丁单元拼接的系统有较好的韵律调整能力,能够输出较女r 质越的语音。 图表1 2 4 利用p s o l a 的语音合成器 1 3 文语转换系统 文语转换( t t s t e x t - t o s p e e c h ) 是把文本通过一定的软硬件换后通过计算机或电许 系统等输山语音的过程。一个基本的t t s 系统包括三个核心模块:文本分析、韵律控制雨l 语音合成,其结构如图表i 3 - 1 所示。 笫i o 负共6 2 页 第1 章语爵台成原理简介 1 3 i 文本分析 图表1 3 - 1t t s 系统基本框图 文本分析的主要功能是使计算机能够识别文字,并根据文本的上r 文关系在一定科度上 对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,另外还要 止计算机知道文本中哪些是词,哪些是短语、句子,发音时到哪庶该停顿,停顿多k 等等。 文本分析的j :作过程可以分为二个主要步骤:将输入的文本规范化在这个过样中处理川 户可能的拼弓错误,并将文本中出现的一些不规范或无法发音的字符过滤掉:分析文本中 的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中山现的数字、姓氏、特 殊字符以及符种多音字的读音方式;根据文本的结构、组成和不同位置出现的标点符号, 米确定发音时语气的变换以及不同音的轻重方式。最终,文本分析模块将输入的文字转换成 计算机能够处理的内部参数,便r j 亓续模块进一步处理并生成相应的信息。 1 3 2 韵律控制 任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这 些都届丁韵律特征。而韵律参数则包括了能影响这些特征的声学参数如:基频、音k 、音 掘等。最终系统能够用来进行语音信号合成的具体韵律参数,还要靠韵律控制模块。与文本 分析的实现方法类似韵律控制的方法也分为基丁规则的方法和基丁数据驱动的方法。 较甲期的韵律控制的方法均采_ i j 规则的方法。随着对合成语音的臼然度羊表现力的要求的提 高一些有比较好表现的基丁声学、语言学雨曙音学的参数模玳和数据驱动的方法被麻_ 【 j 剑 实际中来,如本文将要论述的f u j i s a k i 模型,t a r g e t 模型平s f c 模型。 1 3 3 语音合成 文语转换系统的合成语音模块包括前面提划的共振峰合成器、l p c 合成器、p s o l a 合 成婷。共振峰平l p c 合成器都是基丁信号分析的参数合成器,在现在的水平卜i 音质效果还 不是很蚶,而p s o l a 一般川丁波形拼接的调整中,有较好的原始音质,但需要较人的存储 空间而且难以保证单元间的谱的避续性。解决这些问题的比较好的途径是把基丁规则的波 第1 l 页共6 2 页 第1 章语啬合成原理简介 形拼接技术和参数语音合成的方法结合起来,喊者是一些分析合成的合成器,像最近研究比 较多的基丁h m m 的t r a i n a b l e t t s 等。 现在,基丁人语料j 牢的波形拼接的合成系统得剑了成功的麻_ i ,它具有良好的音质和较 好的白然度。由丁存储了足够多的单元,它对韵律模块的依赖性很小,有的系统其至完全抛 弃了这个模块。然而人语料序系统对存储容量的要求非常2 人,升且基本局限在特定领域、 特定语气的特定说话人,录音带i 库的代价人,利h j 率低。而语音台成的目标应该是一个灵活 变化,富有表现力的系统。 籀1 2 负共6 2 、贝 第2 章汉语韵律模型 2 1 概述 第2 章汉语韵律模型 韵律的卢学参数一般包括基频、时艮、能嫱。在1 - 3 :y 中我们已经看到对丁一个t t s 系统韵律生成和控制是十分重要的,它承启文本分析模块的分析信息,生成对合成模块具 有指导意义的声学参数,是t t s 系统中一个必不可少的部分。韵律参数对丁控制合成语音 的i ? 奏、语气语调、情感等具有重要意义,而对汉语许通话,基频是莆;声i 坷直接相关的物理 参数。r 面我们将简单介纠一f 汉语语音学和韵律规则。 2 1 1 汉语语音学简介 在研究汉语语音合成系统的过程中,发现汉语所特有的语音学知识起了相当人的作川, 它和其他语种的不同决定其合成方法中许多相当独特的部分,很好的理解韦掌握汉语语音学 的知识对丁好的台成系统的完成是必不可少的。汉语标准语音指的是北京语音,即所谓的l 牛 通潇。 图表2 1 1 汉语普通话4 种声调的典型曲线( 男性说话者) 汉语的构成原则可归结如f :由音素构成卢母或韵母。韵母带上声调( 汉语通常有5 个调) 后成为调母,由单个调母或由声母与调母拼接成为音。l y 。汉语有阴平、辟| 平、上声、 去声、轻卢5 个调,1 2 0 0 多个有调音仉一个音节就是一个字的音,即音肖字。由音仃字 构成词,最后再由词构成句子。 汉语将通话中每一个音:讧都包括一个元音,或称为韵母。韵母总共有3 8 个,其中8 个 第1 3 页共6 2 页 鹅2 章汉语韵律模型 是单韵母,1 4 个是复韵母,1 6 个是鼻韵母。r 面分别对它下j 进行介圣f 。汉语背通话有2 2 个声母,可分为a 人类:擦音、塞音、塞擦音、边音、鼻音、零卢母。除零卢母之外,其他 所有的声母全部都是单辅音。 汉语是一种声调语言相同卢母和韵母构成的音例嗨声调的不同而具有完全不同的意 义,对廊不同的汉字。卢调的变化就是浊音的基音频率f 或基音周期) 的变化,各个韵母段 中基音周期随时问的变化产生了声调,变化的轨迹称为卢调曲线。如| 鳘l 表2 1 1 ( 杨行峻a n d 迟惠生1 9 9 5 ) 所示为汉语的4 种声调曲线的典型形状,轻声没有i i i i i 定形状。 2 1 2 汉语韵律规则简介 汉语作为种有调语言,声调参数是所有韵律参数中最具有表现力的一个。同时,它在 连续语流中的变化也是最复杂的一个。各种语气的形成,说话人情绪的流嚣,儿乎主要都 是通过卢调的政变来实现的( 时艮、能龄和停延往往作为辅助手段) 。不同声调的感知是 通过音1 ,间的相对音高或音廿内部的升降变化来描述的。这种相对变化的趋势平类型是以卢 调所在的调域为参照的,声调本身的绝对音高变化并不能真正h j 来区分声调。为了解决这个 阔题,赵元任( 1 9 3 3 ) 沿埘音群原理将声调的高低分为五级,分刹州1 、2 、3 、4 、5 来表示。 其中“l ”表示最低调值、“5 ”表示最高调值。这就是并名的“5 度制标调法”其特点是凋 值只有相对音高的高低革别,不考虑绝对的频率值。川5 度制表示,普通话的阴平、日1 平、 上卢雨i 去声分别为5 5 、3 5 、2 1 4 和5 1 。汉语的每一个字( 儿化音除外) ,通常都被认为是一 个有调的音。每一个声调都有一些同定的调型( 基频形状) ,但我f j 通常所说的话往往是 由多个字组成的连续沿句。这些卢调的调刑受相邻其他字或词的影响,常常会产生变换,其 至火去原有的调删。对基频规则的研究就在丁各个音坩白身的调形及其在各种环境中的变 形。按止常单音发音,阴、刚、上、击的基频形状币l 我们标调是很像的一、v 、;但 是在不同环境卜,不同的拼接r 基频形状会发生变化。 时艮也是语音信号中重要的韵律参数之一,时k 参数可以体现说话速度,反映语气的轻 重缓急,表明强调重心界定语音层面上不同的层次关系等。在汉语连续语流中同一个单 音1 ,在不同场合f 其k 度往往会相差很远。要保证生成的韵律具有高的白然度,必须有完备 的时长规划。个音归的听感长度土要取决丁其禽有的元音段的长度,同时受辅音的影响。 由丁f 元音的组成不同。其本身i 捌有的时k 信息就不同。当青 ,处丁i 不周的位置时,其时艮信 息受位置币l 前后环境边界的影响发生变化。时& 信息的重要性低丁基频信息,而且从对合成 单元的调整上来说,时艮特征的修改比基频特征的修改更加容易加以进行。 2 。2 。基于先验规则的韵律生成 通过对汉语语音学带l 语言学的研究总结一些通心的韵律规则,利州这些专家知识。可以 第1 4 页共6 2 砸 第2 章汉语韵律模型 建立一个规则韵律生成系统。通常规则系统包括两个方面:一是汉语语言通川规则,比如4 个调的基本形状,上声连接的变调规则,时欧变化语气语调的音高变化等;二是目标说话 人的特定韵律特征规则,比如个人的基本调高、调域、语速停顿规则等。 在连续语流中,每个字的发音是会相互影响的,连续语流中一个字的发音的卢调与这个 字单独发音时的声调会有所不同在合成的连续语流中,只有具有这种声调变化。才能使合 成的语音具有较好的可憾度,否m 0 将只会是单字语音的生硬连接。汉语背通话语句中的变调 以_ 二字词的连续变调最为重要,冈为二字词在整个汉语词汇就i i 了约7 4 3 。它的调型基本 上是两个原调型的相连的序列,但受选读影响使前后两调域缩短、或变低。 二字连续的调型有两种,一类是t f 亓一个音的声母为浊卢母或零声母的情况,这时卢带颤 动在发山前字元音之后不停l r ,闪此两个音m 约基频是连续的:另一类则是清声母的情况 这时卢fj 放开,同时发音器官的收紧点造成阻塞,冈此两个音仃的卢调之间产生较人幅度的 断裂,不过前后的趋势仍然是连贯的。二字调变化规律人致有i 5 u j l 点:上卢字加阴平、 目j 平、去声、轻卢字时,前面的上声字的声调变成、f 上卢。冈去掉了调值的上升部分所以叫 做、r 上卢。例如:“语音”、满意”、“水平”等。两个上卢连读,前一个上声变得像刚平。 如:“无五”、“总理”、“古老”博。两个左声字相连,前一个变成、r 去声。例如:“字调” “论、证”、“预报”。叠字形容词变谪,二字重叠作形容词时第二个字变读阴平。例如: “好好看”、“慢慢走”等,这是一条倾变规律,可算是变调规则中的一种特例。二字组以上 的连续变调,由丁它们的组合在汉语结构上一般都可以认为是单字和般字彼此间的组合。即 使牲意义上不完全是这样,但在说话中往往自然而然地具有说成舣:竹的习惯。冈此,它们的 凋耻基本上是单字和烈字基本单元的组合。 时:= 也是诰音的重要特征之一。它对语音的可懂度、白然度都有一定的影响。汉语中时 氏土要体现在韵母的调型段k 度上,调k 币i 调型是密切相关的,通常认为,上卢音柑展k = , 阴平、平次之,去卢最短。在连续语流中调k 的变化平声调一样,也要受剑连读时上r 文 的牵迕。例如,轻读音仃的调k 往往比重读时缩短近一j r ;在二字词中,斤一音1 ,的调艮要 比前一个音1 ,的调欧稍短等。在按规则汉语合成中,可将调长和调型一致起来,即:凡是平 调、升调的调k :适中,凡是降升调的调艮较长,凡是降调的调k 较短。轻声调跃最短。声母 的时k 湘对讲比较稳定。此外,根据实验语音学提供的经验,句子的最后一个音1 ,的调k 府 比通常情况加k2 0 左右。除时k 外,音:霄之间的问隙也对合成语音效果有一定的影响, 适当地增加静音间隙,会使语音听起来更为生动。 不同的旬式和语气会有不同的韵律体现。比如,朗读式的陈述句有比较明显的音高f 倾 的趋势;不带疑问词的疑问句需要靠句尾音高的提升米体现等。而不同的情感的语音对基频 希时k 都有不同的影响。 此外,不同的人的发音,由丁i 生理、地域等影响,不同发音人具有不同的调高、调域、 时k = 等。普遍的男性偏低、女性和小孩偏高。有的地方语速慢,有的地方语速快。对合成不 同说话人的语音,需要对这个说话人做专门的分析,建立一个适合丁个人的语音韵律规则体 第1 5 页共6 2 更 销2 章汉语韵律模型 系川r 语音合成。 2 3 基于数据驱动的韵律生成 基r 人i :规则的韵律生成,虽然有效的利h j 了专家知识,但是韵律产生的复杂度远远人 丁现在已经掌握的人l :规则,尤其是特定语肓环境和特定人发音的些细则。随着人语料库 制作技术的山现,以及计算机硬什技术的发展和一些高效的机器学习算法的成熟,使得录制 人规模的语料库,川数据驱动进行机器学习米发措l | 其中的韵律规则成为一个可能。数据驱动 的方法,可以尽可能的利川已有的语料资源,自动化的机器学习可以发掘更多更细的规则, 对不同的数据库做快速的臼适席,人人降低研究者的烦杂的分析i :作。只需设计比较一致的 训练语料数据库机器学习的策略对机器学习的结果进行分析和筛选就可以得到一个比较 好的韵律预测器,同时给山的机器分析结论也有助丁提炼一些人【:规则。训练的输入数据包 括音t l y 的调州、拼音、前斤韵律环境笛,输山可以是相麻基频时艮的原始或规砗f 值a t t s 系统发展到现在,很人 ¥度上可以说是一个人l :智能系统,从前端的文本分析和白 然语言理解,厉端的韵律卢学参数的预测生成,都不同程度的川剑了机器学习的技术。人培 的机器学习和数据挖掘的技术被应川剑语音合成研究中来。比如人i :神经网络( a r t i f i c a l n e u r a ln e t w o r k ) 、决策树( d e c i s i o nt r e e ) 、贝叶斯网络( b a y e s i a nn e t w o r k ) 、支持向苗机( s u p p o r t v e c t o rm a c h i n e ) ,等等。我们利j l j 这些机器学习策略就可以建立一些有效的预测系统。 2 3 1 利用神经网络直接预测基频时长值 图袁2 3 1 用r b f 网络预测基频时长 神经网络( a r t m c a ln e u r a ln e t 、v o r k ) 是在模拟人脑的。由人越计算单元通过丰富连接构成 的复杂的网络。人t 神经网络的三个基本要素是:神经元、网络拓扑利学习算法。神经网络 有个很人的优点,良好设计的神经网络可以模拟任何的数值表达式,并且把神经网络当成一 第1 6 页共6 2 页 第2 章汉语韵律模型 个暗箱不需要关系中间隐含层的意义。神经网络被广泛麻川丁- 语音技术的各个领域,在韵 律预测上也有很过很多研究( c h e n ,h w a n ge ta 1 1 9 9 8 ;陶建华a n d 蔡莲红2 0 0 1 ) 。对丁- 语音 数据,我f j 可以利川r b f ( r a d i a lb a s i sf u n c t i o n ) 网络设计如图表2 3 - 1 的训练过程。主要闻 为语音韵律数据,f :不是理想的一一映射关系,而是带噪的并且在一定范同内波动的。而r b f 网络的隐含层采用径向基函数( 一种有中心的辐射状函数,通常, j 高斯函数) ,可以模拟数 据分布,从而对样本训练的输出层权值进行修止。输入数据包括音。1 y 调型,声母韵母类型, 前斤韵律边界和韵律何置等,在进入神经网络之前,必须进行一次预处理,冈为神经网络只 能处理数值型或者是布尔型数据,对一些离散型数据( 如调型。卢母韵母类型) 必须先预处 理成个布尔序列。输出一般取音:忸基频的最人值点的值利位置,最小值点的值和位置,以 及起点和终点的基频值,时k 等。有了这些关键点位置雨i 值就可以人致还原山原始的韵律信 息。神经网络的训练比较简单,设计好输入输山数据,以及网络结构就可以进行训练,由丁 语音数据并不是理想平稳的,而且受外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论