(信号与信息处理专业论文)多语种语音合成中的关键技术研究.pdf_第1页
(信号与信息处理专业论文)多语种语音合成中的关键技术研究.pdf_第2页
(信号与信息处理专业论文)多语种语音合成中的关键技术研究.pdf_第3页
(信号与信息处理专业论文)多语种语音合成中的关键技术研究.pdf_第4页
(信号与信息处理专业论文)多语种语音合成中的关键技术研究.pdf_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 多语种的语音合成研究是近期国内外语音合成研究的一个热点。在语音合成 所涉及的一系列关键技术中,如何尽量避免使用语种相关的研究方法,是多语种 语音合成研究中的一个重点和难点。本文以完成一个具有实用化水平的中英文合 成系统为目标,对多语种语音合成所涉及的一系列关键技术进行了深入研究。 在基于波形拼接技术的语音合成中,语料库的设计和声学单元的挑选是语音 合成系统的重要组成部分,它是能够产生高质量合成语音的一个先决条件。通过 对自然语音中声学单元协同发音的分析,在语料库设计阶段,提出了不定长单元 的设计思想,通过不定长单元在建库阶段的使用,提高语料库在语音上的覆盖率。 在合成时刻,按照最小声学单元以定长化的方法实现最优不定长单元选择的单元 选择算法,大大提高了合成语音的可懂度和清晰度。 韵律预测是语音合成中最重要的部分,它主要是指通过从文本分析中得到的 信息,来预测这段文本的基频、时长、能量等超音段特征参数。超音段特征( 尤 其是基频参数) 对合成语音的自然度影响非常大。本文提出了一种基于决策树和 贝叶斯分类器的组合预测模型。首先将所有的基频样本分成不同类别、并通过每 个基频样本的韵律环境参数建立基频决策树模型。然后以韵律环境参数作为决策 树模型的输入,判决每个音节所对应的一组可能的基频类别和相应的概率;另外, 根据对自然语音中相邻音节基频连接特性的分析,抽取出一种可以描述相邻音节 的基频连接状态的概率。最后通过一个组合模型,将决策树产生的基频类别及其 相应的概率与描述基频连接状态的概率联系起来,共同决策输入文本中每个音节 的基频。和传统的基频预测模型不同的是,这种组合基频预测模型不是分别孤立 的去分析单独音节的基频,而是以一个独立的韵律单位( 如韵律短语) 为分析对 象,使得最终预测的基频具有更高的精确性和可信度。 语料库制作是非常耗费人力和时间的工作,它包含语料库的韵律标注和音段 标注。随着语料库规模的扩大( 录音语料达到几个小时甚至数十小时的录音数 据) ,语料库的制作需要数个专业人员几个月的工作量才能完成。本文提出了一 种基于声学参量和语法信息的韵律边界标注方法,可以较精确地自动标注出录音 语料中的韵律边界,大大提高语料库韵律标注的效率。另外为了减少合成时刻声 学单元在半音素拼接处的相位、谱等不匹配现象,本文提出了一种基于倒谱和模 板匹配的半音素边界标注方法,对于半音素的音段边界,完全自动的标注,进一 步提高了语料库的制作效率和质量。 文章上述提出的各种有关语音合成的关键技术研究,均在中国科技大学最新 的语音合成系统k b c e 上得以实现和检验,k b c e 系统是国内第一个采用同一语 音合成引擎、以相同音色同时合成中英文语音的语音合成系统。通过评测,k b c e 系统的合成语音比之k d 2 0 0 0 系统( k d 2 0 0 0 系统在9 9 年底被评为国际领先的 汉语合成系统) 合成语音的效果,又有了显著的提高。 关键词:多语种语音合成韵律预测自动韵律标注半音素的音段切分不定长单 元 k e y w o r d :m u l t i l i n g u a lt e x t t o s p e e c h ,p r o s o d i cp r e d i c t i o n ,a u t o m a t i c p r o s o d i cl a b e l i n g ,n o n u n i f o r mu n i t ,h a l f p h o n eb o u n d a r ys e g m e n t a t i o n a b s t r a c t r e c e n t l ym u l t i l i n g u a lt e x t t o s p e e c hi sa ni n t e r e s t i n gr e s e a r c hs u b j e c ti n1 v r s r e s e a r c hf i e l d h o wt oa v o i d l a n g u a g ei n d e p e n d e n tm e t h o di nd e v e l o p i n gt t s s y s t e m si sam o s t d i f f i c u l ta n d i m p o r t a n tp r o b l e m t od e v e l o pt h et t ss y s t e m ,w h i c h c a ns y n t h e s i z ec h i n e s ea n de n g l i s ht e x tw i t hs a m ev o i c ef e a t u r eb ye x c l u s i v et t s e n g i n e ,s o m ek e yp r o b l e m sa r es t u d i e d t h ep a p e rf o c u s e so nt h ef o l l o w i n gs e v e r a l a s p e c t s : i nw a v e f o r m c o n c a t e n a t i n gt t ss y s t e m ,d e s i g n i n gc o r p u sa n ds e l e c t i n ga c o u s t i c u n i ti sav e r yi m p o r t a n ta s p e c ti nd e v e l o p i n gt t ss y s t e m ,a n dag o o dc o r p u sa n d a d v a n c e du n i ts e l e c t i n ga l g o r i t h mi se s s e n t i a lf o rs y n t h e s i z i n gn a t u r a l s p e e c h b y c o a r t i c u l a t o r ya n a l y s i so fc h i n e s ea n de n g l i s hl a n g u a g e ,n o n u n i f o r ma c o u s t i cu n i ti s p r e s e n t e dd u r i n gd e s i g n i n gc o r p u sf o rc o v e r i n gm o r ep h o n e t i cv a r i a t i o n s a l s ot h e b e s tn o n - u n i f o r ma c o u s t i cu n i ts e l e c t i o n a l g o r i t h m i sr e a l i z e d b yd e c o m p o s e n o n u n i f o r mu n i t si n t ot h es m a l l e s ta c o u s t i cu n i t s ,w h i c hc a nr e m a r k a b l yi m p r o v et h e n a t u r a l n e s so f s y n t h e s i ss p e e c h p r o s o d yp r e d i c t i o ni sm o s ti m p o r t a n t f o rd e v e l o p i n gag o o dt t s s y s t e m w i t ht h e p r o s o d i cd e s c r i p t i o na n a l y z e df r o mt h et e x t ,r a t i o n a lf 0c o n t o u r 、d u r a t i o n 、a n de n e r g y p a r a m e t e r s a r e p r e d i c t e d t h i sp a p e rp r e s e n t s a nf 0p r e d i c t i o nm o d e lb a s e do n d e c i s i o nt r e ea n db a y e s i a n c l a s s i f i e r s f i r s t l ya l lo f t h ef 0s a m p l e s a r ec l u s t e r e di n t oa s e r i e so fc l a s s e sa n dt h e nad e c i s i o nt r e ei sb u i l tb a s e do nf 0s a m p l e sa n dt h e i r p r o s o d i cd e s c r i p t i o n t oe a c hi n p u ts y l l a b l e ,ag r o u po f f 0c l a s s e sa n dc o r r e s p o n d i n g p r o b a b i l i t i e s a r eg a i n e dw i t hc o r r e l a t i v ep r o s o d i cd e s c r i p t i o n sa st h ed e c i s i o nt r e e s i n p u t t h e n ak i n do fc o n d i t i o n a lp r o b a b i l i t yi sc a l c u l a t e dt oe v a l u a t et h er a t i o n a l i t yo f f oc o n n e c t i n gp r o p e r t ya m o n g a d j a c e n ts y l l a b l e s f i n a l l yac o m p o s e d m o d e li sb u i l d t oi n t e g r a t et w ok i n d so f p r o b a b i l i t yf o rp r e d i c t i n gf 0o f o n es y l l a b l e t h ed i f f e r e n c e b e t w e e nt h et r a d i t i o n a lf om o d e la n dt h em o d e li nt h ep a p e ri st h a ta n a l y s i so b j e c to f c o m p o s e dm o d e l i sn o t s y l l a b l e b u tap r o s o d i cp h r a s e ,w h i c hh a s i n d e p e n d e n t p r o s o d i cs t r u c t u r ec o m p a r e d w i t hs y l l a b l e c o r p u sl a b e l i n gi s at i m e c o n s u m i n gp r o c e s s ,i n c l u d i n gp r o s o d i cl a b e l i n ga n d s e g m e n tb o u n d a r yl a b e l i n g w i t ht h ee n l a r g e m e n to f t h ec o r p u s ,c o r p u st a g g i n gi s m o r ea n dm o r et i m e c o n s u m i n g i nt h i sp a p e ram e t h o db a s e do na c o u s t i cp a r a m e t e r s a n ds y n t a c t i ci n f o r m a t i o ni ss t u d i e df o rl a b e l i n gp r o s o d i cb o u n d a r i e sa u t o m a t i c a l l y a n da c c u r a t e l y a d d i t i o n a l l yt or e m o v et h em i s m a t c h e si np h a s e s 、a m p l i t u d ea n d s p e c t r a l ,am e t h o d f o ra u t o m a t i c a l l y s e g m e n t i n gh a l f - p h o n e sb o u n d a r y i sp r e s e n t e di n t h ef o u r t hc h a p t e r , w h i c hi sb a s e do nc e p s t r a ld i s t a n c e sa n dp a t t e r n - c o m p a r i s o n t e c t m i q u e s a l lo ft h em e t h o d sp r e s e n t e di nt h i sp a p e rh a v eb e e na p p l i e da n dv a l i d a t e di n k b c e - s y s t e m w h i c hi st h ef i r s tt t s s y s t e mt h a tc a ns y n t h e s i z ec h i n e s ea n de n g l i s h t e x tw i t he x c l u s i v ee n g i n ea n dt h es a m ev o i c ef e a t u r e b ye v a l u a t i o n ,t h es y n t h e s i z e d s p e e c ho fk b c e s y s t e m i s o b v i o u s l ym o r en a t u r a lt h a nt h a t o fk d 2 0 0 0 - - s y s t e m ( k d 2 0 0 0 - s y s t e m i st h eb e s tc h i n e s et t s s y s t e mi n8 6 3e v a l u a t i o ni n1 9 9 9 ) 插表目录 2 1 双音节协同发音统计参数表 2 2 三音节连续协同发音统计参数表 2 3 英文不定长单元统计表 2 4 中英文混合不定长单元统计表 3 1 语法词元数和韵律词边界元数对预测结果的影响 3 2 权系数对预测结果的影响 3 _ 3 大词典下不同权系数的预测结果 3 4 不同停顿类型时的时长均值 3 5 不同停顿类型时的时长均值 3 5 不同音节调型时长平均值 3 6 不同声母类型对时长均值影响 3 7 时长的线性回归模型预测误差 38 决策树模型和组合模型预测正确率 3 9 决策树和不同条件概率的组合模型预测结果表 3 1 1 音节短时幅度参数表 3 1 2 影响能量的韵母类型表 3 1 3 能量模型预测正确率表 4 1 韵律词边界的声学参数统计表 4 1 a 韵律词边界的决策树选择结果 4 2 选择性样本决策树的韵律词边界判决结果 4 3 阈值检测法( p i t c h d i s t a n c e s i l e n c ed u r a t i o n ) 4 4 闽值检测法( p i t c h d i s t a n c e ,s i l e n c ed u r a t i o n ,f i n a ld u r a t i o ns c a l e ) 4 5 不同权系数的预测结果 4 6 阈值检测法( p i t c h - d i s t a n c e ,s i l e n c ed u r a t i o n ,f i n a ld u r a t i o ns c a l e ) 4 7 决策树判决法 4 8 协同发音相互影响微弱的音素对 4 9 音素逆向同化分类 5 1 语音合成系统效果评测表m博如如”舛舛弘甜帖铝的砸的卯加宝3 插图目录 1 1 源滤波器合成方式结构框图 1 2 线形预测误差滤波器 1 3 l p c 语音合成器 1 4 二阶谐振器的幅频特征 1 5 共振峰合成系统 2 1 单元预选流程图 2 2 连接代价和自身代价图 3 1 f u j i s a k i 模型p h r a s e 元素( b ) 和对应产生f 0 曲线( a ) 3 2 f u j i s a k i 模型a c c e n t 元素( b ) 和对应产生f 0 曲线 3 3 t i l t 事件图例 3 4t i l t 模型参数描述图 3 5 语法词序列和韵律词边界关联图 3 6 6 元韵律词边界序列分布概率 3 7 韵律词边界分布全路径图 3 8 汉语韵母时长分布图 3 8 汉语韵母时长分布图 3 8 决策树和贝叶斯分类器组合模型流程图 3 1 0 连续三音节和连续两音节基频类别分布概率图 31 1 三种模型预测基频类别的正确率 3 1 2 决策树和不同条件概率的组合模型测试图 3 1 3 句中音节最大短时平均幅度图 3 1 4 音节后不同停顿类型时韵母能量 3 1 5 音节前不同停顿类型时韵母能量 3 1 6 能量分类样本数据总数图 3 1 7 能量预测分类正确率 4 1c t o b i 体系标注的录音语料样例 4 2 层次化韵律标注实例图 4 3 声学层韵律词边界判别流程图 4 4 决策树例图 45 l 3 边界检测流程图 4 6 确定模板自动切分框图 4 7 相邻帧倒谱距离 4 9 静态和动态模板匹配 5 1 语音合成系统流程图 :,o ,0均扒m m挫凹弛凹”驼钙铝的的观记弱鼹印甜加仍” 5 2 特殊符号处理样例 5 3 m b r o l a 合成器 5 4 m b r 重构音库流程图 5 5 使用m b r 音库合成波形、f 0 曲线和语谱图 5 6 l s p 参数在单位圆上的交叉出现特性图 5 7 内插l s p 系数重构衔接处谱参数 5 8 线谱对系数和共振峰结构图 舳 引 眩 黔辨跖盯 第一章绪论 1 1 语音合成研究的历史回顾 语音合成的研究历史可以回溯到1 8 世纪,k r a t z e n s t e i n 在1 7 7 9 年研制的机械 式语音合成器,这种会说话的机械,是用风箱模拟人的肺、簧片模拟声带、以皮 革制成的共振腔模拟声道,通过改变共振腔的形状,它可以合成出一些不同的元 音。1 9 3 9 年d u d l e y 第一次按照信号处理的原理设计出一个声音发生器 1 】。以一 些白噪音似的激励产生非浊音信号,以周期性的激励产生浊音信号。模拟声道的 共振器是通过一个l o 阶的带通滤波器建模,模型的增益通过人来控制。 早期的机械式语音合成器反应了人们对语音产生机理了解的比较粗略,现代 语音合成的方法基本上都是采用一种语音模型来合成语音 2 】。总的说来,近期 语音合成的方法可以归结为三种:1 ) 物理机理语音合成:2 ) 源一滤波器语音合 成;3 ) 基于波形拼接技术的语音合成;其中源一滤波器的合成方法又可以分为 l p c 合成和共振峰合成等:另外近些年,p s o l a ( p i t c h s y n c h r o n o u so v e r l a p a n da d d ) 方法被广泛的应用在基于波形拼接技术的语音合成系统中,这种方法可以在一定 范围内调节语音信号的基频和时长,而对语音音质的损伤很小。关于对早期语音 合成研究的历史和方法,在k l a t t 3 中有详细介绍。下面我们将简要介绍语音合 成的几种方法。 1 1 1 物理机理语音合成 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语 音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模 4 。t i t z e 曾经研究 过一个数学模型【5 】,这个模型是对声带振动的过程进行建模。但是也有另外一 些研究是对通过声带的气流来建立模型 6 。 近来,物理机理语音合成的研究受到了制约,因为难以将它在现阶段推向实 用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变化进 行度量非常困难,比如说如何精确记录舌位运动和v i 腔的变化。第二个原因是和 源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数学建模也 非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计算机的出 现和对发音机理的深入了解。很多学者在推动这方面的研究【7 【8 】。 最早的言语仿造者是c h r i s t i a ng o t t l i e bk r a t z e n s t e i n ,他曾在1 7 7 9 年以发明 声学共振器而获得皇家学院的奖金。他发明了一套声学共振器,其形状大小有点 跟人类的口腔相似。它用一片模仿人类声带的振动簧片,切断气流,使共振器发 出声音。据报道,c h r i s t i a n 的机器所模仿的五个元音a e i 、o 、u 还相当准确。 第一个试图用电气方法合成连续语言的机器叫v o d e r ( 语音合成仪 v o i c e o p e r a t i o nd e m o n s t r a t o r ) ,它曾经在1 9 3 9 年纽约世界博览会和次年旧金山世界 博览会上展出。v o d e r 有两个声源,一个是宽带的噪声源,一个是周期波峰鸣振荡 器。这两种声音通过“共振控制”箱( 即“声道”) 的时候,音色发生改变。控制箱 有1 0 个相邻带通滤波器,包括正常语言的频率范围。带通滤波器的输出通过1 0 个 子键的单独操纵,进行增益调整。还有三个附件操纵选择滤波器作瞬时激励,模仿 产生三组塞音:t - d ,p b ,k g 。操作人员用一条转柄来选择噪音和蜂鸣声,用一个脚踏 板控制蜂鸣振荡器的音高。经训练的操作人员,能够用合成器相当熟练地奏出易懂 的语言。 1 1 2 源一滤波器合成 1 1 2 1 源一滤波器合成基本原理 源一滤波器的语音合成基于这样一种声学理论,这种理论认为声音由激励和 相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主要形成 非浊音语音信号:另外一种是周期性的激励,主要产生浊音信号。这两种激励有 时也会共同使用,如产生某些浊辅音信号。在该方式里,音库中预先存放各种语 音合成单元的声道参数,这些参数根据控制规则的要求进行修正,以合成出各种 语言环境下的语音。值得提及的是h o l m e s 的并联共振峰合成器和k l a t t 的串并 联共振峰合成器,只要精心调整参数,这两个合成器都能合成非常自然的语音。 但是,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多 十分逼真的合成语音,但是在合成某些个别语音时仍达不到预期的音质,从而影 响整体语音合成效果。 融蛎惑 周圳“7 a 。 9 惭( 再圊:j 7 了了藕己一,l 一二 l 划。堙纠浊藩 一一开关 i 随机噪声发生器l 一予:一一 振幅1 图1 1 源滤波器合成方式结构框图 在参数合成中,合成器的工作流程主要可分成三步: ( 1 ) 首先根据待合成音节的声调特性构造出相应的声门波激励源: ( 2 ) 然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道的基 础上构造出新的声道参数模型; ( 3 ) 最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律特性 的合成语音。 语一 戍, 合一 豸丽监r 斟 + 户 1 1 2 2 几种常见的源滤波器语音合成方法 l p c 合成和共振峰( f o m a n t ) 合成是传统参数合成中,最常用的两种方法。它们 实现原理上都是上述源滤波器型结构,只是所用声道模型不同。同时,针对声 道模型的特性,在源的选取上略有差别。 l p c 合成方法 l p c 指的是线形预测合成 9 ,以线形预测误差滤波器为基础来模拟声道 1 0 。由于语音信号存在时域上的相关性,可以考虑用信号x ( n ) 过去的p 个样本 来预测当前值x ( n ) 。 ;( 月) = 艺巩x ( 疗一f ) 线形预测误差:e ( n ) = x ( n ) 一x ( n ) ( 1 2 ) 在最小均方误差准则( 即e e 2 ( n ) 最小) 下得到的预测系数a 。就是我们通常所说 的l p c 系数。 由最小均方误差准则,可知其应该满足以下公式: o e j e - 2 = ( n ) 一 :一2 e 【p ( 。) z ( ”一,) :。,p ( 1 3 ) d , 有( 3 ) 式易得: p ,( ,) 一z a ,r ( j f ) = 0o p = l ( 1 4 ) 由上式可以解出所有的预测系数a 。上述e h x ( n ) 得到e ( n ) 的过程可以用以下线形 预测误差滤波过程表示: 型璺l 一,ia ( :) l 塑。, 其中月( z ) = 1 一a ,z - 图1 2 线形预测误差滤波器 由图4 知:倘若我们已知e ( n ) ,则通过传递函数为1 a ( z ) 的滤波器,同样可以恢 复出x ( n ) 来。 实际中的l p c 语音合成器,正是由下式构造其声道模型 因为e ( n ) = x ( ) 一;( h ) = x ( h ) 一艺臼,x 一f ) 只是x ( n ) 及其过去样本值的线形组 合,又由( 3 ) 知e e ( n ) x ( n j ) = o , 可得e e ( r 1 ) e ( n j ) = oj o 由此可见预测误差序列e ( n ) 为一白噪声序列。 设e 。= e 【p 2 ( n ) 。= e e ( n ) x ( n ) 一z a 。x ( 一f ) ) = e p ( ) x ( n ) 】= r ( o ) 一a ,( f ) 则取h ( z ) 中的增益因予g = e ,时,只要在输入端送入一单位方差的白噪声序 列,就可以在最小均方误差准则下恢复出原始语音信号来。 型堂丽1 型一 图1 3l p c 语音合成器 在实际合成系统中,激励源要根据实际语音的清浊不同来生成,而非简单 的单位方差的白噪声序列。由于声门波激励源在绝大部分时间很小,在采用均方 误差最小准则下使e ( n ) 逼近u ( n ) ,从原理上仍是相洽的。 在实际的l p c 语音合成器的构造中,有用预测系数、也有用反射系数或线谱对参 数来构造的。采用预测系数时滤波器构造简单,运算快,但可能出现不稳定的现 象;用反射系数或线谱对参数来构造是,运算量大,但系统稳定,量化特性和内 插特性均相对优越。 共振峰合成方法 把人的声道模型看成一个谐振腔,语音信号的共振峰特性由这个腔体的谐 振频率来表证,这种合成方法叫做共振峰合成 5 a 1 0 。由于人耳听觉的柯缔氏 器官的纤毛细胞就是按频率感受而排列其位置的,所以这种模拟共振峰特性的声 毒 道模型方法非常有效。听辩实验表明,用前三个共振峰就能代表元音,对于较复 杂的辅音或鼻音,大概要用n 5 个以上的共振峰才行。 由语音产生的模型可知,语音信号谱中的谐振特征( 对应声道传输函数的 极点) ,完全由声道的形状决定,与激励源位置无关:语音谱中的反谐振特征( 对 应声道传输函数的零点) 出现在下面两种情况:一是当激励源位置不在喉部( 如 发摩擦音时) ,二是发鼻音时。所以对于一般元音,传输函数可以采用全极点模 型,对于鼻音和大多数辅音,声道模型应采用极零模型。 r : 对于全极点模型的传输函数:v ( z ) = 产一,可以将v ( z ) 分解成多个二阶 1 一口。z 。 k = 】 极点的网络的串联。即: m 一 矿( z ) = 兀_ f h ( 1 6 ) i = l r o 。z c 。z 由于二阶谐振器的传输函数参数与其共振峰间有简单明确的对应关系,而谐振器 串联时各部分的共振峰将会保留,所以用这种方法可以很方便地模拟信号的共振 峰特性。下图为一个二阶谐振器的幅频特征: d b f 幅度 2 0 卜 ,、 0r 1 。 2 0 0l2345 频率( k h z ) 图1 4 二阶谐振器的幅频特征 由上可知,全极点模型可以用串联型共振峰模型实现。它的结构简单,每个 谐振器代表一个共振峰特性,只需一个参数来控制共振峰幅度。串联型结构可以 很好地逼近元音的幅频特性。 对于一个极零点模型的传输函数: 矗 b ,z 。 v ( z ) = 一 ( 卜7 ) 1 一a 。z - i ;i 在n r 且分子与分母无公因子及分母无重根时,可以分解为部分分式之和的形式: 因此极零模型可以用并联型共振峰模型来实现。它可以模拟谐振和反谐振特 征,因而被用来合成辅音和鼻音。 综上所述,共振峰合成系统通常采用下图1 5 所示的混合型实现方法 f 0 图1 5 共振峰合成系统 相比于l p c 方法,共振峰合成在参数调整合适的情况下,可望产生较高质量 的合成语音。基于共振峰合成方法衍生出很多合成效果不错的商业系统,如 k l a g t a l k 1 1 。其最大的优点是基于已有的发音机理,容易确定语音合成所需的 参数变化轨迹以及在语音段边界处的参数内插,可以通过共振峰频率的变动来模 拟不同语气、不同发音人的特征等。最大缺点是合成器结构复杂,参数调整复杂, 很难完全正确地实现这些参数调整,所以实际的合成系统音质往往也难以达到实 用要求。l p c 合成的特点是算法简单,有完全自动的分析步骤,但音质相对较差。 1 1 3 波形编辑语音合成 采用语音编码技术,根据自然语言的语音和韵律规律,存储适当的语音基元, 使这些单元在确定的存贮容量下具有最大的语音和韵律覆盖率 1 2 。合成时刻, 经过单元选择、波形拼接、平滑等处理步骤后输出自然语音。通过精心设计语料 库,以及根据语音和韵律规则( 直接使用这些规则或对这些规律进行建模) ,从 音库中挑出最合适的声学单元 1 3 ,使文语转换系统输出高质量的语音。波形拼 接语音合成中的合成单元是从原始自然语音中切分出来的,保留了自然语音的一 些韵律特征。虽然这种合成方法需要占用较大的存储空间,但计算量小,计算速 度快。早期的简单波形拼接技术能较好地保持合成单元的音段特性,但无法根 据上下文来调节其超音段特征。八十年代末由f c h a r p e n t i e r 、e m o u l i n e s 等人提出的基音同步叠加技术( p s o l a ) 既能保持原始发音的主要音段特征 1 4 , 又能在拼接时灵活地调整基频、时长和强度等超音段特征,使波形拼接技术重新 得到各国专家的重视。目前国内外一些主要的高质量语音合成系统,基本上都是 以波形拼接技术为主研制的。本文所作的一系列关键技术研究都是基于波形拼接 技术的语音合成系统,本节对波形拼接技术不在详细介绍。 6 1 2 多语种合成研究及其意义 多语种研究技术对于开发不同方言的合成系统在核心技术环节具有非常 显著的重用性,大大提高开发不同语种合成系统的效率。我国是个存在多种方言 的多民族国家,目前国内的研究机构,除对汉语普通话开发出合成音质达到实用 水平的语音合成系统外,其它如上海话、粤语等,基本没有开发出具有和普通话 的合成效果相媲美的语音合成系统。多语种语音合成的研究必然可以推动这些方 言语音合成的研究。另外,多语种合成系统的较好语种扩展性,可以使用统一的 技术平台上,采用基本相同的方法实现不同语种的语音合成问题,避免在合成混 合语种文本时,需要调用多个独立的语音合成引擎。 本文所进行的语音合成研究中,采用的方案基本是语种无关的研究路线,以 研制中英文混合合成系统为目标。在语料库的制作、韵律预测到单元选择等一系 列的关键技术中,以统计和数据挖掘为主的方法进行研究,所有研究结果都在中 英文混读语音合成系统- - k b c e 2 0 上进行了验证。另外,由于目前基于物理机 理和源一滤波器的合成音质离实用要求还有较大差距,因此本文中的研究的对象 主要是基于波形拼接技术的语音合成系统。文章重点是在构建波形拼接技术的语 音合成系统时,对于合成系统涉及到的一系列关键技术,如语料库的设计、语料 库的自动韵律标注、韵律预测以及声学单元的挑选和最终对声学单元的声学处理 上,都基本采用语种无关的技术。不过,要设计一个好的语音合成系统离不开对 语言本身规律的深入理解。因此本文探讨的只是多语种语音合成系统中的研究方 法。在如何使用这些方法时来建立一个新语种的合成系统时,仍然必须在具体语 种的语音知识指导下进行。 设计中英文语音合成系统的主要原因有两个:一是实际需要,目前由于国际 交流的日益增多和互联网的出现,中文文本中常常会出现一些英文词的现象,这 种情况在互联网出现的尤其明显,因此单一的汉语文语转换系统不能很好的满足 实际的应用需求。即使以昂贵的代价上集成国外厂商的英语语音合成系统,但是 由于中英文文本在进入合成系统前,必须进行汉语和英语的分离( 为了将汉语和 英语分别送入汉语和英语合成引擎中) ,这种分离完全隔离了汉语和英语的发音 联系( 实际对于中英文混合文本,人在发音时中文语音和相邻的英文语音必然存 在协同发音和韵律上的联系) ,因此这种分离过程,肯定导致合成音质的下降。 二是对于研究本身,在以前汉语文语合成系统中,常常都采用一种依赖于语 种的规则形式来设计合成系统。这种设计方法的语种局限性很强,当需要构建新 语种的合成系统时,原先的设计方法和系统架构完全不能被重用。本文中在语音 合成的各个关键技术上对不同语种的一些共性特征进行了总结,另外在一些主要 技术环节上都采用了数据驱动技术,对于不同的语言,在特定的语音知识的指导 下,只要有足够的统计样本库( 有些资源现在可以比较容易的得到) ,就可以在 相同的系统架构下实现一个新语种的合成系统。 1 3 本文研究内容 本文以开发中英文混合文本文语转换的语音合成系统为研发目标,在研究过 程中主要采用统计和人工智能的方法,通过对语料库的分析,从标注好的语料库 中自动提取所需的规则( 主要通过统计建模的方法) 。在实现中英文文本的文语 转化过程中,基本不直接使用依赖于语种的语音和语法规则,避免系统对特定语 种的依赖性。一些语种相关的信息,如汉字拼音、英文音标以及分类信息,被放 置在外部数据库中。 本文主要分别对语音合成中几个最重要的技术环节,采用独立于语种的方法 进行了研究: 1 3 1 不定长声学单元的设计及选择 在文章的第二章中,首先简要介绍了目前波形拼接的语音合成中常使用的基 本声学单元。然后以中文的语料库设计为例,提出了在设计语料库阶段,设计不 定长声学单元的原则和基本方法。文章通过对中文语料的统计发现:以声韵结构 为主的汉语语言,由于零声母和浊声母的存在,大概有四分之一的音节之间存在 协同发音现象。因此在设计语料库时,在语料中加入1 0 0 0 多个的双音节单元( 有 些首音节没有考虑到其声母) 和5 0 0 个左右的三音节,可以解决中文语音合成中 的7 5 左右的协同发音现象。另外在汉语中,如果精心设计d i f i n a l i n i t i a l ( 不考 虑首音节声母的双音节单元) 单元,可以进一步增大语料库对协同发音的解决能 力。 另外,文章着重介绍了变长声学单元选择的方法,这种方法使用半声韵母( 针 对汉语) 、半音素( 针对英语) 作为最小声学单元,通过对这些单元在合成中代 价的驱动,可以形成一个高效的不定长单元的选优算法。为了提高系统的效率和 保证最终合成效果,在单元的最终选择之前,先要对单元进行一次预选,通过一 个层次化的变长单元索引表,按照一定的优先级,依次将不同的变长单元加入到 各单元的预选列表中,最后再采用一个全局代价最优的方法来确定最终的所选单 元。 1 3 2 基于统计的韵律预测方法 韵律预测是语音合成中非常重要的一个环节,韵律预测的效果如何,直接决 定合成语音的自然度。因此韵律预测是语音合成领域的一个研究热点。韵律预测 的主要预测对象是:不同层次韵律短语边界的确定,f o 曲线以及时长和能量的 预测。m a b e 提出了一种两步f o 预测的方法 1 5 】,主要是首先根据一些从文本 分析中可得到的韵律描述符号,预测相应的韵律事件( 如t o b i 中的t o n e ) ,然 后根据韵律描述符号和预测出的调型事件再预测最后的目标韵律。这种思想在 f e s t i v a l 系统 1 6 】中得到了进一步的改进和应用。 由于汉语作为有调语言的特性,西方语言的韵律预测常用的一些方法在汉语 的韵律预测中并不有效。本文通过对音节连续变调特性的理解,以决策树模型预 测韵律的方法为基础【1 7 ,提出了一种基于决策树和贝叶斯分类器的韵律预测模 型,它以“连接概率“描述各个相邻基频单元( 一般以音节为基频载体) ,以决 策树描述韵律环境和基频单元的关系。最后使用组合模型,将这两种概率结合起 来,通过全局最优的方式来确定最终每个音节的基频。通过对该模型的评测,发 现它可以大幅度提高决策树模型预测基频的正确率。该模型应用到合成系统中后 进一步说明了它可以提高系统合成语音的自然度。文章提出的韵律预测模型都是 以统计分析和知识挖掘方法为基础,以中英文语料1 f l y c o r p u s 为训练语料集训 练产生。 1 3 3 自动韵律边界标注和半音素音段切分 韵律边界的确定和韵律标注体系关系很大,文章一开始首先介绍了在西方语 言中得到广泛应用的韵律标注体系t o b 1 8 】【1 9 】【2 0 u 国内语音学研究者提出 的c t o b i 韵律标注体系。在c t o b i 的基础上,科大讯飞语音实验室b oy i n 等 提出了层次化韵律标注体系,进一步提高了工程中大规模标注语料韵律的一致性 和鲁棒性。 然后完全依靠人工的方式标注韵律边界需要耗费太大的人力资源,很多学者 都相继提出了一些自动韵律标注的方法,h w r i g h t 提出了一种采用h m m 对语 音中的调型事件进行建模 2 t 2 2 1 ,通过h m m s 来描述语音中基频的变化情况 【2 3 】。本文第三章阐述的方法,可以实现一定程度上的自动韵律标注,提高韵律 标注的效率,以及提高标注中的一致性: 文章提出了一种基于声学参量和语法信息的检测方法,来确定自然语音中的 主韵律短语边界。首先通过对声学参数的分析,总结了一系列和韵律边界相关性 较大的声学参数。并提出了一种可信度来度量这些声学参数和韵律边界的关系。 声学参数的检测分为两个步骤,首先在一个局部范围内,根据声学参数的可信度, 判别当前音节边界是否可以作为一个主韵律短语边界,然后在一个全局范围内 ( 一般是一个子旬) ,对一个局部判断的边界进行再次确认,最后在声学层面上 判断一个音节边界是否可以作为个主韵律短语边界。 由于语法信息对韵律词边界有很大限定作用,因此文章采用了语法信息和声 学参数判别互补的方式来确认最后的主韵律短语边界。在语法分析中主要采用的 语法信息是词性、词中音节数目等信息。通过语法信息和声学参数的结合,大大 9 提高了主韵律短语边界检测的正确率。 语料库里中文的声韵母边界和英文的音素边界可以直接通过h t k 工具切分 得到,但是由于本文使用的不定长单元需要标记出单元的半音素位置( 音素稳定 段位置) 。为了自动切分出精确的,且可以保证相位和幅度一致的切分位置,本 文还在第二章中研究了一种半音素音段边界的自动切分方法一“基于倒谱和模板 匹配的半音素边界切分方法”。倒谱是一个可以较好反映声学信号音段特征的一 个参量,它在语音识别中的成功运用已经充分说明了这点。倒谱可以在语音识 别中被用于确定音素的边界( 音段的跳变段) ,那么它应该同样就可以确定音素 在音段上的稳定状态。对稳定状态的确定主要是通过加权的倒谱距离来得到的。 通过最小倒谱距离的分析,可以得到信号的稳定祯,但是在合成时刻,半音素拼 接位置在相位和幅度上必须具有很好的一致性,切分精度仅仅为“祯”还是不足 够的,因此文章进一步采用了基于模板匹配的方法,可以使得拼接精度精细到“采 样点”。 在静态模板匹配中,首先根据音素( 声韵) 分类的方法确定一系列的模板,然 后根据基频标注,在模板上确定一个唯一的标记点,匹配过程中,根据互相关法 从一系列模板中,选择最合适的模板,然后使用该模板在待切分半音素上得到切 分点。 另外文章还提出了一种动态半音素音段切分的方法。它和静态切分方法的主 要区别在于:目标切分点的选择不需要事先准备模板,模板在切分过程中动态取 得。和静态切分相比,动态切分的最终切分位置更合理,但这也同时加大了实时 合成时刻的计算量。 1 3 4 声学层处理和合成系统的说明 文章的第五章,介绍了中英文语音合成系统k b c e 的系统结构和设计到的一 些其它技术环节,包含文本预处理、不定长声学单元选择的方法等。 另外在第五章中,文章还介绍了声学层面的信号处理方法,声学层的处理, 主要是用在语料库进行了大幅度的裁减后。这时由于语料库较小,最终挑选的声 学单元和目标单元的差距较大,以及相邻声学单元的谱、基频存在差距,必须对 它们进行一些声学上的处理,以提升合成的效果。通过和国外同行的合作,我们 采用m b r o l a 的方法,制作了一个汉语双音素语音库,检验了m b r o l a 在汉 语中的应用。另外在第五章中,还对线谱对系数平滑谱的方法进行了研究。最后 文章通过对比测试,给出了中英文合成系统k b c e 合成语音的各项性能,对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论