(信号与信息处理专业论文)基于隐马尔可夫模型的高表现力语音合成技术的研究.pdf_第1页
(信号与信息处理专业论文)基于隐马尔可夫模型的高表现力语音合成技术的研究.pdf_第2页
(信号与信息处理专业论文)基于隐马尔可夫模型的高表现力语音合成技术的研究.pdf_第3页
(信号与信息处理专业论文)基于隐马尔可夫模型的高表现力语音合成技术的研究.pdf_第4页
(信号与信息处理专业论文)基于隐马尔可夫模型的高表现力语音合成技术的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,随着语音技术的飞速发展,语音合成技术越来越趋于成熟,合成的 语音音质和自然度方面都有了比较明显的提高。在合成领域,具有高表现力的情 感合成越来越为研究者所重视。如何让机器合成出的语音更具有“人情味”,成 为语音合成界关注的焦点。 同时,如何在不扩大训练数据库,不提高合成技术复杂度的情况下,通过对 语音韵律特征的更好的建模,实现高自然度高表现力的语音合成,是对我们研究 者提出的挑战。为此,本文对基于隐马尔可夫模型h m m ( h i d d e nm a r k o vm o d e l ) 的高表现力的语音合成技术进行了系统的介绍,并为改善合成语音的表现力开展 了深入的研究。整篇文章的结构安排如下: 论文第一章概括的论述了本文的研究背景。首先介绍了近几十年来语音合成 技术的发展情况,然后简要分析了现有的几种常见的语音合成方法,与语音合成 技术相关的概念与方法及高表现力语音合成技术的提出等。 论文第二章主要介绍了目前最为常用的基于h m m 模型的可训练语音合成 技术( t r a i n a b l et t s ) 的基本框架。包括t r a i n a b l et t s 合成系统的流程,关键技 术点,韵律参数的介绍及其相关的情感合成的知识,为本文在t r a i n a b l et t s 表 现力提升方面的工作做基础和铺垫。 论文第三章主要讨论从影响韵律的重要参数基频特征提取方面来改善 基线系统。针对现在基线合成系统存在的基频预测不准确的问题,我们考虑包含 更多信息的长时单元音节单元,理论上,更长单元的基频特征更能反映基频 的走势特征。实验验证了在悲伤情感库上可以取得更好的效果。 论文第四章从基频建模方法这一角度来改善现有的基线合成系统的效果。针 对现在合成系统存在的基频预测不准确的缺陷,我们认为现在基频与频谱同步建 模方法存在问题。我们提出一种半异步建模的方法,即基频和频谱参数在一个音 素内部对应不同的状态序列,最后通过实验总结了异步建模方法的性能表现。 论文第五章是从另一个影响韵律重要参数时长角度来改善现有基线系 统。主要方法是:结合音素单元的时长满方差建模。通过音素与状态加权的满方 差模型对时长特征的预测,达到在预测总时长的情况下建立时长各个状态单元内 部联系,从而更好的对时长进行预测的目的。 论文第六章简要介绍了作者参加b l i z z a r dc h a l l e n g e 语音合成比赛的情况。 关键词:隐马尔可夫模型语音合成技术表现力语音基频时长 a b s t r a c t a b s t r a c t a st h er a p i dd e v e l o p m e n to fs p e e c ht e c h n o l o g y ,t h es p e e c hs y n t h e s i st e c h n o l o g y h a sg r o w nm a t u r e l y t h ea c o u s t i cq u a li t ya n dn a t u r a l n e s so fc u r r e n tt e x t t o - s p e e c h s y s t e m sh a v eb e e ni m p r o v e dg r e a t l y a tt h es a m et i m e ,e m o t i o n a ls p e e c hs y n t h e s i s w i t hh i g he x p r e s s i v e n e s sg e t sm o r ea n dm o r ea t t e n t i o n ,a n dh o wt os y n t h e s i z e e x p r e s s i v es p e e c ht ob es e n s e dm o r el i k e l ya st h eo n eu t t e r e db yh u m a nb e i n g s b e c o m e sac u r r e n th o tr e s e a r c hf o c u s o n eo ft h ek e yp r o b l e m si ne x p r e s s i v es p e e c hs y n t h e s i si sh o wt om o d e lt h e p r o s o d yo fe x p r e s s i v es p e e c h w i t h o u te n l a r g i n gt h ed a t a b a s eo ri n c r e a s i n gt h e c o m p l e x i t y t og e tt h en a t u r a ls p e e c h i nt h i s p a p e r ,w ei n t r o d u c eh m m b a s e d e x p r e s s i v es p e e c hs y n t h e s i st e c h n o l o g ya n ds t u d yh o wt oi m p r o v et h ee x p r e s s i v e q u a l i t yo f t h es y n t h e s i z e ds p e e c h t h ew h o l et h e s i si so r g a n i z e da sf o l l o w s : c h a p t e r1i n t r o d u c e st h er e s e a r c hb a c k g r o u n do f t h i st h e s i sa n dt h ec o n c e p t i o no f t h es p e e c hs y n t h e s i st e c h n o l o g y f i r s t l y ,t h ed e v e l o p m e n to fs p e e c ht e c h n o l o g yi n r e c e n td e c a d e si sg i v e n t h e nt h et r a d i t i o n a lm e t h o d so fs p e e c hs y n t h e s i sa r ea n a l y z e d a tl a s t ,e x p r e s s i v es p e e c hs y n t h e s i si ss u g g e s t e d c h a p t e r2g i v e sa ni n t r o d u c t i o no nt h em o s tc u r r e n t l yu s e dt e c h n o l o g yi ns p e e c h s y n t h e s i s m t r a i n a b l e t t s t h e s y s t e m f r a m e w o r ko ft r a i n a b l e t t s ,k e y t e c h n o l o g i e s a n d p r o s o d yp a r a m e t e r s a r ei n c l u d e d t h i sc h a p t e re s t a b l i s h e sa b e g i n n i n gt of u r t h e rs t u d ye x p r e s s i v es p e e c hs y n t h e s i s c h a p t e r3 d i s c u s s e so n eo ft h ei m p o r t a n tp r o s o d yp a r a m e t e r s m f u n d a m e n t a l f r e q u e n c y ( f o ) i no r d e r t oe s t i m a t ef 0p a r a m e t e rm o r ep r e c i s e l y ,a ne x p l i c i t s y l l a b l e l a y e rf 0m o d e li si n t r o d u c e di nt h i sc h a p t e r w ec a ng e tm u c hl o n g t e r m i n f o r m a t i o na b o u tf 0f e a t u r e sb ym e a n so fs y l l a b l em o d e l i n g e x p e r i m e n t ss h o w e d t h ep r o p o s e dm e t h o di m p r o v e dt h en a t u r a l n e s so fs y n t h e s i z e ds p e e c he f f e c t i v e l yo n t h es a de m o t i o nd a t a b a s e c h a p t e r4f o c u s e so ni m p r o v i n gt h eb a s e l i n es y s t e mo n t r a i n a b l et t sb y m o d i f y i n gt h ef 0m o d e l i n gm e t h o d f 0a n ds p e c t r u mf e a t u r e sa r ec o n s i d e r e dt ob e s y n c h r o n o u si nt h ec o n v e n t i o n a lf 0m o d e l i n g c o n s i d e r i n gt h a tt h ep r o d u c t i o no f t h e s et w of e a t u r e si sd e c i d e db yt h em o v e m e n to fd i f f e r e n ta c o u s t i c a lo r g a n s ,a n e x p l i c i t l ya s y n c h r o n o u sm o d e ls t r u c t u r ei s i n t r o d u c e d i nt h ep r o p o s e da s y n c h r o n o u s m o d e l i n gs t r u c t u r e ,t h ef 0a n ds p e c t r u mf e a t u r es t e a m sc o r r e s p o n dt ot w od i f f e r e n t i i a b s t r a c t s t a t es e q u e n c e s e x p e r i m e n t ss h o w e dt h ep e r f o r m a n c eo ft h ep r o p o s e dm e t h o d c h a p t e r5d i s c u s s e sa n o t h e ri m p o r t a n tp r o s o d yp a r a m e t e r - - - d u r a t i o n a f u l l c o v a r i a n c em a t r i xi n s t e a do ft h ec o n v e n t i o n a ld i a g o n a lc o v a r i a n c em a t r i xi sa d o p t e d t og e tb e t t e re s t i m a t i o no ft h ed u r a t i o ni nu n d e f i n e dt o t a ll e n g t hd u r a t i o n s t a t e d u r a t i o nm o d e l i n gm e t h o du s i n gf u l lc o v a r i a n c em a t r i xc o m b i n i n gt h ep h o n ed u r a t i o n c a no b t a i nm o r ei n f o r m a t i o no ft h es t a t e s r e l a t i o n s h i p t h ef i n a lc h a p t e rb r i e f l yi n t r o d u c e st h ea u t h o r sc o n t r i b u t i o nt ot h es p e e c h s y n t h e s i ss y s t e ms u b m i t t e db yo u rl a bt ob l i z z a r dc h a l l e n g e - - a ni n t e r n a t i o n a ls p e e c h s y n t h e s i sc o m p e t i t i o n k e yw o r d s :h m m ,t r a i n a b l et t s ,e x p r e s s i v es p e e c h ,f u n d a m e n t a lf r e q u e n c y ( f o ) , d u r a t i o n i i i 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确 的说明。 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 幽开口保密( 年) 作者签名:至避 签字日期:筮l 立:互 导师签名: 签字日期: 第1 章绪论 1 1 语音技术简介 第1 章绪论 语音是经人类的发声器官发出的、具有表达交流作用和区别语言含义作用的 声音,作为记录思维活动的最直接的符号体系,语音是人类进行沟通和交流最便 捷自然且快速的手段。其实,语言天然的具有自然属性,同时又具有社会属性, 而社会属性相对于前者,则更为重要。语言的社会属性包括人们通过语言表达出 来的情感、不同人说话的不同特征等,是基于自然属性之上,所表现出来的更深 层的内涵与意义。 当今,随着人工智能技术、计算机应用、数字信号处理以及模式分类等学科 的发展,人们希望可以和计算机进行自然的互动与交流,使计算机更加智能化, 更好的服务于人类。信息技术的飞速发展,使社会对语音技术产生大量的应用需 求,使得数字化语音受到越来越多的重视。如今越来越多的感兴趣人士加入了语 音研究的行列,新的方法和理论也如浪潮般涌现。在当代多样的语音技术中,语 音识别技术、语音合成技术和语音编码技术是最为重要的三个研究方向。 1 2 语音技术发展史 说到语音技术的发展史,我们就不得不提到一些标志性的历史事件( 蔡莲红, 黄德智,等2 0 0 3 ) 。1 8 世纪8 0 年代贝尔发明电话,他提出的理论成为统治 一个世纪之久的电话通信原则。1 9 世纪4 0 年代,达德利根据载波电话原理发 明了声码器,他将由声带振动产生的声音源看作载波信号,口腔的运动则看成是 对声音源的调制,将带宽为3 0 0 0 赫兹的语音信号压缩到带宽为3 0 0 赫兹以内, 打破了垄断一个多世纪的波性原则,是语音参数模型出现的直接导火线。到了 6 0 年代中期,数字信号处理算法的有了飞跃性的突破,出现了:动态时间规整 算法、v q 量化( 矢量量化) 、快速傅立叶变化、线性预测分析、同态滤波处理 算法等等。7 0 年代初提出的隐马尔可夫模型,为当今的语音合成与识别技术提 供了最基础的研究模型。8 0 年代以来,进入了近代语音技术时代,也进入了蓬 勃发展的时代。语音编码技术方面:g 系列基于模型的编码器,2 4 k b sl p c 1 0 等技术得到应用与推广。语音合成技术方面:串并联共振峰合成器、基于大语 料库的语音合成、基于规则和波形拼接的语音合成、基于h m m 的t r a i n a b l e 订s 等语音合成方法都得到了飞速发展。在语音识别领域:基于h m m 模型的模式识 第l 章绪论 别技术发展迅速,工程化卓有成效。8 0 年代中期,美国d a r p a 委托n i s t 通 过统一的平台发布数据,组织了一系列语音识别方面的评测大赛,包括说话人识 别、语种识别等,对此方面研究的发展与交流产生了重要的影响。2 0 世纪由美 国和日本联合发起的b l i z z a r dc h a l l e n g e 语音合成国际评测比赛,又将语音合成 技术的发展推到一个新的高度。 1 3 语音合成技术简介 按照人类语言功能的不同层次,语音合成可分成三个层次,它们按照复杂程 度由低到高的等级递增,分别是:( 1 ) 从文字到语音的合成,即从输入的文本 信息直接转换为语音,是语音合成的最初级的阶段;( 2 ) 从概念到语音的合成, 即从具有概念意义的信息间接转换为语音:( 3 ) 从意向到语音的合成,即从人 的意向出发,加以理解加工得到语音输出,也是最为智能化的层次。当今现有的 语音合成的水平可以解决的仅仅是最初阶段从文字到语音的合成这个阶段, 也就是文语转换( t e x t t o s p e e c h ,t t s ) 。它实时的将文字输入通过一系列技 术转化为人类可懂的语音。它的理论体系与重要技术点涉及多个学科,包括语言 学、声学、心理学、人体学、数字信号处理、模式识别、计算机科学等,以及这 几个学科交叉性的理论知识,是信号与信息处理领域的一项前沿技术,解决的主 要问题就是怎样由文字信息获得清晰自然的声音信息,换句话说,也就是希望能 教机器像人一样开口说话。本文后面所指的语音合成都是指文语转换。 按照技术类型,语音合成又可分为以下几类:( 1 ) 发音器官参数的语音合成。 这种方法直接通过数据模拟人的发音过程。当人在发声时,舌、唇、口腔和声带 等发声器官会发生一系列的变化,我们希望通过捕捉这些变化来对声音更好的模 拟。通过感应器采集相关数据,如舌的位置、舌的高度、开口程度、气流的变化、 声带的运动等,然后通过一定的算法处理数据、模拟声波。( 2 ) 基于h m m 的参 数合成技术。这种方法对输入的语音数据先用参数分析器提取训练需要的参数, 然后对参数进行建模与训练,最后由待合成的文本信息合成出对应的语音。它的 特点是合成效果稳定,能获得音质适中的合成语音。( 3 ) 波形拼接的语音合成。 这种方法是直接把训练数据库中的波形文件切分成一个个待拼接的单元,再由一 定的算法根据文本挑选适合的单元而拼接在一起,输出连续的语流。由于这些语 音波形原本来自于训练数据库中的自然语音单元,所以合成的语音清晰自然,其 特点是合成音质普遍高于参数合成,富有韵律,但存在合成效果不稳定的现象。 第1 章绪论 爻朝喜耠 语音合成器 睡 语音库 语音合成部分 图11 典型的语音台成系统示意图 】) ) 语音输出 如图i 1 所示( 陈永彬,王仁华1 9 9 0 ) ,典型的语音合成系统步骤主要 包含阻下几个方面:首先由手写识别、文字输入、机器扫描以及网络资源等多种 途径得到输入的文本,接着对其进行语言处理,主要方法是依据外部韵词典、规 则等工具,得到文本的分析结果,包括重读的标注、情感的区分、音标的拼写、 音节、词组、短语、句子的划分等;在此基础上再进行韵律分析,得到包括能量、 基频、时长参数等这样的韵律信息;最后根据待合成文本,生成韵律特征,选择 合适的合成方法:传八参数合成器或者根据一定算法从原始语音库中挑选合适的 波形单元最终生成语音。 其实,上述的合成步骤又可划分为前端和后端两部分。文本分析可咀归结为 前端部分,而韵律生成和合成语音工作可以说是后端部分。对于语音合成系统来 说如果训练数据确定,文本分析部分基本都是相同的,只是由于需要的不同而 有不同信息表达与侧重点比如重音的标注、情感词的标注、情感类型的标注等 等。而后端的韵律合成方面也可分为两个部分即训练过程与合成过程。然而在 韵律的生成和合成语音的方法上,现在的语音技术已形成多种较为成熟的理论与 方法甚至在有些系统中,这两个部分己没有明显的界限成为一个不可分割的 整体。 1 4 常用的两种语音合成技术 基于语音库的拼接台成技术( rhw a n ga n dzkm a2 0 0 0 ,wnc a m p b e l l 第1 章绪论 a n da w b l a c k1 9 9 6 ) 。其基本原理就是根据输入文本前端分析得到的信息,把 语音波形数据库中的以句子形式存在的波形,切分成一个个待拼接的单元,再通 过一定的算法挑选适合的单元而拼接在一起,输出连续的语音流。由于最终合成 语音的每一个单元实质上都是直接来源于训练数据库,其最大的优势就是在于保 持了原始发音人的音质,因此其合成出的语音的相似度和自然度方面都表现很 好,并且有很好的韵律起伏。但其需要大量的语料作为备选单元的挑选库,且对 计算机的运算能力和存储能力都有很高的要求,实时性较差,同时效果也不是很 稳定,当训练数据库覆盖广且能挑到适合的单元时,对有些语句可以合成的很好, 当训练数据库覆盖不够且挑到不适合的单元时,对有些语句则合成效果比较差, 主要体现在虽然每个单元的音质都很好,但是有些拼接单元连接处有比较大的不 连续。 基于h m m 的参数合成技术( m a s u k ot ,k t o k u d a ,e ta 1 1 9 9 6 ) 。由上段论 述我们知道:虽然现在基于原始语音库的拼接合成系统效果不错,但是也存在不 少缺陷,比如:合成语音的效果不稳定,音库的覆盖率要求高以及合成系统的可 扩展性差等等。诸如此类的缺陷明显的限制了拼接合成系统在多样化语音合成方 面的应用。由此,t r a i n a b l et t s 技术应运而生。近年来,参数合成技术从概念 被提出,到得到广泛的支持与应用仅用了很短的时间。t r a i n a b l et t s ,就是对输 入的语音数据先用参数分析器提取训练需要的参数,然后对参数进行建模与训 练,最后由待合成的文本信息合成出对应的语音。整个过程是一套可训练的自动 化流程。它相对于拼接合成系统的优势就在于,整个训练与合成在相对的短时间 内完成,基本实现实时性;不需要人工干预,基本实现一键化操控,自动构建一 个新的系统;对于不同发音风格、不同发音人、甚至不同语种的依赖性非常小。 合成语音的音质稳定是其最大的特征,但是也有其明显的缺陷:即在韵律表现上 一般,语句较平淡没有起伏,难以富有高表现力的表现情感。 1 5 高表现力语音合成的提出 随着语音合成技术越来越成熟,合成的语音音质、自然度、可懂度方面都有 了比较明显的提高。但语音合成技术仍然还有很多挑战:像是技术层面的:表现 说话人特征的语音合成、多语种合成、声音转换技术、结合面部表情的语音合成 以及应用层面的:嵌入式语音合成、概念到语音的合成、意向到语音的合成等等。 其中在合成领域,具有高表现力的情感合成越来越为研究者所重视。如何让机器 合成出的语音更具有“人情味”,使人与机器的交流更加顺畅和谐,成为语音合 成界关注的焦点( m o n t e r oj m ,j g u t i 6 r r e z - a r r i o l a e ta 1 1 9 9 8 ) 。 第1 章绪论 为了建立和谐的人机交互的语音环境,富有高表现力的语音合成技术越来越 受到重视。如何在不扩大训练数据库,不提高合成技术复杂度的情况下,实现 高自然度高表现力的合成语音,是我们的研究意义所在。目前,国内外对于高表 现力的合成语音的研究越来越为重视,近几年此方面发表的论文较多。除了韵律 特征之外,音质类和发声器官类参数也成为新兴的研究热点( b a n s e ,r a n dk r s c h e r e r 1 9 9 6 ) 。 今后,由于需求的驱动,高表现力的语音合成仍然是国内外语音界的研究重 点,其发展趋势将是越来越多元化,从特征提取方面,从建模方法方面,从结合 语音识别技术角度,等等,寻求进一步的发展。 1 6 论文的研究内容与结构 基于以上的讨论,本论文的主要目标是对基于h m m 的高表现力语音合成 的方法进行研究,从不同角度,如:基频建模、时长建模方面,改善现有系统的 合成语音的表现力效果。为此,本文各章的结构安排如下: 第二章主要介绍基于h m m 模型的t r a i n a b l et t s 语音合成系统的基本框 架,作为整个研究工作的基础;第三章主要讨论从影响韵律重要参数基频特 征提取方面来改善基线系统。我们考虑包含更多信息的长时单元音节单元。 第四章主要从基频建模方法这一角度来改善现有的基线合成系统的效果。我们提 出一种半异步建模的方法,即在限定音素边晃的情况下,基频和频谱参数在一个 音素内部异步的建模。论文第五章是从另一个影响韵律重要参数时长角度来 改善现有基线系统。即:音素结合状态单元的时长满方差建模。论文第六章简要 介绍了作者参加b l i z z a r dc h a l l e n g e 国际语音合成比赛的情况。 在文章的最后,对本文在高表现力语音合成方面的工作进行了总结,并对今 后此领域的研究热点做出展望。 第2 章t r a i n a b l et t s 语音合成技术 第2 章t r a i n a b l et t s 语音合成技术 t r a i n a b l et t s ,就是可训练的从文本到语音转化的合成技术( xh u a n g 。e ta 1 1 9 9 6 ) ,其基本原理就是对输入的语音数据先提取训练需要的参数,如基频、频 谱参数,然后对参数进行建模与训练,最后由待合成的文本信息合成出对应的语 音,整个过程基于一套自动化的流程。近几年来,m i c r o s o f t ,i b m 以及n i t 等 众多知名的研究机构对t r a i n a b l et t s 甚为关注,提出了若干种不同的实现方法 和技术,他们的共同点就是:都是基于h m m 模型对语音参数进行建模,并用音 库数据进行自动的迭代优化训练,且时间短、效率高、稳定性好。 一般而言,训练过程是通过建立合适的模型,再由数据来优化模型参数的。 在语音信号处理中,最普遍的建模方法就是隐马尔可夫模型,它被引入语音信号 处理中已经有二十余年,而在语音识别中的应用更是非常成熟( r a b i n e r , l r 1 9 8 9 ,f j e l i n e k 1 9 7 5 ) 。语音合成技术就是将这一建模方法成功的借鉴并取得了 突破性的研究进展。近年来,h m m 在语音合成中的应用越来越深入和普遍,根 据应用的类型,可以分为以下几个类别: 1 ) 基于大语料库系统的需求,对训练音库进行音段切分,比如对中文的音 节或音素单元进行自动切分; 2 ) 基于h m m 模型本身进行单元的构造,它不仅可以构造音节及音素单元, 而且可以构造状态单元以及相应的音库; 3 ) 在拼接合成系统中,利用h m m 对备选单元进行打分,实时的进行单元 挑选; 4 ) 在参数合成系统中,根据h m m 本身进行建模、参数生成以及最后的语 音合成; h m m 的这几类应用技术在现在的较为成熟的t r a i n a b l et t s 系统中都发挥 着很大的作用。 2 1 系统框架 整个t r a i n a b l et t s 系统主要包括训练和合成两大部分。下图的2 1 和图2 2 分别为训练和合成流程图。在训练过程中,利用h m m 对基频、频谱以及时长参 数进行建模与迭代的优化训练。在合成过程中,首先对输入文本进行属性分析, 得到对应标注,并利用训练好的模型进行参数预测,最后将参数输入s t r a i g h t 参数合成器合成出语音。接下来,我们分别对这两部分做详细的介绍,本文后面 6 第2 章t r a i n a b l et t s 语音合成技术 的工作都是基于这两部分流程上的改进。 2 1 1 训练流程 整个系统的训练流程如图2 1 所示,下面,对流程中的每一个步骤,我们分 别做简要的介绍: 图2 1t r a i n a b l et t s 系统训练流程 1 ) 方差下限估计( v a r i a n c ef l o o re s t i m a t i o n ) :由于一般训练库的语音数据都 存在覆盖率不够的问题,上下文属性可能的组合数远远大于训练数据的数目,每 个上下文相关模型对应的训练数据可能只有一到两个,从而模型均值直接拟合到 这一两个数据上,方差接近于零。方差接近零会导致合成语音平淡,没有起伏的 问题。我们预先设定一个方差下限来避免方差过于接近于零。我们采用h c o m p v 这个工具( h t s 工具包中的一种工具,以下同) ,对基频、频谱的各阶参数根据 训练数据自动计算对应的方差下限。 2 ) 。单音素h m m 训练( m o n o p h o n eh m mt r a i n i n g ) :在做好方差下限估计的 准备后,我们根据p h o n e 1 i s t 文件开始对训练数据覆盖到的单音素模型进行初始 化和训练,得到的单音素模型用于进行下一步的上下文相关模型的扩展和初始 化。这一步运用h l n i t 和i r e s t 训练工具。 3 ) 上下文相关h m m 训练( f u l lc o n t e x th m mt r a i n i n g ) :在上一步训练结束 后,我们首先根据上下文属性集,将单音素模型扩展到上下文相关的h m m 。这 一步采用的工具为h h e d 。接下来对扩展后的模型进行深入化训练,这一步采用 7 第2 章t r a i n a b l et t s 语音合成技术 的工具为h e r e s t 。 4 ) 基于决策树的h m m 聚类( t r e e b a s e dc l u s t e r i n g ) :这是解决上下文相关 h m m 训练时数据稀疏问题的关键一步。我们知道,每一个上下文相关模型相对 应的训练数据非常有限,有时只有一到两个,导致模型的参数在训练后基本上都 “过拟和”到那一两个数据上,即完全由那几个数据决定模型的均值与方差参数。 为此,我们利用上下文属性问题集,对上下文相关模型进行聚类,以提高模型的 鲁棒性以及模型复杂度和训练数据量之间的均衡性。被问到的属性问题构成对应 参数的决策树。眦d 工具被用来进行聚类。 5 ) 聚类后h m m 训练( c l u s t e r e dh m mt r a i n i n g ) :为了优化聚类后的模型参 数,我们在进行模型聚类后,需要对聚类后的模型进行多次迭代的深入化训练。 采用和上下文相关模型训练一样的工具h e r e s t ,同时输出各个状态模型的停留 时间的统计数据时长参数,用于后续的训练步骤。 6 ) 时长建模( d u r a t i o nm o d e l i n 9 1 :首先根据5 ) 中得到的各个状态模型的 停留时间的统计信息,来对上下文相关的时长模型进行初始化,作为时长模型的 训练初值,然后采用以上相同的决策树的方法对时长模型进行聚类和训练。这一 步骤运用到h h e d 和h e r e s t 工具。 经过以上的六步训练流程,最后我们得到的信息包括频谱、基频和时长参数 的聚类h m m 及对应的决策树文件,用于接下来合成阶段的参数预测与生成。 2 1 2 合成流程 在合成过程中,我们先要对测试文本进行前端分析,得到所需要的上下文属 性及标注信息,由时长模型得到相应的模型序列,再通过参数生成算法,由基频 和频谱模型生成基频参数和频谱参数,传入s t r a i g h t 这样的参数生成器来得 到语音。 其中,在前端分析过程中,测试句的文本分析同训练数据的前端分析;在参 数生成的过程中,我们先是由时长模型进行状态时长分配,即解析得到基频和频 谱参数的状态序列后,再由最大似然准则分别生成基频和频谱参数,最后将基频 和频谱参数传入参数合成器,得到最终的语音波形。 经过下面的六步合成流程,最后我们得到的文件包括时长、频谱、基频参数 及语音波形文件。其直观的流程图如图2 2 所示: 第2 章t r a i n a b l et t s 语音合成技术 输入文本 |l 0 洲:( k b c e ) l i 。一 解析为相离的 状态序列 i i 时长预测li 蘩频:l j 5 测lf 谱参数碗测 ili 参数合成器 ( 输出合成语音) 图2 2t r a i n a b l et t s 系统合成流程 2 1 3 基于决策树的模型聚类 由本章之前一节介绍的h m m 训练流程我们可以知道,在进行单音素训练之 后,为了提高建模精度,更好的涵盖上下文信息,我们将单音素模型扩展到具有 上下文属性的三音素模型( t r i p h o n e ) 。我们需要考虑比如前后音素环境、韵律 位置、此单元在上一级单元中位置、前后声调信息等信息,这将导致上下文属性 的组合数目相对单音素情况成指数倍的增长。在训练过程中,相对于庞大的上下 文相关模型数目而言,训练模型的数据量是非常有限的,有些上下文相关的模型 只能分到一到两个训练数据,从而只表现少数数据的特性,无法体现模型所具有 的代表性与一般性。 基于决策树的聚类算法( j y a m a g i s h i ,m t a c h i b a n ae ta 1 2 0 0 4 ) 应运而生, 我们对上下文相关模型进行聚类,使得模型数目锐减,但是又按各自的特点分布。 聚类后的模型可以对应足够的训练数据,从而聚类后的模型是对训练数据的很好 描述。此算法的基本实现为: 1 ) 首先,所有上下文相关的模型都被放到根节点作为当前待分裂节点。 2 ) 然后,遍历已准备好的属性问题集中的所有问题,用最小描述距离 ( m d l ,m i n i m u md e s c r i p t i o nl e n g t h ) 准则( k s h i n o d aa n dt w a t a n a b e 2 0 0 0 ) 9 第2 章t r a i n a b l et t s 语音合成技术 对当前待分裂节点计算得分,得分最高的问题被选为最终的分裂问题并进行分 裂。如果得分大于某个预先设定的门限,而分裂后的节点中的训练数据又不低于 某个门限,则对此节点进行分裂,否则则不进行分裂。若分裂则一个父节点产生 左右两个孩子节点,若不分裂则认为此支路已分裂完毕,以此类推。 3 ) 重复2 ) 的步骤,直到所有的叶子节点都不再进行分裂为止,决策树聚 类算法完成,每个叶子节点下挂载着多个具有相似特性的数据。 为了直观描述决策树的聚类过程,我们以音素名为“a a ”的t r i p h o n e ( 包括 前后上下文的三音素) 模型为例,下图为一个5 状态音素的决策树聚类示意图 ( z h e n h u al i n g ,l o n gq i n ,e ta 1 2 0 0 7 ) 。我们对它的第2 个有效状态,即状态3 进行聚类。首先对根节点“宰a a + p 运用m d l 准则进行计算得分,取得分最高 的问题“右相邻音素是否为鼻音? ”进行分裂,由回答“是”或“否”分为 两个类,然后对分裂后的左右孩子节点又进一步用选出的得分高的问题进行节点 分裂,直到不能再分裂为止,得到最终的叶子节点。由图可以看出,每个叶子节 点包含多个具有相同特点的模型,比如最右边的节点包含的模型的特点是,它们 的中间音素都为“a a ”,左相邻音素不是鼻音且右相邻音素也不是鼻音的模型。 最后根据对应的训练样本数目确定各自的权重,将每个叶子节点中包含的上下文 相关模型,聚成一个模型,这样大大减少了模型数目,从而对训练数据有更好的 模拟效果。在图中聚类后的模型遵循高斯分布。 第2 章t r a i n a b l e1 v r s 语音合成技术 芏相铝占素:i :一a a ;球 厶相邻皆素 生相 否为 b - a a 4 - n d - a a + m g - a a - 叫a g i i i k - a a + n l :- a a + m s - a 呐l g - v n - a a + t h 肚a a + l 口a a 叶。w l i v s a a 卜f b a a 魄 l - a a + s d - a a + k + 2 2 韵律相关参数建模 2 2 1 基频建模 聚类后的状态岛斯分椎 图2 3 决策树聚类实例示意图 与频谱参数的连续性不同,基频参数在时间轴上是一个不连续的量,它在浊 音段上( v o i c e d ) 表现为一个一维的数值,而在清音段( u n v o i c e d ) 上则没有基 频值,在有些处理中,将基频值默认是零,方便建模与计算。图2 4 为一个基频 曲线的示意图( k t o k u d a ,t m a s u k oe ta 1 1 9 9 9 ) ,浊音段和清音段被明显的区分 为两个分布。实际中,“a ”这样的浊音发音会表现为明显的基频曲线特征,而 “p ”这样的清音发音就会切断基频曲线。因此,传统的h m m 并不适合直接被 用来对基频进行建模,而需要针对清音段的特性做一定的处理。 第2 章t r a i n a b l et t s 语音合成技术 a 笙 箬 口 篁 k 害 一 v o i c e du n v o t c e d : ; ni; ! 、 l 卜一 ,| : 图2 4 基频曲线示例 为了很好的解决这一问题,k t o k u d a ( k t o k u d a ,t m a s u k oe ta 1 1 9 9 9 ) 提 出了多空间概率分布的h m m ( m s d h m m ) 来对基频参数进行建模,这里我们 对它的基本原理不做过多的介绍,参见( k t o k u d a ,t m a s u k oe ta 1 1 9 9 9 ) 。下面 对其存基频建模中的应用做简单的介绍。 前面提到,由于基频参数在浊音段表现为连续分布,而在清音段是没有观测 值的,因此当我们把m s d h m m 应用到基频建模时,假定浊音段和清音段分别 是一个一维的和一个零维的变量空间。没有观测值的清音段对应零维空间是 m s d 的最大特点。在t r a i n a b l et t s 系统的实际做法中,选取具有两个子空间的 样本空间。同时,我们把频谱参数和基频参数结合在一起进行h m m 建模( t y o s h i m u r a , k t o k u d a ,e ta 1 1 9 9 9 ) 。频谱使用最基本的h m m 方法建模,基频使用 m s d h m m 方法建模。 2 2 2 时长模型 最初合成系统中的时长模型,是状态级的时长预测,即对于一个给定的音素 序列( 长度为n ) ,预测一个状态分配序列,目标是为了最大化如下似然值( t y o s h i m u r a , k t o k u d a ,e ta 1 1 9 9 9 , t y o s h i m u r a ,k t o k u d a ,e ta 1 1 9 9 8 ) : nk n l o g p ( ql2 ,丁) = l o g p n , k ( 以,七)( 2 1 ) 九= lk = l 其中, 疋是对应音素的状态数目,q 是状态序列,岛。( 西。) 为对应的状态 第2 章t r a i n a b l et t s 语音合成技术 时长模型,一般采用高斯分布。 由于在最初的时长模型中,过多的考虑了状态时长分配,而疏于对音素时长 的考虑,导致合成语音中,有些地方过于拖沓,而有些地方略显急促,对听感的 自然度有影响,有些单元的时长过于平均,听起来节奏感不强。为了解决这一问 题,我们尝试加入一个音素时长模型。在合成过程中,同时对状态时长和音素时 长模型进行决策,最后通过权重调节将两个模型结合,进行最终的时长生成。 加入音素模型改进后的时长模型即最大化如下似然值: n k 1 0 9p ( ql 旯,丁) = ( l o g p , 七( 以,七) + w l o g 以( 以) ) ( 2 2 ) n = l k = l 其中,w 为音素模型的权重因子,通过调节w 合理分配状态及音素的比例。 p ( d o ) 为对应的音素时长模型。 2 3 富于表现力的语音合成的需求 2 3 1 提出背景 随着合成语音技术的飞速发展,其在音质和自然度方面都有了比较明显的提 高。近年来,随着多样化语音合成的需求加大,在合成领域,具有高表现力的情 感合成越来越为研究者所重视。如何让机器合成出的语音更具有“人情味”,成 为语音合成界关注的焦点。这方面的研究逐渐成为语音合成方面的主要研究课题 之一,尤其在情感合成以及语音语调方面( c h e nge ,y h u ,e ta 1 2 0 0 4 ) ,这里 我们称之为富于表现力的语音合成( e x p r e s s i v es

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论