![(电路与系统专业论文)嵌入式汉语合成语音库的构建与搜索[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf74/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf741.gif)
![(电路与系统专业论文)嵌入式汉语合成语音库的构建与搜索[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf74/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf742.gif)
![(电路与系统专业论文)嵌入式汉语合成语音库的构建与搜索[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf74/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf743.gif)
![(电路与系统专业论文)嵌入式汉语合成语音库的构建与搜索[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf74/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf744.gif)
![(电路与系统专业论文)嵌入式汉语合成语音库的构建与搜索[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf74/75e5ca9f-7a88-4dc5-a1ae-e9f41cafdf745.gif)
已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 基于大语料库的语音合成方法,由于能够产生高自然度的合成语音,成为 目前应用较多的语音合成方法。高质量的大语料库合成系统对存储资源和运算 能力要求比较高,从而限制了它的应用范围,主要用在服务器级和桌面级。随 着嵌入式技术的不断发展,嵌入式语音技术的应用已成为必然的趋势。但是, 嵌入式系统存储容量和处理能力均有限,从而限制了语音合成技术在嵌入式系 统中的应用。所以,如何解决大语料库语音合成系统的合成效果和资源消耗之 间的矛盾,使语音合成技术在嵌入式领域中应用就成为一个亟待解决的问题。 本文针对嵌入式设备存储容量小、计算能力有限的特点,对基于变形决策树 ( c a r t ) 模型和改进l o 中心聚类算法的语音库构建和合成基元搜索方法进行了 研究。该方法可以有效的选出原始语音库中最具代表性的基元样本,从而合理有 效的降低语音库的规模和算法复杂度,满足嵌入式设备的要求。 首先,以带有声调的音节为基元,采用基于变形c 6 栅模型的预分类方法对 大容量合成语音库进行预分类,并对语音库中音节种类、总数等相关数据做统计 分析;然后,分别以带有声调的音节、声韵母为基元,以基频、时长和m e l 频率 倒谱系数等为特征,采用改进k 中心聚类算法进行不同比例的聚类裁剪,得到 尽量覆盖原始语音库中韵律情况且满足嵌入式系统资源要求的语音库;最后,利 用裁剪后的语音库以及改进的合成基元搜索算法,搭建出语音合成系统。通过主 观听辨实验和客观数据计算,对语音库裁剪和合成基元搜索算法进行验证。实验 结果表明,裁剪后系统的合成语音具有较好的清晰度、自然度。 关键字:嵌入式语音合成;c 灿汀;聚类裁剪;基元挑选 山东大学硕士学位论文 a b s t r a c t c o 印u s - b 嬲e ds p e e c hs y n t l l e s i sa p p r o a c hh a sb e e na p p l i e d 洫m a i l ys t a t e - o f 二a n s p e e c hs y n t l l e s i ss y s t e m sb e c a u s ei tc 锄p r o d u c es ) ,i l t l l e t i cv o i c eo fh i 曲n a t u 】阻l n e s s b u t “g l i q u a l i 妙s p e e c hs y i m l e s i ss y s t e mh a sm g hc o m p u t i n gc o m p l e x i 够a n dl a r g e r e s o u r c ec o 删n g ,s 0i ti sl i i i l i t e di nt l l e 印p l i c a t i o no ns e r v e ra i l dd e s kp l a t f 0 衄 i l lr e c e l l ty e a r sa l o n g 、) i ,i t l lt l l ee m b e d d e dt e c h l l o l o g ) r su l l c e 硒i n gd e v e l o p m e n t ,m e a p p l i c a t i o no f 锄b e d d e ds p e e c hs y n t h e s i st e c l u l o l o g ) ,h 嬲b e c o m et l l ei n e v i 住出l e t e n d e n c y b u tb e c 龇l t h es t o m g ec a p a c i t y 锄dp r o c e s s i n gp o w e ro fe m b e d d e d s y s t e l ni sl i i i l i t e d ,m 吣l i r n i t i n gt l l e 印p l i c a t i o no ft h es p e e c hs y n t h e s i st e c h n o l o g yi i l e m b e d d e ds y s t e m s t h e r e f o r e ,h o wt or e s o l v et h ec o 1 i c tb e t w e e nt l l e e f ! i e c to f s y m h e s i s 锄dm ec o n s u m p t i o no fr e s o u r c e s ,r e a l i z et l l ea p p l i c a t i o i l so fs p e e c h s y n m e s i st e c h n o l o g yi i lt l l ef i e l do fe m b e d d e ds y s t e mh 硒b e c o m ea nu r g e n t p r o b l 锄 a i i i l i i l ga tt l l es m a l lc a p a c i 够锄dt h ef i m t ec 印a b i l i 够o fc o m p u t eo fe m b e d d e d e q u i 肿n t ,a 臼唧【l s f 0 肌a t i v ec a r ta 1 1 di m p r o v e dk - c e m e rc l u s t e rb 2 u s e dr e d u c i n g a 1 9 0 r i t h m ,w i l i c hc a ns e l e c tt 1 1 em o s tr e p r e s e n t a :t i v eu i l i t sf 如mt h e “t i a ls p l e e c h c o 印u st 0r e d u c et h ef o o t p r i n to ft 1 1 eu i l i t si i e n t o r y ,a i l d 锄u l l i ts e l e c t i o na l g o r i m m 、兢t l ll o wc o m p l e x i t ) ra r ed e s c r i b e di nt h i sp a p e r f i 赋w e 址e 此a c c e n ts y l l a b l ea st l l e 疵t ,a d o p tt m s f o m a t i v ec a r tt 0c 哪, o np r e - c l a s s i f i c a t i o n ,a 1 1 dc a r 巧o nt i l es t a t i s t i c a la n a l y s i st 0t h el a 玛ec o 印u sa b o u tt l l e 咖eo fs y l l a b l e ,t 1 1 et o t a l 仙m b e ro fs y l l a b l e 觚ds oo n 舢l dt h e n ,、v er e s p e c t i v e l yt a k e l e c e n ts y l l a b l e 粕dt h e “t i a l f i n a la st l l eu 1 1 i t ,w i t l lf k q u e n c y 觚dd u r a t i o n ,u s e i n l p r o v e dk - c e n t e r c l u s t e r a j g o r i t l l m t oc a r r yo nc l u s t e r r e d u c i n g a td i f r e r e n t p r o p o r t i o nt og e tat a i l o r e dd a t a b a s ew h i c hc o v e r sm em o s tp r o s o d ys i t u a t i o 璐o f p f i m a r yc o 印u s f 访a l l y ,w eu s et a i l o r e dd a t a b 嬲ea n di m p r o v e ds e l e c t i i 培a l g o r i t l l mt 0 b u i l dt h es p e e c hs y n t h e s i ss y s t e m w ev a l i d a t et h ea l g o r i t h mo fc l u s t e rr e d u c i i l g 锄d u 1 1 i ts e l e c t i j 唱b yc a r r y i n go u ts u b j e c t i v e1 i s t e n i i l gm l do b j e c t i v et e s t i i l g t h er e s u l t l 山东大学硕士学位论文 s h o w st h a tt h et a i l o r e dd a t a b a s eh a si l i g hi i l t e l l i g i b i l i t ya n dn a m m l n e s s k e y w o r d s :e m b e d d e ds p e e c hs ) r 1 1 t h e s i s ,c l a s s i f i c a t i o n a i l dr e 哦蚓o nt k e c l u s t e r i n gr e d u c i n g ,u n i ts e a r c l l i n g 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均己在文中以明确方式标明。本声明 的法律责任由本人承担。 p 碉町一 论文作者签名:圭燮厶丑日期:迎丞2z 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:塑丞压丑导师签名在! 鱼堡日 期:丝竺:1 7 山东大学硕士学位论文 1 1 引言 第一章绪论 随着计算机技术和信息技术的不断发展,语音已经成为人机交互的重要手 段。语音合成技术是实现人机语音通信,建立具有听说能力的口语系统所必需的 关键技术之一。随着嵌入式技术的不断发展,将汉语语音技术应用到嵌入式系统 成为必然的趋势。尽管基于大语料库的语音合成系统已经能够产生高自然度的合 成语音,但由于嵌入式设备的资源限制,这种方法难以在嵌入式系统上实现。因 此,本文重点研究适用于嵌入式系统的汉语合成语音库的构建和合成基元搜索方 法,这对于实现嵌入式语音合成系统是很有意义的。 1 2 语音合成的发展 语音合成是指用人工的方法生成语音的技术。它最早起源于西欧,到今天已 有2 0 0 多年的历史,经历了由机械到电器再到计算机的发展过程。语音合成方法 多种多样,有发音器官参数合成法、线性预测参数合成法、共振峰合成法、波形 拼接合成法等【1 】【2 1 【3 】。 现代的语音合成器大多都是利用计算机来实现的。2 0 世纪7 0 年代末,出现了 文一语转换( t t s ,t e x t - t 0 s p e e c h ) 系统【4 】【5 1 。文一语转换技术就是将计算机内部产 生的或外部输入的文字信息转变为可以听懂的、流利的口语输出的技术。其中最 关键的是语音合成技术。 2 0 世纪9 0 年代末,出现了一种新的语音合成技术一波形拼接。波形拼接 的常用算法是基音同步叠加算法【l 】【6 胴( p s o l a ,p i t c hs ) ,i l c l l r o n o u so v e rl a p a d d ) 。p s o l a 基于一个大规模的语音库,这个语音库包含的合成基元来自自 然语音。在合成时,通过选择合适的语音片段来进行拼接从而实现高质量的合 成语音。在这项技术中,语音合成问题被简化为如何建立一个在语音学上充分 覆盖的语音库,如何从语音库中选择合适的语音片段来拼接,以及如何对语音 片段之间的拼接部分作适当的韵律调整。 山东大学硕士学位论文 目前汉语t t s 系统大都采用基于大规模语料库的波形拼接合成方法,其中语 : 音库的大小一般在几百m b 到几个g b 之间。由于其数据库容量较大,因而要求系 统的存储空间大、运算能力强。所以此技术主要应用于系统机和服务器。随着嵌 入式技术的发展,需要开发适用于嵌入式设备的语音合成系统。实现嵌入式语音 合成系统的关键在于合理、有效的减小语音库的容量。 1 3 嵌入式语音合成前景 嵌入式语音合成技术是指在嵌入式系统中实现语音合成技术,它基于嵌入式 操作系统,采用语音合成技术结合语音识别技术,可以应用在手持设备、智能家 电等多个领域,赋予这些设备人性化的交互方式和便利的使用方法;也可应用于 玩具中,实现声控玩具、仿真宠物、与人对话玩具;也能应用于车载通信设备, 实现人机交流;也可以应用在移动通信设备中,比如手机有短消息来时,我们不 必费力地去看,而是可以通过简单的按键让手机朗读出来。总之,嵌入式语音合 成技术可以广泛应用于社会生活的多个领域中,具有广阔的应用前景1 8 j 。 1 4 本文研究内容及文章结构 本文内容包括语音库基元的确定与获取、韵律标注、语音库构建以及合成基 元搜索等,其中重点研究基于变形c 6 邮( c l 嬲s i f i c a t i o n 锄dr e g r e s s i o n1 r e e s ) 模 型和改进k _ 中心聚类算法的语音库构建方法。这种方法可以在保证合成音质的 前提下,合理、有效的降低语音库的规模和算法复杂度,满足嵌入式设备的要求。 本文共有六章,其中,第一章是项目的概述;第二至四章,主要介绍嵌入式 汉语合成语音库的构建与搜索,其中包含基元的确定与获取,语音库的预分类、 统计分析、聚类裁剪,以及合成基元搜索等;第五章中采用裁剪得到的语音库以 及与之对应的合成基元搜索算法,搭建出语音合成系统,并从资源消耗以及语音 合成效果等方面来进行评测;第六章,对全文进行了总结,并指出今后的研究方 向。 2 山东大学硕士学位论文 2 1 基元的确定 第二章基元类型的选取 在建立嵌入式汉语合成语音库时,基本语音单元的选择【9 】是一个很重要的问 题。由于受到嵌入式设备资源的限制,基本语音单元的数目应该越少越好;从另 一个角度来说,由于受到合成语音音质的限制,基本语音单元的数目应该越多越 好。所以在选择基本语音单元时,要充分考虑嵌入式设备资源和语音库合成音质 的合理折中问题,以便得到最小冗余度、最大覆盖率、更加科学合理的语音库。 根据汉语语音的特点,音节和声韵母是介于词或句子和音素之间的语音合成 单元。汉语中带有声调的音节共有1 2 7 8 个( 包括轻声调) ,以这些音节作为语音基 元组成的语音库体积小,同时也省去了音节内韵律的修正计算,具有合成语音音 质好、可以灵活控制汉语词组和句子的韵律等优点。汉语拼音方案中规定【1 0 1 , 汉语有2 2 个声母( 包括零声母) ,3 8 个韵母。所以以声韵母作为语音库的基本语 音单元时,能够在牺牲一定合成音质的基础上,得到更小体积的语音库。 因此,我们分别选用带有声调的音节和声韵母作为基元构建不同裁剪比例的 嵌入式汉语合成语音库。 2 2 音节基元的获取和标注 1 基元的获取 要获得合适的基元,先要选好语料库,然后根据需要从语料库中切割出相 应的基元。我们选用的原始语料库以可扩展标记语言【l l 】【1 2 】( l ) 为载体,对 韵律信息进行分层标注,从最低层音节信息,到韵律词、韵律短语、句子,直 到篇章级的信息均能覆盖。标注数据文件记录句子中每个音节的汉字、拼音、 i p a 音标和始末位置等信息,同时标明韵律词和韵律短语的层级结构。 本文中,每个音节的边界是由语料库中x 】l 文档的标注数据中的始末位 置信息确定的,而每个音节的命名则是由标注数据中的其它信息,如拼音、声 调等确定的。因此,音节基元切分的实现过程是首先读取删l 标注文档,获 得基元切割所需要的拼音、声调和始末位置等信息;然后根据得到的信息,用 山东大学硕士学位论文 m a l l a b 程序或v c n e t 程序实现音节基元的切割和标注,从而得到原始语音 库的音节基元数据库。 下面以“他还远游西安碑林 这句话为例,具体实现音节基元的切分 过程。首先,给出了例句基于x m l 文档的标注信息1 3 1 。由于篇幅所限,句子 中部分内容的标注信息以缩略形式给出。 ( ! d 0 c t y p eu t t e r a n c e 厂怕ws b u r c e d r7 0 ,l 如c 亡y p e , 一 ( 5 i ie n ds a m p l e = ”1 4 4 9 6 。 一 + 一 一 ( s y a b i ec h c h a r = “1 电”p i n y i n = “t a1 。e n d s a m p i e = 。5 2 5 7 6 。 ( 5 y a b i ec h c h a r = 。i e “p i n y i n = 。h a i 2 。 日n d s a m p l e = 。5 81 3 2 。 一 ( p r 口5 0 d i c w o r d 一 ( 5 i ie n ds a m d l e = ”7 2 7 2 9 。 ( 5 y a b l ec h c h a r = “西”p i n y i n = ”x i1 。 e n d s a m p l e = 。7 9 8 7 2 。) ( s y | l a b i ec h c h a r = 。安p i n y i n = a n l 。 日n d s a m p i e = “8 7 2 4 日” ( p r o s o d i c w o r a 一( 口r o s o d i c w o r d ( s i le n ds a m 口l e = ”8 8 2 5 6 。) ( 5 v a b i ec hc h a r = “- ”p i n y i n = “b e i l 。 ( s i le n d5 a m 口l e = ”9 31 6 6 ” ( s y a b i ec h c h a r = “林“p i n y i n = ”n 2 。 ( p r o s o d i c p h r a s e + ( d r 0 5 0 a l c 口h r a 5 e + ( 5 e 几t e n c e 山东大学硕士学位论文 该音节的开始抽样点是6 6 0 9 6 ,结尾抽样点是7 2 6 2 4 。以这两个抽样点为边 界,它们之间的所有抽样点代表的就是音节“游”。以此类推,用同样的方法, 我们就可以把基于语句的原始语料库切割成音节级的语音基元库。 一 2 基元的标注 。 切割原始语音库后得到的音节基元中,有很多具有相同的拼音、声调等, 怎么区分它们呢? 本文根据各个音节具有不同的韵律特征这一特点,为音节基 元库中的基元做标注,以达到区分它们的目的。 :一 基元标注就是为每个基元标注特征信息,包含音段特征和超音段特征。其 中,音段特征包括拼音、声调和位置等信息;超音段特征也被称为韵律特征, 一般指音高、音强和音长,主要涉及到基频、能量和时长等语音特征。 对于音段标注和韵律标注,目前没有一个公认的标注系统。我们参考国际 上的标音系统s a m p a 和t o b i 【1 4 】,设计了适合于汉语的音段和韵律特征标注系 统。与标准相对应,每个音节基元的标注信息也由两部分组成,即自身特征标 注信息和相关特征标注信息。经过多次实验,最终确定采用下列特征信息对音 节基元进行标注。 自身特征标注信息用一个六维的特征矢量表示,定义为: v 1 = w 打e n 锄e ,p i n n ,t 0 n e ,p o s ,d u r t i m e ,a v g f 0 ) 其中,w a v e n 锄e 是音节来源语句的文件名;p i n y i n 是指音节的汉语拼音;t o m 表示音节的声调;p o s 是音节在来源语句中的位置;d u r t i m e 是音节的时长; a v 萨o 表示音节的平均基频。 相关特征标注信息用一个二维的特征矢量表示,定义为: v 2 = l e r t o n e ,硒g h t t o m ) 其中,l e 御n e 表示与音节相邻的左边音节的声调:砌曲t t o n e 表示与音节相邻 的右边音节的声调。 所以基元库中每个音节的标注信息就表示为: v = v 1 ,v 2 ) 这样我们就可以得到一个带有丰富标注信息的音节级的语音库,它将被用 于语音库裁剪。 山东大学硕士学位论文 2 - 3 声韵母基元的获取及标注 1 基元的获取 汉语是一种有调的单音节语系,由声母和韵母拼音而成,加上声调,即为 一个汉字。其中声母主要是清音,具有高频噪声性,调母( 由于韵母有声调, 故也称为调母) 都是浊音,具有低频类周期性1 5 】。针对汉语音节的这种“ 声母 + 韵母结构特点,本文采用一种基于声韵母的不同特点进行切割的声韵母切 分方法,即利用语音信号多个特征进行端点检测和分割的算法【1 6 】。其中心思想 是:基于语音的短时参数,通过与设定的域值相比较来确定声韵母的切分点。 经过实验验证,该算法可得到较好的效果。 2 基元的标注 裁剪音节基元库后得到的声韵母基元库中同样有很多具有相同音段特征的 基元,所以我们也要为声韵母基元库中的基元做类似音节基元的特征标注。声 韵母的音段特征主要包含声母、韵母、声调和位置等信息;超音段特征则主要 涉及频率和m e l 频率倒谱系数【1 0 1 ( m f c c ) 。针对声母和韵母的不同特点,在定 义特征矢量时,本文对声母和韵母进行不同的处理,具体表现为采用的超音段 特征不同。经过多次实验,最终确定采用下列特征信息进行标注: ( 1 ) 声母的特征信息 其自身特征标注信息用一个五维的特征矢量表示,定义为: v l = w a v e n 锄e ,“t i a l ,t o n e ,p o s ,m f f c f h l l ) 其中,w 打e n a i 】舱是声母所在音节的来源语句的文件名;i n j t i a l 是指声母的汉语 拼音;t o n e 表示声母所在音节的声调;p o s 是声母所在音节在来源语句中的位 置;m f f c 觚表示声母的m f c c 的行数( 列数默认为1 2 ) ,用于从另一个文档 中读取声母对应的m f c c 。 其相关特征标注信息用一个二维的特征矢量表示,定义为: v 2 = l e 觚0 n e ,鼬曲t t 0 眦 其中,l e 御b n e 表示与声母所在音节相邻的左边音节的声调;鼬曲t t b n e 表示与 声母所在音节相邻的右边音节的声调。 ( 2 ) 韵母的特征信息 其自身特征标注信息用一个五维的特征矢量表示,定义为: 6 山东大学硕士学位论文 v 1 = 、7 l ,a v e n 锄e ,f i n a l ,t b n e ,p o s ,a v g f 0 ) 其中,w a v e n 锄e 是韵母所在音节的来源语句的文件名;f i n 2 l l 是指韵母的汉语 拼音;t o n e 表示韵母的声调;p o s 是韵母所在音节在来源语句中的位置;a v g f o 表示韵母的平均频率。 其相关特征标注信息用一个二维的特征矢量表示,定义为: v 2 = l e r t o n e ,r i g h t t o n e ) 其中,l e 彻b n e 表示与韵母所在音节相邻的左边音节的声调;硒g h t t o n e 表示与 韵母所在音节相邻的右边音节的声调。 所以基元库中声韵母的标注信息也可表示为: v 2 v l ,v 2 此外,考虑到不同声母的姗c c 的行数不同这一特点,我们把m f c c 单独 写在一个标注文档中,以方便实验时进行读写操作。这样就实现了对声韵母级 语音库的标注,以便我们构建一个声韵母级的、符合嵌入式设备要求的嵌入式 汉语合成语音库。 7 山东大学硕士学位论文 第三章嵌入式语音库构建 大语料库语音合成方法,由于能够产生高自然度的合成语音,是目前应用较 多的语音合成方法。但是完备的大语料库消耗大量资源,不满足嵌入式环境下极 低资源消耗的要求。为了把成熟的大语料库合成技术应用到前景更加广阔的嵌入 式环境下,我们对原始大语料库进行数据挖掘【1 7 】。通过合理、适度的聚类裁减, 制作出资源消耗小,同时又尽量覆盖原始语音库中韵律特征的语音库。在合成效 果和资源消耗之间进行最好的权衡。 本章研究基于变形c 灿盯模型和改进k 一中心聚类算法的嵌入式汉语合成语 音库的构建方法。首先,采用基于变形c p 旧模型的预分类方法对原始大语料库 进行预分类;然后,进行统计和分析,得到原始大语料库中音节种类、总数等数 据,以确定裁剪函数;最后,选择合适的声学参数,对各个叶节点中的所有样本 进行改进k 一中心聚类裁剪。其中,聚类中心的个数由裁剪函数确定。 此外,考虑到合成基元搜索效率与语音库存储结构相关这一特点,为了便于 设计更高效的合成基元搜索算法,语音库的存储采用“顺序+ 树形 结构。 3 1 基于变形c 剐r t 模型的预分类 决策树【1 8 】又称多类分类器,适合于多类或多峰值的分类问题。决策树中如 何选择决策属性是比较关键的,只有选择对韵律特征影响较大的属性作为分类 标准,才能取得比较好的映射关系,使相近上下文环境所映射到的所有候选单 元的韵律特征比较接近。 c 灿玎是决策树的一种,本文后面提到的决策树都是指c m 汀。决策树有 两个主要功能:训练和决策。决策树的训练功能就是构建二叉树的过程。初始 根节点包含所有的单元样本,然后用样本的每个属性构成的问题对根节点分别 进行提问测试,按最优的提问把根节点分裂成两个子节点,接着递归对每个子 节点按照上述办法分裂下去,直到满足停止条件为止。所以,决策树的训练功 能可归纳为三个步骤:定义问题集、确定分裂准则和训练算法。 常用的分裂准则有两类:一类是需要计算的,即给出一个公式作为分裂标 8 山东大学硕士学位论文 准;另一类不需要计算,而是把人类已有的关于语音学的知识作为分裂准则。 在分裂准则不同时,决策树训练算法的整体流程不变,只是在细节上会稍有变 化,这点将在3 4 节实验结果中详细介绍。 这里讨论的变形c 灿玎训练算法是一种基于已有语音学知识的多叉决策树 训练算法,有两大特点:一是本算法的分裂准则是基于已有语音学知识的,即 构建决策树问题集的顺序不是随机确定的,而是根据人类已有的语音学知识( 与 问题相关的不同特征值对韵律影响的强弱不同) 确定的,从而减小了计算量, 提高了效率;二是使用“顺序+ 树形 的存储结构,相比一般二叉树而言,增加 了树的宽度,减小了树的深度,为下一章设计更高效的合成基元搜索算法奠定 了基础。 因为我们分别选用带有声调的音节和声韵母作基元,所以下面将分情况介 绍基于变形c 灿盯模型的语音库预分类方法。 3 1 1 基于音节的预分类 1 定义问题集 为了训练决策树,首先要定义一个问题集。不同的问题对分类所起的作用 不同,要选取最能影响韵律特征的特征值来设计训练决策树所需要的问题集。 我们首先选用音节的拼音、声调、左声调( 即前音节的声调) 和右声调( 即后 音节的声调) 作为特征值,进行一次预分类操作;然后选用音节的拼音、声调 和左声调作为特征值,再次进行预分类操作。 2 分裂准则 基于已有语音学知识的分裂准则利用设计问题的特征值对韵律影响的强弱 不同这一特征,根据语音学知识,确定各个特征值对韵律影响的强弱,进而确 定各个问题的先后顺序。该准则不需要计算,可以减小计算量,提高效率,所 以适合应用于嵌入式汉语合成语音库的构建过程。 在进行基于音节的语音库预分类时,问题集中各个问题的先后顺序为:( 1 ) 根据拼音首字母和声调分裂得根节点;( 2 ) 根据拼音分裂根节点;( 3 ) 根据左 声调分裂子节点;( 4 ) 根据右声调分裂子节点,得叶节点。 3 训练算法 首先,把语音基元库中音节拼音首字母、声调相同的所有基元样本作为一 9 山东大学硕士学位论文 个根节点。因此,整个语音基元库包含若干个根节点:然后,按照由首字母和 声调确定的顺序,处理各个根节点: 步骤1 ,对一个根节点,根据问题集分叉,这里是多叉而不是二叉。按由 分裂准则确定的问题的先后顺序回答问题集中的问题,从而把语音基元库中的 音节基元聚集到对应的叶节点。 步骤2 ,如果还有未处理的根节点,转到步骤1 。如此循环,直到处理完所 有的根节点。 3 1 2 基于声韵母的预分类 针对声母和韵母的不同特点,我们首先把基于声韵母的原始语音库分成三 部分:声母语音库、韵母语音库和零声母语音库;然后采用变形c a i 玎算法对 各个部分分别进行预分类操作。 1 问题集 我们选择声母拼音、韵母拼音和声调作为特征值。 2 分裂准则 在对声韵母的语音库进行预分类时,同样也采用基于已有语音学知识的分 裂准则。对声母语音库和韵母语音库的预分类问题集中各个问题的先后顺序做 如下安排:首先,根据声母或韵母拼音分裂原始声母或韵母语音库得出根节点; 然后,根据韵母或声母拼音分裂根节点;最后,根据声调分裂子节点得到叶节 点。此外,零声母语音库要区别处理,具体过程如下:首先,根据零声母拼音 分裂得根节点;然后,根据声调分裂根节点得到叶节点。 3 训练算法 基于声韵母的决策树训练算法与3 1 1 小节中的训练算法相同,只是因为 处理对象不同,一个是音节样本集,一个是声韵母样本集,所以训练过程中用 到的具体特征值以及分裂准则不同。 3 2 统计分析 首先对原始大语料库进行统计和分析,得到其中各参数( 见表3 1 ) 的统计 数据,然后根据裁剪要求、统计数据以及实验测听结果的反馈设置合适的裁剪函 l o : 山东大学硕士学位论文 数,以用于后面的语音库聚类裁剪。 表3 1 语料库相关统计数据 原始语料库中的音节种类 s o n n u m 原始语料库中音节总数目 a l l n 啪 各种音节在原始语料库中出现的数目s e 印啪 各个叶节点内音节数目 l e a f h u m 通过下列步骤可以实现基于音节的语音基元库中各个数据的统计: 步骤1 ,用v c n e t 程序统计语音库预分类后各个叶节点内样本基元个数。 步骤2 ,计算各个叶节点内样本基元个数占语音基元数据库中样本基元总 数的比例。一 步骤3 ,按比例确定各个叶节点应该保留的聚类中心个数,得到裁剪函数。 基于声韵母的语音基元库中各个数据的统计可以采用相同的方法实现,在 此不再赘述。 裁剪函数定义为: ,= 厂( 砒) ( 3 1 ) j 其中,砒是各个叶节点内样本个数占语音基元数据库中样本基元总数的比例, i 用公式表示为: 朋f p = 上p 刃锄甜聊彳,l i l 甜聊 ( 3 2 ) 其中,彳,1 n “m 是原始语料库中音节总数目,粥励“研是各个叶节点内音节的数 目。 根据统计数据以及具体语音库所要求的裁剪力度来设置裁剪函数。本文基 于音节进行了三次聚类裁剪,第一次是基于原始基元库的,经过多次实验,得 到裁剪函数为: 厂( 朋f p ) = 6 4阳纪 = 3 0 0 9 3 3 1 8 3 21 0 0 9 3 3 1 8 = 厂口纪 3 0 0 9 3 3 1 8 1 68 0 9 3 3 1 8 = ,口把 1 0 0 9 3 3 1 8 86 0 9 3 3 1 8 : ,口把 8 0 9 3 3 1 8 ( 3 3 ) 44 0 9 3 3 1 8 = ,口纪 6 0 9 3 3 1 8 2 1 0 9 3 3 1 8 = m 纪 4 0 9 3 3 1 8 l 阳把 2 0 0 2 4 6 3 9 6 49 0 2 4 6 3 9 ,口纪 2 0 0 2 4 6 3 9 3 24 4 2 4 6 3 9 r 口f p 9 0 2 4 6 3 9 1 62 7 2 4 6 3 9 ,口f p 4 4 2 4 6 3 9 81 3 2 4 6 3 9 阳纪 2 7 2 4 6 3 9 ( 3 4 ) 46 2 4 6 3 9 r 口把 1 3 2 4 6 3 9 23 2 4 6 3 9 ,口纪 6 2 4 6 3 9 1其它 由于进行基于音节的第三次聚类裁剪时,每个叶节点内基元样本的个数比 较少,所以裁剪函数可以简化为: ( 加招) = l ,v 朋f p ( 3 5 ) 同样,因为基于声韵母的聚类裁剪是基于裁剪后得到的最简音节语音库进 行的,所以它的裁剪函数同式( 3 5 ) 。 下面根据统计分析得到的裁剪函数进行聚类裁剪,得到小型、精简的语音 库。 3 3 聚类裁剪 通过统计分析确定了裁剪函数之后,运用固定聚类数目的改进l 中心算 法一l b g 聚类算法,对语音库预分类操作后得到的各叶节点进行聚类裁剪。其中, 聚类中心的个数分别由统计分析得到的裁剪函数( 3 3 ) 、( 3 4 ) 以及( 3 5 ) 确 定。 在聚类裁剪时,针对不同的基元具有不同的特性这一特点,选择不同的声学 参数来计算基元样本间的距离。为了计算音节基元样本间的距离,选择时长和平 均频率这两种声学参数作为特征值。在计算声母、韵母以及零声母基元样本间的 距离时,声母采用1 2 维m f c c 作为声学参数,韵母则是采用平均频率作为声学参 数。因为零声母相当于音节中没有声母只有韵母,所以也采用平均频率作为声学 参数。 我们采用对原始语音库进行回归的方法对聚类裁剪结果进行效果检测。就是 用聚类裁剪后的类中心替代样本,然后对比替代后句子拼接合成出来的效果与原 山东大学硕士学位论文 始录音句子效果的偏差。这样就可以分析出聚类裁剪之后自然度、流畅度等的损 失的大小,从而验证嵌入式合成语音库构建方法的效果。 3 4 实验结果 在对基于音节的语音库进行预分类操作时,我们把具有相同拼音首字母、 相同声调的样本基元的集合称为“块”。其中,每个块的命名方式是:拼音首字 母+ 声调。拼音首字母包括a z 2 6 个英文字母;声调包括阴平、阳平、上声、去 声和轻声五种,分别用1 ,2 ,3 ,4 ,5 表示。所以,块的名字有2 6 木5 种可能, 它们分别是:a 1 ,a 2 ,z 4 ,z 5 。 ” 同样,在对基于声韵母的语音库进行预分类操作时,我们把具有相同声母 或韵母或零声母的样本基元的集合称为“块”。其中,每个块以拼音命名;声母 拼音有2 1 个,包括b ,p c ,s ;韵母拼音共有3 8 个,包括a ,o ,e ,v a i l ,: 、,l l ;零声母是指音节拼音中那些没有声母只有韵母的拼音和那些以y 或w 开头 的拼音。 3 4 1 音节基元库 考虑到基于音节的块可以组成2 6 ,i c 5 个具有相同属性的数据元素的有限序; 列,而且各个数据元素有着依次相邻的逻辑关系,所以本文把音节块顺序存储, 以便于搜索时用顺序搜索方法,降低算法复杂度,提高效率。 由于块数量少,所以可以用顺序存储。但是,同一块的内部有大量的基元 样本,这时就不再适合顺序存储。所以我们把同一块内部的样本基元存储成树 形结构。这里构建的基于音节的嵌入式汉语合成语音库采用“顺序+ 树形结构 存储。 第二次聚类裁剪时,先基于拼音、声调、左声调和右声调对原始基元库进 行预分类操作,然后采用裁剪函数( 3 3 ) 聚类裁剪构建音节基元库,其结构如 图3 1 所示。第二次基于第一次得到的语音库,再次进行预分类,这次定义问 题集的特征值只涉及到拼音、声调和左声调,然后采用裁剪函数( 3 4 ) 进行聚 类裁剪,得到音节基元库的结构如图3 2 所示。第三次的预分类操作和语音库 存储结构都跟第二次一致,只是裁剪函数不同而已。 山东大学硕士学位论文 拼音首字母+ 声调 。辐若量。 叶节点 图3 1 基于音节的第一次聚类裁剪后得到的语音库 辐;。 叶节点 图3 2 基于音节的第二次聚类裁剪后得到的语音库 其中,虚线框中部分代表块a 1 ,a 5 ,b 1 ,y 2 ,z 5 ,它们是顺序存储的; 块内样本基元则存储为树形结构。 基于音节的第三次聚类裁剪后得到的语音库的结构如图3 2 所示,只是每 个叶节点内保留的样本数更少而已。 1 4 山东大学硕士学位论文 3 4 2 声韵母基元库 为了后续处理方便,这里将声韵母基元库分成三部分存储:声母基元库、 韵母基元库和零声母基元库。相应的声韵零声母语音库分别存储成图3 3 、 图3 4 和图3 5 所示结构: 韵母 声调 图3 3 基于声母聚类裁剪后的语音库 声母 声调 图3 4 基于韵母聚类裁剪后的语音库 三碧 兰| l | 三碧 兰一 山东大学硕士学位论文 零声 母原 始语 音库 图3 5 基于零声母聚类裁剪后的语音库 同样,在图3 3 、3 4 以及3 5 中,虚线框的部分代表块,顺序存储。三个语音 库中块内样本基元都是树形结构存储的,只是树的深度以及每个叶节点内包含 的代表样本基元数不同。 此时,我们得到了小型、精简的语音库,完成了嵌入式汉语合成语音库的 构建工作。 1 6 山东大学硕士学位论文 第四章合成基元的搜索 在基于大规模语音数据库的双模块t t s 系统中【1 9 】,语音基元选自包含有大量 自然语句的语音数据库,所以基于这些基元直接拼接合成的语音,具有较高的自 然度。在这样的系统中,如何选择合适的合成基元( 即合成基元搜索) ,成为一 项重要的工作,它直接决定了合成语音的质量。 适用于嵌入式设备的语音数据库,规模比较小,包含的韵律特征不完整,所 以要想得到高质量的合成语音,除了要有合适的基元搜索算法外,最好还要进行 韵律控制【2 0 j 。这里只讨论基于嵌入式语音库存储结构的合成基元搜索算法。 本文采用索引决策树搜索算法从语音数据库中检索目标语音基元。首先,在 块之间使用顺序查找法【2 1 】【2 2 1 ,找到对应的块;然后,根据基元的音段特征参数, 利用决策树分类方法确定块内基元所在的叶节尉8 】;最后,选择合适的韵律特征 参数计算基元间的距离,利用t e r b i 算法使代价最小,得到与目标语音基元最匹 配的合成基元【驯。 4 1 索引决策树搜索算法 在合成基元搜索之前,首先要把目标语句从普通文本形式转换成x l l 标注 文档的形式。然后将x m l 标注文档作为输入,利用索引决策树搜索算法一步步 的缩小候选基元集合,直到得到最佳合成基元。算法步骤如下: 步骤1 ,利用目标单元的拼音首字母和声调这两种音段特征值,顺序搜索 找到对应的块。 步骤2 ,根据目标单元的拼音、左声调、右声调等音段特征值,在块内决 策树搜索找到最适合的叶节点。 步骤3 ,如果这个叶节点中只有一个聚类中心,那么返回这个中心基元样 本,完成搜索。 步骤4 ,如果这个叶节点中不止一个聚类中心,那么,计算目标单元和这 个叶节点中所有聚类中心的距离,即目标代价,返回目标代价较小的若干个聚 类中心作为候选基元。 步骤5 ,如果还有目标单元的候选基元没有选出,那么回到步骤1 :否则, 1 7 山东大学硕士学位论文 继续。 步骤6 ,基于拼接代价,利用v i t e r b i 算法,在候选基元集中进一步搜索, 得到使代价最小的基元,完成搜索。 4 2 算法实例 4 2 1 基于音节语音库的基元搜索 在基于音节语音库的合成基元搜索过程中,首先要找到语句中每个字的候 选基元集;然后利用t e r b i 算法得到使拼接代价最小的合成基元序列。 我们通过例句“由国务院办公厅签发”,具体介绍合成基元搜索方法。这里 只详细说明如何搜索“由 字的候选基元集,其它字的候选基元集的搜索方法 基本相同。 第一步,进行顺序查找。以音节音段特征中的拼音的首字母和声调作为关 键值,顺序搜索找到块“y 2 ”。其中,字母对应音节拼音的首字母,数字对 应音节的声调。 : 第二步,在块内根据决策树搜索算法寻找音段特征与目标基元的音段特征 最匹配的叶节点。通过回答决策树中的问题,我们找到与“由 字对应的叶节 点“y 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 技术团队文档编写及项目管理规范手册
- 商务部培训课件
- 跨部门协作沟通工具会议纪要与任务分配指南
- 手术后梳头特色护理
- 药剂科在职教育培训课件
- 比亚迪培训课件下载链接
- 老年病和护理
- 罗伊个案护理模板
- 农民合作社资产优化整合协议
- 康复中心项目计划书
- 2025年政工师考试试题及参考答案
- 2025年检验检测人员理论考试试题及答案
- 2025-2030奢侈品礼品包装消费行为与品牌战略分析报告
- (2025年标准)个人转款协议书
- 2025年电力交易员(高级工)考试复习题库(含答案)
- 区域检验信息管理系统规划书
- 冷库安全基本知识培训课件
- 澄海玩具行业出口中存在的问题及对策分析
- 工业园区集中供热配套建设项目可行性研究报告
- 2025年应急管理普法知识竞赛题(附答案)
- 2024-2030全球飞机拆解再制造行业调研及趋势分析报告
评论
0/150
提交评论