(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf_第1页
(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf_第2页
(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf_第3页
(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf_第4页
(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(电路与系统专业论文)汉语tts中的韵律建模与合成方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着计算机技术的进步和其他相关学科的发展,在过去的几十年 间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。 在现阶段,语音合成技术主要是以文语转换系统( t e x t t o s p e e c h ,t t s ) 为研究重点。这是一种将输入的文本转换为语音输出的技术。t t s 系统 一般由文本分析、韵律控制、语音合成和基元库四个模块组成。这西 个模块并不是相互孤立的,每一个模块的性能都对最终输出语音豹质 量有很大的影响。 对合成系统输出语音音质的评价是多方面的,但主要集中在输出 语音的清晰度,可懂度和自然度这三个方面。当前,t t s 系统的输出语 音在清晰度和可懂度方面已经达到了比较高的水平,而在语音的整体 自然度方面还有待提高。本文主要研究了韵律控制和语音合成这两个 模块,希望通过对这两个模块的研究与改进来提高合成语音的自然度。 韵律控制模块对合成语音的自然度有报大的影响,对这部分的研 究包括多个方面,这里选择韵律建模作为研究重点。韵律模型可以将 一些定性的高层韵律信息转换为定量的声学参数,以便提供给后面的 语音合成模块使用。本文运用人工神经网络技术设计并实现了一个用 于预测汉语音节基频曲线、时长和停顿的模型。实验表明,这个模型 在一定程度上能够较好的反映汉语陈述句中音节的基频曲线、时长和 停顿的变化情况。 语音合成模块负责最终语音的输出,现在普遍采用波形拼接技术。 在选择最优的合成基元序列的同时,此模块也需要对其中一些语音波 形做适当的修正,以使合成语音听上去更加流畅自然。本文在研究了 最优基元选择算法的同时,也研究了一种基于傅立叶变换的语音频谱 平滑算法。此算法能够较好的进行语音频谱平滑并且在一定程度上避 免了传统算法使合成语音质量有较大下降的问题。 为综合验证算法的性能,本文构建了一个简易的t t s 系统,在其 中采雳了上面介绍的算法。听音测试表明,此系统的合成语音自然度 山东大学硕士学位论文 j l 一 坟局。 关键字:语音合成;人工神经网络;韵律建模;频谱修正 山东大学硕士学位论文 a b s t r a c t d u r i n gt h ep a s tf e wd e c a d e s 。w i t ht h ed e v e l o p m e n to fc o m p u t e ra n do t h e r r e l a t e ds u b j e c t s ,t h es p e e c hs y n t h e s i st e c h n i q u ep r o g r e s s e dal o t 。n o w a d a y s , s p e e c hs y n t h e s i st e c h n i q u ef o c u s e so nt e x t - t o s p e e c h ( - 丌s ) 1 t si s a t e c h n i q u et h a t c a nc o n v e dt h ei n p u tt e x t i n t os p e e c ho u t p u t g e n e r a l l y s p e a k i n g ,at t ss y s t e mc o n s i s t so ff o u rm o d u l e s ,i n c l u d i n gt e x ta n a l y s i s , p r o s o d yc o n t r o l ,s p e e c h s y n t h e s i sa n du n i td a t a b a s e h o w e v e r , t h ef o u r m o d u l e sa r en o ti n d e p e n d e n t t h eq u a l i t yo fo u t p u ts p e e c hi si m p a c t e dg r e a t l y b ye v e r ys i n g l em o d u l e t h ee s t i m a t i o nt oo u t p u ts p e e c hr e l a t e st om a n ya s p e c t s ,b u tm a i n l yt o d e f i n i t i o n , u n d e r s t a n d a b i l i t y a n dn a t u r a l n e s s t h e d e f i n i t i o na n d u n d e r s t a n d a b i l i t yo fe x i s t i n g 盯ss y s t e m sa r es a t i s f a c t o r yn o w , b u tt h eo v e r a l l n a t u r a l n e s ss t i l ln e e dt ob ei m p r o v e d i nt h i st h e s i s ,w er e s e a r c hp r o s o d y c o n t r o la n ds p e e c hs y n t h e s i st h e s et w om o d u l e st oi m p r o v et h eo u t p u t s p e e c hn a t u r a l n e s s 。 t h ep r o s o d yc o n t r o lm o d u l eg r e a t l yi m p a c t st h en a t u r a l n e s so ft h eo u t p u t s p e e c h t h e r ea r em a n yr e s e a r c hs u b j e c t si np r o s o d yc o n t r o l ,b u tw e f o c u s o np r o s o d ym o d e l i n g 。p r o s o d ym o d e li su s e dt op r e d i c tt h eq u a n t i t i v e a c o u s t i c s p a r a m e t e r sa c c o r d i n g t ot h e h i g h l e v e l q u a l i t a t i v ep r o s o d y i n f o r m a t i o n w ed e s i g na n di m p l e m e n tap r e d i c t o r , w h i c hc a np r e d i c tt h ep i t c h c o n t o u r , d u r a t i o na n dp a u s eo fc h i n e s es y l l a b l e 。e x p e r i m e n tr e s u l ts h o w st h a t t h i sm o d e li sa c c u r a t ee n o u g ht op r e d i c tt h e s ep a r a m e t e r s t h es p e e c hs y n t h e s i sm o d u l eb u i l d st h ef i n a lo u t p u ts p e e c h ,a n dg e n e r a l l y a d o p 埝t h ew a v e f o r mc o n c a t e n a t i o nt e c h n i q u e a f t e rt h es e l e c t i o no fo p t i m a l u n i t s ,i ta l s od o e ss o m em o d i f i c a t i o nt ot h ew a v e f o r mt om a k et h es p e e c h m o r en a t u r a l i nt h i sp a p e r | a no p t i m a lu n i ts e l e c t i o na l g o r i t h ma n daf o u d e r b a s e ds p e e c hs p e c t r a lm o d i f i c a t i o na l g o r i t h ma r ei n t r o d u c e di nd e t a i l 。t h i s m o d i f i c a t i o na l g o r i t h mn o to n l ys m o o t h e st h es p e e c hs p e c t r u m ,b u ta l s oa v o i d 掰 山东大学硕士学位论文 t h ep r o b l e mo fs y n t h e s i z e ds p e e c hq u a l i t yd e g r a d i n gw h i c hi sc a u s e db y t r a di t i o n a la l g o r i t h m t ov e r i f yt h ep e r f o r m a n c eo fa l g o r i t h m s ,as i m p l e 丌ss y s t e mi sc o n s t r u c t e di n t h i s p a p e ew h i c hu t i l i z e s a l lt h em e n t i o n e da l g o r i t h m s t h el i s t e n i n gt e s t i n d i c a t e st h a tt h eo u t p u ts p e e c hi sm o r en a t u r a lt h a np r e v i o u ss y s t e mt os o m e e x t e n t k e y w o r d s :s p e e c hs y n t h e s i s ,a n n ,p r o s o d ym o d e l i n g ,s p e c t r a l m o d i f i c a t i o n 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体己经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:壅型e l 期:竺至兰:! z 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:垒堡旦导师签名:黾! ! 垦日期:丝! 童:1 2 山东大学硕士学位论文 1 1 引言 第一章绪诡 随着社会的发展,各种各样的祝器逐渐参与到人们的圜常工作和 生活中,怎样使人们更加方便的与机器进行交互成为一个重要的研究 课题。语音无疑是人类最重要的交流正具,它自然方便、准确高效。 因此,使用语音迸行入机交互成为人们的理想。同时,这也极大的推 动了语音处理技术的发展。到目前为止,语音处理技术的发展已经走 过了一百多年的历史,其闻取得了很多的研究成果。但语音处理技 术的真正繁荣还是近几十年的事情。语音处理主要包括语音识别、语 音合成和语音编码等。现在,语音处理技术已经发展成为涉及语音学、 语言学、生理学、信号处理、计算机等多个学科的交叉学科,并成为 冒前发展最为迅速的一个研究领域。 语音合成的目的是让机器能够像人一样说话,使一些其他存储方 式的信息麓够转化成语音信号,让人们可以简单的通过听觉就可以获 得大量的信息。语音合成技术除了在入机交互中的应用外,在自动控 制、办公自动化、信息管理系统、智能机器人等领域也有着广泛的应 用前景。目前,应用了语裔合成技术的语音报时器、电话查询业务、 银行排队系统、车载g p s 等均己实现商品化。另外,语音合成技术还 可以作为听觉、视觉和语音表达有障碍的伤残人士的辅助通信工具。 1 2 。语音合成技术 人在发出声音之前需要进行一系列的高级神经活动,即先有一个 说话的意囱然蘑围绕该意向生成一系列相关的概念,最后将这些概念 组织成语句发音输出。按照人在说话过程中所用到的各种知识,可以 将语音合成由浅到深分成三个层次:按规则从文本到语音的合成 ( 零e x 专一l o s p e 8 e 套) ;按规则从概念到语音的合成 ( c o n c e p t t o s p e e c h ) ;按规则从意向到语音的合成 山东大学硕士学位论文 ( i n t e n tio n t o - s p e e c h ) 。目前,语音合成技术的研究还局限在从文本 到语音的合成上,也就是通常所说的文语转换系统或t t s 系统。 t t s 素统一般由文本分析、韵律控制、语音合成以及基元库这几个 模块组成,如图1 1 所示: 2 2 1 文本分析 图1 1 一般t t s 系统的组成框图 语 】生 日 文本分析是t t s 系统的前端,它的主要作用是对输入的文本进行 分析理解,并为后端的模块提供必要的信息。应该说,一个理想的文 本分析器同时就是一个理想的自然语言理解程序。因此文本分析模块 的输出是带有一定标记的音标序列,在这些标记中就包含了必要的韵 律控制信息,如轻重缓急,抑扬顿挫,甚至是不同的感情风格等。对 于高自然度的任意文本t t s 系统来说,文本分析要给出尽可能详细的 语言学和语音学信息,使最终的合成语音更加自然流畅。但就目前语 音合成的现状来看,文本分析是制约合成语音自然度提高的一个重要 因素。 2 。2 2 韵律控制 韵律是一个听觉感知的概念。它是语言交际的必要手段,它能帮 助听者更好地理解话音所携带的信息。目前,合成语音的自然度还不 是很理想,其根本问题就是不能对自然语流中的韵律进行有效的模拟。 2 山东大学硕士学位论文 在自然语流中,人们使用语调、节奏和重音等方式来表达说话者的意 向和情感,这些韵律特征是自然语流的重要组成部分。而语音合成系 统的基元库不可能把反映所有韵律变化的不同基元都存储进去。因此, 语音合成系统要想取得高质量的语音,就必须具备韵律处理和模拟的 功能。 从听觉的焦度出发,常常使用音长、音强、音高和音色这四个语 音听觉特征来描述韵律。从声学角度出发,它们对应为时长、能量、 基频和频谱等声学特征。韵律首先是听觉特征,它们是心理量,而声 学特征都是可以测量的物理量,在分析时多用后者。而对于韵律的调 整,也是通过调整语音信号中这些可测量的物理量来实现的。 对韵律控制的研究主要有以下几个方面:韵律预测,韵律规则, 韵律描述和韵律建模。 韵律预测与文本分析之间有着紧密的联系,这是因为t t s 系统的 输入是无限制的文本,从文本中只确定读音是远远不够的。为了提高 语音的自然度,还需要从文本中提取更多的与韵律相关的信息,其中 包括文本的韵律结构、重音和语调等信息。图l 一2 展示了一个汉语句 予的韵律结构。可以看到韵律结构是一个非递归的层级结构。 u p p 厂r l a wf wp w lll 企业的竞争归根结底 图1 心韵律层缀结构 其中u 表示语调短语,p p 表示韵律短语,p l f 表示韵律词 虽然不同的研究人员对于具体将韵律结构分为几层还有争议,但 对于这种分层结构思想大都表示赞同。实验表明,在t t s 系统中弓| 入 韵律层级结构可以提高合成语音的质量强1 。对于重音和语调的研究县 3 , p 肿三 矸 山东大学硕士学位论文 前也已经取得了一些成果n 引,但由于重音和语调的声学表现较为复 杂,现在还没有一个比较一致的结论,尤其是它们在语音合成系统中 的作用,还有待进一步的研究。 韵律规则主要研究人在发音过程中各种声学参数的变化规律。利 用这些规律可以改进语音合成系统的整体性能,尤其是在语音合成阶 段提供调整韵律变化的声学参数。目前,对汉语发音的研究已经取得 了较多的成果,例如汉语中对二字词,三字词组音节声调变调的研究 及普通话自然话语中的下倾研究等1 晦3 。 韵律标注的目标是将韵律的变化进行符号化的描述。国外的韵律 标注研究开展的较早,现有的韵律标注系统以t o b i ( t o n e sa n db r e a k i n d ic e s ) 为代表 1 。t o b i 是基于美国英语的标注系统,是现在国际上 得到广泛认可的最为流行的韵律标注系统。到目前为止,以t o b i 为蓝 本,已有德语、瑞典语、法语、意大利语等语言的韵律标注系统。国 内也根据汉语的特点提出了一种汉语韵律标注系统c - t o b i 。近年来, 随着x m l 技术的流行,出现了一种基于x m l 的韵律标注语言一s s m l ( s p e e c hs y n t h e s ism a r k u pl a n g u a g e ) 陋m 1 。s s m l 的优点是用户可以 根据自己系统的需要自定义韵律标签,这极大的方便了用户的使用。 我们构建的语音合成系统就采用了由清华大学语音合成语料库提供的 基于s s m l 的韵律标注文件n 0 1 。 韵律建模的作用是找出韵律特征与声学参数的映射关系,给出定 量的数学描述,建立可计算模型。如用于反映基频变化的基频模型、 反映时长变化的时长模型等。韵律建模是本文的一个研究重点,对它 的详细介绍将在第二章进行。 2 2 3 语音合成 这里所说的语音合成是指语音合成系统中最终的语音输出方法。 这一模块的性能直接关系到系统最终生成语音的清晰度和自然度。这 部分同样是本文的一个重点研究内容,因此下面只是进行一个简单的 介绍,详细内容将在第三章进行介绍。 4 山东大学硕士学位论文 语音合成方法经历了从参数合成到波形拼接合成的发展历程。早 期的语音合成系统一般采用参数合成方法,包括发音器官参数合成与 声道模型参数合成方法。这类方法的优点在于占用的存储空间小,合 成的语音具有较高的可懂度,并能够较为灵活地控制合成语音的音色; 主要缺点是合成语音的自然度较低。 隧着计算机存储容量和运行速度的提高,波形拼接合成方法逐渐 发展起来。它直接把语音波形数据库即基元库中的波形拼接在一起, 并输出为连续语流。这种语音合成方法用原始语音波形代替参数,由 于这些语音波形取自自然语音的词或句子,它们本身就隐含了声调、 重音等细微韵律特征,这就使得合成语音清晰自然,其质量普遍高于 参数合成的输出语音。这种方法存在的缺点是语音的韵律特征较难修 改。针对这一湖题,人们已经提如了许多算法,其中最为著名的是 p s o l a ( e i t c hs y n c h r o n o u so v e rl a pa d d ) 一基音同步叠加算法n 。这 一方法较好的解决了语音拼接中基频与时长的修正问题,从而推动了 波形拼接合成技术的发展与应用。 目前的语音合成系统普遍采用波形拼接合成方法,并且已经有很 多研究机构和公司推出了眈较成熟的产品,如微软的本兰t t s 系统& 朝, a t & t 的n a t u r a lv o i c e 语音合成系统n 劓,国内比较著名的公司有捷通 华声n 43 和科大讯飞n 蚪等。 2 2 毒基元库 基元库中存放着合成时所需的各个基元,它对合成系统的整体性 能同样会产生巨大影响。基元库中存储基元的类型与前面提到的语音 合成方法有着直接关系。当采用参数合成方法时,基元库中存放的是 每个基元的参数,并且一般是采用某种语音编码方法焉得到的参数。 当采用波形拼接合成方法时,基元库中直接存放着各个合成基元的波 形数据。 在波形拼接合成方法中,为了提高输出语音的自然度,对同样的 发音单元会存储多个不同的副本,它们具有不同的韵律特征。这样, 在合成时就可以从其中挑选出一个最符合当前韵律要求的候选基元, 5 山东大学硕士学位论文 同时可以减少韵律修正算法的调整幅度,避免合成语音质量的下降。 1 3 汉语普通话韵律 汉语是一种声调语言,搬据调型的差异可分为5 类:即阴平、阳 平、上声、去声和轻声。在用汉语相互交谈时,人们不但凭借不同的 声母、韵母来辨别字和词的意义,还需要从不同的声调来区别它们, 这就是声调语言的特点。例如,星、形、醒、姓这四个字的声母秘韵 母都是相同的,健意义不同,这就是靠声调来实现的。再如,中药和 重要的区别,也是靠声调来实现的。汉语音节的声调主要体现在信号 的基频随时间焉变化的规律上。汉语中的一个汉字就是一个音节,每 个音节又包括声母、韵母和声调。汉语中无调音节总数为4 l5 个,加 上五种声调,共可组合出16 2 5 个有调音节。 研究汉语的韵律,声调是一个重要的方面。2 0 世纪2 0 年代,刘复、 赵元侄等语言学家,分析研究了汉语的声调,以频率高低来测定调值,。 指出声调的声学本质是音高的变化。并且赵元任先生设计了著名的声 调五度标记法n 引。近几十年来,对声调的研究取得了许多重要成果。 如吴宗济先生的多音节组的连续变调和语调的移调理论n 引。林茂灿先 生对声调声学特征和听觉征兆的研究n8 1 。沈炯先生关于声调聚合,以 及高音线和低音线的论述h 。 除了语调的变化,在自然语流中时长和停顿对韵律的影响也是很 大的。人们在说一句话的时候,会根据表达和换气的需要做适当的停 顿,它们是语句中不可缺少的部分。如采在语音合成时对基元做适当 的时长调整并在其后加入必要的停顿,这将对提高合成语音的自然度 有很大帮助。关于这方面的研究现在也已经取得了一些成果,但尚未 得出一致豹结论m 3 m 1 。 1 4 研究目标和内容安排 我们的工作重点是提高文语转换系统输出语音的自然度,主要磅 究内容为汉语普通话文语转换系统中的韵律建模以及语音合成方法。 6 山东大学硕士学位论文 在完成了对韵律建模和语音合成方法的研究后,为综合检验算法的有 效性,构建了一个语音合成系统,并对其合成语音进行了听音测试。 在本文的第二章中将详细介绍针对汉语音节的韵律建模过程和实 验结果。第三章介绍了对语音合成方法的研究,包括基元选取算法和 基元过渡段的频谱平滑算法。第四章主要介绍了语音合成系统的构建 以及对合成语音的听音测试结果。第五章对本文所做的工作进行了总 结。 7 山东大学硕士学位论文 第二章针对汉语音节的韵律建模 2 1 韵律建模的意义 通过韵律建模得到的是反映某种语言韵律特征的韵律模型,它在 语音合成系统中起着举足轻重的作用。韵律模型的输入是文本分析得 到的高层韵律特征表示。由于这些高层的韵律特征是定性的,不能直 接用于语音合成模块,因此它们必须被转化为定量的声学参数,如具 体的基频值、时长值等。韵律模型的作用就是实现这种转化。例如, 一个词的韵律特征表明它需要重读,反映到声学参数上就是这个词的 基频需要升高还是降低,具体改变多少赫兹,时长需要增加还是减少, 具体又是多少毫秒等,像这样的问题都需要通过韵律模型进行分析解 决。 韵律建模对提高语音合成系统输出语音的自然度有重要作用。由 于人在说话时韵律特征的变化是随机的。不同的人说同一句话时其韵 律特征不会相同,就是同一个人在不同的情绪状态下说出的同一句话 其韵律特征也会发生变化。因此,在合成系统基元库中存储的语音基 元不可能反映所有的韵律特征变化,这时就需要在语音合成阶段对基 元库中的候选基元进行韵律修正或者从基元库中挑选出一个最符合当 前韵律特征要求的候选基元。而韵律修正和基元选择的数学依据就是 通过韵律模型得到的那些声学参数。 2 2 韵律建模对象 汉语文语转换系统中可以采用的合成基元有声韵母,音节,词和 短语。但从存储容量的大小、合成方法的复杂程度以及最终合成语音 的质量等多个方面综合考虑,合成系统一般采用音节为合成基元。本 文同样采用音节作为合成基元,并针对音节建立韵律模型。 可以用来描述音节的声学特征有很多,如基频曲线、时长、能量、 频谱等。但它们在韵律变化中所起的重要程度是不相同的。前面已经 提到过,汉语是一种声调语言,音节的声调对汉语的韵律有重要意义。 8 山东大学硕士学位论文 丽声调的声学本质就是音节基频的变化。另外考虑到在实际语流中, 音节的时长以及音节看的停顿对人们的听觉感知也具有很大影响。因 此,综合考虑上述因素,本文最终选择对汉语音节的基频曲线、音节 时长以及停顿建立模型。在确定了韵律建模的对象后,就是韵律建模 方法的选择了。 2 3 韵律建模的方法 韵律建模的方法大致可以分为三种,分别是基于规则,基于数据 驱动和基于参数模型的方法。 ( 1 ) 基予规则的方法;在较早期的文语转换系统中,其韵律模型 主要是基于规受| l 的。规则模型认为人在讲话时,发音器官的运动是连 续的,声道的形状不可能突变,因此连续语句不是孤立声学单元的简 单拼接。专家们研究各种语音现象,总结归纳出入类发音过程中的规 律并将其写成规则。按照这些规则计算参数的变化轨迹,并含成出连 续囟然的语音。系统中的基本规则和参数值都是手工建立的。最有名 的基于规则的模型是k l a t t 的参数模型1 。规则合成模型往往要求研 究和设计人员不仅具备大量的语音学知识,而且还要有大量的语言学 知识。一个好的规则系统通常需要非常繁琐而细致的工作。 ( 2 ) 基于数据驱动的方法:随着大语料库制侔技术的出现,以及 计算杌硬件技术的发展和些高效的机器学习葬法的成熟,使得录制 大规模的语料库,用数据驱动进行学翔来发掘其中的韵律规则成为一 个可能。数据驱动的方法,可以尽可能的利用已有的语料资源,自动 化的机器学习可阻发掘更多更细的规则,对不同的数据库做快速的自 适应,大大降低了研究者的繁杂分析工作。只需要设计训练语料数据 库和机器学习的策略,对机器学习的结果进行分析和筛选就可以得到 一个比较好的韵律预测器。同时,给出的机器分析结论也有助于提炼 一些人工规则。目前,可以应用的机器学习和数据挖掘的技术有:人 工神经网络( a r t i f ic i a ln e u r a ln e t w o r k ) 、决策树( d e c is i o nt r e e ) 、 贝叶斯网络( b a y e s i a nn e t w o r k ) 和支持向量机( s u p p o r tv e c t o r m a c h i n e ) 等。 9 山东大学硕士学位论文 ( 3 ) 基于参数模型的方法:基于机器学习的统计模型可以比较好 的利用海量信息的资源库,提取一些人工分析无法得出的细则,大大 降低了人工参与分析的工作量,但同时也有几个无法避免的问题。首 先,一般的学习算法都要求比较多的数据资源,特别是属性特征比较 多的时候,对一些小数据库的分析受限;其次,如果已有数据资源覆 盖不均匀,将造成训练的整体偏差,影响分析结果;再次,专家知识 没有很好的结合利用进来,是一种信息浪费;最后,训练模型没有和 语言特征及人的感知挂钩,无法进行转移和调整。基频时长都是随时 间变化和环境变化的声学参数,不是完全平稳的。参数模型利用先验 知识,分析基频时长和语言特征、人的听感的关系,对此关系建模, 提取基频、时长中和语言特征及人的听感直接相关的参数。这样的模 型有效利用了专家知识,就可以用不多的数据训练出文本语言特征和 参数的关系,同时通过调整模型参数就可以达到改变听感的韵律特征 的目的。现有的参数模型有t a r g e t 模型、f u jis a k i 模型及 s f c ( s u p e r p o s e df u n c ti o n a lc o n t o u r s ) 模型等2 4 1 2 5 1 26 | 。 本文在对上述三种韵律建模方法进行了研究和比较,并从如下几 个方面考虑了对建模方法的选择: ( 1 ) 对于规则法:首先,虽然现在已经有语言学家总结出了很多 汉语中的韵律变化规律,但这些规律的数量相对于实际语流中的变化 情况还是比较少的。其次,对这些规律的描述往往是定性的,将这些 定性的描述转换为精确的定量描述是一件比较困难的工作。最后,采 用规则法构建的韵律模型其复杂度会比较高,这对于系统的开发,维 护和扩展都是不利的。 ( 2 ) 对于数据驱动方法:其中的人工神经网络技术经过多年的发 展现在已经比较成熟。国内外的许多研究人员已经将人工神经网络技 术应用到语音处理领域并取得了良好的效果心7 1 。 ( 3 ) 对于参数模型方法:其中的t a r g e t 模型和s f c 模型,从目 前的来看其应用还比较少。 在综合考虑了上述因素以及对各种技术的熟悉程度后,我们最终 选用数据驱动方法,并用人工神经网络技术进行韵律建模。 1 0 山东大学硕士学位论文 2 4 人工神经网络简介 人工神经网络( a r ti f i c ia ln e u r a ln e t w o r k ,a n n ) 是受到生物 学的启发,对生物神经网络的种模拟和近似,它从结构、实现机理 和功能上模拟生物神经网络。从系统观点看,人王神经网络是由大量 神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统。 神经网络以其独特的结构和处理信息的方法,在许多实际应用领域中 取替了显著的成效,如模式识别,数据预测等。 2 4 1 人工神经网络的结构 人工神经网络由人工神经元模型构成,这种南许多神经元组成的 信息处理网络具有并行分布结构。每个神经元具有单一输出,并且能 够与其它神经元连接。神经元的连接方法有多种不同的形式,并且每 一个连接由一个连接系数度量,称为连接权值。不同的连接方法加上 不同类型的神经元,这些因素就构成了不同的神经网络类型,如 h o p f i e l d 网络,b p 网络,感知器等。因此,从系统构成的角度来看, 神经网络由两大部分构成,郎神经元翻它们之闻的连接权值。 图2 1 所示为人工神经元的模型。其中x 。,如,x 。表示此神经元 的输入信号,它们同时也是其它神经元的输出信号;w k ,:,表示 输入信号的连接权值,它们代表了其它神经元与北神经元连接的强度; 巩表示的是一个偏差值,它也可以理解为一个连接权值恒为l 的输入 信号;表示的是一个求和函数;缈( ) 表示的是激活函数,激活函数的 类型有很多,如线性函数,分段线性溺数以及s 函数等,不同的激活 函数会使神经元产生不同的输出特性;y k 为神经元的输出信号,如果 此神经元位于输出层,则y 。就是整个神经网络对外输出的计算结果; 如采此神经元位于中闻的隐层中,则y ;将继续作为其它神经元的输入 信号。 山东大学硕士学位论文 i n p u l i g ;, s y n a p l i c v , t i g h u s o m p m k 图2 - - 1 人工神经元模型 a - c 神经元输出的计算表达式如公式( 2 1 ) 所示: 册 = _ = l ( 2 1 ) 图2 2 为一个前馈型人工神经网络的结构图。从左至右依次为输 入层、隐层和输出层。由图可见,它的输入信号个数为10 ,输出信号 个数为2 ,隐层中含有4 个单元。其中的输入层是没有计算能力的,它 们只是将输入信号乘以一定的权值后送入隐层中对应的神经元。真正 的计算单元位于隐层和输出层,它们是由上面所介绍的神经元构成, 并且每一层会根据应用的需要而采用不同的激活函数。如果要提高神 经网络的计算能力,可以增加隐层的数目或隐层中神经元的数目,但 这将增加计算量和用于神经网络训练的时间。在计算能力和计算复杂 度之间进行权衡这一问题将是构建神经网络时需要考虑的一个重要因 素。 1 2 山东大学硕士学位论文 i n p u t l a y e r 鞋l d e n l a y e r o u t p u t l a y e r 瑶2 2 人工神经网络的结构 2 4 2 人工神经网络的训练 在前匿已经提到构成人工神经网络的两个主要部分,即神经元稆 它们之间的连接权值。在这两部分中,具有运算能力的是神经元,而 连接权值的作用是对知识的存储或者说是对数据的存储。在完成了神、 经嬲络的初始构建后,如聚不让它进行相关知识的学习,这个神经网 络对外界输入做出的响应将会距离期望值相差甚远。这就好比一个汰j 如果没有学习过某方面的知识,而让他回答这方颟的问题时他的正确 率必然是很低盼。当翘学习过这方面的知识后健的回答正确率必然会 有所提高。对神经网络的训练与此有相同的目的,但训练的对象是神 经网络中的权值,因为它们存储了神经网络学习到的知识或数据。1 对人工神经网络进行训练兹方法有多种,这里只蒿要贪绍有教师 的或称有监督的训练方法,这种方法的原理如图2 3 所示: 山东大学硕士学位论文 v 奠材嚣幽曩 嗍c ,f 龇 e n v i l d 眦硼 晰硝护一 图2 3 有教师训练方法 其中的e n v ir o n m e n t 是系统需要学习的某个领域的知识,这个领 域的知识通过特征矢量进行描述,分别送入t e a c h e r 和l e a r n in g s y s t e m ,t e a c h e r 对输入的特征矢量可以做出正确的响应,而l e a r n in g s y s t e m 对输入做出的响应与正确的响应或说期望响应有一个误差,利 用这个误差信号就可以对l e a r n in gs y s t e m 中的相关系数进行调整, 使它的实际响应向期望响应靠近。通过这样的不断训练可以使 l e a r n in gs y s t e m 的实际响应与期望响应之间的误差小于一个给定值, 这时就可以停止训练,或者说l e a r n i n gs y s t e m 已经学会了某一领域 的知识。 ; 对人工神经网络的训练同上面描述的方法相同,只不过这时的 l e a r n in gs y s t e m 就是待训练的人工神经网络,训练时调整的系数为连 接权值。当神经网络的训练误差足够小时称网络已经达到收敛状态。 2 5 神经网络训练数据的提取 在本文中,神经网络需要学习的是汉语普通话语句中音节的发音 变化规律,其训练数据来自清华大学的语音合成语料库中的女声语料 库n0 1 。它包含了用于建立基元库的5 4 0 6 句汉语普通话陈述句和用于测 试的9 5 9 句汉语普通话陈述句,每句话中一般有5 2 5 个音节。在这 些语料中包含了全部的有调音节,并让这些音节在句子中不同的位置 1 4 山东大学硕士学位论文 出现,使之覆盖尽可能多的韵律变化情况。对人工神经网络进行训练 斡语料放前面的5 4 0 6 句话中提取,对训练结果的测试则使用后面静 9 5 9 句。 语料库中的每一句语料都是由对应的音频文件和韵律标注文件组 成的。音频文件为w f l v 格式,韵律标注文彳孛是基于s s m l 格式的,标注 文件的格式可参见附录l 。标注文件对每一句话都进行了韵律层级信息 的标注,从低到高依次为音节( s y ll a b le ) 、韵律词( p r o s o d i cw o r d ) 、 韵律短语( p r o s o d i cp h r a s e ) 和甸子( u t t e r a n c e ) 。除此之辨,标注 文件中还对每个音节的时长和后面的停顿( s il ) 进行了标注。 2 。5 。人工神经豳络的输入参数 前面已经指出,韵律模型的作用是将高层的韵律信息转换为声学 参数,这些高层的韵律信息也被称之为语境参数,语境参数设定的好 坏将会直接影魄到神经网络的预测性能和收敛程度。本文主要针对汉 语中的音节进行韵律建模,同时考虑到连续语流中相邻音节之间的相 互影响,则可选的语境参数有:本音节的声母类型,韵母类型,声调 类型;前一音节的韵母类型,声调类型;后一音节的声母类型,声调 类型。除了音节层级的语境参数外,从韵律标注文件中还可以提取更 加丰富的语境信息,它们是:音节在句子中的位矍,音节在韵律词中 的位置,音节后的韵律边界等级( 即音节处在韵律词之中,还是韵律 词结尾,还是韵律短语的结尾) 。这样神经网络熬有10 个可选的输入 参数。 以上的语境参数现在还只是定性的描述,用于人工神经网络的输 入输出参数必须都是定量的数据,因此需要对它们进行转换。 声调分为5 种类型:l 为阴平、2 为阳平、3 为上声、4 为去声、5 为轻声。 按照发音方式的不同,可将汉语中的21 个声母分为6 种类型: 塞音:b ,p ,d ,t ,g ,k 擦音:f ,h ,x ,s h ,s ,r 塞擦音:j ,q ,z ,c ,z h ,c h 1 5 山陈大学硕士学位论文 鼻音:n ,m 边音:l 零声母:指音节中不包含声母的音节,如w e n ,y in g 等 同类型的声母发音机理类似,在考虑前后音节协同发音的影响时, 具有同类型声母的音节对前音节的影响类似。实验中分别将它们编号 为1 6 。 按照发音方式的不同,可将汉语中的3 8 个韵母分为4 种类型: 开口呼:a ,a i ,a o ,a n ,a n g ,0 ,o h ,e ,e i ,e n ,e n g ,e r ,一i 合口呼:u ,u a ,u o ,u a i ,u e i ,u a n ,u e i l ,u a n g ,u e n g ,o n g 撮口呼:v ,v e ,v a n ,v i i 齐齿呼:i ,i a ,ie ,ia o ,io u ,i a n ,in ,i a n g ,in g ,io n g ,i u 同类型的韵母发音机理类似,在考虑前后音节协同发音的影响时, 具有同类型韵母的音节对后音节的影响类似。实验中将它们分别编号 为:l 4 。 音节在句子中的位置可分为在句子的前中后部分,分别用0 3 3 , o 6 7 和l 表示。 音节在韵律词中的位置也可划分为在韵律词的前中后,同样设定 为o 3 3 ,o 6 7 和l 。 音节后的韵律边界等级划分为无韵律边界( 即本音节处在韵律词 中) ,在韵律词结尾处,在韵律短语结尾处,分别用1 3 表示。 2 5 2 人工神经网络的输出参数 神经网络的输出参数为音节的基频、时长和音节后的停顿。在这 三个参数中音节时长和停顿是以毫秒为单位的,基频是以赫兹为单位 的,在对神经网络进行训练的时候,前两个参数可以从韵律标注文件 中直接提取,而基频则需要从音频文件中通过一定的信号处理算法计 算得到,在本文中采用的是y i n 算法心9 | 。这里需要注意的是关于基频 曲线的表示方法。由于每个音节的时长是不一样的,这样就会导致基 频抽样点个数的不同,同时由于一个音节的基频抽样点个数往往较多, 1 6 l l l 东大学硕士学位论文 如果将所有抽样点都作为神经网络的输出,这将导致一个极其复杂的 神经网络。 基频曲线的表示方法脊多种,如越交多项式表示法,数值符号化 表示法和基频曲线向量表示法等n 铂n 引。在研究了上面的几荸申方法后, 本文选择基频鼗线向量来摇述音节静基频,这样傲主要有两个霖匿: ( 1 ) 基频曲线向量表示法相对于其他两种方法比较直接,不需要 进符复杂的数学运算。 ( 2 ) 基频曲线商量表示法可戳减少误差的弓l 入。 基频曲线向量法的核心思想是对诺音信号的撼频曲线进行重新抽 样以得到一个 4 维的矢量,利用这一矢量来表示原来的基频曲线。这 一思想类戳与模撅信号到数字信号转换过程孛的采样,哭不过这里是 对基频曲线进行采样。经过实验,本文采用8 维的矢量表示一个音节 的基频,这样既可以较为准确的反映基频曲线的变化,又能够尽量降 低输出参数的个数。 值得注意的是,吴宗济先生曾指出:说话人声带颤动起讫时的首、 尾的调感,是被人们忽略的,两在仪器上却显示褥很清楚,对声带启 动蘑静一,j 、段谪形称失群弯头抒,声带捷动 l 蓍酶一小段谖形称为“降尾”, 这都不是调型的主要部分伸1 。因此,本文在对基频曲线进行蘑新抽样 时,对音节的起始和结束部分没有进行抽样,只是对音节的稳定部分 进行了抽样,将抽样值作为基频蓝线向量。基叛曲线向量表示法如墅2 4 所示: 茎! 楚ii 圭i 塞i 主i 三三 山东大学硕士学位论文 图2 4 ( a ) 音节。为- e i 4 一的原始基频曲线 强) 音节。为w e i 4 ”的基频憩线向量 2 6 实验结果 我们最初的构想是只用一个人工神经网络来预测基频、音节时长 和停顿这三个参数,但经过初步的测试后,发现预测结果并不能令人 满意,集内和集外的预测误差都比较大。粗略分析可能是由于影响基 频变化与影响时长交纯的语境参数是各不相同的,裾且这样构建麴神 经网络的输入参数和输出参数都比较多,因此增加了训练的难度。在 接下来的实验中将这三个参数分为两组,一组为基频,另一组为时长 停顿,分别构建神经网络并进行诫练。 神经网络输入参数的个数和选择一直是一个“艺术 而非“科学一 的问题心射。本文在进行选择的时候也参考了一些研究人员对汉语韵律 变化研究的相关文献强孵强。最终我们选择用于预测基频的神经嬲络的 语境参数为9 个,包括:本音节的声韵母类型,声调类型;前音节的 韵母类型,声调类型,后音节的声母类型,声调类型;本音节猩句子 孛的位置:本音节在韵律词中的位置。用于预测音节时长和停顿的神 经网络的语境参数为5 个,包括:本音节的声韵母类型,声调类型; 本音节在句子中的位置;本音节后的韵律边界等级。 本文选择的人工神经嬲络的类型为疲用广泛的转p 型神经网络疆引。 用于预测基频的神经网络的输入参数个数如上所述为9 个,输出参数 为8 个,并包含一个隐层。用于预测时长相关参数的神经网络的输入 参数个数为5 个,输出参数为2 个,同样也包含一个隐层。由予人工 神经网络隐层单元个数的确定没有一个明确的数学方法,通常都是通 过改变隐层中单元的个数来不断尝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论