（计算机软件与理论专业论文）基于二元语义标注的波形拼接语音合成.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：49 大小：1.19MB 积分：12 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

山东大学硕士学位论文基于二元语义标注的波形拼接语音合成摘要语音合成( t t s ，t e x tt os p e e c h ) 技术是将计算机自己产生的或外部输入的文字信息，比如文本文件内容、w o r d 文件内容等文字信息，按语音处理规则转换成语音信号输出，即使计算机流利地读出文字信息，使人们通过“听”就可以明白信息的内容。随着计算机技术和通讯技术的巨大发展，t t s 技术已经应用到语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等很多领域并且已经发挥出其巨大的威力，但是，当前现有的t t s 系统在自然度和可懂度方面都离人们的要求相差甚远，真正能够代替人来阅读的t t s 系统还没有出现，从而也制约着t t s 系统在更大的范围内的使用。在语音合成方面，首先遇到的困难是从文本信息到韵律的标识上，自然语言中，语音特征变化万千，其数据本身隐含了知识。而对这些知识，人类可以感知，但对其的认识、描述是远远不够的。在从文字到韵律符号描述的自动转换方面，对自然语音理解能力的不足一直是研究工作的瓶颈所在。目前文字到韵律描述的转换通常只能根据一些基本的语法信息( 如词性) 来划分语调短语或设置语句的普通重音，还没有根据句子的语义来做深层次处理( 如设置不同的表达或感情色彩) 的能力。其次，从声学的层面上，人们对韵律特征对应的声学参数还没有完全认识，缺乏完备的描述，只能凭经验。这也进一步阻碍了将文本标注的韵律信息表现出来，生成自然的带有韵律感和重音感的合成语音。本文借助我们实验室以往对自然语言理解处理的成果二元语义关系分析。建立了一套符合x 地扩展标记语言标准的文本语音合成描述符号体系，同时建立了从语义描述标注到语音合成韵律标注的转换规则，将对语义的描述自动转换到语音韵律信息的描述。而且，还考虑到了文本中的多音字、数字、符号、字母的发音问题，建立了一系列针对这些情况的发音描述方式。在韵律语音的合成上，本文搜集了1 2 4 8 个汉语中的单字和8 0 0 0 多个使用频率较高的双字词、三字词、四字词以及常用人名、地名等语料信息，对其进行整理编号后，在转门为本系统开发的语音库维护程序上对这些语料进行了人工录音，对这些语音资料切分和基音周期分析后，存入语音数据库和检索索引数据库，构建了本系统所需要的基础语音数据。语音合成模块包含语速修改单元、语气修改单元、重音修改单元以及静音生成单元等，并且把它们做成模块的形式，提供接口供语音合成模块调用以改变语山东大学硕士学位论文音基元的韵律信息本语音合成系统，首先从韵律文本的标注上，是建立在对自然语言有了深刻的语义理解之上，在二元语义标注文本的基础上通过一定的语义和韵律对应规则，建立了韵律标注文本，这种韵律标注方法更接近人的真正发音意图，对下一步的韵律语音生成，打下了基础。语音生成时，采用基于大规模语音库的p s o l a 波形频接算法，实现较为方便的声学韵律控制，使合成出的语音清晰且带有韵律感，在可懂度和自然度上都有所提高。、本文下一步的主要研究主要包括：对语义标注到韵律文本的标注进一步研究，将更多的语义信息反映到韵律上来；建立更大规模的语音数据库，语料可以进一步扩展到句子或者段落；建立更多的韵律控制单元，做到不但能修改句子内部的韵律信息，还能构修改句子之间甚至段落之间的韵律信息关键词：语音合成，t t s ，韵律标注，p s o l a ，语音库 i l 山东大学硕士学位论文 a b s t r a c t t t s ( t e x tt os p e e c h ) t e c h n o l o g yi sak i n d o ft e c h n o l o g yt h a tc a n t r a n s l a t et h et e x ti n f o r m a t i o n ( t h ec o m p u t e ri t s e l fg e n e r a t e do ri n p u tb y o t h e rp e o p l e ) ，f o re x a m p l e ，at e x tf i l eo raw o r dd o c u m e n ti n t ot h es p e e c h i n f o r m a t i o n i naw o r d ，w ew a n tt ol e tt h ec o m p u t e rr e a dt h et e x ti n f o r m a t i o n f l u e n t l ys ot h a tt h ep e o p l ec a nu n d e r s t a n dt h ei n f o r m a t i o no n l yb yl i s t e n i n g w i t ht h eg r e a td e v e l o p m e n to fc o m p u t e r t e c h n o l o g ya n dc o m m u n i c a t i o n t e c h n o l o g y ，t t st e c h n o l o g yh a v ea p p l i e dt os p e e c hd i a l o gs y s t e l ，c a l l c e n t e rs y s t e m , v o i c ew e bp a g e sa n dv o i c ee m a i ls y s t e m ，e t c ，a n dh a v ea s i g n i f i c a n te f f e c to na p p l i c a t i o n h o w e v e r ，a l lt h et t ss y s t e mn o wp e o p l e u s e da r es u f f e r e df r o mt h en a t u r a la n du n d e r s t a n d i n g 。a n dn ot t ss y s t e m c a nr e a l l yr e a dt h et e x tf o rp e o p l e 。s oa l lt h e s ed i s a d v a n t a g e sm a k et h e t t so n l yc a nb eu s e di nl i m i t e df i e l d s t h ef i r s td i f f i c u l t yi st h et a g g i n go fp r o s o d i ci n f o r m a t i o n i nn a t u r a l l a n g u a g e ，s p e e c hc h a r a c t e r sa r ep r o t e a na n dt h e s ec h a r a c t e r sc o n n o t eal o t o fk n o w l e d g e t h ep e o p l ec a nf e e lt h ek n o w l e d g eb u tc a n n o td e s c r i b et h e m i nt h ef i e l d so fa u t o m a t i c a l l yt r a n s l a t i n gt h ew o r d si n t op r o s o d i cm a r k u p ， t h el i m i t e du n d e r s t a n d i n go fn a t u r a ll a n g u a g ei st h eb o t t l e n e c ko fr e s e a r c h w o r k n o w ，t h et r a n s l a t i n go fw o r d si n t op r o s o d i cd e s c r i b ec a no n l yd e p e n d o nt h e s eb a s i ci n f o r m a t i o ns u c ha ss y n t a xi n f o r m a t i o n ( p a r t o f - s p e e c h ) t o p a r t i t i o nt o n ep h r a s eo rs e tt h es t r e s so fas e n t e n c e ，y e tc a nn o tp r o c e s s d e e p l ya c c o r d i n gt ot h es e m a n t i c a n ds e c o n d l y ，i nt h ep a r t so fa c o u s t i c s ， p e o p l ea r en o tf u l l ya b l et ok n o wt h ep a r a m e t e r s m e a n w h i l e ，t h e ya r es h o t o fe l e g a n td e s c r i b ea n dp e o p l eu n d e r s t a n dt h e mo n l yb yt h ee x p e r i e n c e s t h e r e f o r e 。a l lt h e s e1 i m i t a t i o n se m b a r r a s st h ed e v e l o p m e n to fi n f o r m a t i o n r e p r e s e n t e d i nt h i sp a p e r ，w ed e p e n do nt h ed e v e l o p m e n to fn a t u r a ll a n g u a g ea to u r l a b b i n a r yr e l a t i o n ss y n t a xa n a l y s i sa n ds e tu pas e to fm a r k sa c c o r d i n g t ot h ex m lt om a r k u pt h et e x tw h i c hw i l lb et r a n s l a t e di n t ov o i c e ，a n da t t h es a m et i m ew es e tu pas e to fr e g u l a r si no r d e rt ot r a n s f e rt h es e m a n t i c d e s c r i p t i o ni n t op r o s o d i cd e s c r i p t i o n m e a n w h i l e ，w ea l s oc o n s i d e r e dt h e m u l t is o u n d sw o r d s ，n u m b e r s ，s y m b o l sa n dc h a r a c t e r s ，a n ds e t u ps e r i a l s i 山东大学硕士学位论文 o fd e s c r i p t i o nm a n n e r sf o rt h i sc o n d i t i o n i np r o s o d i cs p e e c hs y n t h e s i z i n g ，w ec o l l e c t e d1 2 4 8c h i n e s es i n g l e c h a r a c t e r sa n dm o r et h a n8 0 0 0o f t e nu s e dc h i n e s ep h r a s e s ，i n c l u d i n gd o u b l e c h a r a c t e rp h r a s e ，t h r e ec h a r a c t e rp h r a s e ，f o u rc h a r a c t e rp h r a s ea n df a m o u s n a m e so fp e o p l ea n dp l a c e s a f t e ra n a l y z i n ga n dt a g g i n g ，w er e c o r da l lo f t h e mo no u rs p e e c hd a t a b a s e m a i n t e n a n c ep r o g r a mb yp e o p l e ，a n da f t e rc u t t i n g a n dm a r k i n gp i t c h ，w es a v et h e mi n t os p e e c hd a t a b a s ea n di n d e xd a t a b a s e ， t h u s w eg e ta l lt h eb a s es p e e c hd a t ao fo u rt t ss y s t e 札 s p e e c hs y n t h e s i z i n gm o d u l ec o n t a i n ss p e e c hs p e e de d i tu n i t ，s p e e c hm o d e e d i tu n i t ，s t r e s se d i tu n i ta n ds i l e n tg e n e r a t o ru n i t ，e t c a l lt h eu n i t s a r ei nm o d u l ef o r m ，a n dt h e yc a no f f e ri n t e r f a c e i nt h i ss p e e c hs y n t h e s i z i n gs y s t e m ，f i r s t l y ，w es e tu pp r o s o d i cm a r k s b a s e do nt h ed e e pu n d e r s t a n d i n go fn a t u r a ll a n g u a g ea n dt r a n s f o r mt h e s e m a n t e m em a r k u pt op r o s o d i cm a r k u pb a s e do nb i n a r yr e l a t i o n ss y n t a x a n a l y s i s ，t h e r e f o r e ，t h i sk i n do fm a r k u pi sm o r ea d v a n c e da n dc a na p p r o a c h r e a lp r o s o d i cp u r p o s e so fh u m a np e o p l e i ns y n t h e s i z i n gp r o c e d u r e ，b a s e d o np s o l aa l g o r i t h ma n de x t e n s i v es p e e c hd a t a b a s e ，w ei m p l e m e n ta ne a s yv o i c e p r o s o d i cc o n t r o lw h i c hm a k e st h es y n t h e s i z e ds p e e c hc l e a r l ya n dn a t u r a l l y a n dm a k e sag r e a tp r o g r e s si nu n d e r s t a n d i n ga n dn a t u r a l n e s s n e x tw o r ki nt h i sp a p e ri n c l u d e d ：d e e pr e s e a r c hi ns e m a n t e m em a r k u pa n d p r o s o d i cr e s e a r c h a n dt ot r a n s f e rm o r es e m a n t e m ei n f o r m a t i o ni n t op r o s o d i c i n f o r m a t i o n ：t os e tu pam o r ee x t e n s i v es p e e c hd a t a b a s e ，s ot h a tt h e l a n g u a g em a t e r i a l sc a nc o n t a i nn o to n l ys e n t e n c e sb u ta l s op a r a g r a p h so f t e x t ：t oc r e a t em o r ep r o s o d i cc o n t r o lu n i t si no r d e rt oc o n t r o ln o to n l y p r o s o d i ci ns e n t e n c e sb u ta l s ob e t w e e ns e n t e n c e sa n dp a r a g r a p h s k e y w o r d s ：s p e e c hs y n t h e s i z e ，1 r s p r o s o d i ct a g g i n g , p s o l a , s p e e c hd a t a b a s e i v 山东大学硕士学位论文原创性声明和关于论文使用授权的说明原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名：垄圭拉日期：关于学位论文使用授权的声明以加y 铲上本人完全了解山东大学有关保留、使用学位论文的规定，同意学校保留或向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅；本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名：主圭丝导师签名：趔日期：銎。岁岁k 山东大学硕士学位论文 1 引言 1 1 课题的研究背景及意义语音合成( t t s ，t e x tt os p e e c h ) 技术是将计算机自己产生的或外部输入的文字信息，比如文本文件内容、w o r d 文件内容等文字信息，按语音处理规则转换成语音信号输出，即使计算机流利地读出文字信息，使人们通过“听”就可以明白信息的内容。也就是说，使计算机具有了“说”的能力，能够将信息“读”给人类听。这种将文字转换成语音的技术称之为文语转换技术，简称t t s ( t e x tt os p e e c h ) 技术。也称为语音合成技术。语音合成技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个域，是当今世界强国竟相研究的热门技术之一。 t t s 在组成结构上可分为语言学处理、韵律处理和声学处理三大模块。语言学处理在文语转换系统中起着重要的作用。主要模拟人对自然语言的理解过程，使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示；韵律处理为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。韵律处理有基于规则和数据驱动两种方法；声学处理根据前两部分处理结果的要求输出语音，即合成语音。语音合成在技术可分为参数合成和波形拼接两种方法。早期的研究主要是采用参数合成方法，它是计算发音器官的参数，从而对人的发音进行直接模拟。2 0 世纪9 0 年代初，基于p s o l a 技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于lp c 方法或共振峰合成器的文语合成系统的自然度要高，并且基于p s o l a 方法的合成器结构简单易于实时实现，有很大的应用前景随着计算机技术和通讯技术的巨大发展，t t s 技术已经应用到语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等很多领域并且已经发挥出其巨大的威力，但是，当前现有的t t s 系统在自然度和第1 页可懂度方面都离人们的要求相差甚远，真正能够代替人来阅读的t t s 系统还没有出现，从而也制约着t t s 系统在更大的范围内的使用。目前，包括汉语在内的各种的t t s 系统的研究，都面临着如何提高输出语音自然度的问题。对于这个问题，目前的研究主要围绕两个方面：一是通过自然语言理解，从输入文本中提取语音韵律特征( 韵律特征一 p r o s o d i cf e a t u r e ，就是语流中由音高、音长和强度等方面的变化所表现出来的特征，也叫做超音段特征) ；二是根据韵律规则，利用韵律修改算法，对欲输出的语流进行修改，从而得到良好的语音输出。面向文语转换的标记语言标准的研究对前者提出了改进方案，对待发音文本 p s o l a 算法主要对后者提出改进方案。本文研究汉语语音合成系统，借助本实验室对自然语言语义理解的成果，实现从语义理解的层次上对发音文本进行标注，从而使发音韵律的控制更加贴近发音者的意图，表现出更多的超音段特性。同时，总结出丰富的语料信息，建成大规模的语音基础数据库，将韵律控制单元模块化，方便不断的丰富韵律的控制和修改实验结果表明，本课题所采用的提高语音自然度的手段，切实可行、可靠，将语音合成清晰度，可懂度、自然度大大提高。 1 2 语音合成的发展现状 1 2 1 国内外语音合成的发展状况早期的研究主要是采用参数合成方法，他是计算机发音器官的参数，从而对人的发音进行直接模拟。如著名的k l a t t 的共振峰合成系统在汉语合成方面，研究人员研制出了一些基于共振峰模型的应用系统如社会科学院语言研究所的s i f s 合成器、中科院声学所的k x i 系统中基于 h o l m e s 的并联型共振峰合成器模型，而同样由中科院声学所开发的第二代共振峰合成器k x f s s 则基于k l a t t 合成器。由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。因此后来又产生了基于l p c 、l s p 等声学参数的合成系统。l p c 合成技术的优点是简单直观，对于单个合成基元说能够获得很高的自然度。l p c 合成技术是第2 页山东大学硕士学位论文一种时间波形的编码技术，从本质上来说只是录音加重放，对于合成整个连续语流，l p c 合成技术的效果是不理想的。 2 0 世纪6 0 年代英文t t s 系统首先被研制出来。 8 0 年代我国开始介入汉字t t s 领域的研究。中科院声学所首先开始汉语合成的研究。之后，社科院语言所、清华大学、中国科技大学、北方交通大学等单位陆续开展了对汉语t t s 的研究。同时，台湾交通大学、台湾大学和国际上的b e l l 实验室也研制汉语t t s 系统。近来，在国家“8 6 3 ”智能计算机主题的支持下，汉语t t s 技术有了长足的进步。清华大学、中国科大、中科院声学所等单位都在这一领域取得了很好的成绩，有些研究成果已经转化为产品得到了实际的应用。如清华大学的 s o n i c 系统，中国科技大学的d k - 8 6 3 汉语文语转换系统，杭州三汇公司的中文t t s 系统，捷通公司的嵌入式t t s 汉语语音系统，讯飞公司的k d2 0 0 0 汉语文语转换系统等。世界上其它国家也已研究出汉、英、法、日、德等多种语言的t t s 系统。如b e l l 实验室、a t r 和s i e m e n s 公司等法国c n e t 实现的多语种t t s 已用于电话网中的公共话音服务。 8 0 年底末e m o u l i n e s 和f c h a r p e n t i e r 提出基于时域波形修改的语音合成技术，p s o l a 技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用p s o l a 算法对拼接单元的韵律特征进行调整，使合成波形既保持了原发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度在 p s o l a ( p i t c hs y n c h r o n o u so v e r l a pa d d ) 方法的推动下，此技术得到很大的发展和广泛的应用。波形编辑技术是直接把语音波形数据库中的波形级联起来，输出连续语流。这种语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音、发音速度的影响，合成的语音清晰自然。其质量普遍高于参数合成。8 0 年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加 ( p s o l a ) 方法的提出( 1 9 9 0 ) 使基于时域波形拼接方法合成的语音的音色和自然度大大提高。 2 0 世纪9 0 年代初，基于p s o l a 技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振峰合成器的文语合成系统的自然度要高，并且基于 p s o l a 方法的合成器结构简单易于实时实现，有很大的商用前景最近第3 贞几年，一种新的基于数据库的语音合成方法正引起人们的注意在这个方法中。合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的，不难想象只要语音数据库足够大，包括了各种可能语境下的语音元。理论上讲有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。目前，主要的语音合成技术是共振峰合成技术和基于p s o l a 算法的波形拼接合成技术。这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而p s o l a 技术则是比较新的技术，具有良好的发展前景。过去这两种技术基本上是互相独立发展的，现在许多学者开始研究它们两者之间的关系，试图将两者有效地结合起来，从而合成出更加自然的语流。例如清华大学的研究人员进行了将共振峰修改技术应用于 p s o l a 算法的研究，并用于s o n i c 系统的改进，研制出了具有更高自然度的文语转换系统近几年国外对时域语音合成技术给予了极大的关注日、法、德都有相应的文一语转换系统问世。基于波形编辑德语音合成用直观德波形替代参数，对波形进行灵活多变的修改，以适应所期待德韵律目前，基音同步叠加技术( p s o l a ) 日趋成熟，使波形编辑合成法大受欢迎 1 2 2 语音合成中的语音标注和韵律对输入文本进行读音和韵律特征的通过一套符号标注出来，为以后的语音合成提供合成参数，即语音合成中的语音标注，显然他包含两个方面的问题：其一，文本的格式化问题；其二，韵律问题。一个实用的语音合成系统，通常包含各种各样的文本输入，他们不仅包含通常的汉字字符，还包含数字和运算符等非汉字字符，文本格式化的任务就是把这些特定的格式、特殊字符和用法转换成口语中相应的文本韵律是语音研究的基本问题。韵律特征，也称超音段特征，通常指的是言语中除音色之外的音高、音长和音强三个特征。音段和韵律是构成语音的两个共时系统，它们在语音产生过程中相互作用，最终结合为一个整体。第4 页山东大学硕士学位论文在一个语音系统中。音段特征通常是针对元音系统和辅音系统而言心1 ；韵律特征，从广义上说，是指声调、语调、轻重音等超音段现象。近年来，对韵律特征的研究日益受到语言学界和言语工程学界的重视。过去的语音研究以分析音段的发音、声学和感知特征为主，在韵律方面多是对现象的描写。造成这种不对称性的原因至少可以归结为两点：一方面，同音段相比，韵律特征( 尤其是语调) 更加富于变化，在实验研究中难于加以控制；另一方面，语音学把孤立的词或词组作为研究对象，理解韵律特征的需要并不十分紧迫。如今，语音研究已经进入连续语音阶段，韵律特征在自然语言理解中的作用就显得尤为突出，一系列跟韵律有关的课题被提出来，如自然语句的语调结构和韵律结构，语流中音节的声调变化，时长结构和轻重模式，声调和语调的关系等等。同时，在言语工程领域，语音合成和语音识别技术的发展始终把提高合成语音的自然度和识别语音的准确性作为追求的目标，而要生成自然度和可懂度高的语音样品，或是识别比较自然的语音样品，对韵律特征的控制是关键。韵律不仅具有辨义功能，而且是影响语音表现力的主要因素，声音的轻重缓急，抑扬顿挫、不周语气和口气的传达，个人语音特征的辨别，都要依靠韵律的作用n 3 。韵律特征在自然语言中起着非常重要的作用。韵律特征的变化可以帮助听者更好地理解说话入的语义。说话人的语气、态度、感情色彩、个人特点在句子的韵律特征中都有所体现，从而使句中音节的韵律特征产生各种各样的变化。而说话人的思想正是通过韵律特征的变化得到确切的体现。从文本的层面上，对韵律特征进行标注，使文本变成可视的语音 1 2 3 基本语音合成理论文本经过语音标注后，就要根据文本的发音( 由注音阶段完成) 和韵律特征，检索语音数据库，提取出基本的语音片断，在韵律控制的基础上，对目标语音进行合成。在这个部分，主要设计拼接过程中的基音平滑过渡和韵律特征的修改。主要运用了p s o l a ( p i t c hs y n c h r o n o u s o v e r l a pa d d ) 算法。 p s o l a 就是基音同步叠加，其算法核心是基音同步。它把基音周期第5 负的完整性作为保证波形及频率平滑连续的基本条件。因此，为原始语音段加基音标记是算法执行的基础。浊音有基音周期，标记有效。对于清音，为保证算法的一致性，设标记为一适当的常数。 p s o l a 算法按以下三个步骤实施：对原始波形进行分析，产生非参数的中间表亲：对中间表示进行修改；将修改过的中间表示重新合成为语音信号。由于修改所针对的侧面不同，已提出t d ( t i m ed o m a i n ) 一p s o l a ， f d ( f r e q u e n c yd o m a i n ) 一p s o l a 、l p ( l i n e a rp r e d i c t i v e ) 一p s o l a 几种不同的方法。 1 2 4 一个完整的语音合成系统的构成图1 1 一个典型的韵律语音合成系统组成山东大学硕士学位论文完备的文一语转换系统一般由语言学处理、语音学处理和语音合成这三大部分组成】。整个系统包括以下几个组成部分：文本预处理、分词处理和分词词典、句法分析、多音字处理和多音字典、音变处理及韵律规则、语音合成器以及语音数据库，如图卜1 所示。输入的文本材料经语言学处理、语音学处理，得到语流控制参数，然后读取语音数据库，经语音信号处理，输出连续语声流。图卜l 是一个传统典型的语音合成系统构成。具体到本文中的语音合成系统，语言学处理模块由二元语义分析模块和二元语义分析标注到文本韵律标注映射模块代替。p s o l a 韵律控制部分，在本系统中划分成几个独立的单元，供韵律控制部分调用。而图卜2 则是本文所设计的语音合成系统的整体构成。 ii i 输入汉讹文- 4 ：i il l 叫儿基子二元语义理_ ￥的淡浯浯义分析标注上 i- 二元吾望标h ! 搿韵律挖制标“1 5 i 喇换块 u l 簖律台威模块( 由苦干个的件参煎置捌子模块组 i成) 儿 ( 输山掳律感的台成语音) 图1 2 本文所设计的语音合成系统组成 1 3 语音合成中遇到的难题在语音合成方面，首先遇到的困难是从文本信息到韵律的标识上，自然语言中，语音特征变化万千，其数据本身隐含了知识。而对这些知识，人类可以感知，但对其的认识、描述是远远不够的。第7 页汉语有声调又有语调，这是和大多数西方语言的不同之处汉语的这种特点决定了我们在借鉴西方语调理论时不能完全照搬。汉语语调研究从8 0 年代以后得到很大发展，出现了不同的语调模型，眵盯对声调和语调的关系的认识有了发展。不过，对于语调产生和感知机制、语调在语篇层面的表现、语调和句子的信息结构的关系、语调和重音以及韵律结构的关系、语调模型的定量化等问题，我们认识尚很肤浅。用国际音标可对文字进行注音，但它不能满足语音合成、识别及语音学研究的需求。在从文字到韵律符号描述的自动转换方面，对自然语音理解能力的不足一直是研究工作的瓶颈所在。目前文字到韵律描述的转换通常只能根据一些基本的语法信息( 如词性) 来划分语调短语或设置语句的普通重音，还没有根据句子的语义来做深层次处理( 如设置不同的表达或感情色彩) 的能力。句子通常是韵律处理的基本单位。对句子与句子之间的段落与段落之间的焦点转移、前后呼应对照关系还无法自动分析得到。因此，提高对自然语言的理解能力是提高合成语音表达力的关键所在。其次，在语音学层面上，虽然语音合成技术已经从发音参数合成，声道模型参数合成发展到波形编辑合成，但是对合成语句的韵律修改，以及人的发音韵律信息怎样和那些声学参数相对应，也是阻碍提高语音合成自然表现力的因素。例如，如何生成有重音效果的读音，怎样控制生成句子的语气效果等 1 4 课题的研究方案的确定在本课题语音合成系统的研究方案中，韵律标注部分，采用在二元语义理解标注结果的基础上，采用映射的方式，直接根据语义标注结果进行韵律标注，由于是在语义理解的层面上标注韵律，所以标注的结果会更接近真人发音韵律。在语音合成上，建立基于词汇的大规模语音库，采用p s o l a 算法对韵律参数进行修改，将韵律修改做成模块结构，能比较方便的控制韵律，同时便于进一步扩充或修改语音控制单元。考虑到语音合成系统的实际应用领域对合成速度的要求，在本语音合成系统中，也从检索方式和多线程技术等方面，对提高语音合成的速度，采取了一些确实有效的措施。最后建立语音库维护的语音合成实验平台。第8 页山东大学硕士学位论文 2 二元语义标注到语音合成标注的映射模型 2 1 二元语义关系分析 2 1 1 什么是二元语义分析汉语句子“二元关系”的提出源于自然语言研究中的层次分析法或直接成分法( i m m e d i a t ec o m p o n e n t ) ，通常又叫二分法n 1 它是美国描写语言学家布龙菲尔德于3 0 年代提出来并运用到语言分析方面的一种方法。这种二分法的特点是：对于一个句子，先分为二，然后对于每一小部分，再一分为二，依此进行下去，直到不能再分为止该分析方法在语言学中得到了广泛的应用，产生了巨大的影响。后来，乔姆斯基的产生式s n p + v p ( s e n t e n c e ，n o u np r e s e r v e rp a r s e ) 就是二分法的形式表达。但在长期的实践中，二分法受到了汉语语法界的批评其焦点主要集中在轻视语义上同时它也不能分析汉语中的一些复杂的语言片断，如兼语短语、双宾语结构、连动形式等。为了克服二分法的缺点，引入语义：依据句子的词与词之间的二元语义关系来实现对句子的“二分”，即二元语义关系基本的二元关系共有1 7 种，分别为量名关系、偏名关系、名方关系、同位关系、数量关系、介宾关系、动宾关系、宾动关系、主谓关系、联合关系、指量关系、偏动关系、动补关系、动量关系、连动关系、偏形关系、形补关系同时我们定义了它们的中心以二元关系为基础，我们可以识别汉语语句的语法结构，得出该语句的句法树。其识别过程模型如图2 - 1 所示其基本思想是把所有的二元关系用规则的形式表达( 如主谓一名词+ 动词) ，然后采用自底向上的方式进行归约。在句法分析器中，借助于语义知识库、二元关系规则表和粘合关系表，分析的过程是如下4 个阶段的循环：确定待分析的对象、二元关系的初步筛选、二元关系的进一步筛选( 语义分析) 和句法树的构建。句法树初始为空，每一次循环都向相应的句法树中添加分析结果；第9 页出丕盔堂亟堂焦迨塞最后输出所有可能的句法树。图2 1 基于二元关系的汉语语言结构模型图2 2 语义关系举例山东大学硕士学位论文 2 1 2 二元语义关系分析结果的标注形式二元语义关系分析结果有两种输出形式，其一是以语法树的形式给出，如：句子“我校进一步加强学术交流工作”其语法树的输出形式如图2 2 所示。这种方式直观形象，但是不便于计算机对其进一步的处理；另一种是用符号标记的输出形式，虽然人看起来稍微抽象一些，但是非常利于用计算机对其进行进一步的处理和转换。两种方式都代表同一种语义结构，在本文的语音合成标注中主要是基于第二中输出形式。用符号标记的二元语义分析结果示例如下：原始句子：他们的关系本来就一向很不好标注句子：( 名一形( 名代( 的卜名( 名的他们的) 关系) ( 副一形本来( 副一形就( 副一形一向( 鬲l j - 形( 程副一副很不) 好) ) ) ) ) 原始句子：老师她很漂亮标注句子：( 名一形( 人称一人代老师她) ( 副一形很漂亮) ) 原始句子：他们都很好标注句子：( 名一形他们( 副一形( 范围一程副都很) 好) ) 原始句子：我非常高兴标注句子：( 名一形我( 鬲f j - 形非常高兴) ) 可见，经过二元语义分析后标识出的句子，能够非常明确的展示出句子的结构以及语义关系而人的发音韵律的改变，主要是随着语义的不同而改变，为了表达不同的语义。所以发音韵律和句子的语义关系必定存在着某种对应关系这样，经过语义标注的文本信息，必定同时包含着丰富的韵律信息，同时，这种韵律信息是建立在句子结构和语义理解的基础上的，也肯定要比一般的基于分词和词性理解的韵律标记所标注的韵律，更接近人发音的真实意图，所控制生成的合成语音，也会更加自然，更加接近人的真实发音。下面的工作就是将语义标识，转换成韵律发音标识第1 1 页 2 2 语音合成标注 2 2 1 语音合成标注中标记符号的位置对于语音合成系统，有很多输入格式可供选择，虽然对人类而言，无格式文本是很自然并便于理解的一种格式，然而机器却很难自动和准确的处理其中的文本【9 1 。其中可能的选择包括：有注释的文本，去掉可能的歧义后的句法树，具有特征( 用变量表示的时态等) 的语义输入，音素描述( 指定每句话的准确发音) ，类似于因素描述的音律学描述，只是其中的冗余更小，再有就是低层次的合成参数这些输入形式可以根据他们的机器友好及人类友好程度进行分析机器友好是指机器只需要很少的现实世界知识，就可以理解其中的内容人类友好可以很容易的编写和理解输入文本。但对人类友好的输入方法的理解在很大程度上还有主观性。例如，语言学家会觉得输入语法树很简单，非语言专业人士就困难了另外，人类友好只是指便于编写针对t t s 的输入文本，和人类对整个合成系统的性能感受是不一样的图2 - 3 给出了一个输入类型的印象图图2 3 输入类型的印象图很明显一个单一的标准是不可能满足所有人的需要的，这主要取决于潜在用户希望对合成器的控制程度n ”这就要求所设计的标注语言的位置在这两者之间有个折中，起位置要靠近t t s 系统，同时又便于有一定计算机知识( 但不是语言学家) 的用户理解对于声调的描述，在英语中先后提出了一些声调( 语调) 模式。目前，基于音调的p i e r r e h u m b e r t 模型是最流行的，并已由一种自适应的形式应用于t o b i 韵律转抄( t r a n s c r i p t i o n ) 系统。虽然这个模型已经得到广泛的应用，但它的用法还不够一致：( 1 ) 许多合成系统内部合第1 2 页山东大学硕士学位论文成模型不是建立在p i e e r e h u m b e r t 系统的基础上，因此他们是很难解释这种基于音调的标记符号的；( 2 ) 这一理论虽然被许多语言学家所接受，但他们的理解是不一致的。即使基于语调的模型得到了广泛的接受，它也仍然难于被采纳，因为基于语调的模型系统对于非语言学家是很难理解的，对一般用户而言过于复杂了。基于以上原因，本系统采用了一套基于x m l 语言的韵律控制标注符号体系，即能够很好的标注韵律信息，做到机器友好( 现在有很多成熟的x m l 解析器) ，同时，一般用户也能很容易看明白，做到人类友好。 2 2 2 本系统所用的标注符号本文结合以上的观点和考虑到方便实际的需要等因素，结合x m l n 2 1 标注的观点建立了以下标注符号： a 句子标识句子标识用来区分句子与句子之间的间隔，主要的标注手段是根据文本中的标点符号如当遇到：句号，问好，叹号等代表句子结束的标点符号时，就认为是一个句子的结束标注实例如下n ”；日前，包括江话在内的各种的7 访系统的研究都面临着如何提高输出话音量度曲问题。对于速个问越，日前的研究i 要围绕两个方面。 b 变化读标识文本中包含各种发音现象，相同的内容，在不同的句子中发音也会完全不同1 ，例如：句子。现在是8 ：1 0 ，我们该去上班了”中的“8 ：1 0 ” 应该读作：八点十分。而在句子“日本队和中国队现在的比分是8 ：1 0 ” 中的“8 ：1 0

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于二元语义标注的波形拼接语音合成.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于二元语义标注的波形拼接语音合成.pdf

文档简介

温馨提示

最新文档

评论

相关文档