




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
曩语文语转换串语音台威岛韵律控制的研究 p s 擘l 蔓5摘婺 摘要 文语转换( t t s ) 是近年来语骞处理领域内比较热f 1 的磅究方忘, 其功能是史计算机将文字文本转换成语音并埝出。卜个成功的文语转 换系统输出的语音应当音质清晰,音然流畅。因诧,一个文语转换系 统,应警其有一个性麓优蠢的语音合成模块。但是仅仅将一个个单字 的发音机械地连接起来,这样合成的语音缺乏自然度。语音的自然度 取决于其发音声调的变化,而在连续语流中一个字的发音不仅与这个 字本身的发音有关,面且还要受到它前露与其捆邻的字的发音的影 响,质以在文语转换系绞中,必须事先对文本进分橱,根据上下文的 关系来确定每个字发音豹声调皮如何变讫,然后稻这些声调变化参数 去羟铺语音的合成因此,文语转换系统还应当其有文本分析和韵律 控制功能的模块。陂本分析、韵律控制和语音合成这三个模块是文语 转换系统的三个核心部分。 中国是一个多方言的国家,许多方言具有悠久的历史积较大的 使用范围,嚣熙方言与普逶话樱毖,在发音、语法、用调等方瑟都有 缀多不瀚之处。因此,进行方言文语转换系统豹研究,在学术和应用 方面都有镁大的意义。 汉语的发音可以由声母、韵母和声调这三个因素来决定,普通话 和方言都具有这个共同的特点。从时域波形上看,汉语语音的波形可 以分为两种类型,一种类型的波形是非乎稳段,这部分波形购形状变 化快,没有明显的规律;第二静类型的波形为乎稳段,英特点是波形 具毒准嬲期性,形状椐对稳定。非平稳段主要存在于语音的声母段和 韵母的韵尾段,平稳羧存在于韵母的韵腹部分。谣音的声调反映了发 音周期( 藏频率) 的变化。根据语音的这些特点,对连续语音的基音周 期变化规律进行测量与统计,可以总结出连续语音的变调规则,来实 现对合成语音的韵律进行修正与控制,以提高会成语音的自然度与可 懂度。y 墨堡苎曼笪垫! 堕童鱼壁兰塑堡丝型塑竺壅! ! 墨 本文以苏州方言( 吴语) 为对象,对文语转换系统中的语音合成 和韵律控制进行了一些开创性的研究,提出了一种利用语音的时域波 形进行语音合成的新方法一基音同步帧叠接法( p s f c ) ,并在此基 础上用一种新的方法对合成语音进行韵律调整。对于文本分析模块, 则可以借鉴普通话文语转换系统中所使用的方法,所以在本文中没有 作为主要工作。利用这些方法,进行了吴语文语转换实验,实验结果 表明,本文提出的这套语音合成与韵律控制方法是可行和有效的。 厂、 作者:段凯宇 指导教师:俞一彪副教授 关键词:文语转疾_ 文本夯斤,韵律蕊4 ,吴语苔成,基蕃周期,基 音同步帧叠接 。 i i t h e 。r e s e a r c h o f s p e e ,c h s y n t ,h e s i s a n d p r o s o d y c o n t r o l i nw u - d i a l c c tt c x t - t o - s p c c c h a b s t r a c t t h er e s e a r c ho fs p e e c hs y n t h e s isa n dp r o s o d y c o n tr oiir tw u - diaie c tt e x t t o s p e e c h a b s t r a c t i nr e c e n ty e a r s ,t e x t - t o - s p e e c h ( t t s ) i sah e a t e dr e s e a r c ha s p e c t i nt h ef i e l do f s p e e c hs i g n a lp r o c e s s i n ga n d i t sf u n c t i o ni st oc o n v e r t t e x ti n t o s p e e c hb yc o m p u t e r t h ev o i c eo fas u c c e s s f u lt t ss y s t e m s h o u l db ec l e a ra n df l u e n t ,s oat t s s y s t e ms h o u l dh a v ea ne x c e l l e n t s p e e c h s y n t h e s i sm o d u l e b u tt h ev o i c es y n t h e s i z e db yc o n n e c t i n gt h e v o i c eo f s i n g l ew o r di s s h o r to fn a t u r a l n e s st h a ti sd e t e r m i n e db yt h e v a r i a t i o no ft h et o n eo f s p e e c h i n c o n t i n u o u ss p e e c h ,t h ev o i c eo fa w o r di sa f f e c t e db yn o t o n l yi t so w np r o n u n c i a t i o n b u ta l s ot h et o n eo f t h ew o r da d j a c e n tt oi t s oi nat t ss y s t e m ,t e x ta n a l y s i ss h o u l db e d o n ef i r s ta n da c c o r d i n gt ot h ec o n t e x tt h ev a r i a t i o no ft h et o n eo f e v e r yw o r d c a nb ed e t e r m i n e da n dt h ev a r i a t i o nw i l lb eu s e dt oc o n t r o l s p e e c hs y n t h e s i s t h u s t e x t a n a l y s i s a n d p r o s o d y c o n t r o lm o d u l e s h o u l db ei n c l u d e di nf lt t ss y s t e m t e x ta n a l y s i s ,p r o s o d yc o n t r o l a n d s p e e c hs y n t h e s i sm o d u l e a r et h r e ec o r e so fat t s s y s t e m c h i n ai sam u l t i d i a l e c t c o u n t r y a n dm a n yd i a l e c t sh a v e l o n g h i s t o r y a n da r eu s e di n c o n s i d e r a b l yl a r g er a n g e i n c o n s t r a s tt o m a n d a r i n ,d i a l e c th a sm u c hd i f f e r e n c ei np r o n u n c i a t i o n ,g r a m m e ra n d t h eu s a g eo fw o r d t h e r e f o r er e s e a r c ho fd i a l e c tt t si s m e a n i n g f u lj n b o t hs c i e n c ea n d a p p l i c a t i o n t h ec h i n e s es p e e c hc a nb ed e t e r m i n e db yt h r e ef a c t o r st h a ta r e i n i t i a l ,f i n a l a n dt o n e m a n d a r i na n dd i a l e c ts h a r et h e s e c h a r a c t e r i s t i c s a c c o r d i n g t ot h e f i g u r e o ft h ew a v e f o r mi nt i m e d o m i a n ,c h i n e s es p e e c hw a v e f o r mc a nb ed i v i d e di n t ot w ok i n d s o n e i su n s t a b l es e c t i o nt h a t c h a n g e sr a p i d l ya n di r r e g u l a r l y t h eo t h e ri s i i i theresearchofspeechsynthesisandprosodycontrolinwu-dialecttext-to-speechabstract s t a b l es e c t i o nt h a ta p p e a r se v i d e n t l yp e r i o d i ca n di t s p e r i o dc h a n g e s s l o w l y t h eu n s t a b l es e c t i o nm a i n l yc o n s i s t si ni n i t i a lp a r ta n d t h er e a r o ff i n a lp a r t t h es t a b l es e c t i o nc o n s i s t si nt h em i d d l eo ff i n a lp a r t t h e t o n eo f s p e e c h i sd e t e r m i n e d b y t h ec h a n g eo fi t sp e r i o d ( o r f r e q u e n c y ) t h r o u g hm e a s u r i n ga n ds t a t i s t i c s i n gt h ec h a n g eo fp e r i o dt h er u l e s a b o u tt o n ec h a n g eo fc o n t i n u o u ss p e e c hc a nb es u m m a r i z e d t h e s e r u l e sc a nb eu s e dt oc o n t r o la n d r e c t i f y t h e r h y m e a n dt o n eo f s y n t h e s i z e ds p e e c h s oa st oi m p r o v ei t s n a t u r a l n e s sa n d i n t e l l i g i b i l i t y t h i sp a p e rd os o m ec r e a t i v ew o r ka b o u tt h es p e e c hs y n t h e s i s a n d p r o s o d yc o n t r o li nt t ss y s t e mo f w u - d i a l e c ta n d p r o p o s e da n e w m e t h o do f s p e e c hs y n t h e s i s w h i c h s y n t h e s i z e ss p e e c hb yu s i n g t i m e - d o m a i nw a v e f o r m w ec a l lt h i sm e t h o d p i t c h - s y n c h r o n o u sf r a m e c o n c a t e n a t i o n ( p s f c ) m e a n w h i l ea n e wm e t h o do f p r o s o d yc o n t r o li s a l s op r o p o s e do nt h eb a s i so f p s f c a sf o rt h et e x ta n a l y s i sm o d u l e ,w e c a nr e f e rt om e t h o d so fm a n d a r i nt t s s y s t e m ,s oi ti s n tt h em a i nw o r k i nt h i s p a p e r u s i n gt h e s em e t h o d sw ea c h i e v et e x t - t o s p e e c ho f w u d i a l e c t a c c o r d i n g t ot h e e x p e r i m e n t s ,t h e s e m e t h o da r e q u i t e c o n c i s ea n dp r a c t i c a b l ea n dt h er e s u l ti ss a t i s f i e di nt h e a s p e c t s o f n a t u r a l n e s sa n d i n t e l l i g i b i l i t y d u a nk a i y u d i r e c t e d b y y u y i b i a o , k e yw o r d s :t e x t t o - s p e e c h ( t t s ) ,t e x t a n a l y s i s ,p r o s o d yc o n t r o l , w u - d i a l e c t s p e e c hs y n t h e s i s ,p i t c h s y n c h r o n o u s f r a m e c o n c a t e n a t i o n ( p s f c ) ,p i t c hp e d o d 墨堕苎重整垫主堕童全盛皇塑堡丝型竺堑塞箜二! :! 堕 第一章引言 本章主要介绍文语转换的概念、发展历史及当前的研究状况。详 细说明了文语转换系统的主要组成部分及各部分的功能和实现的主 要方法。 1 1文语转换的研究现状和发展前景 文语转换( t e x t - t o s p e e c h ) 是指把文本文件通过一定的硬软件转 换后由计算机或电话语音系统等输出语音的过程,并尽量使合成的语 音具有良好的自然度与可懂度。自九十年代以来,随着计算机和多媒 体技术的飞速地发展,文语转换系统己逐渐显示了其巨大的应用前景 和广泛的应用领域,因而也逐渐成为一个活跃的研究课题。 国外很早就开始文语转换的研究,目前已经研制成功的文语 转换系统有英语、法语、德语、日语等。b e l l 实验室、a t r 和s i e m e n s 公司已研制出多语种t t s 系统,法国c n e t 实现的多语种t t s 已用 于电话网中的公共话音服务。国内在文语转换的研究方面起步较 晚,但自八十年代起已和世界先进水平同步,国内在普通话语音 合成方面的研究取得了令人瞩目的成就,如中国科学院声学所的 k x p s o l a ( 1 9 9 3 ) ,联想佳音( 1 9 9 5 ) ;清华大学的 t hs p e e c h ( 1 9 9 3 ) ;中国科技大学的k d t a l k ( 1 9 9 5 ) ,k d 一8 6 3 ( 1 9 9 8 ) ,k d 一2 0 0 0 ( 2 0 0 0 ) 等系统。其合成汉语普通话的可懂度、清 晰度达到了很高的水平。在进行普通话文语转换研究的同时,我国 还展开了一些以方言为转换对象的研究,如粤语文语转换系统、 天津话语音合成系统等,还有一些以民族语言为对象的语音合成 系统,如蒙语文语转换系统、纳西语语音合成系统等。 文语转换系统能够提供一个良好的人机交互界面,可以用于各种 智能系统,如信息查询系统,自动售票系统;也可作为残疾人的辅助 吴语文语转换中语音合成与韵律控制的研究第一章引言 交流工具,如可以用作盲人的阅读工具或作为聋哑人的代言工具;从 长远看,文语转换系统语音还可以用于通信设备或一些数字产品中, 如手机和p d a ,因为目前的语音通信还是通过将语音信号经过编码、 调制进行传输的,信息量比较大,要占用较宽的频带,通信的速度和 质量也会受到限制和影响,如果传输的信息不是语音而是文字,由于 一个汉字只占用两个字节,那么通信的速度会大大加快,通信设备终 端只要将收到的文字信息转换成语音即可,因而极具应用价值。 1 2 文语转换系统的组成 一般来说,t t s 系统统包括三个主要的组成部份:文本分析模块、 韵律控制模块和声学模块。其结构如下图1 1 所示。 图1 - 1t t s 系统框图 1 2 1 文本分析 文本分析的主要功能是使计算机能够识别文字,并根据文本的上 下文关系在一定程度上对文本进行理解,从而知道要发什么音、怎么 发音,并将发音的方式告诉计算机,另外还要让计算机知道文本中, 哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等。 其工作过程可以分为三个主要步骤:一、将输入的文本规范化,在这 个过程中处理用户可能的拼写错误,并将文本中出现的一些不规范或 无法发音的字符过滤掉;二、分析文本中的词或短语的边界,确定文 吴语文语转换中语音合成与韵律控制的研究箍二量引言 字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字 符以及各种多音字的读音方式;三、根据文本的结构、组成和不同位 置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方 式。最终,文本分析模块将输入的文字转换成计算机能够处理的内部 参数,便于后续模块进一步处理并生成相应的信息。 传统的文本分析,主要是基于规贝e j ( r u l e b a s e d ) 的实现方法。比 较具有代表性的有:最大匹配法、反向最大匹配法、逐词遍历法、最 佳匹配法、二次扫描法等等。近几年来,随着计算机领域中数据挖掘 技术的发展,许多统计学的方法以及人工神经网络技术在计算机数据 处理领域中获得了成功的应用,在此背景下,出现了基于数据驱动 ( d a t a d r i v e n ) 的文本分析方法。具有代表性的有:二元文法法 ( d i g r a m m a rm e t h o d ) 、三元文法法( t r i g r a m m a rm e t h o d ) 、隐马尔可 夫模型法( m n dm e t h o d ) 和神经网络法( n e u r a ln e t w o r km e t h o d ) 等 等。 1 2 2 韵律控制 任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发 音长短也各不相同,这些都属于韵律特征。而韵律参数则包括了能影 响这些特征的声学参数,如:基频、音长、音强等。 最终系统能够用来进行声信号合成的具体韵律参数,还要靠韵律 控制模块。和文本分析的实现方法相类似,韵律控制的方法也分为基 于规则的方法和数据驱动的方法。 较早期的韵律控制的方法,均采用规则的方法。目前,通过神经 网络或统计驱动的方法进行韵律控制,已获得了成功的应用, 墨堕塞堕茎垫主亘童鱼盛皇塑堡丝型塑翌壅苎兰型重 1 2 3 语音合成 语音合成已有多年的历史,从研究技术讲可分为发音器官参数合 成、声道模型参数合成和波形编辑合成;从合成策略上讲可分为频谱 逼近和波形逼近。 发音器官参数合成:这种方法对人的发音过程直接进行模拟。它定 义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声 带张力等,由发音参数估计声道截面积函数,进而计算声波。由于 人发音生理过程的复杂性和理论计算与物理模拟的差别,合成语音 的质量暂时还不理想。 声道模型参数语音合成:基于声道截面积函数或声道谐振特性合成 语音。这些方法用来建立声学模型的过程为:首先录制声音,这些 声音涵盖了人发音过程中所有可能出现的读音;提取出这些声音的 声学参数,并整合成一个完整的音库。在发音过程中,首先根据需 要发的音,从音库中选择合适的声学参数,然后根据韵律模型中得 到的韵律参数,通过合成算法产生语音。参数合成方法的优点,是 其音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这 类合成器比特率低,音质适中。为了改善音质,近几年发展了混合 编码技术,主要改善了激励,如码本、多脉冲、长时预测规则友激 励等到,这样,比特率有所增大,同时音质得到提高。 波形编辑语音合成:它采用语音编码技术,存储适当的语音基元, 合成时,经解码、波形编辑、平滑等处理输出自然语音。波形编辑 语音合成中的合成基元是从原始的自然语音的词及句子中切分出 来的,保留了自然语音的一些韵律特征,有较好的自然度。 产生的合成语音是通过一个声学模块来具体实现的。早期语音合 成系统的声学模型,多通过模拟人的口腔的声道特性来产生。其中比 较著名的有k l a t t 的共振峰( f o r m a n t ) 合成系统,后来又产生了基于 墨堡苎垦茎垫! 堕童鱼堕兰塑堡苎型盟竺塞j 旦二兰! 堕 l p c 、l s p 和l m a 等声学参数的合成系统,这些都可以归结为参数 合成系统。 近十年来采用波形拼接来合成语音的方法,越来越被广泛的应 用。其中最具代表性的是基音同步叠加法( p s o l a ) ,这种方法既能 保持有所发音的主要音段特征,以能在拼接时灵活调整其基频、时长 和强度等超音段特征。其核心思想是,直接对存储于音库的语音运用 p s o l a 算法来进行拼接,从而整合成完整的语音。有别于传统概念 上只是将不同的语音单元进行简单拼接,系统首先要在大量语音库 中,选择最合适的语音单元来用于拼接,并在选音过程中往往采用多 种复杂的技术,包括多项统计学上的技术或神经瞬络技术,最后在拼 接时,使用p s o l a 算法,对其合成语音的韵律特征进行修改,而使 合成的语音达到了很高的音质。如比较著名的日本a t r 推出的多语 种语音合成系统,就采用了统计学上的模型来进行选音。其它的一些 主要语音产品,如s i e m e n s 的p a p a g e n o 系统,也均采用了类似或相 关的技术。 然而,基于波形拼接方法的系统,也存在一些问题,就是它的音 库往往非常庞大,需要占据较大的存储空间。这对系统推广到掌上型 电脑或一些小的终端设备上非常不利。另外,在拼接时,两个相邻的 声音单元之间谱的不连续,也容易造成合成音质的下降。目前,解决 这些问题较好的途径是将两种方法结合起来。在此基础上有诞生了一 些新的模型,如基音同步的s i n u s o i d a l 模型等,这些对进一步改善系 统的性能提供了帮助。但目前,这些工作还主要处于研究或实验室阶 段。 本文使用的p s f c 语音合成法,其原理是根据语音时域波形的特 点,采用的语音合成基元直接取自自然语音,所以从本质是讲也属于 波形拼接法;同时,该方法的合成规则比较简单,避免了复杂的合成 规则。并且在韵律控制上采用了与已往不同的方法,在保证合成语音 音质的情况下尽量使方法简单可行。苏州方言( 吴语) 是一种在我国 吴语文语转换中语音合成与韵律控制的研究 第一章引言 具有悠久历史的地方方言,主要分布在经济发达,文化底蕴深厚的苏 南地区,其语音特征与普通话有很大的不同,具有自己独到的特色。 近年来,在国内的语音合成与文语转换研究领域内,以地方方言和民 族语言为对象的研究逐渐升温。所以本文以吴方言为研究对象,采用 新的方法来对吴语进行合成,这对于丰富文语转换、语音合成的研究 与宏扬地方文化有很大意义。 吴语文语转换中语音合成与韵律控制的研究 第二章基础知识介绍 第二章基础知识介绍 本章介绍了语音产生的生理机制,语音发音的分类和汉语发音的 特点,并在此基础上详细说明了吴语的声韵调系统及吴语的发音特点 和变调规律。 2 1 语音学基础知识 人的发声器官由三部分组成:喉、声道和嘴。喉中有两片肌肉, 称为声带,两片声带之间的空隙称为声门,当它们分开时空气可以自 由地流过喉和气管。气流从喉向上经过口腔后从嘴或鼻孔向外辐射, 其间的通道称为声道。气流流过声道时犹如通过一个具有某种谐振特 性的腔体。嘴的作用是完成声道的气流向外辐射。 语音的声音按其激励形式的不同可以分为三类:第一类是浊音 ( v o i c e ds p e e c h ) 。当气流通过声门时,如果声带的张力刚好使声带 发生张驰振荡式的振动,那么就能产生准周期的空气脉冲,这一空气 脉冲激励声道就得到浊音。第二类是磨擦音或清音( u n v o i c e d s p e e c h ) 。如果声道在某处( 一般在接近嘴的那端) 发生收缩,同时 使空气以高速冲过这一收缩部分而产生湍流,就得到这种音。第三类 是爆破音( p l o s i v es p e e c h ) 。如果声道完全闭合( 一般它也是在声道 的前部) ,在闭合后建立起气压,然后突然释放,这样就得到爆破音。 在发浊音时,激励源为准周期脉冲,其周期称为基音周期,其倒数称 为基音频率。浊音的时域波形由于激励的准周期性也呈现出准周期 性;在发清音时,激励源为随机噪声,因而清音的时域波形也表现为 随机噪声的形式。 语音的一个重要特点是短时平稳性。发音时,激励源和声道形状 都是随时间而改变的,所以语音信号的特征是随时间而变化的。只有 在一短时段间隔内,语音信号才保持相对稳定的特征,这段短时间一 吴语文语转换中语音合成与韵律控制的研究 第二章基础知识介绍 般可取为5 - 5 0 m s 。因此,对于语音信号的分析和处理必须建立在“短 时平稳”的基础上。 2 2 汉语语音特点介绍 语音流由音素结合而成的最小单位,同时也是发声的最小单位是 “音节”( s y l l a b l e ) ,在汉语中,最小的发声单元是一个“字”,一个 字即为一个“音节”。困此,汉语发音比较简单,这是汉语的一大特 点。一个音节由元音( v o w e l ) 和辅音( c o n s o n a n t ) 构成。元音构成 一个音节的主干,无论从长度还是从能量看,元音在音节中都占主要 部分。辅音则只出现在音节的前端或后端或前后两端,它们的时长和 能量与元音相比都很小。所有的元音都是浊音,辅音则包括清音、磨 擦音和爆破音。在汉语中,辅音也称为声母,元音也称为韵母。 汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同 而具有完全不同的意义,对应着不同的汉字;另外,汉语中存在着多 音字现象,同一个字在不同的语气或不同的词义下具有不同的声调, 因而声调对于汉语语音的理解极为重要,承担着重要的构字辨意作 用,而在其它很多语种中声调则没有这样重要的作用。 声调的变化就是浊音基音周期( 或基音频率) 的变化,各个韵母 段中基音周期变化的轨迹称为声调曲线。声调曲线从一个韵母的起始 端开始,到韵母的终止端结束。不同声调的声调曲线的开始段称为弯 头段,呈共同上升走向;末尾一段呈共同下降走向,称为降尾段;而 中间一段则具有不同的特点,这一段称为调型段。一般来说,弯头段 和降尾段对声调的听辨不起作用,起作用的是调型段。而一段语音, 它的起始和结尾处的波形幅度较小,要准确地测出这些地方的基音周 期并不容易,因此,可将这两处的波形忽略,只测调型段这一部分波 形的基音周期。 吴语文语转换中语音合成与的律控制的研究 2 3 苏州音系 2 3 1 苏州方言( 吴语) 的声韵调系统 1 苏州方言的声母和韵母 吴方言作为汉语的一个分支,其语音也是由声母、韵母和声 调这三个基本要素决定。吴语的声母有2 7 个,韵母有4 6 个,分别 如表2 1 所示: 声母( 功韵母( 蛳 p b 垃f - l1 qi u ,口 i n oei o d 量1 拓i s szk ti 乏ti ye i il 正葶i fu r9h 日 t i ;话i 矗】l lt 日h 芍瓣潮 誊 d ; 硼,d 87i o a ? i o ? 抽 翻哦嘏谫曲研a 苕溥 谛 。 表2 1 吴语的声、韵母 其中p ,t ,t s ,k ,t 在发音上是不送气的:p ,t ,t s , k ,t g :在发音上是送气的;b ,d ,9 ,d ;在发音上浊化;m ,n ,几, n 是浊声母,可以自成音节,如m 亩,r l 晤,n 鱼;f s ,6 ,h 是 清擦音;v ,l ,r ,z 是浊擦音;o 是零声母。其中后面跟? 的表示 喉塞音。吴语的第三声与普通话的第三声不同,它的声调不是先 下后上,而是类似于普通话的第四声。吴语中也没有普通话中的 翘舌音。 吴语的韵母分为三类。( 1 ) 单元音:o ,o ? ,a ? ,o ,o ? ,d , y ,a ? ,i ,l ,q ,i i ,u ,y ,e ,茁,a u ,y a ? ,a l ,i o ,u o , i y ,a ,百,r l 。( 2 ) 二合元音,其中过渡音在前主音在后的为i a ,i o ? ,i a ? u o ,u a ? ,i o ,i o ? ,i a ? ,u a ? ,u e ,i 茁;过渡音 在后主音在前的为:u a n ,a n ,i n ,y n ,o n ,它们的共同特点是平 吴语文语转换中语音合成与韵律控制的研究 第二章基础知识介绍 稳段后跟有一个鼻音。( 3 ) 三合元音:i a ,i 百,u a ,u 甘,i on , 它们的特点是开始处有一个过渡音,主音在中间,后面跟有一个 鼻音。 6 代表一个后头的元音同部位的浊擦音,实际上是整个子音节 都带浊流。 o 是个略偏央的后元音,唇型较圆。 y 实际上是个复元音,实际读音为 。y 】,前面的 a 】是过渡音。 2 苏州方言的声调 苏州方言共有七个声调,如表2 2 所示: 编号调类调值例字 1阴平4 4翻机西东梯初 2阳平2 3烦厅齐铜提余 3上声5 3 反喜死懂体彩 5阴去4 1 2泛记细冻替报 6阳去3 l饭忌聚动地造 7阴入5法激息督铁削 8阳入2 3罚极席读笛灭 表2 - 2 吴语的声调 阳平调先低平再上扬,实际调值是 2 2 3 】,阳去调开头有个短的长调, 实际调值是 2 3 1 ,为简便起见,分别标作【2 3 和 3 l 】。 2 3 2 苏州方言的特点 1 基本保留古全浊声母,主要是塞音、擦音声母,具体情况是:清音 墨堕塞堕壁垫! 堕童全壁兰塑堡丝型竺竺壅 苎三兰茔型塑丑塑 声母有送气和不送气之分,另有一个同部位的浊音,如:pp 和b , t t 和d ,kk f 和9 ,t g t g l :和d ;但是没有d z 跟t s t s 配合。 2 分尖团,如:西 s i 希 a i 】、尖 t s i i 兼 t g i i 】。 3 鼻辅音韵尾发音位置不严格,如【a n ,0r l 】的韵尾可前可后,即不区 分前后鼻音如:森= 僧【s a n 、音= 英 i n 。 4 主元音 q 有和( a 】的不同。 舒声韵母有 司和 百 的区别,如浜 p 副帮 p 百】;生 s a 】伤 f s 甘】;横 r u a 黄 r u 百 。 入声韵母有 a ? $ 1 1 a ? 的不同,如:拔【b a ? 】白 b a ? ;掐 【k a ? 客 k a ? 】。 5 n ,l ,t s ,t s ,s ,z 】等声母不跟合口韵母相拼,如:男= 暖i nd 】;参2 窜 【t s a 】;来= 雷 1 e l ;桑= 霜 s 甘】。 6 【i y 】韵母不和( p ,t ,t s ,k 】4 组声母拼合,所以,在这几组声母里,和 y 韵母字合流,如:走= 酒 t s v ,楼= 留 1 y 】。 7 u 】和 加】呈互补关系, u 】只出现在唇音后, 乱】则只用在其他各组 声母后,如:步 b u ,路 1 a u ,【m 】不全这两个韵母相拼,与之对应 的是 m 0 1 ( 慕、磨) 。 8 古果遇两摄混同,如:河= 湖 r a u 】;罗= 炉 a u ;梭= 苏 s a u 。 9 有较复杂的连读变调。 2 3 3 连读变调 在连续语流中,每个字的发音是会相互影响的,连续语流中一个 字的发音的声调与这个字单独发音时的声调会有所不同,在合成的连 续语流中,只有具有这种声调变化,才能使合成的语音具有较好的可 吴语文语转换中语音合成与韵律控制的研究 第二章基础知识介绍 懂度,否则将只会是单字语音的生硬连接。苏州方言的连读变调基本 情况如表2 3 所示: 。后孚 l23 ( 656 78 前享部分) 14 45 5 。2 1 22 3a2 2 4 4b2 4 2 1 35 2a 4 l 一3 4b5 2 2 1 54 1 2a5 5 2 1b4 1 3 4 c5 2 2 l 63 1a2 2 4 4b2 4 2 1 75a 5 3 4d 5 5 b 5 5 2c 5 4 1 2 82 3a 2 3 5 2c 2 3 5 b 2 3 4 1 2 d 2 2 4 4 表2 - 3 吴语的连读变调情况 1 2 吴语文语转换中语音合成与韵律控制的研究 第三章基于基音同步帧叠接的吴语语音合成 第三章基于基音同步帧叠接的吴语语音合成 本章介绍了p s f c 合成方法如何利用声母、韵母和声调来合成语 音的思路以及合成的步骤、方法和整个合成系统的原理框图,并说明 了该方法所需的声母与韵母的特点与声调曲线的概念。 3 1 合成原理 汉语的发音是由声母,韵母和声调来决定的,普通话与方言都 具有这个特点,本文的合成思想就是基于这一机理,即在合成语 音时,首先合成这个发音的声母,再合成它的韵母,然后将韵母的 声调调整到所需的声调上,最后将声母和韵母连接起来得到最终 合成的语音。和已往用的较多的参数合成法不同,本文利用语音的 时域波形进行合成。 3 2 语音合成所需的基元 3 2 1 声母 声母在整个语音的发音中只占有很短的一部分,声母中只有磨 擦音s ,t s ,5 ,t 6 有较长的发音时长并能在不同的发音中保持 基本不变的发音和波形,其它的声母,犹其是对于爆破音,它的 发音时长很短,几乎难以觉察。在一个语音的发音中并不存在独 立的一成不变的声母发音,实际上,声母的发音是受它后面的韵 母影响的,从具有相同声母和不同韵母的发音中截取的声母段听 上去总是混有后面韵母的成分,从时域波形上看声母总是表现为与 其后的韵母的过渡与融合,越向后,则声母的波形与韵母的波形越 相似。图3 - l ( a ) 与( b ) 分别为吴语“爬”【b 0 2 与“跑”【2 的发音 中声母b 的波形,可以明显地看到同一声母在与不同韵母搭配时 吴语文语转换中语音合成与韵律控制的研究第三章基于基音同步帧叠接的吴语语音合成 的波形是不同的,因而它们的发音也不同。本文把一个声母与各 韵母的不同组合的过渡段剪切下来作为该声母的发音,但是一种 组合只适用于某声母与某一特定韵母的搭配。 ( a ) “爬”的声母【b 】 ( b ) “跑”的声母f b 图3 - l 具有相同声母和不同韵母的发音中声母的波形 3 2 2 韵母 从波形上看可以把一个汉语的韵母分解为一个平稳段与若干 非平稳段,平稳段波形的形状比较稳定,随时间变化缓慢,持续 时间较长;非平稳段的持续时间较短,并且波形的形状随时间变 化快,它占据了时长和能量的绝大部分,如韵母u o 中的。就是平稳 段。语音的非平稳段包括声母到韵母的过渡段以及韵母中鼻音和 一些很短的发音,如韵母1 1 0 中u 的发音是一个过渡音,就属于非 平稳段,非平稳段一般没有声调( 鼻音除外) 。平稳段的波形具有 明显的周期性,一个周期波形即为一个基音同步帧,一个韵母不 同于另一个韵母的主要原因就是因为它们各自拥有不同的基音同 步帧,也就是说基音同步帧包含了一个韵母平稳段的语音特征。 韵母中的非平稳段虽然很短而且没有明显的周期性,但对于辨别 吴语文语转换中语音合成与韵律控制的研究蔓三里苎薹童堕生塑童堡堕墨至堕量量壁 该韵母的发音是十分重要的,因此本文将韵母中的非平稳段,包 括过渡音和鼻音都作为一个整体保存下来。 3 2 3 声调曲线 韵母平稳段的波形虽然呈现出周期性,但是它的基音同步帧 的长度即基音周期却是在缓慢变化的,基音周期的变化趋势决定 了语音的声调,将平稳段中各基音同步帧的周期值测出并按顺序 排列即得到声调曲线。 因此,p s f c 合成方法所需的合成基元包括声母( 声母和韵母的 特定组合) ,韵母平稳段的基音同步帧,韵母中的非平稳段( 过渡 音、鼻音) 和声调曲线。 3 3 合成步骤 1 根据声母、韵母的组合确定所需的声母,根据韵母确定所需的 基音同步帧以及韵母的非平稳段,根据韵母和声调确定所需的声 调曲线。 2 根据声调曲线上的周期值将原始基音同步帧的周期调整到所需 的周期值上并保持基音同步帧的波形轮廓不变。然后将调整后的 各基音同步帧按先后顺序叠接起来即得到韵母的平稳段,该平稳 段具有所需的声调。 3 如果韵母还包含有非平稳部分,则再将非平稳部分叠接在平稳 部分的前面或后面,然后对这一段合成的语音进行幅度调整,即 得到要合成的韵母。 4 将合成的韵母叠接到声母段的后面即得到所要合成的语音。 图3 2 为合成过程的原理框图 墨堕奎堕堑垫主堕童全垡皇塑堡丝型堕婴壅 丝三兰茎主苎童堕生堕墨堡塑墨至至重鱼堕 图3 2 合成系统原理框 1 6 吴语文语转换中语音合成与韵律控制的研究 第四章基音同步帧的提与基音曲线的计算 第四章基音同步帧的提取与基音曲线的计算 因为p s f c 语音合成方法的合成基元取自自然语音的波形,所以 提取基元的优劣决定了合成语音的音质;同时,基音曲线反映了语音 基音周期的变化情况,决定了语音的声调,因此基音曲线计算的精确 与否直接影响到合成语音的声调是否准确。 4 1 基音同步帧的提取 在提取基音同步帧的时候,应当尽可能在发第一声的韵母的 平稳段的中部来取,因为第一声的各基音同步帧的周期和波形轮 廓相差不大,平稳段中部的波形最为稳定而且受其前面或后面的 非平稳段的影响较小,这一点对于合成平稳段的音质十分重要。 过渡音和鼻音则可以作为一个整体保存下来,但是在截取过渡音 时要使被截取的部分保持几帧与其相连的平稳段的部分,这样可 以保证在叠接时非平稳段与平稳段能够平滑地过渡。为了避免在 叠接处出现波形跳跃过大的情况,在截取这些基元时应当使这些 基元波形的起止点都处于谷底处。图4 1 ( a ) 显示了。的第一声的 部分波形,( b ) 为基音同步帧。 ( a ) a 1 】的连续语音波形 吴语文语转换中语音合成与韵律控制的研究第四掌茎童塑生堕堕堡塾皇苎童堕丝盟盐兰 ( b ) 【a l 】的基音同步帧 图4 一l 韵母的波形、基音同步帧 4 2 计算韵母的声调曲线 声调曲线的计算是p s f c 中最为关键的一个步骤。基音曲线是 对语音声调变化即基音周期变化的描述,正确的声调曲线决定了 合成语音的声调进而影响到到合成语音的可懂度。本文采用短时 平均幅度差函数( a m d f ) 来求语音的基音周期,计算公式为: y 。( ,) = :l s 。( 玎+ ,) 一s 。( 门) l 如果s ( ) 为一个周期信号,周期为兀则l = 0 ,t ,2 r , 3 丁时,y 。( ,) = 0 ,因此短时平均幅度差函数可以检测出周期信 号的周期值。在a m d f 曲线上,周期和周期的倍数点上的值最小, 出现谷底。语音信号并不是严格的周期信号,它的基音周期是在 不断变化的,但是语音信号具有短时平稳性,相邻的若干个基音 同步帧的周期变化不大,因此可以取4 0 m s 长度的信号为一帧,求 出该帧的基音周期,从理论上讲,周期点应位于最低的谷底处。 当语音含有较多的高频分量时,表现为波形起伏剧烈并有许多 尖锐的峰起,直接利用上式计算a m d f 时语音的周期性会有较大的 误差。图4 2 为一段语音的波形和这段语音的短时平均幅度差函数 波形。由图可见,直接用原始语音波形计算短时平均幅度差函数 时,a m d f 曲线的轮廓不光滑,除了在周期和周期的倍数点上有 谷底外,在其它的一些点上也有谷底,这些谷底会对判断基音周 墨堡苎垦茎堡! 至童鱼盛量塑堡丝型塑里窒 兰婴兰苎童旦生堕塑堡皇薹童堕塑生竺 期的值造成影响。 06 01 0 01 5 d 2 0 02 5 0 3 口03 5 04 0 04 , 6 0 原始语音波形 2 0 0 1 0 0 0 05 01 0 01 5 02 2 卯3 0 03 6 0 4 0 0 4 5 0 用原始语音求出的a m d f 波形 图4 - 2 为了尽可能准确地计算语音的基音周期,可先用一个低通数 字滤波器对待处理的语音段滤波,以除去高频分量和共振峰的干 扰,使得波形更为平滑,尽量突出语音的周期性。一个截止频率 为5 0 0 h z的理想低通滤波器,其冲击响应为 f ,) :后s i n ( 1 0 0 0 m ) 1 0 0 0 n t ,考虑到采用的采样率为1 1 0 2 5 h z ,令 ,= ”1 1 0 2 5 ,k = 1 ,则 ( n ) = s i n ( 3 1 4 0 n 1 1 0 2 5 ) ( 3 1 4 0 n 1 1 0 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公路智能化监测与维护方案
- 建筑拆除施工方案与操作流程设计
- 小学语文情境体验式习作教学创新设计与实施
- 核心素养下小学美术课程评价体系构建
- 初中化学家庭小实验对学生实验素养的培养
- 全国大学生电子设计竞赛试题及答案
- 2025昌吉消防文职考试真题及答案
- 现代物流基地建设项目施工方案
- 锅炉司炉工技能试题及答案
- 中医药产业园项目节能评估报告
- 手术室小讲课
- 2024年烟草知识考试题库
- 新视野大学英语(第四版)读写教程B3U5 教案 Unit 5 Chinas space dream
- 沙钢杯第十一届全国钢铁行业职业技能竞赛(金属轧制工)理论试题及答案
- 学校准军事化管理投标方案(技术标)
- 人教版九年级上册-历史全册课件(课件)【部编教材】
- 种子的结构教学课件
- NB-T+33008.1-2018电动汽车充电设备检验试验规范 第1部分:非车载充电机
- 【新课标】高中生物新课程标准考试题三套
- 微量注射泵的使用操作评分标准
- 《老年健康照护与促进》课件-模块七 老年人常见疾病照护
评论
0/150
提交评论