（计算机应用技术专业论文）语音合成中的语速研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：56 大小：3.38MB 积分：0 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

（计算机应用技术专业论文）语音合成中的语速研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要现在的语音合成技术日趋完善，先进的语音合成系统可以合成出可懂度相当高的语音。但这些系统产生的语音自然度与人讲的自然话语还有明显差距，而语速就是其中一个方面。现在合成技术中语速变化策略、效果并不是很好，往往一个篇章内都是种语速，单调，容易让人厌倦。本文作为中国社会科学院语言所语音研究室与m o t o 中国研究中心合作项目的一部分，试图通过对不同语速的英语语句和汉语篇章韵律特征的研究，为英语和汉语语音合成系统提供语速控制策略。本文首先对不同语速的英语语句韵律特征进行对比分析。本节主要是对英语语句在快、中、慢三种语速中的韵律特征进行了对比分析，考察了语速对韵律结构、时长、音高以及重音等各个方面的影响。其次对汉语普通话篇章语速变化模式进行了探索研究。对汉语普通话篇章的韵律特征在快、中、慢三种语速中的情况进行了分析和对比，韵律特征包括音高、重音等。同时考察语篇中语速的调控策略，结果表明语速的变化与韵律特征的变化之间是建立在篇章结构之上的一种非线性的关系。最后在以上研究成果基础上提出了一个合成算法设计思想。关键词：语速音速语音合成韵律特征 a b s t r a c t n o w a d a y st h es p e e c hs y n t h e s i st e c h n o l o g yi sb e c o m i n gm o r ea n dm o r em u t u r e a n dt h es p e e c hs y n t h e s i ss y s t e m sc o u l ds y n t h e s i z es p e e c hw i t hh i g hi n t e l l i g i b i l i t y h o w e v e r , t h e r ea r es t i l ll a r g eg a p sb e t w e e nt h e s em a c h i n e - g e n e r a t e du t t e r a n c e sa n d h u m a nn a t u r a ls p e e c h ，s u c ha ss p e e c hr a t e u n d e rt h ec u r r e n ts p e e c hs y n t h e s i s s y s t e m s ，t h ec o n t r o l l i n gs t r a t e g yo ft h es p e e c hr a t ea n de f f e c ti sn o tv e r yw e l l ，s ot h e s y n t h e s i z e ds p e e c hi su n c o m f o r t a b l ea n de v e nw e a r i s o m e a sap a r to ft h ep r o j e c t ， w h i c hi s c o o p e r a t e db yt h ep h o n e t i c sl a bo fi n s t i t u t e o fl i n g u i s t i c s ，c h i n e s e a c a d e m yo fs o c i a ls c i e n c e sa n dm o t o r o l ac h i n ar e s e a r c hc e n t e r , t h i sp a p e rt r i e st o a n a l y s et h ep r o s o d i cf e a t u r e s a f f e c t e db yd i f f e r e n tr a t e so fe n g l i s hu t t e r a n c e sa n d c h i n e s ed i s c o u r s e ，p a v i n gt h ew a yf o rg e t t i n gab e t t e rs p e e c hr a t es t r a t e g y a tf i r s t , s p e e c hr a t ee f f e c t so np r o s o d i cf e a t u r e so fe n g l i s hu t t e r a n c e sa r e i n v e s t i g a t e d s p e e c hr a t ee f f e c t so np r o s o d i cf e a t u r e sa r es t a t i s t i c a l l ya n a l y z e df o rf a s t ， n o r m a la n ds l o ws p e e c h , i n c l u d i n gp r o s o d i cs t r u c t u r ev a r i a t i o n ，p r o s o d i cd u r a t i o n v a r i a t i o n ，f od i s t r i b u t i o na n dv a r i a t i o n ，a n da c c e n tp l a c e m e n tv a r i a t i o n s e c o n d l y ，t h ec o n t r o l l i n gp a t t e r n so fs p e e c hr a t eo nc h i n e s em a n d a r i nd i s c o u r s e a r ei n v e s t i g a t e d w ea l s oa n a l y s et h ep r o s o d i cf e a t u r e ss u c ha sf od i s t r i b u t i o n ，a c c e n t p a l a c e m e n tv a r i a t i o nu n d e rt h r e es p e e c hr a t e s m o r e o v e r ，w ei n s p e c tt h ec o n t r o l l i n g s t r a t e g yo fs p e e c hr a t ea n df i n dt h a tt h ei n t e r p l a yb e t w e e ns p e e c hr a t ea n dp r o s o d i c f e a t u r e si sn o n l i n e a r f i n a l l y ，as y n t h e t i ca l g o r i t h mi d e ai sp r o p o s e db a s e d o nt h ea b o v er e s e a r c h k e yw o r d s ：s p e e c hr a t e ，a r t i c u l a t o r yr a t e ，s p e e c hs y n t h e s i s ，p r o s o d i c f e a t u r e s 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得丕鲞态堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：套洋签字日期：沁卜s 旯f7b 学位论文版权使用授权书本学位论文作者完全了解苤室盘堂有关保留、使用学位论文的规定。特授权丞鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名：衣孚签字日期：刀年莎月| 7 日导师签名：至p 硝签字日期：五刀年多自缪e l 第一章绪论 1 1 语音合成发展和现状第一章绪论语言是人类获得信息的主要来源之一，是人与外界交流信息的最方便、最有效、最自然的工具。随着计算机科学与应用的发展，出现了计算机语音学 ( c o m p u t e rp h o n e t i c s ) 。人们对计算机语音的研究主要有以下几个方面：语音编码( s p e e c hc o d i n g ) ；语音合成( s p e e c hs y n t h e s i s ) ；语音识别( s p e e c hr e c o g n i t i o n ) ；话者识别( s p e a k e rr e c o g n i t i o n ) 。语音合成，又称文语转换( t e x tt os p e e c h ) 技术，它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。通过语音合成可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”【1 4 】。 1 1 1 共振峰合成语音合成的理论基础是语音生成的数学模型，该模型语音生成过程是在激励信号的激励下，声波经谐振腔( 声道) ，由嘴或鼻辐射声波。因此声道参数、声道谐振特性一直是研究的重点。一般把声道视为一个谐振腔，共振峰就是这个谐振腔的谐振频率。音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性( 频率响应) ，对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。级联型共振峰模型：在该模型中，声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。并联型共振峰模型：许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联第一章绪论型共振峰模型。混合型共振峰模型：在级联型共振峰合成模型中，共振峰滤波器首尾相接：而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音( 大多数的元音) ，级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音( 大多数清擦音和塞音) ，并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型，事实上，上述三种共振峰模型在实际中都得到了成功的应用。例如：f a n t 的o v e 系统就采用了级联型的共振峰模型；h o l m e s 合成器采用的是并联型的共振峰模型；而最为典型也是最为成功的k l a t t 合成器则构筑在混合型共振峰模型的基础之上。共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数有着明确的物理意义，直接对应于声道参数，因此，可以容易利用共振峰描述自然语流中的各种现象，并且总结声学规则，最终用于共振峰合成系统。但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，l p c 合成技术和 p s o l a 合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟【1 4 】【3 0 1 。 1 1 2l p c 参数合成波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中l p c 技术( 线性预测编码技术) 的发展对波形拼接技术产生了巨大的影响。l p c 合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。对于利用l p c 合成技术来进行汉语语音合成和汉语文语转换的研究，中科院声学所在这方面做了大量的工作。1 9 8 7 年，他们引进了多脉冲激励l p c 技术， 1 9 8 9 年又引入矢量量化，之后，1 9 9 3 年，他们引入码激励技术，他们的这些工 2 第一章绪论作对于l p c 合成技术在汉语合成方面的运用做出了重要的贡献。 l p c 合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而l p c 技术从本质上来说只是一种录音+ 重放，对于合成整个连续语流 l p c 合成技术的效果是不理想的。因此，l p c 合成技术必须和其他技术相结合，才能明显改善l p c 合成的质量【1 4 】【3 0 1 。 1 1 3p s o l a 合成技术 2 0 世纪8 0 年代末提出的p s o l a 合成技术( 基音同步叠加技术) 给波形拼接合成技术注入了新的活力。p s o l a 技术着眼于对语音信号超音段特征的控制，如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的，因此，p s o l a 技术比l p c 技术具有可修改性更强的优点，可以合成出高自然度的语音。 p s o l a 技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用p s o l a 算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。如何将p s o l a 技术应用于汉语文语转换系统，国内许多学校和科研单位对此进行了大量广泛深入的研究。清华大学、北方交大、中科院声学所等在对 p s o l a 技术研究的基础上，先后开发出了基于波形拼接的汉语文语转换系统，并且对于如何进一步完善该技术，如何进一步改善合成语音的自然度等都提出了一些具体措施。 p s o l a 技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用【3 0 】。 i i 4l m a 声道模型随着人们对语音合成的自然度和音质的要求越来越高，p s o l a 算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷，因此，人们又提出了一种基于l m a 声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点，同时又具有比p s o l a 算法更高的合成音质。 3 第一章绪论目前，主要的语音合成技术是共振峰合成技术和基于p s o l a 算法的波形拼接合成技术。这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而p s o l a 技术则是比较新的技术，具有良好的发展前景。过去这两种技术基本上是互相独立发展的，现在许多学者开始研究它们两者之间的关系，试图将两者有效地结合起来，从而合成出更加自然的语流。例如清华大学的研究人员进行了将共振峰修改技术应用于p s o l a 算法的研究，并用于 s o n i c 系统的改进，研制出了具有更高自然度的汉语文语转换系纠3 0 】。 1 2 本文研究背景和目的合成语音自然度与人类语言的差距主要体现在两方面：一方面是音质的差距，由于语音合成通常存在一个从语音中提取参数( 如音高、音长、音强等) ，经过适当的变换再生成语音的过程。经过语音到参数再从参数返回到语音的转换过程，恢复出来的语音在音质上往往会有明显的损失，出现杂音、回声、机器声等现象。另一方面是韵律的差距，语音合成系统通常只能生成有限的语调模式，因而使合成语音听起来很单调枯燥。而且语音合成系统还会在节奏、轻重、停顿等方面处理不当，使合成语音听起来很别扭【4 j 。一般合成系统都可以选择合成不同语速语音，但改变语速，通过分析观察发现大家都是非常简单地线性地调整语音和停顿长短，其他的各种韵律参数没有变化( 包括韵律结构、音高和重音位置等) 。而实际上，语速一旦变化，很多韵律参数都随之变化，例如语速变快，韵律结构有可能改变，停顿的个数、重音的位置可能都会发生改变等等。这样的变化如果不加以考虑，合成的语音会很不自然。中国社会科学院语言所语音研究室与m o t o r o l a 中国研究中心合作项目：多语言语音合成语料库的建立以及韵律分析。此项目除了建立多语言语音合成语料库之外，还将研究相关语音学问题，特别是韵律问题研究，以提高语音合成的自然度，本文作为项目的一部分将主要探讨语速的问题，即如何为不同语速语句和篇章合成提供语速控制策略，使得合成语音更为自然。研究重点是考察语速变化对韵律特征的影响，即语速改变引起的音高、时长、重音、韵律结构等等参数的变化。第一部分研究英语语句语速变化对韵律特征的影响，从而得到控制英语语句语速的策略，第二部分研究汉语篇章中语速变化对韵律特征的影响，从而得到汉语篇章合成中语速变化的控制策略。 4 第二章韵律研究概述第二章韵律研究概述在讨论语速之前先介绍国内外关于韵律研究的现状，重点介绍重音，停顿，和韵律边界方面的研究，然后介绍语速研究的情况。 2 1 韵律研究现状韵律，又称“节律”，从物理角度是指基频、时长、和强度等声学参数；从语言学的角度，指音段层次上的音系组织。韵律是将各种语言学单位组织成话语或话语中关联组块的系统组织。韵律的实现涉及语音的音段和超音段特征( 又称韵律特征) ，它不但能够传递语言学信息，而且能够传递副语言学和非语言学信息。韵律特征，又称超音段特征，是指大于一个音位的语音单位所表现出来的音强( i n t e n s i t y ) 、音长( d u r a t i o n ) 、音高( p i t c h ) 等语音特征( 音色除外) ，通常所说的重音( a c c e n t ，s t r e s s ) 、声调( t o n e ) 和语调( i n t o n a t i o n ) 均属韵律特征。根据韵律特征的不同又可以划分出不同的韵律单元，如音步、韵律词、韵律短语、语调短语等。关于韵律问题，赵元任先生【1 7 】在五十年代末就曾经讲过“上加成素” ( s u p r a s e g m e n t a le l e m e n t s ) ，包括长短音、重音、断续度、语调、速度、嗓音等。罗常培和王均先生采用“节律”概念进行描述，“语言中声音的高低、轻重、长短、快慢、间歇和音色造成语言的节律。语言的节律是人们为了准确的转达词句的内容，表现说话人的思想感情，以求达到相互了解的必要手段”。王洪君【1 3 】贝u 认为，“韵律”指音流中音质之外的音高、音强、音长结构，韵律单位与层级“是指那些由不同的韵律标记定义的大小不同的单位，这些单位是靠自身的韵律标记而不是靠与句法单位的对应来定义的”。 2 1 1 与重音有关的韵律研究普通话的语调重音一般分为三种：语法重音、逻辑重音和心理重音( 或叫语气重音) 。语法重音是由句子语法结构特点决定的，位置较稳定；逻辑重音是根据句子在上下文语境中的逻辑联系来确定的，大都有对比、强调的含义，具有口语修辞色彩，位置比语法重音灵活；心理重音则是反映了说话人在口语交际中的重心，是说话人强调的内容，与说话人的情绪有紧密联烈6 1 。第二章韵律研究概述一个短语调群中的逻辑重音通常可以用字调的读得到位或抬高调阶来实现，一个句子中的逻辑重音则需提高一个或几个短语调群的基调。在平叙句中，逻辑中心往往就是重音所在；而对疑问句或感叹旬来说，除了逻辑重音之外，还有更突出的语气重音。实验证明，语句中逻辑重音和语气重音的大部分信息，都是由声调承担的，其次为时长，而强度则总是伴随声调的高低而自动地加减。声调和时长对重音信息所承担的程度是可以互补的，就是说，两者都可独立承担加重语气的任务，而音强加强时则一定伴随声调的升高，反之不然【l 6 | 。关于重音的声学特征，郭锦桴【6 】经过实验分析得出，“普通话语句重音的声学征兆主要表现在时长和音高的变化上，时长和音高并行变化，然而，重音时长的变化更具普遍性。几乎所有重音的时长都较长”。关于重音与音强的关系，郭锦桴认为，“语句重音与音强关系不明显，但在强调重音中，音强有明显加强”。曹剑芬认为，从声学语音学的角度来看，重音是语音四要素综合增强的效应，往往是音长显著地加长，音高变化特别突出，具体表现为音阶或音阈的抬高或下沉，音域动程增大，音强相对提高，音色也更加典型。其中最重要的是音高和音长，而不是音强。而对汉语来说，时长的作用可能更为重要一些，因为音高的作用虽然十分显著，但是在实际的言语过程中，作为重音标志的音高突变很容易受到作为声调和语调的声学效应的干扰和制约，而时长所受的这种干扰和制约则要小得多【。李爱军的实验数据表明，在音节作为考察单位时，重读音节的音长和音高不相关，而非边界前重读上声的音高上限和音长有负相关，音高上限的抬高和或音长的拉长都可以实现语句重音【8 】。s h i hc h i l i n t 2 8 】在实验中发现，有一半的发音人抬高焦点音节的音高，另一半发音人只拉长音长。 2 1 2 与停顿相关的研究关于停顿，郭锦桴【5 】定义为“语句中以及语句之间的问歇”，认为停顿的产生是出于三种需要：一是语法上的需要，二是语义表达的需要，三是说话时换气的生理需要。停顿也可以分为语法停顿和心理停顿，语法停顿以标点符号为书面标志，心理停顿则是说话者为了表达的需要而有意安排的停顿，时间比较自由。随着各种韵律特征研究的深入，停顿也越来越得到人们的重视，郑秋谢1 8 】认为，韵律现象的主要征信不只是语流单位，停顿也是一个主要征信，而且其地位不亚于各韵律单位。吴沽敏【15 】则提出用“停延”来代替“停顿的说法，认为语流中音节的疏密度不仅用“停顿”表示，还需用不等音长的延连表示。她把汉语停延分为内部停延和外部停延，外部停延是指由音长、音空形成的语速，内部停延以句子为界分 6 第二章韵律研究概述为“内三层和“外三层”，内三层为：音节音步气群句子，外三层为：句子句群段落篇章。汉语停延时值往往是随着逐级递升的语音层次而不断增长的，句外的语音切分和语言结构一致，句中的语音切分和语法结构不完全对应。同时她也指出，在口语中由于语速较快，各级停延的差异不会像朗读时那么明显。 2 1 3 与韵律层级及边界相关的研究韵律单元的划分一直是各家争论的热点，但主要类别大都为音步、韵律词、韵律短语、语调短语等几个级别，其划分标准也使各执一言，没有一个统一具体的标准。王洪君u3 】将韵律单位与层级分为五级，从大到小依次是：语调段调群段音步音节摩拉。她认为，“汉语普通话以双音节音步为主，其次是单音节和三音节”，音步的形式标记可定义为“若干音节的固定的时长组合模式”， “同音步内的各个音节按一定模式发生连调变化但连调变化并不是音步的韵律标记，因为连调变化也可以跨音步发生”；调群段由若干音步组成，其韵律标记是“较大的停延和段内声调音域的逐渐收缩和下降”( 声调音域指语流中特定段落内声调最高限和最低限的绝对差值，是音高的上限、下限两条线的展敛变化) ；语调群的韵律标记也是停顿和声调音域的变化，但停顿的时间比调群长，声调音域的变化模式也与调群不同( 沈炯【1 刁) 。曹剑芬【2 】认为连续话语可以切分出韵律词、韵律短语和语调短语三级韵律单位。她对韵律词的界定是：三音节以下的语法词或词组以及其他凡是属于一个音步的结构；跨度为1 3 个音节；具有类似语法词的连调模式和词重音模式。对韵律短语的界定标准是：由一个或几个韵律词组成，即“可能多音步”：跨度为 7 2 个音节；内部各个韵律词问可能出现韵律上的节奏分界，主要表现为韵律词末尾音节的延长( 或伴有较短的无声停顿) 和韵律词之间的音高重设( 包括音阈和音域) ；具有相对稳定的短语语调模式，即音阶的d e c l i n a t i o n 及r e s e t t i n g ：具有相对稳定的短语重音配置模式，即与句法结构相关的常规重音模式。林茂灿【1 0 】【1 1 】认为语句包含韵律词和韵律短语，并指出普通话语句中有两种人们可以感觉到的间断：无声间断和有声问断。韵律短语有大小之分，韵律大短语主要由大的无声停顿和边界前音节时长拉长引起，韵律小短语主要由小的有声停顿和或无声停顿引起。韵律词有简单韵律词、复杂韵律词和复合韵律词三种类型，简单韵律词指两音节和三音节的词汇词，以及强调念的单音节词如副词、介词等，复杂韵律词由两个以上词汇词组成，简单韵律词和复杂韵律词可以称为 “f 0 变化组，复合韵律词则多数是由两个以上简单韵律词和或复杂韵律词组成。 7 第二章韵律研究概述李爱军【l9 】将汉语的韵律结构分为五级，从1 j , 至t j 大依次为：音步、韵律词、次要韵律短语、主要韵律短语和语调短语。认为音步是语流中趋于等长的节拍单位，普通话以双音节音步为主，其次是单音节和三音节音步；韵律词一般包括一个或一个以上的语法词，词内音节之问没有停顿，具有一个词重音( 韵律上的凸显成分) ，词后感知到的间断很小，一般没有无声停顿出现，她同意s h i hc h i l i n 2 8 】的观点，“韵律词可以对应一个超音步( s u p r a f o o t ) ，由一个音步和其相邻音步组成，特别是一些未组合的单音节”；次要韵律短语由一个或多个韵律词构成，具有一个短语重音，其后感知到的间断比韵律词大，但比主要韵律短语小，可以是较短的无声停顿或有声停顿；主要韵律短语( 语调短语) 由一个或多个次要韵律短语构成，具有一个语调短语重音，其后可以感知到明显的停顿，从声学上看，主要韵律短语后有明显的无声段，与后接短语之间有明显的音高重设，且音高曲线有明显的下倾( d e c l i n a t i o n ) 。 2 2 语速的定义语速( t e m p o r a t e ) i r a 常指发音速度，也可以指听觉上对话语速度的感知印象【3 】。语速( s p e a k i n gr a t e ) 和音速( s p e e c hr a t e ，a r t i c u l a t i o nr a t e ) ，语速包含停顿，而音速不包含停顿3 】【2 2 1 。作为语速快慢的度量，每秒钟所说的音节数，不能笼统地用包含停顿在内的话语总时长来计量。尤其是比较不同话者的语速时，必须计算出他们的音速，才能真正反映听觉上感知到的语速差异【3 1 t 27 1 。 j a c q u e sk o r e m a n 将发音速度又分为i n t e n d e dr a t e 以及r e a l i z e dr a t e t 2 5 1 。这两个参数在说话人语速快慢的感知上有明显的区别。但是在自然口语中，这两个参数不是语速的决定因素，停顿和间断( p a u s i n g o rd i s f l u e n c i e s ) 也是语速感知的重要因素。 2 3 语速研究及基本结论通常在语速研究中，将停顿分为三种分类，1 ) 无声停顿，时长大于1 5 0 m s 的静音；2 ) 填声停顿，犹豫声或紧跟沉默后的犹豫声；3 ) 某个单词的拖长，通常通过相连的犹豫声来实现，第一类停顿和第二类停顿作为一个r i m 的分界标记对篇章和句子的全局结构研究表明，对每一个发音人，篇章中6 0 的情况，第一个 r u n 的平均音节时长要比每个人各自的总的平均时长要长。检查每个发音人r u n 的四分位数，上四分位数和下四分位数对应的句子结构是不同的，这可能是部分局部或全局话语特性不同而引起的l z 2 1 。 8 第二章韵律研究概述话语中通过音节的时长伸缩而实现的语速变化及其调节方式，跟音节在语句中的位置密切相关，并且显示出一定的层次和规律。总的说来，语句内部中间位置上的语速相对较快，而首尾位置上的语速相对较慢。而且，起首位置上的调节主要是通过声母的加长实现的，而末尾位置上的调节主要是通过韵母的延长或缩短实现的。作为总体语速变化的客观变量，不仅在于时长的伸缩，还涉及音高的调节。总的趋势是，语速加快，语句的总体音高就相对抬高，总体音域相对扩大：语速减慢，语句的总体音高就相对降低，总体音域相对缩小。总体语速的改变并不是均匀地分布在整个语句上，而是一种非线性的分布，这就进一步说明，汉语并不是音节节奏型语言p j 。对法语的中速和快速语篇对比分析发现发音人通过许多有意识的策略来增加语速。包括减少短语( 边界) 的数目，主要边界降为次要边界，或者短语边界的消失和减轻短语边界的强度( b o u n d a r ys t r e n g t h ) ；在韵律调整上，停顿的数目和时长有减少；在音高频域和音高位移( p i t c ht a r g e t 对应的最大值和最小值) 上有减少【2 3 1 。底层调的实现也受语速的影响。语速加快引起的语调变化受到发音人以及篇章中位置的影响【2 3 】。语速的改变也会改变f o 曲线的形状【2 1 】。语速对停顿的数目和平均时长都有相当大的影响，音速和语速不能作为衡量速度改变的唯一指标。慢速的实现策略并不一定跟快速策略相对立，随发音人的不同而不刚2 6 j 。还发现降速首先可以通过加长音段获得，其次是通过生成多余的音节，最后是通过停顿来获得的【四j 。 9 第三章不同语速的英语语句韵律特征对比分析第三章不同语速的英语语句韵律特征对比分析 3 1i v i e 英语韵律标注系统介绍英语韵律标注系统i v i e 7 】是基于i v i e 语料库提出来的，提出的目的是研究方言间的韵律差异。是在剑桥大学因研究工程需要而创建的。i v i e 系统是由英语韵律标注系统t o b l ( t o n ea n db r e a ki n d e x ) 发展而来的，但跟t o b i 又有所区别，其标注层级包括： 1 ) 正则层( o r t h o g r a p h i ct i e r ) ：将说话人所说的正确词语标记下来； 2 ) 突显层( p r o m i n e n c et i e r ) ：标记突显音节； 3 1 目标层( t a r g e tt i e r ) 卧l ：语音层( p h o n e t i ct i e r ) ：对语调的变化进行语音上的描写； 4 ) 音系层( p h o n o l o g i c a lt i e r ) ：对发音人的语调的形式进行语言学表述； 5 ) 评述层( c o m m e n tt i e r ) ：注释。 t o b i 理论思想是沿用p i e r r e h u m b e r t 的博士论文“t h ep h o n o l o g ya n d p h o n e t i c so f e n g l i s hi n t o n a t i o n ”( l a d d ，1 9 9 6 称其为a m 理论) 。p i e r r e h u m b e r t 在其论文中将语调的曲拱看作是独立于文本之外的音系事件( p h o n o l o g i c a le v e n t s ) ，并且用两个原始调h ( 高调) 和l ( 低调) 来描述话语的韵律特征。p i e r r e h u m b e r t 认为，英语语调包括三类不同的音高事件：音高重音( p i t c ha c c e n t s ) 、短语重音( p h r a s e a c c e n t s ) 和边界调( b o u n d a r yt o n e ) ，她提出了英语的语调特征有限状态文法，即用七个音高重音( h 幸，l 宰，h 宰+ l ，h + l 幸，l 奉+ h ，l + h ，h 木+ h ) 、两个短语重音( h ，l 一) 和两个边界调( h ，l ) 表示出来，其中短语重音位于音高重音和边界调中间，具体关系如图3 1 所示，示例如图3 2 所示：前边界调音高重音短语重音后边界调图3 1 英语语调结构 1 0 v 聪卜歹珠歹时第三章不同语速的英语语句韵律特征对比分析 3 2 语料库嘲3 0i v t e 系统的恬止后岫怀址币蜘 6 j i 7 戟悄p r a a i 从m o t o 英语合成语音库中选取5 0 句英语陈述句，发音人为女声，标准萸式英语，以三种语速朗读这5 0 个句子：慢速( s l o w ) ，中速( n o r m a l ) 和快速( f a n ) ，分别用s ，n ，f 表示，句子平均长度为i7 9 个单词，最少的8 个单词，最多2 5 个单词。对这些句子进行音段和韵律标注，标注音高重音( p i t c ha c c e n t ) 及其实现域 ( i m p l e m e n t a t i o nd o m a i n + 简称i d ) ，语调短语重音及语调短语边界( i n t o n a t i o n p h r a s eb o u n d a r yo l m a j o r p r o s o d i cp h r a s eb o u n d a r y ，简称i p ) ，标注音高重音所在元音的位置，标注语调短语重音所在元音的位置。标注信息由中国社会科学院语音研究室专业标注人员完成如图3 - 3 所不：。儿r l 址1 n r - 可i 1 , , , k , - - 卅忡啼卜i 呤卜咿1 熏勰蘸图3 - 3 标注示例的标注层次从上到下分别是w o r d s 词层p h o n e s 音子层：b i 韵律边界层边界3 表示音高重音实现域( 工d ) ，4 为语调短语边界：s i 为重音层， 3 表示音高重音，4 表示语调短语重音。第三章不同语速的英语语句韵律特征对比分析 3 3 韵律特征分析 3 3 1 三种语速分析在提取数据时，每一句话的时长去掉前后两个静音段( s i l e n c e ) 时长，保留句子中间的静音段时长。表3 1 、表3 2 分别为以音节、词为单位统计的三种语速平均值与方差。从表3 1 中可以看到中速略高于慢速的，快速的要比中速的高得多。音节是按照正则表达式自动切分的。对其做t 检验，这三种语速两两之间是有显著差异的( p 0 0 0 1 ) 。从表3 2 看到，随着语速的增加每秒内的单词个数也在增加。对其做t 一检验，这三种语速两两之间也是有显著差异的( p 0 0 0 1 ) 。表3 3 为每种语速的句长平均值，可以看出句长均值随语速的增快而减小，t - 检验表明两两之间是有显著性差异( p 0 0 1 ) 在oo l 水平上没有显著性差异1 在 o0 5 水平上有显著差异；n s 之问音高重音( p ：07 1 9 ) 役有显著性差异语调短语重音( p = 00 0 2 慢速；语调短语重音对应的最大值中速慢速快速。音高重音的音高最小值是快速慢速中速，语调短语重音的最小值是慢速快速中速。t 检验的结果为：音高重音最大值：f s 没有显著差异 ( p = 0 1 0 0 ) ，f n ，n s 均有显著差异( p 0 0 0 1 ) ，最小值：s n ( p = 0 2 7 1 ) ，n f ( p = o 1 6 2 ) ， f - s ( p = 0 7 9 7 ) 均没有显著差异。语调短语重音最大值：s - n ( p = 0 8 4 9 ) ，n f ( p = 0 2 6 7 ) ， f s ( p = 0 5 0 1 ) 均没有显著差异，最小值：s - n ( p 0 0 0 1 ) ，n f ( p 慢速。语调短语重音对应的音高变化范围两两之间有显著差异( p 0 o o i ) ，音高重音f s ( p = 0 0 3 8 ) ，f n ， s n ( p 0 0 0 1 ) 。语调短语重音对应的音高变化范围两两之间有显著差异( p 慢速，语速的增快和减慢使音高变化范围的减小，这与 2 3 的研究结论是相同的。在本文中，快速和慢速的音高变化范围减小是最大值的减小和最小值的增大，且快速的最大值比慢速的大，最小值比慢速的小。而在 2 3 】的研究中中，三个发音人快速的最大值都比中速小，最小值，有两个比中速的也小，另一个比中速大。在 3 】中，快速话语中的音高最大值比慢速话语中的更高，而最小值则更低，虽有类似的结论，但其中有一个是两个不同人之间的比较，本文认为不够合理。重音的音高变化范围中速快速慢速。从总的无声停顿时长看，中速快速慢速，且中速和快速没有显著差异，而在 2 9 】的研究中，三个发音人中有两个是慢速中速快

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）语音合成中的语速研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）语音合成中的语速研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档