(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf_第1页
(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf_第2页
(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf_第3页
(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf_第4页
(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(控制理论与控制工程专业论文)汉语语音合成韵律控制方法与实现的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 随着科学与技术的发展,语音合成和语音识别已经开始广泛应用于社会 的各个方面,并且成为人工智能、语音信号处理以及人机多媒体交互研究领 域的热点之一。然而对于语音合成来说,汉语不同于西方语系,表现在语法 结构、语法规则、声学特性、韵律特征等多个方面。首先,汉语是声调语言, 声调具有辨意作用。其次,字与字之间的音调前后彼此互相影响会发生变异, 即出现协同发音现象。同时,连续语流中的发音中间还会有短暂的停顿,这 体现了人说话的节奏感。在汉语的文语转换( t t s ) 中,对语音基频、时长、 幅度等韵律信息的预测、分析和控制称作韵律控制。 目前在汉语语音合成的韵律控制方法上还存在很多无法解决的问题,致 使合成语音的音质在自然度和可懂度方面相对较低,还不能达到用户可以广 泛接受的程度,从而制约了该项技术大规模地进入市场。针对上述问题,本 文在广泛汲取汉语韵律知识和现代语音信号处理技术的基础上,对汉语语音 合成技术及其实现方法进行了深入的研究,主要研究工作如下: l 、本文从汉语的声学特点和韵律特征出发,诸如汉语的声调及特点、汉 语的语调及模式,分析和研究汉语的韵律特征( 基频、时长、幅度) 、重音、 停顿以及韵律边界之间的相互关系,提出了适用于汉语语音合成的韵律控制 规则。 2 、通过对汉语的韵律及其层次结构的分析与对比,进行了韵律特征与韵 律边界的声学分析,提出了韵律分层建模、韵律边界预测和韵律分层控制的 思想。 3 、确定了以音节作为拼接的语音基元,采用基于数据驱动的统计模型和 规则相结合的方法,实现韵律建模及其韵律控制。 4 、采用p s o l a 算法,在有限范围内实现对合成基元的时长和基频的调整, 以及它对合成语音音质的影响;研究了语调曲线的合成及其控制方法。 利用上述方法,进行了汉语文语转换实验。实验结果表明,本文提出的 语音合成与韵律控制方法是行之有效的。 关键词:文语转换;语音合成;语音自然度;韵律模型;韵律边界;韵律控 制;p s o l a 算法 哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , s p e e c hs y n t h e s i sa n d s p e e c hr e c o g n i t i o nh a v eb e e na l r e a d yu s e di na l lt h ef i e l d so fs o c i e t y , a n dh a v e b e c o m eo n eo fh o t - r e s e a r c h i n gf i e l d si nh u m a n - i n t e l l i g e n c e ,s p e e c hs i g n a l p r o c e s s i n ga n dh u m a n - m a c h i n em u l t i m e d i u mi n t e r a c t i o n i nt e r m o fs p e e c h s y n t h e s i s ,h o w e v e r , c h i n e s ei sd i f f e r e n tf r o mw e s tl a n g u a g ef a m i l ys u c ha so n g r a m m a rs t r u c t u r e ,g l a l b m a rr u l e s ,a c o u s t i cc h a r a c t e r i s t i c sa n dp r o s o d i cf e a t u r es o o i la tf i r s t , c h i n e s ei sl a n g u a g ew i t hf i v et o n e sa n dd i f f e r e n tt o n e sa r eu s e dt o e x p r e s s d i f f e r e n t m e a n i n g s m o r e o v e r , t h et o n e s b e t w e e nb o t hw o r d sa r e i n f l u e n c e de a c ho t h e rs oa st oc h a n g et h e i ro r i g i n a lt o n e s n a m e l yc o a r t i c u l a t i o n m e a n w h i l et h e r ea l gs h o r t - t i m eb r e a k si nc o n t i n u o u ss p e e c h , w h i c hs h o w ss e i l o fr h y t h mf o rs p o k e np e r s o n p r e d i e t i o n , a n a l y s i sa n dc o n t r o lo np r o s o d i c i n f o r m a t i o ns u c h 船p i t c hf r e q u e n c y ,t i m el e n g t ha n dm a g n i t u d eo fs p e e c hs i g n a l a r en a m e d 嬲p r o s o d i ce o n t r o lf o rc h i n e s et t s a tp r e s e n t , t h e r ea r em a n yp r o b l e m sn o tt os o l v eo np r o s o d i cc o n t r o l a l g o r i t h mf o rc h i n e s es p e e c hs y n t h e s i s ,s ot h a tt h es y n t h e t i cs p e e c hq u a l i t yi s r e l a t i v e l yl o wi nn a t u r a l n e s sa n di n t e l l i g i b i l i t y b e c a u s et h es y n t h e t i cs p e e c h q u a l i t yh a sb e e n n o tr e a c h e dt ot h el e v e la c c e p t e db yu s e r ,i ti sr e s t r i c t e dt h a tt h i s t e c h n o l o g yc a nb ew i d e l ya p p l i e di nt h em a r k e t a sar c s u l t ,t h i sp a p e ri sd e e pt 0 r e s e a r c ht h em e t h o d so fc h i n e s es p e e c hs y n t h e s i sa n di t sa l g o r i t h mb a s e do n c h i n e s e p r o s o d i ck n o w l e d g ea n dm o d e r ns p e e c hp r o c e s s i n gt e c h n o l o g y 1 1 l em a i n r e s e a r c hw o r ki sf o l l o w i n gt o : 1 a c c o r d i n gt oc h i n e s ea c o u s t i cc h a r a c t e r i s t i c sa n dp r o s o d i cf e a t u r es u c h a s c h i n e s ea c o u s t i ct o n e sa n dc h a r a e t e d s t i e s ,c h i n e s es e n t e n c et o n e sa n dm o d e l se t c t h ea u t h o ra n a l y z e sa n dr e s e a r c h e st h er e l a t i o n sb e t w e e np r o s o d i cf e a t u r e s ( p i t c h l s e q u e n c y , t i m el e n g t ha n dm a g n i t u d e ) s t r e s sa n db r e a ka sw e l la sp r o s o d i c b o u n d a r y , p r o p o s i n gt h er o l e so f p r o s o d i cc o n t r o lf o rc h i n e s es p e e c hs y n t h e s i s 2 a n a l y z i n ga n dc o m p a r i n ga b o u tp r o s o d i cf e a t u r ea n ds t r u c t u r eo f p r o s o d i c l e v e l s ,t h ea u t h o rh a sf i n i s h e dt h ea c o u s t i ca n a l y s i so fp r o s o d i cf e a t u r ea n d p r o s o d i cb o u n d a r y i t d e s c r i b e st h o u g h t so fc o n s t r u c t i n gm o d e l sb a s e do n p r o s o d i cl e v e l s ,p r e d i c t i n gp r o s o d i cb o u n d a r ya n dp r o s o d i cl e v e l sc o n t r 0 1 哈尔滨工程大学硕士学位论文 3 d e t e r m i n i n gs y l l a b l ea st h ec o n c a t e n a t e du n i t sa n du s i n gs t a t i s t i c a lm o d e l s b a s e dd a t a - d r i v e np l u sm o d e l sb a s e do nr u l e s ,c h i n e s ep r o s o d i cm o d e lh a sb e e n c o n s t i t u t e df o rb e t t e rp r o s o d i cc o n t r 0 1 4 u s i n gp s o l aa l g o r i f l l l n , t h et i m el e n g t ha n dp i t c hf r e q u e n c yo ft h e c o n c a t e n a t e du n i t sa r ea d j u s t e do n l yt oc e r t a i ns c a l e s ,w h i c hi n f l u e n c e st h e s y n t h e t i cs p e e c hq l l a l i 吼a tt h es a m et i m e ,t h es y n t h e s i sb ym e a n so fs e n t e n c e t o n e sa n dt h e i rp r o s o d i cc o n t r o la l g o r i t h mh a sr e s e a r c h e di nt h i sp a p e r u s i n ga b o v ea l g o r i t h m sa n dm e t h o d s t h ee x p e r i m e n to fc h i n e s er r sh a s b e e na c c o m p l i s h e d t h ee x p e r i m e n t a lr e s u l t ss h o wc h i n e s et t sa n di t sp r o s o d i c c o n t r o la l g o r i t h mt ob ea v a i l a b l e k e yw o r d s :t t s ( t e x tt os p e e c h ) ;s p e e c hs y n t h e s i s ;s p e e c hn a t u r a l n e s s ;p r o s o d i c m o d e l ;p r o s o d i cb o u n d a r y ;p r o s o d i cc o n t r o l ;p s o l aa l g o r i t h m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献等的引用已在文中指出,并与参考文献相对应。除文中 已经注明引用的内容外,本论文不包含任何其他个人或集 体已经公开发表的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 作者( 签字) : 日期: 考器以 矽占年1 0 月2 2 日 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 语音信号处理技术与语音合成 本课题的研究背景是哈尔滨市科技局科技攻关项目“语音合成系统( t t s ) 及韵律控制方法的研究。” 语言是人类特有的功能,语音是语言的声学表现形式,用语音传递信息 是人类交流信息最自然、最有效、最快捷的手段,是人类进行思想沟通、感 情交流的主要途径。随着计算机技术的日益发展和人工智能机器的广泛应用, 人们将计算机技术、数字信号处理技术、模式识别、人工智能、心理学、语 言学、认知科学和自然语言理解等多个学科进行融合,出现了一门新的学科, 即语音信号处理技术。语音合成和语音识别则是语音信号处理技术研究中两 个最主要的领域i l l 。 语音合成( s p e e c hs y n t h e s i s ) 就是通过人工合成的方法生成语音,使机 器能够象人一样能够发出清晰、自然、符合语言学规则的声音来。按照人类 的语言习惯,人们从准备开始讲话到最后生成语音,大致要经过以下过程: 首先将思维意向( i n t e n t i o n ) 转换成概念( c o n c e p t ) ,然后将概念转换成人类 的生理控制信号,最后控制发音器官产生语音。 按照人类言语功能的不同层次,语音合成可以分成三个层次 2 1 :( 1 ) 从 文字到语音的合成( t e xt os p e e c h ) ;( 2 ) 从概念到语音的合成( c o n c e p tt o s p e e c h ) ;( 3 ) 从意向到语音的合成( i n t e n t i o nt os p e e c h ) 。这三个层次反 映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。 目前,人们对人类大脑的高级神经活动了解甚少,语音合成还只限于从文字 到语音的转换层面上,即文语转换( t e x tt os p e e c h ,t t s ) 。 文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量 的语言,除了依赖于各种规则,包括语义学规则、词汇学规则、语音学规则 外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题【3 l 。 文语转换过程一般是将文字序列转换成音韵序列,再由语音合成器生成 语音波形。其中第一步涉及文本分析处理,即按照语义、语法等规则对文本 哈尔滨工程大学硕士学位论文 进行分词和标注,将文字序列转换成字的音节序列;第二步根据语境、韵律 规则和韵律模型,为每个音节或词组调整韵律参数,将音节序列转换成音韵 序列。第三步采用先进的语音合成技术,按要求实时地合成出高质量的语音 流。因此一般说来,文语转换系统需要一套复杂的文字序列到音韵序列的转 换程序i ”。 文语转换系统在结构上可分为文本分析处理、韵律处理和声学处理三大 模块。其中: 文本分析处理模块在文语转换系统中起着重要的作用,主要模拟人对自 然语言的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需 的各种发音提示,具体来说就是对系统要处理的文本进行分词、注音,输出 与文本对应的语音标注序列。 鬯囱囱 图1 1 文语转换系统示意图 鳖些量氩 图1 2 韵律控制与波形拼接框图 韵律处理模块的主要功能是为合成语音规划出音段特征,如音高、音长 和音强等,使合成语音能正确表达语意,听起来更加自然。因此,它是合成 语音音质好坏的关键。韵律处理模块将根据语调、重音和节奏,对每个发音 单元进行韵律调整,调整后的输出是包含“韵律信息”的音韵序列。 2 哈尔滨工程大学硕士学位论文 声学处理模块利用音韵序列中的相应参数,从语音数据库中选取合适的 语音基元拼接成句,再经过韵律修饰,就可以输出自然连续的语音流。 1 2 语音合成技术与汉语语音合成技术的发展现状 综观语音合成技术的研究历史,真正有实用意义的语音合成技术是随着 计算机技术和数字信号处理技术的快速发展而逐步发展起来的,即让计算机 能够产生高清晰度、高自然度的连续语音。近几十年来,国际和国内的研究 主要集中在按规则的文语转换。 语音合成技术大致可以归纳为叫4 】: ( 1 ) 基于共振峰和l p c 的参数合成法:调整灵活,但音质差。 在语音合成技术的发展中,早期的研究主要基于模拟人的发音器官的思 想,即采用信号处理的办法,用信号源和滤波器去模拟人的发音器官,只要 调整滤波器的参数就等效于改变了人的口腔及声道的形状,达到控制发出不 同音的目的,而改变信号源脉冲序列的周期或强度,就相当于改变了合成语 音的音调和重音等,其物理意义十分明显。 值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 年) 和k l a t t 的串并 联共振峰合成器( 1 9 8 0 年) ,只要精心调整参数,这两个合成器都能合成出 非常自然的语音。最具代表性的文语转换系统当数美国d e c 公司的d e c t a l k ( 1 9 8 7 年) 。但是,经过多年的研究与实践表明,参数合成的方法依赖于一 个完善的语音生成模型,而目前语音学的发展尚不能提出很完善的语音生成 模型。此外,共振峰合成器控制非常复杂,控制参数往往多达几十个,实现 起来十分困难。虽然利用共振峰合成器可以得到许多逼真的合成语音,但是 整体合成语音的音质难以达到文语转换系统的实用要求。 l p c 技术( 线性预测编码技术) 是一种时间波形的编码技术,优点是简 单直观。合成过程实质上是一种简单的译码和拼接的过程。由于合成基元是 语音的原始波形资料,它保存了语音的全部信息,所以对于单个合成基元来 说能够获得很高的自然度。但是,一个汉字在自然语流中的发音与它在孤立 状况下的发音有很大的不同,如果只是简单的把各个孤立的语音基元生硬地 3 哈尔滨工程大学硕士学位论文 拼接在一起,则合成后的整个语流的音质将大打折扣。因此,l p c 合成技术 必须和其它技术结合才能够明显改善l p c 技术语音合成的质量。 ( 2 ) 基音同步叠加方法( p s o l a ) :受调整算法限制,只能作有限调整。 自上个世纪八十年代末期至今,语言合成技术又有了新的进展,特别是 基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 年) ,使基于时域波形拼接方法合 成的语音音色和自然度得到大幅度的提高。九十年代初,基于p s o l a 技术的 法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统 的自然度比以前的基于共振峰合成器或l p c 技术的文语转换系统的自然度要 高,并且合成器的结构简单、易于实时实现,具有很大的商用前景。 p s o l a 技术的主要特点是:在对语音波形片断拼接之前,首先根据上下 文的语境要求,用p s o l a 算法对拼接基元的韵律特征进行调整,使得合成后 的语音波形既保持了原始语音的主要音段特征,又能使拼接基元的韵律特征 符合上下文语境的要求,从而获得很高的清晰度和自然度。 p s o l a 技术的优点是简单直观,运算量小,韵律参数调整方便,可以合 成出连续自然的语流。然而,p s o l a 技术也有其缺点。首先,p s o l a 技术是一 种基音同步的语音合成技术,需要准确的基音周期及其起始点的判定,特别 是基音周期或其起始点的判定误差将直接影响p s o l a 技术的效果。其次, p s o l a 技术是一种简单的波形拼接合成,这种拼接是否能够保持平稳过渡以 及它对频域参数有什么样的影响等并没有得到很好的解决,因此在合成时会 产生不理想的结果,例如,处理后的语音和音色和原始语音不完全一致,有 回声和机器声。 ( 3 ) 基于l m a 声道模型技术的语音合成方法:可灵活调整韵律参数。 然而实践证明,对于基音同步叠加方法( p s o l a ) ,当韵律参数的改变幅 度超过一定范围时,基音同步叠加技术的合成音质将会有较大幅度的下降, 同时它也很难处理协同发音现象。针对这一难题,提出了一种基于对数振幅 近似理论的声道模型的语音合成方法,它不仅保留了传统参数合成技术的可 灵活调整韵律参数的优点,而且还具有比波形拼接合成更高的音长。采用这 种方法基本可以高音质地实现语音学规则所需要的各种参数调整。 4 哈尔滨工程大学硕士学位论文 ( 4 ) 基于语音数据库的语音合成方法:音质好,自然度高,可以实现无 限词汇的语音合成。 最近几年,一种新的基于大语料库的时域波形拼接语音合成技术e t j 成为 新的潮流。在这个方法中,合成语句的语音单元是从一个预先录下的、庞大 的自然语音的语料库中挑选出来的。所谓庞大是指语料库的大小基本覆盖了 绝大多数上下文语境中各种发音情况,针对不同的上下文语境,系统将根据 使某种代价函数值最小为原则,直接从这个庞大的语料库中筛选最佳合成单 元或片段来加以拼接。不难想象只要这个语料库足够大,理论上讲有可能拼 接出任何语句。由于合成的语音基元都来自于自然的原始发音,或是一个音 节,或是一种不定长的语言片段,如多字词或韵律短语,它们已经超越了音 节的层次。因此,合成后语音的清晰度和自然度都非常高。这种方法避开了 对语音作韵律调整,基本上不用对信号作时域或频域的变换处理。日本a t r 的语音合成系统c h a t r 就是一个很典型的例子。 虽然,基于英语的语音合成技术已经成熟。但是汉语不同于其它西方语 系,表现在语法结构、语法规则、声学特性、韵律特征等多个方面。首先, 汉语是一字一音o l 化音除外) ,即单音节字;其次,汉语是声调语言,声调 具有辨意作用,每个字都有固定的音调( 基频形状) 。而且,字与字之间的音 调前后彼此互相影响会发生变异,甚至失去了原有的调型,即出现协同发音 现象。这也是为什么人说话时有连续感,而不是一个字一个字地“蹦字”发 音。同时,连续语句的发音中间还会有短暂的停顿,这又体现了人说话的节 奏感。每个人说话都有一个基本频率,称作基频,它体现了说话人的音调高 低,此外,人们说话还有声音大小的区别等等。在汉语的文语转换( t t s ) 系 统中,对语音基频、时长、幅度等韵律信息的预测、分析和控制称作韵律控 制。 国外研究语音合成技术的单位主要有:s p e e c h w o r k ,n u a u n c e ,b e l l 实 验室等几家,其产品主要集中在a s r ( 语音识别) 或t t s ( 文语转换) 上,而 且是以西语为主。因此这就注定了其产品和成果无法适用于汉语。 国内研究语音合成技术的单位和产品主要有:中国科学院声学所 哈尔滨工程大学硕士学位论文 k x - p g o l a ( 1 9 9 3 年) ;联想佳音( 1 9 9 5 年) ;清华大学t h - s p e e c h ( 1 9 9 3 年) ; 中国科技大学k d t a l k ( 1 9 9 5 年) 、k 肛- 8 6 3 ( 1 9 9 8 年) 、k d 2 0 0 0 中文语音合成 系统( 1 9 9 9 年) 。他们分别策重于有限词汇的语音芯片、有限词汇的语音合 成和无限词汇的语音合成的技术上。这些系统基本上都采用基于p s o l a 算法 的时域波形拼接技术,其语音合成的汉语普通话的可懂度、清晰度都达到了 很高的水平。 目前,有限词汇的语音合成技术已经成熟,无限词汇的语音合成也已研 制成功。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及 篇章的语音自然度和可懂度相对较低,“机器味”太浓,人们听起来感觉并不 是很舒服,不能达到用户可以广泛接受的程度,其原因是:至今在语音合成 的韵律控制方法上还没有取得令人满意的成果,从而制约了这项技术大规模 地进入市场。 1 3t t s 系统的典型应用及发展方向 1 3 1 在公共服务行业方面的应用 在计算机技术和网络技术飞速发展的今天,人们对信息的渴求从来没有 象今天这样强烈,人们期望获得的信息详实、准确,得到的方式快捷、高效。 那么利用语音合成技术,通过电话和计算机或者c t i ( c o m p u t e ra n d t e l e p h o n ei n t e g r a t i o n ) 系统,是人们实现人机多媒体交互的最好方式。 例如:电子政务、电子商务、呼叫中心,公共交通中的自动报站,自动告警, 电话自动查询业务,天气预报,等等。语音合成技术在网络信息服务中的最 典型应用就是中国电信的1 6 0 1 6 8 声讯服务系统,2 0 0 1 年中国电信1 6 0 1 6 8 系统的收入为2 5 亿元,实施语音合成技术与c t i 技术改造之后,平均年收入 增加了9 1 5 。 1 。3 2 在基于p c 的办公、教学、娱乐等多媒体软件上的应用 在办公、教学、娱乐等行业的应用方面,采用语音合成技术的计算机更 具人性化和亲和力。例如办公过程中的用语音进行文本校对、开关机等操作 6 哈尔滨工程大学硕士学位论文 的技术性提示,可以大大方便操作,提高工效;在语言类教学软件和辅助性 工具软件中加入语音合成技术,可以实现计算机辅助语言学习,使课堂教学 和家庭学习结合得更加紧密;在娱乐业或玩具业,可以使娱乐软件和玩具更 加形象生动。所以,语音合成技术的使用带给人们的不仅仅是方便和乐趣, 同时伴随着产品附加值的提高,还会带动和促进与此相关产业的发展。 1 3 3 在互联网及终端上的应用 在如今飞速发展的信息社会中,“移动与互联”已经成为主题,越来越多 人们通过互联网来优化自己的工作和生活,如网上购物、网上政府、查询农 业信息和科技咨询、查询航班列车时刻等等。利用语音合成技术,人们可以 在计算机上用声音来播放w e b 界面上的标题、内容以及电子邮件;通过手机 就可以阅读互联网上的电子邮件;通过电话和手机也可以查询和阅读某个数 据库中的文件,从而实现信息的动静态查询和信息的快捷传递。这种新颖的 互联方式简单方便,是人机交互的一个良好开端。 利用语音和语言处理技术能增加电脑使用的趣味性并降低使用门槛。例 如:语音日程提醒、时间播报等人性化的语音秘书功能,语音听网、听书, 朗读各种来源的新闻及小说,对各种编辑软件实现有声语音校对等。结合语 音识别技术还可以实现语音听写、语音排版、声控上网、人机对话等。语音 和语言处理技术的应用等于在现有的w i n d o w s ,u n i x ,l i n u x 等操作系统之 上又构建了一个更加适合中文电脑用户使用习惯的语音平台,从而满足信息 社会中人们更高的需求。 1 3 4 统一消息处理系统 统一消息处理的概念就是将现有的消息处理系统( 如语音信箱、传真和 f - m a i l 等) 结合在一起,成为单一的多媒体信箱。系统支持统一消息处理服 务器与用户小交换机、局域网相连,联网的p c 机可以综合地接入各种消息 系统,支持多种信箱接入方式。用户可以利用电话和p c 机联机接收、发送 和处理各种消息。各种消息摘要显示在屏幕上,标明消息类型( 话音、传真、 电子邮件、多媒体邮件等) 、消息长度、接收时间、发送人以及其他信息。 7 哈尔滨工程大学硕士学位论文 用户可以任意听或看各种消息,根据消息类型或其他特性进行分类并存储。 用户还可以在计算机里建立个人电话号码簿,也可以在企业局域网的数据库 中建立企业及个人的通信号码簿,进行通信联系。统一消息系统在国外集团 用户的办公自动化和提高工作效率方面发挥着极大的作用。 1 3 5 在移动信息终端及各种嵌入式设备上的应用 在嵌入式设备,如在p d a 、手机、智能玩具、信息家电和车载g p s 上, 利用语音合成技术在后p c 时代有着越来越广泛的应用。例如带有语音合成 功能的手机,可以用语音播报来电号码,概述电子邮件内容,给予日程提醒, 收听网络信息等。在车载g p s 上加入语音技术,可使得驾驶员在眼与手忙的 情况下,通过语音实时接受动态路况信息及通知、公告,及时获取感兴趣的 车主个性化定制的信息,将平面显示导航上升到立体语音导航。在消费类产 品中结合m p 3 播放器,使m p 3 播放器不仅可以听音乐,还可以听小说。此 外,嵌入式语音技术还能在电子图书、智能语音玩具、“会说话的书”、测量 仪器等众多领域得到广泛应用。 1 3 6 存在的问题和发展方向 当前,语音合成及其韵律控制存在以下几个方面的问题:连续语音合 成的自然度有待进一步提高;丰富合成语音的表现力;降低语音合成 技术的复杂度;多语种的语音合成的归一化处理。 这些问题归纳起来集中在韵律控制方法上,例如:对于韵律规则和模型 描述的定量化;通过调整韵律模型的参数,实现年龄、性别特征的改变,或 进一步实现情感、语气的变化;解决提高语音合成质量和降低算法的复杂性 之间的矛盾;将各种语言共用一种合成算法或合成器等,这也是未来语音合 成技术亟待解决的问题和今后的发展方向。 1 4 本文研究的内容和意义 1 4 1 本文研究的内容 目前语音合成技术已经成熟,汉语语音合成技术的研究也已多年。然而, 8 哈尔滨工程大学硕士学位论文 有关汉语韵律控制及其算法的研究才刚刚起步。针对这种情况,作者从汉语 的语音特征出发,研究汉语的声调与特点、汉语的语调及模式,来构筑汉语 的韵律模型及其韵律控制方法。 通过与其它语言合成技术的分析对比,明确了基于波形拼接合成技术中 需要确定的几个基本问题,即合成基元的选择、韵律控制算法等。在综合考 虑各种因素之后,选择汉语中的最小听辨单位音节作为合成基元,并将 语音库中的一个音节存储多个样本,各个样本的轻重音及基频曲线也各不相 同;同时采用韵律分层控制的方法,结合t o p s o l a 算法,可在技术上实现合 成语音的韵律控制。此外,作者还研究了汉语自然语流中的音高、音长、音 强、重音、停顿等韵律规则,提出了适用于汉语语音合成的韵律控制规则。 本文的章节划分如下: 第一章,简单介绍了语音合成技术的概念、原理和发展现状及趋势,阐 述了研究汉语语音合成技术的意义。 第二章,结合汉语的特点,汉语的音节与结构,汉语的声调及特点,汉 语的语调及模式,讨论了声调的音高、音长和音强三者之问的关系以及协同 发音现象。 第三章,主要研究了汉语的韵律及其层级结构,对韵律边界进行了声学 特性分析与预测。 第四章,分析了汉语的韵律模型,如规则模型、统计模型和“统计模型 + 规则模型”。 第五章,介绍了p s o l a 算法原理及其韵律参数的调整方法,并且讨论了 它对合成语音音质的影响。 第六章,研究了语调曲线的合成及其控制方法。 第七章,进行了语音合成技术及其韵律控制算法的实验测试。 最后,总结了汉语语音合成及其韵律控制算法研究中的一些关键技术和 技术难点,并对未来的工作提出了建议。 1 4 2 本文研究的意义 语音识别和语音合成技术是实现人机语音交互的两项关键技术,它能使 9 哈尔滨工程大学硕士学位论文 电脑象人一样具有“能说会听”的能力,是现代信息产业的重要竞争市场。 研究语音合成技术的目的是制造一种会说话的机器,将文本信息转换成为语 音。和语言识别技术相比,语言合成技术相对来说要成熟一些,是该领域中 近期最有希望形成产业化的一项技术。 本课题研究的意义在于,通过对汉语韵律特征以及汉语语音合成韵律控 制方法的研究,揭示汉语的韵律特征与韵律规则和模型之间的内在联系,丰 富和改进韵律控制方法,进一步提高汉语语音合成的自然度,使这项能够促 进科学技术进步、带动经济发展、造福社会的高新技术早日得到推广和普及。 1 0 哈尔滨工程大学硕士学位论文 第2 章汉语的特点分析 语音是人类说话的声音,是语言信息的声学表现。人类语言交际是通过 说话人大脑和听话人大脑的一连串心里、生理和物理的转换过程实现的,这 个过程分为“发音一传递一感知”三个阶段。语音学是研究言语过程的一门 科学,它涉及语音产生的心理过程,产生声音及其器官的组织运动,声音的 传递及其声学描述,如何感知语音等。因此,现代语音学发展又可分为三个 主要的分支:发音语音学、声学语音学、听觉语音学1 1 3 , 1 4 。 2 1 汉语的特点 汉语普通话是以北方话为基础方言,以北京语音为标准音,以现代白话 文作为语法规范的语言。汉语还是一种结构独特的语言,即一字一音或一字 多音,不同字的发音组合构成了无限多个词汇,而不同词汇的组合又构成了 表达一定意义的句子。 音素是语音学的基本单位,是指发出各不相同声音的最小单位。汉语中 有6 4 个音素,它们构成了声母和韵母两大类。汉语拼音中有2 1 个声母和3 8 个韵母,声母和韵母共计5 9 个,声母和韵母再组成音节。汉语无调音节有 4 0 7 个,由于每个音节又有不同的声调,因此汉语的有调音节为1 3 3 2 个,无 调音阶和有调音节加起来,总计为1 7 0 0 多个音节【4 j 。 表2 。l 音素、声母、韵母、音节统计 音素分为4 种6 4 个音索辅音2 2 个单元音1 3 个复元音1 3 个i 复鼻音1 6 个 声母、韵母5 9 个2 1 个声母3 8 个韵母 音节1 7 0 0 多个有调音节4 0 7 个有调音节1 3 3 2 个 汉语语音主要有以下特点: 音系简单,即音素、音节少( 大约有6 0 个音素,但只有4 0 7 个左右 音节) 。 啥尔滨工程大学硕士学位论文 一个汉字代表一个音节,音节组成词,词构成短语,短语再构成句子。 汉语是声调语言,声调对区分汉字的意思有很大作用,音节中必须包 括声调。 有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确丰富。 每个音节由声母和韵母组成。 音节和音节之间的音联现象不很明显。 存在大量的同音字现象。 2 2 汉语的音节与结构 汉语的一个字就是一个音节,每个音节都由声母与韵母组成。每个声母 只包含一个辅音,而韵母可以由一个或多个元音构成,也可以由元音和辅音 组合构成。汉语音节结构比较简单,可分解为四个部分:声母、韵头、韵腹 和韵尾。但这四个部分对每个音节来说不一定都要具备。每个汉字有四种结 构:v 、c v 、v c l 、c v c l ,其中c 为声母,v 或v c l 为韵母。 图2 1 普通话音节的框架模型 2 3 汉语的声调及特点 在汉语的音节中,韵母一定要有声调,有时人们将带有声调的韵母称为调 母,这就是为什么说汉语的音节要有声调,汉语是声调语言的道理。声调在 提高语音的可懂度方面发挥着重要的作用。其特点主要体现在以下几个方面: 哈尔滨工程大学硕士学位论文 ( 1 ) 声调具有别义作用。根据声调调型的差异,汉语普通话中的音节具 有四种调类:阴平( 一声) 、阳平( - - 声) 、上声( 三声) 、去声( 四声) ,并 有轻声调。声调的别义功能主要靠调类实现。当音节的声母、韵母都相同时, 可以通过变化韵母声调来形成不同意义的音节,从而大大增加了汉语音节的 数量,扩大了汉语语言的表达手段。 ( 2 ) 声调是属于音节的。汉语的每个单音节都有声调,声调依附在音节 上。声调的长度等于或近似于音节的长度;音节之间的界限也常常表现在不 同声调之间的分界上。因此,当声调有一种声调变成另一种声调时,音节也 从一个音节变成了另一个音节。 ( 3 ) 声调是语言音高( 音节的频率) 相对区别的类型,具有修辞功能。 汉语声调具有抑扬起伏、高低升降的旋律性变化,使语言的表述更富于形象 性、生动性,增加了语言的美感。如利用声调来增加诗歌的韵律美等。 ( 4 ) 声调具有模式特征,而且是有限的。在语言传递中,以声调作为载 体比用元音和辅音更有益,利于在嘈杂的环境里传送,即声调在汉语的传递 中具有很强的抗干扰能力。 例如:( 1 ) 声调的时长;( 2 ) 声调的频率;( 3 ) 声调的动态性( 变调性, 即协同发音现象) 等,这些都构成了语音的一些基本特征和属性,使语音更 具有符号性、可懂性、自然性、连贯性和韵律性。 决定声调类型( 调型) 的不是基频的绝对值,而是基频的变化方式,尽 管每个人调域的高低和宽窄都不相同,但是发特定的音时,基频的变化方式 都是相似的,即基频的轮廓是相似的。 2 。4 声调的声学特性 声调体现在人的声带振动情况,它的声学表现是声音频率的高低及其振 动幅度随时间的变化。因此,每个声调都要有一定的时长,只有当声调持续 到一定的时间,才能被人们正确地感知。 ( 1 ) 声调曲线及其特点 音节声调的变化就是浊音( 大部分元音) 基音周期的变化,韵母段中基 哈尔滨工程大学硕士学位论文 音周期变化的轨迹称为声调曲线。通常将一个完整的汉语音节声调曲线分为3 个部分:弯头段( 头部) 、调型段( 中部) 和降尾段( 尾部) 。一个音节的声 调曲线是从它的韵母的起始端开始,到韵母的终止端结束。声调曲线的开始 段称为弯头段,呈上升走向;末尾一段呈下降走向,称为降尾段;而中间一 段称为调型段。一般来说,弯头段和降尾段对声调的听辨不起作用,起作用 的是调型段。 ( 2 ) 连续变调 在连续语流中,每个字的发音是会相互影响的。一个字在连续语流中的 发音声调与这个字单独发音时的声调会有所不同。所以,在合成的连续语流 中,只有具有这种声调变化,才能使合成的语音具有较好的可懂性,否则将 是单字语音的生硬连结,在听感上会觉得不舒服,机器味十足,即“蹦字” 现象。 2 4 1 声调的基频 声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其 倒数称为基音频率,也简称为基频,它是声调最重要的声学特性。声带振动 的结果是产生声门波,声门波是一种准周期波,由基波和它的能量递减的各 次谐波构成。 声带的振动的频率( 即基频) 直接决定了语音的音高。通常,女生的基 频高于男声,小孩的基频高于成人。男性声调频率为6 0 1 5 0 h z ,而女性为声 调频率1 5 0 2 5 0 h z 。声调的基频不是一个单一的频率值,而是一个连续的波 段( 频率区间) ,因此常用一组参数来描述声调,即用“调型”的概念来描 述声调。而且只要调型不变,即使音长和音强变化,人听觉结果仍然是声调 不变。 从听觉的角度来说,音高是一种主观心理量。当声音频率由小到大变化 时,听觉便产生一种与此相对应的不同音高的变化。声音频率直接与音高有 关,但两者不能混用。音高的变化是与时间相关的,因此不但要记录基频的 高低,还应记录基频发生的时刻。我们在实践中发现,当人们说话声音变大 时,声调也会相应提高。在上声( 三声) 音节的基频谷点处,音强也会下降。 1 4 哈尔滨工程大学硕士学位论文 对于轻声字来说,轻声音节的幅度变小,声调也有相应的变化。 2 4 2 声调的时长 声调的时长,即声调的持续时间。它表示一个声学单元的绝对长度,时 长所使用的时间单位为毫秒、秒等。一般来说,一个音节要由声母、韵母及 韵母的声调构成。声母发音持续时间短、幅度小,丽韵母发音持续时间长、 幅度大,并且声调依附在韵母上。因此讨论音节的时长时,更多关注的是韵 母的时长。通常汉语某个音节单独发音时,音节持续时问长,声调变化完整, 人们可以正确地感知。但在连续语流中,特别是当说话语速较快时,声调不 但持续时间短,而且还会受到前后相邻音节的影响,人们就不一定能正确地 感知声调。 一般来说,不同调类的单音节的调型时长是不同的。通常汉语音节单独 发音时,上声最长,阴平和阳平次之,去声最短,其4 种调类的对应关系为: 阴平:阳平:上声:去声:轻声= l0 3 :1 1 1 :1 0 6 :1 0 0 :0 7 9 。 所以为了保持声调的自然度,声调的调频震动一定要保持必要的持续时 问,即调型段的时长不能太短。试验表明:阴平和阳平的必要时长大于2 0 0 m s , 上声的必要时长大于2 5 0 m s 。在连续语流中,尽管四种声调的音节时长均值 相差不多,但是调型段的时长变化还是比较大的。从对某大语音数据库的统 计分析结果来看,时长均值为2 4 5 m s ,标准偏差为6 7 m s ,最长的有8 0 4 m s , 最短的只有4 9 m s ,这种时长很长或很短的音节出现频度极小,9 9 5 的音节 时长处于l o o m s 和5 0 0 m s 之间,轻声只有阳平的7 1 左右。 表2 2 四种调类对应关系 声调阴平阳平 上声去声 轻声平均 比例系数 1 0 31 1 11 0 61 0 0o 7 9 时长均值( m s )2 4 52 6 52 5 22 3 81 8 82 3 7 ,6 表2 3 音节在词中不同位置的时长均值 词中位置词首词中词尾 单字词 时长均值( m s ) 2 2 42 1 22 1 22 7 8 哈尔滨工程大学硕士学位论文 音节在句中的位置也是一个影响时长的重要因素。冯隆川的研究结果是, 不同声调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论