（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：71 大小：3.27MB 积分：0 举报 版权申诉

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf_第2页

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf_第3页

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf_第4页

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf_第5页

已阅读5页，还剩66页未读，继续免费阅读

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着科学与技术的发展，语音合成已经广泛应用于社会的各个方面，并且成为人工智能、语音信号处理以及人机多媒体交互研究领域的热点之。嵌入式语音合成系统是语音合成技术应用的一个重要分支。基于嵌入式的两大特点，即资源有限性和平台多样性，以及语言的语法结构、语法规则、声学特性和韵律特征，解决嵌入式语音合成的关键技术成为该领域的重要研究课题。本文从汉语的声学特点和韵律特征出发，诸如汉语的声调及特点、汉语的语调及模式，分析和研究汉语的韵律特征( 基频、时长、幅度) 、重音、停顿以及韵律边界之间的相互关系，研究了适用于汉语语音合成的韵律控制规则。在韵律特征与韵律边界的声学分析的基础上，提出了韵律分层建模、韵律边界预测和韵律分层控制的思想。确定了以音节作为拼接的语音基元，并基于数据驱动的统计模型和规则相结合的方法，实现了韵律建模及其韵律控制。同时，采用p s o l a 算法，针对嵌入式系统的实现条件，分析了合成语音音质的影响，优化了语调曲线的合成及其控制方法，使合成算法更适用于a l 洲系统。对研究成果进行了汉语文语转换实验。结果表明，本文的语音合成与韵律控制算法是行之有效的，达到了课题研究要求。关键词：语音合成韵律控制p s o l a 算法嵌入式系统嵌入式语音编码 a b s t r a c t w i t ht l l ed e v e l o p m e l l to fs c i e i l c ea 1 1 dt e c l l i l o l o g y s p e e c hs y l l t h e s i sa i l dh a v eb e e n a l r e a d yu s c di na l lt h e 丘e l d so fs o c i e 以a 1 1 dh a v eb e c o m eo n eo f h o t r c s e 邪c h i n gf i e l d s i i l h l l i l l a l l 一i n t e l l i g e i l c e ，s p e e c hs i 印a lp r o c e s s i n g 锄dh u m 锄一m a c h i n em u l t i m c d i u m i n t e r a c t i o n e m b e d d e dt t ss y s t 锄i s 锄i m p o r t a i l tb 啪c ho ft h ea p p l i c a t i o no fs p e e c h s y l l t l l e s i st e d m i q u e f a c i n g 觚of e 栅e so fe i n b e d d c df i e l d ： t h e1 i m i t a t i o no 仆a r d w a r e r c s o u r c ea n dt h ed i v e r s i t yo fp l a t f 0 加，h o wt oi m p l e i l l 即tah i g h ( 1 u a l i t ) ，锄b e d d o dt t s s y s t 锄i sam o s ti m p o r t 锄t 趾dd i m l tp r o b l e mf o rs p e e c hs y i l t h e s i st e c l l i l i q u et ob e a p p l i e di ne m b e d d e df i e l d t h i sp a p e ri sr e s e a r c ht h em e t h o d so fc h i n e s es p e e c hs y l l t l l e s i s 锄di t sa l g o r i t h m b 豁e do nc 1 l i n e s ep r o s o d i ch o w l c d g ea n dm o d 锄s p e e c hp r o c e s s i n gt e c ：h n 0 1 0 9 y t 1 1 e m a i nr e s e a r c hw o r ki sf o l l o w i n gt 0a c c o r d i n gt oc 1 1 i n e s ea c o u s t i cc h a r a c t e r i s t i c s 锄d p r o s o d i cf e a n l r es u c h 弱c h i n e s ea c o u s t i ct o n e sa n dc h a r a c t 嘶s t i c s ，c h i n e s es e l l t e n c e t o n e s 锄dm o d e l se t c t h ea u m o r 肌a l y z e s 锄dr c s e a r c h e s t h er e l a t i o n sb e t w e p r o s o d i cf e a t i l r e s ( p i t c hf e q u e i l c y ，t i m el e n g t h 狮dm a 印i t u d c ) ，s 仃e s s 锄db r e a l ( 硒w e l l 嬲p r o s o d i cb o u i l d a 【r y p r o p o s i n gt h er u l e so fp r o s o d i cc o n 臼o l f o rc h i n e s es p e e c h s y n t h e s i s a n a l y z i n g 锄dc o m p 撕n ga b o u tp r o s o d i cf - ca _ t l 鹏a n ds 仰c t l l r eo fp r o s o d i c l e v e l s ， l ea u t h o rh a sf i n i s h e dt h ea c o u s t i c 锄a l y s i so fp r o s o d i cf e 砷鹏觚dp r o s o d i c b o u i l d a nd e s 嘶b e st 1 1 0 u g l l t so fc o n s t r u c t i n gm o d e l sb a s e do np r o s o d i c1 e v e l s ， p r e d i c t i n gp r o s o d i cb o u n d a r ya n dp r o s o d i cl e v e l sc o n t r 0 1 d e t e n i l i n i n gs y l l a b l e 嬲t h e c o n c a t e i l a t e du i l i t s 锄du s i n gs t a t i s t i c a lm o d e l sb a s e dd a t a d r i v e np l u sm o d e l sb a s c do n m l e s ，c h i n e s ep r o s o d i cm o d e lh a u sb e e nc o n s t i t u t e df o rb e t _ c e rp r o s o d i cc o n 仃0 1 u s i n g p s o l aa l g o r i t l l m ，o p t i i n i z et h i sa i ma te i n b e ds y s t e i l l r n l et i m el e i l g t h 锄dp i t c h 丘嘲u c yo f t h ec o n c a t e n a t e du i l i t sa r ea d j u s t e d 蚰l yt oc e n a i ns c a l e s ，w h i c hi n f l u e n c e s t l l es y l l t h e s e ss p e e c hq u a l i t y a tt h es 锄et i m e ，t h es y n t h e s i sb ym e a l l so fs e l l t e l l c et o n e s 锄dt h e i rp r o s o d i cc o n t r o la l g o r i t h mh 鹊r e s e 甜c h e di i lt l l i sp 印既m a l ( ei tc a i lb eu s ei n l e a r m u s i n ga b o v ea l g o r i t h m s 锄dm e t l l o d st l l ee x p 丽m to fc h i n e s et t sh a sb e a o c o m p l i s h e d t l l ee x p 甜m e i l t a lr e s u l t ss h o wc h i n e s et t s 锄di t sp r o s o d i cc o n 仃o l a l g o r i t h mt 0b ea v a i l a b l e k e yw o r d ：t t sc t e x tt os p e e c h ) p r o s o d i cc o n t i o lp s o l aa l g o t h m e m b e d s y s t e m e m b e ds p e e c hc o d i l l g 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及所取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切的相关责任。本人签名：翌凼日期丝竺垒2 ：红关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再攥写的文章一律署名单位为两安电子科技大学。本学位论文属于，在一年解密后适用本授权书。本人签名：墨蕴导师签名：鞋日期第一章绪论第一章绪论 1 1 语音信号处理技术与语音合成语言是人类所特有的功能，而语音是一种语言的声学表现形式，语音用来传递信息也是人类交流最自然、最有效、最快捷的手段之一，是人类进行思想沟通、感情交流的主要途径。随着计算机技术的日益发展和人工智能机器的广泛应用，人们将计算机技术、数字信号处理技术、模式识别、人工智能、心理学、语言学、认知科学和自然语言理解等多个学科进行融合，形成了一门新的学科，即语音信号处理技术。语音合成则是语音信号处理技术研究中最主要的领域之一。语音合成( s p e e c h s ”t h e s i s ) 就是通过人工合成的方法生成语音，使机器能够象人一样发出清晰、自然、符合语言学规则的声音来。按照人类的语言习惯，人们从准备开始讲话到最后生成语音，大致要经过以下过程：首先将思维意向( i n t c l l t i o n ) 转换成概念( c o n c 印t ) ，然后将概念转换成人类的生理控制信号，最后控制发音器官产生语音。按照人类言语功能的不同层次，语音合成可以分成三个层次：( 1 ) 从文字到语音的合成 ( t e x t t o s p e e c h ) ；( 2 ) 从概念到语音的合成( c o n c 印t t o s p e e c h ) ；( 3 ) 从意向到语音的合成( i i l t c n t i o n t o s p e e c h ) 。这三个层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动。目前，由于对人类大脑的高级神经活动了解甚少，语音合成还只限于从文字到语音的转换层面上，即文语转换 ( t e x t t o s p e e c h ，t t s ) ，这也正是本文研究的基础。文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇学规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。文语转换过程一般是将文字序列转换成音韵序列，再由语音合成器生成语音波形。其中第一步涉及文本分析处理，即按照语义、语法等规则对文本进行分词和标注，将文字序列转换成字的音节序列；第二步根据语境、韵律规则和韵律模型，为每个音节或词组调整韵律参数，将音节序列转换成音韵序列；第三步采用先进的语音合成技术，按要求实时地合成出高质量的语音流。因此，一般说来，文语转换系统需要一套复杂的文字序列到音韵序列的转换程序。文语转换系统在结构上可分为文本分析处理、韵律处理和声学处理三大模块，图1 1 给出了文语转换系统的示意图。文本分析处理模块在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程，使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示，具体来说就是对系统要处理的文本进行分词、注音，输出与文本对应的 2 嵌入式语音合成及其关键算法的研究与实现语音标注序列。图1 1 文语转换系统示意图韵律处理模块的主要功能是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。因此，韵律处理模块的品质是合成语音音质好坏的关键。韵律处理模块将根据语调、重音和节奏，对每个发音单元进行韵律调整，调整后的输出是包含“韵律信息”的音韵序列。声学处理模块利用音韵序列中的相应参数，从语音数据库中选取合适的语音基元拼接成句，再经过韵律修饰，就可以输出自然连续的语音流。 1 2 语音合成技术与汉语语音合成技术的发展现状综观语音合成技术的研究历史，真正有实用意义的语音合成技术是随着计算机技术和数字信号处理技术的快速发展而逐步发展起来的，即让计算机能够产生高清晰度、高自然度的连续语音。近几十年来，国际和国内的研究主要集中在按规则的文语转换【1 1 。语音合成技术大致可以归纳为共振峰模式、l p c 合成和基音同步叠加方法 ( p s o l a ) 三种。 1 2 1 共振峰模式以共振峰频率及其带宽作为参数，可以构成共振峰滤波器。用若干个这种滤波器的组合来模拟声道的传输特性( 频率响应) ，对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。实际上，共振峰滤波器的个数和组合形式是固定的，只是共振峰滤波器的参数随着每第一章绪论一帧输入的语音参数而改变，以表征音色各异的语音。图1 2 所示的是共振峰合成器的系统模型。从图中可以看出，激励声源发生的信号，经过模拟声道传输特性的共振峰滤波器的调制，再经过辐射传输效应即可得到合成的语音输出。由于发声时器官是运动的，所以上面模型的参数应该是随时间变化的。一般要求共振峰合成器的参数逐帧修正。 f 0 图1 2 共振峰合成器的系统模型为了得到高质量的合成语音，激励源应具备多种选择，以适应不同的发音情况。上图中激励源有三种类型：合成浊音时使用周期冲激序列、合成清音时用伪随机噪声、合成浊擦音时用周期冲激调制的噪声。激励源对合成语音的自然度影响是比较明显的。发浊音时，最简单的是三角波脉冲，但这种模型不够精确。因此对于高质量的语音合成，可以采用其它更为准确的激励源脉冲形状形式，如多项式波等。合成清音时的激励源一般使用白噪声，用伪随机数发生器来产生。理想的清音激励源的频谱应该是平坦的，其波形样本幅度服从高斯分布。而伪随机数发生器产生的序列虽具有平坦的频谱，但幅度却为均匀分布。不过根据中心极限定理，互相独立具有相同分布的随机变量之和服从高斯分布。因此，将若干个( 例如典型值为1 4 1 8 ) 随机数叠加起来，可以得到近似高斯分布的激励源。对于声道模型，有三种选择方式：级联型、并联型和混合型。 1 、级联型共振峰模型在该模型中声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音合成。f a n t 的o v e l 2 j 系统就采用了级联型的共振峰模型。 2 、并联型共振峰模型许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。h o l i n e s 【3 j 4 嵌入式语音合成及其关键算法的研究与实现合成器采用是并联型的共振峰模型。 3 、混合型共振峰模型在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节后再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将二者比较可知，级联型合乎语音产生的声学理论，因此对于合成声源中位于声道末端的语音( 大多数的元音) ，有更好的优势，并且无需为每一个滤波器分设幅度调节，对于合成声源位于声道中间的语音( 大多数清擦音和塞音) ，并联型则更加合适，但是其幅度调节比较复杂。基于它们各自的特点，人们将二者结合在一起，提出了混和型共振峰模型。目前最为典型也是最为成功的a t t 【4 】合成器就是构筑在混合型共振峰模型基础之上。提高共振峰合成器的音质关键是如何得到合成所需的控制参数，如共振峰频率、带宽、幅度等。而且，对于己经求取的参数还必须逐帧修正，才能使合成语音与自然语音达到最佳匹配。共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数本身具有明确的物理意义，直接对应于声道参数，因此，可以很容易的利用共振峰来描述自然语言中的各种现象，并且总结声学规则，最终用于共振峰合成系统。共振峰模型也有一定的弱点。首先由于它是建立在对声道的模拟之上，因此，如果建立的声道模型不精确势必影响合成质量。在实际应用中，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，这直接影响了合成语音的自然度。此外，其控制十分复杂，对于采用这种合成方式的合成器来说，要想达到好的合成效果，其控制参数可能有数十个之多，这将对系统实现造成不小的困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，l p c 合成技术和p s o l a 合成技术就是其中的代表。与共振峰合成技术不同，波形拼接合成是对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟，本文将围绕着p s o l a 及其派生出的算法进行研究。 1 2 2l p c 合成波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中l p c 技术( 线性预测编码技术) 的发展对波形拼接技术产生了巨大的影响。 l p c 合成技术是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。l p c 合成技术的优点是简单直观，其合成过程实质上可以等效为一种简第章绪论单的解码和拼接过程。而且，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。线性预测( l p c ) 技术在语音处理技术中应用很广泛，在此不作过多叙述。其实现的步骤如下： 1 、首先将语音信号分帧后得到l p c 系数，并用分析参数构成l p c 合成滤波器，然后得到声道模型的系统函数。 2 、接着对浊音进行基音周期检测以获得激励信号，再用激励信号激励l p c 合成滤波器最后得到再生语音。 l p c 技术从技术层面上来说也是一种录音+ 重放，对于合成整个连续语流的效果不是很理想的。因此，l p c 合成技术必须和其他技术相结合，才能明显改善l p c 合成的质量。图1 3 给出了语音合成的流程图。图1 3 语音合成流程图 6 嵌入式语音合成及其关键算法的研究与实现 1 2 3 基音同步叠加方法( p s o l a ) 自上个世纪八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 年) 口】，使基于时域波形拼接方法合成的语音音色和自然度得到大幅度的提高。九十年代初，基于p s o l a 技术的法语、德语、英语、日语等语种的文语转换系统都己经研制成功。这些系统的自然度比以前的基于共振峰合成器或l p c 技术的文语转换系统的自然度要高，并且合成器的结构简单、易于实时实现，具有很大的商用前景【6 】。p s o l a 技术的主要特点是：在对语音波形片断拼接之前，首先根据上下文的语境要求，用p s o l a 算法对拼接基元的韵律特征进行调整，使得合成后的语音波形既保持了原始语音的主要音段特征，又能使拼接基元的韵律特征符合上下文语境的要求，从而获得很高的清晰度和自然度。 p s o l a 技术的优点是简单直观，运算量小，韵律参数调整方便，可以合成出连续自然的语流。然而，p s o l a 技术也有其缺点。首先，p s o l a 技术是一种基音同步的语音合成技术，需要准确的基音周期及其起始点的判定，特别是基音周期或其起始点的判定误差将直接影响p s o l a 技术的效果。其次，p s o l a 技术是一种简单的波形拼接合成，这种拼接是否能够保持平稳过渡以及它对频域参数有什么样的影响等并没有得到很好的解决，因此在合成时会产生不理想的结果，例如，处理后的语音和音色和原始语音不完全一致，有回声和机器声。 1 3 语音合成的发展方向语音合成系统的基本性能指标包括：可懂度、清晰度、自然度、分词正确率。有这些指标可以比较清晰地得出语音合成的发展方向【7 1 。 1 3 1 提高合成语音的自然度就汉语语音合成来说，目前在单字和词组一级上，合成语音的可懂度和自然度己基本解决，但是到句子乃至篇章一级时其自然度问题就比较大。无论用哪种合成方法，韵律规则的总结，特别是连续语音的韵律规则总结，以及尽可能将定性的规则描述定量化，对自然度始终有最重要的影响。 1 3 2 丰富合成语音的表现力目前国内外大多数语音合成研究缺乏对不同的年龄、不同的性别特征以及不第一章绪论 7 同的语气、语速的表现，更不用说对个人的感情色彩的研究。随着信息社会的发展，对人机交互提出了更高的要求，人机口语对话系统的研究也提到了日程。因此如何丰富合成语音的表现力是一个亟待解决的问题。 1 3 3 降低语音合成技术的复杂度语音合成技术正在走向市场。为了适应社会的需求，扩大语音合成的应用范围，在语音合成技术实用化方面，如何有效减小音库容量就是一个重要课题，既要提高语音合成的质量，又要降低语音合成的复杂度，这始终是一个棘手的问题。 1 3 4 多语语音合成技术语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要。现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的，切相关的，因此很难推广到其他的语种。的应用价值。所采用的算法及规则都是和某种语言密适用于多语种的语音合成技术有着独特 1 4 嵌入式语音合成技术在嵌入式环境下，硬件和软件资源往往有很大的限制，传统的基于大语料库的语音合成技术需要非常高运算资源和存储资源，无法满足嵌入式环境下对资源的苛刻要求。一些简化过的轻量级语音合成算法虽然在资源上可以满足嵌入式环境的要求，但是由于合成算法过于简单，语音合成效果不尽如人意，往往无法达到人们可以接受的程度，最终影响了使用效果。嵌入式环境的硬件和软件平台千变万化，存在无数的硬件平台，操作系统和软件环境，传统的语音合成系统在适用性和移植性上也无法满足多样的嵌入式环境的要求。 1 5 本文研究的内容目前语音合成技术已经成熟，汉语语音合成技术的研究也己多年。然而，有关汉语韵律控制及其算法的研究才刚刚起步，本文从汉语的语音特征出发，研究汉语的声调与特点、汉语的语调及模式，来构筑汉语的韵律模型及其韵律控制方嵌入式语音合成及其关键算法的研究与实现法。通过与其它语言合成技术的分析对比，明确了基于波形拼接合成技术中需要确定的几个基本问题，即合成基元的选择、韵律控制算法等。在综合考虑各种因素之后，选择汉语中的最小听辨单位一音节作为合成基元，并将语音库中的一个音节存储多个样本，各个样本的轻重音及基频曲线也各不相同；同时采用韵律分层控制的方法，结合t d p s 0 l a 算法，可在技术上实现合成语音的韵律控制。针对a r m 内存小的特点对算法进行优化，精简，使之能够使用于删上。此外，作者还研究了汉语自然语流中的音高、音长、音强、重音、停顿等韵律规则，提出了适用于汉语语音合成的韵律控制规则。本文的章节安排下：第一章，简单介绍了语音合成技术以及嵌入式语音合成的概念、原理和发展现状及趋势，阐述了研究汉语语音合成技术的意义。第二章，对本文的嵌入式系统以及基于嵌入式的语音合成进行介绍，并介绍本文所使用的软硬件设备情况以及软件设计思路。第三章，重点分析了汉语的韵律特征、汉语韵律的层级结构以及韵律层级结构的预测方法，对韵律层级结构边界的声学分析进行了详尽的讨论。同时，研究了重音、语调对韵律特征参数的影响以及语调曲线的合成及其控制方法。第四章，对嵌入式变速率语音编码中的线性预测分析与量化进行了研究，为研究后文的语音合成算法应用于嵌入式系统中的可能性打下基础。第五章，介绍了p s o l a 算法原理及其韵律参数的调整方法，并且讨论了它对合成语音音质的影响。第六章，进行了语音合成技术及其韵律控制算法的实验测试。最后，总结了汉语语音合成及其韵律控制算法研究中的一些关键技术和技术难点，并对未来的工作提出了建议。 1 6 本文研究的意义语音合成技术是实现人机语音交互的一项关键技术，是现代信息产业的重要竞争市场。研究语音合成技术的目的是制造一种会说话的机器，将文本信息转换成为语音。和语言识别技术相比，语言合成技术相对来说要成熟一些，是该领域中近期最有希望形成产业化的一项技术。目前嵌入式技术发展迅速，已经深入生活的各个领域，而将语音合成应用于嵌入式系统则是一个新兴的领域，如何在有限的硬件环境中充分发挥语音合成算法的作用越来越受到重视。本课题研究的意义在于，通过对汉语韵律特征以及汉语语音合成韵律控制方法的研究，揭示汉语的韵律特征与韵律规则和模型之间的内在联系，丰富和改进第一章绪论 9 韵律控制方法，进一步提高汉语语音合成的自然度，针对嵌入式系统对算法进行优化，使这项能够促进科学技术进步、带动经济发展、造福社会的高新技术早日得到推广和普及。第二章嵌入式系统及语音算法概述第二章嵌入式语音合成系统方案 2 1 嵌入式技术发展现状及趋势当前，嵌入式系统正处于一个飞速发展和激烈竞争的时代。嵌入式系统硬件，特别是嵌入式处理器的处理能力提升较快，由8 位、1 6 位升级到3 2 位。主频也越来越高，最高可达到6 0 0 m h z 。作为嵌入式系统核心的嵌入式实时操作系统是开发嵌入式应用的关键一环。成熟的嵌入式操作系统较多，l i n u x 由于自身的诸多优势，吸引了许多开发商的目光，成为嵌入式操作系统的新宠引。 2 2a i 蝴系统的语音合成实现方案本文的研究目标是设计一个针对嵌入式平台的、具有小语音库的汉语普通话合成的原型系统，向系统输入中文文本内容，输出的将是连续流畅的、具有一定自然度中文语音。本系统采用i n t e l 公司的x s c a l ep 5 5 。它是一款基于a i 蝴5 t e 内核技术的嵌入式处理器：它提供了1 6 个d m a 通道，可以很方便的为外围设备提供数据。每个通道都有一个专门的f i f o 。当负责接收的f i f o ( r e c e i v ef i f o ) 中数据超过一半时触发 d m a 进行数据传输。同样的当负责发送的f i f o ( t r a n s m i tf i f o ) 中数据少于一半时，也会触发d m a 传输。这样数据可以很快捷的传输到内存中，大大提高了效率。 r e c e i v ef i f o 和t r a n s m i tf i f 0 都连接到p c d r 寄存器，所以d m a 读p c d r 寄存器就是读取r e c e i v ef i f o ，写p c d r 寄存器就是写入t r a l l s m i tf i f o ，非常便捷。图 2 1 描述了d m a 读写p c mf i f o 的过程。图2 1d m a f i f o 传输般的软件需求分析包括功能性需求和非功能性需求，本系统的功能性需求 1 2 嵌入式语音合成及其关键算法的研究与实现就是完成由文本到语音的转换。下面主要谈论系统的一些非功能性的需求。 1 算法实现满足已经设计完成的硬件平台的要求。 2 算法实现基于l i n u x 的c 语言，所以系统的代码应该具有很好的可移植性，以及提供丰富的接口供用户使用。 3 软件系统必须提供简单的、风格统一的接口，并对关键代码进行清晰的注释，以增加其维护性。 4 为了语音合成具有一定的实时性，要尽量对代码的运行效率进行优化，减少不必要的运行时间开销。图2 2 给出了本系统的框架结构。软件平台图2 2 嵌入式语音合成系统的基本构成我们可以根据t t s 系统的功能和处理流程，在设计中划分以下的类：一、系统框架管理类( c t t s s y s t 锄) 模块功能：本模块是位于系统结构图根部最基础的模块，全局范围内只存在一个实例对象。本模块负责系统级别的初始化和逆初始化，负责外部程序调用的和系统有关的各种调用接口，并管理系统内部的各种基本功能模块。模块处理过程：本模块负责处理的过程有如下几种： 1 、系统级别的初始化、逆初始化； 2 、管理t t s 实例管理器，生成、删除t t s 合成实例；二、t t s 实例管理器( c t t s i l l s t m a u l a g e r ) 模块功能：负责生成、删除t t s 合成实例对象；模块处理过程： 1 、可创建，t t s 实例。 2 、可删除t t s 实例。图2 3 给出了模块结构图。第二章嵌入式系统及语音算法概述 1 3 c t t s i n s t m a n a g e r o c t t s s e r v i c e 如果是子线程版本，实例管理器里面只管理一个t t s ；如果是多线程版本，那么可以管理多个 t t s 实例。图2 3 模块结构图三、合成引擎管理器( e n 百n e m a i l a g e r ) 模块功能：管理所有受限和非受限的语音合成引擎，负责语音引擎的初始化、逆初始化、查找：模块处理过程： l 、初始化过程：根据在源码中设置的引擎列表，初始化列表中的引擎； 2 、逆初始化过程：根据在源码中设置的引擎列表，逆初始化列表中的引擎； 3 、引擎查找：给定引擎的标识，可以查找并返回该引擎的对象。图2 4 给出了模块结构图。 1 n 图2 4 模块结构此外，我们还可以设计出分别承担各项功能的类，如c r e s r e a d e r 负责资源读取，c d e b u g g e 负责调试信息的处理和发送等等。四、举例：图2 5 表示了c t t s s y s t 锄类与其他功能类的静态结构关系图： 1 4 嵌入式语音合成及其关键算法的研究与实现图2 5 c t t s s y s t c n l 类协作图包含的模块：c t t s i i l s t m 柚a g e r 关联的模块：r e s r e a d e r 依赖的模块：d e b u g g e n 西n e m 锄a g r e s m a n a g e r 本项目使用的语言是c 语言，c 语言的一大问题就是结构松散，虽然现在好的大型程序都基本上按照一个功能一个文件的设计方式，但是无法做到更小的颗粒化，原因在于它的数据和函数的脱节。类和普通的函数集合最大的区别就在于这里。类可以实例化，这样相同的函数就可以对应不同的实例化类的变量。下面以语音合成引擎对象的现实为例，说明如何在c 语言中实现c + + 的关键特性之一：多态功能。 1 、定义语音合成引擎的基本动作的接口函数，包括初始化和文本处理等处理功能。 t y p e d e f s 仃u c tt a g e n 百n e v t a b 血e n 百n e l o a dp 向e n g i n e l 0 a d ；引擎卸载宰如e n 百n e u n l o a d p m e n 百n e u n l o a d ；严引擎加载 f i l f n 百n e l n p u tp 向e n 百n e l n p u t ；产输入文本处理对象的处理函数木伍e n g i n e g e t r e s u l tp f i l e n 百n e g e t r e s u l t ；严获取最后音节列表的处理函数木 ) t e n g i n e v t a b ，木p e n g i n e v t a b ； 2 、定义引擎对象实例对象，其中包含上述接口：引擎实例定义+ 1 e d e fs t r l l c t j a g e n 舀n e o b j e c t 第二章嵌入式系统及语音算法概述 c o n s t t e n g i n e v t a b 奉m j v 协b ； c h z “s t 木 m j p h z l i s t o b j ；户汉字管理器木 c l i l i s t 木 m l p l 1 l i s t ；严管理器指针宰 c t t s p 嬲蛐s m j p t t s p 觚吼s t t s 设置参数管理器木 ) i e n 孕n e o b j e c t ，宰p e i l 母n e o b j e c t ；在每一个引擎对象的实现函数中，均对l o a d ， u n l o a d ，1 1 1 p u t ，g e t r e s u l t 等处理函数进行实现，并填充相应的t e n 百n e v t a b 类型的函数指针表格，并使得语音合成的主处理流程框架可以访问和遍历到。为了保持系统的灵活性，采用了面向对象以及模块化设计的思想，具有非常灵活的系统架构。在统一的系统架构下，可挂接多种的语音合成处理引擎，各个引擎遵守标准的调用接口和数据结构定义，在共享了数据处理方法的同时，又使得各引擎可以任意搭配和混合使用。在声音解码处理上，采用同样的模式设计，从而针对不同的应用领域，组合出不同的功能，满足不同场合下的要求。 2 3 嵌入式系统设计的瓶颈在传统的嵌入式语音系统开发中，一直无法形成规范、有效的系统设计规范。因为嵌入式环境的多样性，语音合成系统一般专门为了某个处理器而开发：有些嵌入式语音合成系统是直接从桌面级或服务级的语音合成架构直接移植而来，其庞大的数据结构设计和极高的运算资源需求，使得其很难适应嵌入式环境的需求。因此，如何规范化设计过程，让嵌入式合成系统在满足效率、尺寸等苛刻需求的同时，又要保证系统的可维护性、可移植性，是一个非常值得研究的课趔引。因为面向对象的方法更有利于描述系统化的设计，因此，将面向对象的方法应用于嵌入式系统的设计中是一个趋势。本文研究了通过对“n u x 进行内核裁剪，然后对嵌入式系统进行建模的方法，快速的搭建起灵活、合理的嵌入式中文语音合成系统架构，并在实际的嵌入式环境中实现。 2 4 本章小结本章分析了嵌入式语音合成设计的软硬件要求以及需要解决的问题，介为后续的进一步研究奠定基础。第三章汉语的韵律分析第三章汉语的韵律分析 3 1 汉语的韵律特征汉语是以音节为基元，由音节组成词，由词构成句子，而这一过程恰好也是汉语语音合成的一种有效方法。由于语音信号具有音高、音长、音强和音色四个特征参量，其中音高、音长、音强被称之为语音合成中常说的韵律参数或韵律特征。同一个汉语音节出现在不同的语流环境中，由于发音器官中轨迹的连续性和众多发音习惯的制约，这四个特征参量都会发生相应的改变。连续语流中韵律特征( p r o s o d i c f c a t l l r e ) 是通过音高、音长和音强的变化，即“超音段特征”( s u p e r s e g r n e i l t a l f e 栅e ) u 列表现出来。韵律特征和合成语言的自然度关系极大，并且也会影响语言的可懂度。只有当连续语流中各个音节的韵律特征的参数更新与所处的语流环境协调一致时，才能获得高自然度、高清晰度的语音输出。韵律主要是听觉特征，是心理量，韵律包含了说话人的意图信息和听话人的感知信息，它在帮助听话人理解语言及意图时十分有用。从声学的角度上看，它对应的声学特征是基频、时长、幅度和频谱( 调域) 。从听觉的角度上看，可以用音高、音长、音强和音色四个语音听觉特征来描述。其中基频是韵律特征中最主要的声学特征，说话过程中，声音基频的变化反映了说话人的情绪、语句内容的不同等。此外，语音中适当的停顿也是韵律的一个很重要的成分。韵律特征是在完成辅音、元音的发音动作的同时，还要加上声调的高低、用力的大小以及持续时间的长短等因素。这些因素都不能单独存在，而是附着在辅音和元音之上与它们同时出现，并为听话人所听辨的，这些因素配合在一起，才能形成一系列的语音。韵律的意义：语音的韵律特征传达了有关基频、时长变化和幅度大小的信息。感知韵律特征如语调和重音都是在语音合成中难以测量、建模和仿真的。例如，在表达一个疑问句和陈述句之间的区别，是通过语调的改变和用发音的基频变化来产生疑问的。重音和声调是非常有效的交流技术，并且具有连接意义。因为这些声调的变化还可以传达一个说话人的感情状态、性别、健康情况和其它因素。在谈话中重音被用于表明字的重要性。例如，陈述句：“我是那个的裁判”和“我是那个的裁判”两句话，尽管字面意义上完全相同，但是由于前一句的句子重音在“我” 字上，后一句的句子重音在“那个”上，因此，这两个句子对于说话人和听话人来说具有不同的意思。而在书面语言中，还没有更好的方法来表达重音和语调，这两个因素在语音中几乎被独用。 1 8 嵌入式语音合成及其关键算法的研究与实现 3 1 1 汉语的韵律层级结构在音系学里，韵律层级( ( p r o s o d i ch i e r 卸c h y ) 从小到大依次为：莫拉、音节、音步、音系词、附着语素词组、音系短语、语调短语和韵律语句。在汉语语音合成的研究与开发中，一般都简化为韵律词( p r o s o d i cw o r d ) 、韵律短语( p r o s o d i c p h r a s e ) 和语调短语( i n t o n a t i o n a t i o np 1 1 r a s e ) 和韵律语句。一个较小的韵律成分包含在一个更大的韵律成分中，由此形成了韵律的层级结构。图3 1 显示了语料库中的一个汉语句子的韵律层级结构：其中p p 为韵律短语，i p 为语调短语。厅习 l 。j ：习匕。；j 图3 1 汉语句子的韵律层级结构韵律词是一种音系单位，它是在某一语言里进行某些音系过程的辖域。在无标记的情况下，音系词与构词法的词是相同的，但是它可能大些。韵律层级理论认为，一组附着形式相联系的词一起形成个音系词。从韵律的角度来研究词，就是要找到语流中节律的基本单位。为了跟语素词或者句法词分开，叫做韵律词。音步可以构成韵律词。在韵律词内部不能停顿，在韵律词边界处停顿不是必须的。汉语的标准音步是两个音节，单音节音步是退化音步，三音节音步是超音步。 3 1 2 韵律短语韵律短语对应于音系短语。由一个或者多个韵律词组成。通常认为韵律短语的长度是7 个音节，变化长度是两个音节。这与呼吸群的长度相当。韵律短语具有相对稳定的短语调模式和短语重音配置模式。人在自然语流中发音虽然与语法结构有很大的关联性，但又具有很大的任意性，韵律节奏中的韵律短语，并不等同于语法意义上的短语信息。韵律短语与语法短语的区别是：语法短语是语法分析的结果，而韵律短语是根据听觉知觉得到的语音学层次。由于人类言语活动的生理及心理方面的特点，韵律短语不一定就是语法意义上的短语。有的韵律短语包含几个词；有的韵律短语甚至就是一个词。第三章汉语的韵律分析 1 9 3 1 3 语调短语语调短语是最长的音系成分。一般长于韵律短语。在语法上，相当于较长的短语或者较短的语句。语调短语有特定的语调模式。它可能通过一些方式与句法或篇章结构相联系。 3 2 汉语韵律层级边界感知特征的声学体现汉语韵律分析的层次化是语音研究发展的要求，要预测韵律的层级边界，先要了解边界的声学体现。实验表明：韵律边界层级结构的声学表现是边界前音节延长，音高重置和加入无声段。 3 2 1 韵律层级边界的时长分析时长对区分不同韵律边界具有重要贡献，表现为音步延时、边界前音节延长、各音节时长比改变、停顿长度的变化等。通常认为无声段( 停顿) 越长，边界的知觉等级也越高。通过统计了t h c o s s 清华标注语料库不同韵律边界音节的时长分布，如下表3 2 【10 1 ，可以看出音节时长与该音节在韵律成分中的位置是相关的( 时长的单位为m s ) 。实验同时统计了不同韵律层级边界前音节时长的变化，如表3 3 所示【1 0 】

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（微电子学与固体电子学专业论文）嵌入式语音合成及其关键算法的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档