（信号与信息处理专业论文）嵌入式中文语音合成系统实现研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：65 大小：2.04MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

（信号与信息处理专业论文）嵌入式中文语音合成系统实现研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

嵌入a 中史语啬台成系统实现研究( 坝1 ：论业摘要语音合成是语音信号处理领域的一个重要分支，其研究对人机交互、语音分析，语音编码，语音增强和语音识别等各个领域都有重要的促进作用。如今，大容量、高自然度的语音合成技术已经比较成熟，广泛的应用于声讯服务、行业企业、计算机等领域，为人们的生活带来了便利。然而，中文语音合成技术因为合成效果、系统实现、资源占用等条件的限制，在嵌入式环境下却依然没有得到广泛应用。本文从上述几个限制了嵌入式中文语音合成应用的难点出发，着重解决嵌入式中文语音合成系统中的系统设计和移植等问题，解决嵌入式环境下的运算和尺寸资源占用问题，并同时获得了较好的语音合成效果，实现了业界领先的嵌入式中文语音合成系统。本文主要丌展的工作如下： l 、采用面向对象的系统设计思路，运用统一建模语言u m l 为基本设计语言，运用多种嵌入式设计模式，解决嵌入式语音系统的可移植性、可配置性、可扩展性、可维护性、低资源消耗等特殊的需求，并最终采用c 语言实现了基于面向对象模型的系统。 2 、采用基于大语料库裁减的算法，运用数据挖掘中的聚类技术，对基础大语料库根据规则和算法进行裁减，实现了适合嵌入式环境下的高自然度的任意文本合成引擎。并针对某些特定的文本合成领域，采用有限语境矢量空间的思想实现定制合成引擎。 3 、深入研究了各种嵌入式行业领域的功能需求，设计出满足车载、手机等行业应用需求的解决方案，并开发了相应的产品，在行业上已经得到了广泛的应用。关键词：语音合成，u m l ，模式设讨，大语料库合成，p s o l a 合成算法砂，缉渺 i | t 嵌入j 弋中文语者合成系统实现研究( 硕i ：论文) a b s t r a c t s p e e c hs y n t h e s i si s a l l i m p o r t a n tb r a n c ho fs p e e c hs i g n a lp r o c e s s i n g i t s p r o g r e s s c a l l g r e a t l yp r o m o t et h er e s e a r c ha n da p p l i c a t i o n so fh u m a n - c o m p u t e r i n t e r a c t i o n ，s p e e c ha n a l y s i s ，s p e e c hc o d i n g ，s p e e c he n h a n c e m e n t ，s p e e c hr e c o g n i t i o n a n ds oo n a tp r e s e n t ，t h es p e e c hs y n t h e s i sb a s e do nl a r g ec o r p u sh a sd e v e l o p e dt oa r e l a t i v e l yh i 曲l e v e l ，b u tn o ts oh i g ho nt h es y s t e m sw i t hl i m i t e dr e s o u r c e s i nt h e e m b e d d e de n v i r o n m e n t ，f o rt h er e a s o no ft h ep o o rq u a l i t yo ft h es y n t h e s i z e dv o i c e ， t h eh i g hr e s o u r c e c o n s u m e ，t h ec h i n e s ee m b e d d e ds p e e c hs y n t h e s i ss y s t e mc a n tp u t i n t ow i d e l yu s e t h i st h e s i st r i e st os o l v et h o s ep r o b l e m sw h i c hr e s t r i c tt h ew i d ea p p l i c a t i o no f t h ec h i n e s ee m b e d d e ds p e e c hs y n t h e s i ss y s t e m w ep r e s e n ts o m em e t h o d st od e s i g n a no b j e c t o r i e n t e da n dh i 【g hp e r f o r m a n c et t ss y s t e m n o ws u c he m b e d d e dt t s s y s t e mh a sb e e nd e v e l o p e da n dp u t i n t om a r k e t f o l l o w i n g sa r el i s to f m yw o r k 1 f o l l o w i n gt h ei d e ao fo b j e c t - o r i e n t e dd e s i g n ，w eu s et h eu m l ( u n i f i e d m o d e l i n gl a n g u a g e ) a sb a s i cd e s i g nl a n g u a g e ，a n d 咐m u l t i f o r me m b e d d e d d e s i g np a t t e r nt of u l f i lt h er e q u i r e m e n t so f e m b e d d e ds p e e c hs y s t e m , s u c ha s m a i n t a i n a b i l i t y , p o r t i n g - a b l e ，s t a b i l i t y , l o wr e s o u r c e - c o n s u m ee t c 2 b a s e do nt h ec o r p u sb a s e ds p e e c hs y n t h e s i ss y s t e m ，w ea p p l yt h ec l u s t e r i n g t e c h n o l o g yi nd a t am i n i n g ，a n ds o m er o l e sa n da l g o r i t h m st oc u td o w nt h e s p e e c hd a t a b a s e t h e r e b ya c h i e v ean a t u r a lc h i n e s ee m b e d d e dt t se n g i n e i nt h es p e c i a lf i e l d sw i t hl i m i t e dt e x ts y n t h e s i sr e q u i r e m e n t ，t h ec o n c e p to f c o n t e x tv e c t o ri sp r o p o s e dt od e s i g nt h es p e c i a lt t se n g i n e s 3 w cs t u d yt h er e q u i r e m e n t sf r o mi n d u s t r yf i e l d s ，a n dd e v e l o pal o to f e m b e d d e dt t sa p p l i c a t i o ns o l u t i o n sa n dp r o d u c t s t h o s ep r o d u c t sh a v e b e e nw i d e l ya p p l i e di nm a r k e t k e yw o r d s ：s p e e c hs y n t h e s i s ；u m l ；d e s i g np a t t e r n s ；c o r p u s b a s e ds p e e c h s y n t h e s i s ；p s o l a 嵌入式中文语哥合成系统，实现研究【坝i 论文) 1 1 引言第1 章绪论当今的社会是一个信息化的社会，随着人们对信息需求的f 1 益增长，对信息处理的速度和方式提出了更新更高的要求。而计算机已经广泛的出现在人们的社会生活之中，入与计算机之间的信息交换技术自计算机诞生以来就成为一个专门的课题加以研究，从最初的电子丌关和信号灯到现在使用的键盘和高分辨率显示器，可以看出人于计算机的交互手段在不断的进步，可是与计算机间最有效、最方便、虽自然地进行信息交换的方式显然是应该是人与外界交换信息的最早的也是最有效的手段语音。能够让计算机像入一样说话并能听懂人的讲话，一直是人们梦寐以求的目标。伴随着多媒体技术的发展，新一代的智能计算机将要求具备声音、图象和文字等多种处理功能。可见，语音技术在将来人机交互手段上将占有越来越重要的地位。语言合成概括地讲就是可以让计算机象人一样将要表达的信息以普通人可以昕懂的语音播放出来的技术，是- f 典型的交叉学科。它涉及到声学、语音学、语占学、语义学、信息论、信号处理、计算机、模式识别、人工智能、心理学以及人类的大脑神经活动等众多学科的理论和技术。根据人类语言功能的不同层次，语言合成可以分成三类层次，它们是；( 1 ) 按规则从文字到语音的合成 ( t e x t - t o s p e e c h ) 。( 2 ) 按规则从概念到语音的合成( c o n c e p t - t o s p e e c h ) 。( 3 ) 按规则从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 。从现有的语言合成的水平来说，可以解决的还是从文字到语音的合成这个阶段，也就是语音合成、文语转换，其最终日标是将计算机中以文字形式存储的信息以某种语调用语音的方式表达出来。就语音合成本身来说，作为计算机输出信息的一种方式，在当今信息化服务领域可以发挥重要的作用，例如在声讯台的1 6 0 1 6 8 服务，语音校对、语言学习机方面都有显著的优点。更重要的是它可以和语音识别结合在一起完成一个有昕说能力的口语系统，这样一个口语系统不仅使计算机与人类可以用谈话的方式交换信息，有效地解决人机通信问题，而且还将发展出许多新的服务应用。例如自动【】语翻译系统，它可以跟掘听话者的需要将说话人的语种转换为所要的语种，旨在克服世界上不同国家和地区人民之问的语言障碍，从而促进相互f 目j 的通信交往。语音合成技术的研究在我国已经有几十年的历史，在汉语语音合成技术方面墩德了巨大的进步，从开始时的单音节合成，到现在的非受限文本的连续语音合成，语音合成技术已经达到了人们和市场可以接受的程度。在各种声讯服务、入机交互、语音教学方面显示了巨大的运用前景，然而，由于传统的语音合成系统对于运算和存储资源要求比较高，限制了t t s 技术的应用范围，过去主要局限嵌入式中文语爵合成系统实脱研究坝l ：论文= ) 在服务器级和桌面缎的应用。然而，近几年随着嵌入式技术的蓬勃发展，嵌入式设备越来越受到社会的认同，为了满足用户对于嵌入式设备更便捷、更自然使用的需求，将汉语语音技术应用到嵌入式设备中成了必然的趋势。而我们已经积累了相当丰富的大语料库合成知识，并且取得了良好的效果。所以本文将以大语料痒合成系统为基础，对系统进行裁减优化，制作适合嵌入式环境下的高自然度、商效率的且易于移植和维护的嵌入式中文语音合成系统。本章将首先介绍语音合成的发展历史，人的发音机理及语音信号本身的特征，汉语语音的基本特征，最后对目i j i 的嵌入式中文语音合成系统的现状进行了分析和探讨，并给出了论文的工作安排。 1 2 语音合成发展的历史语音合成技术的研究已经有了2 0 0 多年的历史。人工语音是很多世纪以来人类所追求的梦想，在中世纪前的古老神话中，非生物体的说话被看作是一种魔术，带有极其神秘的色彩。然而只有在1 7 世纪后，才真正使用科学的方法来合成语音。1 7 7 9 年俄国教授c h r i s t i a nk r a t z e n s t e i n 解释了5 个长元音( a ，e ，o ，和u ) 在生理上的差别，并制作了一种装置来人工生成。他制作了类似于人类声道的谐振器，并敲打管乐器以激发这些谐振器发出声音。f a b e r ( 1 8 7 6 年) 的机器，能用正常声音和哨音说话，能唱“上帝保佑女阜”这句话。机器使用六个膜片来调节每个音的声道形状和分段。通过键盘上的1 4 个键，能“演奏”出声音。第一个完全的电子合成装置是由s t e w a r t 在1 9 2 2 年设计出来的。装置由一个蜂鸣器做为发声的激励，用两个谐振电路来模仿声带的震动，使用头两个共振峰能够产生单个固定的元音。1 9 3 9 年，贝尔实验室的h o m e rd u d l e y 在纽约世界博览会上展出了v o d e r ，第一个受人控制的电子语音合成器。操作者通过键盘控制合成的语音的参数，使用踏板控制基频，从而合成连续的语音。第一个模拟的并联的共振峰合成器，p a r a m e t r i ca r t i f i c i a lt a l k e r ( p a t ) ，是由英国政府的信号研究与发展公司的w a l t e rl a w r e n c e 在1 9 5 3 年发明的。第一个发音器官合成器， d a v o ，是由m i t 的g e o r g er o s e n 在1 9 5 8 年发明的。第一个完全的文本到语音系统足在1 9 6 8 年由n o r i l e u m e d a 和他的助手完成的，该系统基于发音模型技术，斥包括了语法分析模块。这个系统具有很高的清晰度，不过声音很是单调。进入7 0 年代以后，语音合成的研究主要集中在文语转换系统上，即将书面语言转换成语音。早期的研究主要是采用参数合成方法。值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 ) 和k l a t t 的串并联共振峰合成器( 1 9 8 0 ) ，通过精心调整参数，这两个合成器都能合成出非常自然的语音。而最具代表性的文语转换系统数美国d e c 公司的d e c t a l k ( 1 9 8 7 ) ，该系统采用k l a t t 的串并联共振峰合成器，可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务，它的发音清晰，弗可产生七种不同音色的声音，供用户选择。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，使得整体合成语音的音质难以达到文语转换系统的实用要求。自八十年代未期至今，语音合成技术又有了新的进展，特别是基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) ，使基于嵌入式中义语爵合成系统实现研究( 硕i ：论史) 时域波形拼接方法合成的语音的自然度大大提高。九十年代仞，基于p s o l a 技术的法语、德语、英语、只语等语种的文语转换系统都已经研制成功。这些系统的自然度比以i j i f 基于l p c 方法或共振峰合成器的文语合成系统的自然度要高，并且基于p s o l a 方法的合成器结构简单易于实时实现，有很好的实用酊景。 1 3 语音产生的模型 1 3 1 自然语音的产生机理语音产生是一个复杂的生理过程：语言中枢下达命令，这些命令表现为神经脉冲信号，指挥发音器官的肌肉产生运动，因此就产生了气流气压的变化，发音器官的动作和声腔共鸣系统的调节，最终产生可懂的语占。所以语音产生是一个复杂的信息转换系统：化学电、电- 机械、机械空气动力、空气动力一声能。统。语音产生的生理方面主要涉及三个系统：声门下系统、喉系统以及声门上系声门下系统，俗称呼吸器官。它由气管、支气管、肺及呼气肌群、吸气肌群和膈肌组成。它提供人类发音的动力，因此是发音的动力器官。喉是一个空气阀，它有两种基本功能：呼吸时，声门大开；发声时，声门作有节律的丌闭动作，使肺中呼出的平直气流调节成为脉动气流。这种携带了声能的脉动气流成为言语和歌唱发声的基本声源。声门上系统又称共鸣腔，或称调音器官。它由口腔、鼻腔和咽腔组成。喉部产生的嗓音流( 声门波) 或气流，通过这些共鸣腔的调节，可以产生出不同的音素。发音系统可以产生三类基本的声音：浊音、摩擦音和爆破音。浊音( 如元音) 是通过提赢肺部气压，强迫空气通过声门( 声带之1 b j 的孔道) ，使声带振动而产生的。声带的振动切断气流，产生一种似乎周期性的宽频脉冲，激励声道。声带的振动韧带大约1 8 毫米长，声带门孔道面积的典型变动范围在0 到2 0 平方毫米左右。摩擦音( 如辅音5 、s h 、f 等) 是声道的某些部位部分关闭，空气从紧缩处以足够的速度通过引起湍流而产生的。爆破音( 如塞音p 、t 、k ) 是声道完全闭摩( 一般是唇或舌闭塞) ，空气压力在闭塞部位后面增加，然后突然打开闭塞部位而产生的。当空气释放的时候，这种尖锐的声音常常伴随着摩擦或送气。 - 8 - 嵌入式中文语音台成系统实现研究坝i ：论文) 1 3 2 语音信号产生的数学模型根据上述发音器官的声学理论，语音信号产生模型可以如下表示。图表1 1 语音产生的模拟过程从上面的模型中可以看出，语音信号的生成过程中有以下几个重要部分：【一】激励源模型长期研究证明，发不同性质的声音时，激励的情况也不同，大致可分为如下两类。 ( 1 ) 发浊音情况。这里的浊音包括所有的元音和浊辅音。此时气流在通过绷紧的声带时，冲击声带产生振动，使声门处形成准周期性的脉冲串，并用它去激励声道。声带绷紧的程度不同，振动频率也不同。这个频率就是音调频率，它的倒数就是音调周期。生理及声学研究结果表明自然语音的声门有点类似三角波。最新的研究发现，男女声的不同体现在声门波的形状上，这个类三角波的上升沿和下降沿的比率以及声门波中表现的声门打丌和闭合的比例将男声和女声有效的区分丌来。这也解释了问什么长久以来通过调节共振峰和基频来实现男女声的相巨转换效果不好的原因，因为语音的声门波激励中没有体现这样的变化。下面给出一个完整的浊音激励源模型示意图，其中激励源的输出对应于进入声道的啻流的体速度( 即声门波) 。图表1 - 2 浊音激励源模型输出 ( 2 ) 发清音的情况。这罩的清音只包括清辅音。相比之下，清音的激励源比较简单。此时，声道松驰而不振动，气流通过声门直接进入声道。来自肺部的湍流为具有平垣频谱的压力波，而这湍流的声门波与压力的关系是相当复杂的，参蓟町一尚 1 j v 一靼7 一m 一浊丌一爨。赫登一而模一厂辟墼嵌入a 中立语膏合成系统实现研究顾l ：论文) 一种常用的方法是用低通滤波关系简化它。下图是一个较完整的清音激励源模型。幅度控制丽i 丽i 习颥赢翮卷骂门波 l一，：j l 一j 图表1 - 3 清音激励源模型清塞音( 即爆破的清音) 是一类特殊的清音。发爆破音时，声带在一段时间内是关闭的，随后就建立起气压，而声带并不振动，当这一障碍去除时，空气即以高速冲出，从而产生湍流。准确模拟这类爆破音是比较困难的，一种简单的方法是使上图中的幅度控制发生突变以模拟爆破声源。【二】声道的模拟在发音过程中由于声道形状发生改变，声道的传输特性也随之改变，所以声道的传递函数是时变的，一般用一个线性滤波器模拟声道，如下图所示。控制参数 | 广型r _ 输出声门波刊时变的线性滤波器卜 i ，。_ j 图表1 4 声道的模型关于声道部分的数学模型，目前有两种观点： ( 1 ) 声管模型这种模型把声道视为多个不同截面积的管子串联而成的系统，根据语音信号的短时平稳特性，在其某一“短时”期问，声道可表示为形状稳定的管道，而且在声频范围类，可以认为沿管轴传播的是平面波。 ( 2 ) 共振峰模型这种模型是把声道视为一个谐振腔，共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器的纤毛细胞就是按频率感觉而排列位置的，所以这种共振峰的声道模型方法是非常有效的。它可以较好地解决音与音之问的协同发音j 口j 题，使合成的声音连续自然。实践表明，用频域上从低到高的前三个共振峰来代表一个元音就足够了，对于较复杂的辅音，大概要用到五个以上的共振峰。 ( 3 ) 滤波器模型嵌入式中文语哥台成系统实现研究( 颅i 论义) 这是一种纯粹效果上的模型。将声门波通过声道产生语音的过程简单看作是 d 激励源通过一滤波器的过程，声道的作用就相当于滤波器。至于这一滤波器是怎样模拟声道的物理特征的，则不去考虑。如l p c 模型，就是用线形预测误差滤波器束模拟声道，后面就是使用了l p c 逆滤波以后的残差( 去除了卢道信息) 术分析语音的周期性特征的。【三】辐射模型从声道模型输出的是速度波，而语音信号是声压波，两者之倒比称为辐射阻抗。它代表口唇的辐射效应，也包括圆形的头部的绕射效应等。如果认为口唇张丌的面积远小于头部的表面积，则这种辐射效应可近似地看成是平板丌槽辐射情形。据此最终可得到辐射模型函数的近似表示式：r ( z ) = r 0 ( 1 - z 4 ) 从上面的分析可以看出，人类语音信号的生成过程可以用数学模型的方法加以分析，可是同时也可以看到，采用了上面的模型并不定能够精确描述发音的实际过程，特别是在一些机理和参数是否真j 下符合实际情况等问题无法得到明确的答案时，使用这些模型生成的语音总是无法达到自然语音的效果。所以，在当丽众多的合成方法中，出现了一些直接从自然语音中提取单元经过一定的处理加以拼接的方法，获得了一定的成功。 1 3 3 语音信号的特点由以上的语音信号的生成过程可以看到，受限于人的发声系统的生理特征，语音信号表现了以下的一些特点：【一l 语音信号的频谱集中在3 0 0 3 4 0 0 h z 的范围内，故一般均按8 k h z 进行。采样( 一些系统搞段扩展n 7 9 k h z ，采样频率提高n 1 5 2 0 k h z ) i - 】短时性在段短的时间中，语音信号才保持相对一致的特征，这段时间一般可取5 5 0 m s ，故对语音信号的分析长建立在短时的基础上( 在处理上采取“加窗”的方法) 其重要的短时特性包括： ( 1 ) 短时能量 ( 2 ) 短时过零率 ( 3 ) 短时相关系数 ( 4 ) 短时频谱【三】语音信号可以以“音素”为单元分为三类即：1 、清音2 、浊音3 、无声，1 4 。语音合成基本原理及其组成从采用的合成技术来划分，语音合成系统主要分成三类： 1 、参数合成算法：模拟人类发音的物理模型合成声音； 2 、共振峰合成算法：基于源一滤波器模型，其滤波器表征了变化较慢的共振峰： 3 、波形拼接合成算法：将作为基本单元的声学单元的波形拼接起来形成最后的合成语音。为了保证波形拼接合成的自然，发展出了很多种韵律调整的方法；8 0 年代术，e m o u l i n e s 和e c h a r p e n t i e r 提出了基于波形修改的语音合成算法p s o l a ，使拼接合成得到很大的发展与广泛的应用。事实上，完整汉语文语转换过程是一个层次化的分析过程，从文本信息到语音信息的文语转换过程可以看成在不同的层次信息在不同的层面上进行分析处理的过程。在文本的层面上，先要在语言层、语法层和语义层上进行分析，得到文本的层次信息( 包括词组、短语、句子等信息) 。然后在层次化信息的基础上在语音层的基础上进行韵律分析，得出语音层面上的韵律信息( 针对汉语来说就是超音段特征的生成，包括基频、时长、能量的综合韵律曲线) ，然后根据生成的韵律特征，利用合成器生成或者从语音库中挑选单元来完成语音数据的最后生成。下图显示了一个完整的文语转换( t e x t - t o s p e e c h ) 系统框图。图表1 - 5 文语转换系统框图在语言层、语法层、语义层的工作可以归结为前端的文本分析，而语音层面 j ：的韵律生成和声学层面上的按韵律合成语音单元或在音库中挑选单元可以说后端的韵律合成。对于语音合成系统束既，i i 端的文本分析部分都是棚同的，只是由于要求的不同而有不同信息表达方式。而后端的韵律合成方面也可以层次化的分为两个部分，一个就是按照d # 端给出的层次化文本信息生成合适的韵律，雨另一个就是按照生成的韵律束产生最后的合成语音，在产生韵律和合成语音的方法上，各种方法不尽相同，甚至两个部分成为一个不可分割的整体，但是从思想上来说，每个合成系统都包含这样两个方面。嵌入吱中文语爵合成系统实现研究钡i j 论文) 在韵律生成方面，国际上较为著名的是由r 本的藤奇教授提出的f u j i s a k i s m o d e l ，能够较好的模拟真实的韵律特性。因为韵律的生成涉及到一系列复杂的问题，例如音节在孤立状念下和在连续语流中悬殊的差异，以及到底是什么一些素影i 啊着语音的韵律等问题，韵律生成的好坏取决于对自然语流的精确描述和模型的合理程度。现在的一些方法将韵律的生成和语音的生成结合为一一个整体，将韵律的生成直接同语音文本表现出来的层次化结构关系结合在一起，在生成韵律的同时完成了对单元的挑选，取得了较好的效果。这方面较为代表的是c h a t r 方法。在合成语音的方法上又可以分为两种，一种是对现有的语音单元进行编辑的方法，典型的代表是t d p s o l a ，可以对现有的语音单元的基频和时长在一定范围内进行较好的调节。另一种就是合成器，这方面的代表是l p c 合成器，共振峰合成器，以及近来提出的h a r m o n i c s t o c h a s t i c 合成器等。t d p s o l a 方法在调节语音的时长时效果非常好，但是对基频的调整不尽人意。l p c 和共振峰合成器的表现力很强，但是合成的音质却不能达到一定的要求。如前面所说的，由于在模型的精确度方面的原因，现有的合成器都难以有效的合成高自然度的语音，基 j 二原始语音库的拼接编辑合成在实现高自然度的合成系统上，取得了很大的进展。 1 5 语音合成的发展方向语音合成技术的发展方向主要有如下四个： 1 、提高合成语音的自然度提高合成语音的自然度仍然是高性能的语音合成系统的当务之急。就汉语语音合成| 来说，目前在单字和词组一级上，合成语音的可懂度和自然度己基本解决，但是到句子乃至篇章一级时其自然度问题就比较大。基f 大语料库的语音合成方法有望进一步提高语音合成的自然度。原因i f 如 i ：节所述：它采用了自然语音波形直接拼接的方法，进行拼接的语音单元是从一个预先求f 的自然语音数据库中直接挑选出柬的，因此有可能最大限度地保留语考的自然度。然而无论用哪种合成方法，韵律规则的总结，特别是连续语音的韵律规则的总结，始终是提高合成语音自然度的关键。还有静端文本处理，对合成语音的自然度也具有举足轻重的影响，而完整全面的解决该问题，还有待于自然 i ；f 苦理解的突破。 2 、丰富合成语音的表现力目前国内外大多数语音合成系统只能以某种朗读风格将书面语言转换成语音输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。随着信息社会的需求发展，对人机交互提出了更高的要求，人机口语对话系统的研究也提到了只程上。这就对合成语音的表现力提出了更高的需求。相嵌入a 中殳语青合成系统实现研究( 坝l ：论史) 对来浼采用波形拼接方法来增强合成语音表现力比较困难，尽管也可以通过增加背库容量和音库个数来改变合成语音的特性，从而丰富合成语音的表现力。但毕竟它对韵律的调整能力非常有限。更为有效的办法是采用参数合成法，分析参数特征，通过对相关参数的调整来实现对年龄、性别特征的改变，进一步实现语气、语调的变化，由于这种改变是连续的，对象特征可以千千万万，显得更有生命力。近年来，这方面的研究的发展很快，实现的模型和系统有基于l m a ( 对数振幅近似) 技术的语音合成器，h y b r i dh a r m o n i c s t o c h a s t i c 模型，s i n u s o i d a l 模型等。 3 降低语音合成技术的复杂度语音合成技术j 下在走向市场。为了适应社会的需求，扩大语音合成的应用场合，除了解决好上面两个问题，提高合成语音的质量和丰富合成语音的表现力以外，在其他实用化方面也有要加以改进的地方。就目前的语音合成系统而言，减小语音库容量就是一个重要课题。目前高质量的语音合成系统一般都需要很大节的存储容量，这在以p c 机或工作站为硬件平台的应用中是没有问题的，而对于象h p c ，p d a 及无线通信手机，商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量，或者采用更小的合成基元，例如用声母、韵母或双音素、半音节，以及减少合成语音所需的音节基元数等等。然而这往往会增加算法的复杂度，因为运算量及系统丌销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量，又要降低语音合成的复杂度，这形成了一个矛盾。 4 多语种文语合成语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要，多语种的文语合成有着独特的应用价值。例如在自动电话翻译，有声的电子邮件等应用中都提出多语种的合成，即使是对汉语合成也有多方言语音合成的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器，但是现有的语音合成系统大多是针对某一种语言丌发出来的，所采用的算法及规则都是和该种语言密切相关的，因此很难椎广到其他的语种。例如汉语和西方语言就有很大的差异，汉语语音合成系统的韵律规则完全不适合于英语。因此多语种的语音合成，也是未来的语音合成系统需要研究解决的问题。 1 6 基于大语料库的语音合成算法丁f 如前面所介绍的，目前基于p s o l a 的波形拼按语音合成技术比较流行，彳成语音的音质也比较好，然而与真人的发音相比，合成语音的自然皮仍不够理想。然而，基于该技术的合成语音的自然度仍然不够理想，这主要表现在两个方砸：一方面是音质的差距，由于该技术存在一个从语音中提取参数( 如音高，音长，音强等) ，经过适当的变换( 如p s o l a ) 再生成语音的过程。但是p s o l a 方法往往会导致合成语音听起来很机械或有回声和杂音，从而导致自然度的明显 f 降。另一方面是韵律的差距，采用该技术的语音合成系统通常只能生成有限的嵌入式中立语哥合成系统，实现研究( 坝i 。论文) 语调模式，因而使合成语音听起来很单调枯燥。而且语音合成系统在节奏，轻重，停顿等方面的处理上还有很多未解决的问题，从而使合成语音听起来很别扭。而基于语料库的语音合成方法的基本思想是：为了合成出具有较高自然度的语音，首先将输入的文本转化成一系列的待合成单元，然后从语料库中找到最合适的语音片断，最后直接将语音片断拼接在一起，得到最终的合成语音。它抛丌了语音信号处理( 如p s o l a ) 、合成算法的韵律调节等问题，直接从连续的预先录下的庞大的语音数据库中挑选出来符合韵律的语音片段作拼接，这在保持自然语音的音质，音色上是其他方法所不能比拟的。出于这些合成的基元都是选择自然的原始发音，合成语句的可懂度和自然度都将会非常高。可以看出，这种方法隐含的假定是在语音库中总能够找到合适的拼接片断，这对于通用的语音合成系统来说，是一件非常困难的事情。所以说，实现基于语料库的语音合成方法的关键是设计一个大规模的，包含了拼接基元在不同环境下的不同变体的语音库。有了语音库之后，还需要一个选音算法，以从语音库中选取最合适的语音单元进行拼接。综上，基于大预料库的语音合成算法中需要解决的问题主要有两个： ( 1 ) 大规模语音库的设计与实现为了实现一个大规模的，包含了拼接基元在不同环境下的不同变体的语音库，我们首先需要确定拼接基元，拼接基元是指拼接的基本单位。它可能是音素、双音子( d i p h o n e ) 、三音子( t r i p h o n e ) 、声韵母、音节、词语、语句等。一般的，基元越小，语音数据库越小，拼接越灵活，韵律修饰的规则就越复杂；其次，对于同一个基元，由于语境不同其声学特征有很大差别，我们需要提取一些特征以反映不同音节在不同环境下的不同声学特征，但由于我们的目的是从文本到语音，所以这些特征必须能够从文本中直接提取得到。 ( 2 ) 选音算法为了能够从大规模的语音库中选择最佳的拼接基元，我们需要一个高效的选爵算法。这罩的主要问题包括：如何描述语音库中不同的拼接基元之间的听感知差异：如何预测目标单元与拼接基元之问的差异，考虑到在合成时没有可用的口标单元的声学特征，因此我们还必须预测目标单元的声学参数；以及如何描述不 i i i j 拼接基元拼接在一起时所导致的音质的下降等等问题。 1 7 嵌入式语音合成现状 1 7 1 现有嵌入式语音合成系统目前，国际上已经出现了不少可以提供外国语种嵌入式语音合成系统的公司，但因内还未有真正的嵌入式中文语音合成系统。目前的中文语音合成的主流技术是大语料库算法，要求海量的数据资源，无法应用到嵌入式系统中。嵌入直中文语者合成系统实现研究( 坝i 论义，公司名说明 2 3 语种，只能适合高端嵌入式环境。其中中文合成效 a c a p e l ag r o u p 果较差带西方口音，不自然。 a s a h i k a s a i 只支持只语合成 f o n i xd e c t a l k ，高性能的嵌入式合成系统，尺寸资源 f o n i xc o r p o r a t i o n 占用在5 0 0 k 以内，支持六国语言，但无中文合成 s o 行v b i c e 支持三国语言，无中文合成支持多国语种，但合成运算资源太高，运算量5 0 m i p s ， i b m 尺寸大于5 m ，中文合成自然度较差 p h i l i p ss p e e c hp r o c e s s i n g 无中文合成收购了l & h 、s p e e c h w o r k s 、a r t 、n u a n c e 等公司， s c a n s o r 有中文t t s 解决方案，效果较好。但只适合高端嵌入式领域。代码公| 丌的嵌入式t t s 系统，从f e s t i v a l 项目而来，但 f i i t e 效果不是很理想，无中文t t s 系统。有嵌入式中文软件解决方案，以及基于t id s p 和国内捷通华声 c - c o r e 处理器的丌发板( j y r sd s p ) 中文语音合成芯片w t s 7 0 1 ，采用简单波形拼接技术， w i n b o n de l e c t r o n i c s 效果较差 o s y n 0 6 1 8 8 单芯片语音合成芯片，成本低，采用简鸿迅隆科技单波形拼接技术，但效果较差，文本处理能力弱，正确率低 l 72 嵌入式语音合成系统分析在以上列举的嵌入式合成系统的分析中，国外己经出现了多家商用的嵌入式语音合成系统，但目i ；i 大部分都局限于外国的语种。虽然部分公司拥有嵌入式中文语音合成技术和产品，但这些语音合成技术对资源和运算量需求较高，只能应用于市场份额较小的高端嵌入式设备上，无法在中低端的嵌入式设备上大规模集成或应用。在此之前，真正达到实用价值的嵌入式中文语音合成系统e l 自h 在国内乃至世界上仍是空白。据分析，限制中文语音合成系统大规模应用的主要因素有如下几点： ( 一) 在嵌入式环境下，硬件和软件资源往往有很大的限制，传统的基于大语料库的语音合成技术需要非常高的运算资源和存储资源，无法满足嵌入式环境下对资源的苛刻需求。嵌入t 中文语爵合成系统，实现研究t 觑i ：论文) ( ：) 些简化过的轻量级语音合成算法虽然在资源占用上可以满足嵌入，环境的要求，但是由于合成算法过于简单，语音合成效果不尽人意，往往无法达到人们可以接受的程度，最终影响了使用效果。 ( _ _ ! 三) 嵌入式环境的硬件和软件平台千变万化，业界存在无数种硬件平台、擞作系统和软件环境，传统的语音合成系统在适用性和移植性上无法满足多样的嵌入式环境的需求。为了解决语音合成技术在嵌入式环境下的应用问题，必须对上述问题进行针对性研究和技术攻关，推出真诈适用于嵌入式应用的中文语音合成系统，需要在系统资源占用、语音合成效果、系统移植性等多个关键点取得了突破性的进展，为语音合成技术在嵌入式环境下的应用推广迈出重要一步。 1 8 论文工作及框架安排 1 8 1 论文工作方向 l 、研究和探讨更适合嵌入式应用环境的中文语音合成系统架构，并如何提升嵌入式系统设计的效率。将对使用u m l 和模式设计的方法进行嵌入式语音合成系统设计的方法进行研究，以解决嵌入式合成系统的可移植性、可配置性、低资源消耗、良好的可维护性等问题，并研究如何在最常用的嵌入式开发c 语占上，实现面向对象编程的解决方案。 2 、研究和探讨高自然度的嵌入式中文语音合成系统算法，这项工作将在大语料库算法的基础上进行，并进行相应的优化和裁减，以适应嵌入式的资源要求。并针对特定文本合成领域，研发有低性能和尺寸资源要求以及高效果表现的定制合成引擎。 3 、针对嵌入式领域对语音合成功能的需求，设计和实现针对车载、手机等嵌入式行业领域的语音合成应用解决方案，研发相应的多款软、硬件形式的语音台成产品，并将在市场上进行推广应用。 1 8 2 论文结构本论文共分为六章，以后各章的主要内容如下：第二章：嵌入式语音合成系统设计。介绍了使用统一建模语言u m l 以及模式设计方法来进行嵌入式系统设计的方法，解决嵌入式系统的可移植性、可配置性，并给出了用c 语言实现面向对象的方法。第三章：嵌入式语音合成引擎设计。描述了基于大语料库裁减算法的高自然度语音合成引擎以及针对特定领域文本的定制合成引擎的设计。嵌入，中义语音合成系统实现研究( 坝i 论义，第网章：通过实时语音调速算法的实现，讨论了如何在嵌入式环境下优化算法，降低声音处理运算消耗的方法。第矗章：研究和列举了嵌入式中文语音合成系统在具体行业领域下的实际应 h j 解决方案。第六章：对本论文的工作进行总结并对下一步的工作进行了展望。嵌入式中立语打台成系统实现研究( 坝l 论文) 第2 章嵌入式语音合成系统设计传统的嵌入式系统的，丌发过程是类似于瀑布式研发过程，其系统设计的分割状念和顺序的设计方法，不利于修改设计，而且成本相对较高、周期较长，不能满足激烈的f 仃场竞争的要求。在嵌入式环境下，如何设计和得到一个具备良好的可移植特性、灵活的可配置特性、高效的运算和尺寸效率的实用型嵌入式语音合成系统，一直以来是嵌入式语音合成领域的一大难题。本章将针对嵌入式环境下的语音合成系统进行设计和实现的探讨。 2 1 语音合成系统流程基于波形拼接的t t s 系统的大体算法及步骤是 1 、进行文本预处理，进行汉字编码转换，生成标准字符： 2 、根据产生的标准字符，整理成标准文本块，识别句子分界。 3 、对标准文本块进行特殊符号等过滤处理，归约成最简的文本块。 4 、遍历各文本块，根据文本块类型以及引擎挑选策略，选择最佳的处理引擎。 5 、调用引擎的前端处理过程，对文本进行词典次一缴的分词处理、标注拼音、并进行多音字、多词类的确定等处理，最后，按拼词规则进行“词典词”到“韵律词”( 音步) 的转换，产生l i ； 6 、进行l 2 短语层分析； 7 、进行语音流片断l 3 层切分处理。到这一步，j ；i 端分析完毕，分析结果已经包含了基本的高层韵律信息。 8 、通过某种算法利用已有的高层韵律求解目标单元( 对于单样本则不必) ，算法分为两大类，一类是直接决断。另一类是建立韵律模型。前一类算法又有两种实现，一种是直接对比高层韵律信息，按照某种线性距离挑选最近者，另一种是基于数据挖掘的方法进行训练一决策。 1 9 嵌入式中立语爵合成系统实珧研究( 颂l ：论文) 9 、最后，将所取得的波形加上一些停顿静音，拼接并输出。在卜述的t t s 系统的大体算法及步骤中，步骤l 步骤5 为前端帮分，主要负责从文本求解高层韵律信息，6 、7 两步骤为后端部分，实现了高层韵律信到最终语音的转换。但在实际设计时考虑到所有的不同类型文本，其中l 狐端的1 、 2 两部分的处理是与文本类型无关( 还没有生成) ，因此在结构设计上将这两部分提升一级，作为t o p - l e v e l 的公用功能模块，也就是由框架直接调用的一绒模块。 t t s 的过程处理如下图：鲧微术 = g 字符集胤铬 | 切分( t o 文k 搿象 = 剩空本艨悯时舭，l 数锻进行l 一根据劫 i 环境拂i l 一 l 擎内进行龌l 律解p ，输j | j 音频卜广叫进单正卜厂 1 环境引算图表2 1 一般的t t s 系统处理流程 2 2 用u m l 进行系统建模 2 2 1 嵌入式系统设计的瓶颈根姑史术埘肇炎刑挑选史本处理哼i 擎在传统的嵌入式语音系统开发中，因为嵌入式环境的多样性，语音合成系统直无法形成规范、有效的系统设计。语音合成系统一般专门为了某个通用处理器或者d s p 处理器而丌发，而很难或很少考虑到可维护行、可移植性等问题；订些嵌入式语音合成系统是直接从桌面缴或服务级的语音合成架构直接移

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）嵌入式中文语音合成系统实现研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）嵌入式中文语音合成系统实现研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档