语音合成的原理及分类.ppt_第1页
语音合成的原理及分类.ppt_第2页
语音合成的原理及分类.ppt_第3页
语音合成的原理及分类.ppt_第4页
语音合成的原理及分类.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章语音合成,9.1概述,1,9.2语音合成的原理和分类,9.3共振峰合成法,3,9.4线性预测参数合成法,4,9.5俯仰同时叠加法,5,9.6章鱼转换系统;第一个合成器是1835年W.von Kempelen牙齿发明的Weston改进的机械演讲机器。第一个电子语音合成器也是Homer Dudley在1939年发明的代码。这不是简单的模拟人的生理过程,而是通过电子线路实现基于语音的源过滤器理论。在语音合成技术的发展中,早期研究主要是采用参数化合成方法。1990年提出的俯仰同步叠加PSOLA方法在时域波形拼接方法的基础上,大大提高了合成的语音声调和自然度。我国的汉语语音合成研究从80年代初开始

2、基本上与国际研究同步发展。在谐振杆合成、LPC合成中应用PSOLA技术的过程也大致经历了。9.2语音合成的原理和分类,9.2.1波形合成法波形代码合成法是类似于语音编码的波形编码解码器方法的波形合成法。牙齿方法直接存储要合成的语音的发音波形,或在波形编码压缩后存储,并在合成播放时解码组合输出。特征:所需的存储容量太大,词汇量不能很大。相对简单,通常只能合成有限词汇的语音段。目前用于自动报时、报警、报警等。另一种波形合成方法是波形剪辑合成,在语音合成中使用波形剪辑技术,在声音库中选择使用自然语言的合成单元的波形,编辑这些波形,然后输出。使用语音编码技术存储适当的语音元,合成时存储解码、波形剪辑连

3、接、平滑等输出所需的语法、语句或段落。也称为9.2.2参数合成法、参数合成法、分析合成法。参数合成法是发音器官参数合成和频道模型参数合成。发音器官参数合成法:直接模拟人的发音过程。定义与嘴唇、舌头、声带相关的参数(如唇部开口、舌高度、舌位置、声带张力等),通过用发音参数估计声道剪切区域函数来计算声波。缺点:合成语音质量不好。参数合成方法的优点:声音库通常很小,整个系统可接受的节奏特性范围很大。这种合成器的比特率低,音质适中。缺点:算法复杂,参数多,压缩量相对大,信息损失也大,合成的语音总是自然不清晰。为了改善音质,近年来开发了混合编码技术,提高了激励信号的质量。9.2.3规则合成法,规则合成法

4、:通过语音学规则制作声音,合成无限词汇的门的高级合成法。合成的词汇表不是预先决定的。系统中存储了由最小语音单位的音响参数和音素组成的音节、由音节组成的单词、由单词组成的文章、音调、轻重音等控制韵律的各种规则。算法中用于波形拼接和节奏控制的代表性算法是俯仰同步叠加PSOLA技术。9.2.3规则合成法,俯仰同步叠加PSOLA技术的主要特征:在组合语音波形片段之前,首先根据语义使用PSOLA算法调整拼接单元的节奏特征。合成波形在保持原有语音基本体主要音段特征的同时,保持拼接单元的韵律特征与语义相匹配,可以获得较高的理解和理解。(注:,),表9.1岁茄子语音合成方式比较,9.3谐振杆合成法,在谐振杆合

5、成理论中,通道参数,通道共振特性共振峰合成模型是利用共振峰频率和带宽等共同谐振特性构成共振峰滤波器的共振峰合成模型。音调不同的声音具有不同的谐振杆模式,因此可以以每个谐振杆频率和宽带为参数配置谐振杆滤波器。,9.3共振峰合成法,共振峰语音合成器的构成原理:组合多个共振峰滤波器,模拟信道的传输特性,调制激励声源产生的信号,通过辐射获得合成声音。基于共振峰的理论有三种茄子实用模型。9.3.1级联谐振杆模型,在牙齿模型中,将信道视为连接的二次谐振腔集,谐振杆滤波器的末端和末端徐璐连接,其传输函数是每个谐振杆的传输函数的乘积。5极谐振杆级联模型传递函数是9.3.2并行谐振杆模型。在并行模型中,输入信号

6、首先进行幅度调整,然后添加到每个共振峰过滤器,使每条道路的输出重叠。传递函数为:常识可分为下一部分分数的和。其中Al是每条道路的增益系数。下图是M=5并行谐振杆模型。、图9.3并行共振峰模型、9.3.3混合共振峰模型、上述两个模型的比较,对于大多数元音,均符合级联语音生成音响理论,无需为每个滤波器设置振幅调整。对于大多数听音和塞音,并列型合适,但振幅调节很复杂。因此,考虑到两者的结合,提出了混合型谐振杆模型。混合谐振杆模型如下图所示。图9.4混合型共振峰模型,共振峰合成器的激励,简单地分为浊音和清音两种茄子类型是有缺陷的。为了获得高质量的合成声音,激励员必须具备多种选项,以适应不同的发音情况。

7、在混合谐振杆模型中,有三种茄子类型的激励。也就是说,合成浊音语音时,使用周期冲击序列。合成听音语音时,使用医生随机噪波。合成流星摩擦音时由周期性刺激调制的噪音。共振峰合成器技术的弱点:(1)基于通道模拟,因此通道模型的不准确只能影响合成质量。(2)在实际工作中,共振峰模型没有表征影响语音自然度的许多其他细微的语音成分,从而影响合成声音的自然度。(3)谐振杆合成器控制非常复杂,很难实现。9.4线性预测参数合成法是由白噪声序列和周期脉冲序列组成的激励信号,是能够通过选择、放大和时变数字滤波器重新获得原始语音信号的“源滤波器”模型。图9.5 LPC语音合成器的方框图,线性预测合成有两种茄子形式。一种

8、是直接由预测器系数构成的递归合成滤波器。用牙齿方法定期更改激励参数u(n)和预测系数可以合成语音。合成的语音样本按如下方式确定:ai是预测系数。g是模型收益。U(n)是激励。合成采样为s (n)。p是预测器度数。图9.6是直接由预测器系数ai构成的合成滤波器,另一合成形式是由反射系数构成的光栅合成滤波器。它的合成语音样本如下确定:其中G是模型增益。U(n)是激励。Ki是反射系数。Bi(n)是向后预测误差。p是预测器度数。LPC语音合成与共振峰语音合成比较:(1)LPC语音合成具有相对简单、完全自动化的分析阶段,合成器结构也相对简单。使用光栅滤波器时,数量特性和稳定性好,硬件实现方便。共振峰合成

9、需要更多的参数调整,合成器结构比较复杂。(2)谐振杆合成原理与实际发声原理密切相关,其模型控制参数对合成语音谱特性的影响比较直观。在LPC合成中,控制LPC系数的变形轨迹非常有限。(3)共振峰语音合成比较灵活,允许简单的转换以模仿别人的发音,通过共振峰频率的移动,可以轻松地改变与说话声音和说话者特征相关的部分。LPC合成很困难。只有将LPC的反射系数转换为极位置时,才能进行类似的修改。(4)线性预测方法是频谱包络谷点的模型比最高点差得多,因此共振峰带宽的估计一般不合适。在谐振杆合成方法中,谐振杆的带宽也可以用离散傅里叶变换谱估计。(5)标准LPC的全极点模型,具有零点频谱特性的那种声音,特别是

10、对比音的效果比较差。共振峰合成法可以使用半共振器直接模拟鼻音中最重要的频谱零,提高合成语音音质。(6)一般选择LPC语音合成或共振峰合成,是根据两个茄子因素的折衷方案。LPC合成具有简单、自动执行系数分析的优点。相对复杂的共振峰合成预计会产生高质量的合成声音。9.5节距同步嵌套法,节距同步嵌套PSOLA算法的核心思想:直接使用PSOLA算法合并存储在音高中的语音,将其集成为完整的语音。牙齿系统首先必须从大量语音库中选择最适合接合的语音单位,在选择语音单位的过程中经常采用多种茄子复杂技术,最后在接合时使用PSOLA算法,根据上下文的要求修改合成语音的韵律特征。由于修改韵律的方向不同,目前有三种实

11、现PSOLA算法的方法。时域俯仰同步叠加TD-PSOLA线性预测俯仰同步叠加LPC-PSOLA频域俯仰同步叠加FD-PSOLA期间,TD-PSOLA算法得到了更有效的计算和广泛应用。只介绍TD-PSOLA算法原理的经典算法。9.5.1俯仰同步叠加PSOLA算法原理信号x(n)的短时傅立叶变换如下:其中w(n)是长度为N的窗口序列,Z表示完整的整数集。变量N和的二维时频函数。n的每个值都必须有连续的频谱函数。显然,有更大的信息重复。因此,在期间内,可以对多个示例(例如,R个)使用频谱函数重新配置原始信号x(n)。命令:傅立叶逆变换如下:然后加上重叠就可以了。通常w(n)是对称窗口函数,因此w(r

12、R-n)=w(n-rR),可以证明。如上所述,通过堆栈加法重构的信号y(n)和原始信号x(n)只有一个常数系数不同。、两个信号x(n)和y(n)之间的频谱上部可以替换为,(9-14),合成信号y(n)必须最小化频谱距离。您可以:理解:窗函数w1(n)常识是频谱平均平方误差的最小意义上的时域俯仰同时连接加上合成公式。在实际合成中,w1(n)和w2(n)可以使用完全相同的窗口,分母可以视为常量,可以通过添加短时间振幅系数来调整短时间能量的缺点:俯仰频率修正过大可能导致严重的频谱包络失真。9.5.2俯仰同步叠加PSOLA算法实现阶段,概括地说,使用PSOLA算法实现语音合成主要有三个阶段。分别用于俯

13、仰同步分析、俯仰同步修正和俯仰同步合成。牙齿的三个步骤如下所述。1 .俯仰同步分析同步显示是与合成单位浊音段的音调同步的一系列位置点,用于准确反映每个俯仰周期的起始位置。同步分析的功能主要是语音合成级别的同步标记设置。在PSOLA技术中,短时间信号的截取和叠加以及时间长度的选择都基于同步标记。对于浊音段,存在音调周期,清音段信号属于白噪音,因此两种牙齿茄子类型必须进行不同的处理。2 .节距同步修改同步修改合成单位同步标记的插入、删除,以更改合成语音的长度。通过增加、减少合成单位显示间隔,改变合成声音的基本频率等。如果短时间分析信号为x(ta(s),n),短时间合成信号为x(ts(s),n),则

14、示例:在表达式中,ta(s)表示分析螺距标记,ts(s)表示合成,3俯仰同步合成俯仰同步合成是利用短时间合成信号的叠加合成。如果合成信号仅变成时间,则增加或减少相应的短时间合成信号。如果基本频率有变化,则首先将短时间合成信号转换为符合要求的短时间合成信号,然后合成。图9.7时域基频同步合成语音A)语音基频减少,但基频保持不变。9.6语转换系统,9.6.1语转换系统的组成需要在书面语转换系统中提前分析文本。根据上下文的关系,您必须确定每个单词发音的声调应该如何变化,然后将参数更改为这些声调。图9.8 TTS系统基本框、文本分析、韵律控制和语音合成这三个茄子模块是语言转换系统的三个茄子核心部分。结

15、构如下:9.6.1章鱼转换系统的配置,1 .文本分析工作流程包括规范化输入的文本,处理用户可能的拼写错误,过滤出现的不规则或无法发音的字符。分析文本中单词或短语的边界,确定字符的发音,分析文本中出现的数字、姓氏、特殊字符和各种下一个字符的发音方式。确定发音时语气的变化和其他音的轻重方式。最后,将输入的文字转换为计算机可以处理的内部参数,以便后续模块生成进一步处理和适当的信息。2 .韵律调节每个人说的都有韵律特征,有不同的声调、语气、停顿方式,发音的长度也各不相同,这些都属于韵律特征。韵律参数包括可能影响这些特征的音响参数,如基频、音长、音钢等。最终系统依赖于语音信号合成的具体韵律参数和韵律控制

16、模块。3.语音合成语转换系统的合成语音模块通常使用波形连接合成语音的方法,其中最具代表性的是前面介绍的音调同步叠加法PSOLA。9.6.2汉语按规则合成,通过语音学规则生成语音,不同语言的规则完全不同。章鱼转换层次的汉语在按规则合成中只讨论与韵律规则相关的几个茄子基本问题。1 .重音规则汉语的重音是指说话或朗读时读的比较重的音节或单词。汉语压力分为以下两类茄子:单词压力和文章应激。单词应激:单词的一个音节可以分为轻重等级。声场特征是区分牙齿等级的主要标志,较小的负长度比较短。另一个重要的差别化特征是声调领域。柔软的声调区域缩小了,可以减少轻子所需的能量,但强度不一定减少。汉语重音的声学特征是音域扩大,音程扩大,气流加强。2 .转换和音度规则转换和音度是音素序列转换为语音流时的动态变化规律。汉语发音有辅音和元音组合,元音和元音组合两种茄子基本转换。电子在圣母和云母的结合过程中被称为“连接”。后者出现在复合韵母内部,称为“音度”。指电子音对后元音共振峰的影响。同一元音的共振峰特性受辅音的影响,可能会有很大的变化,出现的传承现象不同。(威廉莎士比亚,辅音,辅音,辅音,辅音,辅音,辅音)相反,相同的辅音对其他元音的影响也不同。共振峰的转移现象比较复杂,至今没有找到普遍规律。3 .声调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论