




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章 语音合成,本章主要讨论的问题: 1.语音合成原理和方法 2.线性预测合成技术 3.语音音素合成技术,1.语音合成原理和方法,共振峰语音合成原理如下: 浊音和清音分别采用不同的激励源。 发不同语音对应不同声道路径和滤波器。 发不同语音对应不同幅值控制和频率控制。 共振峰和基频是语音信号的2个主要特征。 Vortax公司推出的Computalker是一种典型的语音合成产品最早进入计算机业余爱好者市场。采用的便是共振峰语音合成原理。 共振峰模型分为级联型、并联型、混合型三类。 对于英语语音,一种采用混合型共振峰模型的共振峰语音合成器框图如图所示。,混合型共振峰语音合成模型,2.线性预测合成技术,线性预测技术有两个特点: a.时域和频域技术相结合。可确定共振峰频率、带宽和振幅等频域参量。 b.把具有音高和振幅的激励源与控制音素发音的声道滤波器分离开来,增强了语音存储的灵活性。,2.线性预测合成技术,(1)线性预测原理 线性预测技术可以看成是一种曲线的拟合技术。 预测误差e(n)的表达式: e(n)= x(n)-x(n) = x(n)-akx(n-k) 式中,x(n)=akx(n-k)为预测值,ak为预测系数。,2.线性预测合成技术,将预测误差e(n)的表达式进行Z变换得: E(Z)=X(Z)(1-akZ-k) 由此,可得 X(Z)= E(Z)1/(1-akZ-k) 此式即为语音的合成模型。,2.线性预测合成技术,对上式进一步化简,得: X(Z) = H(Z)I(Z) 其中,H(Z)=1/(1-akZ-k)为模拟声道滤波器传递函数。I(Z)为频谱分布为0dB/倍频程的脉冲激励源,即I(Z)=E(Z)。 上式表明:利用线性预测可以把模拟声道的滤波器和模拟声源的脉冲激励分离开来。均方误差最小时,浊音对应脉冲波激励,清音对应白噪声。 线性预测用于共振峰分析,如图所示。,线性预测用于共振峰分析,线性 预测 分析,多项式因 式分解或 峰值检测,共振峰 参数,a1,a2,a10,幅值,音高/幅 值检测,音高,浊音/清音标志,激励源 参数,2.线性预测合成技术,线性预测编码(LPC)的关键问题是在均方误差最小条件下求出线性预测系数ak。此时,由x(n)=akx(n-k)可近似地恢复x(n)。 目前,有3种求线性预测系数ak的方法:直接法、自相关法、协方差法。,2.线性预测合成技术,直接法 求解线性预测系数的直接法与求出曲线的拟合系数的方法相同。总的均方预测误差为:,2.线性预测合成技术,对M求偏导数,并使aj的偏导数为0,得:,2.线性预测合成技术,利用上式的p个线性联立方程,可求出p个线性预测系数a1,a2,ap。 这种求解方式在计算机上进行,很方便。n的求和范围一般为-n+。但考虑语音信号的特性,实际上,在一段时间求和(加窗函数n),即 x(n)* = nx(n) 窗函数的长度一般为100250。,2.线性预测合成技术,自相关法 自相关法是上式的另一种解法。 设自相关函数为,2.线性预测合成技术,联立方程组可变换成: R(0)a1+R(1)a2+R(2)a3+R(p-1)ap =R(1) R(1)a1+R(0)a2+R(1)a3+R(p-2)ap =R(2) R(2)a1+R(1)a2+R(0)a3+R(p-3)ap =R(3) R(p-1)a1+R(p-2)a2+R(p-3)a3+R(0)ap =R(p) 这是一个系数对称的线性联立方程。Durbin和Levinson提出了求解这种特殊方程组的最佳解算法。,2.线性预测合成技术,协方差法 这种方法无需对语音信号加窗,它能精确算出预测系数,而在帧内的分析时间比自相关法要短。 这种方法假设n求和范围为定数N,起点在n=h处,计算样本数h到h+N-1时共N个样本值时的预测系数。此时,联立方程组可变换为:,2.线性预测合成技术,2.线性预测合成技术,因为Qhjk=Qhkj,可见上式是一个对角线对称的系数矩阵。矩阵Qh 是半正定,可近似地假设为正定。根据Cholesky定理,正定对称矩阵可进行如下分解: Q=LLT 其中,L为一个下三角阵,由此,可得一个有效的求解算法。 通常,用于计算预测系数的语音信号样本值在50100之间,每隔100250个样本值重新计算预测系数。,2.线性预测合成技术,(2)格型合成滤波器 根据以上3种方法,求得线性预测系数ak后,给定误差信号e(n),便可以恢复原始语音信号,即语音合成。,2.线性预测合成技术,上式中,误差信号可用下列参量表示: a.语音源类型(浊音还是清音) b.振幅和音高(浊音时) 其中, 浊音对应于以适当的音高频率重复的激励脉冲。 清音对应于白噪声激励。 由上式组成的合成滤波器可有多种表示方式。其中,一种完成LPC分析和合成的格型滤波器结构,如图所示。,完成LPC分析和合成的格型滤波器,2.线性预测合成技术,格型滤波器可以完成语音分析和合成。格型滤波器用于语音分析和合成的参量有: a.浊音、清音标志。 b.音高。 c.总体振幅水平。 d.反射系数。 其中,前3个参量关于激励源,第4个参量关于格型滤波器。,3.语音音素合成技术,(1)语音音素合成原理 语音音素合成(或称语音段合成)原理,有别于共振峰合成、线性预测合成。 它是基于语言发音的最小基本单位(音素)合成语音的方法。如同英语元音和辅音代码表、汉语拼音(或笔画)代码表一样,人们也将语音音素编制成一张代码表,称为“语音音素代码表”。通过对代码表中语音音素的不同组合,可合成单词或语句的发音。,3.语音音素合成技术,目前,Votrax公司的音素合成器产品占主导地位。Votrax音素合成器发音成功的编码关键主要音素之间的转换使用了特殊的音素(不同持续间隔的等效音,同素异构音,静止等)。但是,它从文字到语音的转换规则很繁琐,音素转换规则也没有公开。 Votrax语音合成原理:每句英式英语经过一系列转换,成为Votrax音素表示,最后以ASCII字符代码,送入到合成器中进行语音合成。,3.语音音素合成技术,Votrax音素代码表由如下一系列表组成,主要包括: Votrax音素及其持续时间表。 Votrax音素的持续时间分级表。 Votrax音素的音高分级表。 Votrax音素的连接规则表。 Votrax音素分类表。 Votrax音素卡(表)。 相同国际音标的不同音素代码表。,3.语音音素合成技术,(2)语音音素合成器 目前,已出现不同型号的语音音素合成器和语音音素合成芯片。 Votrax公司的音素合成器产品占主导地位,其代表性的产品有: VS-K价格低廉的语音音素合成器,主要适用于计算机业余爱好者。 VS-6在VS-K基础上,加入4级音高控制,合成的语音质量有所提高。 Votrax ML-I型音素合成器。每个音素加入8级音高控制和4种持续时间,合成的语音质量进一步提高。 Votrax SC-01单片语音音素合成器。这是一种采用模拟开关电容滤波技术的LSI芯片。它可由输入的音素合成语音。利用这种芯片,已开发出实用的产品。,3.语音音素合成技术,(3)汉语的音素合成 汉语语音中,声母21
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市合伙人协议Ucar6篇
- 2025年智能家居行业智能家居技术应用前景分析研究报告
- 2025年汽车行业智能驾驶技术发展前景分析报告
- 2025年智能机器人行业新产品应用与市场前景研究报告
- 2025年物联网行业发展前景及创新应用研究报告
- 2025年通讯行业5G技术应用与发展前景研究报告
- 宁波市2025年浙江宁波慈溪市招引高层次和紧缺人才15名笔试历年参考题库附带答案详解
- 吉林省2025年吉林省省直事业单位招聘工作人员5号(65人)笔试历年参考题库附带答案详解
- 南宁市2025广西南宁市隆安县招聘乡镇残疾人专职委员1人笔试历年参考题库附带答案详解
- 义乌市2025浙江宁波市义乌市人力资源和社会保障局下属事业单位选调事业编制工作人笔试历年参考题库附带答案详解
- 2025年驾驶员安全培训考试试题库卷(答案+解析)
- 无人机培训课件
- 2025辽宁沈阳副食集团所属企业招聘3人考试参考题库及答案解析
- 储罐区的安全题库及答案解析
- 交大入党测试题及答案
- 培训如何开早会的课件
- 2025年河北沧州市中心医院、沧州博施康养集团公开招聘辅助岗工作人员113名考试参考试题及答案解析
- 消防员抗洪抢险知识培训课件
- 历年时事政治试题及答案
- 2025年法考真题及答案
- 摄像基础培训课件
评论
0/150
提交评论