版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SpeechsignalprocessingLecture6:语音合成1语音合成技术概述2共振峰合成技术3LPC参数合成技术4PSOLA合成5按规则合成6语音合成的未来发展方向Speechsignalprocessing1语音合成技术概述Speechsignalprocessing1语音合成技术概述语音合成定义为:通过机械的、电子的方法产生人造语音的技术。语音合成的三个层次:Intention-To-SpeechConcept-To-SpeechText-To-SpeechSpeechsignalprocessing1语音合成技术概述-TTS文本分析韵律生成语音生成Speechsignalprocessing1语音合成技术概述-合成过程查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。分析文本中词或短语的边界,标注词性、确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。分析文本中每个句子的语法结构和语义结构,确定语义中心,句子的重音模式,语调,从而为韵律处理提供必要信息。对音系层的韵律事件预测:声调、语调、轻重、节律等对声学层的韵律参数预测Speechsignalprocessing1语音合成技术概述建立韵律模型的两种方法基于模型的方法基于规则的方法Speechsignalprocessing1语音合成技术概述
语音生成方法主要目的:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成符合要求的语音。主要方法:(1)共振峰合成(2)LPC(线性预测编码)参数合成(3)PSOLA(基音同步叠加)合成Speechsignalprocessing2共振峰合成技术原理 音色各异的语音具有不同的共振峰模式,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。Speechsignalprocessing2共振峰合成技术模型 级联型、并联型、混合型。优点 对音高、音长、音强等目标值可以通过设置激励和谐振器参数等来实现,调整起来较容易。缺点 由于对声道的模拟不精确影响了合成的自然度;控制参数过多,导致实现困难。激励源分为浊音和清音。Speechsignalprocessing2共振峰合成技术混合型共振峰模型Speechsignalprocessing3LPC参数合成技术原理一个语音的采样能够用过去若干个语音采样的线性组合来逼近。形式利用预测系数ai直接构成的递归型合成滤波器;利用反射系数ki构成格型合成滤波器。Speechsignalprocessing3LPC参数合成技术
LPC合成模型中的所有控制参数都必须随时间不断地修正。
(1)对于清音语音段,可以简单地针对每一帧数据改变一次参数。
(2)对于浊音语音段,根据控制参数改变时刻的选取不同,有基音同步合成和帧同步合成两种方式。
(3)分析帧的长度固定,一般选择大于两个基音周期,因此为了得到每个基音周期起始处的控制参数,就必须进行内插。优点简单、易于实现。缺点合成语音样本需要很高的计算精度Speechsignalprocessing4PSOLA基础-时间尺度的调整(TSM)
如何将一段声音变慢或者变快?Speechsignalprocessing
变慢一倍后的语谱图被拉长4PSOLA基础-时间尺度的调整(TSM)Speechsignalprocessing
问题Problem:如何保证局部的时间结构,而使整体的时间长度发生变化?解决方法
Solution将小段反复重复4PSOLA基础-时间尺度的调整(TSM)Speechsignalprocessing4PSOLA基础-时间尺度的调整(TSM)Speechsignalprocessing
允许在叠加过程中有一定的误差4PSOLA基础-时间尺度的调整(TSM)Speechsignalprocessing
通过交叉相关方法确定4PSOLA基础-时间尺度的调整(TSM)Speechsignalprocessing4PSOLA合成技术原理对原始波形进行分析,进行基音标注。(2)对这些短时信号做必要的修正,形成一系列短时合成信号。首先根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求,建立合成波形与原始波形之间基音周期的映射关系;再由此映射关系确定合成所需的短时合成信号系列。(3)将合成短时信号系列与目标基音周期同步排列并重叠相加得到合成波形。Speechsignalprocessing为原始语音段加基音标注是算法执行的基础。
浊音有基音周期,能够进行有效地标注。对于清音,为了保持算法的一致性,一般标注为一个适当的常数。需要按基音周期分别修改音长、基频及合成信号的幅值。
4PSOLA合成技术Speechsignalprocessing4PSOLA合成技术对于音长的修改,就是找到分析信号的基音同步标注点与最后合成信号的基音同步标注点之间的对应关系,一般它们呈现一种线性关系,下图给出了音长缩短时的基音标注情况。Speechsignalprocessing4PSOLA合成技术进行基频和音长的调整Speechsignalprocessing4PSOLA合成技术Speechsignalprocessing4PSOLA合成技术Speechsignalprocessing4PSOLA合成技术Speechsignalprocessing4PSOLA合成技术
基于拼接合成算法中需要解决的问题声学基元的选择韵律修饰Speechsignalprocessing5按规则合成
选择更小的合成基元,加入庞大的规则库将其合成为词语或句子的合成方式,更侧重于各种合成规则的研究,因此称其为按规则合成。对汉语,基元一般应选声母和韵母。韵律规则也叫“超音段特征”,反映了语音在基频、共振峰、能量以及谱分布特性上的差异。
主要包括声调、语调、重音等。Speechsignalprocessing5按规则合成
(a)重音规则指说话或朗读时读的比较重的音节或词语,要时间长一点、音程大一点。一般可以将汉语重音分为词重音和句重音两大类。(b)转接与音渡转接与音渡是音素序列转变成语音流时的动态变化规律。汉语发音中存在两种基本的过渡,即辅音与元音组合和元音与元音组合。前者称之为“转接”;后者称之为“音渡”。Speechsignalprocessing5按规则合成
(c)声调与变调在连续的语流中,由于相邻音节之间的相互影响,各音节的基音频率时变曲线与孤立发音时的音节相比会发生较大的变异。(d)音长问题音长也是语音的重要特征之一,对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上。Speechsignalprocessing6合成音质的评价主观评价可懂度(清晰度)正确听辨被传送的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第二节 世界的海陆分布教学设计初中地理湘教版七年级上册-湘教版2012
- 文档管理流程标准化工具箱
- 2025-2026学年苏教版认识比教案
- 18.2.1矩形的性质第1课时教学设计 人教版数学八年级下册
- 企业数据安全管理方案制定与执行工具
- 公共设施运营服务保障承诺书8篇范文
- 高端产品质量追溯承诺函5篇
- 行业业务需求调研报告模板
- 数据分析员数据处理与分析指导书
- 精神文明建设成果共惠承诺书范文7篇
- 外墙吊篮专项方案
- 艺人的包装推广方案
- 《人员定位系统》课件
- 增列硕士专业学位授权点专家评议意见表
- 土建生态环保和绿色施工环境管理培训ppt
- 施工组织设计(老旧小区改造及配套设施)
- 建设工程第三方质量安全巡查标准
- JJF 2020-2022加油站油气回收系统检测技术规范
- GB/T 28292-2012钢铁工业含铁尘泥回收及利用技术规范
- 货币金融学第2章信用与信用工具
- 环境微生物学第六节微生物营养
评论
0/150
提交评论