版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2.3语音生成模型和低通声码器;3.人类的发声系统由声带(声门)、声道和声门下组成,声门下由肺和气管组成,是语言的激发源。声门下系统产生的气流作用于声带,并在通过声道后产生声音。根据发音机制,声音信号可以分为清音和浊音。(1)语音信号的基本特征;(4)语音信号的基本特征。当声带振动产生一个准周期的空气脉冲来激励声道时,就会产生浊音。浊音具有明显的准周期性。声带振动的频率称为音高频率,周期就是音高周期。通常,音调频率在70450赫兹的范围内,相当于215毫秒的周期。基音周期是语音信号的主要特征之一。5,1,语音信号的基本特征,6,1,语音信号的基本特征,如果声道在某处收缩,迫使空气高速冲过收缩部
2、分产生湍流,那么将获得清音。当发出清晰的声音时,声带不会振动,但是由湍流建立的宽带噪声源激发声道发出声音。清音波形类似于白噪声。语音信号的基本特征语音信号的基本特征语音信号是一种不稳定的信号,其特征随时间而变化。然而,它在短时间内(约5毫秒-50毫秒)具有相对稳定的特性,这被称为准平稳信号。语音信号通常可以分为浊音、清音和混合音。浊音在时域具有准周期性,而精细频谱在频域具有周期性谐波特征,频谱包络具有共振峰结构。清音类似于随机噪声,其频带很宽。浊音段的信号能量高于清音段的信号能量,可以用来区分清音和浊音。10,1。语音信号的基本特征。激励源相当于基频的周期脉冲或频谱平坦的白噪声,声道相当于时变
3、线性数字滤波器。当使用周期脉冲源作为激励源时,从声道输出浊音,当使用白噪声源时,从声道输出清音。2,语音信号生成模型,12,2,语音信号生成模型,13,2,语音信号生成模型,14,语音信号s(n)的参数清音/浊音类型;基音周期TP;表示信道的时变滤波器的系数aj和滤波器阶数p;增益系数g。描述:根据语音信号的缓慢变化,上述参数的值可以每10-30毫秒左右预测一次。也就是说,参数样本的编码每10-30毫秒发送一次,而语音样本的编码不发送,因此比特率低得多。2.语音信号生成模型;15.低通声码器的工作原理;16.1.全极点数字滤波器参数阶数p的确定模型阶数p的选择应从频谱估计精度、计算和存储等方面
4、综合考虑。当p是大值时,可以获得良好的信号频谱估计,但是增加的计算和存储成本太高。语音频谱估计的主要问题是声道的共振特性。如果P值太大,信号谱的许多细节将保留在估计谱中,但是共振峰的分析效果将恶化。p阶的经验值在8和12之间。通常,使用10极点滤波器,并且该模型能够正确地描述共振峰特性和频谱的基本形状。3.低通声码器的工作原理;17.过滤系数aj。设计的滤波器系数aj使得误差e(n)在某一预定标准下最小。aj通常根据最小均方误差准则求解。在线性预测模型中,信号s(n)的估计误差e(n)为:18,3,根据最小均方误差准则,通过求解P方程得到P未知数AJ。19.第三,低通声码器的工作原理。2.基音
5、检测根据语音信号的特点,检测基音周期的方法有:利用时域特征检测;利用频域特征进行检测;利用时域和频域特征同时检测;本文仅介绍使用时域特征检测的基本原理。使用常用方法:短时自相关函数和短时平均振幅差函数AMDF。利用时域特征检测,3 .LPC声码器的工作原理,21。基于短时自相关函数的基音周期估计,22。3.LPC声码器的工作原理,sw(n)的自相关函数称为语音信号s(n)的短时自相关函数,用Rw(l)表示。如果s(n)是有声的,它的短期自相关函数Rw(l)显然是周期性的,它的周期等于s(n)的基音周期。基音周期是第一个峰值点和零点之间的距离。23,3,LPC声码器的工作原理,24,假设sw(n
6、)是一个加窗的语音信号,它的非零区域是:n=0 N-1。sw(n)的短时平均幅度差函数rw(l)定义如下:3 .低通声码器的工作原理和基于短时平均幅度差函数(AMDF)的基音周期估计;25.3.低通声码器的工作原理。如果s(n)是浊音,其AMDF也表现出明显的周期性,其周期等于s(n)的基音周期。与rw(l)不同,Rw(l)在基音周期的各种整数倍处都有波谷而不是波峰,因此需要找到最深波谷点的位置来确定基音周期。26,3,LPC声码器的工作原理,27,与AMDF方法相比,这两种基音周期估计方法计算更简单,只需要减法和幅度计算,而不需要乘法。AMDF的动态范围小,易于实现定点算法。在基音点,AMD
7、F的谷锐度比短时自相关函数的峰锐度更尖锐,估计精度更高,鲁棒性更强。但是当信号不够稳定时,这个特征就不明显了。短时自相关函数法的特点是对相位不敏感,当信号有相位失真时能很好地检测基音。LPC声码器28的工作原理。窗口长度为了更好地反映sw(n)的周期性,窗口长度n应至少大于两个基音周期,一般取10-30毫秒。为了克服共振峰干扰引起的共振峰特性的干扰,rw(l)的第一个最大峰值点或Rw(l)的第一个最深谷点将与基音周期不一致。当音调周期和共振峰周期混合在一起时,检测到的周期可以是NpNf(Np是音调周期,Nf是第一共振峰的周期)。讨论了低通声码器的工作原理。29.有两种方法可以克服上述干扰。用低
8、通滤波器(60赫兹900赫兹)过滤语音信号,以消除大多数共振峰的影响。音调频率高达约450赫兹,其一次和二次谐波可在滤波后保留。首先对语音信号进行非线性变换(如“中心削波”),然后得到rw(l)或Rw(l),可以明显提高基音估计的效果。在基音周期点,峰值点或深谷点比削波前更尖锐、更突出。3.LPC声码器30的工作原理。在中心削波中,为了保证基音周期的峰值不被削波,削波电平C1的选择非常重要。因为语音信号的电平变化很大,所以不适合选择固定的电平。通常,在语音帧的前1/3和后1/3中找到最大振幅,并选择两个值中较小的振幅。限幅电平为60%,通常设置为68。3.LPC声码器的工作原理,31。对于加窗
9、语音信号sw(n),当窗n的起始点为0时,语音信号sw(n)的短期能量用E表示,短期平均幅度用M表示,计算公式如下:3。低通声码器的工作原理;3.浊音、清音和清音的判断是基于语音信号的短期能量。32,并且语音信号的过零率由Z表示,其表示一帧语音信号中的波形穿过水平轴(零电平)的次数。它可以通过两个相邻样本改变符号的次数来计算:3。LPC声码器的工作原理,33。浊音的m最大,Z最小。当采样率为8千赫,帧长为20毫秒时,Z的平均值约为20;清音的m(u)居中,z最高。当采样率为8千赫,帧长为20毫秒时,z的平均值约为70;无声的有最低的m和中间的z。判断当前帧是浊音、清音还是清音的依据如下:3 .
10、低通声码器的工作原理;34.低通声码器的工作原理;S、U、V条件下短时平均振幅M和短时过零率Z的条件概率密度函数示意图;35.第四,LPC10声码器;综述:低通声码器1的工作。LPC10声码器概述LPC-10声码器采用10阶线性预测分析滤波器,其编码速率为2.4kb/s,1981年被美国作为联邦标准FS-1015用于窄带安全通信。其语音质量清晰易懂,但抗噪能力和自然度仍显不足。4.LPC10声码器,37。LPC10声码器,2。LPC10编码器,38。LPC-10编码器的特点是:(1)采样率为8千赫,每个样本量化为12位,得到数字化语音,每180个样本分成一帧(22.5毫秒),以帧为处理单元。4
11、.LPC10声码器,预加重的目的是增强语音频谱中的高频共振峰,使语音的短时频谱和线性预测分析中的剩余频谱更加平坦,从而提高频谱参数估计的准确性。(2)预加重在提取信道参数之前,执行预加重(高频提升)。预加重滤波器的传递函数Hpw(z)为:39,传递函数Hpw(z)的幅频和相频特性为:4。LPCP=10声码器,40,(3)信道滤波器参数RC在这种编码方案中,协方差方法用于计算预测系数AI,I。预测系数不适合直接量化,因为它的微小变化将导致LP综合滤波器的极点位置发生很大变化,这可能导致滤波器的不稳定。为了确保滤波器的稳定性,需要高量化精度(每个系数需要810位)。LPC10声码器、LPC10声码
12、器和lpc10声码器。为了减少量化比特的数量,使用在数学上完全等价的p个反射系数ki,I=1,p来代替预测系数进行量化编码。滤波器稳定条件是参数ki满足以下公式:这在量化中易于保证。利用列文森-杜宾算法可以得到偏相关系数,理论上偏相关系数和RC是相反的。42,(4)增益均方根增益均方根由以下公式计算:S1是预加重数字语音信号样本,n是分析帧长度。对于有声帧,分析帧长度是130个样本内音调周期的整数倍;对于无声帧,分析帧长度为130个样本,以整个帧的中点为中心,长度为22.5毫秒4。LPC10声码器,43。清晰/浊音语音判决基于三个因素:低频带能量、AMDF函数的最大值与最小值之比和过零率。最后
13、,利用动态规划算法在三帧内对基音值和清音语音判断结果进行平滑和纠错,从而给出当前帧的基音周期和清音语音判断参数。(5)基音周期提取和浊音/清音检测基于短期平均幅度差函数(AMDF)提取基音周期。LPC10反射系数RC、增益RMS、基音周期、U/V判决标志和同步信号被编码成每帧54比特,帧长为22.5毫秒,因此编码速率为2.4千比特/秒.每个比特的分配如下:4 .LPC10声码器,45。LPC10声码器,46。LPC10声码器,3。LPC10解码器,47。LPC-10声码器的缺点是:(1)由于二进制激励过于简化,合成语音的自然度较低;(2)鲁棒性差。(3)LPC-10的语音频谱共振峰位置和带宽估
14、计有时会产生很大的失真,影响语音质量。当浊音语音的基音频率接近频谱包络中的第一个共振峰时,LPC频谱估计在共振峰的位置处具有非常尖锐的峰值(估计失真),这导致合成语音中的峰值或更大的毛刺,这影响语音质量。4.LPC10声码器,48,使用混合激励代替简单的二进制激励,提高了合成语音的质量。激励脉冲加抖动:将每个基音周期的长度乘以一个均匀分布在0.751.25之间的随机数,以提高语音的自然度。LPC-10e声码器LPC-10e声码器针对LPC-10声码器的缺点,采用了一种改进的算法,并与美国第三代保密电话使用的LPC-10声码器兼容。(4) LPC10声码器,(1)激励源的改进,(2)基音提取方法
15、的改进LPC-10采用AMDF提取基音,其特点是不需要乘法,计算量小。在LPC-10e中,采用了LPC残差信号或语音信号的短时自相关函数,并利用动态规划的平滑算法更准确地提取基音周期。4。LPC10声码器,50。(3)通过信道滤波器参数量化的改进的线谱频率(LSF),或线谱对,是数学上等价于线性预测系数ai(i=1,P)和反射系数ki(i=1,P)的另一种表示。LSF参数集i(i=1,P)都在单位圆上,它们描述了频域中的全极点滤波器H(Z)。LSF在数学上有很好的数量特征。4,LPC10声码器,51,4,LPC10声码器,在获得LSF参数和量化的过程中,如果保持LSF参数的有序和有界性质,即:则可以保证全极点滤波器H(Z)的稳定性。LSF参数序有界性,52,LSF误差相对独立。某一频率点的LSF偏差只影响该频率附近的语音频谱,而对其他LSF频率的语音频谱影响不大,这有利于LSF的参数量化和插值。4。LPC10声码器,53。LSF参数的量化在标量量化中,通过设计LSF参数的最佳非均匀标量量化器,可以用更少的量化比特实现更高的量化精度。例如,对于10个LSF参数,根据每个参数的功能,分配的量化位数是:3、4、4、4、3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤气化备配煤工创新实践强化考核试卷含答案
- 汽车回收拆解工岗前常识考核试卷含答案
- 软下疳阿奇霉素单剂治疗
- 海上平台水手岗前理论技能考核试卷含答案
- 废旧电池及电池系统处置员诚信品质测试考核试卷含答案
- 真空电子器件装配工风险评估竞赛考核试卷含答案
- 继电保护员诚信品质水平考核试卷含答案
- 弹簧制作工岗前安全规程考核试卷含答案
- 高炉运转工班组建设强化考核试卷含答案
- 保温材料原料工岗前安全文明考核试卷含答案
- 经皮脊柱内镜术后护理
- 中考历史100个常考知识点
- 疫苗生产企业数据接入技术规范
- 2023年宁夏中考道德与法治真题
- 2021年《安全生产法》修正前后对照表
- 糖画知识课件
- 干部履历表电子版
- 萤火虫专场活动方案
- 浙江道教学院总体课程设置表
- 歌唱艺术与训练新
- 4MWh储能系统技术方案
评论
0/150
提交评论