第七章 分析综合编码_第1页
第七章 分析综合编码_第2页
第七章 分析综合编码_第3页
第七章 分析综合编码_第4页
第七章 分析综合编码_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 分析分析综合编码综合编码不是传送信号样本的直接表示,而是告诉解码器如何产生信号输出 信源产生模型:信源产生过程用一个数学模型表示信源,该模型取决于一些参数 编码器根据输入信号计算模型参数,然后对模型参数进行编码:分析 解码器接收到模型参数,在利用数学模型重建原始数据:合成 码率低以语音编码为例人类的发音器官人类的发音器官人的发音器官由三个部分组成: (1) 肺和气管产生气源; (2) 喉和声带称为声门; (3) 由咽腔、口腔、鼻腔组成的声道声带声道舌头嘴唇鼻腔通道肺当肺部中的受压空气沿着声道通过声门发出时就产生了话音。但声音是从声道(从声带延展到嘴,成人平均声道长度为17m)中产生的,声音的

2、基音由声道的形状变化(主要通过移动舌头)和移动嘴唇控制。强度(响度)通过改变从肺部发出的气体的量改变。人的声音变化很慢,肺的操作很慢,声道的形状变化很慢,所以语音的基音和强度变化也很慢。表现在相邻样本间很相似,即使是帧(20ms)也是强相关的。这种相关性正是语音压缩的基础。语音产生的物理过程语音产生的物理过程激励源:来自肺部的空气流经过声带 如果声带是紧绷的,则声带将产生张弛震动,即声带将周期性的开启和闭合。声带开启时,空气流从声门喷射出,形成一个脉冲;声带闭合时就是相应脉冲的间歇期。这种情况下在声门处产生一个准周期性脉冲系列的空气流, 最终产生“浊音”语音 如果声带是完全舒展开来,则肺部的空

3、气流将不受影响的通过声门。空气流通过声门后,如果声道的某个部位产生收缩而形成一个狭窄的通道,当空气流到达此处时被迫高速通过收缩区,并在附近产生空气的湍流,这种湍流通过声道后便形成“摩擦音”如果声道的某个部位完全闭合在一起,当空气流到达此处并建立空气压力,一旦闭合点突然开启就会使空气流快速释放,经过声道后就产生“爆破音”语音产生的物理过程语音产生的物理过程当声音由三种激励方式产生后,便顺着声道进行传播声道:具有某种谐振特性的腔体,腔体的一组谐振点称为共振峰 类似滤波器,对输入信号进行调制 这些共振峰的位置以及各个峰的宽度决定了声道的频谱特性,共振峰及带宽取决于声道的形状和尺寸语音信号的时域冗余度

4、语音信号的时域冗余度幅度非均匀分布 小幅度样本出现的频率高样本之间的相关性 当取样频率为8KHz时,相邻样本间的相关系数大于0.85;周期之间的相关性 在特定瞬间,某段声音往往只是总频带3003400Hz的少数几个频率分量在起作用象某些振荡波一些,在周期与周期之间存在一定的相关性基音之间的相关性 男声基音周期为520ms,而典型的浊音持续100ms静止系数(话音间隙) 全双工话路的典型效率约为40%(静止系数为0.6)长期相关性(long term correlation) 如几十秒内的相关性语音信号的频域冗余度语音信号的频域冗余度从频域考察语音信号的功率谱密度:非均匀的长时间功率谱密度 长时

5、间功率谱呈现强烈的非平坦性,高频能量较低时域上相邻样本相关语音特有的短时功率谱密度 语音的短时功率谱,在某些频率出现峰值(该频率称为共振峰频率),在另外一些频率上出现谷值。 出现共振峰的频率不止一个,最主要的是前两个,决定了不同的语音特征 整个谱也随频率增加而递减 功率谱的细节以基音频率为基础,形成高次谐波结构另外,人的声道形状及其变化规律是有限的按一定的时间段(帧)来计算声道滤波器的参数或语音谱包络语音信号的短时功率谱语音信号的短时功率谱浊音清音语音信号产生的数字模型语音信号产生的数字模型激励模型: 浊音:周期脉冲信号 清音:随机噪声声道模型:M阶全极点滤波器/AR模型 线性预测 11, 1

6、MMinin iniiiya yH za z清/浊转换声道模拟滤波器基音周期脉冲序列发生器随机噪声发生器输出语音s(n)LPC系数增益x(n)u(n)分析分析综合编码综合编码编码器:将语音信号分片/帧,对每帧进行分析 激励信号参数 声道滤波器参数解码器:根据模型和收到的参数合成语音出现过很多不同的分析综合语音压缩方法 线性预测声码器器(Linear predictive Coder, LPC) 码激励线性预测(Code excited linear prediction, CELP) 正弦声码器 混合激励线性预测(mixed excitation linear prediction, MELP

7、)线性预测声码器线性预测声码器(LPC)激励:二元激励源 浊音:基音周期脉冲 清音:随机噪声声道:线性滤波器1Mnin iniya yGG脉冲序列随机噪声声道滤波器V/U合成语音信号能量基音周期参数:浊音/清音标记 基音周期 信号能量LPC-10声码器声码器M=10: LPC-10 美国国家标准输入语音:8000样本/秒180样本/帧 (22.5ms) 语音信号在1030ms 内具有短时平稳的特点输出带宽: 2.4 kbps 54 比特比特/帧帧 44.44 帧帧/秒秒 (22.5ms)浊音浊音/清音检测清音检测浊音: 振值大 能量高清音: 频率高 过零率高050100150200清 音 语音

8、浊 音 语音振 幅时 间 (样 点) 浊音浊音/清音检测清音检测(2)LPC-10中,输入信号通过1kHz低通滤波器 低带能量 过零率 AMDF函数的最大值和最小值之比最后对基音值、清、浊音判决结果用动态规划算法,在三帧范围内进行平滑和误差范围校正,得出前一帧的基音周期、清、浊音判决结果,共4种状态: 稳定的清音 清音向浊音转换 浊音向清音转换 稳定的浊音基音周期基音周期浊音信号为准周期信号:相隔周期T的两个样本之间很接近:长时相关性一种方式:计算样本直接的自相关函数 当k为基音周期时 最大 可以平滑噪声 浊音语音并不是严格周期的,只能以阈值方法找到最大值,但受噪声和声道回声的干扰,很难选择合

9、适的阈值 yyRk yyRk001( )nNyynn knn kn nkRkE y yy y 基音周期基音周期(2)LPC-10中采用的方法自相关函数法密切相关:平均振幅差值函数(average magnitude difference function, AMDF)如果 为周期为 的序列,相隔 个样本应该很接近,因此AMDF函数在 处会有一个最小值通过利用人的基音周期在2.519.5ms内,可简化AMDF的计算 采样率为8000样本/秒,则P = 201600011( )kNii Pm kAMDF PyyN ny0P0P0P基音周期基音周期(3)AMDF还可以用于识别浊音/清音浊音的AMDF

10、函数清音的AMDF函数声道滤波器参数声道滤波器参数声道:线性滤波器参数 求解方法 自相关系数方法假设在帧内为平稳信号通常加平滑过渡窗口,如Hamming窗 协方差方法 格型方法1Mnin iniya yG ia声道参数声道参数(2) ,通过最小化预测误差 的期望,得到声道滤波器系数1Mnin iniya yG ia221Mnnin inieya yG21111020 Mnin inijMnin inniMnnjin injiEya yGaEya yGyE y yaE yy 声道参数声道参数(3)假设信号在一帧内是平稳的,则(0)(1)(1)(1)(0)(2)(1)(2)(0)yyyyyyyyy

11、yyyyyyyyyRRRNRRRNRRMRMR1(1), ()yyMyyaRAPaRM.1PRAPRAR R为Toeplitz矩阵: 对称 对角线和副对角线上的元素相等 yyn injyyRkE yyRij=1 Mnnjin injiE y yaE yy声道参数声道参数(4)R为Toeplitz矩阵,可用Levinson-Durbin算法求解: 01(1)11( )( )(1)(1)211. 0 , 0;2. 1;3. 1;4. ;5. , 1,2,.,1;6. 1;7. , 2yyiiijyyyyijiiiiijjiijiiiiERiiikaRijRiEaaak afor iiEkEif i

12、Mk 令计算令计算计算转第 步。偏相关(partial correlation, parcorarcor )系数声道参数声道参数(5)LP系数 的动态范围大,不宜用较少的比特来量化 对微小变动较为敏感,一个系数的微小误差就可能会严重影响整段语音频谱包络的形状,甚至会使LP 滤波器工作不稳定因此偏相关系数 代替 亦称为反射系数(Reflection Coefficient, RC) 反射系数稳定的条件: 这在量化过程中容易满足 parcor系数还可用于浊音/清音判断浊音的前两个系数值接近1,而清音的头两个系数值很小 ia ik1ik 声道参数声道参数(6)如果不假设帧内信号平稳,定义协方差得到等

13、式 ,其中其中cij可以估计为: 可通过Cholesky分解实现 LPC-10采用协方差方法计算parcor系数1 Mnnjin injiE y yaE yyijn injcE yy111211021222012, MMMMMMMcccccccSccccCASC001nNijn injn ncyy1AS C信号能量信号能量/增益增益增益G通过计算帧内信号的均方根(root mean squared, RMS)得到其中N为帧的长度21NnnyRMSN参数量化与编码参数量化与编码基音周期:log-压扩量化 量化为60个值60个基音值用hamming权重为3或4的7比特gray码进行编码 清音帧用7

14、比特全零矢量表示 过渡帧用7比特全1矢量表示 其余基音值用hamming权重3或4的7比特矢量表示参数量化与编码参数量化与编码(2)滤波器参数 浊音:M=10 清音:M=4 当 时,声道滤波器对反射系数的误差很敏感当i=1, 2时,ki很有可能接近1,此时采用非均匀量化其中Ai、Ai+1正好是声管第i节和第i+1节的面积,因此称为对数面积比变换的结果是使得对数面积比系数gi具有相当均匀的幅度分布,而且参数之间的相关性很低,有利于参数的量化和传输1ik 11log()log()1iiiiikAgkA参数量化与编码参数量化与编码(3)增益RMS参数: 5比特log-压扩量化 对数值在2到512之间

15、的RMS值用步长为0.773dB的对数码表进行编码参数量化与编码参数量化与编码(4)信号能量 (增益)清音过渡音浊音基音周期声道滤波器参数同步码LPC-10存在的问题存在的问题语音的自然度较差: 采用过于简单的二元激励,使合成的语音听起来不自然。在实际的语音余量信号中,相当一部分既非周期脉冲又非随机噪声非周期能量没有得到恢复,主观听觉上会感觉合成语音有明显的“嗡嗡”声如果浊音用噪声信号激励,听起来会觉得沙哑鲁棒性差: 在有噪声的情况下,不易准确提取基音周期和不能正确判决清浊音。当背景噪声比较强时,系统性能显著恶化 不能有效对抗传输信号中误码的破坏作用LPC-10的改善的改善主要改善以下方面:激

16、励源基音提取方法声道滤波器参数量化方法线谱对(Line Spectrum Pair, LPS )多脉冲线性预测编码多脉冲线性预测编码(MP-LPC)多脉冲线性预测编码(multipluse linear predictive coding, MP-LPC): 对清音/浊音,用有限个脉冲经过最优估值后作为激励信号源 脉冲的间隔根据不同码本的模式决定分析过程:混合编码 对每帧原始语音先用LP分析方法计算LP系数,然后对当前帧的子帧用合成分析法估计一次激励脉冲 将激励脉冲输入到合成器中,得到合成语音 将合成语音与原始语音相减,得到误差信号并输入到感觉加权滤波器,得到加权误差信号 根据最小加权均方误差

17、准则,分析出一组位置、幅度最佳的激励脉冲,然后最佳激励索引与LP系数一起编码送入信道多脉冲线性预测编、解码器多脉冲线性预测编、解码器激励发生器LPC综合滤波器多脉冲信息输出合成语音线性预测系数激励发生器线性预测综合滤波器合成器均方误差最小估值感觉加权滤波LP分析传送至信道的多脉冲信息原始语音信号+-编码器解码器多脉冲线性预测编码的变种多脉冲线性预测编码的变种码激励线性预测编码(Code-Excited Linear Prediction, CELP): 矢量量化码书中的码字作为激励源 对每帧,计算最佳匹配的激励矢量 美国联邦标准FS1016 G.728标准规则脉冲激励线性预测(RPE-LPC)

18、 激励码字中,非零值规则出现 规则脉冲激励 非零值可为多个不同的值 RPE- LTC(长时间预测):GSM标准,13kbps码激励线性预测编码码激励线性预测编码(Code-Excited Linear Prediction, CELP)CELP:矢量量化 + 线性预测 码书中每个码矢量代替余量信号作为可能的激励信号源 在编码时对码书中的码矢量逐个搜索,找到与输入语音误差最小的合成语音的激励码矢量,将这个码矢量的索引传送给接收端 在接收端用存储的同样码书,根据收到的码本索引恢复出相应的码矢量作为激励 4.816kb/s范围内可以得到质量相当高的合成语音,并且抗噪声和多次转接性能也比较好然而当速率

19、进一步降低时,由于没有足够的比特表示激励矢量,余量的量化将产生较大的误差,致使合成语音质量迅速下降CELP声码器声码器码书: 自适应码书:逼近语音的长时周期性(基音)结构 固定的随机码书:语音的经过短时、长时预测后的余量信号从两个码本中搜索出来的最佳码矢量,乘以各自的最佳增益后相加,其和就是CELP激励信号源将激励信号经过M阶LP综合滤波器,得到合成语音信号合成语音信号与原始语音信号的误差经过感觉加权滤波器,得到感觉加权误差e(n)。CELP用感觉加权的最小平方预测误差作为搜索最佳码矢量及其幅度的度量准则,使得感觉加权误差平方最小的码矢量就是最佳码矢量。CELP声码器声码器索引a增益a0255

20、子帧延迟自适应码本索引s随机码本0511增益s线性预测滤波器线谱参数语音信号更新用一个自适应码本中的码字来逼近语音的长时周期性(基音)结构。用一个固定的随机码本中的码字来逼近语音的经过短时、长时预测后的余量信号。计算速度的提高计算速度的提高m自适应码本和随机码本的搜索过程在本质上是一致的,不同之处在于码本结构和目标矢量的差别m为了减少计算复杂性,自适应码本和随机码本的搜索分为两级顺序进行:m第一级自适应码本搜索的目标矢量是加权LP余量信号m第二级随机码本搜索的目标矢量是第一级搜索的目标码本减去自适应码本搜索得到的最佳码矢量激励综合加权滤波取得结果mCELP编码器的计算量主要是对码本中最佳码矢量

21、及幅度的搜索FS 1016CELP编码中基于合成分析的搜索过程、感觉加权矢量量化和线性预测技术FS 1016采用的CELP声码器中的声道滤波器: 其中P为基音周期, 为基音周期的贡献CELP采取分帧技术进行编码,帧长30ms:240个样本每帧分为4个子帧,对每个子帧,搜索最佳码矢量 基音周期计算:当前子帧的基音周期在前一个子帧周期的32个样本内 两个码书:自适应码本和随机码书随机码书:512个码字,通过高斯随机数产生,被量化为-1, 0, 1,量化边界为1.2自适应码书:包含以前帧的码字,每产生一个新的码字,被增加到码书中 码书与局部统计相适应101nin in Pniyb yyGn PyG.

22、728语音编码标准语音编码标准G.728:短延时码本激励线性预测编码 (LD-CELP) 短延时:2ms,(5个样本/帧 0.625 ms) 输出码率:16kbps 2比特/样本 10比特/帧 语音质量优于32kbps的 G.726 ADPCM算法G.728语音编码标准语音编码标准(2)声道滤波器参数:后向自适应 每4帧更新一次 10比特/帧可全用于编码激励 后向自适应 编码器复杂噪声环境:放弃提取基音周期,改用50阶的声道滤波器 足够对女性的基音周期建模 不能利用男性的基音周期信息并没有严重降低性能激励源:10比特 3比特:增益 7比特:码字索引 码书更小,码字搜索复杂度低G.728语音编码

23、标准语音编码标准(3)正弦声码器正弦声码器(Sinusoidal Coder)激励信号:一组时变正弦波之和 正弦波的幅值、频率和相位都随一定的时间(帧长)变化 合成语音时帧间需平滑 为了节约码率,采用调和分析声道滤波器:线性系统1cosLnllllean01cosKnkkkeank正弦变换编码正弦变换编码(STC)在分析端,输入信号通过快速Fourier变换(FFT)进行谱分析 由于浊音信号的功率谱具有谐振结构,而清音信号的功率谱具有随机分布的峰值,利用峰值检测算法可确定峰值点的频率以及幅度和相位,对这些参数进行编码传给解码端在解码端把这些参数作为正弦波的参数来合成语音在实际的低码率编码中,为

24、了提高编码效率,往往只对谱包络、幅值符号,基音频率和浊音概率频率进行编码 谱包络:谱峰的绝对幅值 浊音概率频率将语音谱分成两部分:低频段:浊音高频段:清音混合激励线性预测混合激励线性预测(mixed excitation linear predication, MELP)采用更复杂的方式产生激励:多带混合激励 语音分为清音、浊音和抖动浊音三种状态浊音:周期脉冲+白噪声抖动浊音:非周期脉冲+白噪声2.4kbs的MELP编码方法已经被确定为美国新的联邦语音编码标准 编码速率为2.4kbps,帧长为2.5ms, 每帧数据用54bit进行编码 在低码率下的合成语音的自然度大大提高,主观语音质量接近美国

25、联邦4800bps的CELPMELP声码器声码器MELPMELP算法是以LPC参数模型为基础的,但新增五大特点: 分带混合激励 使用非周期脉冲 自适应谱增强技术 脉冲离散滤波 Fourier幅度模型分带混合激励分带混合激励04kHz的语音频带分成5个固定的子带:频域上对激励信号的划分更精细 合成的激励更准确 小于500Hz 5001000Hz 10002000Hz 20003000Hz 30004000Hz对于每一个非清音帧(包括浊音和抖动浊音帧),分别计算每个子带的清/浊音混合比例(话音强度) 本子带内脉冲激励源和噪声激励源的权值减少LPC声码器中的常有的蜂鸣声,对宽带声源改进的效果更为明显

26、低频部分对语音的影响更大,并便于基音提取 对低频段的划分更细一些非周期脉冲非周期脉冲语音分为3种状态:清音、浊音和抖动浊音 浊音:周期脉冲 抖动浊音:非周期脉冲 更好地合成介于清、浊音之间的过渡帧和某些周期性不强的浊音帧非周期标志:表示是否采用非周期脉冲的激励信号 对抖动浊音,解码端产生不稳定的声门脉冲,使过渡音更加自然而不引入其他声调 实现:在0.75倍基音和1.25倍基音范围内随机抖动来减少一种类似电流声的单音噪声,尤其是在对基音较高的女性讲话者和有噪声时非常有效自适应谱增强自适应谱增强LPC全极点的模型削弱了共振峰的特征 合成话音在基音周期点间的幅度值更小 自适应谱增强: 合成语音与原始

27、语音在共振区更好匹配实现:激励信号经自适应谱增强滤波器 零/极点滤波器:由一个全极点的滤波器(对第一阶有平坦补偿)和一个全零点的滤波器(阶数等于线性预测阶数)级联组成 突出激励谱中共振峰频率处的谱幅度,提高整个短时谱在共振峰处的信噪比 原理比较简单,算法复杂度不高,对编码端没有传输额外比特的要求,加强低速率语音编码质量脉冲离散滤波脉冲离散滤波脉冲离散滤波:让分带合成的语音与原始语音在非共振区波形上具有更好的匹配,有助于消除合成话音中的一些刺耳的噪声脉冲离散滤波:合成语音通过一个FIR滤波器 系数是通过将典型男性周期脉冲的谱强制变为平坦谱,再进行傅里叶反变换得到的 减弱某些频带处周期性的作用,降

28、低了基音周期为典型周期附近时的峰一峰值,使合成语音的蜂鸣效果降低,变得更为连贯、自然 它能让激励信号的能量散布于整个基音周期之内Fourier幅度模型幅度模型在LPC残差信号中含有大量的语音特征,因为码率原因,以往的低速率LPC算法在生成激励脉冲时,只反映了它的周期性,并没有反映它的幅度特性,因而不能很好地反映实际激励脉冲动态变化的特性MELP算法对较重要的特征一各基音周期谐波处的Fourier级数幅度值进行矢量量化 残差信号中对语音影响最大的是低频带,MELP算法对最低10阶谐波进行量化 10阶以上谐波:幅度值平坦,用单位值来代替 增加了语音产生模型的准确性,提高合成语音的自然度、清晰度和抗

29、背景噪声的能力,大大改善了LPC合成语音发闷、嘶哑和合成音重等弱点MELP编码器结构编码器结构基音周期检测基音周期检测基音周期的提取分为两个步骤:整数基音粗估,得到整数基音初值P1围绕P1进行基音细估,计算分数基音值P2整数基音周期计算整数基音周期计算对低通滤波后的信号,计算延迟 在40160个样本点的归一化自相关值 ,归一化自相关函数定义为:整数基音周期P1为最大化归一化自相关函数 的 值考虑到人的基音范围,对基音搜索的范围定在(40,160)之间 r r 2792800,0,0,kk mk nkcrcm nyycc 分数基音提取分数基音提取对-500Hz子带的输出信号,用当前帧和前一帧的整

30、数基音周期作为候选基音假设信号的真实周期与整数基音周期的偏移量为,计算的步骤是: 对两个候选基音,从前5个样点到后5个样点用归一化自相关函数在作一次整数基音搜索 然后在此优化的基音周期的基础上作分数基音提取分数基音提取分数基音提取假设优化的整数基音周期为T,为了决定最大值是落在(T,T+ 1)中,还是落在(T-1)中,需要计算出CT(0, T-1)和CT (0, T+1)如果CT (0,T- 1) CT (0 ,T+ l),则最大值落在(0,T- 1)中,此时用T-1代替T作线性内插,计算的公式:分数基音的归一化自相值为对两个候选基音分别计算出分数基音和相应的归一化自相关值,取最大的一个作为当

31、前帧的分数基音P2,相应的归一化自相关值 就是0,1,0,10,1,10,1,1,1TTTTTTTTTTcTcT TcT cT TcTcT TcT TcTcTTcT T 2210,0,10,01,2,11,1TTTTTTcTcTr TccT TcT TcTT 2r P1VbP基音周期的最终计算基音周期的最终计算最终基音周期P3的计算利用线性预测残差信号,残差信号通过一个截止频率为1kHz的滤波器 消除共振峰的影响然后在P2附近,从前5个样点到后5个样点的区间内,用自相关函数搜索整数基音周期,再用这个整数基音进行分数基音提取,候选基音P3及相应的归一化自相关值 当 ,说明基音周期的估计较精确,最

32、后用低通滤波残差信号进行基音周期倍数检测,即可得到最终的基音周期估计值。 当 ,LPC残差信号中的基音信号可能被噪声破坏,或者该帧信号不平稳,用输入信号代替LPC残差信号在P2附近进行分数基音周期的搜索,得到新的P3和 。如果新的自相关值仍然较小 ,说明该帧的基音周期存在突变。为了保持基音周期的慢时变特性,用长时平均基音周期Pavg作为最终的基音周期3r P30.6r P 30.55r P 30.6r P 分带话音分析分带话音分析对5个子带,计算每个子带的分带话音强度 用于脉冲/噪声成形滤波器 其他子带, 为 和带通信号包络相关值的较大值如果 较小,表示缺少低频结构清音/过渡音 如果 ,激励信

33、号的脉冲成分被选为非周期 如果 ,如果其他子带的话音强度大于0.6,则该子带的话音强度被量化为1;否则量化为0iVbP12VbPr P2r PiVbP1VbP10.5VbP 10.6VbP 分带话音分析分带话音分析例外: 如果 都小于0.6, ,则所有4个子带都被量化为0,包括 如果残差信号包括一些较大的值,表示输入信号中能够有突变,需要调整话音强度。定义峰值 如果 ,强制 如果 , 都置为150.6VbP 234,VbP VbP VbP5VbP16021160111601160nnnndpeakinessd1.34peakiness 11VbP 1.6peakiness 123,VbP Vb

34、P VbP残差谐波谱计算残差谐波谱计算为了产生脉冲输入,许计算前10个基音谐波的离散Fourier变换系数的幅值使用量化后的预测系数,计算残差信号残差信号长为200点,然后将信号补0至512点作FFTFFT的输出变换成Fourier级数,利用频谱峰点检测算法找到前10次谐波对应的Fourier级数输出 频谱峰点检测:设 是量化基音,给定第i个谐波的初始值为 ,峰点检测寻找以各次谐波的初始位置为中心,宽度在 个频率抽样内的最大峰值这些谐波对应的系数用一个码书为256的矢量量化,最佳码本为最小化加权欧式距离 加权:强调低频分量3P3512 P3512 P各种编码技术结果比较各种编码技术结果比较Or

35、iginal u-law encoded .wav 32 Kbps Intel/DVI ADPCM codec .wav 13.2 Kbps GSM codec .wav4.8 Kbps LPC codec .wav 2.4 Kbps LPC10 codec .wav4.5 Kbps CELP codec .wav3.0 Kbps CELP codec .wav2.3 Kbps CELP codec .wav Matlab语音分析工具语音分析工具COLEA: A Matlab Software Tool for Speech Analysis /lo

36、izou/speech/colea.htmVcDemo: The Image and Video Compression Learning Tool http:/ict.ewi.tudelft.nl/index.php?Itemid=124作业作业对测试文件: test.raw 用AMDF函数和过零率检测浊音片段、清音片段 对其中的浊音片段,用Levinson-Durbin算法计算4、6、10阶LPC滤波器的参数 采用LPC-10实现编码和解码,计算合成信号与原始信号的均方误差不用考虑对参数的量化和编码感觉加权滤波器感觉加权滤波器人耳的听觉掩蔽效应:在语音频谱中能量较高的频段的噪声相对于能量较

37、低频段的噪声不易被感知在度量原始语音与合成语音之间的误差时记入此因素,语音能量高的频段允许误差大一些,能量低的频段允许误差小一些引入频域感觉加权滤波器来计算二者的误差并使其达到最小:sfdffwfsfse02)()( )(采样频率原始语音信号的付利叶变换合成语音信号的付利叶变换感觉加权滤波器感觉加权滤波器感觉加权滤波器在Z域的表达式为:感觉加权滤波器的特性由预测系数和加权因子确定W(Z)的实际作用就是使得实际误差信号的谱不再平坦,而是有着与语音信号谱相似的包络形状。piiiipiiiZraZarZAZAZW1111)/()()(感觉加权滤波器感觉加权滤波器实际听音的结果表明,在8KHz采样频率

38、下,r取值0.8左右较为适宜如果感觉加权滤波器W(Z)和预测滤波器H(Z)级联,可以得到加权综合滤波器H(Z/r):随着r的减小,与H(Z/r)相应的各共振峰的带宽加大,也称H(Z/r)为频带扩展滤波器或者误差整形滤波器。piiiiZraZWzHrZH111)()()/( 子带编码子带编码子带编码:将原始信号由时间域/空间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行编码 利用带通滤波器(BPF)组把原始信号分割为M个子频带(简称子带) 再对各子带输出信号进行下采样以规定速率(Nyquist速率) 对采样数值进行编码引言引言不同的编码技术对表现不同特性征的信源最有效 矢量量化:信源

39、输出块表现出高聚集性质 差分编码:样本与样本之间的差值很小 标量量化:信源输出很随机但很多信源输出表现出的是多个特性的组合 很难选择一个编码机制恰好与信源输出匹配 信号分解,然后根据每个子信号表现的特性分别处理基于块变换的编码将信源输出分解为不同频率子带,然后对不同频率的子带编码 但当码率很低时,会表现出严重的块效应 可用LOT (lappd orthogonal transform)避免块效应本章讲述另外一种信号分解方式,无需强加块结构 子带编码动机动机观察 很多信源在同一时间表现出不同的特性不同模型人对不同的失真的感知敏感度不同没有一个单独的模型能满足所有的情况例:局部变换全局趋势动机动机

40、(2)提取全局趋势 在一个滑动窗口上计算样本均值 如:)(211nnnxxy yn 比xn更适合用差分编码方式为了得到xn,还需计算zn:)(21)(2111nnnnnnnnxxxxxyxz对yn和zn可以采用不同的编码方式例:例:xn: 10 14 10 12 14 8 14 12 10 8 10 12xn xn-1: 10 4 -4 2 2 -6 6 -2 -2 -2 2 2选择#1:M-水平量化 M = 2m = 12/M MaxQE = /2= 6/M选择#2:利用 yn zn yn: 10 12 12 11 13 11 11 13 11 10 9 11 yn yn-1: 10 2 0

41、 -1 2 -2 0 2 -2 -1 -1 2例例 (2)例例 (3)例例 (4)yn yn-1的动态范围为4 M-水平量化器 = 4/M MaxQE = 2/Mzn: 0 2 -2 1 1 -3 3 -1 -1 -1 1 1 动态范围 = 6 = 6/M MaxQE = 3/M至此为止 编码了2倍的数值,所以比特率也变成了2倍 失真更小:5/M 例例 (5)降低比特率 将 yn 分解成 y2n & y2n-1 将 zn分解成 z2n & z2n-1 只需传送偶数下标的子序列(或奇数下标子序列))(211222nnnxxy)(211222nnnxxz1222222nnnnnnx

42、zyxzy我们又回到了原始比特率,量化误差仍为5/M 例例 (6)在两种情况下,最后传送数值的数目相同(n)两个子序列有不同的特征 因此可以采用不同的编码机制 编码更灵活,从而编码效率更高还可以递归使用该分解方法,得到子序列 亦称为分析综合(analysis & synthesis)信号分解可利用数字滤波器实现滤波器滤波器滤波器:分离特定频率成分的系统幅值传递函数(Magnitude transfer function): 滤波器输入与输出幅值的比率,为频率的函数Ideal low-pass filter w/ cutoff of f0理想低通滤波器Realistic low-pass

43、 filter w/ cutoff of f0实际低通滤波器ripple 实际低通滤波器的截至更缓慢,且在带通区域和截至区域很产生波纹(ripple)混叠混叠(Aliasing)回忆Nyquist定理: 为了完全重构,采样频率至少为输入最高频率成分频率的2倍 否则会产生混叠:在低频成分中会有高于1/2采样频率的成分出现 失真怎样处理这种情况? 采样频率已知 可以采用一个低通滤波器去除高频成分反混叠滤波器(Anti-aliasing filter) 注意:仍然会有失真,但反混叠滤波带来的失真比混叠带来的失真更可接受一些数字滤波数字滤波当前和过去输入(和输出)的加权组合MiiniNiininybx

44、ay10滤波器系数脉冲: xn = 1 0 0 0 脉冲响应 有限 有限脉冲响应(Finite Impulse Response, FIR) 无限 无限脉冲响应(Infinite Impulse Response, IIR) 注意:bi = 0 FIR例例a0 = 1.25, a1 = 0.50001nnxn1or0, 05 . 025. 10110111000nnyxaxayxaxaynotherwise015 . 0025. 1nnhn脉冲响应 hn注意 hi ai 脉冲响应函数完全决定滤波器例例 #2yn zn 序列为2抽头(tap) FIR滤波器:otherwise015 . 005 . 0nnhnotherwise015 . 005 . 0nnhn例例 #3a0 = 1, b1 = 0.9nnyybxayybxayybxay)9 . 0(9 . 0)9 . 0(9 . 0)0( 19 . 0) 1 (9 . 0)0( 11)0(9 . 0) 1 (9 . 0(00nnhnn注意:这是一个IIR滤波器卷积卷积 & 平稳性平稳性脉冲响应函数完全规定了一个FIR & IIR滤波器:IIR)for,IIRfor( ,0MMxhyMkknkn卷积平稳性 如果一个滤波器的输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论