




已阅读5页,还剩72页未读, 继续免费阅读
(通信与信息系统专业论文)低速率语音编码melp算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子科技大学硕士论文 中文摘要 摘要 现代通信网络存在带宽和系统容量、传输的有效性和可靠性的 矛盾,虽然随着光纤等宽带信道的使用使带宽问题不成为主要的问 题,但光纤信道实际上还只是在骨干网上得到应用,在接入网上和 支线上带宽还是主要的问题,并且无线通信在今后将得到更加广泛 的使用,但无线信道的信道带宽始终是一个突出的问题,因此对低 速率语音压缩编码技术甚至是超低速率的语音压缩编码技术的研究 是非常有必要的,低速率语音压缩编码技术在今后仍然有广泛的应 用前景。而m e l p 语音压缩编码算法是在线性预测编码参数模型的 基础上,采用混合激励的形式,并且结合了多带的思想,因此它拥 有线性预测编码和多带激励的优点,是目前低速黼音编码中一种 、 比较理想的编码方案,也是本文研究的重点。, 本论文通过研究m e l p 的语音编解码算法的原理,对它的编解 码过程作了比较深入的研究,对其中的一些公式进行了理论推导, 并作了仿真分析,最后研究了该算法的c 语言实现。本论文第一章 简要叙述了语音编解码技术发展状况、评价语音编码性能的方法和 本文的组织结构;第二章简要介绍了m e l p 语音压缩编码算法的概 况和m e l p 算法新增的五大特点;第三章和第四章详细介绍了m e l p 算法的编码过程;第五章详细介绍了m e l p 算法的解码过程;第六 章对m e l p 算法的c 语言实现方法作了介绍。经研究发现,m e l p 算法确实是一个比较优秀的低速率语音压缩编码算法,在今后的实 际应用中会有很大的价值。 关键词:m e l p混合激励线性预测 m s v q 一 i 一一 + 电子科技大学硕士论文英文摘要 a b s t r a c t i nc o m m u n i c a t o nt h eb a n d w i d t hi sa ni m p o r t a n tp r o b l e mt h a tw e s h o u l dc o n s i d e r ,s p e c i a l l yi nw i r e l e s sc o m m u n i c a t i o n i nf a c tt h ef i b e r is m a i n l yu s e di nb a c k b o n en e t w o r k s ,s o i ti se s s e n t i a lt o d e v e l o pt h e l o wr a t i n gc o d i n gt e c h n o l o g yo fv o i c e t h ea r i t h m e t i co fm e l pi sb a s e d o nt h em o d e io fl p ca n du s et h ef o r mo fm i x e de x c i t a t i o n b e c a u s ei t i n t e g r a t e st h ei d e ao fm u l t i b a n d ,s oi th a st h em e r i to fl p ca n dm b e i t isap e r f e c tc o d i n gs c h e m ei nl o w r a t i n gv o i c ec o d i n gr e l a t i v e l y i nt h i sp a p e r ,w em a i n l yd e v e l o pt h et h e o r yo f m e l p ,i n c l u d i n gt h e p r o c e d u r eo fc o d i n ga n dd e c o d i n g i nt h a tt i m e ,w ea l s oh a v ed o n et h e w o r ko f s i m u l a t i n ga n a l y s i s i n t h ee n dw er e s e a r c ht h em e t h o do f c o m p l e t i n gt h i s a r i t h m e t i co fcp r o g r a m m i n gl a n g u a g e i nc h a p t e ro n e w eb r i e f l yi n t r o d u c et h ed e v e l o p i n gs t a t u so ft h et e c h n o l o g yo fv o i c e c o d i n ga n dd e c o d i n g ,t h em e t h o do fa p p r a i s i n gt h ep e r f o r m a n c eo fv o i c e c o d i n ga n dt h es t r u c t u r eo ft h i sp a p e r c h a p t e rt w os h o w st h eg e n e r a l s i t u a t i o na n dt h en e wf i v ec h a r a c t e r so fm e l p w ei n t r o d u c et h ec o d i n g p r o c e d u r e i n c h a p t e rt h r e e a n df o u ra n dt h e d e c o d i n gp r o c e d u r e i n c h a p t e rf i v e c h a p t e rs i xs h o w st h ed e t a i l so fp r o g r a m m i n g k e yw o r d s : m e l pm i x e de x c i t a t i o nl i n e a rp r e d i c t i o n m s v q 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得电子科技大学或其它教育机构的学位或证书丽使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 签名: 日期:仞努;月侈日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 虢毕= 电子科技大学硕士论文 第一章绪论 第一章绪论 本章主要对语音编懈码技术的发展状况和衡量语音编码性能的 主要因素作了概述,最后介绍了论文研究的主要内容和目标。 1 1 语音编解码技术发展状况 通信的目标是尽可能用最小的系统开销、最准确可靠地传输用 户信息,现代通信网络存在带宽和系统容量、传输的有效性和可靠 性的矛盾,因此对语音进行压缩编码是提高通信容量的重要措旋。 所谓语音编码,就是将模拟语音信号通过数模转换器进行数字化采 样,再将这些采样值进行有效的压缩编码,使之成为数据流,以便 于存储和传输,与模拟语音相比较,使用语音编码技术的数字语音 传输和存储系统,具有可靠性高、抗干扰能力强、便于快速交换、 易于实现保密和性价比高等优势。目前对语音压缩编码技术的研究 主要集中在低速率语音压缩编码上,在大大节省信道带宽的同时还 保证语音质量。虽然随着大容量通信通道如光纤等宽带信道的引入, 一段时间曾认为语音压缩编码技术已没有研究的必要,但实际上, 光纤信道目前只是在骨干网上得到应用,在接入网和支线的大规模 应用仍需要一段时间,并且无线信道的信道带宽始终是一个突出的 问题,因此对低速率语音压缩编码技术的研究是非常有必要的。随 着人类对外太空的探索进一步深入,对无线通信技术的应用进一步 广泛,对低速率语音压缩编码技术甚至是超低速率的语音压缩编码 技术的研究会进一步深入的开展。 现代的语音压缩编码技术主要有三种,分别是波形编码、参数 编码和混合编码。 波形编码力图使重建的语音波形和原始语音波形尽量一致。这 电子科技大学硕士论文 第一章绪论 种压缩编码具有适应能力强、语音质量好、编码算法简单等优点, 但编码速率高。最常用的波形编码技术有“1 脉冲编码调制( p c m ) 、 自适应差分脉冲编码调制( a d p c m ) 和增量调制( a 调制) 等。 参数编码利用语音信号具有短时平稳性的特点,把语音信号分 为帧格式,在每一帧中提取它的模型参数进行传送,在接收端再通 过利用这些参数重建语音信号。这类编码器称为声码器,采用的模 型是传统的语音生成模型。用参数编码可以达到比较低的编码速率, 可做到2 4 k b p s 以下,但缺点是合成语音质量差,特别是自然度较低, 男女声有时区分不出来,其m o s 分一般在3 分以下,并且对环境噪 声比较敏感。最流行的声码器系统是线性预测声码器3 。 混合编码是将波形编码和参数编码两者结合起来,尽量保留波 形编码和参数编码两者的优点,因此很好的解决了波形编码和参数 编码的缺点,因此是近年来低速率语音压缩编码技术研究的重点。 混合编码采用的方法的共同点是先进行线性预测( l p ) 分析,去掉 语音的相关性,再用合成分析法和感知加权均方误差最小准则分析 出合适的替代残差信号的最佳激励信号源,最后对这些参数进行传 送。由于它们的激励模型和误差计算与时域波形相联系,使合成语 音具有较强的跟踪输入语音变化的能力,从而改善了合成语音的质 量和抗噪声的能力。现在以混合编码技术为基础的压缩编码方案包 括:多脉冲线性激励预测编码( m u l t i p u l s el i n e a rp r e d i c t i v ec o d i n g , m p l p c ) ,欧洲g s m 中的规则脉冲激励预测编码( r e g u l a r - p u l s e e x c i t a t i o nc o d i n g ,r p e l p c ) ,码激励线性预测编码( c o d ee x c i t e d l i n e a rc o d i n g ,c e l p ) ,多带激励语音编码( m u l t i b a n de x c i t a t i o n , m b e ) 和混合激励线性预测编码( m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n , m e l p ) 等。其中m e l p 语音压缩编码算法是在基本的l p c ( 线性预 测编码) 参数模型上,采用混合激励的形式,并且结合了多带的思 想,因此它拥有l p c 和多带激励的优点,是目前低速率语音编码中 一种比较理想的编码方案。但m e l p 也是一个比较新的语音压缩编 码算法,各国还在不断的研究之中,它也是本文要研究的内容。 电子科技大学硕士论文 第一章绪论 1 2 衡量语音编码性能的主要因素 衡量一种语音编码算法的主要指标3 1 包括编码速率、语音质量、 复杂度等。对于通信中使用的编码器,衡量指标还包括时延和误码 率等。 评价语音编码质量的方法包括客观评价和主观评价两种,对低 速率语音编码算法,主要采用主观评价。常用的主观评价方法1 有 平均意见分( m o s ) 、判断韵字测试( d r t ) 、判断满意度测量( d a m ) 等,其中最常用的是m o s 分,最大是5 分。它采用5 级评分标准, 各级可分别描述为:优、良、可接受、差、坏,通常4 0 4 5 分为高 质量数字化语音,称为网络质量;3 5 分左右为通信质量,可以满足 多数语音通信系统的需求:低于3 0 分称为合成语音质量,它一般具 有足够高的可懂度,但自然度和讲话人确认等方面就不够了。 算法的复杂度包括运算复杂度和内存要求。运算复杂度通常以 m i p s ( 每秒百万条指令) 来衡量,表示实时实现该算法需要的通用 d s p 芯片的最低运算能力。 下面表1 1 是一些语音编码算法的性能表3 6 1 : 表l 一1 一些语音编码算法的性能表 比特帧复杂编码质制定 编码方法壅 长度量时间 k b j t sm sm i p sm o s g 7 】1p c m6 4o 】2o 3 44 3】9 7 2 5 g7 28l dc e l p1 60 6 23 041 9 9 2 5 g 7 2 9c sa c e l8l o2 04 21 9 9 6 p g s mr p e l t pl32 053 71 9 8 8 f s l o lc e l p4 83 01632 1 9 8 9 6 f s l 0 1l p c2 42 2 572 31 9 8 2 m e l pm e l p242 2 53 03 2 1 9 9 6 m i p s :m i l l i o n so fl n s t r u c i o n sp e rs e c o n d ,每秒百万条指令 m o s :m e a no p i n i o ns c o r e ,平均意见得分 电子科技大学硕士论文第一章绪论 从上表可以看出,m e l p 算法的语音质量和f s l 0 】6 相当,但编码速 率却是它的一半,因此m e l p 算法在低速率语音编码算法中是非常 有潜力的一种语音压缩编码算法。 1 3 论文研究的主要内容和目标 本论文主要研究m e l p 算法的编解码原理,以19 9 8 年5 月2 8 日发布的2 4 k b p s 的m e l p 算法草案为中心。我在本论文的研究过程 中,对m e l p 算法的编解码原理进行了比较深入的研究,对其中的 一些公式进行了理论推导,用m a t l a b 进行了仿真分析,最后研究 了该语音压缩编码算法的c 语言实现。 以下是本论文的主要内容: 第一章简要叙述了语音编解码技术发展状况和评价语音编码性 能的方法,引出了本论文讨论的主题一m e l p 语音压缩编码算法,它 是本论文研究的内容。最后,对本论文的组织结构作了简要说明。 第二章简要介绍了m e l p 语音压缩编码算法的概况和m e l p 算 法新增的五大特点,也正是因为有这五大特点,使m e l p 算法在较 低速率的情况下还有比较出众的性能,成为低速率语音编码技术研 究中的姣姣者。 第三章详细介绍了m e l p 算法在编码过程中产生各种未量化参 数的计算方法。这其中包括了基音、子带清浊音的混合比例、非 周期标志、线性预测系数、残差信号、残差信号的峰值、增益等参 数的计算,为下一章对这些参数进行量化打下了基础。在这个过程 中对语音编码的一些基础知识如基音、线性预测分析等也作了简要 的介绍。 第四章详细介绍了m e l p 算法在编码过程中对第三章产生的各 种参数进行量化的方法以及差错控制方法和最后传送的比特位的内 容。参数量化包括线性预测系数、基音、增益、子带清浊音的混 合比例、非周期标志、傅里叶幅度等的量化。在这个过程中也对语 音编码的一些基础知识如标量和矢量量化方法等作了介绍。 电子科技大学硕士论文 第一章绪论 第五章详细介绍了m e l p 算法的解码过程。包括对接收到的数 据包进行解包和纠错后,采用估计背景噪声的方法减少噪声的影响, 然后通过对各种参数进行内插处理后产生混合激励信号,并对混合 激励信号进行了一系列的处理( 如自适应谱增强、脉冲离散滤波等) , 最后合成语音。 第六章主要对在m e l p 算法的研究过程中所使用的软硬件环境 和对该算法的c 语言实现所作的研究情况作了介绍,包括各种数据 结构,部分功能程序代码的说明,最后介绍了测试结果和对d s p 下 实现方法的思考。 论文的最后对m e l p 算法作了一个总结。 电子科技大学硕士论文第二章m e l p 语音压缩编码算法概况和特点 第二章m e l p 语音压缩编码算法概况和特点 本章主要介绍了m e l p 语音压缩编码算法的概况和特点,指出 了传统的l p c 语音产生模型的缺点,并介绍了m e l p 语音压缩编码 算法优点,最后分析了它新增的五大特点。 2 1m e l p 语音压缩编码算法概况 m e l p 语音压缩编码算法是在基本的l p c 参数模型上,采用混 合激励的形式,并且结合了多带的思想而产生的,因此它拥有l p c 和多带激励的优点。 传统的l p c 语音产生模型把语音分为清音和浊音,清音模型用 白噪声作为激励信号,浊音模型采用周期等于基音周期的脉冲序列 作为激励信号。实际上,由于声门张开时,除了主要的声门激励( 形 成共振峰) 外,还可能有些次要的激励,会影响共振峰结构;声 门关闭时,有时不够完全,会产生一些吸气噪声,这些都会破坏浊 音时激励气流的周期性。尤其是在清音、浊音之间过渡时,这种现 象更加明显,这是由于过渡帧往往既存在周期成分,又存在一定的 非周期成分。 19 8 8 年g r i f f i n 等提出了多带激励( m b e ) 算法把信号分成若干 个子带,然后对每个子带进行清浊音判决,用这种方法能有效地 去除合成语音中的嗡嗡声,在4 k b p s 附近能获得自然语音质量。 为了进一步降低语音速率,改善l p c 声码器的音质,m c c r e e 对混合激励模型进行了研究,并吸收了正弦模型的一些思想,提出 了m e l p 声码器算法。该算法把语音分为清音、浊音和抖动浊音三 种状态。浊音用周期脉冲加白噪声作为激励信号,而抖动浊音采用 非周期脉冲加白噪声作为合成激励信号。采用新的语音分类模型对 6 电子科技大学硕士论文第二章m e l p 语音幽塑塑蔓鲨塑堡塑鳖盛 于诸如过渡音、弱浊音等“中间”语音的处理更加准确,因而可以较 好地改善合成语音的自然度,同时,也可以减少激励信号中脉冲成分 或噪声成分过多所带来的合成噪声,使语音听起来更加清晰。 2 2 m e l p 算法新增的五大特点 m e l p 算法是以l p c 参数模型为基础的,但它新增了下面五大 特点7 “2 1 1 :分带混合激励形式、使用非周期脉冲、自适应谱增 强技术、脉冲离散滤波和傅氏幅度模型。 2 2 1 分带混合激励形式 分带的思想来源于m b e ,采用分带处理方式可以使得从频域上 对激励信号的划分更加精细,合成豹激励也就更加准确。在2 4 k b p s 的m e l p 算法中,将0 - 4 k h z 的语音频带分成5 个固定的子带,分别 是0 5 0 0 h z , 5 0 0 1 0 0 0 h z ,1 0 0 0 2 0 0 0 l h z ,2 0 0 0 - 3 0 0 0 h z , 3 0 0 0 4 0 0 0 h z 。分带滤波器由5 个带通滤波器相加锝到。由于低频部 分对语音的影响更大一些,并便于基音提取,对低频段的划分更细 一些。对于每一个非清音帧( 包括浊音和抖动浊音帧) ,在各个子带 分别计算清浊音混合比例( 话音强度) ,计算结果决定本子带内脉 冲激励源和噪声激励源在形成激励信号时的加权值。经过分带滤波 之后的脉冲激励源和噪声激励源按上述方法加权相加,得到整个频 带的激励信号。激励源的改进主要是为了减少l p c 声码器中的常有 的蜂鸣声,对宽带声源改进的效果更为明显。 2 2 2 使用非周期脉冲 采用混合激励可以减少合成语音中的蜂鸣噪声,但可能还会存 在另一种类似电流声的单音噪声,尤其是对基音较高的女性讲话者 和有噪声时比较明显。可以通过在激励信号中混入较多的低频自噪 电子科技大学硕士论文第二章m e l p 语音压缩编码算法概况和特点 声来减弱它的周期性去掉这些噪声,但这样会使合成语音听起来有 些嘈杂。在m e l p 算法中使用一种更有效的处理方法,就是采用非 周期脉冲,我们用一个非周期标志来表示是否采用非周期脉冲的激 励信号。非周期标志( 抖动浊音标志) 常用于清浊音的过渡区域, 对于抖动浊音,令非周期标志为1 ,说明在合成语音时要采用非周期 脉冲而不是采用周期脉冲作为激励信号。该标志能使解码端产生不 稳定的声门脉冲,使过渡音更加自然而不引入其他声调,具体的实 现方法是在0 7 5 倍基音和1 25 倍基音范围内随机抖动来模拟非周期 脉冲。采用此方法可减少一种类似电流声的单音噪声,尤其是对基 音较高的女性讲话者和有噪声时。 2 2 3 自适应谱增强技术 由于人说话时声道的共振峰带宽即使在一个基音周期内也可能 发生变化,并且l p c 这种全极点的模型削弱共振峰的特征,同时还 由于量化误差等原因,l p c 合成滤波器的极点形状和自然语音的共 振峰形状存在偏差,导致了在共振峰之间合成语音谱的波谷不如原 始语音谱的波谷尖锐,使合成语音听起来发闷,为了使合成语音与 原始语音在共振区有更好的匹配,m e l p 算法引入了自适应谱增强技 术。 自适应谱增强技术是通过让激励信号经自适应谱增强滤波器而 实现的。自适应谱增强滤波器是由系数自适应变化的阶数等于线性 预测阶数的零极点滤波器与对第一阶有平坦补偿的滤波器级联而成 的滤波器。通过突出激励谱中共振峰频率处的谱幅度,可以达到提 高整个短时谱在共振峰处的信噪比的目的。 采用这种自适应谱增强技术,它的实现原理比较简单,算法复 杂度不高,对编码端没有传输额外比特的要求,是加强低速率语音 编码质量的实用技术。 电子科技大学硕士论文第二章m e l p 语音压缩编码算法概况和鳖虚 2 2 4 脉冲离散滤波 进行脉冲离散滤波的目的,是为了让分带合成的语音与原始语 音在非共振区波形上具有更好的匹配。通过比较合成语音和原始语 音的带通包络发现,它们的波形存在一定的差别,特别是当语音的 周期性很强时,峰值的大小有很大的差别。实际语音的产生过程很 复杂,为了使合成语音获得较为自然的语音,应对合成语音的峰一 峰值进行平滑处理。m e l p 算法让合成语音通过一个滤波器,该滤波 器是一个f i r 滤波器,其系数是通过将典型男性周期脉冲的谱强制 变为平坦谱,再进行傅里叶反变换得到的,它具有减弱某些频带处 周期性的作用,降低了基音周期为典型周期附近时的峰一峰值,使 合成语音的蜂鸣效果降低,变得更为连贯、自然。 2 2 5 傅氏幅度模型 在l p c 残差信号中含有大量的语音特征,因为限于码率的原因, 以往的低速率l p c 算法在生成激励脉冲时,只反映了它的周期性, 并没有反映它的幅度特性,因而不能很好地反映实际激励脉冲动态 变化的特性。近些年来由于采用了矢量量化和线谱对技术,使得线 性预测参数的量化比特数目较以往大大减少,可以多空出几个比特, 这几个比特可以用于对残差信号信息的记录。m e l p 算法借鉴p w i 算法的做法,只对较重要的特征一各基音周期谐波处的傅里叶级数 幅度值进行矢量量化。残差信号中对语音影响最大的是低频带, m e l p 算法对最低1 0 阶谐波进行量化,对1 0 阶以上谐波的傅里叶级 数幅度值认为是平坦的,由单位值来代替。使用此方法增加了语音 产生模型的准确性,在很大程度上提高合成语音的自然度、清晰度 和抗背景噪声的能力,大大改善了l p c 合成语音发闷、嘶哑和合成 音重等弱点。 电子科技大学硕士论文第三章m e l p 算法编码过程中各种未量化参数的计算 第三章m e l p 算法编码过程中各种未量化参数的计算 本章详细介绍了m e l p 算法在编码过程中产生各种未量化的参 数的计算方法。这其中包括了基音、子带清浊音的混合比例、非 周期标志、线性预测系数、残差信号、残差信号的峰值、增益等参 数的计算,为下一章对这些参数进行量化打下基础。在这个过程中 对语音编码的一些基础知识也作了简要的介绍。 3 1i d e l p 算法编码过程总体框图 m e l p 语音压缩编码算法以每2 2 5 m s 长的语音作为个分析 帧,对应于8 k h z 采样率下的18 0 个采样点,经过处理后每帧输出5 4 位进行传输,这样它的速率是2 4 k b p s 。下面图1 是它分析帧的样式: i ! : l = ! : l = : l l l _ 牟 3 6 05 4 0 图3 1m e l p 算法分析帧的样式 m e l p 算法的编码过程包括高通滤波、基音估计、l p c 分析、 非周期标志的计算、傅里时幅度的计算、各种参数的量化、差错控 制和打包等过程。下面是编码过程的总体框图: 电子科技大学硕士论文第三章m e l p 算法编码过程中各种未量化i 塑的i 哆 砰 图3 2m e l p 算法编码过程总体框图 3 2 预处理( 高通滤波) 预处理的作用是为了去除信号低频部分( q ( o ,t + i ) ,则表 示在t 一1 和r 之间最大可能发生降低。我们就把丁减少l 进行内插, 利用如下的( 3 3 ) 公式计算偏移量。 电子科技大学硕士论文 第三章m e l p 算法编码过程中各种未量化参数的计算 c r ( o ,r + 1 ) c r ( r ,t ) c r ( 0 ,t ) c r ( t ,t + 1 ) 、一i c ,( o ,7 1 + 1 ) k r ( t ,t ) 一c r ( 丁,r + 1 ) j + c t ( o ,7 1 ) i c r ( 丁+ 1 ,t + 1 ) 一c r ( r ,r + 1 ) j 其中的c ,( 脚,”) 是由公式( 3 2 ) 定义的。有时候这个偏移量会超 出0 0 和1 0 之间,我们就把它限制在1 和2 之间。修正后的基音周 期为升,并且限制在2 0 和16 0 之间。修正后的基音周期的归一化 自相关值为如下的( 3 4 ) 式 ,( 丁+ ) 。j ! ! 三丝堕! 兰丝些竺 、 c r ( o ,o ) 1 1 一) 2 c r ( r ,丁) + 2 a 0 ) c r ( r ,t + 1 ) + a 2 c 7 ,( 丁+ l ,t + 1 ) j 经过内插公式进行修正,我们得到了两个修正后的基音周期候 选值以及相应的归一化自相关值,我们选取那个大的归一化自相关 值对应的基音周期作为第一次修正后的基音周期只,它的归一化自 相关值记为r ( 只) ,并把,( 最) 作为0 5 0 0 h z 子带的浊音含量值v b p ,尸2 值还要应用在按下去的剩余各个子带的清浊音混合比例计算和最 后的基音周期计算和增益计算中。 对剩下的5 0 0 10 0 0 h z 、 l0 0 0 2 0 0 0 h z 、2 0 0 0 3 0 0 0 h z 和 3 0 0 0 4 0 0 0 h z 这四个子带清浊音混合比例的计算方法是,我们让它 们经过个全波整流的平滑滤波器,得到它们的时域包络信号,再 对时域包络信号分别计算它们的归一化自相关值,并和r ( b ) 作比较, 并取其中的最大者作为这个子带的清浊音混合比例。这个全波整 流的平滑滤波器,在直流时有一个零点,在15 0 h z 时有一对半径为 o 9 7 的复极点。为了补偿因为实验观测带来的误差,使时域包络函 数更加平滑,我们对计算所得的归一化自相关值减0 1 。 下面是输入信号经过子带滤波器的输出框图: 电子科技大学硕士论文第三章m e l p 算法编码过程中各种未量化参数的计算 当前帧和 3 5 非周期标志 图3 7 子带滤波器的输出框图 非周期标志是为了告诉解码端要采用非周期脉冲的激励信号, 具体的实现方法是通过在0 7 5 倍基音周期和1 2 5 倍基音周期范围内 随机抖动来产生非周期的脉冲,这也是m e l p 算法新增的特点之一。 采用非周期脉冲激励可以更好的模拟人声,可减少一种类似电流声 的单音噪声,尤其是对基音较高的女性讲话者和有噪声时。因为 o 5 0 0 h z 这个频带含有最大的清浊音信息,而v b p 是它的浊音含量, 也就是说,如果v b p ,小于某一个值,那我们就可以明确的说它不是浊 音,但有可能是清音和抖动浊音。我们通过比较v b p 的值,如果 v b p , p m r ( p c ) 的最大的k 值,这里( 只k ) 2 0 并且k = 8 ,7 ,2 。,( 只k ) 的计算分为两个步骤,第一个是对取整后的 只女采用内插公式进行修正,得到只和相应的,( 只) ,第二个是如果 只 3 0 ,进行双倍验证。双倍验证是采用这种方法,对输入是p 和r ( p ) , 双倍验证返回,( 尸) 和r ( 2 e ) 的最小值,其中r ( 2 尸) 是由对取整后的2 p 进行内插修正得到的。双倍基音检测过程如果找到了一个k 值,则对 取整后的只进行内插修正得到新的只和r ( 只) 值。最后如果p c 3 0 ,则 电子科技大学硕士论文第三章m e l p 算法编码过程中各种未量化参数的计算 对p 应用双倍验证过程。 在第二次基音修正中如果r g ) 0 6 ,则采用如下的方法:首先 对取整后的只进行内插修f ,其中应用的信号是当前帧中的语音信 号而不是残差信号,得到新的只和r ( 只) 值。然后比较r g ) ,如果 ,( b ) c 0 5 5 ,则b 被长时平均基音周期只。所代替,这个值的产生方法 见后面平均基音周期更新那一段,否则则对当前帧中的语音信号运 用双倍基音检测过程,用b 作为候选值,如果只1 0 0 ,则双倍开始 因子d 。= 0 9 ,否则d 。= 0 7 ,双倍基音检测过程产生新的只和,( 只) 值。 在第二次基音修正中的最后,如果,( b ) 。0 6 ) d t h = 0 5 i ff p 3 = 1 0 0 ) d t h = 0 7 5 p 3 ,c o r p 3 = d o u b l e c k ( f r e s i d ,p 3 ,d t h ) d o u b l e c k o 是双倍基音 检测函数 e l s e p 3 ,c o r p 3 = f r a c p i t c h ( i n p u t ,p 2 )i n p u t 是输入的语音信号 i f ( c o r p 3 o 5 5 ) p 3 2 p a v g e l s e d t h = 0 7 i f ( p 3 = 2 0 ) p k ,c o t p k = f r a c p i t c h ( s i g n a l ,p k ) i f ( p k d t h + c o r p c ) p c ,c o r p c = f r a c p i t c h ( s i g n a l ,p k ) b r e a k e n d i f e n d i f e n d f o r i f ( p c 0 6 时,窗长度是超过1 2 0 的b 的最小倍数样点值,如果 这个样点值超过了3 2 0 ,就把它除以2 :如果v b p ,0 6 ,则窗长度是 12 0 样点。g 计算的样点开始于当前帧中最后样点前面( 9 0 + 窗长度) 个样点处,而g ,计算的样点范围是在当前帧中的最后样点前面的长 度等于窗长度的样点范围内。计算产生的增益是r m s 值,用d b 表 示,计算公式如下: 电子科技大学硕士论文第三章m e l p 算法编码过程中各种未量化参数的计算 g ,= 。s ,。( 。+ 圭喜s , 其中s 。是输入信号,j l 是窗长度。在公式里面加了0 0 1 是为了防止 l o g 里面的值太接近于0 ,如果计算得到的增益小于0 0 ,则令其为 0 0 。在这里,我们假设输入信号的范围在3 2 7 6 8 到3 2 7 6 7 之间。 3 11 平均基音周期更新 长时平均基音周期( t h el o n g t e r ma v e r a g ep i t c h ) 用一个简 单的平滑过程来更新。如果,( 只) 0 8 并且g , 3 0 d b ,则第二次也是最 后一次修正后的基音周期只被放入一个保存着最新的三个基音周期 的区域中,原来保存的最早的一个基音周期被移走,另外两个基音 周期依次顺移,否则则对这个区域中的三个基音周期作如下操作: p s t o r e ,= o 9 5 p s t o r e ,+ 0 0 5 ,i = 1 , 2 ,3 ( 3 1 6 ) 其中= 5 0 。长时平均基音周期只。的值就是这个区域中三个基音 周期中的第二大的值,即匕。= m e d i a n ( p s t o r e ,) ,i = 1 , 2 ,3 ,具体实现时可 以找一个空间原样复制这三个数,再进行排序,最后取复制空间的 第二个数就行了。其中的排序方法可以采用比较简单的“冒泡算法”。 只。应用于最后的基音周期修正过程中。 电子科技大学硕士论文第四章m e l p 算法的编码过程中量化和差错控制 第四章m e l p 算法编码过程中量化和差错控制 本章详细介绍了m e l p 算法在编码过程中对第三章产生的各种 参数进行量化的方法以及差错控制方法和最后传送的比特位的内 容。参数量化包括线性预测系数、基音、增益、子带清浊音的混 合比例、非周期标志、傅里叶幅度等的量化。在这个过程中也对语 音编码的一些基础知识如标量和矢量量化方法等作了介绍。 4 1 语音编码中的量化方法 在语音编码的量化方法主要有两大类:一类是标量量化方法, 另一类是矢量量化方法。 4 1 1 语音编码中的标量量化方法 标量量化是一种最基本的量化方法,就是把信号值按照一个一 个等级进行量化,它可分为均匀量化、非均匀量化和自适应量化。 均匀标量量化就是在整个量化范围内,量化间隔是均匀的,是线性 的。非均匀标量量化就是在整个量化范围内,量化间隔是不均匀的, 非线性的,比如以l o g 函数的形式进行量化。 在m e l p 算法中,采用接下去的标量量化方法。对分有 个等 级的区域【x 1 ,j 2 ,其中x l x 2 ,其步长为s = ( x 2 - - x 1 ) ( n 一1 ) ,则”阶量 化输出的值为五+ i + 只f = 0 , 1 ,月一1 。在i 和f + 1 之间的开始( t h r e s h o l d ) 值为x 1 + ( 0 5 + i ) s ,i = 0 , 1 ,n 一2 。举一个例子,如果令而= l ,。2 = 7 ,n = 7 , 贝us = ( x 2 x 1 ) ( 门一1 ) = ( 7 一o f f 7 一1 ) = 1 ,开始值为1 5 ,2 5 ,6 5 。因 此索引为0 的输入范围是x 1 5 ,索引为1 的输入范围是1 5 x 2 5 , 依次类推。 电子科技大学硕士论文第四章m e l p 算法的编码过程中量化和差错控制 4 1 2 语音编码中的矢量量化方法 矢量量化是先将k 个( k 2 ) 个采样值形成k 维空间中的一 个矢量,然后将这个矢量一次进行量化,因而可以大大降低数据传 输速率。矢量量化”1 可以说是仙农信息论在信源编码理论方面的新 发展,其研究的基础是信息论的一个分支:“率一失真理论”。该理 论指出:对于一定的量化速率r ( 以每个采样信号平均所用的量化比 特数来衡量) ,量化畸变( 以量化信号与原始信号之间的均方误差值 与原始信号的均方值之比来衡量) d 是一定的;无论对于何种信源来 说,甚至是无记忆信源,矢量量化总是优于标量量化,且矢量维数 越大性能越优越。矢量量化( v e c t o rq u a n t i z a t i o n ) 是一种及其重要 的信号压缩方法,是自7 0 年代末才发展起来的,它压缩信号间的冗 余信息,达到降低数据率的目的。它广泛应用于语音编码、语音识 别和合成、图像压缩等领域。v q 在语音信号处理中占有十分重要的 地位。特别是,在低速率语音压缩编码和语音识别的研究中,v q 起 着非常重要的作用。 矢量量化器的组成:图4 1 为一个无记忆v q 系统的基本功能 框架。从图中可以看出,v q 系统主要由特征矢量形成、码本、v q 编码器和v q 解码器四个部分组成。 特征矢量形成的作用是输入一帧语音采样序列( 帧长为) 输出 一个与之相对应的特征矢量x 。特征矢量的形成有2 种方法:第1 种,称为时域特征矢量,是将输入的一帧语音采样序列( 帧长为) 作为特征矢量x ,假设其维数为k ,则x = k ,z :,】;第2 种,称 为变换域特征矢量,是将一帧语音进行各种变换或者分析后得到的 矢量作为特征矢量,例如l p c 分析,同态处理或与d f t 有关的特征 矢量。在具体应用中选用哪种特征矢量应该根据所要达到的目的和 要求来确定。 电子科技大学硕士论文第四章m e l p 算法的编码过程中量化和差错控制 l r i gv q 系统的构成 图4 一iv q 系统的构成 一般说来,在v q 系统中有2 个完全相同的码本。但是,如果编 码器和解码器在同一处,则仅需一个码本。每个码本中包含m 个码 字y ,i = 1 肘,m 是码本的容量,是矢量量化系统中的重要参数。 如果按照比特来计算,则容量为占= l o g :m 。这样一个矢量量化器赋 予每个语音采样点的量化比特数r ( 即量化比特率r ) 可以用下式计 算: r = b n = l o g :m i n ( 4 1 ) 每个码字是一个胃维矢量,维数与x 相同。根据仙农信息论, 矢量越长越好。实际上,码本一般是不完备的,即码字的数量是有 限的,码本的容量是有限的。对于任何种实际应用来说,输入矢 量的数目通常是无限的。因此,在实际的应用系统中,输入矢量与 码本中的码字并不完全匹配。这种不匹配的情况在能够获得较好量 化效果的条件下是允许的;但是可以通过设计一个优良的矢量量化 器来尽量减少。 如果用d ( x ,y ) 表示矢量j 和y 之间的畸变,那么v q 的任务就 是在给定r 的条件下,使得此畸变的统计平均值d 达到最小。d = e d ( x ,y ) ,叫 表示对x 的全体集合取统计平均。 v q 编码器的运行原理是根据输入矢量x 从编码器码本中选择一 个最佳的矢量r ,输出该矢量的下标( 或标号) v 。这一过程可以形 电子科技大学硕士论文第四章m e l p 算法的编码过程中量代和差错控制 式化的表示为; v = ,( 舶 ( 4 2 ) v 是一个数字,因而可以通过任何数字信道传送或任何数字存储 介质存储。 v q 译码器的运行原理是按照v 从译码器码本( 与编码器码本相 同) 中选择一个具有相应下标的码字矢量作为输出】,。这可以表示为: y = ( v ) ( 4 3 ) 码本搜索:当矢量量化器输入任意矢量x r 5 时,它首先判断 属于那个子空间,然后输出该子空间r ,的代表矢量 r 谚y c r k ,f _ 1 , 2 ,m 。矢量量化过程就是用z 代表x ,即 f = q ( x ) , 1 i m 。式中q 为量化函数。 具体地,为了选择出最佳的矢量r ,应遵循以下两个原则: ( a ) 、“最邻近原则”。v q 编码器根据z 选择选择相应的输出码字 r 时,应满足下式: d ( x ,r ) = m ! n d ( x ,r ) ,1 i m ( 4 4 ) ( b ) 、“畸变平均值最小原则”。设所有选择码字r 的输入矢量的 集合为s ,那么i 应使此集合中所有矢量与巧之间的畸变平均值最 小。如果矢量x 和m 之间的畸变( 失真测度) 等于它们的欧式距离, 那么容易证明r 应等于s l 中所有矢量的“形心”,即耳用下式计算: e :一1 y z , v i( 4 5 ) j n i 稳j 矢量量化器的设计就是:从大量信号样本中训练出好的码本, 从实际的效果( 比如对于语音的编解码,获得良好的语音质量;对 于语音识别来说,有较好的识别率) 出发,寻找到好的失真测度公 式,设计出最佳的矢量量化器、矢量量化系统,以便用最少的搜索 和计算失真测度的运算量,来实现最大可能的矢量量化平均信噪比。 从上面的矢量量化器的设计过程,可以看出,对于一个矢量量 化器来说有两个关键的问题: ( 1 ) 、码本建立。这实际上是一个“训练”或建立码本的过程。 电子科技大学硕士论文第四章m e l p 算法的编码过程中量化和差错控制 这需要用大量的输入信号矢量,经过统计实验才能确定。它的基本 思路是:将大量的欲处理的信号的波形帧矢量或参数帧矢量作为特 征矢量进行统计划分,进一步确定这些划分的中心矢量来得到码本。 在19 8 0 年由l i n d e ,b u z o 和g r a y 首次提出的获得码本的方法一简称 为l b g 算法被广泛的采用。 ( 2 ) 、失真测度的选择。这里的失真测度就是两矢量的距离, 或以其中某一矢量为基准时的失真度。它描述了当输入矢量用码本 中对应的码字矢量来表征时会付出的代价。 矢量量化中的搜索技术:矢量量化中一个重要的步骤是在经过 训练的码本的基础上根据输入矢量找到满足畸变失真最小的码字序 号。通常在进行v q 编码时,采用全搜索算法,即对于每一个输入矢 量,需要比较它与码本中每个码字之间的畸变,找出失真最小的 码字,以其标号作为编码的输出。若码本中有m 个码字,码字矢量 和输入矢量的维数为k 且用欧式距离衡量二者之间的畸变,那么完 成一次全搜索所付出的计算代价是:乘运算k m 次,加减运算( 2 k j ) m 次,比较运算r m ) 次。当和m 非常大时,所需的运算量是 非常大的。 从上面的分析是搜索算法的一个方面,另一方面当码本容量肘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州惠水县公益性岗位招聘4人考前自测高频考点模拟试题及答案详解(易错题)
- 2025国家电投黑龙江公司招聘17人笔试题库历年考点版附带答案详解
- 2025北京化工集团面向社会公开招聘总部管理人员若干名笔试题库历年考点版附带答案详解
- 2025中泰证券股份有限公司博士后研究人员招聘笔试题库历年考点版附带答案详解
- 协议书离婚法律有效
- 协议书终止范本
- 协议书落款怎么编辑
- 协议书定价债券
- 校园拍摄协议书
- 虎牙对赌协议书
- 光伏区除草合同模板(3篇)
- 2025年产前诊断知识考核试题及答案
- (安徽卷)2025年高考历史试题
- 涂装技能师考试题及答案
- 国庆节前安全培训课件
- 农行超级柜台业务知识考试题库(含答案)
- 新标准大学英语(第三版)综合教程3(智慧版)课件 Unit6 Path to prosperity
- 3认识你自己-大学生自我意识发展课件
- 中药学全套(完整版)课件
- GB 1886.232-2016食品安全国家标准食品添加剂羧甲基纤维素钠
- 育儿嫂服务合同
评论
0/150
提交评论