(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf_第1页
(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf_第2页
(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf_第3页
(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf_第4页
(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(信号与信息处理专业论文)g7231算法研究及其adsp实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 i t u - tg 7 2 3 1 为国际电信联盟( i t u ) 制定的5 3 和6 3 k b i t s 双速率语 音多媒体通信编码标准,分别采用代数码本激励线性预测( a c e l p ) 算法和多脉 冲最大似然量化( 肝一m l q ) 算法。 本文首先对g 7 2 3 1 标准信源编码部分的编解码原理及该标准提供的c 程 序进行了分析。然后分析了a d s p - 2 1 8 9 m 芯片的基本结构和特征,并详细讨论了 在a d s p - 2 1 8 9 m 上的实现问题。在实现过程中主要通过对c 代码的改进完成了编 解码算法在a d s p 一2 1 8 9 m 上的移植,并提出转成汇编程序的改进方案。最后在算 法级和代码级的优化方面提出了建议。 关键词:g 7 2 3 1 标准a d s p - 2 1 8 9 m 低速率语音编码 a b s t r a c t ab s t r a c t i t u tg 7 2 3 1i sad u a lr a t es p e e c hc o d e cs t a n d a r df r o mi n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ( i t u t 、t h i s c o d e ch a st w ok i n d s o f b i tr a t e s ,i e ,5 3k b p sa n d6 3k b p s ,w h i c hc o r r e s p o n dt ot w o d i f f e r e n ta l g o r i t h m s f o r5 3k b p sc o d e c ,a l g e b r a i cc o d ee x c i t e dl i n e a rp r e d i c t i o n ( a c e l p ) p r i n c i p l e sa r cu s e d ,w h i l ef o rt h e6 3k b p sc o d e c ,m u l t ip u l s e - m a x i m u m l i k e l i h o o dq u a n t i z a t i o nf m p m l q ) t e c h n i q u e sa r eu s e d f i r s t l y , t h i st h e s i sa n a l y z e st h ee n c o d i n ga n dd e c o d i n gp r i n c i p l e so f t h es o u r c e c o d e ro fg 7 2 3 1a n da n a l y z e st h ecp r o g r a mw h i c hi sa ni n t e g r a lp a r to ft h e r e c o m m e n d a t i o n t h e ni ta n a l y z e sh o wt oi m p l e m e n tg 7 2 3 ie o d e cb a s e do n a d s p 一218 9 m l a s t l y , t h ep a p e rd i s c u s s e so p t i m i z i n gm e t h o d sa ta l g o r i t h ma n dc o d e l e v e r k e yw o r d s :c x 7 2 3 1 a d s p - 2 1 8 9 ml o wr a t es p e e c hc o d i n g 王l 罔目录 图目录 图1 。1 语音生成数字模型4 图1 2 语音生成数字模型等效图5 图1 3l p a s 声码器的原理结构5 图1 4g 7 2 3 1 码本激励组成7 图2 1 编码器原理图1 1 图3 2a d s p - 2 1 8 x 寄存器4 2 图3 3a d s p - 2 1 8 x 的系统开发流程4 6 v 表格目录 表格目录 表2 1a c e l p 激励码本2 3 表3 1a d s p - 2 1 8 9 m 重叠程序存储器3 9 表3 2 重叠程序存储器的地址线分配3 9 表3 3a d s p - 2 1 8 9 m 重叠数据存储器4 0 表3 4 重叠程序存储器的地址线分配4 1 表3 5v i s u a ld s p 的可执行文件及其用途4 8 表4 1 语音文件文件头格式5 1 表4 2p c m 数据存放格式5 1 v i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本:学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:7 高款 x r o ! ;年箩月为日 经指导教师同意,本学位论文属于保密,在 年解密后适用 于适用本授权书。 指导教师签名:尹瑶帅论文作者签名: 葛款 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: “”h “+ 。? 。“h ”“v ”1 “n 。n m ”“”6 4 “。”“。6 ”“”。”。”+ ”。i 1 。4 。1 ? ”“”“一? “”? :内部5 年( 最长5 年,可少于5 年) 秘密1 0 年( 最长1 0 年,可少于1 0 年) | 机密- a - 2 0 年( 最长2 0 年,可少于2 0 年) 乙。,。,。,。, 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 葛疑 叼哆年多月如e l 第一章绪沦 第一章绪论 第一节v o l p 技术简介 v o l p ( v o i c eo v e ri n t e r n e tp r o t o c 0 1 ) 又称作i p ( i pp h o n e ) 电话,它是随着 i n t e m e t 的迅速发展而发展起来的一种新兴技术。v o l p 是一种数字电话,它把语 音压缩编码、打包分组、分配路由、存储交换、解包和解压缩等在i p 网上处理, 实现语音通信。 由于i n t e m e t 的迅速发展,i p 协议已经成为集成所有数据、语音、视频以 及其他各种网络服务的最佳选择。然而,现有的t c p i p 协议族的一个最主要缺 点就是缺乏对实时数据( 如语音、视频) 的传输能力。为了克服这一缺点,新的 i p v 6 以及h 3 2 3 和s i p 协议已经被提出。他们可以被用来实现基于i p 的多媒体 通讯,并且可以很好的解决与传统电信服务的互通问题。总的来说,v o l p 就是 包括i n t e m e t 在内的i p 网络上的电话,是向由l p 网络传输多媒体业务过渡的重 要手段。严格的说,v o l p 不仅仅是语音通讯的手段,而且是一种多媒体数据通 讯的手段,属于i p 网基本应用之一。它促进了网络资源的利用,降低语音业务 成本。因此在全球范围内得到迅速发展,可以说是当今世界上发展最快、普及 最快的应用服务技术之一。 目前v o l p 的标准主要有两种,分别是i t u - t 的h 3 2 3 协议和i e t f 的s i p 协议。h 3 2 3 第一版发布于1 9 9 6 年,现在已经发展到第五版( 2 0 0 3 年7 月) 。 s i p 是由i e t f ( i n t e m e te n g i n e e r i n gt a s kf o r c e ) 在19 9 9 年2 月提出的( r f c 2 5 4 3 ) , 现在是第二版( r f c 3 2 6 1 ) 。s i p 类似于h 耵p 的c l i e n t s e r v e r 结构,由从客户端 到服务器的请求和从服务器到客户端的应答组成。 h 3 2 3 和s i p 分别是通信领域与i n t e m e t 两大阵营推出的建议。h 3 2 3 企图 把v o i p 当作是众所周知的传统电话,只是传输方式发生了改变,由电路交换 变成了分组交换。而s i p 协议侧重于将v o i p 作为i n t e r n e t 上的一个应用,较其 他应用( 如f t p ,e m a i l 等) 增加了信令和q o s 的要求,它们支持的业务基本相 同,也都利用r t p 作为媒体传输的协议。h 3 2 3 是一个相对复杂的协议。 h 3 2 3 沿用的是传统的实现电话信令模式,比较成熟,已经出现了不少 第1 页 第一章绪沦 h 3 2 3 产品。h 3 2 3 符合通信领域传统的设计思想,进行集中、层次控制,采用 h 3 2 3 协议便于与传统的电话网相连。s i p 协议借鉴了其它i n t e r n e t 的标准和协 议的设计思想,在风格上遵循i n t e r n e t 一贯坚持的简练、开放、兼容和可扩展等 原则。比较简单,但推出时问不长,协议并不是很成熟。 从目前市场的情况来看,支持h 3 2 3 协议的产品占绝大多数,而且h 3 2 3 已经被采纳为国家标准。遵循s i p 标准的软电话发展也非常快。同时也出现了 多种带协议转换功能的网关,在未来几年内两种协议会并存。 语音编码压缩技术是v o i p 中一项非常关键的技术。它涉及信息的压缩、特 征提取和合成等问题。1 9 7 2 年制定了6 4 k b i t s p c m ( 脉冲编码调制) 方式;1 9 8 6 年制定了3 2 k b i t s a d p c m ( 自适应差分脉冲编码调制) 方式;1 9 9 1 年制定了 1 6 k b i f f s l d c e l p ( 低延迟激励线性预测) 方式;1 9 9 6 年经过较长时间的研究, l t u t 推出了语音压缩标准g 7 2 3 1 。g 7 2 3 1 是h 3 2 3 首推的编码标准,目前广 泛用于v o l p 系统中,这是因为它具有语音质量好,编码速率低等优点,是目前 已标准化的最低速率的语音编码算法。 语音编码器的主要功能就是把用户语音的p c m ( 脉冲编码调制) 样值编码 成少量帧,这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁 棒性( r o b u s t n e s s ) 。在接收端,语音帧先被解码为p c m 语音样值,然后再转 换成语音波形。 语音编码器分为三种类型:波形编码器、声码器和混合编码器。波形编码 器会尽可能重构出包括背景噪声在内的模拟波形。由于波形编码器作用于所有 输入信号,因此会产生高质量的样值。但是波形编码器工作的高比特率。 v o l p 中的其它关键语音技术: ( 1 ) 信令技术:保证电话呼叫的顺利实现和语音质量,目前被广泛接受的 v o l p 控制信令体系包括i t u - t 的h 3 2 3 系列和i e t f 的会话初始化协议s i p 。 ( 2 ) 静音抑制技术:又称语音激活技术,是指检测到通话过程中的安静时 段即停止发送语音包的技术。 ( 3 ) 回波抵消技术:回波的产生有两种情况,一种是由调制解调器本身内 部混合变化器泄漏产生的,二是由话音通信网络本身产生的。回声返回时问超 过1 0 m s 时,入耳就可以听到明显的回声。为了防止回声,一般采用回声抵消 器,其核心是一个自适应滤波器。 ( 4 ) 语音抖动处理技术:i p 网络的一个特征就是网络延时与网络抖动, 第2 页 第一章绪论 它们可以导致i p 通话质量明显下降。网络延时是指l p 包在网络上平均的传输 时间,网络抖动是指i p 包传输时间长短变化。 ( 5 ) 语音优先化技术:语音通信对实时性要求较高,在带宽不足的i p 网 络中,一般需要语音优先技术。即在i p 网络路由器中必须设置语音包的优先级 最高。这样网络延时和网络抖动对语音的影响均将得到明显改善。 、 ( 6 ) v o l p 前向纠错技术:为了保证语音质量,有些v o i p 网关采用信道编 码等技术。i p 包在传输过程中有可能损坏或被丢失,采用前向纠错技术可以减 少传输过程中的错码积累。 v o l p 相关的技术种类繁多,每一项技术都非常复杂,本论文是对于v o l p 终端实现中的g 7 2 3 1 算法实现进行研究,所以v o l p 的技术原理在这里就不过 多的介绍。 第二节语音编码及g 7 2 8 1 协议概述 自从3 0 年代末提出脉冲编码调制( p c m ) 原理和声码器( v o c o d e r ) 概念 后,语音信号编码一直沿着这两个方向发展,它们也可以称为语音信号的波形 编码与声码化编码,或称为非参数编码与参数编码,参数编码有时也称模型编 码。 语音信号的波形编码力图重建语音波形原语音信号的波形形状。这类编码 器通常将语音信号作为一般的波形信号来处理。它的基本出发点是最小化原始 语音和重构语音之间的差值信号,最小化判据一般以“块为基础的差分信号 的均方差,块可以小到单个语音抽样。它具有适应能力强、语音质量好等优点, 但所需要的编码速率高。脉冲编码调制( p c m ) 、自适增量调制( a d m ) 、自适 差分编码( a d p c m ) 、自适预测编码( a p c ) 、自适应予带编码( a s b c ) 等都 属于这类编码器。它们分别在6 4 - - - 1 6 k b s 的速率上能给出高的编码质量,当速 率进一步降低时,其性能会下降较快。 同波形编码不同,参数编码通过对语音信号特征参数的提取及编码,力图 使重建语音信号具有尽可能高的可懂性,即保持原语音的语意,而重建信号的 波形同原语音信号的波形可能会有相当大的差别。这类编码器的优点是编码速 率低,它的主要问题是合成语音质量差,特别是自然度较低。另外,这类编码 器对讲话环境噪声较敏感,需要安静的讲话环境才能给出较高的可懂度。通道 第3 页 第一章绗沦 声码器、共振峰声码器以及目前广泛使用的线性预测声码器都是典型的参数编 码器。 g 7 2 3 1 语音编码器即属于参数编码器。具体来说,它是一种代数码本线性 预测( a c e l p ) 合成分析声码器。下面详细介绍这类声码器的结构原理。 参数编码根据对声音形成机理的分析,着眼于构造语音生成模型。人们在 讲话时,从肺部压出的空气由气管到达声门,气流流经声门时震动声带形成声 音,然后再经咽腔,由口腔和鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声 管组成的声道,当腔体呈不同形状,舌、齿、唇等处于不同位置时,相当于形 成个具有不同零极点分布的滤波器,气流经过该滤波器后产生相应的频响输 出,从而发出不同的音素。 音素可分为浊音和清音两类。从频域角度看,浊音气流流经声道后,其幅 频特性在声道的滤波作用下呈现两显著特点。一是幅频频谱的包络有几个明显 的局部最大值,称为共振峰。二是频谱的精细结构呈现周期性,这个周期对应 的就是基音频率。清音的频谱形状没有周期性,峰值的分布也没有明显的规律, 整个频谱相对比较平坦,反映了清音音源类似于白噪声。 根据上述分析,可得语音生成的数字模型如图1 1 所示。它由声源和声道 r 一一照一i li :每弼弦一 : 。 广- 。广。 广。广。 整顿 搜磺窘钕 频谗鞴擒站掏)l 援谚包络 图1 1 语音生成数字模型 两部分组成。声源包括激励信号和增益g 。浊音的激励源为一串周期性的脉冲, 脉冲周期即基音周期;清音的激励源为噪声信号。增益反映信号的强弱,开关 第4 页 第一章绪论 s 则表示清浊音判断。声源决定了语音信号频率的精细结构。声道由声道滤波 器和辐射滤波器组成,前者可用全极型或极零型滤波器近似,后者反映了气流 经嘴唇往外辐射后的衰减。一般将二者合为一个滤波器,它决定了语音频谱的 包络特性。设声源为x ( 刀) ,也称残差激励信号,输出的语音信号j 【川,声道滤 波器的频域函数为1 a ( z ) ,又称合成滤波器。则语音生成数字模型可用图1 2 来表示。 j p 一f 了兰蜮 x i z ) l 划s ( z ) 图1 2 语音生成数字模型等效图 由图可知,声码器进行语音编码即是要对声道滤波器系数及声源哟进行 编码。彳( 力的系数可以通过线性预测得到,经量化发往接收端。对于残差激励 信号x ( 刀) ,若进行直接的量化,并且是残差激励信号与它的量化值之问的误差 达到最小,并不能保证原始语音与重建语音之间误差最小。只有采用合成分析 法来求得残差激励信号的编码量化值,才能使得重建语音与原始语音的误差最 小。 采用合成分析法量化残差激励信号的声码器称为线性预测合成分析 ( l p a s l i n e a rp r e d i c t i o na n a l y s i sb ys y n t h e s i s ) 声码器。其原理结构如图1 3 所 示。 图1 3l p a s 声码器的原理结构 激励生成器的激励信号经线性预测器后得到重构的语音信号s ( d ,线性预 测器模拟声道特性,加强激励信号的某些频率域,减弱另一些频率域,体现了 语音的短时相关性。激励信号则体现了语音的长时相关性,输入线性预测器的 第5 页 第一章绪论 激励信号是量化后的增益和基音信号。由于量化误差的影响,重构信号和输入 信号6 w 之间必然存在有限的差值p w ,最小化过程的目的就是调整激励信号, 使误差的方差最小,由此构成确定激励信号的闭环回落。为了减小量化比特, 提高编码率,激励生成器输出的是残差信号估值,而不是原信号估值。从频域 上来说,最小化过程使激励信号量化噪声的能量集中在预测滤波器的低谷部分, 从而使量化噪声呈现平坦类似白噪声的功率谱。 但是,实际上人的听觉系统对于不同频段噪声的感觉是不一样的。众所周 知如果一个强信号存在,一个本来可以听到的语音就可能会被淹没成为不可闻 信号,这一感觉效应称为掩蔽。误差加权滤波器的作用就是对残差信号进行频 谱掩蔽,也就是按照语音信号频谱的峰值来整形量化噪声,使得量化噪声的能 量集中在原信号的高能区域。编码器参数将根据感觉加权均方差准则选取,可 以有效地提高l p a s 编码器的性能。 经过最小化过程确定的激励信号量化值就是声码器的输出,接收端解码器 根据此信号和同样的线性预测器恢复原来的语音信号。实际上图1 3 虚框部分 所示闭环回路的下部分就是解码器的结构,因此该结构的编码器已内含解码器。 在语音编码中,通常称编码过程为语音分析,它的功能是将语音转换为适于计 算机存储和网络传输的数字形式:称解码过程为语音合成,它的功能是将数字 形式的语音数据重新转换为可供人类使用的信号形式。按这样的术语来解释, 反馈回路中的线性预测器是用来重建信号的,又称为预测合成器,整个编码器 是通过内含的语音合成来完成语音分析的过程的,所以称之为合成分析器。 出于声道的形状和大小是随音素而变化的,因此预测合成器是一个线性时 变系统,其滤波器系数需定期更新。因此,l a p s 的闭环回路实际上包含两层 反馈控制。内层是线性预测滤波器的自适应控制,系数更新周期为一个帧长, 典型值为1 0 - 3 0 m s 。外层是激励信号的优化,出于基音周期小于帧长,因此其 更新周期更短,典型值为5 1 0 m s 。l p a s 的关键技术是如何确定和量化残差激 励信号。 残差激励信号的量化有多种方法,它是不同l p a s 系统的主要差别所在。 种广为使用的方法称为多脉冲激励( m p e m u l t i p u l s ee x c i t a t i o n ) 编码,该方 法用于比特率为1 0 k b i t s 左右的语音编码器,其复杂度适中,有良好的语音质 量。与此类似的一种方法称为规则脉冲激励( r p e r e g u l a rp u l s ee x c i t a t i o n ) 编码, 该方法限定激励脉冲的位置,复杂度较低,其比特率及质量和多脉冲编码类似。 第6 页 第一章绪论 近年来得到广泛使用的方法是码本激励线性预测( c e l p c o d ee x c i t e dl i n e a r p r e d i c t i o n ) 编码,该方法采用矢量量化技术,用预定义的码本激励代替脉冲激 励,码本中的每一个向量对应于一个量化信号,编码信息转化为码本索引。这 种方法具有很高的编码效率,但是复杂度也很高,出于近年来高速d s p 的出现 才使这种方法成为实用,并以此为基础演绎出多种低比特率声码器标准,g 7 2 3 1 便是其中的一种。它的码本激励组成如图1 4 所示。 麓抚码本 a 麓斑玛奉 图1 4g 7 2 3 1 码本激励组成 g 7 2 3 1 语音编码协议是i t u - t 于1 9 9 6 年提出的,作为多媒体业务中的低 比特率语音或音频信号的压缩标准。它的一个最基本的应用是作为h 3 2 3 系列 标准中的一个重要组成部分,用于低比特率的可视电话的语音编解码。 g 7 2 3 1 为双速率语音编码器,包含了两种工作速率5 3 和6 3 k b i t s 。在任 何3 0 m s 为一帧的边界处可作两种速率的切换。定义5 3 k b i t s 比特率的目的是 增加系统设计的灵活性,如用于低速率通道时,可为视频编码器留出一些比特 空间;可为复用系统提供l k b i t s 的“虚信道”以传送附加信息。 编码器以帧为处理单位,采用线性预测分析合成( l a p s l i n e a rp r e d i c t i o n a n a l y s i s b y s y n t h e s i s ) 编码技术,在高速率下对激励信号进行多脉冲极大似然 量化( m p m l q ) ,而在低码率下采用代数码本激励( a c e l p ) 。帧长为3 0 m s , 加上另需7 5 m s 的前一子帧数据,共有3 7 5 m s 的算法时延,其它附加延时包括 实际编解码器的处理时间、通信环路中的发送接收时间以及接收时的缓冲延时 等。 第7 页 第一章绪论 第三节研究背景和工作提要 v o i p 技术是i t 领域的一项热门技术,多年来一直受到广泛的关注。特别 是近年来v o i p 技术已经基本成熟,整个行业也在蓬勃发展。i p 电话是建立在 i p 技术上的分组化、数字化传输技术,其基本原理是:把普通电话的模拟信号 变为数字信号,通过语音压缩算法对语音数据进行压缩编码处理,然后把这些 语音数据按i p 等相关协议进行打包,通过i p 网络把数据包传输到目的的接收 端,再把这些语音数据包重新经过解码解压缩处理后,恢复成原来的模拟语音 信号,从而达到用i p 网络进行语音通信的目的。其中语音数据传输过程中的压 缩技术尤为重要。对于以h 3 2 3 为基础的视频和语音传输应用的开发,由于 h 3 2 3 标准的广泛以及灵活的特点,已经逐渐成为市场的主流。 要研制v o l p 终端系统,语音编码器是其中的一项关键技术。本论文对v o i p 广泛采用的h 3 2 3 协议栈中的g 7 2 3 1 算法进行了研究。 目前已有很多研究工作是采用1 r i 公司的d s p 芯片来实现g 7 2 3 1 编解码算 法,在这里我们采用的a d ( a n a l o gd e v i c e s ) 公司的a d s p - 2 1 8 x 系列芯片。 其开发工具v i s u a ld s p 提供了一个开发源代码软件组织g n u 的c 编译器和一 套成熟稳定的c 运行时间库( cr u nt i m el i b r a r y ) 等。g n u 的编译器一向以编 译效率高著称,在编译后的代码长度和运行速度方面非常优秀;c 运行时间库; 则把很多重复性的工作,如浮点运算、三角函数、f f t 等作为c 语言的库函数: 提供给用户。这对以后采用a d s p 来进行其它开发研究也有一定的参考意义。 本文主要是分析g 7 2 3 1 算法原理并把其标准c 程序移植到a d s p 2 1 8 9 m 上。所做的工作如下: 深入细致的研究了g 7 2 3 1 算法原理,分析其浮点程序。 i t u t 的c l 7 2 3 1 浮点程序在v i s u a lc + + 6 0 环境下调试的运行,这使我们 对g 7 2 3 1 的编解码算法的效果有个形象的认识。 c j 7 2 3 1 的标准c 代码在a n a l o gd e v i c e s 公司a d s p - 2 18 9 m 数字信号处理 器上面的移植工作。 提出了基于算法级和代码级的优化方案。 第8 页 第二章g 7 2 3 1 算法原理分析 第二章g 7 2 3 1 算法原理分析 第一节g 2 3 1 算法概述 ( 2 7 2 3 1 算法是i t u t 建议的应用于低速率多媒体服务器中语音或其它音频 信号的压缩算法,例如:h 3 2 3 ,h 3 2 4 系统。这种声码器具备两种比特率: 5 3 k b p s ,6 3 k b p s 。在帧边界处可以在两种速率之间进行切换。本算法提供对无 声语音帧的监测以及在无声时进行舒适噪声填充的功能。如果优化系统,有限 地提高其复杂度,将会得到更高的语音质量。g 7 2 3 1 算法同样适用于音乐或其 它声音信号,但是处理效果不如语音信号。 编码器的工作原理是线性预测合成分析法。高速率声码器的非周期激励信 号算法采用多脉冲最大似然量化( m p - m l q ) ,低速率编码器采用代数码本激励 线性预测( a c e l p ) 。帧长3 0 m s ,2 4 0 个样值。由于加窗,一帧的最终算法时 延是3 7 5 m s 。这种声码器在实现操作中,除了上述的3 7 5 m s 的算法时延外,还 有一些其它的时延,主要有: 编码器和解码器处理数据的实际时问 编码过后的数据在网络链路中的传输时间 在多协议环境中的额外缓冲时间 编码器的输入必须是线性1 6 b i t 线性p c m 数字流,解码器的输出也是1 6 b i t 线性p c m 数字流。其它速率的语音,诸如q 7 l l 的6 4 k b s ( 1 t ur e e ( 2 7 11 ) , 必须经过转换才能被声码器处理。 2 2 1 编码器概述 第二节编码器原理与分析 编码器采用线性预测合成分析编码方法,使感知加权误差信号最小。一次 处理一帧,共2 4 0 个样点。其处理流程框图如图2 1 所示。输入的语音要经过 三部分处理。每帧( 2 4 0 个采样点) 先经过高通滤波器去掉直流分量,然后分 第9 页 第二章g 7 2 3 1 算法原螋分析 成4 个子帧,每个子帧6 0 个采样点。用线性预测分析法对语音信号进行短时预 测分析,对每个子帧用加窗后的语音信号计算其l p c 的1 0 阶滤波器系数,这4 个子帧的l p c 系数将用来建立短时感知加权滤波器,这个滤波器作用于整个子 帧,并且得到感知加权信号。最后一子帧的l p c 滤波器系数还将被转换成l s p 系数,然后使用预测分裂矢量量化器( p s v q ) ( p r e d i c t i v es p l i tv e c t o rq u a n t i z e r ) 量化。 对每两个子帧( 1 2 0 个采样点) ,使用加权语音信号计算开环基音周期。这 个基音预测是在1 2 0 个采样点基础上计算的,此基音周期的取值范围是1 8 1 4 1 。 计算加权合成滤波器的冲激响应,利用前面计算出的估计基音周期,建立 一个谐波噪音整形滤波器。将l p c 合成滤波器、感知加权滤波器和谐波噪声整 形滤波器级联到一起得到加权合成滤波器的冲激响应。 使用开环基音周期估值l ,和上面得到的合成滤波器响应,建立一个5 阶 线性闭环基音预测器j 一对输入信号进行长时预测分析,其目标矢量是合成滤波 器的零输入响应和原始语音之间的一次残差经共振蜂感知加权、谐波噪声整形 后的值。闭环基音周期在开环基音周期的修正范围之内搜索。从最初的目标矢 量中减去经过基音周期预测器的输出语音信号得到残差信号,作为下面随机码 本搜索的目标矢量。 对经过长时预测后的二次残差信号进行估测。高速率采用多脉冲最大似然 量化激励( m p m l q ) ,低速率采用代数码本激励线性预测( a c e l p ) 。此时码 本搜索是对固定的随机码本搜索: 2 2 2 编码器算法及实现 下面根据图2 1 ,详细讲述g 7 2 3 1 的算法及c 语言的实现。 2 2 2 1成帧 声码器的输入信号是连续的16 b i t 的p c m 码流,图中用y 【n 】表示。首先将 y 【n 】转化成帧,2 4 0 个样点为一帧,用s 【n 】表示。然后,将帧均分成两部分,每 部分1 2 0 个样点,用来进行基音预测计算。最后,将这两部分再次均分,因此, 每帧最终被分为四个6 0 样点的子帧。 在实现过程中,成帧由函数c o d e r 0 完成。 第l o 页 第二章g 7 2 3 1 算法原理分析 2 2 2 2 高通滤波器 图2 1 编码器原理图 1 6 b i t s 线性p c m 数字码流进入编码器后,被分为2 4 0 点为一帧,6 0 点为一 子帧。编码器按帧处理数据。每帧数据先通过一个高通滤波器以去掉直流分量。 滤波器的传输函数为: h ( z ) 2 西l - - z - 1 ( 2 1 ) 1 2 8 第1 1 页 第二章g 7 2 3 i 算法原理分析 滤波器的输出为x 【n 】n - o 1 t 2 , 在实现中,由r e m _ d c 0 完成。 2 2 2 3l p c 分析 去掉直流成分后,语音需要加窗,此处采用汉明窗,窗长为1 8 0 点,加在 每一子帧的中心。然后计算加窗后的信号的自相关系数,共1 1 个。臼噪声修正 因子( 1 0 2 5 1 0 2 4 ) 被考虑,使r 【0 1 = r 【o 】( 1 + 1 1 0 2 4 ) 。通过查二项式窗口系数 表得到其它自相关系数的修正系数。l p c 系数通过迭代杜宾回归算法计算。在 这里,由于加窗引起了一子帧的时延,即7 5 m s 。由l p c 系数构成的合成滤波 器定义为: 1 h i ( z ) = 毒l o i 3( 2 2 ) 1 一a 。z 。 j = t 其中,i 代表子帧的序号。 在实现中,l p c 分析由c o m p _ l p c 0 和d u r b i n 0 完成。 下面介绍一下l p c 参数的求解方法。它的求解是利用方程组: r口 f g 2 = ,( 0 ) 一艺口,0 间 ( 2 3 ) i ,u ) 一a l r ( j d = 0 ;1 歹p l ,童l l p c 参数分析是假设被分析的语音帧是平稳的,所以自相关序列 ,( 力= 耶o ) j o 一,) 】_ s ( 以) j 一力根据求和范围定义的不同,又分为自相关 法和协方差法。这种方法假定语音信号序列s 【刀j 被一个有限长度的窗i s l 所截取, 自相关序列估计定义为: 再一l 一 ,( _ ,) = s ( n ) s ( n - j ) 1 j p n - - o ( 2 4 ) 由此计算得到的,g 力组成的自相关阵只州是( p + 1 ) x ( 尸+ 1 ) 阶的托布里兹 ( t o e p l i t z ) 矩阵。所以i 阶方程组的解可以用( i - 1 ) 阶方程组来表示。最常 第1 2 页 第二章g 7 2 3 1 算法原理分析 用的杜宾( d u r b i n ) 算法就属于这种递推算法。算法简介如下: 首先令民= r ( o ) 毛= i - i r ( i ) - 口p r ( i - j ) e 一。 l i p 口夕= k l 口岁= 口岁1 l k 一u - ,l l j i 一1 e = ( 1 - 霹) e 1 4 ( 2 5 ) ( 2 6 a ) ( 2 6 b ) ( 2 7 ) 式中f = l ,2 ,p 表示预测器的阶数。经过上式的递推计算后,可得到 i = 1 , 2 ,p 各阶的解。 巳= 口罗 l j p p e p = r ( 0 ) r i 0 - k t ) j 暑i ( 2 8 a ) ( 2 8 b ) ( 2 9 ) 最小预测误差能量值e 。必定大于零,而且随预测器阶数的增加而减少,这 说明参数k l 必定满足蚓 烈:l o 。 求线谱对系数的基本方法如下: 翟三:嚣= 善二篆z :二篆z = :二z z 亿q ( z ) = l + q l z - 1 + + q 5 z - ,一q 5 o 一一q l _ 1 ”一1 1 其中: 、 p i = 一a i a l i _ i 1 i 5 q i2 一a i + a l i l i 5 l s p 频率将是下面两个方程的根。w 将位于0 与2 5 6 之间。 p ( 、) = c o s 5 ( n w 2 5 6 ) + p i c o s 4 ( a w 2 5 6 ) + + p 4 c o s ( a w 2 5 6 ) + p 5 2 q ( w ) = c o s 5 ( n w 2 5 6 ) + q lc o s 4 ( n w 2 5 6 ) + + q 4c o s ( z w 2 5 6 ) + q 5 2 其中p 和q 的值如下计算: p o = q o = l p i = 一p t j i + p i 1 i 5 ” q i = q i q + q i 1 i 5 通过在0 和2 5 6 之问搜索w 可以得到l s p 参数。如果在这个范围没有找到 1 0 个根,将使用前一帧的l s p 参数。 ( 2 ) 从l s p 参数p 中减去直流成分p d c 得到去直流的l s p 参数p 。 第1 4 页 第二章g 7 2 3 1 算法原理分析 ( 3 ) p 。表示当前第r i 帧需要量化的l s p 参数,f 。表示上一次解码后的l s p 矢量;石。表示去直流的预测l s p 参数;e 。表示第n 帧的l s p 残差矢量。 p := 砧i ,n p :。 p l o 。】 ( 2 1 1 ) f := 陆i n 霞。 f l o 。】 ( 2 1 2 ) 芦乘以一阶固定的预测因子b = ( 1 2 3 2 ) ,得到声。 芦。= b ( f 。一l p d c ) ( 2 1 3 ) e 。= p 。一- n ( 2 1 4 ) “p 。- 的初始状态为p v c ( 4 ) 未量化的l s p 矢量p 。,量化的l s p 矢量 _ ,残差矢量e 矗,分别被分 成三个子矢量,它们的维数分别为3 ,3 ,4 。对残差的每个子矢量使用8 b i t s 、 含2 5 6 个码字的码本进行量化。所以l s p 的量化值将是2 4 比特。第i n 个子矢量 码本的最佳索引l 是使误差均值e i m 最小的索引值。这里使用的失真测度是欧 式距离加权均方差。 。一 p 三= 【p l 伽p 2 伽 p k 伽】 tr 9 1 p i 2l p i ,k m p 2 ,m p k i m j k 。= 茎兰三三 ( 2 1 5 ) ( 2 1 6 ) p 。= p 。+ p d c = _ m + e 。+ p v c ( 2 1 7 ) 声1 。= 芦。+ p o c + 葛。m ( 2 1 8 ) e i 。= ( p m - l ,。) t 、k ( p 。一声1 。) = ( e 。一葛,。) w 。( e 。一葛,。) ( 2 1 9 ) 其中,麓。是第m 个分裂残差l s p 码本的第l 索引值所对应的码本值,w m 是对角线加权矩阵,它从未量化的l s p 系数矢量p 。得到的。我们知道,加权的 目的是为了使得在判别中起重要作用的项在误差测度式中占较重的比例。由于 第1 5 页 第二章( 3 7 2 3 1 算法原理分析 l s p 参数能反映声道幅度谱的特点,在幅度大处各f i 的分布较密,反之则较疏。 这尤其能表现幅度谱中共振峰的特性,所以对于c 密处加权较大,f i 疏处加权 ( 5 ) 选择的索引值被发送到信道中。 2 j 9 ( 2 2 0 ) ( 2 2 1 ) 在实现过程中,l s p 量化器由a t o l s p 0i 、l s p q n t ( ) 和l s p _ s v q ( ) 完成,它们 分别负责l p c 到l s p 的参数转化、l s p 矢量量化和l s p 子矢量量化的功能。 2 2 2 5 共振峰感知加权滤波器 对于每一个子帧都建立广个共振峰感知加权滤波器,通过使用未量化的l p c 系数 a 目l - - o ,l - - 1 0 ,o i 3 滤波器的传输函数为: w i ( z ) = l o 1 一毛z 。力 l 一a i j z 。7 : 0 i 3( 2 2 2 ) 其中,厂。= 0 9 ,儿= 0 5 。输入语音帧 x 【n 】) 。钏,被分成四个子帧,每个子 帧通过相应的w ( z ) 滤波器,得到加权的语音信号 f n 】) 。圳。:,a 第1 6 页 罢 。 l w w w 第二章g 7 2 3 1 算法原理分析 2 2 2 6 基音估测器 基音估测器通过fe n 计算开环周期l o l 。每两子帧计算一次。利用语音的 相关性,计算f n 的互相关值c o l ( j ) ,寻找使得c o l ( j ) 一的j 作为开环基音周 期l o l 。 :幽tin-jcolo) 1 8 2 汜2 3 ) f f 【n 】1 = 铺生上 1 8 j 1 4 2 ( 2 f n - j f n - j j 的搜索范围为1 8 至1 4 2 , 在搜索最佳的j 时,为了避免选择基音的整数 倍,有一个比较准则。每当一个c 仉 找到后,要和前一个找到的最大值c o l o ) 比较,只有当c o l o c o c o 。) ,且j - j 。刮,5 9 的能量为: 5 9 e = f ( n ) 2 d ;o 所以系数: ( 2 2 8 ) 夕:0 3 1 2 5 g , , 一, i f - 1 0 1 0 9 l o ( 1 一争 2 。 ( 2 - 2 9 ) l0 0 ,o t h e r w i s e 计算完滤波器系数后,共振峰感知加权语音信号f n n j 2 立p ( z ) 就获得目标 e ( z ) = i 一肛屯 ( 2 3 0 ) w i n 】= f 【n 卜历i n - l 】 0 n 5 9( 2 3 1 ) 在实现中,谐波噪声整形由c o m p _ p w ( ) 和f i l t p w 0 完成,它们的功能是计 算谐波噪声滤波器参数和将参数应用到谐波噪声滤波器上。 第1 8 页 第二章g 7 2 3 1 算法原理分析 2 2 2 8 冲激响应和零输入响应 在c e l p 原理中,合成语音s 可表示成激励信号与滤波器冲激响应的卷积加 上它的零输入响应s f ( o ) 。h 为合成滤波器,u 是与基音周期有关的激励,v 是非 周期性激励。 s f = s f o + ( u + v ) h l i n( 2 3 2 ) 为了求解最佳激励参数u ,就必须求s f ( 们,然后得到一次残差。 按下面公式计算级联滤波器s ;( z ) ,其中螽;( z ) 是量化后的l p c 系数构成的 合成滤波器。w i ( z ) 是共振峰感知加权滤波器。e ( z ) 是谐波噪声整形滤波器。 s i ( z ) = h i ( z ) w i ( z ) 也( z ) 0 i 3l ; ( 2 3 3 ) 这样,s i ( z ) 可看成考虑了经过感知加权、谐波噪声滤波处理的合成滤波器,。 其冲激响应为s ;( n ) 。零

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论