(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf_第1页
(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf_第2页
(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf_第3页
(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf_第4页
(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(通信与信息系统专业论文)isdn可视电话终端语音压缩算法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着综合业务数字网( i s d n ) 的发展和普及,i s d n 可视电话越来越受关注。 为了充分利用有限的带宽,在多媒体数据被发送到信道上之前,需要对它进行压 缩处理,而高速d s p 的出现使得实时压缩成为可能。i s d n 可视电话采用i t u t 的h 3 2 0 建议,其中语音压缩部分采用g 7 1 l 和g 7 2 8 标准( 低延时码激励线性 预测) 。本文首先介绍了g 7 2 8 涉及的语音编码的基本原理和g 7 2 8 算法,然后 讲述了如何在p h i l i p 公司的多媒体专用d s p 上实现i s d n 可视电话的语音编码, 最后介绍了i s d n 可视电话中的回波问题以及如何设计滤波器来消除回波。 a b s t r a c t w i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e g r a t e ds e r v i c e sd i g i t a l n e t w o r k ( i s d n ) ,m o r ea n dm d 聆a t t e n t i o ni sp a i dt oi s d n v i d e op h o n e t ou s et h e l i m i t e db a n d w i d t h e f f e c t i v e l y , t h em u l t i m e d i a d a t as h o u l db ec o m p r e s s e db e f o r es e n d t oc h a n n e l ,a n dt h ea p l a l a n c eo fh i 【g hs p e e dd i g i t a ls i g n a lp r o c e s s o r ( d s p ) p r o v i d e t h e p o s s i b i l i t y o f r e a l - t i m ep r o c e s s i n gm u l t i m e d i ad a t au s i n gn u t r e c o m m e n d a t i o n g 7 1 1 ( al a w ) a n d g ;7 2 8a 托u s e di ns p e e c hc o d e co f i s d nv i d e op h o n e t h i sp a p e r f i r s t l yi n l t o d u e e s b a s i ct h e o r yr e l a t e dt og 【_ 7 2 8a n dl o w - d e l a yc o d ee x c i t e dl i n e a rp r e d i c t i o n ( l d c e l p ) o fg 7 2 8a r i t h m e t i c t h e ne x p a t i a t e s h o wt o i m p l e m e n tg 7 1 1a n dg 7 2 8 u s i n g t m l 3 0 0 ( d s p o f p h i l i pc o m p a n y ) i ni s d n v i d e op h o n e a tl a s tt h ep a p e ri n t r o d u c e st h ee c h oi n i s d nv i d e o p h o n e a n d h o w t o d e s i g n a f i l t e r t o c a n c e l t h e e c h o 。 北京邮电大学硕士论文i s d na t 说电话终端语哥压缩算法的研究与实现 日i j 舌 电话早已以其方便、快捷等特点被广泛应用,成为人们日常生活、工作中不 可或缺的通讯工具。但是长期以来普通的电话机是“只闻其声,不见其人”,而 可视电话正是为了满足“见其人”的目的而设计的。 可视电话的发展经历了漫长的过程,1 9 6 4 年,a t & t 就向人们展示了它的第 一部可视电话,但是由于价格、:技术、统一标准等原因,一直没能够普及开,直 到1 9 9 2 年a t t 才推出面向家庭市场的可视电话价格高达1 5 0 0 美元。 在我国,随着近年来通信建设和通信技术的快速发展,对可视电话的研究也 逐渐成为需要和可能。按照传输网络划分,可视电话可以分为三种类型: 1 ) p s t n 可视电话,采用i t u - th 3 2 4 标准。优点是网络普及程度高,但是 由于受到带宽限制,效果不理想。 2 ) i s d n 可视电话,采用i t u th 3 2 0 标准。由于i s d n 采用2 b + d 的数据传 输,效果明显优于p s t n 可视电话( 这里所说的i s d n 是窄带i s d n ) 。 3 ) i p 可视电话,采用i t u th j3 2 3 标准。受网络质量的影响,效果不稳定。 这里只介绍本文涉及的i s d n 可视电话的相关内容。i s d n ( 综合业务数字网) 出现于8 0 年代初期,近年来在我国迅速推广开来。它的基本特点是利用单一的 通信网络实现包括语音、文字、数据、图象在内的综合业务。用户通过一个标准 的,多用途的用户网络接口接入i s d n 网,用一条电话线即可实现电话,传真, 可视图文,以及数据通信等多种业务。数据传输采用2 b + d 的方式,其中b 信道 为6 4 k b i t s 速率的承载信道,d 信道为1 6 k b i t s 速率的信令信道。 i s d n 可视电话采用i t u - th 3 2 0 标准,其中图像压缩采用h 2 6 1 ( 必选) , h 2 6 3 标准,语音部分采用g 7 1 1 ( 必选) ,g 7 2 2 ,g 7 2 8 ,g 7 2 9 等标准。通信 协议采用q 9 3 1 ,h 2 4 2 ,h 2 2 1 等标准。 可视电话得以发展的不可缺少的因素是d s p 芯片技术的发展,离开了高速处 理器,复杂的多媒体压缩算法是不可能实时实现的。常见的d s p 主要有t i , m o t o r o l a ,p h i l i p 等公司的,按照功能分为通用d s p 和专用d s p 。 本文的主要内容是介绍如何在p h i l i p 公司的多媒体专用d s p 一一 前苦 t r i m e d i a l 3 0 0 上实现i s d n 可视电话的g 7 1 l ,g 7 2 8 语音编码算法。分为四部 分寒溺述:g 。7 2 8 涉及鹳语费缡玛懿基本莲论;g 。7 2 8 语音滋绫募法;使瑁t m t 3 0 0 在w 视电话中实现g 7 1 1 ,g 7 2 8 算法:i d s n 可视电话中的回波消除。 2 北崴邮电大学坝士论义i s d n 可擞电活终端语音雎缩算法的 l j f 究q 实现 第一章g 7 2 8 涉及的语音编码理论 第一节概述 自获3 0 年 弋脉冲编确调韶j ( p c m ) 技术和声弼器( v o d e r ) 问_ 鎏以后,语音编 码技术得到迅速的发展。总的来说语音编码方法归纳起来可以分兰种: 波形编码 参数编码 混合编码 1 1 1 波形编码 所谓波形编码就是在尽可能遵循波形的前提下,将模拟波形进行数字化编 磷。波形编码豹基标是迁瓣璐器羧复出夔模熬壤弩在波形史尽量冬绫玛蓑爨始波 形相一致,即失真臻最小。波形编码的方法简单,数据速率较高,它有较好的话 音质量与簸熬靛实现方法,魄特攀一般在1 6 k b p s 至6 4 k b p s 之蠲。在3 2 k b p s 至 6 4 k b p s 之间音质优良,当数码率低于3 2 k b p s 的时候音质明显降低,1 6 k b p s 时音 质菲常羞。 量 化 赣 出 数 籀 x l 确 x 3玛 采樽输 样本值 量 钯 输 出 数 据 x l x 2 x 3 x 4蜀x 6 獭 撵械 餮i 。1 i 1 怼赫囊纯 编码前遵守采样定理对模拟语音信号进行抽样,量化,编码解码器作d a 变换后辩由低通滤波器重建语音波形,这就是最简单的脉冲编码调制( p u l s e c o d e 第一章g 7 2 8 涉及的语音编码理论 m o d u l a t i o n ,p c m ) ,也称为均匀量化线性p c m ,如图1 1 1 1 左所示。典型的采 撵频率是8k h z ,魏采耍获得高啻蒺,样本精度耍疆1 2 馒,它的数据牵裁等于 9 6k b s 。 缀多波形编舀都是在鹤匀量纯线性p c m 的基确上进行匿缩,方法通常有非 线性量化,差分编码、自适应预测等。 菲线性萋亿在2 0 世纪8 0 年代就已经标准化,而且壹到今天还在广泛使用。 它的基本原理是,对输入壤号进行蠡化时,根据信号的大小,对太的输入傣号采 用大的量化间隔,对小的输入信号采用小的量化间隔,如图1 1 1 1 右所示。与 均匀量化糨眈较,# 均匀囊纯改替了小信罨对的璧纯信噪魄。这样簸可以褒满足 精度要求的情况下用较少的位数来表示。如果量化后数据为8 位,那么它的数据 邃率为6 4k b s 霹,重构戆话音信号凡乎鸯原始的话音信弩没有铮么差别。 均 匀量化是通过定义一个输入的模拟信号幅度和量化后输出的数据之间的映射关 系来实现的。这种映射关系有两种标准,一是托美,日本等建区使用的斗镎,另 一种是欧洲,我国使用的a 律。它们的优点是编译码器简单,延迟对间短,音质 高。但不足之处是数据速率仍然比较高,对传输通道的错误比较敏感。 在话意编码串,普遍使用一耱预测技零,这释技术是衾强从过去的样零来预 测下一个样本的值。这样做的根据是认为在话音样本之闻存在相关性。如果样本 戆颈测售与样本豹实际蹙魄较接遥,它们乏翔的差毽幅度的变化就魄原始话音样 本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差 值。这就建差分脉i 串编码调翻( d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ,d p c n d 的基础 一对预测的样本傻与原始的样本馕之差进程编码。 这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法 芝一就是使用自遁应的预溺器私爨化器,这就产生了一种聪傲自适应差分脉冲编 码调锖l j ( a d a p t i v ed i f f e r e n t i a lp c m ,a d p c m ) 。在2 0 世纪8 0 年代,c c i t t ( i t u d , 稔制定了数据率为3 2k b s 豹a d p c m 标猿,它靛啻质 羹龌接近6 4k b s 懿p c m 编译码器,随后叉制定了数据率为1 6 ,2 4 和4 0k b s 的a d p c m 标准。现在很多 m p 3 播放器录音的时候,就是嗣的a d p c m 。 4 北京邮电大学硕士论文 i s d n 可观电话终端语音压缩算法的研宄与实规 1 i 2 参数编码 参数编码是根据人的发声枫理,在编码端对语音信号进行分析,从输入的模 拟话音波形信号中提取各个特征参爨并进 亍量化编码,然嚣包这些参数传i 羲给解 码端,解码端使用这些参数通过话音生成模型重构出话音。因为参数编码的基础 静入的发营机理,所以这种编码方蔽只s 穗子语啻编码。两且它恢复的语音只是 在感觉上与原始语音相似。因为只需要传送模型参数,所以声码器编码后的码率 可以做得报低,基本上在2 k b i t s - - - 4 8 k b i t s 之间。但是也有其缺点:首先 是会成语音质量较莲,往往清晰度可以蔼盎然度没有,即使是缀熟悉的人也不一 定能听得出来。即使提高比特率,也不会有太大的改善:其次是复杂度比较高。 1 1 3 混合编码 混合编译码的想法是企图填补波形编码和参数编码之间的间隔。波形编译码 嚣骚然可提供高话音的震纛,但数据率低予1 6k b f s 的情撼下,在技术上还没有 解决音质的闯题:声码器的数据率虽然可降到2 4k b s 甚至更低,但它的音质根 本不能与蠹然话音襁提并论。为了得到音震高两数据率又低的编译码器,濒史上 出现过很多形式的混合编译码嚣,但最成功并且普遍使用的编译码器是时域合成 分析( a n a l y s i s - b y - s y n t h e s i s ,a b s ) 编译码器。这种编译码嚣使用的声道线性预测 滤波器模型与线性预测编码( 1 i m 甜p r e d i c t i v ec o d i n g ,l p c ) 使用的模型相同,不使 用两个状态( 有声朊声) 的模型来寻找滤波器的输入激励信号,而是企图寻找这样 一释激聚镶号,馒用这耱信号激獭产生鹃波形尽酉能接谶予原始话音的波形。 a b s 编译码器由a t a l 和r e m d e 在1 9 8 2 年首次提出,并命名为多脉冲激励 ( m u l t i - p u l s ee x c i t e d ,m p e ) 编译筠器,在既基础土髓后出现的是等婀隔脑漪激励 f r e g u l a r - p u l s ee x c i t e d ,r p e ) 编译码器、码激励线性预铡c e l p ( e o d e e x c i t e dl i n e a r p r c d i c 畦v e ) 编译码器和混合激励线性预铡( m i x e d e x c i t a t i o nl i n e a rp r e d i c t i o n ,m e l p ) 等编译码器。 下图简单明了的说明了三种编码方式的特点: 塑二里垒! ! ! 鲨些塑堡堡塑些墨堕 第二节线性预测编码 线性预测编码是以发膏机制的模型作为基础,下面就从语音产生的机缨及其 模蓬开始泉介绍。 1 2 i 语音产生的梳理及模型 入发穗静语裔是壶发啬器害镪摇薅,气管,壤,声带,鼻以及勰照寒完成酌。 喉以上的部分称为声道,他们的形状随着发出声音的不同顾变化。喉的部分称为 声门,即声带的歼口。喉以下为旆和气警。其中肺是产生气流的能源,喉鼹产生 谖音的震动源,声道( 从喉到脬,包括口腔,鼻黢) 是谐振腔。 在发蒲时,气体首先从肺部聪入气管,在气管的上端避喉,在喉部的甲状软 嚣露蓼状敬夤之阕,是声磐。当声豢张器孵,空笺霹鞋霆囊遣透避喉窝气管,正 常呼吸时就出于这种状态t 当它们合拢时,声带就将喉封住。说话时,声带靠拢 穗不封 i l ,形藏一条窄缝,姿气流逶过窄缝薅,声带藩毽办减夸,声豢鬻会,气 流不能通过,气流阻断时,压力恢复正常,声带又形成空隙,气流又可以通过, 这样张歼,闭合,璧复进行虢形成了周期往的脉冲气流送入声遒产生声音, 如图1 2 ,1 1 所示,这种方式形成的声音称必“浊裔”。这个周期气流脉冲的周期 t 。称为“基因周期”,其例数称为“基音频率”。基音频率与声带的尺寸祷特性 蠢关,懋取决手掰受懿张力。在发啻对,声豢被控懿越长,越紧,越薄,羯发密 的声音频率越高。成年男子的基摩频率火致在6 0 2 0 0 h z 之间,女性和儿童的 6 北京i | i f 电大学顺士论文 i s d n 百t 观电话终端语音压缩算法的研究畸实现 这个值在2 0 0 4 5 0 h z 之间。此外,语音遥有一种产生方式,声门完全关闭,利 爰霜膣内残存鳃空气释款发出声誊,该气浚在逶遘一令狭窄逶遂惹在疆整形残一 个湍流,明显具有随机噪声的特点这种发音通常称为“清音”。 镬兰 ,厂:厂 一“一 典掰的声 湛冲申谜雌 嚣1 。2 。1 。1 波誊生成零意嚣 声道( 喉以上的部分) 起调音的作用,气流从喉向上缎过口腔或鼻腔麟从嘴 或者鼻孔向外辐射。声道犹如具有某种谐振特性的腔体。其中对成年勇予,其鼻 腔长度约淹1 3 e r a ,从声门劐嘴的警均长度约为1 7 霪米,这鼓生璞上决定了语音 信号中在1m s 数量级内的数据具有相关靛( 短时相关s h o r t - t e r mc o r r e l a t i o n ) 。 实瓣熬声遴横截蘩嚣积是一令变数,瑟声邀频率特撩圭要数决于声遂截瑟戆最小 点出现的位置,这主要由嚣来控制。语音的频率特性既取决于声门脉冲串的特性, 又取决于声遒靛特性。 在建囊语音模型的过程中把声道看作一个参数缓慢变化的滤波器,把漓音看 作用随机序列激励这个滤波器的绪果,把浊音看作周期性脉冲激黼的结果。其中 声道滤波器可以采用皂圜归滑动平均( a r m a ) 攫型远似嘲嘲: ,m、 g l l 一瓯2 _ l a r m a 耋罄整淆渤平鸯模鳌:h 国= l 尘o i 一掣” 抽t a r m a 横型是有零极点模型,它还有两种重要的变体形式:a r 横型和m a 模型 涝动平均( m am o v i n g - a v e r a g e ) 模型:只有零点,故又称为全零点模型 7 第一章g 7 2 8 涉及的谮哥编码理论 ( :) :g f l - 兰叩一0 翁 自回归( a r a u t o r e g r e s s i v e ) 模型:只有极点,故又称为垒极点模裂。 栉国= 1 一叩“ 由干a r m a 模型和m a 模型的系数求解幽难,而阶数足够高的a r 模型可以很 姆缝搓述a r m a 模蘩帮m a 摸鍪,著量a r 模垄宿遴羟求解募法,放声邋滤波 器常采用全极点的a r 模型。 在此情况下,辐射、声道以及声门激励的组合谱效应用一个数字滤波器来袭示, 箕系统稳态系统溱数豹形式为: 喇。粥2 而g 嚣 对于浊音语音,这个系统受周期穿列激励;对于清音语音,刚受黻梳嗓声侉列激 励。因此,这个模型的参数有: 浊音,清鬻判断 避手洼誊语音载簇鑫震期 增益参数g 滤波器静系数斌 当然,联赛这些参数都随时间缓幔变化;在极短的对段内,倒如足毫秒,可以近 似为短时时不变。 这耱篱证懿全援点模毽怼予藜奏音洼密语音怒一秘含乎叁然鹣接述,褥对手 鼻音和摩擦音,细致的声学理论表明声道传输函数既有极点又有零点。但是一个 8 圈一 北常邮i 乜大学颁士论史 i s d n 可桃电话终端语爵压缩算法的 i j f 究畸实现 零点可以髑无穷多个极点来逼近,即 ( 1 一戳。) = l 一( a z 4 ) 。 l ”的时候s 0 一女) = o ,此时就会引入误差。从物理意义上讲这就相当于试 图用一些零值来预测当前值:当n 行的时候,s ( n ) = 0 ,也会引入误差,从物 理意义上讲这就是用实际的样本值去预测零值。由此我们可以看出为了减小上述 1 2 北京邮i 乜大学顺l 论史 i s d n 可视电话终端语音压缩算法的研究与实现 窗口两端的误差,不宜采用突变的矩形窗函数,而应该使用两端具有平滑过渡特 性的窗口。而且当n p 的时候,引入较大误差的部分在整个语音帧中所占的 比例很小。自相关算法所得到的参数估计值相对来说比较准确。在语音信号处理 中,n 的值一般在1 6 0 2 0 0 之间,p 的值一般在8 - 1 2 之间,符合n p 的条件。 在自相关法中,自相关序列的估计值被定义为 一i ,( - ,) = s ( n ) s ( n - j ) 0 ,p n = o 这种估计值保留了信号s ( n ) 自相关序列的特性:r ( j ) 满足偶函数的特性,即 r ( j ) = r ( - j ) ;r ( j - i ) 只与j 和i 的相对值有关,而与j 和i 的绝对值无关。因此 ( 1 2 3 2 ) 也可以写成( 1 2 2 8 ) 那样的自相关矩阵形式,这种求解的方法称 为自相关法,而此时预测器的均方误差可以用下式去求 驴葛z ( h ) 这是因为p 阶滤波器的预测误差e ( 行) 只有在0 1 1 n l + p 范围内不为零。 用自相关法求解预测滤波器的时候,可以把式( 1 2 0 30 2 ) 的r ( j ) 代入到基本 方程组的矩阵( 1 2 2 - 8 ) 中,其中,u ) 组成的自相关矩阵r ,。是( p + 1 ) + 时1 ) 阶的对称的t o e p l i t z 矩阵,对于t o e p l i t z 矩阵方程组,可以推导出一种高效的递 归算法。所谓递推算法是指p 阶的预测器的系数可以用q - 1 ) 阶的预测器系数去推 导,0 1 ) 阶的系数又可以用0 - 2 ) 阶的推导,以此类推,可以从设定的初始值 开始,由低阶系数向高阶系数推导。下面通过一个具体的例子进行简要的推导, 假设线性预测器的阶数p = 3 ,则由式( 1 2 2 8 ) 可得 ,( o ) r ( 1 ) r ( 2 ) ,( 3 ) ,( 1 ) ,( o ) r ( 1 ) ,( 2 ) r ( 2 ) r 0 ) ,( 0 ) r ( 1 ) e 3 0 0 o 其中口 ”,口p ,d ;3 是t m 3 时的各预测系数,e 3 是1 3 = 3 时的均方误差,同样, 当p = 2 的时候有 o m:, 蟊 口 口 一 一 一旷ooooooo且 苎二兰竺! i 坠竺堕堡塑堡堡堡 r ( o ) r ( d i ,( 1 ),( o ) i r ( 2 ) r ( 1 ) 假设 1 一口j 3 一口 3 一口:3 1 ,0 2 口p o k 3 0 一口;2 一口j 2 1 其中k :为某一常数,称为反射系数,由上式可得 - a 1 3 = - a 1 2 + k 3 a :2 一口;3 = 一口 对+ 七3 耐2 一盘;3 】= - k 2 由于( 1 2 3 4 ) 式中有对称的t o e p l i t z 矩r ,所以把式中的相关矢量反向,可 以得到 t o ) ,( 2 ) 1 一口;2 ) ,( 0 ) 胄n ) 0 一口f :) ,( 1 ) i o ) j l l= 圈 把式( 1 2 3 5 ) 代入式( 1 2 3 3 ) ,并利用式( 1 2 3 o 6 ) 的性质,可得 ,( o ) ,( 1 ) ,( 2 ) 厂( 3 ) ,( 1 ) ,( o ) ,( 1 ) r ( 2 ) ,( 2 ) ,( 1 ) r ( 0 ) r ( 1 ) 一岛 矧 _ 最 0 0 g 此式与式( 1 2 3 3 ) 完全等效,q 为一附加因子,等号右侧各行对应相等,即 1 一口5 2 一口p o 一毛 所以有e 最一七,g 及b 2 苦 0 硅2 一口1 2 l 1 4 疋 0 0 o e 0 o = 口 口 一 一惘姗聊 口 口 , 一 一o _。,。,l 1lillfjj 、,、,)、,哟柏呐懈 北京邮电大学硕士论文 i s d n 可观电话终端语音压缩算法的研究与实观 看式( i 2 3 7 ) 中的第一项 由上式可得 r ( o ) r o ) r ( 2 ) ,( 3 ) r 0 ) r ( 0 ) r ( 1 ) r ( 2 ) ,( 2 ) r ( 1 ) r ( 0 ) r ( 1 ) 口:2 口;2 e 2 0 0 g q = r ( 3 ) x 1 - r ( 2 ) a i ”一,( 1 ) 口:2 + ,( o ) 0 = ,( 3 ) 一口f 2 r ( 2 ) - a ;2 ,( 1 ) 2 = ,( 3 ) 一砖2 r ( 3 - 0 参考式( 1 2 3 8 ) ,有 丘:旦: r ( 3 ) - 口:2 r ( 3 - i ) 马= e 2 一岛g = 昱2 一( 毛) 2 岛= 【l - ( k d 2 】e 由于均方误差e ,= e p 2 ( 挎) 】非负,故【l 一( k d 2 1 0 ,即i 七3i 1 ,从而有臣 e 2 a 由此可以看出预测器的均方误差会随著阶数的增加而减少,其预测精度随着阶数 的增加而提高。 把上述p = 3 的例子中的( 1 2 3 5 ) ,( 1 2 3 8 ) ,( 1 2 3 9 ) 等的公式推 广到一般情况,则可以得到以下的递推公式 1 1 r ( i ) - a o - 1 ) r ( i 一,) 耻首 4 0 = t a = 4 p - k h n o 一- j 1 e f = 【1 - ( k 。) 2 】e 。 1 s t s p ( 1 2 3 9 ) 1 j s i - i 上述推导公式中的f - , o 可以由式( 1 2 3 6 ) 推导得磊= r ( o ) a 经过上述各式的推 讥一 炉 m r r r r 第一竞g 7 2 8 涉及的语青编码理论 导运算之后,可以得到i = l ,2 ,p 各阶的解,我们需要的只是最后结果,第p 徐的解e ,口罗。 综上赝述,可以得到最常用的鑫楗关法的递归步骤一一篆文逊一杜粪 ( l e v i n s o n d u r b i n ) 算法: ( 1 ) 递归扶i = 0 嚣始, n = 0 ,eo 吲0 ) ,a 5 0 - a ? = l ( 2 ) 对予第i 次递! 貊 r ( i ) - 秽。r ( i 一力 i k j = 苎:_ 一 1 i s p 玩, i i 口p = 岛 i i i 口尹= 。一屯蟛 i _ j i - i i v 。 互= g 一砰) 嚣扣, ( 3 ) 按照( 1 ) ,( 2 ) 步骤从i - - i ,2 ,一直求到i = p 。最后得到的 口i = 矗p 1 s j s p 繇= r ( o ) r i ( 1 一砰) = g 2 1 = 1 翻于在毒辐关法巾反射系数南始终满是| 屯i 算法延时( a l g o r i t h m i c1 ) e l a y ) :算法延时主要是语音编解码的处理延时。 这里的算法主要是语音的编解码算法,语音编码通过使用固定长度的取 样窗口来产生数据流,这将构成编码算法的固有最小时延,该时延与窗 口长度相同。另外,由于编码算法前向预测时需要一定长度的前视,因 此,总的算法延时是时间窗口与前视之和,由于这都分时延是由算法本 身决定的,通常是无法减少的。 处理延时( p r o c e s s i n gd e l a y ) :是指对语音信号进行编解码运算处理造成 的延时。减少这部分延时通常有两种方法:一是可以通过采用具有更高 处理速度和更大存储空间的硬件来加以改进;二是在硬件已经确定的前 提下,可以针对当前硬件情况( 处理速度和存储容量) 对算法进行优化。 除了上述两种延时,还有一种与语音编解码无关的延时:传输延时,是指从 编码器输出数据到解码器收到该数据之间的时间差。 上述三种延时的总和被称为单向系统延时。在没有回声的情况下,可以容忍 的最大单向系统延时是4 0 0 m s ,但是为了便于通信,最好使单向系统延时小于 2 0 0 m s 。在存在回声的情况下,可以容忍的最大单向系统延时是2 5 m s ,超过这个 值就要使用回波抵消器。 比如l d c e l p 与c e l p 相比,就是为了获得小的编解码延时,而用后向自 适应预测代替前向自适应预测。这样就牺牲了语音质量。为了提高语音质量, 一 墨二垦垒! 塑鲨塾塑迢堂苎璺墨造 l d * c e l p 又省去了长时滤波器,同时把短时预测滤波器的阶数由1 0 阶提升到5 0 阶。这样义牺牲了舞法复杂度,来换取语骜质量。憨的来说还是以算法复袈度换 取低时延。 1 4 4 复杂度 语音编解码算法复杂度同上述的三个豳素都脊密不可分的关系。在同样的条 传下,算法越复杂,一般来说语誊震量就憨好,速率越低。 算法的复杂魔只要体现在两点;一个运算复杂腹,是指算法需鞭的运算速度, 遴鬻爱百万条指令每秒( m i l l i o ni n s t r u c t i o n sp e rs e c o n d ,m i p s ) 黉鬟;爨一个 是算法需要的存储能力,通常用比特数来衡量。这:者也照相互影响的,可以通 遥增加新鬻内存空闻静方浚在一宠程度上海低运冀复杂凌;反遘来氇萄戳撬离运 算复杂度束减少需要的存储空间。一般认为需要的运算速度低于1 5 m i p s 的语音 压缩算法为低复杂度的,商予3 0 m i p s 的被认为燕高复杂发的。 算法复杂度越离,就意味羞要求d s p 豹处理遮度越强,以及震要鸵襻储空 间越大,会导致芯片的数嗣和成本增加。所以算法复杂度从某种意义上决定了编 黪避器瑗佟靛成本,体积辍瑰耗等。 表1 4 4 1 里面列出了常用的语音压缩标准的性能比较,从中w 以看到g 7 2 8 鸯低延薅,低码率,高震囊酶嚣赢,显然算法簧条度高一些,鬣漫我嚣j 镬爝豹 t r i m e d i a l 3 0 0 芯片有足够强大的处理能力,完全可以胜任采用g 7 2 8 情况下的多 媒体数据的实时鳃理。 算法时延复杂度 酗o s 分i |应翔标难,公毒年戎编鹃羹法魄将率( k b s ) 。 l ( f n s )m i p s g 7 1 1 1 9 7 2p c m6 40 1 2 50 0 14 3公用电话网 g 7 2 6 1 9 9 0a d p i :ml 癣2 聪躲oo 1 2 52 | 4 1 0 2 k w s ) z 公用壤话弼 g 7 2 8 1 1 9 9 2i n c e l p1 60 6 2 5 3 04 o +公用电话网 m p c - m l q 6 31 4 8 g 7 2 3 1 1 9 9 53 7 53 8多媒体通信 a c g l p5 31 6 g 7 2 9 1 9 9 5 c s - a c e l p81 5 2 04 0移动瑰话 & 7 2 9 削1 9 9 61 l3 。7i p 电话 g s m f i v l 9 8 8r p e u 限 1 3 2 05 3 7 移动电话 北京邮电大学硕t 论文i s d n 可视电话终端语音压缩算法的研究与实现 g s m - e f r 一1 9 9 6 厅石矿厂f f 丁厂丽 g s m - h r 1 9 9 4 一卜五f 厂f f f 厂万一丽 丽阿厂矿f 可f 丽 表1 4 4 1 各种语音算法性能比较【6 】1 7 】 北京邮电大学硕士论文 i s d n 可观电话终端语音压缩算法的研究畸实现 第一节概述 第二章c 工7 2 8 算法介绍 监进雁幡 一丁 一量f 1 6 豁 雹2 1 26 7 2 8 解码示意图 l d c e l p 是基于综合分析原理并考虑了听觉特性特点是:1 高阶反馈自适应 线性预测;2 ) 用于激励信号的反馈增益自适应矢量量化;3 ) c e l p 的分析合成激励 码表搜索;钔自适应后置滤波器。语音输入为每帧5 个样值,附加上激励信号的波 形与增益表达信息共1 0 b i t 。 l d c e l p 算法保留了传统c e l p 算法的优点,即通过分析合成的方法 搜索激励码本,确定最佳激励码矢量的索引号,使得预测波形与实际波形的感知 苎兰堡垒:! ! 整堡垒塑 加权均方误差最小,解码的时候用收到的最佳激励码矢量索引从和编码方相同的 激藏玛表爨嚣选懑该矢量,送入璞藏调整攀元秘合戒滤波器,簸甏鞋绞复语音。 l d c e l p 与传统c e l p 算法的主要区别在予后向自适应预测器代替前向自 逶痘预测器a 在磊囱鑫适疲结秘串,短对预测器系数不是欢输入的语音分褥计算 得到的,丽是使用先前量化过的语音信号进行l p c 分析计算得到的。对数域里 的增益预测器也怒也是利粥先前豢化过的信息进彳予l p c 分析计算得到的。每5 个梯本更新一次预测滤波器系数和激励增藏。这样的话输入的语音样值不需要进 行长时间的缓冲,就可以计算出滤波器系数用于本次语音样本的滤波。帧时延由 2 0 m s ( 缓i 串1 6 0 令徉奉) 缝短裂0 6 2 5 m s ( 缓跨5 令样本) 。 从原理图上可以看到编码器没有使用基音滤波器( 长时滤波器) ,这怒因为 凳! 低廷辩瓣袋裁。螽采使耀基謇滤渡器,瞧耍傻鼷惹鑫簇测滤滚,毽是实簸表爨 v z 后向基音滤波器对信道误码很敏感 2 9 1 ,即抗误码能力麓,或者说鲁棒性差, 戮梵在l d - c e l p 率去捧了基音滤波嚣,袋使用斑对滤波器。僵惫这样又琴 起了 语音质量的下降。实验表明i 柳,巍短时滤波器的阶数达到2 0 阶的时候男声质量 基本饱和;阶数达到5 0 的时候,女生质蔗才达到饱和。因此在l d - c e l p 中用 5 0 阶戆合成滤波爨代替基啻会成滤波器翻短黠会成滤波器。 编码方式l d 屺e l p c e l p 羧延对0 。6 2 5 m s2 0 m s 基蒲滤波器无 3 l p c5 0 1 0 预测器质逝 髓向 l p c 参数;基酱周期: 要传送熬参数 激黠璐索弓l 萋音预测器系数;激 励增益:激励码索引 震耋( m o s ) 曩o3 2 第二节编码器 编码器的输入为6 4 k b s 的a 律或u 律p c m 数据,编码器首先将此数据归一 北京邮电大学顺上论文 i s d n6 f 视电话终端语音压缩算法的研究与实现 化到一个算法规定的统一的电平范围。然后把每j 个连续样值看作一个5 维矢量 进行分块。对于每一个矢量,编码器用码本中所有 0 2 4 个码矢量依次激励增益 调整单元和合成滤波器单元得到一个相应的量化输出矢量。码表搜索单元从所 有的量化输出矢量中选取一个与当前输入的语音矢量的感知加全均方误差最小 的码矢量,并将此码矢量的索引( 1 0 b i t ) 作为编码输出。送给解码器。然后增 益调整单元和合成滤波器使用这个最佳矢量码建立滤波器状态,为下一个输入语 音矢量的编码做准备。 第二章g 7 2 8 算法介绍 激励矢量量化( v q ) 码书索引是从编码器到解码器传送的唯一信息。有三种类 型的参数将周期性地更新:激励增益、合成滤波器系数和听觉加权滤波器系数。 这些参数采用一种后向自适应方式利用先前出现的信号矢量来进行更新。激励增 益每个矢量更新一次,而合成滤波器和听觉加权滤波器系数每四个矢量更新一次 ( 即一个2 0 样本或2 5 m s 更新周期) 。注意到,虽然算法中的处理序列有一个四矢 量的自适应周期,但是基本缓冲大小仍然只有一个矢量( 五个样本) 。就是这个小的 缓冲使得可能获得一个小于2 m s 的单向时延。 2 2 1 使用混合窗函数进行l p c 分析 在l d c e l p 算法中,合成滤波器系数、感知加权滤波器系数以及激励增益 都是采用l p c 分析技术来自适应更新的。在前面叙述求解预测系数的时候已经 讨论过,在求解l p c 分析的自相关系数的时候,通常是要加窗函数的,如下图 所示: 图2 2 1 1 混合窗函数 假设每隔l 个信号样本完成一次l p c 分析为一般性起见,假设相应当前 l d c e l p 自适应周期的信号样本是s 。,s 。( m + 1 ) ,s 。( m + ,s 。( m l 一1 ) 。然后, 对于后向自适应分析,对所有下标小于m 的先前样本运用混合窗口,如图所示。假 设在混合窗口函数中有n 个非递归样本,那么信号样本s 。( m - 1 ) ,s 。( m - 2 ) , s 。( m n ) 利用窗口的非递归部分进行加权运算。从s 。( m - n t ) 开始,该信号左侧所 北京i i i l j t 0 大学硕士论义 i s d n 可视i b 话终端语音压缩算= 法的 i j 究与实现 有的信号样都本利用窗口的递归部分进行加权运算,其值为b , bq ,ba :,其中 o b t :o 8 l 。 在m 时寡4 ,混舍窗函数( 七) 被定义为 y a k ) = b a 一忙叫”“瑚 k s m n 一1 w 。( 七) = g 。( k ) = - s i n c ( k 一掰) 】 m n s k m 一1 ( 2 2 i 1 ) l o 女m 这样,经过塞蔽数搬投最鲍信号隽 f 扎( k ) b a q + 1 ”“” k sr n n 一1 。,( ) = s 。( ) ( 七) = 一s 。( k ) s i n c ( k 一班) 】辨一n 蔓七s m 一1 ( 2 2 l 2 ) 1 0 怼手一令酝狳戆l p c 分授t 嚣要诗舞醛 l 令叁褶关系数最。( 棼,莫孛 i = 0 ,l ,2 ,m 。强前自邋应周期的第i 个自相关系数可以表示为 r 。( f ) = s 。( 露) s ,( k - 0 = ( 1 ) + s 。( 七) ( 七一f ) 女- 女m 其中 m - n - i ( f ) = s , 减( k - o 这样可敬把r 。( f ) 分为两部分,式( 2 - 2 1 , 3 ) 豹豢蟊鹬第一颈为邂癌部分( i ) , 第二项为 递5 聩帮分。非递归部分的有限髑每个囊适应周期更蔌一次,递烟部分 烧一个无限项和,可以循环递归计算。 缓定,当翦鑫逶应焉麓熬鸯穗关系数( 磅邑缀被全鼙每 募势菇诺,势将要进 程下一个爨适应周期的计冀( 榉德从s u ( m + ) 开娥) 。当家口右移l 个样使之后, 新的经过窗口函数加权盾的信号为 | & ( 蟊。亳) = s 。( 是) 五( 蠹渣 k 搬l n 一1 s 卅+ ( 七) = 盘。( 七) w 卅( 尼) = 屯( 七) “( 七) = s 。( k ) s i n c ( k m 一三) 】,”+ 三k 茎川+ 三一1 l 。 l 辫+ 递推分量k + 。( f ) 可以写为 第二帝g 7 2 8 算法介绍 或者 o + l ( f ) = s 。( 女) j ( - i ) t - 咖 _ - n - im + l n j = j 。( 七) j ,+ 。( k - i ) + j 。( 女) j 。( t f ) m 一一im + l n - i = s 。( t ) 厶( 七) 口5 。( t f ) 厶( 一f ) 口+ s m ( 七) s ( t f ) t - k i r a - n m + l 一一l + ( f ) = 口2 厶( f ) + s “( 七) s m ( 女- i ) k - m - 由上面的推导可以看出k 。( f ) 可以利用式( 2 2 l 4 ) 递归的从_ ( f ) 中计算出 来。可以把新计算出来的,卅+ 。( f ) 存回到存储器中,以便在下一个自适应周期使用。 这样自相关系数r m + l ( f ) 可以用下式递归计算 m + l i r m + l ( f ) = k + ( f ) + s “( 七) s 。+ ( t f ) k f f i m + l 一 这样使用递归的方法来计算自相关系数,有效的降低了算法的复杂度。而且利用 非递归部分对当前自适应周期的样值加权,从而保持了对输入语音信号的局部动 态特征进行了有效的跟踪,保证了l p c 分析的精度。 得到了m + 1 个自相关系数r ( o ,i = o ,1 ,2 ,m + i 之后,还要进行“白噪声 修正”,修正过程是按照下式进行的 e r ( o ) 扣嚆】r ( o ) 上式中的噎荨被称为白噪声修正因子,用w n c f ( w h i t e n o i s ec o r r e c t i o n f a c t o r ) 表示。这相当于用白噪声填充谱谷,降低了谱动态范围,改善了下面将要 进行的莱文逊杜宾( l e v i n s o n d u r b i n ) 递推的条件。 前面已经讲过,在算法中有三个地方用都到了上面所讲的混合窗函数和白噪 声修正技术,只是三个地方使用的参数不完全相同,如下表所示: 北京邮电大学硕士论文 i s d n 可视也活终端语音压缩算法的研究与实现 m ( 滤波器阶数)5 01 01 0 l ( 更新周期) 2 0 2 04 n ( 非递归长度) 3 5 3 02 0 w c n f ( 自噪声修正因 2 5 7 2 5 62 5 7 2 5 62 5 7 2 5 6 子) ( 递归因子) 口2 。 0 9 9 2 8 3 3 7 4 9 0 7 50 9 8 2 8 2 0 5 9 8 0 50 9 6 4 6 7 8 6 3 0 7 5 2 2 2 感知加权滤波器自适应 。 一 一日2 2 2 厂辱翔丽援谤谣蕃自遥窿。 ( 对应于田22 的模块3 ) 自适应过程每隔四个语音矢量计算一次听觉加权滤波器的系数,计算基于对 非量化语音信号的线性预测分析p c 分析) 。系数在每个自适应周期的第三个语 音矢量处进行更新。在更新期闻系数保持不变。其计算过程如图2 2 2 1 。所示: 首先,输入语音信号通过混合窗口模块,并得到所观察的语音信号的第一组u 个自 相关系数;然后,采用l e v 妇o n d l l 】r b i n i 毯归模块,将自相关系数转化成预测系数;最后 基于预测系数,加权滤波器推导出所需的加权滤波器的系数。 感知加权滤波器的原理在第一章已经介绍,参见式( 1 3 3 2 ) ,( 1 3 3 4 ) 具体到g 7 2 8 中w ( z ) 中的 , 分别取0 9 ,0 6 。 2 2 3 后向合成滤波器自适应 此模块用于更新5 0 阶的合成滤波器的系数。更新过程如图2 2 3 1 所示 一一一一一一一目动_ 确否鼯黼看矿一一一一一一 ( 对应于瞳2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论