8~64kbits超宽带嵌入式语音频编码方法.doc_第1页
8~64kbits超宽带嵌入式语音频编码方法.doc_第2页
8~64kbits超宽带嵌入式语音频编码方法.doc_第3页
8~64kbits超宽带嵌入式语音频编码方法.doc_第4页
8~64kbits超宽带嵌入式语音频编码方法.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

864kbit/s超宽带嵌入式语音频编码方法贾懋珅,鲍长春,李锐(北京工业大学 电子信息与控制工程学院 语音与音频信号处理研究室,北京 100124)摘 要:基于国际电信联盟标准化组织(ITU-T)编码标准G.729.1和改进的调制叠接变换(MLT, modulated lapped transform)编码技术,提出了一种码率在864kbit/s的超宽带嵌入式变速率语音与音频编码方法,其中,832kbit/s码率的码流由G.729.1编码算法生成,编码信号为07kHz频段的信息;36、40和48kbit/s码率层及56、64kbit/s码率层码流由MLT变换编码方式生成,编码信号分别为714kHz频段的信息和G.729.1编码残差的MDCT信息。客观和主观听力测试表明本编码器的性能达到了ITU-T提出的参考指标要求。关键词:语音处理;语音编码;音频编码;嵌入式编码中图分类号:TN912.3 文献标识码:A 文章编号:1000-436X(2009)05-0027-08864kbit/s super-wideband embedded speech and audio coding algorithmJIA Mao-shen, BAO Chang-chun, LI Rui(Speech and Audio Signal Processing Lab, School of Electronic Information and Control Engineering, Beijing University of Technology, Beijing 100124, China)Abstract: Based on the international telecommunication union telecommunication standardization sector (ITU-T) recommendation G.729.1 and modified modulated lapped transform (MLT) coding, a super-wideband embedded variable bit-rate speech and audio coding algorithm was proposed, the bit-rates of this codec was from 8kbit/s to 64kbit/s. The information in the frequencies of 07 kHz was encoded by G.729.1 codec at 832kbit/s, the information in the frequencies of 714 kHz was encoded by the transform coding at 36、40 and 48kbit/s, and G.729.1 residual signals MDCT (modified discrete cosine transform) was encoded by the transform coding at 56 and 64kbit/s. The objective and subjective listening tests show that this codec has good performance compared with Terms of Reference given by ITU-T.Key words: speech processing; speech coding; audio coding; embedded coding1 引言收稿日期:2008-09-26;修回日期:2009-03-10基金项目:国家自然科学基金资助项目(60872027);北京市自然科学基金资助项目(4082006) Foundation Items: The National Natural Science Foundation of China(60872027); The Natural Science Foundation of Beijing (4082006)嵌入式编码是以分层的方式编码产生具有嵌入式包含关系结构的码流,编码时根据编码参数重要性的不同将码流分为几个层次,所分的层由一个核心层和一个或多个增强层组成1。其中,核心层提供信号最基本的信息,增强层用以弥补信号的细节信息,随着层数的增加,码流所提供的信息逐渐接近于原始信号。嵌入式编码对有丢包情况出现的因特网和基于网络应用的通信系统都有着重要的作用。嵌入式编解码器可以根据网络的传输状况或对语音与音频质量的要求,选择合适层次的编码信号。在这种情况下,实际比特率的不同导致了声码器提供的语音与音频质量的不同2。若网络带宽允许,接收端接收到所有层的码流,可解码出高质量信号;若带宽受限或出现了分组丢失的情况,接收端收到高层信息丢失的码流,解码器可以在没有高层信息的情况下单独地对接收到的低层码流进行解码。尽管此时解码信号质量较低,但保证了信号的连续性,避免了因为出现信号突然中断而给听者带来的不适。目前,针对语音与音频嵌入式编码的研究主要分为2大类:一类是应用于16kHz采样的宽带信号的嵌入式语音编码算法,如ITU-T的G.729.1标准3,以及2006年提出的嵌入式宽带变速率语音编码G.EV-VBR的提案,该提案已与2008年6月正式标准化并命名为G.718;另一类是适用于48kHz采样的全带音频信号的嵌入式音频编码算法,如MPEG-4音频编码标准中的可升级音频编码4,以及一些学者提出的基于小波变换的可分级音频编码算法5。2007年ITU-T针对G. EV-VBR提出了新的提案,新提案要求要以G.729.1为基础实现一套超宽带多码率嵌入式编码器,目前多家科研机构参与该项超宽带编码标准的制定。本文正是针对此项国际编码标准的制订而展开的研究。2 编码算法概述基于ITU-T编码标准 G.729.1和改进的MLT变换编码技术,本文提出了一种码率为864kbit/s的多层超宽带嵌入式变速率语音与音频编码方法。2.1 编码模式本编码算法可以处理采样率为32kHz的超宽带信号,也可以处理16kHz采样的宽带信号和8kHz采样的窄带信号。表1中列出了本编码器中可供选择的编解码模式。表1编码器的编解码模式模式编码端输入(采样频率)解码端输出(采样频率)超宽带模式32kHz32kHz宽带模式16kHz16kHz窄带模式8kHz8kHz若输入为16kHz或8kHz采样的宽、窄带信号,则只由G.729.1编码器进行编、解码操作而不执行上、下采样和3664kbit/s码率的高层编码。2.2 编码端概述本编码算法运用了嵌入式CELP编码、时域混叠抵消(TDAC, time-domain aliasing cancellation)编码技术、时域频带扩展技术(TDBWE, time-domain bandwidth extension)3以及改进的MLT编码技术。对于超宽带信号主要进行3大模块的操作:码率小于32kbit/s的G.729.1编码操作,36kbit/s、40kbit/s和48kbit/s码率层的MLT编码操作和56、64kbit/s码率层的MDCT残差系数编码操作。编码原理如图1所示。为了与G.729.1编码器保持一致,算法中处理帧长为20ms,每帧超宽带信号的样点数为640。图1 编码原理框图2.2.1 下采样为了保证与G.729.1编码算法相兼容,对输入的超宽带信号Sin_swb(n)首先进行下采样操作。将其通过64阶FIR低通滤波器h(n)进行滤波,滤除8kHz以上频率部分,下2抽样后得到16kHz采样的信号Sdown_wb(n)6,下采样过程如下式所示(1)所选低通滤波器h(n)应该在保证滤除8kHz以上的频率成分的前提下,尽量避免影响到7kHz以下的频率成分。2.2.2 宽带信号的G.729.1编码下采样后的宽带信号Sdown_wb(n)由G.729.1编码算法进行编码,得到832kbit/s码率部分的码流信息。首先,信号Sdown_wb(n)经正交镜像滤波器组(QMF, quadrature mirror filter)分解成2个8kHz采样的窄带信号:低频子带信号Slow_wb(n)和高频子带信号Shigh_wb(n),分别表示原始信号04kHz和48kHz频段的信息。然后,低频子带信号Slow_wb(n)经嵌入式CELP编码技术,生成8kbit/s和12kbit/s 2个码率层的码流信息。利用TDBWE技术提取表征高频子带信号Shigh_wb(n)时域包络和频域包络的参数,并进行编码形成14kbit/s码率层的码流。最后,联合低频子带信号Slow_wb(n)的CELP编码残差和高频子带信号Shigh_wb(n)进行修正的离散余弦变换(MDCT, modified discrete cosine transform),并对MDCT系数利用TDAC技术生成16kbit/s32kbit/s(2kbit/s递增)码率层的码流信息7。2.2.3 714kHz频带MLT系数编码(36、40、48kbit/s)36、40、48kbit/s码率层编码采用的是修正的MLT变换编码技术,编码对象是输入超宽带信号sin_swb(n)在714kHz频段的变换域信息。输入的超宽带信号按式(2)进行MLT变换8:(2)其中,0m639, sin_swb(n)为输入的1 280个样点,这里包括当前帧和前一帧各640个样点,mlt(m)为得到的MLT系数,表示的频率范围是016kHz。提取其中表示714kHz频率范围的280个MLT系数进行处理。提取出的MLT系数在36、40、48kbit/s层进行编码,因此该段系数编码的最高速率为16kbit/s,即MLT系数每帧编码的总比特数为16 000bit/s0.02s=320(3)36、40、48kbit/s 3个码率层编码流程如图2所示。图2 改进的MLT变换编码原理流程图首先,将提取出的280个MLT系数均匀地划分为14个子频带(区域)(区域1区域14),每个子带的频带宽度为500Hz拥有20个样点9。如式(4)所示,依次求出每个子带区域MLT系数的均方值,即该区域的幅度包络值(4)其中,k表示区域的编号,k=1,2,14。其次,将14个区域的幅度包络值在对数域进行标量量化,量化索引值采用哈夫曼码进行编码形成码流10。对于区域幅度包络量化值rms_Q(k) (k=1,2,14),按照由大到小的顺序进行排列。Rindex(k) (k=1,2,14)为排序后区域标号的序列,即区域Rindex(1)的幅度包络量化值最大,而区域Rindex(14)的幅度包络量化值最小。根据各区域幅度包络量化值的大小,来规定各区域的重要性,幅度包络量化值大的区域重要于包络值小的频带,由此可知Rindex(k) (k=1,2,14)也为各区域的重要性序列11。再次,将MLT系数每帧编码总比特数320减去区域幅度包络量化编码使用的比特数和4个分类控制比特,得到剩余可利用的比特数Nab。利用Nab与各区域幅度包络量化值来进行分类操作。每个区域有8种分类(category)方式可供选择(分类0分类7),不同分类方式下,区域所分配的比特数、编码参数和量化步长是不同的,其中,分类0需要比特最多,分类7所需比特数最少(所需比特数为0)。14个区域分类方式的组合Category(k) (k=1,2,14)构成了一种分类方法。选定初始分类方法后进行微调,得到16种分类方法(分类方法0分类方法15),每相邻的2个分类方法中只有一个区域的分类方式不同。选择消耗比特数与剩余可利用的比特数Nab最接近的分类方法作为编码端选取的最优分类方法,用4bit的分类控制信息描述。最后,将每个区域的MLT系数分为符号信息和幅度信息。幅度信息利用各区域幅度包络量化值来归一化,得到归一化系数后进行标量量化。根据最优分类方法,把每个区域内的20个MLT系数量化索引值分成几组矢量,对矢量用变长的哈夫曼码进行编码,形成幅度的码流信息。而对于MLT系数的符号信息直接由0、1表示,得到符号的码流信息。如果区域的分类方式为分类7,则该区域内的MLT系数不进行编码,直接传输“0”。按照区域重要性排序Rindex(k)(k=1,2, 14)依次将各区域的MLT系数编码比特信息写入码流中,重要区域的编码信息先写入码流,次重要区域的编码信息后写入码流。在每个区域中,系数的幅度信息先写入码流,符号信息后写入码流。最终编码形成36、40、48kbit/s 3个码率层共同的码流信息,该码流由3部分构成:各区域幅度包络编码比特、分类控制比特和MLT系数编码比特,如图3所示9。图3 改进的MLT变换编码器码流结构图在36、40、48kbit/s 3个码率层是对提取出的280个MLT系数以16kbit/s码率进行编码,形成每帧320bit的码流信息。若需得到36kbit/s或40kbit/s码率层的码流,则要求MLT系数的编码速率为4kbit/s或8kbit/s,此时需对整体的320bit的码流进行截断处理,即保留320bit信息的前80或160bit信息用于传输,丢弃余下的比特信息。各码率层码流结构如图4所示。图4 36、40、48kbit/s码率层码流结构图由图4可知,36kbit/s码率层包含了各区域的幅度包络量化值、分类控制信息以及部分重要区域的MLT系数比特,40kbit/s码率层包含了其余部分重要区域的MLT系数比特,48kbit/s码率层包括了次重要区域的MLT系数比特。由于幅度包络量化信息、分类控制比特信息都写在了前80bit信息中,同时,MLT编码信息是按照区域的重要性来写入码流的,因此保证了320bit信息中前面的比特信息要远远重要于后面的信息,即保证了低码率层比特信息比高码率层比特信息重要。2.2.4 MDCT残差系数编码(56、64kbit/s)56、64kbit/s码率层采用的是与36、40、48kbit/s码率层相同的变换编码技术,编码对象是G.729.1的编码残差信息,每帧残差信息编码总比特数为320。在低码率层的G.729.1编码器中,使用了一种被称作时域混叠抵消(TDAC)的预测变换编码技术。经下采样、QMF镜像滤波得到的低频子带信号为Slow_wb(n),Slow_wb(n)与码率为12kbit/s时的本地解码信号之差记作dLB(n),将其通过感知加权滤波器并进行MDCT变换,得到频域谱系数。同样,对经QMF镜像滤波得到的高频子带信号Shigh_wb(n)进行MDCT变换,得到频域谱系数SHB(k)。其中,表示04kHz频段的频域系数,SHB(k)表示48kHz频段的频域系数。将2个分裂的MDCT谱和SHB(k)进行频谱合并,合并后的全带谱被分成18个子带。各子带的谱包络进行标量量化后,选择差分哈夫曼编码模式或直接的二进制编码模式来对得到量化索引矢量进行编码。各子带的系数信息则采用嵌入式的球形矢量量化技术进行编码 3,7。为了提高和SHB(k)的编码质量,在56、64kbit/s码率层进一步对和SHB(k)的编码残差进行变换域编码12。具体流程如图5所示。图5 MDCT残差系数编码结构图将解码端的TDAC解码操作引入编码端,在TDAC编码模块中,进行本地解码,使得在编码端得到与解码端相同的MDCT重建系数和。将此系数与TDAC编码前的原始系数和SHB(k)按式(5)求取差值(5)得到MDCT残差系数MLB(k)、MHB(k),对MLB(k)、MHB(k)采用与36、40、48kbit/s码率层相同的编码方式进行编码处理。提取系数MLB(k)、MHB(k)中表示07kHz频率范围的280个MDCT系数,并将其划分为14个区域。计算各区域的幅度包络值,进行标量量化和哈夫曼编码。根据编码可利用的比特数与幅度包络量化值,得到16种分类方法,选出最优分类方法并把分类控制比特写入码流。将各区域内的MDCT系数幅度信息归一化后,进行标量量化并把标量量化索引值联合构成矢量,采用哈夫曼码来编码;符号信息直接进行编码。同样地,按照MDCT系数各区域幅度包络量化值由大到小的顺序来依次将各区域内MDCT编码比特信息写入码流中。得到56、64kbit/s 2个码率层整体的码流信息(320bit),其中前160bit为56kbit/s码率层码流,后160bit为64kbit/s层码流信息,如图6所示。图6 56kbit/s、64kbit/s码率层码流分层结构图由图6可知,56kbit/s层码流包含了各区域幅度包络量化值、分类控制信息以及重要区域的MDCT系数信息;64kbit/s层码流包含了次重要区域的MDCT系数信息。2.3 解码端概述本算法的解码原理基于码流比特数的检测,当接收到超宽带信号的码流信息时,根据实际接收到的比特数来执行相应的解码操作。与编码算法相对应,解码操作也分为3部分:832kbit/s码率层G.729.1解码操作,36、40、48kbit/s码率层改进的MLT解码操作和56、64kbit/s码率层的MDCT残差系数解码操作12。解码原理如图7所示。图7 解码原理框图2.3.1 码率小于32kbit/s的G.729.1解码当每帧接收到的比特数小于等于640(码率32kbit/s)时,对实际接收的码流采用G.729.1解码算法进行解码,生成相应码率下的宽带解码信号,并上采样到32kHz,得到有效带宽在07kHz范围内的超宽带解码信号。2.3.2 MLT系数解码(36kbit/s、40kbit/s、48kbit/s)当每帧接收到的比特数等于720(码率=36kbit/s)时,32kbit/s码率以下的码流采用G.729.1解码器进行解码。36kbit/s码率层码流信息包含了各区域的幅度包络量化值、分类控制信息以及部分重要区域的MLT系数信息,采用图8所示改进的MLT变换编码方式进行解码。图8 改进的MLT变换编码器解码原理框图由码流的前端信息恢复出各区域幅度包络的量化值。将每帧编码的可用比特数320减去编码区域幅度包络量化使用的比特数和4个分类控制比特,得到剩余可利用的比特数Nab。由Nab与各区域幅度包络量化值和分类控制信息相结合,采用与编码端相同的分类过程,得出编码端所采用的分类方法。与编码端类似,将解码的区域幅度包络量化值序列按照由大到小的顺序进行排列,得到各区域编号的重要性排序序列Rindex(k) (k=1,2, 14)。由此判断出36kbit/s码率层的码流信息包括了哪些区域的MLT系数信息。对于36kbit/s码率层所包含的重要区域的MLT比特信息,结合分类方法利用哈夫曼码进行反量化处理得出各区域归一化后的MLT系数,乘以区域幅度包络量化值做去归一化处理,最终得到了信号MLT系数幅度信息。如果幅度为非零值,需结合码流中的符号信息,来得到最终的MLT解码系数。对于其余区域,码流中只有区域幅度包络信息而无MLT系数信息,MLT系数则需采用噪声填充技术来生成。如式(6)所示用区域幅度包络乘以一个衰减因子加入随机符号后得到区域内MLT系数恢复值。(6)其中,sign_random为随机符号,rms_q(r)为区域幅度包络量化值,b为噪声填充衰减因子。同样,对于分类方式为分类7的区域,MLT系数也由噪声填充技术生成。由此恢复出到所有频带的MLT系数。当每帧接收到的比特数等于800(码率=40kbit/s)时,接收到的码流增加了40kbit/s码率层的码流信息,该码流包含了部分重要区域的MLT系数信息。可将36、40kbit/s 2个码率层的整体码流信息进行联合解码,与36kbit/s码率解码相似,精确解码出重要区域的MLT系数,对于其余次重要区域的MLT系数利用式(6)表述的噪声填充技术来生成。当每帧接收到的比特数等于960(码率=48kbitb/s)时,接收端对36、40、48kbit/s 3个码率层的码流信息整体进行解码。恢复出各区域幅度包络的量化值、分类控制信息,得到分类方法。由此对比特信息利用哈夫曼码进行反量化和去归一化处理,加入符号信息后得到了解码的MLT系数。在36kbit/s、40kbit/s、48kbit/s 3种码率下恢复出的MLT系数表示的频带范围是714kHz,因此需把解码所得MLT系数搬移至714kHz频带,并将其余频带(07kHz、1416kHz)的MLT系数置零,然后经IMLT变换得到时域信号。IMLT可以分解2部分:第型离散余弦变换和加窗叠接相加,如式(7)、式(8)所示8:(7)(8)其中,uold(n)= u(n+320), 0n319,0m639,为反变换得到的时域信号。(9)如式(9)所示,将G.729.1解码出的上采样信号与时域解码信号叠加,最终得到相应码率下的超宽带单声道信号。2.3.3 MDCT残差系数解码(56kbit/s、64kbit/s)MDCT残差系数解码原理如图9所示。当每帧接收到的比特数等于1 120(码率=56kbit/s)时,48kbit/s以下码流信息按照2.2.1和2.2.2中提到的方法分层进行解码操作。56kbit/s码率层信息包含了各区域幅度包络量化值、分类控制信息以及重要区域的MDCT系数信息,按照36kbit/s码率层的图9 MDCT残差系数解码原理框图解码方式进行恢复。根据各区域幅度包络的量化值,得到各区域编号的重要性排序,判断出56kbit/s码率层的码流中包括的区域的编号,精确解码该部分区域的MDCT残差系数,对于其余次重要区域的MDCT系数利用噪声填充技术来生成。当每帧接收到的比特数等于1 280(码率=64kbit/s)时,56、64kbit/s层码流解码与48kbit/s码率解码相类似,两层码流联合进行解码处理,恢复出各区域幅度包络的量化值、分类控制信息,得到分类方法,对比特信息利用哈夫曼码进行反量化和去归一化处理,加入符号信息后得到07kHz频段的MDCT残差系数。在56、64kbit/s 2种码率下恢复出的MDCT残差系数,需进行频谱分离操作,分为低频带系数MLB_DE(k)和高频带系数MHB_DE(k),它们表示的频率范围分别是04kHz和47kHz。(10)如式(10)所示,对G.729.1解码器中TDAC解码的47kHz频带重建信号和04kHz频带 重建信号加以修正,修正的两频带的重构系数为SHB_DE(k)和。SHB_DE(k)和经逆MDCT变换得到时域信号和高频带信号。其中信号经过去感知加权滤波得到。和进行前向/后向回声抵消处理,并通过QMF合成滤波器组,得到修正后的G.729.1解码宽带信号。上2采样后与36、40、48kbit/s层解码的超宽带信息相加得到56kbit/s或64kbit/s码率下的解码信号。2.4 帧擦除隐藏在码流的传输过程中,若某帧的码流信息出现丢失情况时,解码端需引入帧擦除隐藏技术对丢失的信息进行恢复,来保证解码信号的连续性。本编码器中,当某帧码流信息发生丢失后,可通过G.729.1编码器原有的帧擦除隐藏技术,恢复出032kbit/s 码流所对应的07kHz频带信息。714kHz频段成分完全丢失,在造成有效带宽突变(14kHz带宽转换到7kHz带宽)的同时,还会使丢失帧和正常帧的相连接处,产生能量突变,引起听觉的不适。本编码器中采用直接代替的方法来恢复丢失帧的高频信息。直接复制前一帧714kHz频段的MLT系数作为本帧的解码参数,即(11)其中,Mlt_old(n)为前一帧MLT解码系数,Mlt_pr(n)为恢复的本帧MLT系数。对Mlt_pr(n)进行MLT反变换并与宽带解码信号相加,恢复出丢失帧的解码信息。对于MDCT残差系数不进行恢复处理。2.5 系统延时本方法与G.729.1编码方法相兼容,因此在输入输出都是16kHz信号的宽带编码模式下,编码器总延迟与G.729.1的编码延迟相同为48.937 5ms,由20ms的处理帧长、5ms的look-ahead延迟、3.937 5ms的QMF滤波器延时和20ms的叠接相加延迟构成。对于输入输出都是32kHz信号的超宽带编码模式,编码器总延迟为50.937 5ms,由20ms的处理帧长、5ms的look-ahead延迟、3.937 5ms的QMF滤波器延时、2ms的上下采样延时和20ms的叠接相加延迟构成。由此可以看出本文所提出编码方法中,超宽带编码的延迟仅比G.729.1宽带编码增加了2ms。而ITU-T对超宽带编码的要求是加入超宽带编码结构后增加的延迟不超过5.25 ms,由此可见本算法的编码延迟满足ITU-T提出的要求。3 质量评测ITU-T为嵌入式超宽带编码标准的制定提出了具体的参考指标要求(TOR, terms of reference)。要求最终实现的编码器:在36、40kbit/s码率下的编码质量不次于G.722.1C编码器在24kbit/s码率下的编码质量;在48、56kbit/s码率下的编码质量不次于G.722.1C在32kbit/s码率下的编码质量;在64kbit/s码率下的编码质量要不次于G.722.1C在48kbit/s码率下的编码质量。其中,选用的参考标准G.722.1C是ITU-T于2005年标准化的多速率非嵌入式超宽带语音、音频编码标准。本文以ITU-T针对超宽带编码的制定所提出的指标要求为参考,采用客观打分和主观听觉测试的方式,对超宽带编码各层的编码质量进行评测。选用MPEG测试音频库中的32kHz采样的8段音频数据和4段语音数据作为测试材料,测试前将信号的能量水平调整到-26dB。客观测试是对本文所提编码器与参考编码器的处理信号采用ITU-T BS.1387标准的PEAQ测试工具进行测试比较13。PEAQ测试结果的主要参数是客观差异等级(ODG, objective difference grade)。ODG反映了处理后信号与原始信号的差异程度,其得分范围为-4,0,得分为0表示差异最小,ODG得分越小表示差异越大。最终两编码器的平均ODG分数如表2所示。表2PEAQ测试结果对比本编码器ODG参考编码器ODG36kbit/s-3.526 272 72724kbit/s-3.699 545 45540kbit/s-3.446 727 27348kbit/s-3.326 272 72732kbit/s-3.59256kbit/s-3.2264kbit/s-3.074 909 09148kbit/s-3.306 272 727从表2可以看出,在5个码率下本文所提编码的客观测试质量都好于参考编码器。进行主观测试时,请20位测听者(10女,10男)对两编码器的处理信号分别进行MOS分测试和主观a/b测试。主观MOS分测试10是将编码质量分为5个等级,得分范围为1,5,其中“5”表示感觉不到失真,“1”表示失真无法忍受,得分越高表明编码失真越小。进行测听实验时,测听者在听完测试数据后选择合适分数作为他对测试数据的评价。最终所得平均MOS分如表3所示。表3主观测试MOS分对比本编码器MOS参考编码器MOS36kbit/s3.583 33324kbit/s3.571 42940kbit/s3.7548kbit/s3.873 636 36432kbit/s3.809 52456kbit/s3.928 57164kbit/s4.148kbit/s4.071 429主观a/b测试是让测听者对两编码器处理信号进行比较,选出认为更好的一句,或者是认为2个信号质量相当没有差别14。结果如表4所示。表4主观a/b测试结果测试条件偏爱本编码器偏爱参考编码器无偏爱36kbit/s35.2%39.2%26.6%40kbit/s42.3%20.5%38.2%48kbit/s34.4%18.3%48.3%56kbit/s30.5%16.2%54.3%64kbit/s28.6%29.2%43.2%从表3、4可以看出,本文提出的编码器中,随着码率的增加,编码质量逐渐增强;在40、48、56kbit/s 3个码率下本文所提编码器的主观测试质量都远好于参考编码器,在36、64kbit/s码率下质量与参考编码器相接近。综上可知,本文所提编码算法在各个码率下编码质量均达到了ITU-T针对超宽带编码提案提出的参考指标要求。4 结束语本文基于ITU-T编码标准 G.729.1和改进的MLT变换编码技术,提出了一种码率为864kbit/s的超宽带嵌入式变速率语音与音频编码方法。本编码方案可处理窄带、宽带和超宽带语音与音频信号,编码形成具有嵌入式结构码流,解码端根据接收到的全速率码流或截断码流进行解码,在保证解码信号连续性的前提下,最大限度地提高了编解码效率。由客观和主观测试结果可以看出本文所提出的编码算法在各个码率均达到了ITU-T针对超宽带编码提案所提出的指标要求。本算法满足第三代和第四代移动通信对嵌入式语音与音频编码的需求,可以广泛地应用于因特网和基于网络应用的通信系统中。参考文献:1周宏,潘亚涛,陈健. 可分级音频编码在网络中的应用J. 通信技术, 2001, (2):34-36.ZHOU H, PAN Y T, CHEN J. Application of scalable audio coding in network J. Communication Technology, 2001, (2):34-36.2贾懋珅,鲍长春,李锐等.基于ACELP和TCX的嵌入式宽带语音编码器J,清华大学学报(自然科学版), 2008, 48, (S1), 741-747.JIA M S, BAO C C, LI R, et al. Embedded wideband speech codec based on ACELP and TCX J. Journal of Tsinghua University, 2008, 48(S1):741-747.3李海婷, 范睿, 朱恒等. 最新的ITU-T嵌入式变速率语音编码关键技术J. 电声技术. 2006.11. 50-55.LI H T, FAN R, ZHU H, et al. Key techniques of the latest itu-t embedded variable bit-rate speech codingJ. Audio Engineering. 2006, (11): 50-55.4ISO/IEC 144496-3:2005/amd 3, Scalable Lossless Coding (SLS)S. 2006.5HE D M, GAO W, WU J Q. Complexity scalable audio coding algorithm based on wavelet packet decompositionA. WCCC-ICSP 2000C. 21-25 Aug, 2000.2:659-665.6鲍长春.数字语音编码原理M. 西安:西安电子科技大学出版社,2007.BAO C C. Principles of Digital Speech CodingM. Xian: Xidian University Press, 2007.7ITU-T TD260 (PLEN/16). Draft New Recommendatio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论