（通信与信息系统专业论文）时频分析及其在音频编码中的应用研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：55 大小：1.77MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（通信与信息系统专业论文）时频分析及其在音频编码中的应用研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要感知音频编码是一种音频压缩方法，能够利用人耳听觉系统的感知特性对失真和噪声进行整形，并使得重建信号与原始信号的差别无法被感知到。感知音频编码能够在较低编码速率的条件下，提供更好的编码质量。如今，数字音频己被广泛地应用于无线通信系统和多媒体领域。论文对音频编码中使用的时频变换进行了研究，这些时频变换在音频编码中起着十分重要的作用，它们性能的好坏决定着编解码器性能的优劣。首先，研究三种时频变换算法：重叠调制变换( m e t ) ，扩展的重叠调制变换( e l t ) 以及改进的离散余弦变换( m d c t ) ，分析三者之间的区别和联系。其次，在m l t 的基础上，研究一种新的时频变换：频变的重叠调制变换( f v - m l t ) ，然后，对基于递归方式的m d c t 快速算法进行研究。最后，对被誉为有损和无损编码桥梁的整型的改进离散余弦变换( t n t m d c t ) 进行研究。论文研究的所有时频变换算法都已用c 语言实现，并通过性能测试验证了这些算法对信号的完全重建的特性。关键词：时频变换重叠调制变换改进离散余弦变换整型的改进离散余弦变换音频编码 a b s 仃a c t p e r c e p t u a la u d i oc o d i n gi sas o r to fa u d i oc o m p r e s s i o nm e t h o d ，w h i c hu t i l i z e s p e r c e p t u a lc h a r a c t e r i s t i c so fh u m a na u d i t o r ys y s t e mt os h a l ，ed i s t o r t i o na n dn o i s e sa n d m a k et h ed i f f e r e n c e sb e t w e e no r i g i n a l s i g n a l sa n dr e c o n s t r u c t e do n e si n a u d i b l e p e r c e p t u a la u d i oc o d i n gc a l lp r o v i d eb e t t e rc o d i n gq u a l i t yw h i l ek e e p i n gl o w e rc o d i n g b i tr a t e n o w a d a y s ，d i g i t a la u d i oi s w i d e l yu s e di nw i r e l e s ss y s t e m sa n dm u l t i m e d i a f i e l d s t h et i m e f r e q u e n c yt r a n s f o r mm e t h o d su s e di np e r c e p t u a la u d i oc o d i n gs c h e m e s a res t u d i e di nt h ed i s s e r t a t i o n ，t h e s et r a n s f o r mm e t h o d sp l a y sac r u c i a lp a r ti na u d i o c o d i n gt h e m e ，t h ep e r f o r m a n c eo ft h em o d ed e c i d e st h ep e r f o r m a n c eo fa u d i oc o d e c f i r s t ，t h r e ek i n do ft i m e - f r e q u e n c yt r a n s f o r ma l g o r i t h m s ，i e m o d u l a t e d l a p p e d t r a n s f o r m ( m l t ) ，e x t e n d e dl a p p e dt r a n s f o r m ( e l t ) a n dm o d i f i e dd i s c r e t ec o s i n e t r a n s f o r m ( m d c t ) ，a r er e s e a r c h e d ，t h e i rd i f f e r e n c e a n d r e l a t i o n s h i p a r ea l s o i n v e s t i g a t e d s e c o n d ，an e wt i m e - f r e q u e n c yt r a n s f o r mm e t h o da n da l g o r i t h mc a l l e d f r e q u e n c yv a r y i n g - m o d u l a t e dl a p p e dt r a n s f o r m ( f v - m l t ) b a s e do nm l ti ss t u d i e d t h e n ，s o m er e s e a r c hw o r ki sp u to nt h ef a s tr e c u r s i v ea l g o r i t h mo fm d c t a tl a s t i n t e g e rm o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ( i n t m d c t ) ，w h i c hi sk n o w n 勰铀e b r i d g e ”b e t w e e nl o s s l e s sa n dl o s s yc o d i n gt h e m e ，i sw o r k e do u t a l lt h et i m e f r e q u e n c y t r a n s f o r ma l g o r i t h m ss t u d i e dh a v e b e e ni m p l e m e n t e dw i t hcl a n g u a g e t e s ta n d e v a l u a t i o nh a v es h o w nt h a ta l lt h ea l g o r i t h m s i m p l e m e n t e dp r e s e r v et h ep e r f e c t r e c o n s t r u c t i o np r o p e r t y k e y w o r d s ：t i m e - f r e q u e n c yt r a n s f o r m m l tm d c ti n t m d c t a u d i oc o d i n g 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：日期趔21 主：仁关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定) 本学位论文属于保密，在一年解密后适用本授权书本人签名：导师签名：孝期期日日第一章绪论第一章绪论 1 1 感知音频编码概述声音作为信息传递的重要载体，是人们信息的主要来源，也是人们沟通的重要工具。随着科学技术的发展，声音的存储技术已从模拟音频发展到了c d 音质的数字音频【1 】【2 1 。但是，c d 音质的数字音频数据量较大，使其在传输过程中受到传输带宽的诸多限制，大大制约了数字音频在无线通信、网络多媒体系统中的广泛应用。为了缓解这一局面，许多具有针对性的算法已经提出，其中一些优秀算法逐渐脱颖而出成为了国际公认的通用标准。这些算法的主要思想是对数字音频信号进行压缩编码，由此来降低音频信号的数据量。目前的音频压缩编码主要分为两类：波形编码和感知编码。其中，波形编码是以声音的波形为基础，要求重建声音信号的波形与原始声音信号波形尽可能地完全一致。然而，对于感知编码而言，并不要求重建声音信号的波形与原始信号的波形完全一样，只需要保证人耳分辨不出重建声音信号与原始声音信号的差别即可。音频编码是为了更加高效真实地存储和传输音频信号，它的核心问题是如何用最少的比特数来获得透明的信号重建，即不失真地将原始音频信号重现出来。由于信号的最终接收端是入耳，那么这里所谓的透明并不是数据的无损传输，而是相对于人听觉的感知透明，即人耳无法区分重建后的声音与原声音信号之间的差别。因此，要想获得更好的编码质量和更低的比特率就必须考虑人耳的听觉特性。音频感知编码正是利用了人耳的感知特性，在编码过程中对引入的噪声和失真加以整形，使得人耳无法感觉到它们的存在，以提高编码的品质。感知音频编码器【2 】的结构框图如图1 1 所示： ( n )变换系数参数。 l 时频分析量化与编码十熵编码合并掩蔽门限边信息卜心理声学分析比特分配图1 1 感知音频编码框图 2 时频分析及其在音频编码中的应用输入的音频信号首先要经过时频分析模块的处理，将时域信号变换成频域信号，去除信号各个分量之间的相关性，为后续的量化与编码模块创造条件。输入信号的另一路要经过心理声学模型的处理，根据心理声学模型计算出信号的掩蔽阈值，从而来指导编码过程中比特的分配。最后，输出的参数和边信息一起进入码流合成器，组合成符合编码标准的码流输出。这只是感知音频编码的最基本的过程，不同的标准和算法其流程可能会有所不同。比如可以在时频变换之后再加入一些处理模块，进一步去除信号的相关性和冗余，以改善编码的质量。 1 2 时频分析概述时频分析【2 】是将时域的音频信号以一定的时频分辨率变换成时频参数的过程，这通常是利用滤波器组的形式来实现的。音频信号包括语音信号和乐音信号，这两类的频域能量一般会集中分布在某些频段内，如果经过时频分析模块的处理，可以改变音频信号自身的能量分布，这样有利于后续量化过程调整量化噪声在时频域上的分布。时频分析在音频编码中起到了至关重要的作用，它的性能的好与坏直接决定了编解码器性能的优劣。多相滤波器组【2 j 是进行时频分析的一种重要的形式，这些滤波器组是由能够覆盖输入信号整个频域的若干带通滤波器构成。滤波器组的功能是把输入信号的频谱化分为若干频率子带，并生成代表输入信号各子带能量的一系列时频分析参数。得到的时频分析参数可以用于对编码噪声的整形，使其符合所选心理声学模型掩蔽功率的时频分布。图1 2 是m 子带均匀时频分析滤波器组框图。图1 2 多相滤波器组当输入信号s ( n ) 经过m 子带均匀时频分析滤波器组处理后，其频域将被划分第章绪论成m 个子带，如图1 3 所示： 2 2 d z2 。搿2 矗f2 杉2 m 图1 3 多相滤波器组对频域的划分其中，m 个分析滤波器的归一化中心频率是( 2 k + 1 ) 2 m ，对应的脉冲响应是 h k ( n ) ，频率响应是b ( 秒) ，其中，0 k m 。输入信号s ( n ) 首先通过m 个m 阶f i r 带通滤波器的处理，产生的输出如下： m - 1 咋( 忍) = 噍( 刀) 木s ( n ) - x ( n - m ) h k ( m ) ， k = 0 ，1 ，m - 1( 1 1 ) m s o 然后，要对每个子带的输出进行最大下采样：。 m i y k ( n ) = v k ( m n ) = x ( n m - m ) h k ( m ) ， k - - 0 ，1 ，m - 1( 1 2 ) m = o 相应地，在解码端要对接收到的允( ，1 ) 进行上采样： m ( 刀) ：允_ m ) ，以= o 兰2 誓3 m ( 1 - 3 ) m 2 1o ， d 跏8 刑括p 为了消除由上采样引起的失真，得到的w k ( n ) 还要经过综合滤波器组q ( 玎) 的处理。对于能够实现完全重建的滤波器组，只要不引入量化噪声，即儿o ) = 允( 栉) ，输出j 0 ) 就和输入信号s ( n ) 是完全一致的，仅存在延迟差异，即 j 0 ) = s ( n - - n o ) 。选择一个合适的滤波器组是成功设计感知音频编码器的关键。感知音频编码器的滤波器组需要具备的特性，可以归纳为以下几点【2 】： 1 、自适应的时频分割 2 、良好的频带划分 3 、低分辨率，“临界带宽”模式，3 2 子带 4 、止带衰减快 5 、高分辨率模式，最高至4 0 9 6 子带 6 、完全重建 7 、有效的分辨率转换 4 时频分析及其在音频编码中的应用 8 、临界采样 9 、最小的块效应 1 0 、存在快速算法时频分析的另一种重要实现方式【2 】是：先对输入信号进行加窗处理，然后再对加窗后的结果进行线性变换。这种方式与基于多相滤波器的方法在本质上是一致的，但由于形式和运算方法的不同，使得它们有不同的分析性能。窗的形式也是多种多样的，可以是矩形窗、汉明窗或是正弦窗，连续的窗之间可以没有交叠，也可以有交叠。这就需要对运算量、性能、分辨度等方面进行综合考虑进行选择。可以选择的变换种类很多，如离散傅立叶变换l o f t ) 、离散余弦变换( d c t ) 、离散小波变换( d 、w ) 等。在这些变换中，重叠变换( l a p p e dt r a n s f o r m ) 有着独特的优势，因为重叠变换可以消除在重建信号过程中出现的边缘块效应。m d c t 就是重叠变换的一种，它在音频编码算法中有十分重要的地位。 1 3 时频分析与音频编码时频分析在音频编码中起着基础性的作用，音频编解码器依靠时频分析模块从输入的时域音频信号中提取参数信息，用于量化编码。它的性能的好与坏直接决定了编解码器性能的优劣。此外，时频分析还有助于心理声学分析和感知噪声整形，通过对输入信号频域的划分，还可以降低统计冗余。早在8 0 年代，余弦调制的低通原型滤波器就已被用于构建平行的m 子带滤波器组，这种滤波器只能实现近似的完全重建。正是由于这种近似完全重建的特性，这种滤波器组又被称为 p s e u d o q m f ”。虽然，难以实现对信号的完全重建，但是，这种滤波器组还是具备一些有吸引力的特性【2 】： 1 、设计限制：f i r 原型滤波器 2 、统一，线性相位子带响应 3 、整体线性相位，因此延迟为常量 4 、低复杂度，一个滤波器加调制 5 、存在快速算法 6 、临界采样在p s e u d o - q 沁滤波器组中，通过限制分析和综合滤波器组，使它们满足镜像条件，可以有效地消除相位失真。此条件用公式表示如下： g 女( ，z ) = h k ( l 一1 一n ) ( 1 - 4 ) 第一章绪论此外，相邻子带的混叠也可以通过对分析和综合滤波器组进行一定的设置来实现。对于采用了临界采样的时频分析滤波器组，分析滤波器为：驰闩w c o s l 寺( 从o s ) 卜等卜i ( 1 - 5 ) 综合滤波器为g 咖) - 2 w c o s l 云( 从o s ) 卜等卜l ( 1 6 ) 其中，幺= ( 一1 ) 等，w ( n ) 是长度为l 个样点的窗函数。 p s e u d o q m f 滤波器组【2 】在现代音频编解码器的演变过程中扮演着重要的角色。i s l l l 7 2 3 算法( 即m p e g 1 ) ，在其第一层、第二层中就是利用3 2 子带的 p s e u d o - q m f 来进行频谱分解的。此外，在第三层，同样结构的p s e u d o q m f 与能够完全重建的余弦调制滤波器组联合，构成了具有时变特性的混合滤波器组。目前，m p e g 1 算法已经在音频信号处理领域占据了突出的位置。m p 3 ( i v i p e g 1l a y e r 3 ) 格式的音频文件在i n t e r a c t 网上已经被广泛使用，同样，m p e g 一1l a y e r 2 也被广泛应用于直接广播卫星( d b s d s s ) ，以及欧洲的数字音频广播( d b a ) 领域。虽然，p s e u d o - q m f 滤波器组在感知音频编解码器得到了成功的应用，但是， p s e u d o q m f 固有的近似完全重建特性还是使得这种应用存在定的弊端。滤波器组的非完全重建特性会给整个系统带来固有的失真，为了避免解码器的输出音频文件出现可感知到的失真，必须采取一定的补偿来弥补滤波器组的缺陷。在9 0 年代，研究人员发现通过对原型低通滤波器进行余弦调制能够实现对信号的完全重建特性。首先是p r i n c e na n db r a d l e y 提出了时域混叠消除( t d a c ) t 3 】滤波器组，然后，m a l v a r 通过对原型滤波器进行一定的限制，并将滤波器组用公式表示为正交的重叠块变换，提出了调制重叠变换( m l t ) 4 1 5 1 1 6 1 。之后，又出现了一种特殊的块变换滤波器组：改进的离散余弦变换( m d c t ) 【2 1 ，至出现以来，已被广泛地应用在音频编码领域。虽然，这些滤波器组的名称不同，但是，它们同是能够实现对信号完全重建的余弦调制滤波器组。它们的分析滤波器脉冲响应可以表示为：擀删后c o s f 坠学 ( 1 - 7 ，综合滤波器和分析滤波器存在以下关系l g i ( 甩) = h k ( 2 m l 一力) ( 1 8 ) 其中，w ( n ) 是变换之前加入的窗函数，这些窗函数的选择也需要满足一定的条件： 6时频分析及其在音频编码中的应用 w ( 2 m 一1 一，z ) = 以甩) 【 i v 2 ( 力) + w 2 ( ，l + m ) = 1 ( 1 - 9 ) 目前音频编码中最流行的窗函数是以哟= s 协l 【1 - i - 壶j 击l 。例如，m p e g 。1 l a y e r 3 ( m p 3 ) l 约混合滤波器组中使用就是这种窗函数，m p e g 2a a c m p e g 4t - f 滤波器组以及许多其他类型的编解码器都用到了这种余弦窗。 1 4 本文的工作和结果研究音频编码器的时频分析模块，明确该模块在整个音频编码器中的作用和地位。研究和分析当今音频编解码领域常用的几种时频分析算法，并对一些新的时频分析算法进行研究，最终用c 语言编程实现上述时频分析算法。论文的主体分为以下几个部分进行阐述：第二章，将研究基于重叠变换的时频分析算法：m l t 和e l t 。研究m l t 在1 1 u 的g7 2 2 1 t 7 】标准中的应用。在了解m l t 算法的基础上，研究新的能够提高时频分析算法时域分辨率的f v - m l t 变换，并用c 语言编程实现。第三章，重点研究被广泛应用于音频编码领域的m d c t 变换，研究能实现快速m d c t 变换的两种递归算法，分别用c 语言编程实现这两种算法。第四章，研究被誉为连接有损编码和无损编码桥梁的整型m d c t 变换，了解整型 m d c t 变换与浮点型m d c t 变换之间的异同点，研究能够实现整型m d c t 变换的两种算法，并分别用c 语言实现这两种算法。第五章，在v c 环境下建立时频分析模块的测试框架，利用音频信号对上述算法的代码进行测试，验证时频分析模块对输入音频信号的完全重建特性。最后，将分析各种时频分析算法造成的算法延迟，并对m d c t 、m l t 和e l t 之间的区别与联系进行总结。第二章基于重叠变换的时频分析算法研究与实现 7 第二章基于重叠变换的时频分析算法研究与实现当今音频编码领域常用的基于重叠变换的时频分析算法是重叠调制变换( m l t ) 和修正的离散余弦变换( m d c t ) ，e l t 则是在m l t 的基础之上发展起来的m l t 的扩展形式。m l t 和m d c t 是由不同的研究者在8 0 年代各自独立提出的算法，它们的名称虽然不同，但却都同属于块变换的范畴，而且，均能实现对输入信号的完全重建。本章将分别研究m l t 和e l t 时频分析算法，并用c 语言编程实现两者的原理算法，对m d c t 的研究将在第三章单独进行。此外，还会介绍一种新的时频分析算法f v - m l t ，它亦是在m l t 算法的基础上发展而来，该算法的提出能够提高时频分析模块的时域分辨率。 2 1 重叠调制变换重叠调制变换( m o d u l a t e dl a p p e dt r a n s f o r m ：m l t ) t 4 】【5 】【6 】，是m a l v a r 提出的一种变换编码技术。由于传统的变换编码技术是基于块变换技术( b l o c kt r a n s f o r m ) ，这种变换在信号解码时，会在信号重建的过程中，在块与块边界处产生明显的不连续现象，这就是所谓的边缘块效应。为了避免边缘块效应，以及提高编码增益，重叠变换应运而生。重叠变换( l a p p e dt r a n s f o r m ) 8 】采用特定的窗应用于本块以及一个相邻的块，其窗长要大于变换长度。这种方法不仅能减少边缘效应，更能显著提高编码增益。图2 1 是进行重叠变换及反变换的示意图。图2 1 重叠变换及反变换示意图时频分析及其在音频编码中的应用重叠变换可以看成是一个如图2 2 所示的均匀滤波器组。在这个滤波器组中分析滤波器组的每个子带的带通f i r 滤波器系数相当于变换矩阵日对应行的时间反转，而合成滤波器的带通f i r 系数则等于反变换矩阵g 的对应列。 x 仞分析泡扳器缀合成滤踱器缓图2 2 重叠变换的等效滤波器结构 2 1 1 原理及算法分析甜力) m l t 4 5 】【6 】【9 】【1 1 1 的窗长度为n _ 2 m ，其中m 为子带数目，适当选择余弦调制函数以及低通滤波器可以达到完全重建的要求。m l t 滤波器组的一个优势就是它可以进行高效的计算，m l t i 拘i 基函数由下式定义：坳，后c o s 气+ 1 3 1 七+ 丢) 云) p ，其, l c = o ，1 ，m 一1 ，n = 0 ，1 ，2 m 1 ，h ( n ) 是原型低通滤波器( 窗) 。函数对信号进行m l t 变换的定义式如下t 琊，= 后m s 竿) ( 七+ 三) 跏，z ， p 2 ，其中h ( n ) 是分析窗，m 是子带数目，k = 0 ，1 ，m 1 。反变换由下式给出t m 心、| f f 万 2 - - m 刍- 1 砸舢s n 竿) ( 七十丢) 劫 p 3 ，其中，g ( n ) 是合成滤波器。要想实现信号的完全重建，必须选择符合以下条件的窗函数： h ( n ) g ( n ) + h ( n + m ) g ( ，z + m ) = 1 ( 2 4 ) g ( n ) h ( m 一1 - n ) - g ( n + m ) h ( 2 m - l - n ) = 0 ( 2 5 ) 第二章基干重叠变换的时频分析算法研究与实现如果我们在分析与合成中使用相同的窗，那么则称为调制重叠正交变换( m o d u l a t e d l a p p e do r t h o g o n a lt r a n s f o r m ：m l o t ) 。在这种情况下我们使用一个对称窗h ( n ) 。重建条件【l o 】【1 1 1 简化为： h 2 ( 万) + 办2 ( 咒+ m ) = 1 ( ，z ) = ( 一1 一n ) ( 2 - 6 ) ( 2 - 7 ) 任何窗函数只要满足完全重建条件就可以用来生成滤波器组。但是，为了得到更高的编码增益，窗函数的频域响应应该逼近理想低通滤波器的频域响应。可以选用的窗函数有k a i s e r - b e s s e l d e r i v e d ( k b d ) 窗，c h e b y s h e v d e r i v e d 窗，或者正弦窗等。 2 1 2 算法实现由2 1 1 原理介绍可知，m l t 是重叠调制变换，在对输入信号进行处理之前，首先要对输入信号进行加窗处理，窗长需是输入信号帧长的2 倍。它要求相邻窗之间必须存在交叠，通过这种交叠来消除信号重建过程中的边缘块效应。因此，在进行m l t 的正反变换过程中，如何编程实现相邻窗函数的交叠是个关键。本文是通过设置静态变量来解决交叠这一问题的。在函数中设一个静态数组对刚处理过的一帧输入信号进行存储，再联合新输入的一帧信号，进行加窗处理。由此来实现相邻窗之间的交叠。程序中使用的窗函数是n 川n u 中提出的h ( 刀) = s m 【孟( 船+ 圭) ) ，o 咒 3 2 0 。在初始化中，根据而仞) 的对称特性，只需计算一半长度的正弦函数，就可以完成对五o ) 的赋值。此外，还要将静态数组的元素赋初值为零，用于对第一帧输入信号的处理。每处理完一帧，就把该帧存储到静态数组中，用于下一帧信号的处理。下面给出m l t 正反变换的示意图【1 0 】： = = = 卜一鬯叫一口匕= = 一幽一口亡= = = = ) 一 m 乙丁l 一 = 图2 3m l t 正变换 1 0 时频分析及其在音频编码中的应用图2 4m l t 反变换 2 1 3 重叠调制变换在i t u tg 7 2 2 1 中的应用 1 9 9 9 年，r r u t 提出了用于低帧丢失率系统免提操作的g 7 2 2 1 标准【7 1 。该标准提出的编解码器能够在运行速率为2 4 k b i t s 或3 2 k b i t s 的条件下，提供7 h z 的音频带宽，是普通电话呼叫量的两倍多。1 9 9 9 年9 月3 0 日，全球视频协作的领导者，美国全视通国际公司( p i c t u r e t e l ) 宣布，其专利s i r e n 宽带音频编码算法，经过国际通讯联盟( r m t ) 四年的选择和测试，被确立为新的音频编码国际标准g 7 2 2 1 。g 7 2 2 1 源至于p i e t u r e t e l 公司的p t 7 1 6 p l u s 算法，该算法现已应用于p i c t u r e t e l 公司的c o n e o r d e 4 5 0 0 集团会议电视系统和s w i f t s i t e 便携会议电视系统。 g 7 2 2 1 是基于传输技术，它的时频分析模块采用的是重叠调制变换，即m l t 变换。它每次处理的信号长度为2 0m s ，以此长度的信号为一帧。信号的采样率设定为1 6 k h z ，因此，每帧信号共有3 2 0 个样点。因为变换的窗长度是6 4 0 个样点，所以，窗与窗之间有5 0 的重叠。所有的算法延迟即为帧长度和重叠部分长度之和，即总共4 0 m s 。所有的其他延迟则是由于计算和传输引起的，由于计算复杂度的原因，该算法造成的计算延时小于2 0 m s ，因此在端对端系统中总的延时小于6 0 m s 。图2 5 是g 7 2 2 1 的编码器框刚7 1 ，框图左端开头的m l t 模块是一个严格抽样、完全重建的线性变换过程，在相邻的m l t 帧的基函数之间采用了5 0 的重叠，即每一m l t 的输入信号是最新1 约6 4 0 个音频样点x ( n ) ，经过加窗处理后生成3 2 0 个m l t 变换系数。 m l t 的变换表达式【7 】由下式给出： m 坳) = 霎压s i n ( 孟( 删- 5 ) ) c 0 s ( 南( n - 1 5 9 5 ) ( m + o 5 ) ( 2 8 ) 第二章基于重叠变换的时频分析算法研究与实现 ll 图2 5g7 2 2 1 的编码器框图 m l t 可以分解为一次窗口、重叠和加法运算，然后进行型离散余弦变换( d c t ) 。窗口、重叠和加法运算按下式完成： v ( n ) = w ( 1 5 9 一n ) x ( 1 5 9 - n ) + w ( 1 6 0 + n ) x ( 1 6 0 + 以)f o r o n 1 5 9 v ( n + 1 6 0 ) = w ( 3 1 9 一n ) x ( 3 2 0 + 玎) 一w ( n ) x ( 6 3 9 - n )f o r o 玎1 5 9 ( 2 - 9 ) 其中川加咖( 盍( 删5 ) ) ，0 n 2 时，已经没有符合上述解析表达式的窗函数了，只能根据e l t 窗函数设计算法给出数值解。本文实现了交叠因子k = 2 情况下的e l t 的正反变换。此时e l t 窗函数的解析表达式如下f m j 【1 5 】：第二章基于重叠变换的时频分析算法研究与实现 1 3 f乃( ，2 ) = 巳o c n l ih ( n 一1 一甩) = s n o c n l 1 办( + ，2 ) = c 。 1 n - - o , l , , n 2 - 1 ( 2 - 1 4 ) l h ( 2 n 一1 一，z ) = 一s n o s 。l 从= 等泓+ 1 ) + 7 ( 2 k + 1 ) x 巳。兰c o s ( e o ) 巳l 三c o s ( e 1 ) s 。o 暑s i n ( e o ) s 。l 兰s i n ( e 1 ) ( 2 - 1 5 ) ”一三： ( 2 - 1 6 ) 伽一三+ 抽其中，参数7 在 0 ，1 】区间取值，决定l l ( n ) 的窗函数并控制e l t 频率响应的阻带衰减和过渡带( 一般地，7 越大，过渡带越窄，但旁瓣越大；y 越小，过渡带越宽，旁瓣越小) 。对于k = 2 情况下的e l t ，相邻两窗交叠部分的长度则为3 n ，这时需要三个长度为n 的静态数组对相邻的三帧旧信号进行存储，设静态数组分别为 o l d _ l _ s a m p l e s n ，o l d _ _ 2 _ s a m p l e s n ，o l d _ 3 _ s a m p l e n 。在函数初始化中将这3 个数组初始化为零，供第一帧信号处理使用。在一次e l t 变换结束后，首先要把 o l d 上s a m p l e s n 中的数值存储到o l d _ 1 - s a m p l e s n q b ，再把o l d3s a m p l e n q b 的数值存储到o l d2s a m p l e s n 中，最后将刚处理过的信号存储到o l d3s a m p l e n 中，由此来完成e l t 的交叠。 2 3 1 原理及算法分析 2 3 动态的时频分析算法频变的重叠调制变换( f v m e t ) 作为一种新的时频分析算法，可以更好地满足音频编码中时频映射的技术要求。根据f v m l t 算澍1 6 1 1 7 】可以构造出一类具有可变时频分辨率特性的滤波器组，这种滤波器组既可为瞬态音频信号提供灵活的时频映射，又能保证对稳态信号较高的频率分辨率。f v m l t 基函数的构造，是通过联合一个具有较高频域分辨率的m l t 基函数和一个新的具有较高时域分辨率的 m l t 基函数实现的。 1 4时频分析及其在音频编码中的应用 m l ti n v e r s e m l t x ( n ) 一 k 。+ m 一1 h 济v e r 8 h m u e k 。+ m l k 。k 。图2 6f v 二m l t 原理框图号从f v - m l t 的原理框副1 6 1 可知，要实现f v - m l t 首先需对信号进行m l t 变换，生成n 个m l t 系数。如果，想要提高频域，+ m - 1 的时域分辨率，那么只需要对位于，+ m - 1 】的m l t 变换系数再进行一次长度为m 的m l t 的反变换即可。在解码端，对于接收到输入，首先需对，+ m 一1 】域内的输入y ( m ) 进行长度为m 的m l t 正变换，变换所得连同 k o ，i , o + m 一1 】之外的其他输入，再进行一次m l t 的反变换，此时输出舅o ) 即为对原始信号石q ) 的重建。 m l t 变换是实现f v - m l t 的基础，在2 1 1 中已对m l t 进行了介绍，这里只给出关于m l t 的基函数：枷，= 居c o s 暾拼+ 竿) p 峋其中，窗函数 ( 挖) 满足如下条件：坳阳m 胃”+ 册似咄咖，= 0 加呕篡2 - 1 p 在这里，假设对位于区域 k ，k o + m 一1 的变换系数进行线性联合产生一个新的基函数，以此提高时域分辨率，同时，还要继续维持正交性。f v - m l t 的基函数推导过程如以下步骤所示： 1 、首先：对位于区域的基进行d c t - i v 变换，变换过程如下：纵俨后雌) ( 一2 ) mf f n - 。+ 扣，第二章基于重叠变换的时频分析算法研究与实现 1 5 = 居r e “颚“莉玎) ) = 居中- j 粥u ) - 蝣威) 进一步整理为：姒妒赤坳风舯一钟 + w ，z + ( z + 三) 鲁 p 一，中+ ( 町 ) 其中，w ( n ) =s 缸等( 斛孚) ( 2 1 8 ) ( 2 1 9 ) ，w ( n ) 的周期4 n ，每隔2 n 出现一个峰或谷，并相对任何一个峰值或谷值左右对称。西2 ) 是相位，表达式如下： = 斋( + 等) ( + 竿) 如圭) 2 、对窗函数w ( n ) 进行处理【1 7 】处理方法是对基函数进行交叠，联合2 个时域连续的基g ，_ ，( ，1 ) = g ，( 玎) 和吼，_ ，( 咒) = 研一) ，对w ( n ) 中多余的窗进行消除。首先，对2 个时域连续的基进行如下线性处理：对9 1 ( 珂) 进行移位处理，专，+ 了3 m ，同样，x - j q 2 ( 刀) 也进行相应的移位z 一，+ 了m 。此时，日。( 以) 的窗函数变化为：拍叫小学+ 渊= w 卜了3 n ( z + 圭) 爿 g ：( 以) 的窗函数变化为：时频分析及其在音频编码中的应用，磅( 珂) = w ，z 一+ 、茑( 咒) = w 咒一一这里，w ( n ) 满足下式：雠掣3 n 端p 锄h i 一期 u 吆句 w ( n + 孚) ( ，z 一譬) ( 2 - 2 3 ) 由上面各式可见，耳( 刀) 与霹( ，) 可以互相抵消，订( 胛) 与巧仰) 相互叠加。其次，经过上述处理后，基函数的相位也有相应变化： q l ( n ) 而言，变换如下：蚴= 斋( + 等) ( 斛竿) 如半+ 三) x e 丁q z ( n ) 的相位变换如下： = 景( + 等) ( - i - 肌7 1 ) 舡了m + j 1 ) 两者相位差为： o + = 中( 力) 一；( 以) = 万一= i ( 咒) 一；( 万) = k o n 为了使两者同相，令为偶数。 ( 2 - 2 5 ) ( 2 2 6 ) 3 、考虑h ( n ) 的影响 1 7 】以上过程未考虑窗函数h ( n ) 的影响，在这里通过对基g ，( 刀) 和q 2 ( 咒) 进行加权处理来实现h ( n ) 的影响。为了能在加窗后，仍能实现w ( 以) 与磁( ，z ) 互相抵消，需用m 一乘以耳( ) ，用朋+ 乘以或( 甩) 。加权聊+ 和历一的表达式如下所示：聊+ 确褂蝴所一= s i n 褂一三) 经过上述加权线性联合后，f v - m l t 的基函数f 17 】可以表示为：一m 一m、，、l，一2 ，一2 + + m 一2 m 一2 + + ，f ，，l厂 “ d 砝 1，j 一爿旷剖取m 习 + +一z卜坠2 、一厂h 一乙 “ 缸、j ，、一2 脚凡商一第二章基于重叠变换的时频分析算法研究与实现 1 7 2 3 2 算法实现，利用2 1 2 已实现了的m l t 来构建了两种不同时频分割的f v - m l t 。设输入信号的帧长为n = 5 1 2 个样点。首先要对输入信号进行长度为1 0 2 4 点的m l t 变换，生成5 1 2 个m l t 变换系数。第一种划分，是对这所有5 1 2 个m l t 变换系数进行再次划分。编码端，把低频的1 2 8 个系数，均分为4 份，每份分别再进行一次长度为6 4 的m l t 反变换，各自生成3 2 个时域样点，总共生成1 2 8 个时域样点；把高频的3 8 4 个m l t 变换系数，均分为3 份，每份分别进行一次长度为2 5 6 的m l t 反变换，各自生成1 2 8 个系数，共计生成3 8 4 个时域样点。把低频的1 2 8 个时域样点和高频的3 8 4 个时域样点合并形成f v - m l t 正变换的输出。在解码端，对接收到的f v - m l t 正变换输出进行分别处理。对高频的3 8 4 个输入划分为3 份，分别进行一次长度为2 5 6 的m l t 正变换；对低频的1 2 8 个输入划分为4 份，分别进行长度为6 4 的m l t 正变换。将产生的所有的5 1 2 个频域系数，再进行一次长度为1 0 2 4 的m l t 的反变换，其输出即为重建的时域信号。第二种是对部分特定的频域进行再次划分，只提高这部分频域的时域分辨率。这种情况比较第一种划分要复杂，因为，这种局部划分会导致处理过的频域信号和未被处理的频域信号产生不同步的现象，这将严重地影响f v - m l t 对信号的完全重建特性。因此，必须消除这种局部划分所带来的延迟。设置变量s t a r t 来表示再次进行划分的频域起始位置，变量s t a r t 的取值范围是 0 s t a r t 5 1 2 。设被处理的整个频域长度为m ，s t a r t + m 5 1 2 。编码端，首先，对接收到的时域信号进行长度为1 0 2 4 的m l t 变换，对其产生的5 1 2 个m l t 变换系数中位于 s t a r t ，s t a r t + m 的部分系数，在进行一次长度为2 m 的m l t 反变换，产生m 个时域样点。把这m 个时域样点连同剩下未处理的m l t 变换系数整合，结果即为f v - m l t 正变换的输出。解码端，首先，从输入中提取出 s t a r t ，s t a r t + m 】的时域信号进行一次长度为m 的m l t 正变换。此外，要设一个静态数组 d e l a y _ e o e f s 5 1 2 用于消除延迟。当处理第一帧信号时，将解码端的输入全部存储到d e l a y】，不产生任何输出。在处理下一帧信号时，用长度为的正变换产e 生o e 的f s m 5 1 2 个系数，依次替换掉中位于，2 m + m 】m 的l 数t d e l a y 值。最后，对数组的元e 素o e 进f s 行51 2 次长度为s t a r tsta的rtdelay反变换，得到的输出即为重建c 的o e 时f s 域5 1 信2 号。5 1 2 1 0 2 4m l t 第三章改进的离散余弦变换算法研究与实现 1 9 第三章改进的离散余弦变换算法研究与实现 3 1 原理及算法分析改进的离散余弦变换( m d c t ) t 量是一种重叠变换，它的相邻窗之间存耷5 0 的交叠。正变换输入m 点的信号，与前一顿的m 点的信号组合，然后加窗进行c t 正变换输出m 条谱线，逆变换则输入m 条谱线，输$ 2 m 点的时域信号然后在两连续窗之间进行时域混叠消除得到m 点重建的时域信号。图3 1 是m d c t 正反变换的原理框图【2 1 。二= 匠二二m 巫园h 卫【：j l i ：：卫。图3 1m d c t 的正反变换在进行m d c t 变换【1 8 】之前，要以帧为单位读入输入信号，然后对整合后的信号作m d c t 变换，变换系数按预先确定的编码安排进行量化。下面是长度为n 的信号i 妁m d c t 变换和逆变换的定义式： x 一耻坝咖呶等m 争q 专和 k = 0 ，l ，n 2 1( 3 1 ) 炯) = 知) n 荟1 2 - 1 水) c o s ( 等( 七+ 扣+ 三+ 争 k = o ，l ，n 2 - 1 ，以= o ，1 ，n - 1 ( 3 2 ) 如要实现变换对输入信号的完全重

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）时频分析及其在音频编码中的应用研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）时频分析及其在音频编码中的应用研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档