（信号与信息处理专业论文）多声道音频编码算法的研究及优化.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：60 大小：1.71MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（信号与信息处理专业论文）多声道音频编码算法的研究及优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多声道音频编码算法的研究及优化摘要随着第三代移动通信网络技术的发展，各种无线应用将极大地丰富我们的日常工作和生活。移动流媒体业务就是在这种情况下应运而生的一种颇具吸引力的新业务，它是流式传输支持的业务。与此同时，高质量多声道数字音频系统也逐渐取代传统的单声道、立体声系统，而成为新的传播媒体方式。其中o g gv o m i s 多声道音频编码技术，以其自身的优势特点，与其他音乐格式相比，更加适合在未来的流媒体业务领域的应用，可以广泛地应用于流媒体在线点播及下载播放等业务领域。 o g gv o r b i s 是一种完全免费，低比特流传输，占用网络带宽少，并有较好主观声音质量的编码算法。与当前市场上流行的m p 3 编码器相比，o g gv o r b i s 源代码公开，并有更佳的音质以及更简单的解码实现，所以o g gv o r b i s 多声道音频编码技术非常具有研究价值。本文详细阐述了o g gv o r b i s 数字音频编码的算法原理，我的主要的工作及创新点有： 1 介绍当前几种典型的多声道音频编码方案，讨论他们在编码、数据率等方面的各自的特点以及所应用的领域。 2 深入研究o g gv o r b i s 音频编码原理，详细分析o g gv o r b i s 音频编码关键技术。 3 针对0 9 9v o m i s 中的q s o r t 排序函数，选择合适的排序算法进行编码器的优化实验。 4 本课题在基于原o g gv o r b i s l 0 工程基础上，通过两次优化仿真实验，使原编码器的运行速度提高2 0 ，性能有了一定的提高，初步达到了应用程度。最后，总结全文，并且指出了进一步的研究方向。关键词：音频编码；o g gv o r b i s ；声道耦合；排序算法 r e s e a r c ha n do p t d 压i z i t i o n o fm u it i c h a n n e la u d i o c o d i n ga l g o r i t h m s a b s t r a c t w i t ht h ed e v e l o p m e n to ft h e3 r dm o b l l et e l c c o 珊l u n i c a t i o n n e t 、) l ，o r kt c c 量l i l o l o g y ，o u rl i v e sa r eb ye n r i c h e db yav 撕e 哆o fw i r c l e s s 印p l i c a t i o n s 。m o b i l es t r 倪mm e d i a s e n r i c ew h i c hi sn e wa n dp r o m i s i n gi s b o mw i t hm i sd e v e l o p m e n t m e a n w h i l e ，t r a d i t i o i l a ls i n g l es t e r e os y s t e m i sg i 们u a l l ys u b s t i t u t e db ym u l t i - c h a n n e ld i g i t a ia u d i os y s t e mo fh i g h q u a l i 哆。c o m p 卸e dw i t ho t h e r 舢s i cf o r r n a t s ，o g gv o r b i sm u t i c h a n n e l a u d i oc o d i n gt e c l l i l o l o g yi sm o r cs u i t e di nf i l t i l r cs t r e 锄m e d i as e i c e s ， w i d e l ya p p l i e di nv o d 柚dd o w n l o a dp l a ys e n ，i c 嚣。 o g gv o 出i si so p e n s o l l r c ea u d i oe n c o d i n ga l g 嘶m mw i maf i n e s u 均e c t i v es o u n dq u a l i t y 。ni sa l s oi nl o w b i tm t et r 觚s f e r s ，o c 删n gl o w b a n d w i d t h 。c o m p a r o dw i t l lm em p 3 c o d c rp o p u l a ro nm a r k e t ，o g g v o r b i si sw o r c hr e s r c h i r 坞向rp a t e n t f k e ，h i g l l e rq u a l i 够a 玎【ds i m p l c r d e c o d i n g 。 t h i s p a p e rp a n i l 棚yd i s c i l s s e s n l eo g gv o 而i sd 酒t a l 跚d i o e n c o d i n ga l g o r i t h m 。1 km 勾o rw o r k a n di l l n o v a t i o 璐a f e 勰f o l l o w s ： 1 i n t r o d u ：t i o n so fr e c e n ts e v e r a it y p i c a l 枷t i c h a m l c la u d i 0 c n c o d i n gs c h e m e 锄de a c h 叩p l i c a t i o nf i e l d ，d i s c u s s i o no fr e l a t i v em c r i t s a m o n ge n c o d i n g ，b i tr a t ea n d e t c 。 2 l u c u b m t eo g gv o r b i sa u d i o 锄c o d i n gt h e o a n a l y z ck e y t e c l l i l o l o g yo f o g gv o r b i s 。 3 i m p r o v eo nq s o r t 如n c t i o n ；d oo p t i m i z ee x p e r i m e n tb yc h o o s i i 培 o t h e ra p p r o p r i a t es o r ta l g o r i t h m s 。 4 b a s e do no g gv o r b i sp r o j e c t1 0 ，t h ce n c o d e rs p e e do fo p e r a t i o n i si n c r e a s c db y2 0 b yt w oo p t i m i z ee x p e r i m e n t s ，p e r f o 咖a n c eo f e n c o d e ri sa d v a i l c e d ，a 1 1 dh a v ea i le l e m e n t a 可a p p l i c a t i o n 。 f i n a l l ys u m m a r i z et h ep 印e r ，a i l di n d i c a t et h e f h n h e rr c s e a r c h d j r e c t i o n 。皿yw o r d s ：a u d i oc i l c o d i n g ，o g gv o r b i s ，c h 锄e l c o u p l i n g ， s o r ta l g o r i t l l i n 独创性( 或创新性) 声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：劭) 趱整日期：2 n g 礁塑兰旦旦关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅：学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释：本学位论文属于保密在年解密后适用本授权书。非保密论文注释：本学位论文不属于保密范围，适用本授权书。本人签名：i i 坠差整日期：2 型! 鲤主盈三! 笪导师签名：北京邮电大学硕士学位论文多声道音频编码算法的研究及优化 1 1 课题来源概述第一章绪论本课题的研究是依托于多媒体通信技术实验室的工作项目一流媒体在线点播系统为研究背景。分析了当前多声道音频压缩算法的特点和现状，具体阐述了 0 9 9 r b i s 多声道音频压缩算法的原理及其特点，同时对。鹊v o r b i s 编码器实现了性能的优化。 1 2 多声道音频文件压缩编码的背景当前随着存储媒体容量和传输带宽的不断提高，高质量多声道数字音频系统也逐渐取代传统的单声道、立体声系统，而成为新的传播媒体方式嗍。从立体声向多声道的过渡，增加了对存储和传输媒体的需要。下面以c d 格式为例，假设它的采样频率为f s = 4 4 1 k h z ，采样精度r 为1 6 b i t ，那么c d 格式的音频数据率 b 为： b c 旷2 r f s = 1 4 1 1 m b s式( 1 一1 ) 由此可知，一个小时的c d 格式的音乐需要6 3 5 m b 的存贮空间，其实c d 最长的重放时间为7 4 分钟。那么如果使用的是多声道时，此时的数据率为： b c d m u l t i c h a i l i l e l = 5 1 r f s 一3 5 9 8 m b s式( 1 2 ) 同样一个小时的多声道格式的音乐需要1 6 2 g b 的存储空问，远远大于c d 的容量。同时当前已应用的多声道系统面临着带宽的问题。如美国的数字电视中仅仅给多声道的音频3 8 4 k b s 的带宽，在h l t 咖e t 音频广播中，也只有5 6 k b ，s 的数据通道，因此由上可知，多声道数字音频系统面临者存储容量和传输带宽的限制。如何将多声道数字音频数据率降低的同时又能够保证音频质量，是多声道数字音频系统面临的重大问题。众所周知，对于线性p c m 来说，它的实现简单，在高容量高带宽的前提下可以提供c d 质量的音频信号。从另一个角度来看，采样精度的提高以及采样频率的提高，会带来更高的音频质量，如将采样精度由 r = 1 6 提高到l b 2 4 ；将采样频率由f s 4 4 1 k h z 或f 刚8 k h z 提高到f 萨9 6 l 沮z 或 f s - 1 9 2 k h z 。这种发展趋势已经逐渐地由一些录音工程师和音乐制作商所接受，同样多声道数字音频系统则也要顺应这种趋势。但如果仍然采用线性p c m ，这无疑是增加了更大的数据量，提高了现有的数据率。北京邮电大学硕七学位论文多声道音频编码算法的研究及优化我们知道线性p c m 并没有充分利用音频信号的特性进行编码，在p c m 数据流中存在着大量的冗余信息。同时要强调的是不管音频信号如何编解码、传输，最终还是要靠我们的人耳来实现的，因此我们可以充分地考虑人耳的听觉特性，并加以利用，如人耳的掩蔽效应、哈斯效应等等。这样就可以将音频信号中与人耳无关的那部分冗余信息去除掉，在编码时则仅仅对有用的那部分音频信号进行编码，从而降低了参与编码的数据量。同时再将编码的信号进行比特精度的分配，对于幅度比较大的信号或变化比较快的信号分配更多的比特数，而对于幅度小、变化慢的信号则减少比特数的分配，从而达到减少数据率的可能性，实现编码的高效率。当然这种结果是以编码过程复杂化为代价的。 1 3 多声道音频系统编码原理当前在数字音频编码领域存在着各种不同的编码方案和实现方式，不管是通过那一种方式实现，其基本的编码思路方框图都大同小异，如图1 1 所示。对于每一个音频声道中的p c m 音频信号来说，首先都要将它们映射到频域中，这种时域到频域的映射可以通过子带滤波器( 如m p e gl a v e r si ，i i ，d t s ) 或通过变换滤波器组( 如a c 3 ，m p e g 从c ) 实现。这两种方式的最大不同之处在于滤波器组中的频率分辨率的不同。图1 1 多声道数字音额系统基本的编码方框图编码的比特流每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值，然后由计算出的掩蔽门限值来决定如何将公用比特区中的比特分配给不同的频率范围内的信号，如m p e gl a v e r si ，i i ，d t s 所采用；或由计算出的掩蔽门限值来决定哪些频率范围内的量化噪声可以引入而不需要去除，如a c 3 ，m p e ga a c 所采用。然后根据音频信号的时域表达式进行量化，随后采用静噪编码( 如m p e g l a y e r sl ，i i ，d t s ，m p e ga a c ) 。最后将控制参数及辅助数据进行交织产生编码后的数据流。北京邮电大学硕士学位论文多声道音频编码算法的研究及优化 1 4 当前典型的多声道音频编码方案 1 4 1 杜比数字a c - 3 编码压缩算法对于数字音频信号来说，a c 3 通过应用数字压缩算法，来减少正确再现原始脉冲编码调制( p c m ) 样本所需要的数字信息量，得出原始信号经数字压缩后的表达式。编码过程为：首先在分析滤波器组中完成把音频表达式从一个p c m 时间样本的序列变换为一个频率系数样本块的序列。每个样本块包含2 5 6 个频率系数。这些单独的频率系数用二进制指数记数法表示为一个二进制指数和一个尾数。这个指数的集合被编码为信号频谱的粗略表达式，称作频谱包络。核心的比特指派例行程序用这个频谱包络来确定每个单独尾数需要用多少比特进行编码。将频谱包络和6 个音频样本块粗略量化的尾数格式化成一个a c 3 数据帧( 矸b 蝴e ) 。 a c 3 数码流是一个a c 3 数据帧的序列。 p c m 样本图l - 2 a c - 3 编码原理图嗍 a c 3 最早是在1 9 9 1 年的电影“b a n i l 舭r e “瑚s ”中应用的。它的应用不仅在电影界占有一席之地，而且它已被北美地区的数字电视及d v d 视频定为其数字音频实施规范。 1 4 2m p e g 编码压缩算法 m p e g 感知编码系统充分利用了心理声学中的掩蔽效应和哈斯效应，利用压缩编码技术，将原始音频信号中不相关分量和冗余分量有效的去除掉，在不影响入耳听觉阈度和昕音效果质量上，将音频信号压缩。 3 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化编码过程：m p e g 感知型子带音频编码器不断地对音频输入信号进行分析。由一个心理声学模型动态地确定掩蔽门限，即在该掩蔽门限之下的多余的噪声是无法为人的听觉系统听到的。由该心理声学模型产生的信息被反馈至一个比特分配模块，该模块的任务是将各声道可用的比特以一种优化的方式在频谱范围内进行分配。输入信号如上述过程并行地被分割到一系列称为子带的频带中。每个子带信号都在经过定标处理后被重新进行量化，该量化编码过程引入的量化噪声不能超过已确定的对应子带的掩蔽门限。因此量化噪声频谱就与信号频谱进行了动态自适应。“比例因子”和各子带所使用的量化器的相关信息与编码后的子带样值一同进行传输。如图1 3 所示： p c m 输入图1 3m p e g 音频编码算法框图编码码流输出 m p e g 音频标准包括了三种不同的算法，称为层。层数越高，相应可达到的压缩比就越高，而复杂度、延时及对传输误码的敏感度也越高。m p e g - 2 专门对广播应用进行了优化。它使用了具有3 2 个等宽子带划分的子带滤波，自适应比特分配和块压扩。单声道的码率范围为3 2 1 9 2k b p s ，立体声为6 4 3 8 4k b p s 。它在2 5 6k b p s 及1 9 2k b p s 相关立体声条件下的表现十分出色。1 2 8k b p s ( 立体声) 条件下的性能在许多应用中仍可接受。 1 4 3 先进音频编码( a d v 蜘她da u d i oc o d i n g a a c ) 压缩算法从c f i l l 是于1 9 9 7 年成为i s 0 ，i b c 标准的( 参见i s o ，i e c1 3 8 1 8 ) 【1 2 1 。a a c 是以新建立的m p e g - 4 标准中的时域到频域映射的编码算法组成的。a a c 从提高效率的角度出发，放弃了与原m p e g 1 解码器的后向兼容性，这也是该算法在开始时被称为n b c 的原因。 a a c 可以支持l 到4 8 路之间任意数目的音频声道组合、包括1 5 路低频效果声道、配音多语声声道，以及1 5 路数据。它可同时传送1 6 套节目，每套节目的音频及数据结构可任意规定。在码率为6 4 妯p s 声道的条件下，a a c 可以提供很高的声音质量。 4 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化根据不同的应用场合，a a c 提供了三种类型( p r o f i l e ) 以供选择，即主要类型( m a i n p r o f i l e ) 、低复杂度类型( k l w c o m p l l 蕊i t y p m f i l e ) 、可放缩采样率类型 ( s c a l e a b l e s 锄1 p l i n g r a t e ，s s r p r o f i l e ) 。因而其可应用范围很广。编码过程：为提高音频编码效率，a a c 采用了许多先进技术，如霍夫曼编码、相关立体声、声道耦合、反向自适应预测、时域噪声整形、修正离散余弦变换( m d c t ) 、及混合滤波器组等。其编码算法基本结构框图如图1 4 所示。聂纛。一控一：+ 一膏撅码瀛图1 4 从c 编码算法结构框图 5 北京邮电大学硕七学位论文多声道音频编码算法的研究及优化其中，滤波器组与m p e g 层i i i 所采用的滤波器组相比，由于m p e g 层i i i 算法在对滤波器进行选择时考虑了兼容性问题，因而具有固有的结构上的不足：而a a c 则直接采用了m d c t 变换滤波。同时，a a c 增加了窗口长度，由1 1 5 2 点增至2 0 4 8 ，使m d c t 的性能优于原来的滤波器组。时域噪声整形( t n s ) 技术是时域频域编码中一项新颖的技术。它利用频域的自适应预测的结果来对时域中量化噪声的分布进行整形处理。通过采用t n s 技术，可以使特殊环境下的话音信号质量得到显著的提高。后向自适应预测是一项在语音信号编码系统领域建立起来的技术。它主要利用了某特定形式的音频信号易于预测的特点。在量化过程中，通过对量化精度更为精细的控制，可以使给定的码率得到更加有效的利用。在码流复接时，通过对必须传输的信息进行熵编码使冗余度降至最低。通过以上各种编码技术的运用以及采用一种可变的码流结构，使a a c 编码算法在得到大大优化的同时，也为将来进一步提高编码效率提供了可能性。事实上，在a a c 编码的三种类型中，各种编码技术的使用也是不同的，也就是说，三种类型的算法复杂度是不同的。这一不同考虑了编、解码两端的算法复杂度。例如，后向自适应预测约占解码运算量的4 5 左右，在l c 和s s r 类型中都没有采用这一技术。另外，在l c 类型中，t n s 滤波器的长度被限制为 1 2 个系数，但仍保持了1 8k h z 带宽；在s s r 类型中，t n s 也只使用1 2 个系数，并且带宽限制为6k h z ，同时该类型也没有采用声道耦合技术，在混合滤波器组的结构及增益控制方面也与另两种类型不同。从c 可以在低数据率的情况下提供较高质量的音频信息，如每个声道仅 6 4 k b s 时就会有比较好的性能。从c 当前的应用主要用于日本的数字音频广播及美国的m o c ( 带内同频技术) 。 1 4 4 用于d t s 的相干声学编码 d t s 系统f 1 4 】中采用相干声学编码，主要目的就是用于提高音频重放设备重放的音频质量，其音频重放质量可以超越原有的如c d 唱片的质量。相干声学编码器是一种感知、优化、差分子带音频编码器，它使用了多种技术对音频数据进行压缩。编码过程：编码过程中的第一步是通过一个多相滤波器组将每个声道的全频带2 4 比特线性p c m 源信号进行分割到一定数目的子带中去。这种滤波方式提供了一种框架，既可以消除频谱滚降较快的音频信号分量，同时又去除了感知上的冗余度。多相滤波器只要通过低复杂度的计算就可以实现更好的线性、更高的 6 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化理论编码增益和更理想的阻带衰减。每一个子带信号都包含了相应的、严格限制带宽的线性p c m 音频数据。子带的个数及相应的带宽是由输入源的带宽来决定的，一般情况下分为3 2 个独立的子带。图l _ 5 相干声学编码器流程图在每个子带中进行差分编码( 子带a d p c m ) ，这一步可以去除信号中的客观冗余量，如周期很短的信号。通过对信号的对比分析、心理声学及信号瞬态的分析可以判断信号中的感知冗余信息。通过子带范围比特率的选择和上述分析的结果，来调整对每个信号的差分编码程序的执行。差分编码与心理声学模型( 如噪声掩蔽门限) 的结合可以得到较高的编码效率，甚至可以在不影响主观昕觉的基础上进一步降低比特率。如果使用较高的比特率，那么对于心理声学模型的依赖性则相对较弱，但可以肯定随着比特率的增加，编码信号的保真度也会提高。比特指派程序管理着所有音频声道中子带信息的编码指派和分配。在时间和频率上的自适应可以优化音频质量。作为音频编码系统设计的基础，比特指派程序通过对音频信号比特的分配和使用的比特率来决定音频质量。通过在编码策略中独立的执行这些程序使得运算的复杂程度大大提高，但是这样做却可以使得解码器相对的简单。相反，随着比特率的增加，比特指派程序的灵活性也将大大降低，但是可以确保音频质量的透明性。编码过程中最后一步就是将来自每个子带a d p c m 处理后的音频数据进行数据复用( 或称打包) 。数据复用器将所有声道中子带数据加上附加的辅助信息进行打包，形成特殊数据语法格式的编码数据流。在数据流中加入的同步信息将用于解码器对编码数据流的同步。 1 5 论文的章节安排 1 ) 第一章，主要介绍了多声道音频系统编码的基本原理；以及介绍了当前几种典型的多声道音频编码方案，同时对它们的算法原理，编码特点，以及其应用领域等方面做了基本阐述。 2 ) 第二章，首先系统阐述了0 跖v o r b i s 音频压缩编码的基本原理，介绍了 o 跖v o i b i s 音频编码的特点，同时将它与当前流行的m p 3 音频编码做了一个比 7 北京邮电大学硕十学位论文多声道音频编码算法的研究及优化较，同时通过实验说明了在音质，文件大小，流媒体传输等方面o g g 比m p 3 有着很大的优势，进一步说明了研究o 鹳v o r b i s 音频编码的必要性。 3 ) 第三章，是全文的主要部分之一，详细阐述了o g gv o r b i s 音频编码所采用的关键技术，比如m d c t 变换，两种掩蔽曲线的计算，基底曲线以及残差向量的白化处理等，其中最主要的就是o g gv o r b i s 音频压缩技术所特有的声道耦合原理，它又分为正方形极坐标映射和残差声道交织两种机制。正是由于采用声道耦合技术才使0 鹳v o r b i s 编码器实现了多声道且近乎无损的音频压缩，使压缩后的文件保持了相当好的音效质量。 4 ) 第四章，从分析原o g gv o r b i s 编码器中芒要的编码函数的运行时问入手，找到了可以从优化排序函数q s o n 这个角度来提高整个编码器的性能和编码效率，最后详细阐述了从转换接口以节省开销和减少变量交换次数以加速编码器运行时间两个方面来对q s o r t 函数实现优化。 5 ) 第五章，从转换接口以节省开销和减少变量交换次数两个方面入手，分别采用s h d l 排序和归并排序算法替代对原有编码器中的q s o r t 排序函数，进而实现了对o g g r b i s 编码器性能的优化。北京邮电大学硕士学位论文多声道音频编码算法的研究及优化第二章o g gv o r b i s 多声道音频编码算法 2 1o 鹳v o r b i s 编码特点这是本篇论文重点研究的多声道音频压缩编码。o 路v o r b i s 是近年来由美国公司) ( i p h o r gf o u n d a l i o n 开发的通用感觉音频编码器【1 9 】，其特点是：源码完全开放、无专利限制，具有较大编码灵活性。在高质量( 高比特率) 级别c d 或 d a t 立体声1 6 2 4 b “量化) 时，与现在的m p e g 2 和m p e g 4 等音频算法相当； 0 9 9v o r b i s 编码器在没有重新采样到低采样率时，可将c d 高质量立体声信号压缩到低于4 8 x - 口s 比特率。输出码率可设置为( 平均比特率) a b r 或( 可变比特率) v b r ，范围为l 乱1 2 8 k b p s c h ，输入音频信号支持：采样率8 1 9 2 l 【h z ；量化分辨率1 6 2 4 b i t 量化；声道数：单声道、立体声、4 声道、5 1 声道，最高可支持2 5 5 独立声道。 o 鹊v o r b i s 泼计成一个具有心理声学模型的复杂编码器【”】，但解码运算复杂度低于m p 3 。没有提供帧格式、同步及错误保护等，仅仅是接收输入的音频数据块，并压缩成数据包方式。解码器按顺序接收元数据包，解码并把音频帧合成，然后把音频帧合成原始音频流。因此v o r b i s 数据包可用于任何能够提供帧格式、同步、定位及错误保护的一个传输机制，如o g g ( 文件传输) 或r t p ( 网络传输) 等。 2 2o 躲v b r b i s 编码原理f 2 0 l v o r b i s 编码过程的基本过程如下图所示，首先对音频p c m 信号进行稳态瞬态分析，决定m d c t ( m o d i f i c dd i s c f c t ec o s i i l et r a n s f o 衄，改进的离散余弦变换) 的长度；同时原始音频信号要进行f f t 分析。2 种变换的的频谱系数输入给心理声学模型单元，m d c t 系数用于噪声掩蔽计算，f f t 结果用于音调掩蔽特性计算，共同构造总的掩蔽曲线，然后根据m d c t 系数及掩蔽曲线，对频谱系数进行线性预测分析，用l p c 线性预测系数表示频谱包络即基底曲线( n 0 0 r ) ；或者通过线性分段逼近方式获得基底曲线。从m d c t 系数中去掉频谱包络则得到白化的残差( r 锚i d u e ) 频谱，由于残差频谱动态范围明显变小，从而降低量化误差。之后要采用声道耦合技术( s t 郫c h 锄d u p l 妯蓟进一步降低冗余度，耦合主要是将左右声道数据从直角坐标映射到平方极坐标；然后对白化的残差信号以矢量量化( v q ) 的形式表示。最后将要传输的各种信息数据按v o r b i s 定义的包格式组成，形成v o i b i s 压缩码流。下面就是。铭v o r b i s 编码框图： 9 北京邮电丈学硕士学位论文多声道音频编码算法的研究及优化群靛霸蕊r 1 要警登：l 叫ll ：! 兰竺翌：l 一忐甫枉龟图2 1o g g v o r b i s 编码原理框图解码过程与编码过程正好相反，但没有模型分析、基底曲线计算和信号特性分析等模块，因此解码复杂度大大下降，有利于硬件实时实现。 2 3 0 9 9 与m p 3 压缩算法的比较 2 3 1m p 3 压缩特点【1 ” m p 3 就是采用国际标准m p e g 中的第三层音频压缩模式，对声音信号进行压缩的一种格式。1 9 9 3 年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。 m p 3 音频压缩技术是一种失真压缩，其原理是把声音频率中人耳几乎听不到的音域在音频中去除，采用高效率的变换编码音频压缩算法对声音进行压缩，从而使得文件体积大为缩小，可达到1 2 ：1 的压缩比。m p 3 的频率范围最高为 4 舢沮z ，最低为2 0 h z 。在1 2 8 k b p s 的码率下，m p 3 可以达到接近c d 音质的声音质量。但是由于损失了音频中的甚高、甚低音部分( 尽管人耳不是非常敏感) ，使枷p 3 毕竟要比c d 稍逊一些。 2 3 2 0 鹳与m p 3 相比较的优势与当前流行的m p 3 音乐文件格式相比，o g gv o r b i s 在以下方面都有明显的优势：音质方面：影响数字声音质量的主要因素有三个：采样频率、数字量的位数( 简称量化位数) 以及声道数。采样频率决定的是声音的保真度。具体说来就是一秒钟的声音分成多少个数据去表示。根据采样原理，声音数字化后的采样频率定在4 4 1 k h z 。0 9 9 和m p 3 这一点相同。 1 0 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化量化位数表示的是声音的振幅，决定的是音乐的动态范围，所谓动态范围是波形的基线与波形上限间的单位。简单地说，位数越多，音质越细腻。量化位数主要有8 位和1 6 位两种。8 位的声音从最低到最高只有2 8 ：2 5 6 个级别，1 6 位声音有2 1 6 5 5 3 6 个级别。o 鹊和m p 3 一般都是1 6 位。声道数表明在同一时刻声音是只产生一个波形( 单声道) 还是产生两个波形( 立体声双声道) 。顾名思义，当然。鹊的立体声听起来比m p 3 的单声道具有空间感【”】。 o g g v o r b i s 的最主要特点是使用了r 和a b r 混和方式进行编码。与m p 3 的c b r ( 固定比特率) 相比可以达到更好的音质：而且由于v o r b i s 使用了一种灵活的格式，能够在文件格式已经固定下来后还能对音质进行明显的调节和新算法训练。因此，它的声音质量将会越来越好。从频谱来看。鲳v o r b i s 在标准比特率下质量优于m p 3 、w m a 。文件大小方面：使用。鹊文件的显著好处是可以用更小的文件获得优越的声音质量。当前v o r b i s 是以v b r ( 可变位速率) 方式编码的，这使得。鹊的文件可以更小，因为j r 方式可以处理能大幅度进行压缩的音频数据( 比如无声的时段) 而节省空间。流媒体播放：v o r b i s 格式从设计的一开始就是立足于可以更容易地进行流式处理。用户可以很方便地在流媒体环境下播放想要的音乐文件。o g g 可以实现在6 4 比特率上流式播放，而m p 3 最低只能在1 2 8 比特率上实现播放，从这一点可以看出，o 裙占用更少的网络带宽。 2 3 3 音频文件压缩仿真及结果分析下面是我对多个不同大小的w a v 文件分别进行m p 3 和。路两种编码方式的压缩，实验的环境如下：硬件环境：c p u ：h n e l ( r ) p e 嘶啪2 4 g h z；内存：5 1 2 m b 软件环境：、i n d o w s 运行环境：m i c r o f iv i s u a lc h6 o 企业版经过以上实验得到的文件大小如下表所示：北京邮电大学硕七学位论文多声道音频编码算法的研究及优化 w a v 文件 m p 3 文件 o g g 文件表2 1m p 3 和o g g 压缩文件大小比较表 5 9 2 k 1 2 7 m 2 4 3 m3 1 5 m9 4 8 m1 8 4 m2 3 6 m4 6 9 m 1 5 3 k3 1 8 k4 2 7 k5 0 4 k1 5 8 m3 2 1 m6 3 8 m1 0 6 m 1 0 2 k2 1 2 k2 8 5 k3 3 6 k1 0 3 m2 1 0 m4 2 3 m6 6 9 m 其中m p 3 的压缩码率是1 9 2 k p s ，o g g 的平均压缩码率是1 2 8 k p s 。所以o g g 的压缩文件大小一定比m p 3 的压缩文件小，以上这个表充分说明了o g g 能以更低的比特率传输、需要存储的文件更小，同时又提高了文件音质。 2 4 本章小结本章首先系统阐述了o g gv o r b i s 音频压缩编码的基本原理，同时介绍了o g g v | o r b i s 音频编码的几个特点，接着将它与当前流行的m p 3 音频编码做了一个比较，同时通过实验说明了在音质，文件大小，以及流媒体传输等方面，o g g 比 m p 3 有着很多的好处，进而更加进一步说明了我们研究o g gv o r b i s 音频编码算法的必要性。北京邮电大学硕+ 学位论文多声道音频编码算法的研究及优化第三章o g gv o r b i s 音频编码算法中的关键技术分析 0 9 9 v o f b i s 特有的多声道音频编码算法的实现，与其采用的很多的关键编码技术不无关系，比如说用基底曲线编码频谱包络的技术，要实现多声道编码的声道耦合技术，以及其特有的心理声学模型等等，下面就是0 绍、b r b i s 编码器中的关键技术的组成框图。图3 一lo 鹊、，o r b i s 编码器中的关键技术模堤组成框图接下来就是我就对以上0 9 9v o r b i s 编码器中的关键编码技术所做的详细分析，主要是分析各个关键技术对于o g gv o r b i s 编码的影响，o 鹊v o r b i s 编码算法选择这些技术的原因，以及他们在o g gv o f b i s 编码中的如何应用。 3 1 改进的离散余弦变换m d c t 【3 7 】的分析 3 1 1 频域变换的实现方法变换编码是当前普遍采用的音频编码技术。变换编码主要由映射变换、量化及编码几部分操作组成，映射变换的方法很多，一般是指函数变换法，而常用的又是正交变换法。正交变换实现数据压缩的物理本质在于：经过多维坐标系中适当的旋转和变换，能够把散布在各个坐标轴上的原始数据，在新的、适当的坐标系中集中到少数坐标轴上，因此可以用较少的编码位数来表示一组信号样本，实现高效率的压缩编码。变换编码也称为频域编码，在编码处理中，把输入的p c m 信号映射变换到频域，在频域上对信号进行量化和编码，得到编码后的比特流；在解码处理中，从编码得到的比特流经过译码和逆量化后，再经过逆变换才能重建原来的p c m 信号。采用变换编码有利于消除信号之间的相关性。 1 3 北京邮电大学硕十学位论文多声道爵频编码算法的研究及优化现代数字信号处理技术中的频域变换方法有很多，常用于音频压缩编码的有离散傅里叶变换( d f t ) 和离散余弦变换( d c t ) ，以及近年来在d c t 基础上提出一种改进的离散余弦变换( m d c r ) 。以下我主要对d c t 和m d c t 进行分析。对于一给定的实数序列 “以) ) ，一= o ，1 ，2 ，一1 ；其离散余弦变换定义为：础) _ d 洲州= 屠七) 灿【鼍笋”0 1 1 ，2 ，n - l ：柳) r1 式中：砸) ：老七2 0 式( 3 2 ) il1 s j 蔓一l 即 x ( 后) = 糜砌，糜m m c 号骂后= o 1 尼一l 式( 3 3 ) 具逆禺散余抠燹抉( i d c t ) 为： m ) = 叨雅) - 后鼢艄酬笋】 n = 0 ，l ，2 ，n 1 ；式( 3 川在离散余弦变换的定义中令系数都为l ，则：余弦正变换： x ( = 。c 玎“咒) 】= 篓“栉) c o s 【堡翌i 詈丝】余弦正变换： x ( 七) = d c 玎“，1 ) 】= “栉) c o s 【兰号；竽】 k = o ，l ，2 n - l ；式( 3 5 ) 余弦逆她州= 。c 删硎= 篓琊灿【笋】余弦逆变换： “，i ) = 上d c 砸x ( x ) 】= z ( 后) c o s 【兰气罟】 n = o 1 2 n 1 ；式f 3 6 1 m d c t 变换的定义如下所示： m d c t 正变换为础，= 薹娴c o s 刍c z 川圳z 妣川) n = o ，1 - ，等_ 1 式( 3 - 7 ) 1 4 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化 m c t 逆变换为： “= 舌“d 篓x c 的c o s 奇( 2 七十+ m ，z ) ( 2 栉+ - ，七= 0 ，l ，m l 式( 3 8 ) 其中，m ) 是时域样点，x ( 七) 是频域系数，“七) 是窗函数。 3 1 2d c t 与m d c t 的比较分析 d c t 和m d c t 都属于变换编码。从第一小节中的d c t 及m c t 定义表达式可以看出：d c t 是正交变换，而正交变换一般是分组( 块) 进行的，并对每一组系数的编码一般也是独立进行的，因此量化误差对于相继各分块的影响也是不相同。由于正交变换在边界处也存在着固有的不连续性( 只不过对于不同类型的正交变换，其不连续的程度也不相同1 ，因此在这些分组边界处就可能产生很大的噪声。这就是常令人头痛的“块边界效应”。为了消减这种影响，最直观的想法是利用各种滤波器来平滑块边界处的“突跳”，虽有一足的效采，但不是很理想。而另一种效果更好的思路是设法重叠相邻分块的部分数据点再做变换。对于采用d c t 实现这个思路，首先用本组m 个取样和两个相邻组的各刚2 个取样叠加，得到( m + k ) 个采样，取出这些采样之后再加窗口，如图3 2 所示。做 m 十k 点d c t ，得到m + k 个独立的变换系数；为了减少各组间的失真，必须把这 k 个样本重叠；由于对这k 个重叠点变换了两次，因而导致了d c r 编码效率的降低。 m + k 卜一 mmmm 图3 2 d c r 窗 1 5 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化而采用m d c t 后则有以下优点。在用m d c t 时，为了求由m 个采样构成的第一组数据频谱，如图3 3 所示那样，首先把这m 个采样和其相邻的两个组的各一半叠加，取出2 m 个采样，再加上窗口，变换成频谱数据。这样得到了2 m 个频谱系数，不过其中有一半是使剩下的一半的频谱系数符号反转得到的。故独立的频谱系数只得到m 个。就是说，对于由m 个采样构成的每一组，可以将m 个实数值数据进行编码。卜_ m m mm 图3 3m d c t 窗另一个更好的优点是m d c t 和i m d c t 都可以利用时域混叠抵消( t d a c ) 技术来降低“边界效应”，因此基于t d a c 的m d c t 变换更加有效地防止了一般d c t 的块效应”，在分析过程中引进的混叠失真，可以在综合过程中抵消。获得完全重构( p e 慨tr e c o n s t n l c t i o n ) 的特性。为了完全重建信号所要加的窗函数必须满足一定的条件即：窗函数必须是偶对称的且平方的重叠相加为l 。下面就是 m d c t 如何利用t d a c 实现混叠消除，重建信号的示意图。 1 6 北京邮电大学硕士学位论文多声道音频编码算法的研究及优化鼍图3 4t d a c 示意图 3 1 3m d c t 在。鳐v b r b i s 编码中的应用分析通过分析。鹤v o r b i s 编码器，我们可以知道o 鹤v c 曲i s 采用的是5 0 重叠的 m d c t 变换。输入信号被分成若干块，每一块做m d c t ，变换系数按预定的编码安排进行量化。由于m d c t 包含了5 0 的时域交迭窗，因此它极大地改善了块效应。同时在分析o g g v o r b i s 编码器中的m d c t 模块时，o g g v o r b i s 做m d c t 前首先要进行加窗的处理。加窗的目的在于降低边界效应对谱分析的影响，同时提高频率选择性。而且窗函数的定义符合上面完全重建信号的条件，因此说。韶v o f b i s 采用的是基于t d a c 的m d c t 变换。在变换编码中，时域窗长度的选择受两个互相矛盾的因素的制约。窗函数越长，编码效率越高，而过长的窗函数又会使时域分辨率下降，产生严重的“前回声”。“前回声”的产生原因是由于存在冲击信号或类似的时域事件。有效地抑制 ”前回声”的措施是使用短窗，利用前掩蔽效应，使人耳觉察不到。而o 鹊v o f b i s 所采用的是自适应窗选择方式，自适应窗选择就是对平稳信号选择长窗，对非平稳信号使用短窗。实质上自适应窗选择就是在高的编码效率和消除前回声之问取得折衷。在。鹊v o r b

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）多声道音频编码算法的研究及优化.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）多声道音频编码算法的研究及优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档