




已阅读5页,还剩48页未读, 继续免费阅读
(信号与信息处理专业论文)整系数预测技术在无损音频压缩中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要无损音频压缩,就是使用压缩后的数据进行重构,重构后的数据与原始数据完全相同,没有任何信息损失,实际聆听效果与压缩前相同。常规的压缩软件如p k z i p 等用于压缩音频文件时效果不太理想,因此需要设计相应的专用算法用于音频信息流的压缩。本文分析了无损音频编码器的发展现状,并对一些无损压缩算法进行研究,给出几种无损压缩程序对试验音频文件的压缩情况。研究表明,无损压缩算法的压缩比很难超过3 :l ,因此在相同的压缩性能情况下,需着力降低算法的运算复杂度。通过对a u d i o p a k 音频编码器的分析研究,本文提出了一种改进型的整系数预测技术,a i i d i o p a k 只是改进型预测算法的特例。改进型的整系数预测算法在频响性能上弥补了a l l d i o p a k 的不足,减少了预测误差的动态范围。通过对其预测和熵编码进行的改进,在预测误差均值、一阶熵、频谱分布、帧最大值、帧最小值、帧方差以及帧长对预测误差的影响等指标方面都有不同程度的提高,从而明确了改进型预测算法的优势。本文在探讨分帧、预测器、熵编码等设计技术的基础上,阐述了如何利用m 觚,a b 设计、实现和分析无损音频编码器,同时完整地实现了音频信号的编解码,并取得大量的实验数据,为研究分析编码器的性能提供了可靠保证。关键词:无损音频压缩,分帧,预测,熵编码,m 棚a ba b s t ra c tl o s s l e s s 硼【m oc 0 恤p r e s s i o ni sac o m p f e s s i o nt e c h i l o l o g yo f 璐i l 培t 量l ec o m p r e s s e d 挑t oc 0 璐似i l 删出妇m a ti si d e i 】曲c a lt 0 吐i e0 r 远i m i s i r i 吐屺p r o c c s s ,m e r eh a v en od a t al o s i i 培av a r i e 够o fu :t i l i t i c ss u c h 硒p k z i pa r ed e s 删t ob ev e 叫d i e 砸v ef 0 r 锄( t 纰衄弘岱s i o nu h 伽瑚l y ,m e yd on o ts u c 蒯i i lc o m p r e s s i i 塔a u d i od a t av e 哆w e l l w h a ti sn e e d e da r e 也烈i m m ss p e c i 丘9 曲d e s 谤i 甜f o rd i 咖la u d i od a t a 咖p r e s s i o n i i lt h i st h e s i s ,t h ea 舶a n ts t a 钯- 0 f 二m e - a r tl o s s l 岱sa u d i oc o d e ci s 岫z c da l l das h l d yo fs o m ec o m p r e s s i o na l 蓼d t 圭i m si sm a d e ,m ec 0 曲_ p r e s s i r 撕oo fa 中豳e m a l 肌d i om 唧r e s s e db ys 锄el o s s l 骼sc o m p r e s s i o nu t i l i t i e si sa l s o 萄v c 札t l l es n l d ys u g g e s 钰t h a t1 0 s s l e s sc o m p r 铭s i o n 出o r i m m sr a r d y0 b t a 证ac 0 恤p r c s s i o n 枷ol a i g 玎m a n3 :l ;s o ,l ed e s i 蓼o f a1 0 s s l sc o d e r 删db e 鼬e d0 nr e d u 曲 i ga k o r i n 瑚c o m p l 商够a f 妇a 双、呵o fm ec o d e ra u d i o p a kt h i st 量l e s i sb i i n 笋u p 锄i m p r o v e di m e g e rc 0 雒i c i e mp 础d o f t h ei m p v e d 删c 6 v ea 1 9 0 r a t o n 船f o rm es h o n 垮o fa 晡o p a ko n 丘e q u e i y 麟p o n s 懿a n d 础c e st h e 均i 培eo f 删c 6 0 n 锄rw i t l lm ei 瑚l p r o v 锄e i i to np r 呔k | t i i 培a i l de n t r o p yc o d i i 塔,p e r f o m a n c ei l l d e x e sa r er a i s e do nm i i l 洫u m ,m a 】i 血1 u 避a v e 硼留pv a l u ea n dv a u r i a n c ep e r 丘锄e ,t o g e m e rw i i l l 丘r s t - o r d e r 豇灯o p y ,s p e c 仉mo fm ep r e d i c t b ne 玎o r 锄l dt h e 础u 铡虻e0 f 鱼珊el e 理;l h0 n 删出o n 锄r e 】【p 池e m a ls t i l d i e si n m c a 匝cm a tt h ei n l p 删p 砌曲、,ea l 蓼d m mp r e s 锄ts i 罂曲c a m l yb e t t e rp e d o i m a n c cl h 肌t h ea u d i o p a k b 雏c do nm es 砌y0 fd e s i g n0 fh m i n 岛p 砌c t o ra n de i 吐r o p yc o d i n g ,t h i st l l e s i se x p o 蛐i l sh o wt 0d e s i 乳r e a l l 狍a l l d 锄a l y z el o s s l c s sa u d i oc o d e r 咖d 盯m a t l a b f i 蚰l l y ,a 缈a td e a lo fe x p 池e n t a ld a 切i so b t a m e dt o对i o wm ec c d e fp ;d h 啪c e k e y w o r d s :l o s s l e s sc o n l p l 髓s i o n 舶m i i l g 删i c t i i l g 铡哪c o d i i 培m a a b东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:至趣丕坦日期:丛尘胁东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。研姓虢j 逊竖导师虢墨鳖日第一章概述第一章概述数字技术给人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则是应用最为广泛的数字技术之一,c d 、v c d 、d v d 等早己进入干家万户,数字化广播、数字化电视正在全球范围内推广普及。基于广大消费者对高质量、高保真度音频产品的需求,本文着力讨论数字音频信号的无损压缩。1 1 音频压缩技术及早期应用音频压缩技术是对原始数字音频信息流( p c m 编码) 运用适当的数字信号处理技术,在不损失有用信息量,或引入损失可忽略的条件下,降低( 压缩) 其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码【1 j 。数字音频技术是把模拟的声音信号通过采样、量化和编码转换成数字信号。随着采样频率的提高,量化比特数也随之增加,经数字化的音频信号数据量非常巨大,对存储容量的需求及传输时对信道容量的要求都有较大的增加【2 l 【3 】。以c d 为例,采样率为4 4 1 z ,量化精度为1 6 b 砖样本,1 秒钟内的采样位数为4 4 1 1 0 3 1 6 2 = 1 4 1 m b p s 。一张6 5 0 m 的c d 卜_ _ r o m ,可存约l 小时的音乐。若单纯地用扩大存储器容量、增强通信干线传输率的办法是不现实的。数据压缩技术是个行之有效的方法,通过数据压缩手段把信息的数据量减少下来,以压缩的形式存储和传输,既节省了存储空间,又提高了通信干线的传输效率,同时也便于计算机实时处理音频、视频信息,进而为消费者提供高质量的音频节目,实现数字系统的小型化、多媒体化。研究发现,直接将p c m 码流用于存储和传输存在非常大的冗余度【l l 。数据压缩就是将庞大数据中的冗余信息去掉,保留相互独立的信息分量。音频压缩技术的研究和应用由来已久,如a 律、p 律编码就是简单的准瞬时压扩技术,并在i s d n 话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分p c m ( a d p c m ) 、线性预测编码( l p c ) 等技术。事实上,在无损的条件下对音频信号可进行3 :l 左右的压缩,即只用l 3 的数字量即可保留所有的信息。在有损的情况下压缩比甚至于达到1 0 :1 以上【4 】。1 2 音频压缩算法的主要分类及典型代表编码压缩方法有许多种,从不同的角度出发有不同的分类方法。东南大学硕士学位论文1 2 。1 无损压缩和有损压缩从信息论角度出发可将编码压缩方法分为冗余度压缩和信息量压缩两大类【5 】:( 1 ) 冗余度压缩方法也称无损压缩( 1 0 s s l e s sc o m p r e s s i 吼) ,是指使用压缩后的数据进行重构,重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合,常见于是磁盘文件的压缩。就目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的l 2 到l 4 。一些常用的无损算法有哈夫曼( h 1 1 压m a n ) 算法和l z w ( 1 明一z i v & w 醯c h ) 压缩算法。( 2 ) 信息量压缩方法也称有损压缩( 1 0 s $ c o n l p r e s s i o n ) ,是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会使人对原始资料表达的信息造成误解;有损压缩适用于重构信号与原始信号无需完全相同的场合。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢失一些数据不至于对声音或者图像所表达的信息产生误解,但可大大提高压缩比【5 】。1 2 2 时域压缩、变换压缩、子带压缩依据不同的压缩方案,又可将编码压缩方法分为时域压缩、变换压缩、子带压缩f 2 1 ,以及多种技术相互融合的混合压缩等等。每种压缩算法的复杂程度( 包括时间复杂度和空间复杂度) 、重建音频质量、压缩比例,以及编解码延时等都有很大的不同。( 1 ) 时域压缩( 或称为波形编码)该压缩技术是指直接针对音频p c m 码流的样值进行处理,通过静音检测、非线性量化、差分等手段对音频p c m 码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小( c d音质 4 0 0 k b p s ) ,编解码延时最短( 相对其它技术) 。此类压缩技术一般多用于语音等码率低的应用( 源信号带宽小) 场合。时域压缩技术主要包括g 7 l l 、a d p c m 、l p c 、c e l p ,以及在这些技术上发展起来的块压扩技术( 如n i a 蝴) 、子带a d p c m ( s b a d p c m ) 技术( 如g 7 2 l 、g 7 2 2 、a m - x ) 等。( 2 ) 子带压缩该压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由c 砌加e r e 等人于1 9 7 6年提出。其基本思想是将信号的频带分解为若干子频带,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。子带压缩技术中主要应用了心理声学中的声音掩蔽模型,所以在对信号进行压缩时会引入大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声将被有用的声音信号掩蔽掉,人耳无法第一章概述察觉:同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量( e b u 音质标准) 。子带压缩技术目前广泛应用于数字声音节目的存储、制作和数字化广播中。典型的代表有自适应掩蔽模型的通用子带综合编码和复用( m u s i a 蝴) 编码方案,以及用于p l l i l 蛐d c c 中的p a s c ( p r e c i s i o na d a 砸v es u b b a i i dc o d i l 毽,精确自适应子带编码) 等。( 3 ) 变换压缩该技术对二段音频数据进行“线性”交换,对所获得的变换域参数进行量化、传输。通常使用的变换有d f t 、d c t 等。通过对信号的短时功率谱对变换域参数进行合理的动态比特分配,可以使音频质量获得显著改善。该技术的计算量大、复杂度高。变换压缩也有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷将被逐步消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。典型的变换压缩编码技术有d o l b y a c 2 、衄 & t 的a s p e c ( a u d i os p e c 的lp e 豫棚a l & 蜘i p yc c d i 】【l g ) 、p a c ( p e r o e p 胁l 脚i o 蛐) 等。通常的子带压缩技术和变换压缩技术都是根据人对声音信号的感知模型,通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型( p e 嘞a 1 ) 压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。通常,子带编码的复杂度要略低于变换编码,编码延时也相对较短。1 3 音频压缩的必要性和可能性在多媒体的传输和处理中还有许多问题需要进一步解决。比如,如何提高网上传输音频的质量,如何通过网络在世界范围内进行信息交换,解决这些问题就需要提高压缩编码效率。因此,数据压缩成为多媒体信息处理的关键技术。1 3 1 信源的数码率和压缩的必要性从保证声音质量的观点来看,理所当然应该采用线性p c m 。但对于广泛应用来说,线性p c m 所存在的一个明显问题就是数据率太高。例如两通道的线性p c m 约需有1 4m b i 佻的数据率,而对于数字音频广播和i s 聊寸通讯应用来说则希望是1 2 8 k b “,s 一一即要求l ,1 0 于其数据率【2 】。高数据率也会导致同等的高成本( 在存储、交换或传送上) ,因此在过去的数十年,研究人员致力于在既保证音质又压缩数据的同时完善系统。3东南大学硕士学位论文大容量存储媒介及数据网络效率是与其要求的数据传送率相对应的。单位时间可以交换的数据越多,可被同时处理的通道数就越多;磁介质被复制的速度越快,远程的声音文件交换速度就会越快。在对音频通道的数据率进行压缩的同时,也降低了对存储媒介和网络的高性能要求。因此要使音频信号适合于实际存储和传输,必须压缩数据量,降低传输数据码率。1 3 2 无损压缩的可能性从信息论观点来看,音频信号作为一个信源,描述信源的数据是信息量( 信息熵) 和信息冗余量之和。音频信源存在各种冗余信息,如相邻样值、相邻帧的相关性等,数据压缩实质上是减少这些冗余量。冗余量减少可以减少数据量,而不减少信源的信息量。信息论表明:信息量= 数据量一冗余量嘲。在音频信号中,使用无损编码是可行的。无损编码允许经压缩的p c m 数据通过解码器而被完好地恢复,而因其不会对音质产生影响,所以是无噪的。依据音频文件及压缩手段的不同,可获得从l :l 至3 :l 压缩比,压缩范围的不同是因为音频信号含有不可预知的内容。1 4 本文章节安排本文第一章介绍了音频压缩技术及其早期应用,同时分别从信息论、压缩方案等角度对编码压缩进行分类。第二章介绍了无损音频编码的发展现状。第三章介绍了无损压缩的基本原理及其实现。第四章提出了改进型赴血0 p a k 预测器,并对预i 9 1 9 器的性能进行分析。第五章介绍了改进型a u d i 0 p a k 的编解码框图及m 栅,a b 实现,并对研究分析思路进行总结整理。4第二章无损音频编码的发展现状第二章无损音频编码的发展现状前人己在语音及音频信号的有损压缩领域做了大量工作,相比较而言,针对这些信号进行无损压缩的研究与应用却并不多见。虽然无损音频压缩不大可能成为主流技术,但在某些应用领域它是对有损压缩算法的有效补充。2 1 无损压缩的前景无损压缩未能得到足够关注的原因是其压缩比很难超过3 :l ( 有损算法压缩比能达到1 2 :l 甚至更高) ,而对有损算法来说,压缩比越高,最终获得的音频质量越差,一旦确定最低可能的数据率,有损算法是唯一选择。然而,音乐爱好者想从网上下载高保真立体声音频信号以便获得最佳的音乐效果,此时对4 4 1 k l z采样率、1 6 b i t s 量化精度的立体声c d 级数字音频信号进行无损压缩,进而应用于网上传输是一种有效技术手段。有损音频压缩技术如m p e g 或m p 3 不可能达到立体声c d 级效果m 1 。因特网资源的有限性限制了数据传输量的快速增长,所以,对须在因特网上传输的音频信号进行压缩很重要。有理由推测,网上音乐推广将提供更高压缩比的音频信号,以便于消费者浏览和选择,而酷爱c d 级音频质量的音乐爱好者希望获得原始音频信号的无损压缩拷贝该备份不因压缩算法的差异而有任何信号损失。无损音频压缩的价值在于除了可供网上音频信号下载外,还可应用于专业环境下高保真音频数据的归档和混音。在这种情况下,无损压缩避免了使用有损压缩编码情况下因多次编辑而引起的信号衰减。所谓无损压缩格式,顾名思义,就是毫无损失地将数字音频信息流进行压缩的音频格式。常见的m p 3一格式是有损压缩格式,相比于w a v 文件,它们都有相当大程度的信号丢失,这也是它们能达到l o 压缩率的根本原因。而无损压缩格式,就好比用z i p 或w i n r a r 这样的压缩软件去压缩音频信号,得到的压缩格式解压后,和w a v 文件是一模一样的。总而言之,无损压缩格式就是在不损失任何音频信息的前提下,减少w & v 文件体积的格式。2 2 常见无损编码格式介绍目前比较知名的无损编码格式有a p e 、f 1 ,a c 、l p a c 、w 种a c k 。1 a p e ( m 0 r 出e v s a u m o ) 川a p e 的压缩比大约在2 :l 左右,也就是说压缩结果是原来的二分之一大小。一张c d 大约需要3 3 0 m b左右的空间存放。a p e 在国内应用比较广泛,它的压缩率相当优秀,而且效率高、速度快、综合性能强,5东南大学硕士学位论文爱好者能够下载到大量的a p e 格式音乐。而且广泛使用的m o l i l ,e 矿sa u d i o 制作软件也大大推动了该格式的普及。a p e 还提供了w j n a m p 的插件支持,可以直接用w i i 姗p 来播放。a p e 非常适合来编码讲究细节的独奏曲目和大动态的交响曲。a p e 不足之处在于它的解码速度不够理想,只能在w 砌o w s 平台上使用,源码的封闭性也影响对该软件的支持。2 眦【g 】f l a c 是f r l 0 s s l e s sa u d i oc 0 d e c 的简称,该格式源代码完全开放,几乎兼容所有的操作系统平台。该格式不仅有成熟的w i i l d o w s 制作程序,还得到众多第三方软件的支持。此外该格式是唯一的已经得到硬件支持的无损格式,o 公司的硬盘随身昕吼衄j 建伍的车载音响m 吣i 6 k 堍以及p h a 毋0 x 公司的数码播放机都能支持n a c 格式。f l a c 除了每个数据帧的c r c 和m d 5 标记对数据完整性提供保障,还提供了一个v e l i 每( 校验) 选项,当使用该选项进行编码的时候,编码的同时就会立即对己编码数据进行解码并与原始输入数据进行比较,一旦发现不同就会退出并且报警提示。3 h v p a c l 口w - a v p a c k 同时包容了无损格式和有损格式。它不仅仅是一个无损压缩格式,还可同时作为有损压缩格式。在“h y b 耐”模式下,w r a v p a c k 可以压缩成文件( 有损压缩格式,大小一般相当于w 孵文件的2 3 左右) + 、7 l n ,c 文件( 修正文件,大小一般相当于w v 文件的4 1 左右) 的组合。有了对应的w v c 文件,有损压缩格式的m r 文件就变成了无损格式,播放时和普通的无损压缩格式完全一样。若受存储介质容量的限制或要求不高,可以去掉w v c 文件,这时文件就变成有损格式,播放效果和高比特率的m p 3完全一样。4 l p a c 【1 0 1 1 】具有高压缩比,c r c ,还提供了w i 瑚m p 的插件支持。5 w m a i ,o s s l e s s l l 2 】微软在w i i l d o w s m e d i a p l a y e r 9 o 以后开始提供无损压缩功能。只需点击菜单“工具”= “选项”,在“复制音乐”选项卡里选择“w i i l d a 郴m e d i a 音频无损”格式。然后通过w m p 的“从c d 复制”功能里,就能直接将c d 保存成w m a i 髓s l e s s 格式了。除了w i n d o 哪m e d i 棚a y e r 外,难得有其它软件能支持该格式。6 a p p i e l 0 s s l e s s 【1 2 1最新版的苹果i 1 u n e s 音乐软件里也提供了a p p l e l 0 s s l 铝s 无损压缩格式。和w i i l d o w s m e d i a p l a y e r 一样,i t l m e s 可以非常快捷地从c d 中抓轨压缩成a p p i e l 0 s s l e s s 格式,该格式同样也未获得其他软件的支持。7 l a 【1 2 】l a ,是l o s s l 妫s a u d i o 的简称,该格式的压缩比比较高,但编解码速度相当慢,支持它的软件也比较6一第二章无损音频编码的发展现状二= 二二:少。仅限于自己开发的w 啪p 解码插件和w i i l d o w s 界面的编码器l o s s l 哪sa 嘶oc c 娜s o r 。8 o l 劬删g 【1 2 1该格式的压缩率也较高,但是速度比l a 还要慢。有整系数的f 讯预测器和1 0 阶最小均方差线性f m 预测器选项,两个编码器对预测误差信号都使用c e 编码。1 0 d v d 标准f 4 】使用职预测和对预测误差信号的h 曲陆飙编码,。关注高采样率。1 1 u a c 那i o n1 1 矗) rd o s ) f 1 4 】l 1 a c 使用变换编码去相关,使用c e 编码压缩变换系数和误差。软件作者此后又开发出l p a c 无损音频编码器。1 2 m u s i c 伽p r e s s m r s i o n1 2 细w i i l d o w s ) 【9 】m u s i c 0 m p r e s s 使用预测型计算结构,原始信号减去预测值获得预测误差信号,然后进行无损编码。m u s i c ( 髓p 嘲s 使用块符点表示,同时对预测值及预测误差信号进行h l l 妇h a n 编码。1 3 o g g s 叫s h i o n9 8 9f o ru 血) 【4 】该无损音频编码器使用己线性预测和h u 妇陆孤编码,o g g s q l l i s h 不是精确意义上的音频编码器,它是一个d s p ,可以运行用户的任何编码程序,如o g g s q u i s h 能运行s c r i p b 产生a d p c m 、m p e g 、b 洫i v q等。1 4 m h p s f 4 】p 蛐岫s 算法使用一个l o 阶腿线性预测器和c e 编码方案。1 5 s 锄a r c l r s i 衄2 1 if o rd o s ) 【4 j f 9 js o 肋r c 使用陬线性预测器和h l 曲m n 编码。如缺省变量,使用s c h l l r 算法的定点整数版本来计算陬预测系数。如变量中包含- x ,则预测系数由自相关、协方差、s c h u r 算法、b u i :g 算法中较优的一个来决定。1 6 w a 谢i o m 觚舡蝴i o n1 1f o r d o s ) 【4 1w a 使用f 瓜线性预测器实现帧内去相关,熵编码采用m c c 编码,w a 提供五个层次的编码:c l ,c 2 ,奶,科和- c 5 ,压缩比随层数适度增加。- c 5 给出最佳压缩比,所花费的计算时间比- c l 要长。1 7 删1 5 】它是未经压缩的格式,一直是音质完美主义者的首选。目前要想做出高质量的音乐,w 州格式的文件也是无法替代的中间体。本文所研究的无损音频编码也是针对w a v 格式的文件进行压缩的。7东南大学硕士学位论文2 3 压缩性能比较无损压缩在常规应用方面比较广泛,一系列的应用程序如w i n r a r 、p 炀p 等被广泛地应用于文本及程序文件的压缩以便于存储或在网上传输。这些程序对基于上下文的数据压缩效果明显,例如,某文章的p o s t s 嘶p t 型式的文档长度为4 ,5 6 0 ,9 9 9 字节,而经p k z i p 程序压缩后仅占6 9 6 ,0 4 l 字节,压缩比为4 5 6 0 9 9 9 6 9 6 0 4 l = 6 5 5 ;另一例子,t r a c k 0 4 是一个音频文件,它是1 6 b i t s 抽样获得,压缩前的文件长度为3 3 ,7 1 5 ,9 6 4 字节,经p k z i p 压缩后文件长度为3 l ,5 7 3 ,9 1 5 字节,此时压缩比仅为1 0 7 ,因此对数字音频文件来说,需要设计相应的特殊算法。通过对部分无损压缩程序的测试表明( 结果见表2 1 ) ,这些算法几乎在所有情况下都有效。表2 - l :部分无损压缩程序对试验文件的压缩情况之一( 压缩后文件长度原文件长度)姊勋脚m o n k e y sa u d i ow a 吡i p 【1 6 】1 17 】l 】p a cv 3 4 2v 3 9 9v 2 0 ls 0 0 m5 7 8 3 4 1 0 7 4 3 5 5 4 9 1 2 s 0 l c e5 8 8 1 4 0 1 9 4 2 2 8 4 7 0 7 s 0 2 b e8 2 8 7 4 0 7 6 4 8 2 4 6 9 2 3 s 0 3 c c7 5 1 9 6 6 1 8 6 8 1 6 7 4 0 2 s 0 4 s l6 9 3 0 4 7 5 3 5 9 4 7 6 5 3 3 s 0 5 b m8 2 5 3 6 9 8 4 7 3 6 3 7 9 7 8 s 0 6 e b7 7 4 8 6 7 9 3 7 0 4 1 7 2 7 5 s 0 7 b i7 1 5 l 5 4 4 8 5 7 3 2 6 7 5 7 s 0 8 k y8 0 7 7 6 9 3 4 7 3 1 4 7 9 3 9 s 0 9 s r6 7 1 1 4 3 2 3 4 6 0 9 5 8 3 9 s 1 0 s i6 9 2 8 5 0 9 5 5 3 3 2 6 4 _ 3 5 s 1 1 p s9 1 4 2 8 6 0 l 8 6 8 1 8 9 8 4 s 1 2 p m5 8 4 0 4 2 9 6 4 3 5 5 8 9 9 4 第二章无损音频编码的发展现状s 0 0 4 63 8 4 0 9 1 3 64 9 3 6 6 9 s 0 1 c e4 43 3 4 15 3 4 l9 8 4 1 1 4 s 0 2 b e6 6 7 9 5 3 1 5 4 2 0 0 4 2 4 3 s 0 3 c c7 25 6 5 59 7 5 7 3 2 5 65 2 s 0 4 s l6 3 4 7 4 0 9 9 4 2 0 2 4 0 7 0 s 0 5 i 孙d7 83 2 7 29 1 6 9 5 1 7 0 7 0 s 0 6 e b7 l9 7 6 8 9 7 6 69 5 6 7 6 7 s 0 7 b i“7 4 5 95 0 6 2 0 7 6 2 4 8 s 0 8 k y7 8 4 2 7 1 1 3 7 1 3 9 7 2 0 8 s 0 9 s r5 5 5 6 5 19 9 4 67 0 5 23 9 s l o s i6 1 3 2 5 09 9 5 6 1 2 5 3 _ 4 舷s 1 1 p s8 7 4 0 8 7 1 3 8 6 2 5 8 6 4 2 s 1 2 p m8 75 0 8 7 1 4 4 3 1 5 4 3 2 7 从表中数据可看出,常规的压缩软件如w i r i i ia r 用于压缩音频文件时效果不太理想,专用音频文件压缩的软件压缩比趋于一个极限( 3 :l 左右) ,如果一个编码器以较少的算术运算而达到这个压缩极限即可认为其是一个优秀的无损音频压缩技术,即研究人员着力于降低算术运算的复杂度以提高无损编码器的性能。2 4 无损编码的优势及不足2 4 1 无损编码的优势( 1 ) 1 的保存【1 2 】无损压缩就如同用w i n r a r 压缩文件一样,能1 0 0 的保存音频文件的全部数据,没有任何信号丢失。利用无损压缩编码能最大限度地能将原始音频文件备份到存储介质上,同时又减少空间占用量。( 2 ) 音质无损失既然是l o o 6 的保存了原始音频信号,无损压缩格式的音质无疑和原始音频文件是一样的,实际聆听效果无异。而有损压缩格式由于丢失一部分信号,所以音质再好,也只能是无限接近于原声,无法完全达到原始音频的水准。而且由于有损压缩格式算法的局限性,在压缩交响乐等动态范围大的音频信号时,其音质表现差强人意。而无损压缩格式则不存在这样的问题。日东南大学硕士学位论文( 3 ) 转换方便无损压缩格式可以很方便地还原成w 文件,甚至能直接转压缩成某种有损压缩格式,或在不同无损压缩格式之间互相转换,而不会丢失任何数据。这与有损格式相比优势明显。而用有损压缩格式进行二次编码时,无论是从一种有损格式转换成另一种有损格式,还是格式不变而调整比特率,都意味着丢失更多的信号,带来更大的失真。2 4 2 无损编码的不足( 1 ) 占用空间大,压缩比低与有损压缩格式相比,无损压缩格式的压缩能力要差得多,一般都在2 :l 左右。而1 9 2 k b p s 的有损格式只有原文件的8 :l 左右,两者在压缩率上的差异相当悬殊。( 2 ) 缺乏足够的硬件支持目前只有f 1 a c 格式获得到为极少的硬件支持,能播放无损压缩格式的随身听只有i 白m a 等很少机型。造成这种现状的原因是多方面的。首先,目前主流闪存m p 3 随身听的容量还只有1 2 8 m b 或2 5 6 m b ,存放无损格式显然不现实;其次,无损压缩格式的解码需要相当大的计算量,要求高速的解码芯片,目前这样的解码芯片还很少;另外,与有损格式相比,无损格式的解码需要消耗的电能更多。各种无损压缩算法尽管还有这样和那样的不足,但是无损压缩格式的前景无疑是光明的,从目前存在的无损压缩格式种类之多就可以看出这一点。随着时间的推移、技术的推进,限制无损格式的种种因素将逐渐被消除。比如硬盘容量的不断增加,1 2 0 g b 己成主流,1 6 0 g b 也将普及,无损格式占用空间大的问题将不再是问题。而速度更快的解码芯片也将会被开发出来,相信会有越来越多的硬盘随身听支持无损格式。而在不久的将来,连闪存随身听的容量都要以( m 来计算时,为了追求更高的音质,无损压缩格式会越来一越被人重视12 5 本章小结本章介绍了部分无损编码格式,在这些格式中a p e 、f l a c 、l p a c 、w a v p a c k 比较知名,尤以a p e的应用比较广泛。而d v d 标准则偏重于高采样率的音频信号。w a v 文件是未经压缩的格式,要做出高质量的音乐,w 斛文件也是无法替代的中间体。通过对实验音频文件的测试表明,常规的压缩软件如w j n r a r 的压缩效果不太理想,专用的音频压缩软件的压缩比趋于一个极限( 3 :l 左右) ,且不同的算法对同一个音频信号的压缩每样本差别很小,因此,需着力于降低算法的运算复杂度。本章最后介绍了无损音频编码的优缺点,但随着技术的推进,其发展前景是光明的。1 0第三章无损压缩的基本原理及实现第三章无损压缩的基本原理及实现图3 1 是单声道情况下音频压缩的框图,对于该项技术的研究都基于相似的思想:首先从信号中去除冗余,然后用有效的数据编码方案进行编科1 3 h 2 1 1 。音频信号缸n e 【n 压缩信号分帧去相关l熵编码图3 1 :大部分压缩算法的基本框图虽然立体声录音信号的两个声道存在相关性,其相关性很弱很难考虑。所以,无损压缩的多声道情况在文献中未获得足够的关注。虽然左右声道存在关联性,但通常立体声声道单独压缩,或者对左声道样值及左右声道样值之差分别压缩。3 1 分帧帧一词来自图像,其意是将一个连续活动图像划为一幅幅画面,连环画就是一个很好例子。在数字音频中借用“帧”,其意是模拟信号变换为数码,将其数码分成许多的小片段,称这小片段为l 咧引。为了便于纠错编码以及纠正数码发生的误码,在c d 激光唱片系统中将6 次采样值归为l 帧信息作为一个整体处理。对于立体声l 、r 共有1 2 次采样值,采用1 6 比特量化时则为1 9 2 比特。音频工程师协会和欧洲广播联合会( a e s e b 功推荐在音频编码时使用的帧长是1 9 2 的倍数。分帧用于提供可编辑能力,它是大部分数字音频压缩算法重要且必要的特点。快速且简便地编辑一个压缩音频信息流通常是很重要的。由于数据绝对量巨大,一定要避免对编辑范围之外信号的重复解压。所以,实际操作是将数字音频信号分成等时间间隔的独立帧,间隔不能太短,因为附加于每帧前面的头文件增加了数据长度,头文件确定了压缩算法参数及基于时间的输入信号的特性变化,它是帧与帧之间变换的基础;对于应用而言间隔又不应太长,因这将限制算法的时间适应性,并使得压缩的音频信息流难于编辑。实验表明,帧长取1 3 2 6 脚较合适,在采样频率为4 4 1 k h :z 时,对应于5 7 6 1 1 5 2 个采样点h 。3 2 帧内去相关无损音频编码器预测精度越高,编码效率则越高。大多数算法通过一些改进的线性预测器去除冗余,这些算法将线性预测器应用于每一帧数据,产生预测误差序列。预测器的参数,代表着从信号中移去的冗余,无损编码预测器的参数和预测误差一起代表每一帧信号。1 l东南大学硕士学位论文预测器的基本原理是利用声音信号的相关性,用过去的样值卅陋1 】、坤扣2 】、等来预测当前的样值x m ,利用过去的样值越多则预测精度越高。再把当前的样值与预测值相减取其之差( 预测误差) 进行编码。由于差值的动态范围要远小于信号的动态范围,这时即使仍采用原信号量化时采用的量化级,也可降低码位进行编码,进而实现比特率压缩。这种方法对于那些具有平稳特性的声音信号特别有效。例如幅度起伏平缓的声音,预测误差会在零至很小值之间变化。图3 2 绘出了预测模式下帧内去相关的框图。如预测器运行良好,预测误差p 纠是不相关的,有平坦的频谱。同样,p 嗍的均值将比巾日小,只要较少的数据位来表示其实际值。的图3 2 :帧内去相关预测模型音频无损压缩目前所使用的预测器结构图见图3 3 ,由该图可得p 印】。p 防】:x k 】一q 兰喀x 防一七】一兰反p 防一后】p 防】= x k 】一q 喀x 防一七】一反p 防一后】l 七= 1七= lj( 3 1 )图3 3 :基本预测模型图中q 表示与原始信号有相同的量化阶,彳( z ) 和雪g ) 是为前馈和反馈的z 变换多项式,( 3 1 ) 式中表示前馈。后一聍舛一口m 脯第三章无损压缩的基本原理及实现表示反馈。如果雪g ) = o ,即不考虑反馈,忽略量化器q ,则预测误差滤波器具有有限冲激响应( 陬) 。如果反馈项存在( 豆g ) o ) ,则预测器是l 预测器。图3 3 的量化操作使预测器成为一个非线性预测器,但因量化器具有1 6 位精度,从理解预测器的一阶影响和开发评估预测器参数角度考虑,可以忽略量化。由于要在远程甚至于不同结构的机器上由p m 重建x m ,所以p m 通常与巾2 】具有同样的定点整数量化方案,不再引入低于最小有效位的新的量化电平。由p 咖】重建x 印】只需根据( 3 1 ) 式,依据f 忉】导出:rm、x k 】= p k 】+ q 盈x k 一后】_ 瓦p k j | 】( 3 2 )x 砷】重建框图见图3 - 4 一1 山il口一n 孓一。厶+ 广_ 荔 图3 4 :基本重建模型线性预测器被广泛地应用于语音和音频信号处理,大多数情况下,使用f m 滤波器,预测滤波器a ( z )的系数决定于均方预测误差的最小化。图3 - 3 中若不考虑量化器,且占( z ) = o ,f i r 预测系数可通过求解一组线性方程式获得。若在无损音频压缩中使用f m 滤波器,则系数可通过确定的步骤求得然后进行量化( 图3 3应( z ) = o 时) 。图3 _ 4 中利用同样的系数由p 【刀】重建咖】。所以,预测系数必须进行量化并编码,以作为无损编码的一部分。通常,为了使预测器适应信号的变化,每一帧须确定一组新的系数。预测器系数的确定方法有用最小均方误差预测器估计的,也有从预测器库中简单的选取。在我们研究的无损音频压缩算法中,对于一个给定音频信号,许多预测器是从有限的系数序列库中选取,以避免需要考虑最佳状况下的预测器系数。在这样情况下,给定帧的预测器和压缩预测误差一样需要编码。如预测器中既有前馈项又有反馈项,即l 情况下,最小均方误差预测器的解法是相当复杂的,基于此因,r 预测在语音处理领域未被广泛采用。在无损压缩中,c i r a 瑚e ta l 【2 3 l 认为:有相同系数的t1 1 31 _ j后一聆- - 。lp一九蹦东南大学硕士学位论文预测器与f i r 预测器相比有其潜在优势,即己预测器适应于更宽的频谱范围,但迄今为止r 预测器在压缩性能方面的改进是有限的。通常,音频信号最小均方误差预测器的系数会有小数,这些系数必须被量化并编码以作为无损编码的一部分。而预测器必须用定点算法来实现,若预测系数采用整数时,特别容易计算出预测误差,且整式算法很容易在不同的计算平台上精确实现。在所研究的编码器中,a u d i o p a k ( v e r s i o n1 1 ) 【4 】编码器采用了一种结构和实现都较为简单的预测器,为了简化预测误差的计算,a u d i o p a k 通过采用一个各阶系数均为整数且非常简单的f 瓜自适应预测方法,此方法首先由s h 哦锄洲系统提出。a u d i o p a l ( 预测器仅使用下面四个简单的f i r 预测器,每个预测器均使用整系数。具体表述为:f 【刀】_ oj 苎? 1 2 1 ,:一,( 3 3 )it 印】= 2 x 砷一1 卜虹刀一2 】、。【量3 【聆】= 3 虹疗一1 】一3 虹聍一2 】+ 虹刀一3 】在上式中曼,【力】( p = o ,l ,2 ,3 ) 为虹刀】的p 阶估计值,a i l d i 0 p a k 通过计算各阶估计值和实际值之间的差值并且在帧数据中找出累计差值绝对值最小所对应的预测器作为该帧数据的预测器。由于该预测器包含有限个过去样本的线性组合,因而是陬预测器。依据所定义的p 阶多项式,通过此前的p 个数据点z 砷- l 】、z 印一2 】歹忉剜,可计算出第,z 个样本时间的预测值研行】。图3 5 :a u d i o p a l ( 应用于帧内去相关时预测值产生的示意图1 4第三章无损压缩的基本原理及实现对典型样本序列所产生的多项式及预测值见图3 - 5 。图中式印】、墨印】、艺忉】很容易从式( 3 3 ) 找出对应关系,经过虹,z 一3 】和虹刀一2 】画一条直线,在咖一1 】样本时间得舅:忉一l 】= 2 虹,2 2 卜虹刀一3 】,依据曩 刀】= 3 虹刀一1 】一3 虹刀一2 】+ 舛刀一1 】= x 【刀二- 1 】+ ( 2 x 【刀一l 卜x 【刀一2 】) 一( 2 虹拧一2 卜蠼,一3 】)= 毫【,z 】+ 曼2 【,z 】一叠2 【刀一1 】即可在图中找出毫印】。出】与各阶预测值相减即可得相应的预测误差。式( 3 3 ) 这组多项式的预测值的一个有趣特性是相应的误差信号( 勺咖】哥陋】一协】) 可通过以下递归方式进行高效地计算。虹聆】e o 印】一p o 刀一1 】巳【”】一p l 刀一1 】e 2 【,z 】一e 2 【刀一l 】( 3 4 )由此可看出误差的计算完全依赖于相加和移位而不需要任何乘法运算,特别容易计算出预测误差,而整式算法很容易在不同的计算平台上精确实现。实验发现a u d i o p a k 预测器在处理变化缓慢的语音信号时能有效的减少原始数据的动态范围达到压缩数据的目的,但在处理起伏不定的音乐信号时其作用并不明显瞄】。j 熵编码熵编码是无损编码,熵编码移去误差信号的冗余。在这个过程中,无信息丢失。熵编码常使用:哈夫曼编码、游程编码、m c e 编码。前面两种方法使用较多,而m c e 编码只有少数编码器使用,不太为人所知。硒c c 【7 1 编码只有一个参数k ,事实上,这是一个信源为l a p l a c e 分布的 h l 血龃编码,a u d i o p a k 、s h o 哟n 、l 1 a c 等所讨论的声道内去相关操作中的预测误差信号
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中安全培训计划表格式课件
- 先进安全管理方法培训课件
- 化学品防护安全培训课件
- 内蒙医教网的课件
- 古诗三首《望洞庭》公开课一等奖创新教案
- 化学厂区安全培训课件
- 先天性肺囊肿
- 先天性心脏病治疗课件
- 【大单元】二上第四单元 10《日月潭》 +公开课一等奖创新教学设计
- 创业机会概述
- 社会责任CSR培训教材
- 脊柱外科入院宣教
- 医院“十五五”发展规划(2026-2030)
- Unit1AnimalFriendsSectionA1a-1d课件-人教版英语七年级下册
- 2025铁路局劳动合同示范文本
- 教育信息化中的数字孪生技术应用案例分析
- T/CSPSTC 15-2018新型智慧楼宇评价指标体系
- T/CCPITCSC 096-2022名表真假鉴定规范
- 美的分权规范手册
- 质量策划培训
- 能源托管协议书范本
评论
0/150
提交评论