(信号与信息处理专业论文)无损音频编码(mpeg4+als)的原理分析与仿真.pdf_第1页
(信号与信息处理专业论文)无损音频编码(mpeg4+als)的原理分析与仿真.pdf_第2页
(信号与信息处理专业论文)无损音频编码(mpeg4+als)的原理分析与仿真.pdf_第3页
(信号与信息处理专业论文)无损音频编码(mpeg4+als)的原理分析与仿真.pdf_第4页
(信号与信息处理专业论文)无损音频编码(mpeg4+als)的原理分析与仿真.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要无损音频压缩逐渐成为数字音频压缩领域的一个研究热点,很多研究机构和公司都提出了一些无损音频压缩算法。m p e g 4a l s ( m p e g 一4s t a n d a r df o rl o s s l e s sa u d i oc o d i n g ) 由于在压缩效率、复杂度、灵活性等方面都有不错的表现,受到了越来越多的关注。通过对m p e g 4a l s 编码器的分析研究,本文给出了两种较易实现的改进:一种是应用了基于随机存取功能的逐阶预测:一种是对预测系数量化的改进。接着,用详实的测试数据、图表对逐阶预测相对不预测的情况下的优势进行论证。最后将m p e g 一4a l s 与a u d i o p a k 的性能进行了纵向比较,从预测阶数、预测误差的信息熵、频谱、帧平均值、帧最大值、帧最小值、方差等角度进行了分析。实验表明,m p e g 一4 a l s 有着不错的压缩性能。本文在探讨分帧、预测器、熵编码等设计技术的基础上,阐述了如何利用m a t l a b设计、仿真和分析无损音频编码器,同时完整地实现了音频信号的编解码,并取得大量的实验数据,为研究分析无损编解码器的性能提供了可靠保证。关键词:无损音频压缩,m p e g - 4 a l s ,a u d i o p a k ,分帧,自适应预测,熵编码,m a t l a ba b s t r a c tl o s s l e s sa u d i oc o m p r e s s i o ng r a d u a l l yb e c o m e saf o c u so fr e s e a r c ho nd i g i t a la u d i oc o m d r e s s i o nal o to fr e s e a r c hi n s t i t u t i o n sa n dc o m p a n i e sh a v ep r o p o s e ds o m el o s s l e s sa u d i oc o m p r e s s i o na r i t h m e t i cb e c a u s eo fi t sg o o dp e r f o r m a n c ei nc o m p r e s s i o ne f f i c i e n c y ,c o m p l e x i t ya n df l e x i b i l i t y , m o r ea t t e n t i o na r el a i do nm p e g 一4a l s ( m p e g 一4s t a n d a r df o rl o s s l e s sa u d i oc o d i n g ) a f t e ras t u a yo nt h em p e g 一4a l sc o d e r , t h i st h e s i sp r o p o s e st w oi m p r o v e m e n t s t h e ya r ev e r ye a s yt oi m p l e m e n t o n ei sp r o g r e s s i v e o r d e rp r e d i c t i o no ft h es t a r t i n gs a m p l e sa tt h er a n d o ma c c e s sp o i n t s ,t h eo t h e ri st h ei m p r o v e m e n to f q u a n t i z a t i o no f p r e d i c t o rc o e f f i c i e n t s t h e nd a t aa n dd i a g r a mt h o r o u g h l yd e m o n s t r a t et h es u p e r i o r i t yo fp r o g r e s s i v e o r d e rp r e d i c t i o n e v e n t u a l l y , w ec o m p a r es o m em p e g 一4a l s sc a p a b i l i t i e s ,s u c ha sp r e d i c t i o no r d e r ,p r e d i c t i o ne r r o r se n t r o p ya n ds p e c t r t t m ,m i n i m u m ,m a x i m u m ,a v e r a g ev a l u ea n dv a r i a n c ep e rf l a m e ,w i t ht h a to fa u d i o p a k e x p e r i m e n t a ls t u d i e si n d i c a t et h a tm p e g 一4a l sc o d e rh a sb e t t e rc o m p r e s s i o np e r f o r m a n c e b a s e do nt h es t u d yo fd e s i g no ff r a m i n g ,p r e d i c t o ra n de n t r o p yc o d i n g ,w ed e s i g n ,s i m u l a t ea n da n a l y z ei o s s l e s sa u d i oc o d e ru n d e rm a t l a b m e a n w h i l e ,a u d i oc o d e ra n dd e c o d e ra r ci m p l e m e n t e da n dag r e a td e a lo fe x p e r i m e n t a ld a t ai so b t a i n e d ,w h i c ho f f e r sg u a r a n t e ef o ra n a l y z i n gt h el o s s l e s sc o d e ra n dd e c o d e r sp e r f o r m a n c e k e y w o r d s :l o s s l e s sc o m p r e s s i o n ,m p e g - 4a l s ,a u d i o p a k ,f l a m i n g ,a d a p t i v ep r e d i c t i n ge n t r o p yc o d i n g ,m a t l a b东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:日期:2 0 0 6 0 3关于学位论文使用授权的说明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。研究生签名师签名:童麴日期:2 0 0 6 0 3第一章概述第一章概述随着大容量存储设备和宽带网络的快速发展,人们对音频质量的要求也随之提高。在这种趋势下,无损音频压缩逐渐成为数字音频压缩领域的一个研究热点,很多研究机构和公司都提出了一些无损音频压缩算法”。何为无损音频压缩i ”,顾名思义,就是在不损失任何音频信息的前提下实现压缩。目前的有损音频编码标准( 如m p 3 ,a a c 和a c 3 ) 在大多数情况下能够达到良好的主观音质和高压缩比-但遇到数据动态范围较大的音乐( 如交响乐等) 时,其音质就差强人意了。在一些演播室或者音乐厅环境中,有损编码后的音频效果无法达到期望的逼真度。另外,在音频编辑的过程中对有损格式的音频数据作二次编码( 即从一种有损格式转换成另神有损格式。或者格式不变仅改变比特率)有些不便,不同的有损压缩格式的码流之间无法直接转化。由于有损编码先天的设许,丢失了一部分信号,有损压缩格式的二次编码意味着丢失更多的信息,从而引入更大的失真。与有损压缩相比无损压缩后能达到真正透明音质,且在不同的无损格式之间相互转化不丢失任何音频信息,唯一的不足是目前压缩比仍不够高,很少有超过3 :1 的压缩率。目前,比较流行的无损音频压缩格式1 有2 种:d v d - a u d i o 和s a c d ( s u p e r a u d i oc d ) ,但这2 种格式的关键技术为几家公司垄断。为发展一种更广泛使用的无损音频压缩标准,m p e g 音频小组在2 0 0 2 年7 月开始征集无损音频压缩方案知并对无损音频压缩方案的兼容性、可分级性以及随机访问能力提出了一些具体要求。2 0 0 3 年7 月,柏林工业大学提交的编码方案被确定为工作草案,这种方案就是本文所要讨论的m p e g 一4a l s ( m p e l 3 4s t a n d a r df o rl o s s l e s sa u d i oc o d i n g ) 方案”j 。m p e g - 4a l s 标准的基本原理是充分利用音频信号的相关性和数据的统计冗余进行压缩。其压缩过程如f :首先利用线性预测( l p c ) 技术得到预测残差信号,以去除信号间的相关性,再对残差信号进行熵编码。其中,预测器采用l e v i n s o n - d u b i n 算法,自适应地选择最优阶数和系数,再对系数进行量化和编码。作为参数放入码流中。对残差的熵编码可动态地在g o l o m b r i c e 码和高效块码中选择效率较高的一种选择码字索引放入码流。本文试图利用以上预测、熵编码等编码技术,来进行m p e g - 4a l s 的仿真实现。然后通过仿真取得的实验数据,对其进一步分析研究,提出一些改进的算法和思想,并用一阶熵、方差等各项指标验证其性能。本章中,首先对音频压缩的依据和必要性、数字音频压缩标准进行了介绍,其次介绍了无损音频编码的发展现状。1 1 音频数据压缩的依据和必要性1 1 1音频压缩编码的依据虑。根据统计分析结果,音频信号中存在着多种冗余【”,其晟主要部分可分别从时域和频域来考1 1 1 1 时域冗余音频信号在时域上的冗余主要表现为如下几方面:( i ) 幅度分布的非均匀性。统计表明,大多数类型的音频信号中,小幅度样值比大幅度样值的概率要高。( 2 ) 样值间的相关性。对语音波形的分析表明,相邻样值之间存在很强的相关性。当取样频率为8 k h z 时,相邻取样值间的相关系数大于o 8 5 。如果取样频率提高,样值间的相关性将更强。因1东南大学硕十学位论文而根据这种较强的相关性,采用一些编码技术,可以进行有效的数据压缩。( 3 ) 周期之间的相关性。音频信号分布于整个2 0 h z - 2 0 k h z 的频带范围,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。( 4 ) 静止系数。话音间的停顿本身就是一种冗余。若能正确检测出该静音段,并去除这段时间的样值数据,就能起到压缩的作用。1 1 1 2 频域冗余音频信号在频域的冗余主要表现在如下两方面( 1 ) 长时功率谱密度的非均匀性。( 2 ) 语音特有的短时功率谱密度。1 1 1 3 听觉冗余音频信号的最终用户是人,园此,要充分利用人类听觉的生理心理感知特性的影响。因为人耳对信号幅度、频率的分辨能力是有限的,所以凡是人耳感觉不到的成分,都称为与听觉无关的“不相关”部分,都可视为是冗余的,可以将其压缩掉。1 1 2 音频压缩的必要性随着采样频率的提高,量化比特数的不断增加,数字化后的音频信号数据量巨大,这不利于存储和传输。例如d v d - a u d i o 的最大位速率是9 6m b s ,而对于6 声道9 6k h z 2 4b i t 音频,位速率达到1 3 8m b s ,因此要实现高质量的环绕声,必须使用无损压缩m l p ( m e r i d i a nl o s s l e s sp a c k i n g )编码技术【“1 。高数码率会导致同等的高成本( 在存储、交换或传送上) ,也会降低大容量存储媒介及数据 日络的效率。因此,为了降低传输或存储的费用和提高效率,就必须对数字音频信号进行压缩。1 1 3音频信号无损压缩的可行性从信息论观点来看,音频信号作为一个信源,描述信源的数据是信息量( 信息熵) 和信息冗余量之和。音频信源存在各种冗余信息,如相邻样值、相邻帧的相关性等,数据压缩实质上是减少这些冗余量,冗余量减少可以减少数据量,而不减少信源的信息量。信息论表明:信息量= 数据量一冗余量f ”i 。在音频信号中,使用无损编码是可行的。无损编码允许经压缩的p c m 数据通过解码器而破完好地恢复,而因不会对音质产生影响,所以是无损的。依据音频文件及压缩手段的不同,可获得从l :l 至3 :l 压缩比,压缩范围的不同是因为音频信号含有不可预知的内容。1 2 数字音频压缩标准当前商用音频编码系统中,主要有m p e g 伴音系列和杜比环绕系统。2第一章概述1 2 1m p e g 伴音系列运动图象专家组( m f e g ) 是世界著名的数字视频和音频压缩的标准化组织”“”。该组织自1 9 8 8年以来,制定了一系列国际标准,其中m p e g 一1 、m p e g 2 已为人们所熟知这两个标准为v c d 、d v d 及数字电视等产业的发展奠定了基础。1 9 9 7 年,m p e g 制定了新的音频标准a a c 。从1 9 9 9年开始,他们陆续制定了新的m p e g 标准:m p e g - 4 、m p e g - 7 和m p e g - 2 1 ,对音频技术的发展产生了深远的影响。( 1 ) m p e g - i 音频编码标准:m p e g 一1 音频标准( 1 s o i e c l l l 7 2 - 3 ) 对音频压缩规定了三种模式。即层i ( 简化的a s p e c ) 、层i i ( 即m u s i c a m ,又称m p 2 ) 和层i ( 又称m p 3 ) 。层i 在数字广播( d a b ) ,层i i 在数字演播室、v c d 伴音等诸多领域得到了广泛应用:层i i i 是在综合m u s i c a m和a s p e c 的优点基础上提出的混合压缩技术,经过m p 3 压缩后,文件可以压缩为原来的1 1 1 0 - 1 1 2 ,这样可以在低码率下传输,并且保证了一定的音质,使得其在网络上得到了广泛应用。( 2 ) m p e g - 2 音频编码标准:m p e g - 2 音频编码标准是对m p e g 1 音频编码标准的发展和扩展。发展和扩展表现在两方面:一是多声道环绕声编码和多语言节目编码;二是低取样频率( l s f ) 低比特率编码。m p e g - 2 标准于1 9 9 4 年1 1 月公布。m p e g - 2 的音频标准包括m p e g - 2 b c ( 后向兼容) 和m p e g 一2 a a c 。m p e g 2 b c 采用后向兼容矩阵技术,这种方法的优点是比较节省带宽,缺点是这样极大地限制了新标准编码器的设计,在一定程度上影响了它的性能。因此,m p e g 组织又制定了新的音频标准m p e g 2a a c 。m p e g 2a a c 的制定在很大程度上降低了多通道音频的码率要求,它不再保证后向兼容,而把重点放在5 1声道模式,3 8 4k b i t s 的条件下,如何达到最佳音质。测试表明,数据流速率为3 2 0 k b p s 的a a c可以提供比数据流速率为6 4 0 k b p s 的m p e g 2b c 更好的音质。针对m p 3 忽视著作者和出版者应享有的版权问题g m o ( 一o b a l m u s i co u t l e t ) 公司提出了基于a t & t 公司授权的a a c 改良技术a 2 b ,并将其命名为m p 4 。m p 4 成功运用了最新的数字水印( d i g i t a lw a t e r m a r k i n g ) 技术。它实际上是由音乐出版界联合授意的官方标准。( 3 ) m p e g - 4 音频编码标准:m p e g 4 编码标准已于1 9 9 9 年正式公布实施,可针对不同的应用和信号的具体特点,提供相应有效的编码算法。m p e g - 4 包含对人工合成和自然两种不同声音素材进行压缩编码的多种算法。在自然声音信号压缩方面,m p e g - 4 支持的每路数码率为2 6 4 k b s 。( 4 ) m p e g - 7 音频编码标准:m p e g 7 的全称是“多媒体内容描述接口”。m p e g 组织制定这一标准的目的是要将各种音频视频媒体的表示统一化,而这种统一化并不是对码流表示等底层信息的统,而是对这些媒体的描述方式的统一。m p e g 7 注重于多媒体数据基于内容的描述,用来帮助运营者管理日益丰富的多媒体信息。对音频来说,这种结构使得建有索引的音频数据成为可能。为此,m p e g - 7 特别提供了三类描述工具:音响效果描述工具( s o u n de f f e c t sd e s c r i p t i o nt o o l s ) 、乐器描述工具( i m t r u m e md e s c r i p t i o nt o o l s ) 和语音识别描述工具( s p e e c hr e c o g n i t i o nd e s c r i p t i o nt o o l s ) 。( 5 ) m p e g - 2 1 音频编码标准:m p e g 2 1 是m p e g 组织在1 9 9 9 年末才推出的一个标准。但实际上,它并没有对音频视频产品作出什么具体的规定,而是对现有的各类标准作了一个比较、总结,并对用户的各类要求和各种应用环境作出进一步的调查,以作为今后标准制定的参考和借鉴。这是一项非常有前瞻性的工作,也许会对音频产品提出更高的应用要求。1 2 2杜比系列杜比数码1 1 62 1 1 ( 又称作杜比环绕影音) ,是由美国杜比实验室开发的性能卓越的数字音频编码系统,其中,a c 一1 用于卫星通信和数码有线广播,a c 一2 用于专业音频的传输和存储,a c 3 是杜比最闻名的数字技术,采用第三代a t c 技术,被称为感觉编码系统,它将特殊的心理音响知识、人耳效应的最新研究成果与先进的数码信号处理技术很好地结合起来,形成了这种“数字多声道音频处理技术”。该技术可以传输和存储多达5 个全频带声道,以及一个低频效果声道( l f e ) ,而所占东南大学硕士学位论文用的存储空间比c d 上一路线性p c m 编码的声道所占用的空间还要少。a c 3 系统的开发目的就是为了改善和提高三维卢场的重现能力。通过增加左、右环绕声及中置声道,以多声道音频重放的方式来重现三维立体空间。a c 3 已成功应用于电影、l d ,d v d 影碟、数字视频广播d v b 和互联网中,并且已成为美国的d v d 、卫星数字广播d b s 和a t s ch d t v伴音的通用标准。另外,i n t e lm m x 技术也支持a c 3 作为未来计算机多媒体音频方案,以实现i n t e m e t 实时音频传输。其他优秀的音频编码技术,如索尼的a t a r c 、贝尔实验室的p a c 和微软的w m a 等,也都获得了相当广泛的应用,随着未来不断出现的新技术、理论、方法,将会有更新的技术得到更深、更广的发展。1 3 音频无损编码的发展现状当前,在语音及音频信号的有损压缩领域已做了大量工作,相比较而言,无损压缩的研究与应用却比较少。虽然,短期内无损压缩技术不太可能成为数字音频信号处理领域中的主流技术,但在某些应用领域它是对有损压缩算法的有效补充。1 3 1无损压缩的前景无损压缩未能得到足够关注的原因是其压缩比很难超过3 :1 ( 有损算法压缩比能达到1 2 :1 甚至更高) ,而对有损算法来说,压缩比越高,最终获得的音频质量越差,一旦限定了最高的数码率,有损算法是唯一选择。由于有损压缩技术在获取较高的压缩比的同时也带来了解压后信号音质的降低,这样对于酷爱音乐,并试图从互联网上下载高保真度的音乐的人们来说,m p 3 和m p e g 并不合适。这就需要对采样率为4 4 1 k h z 的1 6 位立体声c d 数据进行有效的无损压缩。随着因特网传输信息量的日益增大,要求下载速度快,故数码率的进一步降低是人们关心的热点。因此,对因特网上传输的音频信号进行压缩至关重要。有理由推测,网上音乐的发行者将提供更高压缩比的音频信号,以便于消费者浏览和选择,而对追求高品质的音乐爱好者来说,无损压缩的确是个不错的选择。无损音频压缩的价值在于除了可供网上音频信号下载外,还可应用于专业环境下高保真音频数据的归档、混音、演播室、节目制作等,无损压缩避免了有损压缩编码情况下因多次编辑而引起的信号损伤。1 3 2常见无损编码格式介绍目前比较知名的无损编码格式有a p e 、f l a c 、w a v p a c k 。( 1 ) a p e ( m o n k e y s a u d i o ) 1 2 2 1a p e 的压缩比大约在2 :l 左右,也就是说压缩结果是原来的二分之一大小。一张c d 大约需要3 3 0 m b 左右的空间存放。a p e 在国内应用比较广泛,它的压缩率相当优秀,而且效率高、速度快、综合性能强,爱好者能够下载到大量的a p e 格式音乐。而且广泛使用的m o n k e y s a u d i o 制作软件也大大推动了该格式的普及。a p e 还提供了w i n a m p 的插件支持,可以直接用w i n a m p 来播放。a p e 非常适合用作编码讲究细节的独奏曲目和大动态的交响曲。a p e 不足之处在于它的解码速度不够理想,只能在w i n d o w s 平台上使用,源码的封闭性也影响对该软件的支持。( 2 ) f l a c 2 3 】f l a c 是f r e el o s s l e s s a u d i oc o d e c 的简称,该格式源代码完全开放,几乎兼容所有的操作系统平台。该格式不仅有成熟的w i n d o w s 制作程序,还得到众多第三方软件的支持。此外该格式是唯一的已经得到硬件支持的无损格式,。r i o 公司的硬盘随身听k a r m a 、建伍的车载音响m u s i c k e g 以及4第一章概述p h a t b o x 公司的数码播放机都能支持f l a c 格式。f l a c 除了每个数据帧的c r c 和m d 5 标记对势据宅整性提供保障。j 不提擞了一伞罐“白( 校验) 选项,当使用该选项进行编码的时候,编码的同时就会立即对己编码数据进行解码并与原始输入数据进行比较,一旦发现不同就会退出并且报警提示。( 3 ) w a v p a c k t 2 4 1w a v p a c k 同时包容了无损格式和有损格式。在“h y b r i d ”模式下,w a v p a c k 可以压缩成、w 文件( 有损压缩格式,大小一般相当于w a v 文件的2 3 左右) + w c 文件( 修正文件,大小一般相当于w a v 文件的4 1 左右) 的组合。有了对应的w v c 文件,有损压缩格式的w v 文件就变成了无损格式,播放时和普通的无损压缩格式完全一样。若受存储介质容量的限制或要求不高,可以去掉w v c文件,这时、w 文件就变成有损格式,播放效果和高比特率的m p 3 完全一样。( 4 ) w m a l o s s l e s s l 2s 】微软在w i n d o w s m e d i a p l a y e r 9 0 以后也开始提供无损压缩功能了。只需点击菜单“工具”= “选项”,在“复制音乐”选项卡里选择“w i n d o w s m e d i a 音频无损”格式。以后通过w m p 的“从c d 复制”功能里,就能直接将c d 保存成w m al o s s l e s s 格式了,使用起来确实非常方便。不过除了w i n d o w sm e d i ap l a y e r 外,几乎没有其它软件能支持该格式。( 5 ) s h o r t e n t 4 i i 。有整系数的f i r 预测器和1 0 阶最小均方差线性f i r 预测器选项,两个编码器对预测误差信号都使用r i c e 编码。编码速度非常快的无损格式,但是压缩率就让人很失望了。该格式也是开放源码,同时支持w i n d o w s 和m ,不过好久没有更新编码版本了,估计已经夭折。( 6 ) w a v 2 。7 i它是未经压缩的格式,一直是音质完美主义者的首选。目前要想做出高质量的音乐,w a v 格式的文件也是无法替代的中间体。本文所研究的无损音频编码也是针对w a v 格式的文件进行压缩的。无损压缩格式还远不止上面这些,还有像w m a l o s s l e s s 、a p p l e l o s s l e s s 、l a 、o p t i m f r o g 、r k a u 、s z i p 、b o n k 、k e x i s 等等,由于有的非常少见而且很不完善,所以就不予介绍了。1 3 3新型的音频无损编码格式1 9 9 9 年,国际上提出两种深受消费者喜爱的新的音频格式。一种是d v d 联盟指导委员会于1 9 9 9年3 月通过的d v d - a u d i o ( 简称d v d - a ) 的1 0 版本,并于8 月最后定稿的d v d - a u d i o 音频格式;另一种是索尼和飞利涌公司于1 9 9 9 年初颁布的超级音频c d ( s u p e r a u d i o c d ,简称s a c d ) i 拘1 0 版本。1 3 3 1d v d - a u d i o 音频格式d v d a u d i oh 4 冽是c d 和d v d 格式的延伸,其音质的高保真度超过了传统c d 和d v d - v i d e o( 简称d v d ) d v d a u d i o 发挥了d v d 存储容量大、适应范围广和速度快等优点,可提供高质量的多声道音乐。d v d - a u d i o 格式的礤片提供了吸引入的增值内容,含有部分视频信息和用来选择歌曲或附加信息的可视选单。录制方式可采用d v d 格式,同d v d 光盘格式兼容,与c d 格式向后兼容。另外还采用了严格的反盗版措施。d v d a u d i o 是使用d v d - r o m 的容量,提供极高音频质量的音乐载体,完美的多声道环绕声可以营造出身i 临其境和实况演播的效果。d v d - a u d i o 是一种高容量、高取样、高音质且可兼容于一般d v d 播放机的音频信号记录格式。与c d 相比,d v d a u d i o 的另一特点是可以实现多声道重放。d v d - a u d i o 的多声道的记录与重放则采用了与c d 相同的非压缩线性脉冲调制p c m 或者无损压缩技术m j p ( m e r i d ,锕l _ o s s l e s s p a c k i n g ) ,可最大眼廖地偎持原有声音的保真度,片侈声道教声电5东南大学硕士学位论文比较完美的技术。m l p 是一种无损乐缩的音频编码算法,可降低平均和厣高音频数据传输速率以及对存储容量的要求。m l p 在编码中不丢弃数据,而是更有效地压缩数据。当然。m l p 比有损压缩的压缩率要低,而且压缩率与音频内容有关,一般在商采样率下可得到更高的压缩车。1 3 3 2s a c d ( 超级音频c v ) 音频格式s a c d ( s u p e r - a u d i oc o m p a c td i s c ) ,由索尼和飞利浦公司构想和发展,它被看作标准c d 的接任者。s a c d t ”j 采用了名为d s d ( d i r e c ts t r e a md i g i t a l ,直接数字流编码) 的新编码方式。信息储存量为普通c d 的6 倍。s a c d 不仅给最终的用户提供一个增强的听觉性能,而且给音乐产业提供强大的拷贝保护。s a c d 对于多声道建议的声道设置是i t u 5 i 格式。所有声道是独立存储的完全带宽。音频内容用d s d 格式存储,它和p c m 不同:2 8 m h z 的采样率1 b 格式。为了在一个h d 层上播放7 4 分钟立体声和多声道音乐,至少需要平均压缩比率为2 7 的数据压缩。因为s a c d 是个高质量的音频媒介。压缩必须是无损的。过去发展的标准的无损音频压缩算法不能被d s d 使用,因为它们都是基于p c m 的,为d s d设计的压缩算法称为d s t 。主要的模块有加窗,预测和熵编码。这种无损压缩的方案称为直接流转换( d s t ) 。1 3 3 3 无损音频编码标准m p e g - 4a l s无损音频编码技术的标准”“1 是由m p e g 音频小组着手制定。于2 0 0 2 年1 1 月提出了无损压缩技术应达到的目标。2 0 0 3 年5 月,音频小组决定首先完成独立的无损压缩方案标准的制定,然后再进行可升级方案的制定。通过在压缩效率、复杂度、灵活性等方面对提交的议案进行比较,柏林理工大学当两声道信号相似时采用差信道可以提高编码效率。2 , 2 1 6 熵编码在默认模式下,预测器输出的残差e 【h 】用g o l o m b r i c e i ”1 码进行熵编码。对一帧中的数据,可采用同一种g o l o m b - r i c e 码编码,也可划分成4 个短块,每块用不同参数的o o l o m b r i c e 码编码。g o l o m b - g i c e 玛的参数可根据残差能绕计特性来确定。g o l o m b 码适合数值几何分布的信源:# r o = f = ( 1 - o ) o ,9 ( o ,1 ) 。码字瓯( f ) 由kb i t的1 ,1b j t 的0 1 0 9 2 m b i t 的im o dm 组成,其中七= l i m j ( 【j 指取整,下同) ,参数m可由m = l i g o + a ) l g a j( 2 7 )得到p 1 。如果该值取最接近2 幂次的数值,即挪= 2 j ,则除法可由移位来代替,能实现快速编码。上述编码称g o j o m b - r i e e 码。参数s 作为边信息与残差码字一起传输。实验表明,音频信号的残差分布接近l a p l a c i a n 分布。用g o l o m b r i c e 码进行编码时,需要先对残差数值作如下映射:+f 2 t ,r 1 - 2 一1 ,r o 0估计,的最优g o l o m b - r i c e 码的参数s ,首先计算其绝对值的平均1 2第二章音频无损压缩的基本原理然后计算虬= 粉s = _ l 0 9 27 , n + c 1 j其中常数c 。;0 9 7 。( 2 9 )( 2 10 )上述估值技术已被多种压缩算法采用,如s h o r t e n l 4 】。l o c o 一1 1 3 8 】等。事实上,绝对值收敛于e i ,| ) 该参数可转化为几何分布中的口2 2 2解码算法和特点如匿2 - 5 所示,i v l p e g 一4a l s 解码器的复杂度比编码器要小得多。解码器通过墒解码得到预测误差信号,使用预测系数计算出无损压缩重构信号。解码器的计算复杂度主要依赖于编码器所选择的预测器的阶数。除此之外,解码器的复杂度和编码器的参数选择并无依赖关系。2 2 3l e v i n d u b i n 算法图2 - 5 :m p e g - 4a l $ 解码器l e v i n s o n d u b i n 递推算 击 3 9 4 3 1 由于求解的高效性,在m p e g - 4 a l s 标准中受到了足够的重视,下面具体的介绍一下t定义( 砷为p 阶彳胄模型在阶次为所时的第七个系数,后:1 ,2 ,聊,研:1 2 ,p ,岛为珑阶时的前向预测的最小误差功率( 此处省去了“r a i n ”,且,气一- - u 。2 ) 。由y u l e w a l k e r 方程r a o )( 1 ),( 2 )( p )r a l )( o )( 1 )( ,一1 )r a 2 )( 1 )( o )( p 一2 ):( p )( p 一1 )【,一2 )( o )当m = 1 时,有1q吗:莎200:o( 2 1 1 )东南大学硕士学位论文( 篇粼= ( 钔( 2j2 )解出口l ( 1 ) = 一r , o ) r d o )( 2 1 3 ), o l = ( o ) 一r ,r d r ( o ) = r a o ) 1 一d 阳) ( 21 4 )定义初始条件风= r a o )那么一= 岛 1 一彳( 1 ) 再定义第m 阶时的第n q 个系数,即日。( m ) 为 。称为反射系数,那么,由t o t p l i t z 矩阵的性质,可得到如下l e v i n s o n d u b i n 递推算法:s 。= 一 詈4 。t t ,。c 朋一t ,+ c m , ,只。t z ;s ,女。= 一! 4 ( 女) o ( 朋一) + ( m ) i 氏_( 2 s )l ;ljq 。( | j ) = a m l ( 七) + 日。一l ( 脚一七)( 2 1 6 )熊2 1 一碟( 2 1 7 )l e v i n s o n - d u b i n 算法从低阶开始递推,直到阶次p ,给出了在每个阶次时的所有参数,即d 二( 1 ) ,口。( 2 ) ,4 二( 埘) ,m = i ,2 ,p 。运一侍点特别有利于我们选择a r 模型的合适的阶次。由于线性预测的最小均方误差总是大于霉的,m ( 2 1 7 ) 式,必有陬j 1( 2 18 )如果峰。卜t ,那么递接应该停正盘反魅系数船逸一特点,嚣j 可得出蕊翮误差功率旃一个镊重要的性质:岛 岛一l 崩 2 ,通常幅度较小。前面的系数的分布一般差别很大,而高阶的系数收敛于零均值的高斯分布( 见图3 2 ) 。f 但z )匡图3 - 2 :反射系数吃的规律分布图( 4 8 k h z ,1 6 - b i t 的音频信号)因此,前两个反射系数的扩展基于下面的函数:c ( r ) = 一1 + 4 芝4 7 - 7 ( 3 1 )这个压缩扩展器使得o 一1 时取得了较好的分辨率,而一c ( 一吃) 扩展器当r 2 专+ l 时也能提供较乡7纱名图3 - 3 :压缩扩展器函数c ( r ) 和一c ( 一t )1 9东南大学硕士学位论文好的分辨翠( 见圜3 - 3 ) 然向,为j 简化计算,第二个系数买际便用的是+ c 【一r 2 ) 胜缔扩展器,致使扩展值的符号位反号,然后这两个扩展系数用一个简单的7 - b i t 量化器进行量化。可用下面的式子来表达:铲 6 4 ( 一1 + j 再) a z = 6 4 ( 一1 + 压f 再) ( 3 3 )余下的系数r k ,k 2 不进行扩展,但使用相同的7 - b i t 量化器进行简单的量化:t t k = l 6 4 r k j ( 3 4 )这样处理之后,所有的量化值吼被限定在【一6 4 ,6 3 】范围。这些量化后的系数重新定位于它们的最常出现的值的附近,然后使用g o l o m b - r i c e 编码。结果,编码后的反射系数减少到接近4 b i t s c o e f f i c i e n t ,频谱特性没有明显的下降。这样,利用高阶预测是可能的,尤其适宜结合大的模块长度。然而,由( 2 ,3 ) 式,直接形式的预测滤波器使用的是预测系数魄。为了统一编码器和解码器,魄从量化后的唧通过逆变换得到:= 秀+ 1 ) 2 2 1吒一_ 一、面a 2 + 1 ) 2 2 + 1r k = a k 6 4( 后= 3 ,p )接着,运用l e v i n s o n - d u b i n 算法就可导出魄。3 2 性能分析( 3 5 )( 3 6 )( 3 7 )为了进一步明确所作的部分改进的优势,以及m p e g - 4 a l s 相对其它无损压缩方案( 本文选择a u d i o p a k 作为参考对象) 的优势,我们选取典型的音频信号进行实验,从预测阶数的选择、预测误差的一阶熵、预测误差的频谱及预测误差的帧最大值、最小值、均值、方差等方面对m p e g - 4a l s 进行更深入的分析。3 2 1本文使用的测试文件本文使用的音频文件主要以1 5 个文件为源,然后借助相关软件进行格式转换,就可得到各种采样率,分辨率声道组合的w a v 文件。其中的前9 个文件下载于h t t p :x v w f i r s t p r c o m a u a u d i o c o m p i o s s e s s | :文件9 1 3 取自惠藏试音碟:文件1 4 是一个语音文件,是自行录制的一段;文件1 5 是一段噪音,是用随机函数产生的一个均匀分布函数。这1 5个文件中有信号变化非常剧烈的,如噪音:也有变化相对平缓的,如合成音乐;也有变化适中的各种乐器和流行音乐。因此,非常具有代表性,其文件大小和信息熵详见表3 - 1 。第三章衄e g 一4a l s 的算琏改进与性能分析表3 - i 测试文件的信息熵4 4 1 k h z 1 6 b jt9 6 k h z 1 6 b i t序号信号大小左声道右声遒大小信息熵( b y t e )( b i t )( b i t )( b y t e )( b i t )l合奏1 1 5 2 0 08 5 3 4 98 2 3 0 31 0 2 4 0 01 1 4 2 1 22管弦乐1 1 5 2 0 01 0 5 1 1 31 05 4 4 41 0 2 4 0 01 1 1 5 4 63芭蕾舞音乐1 1 5 2 0 01 2 9 8 0 41 23 1 1 61 0 2 4 0 01 2 4 8 1 l4合成音乐1 1 5 2 0 07 1 3 8 668 2 5 91 0 2 4 0 09 6 4 9 55夜总会舞曲1 1 5 2 0 01 4 0 3 8 41 38 7 3 01 0 2 4 0 01 4 1 5 7 56劲舞音乐1 1 5 2 0 01 2 1 6 4 41 2 2 4 1 51 0 2 4 0 01 4 0 1 2 07摇滚乐1 1 5 2 0 01 3 0 3 5 71 3 2 8 1 31 0 2 4 0 01 38 6 9 08流行音乐1 1 5 2 0 01 3 5 1 9 71 35 0 9 01 0 2 4 0 01 3 5 7 1 89印度古典乐1 1 5 2 0 0l l3 1 2 41 2 1 4 1 71 0 2 4 0 01 22 8 1 71 0交响乐1 1 5 2 0 01 3 ,7 4 8 11 37 6 3 61 0 2 4 0 01 3 5 8 8 71 1吉他曲1 1 5 2 0 01 3 6 8 6 81 30 3 0 01 0 2 4 0 01 3 ,1 9 3 71 2天籁旋律乐1 1 5 2 0 01 2 1 5 2 51 2 1 3 2 11 0 2 4 0 01 30 6 1 91 3古琴对唢呐1 1 5 2 0 01 3 7 l “1 3 6 2 7 21 0 2 4 0 d1 38 6 4 21 4语音5 7 6 0 01 33 5 0 81 0 2 4 1 32 5 0 51 5噪音5 7 6 0 01 45 2 0 21 0 2 4 0 01 4 7 4 6 5表中列出了测试文件在4 4 。l k h z 6 b i t 、9 6 k h z 1 6 b i i c h a n n e l 时的信息熵。对于数字音频信号。样本问具有相关性,从表3 1 可以看出这些信息熵的估计值都低于1 6 比特,说明定程度的无损压缩是可能的。从表中还可以看出,平缓的信号的信息熵要低一些,而变化剧烈的信号的信息熵要高很多,比如4 4 1 k h z 1 6 b i t 的合成音乐左声道信息熵为7 1 3 8 6 ,而噪音的信息熵为1 4 5 2 0 2 ,可见相对平缓的信号的冗余度更大一点,经过编码之后也更易于压缩。3 2 2逐阶预测逐级预测压缩实验执行的条件见表3 - 2 ,输入音频文件在应用了随机存取功能时,分不预测、逐阶预测、完全预测三种情况下的压缩数据见表3 - 3 、表3 4 ,根据压缩率的性能改进( 相对改进率) 见图3 - 4 、图3 - 5 。图表中的改进率定义如下:改进率= 耋! ! ! 兰! :i :;! i ;i 磐。( 3 8 )这里的参考文件是指前p 个抽样不预测时压缩所得的文件。图3 | 4 、图3 - 5 左栏显示的是在随机存取点后,逐级预测时相对于前p 个抽样不预测时的性能改进,右栏显示的是在随机存取点后,连续预测时相对于莳p 个抽样不预劂时的性能改进。对于变化平缓的信号。改进比较明显对于变2 ,蔓塑盔兰婴兰堡堡兰化剧烈的噪音之类,几乎感觉不出有所改进。整体来讲,我们可以看到逐级预测取得了一定程度的改进,并趋近于没有随机存取功能连续预测时的压缩性能。表3 - 2 :逐级预测的执行条件抽样率分辨率4 4 1 i - h z 1 6 b i t9 6 k h z 1 6 b i t帧长1 1 5 24 0 9 6帧数5 02 5随机存取间隔1 帧1 帧文件大小( 字节)1 1 5 2 0 01 0 2 4 0 0文件1 1 32l声道文件1 4 - 1 51l表3 - 3 :输入音频文件为抽样率4 4 1 k h z 、分辨率1 6 b i t 时,在随机存取点后分不预测、逐级预测、连续预测三种情况下的压缩数据原文件大小不预测逐级预测连续预测改进率( )序号信号 ! )t 位)雎r )( 位逐级预测连续预铡l合奏1 8 4 3 2 0 07 4 3 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论