




已阅读5页,还剩60页未读, 继续免费阅读
(信号与信息处理专业论文)先进音频编码(aac)在中波数字调幅广播中的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要先进音频编码( a a c )在中波数字调幅广播中的研究硕士研究生陆决导师吴乐南教授东南大学无线电工程系本文研究中波数字调幅广播( d a m b ) 系统信源编码中的先进音频编码( a a c ) 。欧洲标准d r m 是当前唯一能够同时服务于长、中、短波频段的数字广播系统,采用o f d m 体制,调制时同时利用幅度和相位两路信号,属于单边带调制,1 0 k h z 的信道带宽可以充分利用,实际传输的信号带宽能达到1 0 k h z ,这需要改造发射机,而这里的d a m b 不改动现有的广播发射机,仍利用双边带调幅体制。优点是可以实现大范围的信号覆盖,并且接收机简单、易于实现、价格不高。但带来的问题是实际能利用的带宽只有一半,音质受到影响( 带宽、噪音、信道衰落) ,只能用于信道条件相对较好的中波段数字调幅广播。因而与d r m信源编码相比,在相同的带宽下,d a m b 信源编码的输出比特率降低很多,压缩率必须大大提高,其信源编码中的音频编码采用a a c 编码。在输入信号的基础上,利用已知的心理声学模型规则可以算出一个与当前( 与时间关联)掩蔽门限的估计值,在a a c 系统中用了心理声学模型2 。从掩蔽门限可以得到信号的掩蔽比( 信号掩蔽比就是对输入信号能够掩蔽掉多大量化噪声的一个估计) 。在量化阶段,对任何给定数据率都可以利用信号掩蔽比使量化信号的可闻失真最小,编码阶段则对控制系数和量化系数进行霍夫曼编码,得到编码比特流。以往的音频编码方式中,对于原始数据,使用降低采样率、降低音频带宽、减少量化级数等传统方法进行压缩编码,压缩率大约可以达到1 5 :1 。但是过多使用这些方法会使得感知音质的可理解性和可识别度下降。a a c 使用心理声学模型,以感知音质为标准进行压缩编码,在保证感知音质的前提下,可毗达到较高的压缩比。本文研究了a a c 编码软件实现的优化,对其中的音频带宽控制、心理声学模型算法和量化编码模块等做出了改进。为了适合在中波数字调幅广播中的传输,改变了a a c 编码的帧长,使用了相应的快速算法,加入了错误保护的新工具。在w i n d o w sx p 操作系统下使用v i s u a lc + + t 具,把m p e g 一4a a c 的码率降低到本系统所能支持的1 0 1 6 k b p s ,解码后输出音频带宽为与a m 广播相应的5 0 h z 一7 k h z ,可以保持尽可能好的音质;在理论分析的基础 ,调整了m p e g 一4a a c 的参数,以适应改动厉的音频带宽和输出码率。关键词:a a cd a m b ,t l , 理声学模型算法量化编码快速算法错误保护a b s t r a c ta b s t r a c tr e s e a r c ho fa d v a n c e da u d i oc o d i n gi nt h ed i g i t a la m p l i t u d em o d u l a t i o nb r o a d c a s tc a n d i d a t el uy a n g s u p e r v i s o rw ul e n a nd e p a r t m e n to f r a d i oe n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y , c h i n at h i st e x ts t u d i e st h ea d v a n c e da u d i oc o d i n g ( a a c ) i nt h es o u r c ec o d eo fs y s t e m a t i cl e t t e ro f d i g i t a la m p l i t u d em o d u l a t i o nb r o a d c a s t i n g ( d a m b ) e u r o p es t a n d a r dd r mc a ns e r v el o n g ,d i g i t a lb r o a d c a s ts y s t e m ,m e d i u m s h o r tw a v eo ff r e q u e n c yb a n da tt h es a m et i m eo n l ya tp r e s e n t ,a d o p t i n go f d ms y s t e m ,u t i l i z e ss i g n a lo ft h er a n g ea n dp h a s ep l a c ea tt h es a m et i m ew h e nm o d u l a t i n g ,i ti sm o d u l a t e dt h a ti st h es i n g l es i d e b a n d ,t h ec h a n n e lw i d t ho fi o k h zc a nb ef u l l yu t i l i z e d ,t h eb a n d w i d t ho fs i g n a lt r a n s m i t t e da c t u a l l yc a nr e a c hi o k h z ,t h i sn e e d st ot r a n s f o r mt h et r a n s m i t t e r , b u td a m bh e r ed o e sn o tc h a n g et h ee x i s t i n gb r o a d c a s tt r a n s m i t t e r , s t i l lu t i l i z ea n dt a k et h ea m p l i t u d em o d u l a t i o ns y s t e mb i l a t e r a l l y t h ea d v a n t a g ei st h a ti tc a r lr e a l i z et h es i g n a lo nal a r g es c a l ec o v e r s ,a n dt h er e c e i v e ri ss i m p l e ,e a s yt or e a l i z e ,t h ep r i c ei sn o th i g h b u tt h eq u e s t i o nb r o u g h ti st h eb a n d w i d t ht h a tt h er e a l i t yc a l lb eu t i l i z e dt h e r ei sh a l fo n l y , t h et o n eq u a l i t yi si n f l u e n c e d ( t h eb a n d w i d t h ,n o i s e ,c h a n n e ld e c l i n e ) ,c a no n l yb eu s e di nc h a n n e lc o n d i t i o nr e l a t i v e l yb e t t e rh i t t i n gt h ed i g i t a la m p l i t u d em o d u l a t i o nb r o a d c a s t i n go fw a v eb a n d t h e r e f o r ec o m p a r e dw i n ld r v ll e t t e rs o u r c ec o d e u n d e rt h es a m eb a n d w i d t h b i tr a t e so f d a m bs o u r c ec o d eo u t p u tr e d u c e sal o t , t h ec o m p r e s s i n gr a t em u s tr a i s eg r e a t l y , t h ea u d i oc o d i n gi ni t ss o u r c ec o d ea d o p t sa a c o nt h eb a s i so fi n p u ts i g n a l ,p s y c h o l o g i c a la c o u s t i c sm o d e lr u l ek n o w na l r e a d yt os p e n dc a nc a l c u l a t eo n ee s t i m a t e dv a l u e ,m a s k i n gt h r e s h o l da tp r e s e n t ( w i t ht i m er e l a t e d ) ,h a v eu s e dt h ep s y c h o l o g i c a la c o u s t i c sm o d e l2i na a cs y s t e mf r o mm a s k i n gt h r e s h o l d ,i tc a ng e tn o i s em a s k i n gr a t ei nq u a n t i z a t i o ns t a g e ,g i v et oa n yd a t ar a t ec a l lu t i l i z es i g n a li si tq u a n t i z et h eh e a r i n gd i s t o r t e d l ya n dm i n i m u mo ft h es i g n a lm a k i n gt os h e l t e rd e f i n i t e l y , t h ec o d ec a r r i e so nh a f f m a n sc o d ei nc o n t r o l l i n gc o e f f i c i e n ta n dq u a n t i z a t i o nc o e f f i c i e n ta ts t a g e ,g e tt h ec o d eb i ts t r e a l 1 1p a s ta u d i of i e q u e n c yc o d em n o n gt h ew a y , a st oi n i t i a ld a t a ,i si tr e d u c es a m p l e r a t e ,r e d u c ea u d i of r e q u e n c yb a n d w i d t h ,r e d u c eq u a n t i z a t i o np r o g r e s s i o nt r a d i t i o n a lm e t h o dc o m p r e s st h ec o d et ou s e ,t h ec o m p r e s s i n gr a t ec a np r o b a b l yb eu pl o15 :1 b u tt o om u c hu s eo ft h e s em e t h o d sc a l lm a k ea p p r e h e n d i n ga n dd i s c e r n i n gd e g r e eo fp e r c e p t i b l ea u d i oq u a l i t yd r o pt o om u c h a a cu s e st h ep s y c h o l o g i c a la c o u s t i c sm o d e l ,r e g a r d sp e r c e p t i b l ea u d i oq u a l i t ya st h es t a n d a r da n dc o m p r e s s e st h ec o d e ,o nt h ep r e m i s eo fg u a r a n t e e i n gp e r c e p t i b l ea u d i oq u a l i t y , c a nr e a c hh i g h e rc o m p r e s s i o nr a t i ot h i st e x tc o d ei m p r o v e do p t i m i z a t i o ns o f t w a r er e a l i z eo fa a ci ti n c l u d ec o n t r o lt oa u d i of r e q u e n c yb a n d w i d t ha m o n gt h e m ,p s y c h o l o g i c a la c o u s t i c sm o d e la l g o r i t h mm a dq u a n t i z ec o d em o d u l e ,e t c i no r d e rt ob es u i t a b l ef o rt h et r a n s m i s s i o ni nt h ed i g i t a la m p l i t u d em o d u l a t i o nb r o a d c a s t i n gc h a n n e l ,t h ef r a m el e n g t ho fa a cc o d eh a sc h a n g e d ,h a v i n gu s et h ec o r r e s p o n d i n gi i i奎查查兰! ! 二蔓;兰塞婆主一一一一一一一f a s ta l g o r i t h m ,a n dt h en e wt o o lt h a tt h ee r r o rp r o t e c t e dj o i n e du s i n 2v i s u a lc + 十t o o lu n d e rt h eo p e r a t i n gs y s t e mw i n d o w sx ri tr e d u c eb i tr a t e o lm p e g 4a a ct 0 1 0 1 6 k b p st h a tt h i ss y s t e mc a r ls u p p o r t e dt o a f t e rd e c o d i n gt h eb a n d w i d t ho ft h ea a d i of r e q u e n c yi s5 0 h z - 7 k h zt h a tc o r r e s p o n dw i t ha mr a d i os e t s ,w h i c hc a nk e e pt h et o n eo u a l i t ya sg o o da sp o s s i b l e o nt h eb a s i so ftt h et h e o r ya n a l y s i s ,i th a sa d j u s t e dt h ep a r a m e t e ro fm p e g 4a a c i n 。r d e rt oa d a p tt ot h eb a n d w i d t ho fa u d i of r e q u e n c ya f t e rc h a n g i n gb a n d w i d t ho f t h ea u d i of r e q u e n c ya n db i tr a t e k e yw o r d s :a a c ,d a m b ,p s y c h o l o g i c a la c o u s t i c sm o d e la l g o r i t h m ,q u a n t i z e c o d i n g ,f a s ta l g o r i t h m ,e l f o rp r o t e c t i o n东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。研究生签名:丛:爽导师签名研究生签名:丛j 熬导师签名期:o g 。弓2 年第l 嚣绪鲶1 1 概述第1 章绪论约从1 9 9 0 年开始加速的一场“数字化革命”,给人类社会带来了深刻而长远的影响。在当今社会,人们已经深知“信息”之重要:“食指”上网,“拇指”发“信”( 全国人民仅拜年就发了几十亿条“短信”! ) ;同样人们也乐于享受“数码”的优越性:v c d d v d 光盘,g s m c d m a 手机,电视机机顶盒、计算机多媒体、数码照相机录像机等等,美不胜收。所有这些,都需要压缩数字编码的数据或“数码”,也都得益于“数据压缩”,即用最少的数码来表示信号。说得完整些,就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采样集合的信号空间”j 。数据压缩最初是作为信息论研究中的一个重要课题,在信息论中被称为信源编码。但近年来,数据压缩己不仅限于编码方法的研究与探讨,已逐步形成较为独特的体系。它主要研究数据的表示、传输和转换方法,目的是减少数据所占据的存储空间和传输时所需用的时间。例如,在通信工程中为了能在存储设备容量、信道带宽、或通信链路容量等工作环境有限的情况下,通过采用相应的编码技术,可以大大减少数据所占的存储空间,从而达到提高工作效率,或降低系统工作成本的目的。我们知道,大型应用系统中的数据库以及数字化图像和语音信号的数据量是非常大的。若不进行压缩处理,如此大量的数据很难在计算机及其网络上存储、处理和传输。可以这样说,没有数据压缩技术的进步,大数据量的存储和传输很难实现,多媒体技术也难以得到实际的应用。数据压缩技术的一般处理框图拓图卜1 。其中的原始数据( 又称源数据) 经过压缩处理,得到的输出即是被压缩的数据。当这些数据所占的存储空间和传输中所用时问的开销小于图1 i 压缔处理示意图原始数据时,即实现了数据压缩。在需要使用这些数据时,只要经过还原( 或称释放) 处理即可。这种数据压缩还原模块可以在用户现有的硬件( 如个人计算机、智能终端或其它设备) 上通过软件方式来实现,也可以使用综合了一种或多种压缩技术的专用硬件设备来实现。1 1 1 数字调幅广播早在1 9 0 2 年,美国人巴特纳史特波斐德成功地进行了第一次公开的无线电广播试验,到】9 2 0 年初无线电广播进入商业化阶段。此后,无线电广播经历了从调幅( a m ) 到调频( f m ) 的发展。在1 9 9 0 年代前后,随着全球数字化浪潮的到来,世界各大广播机构也认识到广。播数字化的必要性。声音广播的数字化首先是从数字音频广播( d a b ) 开始的,并在西欧得到了一定的发展,但至今d a b 接收机仍太贵,还需要调整使用频段与建设新的发射台网,因此在其它地区推广有一定的难度。东南大学硕士学位论文“数字广播世界”( d i g i t a l r a d i o m o n d i a l e ,d r m ) ,即数字“调幅”世界,是1 9 9 6 年世界各大国际广播电台和广播设备生产厂家一次非正式会议后形成的一个项目。此后,为推动调幅广播,一些国家的广播接收机生产厂家踊跃参与,旨在“形成统一市场和鼓励消费的数字系统与世界标准”。d r m 的特点之一是可以做到减少能量消耗和扩大服务范围。1 9 9 8 年3 月,世界上最重要的2 0 个与广播有关的组织在中国广州签署了数字调幅广播谅解备忘录,自此d r m 在国际广播领域拥有了正式的地位。2 0 0 1 年2 月4 日,i t u 通过了一项建议,l t u - rb s l 3 4 8 - i“3 0 m h 以下数字声音广播的业务需求,”同年e t s i ( 欧洲电信标准协会) 公布了d r m系统规范。d r m 是当前唯一能够同时服务于长、中、短波频段的数字广播系统,采用o f d m 体制,调制时同时利用幅度和相位两路信号,属于单边带调制,1 0 k h z 的信道带宽可以充分利用,实际传输的信号带宽能达到1 0 k h z ,这需要改造发射机,而本课题所提出的d a m b不改动现有的广播发射机,仍利用双边带调幅体制。优点是可以实现大范围的信号覆盖,并且接收机简单、易于实现、价格不高。但带来的问题是实际能利用的带宽只有一半,音质受到影响( 带宽、噪音、信道衰落) ,只能用于信道条件相对较好的中波段数字调幅广播。因而与d r m 信源编码相比,在相同的带宽下,d a m b 信源编码的输出比特率降低很多,压缩率必须大大提高。1 1 2 感知音频编码数据压缩编码包括无失真编码和限失真编码。因为连续信源输山的信息量为无限大,因此只有离散信源才能实现无失真编码。根据香农熵编码定理,离散信源的无失真编码实质上是一种统计匹配编码,即根据信源的不同概率分布选用相匹配的编码策略,使码率最小。限失真编码是在一定失真准则如r ( d ) 下,使码率最小。对限失真编码信源,根据信宿的要求可分为限波形失真信源和限特征参量失真信源,并分别对应波形编码和参数编码。感知编码是传统信源编码技术的拓展,即在信源编码中充分考虑信宿特性的编码技术。在感知编码中,有两种冗余:统计冗余和感知无关冗余。其中,感知无关冗余是指编码信号中人类感知器官无法感知到的时间、频率或空间分量,在实际的感知编码中,感知无关冗余的利用效率往往对编码器的性能起着决定性的作用。例如,一般c d 采样的立体声音乐的无损压缩率为3 左右,而基于感知编码的m p 3 编码器的压缩率可以达到1 2 ,而a a c编码器可以达到1 5 以上。这里给出一个简单定义;感知编码即基于感知的信源编码,是指用尽可能低的码率获得信源输出的感知无失真表示,或在码率确定的情况下,使解码信号的主观失真最小的信源信号的表示过程”1n 这里,失真准则是使人的主观感知失真最小,对于语音( 窄带声音)和音频( 宽带声音) 编码,是使听觉失真最小;对于图像和视频编码( 运动图像) ,是使人的视觉失真最小。需要指出的是,基于感知的信源编码的核心概念是噪声或失真掩蔽,即在编码过程中,如果产生的失真分布合理,就可以获得信号本身的掩蔽,使人感觉不到失真现象。这就是感知透明编码的含义。信源蝓出的可咀是模拟信号,也可以是离散信g - 。对于信源输出是模拟信号的信息系统,信源输出的波形z ( t ) 是随机过程x ( t ) 的一个样本函数,是幅度和时问连续的,需要通过模数( a d ) 转换才能获得该信号的离散表示。在进行a d 转换的过程中,采样( 或时间离散化) 后信号的幅值依然是连续的,因此需要进行幅度量化。理论上,幅值量化过程也可咀先下采样过程,但在通常的应用中,采样过程般先于幅值量化过程。幅值量化带来了数据压缩,但同时引入了波形失真或信号保真度的损失。z第l 章绪论理,可以用_ 个以奈奎斯特速率抽取的均匀抽样序列来表示。然后对样值幅度进行量化和编码。一种简单的编码方法是用一串二进制数字序列来代表一个离散幅值电平,这样,如果有l 阶电平,当l 是2 的幕次时每个样值需用r = l o g ,l 比特表示,当l 不是2 的幕次时,每个样值需r = l o g ,l + 1 比特表示。而且,若输出电平不等概率且各电平的概率己知,可以用熵编码来提高编码效率。一般地,根据符号间统计相关性不同,离散信源可以分为无记忆信源和有记忆信源。有记忆信源输出信号的符号间存在统计冗余,可以通过预测、滤波和变换等技术减小或消除。信源编码就是通过消除信号的统计冗余和感知无关冗余,达到数据压缩的目的。在信源编码中,由于幅值、滤波或变换系数的量化过程决定了信息系统的失真和所需信道带宽( 同时,也受熵编码影响) ,因此,量化是一个非常关键的处理过程。当信源样值、滤波或变换系数被量化时,就产生了失真。一般地,所谓的“失真”包括客观失真和主观失真,客观失真指用某种客观尺度衡量的实际信源矢量x 与量化后的矢量x 的距离测度,可用d x ,囝表示。一般地,客观失真可以为便于计算、利于分析和满足感知一致性的任意度量。然而,完全满足这些要求的失真定义很难得到。下面是最常用的平方误差失真:kd x ,司= j lx - - 钏= ( x 一琐x 一女) = lx i 一毫1 2( 1 1 )i = l主观失真又叫感知失真,是刻画量化或编码信号在人的主观感觉上的失真程度的度量。由于目前对人的感知认识上的局限性,还很难给出一个精确的主观失真计算方法,一般地,可以采用专家主观打分的测试实验得到主观失真评价结果。感知编码的核心思想是利用人类感知掩蔽效应,使编码过程中引入的量化噪声可以被信号本身掩蔽( 或部分掩蔽) 的编码方法。通过感知编码,在同样的码率下,可以获得感知无失真( 即感知透明1 或感知质量优于其他编码方法的信号。人的感知掩蔽效应是指由于感知生理和心理特性,使得我们不能分辨两种有不同的频率、时间或空间谱结构的信号的现象。在感知编码中,可以根据人的感知特性,使量化噪声按照感知失真最小的原则分布,以充分利用人的感知掩蔽效应,降低码率。同样意义下,如果使得量化噪声分布的每个频率、时间或空间感知区间均满足掩蔽效应,则可获得透明编码质量。因此,和基于客观失真编码不同,在感知编码中,较低的信噪比并不意味着较低的主观质量。感知编码普遍适用于语音、音频、图像和视频信号编码。我4 f 女n 道,语音信号的信源可以用预测模型来表示,适合于参数编码,其编码效率很高:然而,音频、图像和视频信号的信源却很难用一个简单、通用的模型来描述,因此其编码性能的提高,往往需要有效利用信宿模型特性一一即人的感知特性。由于人的感知系统f 视觉和听觉) 对不同频带、时间和空间信息的敏感性不同,因此需要根据人的感知特性对信号进行分解,以充分利用感知掩蔽效应pj 。1 2 相关的几种音频编码标准1 2 1m p e g 1 音频编码标准自从1 9 8 8 年以来,i s o i e c j t c l s c 2 9 w g l1 ( 称m p e g 即活动图象专家组) 承担了视频和音频压缩技术的标准化工作。这个d , h n 定的音频编码标准是数字音频压缩领域中第一个国际标准,并且带来了不同的应用。i t u r ( 前c c i r ) 己推荐将m p e g 一1 音频等级2 和33糸离大学颧士学位论文用于广播的节目传送、发射( 等级2 ) 、评述( 等级3 ) 。m p e g 的音频小组负责制定高质量p c m音频信号的编码标准。自从1 9 9 0 年代中期阱来,为了评价i s o m p e g 一1 音频编码标准的音频质量,完成了许多主观测试。在这段时间内,为了达到目前的音频质量,进行了几项改进。m p e g 1 系统是a s p e c ( a t & t 、c n e t 、f h g r ( a n g e n 大学、t c 功和m u s i c a m ( c c e t t 、i r t 、p h i l i p s 、m a t s u s h i t a ) 这两个小组合作制定的音频编码标准草案的结果。已经定义了一种3 级编码算法。从等级1 到等级3 ,主系统的特性在复杂性( 特别是编码器复杂- 胜) 和低码率情况下的音质逐步提高。1 9 9 2 年月,这份建议书成为国际标准i s o i e c l l l 7 2 ,3 ( m p e g 音频。1 2 2m p e g 一2b e 和m p e g - 2l s fm p e g - 2 后向兼容( b c ) 音频定义了m p e g 一1 的下述扩展。传统的双通道声音格式的指定继承者是3 2 + 1 多通道系统。m p e g 2b c 音频编码标准( i s o i e c1 3 8 1 8 3 ) 含有后向兼容低码率多通道编码系统的说明。m p e g 1 的l 和r 通道由矩阵信号l c 和r c 代替,并且采用m p e g ,1 编码器。因此,m p e g i 解码器能够重现全部5 通道信息的综合向下混合。正像在m p e g - 1 的情况中一样,有3 种形式的多通道扩展,称谓等级l 、2 、3 。正像在m p e g 1 中一样,等级3 是最灵活的系统。作为一个特别的特点,m p e g 2m e 等级3容许使用数目灵活的扩展通道。虽然其背后的初衷是减轻某些最坏情况下的矩阵求伪逆,但这种想法能够用于双通道立体声和5 通道扩展的同播,而没有固定兼容性矩阵的伪逆限锘n 。m p e g 一1 的另项扩展是增加了使用较低采样频率( 即低于3 2 k h z ) 的方式,这些方式对于每通道以1 6 6 4 k b s 的码率传送宽带语言和中等质量的音频很有用,可在码率预算很有限的情况下用于解说和电视会议系统。增加l s f 背后的基本想法是,提高较高频率分辨率滤波器组的编码增益。l s f 的另一个优点是提高了主要信息对附带( 特别是码头) 信息之比。在最近的试听测试中表明,2 4 k h z 采样频率的6 4 k b s 总码率联合立体声等级3 接近于】9 9 0年每通道6 4 k b na s p e c 系统的质量( 以1l k i t z 信号为基准) 。对于那些需要很低码率的一般音频编码的应用来说,这使l s f 等级3 成为优选方案p j 。1 2 3d o l b ya c 一2 和a c - 3a c 一2 和a c 一3 算法是以变换为基础的听觉音频编码算法。a c 2 系列调整得适用于低成本编解码计算,而a c - 3 的目标在于一些应用,在这些应用中,增加一些附加功能特点例如动态压缩、对话归一化、可变萤放配置控制、可变数据率调整、广泛的用户信息传送使之更为有利,而且在这些应用中,与a c 2 相比,较高的编码器复杂性并不是个优点。a c 2 系列的开发始于8 0 年代中期,自从1 9 8 9 年以来,市场上已有几个版本。当用在两通道( 或多通道) 情况中时,a c ,2 有完全安通道独立性。数据率在每个通道1 2 8 和1 2 9 k b n 之间变化,以便提供2 0 k h z 带宽的音频。a c 2 系列用于涉及点对点业务的应用,其编码器和解码器具有类似的低的计算复杂性。在i n j r t g1 0 , 2 的工作期间,对a c 2 进行了测试,它满足码率为1 2 8 k b s 的发射类别中的i t u r 质量要求,在所有被测试的系统中( 包括i s om p e g - l 等级2 和3 ) ,它的复杂性最低。a c 一3 技术包含着灵活性,它可以重现从一到五个通道的各种播放配置,再加上一个任选的低频增强通道。a c 3 方案可使用3 2 和6 4 0 k b s 之问的可调整数据率,可配置成通道安排的各种组台,而且只要增加适度的计算复杂性,就可以在比a c 一2 低的数据率,提供优良的声音质量。原设想将a c 一3j = ;j 于数字式电影院音响中,1 9 9 1 年首次用于其中,1 9 9 34第1 章绪论年被美国先进电视制式委员会( a t s c ) 选怍北美h d t v 标准的音频编码系统。a c 一3 数据格式用来在已经采用了高度误码校正的环境中操作”。1 2 4 d t sd t s 是d i g i t a lt h e a r es y s t e m ”的缩写,是“数字化影院系统”的意思。它是1 9 9 6 年底推出的一种源自剧院模式开发的数码环绕声系统。我们知道杜比实验室的a c 3 也是一种出色的一种杜比环绕声模式,它是利用全频模式播出5 1 声道,即前主音箱、后环绕音箱以及中置和重低音各自独立运行,但该声音效果是横向定位环绕,其音响效果自有公论。从技术上讲,d t s 与包括d o l b yd i g i t a l 在内的其它声音处理系统是完全不同的。d o l b yd i g i t a l 是将音效数据存储在电影胶片的齿孔之间,因为空间的限制而必须采用大量的压缩的模式,这样就不得不牺牲部分音质。d t s 公司用一神简单的办法解决了这个问题,即把音效数据存储到另外的c d r o m中,使其与影像数据同步。这样不但空间得到增加,而且数据流量也可以相对变大,更可以将存储音效数据的c d 更换,来播放不同的语言版本。d t s 相干声学本质上是一种感知优化差分子带编码。其编码过程的关键组成是自适应预测编码,或称a d p c m ,它可以有选择地独立工作在每一音频通道地所有3 2 个子带上。图1 - 2 为d t 8 相干声学编码器结构框图。梭矗图1 2d t s 相干声学编码器结构框图通过结合差分编码和同步噪声掩蔽阈值,可以提高比特率很低时的编码效率,从而降低了达到主观透明度要求的比特率。对音频多路通道的编码是在固定比特率或可变比特率上用分配比特的方法进行的。一个多相滤波器组把每一个独立声道的p c m 源信号分成3 2 个带宽相等的子带,并利用高理论编码增益及较强的止带衰减功能,使其具有较低的计算复杂性。对每一子带进行差分编码,可以去除音频中大部分客观冗余信号。同时,对未编码的信号进行声学同步处理和瞬态分析以感知相关信息,从而修正每一子带信号的主要差分编码循环。在多声道格式中,比特分配作用于所有编码通道,并随时间、频率及声道而改变以优化音频质量。根据实际应用,d t s 具有单声道、双声道全8 声道可供选用,分离式的5 1 声道可以混音成为“矩阵式两声道”。d t s 每声道的采样率最低为8 k h z ,最高为1 9 2 k h z ;量化精度范围为1 6 2 4 b i t :压缩率范围为1 :1 4 0 :l :总数据率范围为3 2 4 0 9 6 b i v s 。另外相干声学算法还可以实现高达13 8 d b 的动态范围。d t s 系统不仅具有a c 一3 相似功能,更加强了其纵深定位交叉效果。d t s 芯片容量5东南大学硬学位论文为15 3 6 k b p s ,压缩传输比为4 :1 ;而a c ,3 芯片容量为4 4 8 k b p s ,压缩比为1 0 :l 。正是由于d t s 信息容量的增加,音色更加优美,不但可以聆听h i f i 音乐,周对也可以欣赏爆棚影视软件。由于d t s 以2 0 b i t 在4 8 k h z 的频率中工作,提供6 声道信息,它所创造出的音域环绕声效果,能满足众多a v 发烧友最挑剔的要求。听音者完全被这种气势所包围,真正体验3 6 0 度数码环绕音响效果。我们经常说的什么“6 点1 ”就是指的d t s ,它所带来的震撼效果是a c 3 无法比拟的。d t s 家庭影院的核心是d t s 解码器,它可对d v d ,c d 的杜比数字解码,输出5 1声道信息,也可以选择d t s 方式,输出6 声道信息。d t s 和杜比数字在音质上有着明显的不同,前者声音力度强劲,声音的上升和切入都很尖锐,音场的透明感清晰可闻,尤其是丰富的低音效果表现得更加激烈火爆。后者在低音方面缺少丰富的力度,声音的上升和切入就显得有些暖陡。也就是说d t s 在某些细节和分辨力方面比a c - 3 还略胜一筹。它的另一个特点是能重放发烧友追求的h d c d ,这就意味着d t s 的声音表现能显著地超越目前任何最好的c d 录音。目前市面上已经有不少d t s 格式的c d 出品了”。1 0 1 。1 2 5m p e g - 4 的音频标准曾制定出m p e g 1 和m p e g 2 视音频压缩标准的运动图像专家组( 脚e g ) 臣前正在发展最新的m p e o 4 标准,其目标是提供未来的交互式多媒体应用。m p e g 4 制定出与以往不同的、具有高度灵活性和可扩展性的未来新一代国际标准。在音频标准的制定方面,比较以前的音频编码标准,m p e g 4 增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。m p e g 4 将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,在诸多领域内给予了高度的灵活性。一个基本的概念就是m p e g 4 的编羁工具不再仅跟子支持码率的减少,其各种不同的工具支持从智能语音到高质量多声道音频信号,以及此范国内的音频信号的质量。m p e g 一4编码工具支持的其他功能还有:速度的变化,允许不改变音调实现时间尺度变化;音调的变化,允许不改变时间尺度实现音调改变;码率的可分级性,对比特流的分解可在传输或解码器中进行;- 带宽的可分级性,代表部分频谱的比特流的一段可在传输或解码过程中被抛弃;编码器复杂度的可分级性;强纠错性等。m p e g 4 标准的自然音频编码将码率范围规定为每声道2 k b i t s 6 4 k b i t s 。在如此宽的范围内定义了3 种类型的编码器或编码工具。在最低的码率范围2 - - 6 k b i t s 之间使用的是参数编码( p a r a m e t r i cc o d i n g ) ,最适合于采样率为8 k h z 的语言信号;在6 2 4 k b w s 码率范围内使用的是码激励线性预测编码( c o d ee x c e e dl i n e a r p r e d i c t i v ec o d i n g ) 简称c e l p ,支持采样率为8 k h z 和 6 k h z 的语言和音频信号;在最高的 6 6 4 k b i t s 的码率范围内使用的是时间,频率编码( t i m e f r e q u e n c yc o d i n g ) 技术,比如m p e g 4a a c 标准,支持采样率为8 9 6k h z 的任意音频信号。从m p e g - 4 标准制定的开始,其焦点就已经得到扩展,它不光包捂传统的编码方法,其独创之处在于提供r 有关合成、音视频场景、合成与自然内容的同步和时空联合等方面的描述。一种新类型的音频编码工具“结构音频”随之诞生。结构音频标准提供了关于合成音乐、声音效果、交互式多媒体场景下合成声音与自然声音的同步等方面有效的、灵活6苎! 兰鳖丝二一二一的描述。在m p e g 4 的工作计划中,合成声音编码代表了- - e e 极具灵活性的工具,支持其他编码无法实现的交互式功能。另外,结构音频的出现有其强烈的时代背景感和技术上的迫切需求感。许多研究者发觉,m i d i 等合成技术已不能满足计算机合成音乐的发展步伐,目前的瓶颈状况需要改变。今天从电影、电视、交互式媒体中感受到的音乐多为合成音乐且无法觉察其原始面目。制定一个规范化、高质量的标准在每个终端实现音频的多媒体应用已是必然。m p e g 一4 结构音频工具是基于一种软件合成描述语言实现的。这种描述的技术基础近似于先前出现的计算机音乐语言,例如m u s i cv 和cs o u n d 。结构音频工具较之前者的典型特点是允许用比特流来有效地传输数据。结构音频工具使用5 种主要的元素成分,它们的描述方式统一于总体的解码框架流程。m p e g - 4 作为一种目标定位于未来的、全能的、开放的多媒体方案,将伴随着未来不断出现的新的技术、思路、方法得到更深、更广的发展,成为领导未来多媒体世界的国际标准【“1 。1 3 论文的主要工作及其组织结构本论文主要研究先进音频编码( a a c ) 各个功能模块的算法,进行一些改进,并将其在中波数字调幅广播中。第二章论述了先进音频编码的基本原理,详细介绍了其中的各个主要功能模块,心理声学模型,滤波器组,时域噪声成形,, 5 m n n n ,量化与编码,感知噪声替代,长门限预测。第三章对a a c 编码器中的音频带宽控制、心理声学模型算 k t n n 化编码模块等做出的改进做了阐述。第四章为了适合在中波数字调幅广播中的传输,改变t t m c 编码的帧长,使用了相应的快速算法,加入了错误保护的新工具第五章介绍为了使用硬件实现a a c ,做的一些考虑。第六章对全文进行总结。72 1 引言东南戈学湫t 掌丘陵文第2 章m p e ga a c 的主要模块算法i s o k e c 的标准1 3 8 1 8 - 7 提出的m p e g 2a a c 则是真正的第2 代通用音频编码,它基本放弃了对m p e g l 音频的兼容性,扩大了编码范围,支持1 4 8 个通道和8 k t t z 9 6 k h z采样率,每个通道可以获得8 k b p s 1 6 0 k b p s 高质量的声音,能够实现多通道、多语种和多节目编码。m p e g 4a a c 在i s o i e c 的1 4 4 9 6 3 标准中提出,阻改进的m p e g 二2a a c 为主,应用在除最低码率之外的一般音频编码中,主要体现在增加了p n s ( p e r c e p t u a ln o i s es u b s t i t u t i o n l和l t p ( 1 0 n gt e r mp r e d i c t i o n ) 模块。2 2 主要算法模块分析2 2 1 概述对于低比特率要求,有效的音频编码应能够除去音频信号中的冗余和无关分量。利用音频采样信号和采样样本统计特性之问的关系,可以除去信息的统计冗余。利用人耳听觉系统在频域和时域中的掩蔽特性,可以除去不可闻的信号成分( 无关分量) 。通过滤波器组把音频信号在频域上分成一些子带,利用听觉模型对信号频谱进行量化和无噪声编码,可以降低数据率。这些过程的各个步骤形成了m p e g a a c 系统的基本结构【】“。a a c 是一种基于感知原理的高质量音频压缩编码,其基本原理如图2 - 1 所示。圈2 - 1 a a c 基本原理图心理声学模型根据感知原理计算出掩蔽曲线,即每个子频带可引入的噪声,在量化部分对各频带信号进行量化,协调比特数与噪声的关系,最后编码为比特流。a a c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建漳州闽投华阳发电有限公司招聘52人笔试备考题库及答案解析
- 2025贵州安顺市平坝区农业农村局招聘公益性岗位人员2人备考试题及答案解析
- 2025广东江门市台山市培英中学招聘5人笔试备考题库及答案解析
- 2025广西壮族自治区药用植物园招聘高层次人才21人笔试备考试题及答案解析
- 2025北京市海淀区四王府小学附设幼儿班招聘外聘保健医、出纳员笔试备考题库及答案解析
- 2025安徽池州职业技术学院招聘工作人员40人备考试题及答案解析
- 2025广西北海市供水有限责任公司8月公开招聘员工5人考试备考题库及答案解析
- 2025广东广州市荔湾区西关实验小学龙溪学校招聘编外教师1人考试备考题库及答案解析
- 2025年复印和胶印设备制造行业研究报告及未来行业发展趋势预测
- 2025年柑橘类种植行业研究报告及未来行业发展趋势预测
- GB/T 6344-2008软质泡沫聚合材料拉伸强度和断裂伸长率的测定
- GB/T 3836.4-2021爆炸性环境第4部分:由本质安全型“i”保护的设备
- GB/T 20801.6-2020压力管道规范工业管道第6部分:安全防护
- GA/T 1163-2014人类DNA荧光标记STR分型结果的分析及应用
- 蒸汽发生器设计、制造技术要求
- 全套课件-水利工程管理信息技术
- 施工员钢筋工程知识培训(培训)课件
- 《阿房宫赋》全篇覆盖理解性默写
- 学校体育学(第三版)ppt全套教学课件
- 住建部《建筑业10项新技术(2017版)》解读培训课件
- NCStudioGen6A编程手册
评论
0/150
提交评论