外文翻译译文-数字音频技术_第1页
外文翻译译文-数字音频技术_第2页
外文翻译译文-数字音频技术_第3页
外文翻译译文-数字音频技术_第4页
外文翻译译文-数字音频技术_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一部分数字音频技术发展的方向我们亲身经历了数字技术的蓬勃,感觉到了数字化时代对人类的发展产生了巨大的变化。我们看到它以惊人的速度渗透到社会的各个领域,并且日常的数字化技术已经完全进入到广播、电影和电视领域,其对我们的贸易活动正带来了实实在在的改变。为了加快广播电影和电视领域的数字化过程,清楚地掌握数字音频技术的发展趋势有着真正相当重要的意义。(一)仿真音频技术与数字音频技术之间的补充和两者的关系为了掌握数字音频技术的发展方向,我们必须理解数字音频和仿真音频技术之间的科学,知道有那么一个概念。即数字化是一种方法,但是我们一直不能离开仿真世界,所以我们想知道仿真和数字音频技术的优点和弱点。为了得到音频高品质,不是数字音频在模型改变以后通过modulus/count,而是它最好能接近仿真声音的特性。然而,处理音频,综合的,产生数字技术,存储,传导和进入网络系统的编制程序,并且在这些方面与价格相考虑,有很大的优势。在半导体技术高速发展今天,在专业音频的领域,为了得到新鲜的仿真声音品质,仍然需要采用电子管装置,例如,电子管麦克风,功率放大器,和压缩装置,和电源放大器。为了与数字音频系统协调,必须要有更新的音频专业的有数字接口的电子管产品。所以,数字时代的音频技术,不是丢弃mould参数,但是把这两者有机的结合在一起,追求带有数字技术仿真响度质量,用数字的方法弥补传统音频设备的弱点。例如,AMEK9098和SSL9000J系列是目前公认的最好的仿真调音台,模拟信号流,数字控制系统,也有处理moduluses而且改变了接口,这也是仿真音频技术与数字技术结合的例子。电脑技术已经把人们带入了虚拟的世界。音频领域也没有例外,音频工作站发展已经越来越成熟,人们已经称它为虚拟的纪录空间?。在虚拟的音频制造系统中,包括了录音机,organstop,peripheral信号发电机,非线性编辑器和数据库,等等。这样的虚拟系统不仅有价格方面的优点而且也有多方面的功能,与数字化相一致时,它对网络的发展要求,以及它的音频品质也有机的包含了传统的organstop。近些年来,虚拟音频的制造系统指控在接口的外部操作,dStill与传统organstop相结合。除了音频工作站有ProControls以外。索尼公司已将DMX-100调音台与Pyramix虚拟音频制作系统结合,DMX-100调音台的48路数字音频通道可通过MADI模数/数模转换器与Pyramix连接,Pyramix可通过DMX-100的24个电动马达推子实现外部自动化控制。另外SSL9000J系列高级模拟数控台也可与Pyramix虚拟音频制作系统配合使用,音频信号可通过PCM/MADI转换器或DSD转换器与Pyramix连接,SSL9000J系列调音台上的控制键钮和推子可通过索尼422协议与Pyramix连接。上述种种可以看到,数字时代音频的发展,从音质上讲,数字与模拟的追求是一致的;从数字技术在音频领域的应用来看,它仍然依托着传统的模拟设备而向前发展。二、数字音频格式PCM和DSD的发展状况PCM脉码调制数字音频格式是70年代末发展起来的,记录媒体之一的CD,80年代初由飞利浦和索尼公司共同推出。PCM的音频格式也被DVD-A所采用,它支持立体声和5.1环绕声,1999年由DVD讨论会发布和推出的。PCM的比特率,从14-bit发展到16-bit、18-bit、20-bit直到24-bit;采样频率从44.1kHz发展到192kHz。到目前为止PCM这项技术可以改善和提高的方面则越来越来小。只是简单的增加PCM比特率和采样率,不能根本的改善它的根本问题。其原因是PCM的主要问题在于:1)任何PCM数字音频系统需要在其输入端设置急剧升降的滤波器,仅让20Hz-22.05kHz的频率通过(高端22.05kHz是由于CD44.1kHz的一半频率而确定),这是一项非常困难的任务。2)在录音时采用多级或者串联抽选的数字滤波器(减低采样率),在重放时采用多级的内插的数字滤波器(提高采样率),为了控制小信号在编码时的失真,两者又都需要加入重复定量噪声。这样就限制了PCM技术在音频还原时的保真度。为了全面改善PCM数字音频技术,获得更好的声音质量,就需要有新的技术来替换。近年来飞利浦和索尼公司再次联手,共同推出一种称为直接流数字编码技术DSD的格式,其记录媒体为超级音频CD即SACD,支持立体声和5.1环绕声。DSD音频格式简化了信号流程,去掉了PCM使用的多级滤波器,将模拟音频直接以2.8224MHz的高采样频率,按1-bit的数字脉冲来记录。虽然DSD格式表示的声音信号是数字化数据,但是它又与真正的声波非常接近,可完整的记录当今最佳模拟系统的信息。最好的30ips半英寸模拟录音机能记录的频率能超过50KHz,而DSD格式的频率响应指标为从DC到100KHz。能覆盖高级模拟调音台的动态范围,通过其音频频段的剩余噪声功率,保持在-120dB。DSD的频率响应和动态范围,是任何数字和模拟的录音系统无法与之比拟的。从声音的质量上来说,数字音频技术是为了接近模拟声音的质量。DSD音频格式的发展将更有利的与模拟音频系统配合。三、为何DSD音频格式是最好的数字音频格式l2001年AES110年会的报告指出DSD是最好的音频格式选择。l环球,EMI和Virgin也新加入了索尼和飞利浦的SACD/DSD的行列,除了华纳之外,几乎所有大唱片公司都支持SACD/DSD的格式。l当前还没有真正的直接24/192kHz录音,仅仅是从24/48kHz录音转换的。真正的DVD-A出版非常少,目前还没有这种格式的市场。而在北美已超过400多版的SACD的出版,并且继续在发展。l按照Stereophile(在北美高档音频杂志)的最新统计指出有高达30%的读者表示将在2001年底加入SACD的行列,或者在明年初有31%的读者加入此行列。而DVD-A的百分比是12%。当问及读者支持哪一种格式时,回答是SACD。l几乎所有主要的DVD-A与SACD格式的试听评价中,都由SACD取胜。这包括Stereophile、AbsoulteSound、SurroundSoundReview和WidescreenReview音频发烧杂志以及如BobLudwig那样的,对录音工业有非常影响的专业工程师。l在今后若干月有几个发展动向,将会有新的芯片出现可同时播放SACD和DVD-A格式,这将被用到新的DVD播放机中。主要的问题是这种多功能的芯片要兼容多格式对解码的音频质量不会太好。l除了音质方面的改善外,SACD的另一个关键要点是有完善的防盗版保护方式,在SACD上同时有可见和不可见的水印,SACD播放机要读到水印才能工作。lSACD具有SACD和CD两层,仍旧可以汽车里的CD中播放,而DVD-A则不行。l对音乐存储媒体来说,74分钟的容量是十分重要的。4.7GB的SACD能存储74分钟DSD8个通道(2通道立体声和DSD6通道的环绕声)。采用了一种被称为直接流数字转换(DirectStreamTransfer)无损编码方式的飞利浦技术。这种无损编码可节省50%的存储空间。DVD-A采用的是一种被称为MLP无损包装(MeridianLosslessPacking)的编码技术。4.7GB的DVD-A能存储55分钟20bit,192kHzPCM6通道的环绕声。这种无损编码可节省35%-50%的存储空间。四、DSD的应用范围lDSD的脉冲序列可以直接下转为传统的PCM数字音频。目前在PCM和DSD共存的期,采用DSD下转运算技术,可以尽量保证音频信号的质量,消除内部重复量化错误,抑制波动,将混淆误差控制在最小。将DSD比特流下转为16-bit/44.1kHz数字音频,直接记录在普通的CD上,可使16-bit的数字音频接近20到24-bit的精度,使得16-bit的CD尽可能的保持DSD的音质。特流下转为16-bit/44.1kHz数字音频,直接记录在普通的CD上,可使16-bit的数字音频接近20到24-bitlDSD选取2.8224MHz高采样频率,其优势是可高精度的按整数的乘法和除法下转当前所有PCM采样频率。以DSD格式记录既能保证音频质量,又能通过下转满足不同的应用和要求。除了用于音乐录音外,也适用于影视的音频制作,最终合成的节目可通过下转,用来传输或记录在媒体上,如5.1的节目需要进行AC-3或DTS的编码。DSD音频格式与现有的音频设备配合,不仅仅可以改善当前节目的音频质量,而且对高清晰数字电影和高清晰数字电视的音频是一个极大的支持。lDSD是理想的节目素材存储格式,用于母版的保存或数据库的建立。DSD的采样频率是CD的64倍即2,822,400Hz。但是DSD每个采样仅占用1bit,因此每个通道每秒的比特率为1x2,822,400Hz或2,822,400bits。而CD每个采样占用16bits,因此每个通道每秒的比特率为16x44,100Hz或705,600bits。实际上,DSD总的数据流只大于普通CD的4倍,数据量可以被当前的磁带和硬盘容纳。lDSD也是保存节目的理想格式。各国音响资料馆都面临着一个共同的问题,磁带只有30年的保存期,而每种版权则有100年的保护。选择哪种方案可将原始资料较理想的保存下来?这个问题一直得不到解决的方案,而资料越积越多,部分老化的资料已无法恢复。直到SACD的出现,美国国会所属的国家档案馆首先决定采用。lDSD的录音制作与传统的录音制作,对设备和技术上没有重要的区别。需要增加的是DSD的模数/数模转换器和DSD录音编辑工作站,不少录音棚已经采用高级模拟调音台和现存的PCM录音设备成功的进行了DSD的录音。飞利浦发展了一种DSD录音技术的P3D的转换格式,即可以将64DSDbits描述成3x24-bitAES-EBU数字节,有可能将一台24轨/24-bit44.1kHzPCM录音机改变成为一台8路的DSD录音机。五、Pyramix虚拟音频制作系统目前SACD和DVD-A都在推广之中,PCM与DSD两种数字音频格式需要一段共存期。我们必须考虑PCM/DSD的兼容和转换。因此Pyramix虚拟音频制作系统有很大的优势,它是当前仅有一个完善系统可同时完成DVD-A(24/192kHz)和SACD/DSD(1bit/2.8Mhz)的音频制作系统。上述文章已经提到索尼公司已将DMX-100调音台与Pyramix虚拟音频制作系统结合,另外,世界数字和模拟音频设计大师EdMeitner也为Pyramix配置了当今世界最好的8路模数/数模转换器,支持DSD和PCM两种格式。由加拿大专业传媒公司和瑞士MergingTechnologies共同推出的Pyramix4全中文版已经正式上市。Pyramix在功能上的综合优势有:兼容PCM与DSD两种数字音频格式;基于高度稳定的Win2000专业工作平台,可单系统独立使用,也符合多系统网络化建设;其DSD编码格式有利与高级模拟音频系统配合;包括5.1环绕声的AC-3和DTS合成和编码;具有全套的不丢帧同步能力,支持电视、电影以及目前市场上唯一支持高清晰电视HDTVTrilevel的声音同步。再加上所有的VITC及LTC设置,可锁定于任何视频或音频设备。Pyramix4中文版除了它的全新的全中文介面、全面的编辑功能、全实时的专业效果器组合、全部可自行配置及自动化控制的虚拟调音台之外,Pyramix4还添加了:1.DSD1bit,2.8Mhz(SACD)录音、制作及母版制作功能2.支持192kHz到384kHz高采样频率录音、制作及母版制作功能3.特别为工作于96kHz到384kHz及DSD采样频率而特别设计的实时效果器4.不需要转换地直接支持OMF(Avid)及SD2(Protools)的音频格式5.新的效果器包括:实时大型、全部可自行配置的VU表指示系统实时相位表(可配置为多声道显示)实时录音用通路工具组件为母版制作及环绕声制作使用的实时总线工具组件新式强化的实时全自动化声像移位器,可用于双声道立体声素材及单声道素材6.为多声道音乐录音、编辑及母版制作而强化的工具,包括节拍器轨。按照节奏及拍子的多种变化而自动调整时间线,按节奏轨自动调整时间线及节拍。7.通过最多可支持8块DSP卡,要增加Pyramix的能力,只要添加MykerinosDSP卡8.支持DIRECTX插件及ASIO,可与其它专业音频效果器及应用程序相连9.使用不同控制协议,可通过多种控制介面控制多种外部设备10.直接支持新式的SonyDMX-R100(MADII/O接口)调音台Pyramix虚拟音频制作系统,是经索尼和飞利浦和公司证的DSD系统,也是世界上唯一的系统,可以有以下DSD的功能:1.2-24声道DSD录制及还放2.为DSD的多声道编辑,加上实时淡出/淡入及声音渐变效果。3.PCM到DSD转换4.实时高采样率效果器,包括混响也是基于DSD模式的5.可制作DSD环绕声6.为SACD完整的D及E表指示,红皮书标准7.DSD特有的高采频样滤波器在广播影视领域大规模数字化进程中,我们已感受到音频制作手段的快速更新,工作效率大大提高,但对数字化后的音频质量,还须有更高的追求,高清晰度电视和数字电影更需要有与之相适应的高质量音频。飞利浦和索尼公司计划告别他们的多比特PCM格式,全面推广DSD格式。这不是一个偶然的,它关系到数字化音频发展的趋势,因此在数字化规划中,应当逐步将DSD技术应用于实际,真正走在广播影视数字化进程的前列。第二部分数字音频压缩技术发展现状数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。1、音频压缩技术的出现及早期应用音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1KHz,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(NearInstantaneousCompandedAudioMultiplex-准瞬时压扩音频复用)等系统中都使用了音频压缩技术。2、音频压缩算法的主要分类及典型代表一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、G.722、Apt-X等。(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层、层(MUSICAM),以及用于PhilipsDCC中的PASC(PrecisionAdaptiveSubbandCoding,精确自适应子带编码)等。(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(AudioSpectralPerceptualEntropyCoding)、PAC(PerceptualAudioCoder)等。3、音频压缩技术的标准化和MPEG-1由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如G.711、G.721、G.728等标准,并逐渐受到业界的认同。在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层、层(即MUSICAM,又称MP2),层(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。最新进展:1、多声道音频信号压缩与DolbyAC-3随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIRRecommendation775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro-Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。(1)DolbyAC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。DolbyAC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。DolbyAC-3是一种感知型压缩编码技术,其编码器功能框图如图1所示。在DolbyAC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为10.66毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果;TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每5.33毫秒进行一次;在瞬变条件下,TDAC长度被等分为256点,这样DolbyAC-3的频域分辨率为93.75Hz,时域最小分辨率为2.67毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC-3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒31.25帧。通过以上叙述可见,在DolbyAC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。(2)MPEG-2BC(后向兼容方式),即ISO/IEC13818-3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIRRec.775做到与双声道、单声道形式的向下兼容,还能够与DolbySurround形式兼容。在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(PhantomCodingofCenter)、预编码(Predistortion)等。然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG-2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。(3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1所示。可见,多声道环绕声音频压缩技术标准亟待统一。第三部分数字音频MPEG压缩技术一、为什么要压缩数字音频是对模拟声音信号每秒上千次的采样,然后把每个样值按一定的比特数量化,最后得到标准的数字音频的码流。对CD音质的信号来讲,每秒要44100次的采样,每个样值是16比特的量化,而立体声CD音质信号,它每秒的码流是44.1K1621.4Mbit/S。这样高的码流和容量,对于数字音频的存储、处理和传输提出了很高的要求。对音频的压缩理论,是从研究人耳的听感系统开始的,首先第一个特点是人耳对各频率的灵敏度是不同的,在2K4K频段,很低的电平就能被人耳听到,其他频段时,相对要高一点的电平才能听到,这就是说在听觉阈值以下的电平可以去掉,相当于压缩了数据。第二个特点就是频率之间的掩蔽效应,其实就是指人耳接收信号时,不同频率之间的相互干扰。当电平高的频率点和电平相对来说较低的不同频率点同时出现时,电平低的频率点的声音将听不到。因为人耳的灵敏度不一样,所以不同频率点的掩蔽程度是不一样的。低于掩蔽阈值的信号将不编码,高于掩蔽阈值的信号将重新分配量化比特值,实施压缩,这是MPEG能得到较高的压缩比,又能保证音质的重要原因。第三个特点是指短暂掩蔽效应,指在一个强信号之前或之后的弱信号,也会被遮蔽掉。这样利用人耳的感觉特性,对数据流本身进行压缩,做到既能降低码流,又能通过科学的压缩方法提高码流的效率,而又不影响音质本身。完全了解了人耳的特性后,就会知道人耳实际上可看成一个多频段的听感分析器,在接收端的最后,它对瞬间的频谱功率进行了重新分配,这就为音频的数据压缩提供了依据。二、MPEG压缩原理在音频压缩标准化方面取得巨大成功的是MPEG-1数字音频压缩方案。我们介绍一下MPEG-1音频压缩的内容。在MPEG-1压缩中,按复杂程度规定了三种模式即层,层,层。目前广泛使用的VCD的音频压缩方案为层,它的典型的码流为每通道192Kbit/S。层即称掩蔽模式通用子带集成编码与多路复用,典型的码流为每通道128Kbit/S,广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。层是综合于层和ASPEC的优点提出的混合压缩技术,MP3的复杂度相对较高,编码不利于实时,典型码流为64Kbit/S,在低码率下有高品质的音质,所以成为网上音源的宠儿。MPEG-1的压缩技术方案是子带压缩,子带分割的实现是通过时频映射,采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带;同时,信号通过FFT运算,对信号进行频谱分析;子带信号与频谱同步计算,得出对各子带的掩蔽特性,由于掩蔽特性的存在,减少了对量化比特率的要求,不同子带分配不同的量化比特数,但对于各子带而言,是线性量化。另上CRC校验码,得到标准的MPEG码流。在解码端,只要解帧,子带样值解码,最后进行频时映射还原,最后输出标准PCM码流。下面详细介绍层、层、层的具体方案。1、层:时频映射:数字的多相正交滤波器组把信号分成32个子带信号,因为层是均匀的划分,所以每个子带频宽为24K/32=625HZ。这种划分与关键频宽段的概念不一样,在低端只有一个子带625HZ,这样对低频的量化比较简单,容易引起低频端的量化误差。心理声学模型:使用512个点的FFT变换得到信号的短时频谱功率信息,输出的电平和时频映射的子带样值同步计算,得到每个子带的掩蔽阈值。最后将该子带的最大信号/掩蔽阈值率输入给量化器。量化/编码:首先检测每个子带的样值,找到最大相对值,并且将它6比特量化,对该子带来讲叫比例因子。通过最小化噪音/掩蔽值,由比例因子决定动态量化比特数,将该子带值样值线性量化。量化比特数用一个4位码来描述,4位码可以用来描述24=16bit,最大16bit的量化。比例因子用6位码来描述,最大26=64的子带样值的系数。这样每个子带用的量化比特数和每个子带的最大样值都在MPEG的码流里,在接收端再按照这些信息还原

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论