(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf_第1页
(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf_第2页
(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf_第3页
(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf_第4页
(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(微电子学与固体电子学专业论文)imdct在mpegaudio1+layerⅢ中的递归实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i m d c t 在m p e g a u d i o ll a y e r 中的递归实现 摘要 m d c t 和i m d c t 是m p e g a u d i o 编译码中两个运算量比较大的模块,它 们的功能在于把编译码中的样本进行从时域到频域、从频域到时域的转换,以 便于编码压缩处理或者是可以使信号能够实时的播放。在整个编译码系统中, 它们都具有很重要的地位,其运算量占3 0 以上。 随着各种数码产品的不断出现,编译码技术也在不断提高,m d c t 和 i m d c t 的研究也越来越深入,不断有新的实现方法出现,但是要寻找一种既快 速又适合于硬件v l s i 上实现的并不是很容易。 本文在研究传统的各种实现方法的基础之上,依据硬件设计的规律,提出 一种新型的实现方法一一递归循环实现的方法,并利用现有的新的工具一一 d s pb u i l d e r 对这种实现方法进行仿真、综合并进行验证,为以后的算法实现提 供了一种新的思路。 关键词:反向改进离散余弦变换;运动图像专家组音频一1 第三层解码;数字信 号处理编译器 t h er e c u r s i v ei m p l e m e n t a t i o no ft h ei m d c ti n m p e g a u d i o 一1l a y e r a b s t r a c t t h em d c ta n di m d c ta r et w oo f t h em o s tc o m p u t a t i o n a li n t e n s i v eo p e r a t i o n s i nh em p e g a u d i o 1l a y e r i s t a n d a r d t h e yc a nt r a n s f o r mt h ed a t af r o mt i m e f i e l dt ot h ef r e q u e n c yn e l do rf r o mf r e q u e n c yf i e l dt ot h et i m ef i e l d,t h u sw ec a n e a s i l ye n c o d e 、 c o m p r e s s i o na n dt op l a yt h ef i l ei nr e a l t i m e i nt h ew h 0 1 ee n c o d e a n dd e c o d es y s t e m ,t h e ya r eb o t hv e r yi m p o r t a n t w i t ht h ee m e r g eo fa 1 1k i n d so fd i g i t a lp r o d u c t s ,t h et e c h n o l o g yo fe n c o d ea n d d e c o d ea r ei m p r o v i n 叠t o o t h es t u d yo nt h em d c ta n di m d c ti sd e e p e ra n d d e e p e r ,a n dt h e r ew e r em a n yn e w f a s ti m p l e m e n t a t i o n s ,b u ti ti sd i m c u l tt of i n d af a s ta n dn t t ot h ev l s li nh a r d w a r e i nt h i sp a p e r ,o nt h es t u d yo fm a n yt r a d i t i o n a li m p l e m e n t a t i o n s ,w ed e r i v ea n e wr e c u r s i v ew a y ,i to b e y st h ed e s i g nr u l eo fh a r d w a r e a n dw es i m u l a t i o n si 、 s y n t h e s i sa n dv e r i f yi tb yt h en e wt 0 0 1 d s pb u i l d e r t h i sg i v e st h eo t h e r a l g o r i t h m san e ws o l u t i o n st oi m p l e m e n t a t i o n k e yw o r d s : i m d c t ;m p e g ,a u d i o 一1l a y e r i ;d s pb u i l d e r 合肥工业大学 本论文经答辩委员会全体委员审查,确认符合合肥工业大学 硕士学位论文质量要求。 答辩委员会签名:( 工作单位、职称) 主席: 委员: 导师: 诩 乜n 力一 彩蟛 邪孓 强赫为 插图清单 图 2 1 】、m p e g a u d i ol a y e r 3 编码器图( 6 ) 图【2 2 、多项滤波器的低通原型h 【川。( 7 ) 图 2 - 3 】、多项滤波器的频率相应( 8 ) 图【2 - 4 】、正弦的输入纯音信号可以在两个子带上产生输出( 9 ) 图 2 5 】、多项滤波器的模块图和处理过程( 9 ) 图 2 6 、滤波器组的带宽和临界频带带宽的比较f 1 0 ) 图 2 7 】、i m d c t 所加的四种窗函数的形状( 1 1 ) 图 2 8 、一个典型的子带加窗的序列( 1 2 ) 图 2 9 】、所有加在1 l5 2 个p c m 样本上的信号处理( 1 2 ) 图 2 1 0 、伪信号消除的蝶形运算( 1 3 ) 图 2 1 1 、绝对听域频率曲线( 1 4 ) 图 2 一1 2 】、频域掩蔽和绝对掩蔽阅值( 1 4 ) 图 2 1 3 】、时闽掩蔽图( 1 6 ) 图 2 1 4 】、量化的两种形式( 1 6 ) 图【2 一1 5 】、m p e g a u d i ol a y e r 3 的帧的循环流程图( 1 7 ) 图 2 1 6 、m p e g a u d i ol a y e f 3 外部循环图”( 18 ) 图 2 17 】、m p e g a u d i ol a y e r 3 内循环图。( 19 ) 图【2 1 8 】、主数据的组织分布( 2 1 ) 图 2 1 9 】、比特池技术的例子( 2 2 ) 图 2 2 0 】、m p e g a u d i ol a y e r 3 解码器结构图( 2 3 ) 图 2 2 1 、码流解码结构图” ( 2 3 ) 图【2 2 2 、m p e g a u d j ol a y e r 3 的帧头的格式 图 2 - 2 3 、时频转换和子带合成。 图 2 - 2 4 、合成多相滤波器的结构和处理过程- ,( 2 4 ) ( 2 6 ) ( 2 7 ) 图 3 1 】、i m d c t 的变换图( 2 7 ) 图 3 2 、使用( 2 ) 式实现i m d c t 图 3 3 、使用( 3 ) 式实现i m d c t 图 3 - 4 、图3 - 3 的理论实现 ( 3 5 ) ”( 36 ) ( 37 ) 图 3 5 】、m a t l a b 界面图 f 3 7 ) 图【3 6 】、s i m u l i n k 窗口示意图( 3 8 ) 图【3 7 】、d s pb u i l d e r 所建立的i m d c t 模型( 3 9 ) 图【3 _ 8 】d s pb u i l d e r 中来实现c o u n t e r 的模型( 3 9 ) 图 3 9 】c o s 秒,。的输出波形图 图【3 1 0 】c 。s 哆彳的输出波形图。 图【3 1 1 】d s p b u i l d e r 的i m d c t 模型的输出结果 图【3 1 2 s i g n a l c o m p i l e r 的展示图” 删 表 1 】、 表 2 】、 表 3 】、 表格清单 三层编码方法的比较。( 2 ) 3 2 个哈夫曼表的特性( 2 1 ) 本算法和文献一种的算法的比 ( 3 6 ) p c m l p c n i c a m m p e g j p e g d f t d c t m d c t i m d c t d s p e n t r o p y c r c a l i a s v l c 脉冲编码调制 现行预测编码 准瞬时压扩音频复用 运动图像专家组 联合图像专家组 离散傅立叶变换 离散预弦变换 改进的离散余弦变换 反向的m d c t 数字信号处理 熵编码 循环容余校验 混淆的信号 可编长编码 符号清单 独创性声明 本人声明所呈交的学位论文是本人在导师指导f 进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得盒墅王、业厶堂 或其他教育机构的学位或证,i 5 而使用过的材 料。与我一同l + 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明井表示谢 意。 学位论文作者签字:签字日期:年 月 日 学位论文版权使用授权书 本学位论文作者完全了解盒b = :些厶堂有关保留、使刚学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁艋,允许论文被查阅或借阅。本人授权盒 壁些叁堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权二悟) 学位论文作者签名导师签名 签字日期:年月日签字日期:年月日 学位论文作者毕业后去向 工作单位: 通讯地址: 电话 邮编 致谢 本论文是在合肥工业大学陈钟鸣高级工程师和合肥工业大学兼职教授、世 宏科技( 苏州) 有限公司总裁、叶兆屏博士的悉心指导下完成的。两位导师学 识渊博、治学严谨,对科学有着浓厚的兴趣。他们平易近人的工作作风和循循 善诱的师长风范,给我留下了深刻的印象,将使我终生受益。感谢两位导师的 支持、培养和无私的教诲! 该课题研究工作是在世宏科技( 苏州) 有限公司完成的。在课题研究期间, 世宏为我提供了良好的软、硬件环境。在日常生活中受到了世宏公司上下员工 的关照,在此向他们表示我由衷的感谢。特别要感谢唐伟经理在我的课题研究 期间给予的帮助! 同时,感谢所有教育和帮助过我的老师,感谢他们在我成长的道路上给予 的教育、培养和关心! 作者:苏祖辉 2 0 0 4 年1 1 月 第一章概述 数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个 几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术 之一,c d 、v c d 等早已走进千家万户,数字化广播正在全球范围内逐步得到开 展,数字音频压缩技术也得到越来越来广泛的应用。 1 、音频压缩技术的出现及早期应用 音频压缩技术指的是对原始数字音频信号流( p c m 编码) 运用适当的数字 信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低( 压 缩) 其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或译 码。数字信号的优势是显两易见的,面它也有自身相应的缺点,即存储容量需 求的增加及传输时信道容量要求的增加。以c d 为例,其采样率为4 4 1 k h z ,量 化精度为1 6 比特,则1 分钟的立体声音频信号需占约1 0 m 字节的存储容量,也 就是说,张c d 唱盘的容量只有1 小时左右。当然,在带宽高得多的数字视频 领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢? 研究发现, 直接采用p c m 码流进行存储和传输存在非常大的冗余度。事实上,在无损的条 件下对声音至少可进行4 :1 压缩,即只用2 5 的数字量保留所有的信息,而 在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术 从一出现便受到广泛的重视。 对音频压缩技术的研究和应用由来已久,如a 律、u 律编码就是简单的准 瞬时压扩技术,并在i s d n 话音传输中得到应用。对语音信号的研究发展较早, 也较为成熟,并已得到广泛应用,如自适应差分p c m ( a d p c m ) 、线性预测编码 ( l p c ) 等技术。在广播领域,n i c a m ( n e a ri n s t a n t a n e o u sc o m d a n d e da u d i o m u l t i p le x 一准瞬时压扩音频复用) 等系统中都使用了音频压缩技术【”。 2 、音频压缩算法的主要分类及典型代表 一般来讲,可以将音频压缩技术分为无损( 1 0 s s l e s s ) 压缩及有损( 1 0 s s y ) 压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、 子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其 算法的复杂程度( 包括时间复杂度和空间复杂度) 、音频质量、算法效率( 即压 缩比例) ,以及编译码延时等都有很大的不同。各种压缩技术的应用场合也因之 而各不相同。 ( 1 ) 时域压缩( 或称为波形编码) 技术是指直接针对音频p c m 码流的样值 进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压 缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小( c d 音质 4 0 0 k b p s ) ,编译码延时最短( 相对其它技术) 。此类压缩技术一般多用于语音 压缩,低码率应用( 源信号带宽小) 的场合。时域压缩技术主要包括g 7 1 1 、 a d p c m 、l p c 、c e l p ,以及在这些技术上发展起来的块压扩技术如n i c a m 、子带 a d p c m ( s b a d p c m ) 技术如g 7 2 1 、g 7 2 2 、a p t x 等。 ( 2 ) 子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码 理论最早是由c r o c h ie r e 等于1 9 7 6 年提出的。其基本思想是将信号分解为若干 子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压 缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据 人对声音信号的感知模型( 心理声学模型) ,通过对信号频谱的分析来决定子带 样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型 ( p e r c e p t u a l ) 压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多, 同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编 码的复杂度要略低于变换编码,编码延时也相对较短。 由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对 信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在 译码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带 分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生 影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也 正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达 到“完全透明”的声音质量( e b u 音质标准) 。 子带压缩技术目前广泛应用于数字符声音节目的存储与制作和数字化广播 中。典型的代表有著名的m p e g 一1 层i 、层i i ( m u s i c a m ) ,以及用于p h i l i p sd c c 中的p a s c ( p r e c i s i o na d a p t i v es u b b a n dc o d i n g ,精确白适应子带编码) 等。 ( 3 ) 变换压缩技术与子带压缩技术的不同之处在于该技术对段音频资 料进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信 号分解为几个子频段。通常使用的变换有d f t 、d c t ( 离散余弦变换) 、m d c t 等。 根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量 获得显着改善,而相应付出的代价则是计算复杂度的提高。 变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音 质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在 许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的 变换压缩编码技术有d 0 1 b y a c 一2 、a t t 的a s p e c ( a u d i os p e c t r a l p e r c e p t u a l e n t r o p yc o d i n g ) 、p a c ( p e r c e p t u a l a u d i o c o d e r ) 等。 2 3 、音频压缩技术的标准化和m p b 争1 由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些 著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频 压缩技术的标准化工作就显得十分重要。c c i t t ( 现i t u t ) 在语音信号压缩的 标准化方面做了大量的工作,制订了如g 7 1 1 、g 7 2 1 、g 7 2 8 等标准,并逐渐 受到业界的认同。在音频压缩标准化方面取得巨大成功的是m p e g 一1 音频 表l 三层编码方法的比较 立体声信号所对应 层次算法压缩率的比特率( k b p s ) im u s 工c a m4 :13 8 4 2m u s i c a m6 :1 8 :12 5 6 1 9 2 3a s p e c1 0 :1 。1 2 :11 2 8 1 1 2 崔 m u s i c a m ( m a s k i n gp a t t e r na d a p t e d u n i v e r s a ls u b b a n di n t e g r a t e d c o d i n ga n dm u l t i p l e x i n g ) 自适应声音掩蔽特性的通用子带综合编码 和复合技术”l 。 膏a s p e c(a d a p t i v e s p e c t r a lp e r c e p t u a le n t r o p yc o d i n go fh ig h q u a l i t ym u s ic a ls i g n a l ) 高质量音乐信号自适应谱感知熵编码l “。 ( i s 0 i e c l l l7 2 3 ) 。在m p e g 一1 中,对音频压缩规定了三种模式,即层i 、层 i i ( 即m u s i c a m ,又称m p 2 ) ,层i i i ( 又称m p 3 ) 。由于在制订标准时对许多压缩 技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性( 复杂 度) ,因而三种模式都得到了广泛的应用。v c d 中使用的音频压缩方案就是 忡e g 一1 层i 5 】;而m u s i c a m 由于其适当的复杂程度和优秀的声音质量,在数字 演播室、d a b 、d v b 等数字符节目的制作、交换、存储、传送中得到广泛应用; m p 3 是在综合m u s i c a m 和a s p e c 的优点的基础上提出的混合压缩技术,在当时 的技术条件下,m p 3 的复杂度显得相对较高,编码不利于实时,但由于m p 3 在 低码率条件下高水平的声音质量,使得它成为软解压及网络广播的宠儿。可以 说,m p e g 一1 音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面 将要谈到的m p e g 一2 和m p e g 一4 音频标准的制订。 4 、最新进展 1 ) 、多声道音频信号压缩与d 0 1 b y a c 一3 随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满 足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术 得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。更 准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着 这种形式发展起来的些数字压缩标准上。环绕声技术发展至今已相当成熟, 已日渐成为未来声音形式的主流。有鉴于此,1 9 9 2 年c c i r ( i t u r ) 以建议的 形式约定了多声道声音系统的结构及向下兼容变换的标准,即c c i r r e c o 帅e n d a t i o n7 7 5 。其中主要约定了大家熟知的5 1 声道形式及7 1 声道形 式,而在对环绕声压缩的研究上也产生了许多专利技术,如 d 0 1 b y s u r r o u n d p r o l o g i c 、t h x 、d o l b y a c 一3 、d t s 及m p e g 一2 等。这些技术在不 同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视( h d t v ) 等系统中得到广泛的应用。 ( 1 ) d o l b ya c 一3 技术是由美国杜比实验室主要针对环绕声开发的一种音频 压缩技术。在5 1 声道的条件下,可将码率压缩至3 8 4 k b p s ,压缩比约为l o :l 。 d o l b ya c 一3 最初是针对影院系统开发的,但目前己成为应用最为广泛的环绕声 压缩技术之一。d 0 1 b ya c 一3 是一静感知型压缩编码技术,音频输入以音频块为 单位,块长度为5 12 个样值,在4 8 k h z 采样率时即为1 0 6 6 毫秒,各声道单独 处理:音频输入在经过3 h z 高通滤波器去除直流成分后,通过另一高频带通滤 波器以检测信号的瞬变情况,并用它来控制t d a c 变换的长度,以期在频域分辨 率和时域分辨率之间得到最好的折中效果;t d a c 变换的长度一般为5 1 2 点,而 数据块之间的重迭长度为2 5 6 点,即t d a c 每5 3 3 毫秒进行一次;在瞬变条件 下,t d a c 长度被等分为2 5 6 点,这样d 0 1 b y a c 3 的频域分辨率为9 3 7 5 h z ,时 域最小分辨率为2 6 7 毫秒;在图l 中的定点浮点转换类似于m p e g 一1 中比例因 子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码 后则构成了整个信号大致的频谱,又被称为频谱包络:比特分配主要是通过计 算译码后的频谱包络( 视为功率谱密度) 和掩蔽曲线的相关性来进行的;由于 比特分配中采用了前后向混合自适应比特分配以及公共比特池等技术,因而可 使有限的码率在各声道之间、不同的频率分量之间获得合理的分配:在对尾数 的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不 同的平台上获得相同的结果:a c 一3 的帧结构由同步字、c r c 、同步信息( s i ) 、 码流信息( b s i ) 、音频块和附加资料等组成,帧长度与t d a c 变换的长度有关, 在长度为5 1 2 点时,帧长为3 2 毫秒,即每秒3 1 2 5 帧。 通过以上叙述可见,在d o l b ya c 一3 中,使用了许多先进的、行之有效的 压缩技术。如前后向混合自适应比特分配、公共比特池、t d a c 滤波、频谱包 络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的 多声道环绕声压缩技术的发展都产生了一定的影响。 可以说,a c 一3 的出现是杜比公司几十年来在声音降噪及编码技术方面的结 晶( 从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术) ,在技 术上它具有很强的优势。因而即使作为一项专利技术,d o l b y a c 一3 仍然在影院 4 系统、h d t v 、消费类电子产品( 如l d 、d v d ) 及直播卫星等方面获得了广泛的 应用,得到了众多厂商的支持,成为业界事实上的标准。 ( 2 ) m p e g 一2 b c ( 后向兼容方式) ,即i s o i e c l 3 8 1 8 3 ,是另一种多声道环 绕声音频压缩技术。早在1 9 9 2 年初,该方面的讨论工作便已初步开展,并于 9 4 年1 1 月正式获得通过。m p e g 一2 b c 主要是在m p e g 一1 和c c i r r e c 7 7 5 的基础上 发展起来的。与m p e g l 相比较,m p e g 一2 b c 主要在两方面做了重大改进。一是 支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛 解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与m p e g l 的第 1 和第2 层做到前、后向兼容,并可依据c c i r r e c 7 7 5 做到与双声道、单声道 形式的向下兼容,还能够与d o l b ys u r r o u n d 形式兼容。 在m p e g 一2 b c 中,由于考虑到其前、后向兼容性以及环绕声音形式的新特 点,在压缩算法中除承袭了m p e g 一1 的绝大部分技术外,为在低码率条件下进一 步提高声音质量,还采用了多种新技术。如动态传输信道切换、动态串音、自 适应多声道预测、中央声道部分编码( p h a n t o mc o d i n go fc e n t e r ) 、预编码 ( p r e d i s t o r t i o n ) 等。 然而,m p e g 一2 b c 的发展和应用并不如m p e g l 那样一帆风顺。通过对一些 相关论文的比较可以发现,m p e g 一2 b c 的编码框图在标准化过程中发生了重大的 变化,上述的许多新技术都是在后期引入的。事实上,正是与m p e g l 的前、后 向兼容性成为m p e g 一2 b c 最大的弱点,使得m p e g 一2 b c 不得不以牺牲码率的代价 来换取较好的声音质量。一般情况下,m p e g 一2 b c 需6 4 0 k b p s 以上的码率才能基 本达到e b u “无法区分”声音质量要求。由于m p e g 一2 b c 标准化的进程过快,其 算法自身仍存在一些缺陷。这一切都成为m p e g 一2 b c 在世界范围内得到广泛应用 的障碍。 ( 3 ) d v d ( d i g i t a i v e r s a t i l e d is k ) 是新一代的多媒体资料存储和交换的 标准。在视频d v d 的伴音方式及音频d v d 的声音格式选择上,a c 一3 和m p e g 一2 b c 之间的争夺十分激烈,最后达成协议。可见,多声道环绕声音频压缩技术标准 亟待统一。 5 、研究的出发点 人们对音频和语音的研究已经有几十年的历史了,但是自从 l p e g l 协议 建立以来人们在音频的研究上基本上都是按照m p e g a u d i o 的架构来进行编译 码,只是在前期处理和后期的效果处理上不断提高。前期,为了提高信号传输 的速度、减少资料的传输总量,一直在追求更低的采样频率:而在后期的处理 上,为了能更好的还原原来的信号,人们总是尽量的模拟播音现场的情形,所 以在立体声处理上会越来越复杂。可是中间的编译码部分则是基本上不变的, 所以本文就是要对这一部分的一个重要环节i m d c t 来进行研究,以提高性能m p 3 的性能。 6 、引言 本文共分为五个部分。第一章就是概述,第二章介绍的是m p e g 一1l a y e r 一3 的编译码标准,包括一些原理和功能;第三章介绍的是详细的译码过程,包 括译码的各部分的流程和实现途径;第四章讲的是i m d c t 的算法选择和实现: 第五章是总结和对未来工作的考虑。 6 1 概述 第二章m p e g ,a u d i ol a y e r3c o d i n g m p e g 一1 标准是从i s o ( i n t e r n a t i o n a lo r g a n i z a t i o no fs t a n d a r d ) 的 m p e g ( m o t i o np jc t u r e s 队p e r tg r o u p ) 中发展过来的,它包括音频( a u d i o ) 和视 频( v i d e o ) 两部分,编码的波特率在1 2 m b i t s 范围内,标准中为音频数据定 义了三个明显层次( 系统) 的编码,第三层是其中效率最高的,而且成为了实际 应用的算法,它的音质可以接近c d 的效果,这里我们讲的都是m p e g 一1 的第三 层的标准,也就是常说的:m p 3 。 在这一部分中,我们将描述m p e g a u d i ol a y e r 3c o d i n g 标准中的基本原理 和算法。m p e g a u d i ol a y e r 3 之所以可以在无听觉失真的情况下能够对数字音 频信号进行有效压缩是因为它采用了“量化( q u a n t i z a t i o n ) ”和“熵编码 ( e n t r o p yc o d i n g ) ”技术,量化利用人的听觉系统的感知属性可以去除音频信 号中的无关部分,去除无关部分是不会引起听觉失真的。熵编码是一种无损编 码,它把音频信号的量化值编码具有最小熵的代码,从而可以满足压缩且不会 引起音质的下降。这两种技术也广泛用于其它压缩标准中,如:图象( j p e g ) 和 视频( h 2 6 3 ) 压缩。 2 1 部分将介绍m p e g a u d i ol a y e r 3 编码标准和算法,2 2 介绍的是解码 过程。 2 m p e g ,a u d i ol a y e r 3 编码算法 在这一部分中,将按照m p e g a u d i ol a y e r 3 编码器每一部分的的功能来介 绍,编码过程的处理是基于图2 一l 的模块图来进行的,输入的音频信号来自于 一个单声道的p c m ( 脉冲编码调制) 信号,它首先通过一个多项滤波器,该滤波 器把输入信号分为3 2 个大小相等的子带。这时每一个子带内的样本仍然处于时 域,然后经过m d c t ( m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) 就可以把每一个 子带的样本映像到频域,m d c t 在执行时采用动态的加窗,并且具有5 0 的重迭。 同时,经过ff 1 、( f a s tf o u r i e rt r a n s f o r m ) 变换的输入信号通过一个心理声学 模型,该模型用来决定每一频率的掩蔽阈,该掩蔽闽将应用在量化中,以决定 需要多少个b i t 来编码每一个样本,同时它还可以决定m d c t 模块中添加了 w i n d o ws w i t c h i n g 。量化模块是根据心理声学模型提供的掩蔽闽值来进行编 码,从而可以使量化噪声为听不到,同时编码器还会要求一定的波特率;哈夫 曼编码就是把量化的样本进行哈夫曼编码,然后把所有的比例因子和s i d e 7 i n f o r m a t i o n 按照一定的格式存放在码流中,也就是b i t s t r e a mf o r m a t i n gc r c w o r dg e n e r a t i o n 模块。最后编码器的输出数据率为6 4 k b p s ,主要应用在i s d n 上的声音传输,编码后的数据流支持循环冗余校验c r c ( c y c l i cr e d u n d a n c y c h e c k ) ,同时m p e g 声音标准还支持在数据流中添加附加信息。 下面的一部分,我们将对解码器的每一个模块所需要的操作和功能进行详 细的介绍。 d 螗岫 l 蜘 嘲i i | l c m ) e o d e d u 曲s u 朋l 图2 一lm p e g a u d i ol a y e r 一3 编码器模块图 2 1 分析多项滤波器组( a n a l y s i sp o l y p h a s ef i i l e rb a n k ) 在编码器的第一个部分就是把音频信号送到一个滤波器组滤波处理,分析 多项滤波器组把音频信号分为3 2 个频宽相等的予带( s u b b a n d ) ,并以很好的 时间分辨率和合理的频率分辨率对子带进行抽样,抽取的结果在在子带样本的 总体数目上等于源信号,但也会引入一些伪信号m 】。 在每一帧中包含有1 1 5 2 个p c m 音频样本,它们经过滤波后每个子带将包 含有3 6 个子带样本下面的公式就来自于滤波器组的输出: 6 37 跗】_ m ”( c 七+ 6 4 】虹七+ 6 4 皿 ( 2 1 ) i o ,一0 式中:f 表示的子带的索引,取值范围为0 到3 1 ; f 】表示的是子带f 在时间t 的滤波输出结果; t 表示的是3 2 个音频样本采样的间隔的整数倍; c n 表示的是标准中定义的分析窗口的5 1 2 个系数之一; x 以】表示的是从5 1 2 个样本b u f f e r 中读取的输入样本: 肘【f 】【明:。芦! 塑之譬二堕生三】是分析矩阵的系数; 为了更好的,更容易的分析,把等式( 2 ( 2 2 ) : 5 i l 叫f = 埘卜h + 觑 ” 1 ) 变形处理为一个可以理解的公式 式中: ”o x f 】是在时间r 时采样的样本; 删叫小c o s 攀业竽 ( 2 2 ) 其中矗【h 】= 一c 【n 】,当n 6 4 的整数部分是奇数时; = c m ,其它,n = o 到5 1 1 系数厅 丹】是多项滤波器的低通滤波原型,如图2 2 所示。原型滤波h n 通 过余弦规则1 1 6 i k 调制后,结果可以达到滤波迁移。很明显,h i n 是可以把 低通转换到合适的频带的滤波器组,因此它们被称为“多相”滤波器组。这种 滤波器在石“6 4 丁) 的奇数倍处有一个中心频率,带宽为万( 3 2 7 t ) ,t 表示的为样 本的采样周期。例如:样本的采样周期为3 1 2 5 m s ( 3 2 k h z 的采样频率) ,那么多 相滤波器的的中心频率为2 5 0 h z ,带宽为5 0 0 h z ,如图2 3 所示。 图2 2 多相滤波器的低通原型h 玎】 在图2 3 中,相邻的多相滤波器的重迭对音频压缩是有害的,因为在这种 重迭和抽取中会引入伪信号1 7 j 。在两个多相滤波器相邻的部分,一些微小的信 号频率会在两个滤波器中产生输出结果。图2 4 表示的是一个位于子带边沿的 正弦纯音,它出现在两个滤波器的输出中,这个缺点可以在后面通过一串蝶形 变换和编码解码部分的合适的分析合成滤波器组设计来去除口l 。 多相滤波器的输出的每一个子带样本仍然处于时域,下一步将进行m d c t 块处理,从而可以把样本从时域转换到频域,图2 5 展示了分析多相滤波器和 它的详细过程。 图2 3 多相滤波器的频率响应 9 罨 畸 鼍 卫 昌 o u 【p e b mp i e s 图2 4 正弦的输入纯音信号可以在两个子带上产生输出 3 2 m 目b n : 。liliiljjl s l 。i 1ilijl4 s 匿+ 百+ 弘一雠唪口:+ 口+ 口+ + 口t 口i 一辱 一 o 舒 一几4 型u3 l 幽 图2 5 分析多相滤波器的模块图和处理过程 多相滤波器把输入信号变换到3 2 个子带中,子带的划分有两种方法,一种 口i 是线性划分,一种是非线性划分。如果把声音频带划分为带宽相等的子带,这 种划分就不能精确的反映人耳的听觉特性,因为人耳的听觉特性是以“临界频 带”来划分的,在一个临界频带内,很多心理声学特性都是一样的。图2 6 是 对多相滤波器组的带宽和临界频带的带宽做了比较。从图中可以看到,在低频 区域,一个子带可以覆盖好几个临界频带,在这种情况下,某个子带中量化器 的位分配就不能根据每个临界频带的掩蔽阈值进行分配,而要以其中最低的掩 蔽阙值为准。 。群帕斜 c t i = b f dw - 舯* 图2 6 滤波器组的带宽和临界频带带宽的比较 2 2 改进离散余弦变换和伪信号消除( m d c ta n da 1 i a sr e d u c t i o n ) 改进的离散余弦变换( m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) 在这一过程中,3 2 个子带将都被映像到m d c t l 9 1 中,从而实现时域到频域的 转换,执行这种变换将在每一个子带中增加一个频率分辨率,公式( 2 3 ) 表示的 就是m d c t 的变换公式: ,一1 一 一 x ,= 磊c o s ( 2 | 】 + 1 + 詈) ( 2 f + 1 ”,f o r f 2o 号一l ( 2 3 ) 0 - 在计算m d c t 之前,四种类型的窗函数将应用在子带样本上。m p e g a u d i o l a y e r 一3 标准规定了两种不同类型的m d c t 模块的长度:长块( l o n gb l o c k ) 为1 8 个样本和短块( s h o r tb 1 0 c k ) 为6 个样本,加窗是采用的是长窗还是短窗是由每 一个子带的动态变化决定的。如果子带样本在给定的子带内比较平稳,那么就 会采用n o r m a l 类型的窗,一个长窗( t y p eo ) ;如果子带样本包含有瞬态变化, 那么加的就是一个s h o r t 类型的窗( t y p e2 ) ,它可以细分子带样本的输出,以 提高频率分辨率。两种类型的窗口之间是可以转化的这种转换机理可以防止前 回声现象的出现,具体我们将会在后面详细介绍;另外两种分别用来处理 l o n g t o s h o r t 和s h o r t t o 一1 0 n g 转化的窗分别称为s t a r tw i n d o w ( 开始窗, t y p e1 ) 和s t o pw i n d o w ( 停止窗,t y p e3 ) 。需要注意的是,s h o r t 类型的窗的 长度是1 0 n g 类型的窗的1 3 。在s h o r tb l o c k 模式下,三个s h o r tb l o c k 代替 一个1 0 n gb l o c k ,这样一帧的m d c t 的样本数于b l o c k 的大小是无关的,不变 的。对于一个给定的帧的样本,m d c t 可以都是用1 0 n g ( s h o r t ) b l o c k ,也可以 采用m i x _ b l o c k 模式,在m i x _ b l o c k 模式下,m d c t 在前两个低频子带上加的是 l o n gw i n d o w 而在后面的3 0 个较高频率的子带上加的是s h o r tw i n d o w ,这种 模式可以给低频提供较高的频率分辨率, b i o c l t 1 y p e = 0 s u b b a n ds a md l en u m b e r b b :k y 浒。2 同时不会影响高频部分的时间分辨率。 h a c h y p e = 1 s u b b 日n ds a m d i en u r n b e r b l d c k y p g = 3 s u b b 日n d3 a m 口l en u m b e rs u b b a n d $ a m 口l en u m b e r 图2 7 所加的四种窗函数的形状 具体的窗函数如下所示,它们的波形见图2 7 : a )b l o c k t y p e = 0( 1 0 n gw i n d o w ) z i _ x is i n 凭( i + ) ) f o r - o t o3 5 b )b l o c k t y p e = 1( s t a r tw i n d o w ) ks i n 任( i + ) ) 弓= :s ;n ( 最( ;一,8 + ) ) 0 f o r - 0 t o1 7 f o r _ - 1 8 t 0 2 3 f o r _ 2 4 t o2 9 f o r - 3 0 t o3 5 c )b l o c k t y p e = 3( s t o pw i n d o w ) z= 0 x 。s i n e ( i 一6 + ) ) x i x 。s i n 焦(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论