(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf_第1页
(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf_第2页
(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf_第3页
(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf_第4页
(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(农业机械化工程专业论文)mpeg2+aac音频编解码的研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 m p e g 2a a c 是目前最先进的数字音频压缩算法之一,在数字音频的存储和传 输中有广泛的应用。与以往的m p e g 1 伴音编码相比,该算法具有压缩质量更高,配 置更为灵活等特点,但同时存在计算复杂度较高,实时性较差的特点,因此基于 m p e g 2a a c 的实时压缩技术的研究已经成为。个热点问题。 文章首先介绍了音频编码技术的发展情况和音频编解码技术的基本原理,对 m p e g 一2a a c 标准的框架和各个模块的算法进行了研究和分析。在对m p e g 2a a c 算法模型进行分析之后,对心理声学模型,滤波器组和量化编码模块等计算量较大的 模块进行优化,同时也省略了部分运算量大但对编码效果增益不明显的几个模块,如 时域预测和t n s 等,并使用了一些陕速计算技术对算法模型进行实时化改造。由于 m p e g - 2a a c 编码的复杂度要远远大于解码,为了便于系统验证,本文对复杂度较 低的解码部分,在w i n d o w s 平台下,用v c + 十6 0 对m p e g 一2a a c 的解码嚣进行 软件实现;而对复杂度较高的编码部分,为了满足系统的实时性和性价比要求,本文 采用数字信号处理器t m s 3 2 0 c 5 4 xd s p 芯片作为编码主控芯片,成功在d s p 上实现 了,经过本文改造m p e g 2a a c 后的编码。 基于改造后的算法,基本上实现了m p e g 2a a c ( l cp r o f i l e ) 的立体声软件编 解码。经过反复调试和修改,试验结果表明,不仅运算速度大大提升,而且很好的保 证了压缩后的音频质量,该算法是一种适合提高数字音频压缩算法实时性的有效算 法。 论文对m p e g 一2a a c 编解码系统实现过程中采用的一些重要的技术进行了阐 述,包括a a c 算法的定点化、查表法的应用以及所采用的c 程序和汇编程序内嵌调 用、使用d m a 等程序优化技术。f 是由于m p e g 一2a a c 编码是种复杂的运算, 它需要使用大量的数据和程序存储空间。如何尽量压缩它的数据和程序占用的存储空 间,以使编码能在d s p 上实现,成为一个必须考虑的问题。一个良好的程序结构对 节省数据存储空问和加快算法运算速度也有着极其重要的作用。因此,为了提高编解 码的实时性,必须采用查表法、混合法和使用d m a 等方法,以提高对指数和对数等 非线性计算过程的计算速度。 关键字:音频编码,心理声学模型,a a c ,滤波器组,m d c t a b s t r a c t a so n eo ft h em o s ta d v a n c e ds t a n d a r d so fd i g i t a la u d i oc o m p r e s s i o n ,m p e g - 2a a c h a sb e e na p p l i e dw i d e l yi nt h et r a n s m i s s i o na n ds t o r a g eo fd i g i t a la u d i os i g n a l c o m p a r e d w i t hm p e g ia u d i oc o d i n g ,i th a sb e t t e ra u d i oc o m p r e s s i o nq u a l i t ya n dm o r ef l e x i b l e c o n f i g u r a t i o nb e s i d ei t sc o m p l i c a t e dc o m p u t a t i o na n db a dr e a lt i m ef e a t u r e t h e r e f o r e , r e s e a r c ho nr e a lt i m ec o m p r e s s i o nt e c h n o l o g yb a s eo nm p e g 一2a a ch a sb e c o m eah o t r e s e a r c ha r e a t h et h e s i si n t r o d u c e st h ed e v e l o p m e n ta n dt h ef u n d a m e n t a lp r i n c i p l eo fa u d i oc o d i n g t e c h n o l o g y i ts t u d i e sa n da n a l y z e st h es t a n d a r df u n c t i o nb l o c k so fm p e g - 2a a ca n d t h ea l g o r i t h mo fe a c hf u n c t i o nb l o c k a f t e rt h ea n a l y s i so ft h ea l g o d t h r n sm o d e lo f m p e g - 2a a c ,t h et h e s i so p t i m i z e ss o m eb l o c k sw i t hg r e a tc o m p u t a t i o no fp s y c h o a c o u s t i c m o d e l ,f i l t e rb a n k sa n dq u a n t i z a t i o nc o d i n g ,e t c i to m i t ss o m ef u n c t i o nb l o c k sw h i c h h a v em u c hc o m p u t a t i o na n da v a i ll i t t l et ot h eg a i no fc o d i n g ,f o re x a m p l e ,p r e d i c t i o ni n t i m ed o m a i n , t n s ,e t c i ta l s oa d o p t ss o m ef a s ta l g o r i t h m st or e c o n s t r u c ts o m em o d e lf o r t h er e a s o no fr e a lt i m ec h a r a c t e r i s t i c b e c a u s et h ec o m p l e x i t yo fe n c o d i n gi sg r e a t e rt h a n d e c o d i n ga sf o rm p e g 2a a c ,t h et h e s i sh s e sv c + + 6 0t oi m p l e m e n tas o f t w a r ed e c o d e r o fm p e o 一2a a cl cp r o f i l et o t e s t i f yt h es y s t e m a sf o rt h ee n c o d i n gp a r tw i t hg r e a t e r c o m p l e x i t y , t a k i n gt h es y s t e m sr e a lt i m ef e a t u r ea n dt h ed e m a n do fp e r f o r m a n c e - p r i c e r a t i oi n t oa c c o u n t e d 。t h et h e s i sa d o p t sd i g i t a ls i g n a lp r o c e s s o rt m $ 3 2 0 c 5 4 xd s pa sm a i n c o n t r o lc h i pt oi m p l e m e n tt h eo p t i m i z e dc o d i n ga l g o r i t h m so fm p e g 一2a a c t h eo p t i m i z e da l g o r i t h m si m p l e m e n tt h ee n c o d i n ga n dd e c o d i n go fm p e g 一2a a c l c p r o f i l e s t e r e oa u d i o b a s i c a l l y a f t e rr e p e a t e d l yd e b u g g i n ga n dm o d i f i c a t i o n , e x p e r i m e n t a t i o nr e s u l ts h o w st h a tn o to n l yt h ec o m p u t i n gs p e e di si m p r o v e db u ta l s ot h e q u a l i t yo fc o m p r e s s e da u d i oi sw e l le n s u r e d t h ea l g o r i t h mi sa ne f f e c t i v eo n ew h i c hi s s u i t a b l ef o ri m p r o v et h er e a lt i m ef e a t u r eo ft h ea u d i oc o m p r e s s i o na l g o r i t h m s t h et h e s i s g i v e sd e t a i l st os o m ei m p o r t a n tt e c h n i q u e su s e di nt h ep r o c e s so f i m p l e m e n t a t i o no ft h em p e g 一2a a ce n c o d i n ga n dd e c o d i n gs y s t e m ,i n c l u d i n gp o i n t f i x i n go fa a c ,a p p l i c a t i o no ft a b l ec o n s u l t a t i o n ,c o m p i l i n gl a n g u a g ee m b e d si nc l a n g u a g ep r o g r a m m ea n dd m au s i n g ,e t c b e c a u s em p e g 2a a cc o d i n gi n v o l v e s c o m p l i c a t e dc o m p u t a t i o n ,i tn e e d sal a r g es t o r a g es p a c eo fd a t aa n dp r o g r a m m e w eh a v e t op a ya t t e n t i o nt ot h ep r o b l e mh o wt or e d u c et h es t o r a g es p a c eo f t h ed a t aa n dp r o g r a m m e s oa st oi m p l e m e n ti to nad s p ag o o dp r o g r a m m es t r u c f u r ei ss i g n i f i c a n ti ns a v i n gd a t a s t o r a g es p a c ea n ds p e e d i n gu pt h ec o m p u t a t i o n t h e r e f o r e ,i no r d e rt oi m p r o v et h er e a l t i m ef e a t u r eo fe n c o d i n ga n dd e c o d i n g , w eh a v et oa d o p tt h e s et e c h n i q u e st os p e e du pt h e c o m p u t a t i o no f s o m en o n l i n e a rp r o c e s s ,s u c ha se x p o n e n ta n dl o g a r i t h m , k e y w o r d s :a u d i oe n c o d i n g ,p s y c h o a c o u s t i cm o d e l ,a a c ,f i l t e rb a n k s ,m d c t 插图目录 图卜i 响度等高线5 图卜2 纯音( 从1 0 0 毫秒到3 0 0 毫秒) 的掩蔽曲线5 图i - 3 音频频域掩蔽效应6 图卜4 感知音频编码的结构框图6 图卜5 多相滤波器组的分析和重建7 图卜6t d a c 变换概念示意图8 图1 7 音频采集和播放系统“l o 图2 一lm p e g 。2a a c 编码器框图1 1 图2 2m p e g 2a a c 解码器框图1 2 图2 3 掩蔽闽值和s m r 1 5 图2 - 4 使用k b d 密和正弦窗的变换滤波器组的频率选择牲一吧z 图2 5 窗口切换示例- - 2 3 图2 - 6 稳态条件和瞬态条件时窗口叠加处理的比较2 4 图2 7 预回声的产生- 2 5 图2 - 8a a c 中一个比例系数频段的预测单元框图2 6 图2 - 9 比特分配的内层循环3 1 图2 1 0 比特分配的外层循环一3 l 图3 一i 三级流水线操作一3 4 图3 2t m s 3 2 0 系列d s p 的发展一3 7 图3 3t m s 3 2 0 c 5 4 x 的硬件结构- ”3 8 图3 - 4c c s 开发平台4 0 图3 5d s p 系统设计的一般过程- 4 l 图4 1m p e g 2a a c 低复杂度编码框架4 3 图4 2 算法定点化流程4 5 圉4 3 自然对数混台法实现怕 图4 - 43 2 1 6 位有符号数乘法4 7 图4 5 数据流处理过程5 1 图4 - 6 优化后的内层迭代循环5 3 图4 7 优化后的外层迭代循环5 5 图4 8 播放与解码线程5 9 v 列表目录 表卜l 未经压缩的数字化信息的举例l 表2 一l 临晃频带1 4 表3 - l 世界上主要供应商的代表芯片3 6 表4 1 频谱霍夫曼码书8 5 5 表4 2 霍夫曼码书5 6 表4 - 3 霍夫曼码书码字个数和最大值占用比特数5 6 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。也不包含为获得安徽农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示了谢意。 研究生签名 翔堑壅 时间: 支一,年t , 9 ,j 日 关于论文使用授权的说明 本人完全了解安徽农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意安徽农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 研究生签名邂丛 时间:矗h 于年1 9 ,娟 带一导师签名:丕燃 时间: 鄹年占月j ,日 1 绪论 1 1 选题意义 2 l 世纪的人类社会将是信息化社会,数字化是这个信息社会的一大显著特征。在 社会的数字化过程中,数字化后的多媒体信息,尤其是数字化后的视频和音频信息具 有数据海量性,它给存储器的存储容量、通信干线的信道传输率以及计算机的速度都 增加了极大的压力,给信息的存储和传输造成较大的困难,成为阻碍人类有效地获取 和使用信息的瓶颈问题之一。解决这一问题的办法,若单纯从扩大存储器容量、增加 通信干线的传输速率考虑是不现实的,所以如何减少处理和传输的数掂量就成为一个 关键的技术问题。相应,作为人类可以直接感知的多媒体信息主要部分的音频和视频 信息也就成为信号处理领域的主要研究内容。 表卜1未经压缩的数字化信息的举例 t a b 1 一ie x a m p l ef o ru n c o m p r e s s e dd i g i t a ld a t a 数字技术带来了音频领域的快速发展,c d 技术则相应成为了音频技术发展的基 石。我们知道,c d 的数据格式是1 6 位的p c m 编码,一张立体声c d 的码率约为 1 4 1 m b s ,容量为6 5 0 m b 的c d r o m 只能存放1 5 首左右的歌曲,仍然是不尽人意的。 由此可见,音频压缩编码是必要的。 对多媒体信号的分析可以发现,音频信号等多媒体数掘有极强的相关性,也就是 说有大量的冗余信息。语音中的小幅度样本比大幅度样本出现的概率要高,又由于语 流中必然会有间隙,出现了大量的低电平样本,语音信号取样值的幅度分布是非常不 均匀的。因此,如直接用采样数据表示,信息有较多的冗余。此外,人的听觉具有掩 蔽效应,人耳对不同频段声音的敏感程度不同,对低频段较之高频段更敏感,对语音 信号的相位变化不敏感。不妨把人耳听不到或感知极不灵敏的声音分量都视为冗余的。 由此可见,多媒体数据压缩不仅是必要的而且是可能的。采甩适当的数据压缩技 术是个行之有效的方法,通过数据压缩手段减少信息数据量,将信息以压缩形式存储 和传输,既节约了存储空间,又提高了通信干线的传输效率。 m p e g 一2a a c 为低码率高质量音频压缩领域提供了很好的方案,它是目前正在丌 发和推广的m p e g 一4 音频压缩技术的核心。a a c 解码比编码简单得多,这使a a c 特别 适合于数字音频广播、数字音频存储等应用。美国、日本、欧洲等国家和地区正在推 出基于a a c 技术的数字卫星广播,因此研究a a c 技术,尤其是研究m p e g 2a a c 的 实时实现对我国有着重大的现实意义。 1 2 选题背景 随着多媒体技术的广泛应用,各国、各大公司竞相开发数字音频信号的压缩编码 技术。在音频信号压缩标准未出现之前,i s o i t u - t ( 国际标准化组织国际电信同盟) 技术委员会就制定了j p e g ( j o i n tp h o t o g r a p h i ce x p e r t sg r o u p ) 标准,它是一个针对静 止图像处理的国际标准:接着c c i t t ( 国际电报电话咨询委员会) 又制定了用于电视 电话、会议电视图像压缩的多媒体视频通信标准h 。2 6 1 和h 。2 6 3 。他们都是针对视频 信号所制定的标准,那么如何把计算机系统和广播电视结合起来建立个统一的信息 网络,这就是要求人们制定一个图像、伴音、存储和传输4 个方面都统一的标准,从 而利于各种媒体广泛交流。由此,著名的m p e g ( m o v i n gp i c t u r e se x p e r t sg r o u p ,运动 图像专家组) 标准便应运而生了。除此之外,还有其他公司及组织研制的一些压缩技 术应用的也较广泛,如:杜比数字d o l b y d i g i t a l ( a c 3 ) 、杜比e ( d o l b y e ) 、g 7 2 3 、 g7 2 9 等。 m p e g 是在i s o ( 国际标准化组织) 和i e c ( 国际电工委员会) 内运作的一个工 作组,即i e c j t c l s c 2 w g l l 工作小组,它组建于1 9 8 8 年,任务时研制视频压缩、 音频压缩以及各种压缩数据流的复合与同步方面的国际标准。他们的工作成果被用于 世界范围内的数字产品生产。自1 9 8 8 年成立以来,m p e g 已经推出了许多重要的标 准,从m p e g 一1 到m p e g 2 l ,将在下面进行介绍。 1 _ 2 1m p e g - 1 标准 m p e g l 于1 9 9 1 年制定完成,编号为i s o i e c1 1 1 7 2 ,这是种介绍如何在存储 介质上存储和重获活动图像和声音的标准。此标准完成的基本任务是:质量适当的图 像和伴音数据必须成为计算机数据的一种,和已有的数据( 如文字、绘图等数据) 在 计算机内兼容,并且这些数据必须在现有的计算机网络和广播电视等通信网络中兼容 传输。m p e g 1 的取样率一般为4 8 k h z ,它的比特流为6 4 1 9 2 k b i t s ( 单声) 或6 4 3 8 4 k b i t s ( 立体声) 。有不同的声音模式:单声道、双声道、立体声和联合立体声。 m p e g 1 适用于不同带宽的设备,如c d r o m 、v i d e o c d 、c d i ,它的应用范 围很广,其中技术最成功的是v c d 产品。v c d 作为价格低廉的影像设备,己经得到 了广泛的应用。m p e g 一1 也被用于数字电话网络上的视频传输。如非对称数字用户线 路( a d s l ) 。视频点播( v o d ) 以及教育网络等。 1 2 2m p e g - 2 标准 m p e g 一2 t l 制定于1 9 9 4 年,编号为i s o i e c1 3 8 1 3 ,其设计的目标是高级工业标 准的图像质量以及更高的传输率,主要针对高清晰度电视( h d t v ) 所需要的视频及 伴音信号的压缩编码。m p e g 2 的传输率在2 m b s 1 0 m b s 之间,它能够提供广播级 的视像和c d 级的音质。m p e g 一2 的音频编码可提供左中右及两个环绕声道以及一个 加重低音声道和多达7 个伴音通道。此外,它可以提供一个较广范围的可变压缩比, 以适应不同的画面质量、存储容量以及带宽的具体要求。 在高低版本标准的兼容问题上,m p e g 2 标准按其是否向后兼容又可分为 m p e g - 2b c ( b a c k w a r dc o m p a t i b l e ,后向兼容) 、m p e g 一2a a c ( a d v a n c e da u d i oc o d i n g 先进音频编码) 。m p e g 2b c 保持对m p e g ,l 音频兼容( 如3 层编码方案) 并进行了扩 充,提高低采样率下的声音质量( 包括1 6 k h z ,2 2 5 k h z ,2 4 k h z ) ,支持5 1 多通道环 绕立体声和多语言技术。但是出于它的码流设计在很大程度上受到后向兼容条件的制 约,在一定程度上影响了它的性能。因此,m p e g 组织又制定了新的音频标准m p e g 2 a a c 。 m f e g 组织在1 9 9 4 年开始制定a a c ,集成了世界各大公司和组织最新的音频编解 码技术。不再与m p e g 1 保持兼容而把重点放在5 1 声道模式3 8 4 k b p s 的条件下,如何 达到最佳音质。1 9 9 7 年4 月,a a c 正式被批准为国际标准( 1 3 8 1 8 7 ) 2 1 。m p e g 2a a c 总结了m p e g 1 、m p e g 2 和a c 一3 等的长处,在m p e g 系统上进一步改进并加入了很 多新的功能,大大增强了编码的灵活度,在保证音质的同时更大限度的压缩了码率。 m p e g 2a a c 已经成为最新的m p e g 4 标准中高质量音频编码的核心吼 m p e g 2a a c 则是真正的第2 代通用音频编码,支持1 _ 4 8 个通道和8 k h z 一9 6 k h z 采样率的编码,能够实现多通道、多语种和多节目编码多声道音频编码,为将来广播 电视业的发展方向。它已被广泛用于数字电视、数字电视广播d v b 、d a b 、d v d 及 下一代电视节目的非线性编辑系统及数字存储中等。 1 2 3m p e g 一3 标准 m p e g 一3 标准设计的初衷主要是针对h d t v ,由于m p e g 2 标准的出色性能表现 已经能够适用于h d t v ,从而原来打算设计的m p e g 3 被取消。 i 2 4m p e g 一4 标准 m p e g 一4 于1 9 9 8 年1 1 月公布,编号为i s o i e c1 4 4 9 6 ,它是一种甚低码率的压 缩编码标准。m p e g 一4 在编码上达到了较高的抽象层次,具备多媒体系统的交互性和 可操作性,支持多种多媒体应用( 主要侧重于对多媒体信息内容的访问) ,数据压缩 率高,最低码率可达到5 6 4 k b p s 。由于采用基于对象的编码技术,m p e g 4 可以使 用很低的数据率。当视频在5 k b i t s 1 0 m b i t s 之间变化时,音频信号可以在2 - - 2 4 k b i t s 之问进行处理。 m p e g 4 主要应用在移动通信和公用电话交换网p s t n ( p u b l i cs w i t c h e d t e l e p h o n e n e t w o r k ) 上,并支持可视电话、电视邮件、电子报纸和其它低数据传输率场台下的 应用。 1 2 5m p e g 一7 标准 m p e g 7 是m p e g 4 的补充,它正式的名称是“多媒体内容描述接口”,其抽象 级别更高用于描述多媒体内容的特征并提供检索工具。m p e g 一7 将对各种不同类型 的多媒体信息进行标准化的描述,并将该描述与所描述的内容相联系,力求能够快速 有效地检索出用户所需的不同类型的多媒体。m p e g 7 可在许多不同的领域中应用, 如数字图书馆、多媒体引导服务、多媒体编辑、地理信息系统、遥感、生物医学、电 视和无线电业务等领域。 1 2 6m p e g 一2 1 标准 m p e g 2 1 标准是m p e g 组织即将制定的一个新的标准。m p e g 2 1 由m p e g 7 发展而来,其名称为:多媒体框架( m u l t i m e d i af r a m e w o r k ) ,它的目的是定义一个能 够包含各类媒体的框架使各类媒体能有机地结合在一起。据透露,m p e g 2 1 标准 主要规定数字节目的网上实时交换协议,它的最终目标是要为多媒体信息的用户提供 透明丽有效的电子交易和使用环境,在未来的电子商务活动中将发挥重要作用。 m p e g - 1 和m p e g 一2 标准已获得产业和服务供应商的广泛支持,并且引起了一场 数字革命。m p e g - 4 作为一个面向交互式媒体的标准,也正在逐步开始应用。目前, m p e g 将研究重点转向了交互性更加高级的形式,如m p e g 7 和m p e g 2 1 等,在未 来的几年早,技术的发展将使这种高级形式成为可能。在现阶段,作为目前正在开发 和推广的m p e g 一4 音频压缩技术核心的m p e g 2a a c ,仍然是低码率高质量音频压 缩领域一个热点。 1 3 音频编解码的基本原理和依据 早期的数字音频压缩技术主要是数字波形编码,这种编码技术以数学意义上的最 接近对信号进行量化和编码。输入和输出信号在波形上的差异是编码设计的基本失真 度量,往往适用于高码率的应用。为了获得更高的压缩比,一种在主观意义上更接近 的、高质量低码率的音频编码技术,丌始成为数字音频压缩技术的主导。这种编码器 对失真的考虑是基于人类对输出信号的有效感知,而不再强调输出信号与输入信号在 波形一f - 的接近程度。我们把这样的编码器称为感知音频编码器( p e r c e p t u a la u d i o c o d e r ) 。目前,感知音频编码技术已经成为音频编码的主流方向。 1 3 1 感知音频编码 m p e g 以及其他许多音频压缩编码都是基于人耳听觉系统的主观感知特点的,人 耳对于声音的感知是在一定的范围之内的。如图1 - 1 所示【4 1 。 响度等高线是使人听起来具有相同响度的曲线。图1 - 1 中最低的根线表示了人 的f 常的听觉闽值,称为绝对听觉闽值。由图可见,对于客观上同等强度的不同频率 信号,听觉感受的强度却不相同。在1 5 k h z 范围内听觉最灵敏。低于绝对听觉闽值 的声音是无法被感知的。最上面的一条曲线称为痛阈,超过此值时将会使人耳感觉到 疼痛。 勺 嶷 强 诅 l j oo 器澎孑 罨姜:一 矿、彤 乡k 、,一 添 :, 基动乡 、,、 n蕊 孑 弋心气r 、一 一, 心摹:形 r 微翠( h z ) 雷卜1 晌度等高线( 纵坐标为声强级d b ) i ? j g1 - ic o n t o u r o f t h e l o u d n z s ;o f s o u n d f y a x i s d e n o t e s t h es o u n d i n t e n s i t y l e v e l s d b ) 此外,在某一频率土高强度声音的存在会抑制附近频率上较弱声音的感知,这种 现象称为掩蔽效应。掩蔽是听觉系统的一个重要特征。掩蔽效应有时闽掩蔽( 异时掩 蔽) 效应和频闽掩蔽( 同时掩蔽) 效应两种。在时阂上掩蔽表现为某一时间上较强的 信号对附近时间发生的信号具有抑制作用。如图卜2 所示【5 】。由图可见听觉系统的时 阂掩蔽分前向掩蔽和螽向掩蔽两种,其中前向掩蔽能力远强于后向掩蔽能力。后向掩 蔽的有效作用时间最多只有5 毫秒左右,而前向掩蔽则可长达2 0 0 毫秒。 受耋 垂; i ; 时剐( m s ) 图1 2 纯音( 从1 0 0 毫秒到3 0 0 毫秒) 的掩蔽曲线 f i g 1 2m a s k i n gc u r v eo f s i n g l es o u n d ( f r o m1 0 0 m st o3 0 0 m s ) 同样存在着频域掩蔽效应,如图l 一3 所示。听觉系统对声音的感知在频域上是非 均匀的,在低频段对频率分辨率比较敏感,而在高频段对时间分辨率比较敏感。所以 在系统中对频带的划分通常是非均匀的。掩蔽信号覆盖一定的范围,在此范围内,当 它的带宽逐渐增大时,掩蔽效果并不随着带宽的增大而改变,直到带宽增 b d ) u 超过某 个值时掩蔽作用减弱,这个带宽穗为临界频带【6 j 。临界带宽的大小是频率的函数,随 着频率的增加而增加,这和人耳频率分辨率的变化是一致的。临界频带有着重要的作 用,子带的划分应尽量符合临界频带,量化和编码也将以划分的子频带为单位进行。 频域掩蔽闽值和量化的计算都是以临界频带的分布为基础f 7 1 。 f k l l z 国1 - :3 音氟额域掩蔽效应 f i g 卜3m a s k i n ge f f e c ti nf r e q u e n c yd o m a i n 根掘感知原理,高质量低码率音频压缩编码的基本原理如图卜4 所示嗍 音频输 圈卜4 慝胡置顿编码的结构框图 f i gl - 4b l o c kd i a g r a mo f p e r c e p t u a la u d i oc o d i n g 心理声学模型根据感知原理计算出掩蔽曲线,即每个感知频带允许引入的噪声, 然后在量化部分对各频带信号进行量化,协调比特数的分配与所允许噪声的关系,最 后编码为比特流1 9 】。 i 。3 2 滤波器组 1 3 2 1 多相正交滤波器组 滤波器组是音频编解码系统的一个重要组成部分。在编码器中,它把输入端的时 域信号转变成系统内部的时间一频率表示形式。在解码器中,这个过程恰恰相反。工 作于频域的感知编码系统一般分为两类:子带编码器和变换编码器。子带编码器的频 率通道数较少,常用于处理时域里的邻近信号:变换编码器的通道数较多,常用于处 理频域晕的邻近信号。 p c m 和d p c m 都是不对输入信号频带做任何分割的前提下在时域中进行处理,这 类编码方式称为整带时域编码。予带编码首先将输入信号分割成几个不同的频带分 量,然后再分别进行编码,这类编码方式称为频域编码。频域编码将信号分解成不同 号隶恨 频带分量的过程去除了信号的冗余度,得到一组互不相关的信号。 把音频信号分成若干子带进行编码主要有两个优点:首先,如果对不同的子带合 理地分配比特数,就可能分别控制各子带的量化电平数以及相应的重建信号的量化误 差方差值,使误差谱的形状适应人耳听觉特性。获得更好的主观听觉质量。由于人耳 对低频段比较敏感,对低频段的子带可以用较多的比特数来表示其样值,而高频段可 以分配比较少的比特。其次,子带编码的另一个优点是各子带内的量化噪声相互间独 立,被束缚在各自的子带内,这样就避免输入电平低的子带信号被其它子带的量化噪 声所淹没。这种情况在整带编码中就有发生,除非专门采用噪声谱形成等技术来控制 。 子带滤波器分析和重建的过程如图卜5 所示。图中同一通道的分析和重建滤波 器完全相同,而不同通道的滤波器是从一个低通滤波器经过相位变换获得的,具有形 状相同的幅频响应。子带滤波器组应用子音频编码存在以下几个方面的问题: 固卜5 多相滤波器组的分析和重建 f i g 1 5a n a l y s i sa n dr e c o n s t r u c t i o no f m u l t i - p h a s ef i l t e r b a n k s 首先,各子带滤波器的带宽都是相等的,这种结构有利于快速算法的实现。但不 能反映听觉系统的频域特性。而临界频带更适合作听觉系统的频域特征描述。 其次,由于理想滤波器的不可实现,相邻滤波器之问必然会有重叠,某一频率上 的信号可能影响两个频带。 第三,出于信号必须经过多个滤波逯道,在分析滤波器输出端需要对每个通道进 行亚采样,在重建滤波器的输出端进行内插恢复。由于处于两个相邻滤波器之间的信 号在经过重建后会产生原信号的镜像,这一过程通常会引入混叠。 第二种情况可以通过设计滤波器的频响形状,使阻带的衰减足够大,通带足够平 坦,所有滤波器的组合频响在整个音频通带内接近理想平坦实现。由亚采样和内插引 起的频域混叠却比较复杂,现已提出许多办法加以改进。一种著名的方法是使用j 下交 镜像滤波器组,它的特点是奇数通道和偶数通道采用相同的幅频响应和j 下交的相频响 应,在相位上关于( w = 耐2 对称) 在重建输出端。整个系统的混叠相互抵消。但对每 个通道而言,混叠仍然存在。 等带宽的滤坡器组有很多快速的实现方法l l ”,如使用f f t 、快速d c t 变换等。 1 3 2 2 混叠抵消( t d a c ) 由于余弦变换在边界处存在固有的不连续性,因此在块边界处可能产生很大的噪 声。相邻块的采样值在时间上重叠5 0 ,有利于消除这种噪声,故称为时域混叠抵消。 m d c t 不具有d f t 的正交性,为了重建输入信号,必须采用时域混叠抵消技术 ( t d a c ) l i “,t d a c 在m d c t 与i m d c t 中有着重要的应用。m p e g 2a a c 中正是采 用了基于m d c t 的t d a c 滤波器组。t d a c 可视作输入信号经过低通滤波后使用s s b 调制在不同频率上i t s l ,进行降采样后的输出,如图1 - 6 所示: 输 降采样输出 围1 6t i ) a g 要按概念不惹围 f 嘻1 - 6b l o c kd i a g r a mo f t d a c t d a c 与予带滤波器组相比的一个重要优点是理论上完全重建,且有利于增加处 理帧的长度,使信号的频域分辨率提高。 1 3 3 心理声学模型 心理声学模型是人耳听觉感知的数学模型1 1 6 】,它是一个模拟人耳昕觉掩蔽特性的 数学算法。高质量数字音频信号听觉编码背后的基本思想是把量化嗓声隐藏在与信号 相关的闻阈以下。依照这种观点,在听觉编码中最重要的问题是:在有损编码的情况 下,能够把多少噪声引入信号而不会被昕出来? 具体的答案可由声学模型计算得出。 所以心理声学模型在编码中处于极为重要的地位。 t t l , 理声学模型的计算结果用于m d c t 模块和菲线性量化模块。它决定m d c t 模块 中用什么类型的窗函数。判决的依据是当前的f f t 频谱与前一帧f f t 频谱之间的差别 度量。如果差别超过了定的限度,表明现在音频信号处于非平稳态,m d c t 中采用 短窗:如果差别较小,表明音频信号处于准平稳态,m d c t 中就采用长窗。心理声学 模型同时还向非线性量化模块提供信息。以决定非线性量化模块如何来量化音频信号 的频域样值。 m p e g 使用两种心理声学模型,即模型l 和模型2 ,模型l 为了减少运算量作了许 多简化,比较简单,而模型2 包含了为适应m p e g 一1l a y e r 3 所作的修f 。心理声学模 型的实现有很大的自由度,随耳标压缩率的不同两变化。它 、3 的特点如下 1 1 1 : ( 1 ) 模型1 和模型2 都将谱线值在临界频带的基础上进行分组,以各个分组为单 位计算掩蔽闽。 ( 2 ) 两种模型都要区分出音频信号中的谐音分量和类似噪音的非谐音分量,由 于二者的掩蔽能力是不同的,谐音信号掩蔽噪声较难,丽噪声掩蔽谐音信号较容易, 因此声学模型首先要区分出这两种不同类型的信号分量。心理声学模型1 的判决比较 简单,直接在频谱上区分出谐音分量和非谐音分量,然后计算信号掩蔽值,它应用于 m p e g 一1l a y e r l 并1 3 l a y e r 2 。由于这种方法尽量把谱线归结为谐音,而谐音的掩蔽能力 弱于非谐音分量,所以最后得到的掩蔽值小于信号的实际掩蔽能力。模型2 并不直接 严格区分谐音信号和非谐音信号,而是对每个频率的谱线计算其谐音指数,用此指数 来衡量频谱成分更接近谐音信号或者噪声。谐音指数主要通过谱线可预测程度获得, 谐音信号的可预测性较高噪声的可预测性较低。 ( 3 ) 由于某个给定信号的掩蔽能力可以跨越它周围的整个临界带宽,因此为了 更好地利用这种掩蔽能力,两类模型都要使用扩展函数。模型2 使用扩展函数经过扩 展卷积来决定噪声掩蔽闺值。而模型1 则是采用经验掩蔽函数。 在m p e g - 1l a y e r l 和l a y e r 2 中采用的是模型l ,在l a y e r 3 和m p e g - 2a a c 中采用了 模型2 。虽然m p e g 2a a c 和m p e g 一1l a y e r 3 同样采用了模型2 ,原理上二者相同,但 a a c 帧长、频率分辨率与m p 3 不同,有其自身的特点。心理模型的计算过程详见 m p e g 2a a c 标准1 2 1 。 1 3 4 立体声编码 在音频编码中,人们发现在一对左右声道之间往往存在一定的相关性和冗余度。 例如,在欣赏立体声歌曲时,左右声道发送的是近似相同的音乐。在消除了这些相关 性和冗余后,可以进一步提高压缩比。 立体声联合编码主要有两种方法,强度立体声( i n t e n s i t ys t e r e o i s ) 编码m j 和中 间旁边( m i d d l e s i d e m s ) 编码【l ”。 另外,在m p e g 一2a a c 中,引入了“比特池”技术以及可以进一步减少数据的冗 余、降低比特率的时域预测和时域噪声整形等技术,将在下一章进行介绍。 1 ,4论文的主要内容 对目前流行的各种音频编码技术进行充分调研,对m p e g 一2a a c 算法模型中的 心理声学模型、滤波器组和量化编码模块进行分析和研究。考虑到m p e g 一2a a c 算 法模型中各模块的计算复杂度较高,实时实现困难等问题,对计算量较大的主要模块 进行优化,同时也可以考虑省略部分运算量大但对编码效果增益不明显的模块,并使 用一些快速算法替换算法模型中的部分算法。最终要在单片t m s 3 2 0 c 5 4 xd s p 上实 现m p e g 一2a a cl cp r o f i l e 的编码系统,并且基于v c + + 60 平台来实现a a c 软件解 码系统。本课题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论