




已阅读5页,还剩93页未读, 继续免费阅读
(信号与信息处理专业论文)avs音频编解码算法研究及其在dsp平台上的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 a v s 音频标准是我国具有自主知识产权的音视频编码标准a v s 的第三部分, 为高质量音频压缩领域提供了很好的方案,主要用于高分辨率数字广播、高密度 激光数字存储媒体、无线宽带多媒体通讯和互联网宽带流媒体等业务。a v s ;音 频编码标准中引入了许多先进的音频编码技术,研究a v s 音频编码技术及其实 时实现对a v s 音频标准的推广和应用具有重大的现实意义。 本文首先介绍了音频编码技术的发展情况和基本原理,对a v s 音频编解码 的框架和各个模块的算法进行了研究和分析。针对a v s 音频编码算法中暂态信 号处理的复杂度较高的缺陷,提出了两种新的暂态信号处理方法,并在a v s 音 频编解码器中进行了验证,实验证明,这两种方法的编码质量和原来编码器的质 量相当,但计算复杂度却远远低于原来的编码器。 然后,本文对a v s 音频编解码器的各个模块进行了优化,使得a v s 音频编 解码器的计算复杂度大大降低。接下来,将a v s 音频编码器移植到d m 6 4 2e v m 平台上并进行优化,在该平台上实现音频的实时采集,实时编码以及编码比特流 的实时发送;将a v s 音频解码器移植到d s k 5 4 1 6 平台上并进行优化,实现编码 比特流的实时接收,实时解码和音频数据的实时播放。编解码器的优化结果是, 在4 4 1 k h z 采样率下,实时编码需要1 5 0 m h z 时钟,实时解码需要2 5 m h z 时钟。 最后,本文介绍了音频一致性测试的目的和必要性,并针对a v s 音频标准, 提出了a v s 音频解码器需要测试的参数,以及一致性测试码流的生成方法。 关键词:a v s 音频编码暂态信号时域增益控制d m 6 4 2d s k 5 4 16 a b s t r a c t a v sa u d i os t a n d a r di st h et h i r dp a r to fa v s ( a u d i oa n dv i d e oc o d i n gs t a n d a r d ) , w h i c hi so fo u ro w n i n d e p e n d e n ti n t e l l e c t u a lp r o p e r t y ,i tp r o v i d e sag o o dw a y t ot h e f i e l do fh i g hq u a l i t ya u d i oc o m p r e s s i o n 。a n di ta p p l i e st ot i l e h i g h r e s o l u t i o nd i g i t a l b r o a d c a s t , h i g h d e n s i t yl a s e rd i g i t a ls t o r a g em e d i u m ,w i r e l e s sw i d e - b a n dm u l t i m e d i a c o m m u n i c a t i o n ,b r o a db a n di n t e r n e ts t r e a m i n gm e d i aa p p l i c a t i o na n ds oo n 。t h e r ea r e m a n ya d v a n c e dt e c h n o l o g yo na u d i oc o d i n gi na v sa u d i os t a n d a r d 。i th a sg r e a t s i g n i f i c a n c eo nt h es p r e a da n da p p l i c a t i o n so fa v sa u d i os t a n d a r dt od ot h er e s e a r c h o nt h ea l g o r i t h m sa n dr e a l i z a t i o ni nr e a lt i m eo f a v sa u d i oc o d i n g t h et h e s i si n t r o d u c e st h ed e v e l o p m e n ta n dt h ef u n d a m e n t a lp r i n c i p l eo fa u d i o c o d i n gt e c h n o l o g y t h es t a n d a r dm o d u l e so fa v sa u d i oa n dt h ea l g o r i t h mo fe a c h m o d u l ea r es t u d i e da n da n a l y z e d i tc o u l db ef o u n dt h a tt h ec o m p u t a t i o n a lc o m p l e x i t y o fa v sa u d i oc o d i n gi sv e r yh i g hw h e nt r a n s i e n ts i g n a l sa r ep r o c e s s e d t h u s ,t w on e w m e t h o d sa r ep r e s e n t e di np l a c eo ft h eo r i g i n a lm e t h o d i ti sp r o v e db ye x p e r i m e n t a t i o n b a s e do na v st h a tt h ea u d i oq u a l i t yo fn e wm e t h o d si st h es a m ea st h eq u a l i t yo ft h e o r i g i n a lm e t h o d 。b u tt h ec o m p u t a t i o n a lc o m p l e x i 移o fa v sa u d i oe n c o d e ra n d d e c o d e ra r eg r e a t l yd e c r e a s e di nt h en e wm e t h o d s a f t e rt h ea n a l y s i so ft h ea l g o r i t h m so fa v s a u d i o ,t h et h e s i so p t i m i z e sa l lm o d u l e s o fa v sa u d i os oa st od e c r e a s et h ec o m p u t m i o n a lc o m p l e x i t yo fe n c o d e ra n dd e c o d e r g r e a t l y a f t e rt h a t , t h ep o r t i n ga n do p t i m i z a t i o no fa v sa u d i oe n c o d e ri sp r e s e n t e d b a s e do nd m 6 4 2e v m ,i n c l u d i n ga u d i oc a p t u r i n g ,e n c o d i n g ,a n db i ts t r e a m t r a n s m i t t i n gi nr e a lt i m e a n dt h ep o r t i n ga n do p t i m i z a t i o no fa v sa u d i od e c o d e ri s p r e s e n t e db a s e do nd s k 5 4 16 ,i n c l u d i n gb i ts t r e a mr e c e i v i n g ,d e c o d i n ga n d p l a y i n gi n r e a lt i m e t h ee n c o d e rc a ne n c o d et h ea u d i os a m p l e si nr e a lt i m ew i t ht h es a m p l i n g r a t eo f4 4 1k h za t15 0 m h zc y c l e sw h il et h ed e c o d e ra t2 5 m h z c y c l e s f i n a l l y , t h et h e s i si n t r o d u c e st h ep u r p o s ea n dn e c e s s i t yo fa u d i oc o n f o r m a n c e t e s t i n ga n ds u m su pt h ep a r a m e t e r st h a ta r en e c e s s a r yt ob et e s t e d a n dt h em e t h o dt o g e n e r a t i n gb i ts t r e a m sw h i c ha r eu s e dt ot e s td e c o d e ri sg i v e na tl a s t k e yw o r d s :a v sa u d i oe n c o d i n g ,t r a n s i e n ts i g n a l ,g a i nc o n t r o lo f t i m ed o m a i n , d m 6 4 2 ,d s k 5 4 16 独创性声明 本人声魏所呈交的学位论文是本人在导娣指导下进行的研究工作藕取得鳃 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果乞鬯至包寞为获得j 鳖室盔生或其他教育机构的学位或证 书霜使焉过静材料。与鼗e 蘑工霹的阊恚对本研究所徽的饪耩贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文俸者签名: 签字霹期: 矽龉7 年参胃箩匿 学位论文版权使用授权书 本学位论文作者完全了解苤星基鲎 有关保留、使用学位论文的规定。 特授权墨盗基兰诳戳将学位论文的全部或部分蠹容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部f 1 或机构送交论文的复印件和磁盘。 ( 傈密的学位论文在解密霜适震本授权说明) 学位论文俸者签名:蒌饬 导孵签名: 签字醴期:萝年艿胃轳瑟 签字目期:泅年z 胄严匿 第一牵绪论 1 1 课题研究背景和意义 第一章绪论 2 1 世纪的人类社会将是信息纯社会,数字化是这个信息社会的一大显著特 征。在社会的数字化过程中,数字化后的多媒体信息,尤其是数字化后的视频和 音频信息具有数据海量性,对存储器的存储容量、通信干线的信道传输速率以及 处理器的计算速度都提出了更高的要求,给信息的存储和传输造成较大的困难, 成为阻碍人类有效地获取和使用信息的瓶颈问题之一。解决这一问题的办法,若 单纯从扩大存储器容量、增加通信干线的传输速率考虑是不现实的,所以如何减 少存储和传输的数据量就成为一个关键的技术问题。作为人类可以直接感知的多 媒体信息,音频和视频信息也就成药数字信号处理领域的主要研究内容之一。 数字技术带来了音频领域的快速发展,数字激光唱盘( c o m p a c td i s k ,c d ) 技术则相应成为了数字音频技术发展的基石。基本的c d 数据格式是1 6 短的p c m 编码,一张立体声c d 的码率约为1 4 1m b s ,容量为6 5 0 m b 的c d r o m 只能存放 1 5 酋左右的歌眭,这显然是不能令人满意的。因此,音频压缩编码是必要的。 对音频信号的分析可以发现,音频信号的数据具有极强的相关性。语音中的小幅 度样本比大幅度样本出现的概率要高,又由于语流中必然会有间隙,出现了大量 的低电平样本,语音信号取样值的幅度分布是非常不均匀游。因此,如壹接用采 样数据表示,信息有较多的冗余。此外,人的听觉具有掩蔽效应,人耳对不同频 段声音的敏感程度不同,相对来说对低频段较之高频段更敏感,对语音信号的相 位变化不敏感。不妨把人耳听不到或感知不灵敏的声音分量都视为冗余的,由此 可见,音频数据压缩编码不仅是必要的而且是可能的。 采耀适当的数据压缩编码技术对音频数据进行压缩可以减少音频信怠的数 据量,将信息以压缩码流的形式存储和传输,既节约了存储空间,又提高了通信 干线豹传输效率。 a v s ( a u d i oa n dv i d e oc o d i n gs t a n d a r d ) 音频标准是我国具有自主知识产权 的音频编码标准,为高质量音频压缩领域提供了很好的方案,而且目前已经通过 公示期,正在等待被相关部委批准为国家标准,一旦被确定为国家标准,将广泛 用于数字电视、网络电视、移动电视、消费类电予等领域。在a v s 音频编码标 第一耄绪论 准,也引入了许多先进的音频编码技术,因此研究a v s 音频编码技术,尤其是 研究a v s 音频编解码器的实时实现j c 季a v s 产业化有着重大的现实意义。 1 2 音频编码发展概况 上世纪8 0 年代出现的c d 技术,全面体现出数字音频的高保真、大动态范围、 稳健性等优点,并在实际应用中取得了巨大的成功。普通c d 系统,其采样率为 4 4 1 k h z ,量化精度为1 6 比特,传输立体声音频信号需要1 4 1m b p s 的码率。随 着多媒体应用西益广泛,特别是在无线和网络系统中,常常受到带宽等因素的限 制,无法兼容高码率。但用户期望在所有的数字系统上都能享受c d 音质的回放, 因此为了剩用有限的资源,必须在不降低音质的情况下,对原始数字音频信号进 行压缩,减小数据传输所需的码率。近十多年来,基于应用的需求促进了数字音 频压缩技术的研究,各种高质量音频编码技术取得了较快的发展,国际音频编解 码标准1 2 n 3 1 1 4 1 就集中反映了这方面的成就。 在音频编码标准领域取得臣大成功的是m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) 系刭音频标准,即m p e g 1 猹l ,m p e g 2 1 6 1 ,m p e g - 4 7 1 等。m p e g 。l 音频标准 ( i s o i e c l l1 7 2 3 ) 对音频压缩规定了三种模式,即层l 、层1 1 和层i i i 。层l 在数 字广播( d i g i t a la u d i ob r o a d c a s t i n g ,d a b ) ;层i i 在数字演播室、v c d ( v i d e o c o m p a c td i s k ) 伴音等诸多领域得到了广泛应用;层i i i ( 简称m p 3 ) 是在层l 和层 i l 的优点基础上提出的混合压缩技术,经过m p 3 压缩后,文件可以压缩为原来的 1 1 0 。1 1 2 ,并且音乐信号的音质没有明显损伤,这样m p 3 可越在低码率下传输, 从而在网络上得到了广泛应用。 随着技术靛不断进步,原蠢的立体声形式已不能满足观众对声音节曩的欣赏 要求,这使得具有更强定位能力和空间效果的三维音频编码技术得到蓬勃发展, 在三维音频编码技术中最具代表的就是多声道环绕立体声编码技术。在已经存在 的多声道音频编码标准中,社比a c 一3 ( a u d i oc o m p r e s s i o n 3 ) 吲嘲和m p e ga a c ( a d v a n c e da u d i oc o d i n g ) 【l u j 是两个最重要、应用最广泛的音频编码标准。杜比 a c 3 是杜眈实验室研究出的第三代数字音频压缩算法,在5 。l 声道的应用串, 可在3 8 4k b p s 的码率时提供透明的音频质量。杜比a c 3 在家庭影院、h d t v ( h i g h d e f i n i t i o nt e l e v i s i o n ) 等方面得到广泛应用,并且被定为d v d 伴音标准。m p e g a a c 是m p e g 系列中一种优秀的多声道音频编码算法,其不仅利用了入耳听觉 系统的掩蔽特性来掩藏有损编码失真,而且利用变换编码除去声道内的统计冗 余,该技术可以提供1 1 5 的噩缩比,可以支持离达4 8 个主声道。在5 声道的 应用中,在3 2 0k b p s 码率下可以提供感知无损的音频。 第一鼙绪论 1 3 我国音频编码标准发展概况 我国长期以来没有自主知识产权的数字音频技术标准,数字音视频产业的发 震受到国努堕额专利赞的困扰,尽快建立自己的技术标准来积极应对已刻不容 缓。国家信息产业部科学技术司于2 0 0 2 年6 月批准成立数字音视频编解码技术 标准工作组( 简称a v s i 作组) 。a v s i l 1 2 l 标准是“信息技术先进音视频编码” 系列标准的简称,包括系统、视频、音频、数字版权管理四个主要技术标准和一 致性测试等支撑标准,这是基于我国创新技术和公开技术制定的开放标准,旨在 联合国内金业和群磷机构,为数字音褫频设备与系统提供高效经济的编解码技 术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通信、 数字电视等重大信息产业应用,从丽打破国外企业在音视频编码方面的垄断地 位,避免d v d 专利之类制约我国信息产业全行业发展的基础性问题再次发生。 a v s 1 3 】音频编码标准是a v s 标准的第三部分,简称a v s p 3 。a v s p 3 支持 8 - 9 6 k h z 采样的单声道、双声道和多声道的p c m 音频信号作为输入信号,编码器 输出码率为1 6 - 9 6 k b p s c h ,同时支持比特流精细可伸缩编码,可伸缩编解码步长 在编码速率1 6 k b p s 7 9 k b p s c h 以下为lk b p s ,编码速率8 0 k b p s 9 6 k b p s c h 时略 大于1 k b p s ,在6 4 k b p s c h 编码时可以实现接近透明音质。a v s p 3 中具有特征性 的核心技术包括:基予上下文位平面无损编码( c o n t e x tb a s e dc o d i n g ,c b c ) 、 量化域方极坐标立体声编码( p o s tq u a n t i z a t i o n ,s q u a r ep o l a rs t e r e oc o d i n g , p q s p s c ) 、频域多分辨率分析( m u l t i r e s o l u t i o na n a l y s i so f f r e q u e n c yd o m a i n , m r a f d ) 。a v s p 3 可用于高分辨率数字广播、商密度激光数字存储媒体、无线 宽带多媒体通讯、互联网宽带流媒体等业务。目前,a v s 音频工作组已经完成了 a v s p 3 的标准文档和参考代码麴编写,通过公示期,正在等待被国标委确定为 国家标准。 1 4 数字音频标准介绍 1 4 1m p e g 1 音频编码标准 自从1 9 8 8 年以来,m p e g 小组承担了视频秘音频压缩技术的标准化工作。 这个小组制定的音频编码标准是数字音频压缩领域中的第一个国际标准。1 9 8 9 年,m p e g 小组在征求了1 4 种音频编码方案后,最后确定了2 种:一种是 m u s i c a m ( m a s k i n gp a u e r na d a p t e du n i v e r s a ls u b b a n di n t e g r a t e dc o d i n ga n d m u l t i p l e x i n g ,自适应掩蔽模式通用子带综合编码与多路复用) ,另一种是a s p e c 第一耄绪论 ( a d a p t i v es p e c t r a lp e r c e p t u a le n t r o p yc o d i n g ,囱适应频谱感知熵编码) 。基于 这蘸种算法子1 9 9 2 年制定了m p e g 1 标准。m p 嚣g 1 按照算法的复杂度和压缩 比分为i 、i i 、i i i 三个层次。第l 层的复杂度最低,是m u s i c a m 方案的简化形 式,以每声道1 9 2 k b s 的速率提供高质量的声音,在不强调低码率的情况下应用。 第1 i 层具有中等复杂度,它使用比第l 层更为精密的量化,与m u s i c a m 方案 几乎完全相屑,可在1 2 8 k b s 的码率下提供近乎c d 质量的声音。第l i i 层结合了 m u s i c a m 和a s p e c 的优点,复杂度最高,编码效果也最好,可在低于每声道 1 2 8 k b s 的码率下获得极高品质的音频。第1 i i 层使用了心理声学模型l i 、可切换 懿混合滤波器组、比特池缓冲技术、先进豹预回声控制、嚣均匀量纯和熵编码技 术。 m p e g 1 第l l l 层在商业上获得了巨大的成功,这就是我们熟悉的m p 3 。m p 3 是目前流传最广的一种音乐压缩格式,其c d 般的音质、高压缩比、开放性和易 用憔使之深受好评,尤其在i n t e m e t 网络上广为流行,很多硬件厂商还推出了播 放m p 3 的硬件设备。 1 4 2m p e g 。2 音频编码标准 针对m p e g 1 只能进行单声道或双声道编码的缺陷,1 9 9 4 年1 1 月m p e g 小 组制定了多声道扩展的音频编码标准m p e g - 2b c ,它能够与已有的m p e g 1 系 统向下兼容。与此同时,m p e g 小组还制定了一个在较低采样频率 ( 1 6 k h z ,2 2 5 k h z ,2 4 k h z ) 时效率高于m p e g 1 的音频编码标准m p e g 2l s f 。 1 9 9 4 年1 1 月,m p e g 完成了m p e g 2b c 和m p e g 2l s f 的制定。对五个全带 宽声道,m p e g 2b c 在数据率为6 4 0 - - - - 8 9 6k b p s 的情况下提供了高品质的音频。 m p e g - 2b c 定义了m p e g 1 的多声道扩展,传统的双声道声音格式的替代者是 3 2 十1 多通道系统。m p e g 2b c 采用m p e g 1 编码器,也有三个层次的多通道 扩展:层次l l l 是最灵活的系统,作为一个主要的特点,m p e g 2b c 层次l i l 允 许使用数目灵活的扩展通道。m p e g 2b c 除了聪向兼容多声道编码之外,还提 供了对多个附加声道传输的支持。利用这些附加声道可以支持多语言编码。在 m p e g 一2l s f 背后的基本思想是,提高具有较高频率分辨率的滤波器组的编码增 益。l s f 的另个优点是提高了主要信息对附带信息之比。对于那些需要很低码 率的音频应用场合,l s f 层次l l | 成为优选方案。 1 4 3d o l b ya c 一3 美国杜比( d o i b y ) 实验室从1 9 8 0 年开始对数字声频技术进行研究,重点是 降低比特率技术。它先后研制了a c - l ( a u d i oc o d i n g - i ) ,a c 一2 和a c - 3 技术。 第一章绪论 目前a c 3 在多种音频处理系统中得到广泛的应用,美国现在已经把杜比a c 3 标准作为高清曦度电视( h d t v ) 和数字有线电视的音频编码格式。 a c 3 是一种高效率编码,它采用囱适应变换编码,具有很多优点。它更好 地模拟了入耳的听觉特性。a c 3 滤波器组的频率选择性非常接近入耳的掩蔽效 应。时频变换采用了基于时域混叠抵消( t d a c ) 的m d c t 。a c 。3 也采用了窗 处理,输入时间信号在变换到频域之前先对其进李亍加窗处理,而且窗的长度是可 变的。由于音频信号的时变特性,为了同时满足时间分辨率和频率分辨率的簧求, 在编码中采用了自适应分块技术以便有效地控制预回声的产生。 a c 3 编码器还采震了藕合技术和组合技术。福合技术利用入辱对高频信号 不能分辨出两个频率非常接近的信号的方向的特性,在编码器中将多个声道信号 的嵩频部分耦合到一个公共声遂中。当信道传输码率很低,单独对各个声道进行 处理仍然达不到信道要求的码率时,就采用耦合技术。 编码依据不同的声道用不同的比特数表示数据。根据传输码率和频率分辨率 的要求采焉三种模式进行编码,三种模式的分辨率不同。 a c 3 技术包含着灵活性,它可以重现一到五个声道的各种播放配置,再加 上一个锰选的低频增强声道,a c 。3 方案可使用3 2 k b p s 到6 4 0 k b p s 之间的可调码 率,可配置成通道安排的各种组合。a c 3 数据格式用来在已经采用了高度误码 校正的环境巾应用。 1 4 4d t s d t s ,数字影院系统,d i g i t a l 确e a t e rs y s t e m 的缩写,是在杜比数字环绕声 出现后的又一种数字环绕声系统。目前美国使用d t s 作为其电影原声带数字音 频编码方式的电影公司的数量,己经超过了采溺杜蓖数字系统的电影公司。 d t s 之所以受到如此青睐,是由于其对高采样率、高量化精度的数字信号采 用了灵活、先进的相干声学( c o h e r e n ta c o u s t i c s ) 编码技术。其最初的目标是要 使音乐重放达到试听室的水平,即“音质高于c d ,而多声道格式是要使得家 庭影院的声音重放质量在保真度及声像准确度方面得到全面的提高;第二个主要 嚣标是其压缩算法应是广泛适焉而且灵活的。多媒体应雳限制了数据带宽,因此 需要工作在3 8 4 k b p s 或更低的5 1 声道模式。而专业音乐应用要有更高的采样频 率、更长的璧化数及多路分立音频透道,并且更需要无损莲缩,d t s 相干声学 包括了所有这些特性;最后一个重要的目标就是确保所有的解码器算法相对简单 而且向前兼容。这可保证今天的解码硬件在未来d t s 编码技术进一步发展时仍 可被继续使用。 d t s 相干声学本质上是一种感知优化差分子带编码。其编码过程的关键组成 第一意绪论 是自适应预测编码,或称a d p c m ,它可以有选择地独立王作在每音频通道的 新有3 2 个子带上。 通过结合差分编码和同步噪声掩蔽闭值,可以提高比特率很低时的编码效 率,从悉降低了达到主观透明度要求的比特率。对音频多路逶道的编码是在阑定 比特率或可变比特率上用分配比特的方法进行的。 个多相滤波器组把每一个独立声道的p c m 源信号分为3 2 个带宽相等的子 带,并利用高理论编码增益及较强的截止带衰减功能,使其其有较低的计算复杂 度。 对每一子带进行差分编码,可戳去除音频中大部分客观冗余信号。同时,对 未编码的信号进行声学同步处理和瞬态分析以感知相关信息,从而修正每一子带 信号的主要差分编码循环。在多声道格式中,比特分配作耀于所有编码通道,并 随时间、频率及声道而改变以优化音频质量。 根据实际应用,d t s 具有单声道、双声道至8 声道可供选用,分离式的5 1 声道可以混音成为“矩阵式两声道”。d t s 每声道豹采样频率最低为8 k h z ,最高为 1 9 2 k h z ;量化精度范围为1 6 - 2 4 b i t ;压缩率范围为1 :1 4 0 :l ;输出码率范围为 3 2 4 0 9 6 k b p s c h 。另外相干声学算法还可以实现嵩达1 3 8 d b 豁动态范围。 1 4 5m p e g 2a a c m p e g 2a a c 是m p e g 一2 标准中的一种非常灵活的感知音频编码标准。它主 要使用听觉系统的掩蔽特性来降低表示声音的数据量,并且把量化噪声分散到各 个子带中,通过全局信号把噪声掩蔽掉。在m p e g 2 的正式听音测试中,码率为 3 2 0 k b p s 的a a c 可以提供比码率为6 4 0 k b p s 的m p e g 2b c 更好的音质。因此,a a c 是一j 孛比m p e g - 2b c 编码算法雯好的音频压缩算法,两显可以适用于各种环境, 如可以做电视信号的伴音,网络流媒体等。 a a c 支持的采样频率可从8 k h z 到9 6 k h z ,a a c 编码器的音源可以是单声道 的、立体声的和多声道的声音。a a c 标准可支持4 8 个主声道、1 6 个低频音效加 强通道l f e ( l o w f r e q u e n c ye f e c t s ) 、16 个配音声道( o v e r d u bc h a n n e l ,或者叫 傲多语言声道) 和l6 个数据流。m p e g 2a a c 在压缩比为ll :l ,即每个声道的 输出码率为( 4 4 1 1 6 ) 1 1 = 6 4 k b p s ,而5 个声道的总数据率为3 2 0 k b p s 的情况下,很 难区分还原盾的声音与原始声音之阚的差别。与m p e g 的层2 相比,m p e g 2 a a c 的压缩率可提高l 倍,而且质量更高:与m p e g 的层3 相比,在质量相同 的条件下输如码率是它的7 0 。 第一章绪论 1 5 媒体处理器概览 媒体处理器是在通用d s p 的基础上发展起来的,通常集成了d s p 核及音频、 视频等专用外设,某些媒体处理器还包括凡个专用协处理器加速处理,提高性能。 目前,已有多家芯片厂商推出了媒体处理器。例如,美国德州仪器公司( t i , t e x a si n s t r u m e n t s ) 的o m a p d m 2 7 0 ( 原名d m 2 7 0 ) ,针对数码相机和可拍照手 机市场,它采用t m s 3 2 0 c 5 4 x 和a r m 7 t d m i 双核结构,并集成了图像扩展协处理 器i m x 和变字长编解码协处理器v l c d ,其他片内外设有预览引擎、自动曝光, 自动聚焦自动自平衡、图像传感器接口、m m c s d 卡接口、u s b 接口等f 1 4 】; d m 6 4 x t l 5 系列媒体处理器:基于c 6 4 xd s p ,单核,无协处理器,目前已推出 d m 6 4 0 d m 6 4 3 四种型号,其主要应用领域为可视电话、车载娱乐设备、流媒 体网关、i p 机顶盒、视频监控等 1 6 】;达芬奇( d a v i n c i ) 处理器:目前包括d m 6 4 4 x 系列和d m 6 4 3 x 系列【1 7 】【1 8 】。d m 6 4 4 x 系列采用c 6 4 x + 和a r m 9 2 6 e j 。s 双核结构,目 前包括d m 6 4 4 3 和d m 6 4 4 6 ,它们内核相同,只是片内外设不同,并且引脚兼容。 d m 6 4 4 3 可看作d m 6 4 4 6 的简化版本,专门针对视频解码应用,而d m 6 4 4 6 既适 合视频解码也适合视频编码。d m 6 4 3 x 系列墓前包括d m 6 4 31 、d m 6 4 3 3 、d m 6 4 3 5 、 d m 6 4 3 7 四种芯片,均为c 6 4 x + 单核结构,其片内外设适合车载多媒体、机器视 觉等应用。 其他公司的媒体处理器也是丰富多彩,例如:a d i 公司在个人媒体播放器 ( p e r s o n a lm e d i a ,p m p ) 等产品中大力推广其b l a c k f i n 系列;卓然( z o r a n ) 瞄准 多媒体手机市场,于2 0 0 6 年年初推出a p p r o a c h5 c 平台;l s il o g i c 公司针对 多格式编解码、数字视频转码应用,提出d o m i n o x 媒体处理器架构;中国半导 体厂商珠海炬力的a t j 2 0 9 9 ,带有u s b 2 0h i g hs p e e d 接匿,支持2 0 0 万像素 c m o s 图像传感器、n a n df l a s h 及硬盘存储,支持m p 3 胱m a w w w m v a s f 格式媒体播放,支持s d m m c 卡、m p 3 编码、w m ad r m1 0 ,可用于便携式媒 体播放器、多媒体手机等。 软件方面,算法提供商如e m u z e d 、e s c i e n t 、f e d t e c 、i m n e t w o r k s 、i n g e n i e n t 、 m e d i a b o l i c 等,提供多种媒体处理器平台上的算法,如编解码、图像后处理等; 嵌入式操作系统公司如w i n d r i v e r 、a c c e l e r a t e dt e c h n o l o g i e s 、p i g e o np o i n ts y s t e m s 等也针对媒体处理器开发嵌入式操作系统。 采用多内核的媒体处理器与其他可编程处理器相比,给软件开发造成了比较 大的困难。例如,为了执行某一项特定的任务,必须对两个或更多的处理单元编 程,并对它们加以协调。为了弥补这一不足,媒体处理器供应商通常提供相应的 软件构件库。 第一章绪论 1 6 论文的研究内容和结构 本论文主要对a v s - p 3 音频编码器中所引入的新的音频编码技术进行了研究, 劳在此基础上,针对暂态信号处理时算法复杂度高的闻题提出了新的暂态信号处 理方法。最后在t i 公司的数字媒体处理平台t m s 3 2 0 d m 6 4 2e v m 上实现音频的双 声道采集和a v s 实时立体声编码,并将编码后的码流通过t m s 3 2 0 d m 6 4 2 上的多 通道缓冲串口( m c b s p ) 传送到t l 公司的t m s 3 2 0 v c 5 4 1 6 开发板上进行a v s 实 时解码并播放。 a v s 音频工作组在制订标准时最主要的蟊标就是在基本解决知识产权闻题 的前提下,制订具有国际先进水平的中国音频编解码技术标准,使a v s 音频编 鳃码技术的综合技术指标( 包括编码效率、计算复杂度和延迟等) 基本达到或超 过m p e g 2a a c 编码技术。所以在a v s p 3 中,引入了许多新的音频编码技术, 其中包括:基于时域能量和频域不可预测度的聪级暂稳态判决、频域多分辨率分 析、量化域方极坐标立体声编码和基于上下文位平面的无损编码。这些技术和以 往的音频编码标准中的技术有很大的不同,值得深入研究和学习。所以本论文中, 对a v s p 3 中所弓| 入的新技术进行了分析和研究,对其实现原理和复杂度进行详 细的阐述。 在a v s p 3 中,对暂态信号的处理上,采用了频域多分辨率分析,这项技术 虽然既避开了长短窗切换的专利,又获得了很好的编码效率和质量,但是它的复 杂度却很高,不利于编解码器的实时实现。本文提出了两种新的暂态处理方法, 来取代频域多分辨率分析技术。这两种新昀方法在相同的编码速率下,能够获得 和原来编码器相当的质量,而计算复杂度却远远低于频域多分辨率分析。 然后,将a v s p 3 编码器移植到d m 6 4 2 平螽上,实现了音频数据的实时采集、 实时编码以及编码码流的实时发送。并从存储空间和指令开销两个方面对程序进 行了优化,比较了使用薪的暂态信号处理方法和使用原来的方法的计算复杂度和 运算速度。在采样率为4 4 。l k h z ,量化精度为1 6 b i t ,输出码率为1 2 8 k b p s 的情况 下,实现a v s p 3 实时立体声编码需要1 5 0 m h z ,而使用新的暂态信号处理方法 后,仅需要1 2 0 m h z 。淘时,将a v s p 3 解码器移植到d s k 5 4 1 6 平台上并优化, 实现了a v s 音频编码码流的实时接收、实时解码以及音频数据的实时播放。在 输入码流速率为1 2 8 k b p s 的情况下,输慰音频数据精度为1 6 b i t ,采样率为4 4 1 k h z 的情况下,实时解码需要2 5 m h z ,使用新方法后,仅需要2 0 m h z 。 最后,本文介绍了音频一致性测试的概念、目的和必要性,并针对a v s 音 频标准,提出了a v s 音频解码器需要测试的参数,以及一致性测试码流的生成 方法。 第一章绪论 本论文的结构如下: 第一章介绍了课题的研究背景和意义。 第二章介绍了a v s 音频编解码的框架和各个模块的算法。 第三章提出两种新的暂态处理方法,并从算法复杂度和编码质量两个方面比 较了新方法和原来的方法。: 第四章介绍了a v s 音频编解码系统的实现。 第五章介绍了音频一致性测试的目的和必要性,并提出了a v s 音频一致性 浏试的方案。 第二章a v s 音频标准允绍 第二章a v s 音频标准介绍 2 1 引言 a v s 音频编码标准是a v s 标准的第三部分,是我国拥有自主知识产权的音 频编码标准,是为了适应数字音频广撬、数字电视广撵、数字存储媒体、因特霹 流媒体、多媒体通信等对于高质量高效率的先进音频压缩技术的需要而制定的。 该标准适用的主要范围包括有线电视、直播卫星视频业务、数字音频广播、数字 地面电视广播、交互存储媒体多媒体、邮件分组瞒络的多媒体业务、实时通信监 务( 音视频会议,可视电话等) 。 a v s p 3 支持8 - 9 6 娥z 采样昭单声遂、双声道和多声遴盼p c m 音频信号作力 输入信号,编码器输出码率为每声道1 6 - 9 6 k b p s ,同时支持比特流精细可伸缩编 码,可伸缩编解码步长在编码速率16 k b p s 7 9 k b p s c h 以下为lk b p s ,编码速率 8 0 k b p s - - - 9 6 k b p s c h 时略大子i k b p s ,在每声道6 4 k b p s 编码时可以实现接近透明 音质。 2 2a v s 音频编解码框架 a v s 音频编码框图如图2 1 所示,输入的p c m 数据经过暂稳态判决来判断 该帧信号是暂态信号还是稳态信号;将输入的p c m 数据进行时频变换( 即 m d c t ) ,把信号从时域变换到频域:根据信号是暂态还是稳态来决定是否使用 频域多分辨率分析( m r a f d ) ,如果是暂态,则使用,稳态时不使用;接下来 对频谱值进行非线憔量纯,量化需要以心理声学模型为依据,根据信号掩蔽比 ( s m r ) 决定比例因子的大小。最后经过量化域方极坐标立体声编码( p q s p s c ) 稻基于上下文位平面无损编码( c b c ) ,形成a v s 音频压缩码流。其中频域多分 辨率分析模块和量化域方极坐标立体声编码模块为可选模块。a v s 音频解码的过 程和编码过程相反,如图2 2 所示。 第二章a v s 音频标准介绍 图2 1a v s 音频编码器框图 流 第二章a v s 音频标准介缨 图例 。r 、 数据 c b c 解码 控制 lj v p q - s p s c 立体 声解码 l j j 比特 反量讫 t v s 音频编码被 流去 格式 化 = e e s 町1 西= t r a n s i e n t 删s t a t l 0 n r yn 下e 2 :二二= := = 二岁一 n y t 1 2 8 个点的f f r r 变换 求各子块鑫每不可预测魔 l y1r t r a n s i e n t _ t y p e | s t a t i o n a r y _ t y p e | 一 0, r 巨2 3a v s 音频编码孛的餐稳态判决模块的实现框图 第一缀 能量判决 第二缴 不可预测魔判决 如图2 3 ,输入的一帧音频信号( 1 0 2 4 个p c m 样点) 划分先1 6 个子块( 每 个子块6 4 个样点) ,先在时域内进行第一级能量判决,计算每个子块的能量,分 析予块能量的变化情况,当当前子块的能量与前一个子块的能量的比值超过某个 阈馕( 如果蓊一帧为稳态信号,则该阈值为es w i t c h ,否则该溺僮为 2 * es w i t c h 3 ) 时,则判定该帧信号为暂态信号,如果比值不超过该阈值,且 翦一帧为哲态信号时,则判定当前帧为稳态信号,否则进行第二级频域不可预测 度判决。下面详细阐述这两级判决的具体方法和步骤。 1 基于时域能量特征的判决,步骤如下: ( 1 ) 计算各子块的能量互, 第j 个子块的能量e ,等于第i 个子块和第i - 1 个子块的所有样点的平方 和,总共1 2 8 个样点。设x ,( f ) 为第i 个子块的第i 个样点,则露,可表示为: 一l ,一l 弓= 毒,( f ) + 弓( f ) ,其中n = 6 4 ,0 j 1 6 i = 0i = 0 在计算第1 个子块的能量磊时,是该帧的第i 个子块和前一帧的最后一 个子块的所有样点的平方和。 ( 2 ) 计算子块能量变纯率缱,的最大傻,a e ,定义为: 第二章a v s 音频标准介缓 缱,:! 堡二纠o 川6 。 弓一l ( 3 ) 时域判决 当翦一帧力慧态信号时,若篮,枣e s w i t c h ,则判断该帧蔻骜态信 号,否则为稳态信号,结束计算; 当前一帧力稳态信号时,若篮, = p s w i t c h ,则判定该帧为暂态信号,否则为稳态信号,结 束计算。 2 3 2 时频变换( m d c t ) a v s 音频标准中,采用具有时域混瑟抵消( t i m ed o m a i na l i a sc a n c e l l a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物安全岗前培训 试题及答案解析
- 2025年CMP抛光液行业研究报告及未来行业发展趋势预测
- 玻璃厂网络防火墙管理规章
- 家具配件厂劳保用品回收管理制度
- 2025河南汇融数字科技有限公司招聘2人考试模拟试题及答案解析
- 2025宁波市鄞州区公立学校招聘编外员工10人考试参考题库及答案解析
- 2025内蒙古赤峰翁牛特旗基层医疗卫生机构招聘专业技术人员23人考试参考题库及答案解析
- 2025昆明市官渡区矣六实验学校教师招聘(35人)备考模拟试题及答案解析
- 2025天津市北辰区教育系统第二次招聘教师22人考试参考题库及答案解析
- 2025内蒙古建投北方工程有限公司招聘17人考试模拟试题及答案解析
- 公务员面试人际关系题人际关系面试题及答案
- 2025年乡镇畜牧站动物检疫员招聘考试重点知识点梳理与解析
- 2025年中国电信招聘考试题库与答案解析
- 土地合作协议书合同模板
- 2025-2030中国废弃光伏组件回收处理技术路线与经济性分析报告
- 2025水利安全员C证考试题库(含答案)
- Unit 1 This is me!第5课时 Integration 说课稿- 2024-2025学年译林版(2024)七年级上册英语
- 一级建造师-机电工程管理与实务-案例专题突破教学课件
- 《中华人民共和国学前教育法》试题库及答案
- 新沪教牛津版九年级上册英语全册教案
- 全校教学质量提升会上校长讲话:把每一节课教好是我们最实在的荣耀
评论
0/150
提交评论