




已阅读5页,还剩59页未读, 继续免费阅读
(电路与系统专业论文)基于定点dsp的mp3解码系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文mla s t e r s t i 让s i s 最后采用c c s 开发系统中的d s p / b 工 o s 实时软件控制设计程序模块, 进行任务的调度和实时分析。对m p 3系统实时软件设计方法进行分析,主要包括控制与数据处理流程的设计方案,对各模块进行分析。论文最后对解码流程中的大运算量模块进行了研究, 重点针对子带综合滤波器中的i d c t 运算进行改进,提出一种基于定点 d s p的快速算法,降低了程序的计算量和数据存储量,并在定点数字信号处理芯片上得到实现。户关键词:数字音频m p e g a u d i o数字信号处理复杂可编程逻辑器件u s b 快速算法i d c t硕士学位论文w s t e r s t i 正 s i sa b s t r a c t m p e g ( m o v i n g p i c t u r e e x p e r t s g r o u p ) i s a w o r k i n g g r o u p o f t h ei s o / i e c o r g a n i z a t i o n , t h e c o d i n g a n d d e c o d i n g t e c h n o l o g y s t a n d a n d o ft h e m o v i n g p i c t u r e a n d a u d i o i s e s t a b l i s h e d b y t h e m . m p e g - 1 l a y e r 3d e s c r i b e s t h e 3 t h l a y e r s d i g i t a l a u d i o a l g o r i t h m s o f t h e m p e go r g a n i z a t i o n , a n d i t h a s h i g h c o m p r e s s i o n a n d e x c e l l e n t a u d i o q u a l i t y .t h e m u s i c t h a t c o m p r e s s e d i n t h i s a u d i o f o r m a t h a s b e e n v e r y p o l u l a ro n t h e i n t e r n e t . s o a n e w c o n s u m e r e l e c t r o n i c p r o d u c t -p o r t a b l e m p 3p l a y e r t h eh a s h u g e m a r k e t v a l u e n o w .g o a l o f t h e t h e s i s w a s t o e s t a b l i s h a h a r d w a r e s y s t e m w h i c hu s e a p o p u l a r d i g i t a l s i g n a l p r o c e s s o r t o d e c o d e t h e m p 3 m u s i c , i t c a nd o w n l o a d t h e m p 3 b i t s t r e a m f o r m t h e p c a n d s t o r e t h e d a t a i n t h e f l a s hm e m o r y . a n d t h e d s p c h i p c a n u p d a t e i t s s o f t w a r e e a s i l y , s o w e c a n d e c o d ed i f f e r e n t f o r m a t m u s i c u s i n g t h e h a r d w a r e s y s t e m . t h e c o d e c t e c h n o l o g y o f t h e m p e g s e r i e s i s o / i e c s t a n d a r d s a r eo u t l i n e d i n t h e t h e s i s , a n d t h e f e a t u r e o f m p e g - 1 l a y e r 3 s t a n d a r d d e c o d ea l g o r i t h m i s s t u d i e d . t h e p r i n c i p l e a n d s t r u c t u r e o f t h e d e c o d i n gs y s t e m a r e d e s c r i b e d a n d a n a l y z e d , t h e s y s t e m u s e s a d i g i t a l s i g n a lp r o c e s s o r t m s 3 2 0 v c 5 4 0 9 a s a k e y d e v i c e w i t h a c o m p l e x p r o g r a m m a b l el o g i c d e v i c e e p m 7 1 2 8 , a n d u s e a u s b c h i p a c c o r d i n g w i t h u s b 1 . 1 p r o t o c o lt o c o m m u n i c a t e w i t h t h e p c , i t c a n d e c o d e t h e m p 3 b i t s t r e a m s r e a l t i m ea n d o u t p u t t h e d i g i t a l a u d i o b y a s p e a k e r . t h e h a r d w a r e d e b u g g e r i s111硕士学位论文ma s t e r s 1 1 i bi si n t r o d u c e d i n t h e t h e s i s , a n d s o m e i m p o r t a n t d e t a i l s a r et h e d s p / b i o s r e a l t i m e d e s i g n m o d u l e o f t h e c c s i se m p h a s i z e du s e d f o r t h es o f t w a r e d e s i g n . t h e r e a l t i m e s o f t w a r e d e s i g n f o r t h e m p 3 s y s t e m ,i n c l d i n g d s p c o n t r o l s o f t w a r e a n d d s p d a t a p r o c e s s i n g s o f t w a r e , i sd i s c u s s e d i n t h e p a p e r . i n o r d e r t o r e d u c e t h e c o m p u t i n g c o m p l e x i t ya n d t h e n e e d e d d a t a s t o r a g e, s o m e f a s t a l g o r i t h m o f t h e d e c o d i n g f l o wa r e s t u d i e d , t h e i d c t m o d u l e i n t h e s y n t h e s i z e r s u b b a n d f i l t e r s i sd i s c u s s e d d e t a i l e d . a a l g o r i t h m o f i d c t i m p l e m e n t o n t h e f i x e d - p o i n td s p c h i p i s g i v e n .k e y w o r d s : d i g i a l a u d i of a s t a l g o r i t h m i d c tm p e g a u d i o d s p c p l d u s b11 硕士学位论文ma s t e r s t i 止s i s第一章:绪论1 . 1音频压缩算法的发展 随着多媒体、无线通讯与互联网的融合,信息量不断的增加, 促使人类实现更为广泛的信息多媒体交互,这其中最关键的就是信息的数字化技术。因为我们所接触的各种媒体信息,如声音、 音乐、图像等媒体信息本身是模拟的,只有转变为数字信息后,才能便于远距离有效、可靠地传输, 减少累计失真;同时可以由计算机进行各种处理和综合,这都给我们带来极大的方便。l 但是也有不利的一面,这些媒体信息在数字化后带来的数据量过大,每秒钟需要更多的比 特数去存储或传输, 这样就带来了高成本。 如c d 音质的音频数据流的传输比 特率为4 4 1 0 0 样本数/ 秒x 2 信道x1 6 比 特/ 样本= 1 . 4 m b p s ,高清晰度电视的传输比特率为 1 2 8 0 x 7 2 0象素x 6 0帧/ 秒x 2 4比 特/ 象素= 1 . 3 g b p s ,如此大的数据量给存储容量, 信道传输率都带来很大的困 难,因此一些关于视频和音频的压缩算法成为人们研究的重要课题。1 .2 m p 3 音频 m p e g( 运动图像专家小组) 是i s o / 1 e c 的一个工作组, 负责制定有关活动图像、音频及其组合的压缩、解压缩、处理和编码等方面的技术标准。目前, m p e g已 经完成了m p e g -1 , m p e g - 2 , m p e g -4 第一版, 正在完善制定m p e g-4 第二版和m p e g -7 , m p e g -2 1 , 就其音频方面来说, 主要就是感知编码系统, 它能实现1 : 8 至1 : 1 6 甚至更高的压缩比,同时保证音质的 损失最小。1 9 9 3 年, m p e g 完成t m p e g - 1 i ( i s o / i e c 1 1 1 7 2 : c o d i n g f o r m o v i n g p i c t u r ea n d a s s o c i a t e d a u d i o f o r d i g i t a l m e d i a u p t o 1 . 5 m b i t / s ) 标准的制定。m p e g - 1 国际标准分为五个部分:分别是:一、系统 ( i s o / i e c 1 1 1 7 2 - 1 p a r t1 : s y s t e m s ) , 二、 视频 ( i s o / i e c 1 1 1 7 2 - 2 p a r t 2 : v i d e o ) , 三、 音频 ( i s o / i e c1 1 1 7 2 - 3 p a r t 3 : a u d i o ) ,四 、一致性 测 试 ( i s o / i e c 1 1 1 7 2 - 4 p a r t一-一-一-一硕士学位论文n bs i e r, s i i i i s i s4 : c o n f o r m a n c e t e s i n g ) ,五、软件模拟 ( i s o / i e c 1 1 1 7 2 - 5 p a r t 5 : s o f t w a r es i m u l a t i o n ) 。 其中第三部分又包括三个层次, 分别为: 层一( m p e g - 1 l y a e r 0,层二 ( m p e g - 1 l y a e r 2 ) 、层三 ( m p e g - 1 l y a e r 3 ) e所谓的m p 3 就是m p e g 国际标准音频第三层编码/ 解码算法 ( m p e g - 1 l y a e r 3 ) ,通常指利用此音频压缩算法的音乐节目。做为一种数字音频通用编解码算法,在很多环境都得到广泛应用,如: 数字无线电广播的发射和接收 数字电 视伴音, 包括音乐、i n t e r n e t 电 话 数字声音信号的制作与处理 数字声音信号的存储 在m p e g 音频编码模式中,m p 3 功能最强大。这是因为它具有最高的压缩比1 2 : 1 , 在一般没有压缩数据的 情况下, 音频被数字化时, 采样频率必须在实际声音最高频率的2 倍以上。 在c d 中,声音最高频响是2 0 k h z ,采样频率定为4 4 . 1 k h z , 1 6 位量化。 要获得c d 音质的立体声, 每秒钟的数据量将超过1 . 4 m b i t 。 采用m p 3 压缩, 数据量可以 缩小到1 / 1 2 , 音质却没有损失。 如果再进一步压缩数据量到 1 / 2 4 或更多, 依然可以维持相当好的音质,比起通过降低采样频率、缩短采样深度的方法要好得多。虽然 m p 3 对原始信号进行了高压缩比处理,但因为去除的大多是一些无关紧要的信号,因此单纯从听感上说, m p 3 压缩几乎对音质没有影响。所以在同样的音质条件下, m p 3 需要的数据量最小。 在同样的数据量条件下, m p 3 音质最好。 m p 3 作为高质量音乐压缩标准,正在进入越来越多人的生活。 在因特网上, m p 3 也已成为事实标准, 有众多可供下载m p 3 音乐文件的站点。今天,有数以千计的音乐制作者以m p 3文件格式发布他们的音乐作品,并不断涌现 m p 3编解码软件和硬件设备。可以说作为一场堪称音乐工业的千禧年风暴, m p 3 音乐己通过互联网络,以雷霆万钧之势席卷全球, 给数字音频领域带来了一股新的冲击。硕士学位论文h.a s t g r s 1 7 止s i s1 . 3 m p 3 播放器 当前在 p c上实现 m p 3编解码的软件已经非常流行,比如大家所熟悉的w i n a m p 、 超级解霸等都有很好的效果, 而m p l i f t e r 等编码软件的效果也很好,但是这些软件都是基于p c 的, 无法做到便携式应用。 基于m p 3 随身听的需要,国际著名的多媒体制造商 d i a m a n d , s a m s u n g等相继推出了以闪存 ( f l a s hm e m o r y )为存储介质,以 专用m p 3 解码芯片为核心的带有p c 接口 ( u s b 、并口) 或网络接口的m p 3 随身听, 其工作原理为: 通过与p c 相连的接口导入m p 3源文件,存放于片外的闪存,通过一块解码芯片对闪存内的m p 3 源文件进行实时 解码, 解码后的数据通过数模转换器输出高质量音乐。由于使用大容量闪存做为存储体, 外加p c 接口, 可以随时从p c 或者工 n t e r n e t 上下载文件进行更新,使用十分方便。1 . 4课题的意义和主要内容 随着 m p 3音频编解码算法在网络音乐的广泛应用,硬件解码器在国外己经成为较成熟的产品,实时编码系统也在快速发展当中。在己有的硬件解码系统中,通常有两种方法实现,一为以 专用 m p 3解码芯片为核心加上必要的外围电路或者全部以单片集成解码的v l s i( 超大规模集成电路)实现,二为通用 d s p处理器加上外部存储器,数模转换等外围器件实现。二者的性能比较如表1 一1 。对于m p 3 播放器这类便携式系统,主要考虑的是其体积小巧、低功耗、高容量、低价格,以及随着技术不断发展的软件升级能力。 虽然第一种方案在功耗和价格上稍占 优势,但是通用 d s p处理器构架的整机系统在功能上有着很大优势:首先在单片d s p 处理器上可以完成多种音乐格式的编解码,如 m p 3 , a a c , a c 3等格式音乐,并可具有其他各种应用功能,如软件m o d e m 、电子书、 f m 、游戏、语音复读等: 其次通用d s p 处理器具有开放、灵活的软件体系结构,支持软件功能的升级,这对于目前飞速发展的音视频编解码算法来说是非常重要的, 因为我们可以 通过p c 甚至i n t e r n e t实时更新 d s p处理器的软件,使其支持更多种编解码算法, 使消费者的投资硕士学位论文6 1 .a s t l r s c i i bi s得到最大限度的回报。可以说基于通用 d s p 系统的方案不再只是一个m p 3随身听, 而是集多种功能于一体的网络便携式娱乐产品。 表1 一1 对这两种不同方案进行了比较:表1 一1 d s p 与a s i c 实现方案比较d s pa s i c功耗较低低升级方法软件硬件音 乐 格 式 一多单一性能高低灵活性高低功能丰富单一 而且,目前国内市场上的主流 m p 3播放器基本都是国外品牌,开发自 有知识产权,且功能丰富的m p 3播放器也是很有研究价值的。基于以上背景,我们提出了基于定点d s p的m p 3 解码系统设计与实现的研究课题,本课题的主要目标就是以t i 公司的5 4 x 定点d s p 为核心, 研究m p 3 硬件解码的快速算法及在定点d s p 芯片上的实现,为此我们设计了m p 3 解码系统的硬件平台,它可以与主机相连,从主机上下载 m p 3源文件并独立播放。本文主要分为如下几个部分, 一、介绍m p 3 解码原理,对各模块算法进行详细分析。 二、提出了m p 3 播放器的设计方案,对系统各硬件部分的分析。介绍 系统调试步骤及方法。 三、对m p 3 系统控制与数据处理流程的设计方案。对解码算法进行了 分析,通过对算法的优化,设计了相应软件程序并在d s p 上实现。 四、系统分析测试。硕士学位论文ha s t e r s i i i e s i s 第二章 m p e g 系列音频压缩算法 目前的音频信号压缩编解码算法主要分为两类:波形编码、感知编码。波形编码以声音波形为基础, 使重建声音波形尽可能接近原始波形,这类信号压缩编码器的设计可以认为与信源无关。感知编码并不要求重建声音波形和原始波形一样,而是要保证对于人耳来讲,重建声音听起来和原始声音一样。感知编码算法利用对人听觉心理的先验知识,丢弃了原始声音中人耳无法感知的部分.通常,感知编码算法总是将时域信号转换为频域信号,再将频域信号分裂到各个子带上,然后利用人耳的感知特性除去人耳听不到的部分。 感知编码型的 音频压缩编解码算法很多,美国杜比实验室开发的数字音频编码系统, 在1 9 9 1 年推出 杜比数码环绕声系统( d o l b y d i g i t a l s u r r o u n d )即a u d i o c o d e n u m b e r 3 ( a c - 3 ) , 被用于电 影制作和相关音视频产品,以 获得6 声道压缩编码。 s o n y 公司采用自己 研究的a t 人 r c 算法在1 9 9 2 年开发出第一个m i n i d i s k 系统。 a t a r c 是自 适应音频编码 ( a d a p t i v e t r a n s f o r m a u d i oc o d i n g ) 的缩写包括。 而最流行的感知编码算法是m p e g a u d i o 算法, 本章就介绍了m p e g 音频系列的发展。 m p e g 音频是诸多压缩音频中始终最具代表性和实用价值的一族数字音频压缩标准,而且还处于迅速应用和不断发展中。 自 从1 9 8 8 年, 标准化组织i s o / i e c j t c 1 / s c 2 9 / w g i 1 ( 运动图像专家小组m p e g )组建以 来, 一直致力于研究有关活动图 像、 音频及其组合的压缩、 解压缩、处理和编码等方面技术标准的制定。1 9 9 2 年1 1 月, m p e g 完成了m p e g一1 标准的制定t作,即i s o / i e c 1 1 1 7 2 . 3 , 音频编码标准。随后在1 9 9 4 年,完 成t 向 下兼 容的m p e g - 2 b c ( i s o / i e c 1 3 8 1 8 - 3 b a c k w a r d c o m p a t i b l e ) 音频编码标准。 1 9 9 4 年, m p e g 开始制定一个新的非向下兼容的多声道编码标准, 即m p e g一2 a a c ( i s o / i e c 1 3 8 1 8 一 7 a d v a n c e d a u d i o c o d i n g ) ,并于1 9 9 7 年成为国际标准。1 9 9 9 年,m p e g -2 a a c 方案成为m p e g -4 音频标准的核心.硕士学位论文h 认s i g r s i 1 比s i s m p e g 组织于 1 9 9 9 年1 月正式公布了m p e g -4 ( i s o / i e c 1 4 4 9 6 ) v 1 . 0 版本, 1 9 9 9 年1 2 月公布了2 . 0 版本。 m p e g -4 主要是来满足人们对多媒体信息交互访问的需求。 在m p e g -4 之后, 现在的m p e g 组织正在制定m p e g -7 “ 多媒体内容描述接口” ,目 标在于描述多媒体素材内容 ( 代表与内容相关的信息, 而不是内容本身)的通用接口的标准化上。目前第一版草稿即将完成。为了支持电子内容传输和电子贸易,1 9 9 9年 1 2月 m p e g会议通过了征集m u l t i m e d i a f r a m e w o r k 技术报告的方案, 并于次年3 月成立m p e g 工作组制定相关标准。2 . 1 m p e g 1 音频 m p e g -1音频作为数字存储媒体的运动图像和伴音的编码标准的一部分,由i s o / i e c 1 1 1 7 2 标准的第三部分 ( 简称 1 1 1 7 2 -3 )规定。m p e g -1 压缩标准是用来直接播放来自c d - r o m( 数据传输率约为 1 . 5 m b i t / s )或类似的光学存储设备和磁存储介质 ( 包括磁带在内)的音视频格式的数据。 m p e g -1 音频支持采样率为 3 2 , 4 4 . 1 , 4 8 k h z 的单声道 ( m o n o )及双声道 ( s t e r e o和 d u a l m o n o ) 等编码模式,并利用心理声学模型来控制音频信号的量化编码。 m p e g -1 共有三个不同层次的音频压缩算法: l a y e r l , l a y e r 2和l a y e r 3 ,它们对应不同的要求, 具有不同的复杂度和不同的压缩效率。 l a y e r l 即 m p 1 音频, 是m u s i c a m 算法的简化方案, 复杂度最低, 压缩效率也最低。压缩数据流的速率为 3 2 - 4 4 8 k b i t / s ,主要用于编码速率为 1 9 0k b i t / s 的应用场合。 l a y e r 2 即 m p 2 音频,它的编码较为复杂,能去掉更多的冗余信息,压缩效率较 m p 1有所提高。压缩数据流的速率为 3 2 -3 8 4k b i t / s ,可在 1 2 8 k b i t / s 的速率提供接近c d 质量的声音。 l a y e r 3 即 m p 3 音频, m p 3 算法最为复杂, 压缩性能也最好. 压缩数据流的速率为3 2 - 3 3 2 k b i t / s ,在每声道数据速率为6 4 k b i t / s ,压缩比在 1 : 1 0一1 : 1 2 时,接近c d 音质,它主要针对于低速率音频传输的应用, 特别适合应用于i s d n网络传输和存储。 近年来,由于m p 3 格式音乐具有传输率小,音硕士学位论文m a s t i r s t ! 汪 s i s质好的优势,已经成为因特网上非常热门的娱乐资源。2 . 2 m p e g 2 音频 m p e g -2 是 m p e g 于1 9 9 4 年1 1 月针对数字电视技术提出的, 标题为“ 通用的运动图像和音频编码( g e n e r i c c o d i n g o f m o v i n g p i c t u r e s a n d a u d i o ) .在音频方面, m p e g -2 已 经历了三个阶段的发展过程, 首先是相对于m p e g -1增加了低采样频率 ( 1 6 k h z , 2 2 . 5 k h z , 2 4 k h z ) ,接下来就是 m p e g - 2 b c ( i s o / i e c 1 3 8 1 8 - 3 b a c k w a r d c o m p a t i b l e )音频对m p e g - 1 向 后兼容的多声道扩展,它支持单声道 ( m o n o ) 、双声道、( s t e r e o和d u a l m o n o ) 和多声道 ( 环绕立体声)等编码模式,附加了一个 “ 低频扩展”声道,从而提升到 5声道编码5 。 至此, m p e g -1 音频和m p e g - 2 音频都具有三层编码结构, 并具有向上和向后兼容性。 m p e g -2 b c 的压缩数据流的目 标速率为: l a y e r 1 , 3 2 -2 5 6 k b p s ; l a y e r 2 和l a y e r 3 , 8 一1 6 0 k b i t / s e 在第三阶段,为了 提高对5 声道实例的编码效率,一种向后不兼容 ( 如不能被m p e g -1 音频解码器解码) 的音频编码方案在1 9 9 7 年完成定义, 即m p e g一2 a a c( i s o / i e c 1 3 8 1 8 一7 a d v a n c e d a u d i o c o d i n g ) , m p e g - 2 先进音频编码。它在 8 9 6 k h z 的采样率范围内提供了1 -4 8 个主声道的可选范围的高质量音频编码, 适用于码率从 8 k b i t / 。的单声道电话音质到 1 6 0 k b i t / s的多声道超高质量音频编码。 a a c 也是一种高压缩比的音频压缩算法,使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。 a a c 还使用了临时噪声重整、 后向自 适应线性预测、联合立体声技术和量化哈夫曼编码等新技术,这些技术的使用都使压缩比得到进一步的提高。而且,a a c它支持更多种采样率和比特率、支持 1个到4 8 个音轨、支持多达 1 5 个低频音轨、具有多种语言的兼容能力、还有多达1 5 个内嵌数据流。现在已 经有了使用a a c 算法编码和解码的样本软件,样本解码器软件的功能比 较齐全, 它可以 解码全部三种a a c 格式:主要m a i n ( m a i n ) 、低复杂性 l c ( l o w c o m p l e x i t y ) 和可变取样率 s s r ( s c a l e a b l es a m p l i n g r a t e )的a a c 文件。该解码器软件还是一种通用的多音轨解码器,它可以解码多达 4 8 个音轨、1 5 个辅助低频增强音轨和 1 5 个数据流。 a a c 和m p e g -2 b c 两者都支持5 声道编码模式,然而,a a c 具有比m p e g-2 b c 更高的编码效率和更好音质, 它在不必考虑向后兼容性的情况下使用。m p e g -1 双声道解码器可以解码m p e g -2 b c 的 5 声道码流,而 a a c 就没有这种向后兼容性的要求,对于5 声道音频信号来说,m p e g 有关正式试听实验表明, a a c 在3 2 0 k b i t / s 码率下的音质比 m p e g -2 b c 在6 4 0 k b i t / s 码率下的音质还要略好些。 作为 a a c的扩展,a t &t公司提出了一种适合因特网上传输的 a 2 b技术( a n 音乐) 。它一方面在保证音质的前提下, 将 a a c 的压缩比提高到2 0 : 1 ,另一方面嵌入了灵活的电子认证系统,融人了版权信息技术,解决了m p 3的版权问题。 所谓的m p 4 就是由g m o ( g l o b a l m u s i c o n e )公司提出的。它针对 m p 3 侵权音乐出版物的版权,采用了a t &t 公司授权的基于a a c 的a 2 b 音乐,并将其命名为m p 4 . m p 4的压缩比为1 6 : 1 ,比m p 3的 1 1 : 1 更高。m p 4 的音乐都是由出版人直接授权, 每首音乐都内置了直接指向创作人员或版权人的网址,除了可以不断更新信息外,还可以随意在公众场合流传。这种 m p 4是一个可执行文件,不可解包,它打开时同时启动内嵌的音频括放器即可。 m p e g -2 主要应用在数字电视领域, 能够提供h d t v 的视频质量保证。 m p e g-2 音频则几乎支持m p e g -1 音频的所有主要应用, 在低码率和多声道的应用方面也有相当大的性能扩展 ( 如对专业声响和多语言通道的支持) 。2 . 3 m p e g 4 音频 m p e g组织于 1 9 9 9 年 1 月正式公布了m p e g - 4 ( i s o / i e c 1 4 4 9 6 ) v 1 . 0版本,1 9 9 9 年 1 2 月公布了2 . 0 版本。 m p e g -4 的初衷是针对视频会议、视频电话的超低比特率编码,但是随着高性能集成电路芯片的不断出现和对多媒体信息的应用要求由播放型转向基于内容的访问、 操作型, m p e g -4 的目 标被定位于:支持多种多媒体应用 ( 主要侧重于对多媒体信息内容的访问) , 可根 8硕士学位论文ma s t e r s 1 7 止s i s据应用要求不同来现场配置解码器。 编码系统是开放的,可以随时加入新的有效的算法模块。 这对于以前基于专用硬件的压缩编码方法都是不可想象的。 m p e g -4音频 ( i s o / i e c 1 4 4 9 6 - 3 ) 是一种新的音频标准, 它综合了 许多不同 类型的 音频编码is - , 例如带合成声音的语音编码、 高质量低码率的 传输编码、 带音乐的语音编码、 复杂的音轨编码和一些交互以及虚拟现实的内容。通过单独标准化一些成熟的编码工具,形成了完美且灵活的音频编码和合成的框架, m p e g -4 音频标准的开发者创建了交互式数字化音频世界的新技术。 m p e g -4 与其他音频标准不同之处在于, 它不是针对单一的应用, 例如实时技术或高质量音频压缩a m p e g -4 音频是可以应用到所有需要使用先进的语音压缩、合成、控制和回放等应用领域的标准。它的音频工具可以分为语音工具、音频工具、综合工具、合成工具和可扩展性工具五个种类。 m p e g - 4 中的音频信号包括: 传统的音频编码标准, 即“ 自 然音频 ( n a t u r a la u d i o ) 和新颖的 “ 结构音频” ( s t r u c t u r e d a u d i o )以及二者混合的“ 合成/自 然混合编码”( s y n t h e t i c / n a t u r e h y b r i d a u d i o )简称s n h c . m p e g - 4 标准的自 然音频编码将码率规定为每声道2 - 6 4 k b i t / s 。 在这个范围内定义了三种类型的编码器。 在最低的2 -6 k b i t / s 之间使用的是参数编码 ( p a r a m e t r i c c o d i n g ) , 最适合于采样率为8 k h z 的语音信号,典型的编码工 具 有谐 音 矢 量 激 励编 码h v x c ( h a r m o n i c v e c t o r e x c i t a t i o n c o d i n g ) , 在6 -2 4 k b i t / :之间使用的是码激励的线性预测编码技术 c e l p ( c o d e e x c i t e dl i n e a r p r e d i c t i o n ) ,支持两种采样率: 8 和1 6 k h z , 分别对应1 0 0 - 3 8 0 0 h z ,5 0 -7 0 0 0 h z 的带宽信号。在最高的1 6 - 6 4 k b i t / s 码率范围内使用的是时间/频率编码 ( t i m e / f r e q u e n c y )技术,l l 如 m p e g - 2 a a c标准及变换域加权交织矢量量化技术 t w i n v q ( t r a n s f o r m - d o m a i n w e i g h t e d i n t e r l e a v e v e c t o rq u a n t i z a t i o n ) ,支持采样率为8 - 9 6 k h z的任意音频信号。为提供更好的灵活性, 上述三种编码器被集成为一个检验模型v m ( v e r i f i c a t i o n m o d e l ) , 即不断发展完善的编码工具集。 m p 4 - s a是 m p e g - 4标准的结构化音频 ( i s o / i e c 1 4 4 9 6 一3 s e c t i o n 5硕士学位论文 l a s 1 c r s i i i g s i sm p e g - 4 s t r u c t u r e d a u d i o ) , 它是以各种方式高效、 灵活地描述声音的一组工具的集合体,从压缩编码原理的角度来比较, g . 7 2 3 , m p e g -4 c e l p 等语音编码采用因定的模型来代替物理发音,以去除过程冗余 ( p r o c e s sr e d u n d a n c y ) ; m p e g - 2 a a c 采用心理听觉模型 ( p e r c e p t u a l m o d e l ) 去除听觉敏感冗余数据:而 m p e g - 4 s a则从结构描述的角度来压缩音频信息,比传统的压缩算法能去除更多冗余信息,它采用s a o l ( s t r u c t u r e d a u d i o o r c h e s t r al a n g u a g e ) 作为结构描述语言, 首先传送结构描述信息, 然后传送结构参数。这样m p e g - 4 s a 使用的模型就可以随时更换,通过模型结构描述通知解码器,比固定的模型可以有更好的压缩效果;也可以 采用现有的模型,从而直接利用现有的压缩解码算法。2 . 4 m p e g 7 音频 m p e g - 7正式名为多媒体内容描述接口 0 i ( m u l t i m e d i a c o n t e n td e s c r i p t i o n i n t e r f a c e ) ,日 标在于创建一个多 媒体内 容的 描述标准, 这种描述与多媒体信息的内容本身在一起,支持用户对其感兴趣的各种资料进行快速有效的检索,它可以加到任何类型的多媒体资料上,不管多媒体资料的表达格式与压缩方式如何 , ” ,只要加上了 这种标准化的描述多媒体数据就可以被索引和检索了。 先前的m p e g 标准不是基于多媒体内容的描述,它们着重研究了音视频的高效压缩编码算法,而m p e g -7 把重点放在描述多媒体素材内容 ( 代表与内容相关的信息,而不是内容本身)的通用接口的标准化上,如研究多媒体对象的特性提取,数据库的层次划分、不同数据类型 ( 如人物动作、背景、配音及主题思想) 之间的有机联系等方面。 从这个意义上讲, m p e g -7 论述的是促进数据元的互操作性和通用性以及数据管理灵活性等方面的问题。硕士学位论文n i a s i g k s t i i bi s2 . 5 m p e g 2 1 音频 m p e g - 2 1 0 z 是一个多媒体体制标准, 其方法是试图从消费 者的角度自 上而下地建立多媒体体制,目前在需求分析阶段.除以上常见编码算法外, 还有a t & t 的p a c ,固定压缩比的a p t - x 1 0 0 等,表 2 -1 列出了这些算法的比较参数。1 0常用音频压缩算法的性能参数质量复杂度主要应用 透明l o w d c c 1 9 2 k b p s / c h e n c / d e c开始使用年份 1 9 9 1m p e g - 1l a y e r 1m p e g - 1l a y e r 2m p e g - 1l a y e r 3表 2 一1比特率3 24 4 8k b p s3 23 8 4k b p s3 2 3 2 0k b p s 透明 1 2 8 k b p s / c h 透明c4 6 4 k b p s / c hl o we n c / d e cl o wd e c o d e r1 9 9 11 9 9 3d o l b ya c - 2d o l b ya c - 31 2 8 1 9 2k b p s3 2 6 4 0k b p s 透明 1 2 8 k b p s / c h 透明 1 2 8 k b p s / c hl o we n c / d e cl o wd e c o d e rd a b , c d - id v di s d n , 卫星无线系统及i n t e r n e t 音频点对点,电缆1 9 8 91 9 91s o n ya t a r ca t & t p a c1 4 0 k b p s单点对多点h d t v , 电缆,d v dm d1 9 9 2m p e g - a a c 6 4 k b p sl o wd n c / d e cl o wd e c o d e rl o wd e c o d e rd a b1 9 9 7硕士学位论文h 认s i r r s t i i n s第三章 m p e g l e y e r 3 音频解码算法3 . 1 音频压缩的声学原理 数字音频信号得以压缩的理论依据首先是原始信号本身存在着冗余度,其次是利用人类的听觉感知系统对某些失真不敏感的特性,即人耳的声心理学模型t 习 c h i 。信号的冗余度又包含两个方面:一是客观冗余度,它是可以计算的,同时用来确定音频信号的某些数字上可预测特性的数量, 如周期波形。二是主观冗余度,指由于人耳的听觉特性,音频信号中包含着被人耳忽略的分量。 人耳的听觉特性涉及心理声学和生理声学的问题。 近代音频压缩编码的核心是依据心理学模型去除信号的主观冗余,以及采用祸合和声道重组等技术消除客观冗余。 听觉特性在声音编码的应用主要体现在以下几个方面【 15 1 16 1 :听觉的强度和频率范围内的特性;掩蔽效应及人耳高频定位特性。 实验表明, 人耳对频率的感觉有一个从最低可听频率2 o h z 到最高可听频率 2 0 k h z的范围,超出这个频率范围的声音,就无法被人耳感知,这就是人的听觉区域。同时人耳还有一个对声音强度的分辨能力,在人耳的可听频域内,若声音弱到或强到一定程度,人耳同样是听不到的。正常人听觉的强度范围即“ 听闭” 到 “ 痛闭 ,的范围是 o d b -1 4 0 d b , ( 一般以1 k h z 纯音为准进行测量) 。 一个声音传入耳朵后,并不是所有组成这个声音的分量都可以被人的听觉系统所感觉。 人耳不能听到听觉区域以外的声音, 这是人的绝对听闭效应。在听觉区域内,人耳不能听到低于绝对听闭曲 线声压级以下的声音,因此,在记录、传输、编码时,可将绝对听阂曲线以下的声音省略掉,减少传输的数据。 人耳对声音信号频谱的察觉也是有条件的。在人的听觉上,一个声音的存在掩蔽了另一个声音的存在,这就是人耳的听觉特性之一:掩蔽效应。掩 1 2c110 7硕士学位论文入 认5 1 、 r s t l l l : s i s蔽效应包括频域掩蔽和时域掩蔽。 所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;低频的音容易掩蔽高频的音。 所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有3 m s -2 0 m s ,而滞后掩蔽却可以持续 5 0 m s -l o o m s e3 . 2 m p e g l a y e r i i i编解码系统及框图图3 -1 表明了m p e g l a y e r 3 音频编码器的基本结构,m p e g l a y e r 3以帧为单位进行编码组装,1 1 5 2 个采样值为一帧,每帧的编码过程如下: p c x 声频样点3 2 4 4 . 1 4 e t h z 图3 一1 m p e g l a y e r 3 编码器结构框图1 变换:输入音频数据采样数据被读入编码器, 子带滤波将时域信号分 为 3 2 个均匀带宽的子带, 子带亚采样信号用m d c t 映射到频域, 建立 信号的频域采样表示, 并根据人耳听觉的多声道特性把频域样值划分 为带宽非均匀的编码频带。2 .输入数据流, 同时又加到声学心理计算模块, 求出 每个编码频带的 掩 蔽阐值与频带信号能量之比值: 心理学模型的另一个计算结果一一窗 1 3硕士学位论文n u n s r e a s i i i ns 口切换信息用于决定离散余弦变换使用长窗口还是短窗口, 以选择变 换的时间分辨率。3 .比 特分配模块根据掩蔽阐值对各频带信号进行量化, 通过迭代算法进 行噪声分配,以同时满足码率要求和掩蔽要求: 弹性存储时编码速率 短时可变,以适应掩蔽量化噪声所需比特数的波动;量化样值采样霍 夫曼编码, 根据不同的信号统计优化的h u f f m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数字内容创作者考试试卷及答案
- 2025年小学数学期末考试题及答案
- 2025年物业管理与服务行业能力考试卷及答案
- 2025年数据分析与处理技能测试题及答案
- 2025年兽医学专业核心知识考试题及答案
- 2025年汽车工程技术专业考试题及答案
- 2025年跨文化交际能力评估试卷及答案
- 2025年跨境电商业务管理考试试卷及答案
- 2025年健康管理师考试试卷及答案指导
- 2025年环境工程技术人员考试题及答案
- 香港证券及期货从业资格考试温习手册版HK
- 2025年中考物理知识点归纳(挖空版)
- 2024年安徽省初中学业水平考试生物试题含答案
- 2024年浙江省中考英语试题卷(含答案解析)
- 2024年演出经纪人考试必背1000题及完整答案(各地真题)
- 团员组织关系转接介绍信(样表)
- GB/T 18926-2008包装容器木构件
- 汉语拼音音节表带声调
- 假发行业英语术语整理
- 中国银行营业网点基础服务礼仪规范
- 一份很详细的模具报价单
评论
0/150
提交评论