(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf_第1页
(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf_第2页
(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf_第3页
(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf_第4页
(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(仪器科学与技术专业论文)基于dsp的mp3编解码系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重壅点堂堕主堂垡堡苎 i i 中文摘要 摘要 本文作为重庆市信息产业局科技攻关项目“数码相机整机及关键技术研究”的 一部分,主要研究了数码相机与m p 3 播放器整合相关的m p e g il a y e ri i i 算法及其 解码算法在d s p 上的实现。 论文首先介绍了音频编解码的原理和过程。m p 3 编码之所以能达到1 :1 2 的压缩 比例,主要在于它是依据心理声学模型的有损压缩。基于人对声音的生理掩蔽( 时 间掩蔽和频率掩蔽) 效应,m p 3 编码技术能在不影响声音质量的前提下,将数据量 大大减小。 接着的两部分是本论文研究的主要内容,即m p 3 解码算法的过程及解码系统的 实现。采用了两种方案来实现m p 3 解码播放系统:一个是基于s s t 公司的s t a 0 1 3 硬解码芯片,以单片机作为控制核心的由c f 卡存贮数据的m p 3 播放器;另一个是 基于1 m s 3 2 0 v c 5 4 1 6 型定点d s p 的m p 3 解码播放系统。m p 3 解码算法是在d s p 上用软件来实现。这也是本论文讨论的核心。由于浮点运算在定点d s p 上是通过算 法模拟来实现,速度特别慢,因此我们将浮点的解码程序进行定点化,同时,依据 定点d s p 特点,还提出了对m p 3 解码算法中一部分模块的快速优化算法。本文的 m p 3 解码算法都已经在d s p 上实现。 概括起来,本文的主要工作有对m p e gil a y e ri i i 标准进行了整理和解释、基 于单片机的大容量m p 3 播放器实现,对基于p c 机的m p 3 解码程序进行了移植、 将它依据1 1 标准的c 语言来实现,对浮点的m p 3 解码程序进行了定点化,以及对 某些关键算法实现了快速算法,设计了基于d s p 的m p 3 解码播放系统的硬件部分, 调试并通过了基于d s p 系统的外围电路接口部分,包括单片机按照f a t 3 2 协议正 确读取c f 卡的数据;单片机按照1 4 2 1 接口标准向d s p 内部传送m p 3 码流数据i 通过d m a 联合m c b s p 来传送解码后的p c m 音频数据;语音播放:占片a i c 2 3 的 控制与播放等。 由软件实现的m p 3 解码模块可移植性好,为具有d s p 的设备开发m p 3 音乐播 放功能提出了性价比高的解决方案。例如让数码相机兼有m p 3 播放器功能。由于c 语言编写的代码编译效率不高,因此要实现实时解码,必须要将其手工汇编化。本 课题的实施为实现实时m p 3 解码系统打下坚实的软硬件基础。 关键词:m p 3 ;解码器;d s p ;定点化 英文摘要 a b s t r a c t t h i s p a p e rm a i n l y r e s e a r c h e sm p e gi l a y e r 1 1 1 a l g o r i t h m a n d m p 3d e c o d e a l g o r i t h m i cr e a l i z a t i o nb a s e do nf i x e d p o i n td i g i t a ls i g n a lp r o c e s s o r , w h i c hi n v o l v e di n t h ei n t e g r a t i o no f d i g i t a lc a m e r aa n dm p 3p l a y e r a sap a r to f t h e p r o j e c tf r o mi n f o r m a t i o n i n d u s t r yb u r e a uo fc h o n g q i n g ,n a m e d “t h es t u d y o fd i g i t a lc a m e r a k e y t e c h n o l o g y ” t h eh e a do ft h i sp a p e ri n t r o d u c e sa u d i oc o d ea n dd e c o d et h e o r e t i c sa n d p r o c e s s m p 3 c o m p r e s sr a t i oc a r lr e a c ht :1 2m a i n l yb e c a u s eo f i t sl o s s yc o m p r e s sm e t h o dd e p e n d e do n p s y c h oa c o u s t i cm o d e l m p 3c o d et e c h n o l o g yc a nr e d u c em o s td a t aq u a n t i t yw i t h o u t i n f l u e n c ea u d i oq u a l i t yb e c a u s eo fm a n sp h y s i o l o g i ca c o u s t i cm a s ke f f e c t ( t i m em a s ka n d f r e q u e n c ym a s k ) t h e b o d y o f t h i sp a p e r , t h em a i nr e s e a r c h ,i sr e a l i z a t i o no f m p 3d e c o d e p r o c e d u r e a n d r a p 3p l a y e rs y s t e m w er e a l i z et w o s c h e m et oi m p l e m e n t r a p 3d e c o d es y s t e m :o n ei sh a r d c h i p d e c o d e ds y s t e m ,w h i c hd e c o d em p 3f i l ei ns t a 0 1 3 c h i pc o n t r o l l e db ym c r o c h i p ;t h e o t h e r s y s t e m d e c o d e b y s o f t w a r eb a s e f i x e d p o i n td i g i t a ls i g n a lp r o c e s s o r - t m s 3 2 0 v c 5 4 1 6 t h el a t e ri st h ec o r e a p p l i c a t i o n f l o a to p e r a t i o ni m p l e m e n t s i n f i x e d p o i n td s pb ys o f t w a r es i m u l a t i o n ,s oi t ss p e e di sv e r ys l o w t h ef l o a to p e r a t i o n m u s tb ef i x e df o rf i x e d p o i n td s p , a n d , t h ep a p e rh a sb r i n gf o r w a r ds o m eo p t i m i z e d p r o c e d u r e f o r s p e c i a lm p 3d e c o d e m o d u l e t h e s eo p t i m i z e dp r o c e d u r e sh a v e b e e n i m p l e m e n t e d i nd s p s y s t e m a sa w h o l e ,t h i sp a p e r i n t r o d u c e sa u d i o c o m p r e s sa l g o r i t h m i c i nt h ei n t e r n a t i o n a ls t i l l i m a g ec o m p r e s ss t a n d a r dm p e g i l a y e ri i i ,m p 3 f i l ef o r m a t ,s o f tv a l i d a t i n go ft h e a l g o r i t h m i c s ,a n dt r a n s p l a n t i n gt h ea l g o r i t h m i ct od i g i t a ls i g n a lp r o c e s s o r , t h er e a l i z a t i o n o ff i x a t i o nf o rf l o a tp r o c e d u r ea n d o p t i m i z a t i o n f o rg o m e s p e c i a lm p 3 d e c o d em o d u l e ,t h e r e a l i z a t i o no fs o f t w a r em p 3d e c o d es y s t e mb a s e do nd s pa n ds y s t e mh a r d w a r e 1 r i a d d i t i o n ,t h er e a l i z a t i o no fm a s sd a t as t o r ea n dt r a n s f e rf o rd i g i t a tc o n s u m e ri ss i g n i f i c a n t , t h ei n t e r f a c eb e t w e e nm i c r o c h i pa n dd s ph a sb e e ni m p l e m e n t e d ,t h ec o m b i n a t i o no f d m aa n dm c b s pi nd s p c h i p c o n t r o lm p 3d a t ap l a y t h em p 3d e c o d es o f t w a r ed e p e n d e do nd s pc a l lb ee a s i l yt r a n s p l a n t e dt oo t h e r s y s t e mw h i c hh a v ed s pp r o c e s s o rt oi m p l e m e n tr a p 3p l a yf u n c t i o nw i t hl o wc o s t f o r e x a m p l e ,d i g i t a lc a m e r aw i t hm p 3p l a yf u n c t i o n w i l lb e p o p u l a r f o r t h e p r o c e d u r e i m p l e m e n t s b a s e do ncl a n g u a g ew i t hi n e f f i c i e n t c o m p i l e r , t h ep r o c e d u r em u s tb e h a n d w o r kc o m p i l e d t h es u c c e s so ft l l i sr e s e a m hw i l la c c e l e r a t et h ec o m b i n a t i o no f i l l 重庆大学硕士学位论文 d i g i t a lc a m e r a a n d m p 3p l a y e r k e yw o r d s :m p 3 ;d e c o d e r ;d s p ;f i x e dp o i n tp r o g r a m m i n g 1 绪论 1绪论 1 1 数字音频技术概论 多媒体是综合性的信息资源,是文本( t e x t ) 、图形( g r a p h i c s ) 、声音( s o u n d ) 、动 画( a n i m a t i o n ) 、视频( v i d e o ) 等媒体元素的统称。在当今的时代,多媒体技术应用得 越来越广泛。各种各样的媒体信息在存储、处理和传输时都要花费很大的代价。如 何减小这些代价,以便更方便、更快速的处理和传输这些数据,必然会成为多媒体 应用领域中的一个重点。因此,多媒体数据压缩解压技术成了多媒体、网络通讯以 及计算机等应用领域的一项关键技术。 音频信号是多媒体数据的一种。人类听觉特性理论的深入研究和数字化技术的 广泛应用,以及市场对消费类音乐质量的趋高要求,促使数字音频编解妈技术成为 消费电子学的一个重要研究领域。下面简要介绍目前几种主要的数字音频编码技术 【l l 。 1 1 1 波形音频 波形音频是一种电子数字化声音,是计算机播放音频的一种重要的形式,它存 储的声音的波形信息,特点是:当播放波形音频时,不管播放文件的醪各是何种类 型,都会得到相似的声音。波形音频文件通常以w a v 作为文件扩展名。由于采用波 形音频存储电子需要大量的存储空间,因此它一般只用于短时间的声音播放。 决定波形音频质量的因素主要有三个,采样频率、信息量和通道数。一般采用 率越高的音频质量越好。表i i 给出了波形音频常用的音频采样率。 表i i 常用音频采样频率 t a b l e1 ic o m m o nu s e da u d i os a m p l e f r e q u e n c y 音频类型采样率k h z 语音 高质量的音乐和语音效果 c d 质量的采样 1 1 0 2 5 2 2 0 5 0 4 4 1 0 0 1 1 2m i d i 音频 m i d i 音频也是一种重要的多媒体组成元素,是一种通信形式,提供了电子乐器 连接起来的手段和控制乐器所有软硬件的规范。m 1 d i 在处理音乐时是将m i d i 音乐 设备上产生的活动编码记录下来,将这些数据传递到m i d i 合成器上就能中现原来 的演奏。m i d i 的消息有两种类型:状态字节和数字字节。状态字节描述发送的类 别( 动作和函数) ,数字字节总是跟在状态字节后,表示发送消息的实际值。数值字 节的个数取决于状态字节表示的消息类型。m 1 d i 通过通道字节最高位区别这两种 类型。最高位为1 表示状态字节,最高位为0 表示数字字节。 重庆大学硕士学位论文 1 1 3c d 音频 c d 音频是通过计算机的c d 。r o m 驱动器来播放的一种音频数据格式。c d 音 频代表着高质量的数字音频信息,但所需的存储空间也大,c d 音频的长度由分、 秒、帧的形式来衡量,最小的单位为帧,每一帧为1 7 5 秒,一分等于6 0 秒。 1 1 4a c 3 音频 美国杜比实验室开发的数字音频编码系统是性能较为优秀的一种音频压缩技 术,其中a c 一1 用于卫星通信和数码有线广播,a c 2 用于专业音频的传输和存储。 a c 3 系统丌发的目的就是为了改善和提高三个扬声器的重现能力。a c 3 根据心理 声学模型去除信号的主观冗余信息,以及采用耦合和声道重组等技术消除客观冗余 信息,传输速率是3 2 1 2 0 k b i t s ,目前用于d v d ,h d t v 等的伴音。 1 1 5m p e g 音频 m p e g 音频是运动图像专家组提出来的种能够实现主观感受不出失真的音频 压缩算法。目前已经完成的标准包括:m p e g l 、m p e g 2 、m p e g 3 、m p e g 4 、m p e g 7 。 m p e g l 音频支持采样率为3 2 、4 4 1 和4 8 k h z 的单声道( m o n o ) 以及双声道( s t e r e o 和d u a l m o n o ) 等编码模式,并利用心理声学模型来控制音频信号的量化编码。 m p e g 2 是1 9 9 4 年n 月针对数字电视提出的。在音频方面,经历了三个阶段 的发展过程。首先是相对于m p e g 一1 增加了低采样率( 1 6 k a z , 2 2 5 k h z ,2 4 k h z ) ,接 下来是m p e g - 2 b c ( i s o i e c 1 3 8 1 8 3b a c k w a r d c o m p a t i b l e ) 音频对m p e g 1 向后兼容 的多声道扩展,它支持单声道( m o n o ) ,双声道( s t e r e o 和d u a lm o n o ) 和多声道( 环绕立体 声) 等编码模式,附加了一个“低频扩张”声道,从而提升到5 声道编码。此时, m p e g 一1 和m p e g - 2 都具有三层编码结构,并具有向上和向后的兼容性。在第三阶 段,为了提高对5 声道实例的编码效率,一种向后不兼容的编码策略在1 9 9 7 年完成 定义,即m p e g - 2 a c c ( i s o 1 e c l 3 8 1 8 7 a d v a n c e d a u d i oc o d i n g ) 。它在8 - 9 6 k h z 的 采样率范围内提供了1 - 4 8 个主声道的可选范围的高质量音频编码,应用于码率从 8 k b i t s 的单声道电话音质到1 6 0 k b i t s 的多声道超高质量音频范围内的编码。a c c 继承了层三的基本编码模式,但在细节上附加了新的编码工具并作了技术改造,包 括带有高频解决方案的滤波器组、更加优化的熵编码和立体声编码、向后自适应滤 波器和时域降噪平滑技术。所以a a c 比m p 3 在编码位率上效率提高大约3 0 。 m p e g 4 是一种能够满足数字电视技术需求的多媒体标准,第一版在1 9 9 8 年提 出。m p 4 一s a 是m p e g 4 标准的结构化音频0 s o i e c1 4 4 9 6 3 s e c t i o n5m p e g 4 s t r u c t u r e d a u d i o ) ,它是以各种方式高效、灵活地描述声音的组工具的集合体。从压 缩编码原理角度比较,它采用固定的模型来代替物理发音,从结构描述的角度来压 缩音频信息,而m p e g 2 a c c 采用心理听觉模型咀去除听觉敏感冗余数据。 m p e g 7 标准是为了满足互联网上数据检索查询传输等需求而指定的,以提供 2 1 绪论 视听内容信息的描述方案。不局限于某些与特殊应用紧密联系的特征提取算法和搜 索引擎,也不依赖于被描述内容的编码和存储方式,m p e g 7 所支持的音频方面需 求包括:允许标引者设定合理的误差以适应查询所需求的旋律和其他音乐特征机制; 基于与数据相关信息的描述的机制。 以上讨论了几种主要的音频编码方案,这些方案大多数采用了一定的数据压缩 方法,以达到应用的需求。本论文中使用的算法就是m p e g 1 中层三算法,算法原 理将在第二章具体阐述。 1 2 算法的实现方法 各种不同的编解码算法方案是根据不同的应用制定的,算法方案的实现方式也 就于应用场合密切相关。从总体上来将,音频压缩算法有三种实现的方案1 2 i : 软件实现这种方法使用于计算机上的音频应用和组合多种娱乐功能的 便携式设备中,只需要进行音频数据的软件编解码过程。编解码算法可以用各种编 程语言实现,然后按照需要进行相应的解码或者存储、传输操作。计算机之间交互 音频数据、播放歌曲时,就使用的这种软件实现方法。 硬件实现这种方法使用于应用设备上的算法实现。硬件电路根据算法原 理对原始音频数据进行相应的处理变换,以获得所需要的数据格式。在算法比较简 单的情况下,硬件实现的速度非常快。 软硬件实现这类方法一般是针对在具体应用设备上,需要进行比较复杂 的音频算法实现的情况。应用设备要求实现相应的处理,但纯粹的硬件实现复杂度 和技术难度都比较高因此在硬件上嵌入处理器,处理器中实现算法的软件编程, 从而实现整个应用系统的功能需求。 这样,具体使用哪种实现方案,需要根据具体情况来确定。本论文实现的m p 3 播放器解码采用并实现了两种方案:一种是以单片机作为核心控制器的播放器,它 的m p 3 解码采用的是s s t 公司的s t a 0 1 3 解码芯片来进行解码的;另一种是以d s p 为核心控制器的播放器,它直接采用软件在d s p 上解码。后一种实现的难度高。 1 3m p 3 播放器介绍 用m p e g 层三算法压缩处理后的文件统称为m p 3 文件,能够对m p 3 文件进行 解码并还原声音的系统都可以被称为m p 3 播放器。这样,m p 3 播放器也有两种类 型,种是在计算机上运行的软件,能够解码m p 3 文件,并用声卡输出还原的声音 信号:另一种是可以播放m p 3 音乐的设备,设备的存储介质中存放着m p 3 文件, 播放器能够解码这些文件,并把还原的声音信号用喇叭、音箱或是耳机等输出出来。 我们称这种设备为便携式m p 3 播放器。 重庆大学硕士学位论文 便携式m p 3 播放器需要有闪速存储器来存储m p 3 源文件,有一个解码器以进 行m p 3 的解码,系统中的微控制器负责协调各个模块的工作,输出部分需要有功率 放大器和扬声器,以输出声音码流,同时,播放器还应该有一个与p c 机连接的接 口,用来下载歌曲文件【3 j 。便携式m p 3 播放器的系统结构如图1 1 所示。 用户通过p c 机与m p 3 播放器的连接电缆把获得的m p 3 文件下载到存储器中, 微控制器将m p 3 文件从存储器中读出形成m p e g 码流,送到解码器中,解码后的 p c m 信号再送到音频模数转换器形成模拟信号,经过功率放大器放大后就可以用耳 机欣赏到c d 效果的音乐了。 图1 1 便携式m p 3 播放器原理框图 f i 9 1 1p o r t a b l em p 3p l a y e rf r a m e 由于m p 3 算法能以l o n 2 0 的压缩比率获得相对人耳几乎无损的压缩音频信号, 具有比较好的压缩特性,如今m p 3 格式已经成为互联网上最流行的音乐格式,并且 在一段时间内保持它的主流地位。便携式m p 3 播放器产品设备体积小,功耗低, m p 3 歌曲的资源也很广泛,可以看出,这种产品拥有广阔的时常前景。 1 4 本论文的工作和论文的结构 目前,数字消费品都在向多功能化,集成化发展。数码相机也是这样,目前厂 商都在走高端和低端两种路线,高端主要是高像素的c c d 的开发应用,由于高像 素的c c d 关键技术国外厂家处于优势地位,因此走高端路线的基本都是国外的厂 商:低端则是集成多种功能于一体,例如把数码相机和m p 3 播放器融为一体,增强 产品的娱乐功能,这样产品的性价比高,适合中国的国情。本课题就是在这样的背 景下提出的。开发工作主要分以下几步进行。第一步:设计开发独立的m p 3 播放器; 第二步:设计基于d s p 的m p 3 解码器;第三步:把m p 3 解码器嵌入数码相机中。 本论文的内容围绕第一步和第二步展开,即独立的m p 3 播放器和解码器的殴计开 发。 基于单片机的m p 3 播放器的开发主要包括以下几个方面的工作: 一 单片机外围接口电路的设计: 1 绪论 解码芯片的配置; c f 卡的使用; 一u s b 接口的开发; 单片机控制软件的开发。 基于d s p 的m p 3 解码器开发过程主要包括以下几方面的工作: 核心解码算法的c 程序开发: 解码算法的d s p 平台移植; 解码器硬件电路设计阡发; 解码器系统调试。 2 音频编解码原理 2 音频编解码原理 2 1 采样和量化 音频信号的变化包括时域和幅度域的变化。计算机处理的对象是数字信号,要 在计算机中存储一首歌,必须对输入模拟信号进行采样和量化。通过采样,把连续 的时间信号转换成离散的时间信号,实现时域的离散化,再通过量化,把采样得到 的信号幅值转换成数字的离散的幅度值,实现幅度域的离散化,这一过程也成为a d 转换。人耳所能感知的音频信号的范围为2 0 h z - - 2 0 k h z 。根据奈奎施特采样定理, 采样频率至少为信号中所包含的最高频率的2 倍,以避免混叠效应。考虑到滤波器 的非理想特性,采用提高频率的办法来补偿,也就是把采样频率提高到比奈奎施特 频率高就可以了f l 。因此,目前市面上所出售的诸如数字唱片的高保真度音响产品, 均采用4 4 1 k h z 的采样频率。 在量化过程中,有一定数量的误差或失真引入到样本值中,这种误差称为量化 噪声。对同样幅度范围的信号,量化等级决定了量化后信号的质量。量化等级数目 越多,即采用二进制数表示幅度的位数越多,量化噪声就越小,反之,量化越粗糙, 即采用的的码位越少,则恢复后的音频信号与原始信号之间的误差损失越大。为了 保证输入信号的动态范围,而又要使量化噪声小,这就要求增加每个样本的位数。 这就是为什么高质量的保真音箱要采用1 6 位二进制来表示。量化噪声还决定了所能 达到的最大信噪比( 当然,其他因素诸如输入滤波器和模拟处理过程也会引入些 附加噪声) 。信噪比通常用d b 数表示。定义为:s n = 1 0 l o g ( s n ) 2 - 2 0 l g ( s n ) ,其中s 为信号电压值,n 为噪声电压值。从式中可以看出,信噪比d b 数与量化比特数成正 比。当量化噪声为l 比特时,意味着在量化过程中量化精度每增加一个码子,信噪 比将增加大约( 2 0 t o g ( 2 ) ) = 6 a b 。c d 的数据格式为1 6 位,最大信噪比可达9 6d b 。其 他专业产品采用1 8 位或者2 0 位的数据格式以达到更高的信噪比。 以4 4 1 k l l z 频率采样一个立体声信号,每个采样点为1 6 位,则要求 1 4 m b i t s ( 4 4 1 k + 1 6 t 2 ) 的传输速率。这无论对硬盘还是网络传输来说,一段几分钟的 音乐数据流的数据量就显得实在太大了。 2 2 音频数据压缩方法 为了满足存储容量和传输速度的要求,必须对如此巨大的数据量进行压缩。数 据压缩的方法有两种:无损压缩和有损压缩。典型的无损数据压缩方法包括对重复 数据流的检测,统计经常发生的符号,并用长度较短的记号来表示。这种方法使用 于文本、计算机程序和其他一些具有较高的时间冗余度的数据流。然而,对音频数 重庆人学硕二b 学位论文 据和图像数据来说,采用传统的方法并不能达到很高的压缩比。例如,一个采样后 的音频文件经过通用的文件压缩器( p k z i p 或g z i p ) 压缩后,长度仅仅减少了 1 0 1 5 ,远不能满足使用的要求。因此,用于数据音频的有损压缩算法不断涌现, 不同的算法有不同的音质损失,可以按时域和频域来划分。 一个通常的方法是对连续采样点的差值进行计算和量化,或是对下一帧的实际 值与预测值之间的差值进行计算和量化,而不是针对这些样本点本身。这些差值 误差项同原始样本值相比具有更小的值,更适合于量化。这就是通常所说的差分脉 冲编码调制( d p c m ) 。根据当前信号特征对预测值进行调整的方法叫做自适应差分 脉冲编码调制( 即a d p c m ) 。根据所要求的质量,用这种方法可以将语音信号压缩 为1 6 4 0 k b i t s 。 另一个对语音信号进行压缩的方法是对声道进行建模,从话音波形中抽出与原 理模型有关的特性参数,对参数进行编码,译码时用特性参数去激励话音生成模型, 产生合成话音。由于仅对参数编码,因此压缩比可以做的很高。这种压缩器称为声 码器。例如线性预测编码l p c ,它可产生速率仅为2 4 k b i t s 的码流,但失真太多, 声音听起来有点刺耳难听。l p c 与矢量量化v q 相结合,产生了c e l p ,即随机代 码激励线性预测编码。他不仅具有i - p c 的功能,而且还尽可能多地传送误差项而不 超出给定的码速限制。使用码速为4 8 k b i t s 的c e l p ,就可获得不错的具有电话质 使用频域压缩器可以获得具有更高压缩比的高音质的音频【1 3 】。例如,子带编码 s b c 。其方法是:用一组带通滤波器b p f 把输入音频的频带分成若干连续的频段, 每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道 上传送时,将每个子带的代码附复合起来。在接受端译码时,将每个子带的代码单 独译码,然后把他们组合起来,还原成原来的音频信号。 厂l 广广上1 雠嗡耋主如lpc测鼢l l 乍誓:廿4e 黔咒 - - a d p c m 。 现在有许多不同的频域音频压缩标准,但是最成功的标准都使用相同的基本原 图2 i 给出了音频压缩方法的分类表,在具体应用中,采用什么样的压缩方法, 2 音频编解码原理 一般都是根据原始数据的数据特点来选择的。 2 3 音频压缩的声学原理 数字音频信号得以压缩的理论依据首先是原始信号本身存在着冗余度,其次是 利用人类的听觉感知系统对某些失真不敏感的特性,即人耳的心理声学模型p 】1 8 i 。 信号的冗余度又包含两个方面:一是客观冗余度,它是可以计算的,同时用来确定 音频信号的某些数字上可预测特性的数量,如周期波形。二是主观冗余度,指由于 人耳的听觉特性,音频信号中包含着被人耳忽略的分量。 翻事( k i l l ) 圈2 2 频率掩蔽效应 f i 9 2 2f r e q u e n c ym a s k e f f e c t 人耳的听觉特性涉及心理声学和生理声学的问题。例如人耳对不同频率的声音 感觉不同就是生理方面的问题,其中对2 k h z 4 k h z 的声音最敏感,且低频较高频 敏感。敏感程度具体体现为静态掩蔽阈值,如图2 2 虚线所示,表示在安静的情况 下,各种频率的声音刚好被听到的音量。与人的心理知觉有关的有掩蔽效应等。掩 蔽效应指一个声音的听觉感受受到另一个声音影响的现象,分为时间掩蔽( 前向、 后向掩蔽) 和频率掩蔽( 同时掩蔽) 。例如,当一个较强的声音停止后,要过一会儿 才能听到另一个较强的声音,这就是时间掩蔽效应。频率掩蔽是指一个声音对与其 同时存在的临近频率的声音产生的影响,如图2 2 实线所示。其中标志1 的实线表 示:当i k h z 的掩蔽声音为6 0 d b 时,不同频率的声音刚好被听到的分贝值,可见越 临近频率被掩蔽得越厉害,且低频更易掩蔽高频。 因此心理声学模型就先用f f f 分析信号中包含的频率分量,将每个频率处受到 其他所有频率分量掩蔽的值加起来,连线得到的曲线就是掩蔽闽值,是频率的函数。 当某频率分量的能量处曲线下方时,不能被人耳感觉到,则该频率分量可用零比特 编码;另一方面,选择量化阶时若能保证量化噪声低于掩蔽曲线,也不被人耳察觉, 所以掩蔽值越大的频率分量量化阶可以越大。因此用掩蔽阕值作为量化编码的依据, 就能够保证压缩后的声音质量。由于声音信号随时间改变,因此每帧信号都要计算 两次心理声学模型,其中要用到大量的实验测试数据,运算量之大是可想而知的。 m p e g 音频压缩标准1 4 l 【5 1 ,i s o i e c1 1 1 7 2 3 ,定义了三个层次的音频压缩算法, 重庆人学硕士学位论文 层号随编码器的复杂性和性能一起增加。i s o i e c1 1 1 7 2 3 声频层n 解码器能对层n 以及n 以内所有层编码的比特流数据进行解码。 层i 此层包含从数字声频输入到3 2 个子带的基本变换,按固定分段方式将数据 格式化成块,心理声学模型决定自适应比特分配,量化采用块压扩和格式化。对层 i 理沦上最小编码或解码时延大约是1 9 m s 。 层i i 此层提供比特分配、比例园子、样点的附加编码。采用不同的分帧方式。 对层理论上最小编码或解码时延大约是3 5 m s 。 层i i i 此层引入综合滤波器组以提高频率分辨率。它增加一个不同的d e 均匀1 量 化器,自适应分段和量化值的熵编码,对层i 理论上最小编码或解码时延大约是 5 9 m s 。 联合立体声作为附加特点能被加入任何一层中。 图2 3m p 3 编码流程框图 f i 醇3 m p 3c o d ef r a m e 2 。4m p 3 编码原理及其流程框图 2 4 1m p 3 编码过程 m p 3 编码过程的方框图如图2 3 所示,输入的p c m 音频数据是按帧( f r a m e ) 处理 的,每1 1 5 2 个p c m 样值划分为一帧,而每帧又分为两个颗粒( g r a n u l e ) 。即5 7 6 样值颗粒。 1 0 2 音 ;i i 编解码原理 m p 3 的压缩实质上属于有损压缩,实现压缩的理论基础是人体的听觉系统掩蔽 效应,包括时域掩蔽效应和频域掩蔽效应,而主要应用了频域掩蔽效应。为有效地 应用频域掩蔽效应,需要对每每颗粒的5 7 6 个p c m 样值作时域频域变换:首先p c m 数据送入子带分析滤波器组,经子带滤波后地划分为3 2 个子带信号s b 0 一s b 3 1 ( 每 子带1 8 个样值) :然后,分别对各子带作m d c t ( 见图2 4 ) ,从雨i 得到5 7 6 个等间 距的频域样值x 0 一x 5 7 5 。 经过时频域变换而得的左右声道频域样值需要根据所要求的模式( m o d e ) 进行 声道模式处理。对m p 3 而占,共有以下稀模式: 立体声模式( s t e r e o ) :具有两个声道且两声道之间有一定关联的模式。 单声道模式( m o f l o ) :只有一个声道的模式。 双声道模式( d u a lc h a n n e l ) :具有两个声道但两声道之间没有关联的模式。 常用于双语言节目中。 强度立体声模式( i n t e n s i t ys t e r e o ) :在立体声模式的基础上,对某些比例因 子带内的样值,仅对左右声道之和以及子带能量比进行编码以获取更高的压缩率。 v 。勰“,州m ,际i f 鼍 l 卜彳_ 抗 h ( 1 ) ( 2 ) 川1 7 ) :,叵牟 混 叠 i ; 处 州t 勰朋m 、州,际磊_ f 理 l 卜弋, 圄2 4m d c 盼解方框图 f i 9 2 4m d c t d e c o m p o r f r d l l o 和差立体声模式( m ss t e r e o ) :对左右声道频域样值的和值以及差值分别进行编 码的立体声模式。 经模式处理后的频域样值,就可以进行量化和编码了。所采用的是非均匀量化, 量化过程处于两重迭代循环中,而且每循环一次都要对每个频域样值执行一次量化, 因此耗时较多。对量化结果采用霍夫曼( h u 缸l a n ) 编码方式,虽然运算量较多,但有 利于运用信号的统计特征提高压缩率。 量化是在心理声学模型的控制下进行的。原始的p c m 数据流分为两路,一路进 入子带分析滤波器,另一路经过适当延时后进入心理声学模型。心理声学模型是对 掩蔽效应的具体应用:它在对当前音频信号的频域特性进行分析的基础上,依据已 预先建立起来的统计模型数据求出各个比例因子带的信号掩蔽比,并依次指导频域 重庆大学硕士学位论文 样值量化的进行,使得量化噪声尽可能地分布在不易察觉的频带。 编码过程的晟后一个环节是比特流打包。其任务是按照m p 3 标准所规定的码流 格式,把帧头、纠错码、副信息、主数据、附加数据等有关信息组合成使用于解码 的帧,所以又称之为帧生成过程。 2 4 2 子带编码 m p e g 音频采用子带编码s b c ( s u b b a n dc o d i n g ) 。子带编码是把输入的音频信号 频带分割成若干个频带,每一个频带称为子带,将每一个子带中的音频信号单独编 码。信道传输中把每一个子带的代码复合起来,信道接受端由译码器分别对每一个 子带单独译码,然后再组合输出原始音频信号。 层一、层二采用卷积滤波器在频域上把音频信号分成3 2 个子带:然后用音质模 型确定每个频带被邻近频带掩蔽的总量,从而确定对子带编码的数量。为了提高编 码质量、增大压缩比,层三除了采用层一、层二的编码方式以外,还引入滤波器组 与正交变换相结合的混合滤波器组,自适应字长,减少混迭失真的电路及非均匀量 化和可变长的熵编码等。这些都大大提高频率分辨率,并消减数据的冗余度。 层三编码时首先利用滤波器把音频信号在频率上分割成3 2 个子带,然后使用 m d c t 把每一个子带分成1 8 个频率行,从而在频率上分离出5 7 6 个频段,把频率 分辨率提高到一个更好的层次。其中每一帧包含1 1 5 2 个样本频率;每一个子带则包 含3 6 个样本频率。其次,通过f f t 变换对音频信号进行予带分析,计算门限值, 确定音质模型和缩放因子以对子带样本进行量化,然后对量化值进行h u f f x n a n 编码, 最后把压缩后的音频信号进行格式化处理并进行传输。 2 4 3h u f f m a n 编码 对于谱线的量化值,层三采用了h u f f m a n 编码以进一步提高编码性能。对于一 个块的谱线量化值,大数值一般位于低频区,而小数值一般位于高频区。通常将整 个频谱划分成三个区域:从高频开始为连续的零值,成为零值区,划分时将该区的 谱线取为偶数。接下来的谱线量化值为o ,+ 1 或1 的区域为c o u n t l 区,其包含的谱 线数应为4 的倍数。剩下的谱线成为大数值区。其必然包含偶数根谱线。 在进行h u t l r a a n 编码时,大数值区内以两根谱线为一组进行编码。为了提高压 缩效果,一般将大数区进一步分成两到三个子区域,每一个子区域采用不同的 h u f f m a n 码表进行编码。对于c o u n t l 区,以四根谱线为一组进行编码。而零值区显 然无需编码。 2 4 4 联合立体声编码 在层三中,可以单独采用w s 立体声和强度立体声这两种联合立体声模式,也 可以混合使用。 m s 立体声模式:利用了普通立体声的两个声道信号相互问的冗余度,用一 2 音频编解码原理 个声道传送左右两个信号之和,另一个声道传送两个声道之差,从而提高编码的压 缩性能。 强度立体声模式:该模式基于生理学的一个结果:在高频( 大约2 k h z ) 的临界 频段内,人耳对立体声音频信号的感知结果取决于音频信号的瞬时包络而不是瞬时 的精细结构。因而在强度立体声模式下,对一些子带只传送两个声道信号的叠加值 以代替传送两个声遒的音频信号值,同时传送左右声道各自的比例因子以维护立体 声音频信号的真实性。 2 5m p 3 解码原理 层三的标准码流数据解码过程按功能展开,如图2 5 所示。 污再酌 输入比特流查找标题 侧信息解码 比例因子解码 哈夫曼数据解码 再量化频谱 频谱重 : | 序 眭合立体声处理( 如采用) 减小混迭 通过i 船c t 综合并重叠 通过多项滤波器组综合 输8 j p c m 样点 结束 图2 5 层三解码器流程图一 f i 9 2 5l a y e ri hd e c o d ef l o wc h a r t 2 5 1 帧定位 首先解码器要对输入比特流同步,查找帧同步字“1 1 1 1 1 1 1 1 1 1 1 1 ”,确定帧的起 始位罱,然后读出标题( 包括同步字在内的前面3 2 位。 2 5 2 侧信息解码 侧信息中包含霍夫曼解码和反量化、立体声处理等过程所需的参数。必须从比 特流中提取并保存起来在有关帧的解码过程中使用。 2 5 3 确定主数据的起始位置 d 于层三在编码数据的时候,为了获得更好的压缩比,采用了一定的方法,使 得主数据( 比例因子和霍夫曼码) 的开始位置并不一定在侧信息之后,具体见第三 章。主数据的起始位置由“主数据起始指针”定位。当下一帧的标题到达输入缓冲 器时,所有的数据都驻留在缓冲器中。当解码主数据时,解码其必须跳过标题和侧 信息,他们的位置可以从比特率索引和填充位知道。标题的长度总是4 字节,侧信 息的长度在单声道时为1 7 字节,在其他方式下为3 2 字节。主数据能够跨越多于一 重庆大学硕士学位论文 个帧的标题和侧信息。 2 5 4 缓冲器设计 缓冲器的长度为7 6 8 0 比特,它是所有比特率下最大所需的缓冲器长度。在层三 的最高比特率( 每个立体声信号为3 2 0 k b i t s ) 和4 8 k h z 采样频率下,平均帧长为 f 3 2 0 0 0 0 4 8 0 0 0 ) x 1 1 5 2 = 7 6 8 0 比特。 2 5 5 比例因子解码 比例因子按照s l e n l 和s l e n 2 解码。而s l e n l 和s l e n 2 由比例因子压缩信息决定。 当解码第二个颗粒时,必须考虑s c f s i ,对于s c f c i 为“l ”的比例因子带,第一个颗 粒的比例因子也用于第二个颗粒,所以对于第二个颗粒它们不发送比例因子。 比例因子编码的比特用符号p a r t 2l e n g t h 表示,计算如下: 对于b l o c k _ t y p e = = 0 ,1 ,3 的长块 p a i l 2 一l e n g t h = l l + s l e n l + 1 0 + s l e n 2 对于b l o c k _ t y p e = = 2 且m i x e d _ b o o k - f l a g = = 0 的块类型 p a r t 2 _ ) e n g t h = 1 8 + s l e n l + 1 8 + s l e n 2 对于b l o c k _ t y p e = = 2 且m i x e d _ b o c k _ f l a g = = l 的块类型 p a r t 2 _ l e n g t h = 1 7 4 s l e n l + 1 8 s l e n 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论