(计算机系统结构专业论文)便携式音频编码系统设计与实现.pdf_第1页
(计算机系统结构专业论文)便携式音频编码系统设计与实现.pdf_第2页
(计算机系统结构专业论文)便携式音频编码系统设计与实现.pdf_第3页
(计算机系统结构专业论文)便携式音频编码系统设计与实现.pdf_第4页
(计算机系统结构专业论文)便携式音频编码系统设计与实现.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s l 旺u c t 5 t e s tt h ei m p l e m e n t a t i o no f o u rm p 3e n c o d i n gs y s t e m a n dd or e s u l ta n a l y s i s i nc o n s i d e ro ft h ec o s t , i no r d e rt oi m p l e m e n tr e a l t i m em p 3e n c o d e ro nl o w c o s t h a r d w a r e ,w en e e dt os a c r i f i c et h ee n c o d i n gq u a l i t y i nt h i st h e s i s ,w eg h ead e s i g na n d i t si m p l e m e n t a t i o no ft h em p 3e n c o d e rb a s e do i lf i x p o i n td s p ,w h i c hg i v e sah i 曲 q u a l i t ym p 3r e a lt i m ee n c o d e ro ul o w c o s td s p i th a sp r a c t i c a ls i g n i f i e n n e et oo l h e r d e s i g no nl o w e n s th a r d w a e t 抽u g ht h et e s t s ,t h es y s t e mt u r n so u tt oh a v e 出ca b i l i t yt oe n c o d i n gm p 3 c o m e i na i dc a l lm e e tt h ep e r f o r m a n c eo f r e a l - t i m ee n c o d i n gr e q u i r e m e n t k e y w e r d s :m o b i l e ,a u d i o ,e n c o d i n g ,d e c o d i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:j ! i 塾日期:知。1 年牛月邵日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:兰氲起导师签名:受益望公 日期:p 叼年午月巧日 第一章结论 第一章绪论 随着移动终端应用的发展,越来越多的功能被添加到移动终端上,除了无线 网络应用,音乐播放,视频播放,录音等越来越多的多媒体应用被支持。在实现 这些多媒体应用过程中,可以采用多种硬件结构以及系统框架,并且可以选择提 供对不同的音频或者视频编码解码的支持。 本章将简要介绍便携式音频编解码系统的基本结构和发展概况。最后介绍本 论文的总体结构和拟开展的工作。 1 1 便携式音频解决方案的发展概况及现状 1 1 1 国内外发展现状 耳前,由于手持设各的翅速发展,国内外有很多公司都在致力于使携式音频 解决方案的发展。国外主要有t i 等公司领头提供了集成度很高且功能强大的解决 方案,例如t i 公司的开放式多媒体应用平台( 0 m p ) 处理器内含一个增强型a r m 处 理器( a r m 0 2 5 ) 和低功耗定点d s p ( t , l i s 3 2 0 c 5 5 x ) 。设计这一双核心组件的目的就 是为了有效处理多媒体应用和i ( m a nm a c h i n ei n t e r f a c e ,入机接口) 应用, 由于有辅助的d s p 支持,这些处理器的运算功能相当强大,在支持音频处理的同 时,还支持视频信号的处理,这种方案主要被用于对音频晶质要求较高的应用中。 而国内主要有珠海炬力集成电路等公司领头,提供音频解决方案。珠海炬力集成 电路公司主要为手机和便携式的m p 3 播放器提供音频解码芯片。 在实际应用中,目前主要有几种方法来实现便携式音频解决方案: 单颗d s p 这种方法多用于实现便挠式m p 3 播放器,或录音笔等简单应用。 例如r i c r o n a s 的滁s 3 5 0 7 d 音频信号处理器搭配该公司的d a 转换器d a c 3 5 5 0 a 便可组成一个便携式m p 3 播放机。 单颗处理器 这样的方案不光可以处理多媒体的编解码,同时还可以运行操作系统,可 电子科技大学硕士学位沦文 以运用于手机等平台上。 例如c i r r u si j o g i c 发布了其e p 7 2 0 9 系统级芯片便携式音频解决方案,该 芯片同样可以支持m p 3 和其它较流行格式,c i r r u sl e g i c 采用可编程a r m 处 理器作内核的结构,这样便携式设备铝 造商能够很方便地融入最新的技术。 集成处理器和d s p 这样的方案不光可以运行操作系统,还有专门的d s p 硬件用于辅助系统进 行各种运算,以加快多媒体编解码的速度。 例如t i 公司的开放式多媒体应甩平台( o 姒p ) 处理器内含一个增强型a r m 处理器( a r m 9 2 5 ) 和低功耗定点d s p ( t m s 3 2 0 c 5 5 x ) 。设计这一双核心组件的 目的就是为了有效处理多媒体应用和m m i ( m a nh a c h i n ei n t e r f a c e ,人机接 口) 应用。在这两个核心巾,a r m 9 2 5 用于执行操作系统( o s ) ,而d s p 用于处 理所有多媒体应用。 1 1 2 音频编解码 近几十年来电子技术进步突飞猛进,以往影像、声音等,都是以模拟的方式 储存在磁带、唱片等媒介上,随着微电子、计算机和传感器等技术的高速发展, 图像、声音等媒体信息的记录、存储和传输正在朝着数字化方向前进。随着数字 时代来临,开始有高储存密度如光盘发明,但是音乐光盘只是单纯将模拟音讯数 字化,而没有经过压缩,所产生的数据量非常大,这就需要数字音频处理。数字 音频技术则称得上是应用最为广泛的数字技术之一,c d 、v c d 等早己走进千家万户, 数字化广播正在全球范围内逐步得到开展由干数字音频压缩技术具有广阔的应用 范圈和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自 己的专利技术和产品。 w a v 格式是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早 的数字音频格式,被w i n d o w s 平台及其应用程序广泛支持。w a v 格式支持许多 压缩算法,支持多种音频位数、采佯频率和声道。采用4 4 i k h z 的采样频率,1 6 位量化位数,因此w a v 的音质与c d 相差无几,但w a v 搭式对存储空间需求太 大不便于交流和传播。 d i ( m u s i c a li n s t r u m e n td i 西t a li n t e r f a c e ) ,m 毋i 允许数字合成器和冀他设 备交换数据。m i d 文件格式由m i d i 继承而来。m i d 文件并不是一段录审l 虫子的声 音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。这样一个 2 第一章绪论 m i d i 文件每存1 分钟的音乐只用大约5 1 0 k b 。今天,m i d 文件主要用于原始乐 器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。m i d 文件在手机平台 上主要用于铃声的存储和播放。 m p 3 的全称是m o v i n g p i c t u r ee x p e r t sg m u pa u d i ol a y e r i 。简单的说,m p 3 就是一种音频压缩技术,由于这种压缩方式的全称叫m p e ga u d i ol a y e r 3 ,所以人 们把它简称为m f 3 。m p 3 是利用m p e ga u d i ol a y e r3 的技术,将音乐以1 0 :t 甚 至1 2 :1 的压缩率,压缩威容量较小的文件,换句话说,能够在音质丢失很小的情 况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为m p 3 体积小,音质好的特点使得m p 3 格式几乎成为网上音乐的代名词。每分钟音乐的 m p 3 洛式只有1 m b 左右大小,这样每首歌的大小只有3 4 兆字节。 a a c 是高级音频编码( a d v a n c e da u d i oc o d i n g ) 的缩写,它是一种高压缩比 的音频压缩算法,压缩比远远超过了m p 3 等较老的音频压缩算法( 可达2 0 :1 ) 。 目前,苹果的i p o d 和其它的一些高档m p 3 随身听均已经对a a c 音频格式提供了 支持,a a c 音频采用a a c 或m p 4 作为文件扩展名。 a m r ,全称a d a p t i v em u l t i r n t e 和a d a p t i v em u l t i r a t ew i d e b a n d ,主要用于 移动设备的音频,压缩比比较大,但相对其他的压缩格式质量比较差,多用于人 声,通话。 以上介绍的目前主流的编码解码格式总结如下: 姒v 格式 其优点是使用方便,编码解码算法复杂度很低。 缺点很明显,压缩率低,体积庞大,不便于存储。 m i d 格式 其优点是体积小。 缺点是主要应用于乐音的记录,不适合用于其它应用。 m p 3 格式 其优点是使用方便,压缩比卿大,体积小便于存鸱,压缩品质好。 缺点是编码解码算法复杂度较高。 a a c 格式 其优点是编码效率高,压缩比例大,体积小便于存储,压缩品质好 电子科技大学硕士学位论文 缺点是压缩算法复杂度很高,不便于使用。 a m r 格式 其优点是压缩效率高,压缩比例大,体积小便于存储。 缺点是压缩算法复杂度较高,不便于使用,压缩品质一般。 通过比较可以发现,m p 3 仍旧是最方便使用,且压缩效率高,压缩品质好的 一个音频格式。 m p 3 是m p e g 1 音频标准的一部分。m p e g l 音频压缩标准( i s o i e c1 1 1 7 2 3 ) 是第一个高保真音频数据压缩标准。忡e g 一1 音频压缩标准虽然是仲e g 一1 标准的 一部分,但它完全可独立应用。在m p e g 1 压缩中,包括了三个使用高性能音频 数据压缩方法的感知编码方式。按照压缩效果和编码方法的复杂度分别是层 ( l a y e r ) i 、层i 【、层i i f 。由于在制订标准时对许多压缩技术进行了认真的考察, 并充分考虑了实际应用条件和算法的可实现性,因而三种模式都得到了广泛的应 用。v c d 中使用的音频压缩方案就是m p e g - 1 层i ;丽, q u s i c a m 由于其适当的复杂 程度和优秀的声音质量,在数字演播室、d a b 、i ) v b 等数字节目的制作、交换、存 储、传送中得到广泛应用。它们除了用传统的频谱分析和编码技术外,在基础上 还应用了次频带分析和心理声学模型理论,也就是通过研究人耳和大脑听觉神经 对音频失真的敏感度,在编码时先分析声音文件的波形,利用过滤器找出噪音, 然后滤去人耳不敏感的信号,最后编码形成i p e g 文件。 层i 即m p e ga u d i ol a y e r3 ,简称m p 3 ,m p 3 的复杂度最高,编码不易实 现。m p 3 对音频信号采用的是有损压缩方式,它使用了心理声学模型来计算压缩 过程中所产生的噪音,利用人类的听觉模型将人类不敏感及无法辨识的音讯去除, 而不会被察觉,所以在减少数据量的同时,也能维持重建后音讯讯号的品质。为 了提高编码效率,采用了非均匀量化和h u f f m a n 编码。m p 3 是一个在低比特率下 提供高保真音频的压缩标准。由于m p 3 在低码率条件下高保真的声音质量,使得 它成为网络广播的流行标准。m p 3 的压缩率则高达l o :l 1 2 :1 。也就是说,一 分钟c d ( 4 4 1 0 0 h z x l 6 b i tx 2 ( s t e r e o ) 6 0 s e c o n d ) 音质的音乐,未经压缩需要 1 0 m b 的存储空间,而经过m p 3 压缩编码后只有1 m b 左右。将音乐以1 0 :l 甚 至1 2 :l 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的 情况下把文件压缩到更小的程度,而且还非常好的保持了原来的音质。正是因为 m p 3 体积小,音质高的特点,使得m p 3 格式几乎成为网上音乐的代名词。每分钟音 乐的m p 3 格式文件只有1 m b 左右大小,这样每首歌的大小只有3 - 4 兆字节。使用 4 第一章绪论 m p 3 播放器对m p 3 文件进行实时的解码,这样,高品质的m p 3 音乐就播放出来了。 因此非常适合在消费类电子产品中使用。 数字音频压缩技术给电子业界带来巨大的商机,数字音频压缩技术在便携式 音频设备上的应用更是广泛,m p 3 等数字音频压缩技术目前最为现实的应用是便 携式编解码器。将来在便携式移动设备中也可以用上此项技术。m p 3 将会出现在 汽车内,取代现在的c d 插放机。m p 3 还可以用于移动通信领域,因为这种应用 特别需要高数据压缩率、高音质和低功耗。总之,凡涉及数字音频的地方都可利 用m p 3 音频技术。便携式m p 3 编解码应用前景十分广阔。 1 2 本论文的选题和研究内容 1 2 1 本文所提出的便携式音频解决方案 本论文将基于旺宏电子( m a c r o n i xe l e e l r o n i c s ) 的芯片a 1 6 8 ,设计和实现便 携式应用的高效高质量的编码和解码。并且以m p 3 的编码实现为例,详细介绍整 个便携式音频解决方案的设计和实现。 在实现过程中有诸多问题需要解决,下面是便携式音频编解码系统设计和实 现中可能遇到的问题及拟采用的解决办法: 1 由于m p 3 编码器算法的复杂性,同时出于成本考虑,我们所选用的d s p 芯片是旺宏电子公司的m x i c 2 5 3 8 ,这款芯片能达到1 0 0 m i p s ,有3 2 k 的程序存 储器和2 4 k 的数据存储器。资源较为紧张,因此,修改和优化m p 3 算法成为了一 个关键的过程。在m p 3 编码中,提供了c b r ( 固定比特率) ,v b r ( 可变比特率) , a b r ( 平均比特率) 几种编码模式,在有限的d s p 资源上,我们可以自己选择适 当的质量等级( 不同的质量等级对应着不同的算法复杂度) ,同时确定合适的编码 模式( c b r 运算复杂度最低) 。由于编码过程中最耗资源的部分是量化 ( q u a n t i z a t i o n ) ,大约要占5 0 的时间,因此在这部分中,需要进行大量的算法修 改和优化,使速度达到最优。 2 由于m x i c 2 5 3 8 是一款定点1 6 位d s p 芯片,所【:l 在设计的过程中,必须 考虑到如何进行定点实现。在编码过程中,数据的动态范围很大,但该d s p 也不 提供浮点支持,所以需要提出合理的定点解决方案。并且,为了提高编码质量, 在一些对数据精度要求较高的模块我们采用模拟3 2 比特的运算来提高精度。 3 为了验证我们的m p 3 编解码算法可行,我们在p c 机上的进行了模拟定点 电子科技大学硕士学位论文 实现,并统计相关的资源消耗,再有针对的进行优化。 1 2 2 本文所提出的便携式音频解决方案的特点 本文主要针对手讥系统集成音频应f i 提出便携式音频解决方案,主要有以下 特点: 成本低,采用由旺宏电子推出的专用于移动音频方案的芯片a 1 6 8 : 可扩展性好,通过d s p 固件实现编码解码,在不改变目前硬件的情况下,可 以随时按需要增加对新的多媒体格式提供支持。目前我们支持m p 3 的编码和解码, 以及a a c 的解码,j p e g 解码,下一步可能再加入其他多媒体格式的支持,我们 只需要对新的格式编写新的同件来支持; 本文中所介绍的m p 3 编码实现,主要通过更改和优化来提高编码效率高,以 提供高质量的编码,并且经实验验证,可以满足实时编码的需求。 本论文所介绍的m p 3 编码实现将提供以下特性: 1 实现高压缩比,低失真的m p 3 音频的压缩与还原:在嵌入式平台上实现 m p 3 的编码与播放; 2 提供以下采样率的设置,包括: ,8 1 d q z t1 2 k h z ,1 1 0 2 5 k h z ,1 6 k h z ,2 2 0 5 k h z ,2 4 k i t z ; 3 提供不同比特率的设置; 4 提供不同的压缩品质供选择: 5 l r m s 模式选择; 1 3 论文的组织 本论文通过对便携式音频编解码系统的结构设计分析,完成了便携式音频编 解码系统的设计以及m p 3 编码功能的实现。论文在结构上力图尽可能体现整个 系统以及具体编码功能的设计和实现,遂将本论文分为以下几章: 第一章绪论 主要介绍课题研究的相关技术背景和当前动态,说明本课题的来源、研究内 容和课题所取得的成果,最后说明本论文的组织结构。 第二章相关标准及编码算法 主要介绍相关的标准和简要介绍m p 3 编码算法。 第三章便携式音频编解码系统概要设计 第一章绪论 主要介绍了便携式编码系统结构,各部分功能,以及工作流程,以及m p 3 编 码模块的相关设计和优化。 第四章便携式音频编码实现 详细介绍了m p 3 编码器在便携式音频编解码系统中的实现。 第五章结论和展望 这部分对我们的实现进行了验证,并提出了将来可以做出的改进。 7 电子科技大学硕士学位论文 2 1 标准简介 第二章相关标准及编码算法 在我们的编码系统中主要涉及到三个标准:m p e g i ,m p e g 2 ,以及 ,口e g 2 5 。 m p e g ,1 音频( i s o i e c1 1 1 7 2 - 3 ) ,是m p e g 组织制定的第一个视频和音频有 损压缩标准,提供了单声道和取声道的编码,提供3 个压缩层次,采样率为3 2 k l l z , 4 4 i k h z ,和4 8 k h z 。对于第三层,预定义的比特率范围是3 2 k b p s 到3 2 0 k b p a 。 m p e g - 2 音频( i s o i i e ci3 8 1 8 3 ) 提供了m p e g 一1 针对更低采样率的扩展 ( l o w e rs a m p l i n gf r e q u e n c y ,l s f ) ,提供1 6 k h z ,2 2 0 5 k h z ,和2 4 k h z 的采样率, 以及8 k b i t s 到1 6 0 k b i f f s ( 第二层和第三层) 的比特率。这个扩展提供了向后兼容 的多声道扩展,提供多达5 个主声道,和一个低频加强声道,这样可以编码的 比特率达到了差不多1 m b w s 。同时m p e g 2 的第七部分定义了不能向后兼容的音 频压缩,即通常我们所说的a a c 。 m p e g 2 5 是一个m p e g 2 非官方的扩展针对更低的采样率( v e r yl o w s a m p l i n gf r e q u e n c y ) ,提供8 k h z ,1 1 0 2 5 k h z ,1 2 k h z 的采样率。 编码器处理数字音频信号,并输出压缩后用于存储的码流。编码器的算法并 没有完全标准化,可以使用不同的方法来进行编码,例如,昕觉掩蔽曲线,量化, 放大,然而,编码器的输出必须是可以被和标准一致的解码器所能处理的,并用 于一定的应用。 2 2m p e g a u d l ol a y e r3 编码算法 在这一部分,我们将介绍m p e g a u d i ol a y e r3 编码是如何工作的。 m p 3 采取了感官编码技术,利用人类的听觉模型将人类不敏感及无法辨识的 音讯去除,而不会被察觉,所以在减少数据量的同时,也能维持重建后音讯讯号 的品质。在编码器中,输入声音信号经过一个多相分析滤波器组( p 0 1 v p h a s e a n a l y s i s f i l t c r b a l l _ k ) 变换到频域里的多个子带中。输入声音信号同时经过心理声学模型 ( p s y c h o a c o u s f i e m o d e l ) ,计算掩蔽特| 生。该模型计算以频率为自变量的噪声掩蔽 阈值( m a s k i n gt h r e s h o l d ) ,参考输入信号和子带中的信号以确定每个子带里的信号 第二章相关标准 能量与掩蔽阈值的比率。量化编码( q u a n t i z a t l o nc o d i n g ) 模块通过信掩比( s m r , s i g n a l t o - m a s kr a t i o ) 来决定分配给子带信号的量化比特数,使量化噪声低于掩蔽 域值。最后通过数据流帧封装( b i t s t r c a mf o r m a t t i n g ) 将量化的子带样本和其他数 据按照规定的称为帧( f r a m e ) 的格式组装成为位( b i o 数据流。 整个m p 3 编码过程,可以被划分为四个部分:滤波器组和m d c t 模块,心理 声学模型模块,比特分配模块,h u f f m a n 编码和比特流封装模块。 我们基于图2 - 1 来对编码过程进行描述。输入的音频信号,是一组p c m 信号, 它们被传送到一个滤波器组。这个滤波器组将输入的信号划分成等频宽的3 2 个子 频带。在这之后,每个子频带的样本仍然是在时域中。然后用一个跨改的离散余 弦变换( m d c t ) t 各每个子带的信号映射到频域中。同时,输入信号经过一组f f t 变 换之后被传送到了心理声学模型,这个模型用于计算每个子频带的信掩蔽比( r a t i o o f t h es i g n a le n e r g yi ot h em a s k i n gt h r e s h o l d ) 。噪声控制模块用这些由心理声学模型 计算出来的信掩比来决定为这个子频带分配多少可用于编码的比特数,以将能被 昕到的噪声降到最低。量化之后的样本利用无损的h u f f m a n 编码来 碱少样本的熵 值。最后,最后一个模块将h u f f - m a n 编码后的样本和些附加信息依据 m p e g a u d i o 标准封装成比特流。在下面的模块中,我们将会介绍在模块图中,每 个模块的功能以及它们是如何工作的。 图2 - 1 编码器的功能模块图 2 2 1 分析子带滤波器组 编码过程中第一步是将输入信号经过一组滤波器进行滤波。分析子带滤波 器组将音频信号划分成等频宽的3 2 个子带。并对予带样本以因子3 2 进行下采样, 以提供好的时间分辨率和合理的频率分辨率。 电子科技大学硕士学位论文 在一帧中对一组1 1 5 2 个p c m 音频信号,所以每个子带包含3 6 个子带样本。 下面的式子用于产生滤波器组的输出: 6 |, s 明= m i k ( c k + 6 4 j l x x k + 6 4 j 1 ) ( 2 - i ) 扣0j t o 其中: i 是予带的编号,范围是o o l s t i 是时间t 时第i 个子带的滤波输出样本,这里时日jt 是3 2 个样本时问问隔 的整数信。 c i 】标准中定义的分析窗口的5 1 2 个系数中的一个 x 【n 】足由一个5 1 2 样本大的缓存中读入的音频输入样本。 2 2 2m d o t 和反混叠( a | a sr e d u c e io n ) 2 札 s b u b a n d 3 1 n c l l h l b a l d j f 、 3 2 t h h b 曲d j + 图2 - 2 反混叠示意图 将原始的音频信号经过滤波器组分析,形成3 2 个等频宽的子带,为了提高频 谱的解析度,将每个子频带信弓再经过m d c t 细分成数个频线信号。m d c t 的运 7 8 7 8, 渤 骶 擀聊 蹴 第= 章相关标准 算包含了m d c t 窗口,m d c t 和窗口混叠处理三个部分。 首先介绍m d c t 的四种窗口类型:长窗( n o r m a l w i r l _ d o w ) 、开始窗口( s t a r t w i n d o w ) 、短窗( s h o r t w i n d o w ) 和停止窗口( s t o pw i n d o w ) 。使用长窗进行转换 可以提供较好的频率分辨率,而使用短窗进行转换,则可以提供较好的时域分辨 率。开始窗口用于长窗到短窗转换的过渡窗,停止窗e l ,则相反。窗口类型的选 择是依据第二心理声学模型分析音频信号的特性之后得到的,一般在音频信号较 稳定时,使用长窗来提供最好的频域分辨率。而当子频带信号变动较大的时候, 就需要改变窗口的长度来提供较好的时域分辨率,以控制前回声不被人耳所察觉。 在使用长窗来得到较好的频域分辨率的同时,会有混叠产生。由于滤波器组 的特点,当原始输入音频信号被划分成3 2 个子频带的时候,在频谱上可以看到邻 近的子带之间会有明显的重叠,而处于重叠区间的信号会同时影响两个子带。所 以在用m d c t 转换频线信号的时候,需要对邻近帽对应的频线信号作特别处理, 以减少因混叠而造成的噪音,影响音频信号的质量。处理混叠的方式是将处在对 应位置上的频线的能量进行一定比例的增减,如图2 - 2 所示。 2 2 3 心理声学模型 很显然,在安静的环境下我们能够听到一根针掉到地上的声音,也能听到一 架飞机起飞的声音。但是在飞机起飞的同时我们不可能听得到一根针掉在地上的 声音。这种现象体现了,我们的听觉系统能够动态的调整适应,一些声音会因为 被我们的听觉系统忽略,而被听不到。 心理声学模型就是这样一种模拟人的听觉系统的模型。这个模型用在编码器 中,用来决定音频信号中哪个部分是听不到的,那个部分能被听到,然后将不能 听到的部分丢掉,以从人类听觉系统的角度,去除冗余的数据以达1 4 压缩数据 的目的。它利用了人类的听觉系统的听觉掩蔽效应,使人们不能听到量化所产生 的噪声。这个效应是人类听觉系统的一个特点,在有较强的音频信号时,较短暂 的或者在频谱上相近但较弱的一个信号不能被觉察到。心理声学模型的计算结果 会被用到了md ct 模块和非均匀量化( n o n u n i f o r mq u a n t i z a t i o n ) 模块中。 在介绍入耳的听觉特性之前,必须先定义一个表示声音强度的名词,s o u n d p r e s s u r el e v e l ( s p l ) 。s p l 是一个衡量听觉刺激强度的标准,单位是d b 。 听觉掩蔽包含了如下三种规则: 1 绝对听限 电于科技大学硕士学位论文 在安静的环境下,人耳能够听到较细微的声音,例如针掉在地上的声音,但 仍然会有很多声音,即使在绝对安静的情况下,也不能够被听到。依照这样的特 性,我们可以找出一条绝对昕力阈值曲线( t h e t h r e s h o l d i n q u i e t ) ,如图2 - 3 所示, 若声音的强度低予绝对昕力曲线,表示入耳是昕不到这个声音。这个曲线可以 通过的非线性方程式来逼近: 1 铝 主 韶 :盆 = ;船 ! 弼 吾盈 。 。 备* b * n d j t h 一 d h _ r ”j r 一 沁 ; k 。1 l f 、 ; | _ “:k l 、k ? = :;= :鼍:; 二警j = :。ji - 矿 - 一 1 0 图2 - 3 绝对听力曲线 r q ( ,) = 3 6 4 x 蕊f ) - 6 5 x ,“- s3 ) z + 1 0 - 3 ( 南4 ( , t b s p l ) 其中f 代表频率( h z ) 通常人耳可以感知的频率范围是1 0 2 0 0 0 0 h z 。 t q 则是在频率f 处的绝对听力门槛值。观察这条曲线可以发现人类的听觉 在低频和高频的区域都不太敏锐,而在大约3 4 k h z 的地方最为敏感。这个特点在 编码过程中被应用,在编码器将音频信号进行处理前,先会让这些信号通过一个 低通滤波器,将一些高频的,不容易被人耳察觉到的频率分量去除。 2 频率掩蔽 在频域上,s p l 较大的音频信号会对频率相近的音频信号产生掩蔽效应,如 图2 4 所示。图中,m a s k e r 掩蔽了他周围的三个音频信号。同时我们应该注意到, 频率上的掩蔽曲线,在往低频的防线较为陡峭,而往高频的方向,曲线较为平缓, 第= 章相关标准 也就是说高频的信号更容易被掩蔽。这个特性,主要被用在量化噪音的控制中, 通过综合考察每条频线的掩蔽效应,可以求出每条频线的信掩比阂值,这些阂值 可以被用来确定量化所产生的噪音是否会被人的听觉系统所察觉。 3 时域掩蔽 n 诬0 1 0 5 i2 5 f 憎q 岭n 印( k h z ) 图2 - 4 频域掩蔽效应示意图 图2 - 5 时域掩蔽效应示意图 人耳听觉在时域上也会有掩蔽效应。在一个很短的时问内,如果出现了两个 声音,不伦声音的大小,s p l 较大的声音( m a s k e r ) 都会掩蔽住s p l 较小的声音 阳俯o (日口)一蟊_1璺,翁鬯也puo 电子科技大学硕士学位论文 ( m a s k e e ) 。这个时候s p l 较大的声音在时域上会有两种掩蔽效应:如果被掩蔽地 声音出现在前,则称为前向掩蔽( p r e - m a s k i n g ) ,反之则成为后向掩蔽 ( p o s t - m a s k i n g ) ,如图2 - 5 所示。 表2 - 1 临界频带及中心频率 b a n d c e t _ 【t e rf r p qb a n d w j d t h b a l l dc o - g e tf r c q b a n d w i d t h n o t h 曲 h z ) n o t i l 曲 i h 曲 1 5 0一1 0 0 j 4 2 1 5 02 0 0 0 一2 3 2 0 21 5 0j 0 t l 一2 0 01 52 5 0 02 3 2 0 2 7 0 0 32 5 1 32 0 0 3 0 01 62 9 0 02 7 0 0 3 1 5 0 43 5 03 0 0 4 0 01 73 4 0 03 1 5 9 3 7 卵, j4 5 0o 一5j 0 1 8 4 0 0 03 7 0 0 4 4 0 0 65 7 05 1 0 6 3 0 1 9 a 8 0 04 4 0 0 5 3 0 0 77 0 0o w d2 0 5 8 0 05 3 0 0 6 4 0 0 88 4 ( )7 7 0 9 2 t )2 17 0 0 06 4 0 0 7 7 0 0 口1 0 0 09 2 0 一1 0 8 0 2 2 8 ,0 07 7 0 0 一0 0 l o1 1 7 51 0 8 0 一1 2 7 02 31 0 5 0 0 9 5 0 0 1 2 0 0 0 l jt 3 7 01 2 7 0 一1 4 8 1 32 4j 3 1 2 0 0 n 一1 5 5 0 0 1 21 6 0 01 4 8 0 一1 7 2 1 )2 51 9 5 0 01 5 5 0 0 一 1 31 8 5 01 7 2 0 2 0 0 0 其他的声音如果出现在图中深灰色的部分就会被掩蔽。同时需要注意的是, 后向掩蔽所影响的时间较长,有将近1 6 0 m s ,而前向掩蔽大约只有后向掩蔽十分之 一的时间。 时域上的掩蔽效应的一个重要应用就是,它可以让前回音( p r e - e c h o ) 不被人 耳察觉。先说明一下前回音是如何产生的:如果在一段振幅较小的声音之后,突 然出现了振幅较大的声音,这时就会产生较大的量化误差。而在解码过程中又经 常反变换的运算( i n v e r s et r a n s f o r m ,例如i m d c t ) ,这样,这个量化误差就会搜放 大,从而产生前回音。由于前回音只会影响该次变换。所以在输入音频信号相同 的情况下,如果采用点数较少的变换方法,就可以缩短前回音出现的时间,从而 利用时域掩蔽效应使前回音不被人耳所察觉。 为了利用这些掩蔽效应,并且不引入过于复杂的计算,在心理声学模型中, 各种掩蔽效应的模拟计算都是以i 临界频带为单位进行计算的,同时由于人耳对不 第二章相关标准 同频率区间的解析度不同,m p e g 一1 的音频部分,将2 2 k h z 以内的即人类可以感 知的频率范围,根据不同编码层、不同的采样率,划分成了2 3 到2 6 个i 临界频带。 表2 i 中列出了理想的临界频带的中心频率和频带宽度。 一个临界频带的距离通常称为一个巴克( b a r k ) ,可以通过表示式将频率映射 到巴克表示: z ( 门= 1 3 t a l l 1 ( 0 0 0 0 7 6 厂) + 3 5 x t a i l 一1 ( 蒯f 2 m 砖) ( 2 3 ) 每个临界频带的宽度,可以由下式求得 口暖( 门= 2 5 + 7 5 1 + 1 4 而f 。 2 2 4 非均匀量化 土 r c s e to f i t e r a o nv a r i a b l e s 恕令 o m c ri t e r a t i o nl o o p 二c 二a l c 二u l a 二t e t h en u 生m b e r o f u n u s e db i t 图2 - 6h 羽p e g - i 标准定义的非均匀量化流程图 ( 2 - 4 ) 非均匀量化模块,负责接收来自m d c t 模块进行时频转换后频线值,和心理 声学模型计算选择的窗口类型以及信掩比值,进行量化和h u f f m a a 编码。这个模 电子科技大学碗士学位论文 块的输出是已编码的数据,和选择量化步长以及选择的h u f f i n a n 编码袁等附加信 息。 图2 - 7m p e g 1 标准定义的外循环流程图 非均匀量化循环是m p e g a u d i ol a y e r3 编码算法中最消耗时问的。它所消耗 的时间依赖于音频信号的变化,没有一个固定的执行时间。描述这个量化循环可 以分成- z - f 循环级别。最外层是以帧为单位进行的循环,其流程如图2 - 6 所示,这 个循环再调用外循环( o u t e ri t e r a t i o nl o o p ) ,外循环再调用内循环( i n n e ri t e r a t i o n l o o p ) 。外循环负责根据设定以迭代的方式量化一组输入频线,内循环量化输入数 第二章相关标准 据,同时增大量化步长,直到输入数据能用可用的比特数进行编码。内循环完成 后,外循环检查每个比例因子频带的失真,如果超过了可允许的范围就将比例 因子放大,再次调用内循环。 o u a n d z a t i o n 垂垂岁l i n c r e a s e q 妇u a n u z e r s t e p - c a l c u l a t er u n l e n g u lo lv a l u e sl e s so r e q u a lo n ea t t h eu p p e r e n d o f t h e s d e c t r u m 。5 5 。4 “;:;:= 9 9 。”6 。i d i v i d et h er e s to f t h es p e c t r a l v a l u e si n 【。3s u br e g i o n s 一f 一 c h e o a ec o d et a b l ef o ri e a c hs u br e g i o n s t b i tc o u r tf o re a c hs u b r e g i o n 旦l 。:茹掣。 图2 - 8m p e g 1 标准定义的内循环流程图 电子科技大学硕士学位论文 外循环的流程如图2 7 所示。外循环负责控制由于内部循环量化频线而产生的 噪声。如果发现量化噪声超过了掩蔽闺值,这个子频带的比例因子将会相应调整 以减小量化噪声。外循环将会一直被执行,直到每一个比例因子频带的实际噪声 部低于掩蔽闽值为止。 内循环的流程如图2 - 8 所示。内循环刘频线进行实际的量化工作,并且为比特 流封装作准备。哈夫曼编码对于较小的值将会分配给较短的编码如果哈夫曼编 码产生的总比特数超过了一帧所能用的比特数,则可以通过调整全局的增益 ( g l o b a lg a i n ) 来获取一个更大的量化步长( q u a n f i z a t i o ns t e ps i z e ) ,这样就可以获 得一个较小的量化值,和一个较短的编码。这个调整的操作将会被一直针对不同 的量化步长进行,直到哈夫曼编码所需要的比特数足够少。 2 2 5h u f f m a n 编码 为了提高编码效率,在量化之后,还要进行无损且非固定长度的哈夫曼编码。 在量化后,除了在m d c t 使用短区块的情况之外,量化模块都会将输出的频线依 据频率进行排序。而对于使用短窗的情况来说,在相同的频率下,又有三个值, 所以在每个比例因子子带里边,首先以频率来排序,接下来才是按窗口排序。排 序的一个好处是,可以使大的值尽量分布在低频区域,而在高频部分会有很多连 续的零出现,从而能够提高压缩的比例。 圈2 - 9 量忧颇线存储 量化模块将频线分成了三个区间,如图2 - 9 所示,这样可以让编码器依据各个 区间的统计特陛去选择使用不同的哈夫曼表。编码器将高频区间的连续零视为一 个区间,且这个区间实际上是不需要编码的,同时这个区问的长度也仅需要通过 另外两个区间的长度来间接求得。另一个是称作c o u n t l 的区间,在这个区问中, 等 i tl一 塑l m 一 一雪 第二章相关标准 所有数据都是由0 和1 组成的,在这个区间中,编码器使用四个比特一组进行哈 夫曼编码,所以这个区间定是4 的倍数。最后一个区间是b i g区间,这个value 区问会出现比较大的数值,这个区间会被再进一步分成三个子区间。编码器在每 个子区间中查看最大值,依据这个最大值,为每个子区间选择合适的哈夫曼表。 哈夫曼表共有3 4 个,其中2 个专用于c o u n t l 区问,另外3 2 个表用于b i g _ v a l u e 区间,这些表的特点见表2 - 3 所示。 表2 - 3i i u f f m a a 编码表 | 索f f最大值索j i可踽碣芝最大值 l i n b i t s oo1 61 6i ll1 71 92 2 21 82 33 3悼3 14 4 n o tu s e d 2 0 7 96 52 i2 7 i8 62 21 0 3 9l o 73 2 3 8 2 0 71 3 852 43 14 93 2 5 4 i5 1 02 6 7 9 6 1 l72 7 1 4 3 7 1 2 2 8 2 7 l8 1 31 52 95 2 79 1 4 n o tu s e d 3 02 0 1 6i i 1 51 53 18 2 0 71 3 前1 6 个哈夫曼表可以编码的值都不大于1 5 ,而后面的3 2 个哈夫曼表可以表 示的值也不大于1 5 ,所以要编码大于1 5 的值,就需要使用l i n b i t s ,其含义将在后 面介绍。 2 2 6 比特流封装( b i t s t r e a mf o r m a t 七in g ) 图2 - 1 0 帧结构示意图 编码过程的最后一个模块用于产生兼容于m p e g a u d i ol a y e r3 格式的码流。 已经过哈夫曼编码的数据,一些附加信息,和一个帧头被组装在一起,形成码流。 电子科技大学硕士学位论文 码流以l l52 个样本为一帧。帧头用于解码同步,描述编码音频数据的比特率 和采样率,附加信息用于告诉解码器这一帧的窗口类型,使用的哈夫曼编码表, 子带增益,和子带比例因子,如图2 1 0 所示。 22 6 1 帧头 m p e g 1 各编码层的帧头格式邵是相同的,如图2 1 1 所示。 ( m 。如e 、1 1 s i o n ) ( h k r n 俳n m x ) ( p 村d m g b ;t ) ( m 。如) c c o p 捌r i 出)( e m p h a e i s ) 图2 - 1 i 帧头结构 其中: 同步字( s y l l c w o r d ) :用来标示帧的开始,为了兼容m p e g l ,m p e g 2 m p e g 2 5 ,前十一个比特全1 用来作为同步字。 表2 - 4 编码标准 b o m p e g 2 5 d ll r e s e r v e d 1 1 0l m p e g 2 1 1 1 m p b g l 后面紧接的两个比特用来标示所采用的标准,如表2 4 所示。 第二章相关标准 编码层( 1 a y e r ) :以两个比特位来标示所使用的编码层,“l l ”表示第一层,“1 0 ” 表示第二层,“0 l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论