（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：82 大小：2.02MB 积分：0 举报 版权申诉

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf_第2页

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf_第3页

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf_第4页

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf_第5页

已阅读5页，还剩77页未读，继续免费阅读

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文摘要航行数据记录仪( v d r ) 实时记录驾驶室以及各关键舱室的音频数据，通过回放设备的回放，复现船舶事故前的声音情况，对于找到事故原因具有重要价值。本文提出了一种基于数字信号处理器( d s p ) 的嵌入式 i p 3 编码器的实现方案，该方案能够解决v d r 中不能同时处理多路音频的问题，具有音质好、性价比高、便于配置的优点。本文深入研究了m p 3 编码理论及编码过程，详细分析了编码器算法中的三个主要功能模块：子带滤波器组与修正离散余弦变换( c t ) 、量化与编码、帧生成。该编码能够控制各子带的量化阶数以及相应的重建误差的方差，使码流更精确地与各子带的信源统计特性相匹配；并且，各子带的量化噪声都束缚在本子带内，避免能量较小的子带内的输入信号被其他子带的量化噪声所掩盖；同时，编码算法按照人耳的主观感知特性来形成噪声频谱，大大提高编码系统的性能。论文还提出了基于t m s 3 2 0 d m 6 4 2 的m p 3 编码器的软硬件实现方案。首先，对主处理器模块、声音采集模块、以太网传输模块三大核心部分进行了详细的阐述。软件设计是基于嵌入式操作系统d s p b i o s 完成的，在此基础上分别利用片上支持库( c s l ) 和网络开发包( n d k ) 完成声音编码芯片和以太网接口芯片的配置和初始化；进而，详细分析了各子程序模块的具体功能；最后，讨论了编码器程序的编写、调试和移植过程，并给出了m p 3 编码器优化方案、试验结果。关键词：m p 3 ；编码器；d s p ；音频；以太网哈尔滨工程大学硕士学位论文 a b s t r a c t v o y a g ed a t ar e c o r d e r ( v d r ) r e c o r d st h ea u d i od a t ao ft h ec a ba n dt h e p i v o t a lc a b i n ，t h es o u n dc a nb er e p l a y e db yt h ed e c o d i n ge q u i p m e n t , s oi ti sv e r y i m p o r t a n tt of i n dt h er e a s o no fa c c i d e n t t h i st h e s i sp u t sf o r w a r dar e a l i z i n g s c h e m eo f 巴3e n c o d e rb a s e do nd a t as i g r l a lp r o c e s s o r ( d s p ) t h es c h e m ed e a l w i t hs e v e r a lp a t h e so f a u d i ot h a tt h et r a d i t i o n a lv d rc 锄 m o tr e a l i z e t i l i ss c h e m e h a sm a n ym e r i t s ，s u c ha sg o o dt o n e ，f i n eq u a l i t ya n dc h e a pp r i c e ，c o n v e n i e n c et o c o n f i g u r e t h i sp a p e rl u c u b r a t e st h e o r ya n dp r o c e s so fe n c o d i n g ，d c t a i l e d l ya n a l y s e t h r e em a j o ra s p e c t so fa u d i oc o m p r e s s i o na l g o r i t h m , t h e s e 邪p c c t sa r es u b b a n d f i l t e rb a n ka n dm o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ( m d c t ) ，q u a n t i f i c a t i o na n d c o d i n g , f o r mo ff l a m e t h ec o d i n gc a nc o n t r o lt h eq u a n t i z e dv a l u e so fs u b b a n d a n dc o r r e s p o n d i n gs q u a r ed i f f e r e n c eo fr e b u i l de r r o r , m a k i n gm a t c h i n gb i t s t r e a m m o r ea c c u r a t ew i t hm e s s a g es o u r c ec o u n t sc h a r a c t e r i s t i co fp e rs u b b a n d ；b e s i d e s ， q u a n t i z a t i o nn o i s eo fp e rs u b b a n di sf e t t e r e dw i t h i nt h es u b b a n d , i n p u ts i g n a 王o f 吼l b b 锄do fl e s s e rp o w e ri sa v o i d e df r o mc o v e r i n gu pb yq u a n t i z a t i o nn o i s eo f o t h e rs u b b a n d ；a tt h es a m et i m e ，n o i s ef r e q u e n c ys p e c t r u mi sf o r m e db ye a r * s s u b j e c t i v ec h a r a c t e r i s t i ca c c o r d i n gt oc o d i n ga l g o r i t h m , a n dt h u s ，c o d i n gs y s t e m p e r f o r m a n c ei si m p r o v e dg r e a t l y t h et h e s i sa l s op u t sf o r w a r dh a r d w a r ea n ds o f t w a r ed e s i g ns c h e m eo fm p 3 e n c o d e rb a s e do nd m 6 4 2d s ef i r s t l y , m a i np r o c e s s o rm o d u l e ，a c q u i s i t i o nc i r c u i t m o d u l eo fa u d i oa n de t h e m c tc i r c u i tm o d u i ea r ee x p o u n d e d s o f t w a r ed e s i g ni s a c c o m p l i s h e do nt h ee m b e do p e r a t i n gs y s t e md s p b i o s ，o nt h eb a s i s ，a u d i o c o d i n gc h i pa n de t h e r n c ti n t e r f a c ec h i pa c o n f i g u r e da n di n i t i a l i z e dw i t h c s l ( c h i ps u p p o r tl i b r a r y ) a n dn d k ( n e t w o r k i n gd e v e l o p i n gk i 0 ；f u r t h e r m o r e , t h ef u n c t i o no fs u b p r o g r a mm o d e l sa r ed e t a i l e d l ye x p o u n d e d ；f i n a l l y , p r o c e s so f c o m p i l i n g ，d e b u g g i n ga n dr e p l a n t a t i o ni sd i s c u s s e d ，t h ep a p e ra l s op r o v i d e s o p t i m i z i n gs c h e m eo f m p 3 c n c o d e ra n dt h er e s u l t so f e x p e r i m e n t k e yw o r d s ：m p 3 ；e n e o d e r ；d s p ；a u d i o ；e t h e r n e t 哈尔滨工程大学学位论文原创性声明本人郑重声明；本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献等的引用已在文中指出，并与参考文献相对应。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者( 签字) ：易；切孕日期：2 0 0 7 年3 月6 日哈尔滨工程大学硕士学位论文第1 章绪论 1 1 课题的背景及意义船载航行数据记录仪( v o y a g ed a t ar e c o r d e r 缩写v d r ) 俗称船用黑匣子，是专门用于记录和保存船舶航行过程重要信息参数的智能化记录设备，当舰船发生事故时，这些数据在分析事故时起到不可替代的重要作用。v d r 实时记录驾驶室以及各关键舱室的音频数据，通过回放设备的回放，复现船舶事故前的声音情况，对于找到事故原因具有重要价值。本论文正是以v d r 作为课题研究背景。在2 l 世纪的今天，人类社会己进入信息时代，科技的飞速发展带来了“信息爆炸”，所以数据压缩一直以来都是一个热门话题。长期以来，在实时音频监听领域主要是以模拟记录技术和非压缩数字记录技术为主。随着科技的发展，模拟记录技术已逐步趋于淘汰。而非压缩数字记录技术虽然具有易于交流、管理和编辑等优点，但其占用的存储器空间较大，不利于数据的海量存储。所以研究实时数字音频压缩技术有着巨大的现实意义。 1 2 音频压缩的必要性人耳所能昕到的声音频率范围在2 0 h z 2 0 k h z ，这个范围也是我们要记录的声音频率范围，在记录声音的时候，我们采用的是数字存储体作为声音的存储载体，所以必然涉及到模拟声音信号到数字音频的转换c - ，。数字音频是基于对模拟声音信号每秒上千次的采样，然后把每个采样值按一定的比特数量化，最后得到标准的数字音频码流。根据奈奎施特采样定理，为完全复现全部声音信号，我们的采样频率至少要大于4 0 k h z ，针对不同的应用，音频信号的采样频率可以从8 k h z 到1 9 2 k h z ，但实际上，需要在所要求的数字电路的速度和存储媒介或传输媒介的容量之间进行折衷，对c d 盘来说，制造厂商选择4 4 1 k h z 作为采样频率。研究表明，对于高质量的数字音频信号通常需要 6 5 5 3 6 个以上的量化电平阶数，所以我们采用1 6 位量化对采样值进行计量。这样对于双通道的c d 音质码流的数据量为：4 4 1x1 6 x 2 = 1 4 1 1 2 m b p s ，这样高哈尔滨工程大学硕士学位论文 1 3 音频压缩的分类厂l 厂1 _ 上_ t 全p 频c m 带编码萎茎耋? 壶测i r m m p v n s e u l p - d p c ml l a d p c m 。c e l p 2 哈尔滨工程大学硕士学位论文按照压缩方法的不同，又可以将其划分为时域压缩、变换压缩、子带压缩以及多种技术相融合的混合压缩技术等。各种不同的压缩算法根据时域或频域压缩的复杂程度、压缩后音频质量、压缩效率( 压缩比) ，还有压缩编码的时间延迟区分有很大的区别。因而各种压缩算法的适用范围也有很大的区别。 1 时域压缩时域压缩技术是直接对音频p c m 码流的采样值进行处理，通过静音检测、非线性量化、差分等手段对码流样值进行压缩处理。这类压缩算法的共同特点就是算法复杂度低，音质一般，压缩比较小、编码延迟小。此类压缩技术一般应用于语音压缩，信号带宽较小的低码率的场合。 2 子带压缩子带理论基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型 ( 心理声学模型) m ，通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型( p e r c e p t u a l ) 压缩编码。这两种编码方式相对时域编码技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。由于在子带编码技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行编码时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量( e b u 音质标准) 。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的m p e g 一1 层i 、层i i ( m u s i c a m ) ，以及用于p h i l i p s d c c 中的p a s c ( 精确自适应子带编码) 等。 3 变换压缩哈尔滨工程大学硕士学位论文变换编码技术与子带编码技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有d f t 、d c t ( 离散余弦变换) 、m d c t 等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。有代表性的变换编码技术有d o l b y a c - 2 、a t & t 的a s p e c ( a u d i os p e c t r a l p e r c e p t u a le n t r o p yc o d i n g ) ，p h c ( p e r c e p t u a la u d i oc o d e r ) 等。 1 4 音频编码的发展现状及前景由于数字音频编码技术具有广阔的应用范围和良好的市场前景，因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。c c i t t ( 现i t u - t ) 在语音信号压缩的标准化方面做了大量的工作，制订了如g 7 1 1 、g 7 2 1 、g 7 2 8 等标准，并逐渐受到业界的认同“1 。在音频压缩标准化方面取得巨大成功的是b i p e g - 1 音频 ( i s o i e c l l l 7 2 3 ) w 。在m p e g 一1 中，对音频压缩规定了三种模式，即层i 、层i i ( 即姗s i c a l ，又称l i p 2 ) ，层( 又称m p 3 ) 。由于在制订标准时对许多压缩技术进行了认真的考察，并充分考虑了实际应用条件和算法的可实现性 ( 复杂度) ，因而三种模式都得到了广泛的应用。近年来，国内外在肝3 压缩编码领域进行了大量的研究，针对心理声学模型提出了一些改良算法。同时为了更好地控制文件大小和音频的关系，又出现了可变比特率( v a r i a n tb i t r a t e ，v b r ) 方式编码的m p 3 t ，这种编码方式的特点是可以根据编码的内容动态地选择合适的比特率，由于编码的结果是在保证音质的同时又照顾了文件的大小，所以大受欢迎，具有良好的发展前期。在众多新标准、新技术中，肝3 是事实上的业界标准，因此采用m p 3 技术用于音频信号的压缩存储是一种比较成熟稳妥的方案。同时，随着微电子技术的迅猛发展，各种高性能低价格的d s p 不断涌现，为实现对音频信号的实时压缩存储提供了可靠的物质基础，这使得基于d s p 的m p 3 编码器的实现 4 哈尔滨工程大学硕士学位论文成为可能，所以研究开发基于d s p 的m p 3 编码器有着巨大的现实意义。目前，国外的相关产品已经比较成熟，而国内尚未有类似产品的报道，所以其市场前景广阔。随着技术的不断进步和生活水准的不断提高，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。 ( 1 ) d o l b ya c 一3 技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5 1 声道的条件下，可将码率压缩至3 8 4 k b p s ，压缩比约为1 0 ：1 。d o l b ya c 一3 最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一。 ( 2 ) 船e g 一2 b c ( 后向兼容方式) ，即i s o i e c l 3 8 1 8 3 ，是另一种多声道环绕声音频压缩技术。早在1 9 9 2 年初，该方面的讨论工作便已初步开展，并于9 4 年1 1 月正式获得通过。m p e g 一2 b c 主要是在m p e g - 1 和c c i r r e c 7 7 5 的基础上发展起来的。与m p e g - 1 相比较，j l i p e g - 2 b c 主要在两方面做了重大改进。一是支持多声道声音形式，二是为某些低码率应用场合，如多语声节目、体育比赛解说等而进行的低采样率扩展。同时，标准规定的码流形式还可与 m p e g 一1 的第1 和第2 层做到前、后向兼容，并可依据c c i rr e c 7 7 5 做到与双声道、单声道形式的向下兼容，还能够与d o l b ys u r r o u n d 形式兼容。 ( 3 ) d v d ( d i g i t 8 l v e r s a t i l e d i s k ) 是新一代的多媒体数据存储和交换的标准。在视频d v d 的伴音方式及音频d v d 的声音格式选择上，a c 一3 和 h p e 6 - 2 b c 间的争夺十分激烈，多声道环绕声音频压缩技术标准亟待统一。 1 5m p 3 音频编码技术标准 m p e c , - i 音频编码共有三个层次( l a y e r ) 随着层次的提升，压缩的效果越来越好，当然其编解码的复杂性也越大。m p 3 是在层1 和层2 的基础上发展而来的，下面对m p e g - i 音频编码的三个层次的共同点和不同点作简要论述m 。 m p e g 一1 音频编码就是对p c m 音频样值进行一系列的处理，最终输出符合规定格式的编码比特流( b i t s t r e a m ) 的过程。m p 3 大体的编码过程如图1 2 所示。哈尔滨工程大学硕士学位论文图1 2m p 3 编码算法流程上图中，输入的p c b i 音频样值的取样频率可以是3 2 k h z 、4 4 i k h z 或 4 8 k h z 。对m p i 和m p 2 而言，时频映射都是采用分析滤波器组把时域上的信号在频域上等分为3 2 个子带，所不同的是m p 2 的帧长为1 1 5 2 个p c m 样值，是 m p i 帧长的三倍，因而帧格式也有相应的不同。m p 3 的帧长与m p 2 相同，但其时频映射在分析滤波器组的基础上，再对每个子带作m d c t ( 改进型离散余弦变换) ，因而提供了更高的频域分辨率。由于频域分辨率提高了，所以m p 3 的编码子带的划分并不象m p1 和m p 2 那样简单地在频域上等分为3 2 份，而是通过模仿人体听觉特性的临界频带而划分为不等宽的2 1 个比例因子带。 m p l 和) l i p 2 的量化和编码都是对子带样值直接进行线性量化编码，其处理是比较简单的。m p 3 则是先对频域样值进行复杂的非线性量化，然后对量化结果进行基于统计特性的哈夫曼不等长编码。心理声学模型在对信号听觉特性进行分析的基础上，控制量化和编码过程的执行。最后的帧生成过程就是把数据按照相应层的规定格式打包成比特流的过程。 1 6 本文的主要内容本文的内容按章节安排如下：第一章简要介绍了课题的研究背景，音频编码分类和最新发展。第二章首先介绍了m p e g - i 音频压缩的相关理论、音频压缩标准及其三个层次，然后讨论了m p 3 编码技术。第三章详细介绍了m p 3 的编码过程。详细分析了编码器算法中的三个主 6 哈尔滨工程大学硕士学位论文要功能模块：子带滤波器组与修正离散余弦变换( m d c t ) 、比特流量化与霍夫曼编码、帧数据流格式化。第四章提出了基于d m 6 4 2d s p 硬件平台的m p 3 编码器设计方案，对d m 6 4 2 d s p 的硬件结构、声音采集电路和以太网电路等进行了系统的阐述。第五章重点介绍了m p 3 编码器软件设计方案。软件开发是基于d s p b 1 0 s 完成的，在此基础上详细阐述了各子模块的具体功能；同时，讨论了以太网传输系统的实现方法；并介绍了编码器算法从p c 机到d s p 的移植过程，最后给出了m p 3 编码器优化方案和试验结果。哈尔滨工程大学硕士学位论文第2 章m p 3 编码技术研究 2 1 音频压缩的声学原理数字音频信号得以压缩的理论依据首先是原始信号本身存在着冗余度，其次是利用人类的听觉感知系统对某些失真不敏感的特性，即人耳的心理声学模型“”“”。心理声学模型就先用f f t 分析信号中包含的频率分量，将每个频率处受到其他所有频率分量掩蔽的值加起来，连线得到的曲线就是掩蔽值，是频率的函数。另一方面，选择量化阶时若能保证量化噪声低于掩蔽曲线，也不被人耳察觉，所以掩蔽值越大的频率分量量化阶可以越大。因此用掩蔽值作为量化编码的依据，就能够保证压缩后的声音质量。 2 1 1 音频信号的冗余度模拟音频信号通过脉冲编码调制( p c m ) 方式实现数字化。无须质疑，数字音频信号在声音的存储和传输等方面具有模拟音频信号无法比拟的优势，比如对噪声不敏感，增加音频带宽和重复再生没有信号损失。但与此同时，劣势同样明显，数字音频信号需要占用很宽的传输带宽。数字p c m 数据冗余度之大口p c m 数据的冗余度包含两个重要方面： 1 客观冗余度，它是可计算的，同时用来确定音频信号的某些数字上可预测特性的数量，例如周期波形。 2 主观冗余度，它由人类听觉的心理声学现象引起。为了消除这些冗余度必须采用合适的信源压缩编码算法。所谓数据压缩就是以最少的比特数来表示信源发出的原始信号，减少给定消息集合或数据采样集合的信号空间。我们根据解码后恢复的数据与原始数据是否完全一致来对数据压缩技术进行分类，大致可分为无损压缩技术和有损压缩技术。 8 哈尔滨工程大学硕士学位论文 2 1 2 消除冗余度数字压缩算法的首要目标是在传输或存储以前消除一定程度的客观冗余度，从而减少存储空间或降低带宽需求。音频信号的保真度不受这种无损处理的影响，因为在重放时将把冗余度加回核心信号，提供完全的重建信号。但是，使用这种方法无法大量降低码率。因此，除了利用数字音频信号的客观冗余度来进行压缩外，在低码率压缩模式中，必须利用主观冗余度来进行有损音频压缩。换句话说，必须消除那些人耳不能听见的信号分量。的确，某些信息消除后将无法恢复，但是有损算法认为那些属于主观冗余度范畴的信息本身对人耳听觉系统来说就是多余的，虽然它的操作纯粹是主观的，而且有可能引起争议，但它是压缩音频数据的主要手段。由此可见，一个“理想”的数字音频数据压缩系统首先应该全部消除数字音频信号的客观冗余度( 因为这种处理本质上是不引起信息损失的) ，然后从剩下的音频信号中消除全部的主观冗余度，后者要引起信息损失。计算和利用冗余度的技术可以采用自适应比特分配在时域( 例如差分编码) 或频域中工作。也可通过霍夫曼编码生成变步长码流以提高后端编码效率。一个有损压缩算法的优劣取决于是否能够使最佳信号范围与人耳的精确感觉相匹配，如果这样，则在一个理想系统中，只有这些信号需要以高分辨率编码，而有噪声的非精确信号可以粗糙的编码。以实际的编码器设计来说，在频域中利用冗余度使编码分辨率与信号每个频率能量相符合，高能量频率分配的量化比特比低能量频率多。提取这些冗余度取决于分辨它们的能力：这种处理受变换窗口大小的影响。在某些限制范围内。较大的窗口提供较好的频率分辨率和允许消除更多的冗余度。在编码延迟中损失增加，而在瞬时分辨中损失减少。 2 2 听觉的掩蔽效应人体听觉系统的动态范围相当大，可感知频率为2 0 - 2 0 k h z 的音频信号，并且能够感受的声响强度也有很大的变化范围。掩蔽效应，是指一个较弱的音频信号因为其它较强的音频信号的出现而导致其无法被人耳感受的物理现象。它是人类主观听感的一种特性，可以分为频域掩蔽效应和时域掩蔽效应。 9 哈尔滨工程大学硕士学位论文 2 2 1 频域掩蔽效应所谓频域掩蔽效应，是指当同时存在一个较弱的单音频信号( 称为被掩蔽音) 和另一个较强的单音频信号( 称为掩蔽音) 时，只要两者的声压级差值足够大并且频率差足够小，那么弱信号将被强信号掩蔽掉而无法被听见。由于音频信号是同时出现的，所以又称之为同时掩蔽。 l o g i o ( f ) 图2 1 静听阈和掩蔽阈下面结合图2 1 对频域掩蔽进行说明图中，掩蔽音的频率为f = l k h z ，其声压级s p l 约为9 0 d b 。在l k h z 附近有三个被掩蔽音，由于它们都处于掩蔽阈曲线以下，所有都被掩蔽而无法听到。实际中这些被掩蔽的信号可能是量化噪声、折叠失真或传输误差等干扰信号，但也可能是能量较小的原始信号。从该图还可注意到掩蔽曲线在频率较低的一侧斜率较大，在频率较高的一侧斜率则较小，这说明高频信号比低频信号更容易掩蔽掉。此外，在实验中还发现噪声掩蔽信号比信号掩蔽噪声更加容易，也就是说噪声的掩蔽能力更强，这对于压缩是一个不利的方面。在图2 1 中还有一条被称为静听的曲线，该曲线的意义是：即使无任何掩蔽音的出现( 安静环境中) ，如果信号处于静听阈曲线的下方，则信号同样是听不到的。静听阈又称为绝对掩蔽。静听阈曲线在3 k h z 5 k h z 范围内最小，表明人耳对此频率范围内的信号最敏感。而随着频率向低端和高端延展，静 1 0 哈尔滨工程大学硕士学位论文听阈迅速增大，表明入耳对低频和高频信号是很迟钝的。在m p e g l 标准中，信号掩蔽比和静听阈需要同时考虑。掩蔽比往往不是用其绝对值表示，而是用相对于掩蔽音声压的相对值来表示。用图2 2 可以对此作更进一步的说明。宙歪级辖菇姜、l芴一掩蔽i i i 、 m - 1 i 平了蓦。临界相邻 _ 频带临界- 频带图2 2 掩蔽阂和信号掩蔽比图2 2 中，阴影部分是被掩蔽的。掩蔽音声压级和掩蔽阈声压级之差称为信号掩蔽比s m r ( s i g n a lm a s kr a t i o ) ，在掩蔽音所处的临界频带内，s m r 的最大值出现在临界频带左边界的a 点，此处的s m r 被定义为该临界频带的 s m r 。在临界频带内，只要噪声的声压级小于a 点的掩蔽阙值，则该噪声必定被掩蔽掉。定义了信号掩蔽比s m r 后，通过比较s m r 和信噪比s n r 的大小，就可以方便地确定能否将噪声掩蔽掉。现假设对信号进行m 比特量化时形成的量化信噪比为s n r ( m ) 那么，只要s n r 大于s m r ，则临界频带内的量化噪声可被掩蔽。( 当然，对于临界频带外的信号或噪声只要它处于掩蔽阈下方，同样是听不见的。) 由此，我们可以定义掩蔽噪声比m n r 如下： i v l n r ( m ) = s n r ( m ) 一s i v l rf d a ) ( 2 - 1 ) m n r ( m ) 表示了m 比特量化时量化信噪比与信号掩蔽比之差，这实质上就是掩蔽阈和量化噪声之间的差值。因此，在临界频带内，判断量化噪声能否被掩蔽的依据是：若m n r ( m ) 0 ，则可以掩蔽量化噪声；若m n r ( m ) 0 ，则不能掩蔽量化噪声。以上所讨论的频域掩蔽效应都是仅有一个掩蔽音的简单情况。实际中所遇到的往往是含有多个掩蔽音的复杂情况，这时的处理方法是首先分别求出各掩蔽音单独的掩蔽阈，然后将各掩蔽阈在频域上叠加，得出总体掩蔽比。哈尔滨工程大学硕士学位论文 2 2 2 时域掩蔽效应时域掩蔽效应又可以分为后向掩蔽效应和前向掩蔽效应两种。所谓后向掩蔽效应，是指在某一时刻出现的较强音频信号将稍早出现的另一较弱音频信号掩蔽掉的现象。之所有会出现后向掩蔽效应，是因为人耳对不同强度的声音有不同的响应时间。后向掩蔽效应的存在，表明了即使一个信号的出现早于掩蔽音，但只要两者的时间间隔足够短，而且强度差足够大，那么该信号仍然可以被其后出现的掩蔽音掩蔽掉。虽然后向掩蔽效应的掩蔽效果很弱，但是对于那些因为突发量化误差的扩展而在音频块内引起的预回响，后向掩蔽效应具有重要意义。声压级s p l ( 加】 9 0 8 0 7 0 6 0 5 0 4 0 t ( - s - 6 0 - 4 0 - 2 002 04 06 0 8 01 0 0 1 2 01 4 0 图2 3 时域掩蔽效应前向掩蔽效应与后向掩蔽效应相反，是指某时刻出现的较强音频信号将稍迟出现的另一较弱音频信号掩蔽掉的现象。前向掩蔽效应的出现，是人耳听觉暂留特性的结果。时域掩蔽效应的示意图如图2 3 所示。在m p e g 一1 编码算法中，两种时域掩蔽效应都运用上了。 2 3 子带滤波器组人的听觉系统可以被看作是一个有特定频率范围的滤波器组，这个滤波器组叫做临界带宽滤波器组。为了充分利用人耳的临界带这一特性，将每个临界带内的噪声保持在该子带的可察觉值以下，m p 3 编码采用了子带编码技术。子带编码就是利用带通滤波器组把信号分割成若干个子带信号，对各个子带信号以奈奎斯特频率进行采样，并将采样值进行通常的数字编码。哈尔滨工程大学硕士学位论文 2 3 1 滤波器组的基本理论滤波器组( f i l t e rb a n k ) 又称为滤波器阵列，是多抽样率信号处理理论的重要方面。所谓滤波器组，是指具有一个共同输入信号或一个共同输出信号的一组滤波器。具有共同输入的称为分析滤波器组，具有共同输出的则称为合成滤波器组。由于滤波后得到的子带信号的频带变窄，可以用较低的抽样信号来表示，所以带通滤波后往往进行抽取处理以减少数据量。图2 4 展示了基于分析一合成滤波器组结构的通信系统的完整方框图。图中的l 主表示m ：1 抽取器，它对输入序列每隔m 个样值抽取一次，i ! ! i 表示l ：m 内插器，它在两个相邻样值之间插入m 1 个零值。图2 4 子带编码系统框图子带分析滤波器组是指有一个共同输入信号的一组滤波器组，带通滤波器( b p f ) ，信号经滤波后被划分为不同的子带。由于滤波后得到的子带信号频带变窄，子带信号的取样频率可以比原始信号所要求的取样频率低。假设每个b p f 均是理想的，第k 个b p f 的输出信号的频谱限制在w k = 最一最- 1 范围内，可以证明，对第k 个b p f 输出信号的取样频率厶的最小值是：心。2 而岗赫胛o ( 2 - 2 ) 式中：n t ( ) 为取整函数。由上式可知，如果合理地划分子带，使得e 。w k 为整数，则上式可取得最小值2 磁。所以，子带信号的取样频率可以大大减少。假设原信号的带宽b 被均匀划分为m 个子带，则每一子带宽度为= b m ( k = 1 ，2 ，m ) 所以，子带的取样频率为；厶= 2 = 2 b m ( 2 - 3 ) 哈尔滨工程大学硕士学位论文又设取样的量化比特数为n ，则单个子带的传输码流为： b r k = 厶+ 竹= 2 n b m 而总的传输码率是各子带传输码率之和，即： b r = m + 2 ，店m = 2 ，沾这恰好等于原来的传输码率。 2 3 2 子带编码及其优点 ( 2 4 ) ( 2 - 5 ) 子带滤波器组编码完成样本信号从时域到频域的映射m ，所谓子带编码就是利用带通滤波器( b p f ) 组把信号频带分割成若干个子频带，通过等效于单边带调幅的调制过程，将各子带搬移到零频率附近以得到低通表示，然后再以奈奎斯特频率对各子带输出取样，并对取样值进行通常的数字编码n “。信道传输中把每一个子带的代码复合起来，信道接受端由译码器分别对每一个子带单独译码，然后再组合输出原始音频信号。为了提高编码质量、增大压缩比，层三引入滤波器组与正交变换相结合的混合滤波器组，自适应字长，减少混迭失真的电路及非均匀量化和可变长的嫡编码等。这些都大大提高频率分辨率，并消减数据的冗余度。层三编码时首先利用滤波器把音频信号在频率上分割成3 2 个子带，然后使用胁c t ，把每一个子带分成1 8 个频率行，从而在频率上分离出5 7 6 个频段，把频率分辨率提高到一个更好的层次。其中每一帧包含1 1 5 2 个样本频率；每一个子带则包含3 6 个样本频率。其次，通过f f t 变换对音频信号进行子带分析，计算门限值，确定音质模型和缩放因子以对子带样本进行量化，然后对量化值进行h u f f m a n 编码，最后把压缩后的音频信号进行格式化处理并进行传输。把音频信号利用分析滤波器组分成子带后进行编码，有以下优点：由于声音频谱的非平坦性，如果对不同子带合理地分配比特数，就有可能分别控制各子带的量化电平数目以及相应的重建误差的方差，使码流更精确地与各子带的信源统计特性相匹配。调整不同子带的比特赋值，就控制了总的重建误差频谱形状，可以按照入耳的主观感知特性来形成噪声频谱，如果这种形成是噪声实现的，那么就能大大提高编码系统的性能。 1 4 哈尔滨工程大学硕士学位论文各子带的量化噪声都束缚在本子带内，这样就能避免能量较小的子带内的输入信号被其他子带的量化噪声所掩盖。 2 4 本章小结本章主要是对音频编码基础理论的概括介绍，包括音频压缩的声学原理、音频信号的冗余度、听觉的掩蔽效应和子带滤波器组四大部分。其中，消除音频信号的冗余度和利用听觉的掩蔽效应消除噪声是m p 3 编码得以实现的最基本理论依据，而子带滤波器是时域映射的技术基础，第三章中的分析滤波器组用到子带滤波器技术。总之，第二章是对第三章的理论基础，只有在深入研究本章的内容的基础上，才能进一步了解m p 3 编码的精髓和本质。哈尔滨工程大学硕士学位论文第3 章m p 3 编码过程及算法仿真 3 1m p 3 编码过程概述 m p 3 编码过程的方框图如图3 1 所示，该图中，每1 1 5 2 个p c m 样值划分为一帧，而每帧又分为两个颗粒，即5 7 6 样值颗粒。m p 3 的压缩实质上属于有损压缩，实现编码的理论基础是第二章所述的人体听觉系统掩蔽效应，包括时域掩蔽效应和频域掩蔽效应，而主要应用了频域掩蔽效应n ”h 一。为有效地应用频域掩蔽效应，需要对每颗粒的5 7 6 个p c m 样值作时域频域变换：首先 p c m 数据送入子带分析滤波器组，分为3 2 个子带信号蹁s a , ( 每子带1 8 个样值) ，从而得到5 7 6 个等间距的频域样值毛7 5 。左声道p c m 音频数据右声道p c m 音频数据多七多子带分析滤波器组 s 见4 多多s 只一多同左 m d c t 分解 r 而多 = o ；i 一) x 【i 】= 下一p c m 样值加窗处理 f o r ( i = o ；i 5 1 2 ；i + + ) z 【i 】= c 【矿x i 】求矢量y 。【f o r ( i = o ；i 6 4 ；+ + ) y 【i 】- z i + 6 4 + j 】 m 0 矩阵相乘醪 1 r o r ( i = o ；i 3 2 ；i + + ) s 【i 】= m 【i 】嘲+ y 【k | t 0 0 输出3 2 个子带的样值s 【i 】图3 2 分析滤波器流程图上述流程中，m p 3 编码标准用分析滤波器组把输入的时域信号序列均匀地划分为3 2 个子带信号。窗系数c i 己确定，矩阵m i k = c o s ( 2 i + 1 ) ( k - 1 6 ) n 6 4 ，从而可以推算出s i 的值。 1 7 哈尔滨工程大学硕士学位论文 3 2 2 分析滤波器组仿真对分析滤波器进行仿真和分析，分析滤波器仿真图如图3 3 所示。从图中可以看出各子带的量化电平数目能够较好的得到控制，各子带的量化噪声基本束缚在本子带内，避免了能量较小的子带内的输入信号被其他子带的量化噪声所掩盖。图3 3 分析滤波器仿真图 3 3 修正离散余弦变换( m d c t ) m p 3 编码标准中，对子带分析滤波器组的输出进行m d c t 。这是因为由心理声学模型得出的临界带宽不是等带宽的，而子带分析滤波器组的3 2 个子带是等带宽的，为了使得进行编码的各比例因子带与临界频带相匹配，需要对每个子带信号做m d c t ，从而提供更精细的频率分辨率o ”。 3 3 1m d c t 的定义彻c t 是一种利用时域重叠对消( t d a c ) 技术来降低边界效应的线性正交 1 8 哈尔滨工程大学硕士学位论文变换，它是离散余弦变换( d c t ) 的一种修正型。d f f l 是一种正交变换，与离散傅立叶变换相比，它处理实信号时变换结果仍是实信号，避免了复数运算。由于d c r 在存在固有的不连续性，这些分组边界处就有可能产生很大的噪声。为了消减这些噪声，首先用本组的n 个取样和前后两个相邻分块的各k 2 个数据组合成( n + k ) 个数据，然后进行加窗处理，并做( n + k ) 点的d c t ，得到( n + k ) 个独立的变换系数。这样就对该重叠的k 个重叠点做了两次变换，因而导致 i ) l t 编码效率的降低。而m d c t 解决了o c t 这种编码效率低的问题。m d c t 的具体做法是：首先，对输入的序列x ( n ) ，用本组的n 个数据和前后两个相邻组的各一半数据组成2 n 个数据，再取2 n 点的窗函数h ( n ) ，并使h ( n ) 满足如下等式： h 2 ( 刀) + 2 ( 珂+ i v ) = 1 ( 3 一1 ) 使得各窗口中的数据有5 0 的重叠，x ( n ) 的m d c t 变换系数y ( k ) 及其反变换( i m d c t ) 的时域取样x ( n ) 分别为：】，(_j)：2yn-ix(以)|jl(n)cos(2k+1)(n+n2+l2)z ) 2 萎x ( 以) | j l 面一 z(疗)：三乃(刀)亨y(k)eos(2k+1)(n+n2+l2)2 z ( 功。万乃( 刀) 荟百一而重建信号为： k = 0 , 1 n 一1 ( 3 2 ) 疗= 0 , 1 2 二1 ( 3 - 3 ) x ( 功= x ( 力+ x 0 + )”= o ，1 n - 1 ( 3 4 ) 其中z ( 刀) 表示前一个分块的反变换结果。在编码时，利用这5 0 的重叠窗口对每一个输入样本数据进行了两次变换，但是，当n 为偶数时，由式( 3 - 2 ) 可以看出变换系数y ( k ) 具有对称性： h 后) = y ( 2 n - 1 - k ) ( 3 5 ) 所以，传输时只需传输这n 个变换系数，5 0 重叠变换的编码性能并没有降低。因此，m d c t 既减少了各分块间的边界效应，又没有降低编码效率。 3 3 2m p 3 编码中的m d c t 算法在m p 3 编码标准中，将3 2 个子带的输出信号分别进行肋c t ，m d c t 的流程图如图3 4 所示。图中变换矩阵m k 儿i l 为： 1 9 哈尔滨工程大学硕士学位论文肘嘲【】= e o s ( 2 k _ + n 盯2 ) 一( 2 i + 1 ) ；, t ( 3 6 ) 移入n 2 个子带样值 f o r ( i = n - 1 ；i n 2 ；i - - ) x i l = x i - n 2 】 f o r ( i = n 2 i ；i o ；i ) x i 】= 下一个子带样值 i 加窗处理 f o r ( i = 0 ；i n ；i + + ) z 【i 】= c 【i 】+ x i 】 m d c t 换

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf

文档简介

温馨提示

最新文档

评论

（精密仪器及机械专业论文）基于DSP的MP3编码器技术研究(精密仪器及机械专业优秀论文).pdf

文档简介

温馨提示

最新文档

评论

相关文档