




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 宽j 带i * * j t 8 l q 断得到普及, 现r 多种蚺j :刚络的多媒体应川。例如视频点播, 视频会议利多媒体远程教学等。 彩媒体应用的特点就是使f 日音频、视频、图琢、文本等多种媒体传送信息 即信息以更窬易被理解的方式传送给核收者。多媒体信息数据量巨大,要通过网 络传输多媒体信息就必须对多媒体信息进行压缩编码,减小通过网络传输的数据 量,压缩编码是基f 网络的多媒体应j jr ir 必须解决的问题。m p e g 标准是一种得 到“泛应剧的,成熟的标准,用于对视频和音频进行多种质量和压缩率的压缩编 码 d s p ,卜要川于复杂的实时数字信号处理。从第一块d s p 出现到现在,d s p i q h f k - 了极人地挺k l 嘲q d s p 只能做简佝数:# 信号处理,并f i 运算速度 慢。现存的d s p | 1 勺性:能已经达到了卜f 个m i p s 陛能提高的同时,d s p 的功耗 姒低,陀价比史高。v l i w 体系结构的d s p 是近儿年现的一种高性能d s p , v l i w 仆系纪构m + j 尖d s p l t 集成彩个执仃i 丫l 儿,多个执仃f 、p 并行操作,撇人 地捉i :可了d s p 的性能,越来越多地用1 多通道高速数宁信号处理。 朋d s p 史现m p e g 萏频编码足各种网络多媒体应用中的关键部分。对m p e g 音频编码算法进行算法的优化和定点化,从而可以在性价比较高的定点d s p 上实 现m p e g 音频编码。针刘v l i wd s p 的特点,刘程序进行优化,提高程序的并行 性,窿m a p c a d s p 卜实现了m p e g 第层爵频的实时编码。 关键洞:d s p ;m p e g :v l i w :编码;优化 a b s t r a c t b r o a d b a n dn e t w o r ki sb e c o m i n gm o r ea n dm o r ep r e v a i l i n g m a n yn e t w o r kb a s e d a p p l i c a t i o nh a se m e r g e d ,f o r e x a m p l e :v i d e oo nd e m a n d ,v i d e oc o n f e r e n c e ,a n d m u l t i m e d i at e l e - t e a c h i n g ,e t c t h ea d v a n t a g eo fm u l t i m e d i aa p p l i c a t i o ni st h a ti n f o r m a t i o nc a nb et r a n s f e r r e d t h r o u g hm u l t i p l em e d i a s ,s u c ha sa u d i o ,v i d e o ,i m a g e ,a n dt e x t a sar e s u l t ,t h er e c e i v e r c a nb e t t e ru n d e r s t a n ds u c hd e l i v e r e di n f o r m a t i o n b e c a u s eo ft h em a g n i t u d eo f m u l t i m e d i ad a t a ,d a t am u s tb ee n c o d e db e f or eb e i n gt r a n s f e r r e db yn e t w o r k e n c o d i n g o fd a t ac a nm i n i s ht h em a g n i t u d eo fm u l t i m e d i a ,s oi ti st h ek e yt on e t w o r kb a s e d m u l t i m e d i aa p p l i c a t i o n s m p e gs t a n d a r di sam a t u r ea n dw i d e l ya p p l i e ds t a n d a r d , w h i c hi su s e dt oe n c o d ea u d i oa n dv i d e oi nv a r i o u sq u a l i t ya n dr a t i o d s pi s m a i n l yu s e di nc o m p l i c a t e dr e a l t i m ed i g i t a ls i g n a lp r o c e s s s i n c et h e a p p e a r a n c eo ft h ef i m td s p , t h ep e r f o r m a n c e o fd s ph a sg r e a t l yp r o g r e s s e d t h ee a r l y d s pc a no n l yp e r l o r ms i m p l ed i g i t a ls i g n a lp zo c e s sa tl o ws p e e d n o w , t h es p e e do ft h e p e r f o r m a n c eo fd s ph a sr e a c h e ds e v e r a l t h o u s a n dm i p s w i t ht h ep r o g r e s so f p e r f o r m a n c e ,i th a sg o tl o w e rd i s s i p a t i o na n dh i g h e rp e r f o r m a n c ec o s tr a t i o v l i w a r c h i t e c t u r ed s pi so n eo ft h eh i g h l yp e r f o r m a n c ed s pa p p e a r e di nr e c e n ty e a r s v l i wa r c h i t e c t u r ei n t e g r a t e sm a n ye x e c u t i n gu n i t s t h ep a r a l l e lw o r k i n go ft h e s e e x e c u t i n gu n i t sg r e a t l yp r o g r e s s e dt h ep e r f o r m a n c eo fd s p t h i sk i n do fd s p i sm o r e a n dm o r ew i d e l yu s e di nm u l t ic h a n n e lh i g h - s p e e dd i g i t a ls i g n a lp r o c e s s a p p l y i n gd s pt ot h em p e ga u d i oe n c o d i n gi st h ek e yt on e t w o r km u l t i m e d i a a p p l i c a t i o n s f o c u s i n go nt h ef e a t u r eo fv l i w , o p t i m i z e dm p e ga u d i oe n c o d i n g a l g o r i t h mf i x e d p o i n tp a r a l l e l i z e dp r o g r a m e p r a c t i s i n gt h er e a l t i m ee n c o d i n go f m p e g l a y e r1 1b a s e do nm a p - c ad s e k e yw o r d s :d s p ;m p e g ;v l i w ;e n c o d i n g ;o p t i m i z e i i 第一章绪论 1 1 引言 宽带接入网在近几年得到广泛的应用,在一定程度上解决了最后一公里问题, 用户町以以较宽的带宽接入网络,在缓解了网络传输c l 的瓶颈以后,多媒体的网 络应用迅速发展,出现了各种应用形式。 1 1 1 视频点播 视频t 擗( v o d ,v i d e oo r ld e m a n d ) ,l i p 按需要的视频流播放,通过多媒体 刚络将视频流按照川户的要求送n j t j ) 、端。打丌f u 视帆,叫以不看广告,不为某 个1 7 1 i 舡l i d 川,随时直接点播希望收看的内择,枕蚶像 前放刚刚放进自己家罩录 像机或v c d 中的一部新片子,但是又不需要购买录像带或者v c d 碟片,也不需 要录像机或者v c d 机。 视频点播是应人们对生活品质提高的需求而产生的。在现代社会,我们每个 人每时每刻有意无意地接受着来自四面八方大量的信息。其中一部分是有用的, 但更多的信息则是对自己没有用的,对这些信息进行区分,使人们主动获得对自 己有用的信息,而避免接受无用的信息,这样智能化生活的到来是必然的。 事实上,很多领域对视频点播产品有强烈的需求:宾馆饭店、高等住宅小区、 有线电视台、校园网和多媒体教室、远程教学、企业内部培训、医院病理分析和 远程医疗、电子图书馆等。目前国内宽带网的环境已经比较成熟,这种基于i p 宽 带网络的多媒体服务将得到普遍应用。 1 1 2 视频会议 随着网络带宽的增加及流媒体技术的成熟,视频会议系统逐渐被大家所看好。 视频会议系统适用于那些有分支机构的企业。视频会议系统,不但用于企业 各种会议,还用于平时企业内的交流,以及与合作伙伴的商务洽谈,节省了大量 因出差造成的人力资金支出,而且效率大大提高,增进了企业内部以及企业与合 作伙伴、客户的交流。 除了具有成本上的优势,视频会议系统还可以增加很多附加功能,如会议主 席、会议中的流程控制、共享文档等等。 1 1 3 多媒体远程教学 多媒体远 i ! 教学打破了时m 、地域的限制,充分利用了优秀的师资力量,是 一_ f | i 利川多媒体通信网进行远距离教学的集语音、图像、数掘于一体的交互式教 学模j c 。 多媒体远程教学的目的就是利用成熟的通信技术和计算机技术,在不同的区 域建立统一的教学模式,把高质量的教学传播到尽可能远的地方。对学生来说, 就像进入了同一问教室。教师给学生授课、答疑、解决问题,但两者却可相隔千 i i i ,仝m 时参加学习的同学可能从未见过而。 1 2 音频编码的实现 多媒体信息的数捌量十分庞火,小适合直接通过例络传输,压缩原始的音频 和视频内容,使其能够通过网络传送给用户,是多媒体网络应用发展的时提,所 以音频压缩和视频压缩技术是网络多媒体应用的关键技术之一。 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。 卢齐f | 勺种类繁多,如人的话舟、乐器声、动物发的声卉、机器产生的声音以及 自然界的雷声、风声、雨声、l j 电声等等。这些声音有诩:多共| 一】的特性,也有它 们各广1 的特一r i :。在用计算机处坪这些声音时,既要考虑它们的共性,义要利用它 们各自的特性。 m p e g 标准是m p e g ( m o t i o np i c t u r ee x p e l sg r o u p ,运动图象专家组) 制定 的一系列音频和视频压缩标准,已经被i s o ( i n t e r n a t i o n a lo r g a n i z a t i o nf o r s t a n d a r d i z a t i o n ,吲际标准化组织) 接受,成为幽际标准。m p e g 音频编码标准将 音频信号映射到3 2 个子带,根据人的心理卢学模型重新对各个子带的音频信号进 行量化,埘声啬进行人耳无法觉察的有损眶缩。m p e g 音频编码标准不对声音作 任何假设,适用于各种声音,是一种高保真的音频编码算法,具有较高的压缩比, 得到了,“泛的应用。 1 _ 2 1 实时音频编码器 m p e g 标准从出现到现在已经1 0 年了已经被普遍接受,并且有各种应用 和大量的产品。由于标准在制定时考虑到其可能的应用主要是大量的消费类产品, 所以将解码器的标准设计得相对简巾,而编码器比较复杂,因此,标准出现不久, 就出现了单片的实时解码器,但是直到现在,所有的m p e g 实时音频编码器仍然 是以d s p 为核心,加上存储器和输入输出接口构成的系统。 2 1 _ 2 2 用d s p 实现音频编码 d s p 芯片,也称数字信号处理器,足_ 乖| i 特别适合于进行数字信号处理运算 的微处理器,其主要应用是实时快速地实现符种数字信号处理算法。自从2 0 世纪 7 0 年代术8 0 年代初d s p 芯片诞生以束,d s p 芯片得到了飞速的发展。d s p 芯片 的高速发展,一方面得益于集成电路技术的发展另一方面也得益于巨大的市场。 在近2 0 年时问早,d s p 芯片已经在信号处理、通信、雷达等许多领域得到广泛 的应用。 m p e g 音频编码标准是一种复杂的信号处理算法,在几年前还被认为难以实 现实时编码,目前d s p 芯片的性能越来越高,高性能的d s p 不仅可以实现m p e g 音频实时编码,还可以在同一块d s p 二实现多路音频信号的实时编码。d s p 价格 越来越低,性能价格比| 1 益提高,非常适合川柬实现高频信号的实时编码。 1 3 论文内容简介 本文首先讨论了在宽带网不断普及的情况下,所产生的各种网络多媒体应用。 第二章描述了m p e g 音频编码标准的原理和实现。 第三章对v l i wd s p 的体系结构和编程方法作了探讨。 第四章既明m p e g 音频编码的算法优化,并在算法优化的基础上,针对v l i w d s p 的特点,对d s p 程序进行了优化,在v l i wd s p 上实现了实时的m p e g 音 频编码。在这一章的最后对v l i wd s p 音频编码的结果作了分析。 最后一章对m p e g 标准今后的应用与发腱以及v l l wd s p 上的音频编码技 术作了展望。 第二章m p e g 音频编码的原理 m p e g 音频编码算法【1 2 4 ”是第一个川j i l 苛保真旨频数字压缩的国际标准,其 他的音频压缩算法适合于只有语音的应用场合,i 而且仪提供中保真度的音频压缩 一陀能。 m p e g 音频 ,j i 准是活动图缘节家约【( m o t i o np i c t u r ee x p e r t sg r o u p ) 经过2 年 的苁同努力得出的结果,国际标准组织和阁际i 包了技术委员会( i s o i e c ) 于1 9 9 2 年底采用了这个标准。 2 】简介 2 1 1 特点 m p e g 音频编码标准【1 ,2 7 ,2 8 恨用f 带编码柬达剑既k 缩声音数据又尽可能保 斟声音原有质量的目的。听觉系统有y f :多特性,予带编码的理论根据是听觉系统 的掩敝特性,并e l 主要是利用频域掩蔽特r l :。子带编码的基本想法就是在编码过 程小倮刚信;_ 的带宽而护i 掉被掩蔽的作i l 扎儿结求是编码之后还原的卢音,也就 是解j f i j 5 或者叫做重构的声音信号与编码之| j 0 的声音信号不棚同,但人的听觉系统 很难感觉到它们之间的差别。这也就是说,埘昕觉系统来晚这种压缩是“无损压 缩”。 m p e g 音频编码标准是一个通用的音频编码标准。不象语音系统模型编码器 专门用t - 语旨信号,m p e g 音频编码器夼进行编码时不对声音源的自然属性作任 何似设。十月反,编码器利用了人类的听觉系统在感知方而的局限性,大部分的压 缩是由于去除了音频信号中听觉上不斗 l 关的部分。去除这些部分会导致不可听到 的失真,因此m p e g 音频能够压缩人类听觉系统可感知范围内的音频信号。为了 保持其通用特性,m p e g 音频提供了多种压缩模式: 音频抽样率可以是1 6 、2 2 5 、2 4 、3 2 、4 4 1 、4 8 i ( i z ; 压缩的比特流可支持以4 种可能的模式之一表示的1 个或者2 个音频通道: ( 1 ) 用于单一音频通道的单声道模式; ( 2 ) 用于两个独立音频通道的双一单声道模式( 功能j j 与立体声模式相同) : ( 3 ) 用于立体声通道的立体声模式,在通道间共享比特,但不是相关一立体 声编码; 4 ( 4 ) 相关一立体声模式,它或利用立体声通道、日j 的相关性,或利用通道间的 相位差的不相关性,亦或同时利用两者。 压缩的比特流可以选择一个每通道从8 k b p s 到3 2 0 k b p s 的预先设定的固定比 特率。另外,该标准还提供了一个“自由”比特率,以支持预先设定的码率以外 的固定码率。 m p e g 音频能够从= = 二个独立的层次i c i j :编码,这在编倒复杂性和压缩音频的 码率之间提供了宽裕的权衡范围。 层i 最简单,它最适合于每通道大f1 2 8 k b p s 的比特率。例如,p h i l i p s 的数 字压缩磁带( d c c ) 使用的是每通道1 9 2 k b p s 的层j i 缩。 层i i 具有中等复杂度,用于每通道约1 2 8 k b p s 的t - l , 1 = 牢。陔层可能的应用包 括数字音频广播( d a b ) 的音频编码、在c d r o mt 存f f f 川步视音频序列,以 及交互式c d 的全运动扩展,v c d 。 层i i i 最为复杂,但可以提供最好的音频质量,特别适用于每通道约6 4 k b p s 的比特率。 所有这三层的解码都很简单,能够实现单片、实时解码器。 编码的比特流支持可选的循环冗余校验( c r c ) 误码检测码。 m p e g 音频提供了在比特流中包含辅助数据的方法。 m p e g 音频比特流还有诸如随机访问、音频快进、快倒的特点。 2 1 2 概要 人多数s b c 编f 5 器都使ij c t l 图2 1 所,j 的结构【3 4 , 3 5 l ,这山足m p e g l 声音 编即5 器的结构图。输入声音信号经过一个“时间一频率多相滤波器组”变换到频 域目! 多个_ 了 带。| j 。输入声音信号同时经过“一c 、删声学模型( 计算掩蔽特性) ”, 浚模型计算以频率为自变量的噪声掩蔽阈值( m a s k i n gt h r e s h o l d ) ,查看输入信号 和子带中的信号以确定每个子带里的信号能量与掩蔽闽值的比率。“量化和编码” 部分用信掩l l ( s i g n a l - t o - m a s kr a t i o ,s m r ) 来决定分配给子带信号的量化位数, 使量化噪声低于掩蔽阂值。最后通过“数据流帧包装”将量化的子带样本和其他 数据按照规定的称为“帧( f r a m e ) ”的格式组装成位数据流。 信掩比是指最大的信号功率与全局掩蔽阈值之比,图2 2 表示了某个子带中 的信掩比。 m p e g 音频编码的关键是量化。虽然量化会引入误差,是有损失的,但是 m p e g 音频编码算法能够做到听觉上的无损压缩。m p e g 音频委员会在开发这一 标准的过程中作_ r 全面的主观听音测试,测试表明,即使是6 :1 的压缩比( 将立 体声、1 6 化样值、采样频率6 4 k h z 的音频信号压缩为码率为2 5 6 k b p s 的m p e g 音频数据) 和理想的听音条件下,在统训意义上专家们也不能区别编码的和原始 的爵频片段。而之所以选择这些片段是因为它们很难压缩。 图2 1m p e g 音频编码器结构 图2 2 子带掩蔽阐值和s m r 输入音频码流通过一个将输入码流分割为多个频率子带的滤波器组,同时输 入音频码流还通过一个决定每个子带信号掩蔽比的心理声学模型。比特或噪声分 配块利用信号掩蔽比将总编码比特数分配给各个子带信号,各子带信号根据所分 配的比特数进行量化,使得量化噪声的可觉察性降低到最小。后一部分对量化的 子带样值进行表示,这一数据和边信息构成编码比特流。不一定与音频码流相关 的辅助数据可以插在编码的比特流中。解码器解丌这个码流,恢复量化的子带值, 并从予带值中恢复出音频信号。 图2 3 是m p e g 声音解码器的结构图。解码器对位数据流进行解码,恢复被 量化的予带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、 重构子带样本和把它们变换回声音信号,因此解码器就比编码器简单得多。 图2 3m p e g 音频解码器结构 2 2 多相滤波器组 在图2 1 中,用来分割子带,也就是时间一频率变换部件,是一个多相滤波 器组。在m p e g 音频编码中,多相滤波器组是m p e g 声音压缩的关键部件之一, 它把输入信号变换到3 2 个频域子带中去。 多相滤波器组对于各层m p e g 音频编码都是一个重要部分。这个滤波器组将 音频信号分成3 2 个等宽子频带,滤波器输出相对简单,可以提供很好的时间分辨 率及合理的频率分辨率。这一设计是对三个著名的专利进行良好协调的结果。 子带的划分方法有两种,一种是线性划分,另一种是非线性划分。如果把声 音频带划分成带宽相等的子带,这种划分就不能精确地反映人耳的听觉特性,因 为人耳的听觉特性是以“临界频带”来划分的,在一个临界频带之内,很多心理 声学特性都是一样的。图2 4 对多相滤波器组的带宽和临界频带的带宽作了比较。 从图中可以看到,在低频区域,1 个子带覆盖好几个临界频带。在这种情况下, 某个子带中量化器的比特分配就不能根据每个临界频带的掩蔽闽值进行分配,而 要以其中最低的掩蔽闽值为准。 7 m p e o a u d i o 滤涟器组频带 o2l o1 41 51 61 71 81 92 01l34 j67l9l l1 2 l j2 丑2 m 田姐挣3 l - - 增加频率临界频带带宽 图2 4 滤波器组的带宽与临界频带带宽的比较 考察其来源有助于理解该多相滤波器组。m p e g 音频标准描述了一个与 r o t h w e i l e r 描述的方法类似计算分析滤波器组输出的方法。有关滤波器组输出的 表达。如下【= i 】: m 芝m d i k 陆+ 6 4 j r k + 6 4 ,卫 - 03 - 0 其中: i 为范围从o 到3 1 的子带序号, _ d 为在f 时刻f 子带滤波器的输出样值 数倍, ( 2 1 ) t 是3 2 个音频样值长时间间隔的整 c l ni 为标准中定义的分析窗的5 1 2 个系数之一, z l nl 为从长度为5 1 2 个样值的缓冲区读出的某个音频输入样值, , f b = c 。s 垦尘掣:;兰生1 为分析矩阵系数 ( 2 2 ) 上述等式为减少计算次数进行了部分优化。由于括号内的函数与f 值无关, 故3 2 个滤波器输出只需5 1 2 + 3 2 x 6 4 = 2 5 6 0 次乘法及6 4 x 7 + 3 2 x 6 4 = 2 4 6 4 次 加法,或大约每个子带输出需8 0 次乘法。乘法和加法次数还可以进一步根本地简 化,如通过快速离散余弦变换或快速傅里叶变换实现。 该滤波器组实现严格采样:对每3 2 个输入样值,滤波器组产生3 2 个输出样 值。其结果是,3 2 个子带滤波器中的每一个都对其输出进行3 2 取1 的亚采样, 即对每3 2 个新的音频样值只产生一个输出样值。 8 我们可以将等式改写为一个熟悉的滤波器卷积表达式【2 i : 一 f = 窆止- - h k 。b ( 2 3 ) 其l i : x f r l 为时刻r 的音频样值, q k b h b c o s 垒鹄生 ( 2 4 ) 其中: 州寸曲1 熊篇煳数一o ,。s , b s , 以:这一形式中,滤波器组的每个子带郝订其自己的带通滤波器响应h 。k j 。尽 钙这形式列分析非常方便,但它明显1 i 足个仃效的解决方案:该等式的直接 寅现j 府要3 2 x 5 1 2 = 1 6 3 8 4 次乘法和3 2 x 5 1 1 = 1 6 5 3 2 次:! j 1 l 法柬计算3 2 个滤波器的 输出。 系数i i li 对应多相滤波器组的原型低通滤波器响应。在部分优化的表达式中 使用的c k 将按6 4 分组的 k 系数中组序号为奇数的部分反号以补偿m b k 。 肘l i 七 的余弦项- t - 的范围只是从0 到6 3 。覆矗了! 仁周期的奇数倍,而h 。1 的余 弦项的范围为0 到5 1 1 覆盖了8 个半周期。 h 。1 的表达式清楚地表示出其中每个都足原型响应的调制,通过余弦项将低 通响应搬移至适当的频带内,因而它们被称为多相滤波器。这些滤波器的中心频 j 棼为”( 6 4 t ) 的奇数倍,7 是音频采样周期并e l 每个了带滤波器的名义带宽均 为石( 3 2 t ) 。当对滤波器输出进行3 2 取1 的业采样时会产生相当大的混叠。原型 滤波器的设计和余弦项中适当相移的引入使解码器的合成滤波器组输出能够完全 消除混叠。使用实际带宽大于名义带宽的滤波器的另一个后果是相邻的多相滤波 器的频域覆盖重叠。这一影响对高效的音频压缩是有害的,因为在名义带宽边沿 的信号能量将出现在两个相邻的多相滤波器中。 尽管多相滤波器并不是无损的,但其产生的误差很小。在不对子带样值进行 量化时,复合频响的纹波小于0 0 7 d b t 2 i 。 2 3 心理声学模型 m p e g 音频算法对音频数据的大部分压缩是通过去除声音信号的声学无关部 分实现的,即利用人类听觉系统在听觉掩蔽条件下无法昕到量化噪声的特性。这 种掩蔽是人类听觉系统的一种感知特性,只要有1 个强的音频信号存在就会使 其时域及频域邻近范围内较弱的音频信号变得无法察觉。 经验结粜也显示出人类听觉系统具有有限的,与频率有关的分辨率。这一频 率棚关r j 以川临界频带带宽的形式来说明,浚带宽在最低可闻频率处小于 1 0 0 h z ,在最高处大于4 k h z 。人类听觉系统对同一临界频带内的不同信号分量进 行模糊,塔管眩系统的频率选择性远比选择频带要精细。 山于人类听觉系统与频率有关的分辨能力,在任意给定的频率,噪声掩蔽门 限仪与咳频率的有限带宽邻域内信号的能量有关。m p e g 音频就是将音频信号分 割为近似选择频带的子频带,再根据各子带内量化噪声的可察觉性对各子带进行 量化。对j i 最有效的l i 缩而占,各子带的量化级数不应高于使景化噪声无法听见 所1 * 的嫩低级数。 2 - 3 1 掩蔽效应 利频;权的爵凋阻碍听觉系统感受另一种频牢的音调,这种现象称为掩蔽效 应m i ,时卉称为掩蔽音( m a s k i n g t o n e ) ,后者称为被掩蔽音( m a s k e d t o n e ) 。掩蔽 可分成频域掩蔽和n 寸域掩蔽。 2 3 1 1 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也 称同时掩蔽( s i m u l t a n e o u sm a s k i n g ) 。如图2 5 所示,1 个声强为6 0d b 、频率为 1 k h z 的纯音,另外还有1 个1 1k a z 的纯音,前者比后者高1 8d b ,在这种情况 下我们的耳朵就只能听到那个lk h z 的强音。如果有1 个1k h z 的纯音和1 个声 强比它低1 8d b 的2k n z 的纯音,那么我们的耳朵将会可时听到这两个音。要想 让2k h z 的纯音也听不到,则需要把它降到比1k h z 的纯音低4 5d b 。一般来说, 弱纯音离强纯音越近就越容易被掩蔽。 在图2 6 中的1 组曲线分别表示频率为2 5 0h z 、1k l - l z 、4k h z 和8k h z 纯 音的掩蔽效应,它们的声强均为6 0 d b 。从图中可以看到:在2 5 0 h z 、1k h z 、 4k h z 和8k f z 纯音附近,对其他纯音的掩蔽效果最明显,低频纯音可以有效 地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。 出于音调频率与掩蔽曲线不是线性关系,为从感知上来统一度量音调频率, 引入了“临界频带( c r i t i c a lb a n d ) ”的概念。通常认为,在2 0 h z 到1 6 k h z 范围 内有2 4 个临界频带,如下表所示。临界频带的单位叫b a r k ( 巴克) , 1b a r k = 1 个临界频带的宽度, 1 0 f ( 频率) 5 0 0 h z 的情况下, 1b a r k f 1 0 0 , 1 b a r k 94 - 4 l o g ( f 1 0 0 0 ) 。 声强( d b ) 频率 幽2 5 卢姒6 0d b 、频率1 0 0 0 h z 纯爵的掩蔽效应 图2 6 不同纯音的掩蔽效应曲线 2 3 1 2 时域掩蔽 除了同时发出的音之问有掩蔽现象之外,在时问上相邻的音之间也有掩蔽现 象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽( p r e - - m a s k i n g ) 和滞后掩蔽 ( p o s t - - m a s k i n g ) ,如图2 7 所示。产生时域掩蔽的主要原因是人的大脑处理信息 需要花费一定的时间。一般来说,超前掩蔽很短只有大约5 2 0m s ,而滞后掩 蔽可以持续5 0 2 0 0m s 。这个区别也是很容易理解的。 1 6 0 1 8 002 14 06 08 0l o o t 2 1 1 4 0 时间( 毫秒) 图2 7 或掩蔽 2 - 3 2 心理声学模型 心耻声学模型对音频信号进行分析, 汁算一r ji l l l 1 i 噪j i 掩蔽量。噪声掩蔽量 足频二簪f f j 函数,1 个给定的信譬分h t :f f , j 掩蔽能力i v , 决于它的频率位置和响度,编 码器利用这一信息决定如何最好地用有限数陵的码流比特来表示输入音频信号。 m p e g 音频标准提供了一i , ! l l 声学模型实现的两个例子。心理声学模型l 比心理声 学模型2 简单,为简化计算作了更多的折衷。每个模型郁町用于任意压缩层上。 而只有模型2 包括了蹦于层l u 的特定修i 1 :, 在- i , :f r l i ;i s 学模型的实现上呵以有牛“1 人的1 1 。浚模型的精确程度与所需要 的j i i 缩比例因子和具体成用有关。对程发较低的压缩,山于有足够的编码比特供 使刖,4 :要心理声学模型也是可以的。4 :这利t 情况下,比特分配过程将以迭代形 式对信嗓比最低的子带分配比特。征对i l - f i 号进行编码u 寸,心理声学模型则要 f “格得多。 心理模型的基本步骤如下: ( 1 ) 音频数据的时间对齐。 每帧进行一次心理声学估算。送入心理声学模型的音频数掘必须与要编码的 数据保持时j 、日j 一致。心理声学模型必须考虑音频数据通过滤波器组的延时和使相 关数掘位于心理声学分析窗正中所需的数据偏移量。例如,当在层i 使用心理声 知 加 加 如 姐 学模型l 时,滤波器延时为2 5 6 个样值,使层i 帧的3 8 4 个样值处于5 1 2 点分析 窗r 央的偏移量是( 5 1 2 - - 3 8 4 ) 2 = 6 4 点,将滤波器输出与心理声学模型数据 时问进行对齐的净偏移量为3 2 0 点。 ( 2 ) 将音频转换为频域表示。 心理声学模型应采用一种与多相滤波器组分丌的、独立的时域到频域的映射 方凶为它需要更加精细的频率分判辫i 米划掩敲fj 限进行精确计算。两种心理 声学模型都使用傅罩叶变换来完成这一映射。存傅里叶变换前对数据进行标准汉 。j 。窗加权以减小变换裔的边缘效应。心邢声学模 弘l 联i 巾使用5 1 2 点的分析 窗,存层i l 和层i 儿中使用1 0 2 4 点的窗。因为层i 每j 帧只有3 8 4 个样点,5 1 2 点 f | j 窗足以将其覆盖。这早使用较短的窗地为了减少计算负简。层i i 和层l i i 采用 1 1 5 2 点呲k 度,而1 0 2 4 点的窗叫i 能将j 完全覆- 箍。化理想情况卜,分析窗 应能完全覆盖需编码的样值,1 0 2 4 点长度的窗是一种合理的折衷。落在分析窗外 的样值不会对心理声学估算产生重大的影响。心删声学模型2 在各层均采用1 0 2 4 点窗。对层i ,咳模型按前面讨论的方式将一帧的3 8 4 个样值置于心理声学模型 窗f 】o , jr l , 央。对层l i 和层i i i ,该模型对每帧进行两个1 0 2 4 点的心理声学计算。 讹玖汁骅将1 1 5 2 个样值的l i i j i t - 部分。群j 1 1 分析窗小央m 筇:次计算则将届半部 分霄于分析窗中央。模型将两次计算的结果组合起米,采用各子带的两个信号一 掩蔽比中较高的一个。这实际上就是选择了各子带的两个噪卢掩蔽门限中较低的 一个。 ( 3 ) 根捌临界频带带宽对频域样值进行分组处理。 为简化心理声学模型计算这两种模型部以感知域形式刘频域样值进行处理。 将频域样值分为袍音和非单音成分。两种模型都对音频信号中的单音和类似 噪声的成分加以区分,因为这两种信号的掩蔽能力不l j 。 心理声学模型1 根据声音功率谱的局部最大值确定单音成分。在处理完单音 成分后,模型1 对剩余的频谱样值求和,在每个临界频带中形成1 个啦一的非单 音成分。各集中的非单音分量的频率序号定为最接近包含浚分量的选择频带的几 何中心的值。 心i 电声学模型2 实际上并不区分单音和非单音分量。而是计算一个频率函数 彤式的单音程度指数。该指数可对频率分量更象单音还是更象噪声进行衡量。模 型2 使用该指数对纯粹的单音掩蔽噪声和噪声掩蔽单音数值进行内插。单音程度 指数基于对可预测性的度量得出。模型2 通过线性外插,利用两个分析窗对当前 窗分量的数值进行预测。由于这一过程依赖更多的数据,因而能够比模型1 使用 的办法蚶地埘r 丫l 舟取川:- 卉成分进行区分。 ( 4 ) 扩敞函数f 内使用。 给定的信号的掩蔽效应扩敝于其周围的临界频带中。模型首先通过对信号分 f 连使川1 个经验的捻敞模型( 模型1 ) 或扩敞函数( 模型2 ) 米确定噪声掩敝门限。 ( 5 ) 设置掩蔽值的最低界限。 两种心理声学模型都采用了个经验的绝对掩蔽门限,即安静条件下的门限。 该门限是声音可觉察度的晟低界限。 ( 6 ) 确定各子带的掩蔽门限。 两个心理声学模型都以比多相滤波器组更高的频率分辨率来计算掩蔽门限。 两个模型都必须从浚子带的频率分量计算而得的町能的众多掩蔽门限中得到1 个了特门限。 模型1 舀:备r 带中选择最小的掩蔽1 1 j 限。该方法对于和选择频带相比的带宽 较窄,频率较低的r 频带是有效的,但是对频率较高的予频带则有不足之处,因 为这一频率范围的选择频带覆盖了多个子带。这一不足是由模型1 将1 个选择频 - 秘i 一的所有的单裔成分集- p 为单一频牢上的单一数值引起的。结果是模型1 将非 单音成分转化为1 个j p 音成分。1 个位于较宽的选择频带i f l ,但是离该集中的非 单音分量较远的予带将无法得到精确的非单音掩蔽估计。该方法是为减小运算负 荷而作的折衷。 模型2 只在子带带宽与该频率范围的选择频带带宽相当时选用该子带覆盖范 围内最小的掩蔽门限。它在子带带宽小于选择频带时则使用该子带覆盖范围内的 掩蔽门限的平均值。m 于不x j - q e 单青成分进行集中,模型2 在较高的子频带处的 精确程度并未降低。 ( 7 ) 计算信号的掩蔽比。 心理声学模型通过计算子带( 或对层i i i ,1 组频带) 中的信号能量与该子带 最小的掩蔽门$ t f t 比值得到信号掩蔽比。模型将这数值传给编码器的比特分配 ( 或噪声分配) 部分。 2 4 编码层 m p e g 音频编码标准定义了3 个分明的层次【”,它们的基本模型是相同的。 层i 是最基础的,层i i 和层i i l 都在层i 的基础上有所提高。每个后继的层次都有 更高的压缩比,但需要更复杂的编码解码器。m p e g 声音的每一个层都自含s b c 编码器,其巾包含如前图所示的“时m 一频率多相滤波器组”、“心理声学模型( 计 1 4 算掩蔽特性) ”、“量化和编码”和“数捌流帧包装”,而高层s b c 可使用低层s b c 编码的声音数据。 m p e g 的声音数据分成帧( f l a m e ) ,层i 每帧包含3 8 4 个样本的数据,每帧 h3 2 个子带分别输m 的1 2 个样本身【成。层i i 和层i i i 每帧为1 1 5 2 个样本,如图 2 8 所示。 图2 8 层i 、1 1 和层i i i 的予带样本 m p e g 编码器的输入以1 2 个样术为一组,每组样本经过时问一频率变换之 后进行一次比特分配并记录一个比例因子( s c a l ef a c t o r ) 。比特分配信息告诉解码 器每个样本由几位表示,比例因子用6 比特表示,解码器使用这个6 比特的比例 因子乘逆量化器的每个输出样本值,以恢复被量化的子带值。比例因子的作用是 充分利用量化器的量化范围,通过比特分配和比例因子相配合,可以表示动态范 围超过1 2 0 d b 的样本。 2 4 1 层i 层i 和层i i 的比较详细的框图如图2 9 所示。层i 的子带是频带相等的予带, 它的心理声学模型仅使用频域掩蔽特性。层i 的“时间一频率多相滤波器组”使 用类似于离散余弦变换d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 的分析滤波器组进行变换, 以获得详细的信号频谱信息。根据信号的频率、强度和音调,滤波器组的输出可 用来找出掩蔽阈值,然后组合每个子带的单个掩蔽阅值以形成全局的掩蔽阈值。 使用这个闽值与子带中的最大信号进行比较,产生信掩比s m r 之后再输入到“量 化和编码器”。 “量化和编码器”首先检查每个子带的样本,找出这些样本中的最大的绝对 值,然后量化成6 比特,这个比特数称为比例凶子( s c a l ef a c t o r ) 。“量化和编码 器”然后根掘s m r 确定每个子带的比特分配( b i ta l l o c a t i o n ) ,子带样本按照比特 分配进行量化和编码。对被高度掩蔽的子带自然就不需要对它进行编码。 图2 9m p e g 音频层l 、层i i 编码器和解码器的结构 “数据流帧包装”按规定的帧格式进行数据流包装实际上就是一个多路复 合器m u x 。层i 的帧结构如图2 1 0 所示。每帧都包含:用于同步和记录该帧 信息的同步头,长度为3 2 比特,它的结构如图2 1 1 所示,用于检查是否有错 误的循环冗余码c r c ( c y c l i cr e d u n d a n c yc o d e ) ,长度为1 6 比特,用于描述比 特分配的比特分配域,长度为4 比特,比例因子域,长度为6 比特,子带样 本域,有可能添加的附加数据域,长度未规定。 1 6 图2 1 0 m p e g 音频层i 的帧结构 m o d e ( 通遭方式选j 釉 l a y e r 嘱托码) b i t r a t e i n d e x 、p a , d d i 竺l - , h i t c 。? g 蛰,。e m 。p h 。a s 。i s , s y n c w o r d ( 同步字 _ 、 1111l111 l i t 盯_ hm滁 2 4 2 层i i m o d ee 吼e n s i o n 防式扩鼬 图2 1 1m p e g 音频比特流同步头的格式 ) 层i l 对层i 作了一些直观的改进相当于3 个层i 的帧,每帧有1 1 5 2 个样本。 它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且 在低、中和高频段对比特分配作了一些限制,对比特分配、比例因子和量化样本 值的编码也更紧凑。由于层i i 采用了上述措施,因此所需的比特数减少了,这样 就可以有更多的比特用来表示声音数据,占质也比层i 更高。 层i 是对一个子带中的一个样本组( 由1 2 个样本组成) 进行编码,而层i i 和层i i i 是对一个子带中的三个样本组进行编码。下罔也表示了层i i 和层i i i 的分 组方法。 如图2 1 2 所示,层i i 使用与层l 相同的同步头和e r e 结构,但描述比特分 配的位数( 即比特数) 随予带不同而变化:低频段的f 带用4 比特,中频段的子 带用3 比特,高频段的子带用2 比特。层i i 比特流中有一个比例因子选择信息( s c a l e f a c t o rs e l e c t i o ni n f o r m a t i o n ,s c f s i ) 域,解码器根掘这个域的信息可知道是否需 要以及如何共享比例因子。 图2 1 2m p e g 音频层i i 比特流数4 f :格 2 4 。3 层i i i 层i l i 使用比较好的临界频带滤波器,把声音频带分j , y z :i i = 等带宽的子带,心理 声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗 余,并且使用了霍夫曼( h u f f m a n ) 编码器。层i i i 编码器的详细框图如图2 1 3 所 不。 层i i i 使用了从a s p e c ( a u d i os p e c t r a lp e r c e p t u a le n t r o p ye n c o d i n g ) 和o c f ( o p t i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林农业大学《英语基础写作(一)》2023-2024学年第二学期期末试卷
- 哈尔滨体育学院《数字孪生与智能设计》2023-2024学年第二学期期末试卷
- 南京大学《现代设计技术》2023-2024学年第二学期期末试卷
- 广西大学《反垄断法》2023-2024学年第二学期期末试卷
- 安徽公安职业学院《数字法专题》2023-2024学年第二学期期末试卷
- 淮北职业技术学院《生化分离工程》2023-2024学年第二学期期末试卷
- 贵州工贸职业学院《景观可持续科学》2023-2024学年第二学期期末试卷
- 兰州职业技术学院《光电专业学科前沿》2023-2024学年第二学期期末试卷
- 一到二岁亲子早期教育
- 幼儿园食品安全教育教案(小班)
- 合伙人协议书模板
- 2025年中考第一次模拟考试卷:生物(成都卷)解析版
- 岁月不负母亲时光留住温情 课件高二下学期母亲节(5月11日)主题班会
- Unit 5 Animals Lesson 3 教学设计-人教精通版三年级英语下册
- 2025年河南空港数字城市开发建设有限公司第一批社会招聘20人笔试参考题库附带答案详解
- 2024年四川公安厅招聘警务辅助人员笔试真题
- 网站联盟广告专题报告
- 广东入团考试试题及答案
- 从实践中学习医疗人文关怀的案例分享
- 2025年上半年重庆合川区招考事业单位工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 平安人寿代理合同协议
评论
0/150
提交评论