




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)musicam算法的研究和dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 m p e g 1 的音频部分给出了三个层次以适应于不同的应用要求,综合考虑 算法复杂度和话音质量要求,本课题选择了m p e g 一1l a y e ri 语音压缩编码方 法并研究了其在t it m $ 3 2 0 c 6 2 0 4d s p 上的实现。 论文首先对当前语音编码技术的发展、分类以及m p e g 系列音频标准作了 介绍;接着在第二章,给出了l a y e ri 的m u s i c a m ( m a s k i n g p a t t e r nu n i v e r s a l s u b b a n di n t e g r a t e dc o d i n ga n dm u l t i p l e x i n g ) 算法的系统组成,围绕分析子带滤 波器和心理声学模型两个核心模块,深入研究了子带编码工作原理、比特分配 及子带编码中用到的正交镜像滤波器和分析子带滤波器;探讨了心理声学基本 原理和m p e g 1l a y e ri 所用到的心理声学模型。第三章对t it m s 3 2 0 c 6 0 0 0 系列d s p 作了简介,介绍了6 0 0 0 系列d s p 结构特点、c 6 0 0 0d s p 软件开发流 程和t id s p b i o s 操作系统。第四章是本文的重点,首先根据协议给出的算法 用标准c 语言编程实现并调试通过。然后对程序进行了d s p 移植和c 语言级 及汇编级的优化。在优化过程中,本文针对t id s p 结构特点和汇编优化的编 程特点,提出了基于8 点i d c t 变换的分析子带滤波的改进的d s p 优化算法, 算法的改进和优化大大提高了算法的运行效率。利用d s p b i o s 技术的主机通 道,数据输入输出管道,软件中断等线程来实现了基于d s p b i o s 的m u s i c a m 算法的实现。 关键词:m p e g - 1a u d i op a r t ,m u s i c a m 算法,分析子带滤波,心理声学 i d c t ,d s p a b s t r a c t f o rd i f f e r e n ta p p l i c a t i o n s ,t h ea u d i op a r to fm p e g - 1 p r o v i d e s t h r e e l a y e r s ;w e s e l e c tt h ei m p l e m e n t a t i o no ft h ef i r s tl a y e ro nt h et it m s 3 2 0d s p c o n s i d e r i n gt h e c o m p l e x i t yo f t h ea l g o r i t h ma n dt h eq u a l i t yo fv o i c e i nf i r s t ,t h ed e v e l o p m e n ta n dc a t e g o r i e so f s p e e c hc o d i n ga n dt h es t a n d a r do f t h e m p e gs e r i e sh a sb e e nd e s c r i b e d i nt h en e x t ,w ed i s c u s st h es y s t e mo ft h em e g 一1 l a y e r i t h e p a p e r c e n t e r so nt h et w ok e r n e l s u b p a r t s :f i l t e r i n gc o d i n g a n d p s y c h o a c o u s t i cm o d e l ,d os o m er e s e a r c hw o r ki n s u b - b a n dc o d i n g ( c b c ) t h e o r y a n dt h er e l a t et h e o r ys u c ha sq u a d r a t u r em i r r o rf i l t e r ( q m f ) a n da n a l y s es u b - b a n d f i l t e r ;a l s od or e s e a r c hw o r ki np s y c h o a c o u s t i ct h e o r ye s p e c i a l l yt h ep a r tr e l a t e dt o t h em p e g 一1 l a y e ri i n t h et h i r dc h a p t e r ,i n t r o d u c et h et it m s 3 2 0 c 6 0 0 0s e r i e s d s p sa n dt h e i rc h a r a c t e r i s t i c s ,a l s oa b o u tt h es o f t w a r ed e v e l o p m e n tf l o wa n dt h et i d s p b i o s o p e r a t i n gs y s t e m o fi t t h ef o r t h c h a p t e r i st h em o s t i m p o r t a n t ,f i r s t l y ,a c c o r d i n g t h e a l g o r i t h m f l o wi n p r o t o c o l ,u s i n g c l a n g u a g e v a l i d a t et h e a l g o r i t h m ;t h e n ,t r a n s p l a n t a n d o p t i m i z e t h e c o d i n g i nd s p i nt h e p r o c e s s i n go fo p t i m i z e ,a c o r d i n gt h ea s s e m b l e rp r o g r a mc h a r a c t e r i s t i co ft id s p , t h ep a p e rp u tf o r w a r dt h ea n a l y s es u b - b a n df i l t e rd s p o p t i m i z a t i o na l g o r i t h mb a s e o nt h ee i g h ts p o ti d c t t h ea l g o r i t h mh a sb e e no p t i m i z eh a v eg r e a t l yi m p r o v e dt h e w o r k e f f i c i e n c y m a k eu s eo f t h et e c h n o l o g yo ft h ed s p b i o sh o s tc h a n n e l s ,d a t ai o p i p e ,s o f t w a r ei n t e r r u p t ,w ei m p l e m e n t t h em u s i c a m a l g o r i t h m b a s eo n d s p b 1 0 s k e y w o r d s :m p e g 一1 ,m u s i c a ma l g o r i t h m ,a n a l y s e s u b - b a n df i l t e r , p s y c h o a c o u s t i cm o d e l ,i d c t ,d s p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金墅王些盍堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 靴敝储签谤奄望 替聃一蛑舭伊 学位论文版权使用授权书 本学位论文作者完全了解盒避王些本堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权合肥工业大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 签字日期:年月日 学位论文作者毕业后去向 工作单位: 通讯地址: 导师签名彳擐 飞 签字日期:知晰6 月7f 日 电话: 邮编 致谢 论文是在我的导师蒋建国教授的悉心指导下完成的。感谢蒋老师三年来对 我无微不至的关怀与孜孜不倦的教诲! 蒋老师严谨的治学态度、渊博的专业知 识、敏锐的学术洞察力将对我以后的工作、学习产生深远的影响。论文的字里 行间无不浸透了蒋老师的心血。蒋老师在学术上带给我启迪,拓宽了我的思路, 引导了我的学术思维。蒋老师不仅仅是我三年的指导老师,更是我终生的榜样。 在此我要真诚地感谢实验室的齐美彬副教授! 齐老师在我论文期间给了我 很多的帮助和指导,在学术上对我们要求严格,生活中是我们的良师益友。同 时还感谢实验室的胡社教副教授、吴从中副教授、李小红老师,感谢他们三年 来对我的关心和帮助。感谢我们实验室的夏娜博士、李援博士,梁立伟、朱晓 东,章玲、木春梅、魏星、尤小泉、胡嘉凯、聂秋玉、尹祥、彭兴邦、李勇、 张国富等等。我与他们在学习上互相帮助,生活上情同手足。 家人长期以来支持我完成学业,家人的关爱是我能从漫长的求学道路上坚 持下来的重要原因。在论文得以顺利完成之际,我愿与他们分享其中的甘苦, 并感谢亲人们对我的殷切希望和无私帮助。 最后,感谢所有关心过我,帮助过我的老师和同学。 作者李福翠 2 0 0 4 年6 月 1 1 引言 第一章绪论 随着多媒体信息技术和网络技术的高速发展,数字语音压缩技术的应用领 域越来越广泛。压缩语音的目的是在保证语音一定质量的前提下尽可能降低其 编码比特率,以便在有限的传输带宽内让出更多的信道来传送图像、文档、计 算机文件和其他数据流,从而达到传输资源的有效利用和网络容量的提高。 1 2 数字音频压缩技术 现代通信的重要标志是实现数字化,而要实现数字化首先得把模拟信号转 变为数字信号,这种变换对语音信号来说是语音编码,为了提高语音编码和语 音信号数字传输的有效性,通常还要进行语音压缩编码【2 3 经过近二三十年的努 力,人们在声音信号的压缩方面取得了很大的进展,提出了许许多多的压缩方 法,其中的一些成为了国际和地区编码标准。语音压缩编码技术有多种,归纳 起来大致可分为三类,即波形编码,参量编码和混合编码。另外,根据编码速 率的高低还可分为中速率和低速率两类。 波形编码【2 】直接变换为数字代码进行传输,这种编码是将语音信号与原语 音信号波形尽可能保持一致,它具有适应能力强、重建语音的质量好等优点, 但是所需的编码速率较高,在1 6 k b i t s 6 4 k b i t f s 速率范围能得到较高的重建质 量,但当速率进一步降低时,语音重建质量就会急剧下降。例如脉冲编码调制 ( p c m ) ,自适差分编码( a d p c m ) ,自适应预测编码( a p c ) ,自适应子带编 码( a s b c ) ,和自适应变换域编码( a t c ) 等均属于这一类编码器。 参量编码,又叫声码化编码【4 j ,是在信源信号频率域或其它正交域提取特 征参量并将其变换为数字代码进行传输,以及在接收端从数字代码中恢复特征 参量,并由特征参量重建语音信号的一种编码方式。这种方式在提取语音特征 参量时,往往会利用某种语音生成模型在幅度谱上逼近原语音,以使重建语音 信号有尽可能高的可懂性,即力图保持语音的原意。但重建语音生成的波形与 原语音信号的波形却有相当大的区别( 这就有可能造成重建语音质量比较差1 。 这种方式的特点是编码速率低( 1 2 k b i t s 2 4 k b i t s ) ,但只能达到合成语音的 质量,并当码率提高到与波形编码相当时,语音质量也不如波形编码。尽管它 的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。利用 参量编码实现语音通信的设备通常称为声码器,如通道声码器、共振峰声码器, 同态声码器以及广泛使用的线性预测声码器( l p c ) 等都是典型的语音参量编码。 当前,由参量编码与波形编码相结合的混合编码【5 的编码器正在得到人们 较大的关注。这种编码器既具备了声码器的特点,又具备了波形编码的特点, 同时还可利用感知加权最小均方误差准则的滤波器与综合编码器成为一个闭环 优化的系统,从而在较低的比特率上能获得较高的语音质量。例如,多脉冲激 励线性预测( m p l p c 或m p c ) 编码,规则脉冲激励线性预测编码( r p e l p c ) 和码激励线性预测编码( c e l p ) 和多带激励器( m b e ) 都属于这一种。这种编码方 式能在4 k b i t s 1 6 k b i t s 的中低编码的速率上得到高质量的重建语音信号。 语音压缩编码的另一种分类是根据编码速率的高低还可分为中速率和低速 率两类。所谓中速率编码是指数码率为4 8 k b i t s 1 6 k b i t s 范围以内的语音编 码。其语音质量较好( 能达到常用数字语音通信的质量要求) ,清晰度较高,自 然度也能达到基本要求。但少许有点失真,与语音特征有一定的关系。例如 a d p c m ,子带编码,自适应变换域编码( a t c ) 等都属于这一种。而低速率编 码1 5 】是指数码率从1 0 0 b i t s 左右到4 8 k b i t s 的编码方式,语音质量比中速率编 码要差,尤其是自然度比较差,难以辨别出讲话人的特点,因为不同的人,讲 话的语音特征不同,其语音质量也就不同。研究结果表明,语音压缩编码的极 限压缩率为8 0 b i t s 1 0 0 b i t s ,在这范围内,只能传送句子内容,而对讲话人不 同的语音特征和情绪就分辨不出来了。 1 3m p e g 系列音频压缩标准 m p e g 是m o v i n g p i c t u r ee x p e r t sg r o u p 的简称,原为对图像和音频压缩编 码技术国际标准进行研讨、审定的委员会的名称,现在却更多地用作指代已经 标准化的编码技术本身。关于m p e g 标准,迄今己制定m p e g 1 和m p e g 2 , m p e g 一4 ,m p e g 7 ,m p e g - 2 l 等几种标准格式p 】。 m p e g 1 是以v c d 为主要目标且面向存储介质的图像、压缩编码的标准格 式。此标准于1 9 9 2 年制定。接着于1 9 9 4 年制定了以数字电视为主要目标、适 应广播和通信用途的性能更高的m p e g 2 【6 】,并于1 9 9 5 年出版公布。以上两种 格式均为以自然图像和音响为对象的压缩编码技术,而m p e g 4 则加入了诸如 c g ( c o m p u t e rg r a p h i c s ) 和m i d i ( m u s i c a li n s t r u m e n td i g i t a li n t e r f a c e ) 等人工合 成的图形和音响节目对象,成为用途更为广泛的多媒体通用编码技术。考虑到 格式涉及的诸多功能和复杂内容,m p e g 4 【7 分为版本1 和版本2 两个阶段进行 制订。m p e g 7 是一种使多媒体信息检索更为简便的编码技术,m p e g 2 1 项 目作为m p e g 7 的后续作业对象,主要规定数字节目的网上实时交换协议。 m p e g a u d i o 是指m p e g 中的音频编码部分。m p e g 1a u d i o 是一个或两 个声道的高质量音频数据的压缩编码技术,由l a y e r i ,l a y e r i i 和l a y e r i i i 三个 层次构成。在这三个层次里,压缩率的顺序是i 1 。 应该注意,在子带编码中,编码增益随子带数目m 的增大而增加。当m 充分大时,子带编码能利用基音周期产生的语谱精细结构,且每个子带内的谱 也近似平坦,这时可获得很高的编码质量。但是在实际应用中,一般利用较小 的m 值,这是由于m 增大会使滤波器组运算量加大,同时延时增加。采用较 小的m 值,再加上使用其它的压缩方法,例如a d p c m ,也同样可以使编码质 量达到增高m 的效果。 2 2 2 正交镜像滤波器 m u s i c a m 算法中时域到频域的映射广泛使用正交镜像滤波器组1 1 6 1 ( q u a d r a t u r e m i r r o r f i l t e r b a n k s ) ,正交镜像滤波器组能够解决混叠影响问题, 对滤波器的滚降特性可以大大降低要求,一般只要用1 6 3 2 阶就足够了,从而 使子带编码系统的实现大为简化。 图2 - 2 示出了m = 2 的最简单的正交镜像滤波器组子带编解码系统。输入信 号是经过频率f 。采样获得的全带时域离散信号x ( n ) ,首先分别经过等带宽的 低通和高通正交镜像滤波器;再分别经过2 :l 抽取,使上、下两个子带信号采 样率下降到f 。2 。然后再经过量化编码、传输、解码,以及1 :2 插值恢复原来 的采样频率和原来的子带信号位置,最后再经过镜像滤波、相加后得到重建信 1 0 号y ( n ) 。 x f 量化 编码 传输 解码 图2 - 2 采用正交镜像滤波器的两子带编解码系统 正交镜像滤波器是一类特殊的低通和高通滤波器,它们的频谱对中心频率 f 。= ”2 ) 处呈镜像对称并有交叠区域。在2 :1 抽取后,每个子带都产生一个折 叠分量。下子带大于n 2 的部分会以n 2 为轴折叠到小于2 的区间,同这一 区间的低带信号混叠在一起:同样上子带小于n 2 的部分会混叠到大于2 部 分。这种混叠引起的失真在一般情况下是不能消除的,但是当采用正交镜像滤 波器,即上、下子带滤波器特性满足一定条件时,混叠失真就能够消除。对于 具有偶数个抽头系数的f i r 滤波器,这些条件是: i 日肛,。) 1 2 + 慨( e j 。) 2 = 1 ( 2 1 2 a ) 慨( z ) i = 1 h ,( - z 】 ( 2 1 2 b ) i g ,( z 】= i h ( z 】 ( 2 1 2 c ) j g ( z 】= _ | 峨( z 】 ( 2 1 2 d ) 下面证明,当这些条件得到满足时,混叠项可以消除。为此需要假设量化 引起的失真可以忽略不计,以及无信道误码,也就是巧g ) 和0 ) 分别是由u i ( z ) 与0 ) 直接内插得到的。由图2 1 可以看到,下子带滤波器h ,0 一) 的输出x j ( n ) 的z 变换为: 蜀g ) = h t ( z 弦o )( 2 一1 3 ) 由抽样、插值的理论知道,经2 :1 抽取后的下子带信号u ,( n ) 的z 变换为: u ,( = ) = 去防,( z “2 ) + 置( _ _ z 1 12 ) j( 2 1 4 ) 再经1 :2 内插后,有: 巧( z ) = u ( z 2 ) ( 2 1 5 ) 通过q ( z ) 滤波后产生巧0 ) ,有: 巧( z ) = 巧( z ) g i ( z )( 2 一1 6 ) 将式( 2 1 4 ) 、( 2 - 1 5 ) 代入式( 2 - 1 6 ) ,得: z ( z ) = 去旧( z ) x ( z ) + 何,( 一z ) x ( 一z ) b ( z )( 2 1 7 ) 类似也可以得到重建的上子带信号y k ( z ) 的表达式为: y a z ) = 去p 彳。( z ) 。f ( z ) + h 。( 一z ) x ( 一z ) 】( 矗( z ) ( 2 18 ) 总的重建输出信号为: y ( z ) = 耳( z ) + 圪( z ) = 亡 日( = ) g ( z ) + h h ( 2 ) g ( z ) y ( = ) + q ( 一z ) g f ( z ) + h h ( 一z ) g ( z ) x ( 一z ) 、1 11但9 1 可以看到,上式右端第一项是所需要的重建信号,而第二项是抽取过程中产生 的混叠分量,当式( 2 - 1 2 ) 中前三个条件得到满足时,这一项变成零,也就是 无混叠失真,这时有: y ( z ) = 去惭( z ) 一h ;( - z 肛( z ) ( 2 - 2 0 ) 考虑到h f ( z ) 是一个偶数阶线性相位f i r 滤波器,并假设它的响应为h i ( n ) , n = 0 ,1 ,2 ,( n 一1 ) ,那么有: h ( n ) = h i ( n - 1 - n )( 2 - 2 l a ) x , 2 一l q ( z ) = 啊( 以) 旷+ z 删+ ”】 ( 2 2 1 b ) n = 0 将式( 2 - 2 1 b ) 代入式( 2 - 2 0 ) ,并令= = e 归,再利用式( 2 - 1 2 ) 中的第一个条件, 不难推导出: y ( e ”) = 去x ( p ”) e 叫州。m( 2 - 2 2 ) z 上式表明,在不考虑量化误差以及信道误码影响的情况下,重建信号和输入信 号几乎一样,只是存在由于滤波造成的( n 一1 ) 个样点的延时及幅度衰减一半, 混叠分量抵消,这就是正交镜像滤波器的重要优点,而幅度的衰减,可以通过 将y ( n ) 放大一倍来解决,如果考虑到量化失真,那么重建信号和原始信号的误 差也只有量化失真造成的误差,而无混叠失真。但也应注意,由于过渡特性不 理想,高带与低带经插值、滤波后,都会有部分量化噪声泄漏到对方带中。上 面介绍了只有两个子带的镜像滤波器组,而当需要分更多子带时,可以采用树 状结构的多级正交镜像滤波器组。 利用f i r 滤波器的优点在于这它能保证线性相位特性,从而消除群延时的 失真。然而,f i r 滤波器带来的延时比较大,例如8 k h z 的采样,n = 3 2 的正交 镜像滤波器的延时为4 毫秒。多级镜像滤波器组,由于每一级使采样频率下降 一半,若n 值相同,则延时比前一级增加一倍。再加上编解码造成的延时,子 带编码系统的延时就比较大,对于分帧处理的编码算法,往往达到1 0 0 毫秒左 右。因此有人建议采用i i r 来实现正交镜像滤波,并对群延时失真采取了一些 特别的措施。 1 2 2 2 3 分析子带滤波器组 在m u s i c a m 算法中虽然广泛使用正交镜像滤波器组( q m f 组) 的技术。但 其实现困难,故m p e g 1l a y e ri 多使用近似q m f 组,这是一个多相滤波器结 构,在此协议中称作分析子带滤波器,这种滤波器组的设计方法是:只设汁一 个低通原型滤波器,组中其它带通滤波器可由该原型通过频率上的移位来实现。 这种移位是低通原型与正弦( 或余弦) 函数相乘的结果。 m p e g 标准的基本部分是子带滤波编码。音频信号经子带滤波后划分成3 2 个子带,每子带输出经3 2 :1 抽取,使3 2 个子带输出抽样值数目与原始输入音 频抽样数目相等,这类方法叫临界抽样滤波( c r i t i c a ls a m p l i n gf i l t e r ) 。临界抽样 子带滤波的基本原理如图2 3 所示。 x r 图2 - 3 临界抽样子带分析滤波原理示意图 假设低通滤波l b 中心频率为石2 m ( 对应于工4 m ) ,带宽为石m ( 对应于 工2 m ) ,滤波系数为仙( i ) ) i = o ,1 ,n - l ,睨带通滤波的中心频率 万( n 一1 ) m + 万2 m = ( 2 n 一1 谛2 m ,带宽仍为;, r i m ,以上工为采样频率,m 为 子带数目。b p 滤波器系数相当于用该子带中心频率的正弦分量与( h ( i ) ) 相乘, 整个多子带滤波器组相当于一低通滤波器 h ( i ) ) 与各子带中心频率的正弦函数 相乘( 调制) 结果,而且通过设计低通滤波器特性和调整各正弦函数相位,可获 得平直的频域响应和消除相邻子带的混叠。 令低通滤波器系数为( h ( i ) ) ,i = o ,l ,l 一1 ,则b p 带通滤波系数可表 示为: ( f ) = c o s 【( 2 ”一1 ) , - r 2 m 一九】( 2 2 3 ) 式中i = 0 ,1 ,l 一1 :n = l ,2 ,m ,其中丸为相位,配的输出为: 垡 ( 七) = x ( 女一o h ( i ) e o s ( 2 n 一1 ) i z 2 m 一】 “ r 2 - 2 4 ) 由于c o s 她n i ) f z 2 m 一丸】为周期对称性函数,只要l 2 m 为整数,则表达式可 合并c o s 项,得到如下表达式: 。 ) = 2 善m - 1 x 一,琳。s p 一1 i 一矽。 4 m - i r - i +,萎x一f如(f)c。s【(2”一1xi一2m+2m)衫2m一矽。j(2-25)m ? = 2 。“ 6 m l r1 + x 忙一f 如( f ) c 。s k 一1 x i 一4 m + 4 m ) z 2 m 一。j f = 4 m 由c 。s 【( 2 一一1 x f 一2 m + 2 m ) 衫2 m 一j = ( - 1 ) c 。s k 2 ”一l x f 一2 m k 2 m 一。j ,上式中第三项和其它 项依此类推,可得: j 一12 m - 1 、( 七) = x ( k 一2 蟛一j ) 矗( f + 2 蟛) ( - 1 ) 。c o s ( 2 n 一1 ) i z 2 m 一丸( 2 2 6 ) j = 0i = 0 若把c o s 项看作相位,则子带n 的滤波输出可看作多个相位因子的组合,这 就是m p e g 标准中所谓多相分析滤波器组实现的滤波器组。上式中令m = 3 2 , l = 5 1 2 ,则,= l m = 8 ,则得到m p e g 所采用的子带滤波器形式: 6 3 7 k ( 七) = x ( 女- 6 4 j - i ) h ( i + 6 4 j ) ( 一1 ) c o s c o s ( 2 n 一1 ) i t r 6 4 一九 ( 2 2 7 ) ,= o j = o 其中n = l ,2 ,3 2 ,为子带号,记 7 h ( i + 6 4 x 一1 ) “c 。,x ( k - 6 4 j f f 。= r ,女 ( 2 2 8 ) p 0 则: 1 = r ,c o s ( 2 h 一1 ) 1 6 4 一妒。】( 2 2 9 a ) i = 0 令。= 1 6 ( 2 n 一1 k 6 4 = z ( 2 n 一1 ) 4 ,得: k 积) = f ,c o s 【( 2 n 一1 一1 6 r t 6 4 】 ( 2 2 9 b ) 其中n 2 1 ,2 ,3 2 。由于滤波后。忙) 频带限制在0 - 2 6 4 即 6 4 = 4 8 k h z 6 4 = 7 5 0 h z 范围,因此可对其作3 2 :1 抽取即k = 0 ,3 2 ,6 4 ,而不会 引起混叠,得到: 6 3 。 ) = r ,。c o s 【( 2 n l 弛一1 6 k 6 4 】( 2 3 0 ) j = o 其中n = 1 ,2 ,3 2 ,此时k = 0 ,3 2 ,6 4 ,。k 对应于原f = 4 8 k h z 采样点,经3 2 :l 抽到即k = 3 2 i ,所以在m p e g 算法中每3 2 输入样点处理一次得到3 2 个子带输 出,记m 。= c o s ( 2 n 一1 x i 一1 6 ) , r 6 4 ,即得至0 : 1 4 6 3 ( k 3 2 ) = z 川3 2 m 。 ( 2 - 3 1 ) 幼。 式中i = 0 ,1 ,2 ,3 1 。这就是m p e g 标准中子带滤波的表达式。 把m p e g 标准中的参数e 看成是低通滤波器系数h ( i ) 经式( 2 - 2 8 ) 变换之后 的系数,m 。看成多相滤波分量,则容易理解m p e g 标准中所采用的多相滤波 结构。在4 。l 中将详细给出l a y e ri 中分析子带滤波的实现步骤和过程。 2 3 心理声学模型 心理声学模型是m p e g 编码器得以提高性能的核心组成部分。心理声学模 型的主要工作是用来分析输入信号、决定在频谱的哪一部分在什么范围之内量 化噪声得以屏蔽。编码器利用心理声学模型所得到的信息来决定如何用有限数 目的比特数来最好的表示输入音频信号。m p e g 音频标准为编码提供了两种心 理声学模型,在m p e g 一1 的l a y e ri 中用到了心理声学模型i 。下面将对心理 声学原理进行简要介绍,然后再介绍m p e g 1 的l a y e ri 中用的心理声学模型。 2 3 1 心理声学模型基本概念 2 3 1 1 声音的特征 声音能否被听到,决定于它的频率和强度,正常人听觉范围为 2 0 h z 2 0 k h z ,可听的强度范围为0 d b 1 2 0 d b 声压级( s p l ) 。响度是人耳对声音 轻、响的主观反应。响度取决于声音的幅度,主要是声压的函数,和声音的频 率、波形也有关。人耳对不同频率声音的响应是不同的。人耳对频率范围大约 是3 k h z 5 k h z 的声音最敏感,频率高于或低于这个频段时,人耳的听觉灵敏 度开始逐渐下降。t 2 z l 2 3 1 2 人耳的掩蔽效应 实践证明:声音信号在人的听觉系统中会被非线性“加工”,当两个响度不 等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的 频率成分的感受,使其变得不易察觉,这种现象称为听觉掩蔽效应。掩蔽会造 成一个声音的存在而使另一个声音的听阈值上升。假定对声音a 的阈值已经确 定为5 0 d b ,若同时又听到声音b ,实验发现,由于声音b 的影响,使声音a 的闽值提高到例如6 4 d b ,即比原来的阈值要提高1 4 d b 才能被听到。其中b 称 为掩蔽声,a 称为被掩蔽声,1 4 d b 称为掩蔽量。掩蔽是心理声学中很重要的效 应。1 2 2 ,2 3 ,2 5 由于频率较低的声音在内耳耳蜗基底膜上行波传递的距离远于频率较高的 声音,故一般说来,低音容易掩蔽高音,而高音掩蔽低音较难,这种现象是纯 音掩蔽。一个纯音引起的掩蔽大体上决定于它的强度和频率,低频声音能有效 地掩蔽高频声音,但高频声音对低频声音的掩蔽作用不大。纯音掩蔽的试验表 明,轻的试验音被响的干扰声掩蔽时的听阈,特别是在干扰声频率附近,将高于 正常听阈。同时,噪声的存在也会影响到纯音的接收,即对纯音产生掩蔽。为 了描写这种掩蔽的效果引入了临界带宽的概念。一个纯音被以它为中心频率、 并具有一定频带宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯 音的功率。这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽, 单位为b a r k 。一般在低于5 0 0 h z 的频带内,临界带宽约为1 0 0 h z 左右,高于 5 0 0 h z 的频带,临界带宽约为中心频率的2 0 。临界频带的位置不是固定的, 以任何频率为中心,都有一个临界频带。同时掩蔽对于掩蔽者所在的临界频带 影响最大,对相邻频带的作用要小些。临界带宽可以通过实验来测得。表3 1 给出了2 4 个临界带宽的编号、中心频率及其带宽的数据。 表3 - 1 临界带宽 编号中心频率频率范围带宽编号中心频率频率范围带宽 ( b a r k )( h z )( h z )( h z )( b a r k )( h z )( h z )( h z ) 15 02 0 1 0 08 0 1 31 8 5 0l7 2 0 2 0 0 02 8 0 215 0 1 0 0 - 2 0 01 0 01 42 1 5 02 0 0 0 2 3 2 03 2 0 32 5 02 0 0 3 0 01 0 01 52 5 0 02 3 2 0 2 7 0 03 8 0 43 5 03 0 0 4 0 01 0 01 62 9 0 02 7 0 0 3 15 0 4 5 0 54 5 04 0 0 - 5 1 01 1 01 73 4 0 031 5 0 3 7 0 05 5 0 65 7 05 1 0 6 3 01 2 01 84 0 0 03 7 0 0 4 4 0 07 0 0 77 0 06 3 0 7 7 01 4 01 9 4 8 0 04 4 0 0 5 3 0 09 0 0 88 4 07 7 0 9 2 015 02 0 5 8 0 05 3 0 0 6 4 0 01 1 0 0 91 0 0 09 2 0 l0 8 01 6 02 1 7 0 0 06 4 0 0 7 7 0 01 3 0 0 1 01 1 7 01 0 8 0 1 2 7 0 1 9 02 28 5 0 07 7 0 0 9 5 0 0l8 0 0 1 1l3 7 012 7 0 1 4 8 0 2 1 02 31 0 5 0 09 5 0 0 - 1 2 0 0 02 5 0 0 1 21 6 0 0 1 4 8 0 1 7 2 02 4 02 41 3 5 0 01 2 0 0 0 - l5 5 0 0 3 5 0 0 掩蔽效应可分为同时掩蔽( 频域掩蔽) 和异时掩蔽( 时域掩蔽) ,异时掩蔽 又分为前掩蔽和后掩蔽。同时掩蔽是一种频域现象,它指的是当两个频率足够 接近的信号同时发生时,弱音( 被掩蔽者) 会被强音( 掩蔽者) 所掩蔽而变得 不可觉察。掩蔽阈值可通过测量不可觉察的最大值来确定。它由声压级( s p l ) 、 1 6 被掩蔽者的频率、掩蔽者和被掩蔽者的特性所决定。 图2 4 静音阈值和掩蔽阈值 窜( i t 融) 如图2 4 所示1 k h z 左右的声压级为6 0 d b 的正弦波的掩蔽阈值曲线,只要 被掩蔽声的声压级低于曲线在被掩蔽声频率处的掩蔽闽值,它就不被人耳所感 知。由于频率较低的声音在内耳耳蜗基底上行波传递的距离远于频率较高的声 音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较难。特别应注意的是 不同的掩蔽声和被掩蔽声的组合有着不同的掩蔽效应,掩蔽声强度和掩蔽阈值 的距离在噪声掩蔽纯音比纯音掩蔽噪声实验中更小。如果在音频编码中噪声声 压级小于掩蔽阈值,它的作用就不会被人感觉到,编码中的噪声可以是量化噪 声、混叠失真、传输误差。在静音情况下或无任何外界干扰情况下,使声音信 号刚听得见的最低声压称静音闽值。静音阈值由信号频率决定,如图2 4 中低 的曲线所示,在低频段静音阈值可高达6 0 d b 。 图2 5 给出了掩蔽阈值的定性描述。掩蔽声的大小与掩蔽阈值之比值称为 信号屏蔽比之比值称为信号屏蔽l l ( s i g n a l t o m a s k r a t i o ) ,最大值出现在临界频 带的左边界( a 点1 ,在一个临界频带内,只要编码的信噪比( s n i t ) 大于信号屏蔽 比( s m r ) ,编码噪声被屏蔽。若s n r 表示以m 比特量化的信噪比,在临界频 带内可感知的噪声可由噪声屏蔽比( n o i s e t o m a s kr a t i o ) 来衡量。则: n m r = s m r s n r ( 2 3 3 ) 其中s m r 和s n r 的值都用分贝( d b ) 表示,噪声屏蔽比n m r 描述了在给定子 带内编码噪声和刚可察觉的失真的距离。它的值( d b ) 应该为负值。 以上只是考虑了只有一个掩蔽声的情况,如果原信号包含了许多同时掩蔽 声,总的掩蔽阈值可描述为刚可察觉失真的频率的函数。总的掩蔽阈值计算基 于音频信号的高分辩率短时幅度谱和正确的墒界频带分析。首先计算所有单个 掩蔽阈值,这由音频信号声压级、掩蔽声类型( 噪声还是纯音) 和频率范围决定, 跨越临界频带的掩蔽效应必须包含在这个计算中。总的掩蔽阈值是所有单个掩 蔽阈值与静音阈值之和,加上静音阈值的目的是为了确保计算出的总的掩蔽阈 值不小于静音阈值。总的信号屏蔽l 七( s m r ) 是最大信号能量与总的掩蔽之比, 或是相应d b 值之差,如图2 5 所示。 图2 - 5 掩蔽阈值和信号屏蔽比 2 3 1 3 人耳的高频定位特性 人耳的高频定位特性也是一种心理声学现象。对于大约2 k h z 的高频声音 信号,人耳感觉不出具体的单个周期的声音波形,只能感受时域波形的包络。 方向的决定取决于信号包络在内耳的延时以及人耳所能感受到的信号频率。变 化很快的时域声音信号,在声音定位时作用大,而时域包络比较平稳的声音信 号,对于人耳的声音定位影响很小。另外,人耳无法判断在频率上非常接近的 各个高频信号的方向。 2 3 2m u s i c a m 算法采用的心理声学模型i m p e g - 1l a y e ri 采用的是带有心理声学模型的子带编码方法,滤波器组每 个子带的刚刚觉察到的噪声电平需要知道最小掩蔽阈值,它由心理声学模型求 得。最大信号电平和最小掩蔽阈值的差值将用于噪声或比特分配以确定一块中 每子带的量化精度。在标准的附加部分,推荐了两个心理声学模型。虽然它们 都可用于i s o m p e g a u d i o 算法的任层,但实际运用中通常是第1 层和第2 层用模型1 ,第3 层用模型2 。两个模型最后输出的都是各予带( 第1 层和第 2 层) 或子带组( 第3 层) 的信号掩蔽比。因为只有编码器是需要一t l , 理声学模 型,这使解码器的复杂性大大降低,而且可以在以后改进编码器的性能以及根 据所需主观质量改变码率。 m p e g - 1l a y e ri 所采用的心理声学模型描述:在频域计算掩蔽阈值,应该 在低频段具有高分辩率( 即用窄子带) ,在高频段具有低分辩率( 即用宽子带) 。 这就导致了滤波器组的树结构。具有并行结构的用于子带滤波的多相滤波器组 不能提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 等级考试都有哪几道题及答案
- 田径片段教学考试题及答案
- 装修企业如何管理办法
- 贷款新校区管理办法
- 苏泊尔融资管理办法
- 贷款产品限额管理办法
- 视频监控巡检管理办法
- 中办乡村振兴管理办法
- 组集体资产管理办法
- 专业用户投诉管理办法
- 酒店宾馆员工守则与行为规范
- 食品行业标准化管理体系
- 2025年度国家广播电视总局直属事业单位公开招聘310人笔试带答案
- 初中历年会考试卷及答案
- T-CNAS 18-2020 成人住院患者跌倒风险评估及预防
- 系统功能使用说明及教程
- 课件:《马克思主义基本原理概论》(23版):第五章 资本主义的发展及其趋势
- 2025年轻型民用无人驾驶航空器安全操控(多旋翼)理论备考试题(附答案)
- 2025年护士执业资格考试题库(精神科护理学专项)护理法律法规试题汇编
- 开学后学科竞赛准备计划
- 《金融行业客户服务礼仪培训》课件
评论
0/150
提交评论