(电路与系统专业论文)心理声学模型算法改进.pdf_第1页
(电路与系统专业论文)心理声学模型算法改进.pdf_第2页
(电路与系统专业论文)心理声学模型算法改进.pdf_第3页
(电路与系统专业论文)心理声学模型算法改进.pdf_第4页
(电路与系统专业论文)心理声学模型算法改进.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(电路与系统专业论文)心理声学模型算法改进.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着数字音频发展,心理声学原理应用到音频压缩技术中,使我们获得低 比特传输速率和透明音质成为可能。我们将针对m p e g 音频编码器的压缩算法展 开研究,着眼于编码器中耗费大量时间计算的心理声学模型,提出一种针对m p e g 音频标准的改进心理声学模型算法,提高编码器的编码速度。 心理声学参数计算是编码器中最耗时的计算。标准心理声学模型i i 用音调 估计的预测方法计算心理声学参数,即用音调预测f f t 变换后的幅值和相位来 计算所要求的信噪比,从而确定每个阈值计算分区内信号的掩蔽阈值和一系列 的信掩比。而该计算方法中f f t 相位的分析将耗费大量的时间进行三角转换, 直接影响音频编码器的实时实现。 我们用另外一种音调探测的方法,即采用谱平面方法( s p e c t r a lf l a t n e s s m e a s u r e ) 代替音调预测法计算的信噪比( s n r ) 和信掩蔽( s m r l 。此法省去了预 测音调法所必需的相位分析信息,心理声学模型不必再花大量时间进行三角转 换,提高了编码器的编码速度。我们编写了该方法的c 语言算法,并在p c 机 上进行运行验证,得到良好结果,可使编码速度提高3 7 左右。该方法国内未 见报道,技术方法上有创新性,实验结果也有新见解。 本文介绍了心理声学模型应用发展、并讨论它的未来发展方向,主要分析 心理声学模型有效的掩蔽原理及其m p e g 音频标准给出的两个参考声学模型特 性,从另外一个角度探讨了心理声学模型的音调探测方法,并给出了其实验结 果。本文对音频编码器实时实现的研究具有重要意义。 关键词:心理声学模型同时掩蔽超前掩蔽滞后掩蔽时域掩蔽感知熵 掩蔽扩展l 临界子带安静阈值谱平面法 审图分类号:t p 3 3 1文献标识码:a a b s t r a c t w i t l lt h ed e v e l o p m e n to f d i g i t a la u d i o p s y c h o - a c o u s t i cp r i n c i p l e sa p p l yt ot h e t e c h n i q u eo f a u d i oc o m p r e s s i o n ,w h i c hh a v ec r e a t e dp o s s i b i l i t i e so fl o wb i tr a t e sa n d t r a n s p a r e n ta u d i oq u a l i t y w ea i ma tr e s e a r c h i n gt h ea u d i oc o m p r e s s i o na l g o r i t h mo f m p e gw i t hav i e wo f p s y c h o a c o u s t i cm o d e l , w h i c hu s e sal o to ft i m ei nc o d e r c a l c u l a t i o n ,a n dp u tf o r w a r d an e wm o d i f i c a t i o n a l g o r i t h m t oi m p r o v ec o d er a t e p s y c h o - - a c o u s t i cp a r a m e t e rc a l c u l a t i o ni st h eb e s tt i m e - c o n s u m i n gp a r ti na u d i o c o d e r i s om o d e li iu s e sp r e d i c t i o nb a s e dt o n a l i t ye s t i m a t i o n t h i sm o d e li sb a s e d o np r e d i c t i o no ft h e m a g n i t u d ea n dp h a s eo ft h ef f ts p e c t r a ,w h i c hc a l c u l a t e s m a s k i n g t h r e s h o l d si nc a l c u l a t i o np a r t i t i o na n ds m ri nc o d e rp a r t i t i o n i nf a c t ,t h e p h a s ec a l c u l a t i o no ff f t u s e sm o s to ft i m ei nt r i g o n o m e t r i cf u n c t i o nt r a n s i t i o n ,s o t h i sm e t h o d r i g h ta f f e c t sr e a l i z a t i o no f c o d e r w eu s ea n o t h e rt o n a l i t yd e t e c t i o na l g o r i t h m ,w h i c hi ss p e c t r a lf l a t n e s sm e a s u r e i n s t e a do fp r e d i c t i o nb a s e dt o n a l i t ye s t i m a t i o nt od e t e r m i n es n ra n ds m r t h e m e t h o d sd o n tn e e dp h a s ec a l c u l a t i o na n ym o r e ,s ot h es p e e do fc o d e ri si m p r o v e d w ew r i t et h ea l g o r i t h mw i t hcl a n g u a g ea n dr e a l i z ei ti np c ,a n dt h e nw eo b t a i na s a t i s f y i n gc o n c l u s i o ni nw h i c h t h es p e e do fc o d e ri si m p r o v e da b o u t3 7 w eh a v e n t s e e nas i m i l a rr e s e a r c hr e p o r ti no u rc o u n t r y t h er e s e a r c hm e t h o dh a ss o m e t h i n gn e w t h e e x p e r i m e n t a lc o n c l u s i o ng i v e s u san e wv i e wt or e a l i z ec o d e r i nt h i sp a p e r , p s y c h o - a c o u s t i ca p p l i c a t i o n sa n dd e v e l o p m e n ta r ed e s c r i b e d ;w e a l s od i s c u s si t sf u t u r er e s e a r c hd i r e c t i o n t h ed i s c u s s i o nc o n c e n t r a t eo ne x p l o i t i n g e f f i c i e n t l ym a s k i n gc h a r a c t e r i s t i c so fp s y c h o a c o u s t i cm o d e la n di t sa p p l i c a t i o n si n t h ec r i t e r i o no fm p e g w eb r i n gf o r t han e w p o i n to f v i e wa b o u tm o d i f i e dt o n a l i t y d e t e c t i o na l g o r i t h ma n d p r e s e n t t h er e s u l to fi t se x p e r i m e n tr e s u l t i ti sv e r yi m p o r t a n t t or e s e a r c ht h er e a lt i m er e a l i z a t i o no fa u d i oc o d e r k e yw o r d s :p s y c h o a c o u s t i c m o d e ls i m u l t a n e o u s m a s k i n gp r e m a s k i n g p o s t m a s k i n gt e m p o r a lm a s k i n g p e r c e p t u a le n t r o p ys p r e a d o fm a s k i n g c r i t i c a lb a n dt h r e s h o l do f h e a r i n gi nq u i e t s p e c i a l f l a t n e s sm e a s u r e 致谢 时间转眼即逝,回顾三年来在科大的硕士生活,感慨颇多,很多人给予了我 无私帮助,在您们的关心和鼓舞下,我得以顺利完成硕士学业。 首先非常感谢我的导师郭从良教授,您宽厚的胸怀,认真的治学态度给我留 下了极为深刻的印象,并使我终身受益。感谢郭从良导师在我课题研究过程中给 我的鼓励和帮助,使我得以顺利进行该课题研究,并取得了一定的成果,在国家 核心期刊上发表了三篇相关文章。 同时,也非常感谢郭立老师帮我选定音频编码器的心理声学模型的研究方 向,使得我对该方向有了较为深入的理解,非常感谢郭立老师给我提供的学习机 会以及对我的培养,使我成为一名合格的硕士研究生。 感谢朱领娣老师的叮咛嘱咐,和您在一起,即开心又快乐。 感谢我的弟兄姐妹们:殷仕淑、黄思远、湛金童、尹传实、宣科、孙金军。 有你们三年来的一路陪伴,我们有了共同难忘的欢笑和经历。 感谢我的父母,您们给予了我无私的关爱,您们的理解是我继续努力的理由。 最后感谢我的爱人康宏,三年来对我默默的支持,你用你永远坚强的臂膀给 我撑起了一片灿烂的天空! 中国科学技术大学硕士学位论文第一章绪论 1 1 压缩编码的信息论基础 第一章绪论 二十一世纪的人类社会是信息化社会,数字化后的视频和音频信息具有数 据海量性,它给信息的存储和传输造成困难,成为人类有效获取和使用信息的 瓶颈问题之一。因此,研究和开发新型有效的多媒体数据压缩编码方法,以压 缩的形式存储和传输数据将是最好的选择。本研究课题主要研究的方向就是音 频信息的压缩编码。 传统的压缩编码是建立在香农( s h a n n o n ) 信息论的基础之上,它以经典的 集合论为基础,用统计概率模型来描述信源。但是,它未考虑信息接受者的主 观特性和事件本身的具体涵义、重要程度和引起的后果。压缩编码的发展实际 上是以香农信息论为出发点,不断完善的过程。从1 9 4 8 年0 1 i v e r 提出p c m 编 码理论开始,许多科学家,工程师先后提出了预测编码、变换编码、矢量量化 编码、信息熵编码、子带编码、子带一小波编码和神经网络编码等编码方法,这 些方法均是考虑信源的统计特性,与此同时,随着人们对心理声学科学的研究 深入,音频的压缩编码又考虑了人耳的听觉特性,利用人耳的掩蔽特性来进行 压缩编码,因此又称为感知编码。 1 2 目前存在的音频压缩算法标准 在九十年代以前,世界上许多大公司专门开发设计了自己的音频压缩算法, 以满足多媒体计算机系统和通信系统的发展,取得了良好的经济和社会效益。 但标准化是产业化成功的前提,所以九十年代初,在c c i t t 和i s o 的努力下, 先后制定了i s o i e c l 0 9 1 8 ( j p e g 标准) ,i s o i e c i l l 7 2 ( m p e g l 运动图像机伴 音编码标准) 以及c c i t t 制定的h 2 6 1 ( p x 6 4 k b p s 视声业务视像编码方式) 。这 其中m p e g 随着互联网的发展得到了迅速的发展,又加之同时考虑到相关标准化 组织的研究成果,如j p e g 和h 2 6 1 标准,这使得m p e g 运动图像及其伴音系统 在标准化发展中更具有竞争实力。i s o 推出世界上第一个高保真宽带音频压缩 国际标准m p e g 音频部分,心理声学模型也因此得到标准化。m p e g l 中明确 中圈科学技术大学硕士学位论文 第一章绪论 定义了心理声学模型i 、1 1 。1 9 9 3 年8 月正式推出m p e g 一1i s o i e c i l l 7 2 ,1 9 9 4 年出版了m p e 6 - 2i s o i e c l 3 8 1 8 ,i p e g 组织于1 9 9 9 年1 月正式公布了m p e g 一4 i s 0 i e c l 4 4 9 6 。目前,该组织正在制定m p e g 一7 ( 多媒体内容描述接口) ,同时 还在制定m p e g 一2 1 ,以支持电子内容传输和电子贸易,并于2 0 0 0 年3 月成立了 m p e g 一2 1 专家组。 i s o 在1 9 9 2 1 9 9 8 年间推出的音频标准部分仍沿用这两个模型,只是不同 的模型对应不同的层时,需要做调整。如在m p e g la u d i o 中l a y e rl 仅用频 域掩蔽特性,l a y e r2 用频域掩蔽特性和时间掩蔽特性,l a y e r3 使频域掩蔽 特性和时间掩蔽特外还考虑了立体声数据的冗余。对计算心理声学参数而言, 模型i 、i i 均可用。 另类具有竞争力的标准是d o l b ya c 一2 a c 一3 。它是八十年代末期针对影院 系统中环绕声压缩发展起来的。它正是利用了心理声学模型才使得感知音频编 码在九十年代的家庭影院中得到普及。该应用结果使得科学工作者清楚的认识 到感知编码的广阔应用前景。编码器和解码器中同时都用了同样的心理声学模 型,是一种点对点的音频传输。 朗讯科技的p a c e p a c m p a c 标准多用于电影院和高级电视中,心理声学模 型简单应用了同时掩蔽特性。 1 3 选题依据及研究意义 随着标准化工作的深入,伴音系统不仅在与画面配合中得以应用和发展, 在单独的音频应用中,也展现了其特有的魅力。该系统可用于存储介质或有限 容量传输通道中传送高质量数字化的多通道和或多语种音频信息。通用或兼容 多通道音频系统可用于卫星或陆地的电视广播,数字化音频广播以及其它非广 播媒介等,例如:有线电视传播( c a t v ) ,有限数字化音频传播( c d a d ) ,电子 新闻采集( e n g ) ,个人通讯( i p c ,如视频会议、视频电话等) ,交互式存储介 质( s m ,如光盘等) ,网络数据库服务( n d b ,通过a t m 等) ,数字化存储介质 ( d s m ,如数字化v r t 等) ,电子电影院( h t t ) ,综合业务数字网( i s d n ) 。这些 方面无论对制造商,还是顾客都具有非常大的吸引力。二十一世纪是信息时代, 谁拥有高效快捷、优质的信息处理方式,谁就掌握了把握先机而制胜的武器。 4 中国科学技术人学硕士学位论文第一章绪论 国际标准化组织在m p e g 伴音系统中提出了两个心理声学模型1 1 1 ,心理声学 模型i 和心理声学模型i i 。模型i 比模型i i 简单,但模型i i 的处理的音质较好, 计算精度要高,两模型均可通过相应调整而独立适用于m p e g 的任何层。目前, 高保真音频中要求的高精度工程模型( 高精度感知模型) 还没研究出来,因此 现在音频编码压缩算法使用普通的心理声学模型来提高编码效率。 随着数字时代的到来,音频压缩技术得到广泛应用,因此高质量、低比特 率的音频信号可以在网络及通信系统中传输,这一切的实现感知音频编码器发 挥着关键的作用。随着音频技术的发展,更强调低传输率、低复杂性和低延迟 算法的实现,而计算复杂度在实际应用中表现为耗时。压缩算法中的计算量集 中在分析子带滤波器和心理声学模型及量化编码上,心理声学模型又是重中之 重。编码器中耗时的心理声学参数的计算消耗了大量的编码时间使得编码器无 法做到实时实现。因此国内外许多机构正在从事这个领域的研究。通过调研我 们发现心理声学模型在新技术和新需求下的具体应用是当前的一大研究热点, 我国也应不甘落后。 1 4 国内外心理声学发展状况 音频编码主要利用音频信号的“无关性”。无关性通过在信号处理过程中所 运用的几个心理声学原理来体现,主要包括绝对听觉阈值、临界子带频率分析、 同时掩蔽、沿耳蜗隔膜的掩蔽扩展、时域掩蔽及感知熵。心理声学模型是随着 对人耳掩蔽特性的研究而不断发展的。 1 4 1 心理声学模型掩蔽特性的发展 1 ) 1 司1 时掩蔽特性的发展( s i m u l t a n e o u sm a s k i n g ) 对心理声学科学的研究根据文献可以追溯到二十世纪三、四十年代。 h - f l e t c h e r 吲等从三十年代就开始研究噪声掩蔽音调( n m t ) ,到五十年代, j e g a n “3 得出结论:当被掩蔽信号接近掩蔽噪声的中心频率时,信掩比最小,最 小信掩比波动范围为一5 d b 一+ 5 d b 。六十年代初,d o g r e e n w o o d 研究了临界子带 频段和耳蜗隔膜的关系。从1 9 5 2 1 9 6 7 年,德国斯图加特电讯协会的听觉研究 小组对声音刺激和听觉感觉之间的数学关系的研究取得重要成果“1 ,至此开始 中国科学技术大学硕士学位论文第一章绪论 证式称为心理声学( p s y c h o a c o u s t i c s ) 。 音调掩蔽噪声( t m n ) 相对于噪声掩蔽音调研究要迟。七十年代m s c h r o e d e r 研究了音调掩蔽噪声并加以应用,研究发现当掩蔽音调频率接近被掩蔽噪声中 心频率时,最小信掩比波动范围为2 1 d b 一2 8 d b 。窄带噪声掩蔽窄带噪声( n m n ) 的特征参数提取相对于n m t 和t m n 难,涉及到掩蔽信号和被掩蔽信号之间的相 位,不同的相位导致不同的s m r ,直到1 9 9 8 年j l h a l l 才研究此课题。由此 可见在开始阶段,人们多研究心理声学在频域里特征参数容易提取的掩蔽特性。 2 ) 时域掩蔽特性的发展( t e m p o r a lm a s k i n g ) 突然的音频信号瞬间会产生超前和滞后掩蔽,对同时掩蔽产生影响。1 9 7 8 年时域掩蔽特性研究开始,b j c m o o r e 主要研究容易理解的滞后掩蔽 ( p o s t m a s k i n g ) ,滞后掩蔽发生在掩蔽信号和探测的频率关系变化时,掩蔽持 续时间为5 0 3 0 0 m s 。1 9 8 2 年,w j e s t e a d t 等人通过激励的频率、掩蔽信号 的强度、测定掩蔽停止后的延迟来预测滞后掩蔽,1 9 9 6 年滞后掩蔽开始用到音 频编码中。由于难以测定,直到1 9 9 8 年,k b r a n d e n b u r g 等人才开始研究超前 掩蔽( p r e m a s k i n g ) ,超前掩蔽比掩蔽信号提前2 m s 时,测得的掩蔽阂值比同 时掩蔽低2 5 d b 。没有考虑超前掩蔽的模型会使结果产生前向回波。超前掩蔽现 在仍然是许多科学工作者的研究课题。现有的文献对超前掩蔽最大存在时间还 没有达成一致协议,目前一般认为超前掩蔽的时间依赖于主观实验的测试获得。 超前掩蔽通过转换窗大小变换编码或通过心理声学模型中加入预回声控制弥补 前向回波。现有音频编码算法考虑了时域掩蔽的有i s o i e cm p e g 一1 音频、 m p e g 一2n b c a a c 、d o l b ya c 一2 & a c 一3 、p a c 。2 3 3 ) 感知熵( p e r c e p t u a le n t r o p y ) 及其特性的发展 1 9 8 8 年,j j o h n s t o n “3 结合心理声学掩蔽特性和信号量化原理定义了一个 新的概念:感知熵( p e ) ,它表示透明音质音频信号压缩能力的理论界限估计值。 研究p e 表明每个两位样本的相邻项可进行透明编码。感知熵计算由( 1 ) 式给出: p e = 羔i = 1 w兰=bl叫柑矧+los:t拱洲本, ( 其中:i 是l 临界子带的索引,b h ,和b l ,是子带i 的高低端标记,k ,表示子带 i 转换部分的数值,t 。是子带i 的掩蔽阈值,n i n t 0 表示取整) 中国科学技术大学硕士学位论文第一章绪论 p e 计算方法后来有很大改进。1 9 9 2 年在m p e g 一1 m p 3 ”1 标准中模型i i 就是根 据音调估计来计算p e 。随着音调估计方法的改进,p e 的计算法也跟着变化。除 了上述主要的掩蔽特性外,人们也对其他特性进行了探讨。掩蔽的扩展特性是 在同时掩蔽时,子带之间发生的掩蔽。9 3 年n y a y a n t 。3 提出的心理声学模型, 其中掩蔽阈值计算考虑了扩展特性的影响,掩蔽阈值的精度得以提高。9 7 、9 8 年人们还对掩蔽的不对称性进行了研究,发现它可以为提高心理声学模型性能 提供更多机会。当测试带宽超过掩蔽信号带宽时,掩蔽计算就应包含基于掩蔽 不对称的措施。 1 4 2 心理声学模型在编码器中的具体应用 心理声学模型在不同场合采纳的掩蔽特性不同。不同的压缩方案使用心理 声学特性也大网小异。 1 ) 变换编码器 1 9 8 5 - 1 9 8 6 年,d k r a h e 把心理声学原理应用于变换编码器中,这也是较早 感知音频编码器之一。后来e f s c h r o e d e r 进一步把它用于多级自适应谱音频 编码( m s c ) 中,他们的感知模型使用临界子带和感知比特分配原理进行量化编 码。1 9 8 7 1 9 8 8 年b r a n d e n b u r g 提出的o c f o c f - 2 o c f - 3 9 3 算法中,心理声学分 析了临界子带、掩蔽特性以及予带间的掩蔽特性,对时域掩蔽也进行了初步考 虑。1 9 8 8 1 9 8 9 年a t & t 贝尔实验室的j j o h n s o n 把感知熵( p e ) 应用于基于二 维傅氏变换( d f t ) 的感知变换编码器( p x f m ) 中。心理声学利用了临界子带、掩 蔽阂值,并用p e 决定音源中的类噪声和类音调成分。o c f 和p x f m 各自优点1 9 9 2 年被m p e g 标准中a s p e c 算法采纳,心理声学分析也发展为标准中的心理声学模 型l i ,提供每通道6 4 1 9 2 k b s 的不同等级音质。 2 ) 子带编码器 同时代发展的子带编码器也利用心理声学模型来分配每个子带的量化位 数。1 9 8 7 1 9 8 8 年,g t h e i l e 等研发的m a s c a m 算法中,模型分析只用到子带内 的同时掩蔽,而后才把时域掩蔽加到位流分配计算中。另外p h i l i p s 的编码器 中,心理声学模型只考虑到同时掩蔽的前向扩展,掩蔽阈值计算简单。在它们 的基础上发展而来的m u s i c a m 算法,于1 9 9 2 年成为m p e g 标准。它的心理声学 模型提高了掩蔽闺值的计算准确度,使每个子带的最小信掩比值更准确。1 9 9 2 7 中国科学技术大学硕士学位论文第一章绪论 年颁布的m p e g 一1 “”标准中的心理声学模型i 便是根据它来标准化的。 3 ) 混合编码器 1 9 9 0 年j j o h n s o n 和b r a n d e n b u r g 两人合作推出混合编码器,严格讲是变 换和子带编码的综合。其心理声学模型的音调估计方法更精确,具体说就是混 合编码器估计的音调作为当前单个谱线的特征,而每个谱线的相位和幅度的可 预测性被用来评估音调。类似的混合结构已被m p e g 一1 和9 4 年颁布的m p e g - 2 3 l a y e r 3 采用,该结构用心理声学模型i i 。 4 ) 其他类型编码器 m a h i e u x 等研究的c n e t 编码器的心理声学模型着重分析了子带间的掩蔽、 改进了p e 的计算过程。模型子带内的心理声学噪声阈值小于子带的最小掩蔽阈 值,依此来进行位分配。m p e g - 2a a c “”中,心理声学模型i i 采用了类似技术。 9 2 、9 3 年小波分析在编码器时频转换中广泛应用,在这类编码其中,心理声学 模型仅简单假设每个临界子带内的掩蔽阈值恒定不变,用定值来计算感知位分 配。到9 7 9 8 年,可变掩蔽阈值的小波包音频编码器采用的就是心理声学模型 i i 了。混合正弦小波编码器的a r c o 算法用心理声学模型i 。6 - 2 4 k b s 正弦信 号编码器9 6 年后才用到感知特性。9 8 年颁布的m p e g 一4 标准中a s a c 算法的心 理声学模型是简化版的模型i i ,模型计算的每个综合信号的掩蔽能量决定了感 知特性是否被使用。近几年出现的频率调制综合编码技术中,心理声学模型也 是基于标准中两个模型的适当调整。 1 4 3 我国发展状况: 我国从事声学研究主要是中科院声学所和中国社会科学院语言所,上海交 通大学和清华大学研究音频编码器算法,主要提高掩蔽阈值计算精度和减少时 频转换复杂度。我校也不甘落后,我们从心理声学模型的音调探测角度入手, 探讨了一种新的编码器算法改进方法。 1 5 发展方向 随着音频技术的发展,更强调低传输率、低复杂性和低延迟算法的实现。 近年来研究集中在心理声学模型的标准化及其改进方面。从工程应用角度,为 了满足实时实现音频信号的编解码,目前人们主要研究基于国际标准的算法简 中国科学技术大学硕士学位论文第一章绪论 化和改进。如小波分析在音频信号处理中用于计算掩蔽阈值来替代标准中心理 声学模型闽值的计算方法,从而提高了计算精度。同时新的心理声学特性应用 模型也会随着研究深入而出现,科研工作者将继续为此而努力。从技术研究发 展方面来讲,存在不同的标准之间的竞争。为避免互不兼容的格式带来商业使 用上的不便,应综合各家的技术优点,尽量统一标准。目前,正在制定的适合 全音域、全面按需支持的新标准( m p e g 一4 & m p e g 一7 ) 在统一标准方面还有待于将 来实践的检验。当前音频编码的发展主要集中在可升级的算法方面,而心理声 学模型的算法也将趋于结构化,标准化。 在过去的十几年里,伴随着音频的发展,心理声学模型的应用有了令人欣 喜的发展,随着研究的深入,在未来的发展中,感知音频技术将会带给人们带 来前所未有的听觉享受。 1 6 论文组织结构 本论文将着眼于编码器中耗费大量时间的心理声学模型,提出一种针m p e g 音频标准的改进算法,论文内容分为以下几部分: 一、绪论 二、心理声学模型设计准则 三、心理声学模型标准 四、编码器的心理声学模型算法改进 五、心理声学模型改进算法的评估 六、总结及展望 1 7 工作小结 研究的前期工作主要集中阅读大量国内外文献,通过查阅大量国内国外相 关文献资料,使我对音频编码器的发展状况有了明确的了解,并系统理解了心 理声学模型掩蔽特性的应用和特点,为研究改进算法寻找到合适的切入点,使 得我的研究方向逐渐明确,也更坚定我研究心理声学模型的兴趣和信心虽然 此阶段工作较为繁重和枯燥,但在千头万绪中寻找到自己的研究方向却是件令 人兴奋的事情。 中国科学技术大学硕士学位论文第二章心理声学模型设计准则 2 1 心理声学概述 第二章心理声学模型设计准则 正如上一章所诉,我们知道爱迪生圆柱以一种模拟初始声波的模式( 一种 类似物) 来存储声学波形,数字存储介质( 如光盘) 实际上是在做同样的事情,只 不过用表示波形振幅的离散数字序列来代替连续的模式。这两种方式都是为了 能在音频带宽内重建与原始波一样的波形。用感知编码,是为了取得感知到的 同一性而放弃了物理上的同一性。用一个人类听觉系统的心理声学模型,数字 信号编解码器在比特分配时认为察觉不到的信号内容是同一的( 消除相关 性) 于是信号在最终的比特流中被有效地编码( 消除冗余) ,减少了用来表示音 频信号的数据。其目的是为了在随信号而定的昕力门限下隐藏量化噪声,以尽 可能有效地编码。此方法提出一个概念上的问题,即多少噪声可以在信号中存 在而不被听到。 同新的感知编码相比较,p c m 功能强大但需要的数据量虽也大。对比特量 的庞大需求限制了p c m 的实用性。感知编码的关键在于满足对更低比特速率的 需求,从而为带有可接受信号畸变的数字音频( 和视频) 开启了新的应用。通过 心理声学模型,我们能够理解如何通过耳朵感知信息。一个感知编码系统努力传 送此信息的全部内容,但不会更多。 人们在听弦乐时,对基音中五次谐音或七次谐音的分辨和对1 0 0 0 h z 和 1 0 0 2 h z 感到的差异,所有这些均属于心理声学模型的范畴。对于人类听力感知 的研究,其范围从人耳的生理设计,到大脑对听觉信息的解释。声音只是一个 人对其产生感知的学术概念,而心理声学模型则揭示了人们对于听到的一切的 主观反应,是有关听觉的关系当中最终的仲裁者,因为它是人们对于声音的唯 一反应。心理声学模型试图用所有与听觉感知有关的科学的、客观的和物理的 特性所引起的心理和生理上的反应,使得听觉能感知这些特性并和谐统一起来。 人耳及与其相关的神经系统是非常复杂的一个交互式系统。在过去的漫长岁月 中,生理学家已经对听觉感知进行了广泛的研究。同时也得出了无论用多么复 杂庞大的模型来模拟它都有其固有缺陷的结论。一方面人耳对于细微差别的精 中国科学技术大学硕士学位论文第二章心理声学模型设计准则 确判断力令人昨舌,另一方面人耳对于他( 她) 认为不相关的信号部分只进行粗 略的处理,编码信号随着频率和时间改变而改变的准确率可以很低。 人耳是一个非常精细的物理器官,但它只有在大脑的配合下才能发挥效用。 这些智能的判断是我们感知声音和音乐的基础。人的左耳和右耳在生理结构上 并不存在对声音判断的差异,它们之间的差异是由分别与其相连的右脑和左脑 之间的差异造成的。人的右耳连接至左脑,左耳连接至右脑。人的左脑多用来 处理语言信息,左耳对于语音的感知自然就逊于右耳。另外,对于旋律信息的 处理多由右脑来完成,因此对于旋律的感知右耳就胜出一筹了。 人耳对于频率的感知是呈对数规律的,当两个相差无几的频率作用在一起 时,就出现了差频。当差频成分本身是可听频率,人耳就能分辨这种不同的音 调。在低于2 0 0 h z 时会出现交叉音,由于人耳在这个频率范围内无法分辨出和 音,例如,9 8 h z 和6 5 h z 合起来并不是一个五次谐音,而是一个8 2 h z 音调。另 外,当频率低于5 0 0 h z 时,人耳仅仅能够分辨2 h z 间距的差异。人耳能够适应 很宽的动态范围。在1 2 0 d bs p l 处听觉的门限值是其在o d bs p l 声音强度的1 0 倍“。由此不难理解,自然就应该使用对数坐标了。尽管动态范围很宽,但人 耳的灵敏度却与频率有关最高灵敏度在l 一5 k h z 范围内。对于过高或者过低的 频率,人耳的灵敏度都会降低。如图一所示的等响度曲线。每条曲线表示等响 度时的频率范围,最下面的一条曲线描述了最小可听声场,即人耳能够感知的 最小声压级。声音的响应随着声音的大小而变,声音越大,响应越平坦。 一i g i g o 薹 曲 柏 2 0 。 图一等响曲线 事冉k 中国科学技术大学硕士学位论文第二章心理声学模型设计准则 所有的声音都可以只用一个耳朵感知到,而定位则需要两个耳朵都工作。 声音从一边发出时,耳朵和大脑一起通过一些因素( 如强度差别、声波的复杂度 以及声音的延迟) 等来定位。当两个扬声器发出相同的声音时,耳朵并不去定位 左、右声源,而只是认为声音从两个音源之间的空间发出。由于每个耳朵接收 同样的信息,声音就像是从正前方转来的那样被感知。类似地,立体声仅仅是 使用了多个非立体声的声道而已。 耳朵只接受音频信号中的一部分信息,这就是所谓的感知熵。熵值较小的 信号能够被很好地压缩,而熵值高的信号则不能。因此,编码器输出不定长的 比特速率,即当信息量小时,比特速率低:当信息量大时,比特速率高。取样 频率恒定,但比特速率输出不定是因为信号的熵不同。可以利用心理声学原理, 去掉信号中的无关部分对数据压缩,当然这样就不能完全重建原始信号了。压 缩系统都尽量来减少信号的熵,通过对感知熵建模,去除无关信号,达到压缩 的目的。感知编码器必须采用心理声学的模型来识别无关的音频信号。音频系 统设计考都采用客观的参数作为他们的设计目标即得到平坦的频率响应、最小 的测量噪声等。由于最后的接收者是人的听觉系统,感知编码的设计者要遵循 心理声学原理,从人耳的特性出发来制定设计准则“。 2 2 心理声学模型设计准则 心理声学原理把整个信号频带按临界频带划分,估计出各临界子带的掩蔽 阈值,得到信掩比,根据该模型计算出各临界子带的最小掩蔽阈值,以此来对 量化噪声的频谱进行适当整形,使每个临界子带内的量化噪声功率小于子带的 最小掩蔽阈值,从而能够被音频信号所掩蔽,满足听觉系统的掩蔽效应,达到 感知失真最小,这样既降低了量化的编码率,又提高了音频编码器的主观质量。 由以上的叙述可见心理声学模型中最重要的特性就是掩蔽特性。以一个中 心频率为1 k h z ,声音强度为5 0 d b 的音频信号为例,掩蔽特性见图二“。图中 细实线表示的是安静环境里人耳能听到的最小声音幅值,也就是安静绝对阈值。 粗实线为几乎听不到声音的声压级,也称为掩蔽阈值,它包围区域为1 k h z 屏 蔽信号的掩蔽区域,在掩蔽区域内的信号将会被掩蔽而听不见。 中目科学技术大学硕士学位论文第二章心理声学模型设计准则 赫 翠,k h z 图二掩蔽特性 心理声学模型在不同时期、不同应用场合,采用的掩蔽特性也不太一样。 随着人们对掩蔽特性进一步认识,模型不断改进,应用逐渐完善。目前心理声 学研究认为:人耳能否听见声音取决于声音的频率、幅度是否高于这种频率下 的听觉阈值,低频区的频率分辨率高于高频区。由图二可得如下结论:( 1 ) 如 果信号频率组成部分有低于绝对听觉阈值的部分,那么这部分信号可舍弃而不 被人耳觉察。( 2 ) 如果某一频率的声音幅度小于另一个声音的听觉阈值( 即图 上的屏蔽门限) ,并在其掩蔽范围内,则某声音被掩蔽。( 3 ) 同样,某噪声幅度 在某一个声音的听觉阈值内,该噪声也被掩蔽。 由上图可见低频区的频率分辨率高于高频区。因此用低音调去掩蔽高音调 就相对容易些。反过来就比较困难。一般地讲,下部斜率为2 7 d b b a r k ,上部 斜率根据信号幅度在2 0 5 d b b a r k 的范围内变化。当声压级增加时,闽值曲线 变宽,尤其上部的斜率减小,而下部曲线的斜率基本保持不变。图三“”给出了 以l k h z 为中心的不同幅值的窄带噪声的掩蔽曲线。 巅 邕 t 曩搴柚 图三随声压级变化的掩蔽阈值曲线 中国科学技术大学硕j :学位论文 第二章心理声学模型设计准则 2 2 1 人耳生理系统和临界子带 人耳将声能量转化为机械能,最终转化为生理脉冲传至大脑,这样才能感 知到声音。图四“”给出人耳生理结构。外耳用来聚集声音,它复杂的折叠有助 于人辨别声音方向。耳道共鸣于3 k h z 处,在这个频率范围内,耳朵对语音信 号非常敏感。耳鼓膜将声能转化为机械能,在1 2 0 d bs p l 处达到最佳,高于此 值会产生失真。中耳里3 块骨头,即锤骨、砧骨和蹬骨,向充满液体的内耳提 供与空气中传来声音的相匹配阻抗。耳前庭与听力无关,用于提供平衡感。基 膜检测声音的幅度和频率。所有振动都转化成生理脉肿,它作为神经中枢信息 通过神经纤维束传至大脑。大脑通过对周期性的刺激及最大的刺激点进行解码 判断出频率。 图四简单人耳生理结构图 基膜的测试表明,耳朵中包含约3 万个毛细胞,它们沿着基膜排列成多行, 约3 2 m m 长。这些细胞能检测到基膜的振动,通过生理脉冲将音频信息传至大 脑。低频区域对几个赫兹频率的差异也能分辨出来,在高频区域,必须要有几 百赫兹的差别。一般,毛细胞会对其周围的强刺激做出反应,这就是临界频段。 实验结果表明,在低频区域临界频段比在高频区域窄,3 4 临界频段低于5 k h 。 耳朵可以接收到的低频信息多于高频信息。在频率为2 0 4 0 0 h z 时临界频带约为 1 0 0 h z ,在频率为1 7 k h z 时临界频段为1 5 八倍程。这样,可以假定在频率 为3 0 0 h z 2 0k h z 时的临界频带为1 3 八倍程。 心理声学模型是个模拟人耳听觉掩蔽特性的数学算法。首先人耳存在有 限的频率带,由于声音频率与掩蔽曲线不是线性关系,为从感知上统一度量声 14 中国科学技术大学硕士学位论文第二章一t l , 理声学模型设计准则 音频率,引入了临界频带的概念。在同一子带内,心理声学特性一样。通常认 为,在听觉范围内有2 5 个临界频带,如表一所示:1b a r k = 一个临界频带的宽 度。 表一临界子带中心及边缘频率 临界频带数中心频率临界频段低截止频带高截止频带 15 01 0 0 21 5 01 0 01 0 0 2 0 0 3 2 5 0 1 0 02 0 0 3 0 0 43 5 01 0 03 0 04 0 0 54 5 0 1 0 0 4 0 05 1 0 65 7 01 0 05 1 06 3 0 7 7 0 0 1 4 06 3 0 7 7 0 88 4 01 5 07 7 09 2 0 0 91 0 0 0 1 6 09 2 0 1 0 8 0 1 0 1 1 7 01 9 0 1 0 8 01 2 7 0 1 11 3 7 02 1 01 2 7 01 4 8 0 1 21 6 0 02 4 01 4 7 01 7 2 0 1 31 8 5 0 2 8 01 7 2 02 0 0 0 1 4 2 5 0 03 2 02 0 0 02 3 2 0 1 52 9 0 03 8 02 3 2 02 7 0 0 1 62 9 0 04 5 0 2 7 0 0 3 1 5 0 1 73 4 0 05 5 0 0 3 1 5 03 7 0 0 1 84 0 0 07 0 03 7 0 04 4 0 0 1 94 8 0 09 0 0 4 4 0 0 5 3 0 0 2 05 8 0 01 1 0 05 3 0 06 4 0 0 2 17 0 0 01 3 0 06 4 0 07 7 0 0 2 28 5 0 01 8 0 0 7 7 0 09 5 0 0 2 31 0 5 0 02 5 0 0 9 5 0 0 1 2 0 0 0 2 41 3 5 0 0 3 5 0 01 2 0 0 01 5 5 0 0 2 51 8 7 7 56 5 5 0 1 5 5 0 02 2 0 5 0 中国科学技术大学硕士学位论文第二章心理声学模型设计准则 耳蜗可看作一组高度重叠带宽的滤波器组,具有非均匀性和非线性。人耳 对音频信号的分析以临界频带为基础,类似一个非等带宽的子带滤波器组,因 此,模型需将信号从频率域映射到临界频带( 单位:b a r k ) 。 临界子带带宽计算川: b w ( f ) = 2 5 + 7 5 【1 + 1 4 ( f f l 0 0 0 ) 2 】o 6 9 ( h z )( 2 ) 巴克频率等级方程为【2 j : z ( 0 313 a r c t a n ( 0 0 0 0 7 6 f ) + 3 5 a r e t a n ( f 7 5 0 0 ) 2 】( b a r k )( 3 ) 由此计算出的带宽不等的临界子带。与此相应的理想临界子带滤波器组如 图五所示: 2 2 2 掩蔽特性 图五理想临界子带滤波器组 掩蔽效应指一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。 音频滤波器组的频率分辨率决定了信号中的感知无关部分,掩蔽特性从时间先 后角度考虑分为同时掩蔽( 频域掩蔽) 和非同时掩蔽( 时域掩蔽:超前掩蔽和滞 后掩蔽) 。心理声学模型算法中音频的时频转换在临界子带内分析的是同时掩 蔽。掩蔽特性的应用有两种类型:音调掩蔽和噪音掩蔽i l6 】。音调掩蔽是音调掩 蔽噪声( t m n ) ,噪音掩蔽包括噪声掩蔽音调( n m t ) 和噪声掩蔽噪声( n m n ) , 这些掩蔽特性将会决定所要求的信嗓比( s m r ) 。其中,音调掩蔽噪声和噪声掩 中国科学技术大学硕士学位论文 第二章心理声学模型设计准则 蔽音调的量化计算在临界子带里分析,而噪声掩蔽噪声并不限制在临界子带里, 是在各个临界子带之间产生,所以用掩蔽扩展函数来量化分析。 1 同时掩蔽 同时掩蔽发生在两个或两个以上激励同时出现在同一个音频系统,从频域 观点来看,掩蔽信号和被掩蔽信号之间的幅度范围决定了某种谱能量的信号会 掩蔽另一种谱能量的信号。从时域观点来看,激励之间的相位关系也同样影响 掩蔽输出。因此,同时掩蔽的简化原理只考虑:强噪声或音调掩蔽信号在耳朵 底部的隔膜上产生足够的刺激强度,该刺激强度在相应的临界子带内能有效的 阻止微弱信号的探测。在感知编码器中同时掩蔽主要包括三种:噪声掩蔽音调 ( n m t ) ,音调掩蔽噪声( t m n ) ,噪声掩蔽噪声( n m n ) 。 1 ) 噪声掩蔽音调( n m t ) 特性: 对被掩蔽信号的闽值探测来说,n m t 的最小信号掩蔽比率( s m r ) ,即掩 蔽噪声和被掩蔽音调之间的最小强度差值,发生在被掩蔽信号的频率接近掩蔽 噪声的中心频率,一般情况下,最小s m r 在5 d bn +

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论