已阅读5页,还剩64页未读, 继续免费阅读
(通信与信息系统专业论文)移动便携平台三维音效增强技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 自然存在的声音都是有三维空间属性的,具有一定的位置和尺度。人耳对声 音的这种空间信息的主观感受一般被称为三维立体音效。立体声音频技术就是为 了使声音在录制和回放过程中不会损失太多空间信息而出现的。但目前的传统双 声道立体声并不能很好还原声音的三维音效,尤其是在现在广泛使用的移动便携 平台上,已经逐渐满足不了人们的需求。因此有必要对移动便携平台上的三维音 效增强技术进行研究。 本文通过对移动便携平台特点的分析,以及对人耳空间听觉特性和现有方法 的研究,提出了一种新的适合移动便携平台的三维音效增强后处理算法。算法解 决了移动便携平台上三维音效质量两个最主要问题:首先,由于传统双声道立体 声格式本身就有声场范围小的缺点,因此本算法通过将原两声道立体声扩充为四 声道环绕立体声,对声场进行了弥补;其次由于移动便携平台一般使用耳机回放, 使得立体效果不自然,声场都局限于头部很小的范围内,因此本算法使用了h r l 曙 处理和室内声场模拟解决了这个问题。主观测试表明,该算法有着明显的三维音 效增强效果。 此外,为了满足移动便携平台的实时处理的要求,本算法通过适当的简化和 优化,实现了较低的复杂度。而为了进一步降低复杂度,本文还对算法在a r m 9 平台上的移植、定点化以及代码优化等工作进行了研究。最终的评估统计结果表 明,算法复杂度完全达到移动便携平台各种实时应用的要求。 关键词:虚拟立体声头相关传输函数三维音效增强移动便携平台 a b s 缸a c t t h e 彻n 蒯粕d i oc a l w a y sp r o v i d e3 ds p a c ci n f b m 撕w h i c hi n c l u d 髓s i z e 柚dl o c a t i i n f o 珊a t i n es u b j e c 吐v es e n s eo f1 h i ss p a c ci n f o 衄a t i o ni sc a l l c d3 d a u d i o - e 髓c t t 0r e d u c ct h el o s so fs p a c ci n f 0 1 m a l i o nd u 血gr o r d i 】唱锄dp l a y b a d 【, s t e r 。0 p h yt e c h n o l o g yw 蠲i n _ 删u c c d h o w e v t f a d i t i o n a ld u a l c h 枷c l s t e f e 0 踟d i o 啪n o ts u p p l ye 】【c e l l e n t3 d 卸d i o e 胁,e s p e c i a l l y m o b i l e 缸dp o r t a b l e p l a t l 研m s t h e r e f o r e ,i t i sn e c 嚣s a r yt or 懿e a r c h3 d 卸d i o e 肫c tc n h 锄c e m e n t t e d h n 0 1 0 9 y 南rm o b i l ea n dp c n 曲l ep l a t f o m s ht h i sp 印an o v e l3 d 卸d i o e 施c te i l l l 柚c e m e n ta l g 耐n 吼f o rm o b i l e 觚d p 口r t a b l ep l a t f b m si si m r o d l l c e d t h i sa l g o r i t h ms o l v 髓锕。廊a r yi s s u 岱d b o u tt h e 3 da u d i o e 行c c t 衙m o b i l e 缸dp o t a b l ep l a 位 皿s t h ef i r s ti s s u ei s 恤t 位s o 聃d 右d d o f 仃a 西t i o n a ld u a l c h 孤n c ls 姗oa u d i oi sa l w a y si nan 娜wm g c 1 k sa l g 嘶t h m r e p a i r st h es o 岫d 丘e l db y 懿t d i n g 也eo r i g i n a ld u a l c h 跏d 孤d i ot o4 _ c h 跚c l 鲫u n ds 咖觚d i o 劝es c c o n di s 鲫ei s 也a t ,b e ca _ u m o b i l e 缸dp o r t a b l ep 1a _ 响m s 1 l s l l a l l y 锄p l o yh e a d p h o n ep l a y b a c ks y s t 黜,也e j r3 d 觚d i o e 丘如i s 蛐c o m f o r t a b l e 锄dp r o 、,i d 嚣an a r f o w e r 岫d6 d de 脓t t h ea 1 9 0 r i 皿s o l v 器t h i si s s u eb yu s i n g 琅肼p r o c 鼯s i n g 卸dr o o ma c 0 璐t i cs i i n u l 缸i o n t h es u b j e c te v a l u a t i o ns h o w st h a tt h i s a l g 鲥t h mc 锄o b v i o u s 】y 姐h 锄c e3 d 锄d i o e c tf o fm o b i l ea n dp o r t a b l ep l 鲥酝m a p p l i 硎o n s t f l | n l l 锄o l 岛t om e c tt h er o q u e s t so f r c a l - 恤ea p 科i c a d o mo nm o b i l e 缸dp o r t d b l e p l a t f b 眦s ,t h i sa l g o r i t h m 啪a l s op r o v i d e1 0 w p 1 懿i t yb yp r o p c rs i m p h f i c a 矗o na n d o 面m i z a t i t of i l n b 髓r o d u c cc o m p l 懿i 劬t h ep o m n g ,f i x p o i n 曲g 锄do p d m i z a t i o n o ft h i sa l g 砸t b mt oa r m 9p l a t f o l m sa 陀a l s oi n 仃0 d u c e 正1 1 1 ec 、r 以u a t i o ns t a l i s t i c s h o w st h a tt h i sa i 鲥也mc a nm 【t h er 。q u 船to fm o s tr e a l - 畦m ea p p l i c a t i o n so n p r i m a r ym o b i l e 缸dp o r t a :b l ep l a t f o 啦s k e yw o r d s :v i n l i a l3 ds t e r h r t f3 da u d i f f 缸蛆h n c e m e n t m o b n ea n dp o n a b l ep i a t f b r m s 创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果:也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。 申请学位论文与资料若有不实之处 本人签名:越 本人承担一切的法律责任。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名: 导师签名: 地虹 塑 日期趟:f :型 日期趔:! :塑 第一章绪论 第一章绪论 1 1 传统立体声的三维音效 自从双声道立体声的出现,人们第一次听到了比较自然的、具有一定立体感 的声音。直到今天,这种立体声格式依然还在使用。然而这种传统双声道立体声 在三维立体效果上还是无法贴近真实自然的效果,尤其实在今天普遍使用压缩编 码的情况下,立体效果会进一步损失。 为了得到更好的三维立体声效果,人们又发展出了多种立体声音频技术,主 要有多声道环绕立体声技术、波阵面系统和头相关录音技术等。多声道环绕立体 声技术一般用于影院或家庭影院中,需要有足够的听音空间,而且需要的设备也 比较复杂,因此应用起来有一定的局限性。而波阵面系统需要的扬声器数更多, 录制和回放系统非常复杂。头相关录音技术则是对录音技术的改进,面对放音设 备没有太高要求,只用耳机即可得到非常好的三维立体效果,但是其录音设备复 杂,使用这种录音技术的节目源还比较少。由此可见,新的立体声回放和录音技 术还无法得到广泛的应用,而事实上现在一般能得到的大部分的音频信号还是双 声道立体声音频。 与此同时,目前移动便携平台上的多媒体应用越来越广泛,需求也越来越高, 人们希望在移动便携平台上得到更高质量的多媒体体验。由于移动便携平台本身 的特点,其声音回放设备一般使用耳机,同时由于存储容量和功耗的限制,一般 只支持双声道立体声音频压缩格式的解码回放,因此这种声音回放质量一般不如 使用音箱或环绕立体声的回放质量,尤其是在空间感和立体感上。因此有必要研 究一种音频后处理技术,以改善移动便携平台上的立体声三维效果。 1 2 虚拟立体声技术简介 三维音效增强算法在本质上是虚拟立体声技术的一种。虚拟立体声技术是国 际上近十年新发展的一项d s p 技术,它是在声音回放时,采用数字信号处理的方 法,对声音信号加入或增强空间信息,从而模拟出相应的空间听觉效果。由于虚 拟立体声系统在硬件结构上较为简单,故在多媒体与虚拟现实、心理声学研究、 室内声学模拟、家用音频系统等领域有广泛的应用前景,并成为国际上研究的热 门课题【l 】。虚拟立体声技术是一类技术的总称,对于不同的应用,这种技术也有 着不同的算法,但是它们都是基于对人耳空间听觉特性的研究,对其中一些重要 特性的模拟来实现的。 2 移动便携平台三维音效增强技术的研究 根据不同的应用,可以将虚拟立体声技术分为下面几类: 第一类是虚拟现实或电脑游戏中的应用,在这种应用中,为了提供身临其境 的感觉,除了3 d 画面的逼真和良好的互动性之外,还需要真实立体的声音来营 造三维的气氛,利用虚拟立体声技术就可以将变化复杂、数量众多的声源通过立 体声耳机或音箱真实的表现出来。这种应用是虚拟立体声最广泛的应用之一,它 实质上是将原始的单声道声音通过虚拟声源定位等算法处理后,将原来没有空间 信息的声音加入空间信息,通过耳机或音箱回放,使入耳能够明显地感知声音的 方位、距离以及环境。使用这种虚拟立体声技术,不光可以用简单的设备产生具 有3 d 立体音效的声音,还可以通过声源的位置、环境等参数对声音进行编程控 制,非常适合计算机互动应用。 近耳输出 远耳输出 图1 1 虚拟声源定位算法 目前的3 d 电脑游戏中,广泛应用了这种虚拟立体声技术,由于其计算量比 较大,一般是由音频处理芯片硬件实现的,同时通过一套a _ p i 来配合使用。这方 面的产品主要有创新( c r c a t i v e ) 公司的开放a p i “e a x ”,以及配合这套a p i 的一系列音频芯片,是计算机上应用最广泛的交互式虚拟立体声处理系统;另外 还有a u r c a l 公司的交互式虚拟立体声系统a 3 d ,其算法来源于军方项目,因此相 对于其他系统有所创新和改进。 第二类应用是在传统立体声回放系统中模拟多声道环绕立体声效果,也被称 为虚拟环绕声技术。这种系统由于只需使用简单的回放设备即可回放多声道环绕 立体声,因此在家庭影院和计算机多媒体中应用广泛。这种应用般的方法是使 第一章绪论 3 用下式对多个声道( 一般是5 声道) 的信号进行处理: z = 工+ o 7 0 7 c + 口咒+ 品 r 。= r + o 7 0 7 c + 兄+ 口& 其中,l 和r 分别为原左右声道信号,c 中置声道信号,墨和& 分别是左右 环绕声道信号,得到的新的两个声道信号和r 。分别馈给两个音箱或耳机。而其 中的口和口并不是两个常数,而是指h r t f 函数处理,包括了频谱的修改和延时, 在使用音箱回放时 联r f 函数还需要做均衡处理。l 和r 声道不需处理,因为他 们能够包含左前方和右前方的声场信息,而经过m m 函数处理之后的环绕声道 能够提供后方的声像以及环境音效,对于中置声道则按功率平均分配给两个声道, 这样就能虚拟出正前方的声场。 这类应用的代表产品都是应用于家庭影院中,如d o l b y 的p m - l o 百c 系统使 用这种方法使其可以兼容两个音箱的回放系统,其他的产品还有s r s 实验室的 t n 】翻1 r r 0 1 m d ,q s o l l n d 公司的q s l l n d u d ,s p a c i a l i z c r 实验室的n n 2 等等吼这些 产品都是嵌入式软件产品。 第三类应用即立体声增强系统,本文将要讨论的技术即属于这类技术。这类 技术同样一般应用于家庭影院和多媒体计算机中,即对双声道立体声音频信号进 行处理,增加、改变或扩大其原有的声场空间信息,再通过双声道回放系统回放, 从而达到改善和增强原始立体声信号3 d 效果的目的。这类技术的代表为s r s 实 验室的s r s3 d 技术,它的算法基本思想是从左右声道的信号中提取声音原始的 空间和环境信息,经过频谱的修改后,再经过反相得到两路相反的信号,最后与 原左右声道混合并输出【2 1 。关于这种算法,在相关章节会详细说明,其他很多产 品的算法都与其类似。但要指出的是,这种算法由于提出的比较早,它的效果已 经不能满足现在的需求。 1 3 本文研究的内容和主要成果 本文所要研究的重点是一种于适合移动便携平台的三维音效增强算法。这是 一种音频后处理算法,目的在于在不改变移动便携平台音频回放的硬件系统的情 况下,使用软件算法对音频进行实时处理,从而增强其音频回放的三维音效。 围绕这个研究重点,本文展开了如下的研究工作:对目前常用的几种立体声 系统的特点和不足进行研究,并对移动便携平台音频回放的一般特点和不足进行 探讨;对作为立体声原理基础的人耳空间听觉特性进行深入的分类研究,分别对 各类因素的成因及特点进行深入分析;对现有三维音效增强处理算法进行总结; 在前期研究的基础上,对移动便携平台三维音效增强算法的几种可行性进行探讨, 4 移动便携平台三维音效增强技术的研究 并提出一种新的适合移动便携平台的三维音效增强算法;对于新算法各个模块的 具体算法进行重点研究,对各个模块提出多种实现方法,并通过对比试验,优化 算法实现方案;在舢l m 9 平台上进行算法移植、定点化以及代码优化等工作,最 后对该算法进行性能和复杂度评估。 本文提出的移动便携平台三维音效增强算法,有效地改进了移动便携平台上 的音频三维效果,提升了移动便携平台上的音频应用质量。该算法克服了以前三 维音效增强算法在移动便携平台上效果不理想的缺点。同时相比其他算法,新算 法还具有复杂度低的特点,使得该算法的应用场合更加广泛,满足主流平台的各 种应用需求。 1 4 论文的结构安排 本论文一共分为六章,具体的结构安排如下: 第一章主要对传统立体声音频的概况和虚拟立体声数字处理技术进行了简单 介绍。 第二章对立体声音频技术做了简单介绍,并对常用的几种立体声系统特别是 使用最为广泛的传统双声道立体声系统的特点和不足进行研究,然后提出了移动 便携平台上立体声音频回放的特点和不足。 第三章主要对人耳空间听觉特性进行了深入的分类研究,然后又对其中最重 要的h r t f 进行了研究。 第四章是论文的重点章节。这一章首先对现有三维音效增强处理算法进行了 小结;然后探讨了两种有效的新思路,提出了新的适合移动便携平台的三维音效 增强系统;接着又对该系统的具体实现方法进行了分模块详细讨论,通过对比实 验确定了算法方案;最后对算法的整体性能进行了主观评估实验。 第五章介绍了算法在a r m 9 t d m i 和a r m 9 2 6 e j s 处理器平台上的移植、定 点化和优化工作,并通过平台模拟给出了算法的复杂度情况。 第二章现有立体声音频技术 5 第二章现有立体声音频技术 立体声顾名思义就是具有立体感的声音。广义上说,自然界中的所有声音应 该都算作立体声,因为任何声源都在三维空间中占有位置,而且人耳能够从中感 受到空间信息。但自然声音经过录音,再回放的时候原有的空间信息就有所损失。 因此就有了立体声音频技术,这是一种电声技术,目的是使录制下来的自然声音 在回放的时候尽量能够保留原有的空间信息。 首先说明一下声场的概念,声场是入耳对声音空间信息的一种主观感觉,它 可以分为定位声场和弥散声场两种。定位声场是人耳对多个声源的位置定位形成 的空间范围,即代表了声源的实际空间位置。弥散声场则是由环境背景声形成的 空间范围,它表现为没有反响感,却据有包围感和环绕感,是构成声场主观感觉 的一个重要因素,在自然听音时,既使定位声场范围很小,也会有三维的弥散声 场。一般立体声对原始声音场景空阈信息的还原效果就可以用声场的主观评价来 说明,这些评价包括定位声场的范围和准确度、声音的距离感和自然度,以及弥 散声场的大小、环绕感和包围感。 立体声从技术原理上分可以分为头相关型、波阵面型和声压差型几种类型。 其中波阵面型由于录音和回放设备非常复杂,没有得到广泛的应用。头相关技术 由于数字处理技术的发展正在得到更多的应用。声压差型则是应用最广泛的立体 声技术,目前大家能够得到的大部分立体声音频节目都是采用这种技术制作。 而根据录制格式,立体声音频又可以分为双声道立体声和多声道环绕立体声。 而多声道环绕立体声一般有5 1 格式和6 1 、7 1 等格式,目前应用比较广泛的是 5 1 格式的多声道环绕声系统。 下面分别介绍常用的几种立体声系统。 2 1 声压差型双声道立体声 声压差型双声道立体声系统是应用比较早的一种立体声,也是目前应用最为 广泛的立体声系统。它的结构比较简单,只有两路声音信号,也因此只需要用两 个扬声器即可组成回放系统。它的原理是强相关多声源的入耳定位效应,也被称 为立体声定位正弦定理( s t c r c os i n el a w ) 即使用两个音扬声器发出声压不同 的两个强相关信号,人耳会认为是从扬声器中间的一个声源发出,声源位置更靠 近声压高的扬声器。通过调整两声道的声压比例关系就可以任意调整虚拟声源的 位置。这个原理也是现在立体声音乐节目制作的主要方法。 6 移动便携平台三维音效增强技术的研究 但是由于它提出的比较早,限于当时条件的限制,只有两个通道,这样就只 能表现前方平面声场,主要集中在两个扬声器之间;而且也缺少三维的弥散声场 ( 主要是后方声场) 。然而也正是它的简单结构使其知道今天还是最主要的立体声 技术,对于音乐节目这种一般只有前方声场的音频应用它的效果还是可以接受的。 而对声场比较复杂的电影应用来说缺点就比较大。因此后来就出现了多声道环绕 立体声系统。 2 。2 多声道环绕立体声 顾名思义,多声道环绕立体声最大鲍特点是具有多个声音通道,而环绕则表 示它相对与传统双声道立体声能够提供具有环绕感和包围感的声场效果。多声道 环绕立体声系统同样是使用立体声定位正弦定理来实现声场定位,但是它多了后 方的两个环绕声道,能够弥补传统双声道立体声系统在弥散声场上的缺陷。同时 后置声道还可以对后方声源进行定位,能够产生一定范围的后方声场。 最早的多声道系统是4 声道的,包括两个前方声道和两个后方声道,4 个扬 声器对称排列。后来的广泛应用的5 1 声道系统是在最早的4 声道系统的基础上 改进而来的,增加了中置声道以避免正前方主音的损失,主要用于伴随图像的声 音重发,已经成为了n u 推荐的多声道系统。它的推荐扬声器布局如图2 1 所示。 c 、 j 图2 1 标准5 1 立体声系统扬声器布局 恣 l 第二章现有立体声音频技术 7 由于是图像的伴音,听者的注意力主要几种在前半平面,对后方的声音定位 要求不高,后置声道的作用主要是提供具有环绕感和包围感的声场,因此它的信 号主要是原始声音场景的环境背景声。后来为了使后方和侧方声源也能够提供准 确的定位,又出现了6 1 和7 1 等系统,但主要用于大型影院,应用还不够广泛。 2 3 头相关立体声录音技术 头相关立体声系统是有别于前边两种立体声系统的立体声技术,它是从人耳 空间听觉特性入手,在录音的时候采用假人头模型,将到达双耳的声音录制下来, 这样就将声音的空间信息完全保留了下来。它的录制格式仍然是双声道的,回放 系统简单,而且在使用耳机回放时基本能够完全还原原始声场,是效果最好的立 体声系统。但是使用假人头录音比较复杂,成本比较高,因此纯粹使用这种方法 的音频节目比较少。 而随着d s p 技术的进步和h r r f 的深入研究,可以在音乐节目录制的混音阶 段通过职r f 处理来模拟假人头录音,因此目前这种头相关立体声录音技术应用 也逐渐广泛起来。 2 4 移动便携平台上立体声音频的特点及不足 前面介绍了目前的几种立体声音频技术,具体到移动便携平台上,由于受到 体积和容量的限制,一般使用的是双声道立体声系统。而从音频内容上说,主要 是使用声压差原理制作的双声道音乐节目,因此它具有传统双声道立体声系统的 先天不足。 同时移动便携平台一般使用耳机回放,这使得声场信息进一步损失,根据立 体声定位正弦定理,它的声场范围只有两耳之间的范围,从而会造成头中定位效 应,所以必须专门针对耳机回放的特点对3 d 音效增强算法进行研究。而且对于 移动便携平台来说,计算能力和功耗也对系统的有一定限制,算法设计必须考虑 到复杂度问题,这也是移动便携平台上三维音效增强算法需要解决的问题。 第三章入耳空间听觉与如r t f 函数 9 第三章人耳空间听觉与h r t f 函数 这一章讨论作为虚拟立体声技术理论基础的人耳空间听觉的基本特性,并对 其中很重要的h r t f 函数做专门讨论。 人耳作为人的声音感觉器官有着极其复杂的生理结构,它不仅仅使人能够听 到声音的内容,感知声音的强度、音色、音调等信息,而且配合着大脑的声音信 号处理功能,还能够分辨出声源在三维空间中的位置,感觉到声音的空间信息, 这便是人耳的空间听觉( s p 拍a lh e a r i n g ) 特性 4 】。 3 1 人耳空间听觉特性 人耳之所以能够对声音进行定位,主要原因在于人耳是成对的,并且具有一 定的距离,而人的身体物理结构会使两耳听到的同一个音源发出的声音产生很小 的差异,大脑能够分辨出这种微小的差异,从而对声音进行定位。对这个过程起 作用的人体物理结构不光有双耳的距离,还有耳廓、头部、肩部等耳朵附近的人 体部位的形状、大小等等,其他部位的物理结构还有毛发、衣物等也会对这个过 程产生影响,但贡献是比较小的。实质上,在声音从音源到耳道的传播过程中, 身体的这些部位会对声波的传输产生滤波作用,正是这种滤波作用导致了声音变 化,从而提供了大部分的空间信息。 除此之外,环境的反射和折射等其他因素也是人耳能够对声源进行空间定位 的重要原因。下面几节将把人耳空间听觉特性分成五类进行研究。 3 1 1 双耳间效应 根据l o r dr a y l e i 班的d u p l 懿理论【习,最重要的两个人耳空间听觉因素就是 双耳间的时间差( r r d i n t c r 叭m lt i m e d i 虢r c e ) 和声压差( i l d i n t e r a l 珊h 胛e l d i f 断c c ) ,i 【,d 也被称为i i d ( h t e r a l l r a ln c n s 埘d i 丘柏l c e 双耳间强度差) 或 l 蛆( h t e r a u r a la m p l i t u d cd i f f e r c n c c 双耳间幅度差) 。可以想到,当一个声源偏 于头部的一侧时,由于双耳位于头部两侧,则声源到达两只耳朵的距离是不一样 的。传输距离的不同也就导致了到达两只耳朵的声波的传输时间的不同,离声源 较远的一只耳朵与另一只耳朵相比得到的延时更大,从而产生了双耳间的时间差。 而声压差就更复杂一些,声音在自由场中传输产生的衰减,在两耳之间产生的差 别并不大,但是由于头部散射对于声波传输有着明显的衰减作用,声音向离声源 1 0 移动便携平台三维音效增强技术的研究 较远的一只耳朵传输时会经过头部散射的衰减作用,而另一只耳朵则几乎直接接 收自由场传来的声波,因此会出现明显的声压差。同时,声波在传输进耳道之前, 还会经过躯干的反射、肩部的反射,以及耳廓的多次反射和衍射等其他作用,之 后才会进入耳道,这一系列的传输过程会使声波的频谱发生改变,这种频谱的变 化在双耳闻也有微小差异,为声源的定位提供了更丰富的信息。广义上讲,这种 双耳间频谱差异也应该属于玎l d 。最后,大脑通过这两个相对差值就可以估计出 声源相对于听者的角度。由于人与人之间都存在着生理差异,因此这些双耳间的 差信息也因人而异。 不同位置区域,定位的精确度也不同。般来说,最好的定位分辨率出现在 前方靠近中间的位置区域,最高可以达到l 度的精确度吲。 同时两种机制在不同的频段中的重要性也是不同的。在中、低频段( 大约低 于1 姗z ) ,双耳时间差r r d 是定位的主要因素;在当频率超过1 5 k h z 时,r r d 作 用逐渐减弱,而i l d 作用逐渐加强,在4 k h z 以下时r r d 和i u ) 还是共同起作用, 而在高于4 k h z 时则完全是i l d 起主要作用。这是因为当频率比较低时,即声波 波长还大于双耳间距离的时候,双耳间的时间差可以从信号的相位差中得到准确 的唯一值( 所以r r d 有时也可以用双耳间相位差口d 来代替) ,同时因为这时的 波长超过头部直径,声波会直接穿过头部,没有头部散射,因此衰减很小,在两 耳间的强度差很微小,因此玎l d 作用很不显著;而波长再长的话,从相位差中无 法得到个唯一的时间差,产生时间差混淆,只能与i l d 来配合进行定位,这时 的刀l d 由于波长的减小作用开始显著;当频率再增高时,短波长造成的头部散射 效应明显加剧,i l d 明显增加,而由于波形变化太快人耳已无法仔细分辨出相位 差异,使得i t d 基本失去了作用。这个明显的分界频率大概是在1 5 屯左右, 这是由人的双耳平均距离估算出来的。一个成年人的平均头部直径是2 1 厘米左 右,在l t d 最大的正侧方进行测量,得到延时为6 3 0 1 1 s ,这个周期长度对应着大 约1 5 硒 z 的频率【4 】。 通过上面的分析可以看到,由于在不同频段各种因素的作用大小不一样,而 很多时候人耳又必须依靠几种机制共同作用进行定位,因此对于窄带信号还是会 发生前后混淆或锥状混淆效应。譬如家庭影院的低音炮对摆放位置没有要求,就 是因为低频信号只有玎d 信息,人耳无法分辨其准确位置。 这是传统的r r d 和i l d 理论,后来通过对人的头部模型的研究发现,如果只 有上面的两个因素,理论上会产生所谓的锥状混淆现象的发生,如图3 1 所示。 可以清楚看到以双耳连线为轴线的这个圆锥面上各点到双耳的角度是相同 的,因此按照传统的l t d 和i l d 理论,双耳间到达时间和声压的差异是相同,从 而会会引起方位的混淆。而在实际生活中,人耳还是能够清楚的分辨出前后、上 下等位置。 第三章人耳空间听觉与期r t f 函数 3 1 2 单耳效应 图3 1 锥状混淆示意图 双耳差异效应已经被证明是人耳空间定位因素的最主要因素,但这种理论解 释不了锥状混淆现象。而且也注意到当声源位于中垂面上( 如图3 2 所示) 时, 它对于身体两侧是完全对称的,i t d 和i l d 都几乎没有,这时的双耳间效应就起 不了作用了。同时研究发现,一只耳朵失聪的人还是会具有一定的声音定位能力。 因此肯定存在一种不依赖于双耳间差值信号的单耳效应。 研究表明,肩部反射和耳廓多次反射使得信号频谱显著变化,对于单个耳朵, 这种声音频谱的变化也能被感知出来。不同方位频谱变化不同,根据特定的频谱, 人耳就能进行准确定位。单耳的这种机制是通过对直达声音与多次反射声音之间 的比较来实现的。试验证明,这种单耳效应是是提供前后信息和上下信息的重要 因素,在双耳差异比较弱的位置,也能帮助入耳进行准确的声音定位。 这种频谱变化主要体现在中、高频会产生明显的峰和谷。其中高频是耳廓频 谱效应显著作用的频段。这时由于信号在大于5 k h z 时波长已经可以与耳廓尺寸 相比,耳廓的衍射和多次反射作用明显。同时迸一步的研究发现,在 0 8 i ( 1 屯1 2 k h z 范围内肩部反射产生的频谱改变效应也最显著【6 】。在后面的对 h r t f 函数的讨论中可以看到这两种效应在频谱上产生的峰和谷。同样因为人体 差异,这种频谱变化也是因人而异的。 1 2 移动便携平台三维音效增强技术的研究 3 1 3 环境效应 图3 2 中垂面上的声音定位 除了方位感,人耳空间听觉还包括了距离感和环境感。对于距离感,主要的 因素就是声音的大小,从的实际的听音经验来看,声压高的声音一般会认为比较 近,而声压低的声音一般会感觉比较远。这是由于距离的增大,声波传输会有显 著的衰减,使到达人耳的声音大小随距离变化。但在没有参照的情况下,人耳是 无法得出与声音相比原始信号的衰减大小。同样,在较小的室内听音时,由于是 近场传播,声波的衰减不大,无法从声音的声强判断出距离。有试验表明,在消 音室无回响的情况下,很难判断出声音的距离,因此环境对声音的反射和折射对 距离判断起了很关键的作用。 很多研究表明,直达声音和经过听者周围物体表面反射和散射等作用后的声 音之间的强度之比是用来判断声源距离的重要因素。事实上,声音在自由场的传 播过程中,它的强度变化符合反平方律,也就是与声源间的距离每增加一倍,强 度就衰减6 d b ,这是直达声遵循的衰减规律。但是声波是向四面八方传播的,不 光有直接到达耳朵的声音,其他方向的声音由于环境的多次反射和散射等作用, 产生了大量的反射声和回响,可以称之为称为环境背景声,这些声音由于不断地 被周围环境继续反射和散射后再传播到耳朵离,因此总的能量衰减就比较慢,这 样就给直达声提供了一个参考声压,从而帮助人耳判断出距离川。图3 3 展示了 一般直达声和环境背景声的衰减曲线比较,可以看到距离越远,感觉到的环境声 相对更强,这与人们的实际经验是相符的。 第三章人耳空间听觉与h r t f 函数 1 3 勺 毯 暑 蹙 懈 f 一直达声衰减、? 弋 :环境背景声衰减才 。- - 。,。途 飞 专“-一 距离单位:英尺 图3 - 3 直达声和环境背景声的衰减示意图 同时由于距离的不同会导致反射声与直达声之间的时延不同,这个时延的大 小也可以帮助人耳对距离进行判断。 环境的反射声与回响另一个作用是帮助人耳营造环境感。因为不同的听音环 境,产生的反射声与回响是不同的。例如,体育场里的回晌时间和回响强度要比 一般室内的回响大的多,而且会有明显回声;同样是大回响,音乐厅和体育场的 环境背景声信号又明显不同;塞满东西的房子由于物体吸音作用明显,环境背景 声很短,又与直达声混作一团,因此很不明显,而空的房间,又可以听到明显的 反射声和回响。因此,环境背景声能够帮助人耳分辨出声音大概是来自何种环境。 3 1 4 其他因素 除了上述的几种主要因素之外,入耳空间听觉还有其他几种因素。 首先,有研究发现,人在进行声音定位时,有时会有非常微小的头部转动, 这种移动几乎是无法察觉的【s 】。这种情况一般发生在声音定位比较模糊的时候, 比如前后混淆的时候,头部的移动会使声源位置的相对位置移到定位更准确的区 域,从而进行精确定位。 1 4 移动便携平台三维音效增强技术的研究 其次,视觉对声源的定位也有一定的帮助,当声源可见的时候人们对声源的 定位更加准确【9 】。有一些虚拟立体声试验显示,在有图像伴随的情况下,会消除 一些声音定位上的混淆,并使声音感觉更加自然。 最后,还有人耳的学习效_ 应【9 】。试验表明,在多次聆听同一个声源都发生混 淆,必须转动头部来进行精确定位之后,实验者可以不必再转动头部对相同的声 源进行定位。另一些试验也表明,一只耳朵失聪的实验者相比堵住一只耳朵的正 常实验者,声音的定位更加准确。这都说明,入耳可以在不断学习中,改变对各 种定位因素的经验判断。 其他的还有对移动声源进行判断的多普勒频移效应等等。 3 1 5 多种因素的综合与多声源的情况 一般来说上面的各种听觉定位因素提供的信息是互相补充的,共同作用以实 现定位的精确。对于同一声源这些信息都是相互对应的,但有的时候这些信息会 发生冲突,或产生模糊,这时人的听觉系统会选择一致性好的、更可靠的信息而 忽略与其他信剧“。例如,在一个背景吵闹或者回响很大的听音环境里,附加的 声音或者反射声和回响会使到达耳朵的声音信号发生改变,这时就是低频的r r d 因素主导了声音的定位。因为此时的环境背景声比较大,使得声音频谱发生了改 变,频谱的差异已经变得不可靠,因此人耳就主要靠1 1 r d 信息进行定位。同时, 如果最开始到达的声音比较清楚,人耳会倾向于使用最先到达的声波r r d 信息确 定声音方位。这个效应被称为“h s 效应”或“领先效应叫“】。另一方面,在一 般的房间里用音箱听音乐,由于没有太大的回响和背景声干扰,人耳更倾向于使 用i l d 的频谱变化来进行定位,因为n d 反倒会产生一些定位模糊,如上下或前 后的混淆。 当同一场景有多个声源时,不同的声源有可能会被定为到同一个位置,或者 分离的真实位置,这取决于声源信号的相似性。 当两声源信号完全相同,或幅度和相位差不随频率变化而变化,就将其定义 为相似信号。两个声源发出的相似信号间的时延不超过1 m s 时,这时人耳会将其 感知为同一个声音事件,并将其定位在两个声源之间的某个位置上,这个位置被 称为“影子声源”或“虚拟声源”,它的具体位置是由两个声源的声压差决定的, 即更偏向声音大的声源。明显的例子就是在使用两个音箱播放完全相同的信号时, 会感觉声音是从两个音箱正中间发出的。因此这个规律被用在立体声技术中,使 用两个音箱回放来产生空间立体声场。当延时增大时,则会出现“h a 勰效应”, 两个信号同样被定位到同一个位置,即先到达耳朵的声源位置。再继续增大延时, 最终两个声源会被独立的感知到,分别进行定位。 第三章入耳空间听觉与h r t f 函数 1 5 对于非相似信号,人耳则可以对其进行精确的定位,并将各种声源分离开来。 典型的例子就是人们在剧场中听音乐会,能够清楚的分辨出各种乐器的位置。 3 。2 册函数 人耳空间听觉的大部分特性都可以用一个传输函数来集中表达,这个传输函 数被称为头相关传输函数( h e a dr e l a t e d 仃 m s f h 触c t i o n ) ,简称为h r t f 。h r t f 函数是人耳空间听觉的数学表达,研究人耳空间听觉特性,就可以转换为对h r t f 函数的研究。研究h r t f 不光在虚拟立体声技术中有很重要的应用,同时为立体 声录制、回放系统,以及立体声节目制作和立体声编码等技术的改进,发挥了很 重要的作用。 本节将介绍h r t f 的基本意义和获取方法,而对于它的使用则会在涉及到具 体算法的相关章节中详细讨论。 3 2 1h r t f 函数的含义 通过上一节的介绍已经知道,声源发出的声波经头部、耳廓、躯干等散射、 反射后到达双耳,使声音发生了变化,从而使人耳能够对其进行定位。这个物理 过程其实可视为一个线性时不变( l t i ) 的滤波系统,其特性可由系统的频域传输函 数完全描述。h r t f 就是这个声滤波系统的频域传输函数。在自由场的情况下, h r 限定义为 月j = 吼( ,口,妒,国,口) = 置( r ,口,p ,m ,4 ) 昂( r ,却 、 月j = 日月( ,口,妒,4 ) = 最( ,p ,伊,6 口) 昂( r ,妫 其中,、只分别是简谐点声源在倾听者左、右耳产生的复数声压。r 是人 头不存在时,头中心位置处的复数声压。一般情况下,日。、日。是声源的水平方 位角p 、仰角妒、声源到头中心的距离r 以及声波的角频率的函数( 对于远场, 即r 1 2 m 的情况,日p 日。基本上与r 无关) 。另外,由于不同人的头部、耳廓、 躯干等的尺寸和形状不同,因而严格来说每个人的h r t f 是不同的,也就是说 h r t f 是一个具有个性化特征的物理量。公式中口表示具有个性化特征的参量, 如头部的尺寸。 图3 4 是c 口i c 数据库中3 个不同的真人测得的h r t f 振幅谱曲线。从图中 可以看出不同人的h r t f 的个性化特征。而且对照上一节,还可以看到中、高频 明显的峰和谷,这些就是由于耳廓和双肩的散射和反射作用形成的。 1 8 移动便携平台三维音效增强技术的研究 图3 4 三个真人h l l = r f 幅频响应 h r t f 在时域的表述称为头相关脉冲响应( h e a dr e l a t e dh p u l s e r 嚣p o n s e - h r 取,也称为双耳脉冲响应) ,它与头相关传输函数h r t f 互为傅里叶 交换对: 驰胁仲去j 哪胍刚弦 ( 3 - 2 ) 绋( ,口,妒,f ,口) = 寺日r ( r ,口,伊,叻口弦埘出 岛、i 可推广为双耳( 或头相关) 房间脉冲响应( b i i l 卸r a l r o o mi n l p l l l s e r c s p o n b r q 。b r m 在h r 取包含的频谱、r r d 和i l d 等空间信息的基础上, 进一步又包含了环境的空间信息,几乎包含了所有的人耳空间定位信息。在本文 表述中,h r t f 只表示对应自由场h 矾的传输函数。 3 2 2h r t f 的获取 a _ 通过实验测量获取h 瑚r f 实验测量 i r l 陌一般指的是其时域形式h r 取。试验可对特定的人工头或真 人进行。前者得到的是特定( 平均) 的听觉模型情况下的h r t f 数据,不能反映 第三章人耳空间听觉与h r l 【下函数 1 7 h r t f 的个性化特征;后者虽然可以克服这个缺陷,但是真人在测量过程中容易 发生轻微的头部及身体的移动( 特别是在测量时间较长的情况下) ,这将破坏u i 的条件,带来测量误差。另外,在测量过程中真人可能会不自觉地产生一些噪声, 也会影响测量结果。 测量通常是在消声室中进行,被测对象位于坐标原点,扬声器布置在半径为, 的球面上。为简单起见,通常取, 1 2 m 的远场,这时h r l 陌近似与,无关。为了 测量不同空间方向的h i 册,需要改变扬声器与测量对象之间的相对位置,然后 进行重复测量。这可通过两种方法进行,或固定被测对象的位置,借助机械设备 改变扬声器的方位;或固定扬声器的位置,移动转椅改变被测对象的方位。当然 也有在空间不同方向布置多个相同的扬声器,每次选用一个扬声器进行测量。这 种方法较为复杂,并且扬声器对声波具有反射作用,这会影响测量的准确性。除 非不得以,消声室中应当尽量减少放置物。随着计算机应用的发展,目前头相关 传输函数的测量过程完全可以采用软件控制。测量中,扬声器产生测量信号,而 位于双耳处的传声器捡拾双耳声压信号。理想的测量信号应当具有平直的频谱特 性和低的峰值因子。伪随机信号与这种理想信号十分接近,所以测量信号多采用 伪随机信号。由于伪随机信号中的m l s ( 最大长度序列) 信号的自相关函数近似为 d 函数,所以通过将双耳声信号与原始的m l s 进行互相关计算即可得到双耳脉冲 响应。当然还需要对扬声器和传声器等的传输特性( 频率响应) 进行补偿,也可能 要采用平滑、滤波等方法消除噪声。 国外已有多个课题组对人类的h r t f 进行了测量,部分的数据库己在互联网 上公布。其中f l w i 曲锄髓等人在1 9 8 9 年对真人鼓膜处的h r l 下进行了测量, 并实现了三维虚拟声重发。而m r r 媒体实验室公布了对k e m a r 人工头的测量结 果。美国的a r a l g a z i 和r o d u d a 等人公布的c 碑i c 数据库包含了4 3 个真人的 测量结果。法国的g 、蚀d 锄o o t 等人公布的双c a m 数据库包括了5 1 个真人的测 量结果。日本的2 个课题组也分剐公布了9 6 个和3 个真人的测量结果。丹麦的 b p b o v b j e r g 等人对l l d e m a r 人工头进行了2 。高空间分辨率的测量【l “。以上 这些都是对远场( r 1 2 m ) 的测量结果。也有研究对近场( r ( 1 o m ) 的h i u 下进行了测 量。 实验测量获取h r f 的方法有许多不足。首先它需要消声室以及测量设备, 如果在普通房间进行,房间反射将制约着测量时间;其次,有一些方位的h r t f 很难准确测量,特别是仰角小于5 0 。的方向;最后,如果要得到个性化h i 汀f , 只有进行重复测量,而相应的工作量非常大。 b 通过计算获取h r t f 1 8 移动便携平台三维音效增强技术的研究 从物理角度上讲,计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育系统信息化技术测试题及解析
- 家庭沟通心理学自测题及答案分析报告
- 2025年防骗防网络诈骗知识考察试题及答案解析
- 2025年康复笔试操作考试题及答案
- 2025年起重机械安装维修人员实操考试试卷及答案解析
- 2025年金融合规管理知识考察试题及答案解析
- 2025年职业技能与技术应用知识考察试题及答案解析
- 2025年信息技术专员年底总结与2026年工作计划
- 康复医学科火灾应急预案演练脚本
- 2025年客户档案管理规范应用培训试卷及答案
- 2025年小学师德考试试题及答案
- 2025西藏华泰龙矿业开发有限公司招聘39人笔试历年典型考点题库附带答案详解试卷2套
- 2025年六西格玛绿带题库及答案
- 2025年河北石家庄市直事业单位公开选调工作人员173名考试笔试模拟试题及答案解析
- 公务接待礼仪及物资准备清单
- 2025年湖南娄底涟源市国家粮食储备有限责任公司招聘6名合同制员工笔试历年常考点试题专练附带答案详解试卷2套
- 全国大学生职业规划大赛《道路工程检测技术》专业生涯发展展示【高职(专科)】
- 2025高中英语3500词汇默写本
- 2025-2026学年八年级数学上学期第一次月考(苏科版第1-2章高效培优提升卷)(考试版A4)
- 感恩教育:“心怀感恩向阳而行”-2025-2026学年高中主题班会
- 2025年国家普通话水平测试试题45套
评论
0/150
提交评论