(信号与信息处理专业论文)双声道三维虚拟声系统的研究与实现.pdf_第1页
(信号与信息处理专业论文)双声道三维虚拟声系统的研究与实现.pdf_第2页
(信号与信息处理专业论文)双声道三维虚拟声系统的研究与实现.pdf_第3页
(信号与信息处理专业论文)双声道三维虚拟声系统的研究与实现.pdf_第4页
(信号与信息处理专业论文)双声道三维虚拟声系统的研究与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着多媒体与数字信号处理技术的发展,以及听觉心理学、生理学研究的深入,各种数 字音效处理系统的性能得到不断提到,其中最具代表性的当属杜比( d o l b y ) 实验室提出的 多通路环绕声系统以及s r s 公司开发的虚拟环绕立体声系统。为了较为全面地反映声场的 空间信息,多数环绕声系统都是多通路系统,这类系统对设备安装、调试的要求很高。基于 双声道的三维虚拟声系统虽然空间声场信息不如多声道系统丰富,但对输入要求低且回放设 备简单,因而有着广阔的发展空间。本文通过相关研究提出了双声道三维虚拟声系统的方案 设计及软件实现。 本文首先分析s r s 公司的双声道三维虚拟声系统,研究了三维虚拟听觉空间特性、音 频信号的双声道特性,在此基础上提出了基于音箱与耳机两种回放设备的双声道三维虚拟声 系统的设计方案,并且利用v c 进行软件实现,测试结果表明了该双声道三维虚拟声系统的 可行性、有效性。 论文的内容主要包括以下几个部分: ( 1 ) 详细分析了三维音效技术,特别是双声道三维虚拟声技术,简要阐述了虚拟 听觉空间技术在不同领域的应用。 ( 2 )分析了加州大学戴维斯分校图像处理和集成计算中心( c i p i c ) 的与头相关 传递函数( 玎f ) ,基于人体参数与h r t f 的关系,对h r t f 数据进行个人 化处理。 ( 3 ) 研究了双声道三维虚拟声生成算法,基于音箱和耳机两种重放设备,提出了 双声道三维虚拟声系统的设计方案,并通过软件实现,同时给出算法的复杂 度分析和性能测试结果。 ( 4 ) 总结论文工作并简要介绍了双声道三维虚拟声系统的发展前景。 关键字:双声道三维虚拟声,与头相关传递菡数,与头相关脉冲响应函数。快速傅里叶变 换有限长单位脉冲响应,无限长单位脉冲响应。混响多元线性回归 a b s t r a c t w i t ht h ed e v e l o p m e n to f m u l t i m e d i a a n dd i g i t a ls i g n a lp r o c e s s i n gt e c h n i q u ea n dt h ef u r t h e r r e s e a r c ho nh u m a np h y s i o l o g i c a la n dp s y c h o l o g i c a la u d i t o r ys y s t e m ,t h ea u d i oq u a l i t yo fa l lk i n d s o fd i g i t a ls o u n de f f e c tp r o c e s s i n gs y s t e m si m p r o v er a p i d l y a m o n gt h e m ,t h em u l t i c h a n n e l s u r r o u n ds o u n ds y s t e ma n dv i r t u a ls u r r o u n ds o u n ds y s t e md e v e l o p e db yd o l b yl a ba n ds r s c o m p a n yr e s p e c t i v e l ya r et h er e p r e s e n t a t i v ee x a m p l e s m o s ts u r r o u n ds y s t e m sa r em u l t i c h a n n e i s y s t e m s ,t h e r e f o r e ,e q u i p m e n ti n s t a l l a t i o na n dm a n i p u l a t i o nr e q u i r e m e n t sa r eh i g h 3 dv i r t u a l s o u n ds y s t e mw h i c hd e a l sw i t ht w oc h a n n e ls i g n a l sh a sw i d e ra p p l i c a t i o n s u c hs y s t e mi s i n v e s t i g a t e da n dr e a l i z e di nt h i sp a p e r t h ed u a lc h a n n e l3 dv i r t u a ls o u n dt e c h n i q u eo fs r sc o m p a n yi sf i r s t l ya n a l y z e di nt h i s p a p e r t h e n ,3 dv i r t u a ls o u n dt e c h n i q u ea n dd u a lc h a n n e ls o u n ds i g n a l s c h a r a c t e ra r es t u d i e d o n a b o v ew o r k , t h ed u a lc h a n n e l3 dv i r t u a ls o u n ds y s t e m sa r ed e s i g n e db a s e do ns p e a k e ra n d h e a d p h o n e f i n a l l y , t h er e a l i z a t i o ns o f t w a r ei sd e v e l o p e db a s e do i lv cc o m p i l i n gs y s t e m , a n d r e l e v a n tt e s t sa n da n a l y s i sw e r eg i v e ni nt h i sp a p e r t h em a i nc o n t e n t so ft h i sp a p e ra r ca sf o l l o w s : ( 1 ) v i r t u a ls u r r o u n ds y s t e mi sa n a l y z e d , e s p e c i a l l y ;d u a lc h a n n e l3 dv i r t u a ls o u n d t e c h n i q u e a l s o ,t h ea p p l i c a t i o n so fs u c ha u d i os y s t e ma r ei n t r o d u c e d ( 2 ) r e l e v a n td a t aa b o u th e a dr e l a t e dt r a n s f e rf u n c t i o n ( h 甲) f r o mc e n t e rf o r i m a g ep r o c e s s i n ga n di n t e g r a t e dc o m p u t i n g ( c i p i c ) a r ea n a l y z e d t h eh r t f s p e r s o n a l i z a t i o na l g o r i t h mb a s e do nt h er e l a t i o n s h i pb e t w e e nh r t fa n db o d y p a r a m e t e r si sp r o p o s e d ( 3 ) b a s e do nl o u d s p e a k e ra n dh e a d p h o n e ,d u a lc h a n n e l3 dv i r t u a ls o u n ds y s t e m s a l g o r i t h mi sd e s i g n e da n dr e l e v a n ts o l , w a r e sa r ed e v e l o p e d a l s ot h ea l g o r i t h m s c o m p l e x i t ya n d t e s tr e s u l t sa na n a l y z e d ( 4 ) t h ef u t u r ew o r ko ft h ed u a lc h a n n e l3 dv i r t u a ls o u n ds y s t e mi si n t r o d u c e da tl a s t k e yw o r d s :d u a lc h a n n e l3 dv i r t u a ls o u n d ,h e a dr e l a t e dt r a n s f e rf u n c t i o n ( h r t f ) ,h e a d r e l a t e di m p u l s er e s p o n s e ( h r i r ) ,f a s tf o u r i e rt r a n s f o r m ( f f d ,f i n i t ei m p u l s er e s p o n s e ( f i r ) , i n f i n i t ei m p u l s er e s p o n s e ( i i r ) ,r e v e r b e r a t i o n ,m u l t i p l el i n e a rr e g r e s s i o n i l l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果 尽我所知。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意 研究生签名:差丝塾! 造 日期:兰翠:! :三查 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电 子信息形式刊登) 授权东南大学研究生院办理。 研究生魏丝亟导师虢弛期:业谚 第1 章绪论 第1 章绪论 从空间听觉的角度上看,影院系统有着非常好的三维立体声场,它对声音的回放效果, 具有强烈的空间感,包围感和沉浸感,让人产生“身临其境”的感受。环绕声技术就是根据 人耳听觉特性以及空间声场的环绕特性,在听众四周设置若干音箱来模拟真实环境中的声信 号,从而提供高质量的听音效果。 随着科学技术日新月异的高速发展,人们生活水平的大幅度提高,人们已经不再满足于 必须到影院才能获得的三维空间听觉享受是否能通过简单的耳机或双声道音箱等播放设备 获得与影院系统甚至是真实声场相同的听觉效果,已成为界内炙手可热的研究课题,随之发 展起来的虚拟听觉空间( v a s ,v i r t u a l a u d i os p a c e ) 技术已经受到了越来越多的关注 1 1 空间听觉心理学 空间听觉是听觉系统对声音信息的一种生理和心理反应环绕声技术和虚拟听觉空间技 术都是在基于人耳听觉生理及心理特性研究的基础上发展而来的。人耳会对声场中的声信号 进行滤波,从而可以在嘈杂的环境中分辨出并获取自己感兴趣的声音通常称之为“鸡尾 酒效应”,同时可以通过听到的声音信息对声场特性与声源位置做出大致的判断下面我们 将从听觉心理学角度对空间听觉特性做出简要的分析。 1 1 1 优先效应 到达双耳声信号的延迟不同,带来的听觉效果亦不尽相同。两个强度相等的声信号,在 传递的过程中,其中一路信号经过一定的延迟。使得二者并未同时到达人耳。如果延迟时间 在3 0 m s 以下,听觉上将感到声音只来自未经延迟的声源。当延迟时间为3 0 0 m s 时,听觉 上可以感受到延迟声的存在,但仍感到声音来自未经延迟的声源。在这种情况下,延迟声只 是加强了声音的响度,使声音的音色变得更丰满。当延迟时间超过5 0 m s 时听觉上将会感 到延迟声成为一个清晰的回声。将这种由不同延迟带来的听觉效应称作“优先效应”也称为 “h a s s 效应”实际上优先效应也可以解释在混响条件下,人耳依然能够准确判断直达声 方位的这一现象 1 1 2 双耳效应 如果声音来自听者的正前方,此时由于声源到左、右耳的距离相等,声波到达左、右耳 无时间差,此时听觉系统感受到的声音是来自听者的正前方如果声音来自听者的某一侧 此时声源到左、右耳的距离不相等,左、右耳接收声信号的时间存在差异即产生耳问时间差 ( i t d ,i n t e r a u r a lt i m ed i f f e r e n c e ) ,同时由于人头的遮蔽效应,使得声源有一部分声信号 无法到达与声源异侧的耳朵,从而导致左、右耳接收声信号的强弱存在差异,即有一定的耳 东南大学硕士学位论文 间声强差( i i d ,i n t e r a u r a li n t e n s i t yd i f f e r e n c e ) 根据i t d 和i i d ,听者可以判断声源的相对方 向和距离,这就是所谓的“双耳效应” 双耳通过声信号获得声源的空间信息的过程中,i t d 与i i d 起着重要的作用。频率低于 1 6 k h z 的声信号波长与人体左、右耳的距离参数处于相同的数量级,听者通过一个周期内, 相继到达左、右耳的音频信号的时间差来判断声源方位。随着信号频率的增大,到达两耳音 频信号的周期逐渐缩短,尤其对于频率超过4 k h z 的音频信号,很难通过i t d 来判断声源的空 间位置。此时我们可以通过到达左、右耳的声音强度的差异来判定声源的方位。实际上,低 频声信号定位时,i t d 起着主导作用,而在较高频段,声信号定位主要由l i d 起作用。则主 要由i i d 起作用图1 1 给出了i t d 。l i d 作用的具体频段。双耳效应明确指出i t d 和1 d 是听觉 定位极为重要的两条线索。 低频段 高频段 1 5 k h z 1 6 k h z4 1 d i z6 l ( h z 图1 1i t d 、h i ) 对双耳定位起作用的主要频段 然而双耳效应也存在一定的不足:它只能解决前方水平方向上的虚拟声源定位问题,而 无法解决三维空间的声音定位。如果在听者右前方和右后方对称位置上有两个相同的音源, 根据“双耳效应”原理,这两个音源在双耳处产生的时间差和强度差是完全相同的,聆听者 不可能辨别出这两个音源的前后位置,即出现所谓的“锥面模糊”现象。然而,事实上人耳 却又的确能够很容易地分辨出前、后音源的方向,这就说明人耳在对声信号的空间信息感知 过程中,除双耳效应外还受到其他多方面因素的影响。 1 1 3 耳廓效应 双耳效应不能全面解释三维空间声音定位的原因在于将复杂的人耳结构简化为两个耳 洞,完全忽略了外耳( 耳廓) 对声波的滤波作用。同时人们发现,只用单耳也可以获得较好 的声源定位,这主要与耳廓的特殊结构有关【3 1 。 人耳耳廓的形状很特别,它是一种不对称的结构。当声波到达耳廓时,一部分声音直接 进入耳道,另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向和能量不同,反射 波和直达波之间在不同的频率上产生不同的时间差和相位差,使得反射波和直达波在鼓膜处 形成一种与声源方位有关的频谱特性,听觉神经据此来判断声源的空间方位我们将由耳廓 作用而产生的声源定位线索称为“耳廓效应”,或“单耳效应” 耳廓效应理论说明,听觉系统对不同方向的声音频谱进行了不同频段的增强或衰减,在 功能上相当于一个与声音方向有关的滤波器。实际上除了耳廓声信号频谱还受头、肩、躯 干等影响。人体的不同部分影响着声波的不同频段。在o 5 k h z 1 6 k h z 的声信号会受到头 2 第1 章绪论 部结构特性的影响,耳廓影响2 k h z 1 4 k l - i z 的音频信号耳道共振以及耳膜阻抗作用影响 3 k h z 1 8 k l - i z 的音频信号。具体的人体结构对音频频段的影响如图1 2 所示 图1 - 2 不同人体结构对音频频段的影响 1 1 4 与头相关传递函数h r t f 声波在从声源到双耳的传输过程中会受到耳廓、头、躯干等的滤波作用,用统一的传递 函数表示,称之为与头相关传递函数h r t f ,对应的时域形式为与头相关脉冲响应( h r i r , h e a dr e l a t e di m p u l s e r e s p o n s e ) 。根据h r t f 数据可以获取1 t d 、l i d 以及头耳。肩躯干等 对声信号影响的听觉线索。 在虚拟听觉空间技术中,h r t f 技术是目前使用最多、也是最受关注的主要技术。为得 到相应的传输参数,需要对h r i r 数据进行测量。目前有很多研究部门基于不同测试环境与 测试对象,利用不同的测试音源。获得相应的h r t f 数据库 目前对h r i r 数据进行测量的研究部门主要有:加州大学戴维斯分校图像处理和集成计 算中心( c i p i c ,c e n t e rf o ri m a g ep r o c e s s i n ga n di n t e g r a t e dc o m p u t i n g ) 、麻省理工学院( m i t , m a s s a c h u s e t t si n s t i t u t eo ft e c h n o l o g y ) 的媒体实验室、威斯康星大学m a d i s o n 分校神经生理 系实验室、n a s a 的a m e s 研究中心、澳大利亚悉尼大学a u d i t o r y n e u m s c i e n c e 实验室、法 国i r c a m 和a k g 共同组成的l i s t e n 课题组、日本名古屋大学i t a k u z a 实验室、华南理工 大学应用物理系、日本s u z u k i y 实验室、东北大学和s h i m i z u 公司的技术研究所共同组成的 课题组等。以上机构测量的h r t f 数据库有的已经在互联网公布,供学术研究甚至允许商业 使用。 目前已有很多企业利用h r t f 技术,对声信号进行相应的算法处理,获得了极好的虚拟 听觉空间音效。c r e a t i v e 公司以及a u r e a l 公司等均开发了自己的h r t f 算法,并集成于自己 的芯片中。另外像s e n s a u r a3 d 和q s o u n d 等公司也开发出了先进的h r t f 算法应用于不同 的芯片上 声信号在自然环境中传播时,除了受到人体结构的滤波作用外,声源所处的环境也会影 响声波的传播特性,因此人耳可以利用接收的声信号,对声场特性做出大致的判断。 1 2 反射声、混响 声源发出的声信号除直接到达双耳外,还会受到物理空间中不同边界的反射作用。不同 3 东南大学硕士学位论文 反射声的组合使听觉系统产生对周围听觉环境的一种综合的整体印象,即所谓的“空间感” 随着时间的增长,反射声强度变弱,且大量不同方向上的反射声相互叠加,使听者感觉声音 来自四面八方,即产生“包围感”。 现在我们对时域上不同时段、不同特性的声信号做一较为简单的定义。在非消声室环境 下录制的声信号如图1 3 所示。图中延迟最小幅度最大声信号为直达声( d i r e c ts o u n d ) , 紧接着的声信号是声波在距离听者最近的物体上反射而得来称为早期反射声( e a r l y r e f l e c t i o n s ) ,简称为反射声,具有明显的方向性之后的一段密集的声信号是由声波经过 周围物体的多次反射后叠加而来,称为后期反射( l a t er e f l e c t i o n s ) ,又叫做后期混响( l a t e r e v e r b e r a t i o n ) 。简称为混响,由于是混响是大量不同方位反射声的叠加因此没有方向性。 直达声、反射声和混响的具体空间声场分布如图1 4 所示 直达声反射声混响 图1 3 非消声室内声音成分简图1 4 空间声场分布图 早期反射与混响只是相对的称呼,它们之间并没有明确的界线。一般将反射声能量衰减 到直达声能量的6 0 d b 以下时视作混响。反射声和混响可以反映声场信息。可以通过在某一 位置的混响声与直达声能量之比( 刚d ) 来反映声场空间的大小。r d 提供了丰富的距离信 息。在一个封闭环境中,离声源越远,直达声越弱,而混响声基本不变,因j 琏且d 为判断距 离的辅助信息 在介绍了空间听觉心理学和空间声场特性的相关理论后,下面将简单介绍基于以上理论 的环绕声技术 1 3 环绕声技术简介 环绕声技术通过声音录制、算法处理及设备回放等来获得对真实空间声场的模拟,实现 对空间声场信息的记录、传输与重发,为听者带来一种“身临其境”的听觉感受。 在两个完全相同的声场中,听音效果相同的。在两个不同的声场中,听者也可以得到相 似甚至是相同的空间听觉效果。最熟知的例子是双扬声器实验:当听者正前方有单一声源( 扬 声器) 发声时,听觉系统感觉到声音来自正前方而把相同的信号馈给听者前方一对左、右 对称布置的扬声器时,听觉系统也会感觉到声音来自正前方,而不是左、右两个扬声器。很 明显,从物理角度上看,两种情况的声场是不同的,但从生理和心理声学的角度上,这两种 4 第l 章绪论 情况却带来相同的空间听觉印象。对于后一种情况,声音来自正前方的感觉是由于听觉上的 错觉引起的,通常把这种错觉引起的定位称为“虚声像”,简称“声像”【2 6 1 因此,可以 通过这种虚拟声像的方式来实现环绕音效的设计。 为实现环绕音效,可以利用空间中不同位置的麦克风对声信号进行捡拾,然后利用环绕 在听者周围的若干个扬声器发出相应的声波,在听者双耳处声场叠加。可以产生类似于真实 空间中某方向的声源在双耳处产生的声场信息。从而在听觉系统中合成相应的声像。最为广 大用户熟知的多通路环绕声系统杜比( d o l b y ) 5 1 系统的设计原理就是基于上述方案。 下面我们将对环绕声技术的产生、发展以及现状作简单的介绍: ( 1 )在2 0 世纪7 0 年代初,国外大力发展了一系列用于纯音乐重发的四通路立体 声系统。系统采用4 个重发扬声器,按正方形分别布置在水平左前、右前、 左后、右后的方向上( 见图1 5a ) 由于在当时的( 模拟) 技术条件下,记 录和传输四通路的信号较为复杂,所以就提出采用各种4 2 - 4 矩阵编码的方 法,将4 通路信号转换成两个通路记录并传输,重发时再利用矩阵译码的方 法还原成4 通路信号具体实现流程见图1 - 6 由于四通路系统在设计上忽 略了人类听觉的一些生理、心理上的因素,缺乏听觉上重要的声音方向信息, 因而没有得到广泛应用。 ( 2 ) 2 0 世纪7 0 年代中期d o l b y 实验室推出了用于公众影院的四通路环绕声系统。 这种系统考虑到电影声重发中,系统对前方声像的稳定性要求较高,并要有 大的听音区域,因而在信号的原始捡拾和最后重发中,采用了前方左、中、 右三个通路( 见图1 5b ) ,用模拟声场和听觉错觉相结合的方法,来产生和 图像相匹配的声像效果至于侧向和后方,主要是重发环境声并不要求准 确定位。因而可舍弃一些声音的空间信息仅采用一路环绕通路。并将这通 路的信号馈给影院两侧和后方的一系列环绕扬声器进行重发,直接利用听觉 错觉的方法,产生一种听觉上的包围感 ( 3 )2 0 世纪8 0 年代中后期开始,人们开展了新一代环绕声系统的研究杜比实 验室在9 0 年代发展了数字式5 1 声道的杜比a c 3 ( d o l b ys u r r o u n da u d i o c o d i n g 3 ) 系统,系统采用前方左l 、中c 、右r 三个独立通路和相应的重 发扬声器,用于定位并稳定前方声像。环绕声部分则采用两路独立的通路信 号,即左环绕l s 和右环绕r s ,用以重发环境声,给听者带来一种听觉上的 包围感( 图1 5c ) 。另外该系统还有一路可选择的独立的低频效果通路( l e f 0 1 通路) ,它是一个低频扬声器。一般布置在前方。以重发f 1 4 m 时,风,基本上与,无关) ,并 且与头部等效尺寸口以及头和耳廓的形状有关。n 和靠分别是简谐点声源所产生的在左、 右耳道入口处的复数声压振幅;而尸。是人头不存在时,头中心位置的复数声压振幅。式( 2 2 ) 对应的时域形式为: f 易( f ) = n o f ) p o ( f ) d r 【b ( f ) = h , ( t - f ) p 0 ( f ) 出 式( 2 3 ) 中小写字母代表时域物理量, ( 2 3 ) 与式( 2 2 ) 相应的物理量互为傅里叶变换,j i l ,例、j i l 制即 包含环境反射的声传输系统可当作线性系统来处理,因此式( 2 3 ) n - - 丁推广到存在反射声的 情况这时h l ( o 、所例除包含直达声的空间信息外,还包含反射声带来的有关周围声学空间 自大学 位论文 环境的信息针对室内声学环境的情况我们可以将啊、坼m 称为双耳房间脉冲响应“ 从整体功能上说。i - 琅t f 可以认为是描述声波从声源到左、右耳道传输通路的传递函教, 反映了头,肩,外耳耳廓等人体结构对声波的滤波作用对于一般声卡录制的音频信号,经 过h r t f 处理后可“很好的反映出这段声音的方向性与空同盛。是实现虚拟听觉空间三维音 效的重要因素。 基于h r t f 技术的虚拟三维音效处理过程如圈2 - 1 所示z 表示单声道音源信号,r 。 u 分别表示左、右耳收听的到声信号lh r t f ,rh r t f 表示声信号从音源位置到职耳 传输路径的传递函数( 即h r t f ) 左、右耳接收信号的频域特性可表示为: f yl = x x lh r t f i yr = x x rh r t f 。 i 图2 - 1 声谭定位过程 可以简单的认为人耳听到的声信号y 、耻是声源j 经滤波器艉陌、r h r t f 滤 波的结果园此在进行虚拟声像定位时,只需将该段声信号经过对应方位的h r t f 滤波器即 可 2 2h r i r 数据的测量 h r i r 的测量工作相当繁琐和细致,需要有专门的测量环境与专用的测量设各,包括亍肖 声室、高精度音箱、性能良好的传感器与数据采集系统等。用来测量的激励信号由听者周围 的音箱产生,为了使获得的 珉i r 反映整个听觉空间的特性常常要求听者坐在一张旋转椅 子上或是坐在被上百个音箱包围的一个固定位置上以便测量不同方向上足够数目的 m 皿。 目前如u r 数据测量的研究部门主要有:加州大学戴维斯分校图像处理和集成计算中心 ( c i p i c c 衙f 0 t1 曲g ep 眦枷b 盘n di n t e g r a t e dc o m p u t i n g ) 、麻省理工学院( m i t , m 搦a c h u s c 啦i n s t i l u ko f t e c h n o l o g y ) 的媒体实验室、戚斯康星大学m a d i s o n 分檀神经生理 系实验室、n a s a 的a m e s 研究中心、澳大利亚悉尼大学a u d i t o r y n e u r o s e i e e 实验室、法 国i r c a m 和a k g 共同组成的l i s t e n 课题组、日本名古屋大学1 b k 啪实验室、华南理工 第2 i - l r t f # * * 大学应用物理系、日本s l l z u k i y 实验室、东北大学和s h i m i z u 公司的技术研究所共同组成的 谭题组等。咀上机构测量的h r t f 数据库有的已经在互联网公布供学术研究甚至允许商业 使用 在具体的b r i r 测量过程中为提高测试的准确度可以利用一些具有特殊性质的信号 进行测量。目前经常使用的作为激励的信号有:单脉冲信号、m i t 使用的蛀大长序列( m l s , m a x i m u m l g m s e q u 既c e ) c i p i c 的格雷( g o l a y ) 码、时域延展脉冲信号( a s p , t i m e s t r e t c h p u l s e ) 以及扫频信号( s w e e ps l 肼a 1 ) 等。 h r t f 数据是通过在人耳耳道中放置特制的麦克风采集并通过相应的教据处理得到。测 量时将探针式壶克风放在耳道中的某个位置为了表示简单,图2 - 2 给出了人耳结构和测 点的大致位置。目前壹克风的放置位置有两种选择:一种是将麦克风放在耳廓与耳道的连接 处如圈2 - 2 中的a 点( c i p i c 的h r i r 测量位置) ;一种是将麦克风放在耳道中接近鼓膜 的地方如图2 - 2 中的b 点( m i t ,a r s 研究中心等使用的耐量位置) 。后一种方 圭铡量 的结果包含了耳道效应,与方位无关测量次即可。 圄2 - 2 人耳结构及阳氓的测点位置示意图 在所有h r i r 数据库中,c i p i c 测量的h r i r 信息b 经由网络发布,可以公开使用,同时迁台 有相应测试对象的若干人体参数等必要的辅助信息内容较为全面。本文的使用的h r t f 及个 人化算法参数均是来自c i p i c 的测量数据。下面以假人头( k e m a r ) 的h r i r 测量为例介绍c i p i c 数据的测量环境”1 。 图2 - 3 c i p i c 的k e m a r h r i r 测量环境 如图2 3 所示,实验是在具有隔音效果的房间中进行,所有的测量对象位于半径为1 m 的 东南大学靴论文 球面中心,两耳的对稚中心位于球面坐标系的璋心处声海在球面移动实验中没有束缚测 量对象头部的位置测量对象能够自己调节,如果头部发生较小的移动可以通过耳问时问差 的突然变化橙舅出来当观察到有明显的频谱陡变时,这个数据集将被丢弃测量对象的耳 道柱堵塞起来在耳道入口处用探针式壹克风接收传输过来的声信号详细的测量方法见参 考文献【4 】 2 3c i p i c 测量参数介绍 c w l c 利用4 5 十铡试对象其中:男2 7 、女】6 、假人2 ( 大耳、小耳) 剥量i m m 的同时记录了对应测量对象的人体参披测量得到的不同方向h p d r 的空问分布如图2 4 圈2 4 不同方向m l m 的援零点坐标表示 依腻田2 4 的坐标显示,对于水平的经度方向,甩方位角口表示,定义正前方为0 , - 9 0 表示直接对准左耳的位置而如。表示直接对准右耳的位置从- 9 0 到9 0 有2 5 十方位舟垂直的纬度方向用伸角p 表示。定义赤道面为0 头顶为9 0 从4 5 ( 听 者的前下方) 到2 3 06 2 5 ( 听者的后下方) 以步臣5 6 2 5 。增加测量值的采样频率为 4 4 1 k k ,共有2 0 0 个采样时间点测量时通过控制时同宽度减步了房间反射的影响,井耐 m m 鼓据中扬声器和麦克风的嗓声影响进行了朴偿 c i p i c 的测量数据的具体存储结构见脚2 - 5 圈2 - 5 c l p i c 测量参数的具体存储 第2 章h 盯f 数据分析 2 3 1c i p i c a 体参皴简介 c i p l c 蛤出的4 5 十涮试对象中,m 为2 , 3 ,5 , 6 3 ,8 ,1 0 , 4 2 的8 个a i 试对象的 体参觳不可 知故只有3 7 十潮试对象的人体参数这些人体参教包括包括头、肩、耳的尺寸等具体 说明见表2 1 ,对应的人体部位见阻2 - 6 最2 1 件参敏变量的具体说明 x l 头宽( h e a dw i d t h ) x 1 5 坐高( s e a t e dh e i g h t ) x 2 头高度( h e a dh e i g h t ) x 1 6 头周长( h e a dc i r c u m f e r e n c e ) x 3 头深度( h e a dd e p t h ) x 1 7 肩周长( s h o u l d e r c i r c u m f e r e n c e l x 4 耳廓往下偏移量( p i n n ao f f s e t d l 外耳腔高度( c a v u mc o n c h ah e i g h t ) d o w n ) x 5 耳廓往后偏移量( p i n n ao f f s e t d 2 耳甲艇高度( c y m b ac o n c h ah e i g h t ) b a 啪 x 6 颈宽( n e c k w i d t h l d 3 外耳腔宽度( c a v u r nc o n c h aw i d 帅 x 7 颈高( n e c kh e i g h t ) d 4 耳窝高度( f o s s ah e i g h t ) x 8 颈深( n e c k d e p t h ) d 5 外耳高度( p i n n ah e i g h t ) x 9 躯体宽( t o r s ot o pw i d t h ) d 6 外耳宽度( p i n n aw i d t h ) x l o 躯体高( t o r s ot o ph e i g h t ) d 7 耳屏间切迹宽( i n t e d r a g a li n c i s u m w i d t h ) x l l 躯体深( t o r s ot o pd e p t h ) d 8 外耳腔深度( c a v l j mc o n c h ad e p t h ) x 1 2 肩宽( s h o u l d e r w i d t h ) e t 耳廓旋转角( p i n n am t o o na n g l e ) x 1 3头部前向偏移量( h 明d o f f s e t 岛耳廓张角( p i n n aa r ea n g l e l f o r w a r d ) x 1 4 身高( h e i g h t ) 即2 - 6 不同人体参教的具体位置 i 5 江岔 东南大学 论文 2 32 假人头( k e m a , r ) 玎如r 数据 c i v i c 假人头测量的h r i r 参数包括水平面数据( k e l t l a r _ h 彻n ) 和中垂面数据 ( k e m a rh o d z o n h l ) 每组数据叉包括假人头使用太耳、小耳进行音频信号捡拾所获得的 皿其中中垂面从4 5 到2 3 06 2 5 。间隔2 8 1 2 5 。若9 9 方位,水平方位自正前方0 。 位置开始,绕顺时针方向。从0 到3 5 5 。间隔5 ,共7 2 个方位 2 33c i i d i c 真人1 w , m 数据 c i p i c 测量了4 3 个真 的h r i r 数据测量的方位角为以两耳中点位置为0 。,左为负 右为正自左向右依次为:8 0 ,一6 5 。,- 5 54 ,4 5 。到4 5 以5 。作为间隔然后是对称的 5 5 ,6 5 。8 0 共2 5 十方向测量的仰角为以正前方为0 。向下为负,向上、后方为正, 从4 5 。开始,间隔56 2 5 到2 3 06 2 5 。共5 0 个方向由此可见根据图2 0 ,将所有方位角 与仰角组合便可以得到空间上1 2 5 0 个方位的h r i r 数据。 利用c i p i c 实验室提供的基于m a t l a b 的程序界面可阻很方便的分析不同测试对象, 不同方向上的i t d 、皿左、右耳的i 玎m 和h r t f 波形及其在所有仰角方位上分布的获 度图,具体显示界面如图2 7 所示 一f p i g e a sj d i c 。日 。5 , 黻 一 一- 3 i = = 二 a 1 云i = 而矗鬲r 一 当坚三二目n o 嘲鼍j 螭二:。,j c ;* - d 舅端一d 舞冒。誉嵫蕊器羁壁整躲矗丧盛桶 踟鼬匝盘髓翔鞠商菇蕊酝砸面画蕊面稿蕊a o o 黝湍雨量蚕夏基暑叠露叠 图2 7 c i p i c 提供的h r i r 相关参数波形显示界面 匣2 - 7 中左佣四个灰度图表示某涮试对象( s u b j e c t0 0 3 ) 在方位角为4 5 时所有仰角 方向上左、右耳的卸王t 及h r t f 波彤图。右侧a 图表示方位角为4 55 时,测试对象在所 有仰角位置上的i t d ,b 图为( 8 卉气 。,0 ) 的h r ,其中幅值较小的蓝色曲线表示左耳 的m 皿幅值较大且波动明显的红色曲线表示右耳吼i r c 、d 图分别表示左,右耳的 h p t f ,其中红色实线表示( 8 p 卜( 4 s 。,o 。) 址的h r t f 波形,两条蓝色虚线表示相邻仰角上 第2 章h r t f 数据分析 的h r t f 波形。根据c 、d 图可知,不同方位的h r t f 波形不同,但相邻方位的h r t f 曲线 走向相似 由图2 7 可见:l 球在不同仰角上的灰度图具有l i d 及i t d 特征;h r t f 有明显的峰 值点和谷值点,一般认为谷点频率对定位起关键作用。仰角9 0 。方位附近的h r i r 在时间 起点上有一定延迟,这是由于耳廓对后方声波的遮掩效应引起。表现在频域上是h r t f 谷点 有明显差异,而且后方的i - i r t f 频率衰减( 尤其是高频部分) 较大。 2 3 4h r t f 数据特性分析 h r t f 是与人体结构特性相关的声源到听者传输路径上的系统响应函数。可以看成是一 个频率衰减和相位延迟器。经实验测量获得的h r t f 数据一般具有以下特性: ( 1 ) h r t f 中的波谷信息是由于头、肩、耳廓、耳道等对声信号反射叠加相消造 成,是听觉定位的重要信息。 ( 2 )耳廓效应引起的频谱差别较小,故人耳对声源定位仍有一定程度的模糊,人 的自然听觉之所以很少出错是由于一方面视觉帮助,另一方面头部移动辅助 定位效果。由此仅简单的利用h r t f 进行虚拟声源定位实验,定位效果本身 便会具有一定的模糊性。目前定位误差最小可限制在1 5 。范围内 ( 3 )一般h r i r 在消声室中测得,仅反映从声源到听者耳膜的直达声传输函数而 没有考虑到实际听音环境中的早期反射声和后期混响声,故使用i i r i r 数据 作用于声信号进行定位时会产生头中效应。 ( 4 )c i p i c 的h r i r 均是在半径为l m 的圆周位置处测量获得,没有考虑到距离不 同对h r i r 数据造成的影响因为一般媒质对高频信号的衰减较大故远距 离信号中,高频分量会更少,相应h r t f 高频部分幅度也会更低根据这一 特性对h r t f 不同频段幅值加权调整,同时减小整段信号的能量便会获得不 同距离上音频信息的模拟。 ( 5 ) h r t f 数据与具体测试对象密切相关,不同测试对象的h r t f 数据各不相同。 理想状况下,针对不同的听音对象,应使用对应的h r t f 数据进行虚拟音效 处理,然而这是不现实的现在大多数情况下,使用的是非个人化的h r t f 数据,非个人化h r t f 数据可以通过假人头的相关测量获取,也可以是对大 量测试对象h r t f 数据进行平均。然而非个人化的数据毕竟没有针对性,用 于声源定位时不但精度低而且在垂直方向上的定位效果差,因此我们将在下 一节中提出h r t f 的个人化方法。 2 4h r t f 数据的个人化处理 h r t f 数据的个人化处理过程为:将已有的i - i r i r 数据进行快速傅里叶变换( f f t ) 得 1 7 东南大学硕士学位论文 到h r t f ,然后对h r t f 的幅频响应进行个性提取,通过主分量分析( p c a ,p r i n c i p a l c o m p o n e n t a n a l y s i s ) ,得到最能反映频谱能量的若干数据( 根据文献【6 】本文取1 2 个主分量 数据,便可以将误差控制在o 0 5 以内) ,最后利用基于最小二乘法的多元线性回归参数估计 【】得到h r t f 主分量和主要人体参数之间关系的变换矩阵。 根据输入的人体参数,利用上述变换矩阵依此逆推便可以得到h r t f 幅频相应,利用希 尔伯特( i - i i l b e r t ) 变换得到h r i r 的最小相位重构。 2 4 1h r t f 个人化的流程 根据h r t f 幅频响应与人体参数的关系,通过基于最小二乘法的多元线性回归参数估计 得到二者的转换矩阵,将该矩阵作用于测试对象的人体参数,得到h r t f 的幅频响应,然后 通过最小相位重构,即可获得个人化的i - i r i r 。h r m 个人化的具体流程分析见图2 8 i 谤x 茹i :谢。二i j w i 菇埘黼k 瓣:磊;:狮晶二i 脚艺i 通i 溺 h r 爪 :利用最小相位重 h l n 下, z 孵 j h r 卫u 0 1 1 - 2 【 j d t f - h r i f6喧矗l o g 二n _ i j f p t f - 阱 j丌l f f f j x = , p 哺一卜q w tq f r f p “ w ( 主元向量) i i 1 i w = f w1 w d d - di df 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论