(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf_第1页
(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf_第2页
(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf_第3页
(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf_第4页
(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(信号与信息处理专业论文)基于空间感知信息的立体声编码.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 与传统立体声编码相比较,强度立体声编码可以有效地降低码率,但是强度立体声编码的局限 性在于,如果对整个带宽或者听觉声像较宽信号进行编码时,会产生令人难以接受的失真,双耳线 索编码( b i n a u a lc u ec o d i n g ) 克服了强度立体声编码的这一问题。 研究结果表明,人耳对听觉空间声像特性的感知很大程度取决于音频声道问声级差 ( i n t e r c h a n n e ll e v e ld i f f e r e n c e ,i c l d ) 、时间差( i n t e r - c h a n n e lt i m ed i f f e r e n c e ,i c 下d ) 和相关性 ( i n t e r c h a n n e lc o h e r e n c e ,i c c ) 。基于此原理,b c c 用一个单声道向下混和信号来表现立体声或者 多声道信号的波形信息,同时对i c l d 、l c ) 和i c c 进行估计,并把估计结果作为边信息传输到解码 器。解码器根据边信息,对传输的单声道信号进行综合处理,产生相应的立体声或者多声道输出信 号,同时保证输出音频信号与源音频信号声道间空间感知参数近似相同。由于b c c 边信息包含的信 息量远远小于源音频数据的信息量,因;电b c c 码率接近于单声道信号码率。本文对b c c 进行了探讨, 实现了低复杂度b c c 方案,主要包括: 】、 分析了i c l d 、i c t d 和i c c 对声像方位的影响,给出了估计方法和快速算法。 2 、 在借鉴他人工作的基础上,给出b c c 完整的编码方案。 3 、 重点讨论了低复杂度b c c 的实现,其中主要包括子带划分、和信号求取、卷积在s t f t 中的实现、空间感知参数的量化编码以及b c c 的解码算法等内容,实现了程序仿真,测 试结果较理想。实现的立体声信号有较强的空间感,失真小。 关键词:耳问时间差,耳间声级差,耳间相关性,声道间时间差,声道间声级差,声道间相关性 双耳线索编码 a b s t r a c t c o m p a r e dt ot r a d i t i o n a ls t e r e oc o d i n g ,i n t e n s i t ys t e r e oc o d i n gc a ns i g n i f i c a n t l yr e d u c et h eb i t r a t ef o r s t e r e oa n dm u l t i 。c h a n n e la u d i o h o w e v e r ,i tp r o d u c e ss i n t o l e r a b l ed i s t o r t i o n sc a no c c u ri fi n t e n s i t ys t e r e o c o d i n gi su s e df o ra u d i os i g n a l sw i t ht h ef u l lb a n d w i d t ho rw i d es p a t i a li m a g eb i n a u r a lc u ec o d i n g ( b c c ) c a no v e r c o m et h e s ep r o b l e m s r e s e a r c hi n d i c a t e st h a tt h eh u m a np e r c e p t i o no ft h ea u d i t o r ys p a t i mi m a g ei s l a r g e l yd e t e r m i n e db y i n t e r c h a n n e ll e v e ld i f f e r e n c e ,i n t e r - c h a n n e lt i m ed i f f e r e n c e ,a n di n t e r - c h a n n e lc o h e r e n c e b a s e do nt h i s p r i n c i p l e ,b c cr e p r e s e n t ss t e r e oa n dm u l t i - c h a n n e la u d i os i g n a l sw i t has i n g l ed o w n m i x e da u d i oc h a n n e l c o n t a i n i n gt h es i g n a lc o m p o n e n t so fa l li n p u ta u d i oc h a n n e l sa d d i t i o n a l l y ,b c ce s t i m a t e si c l d ,i c t d a n d1 c cb e t w e e nt h eo r i g i n a la u d i oc h a n n e l sa n dt r a n s m i t sp a r a m e t e r sa ss i d ei n f o r m a t i o nt ot h ed e c o d e r a c c o r d i n gt os i d ei n f o r m a t i o n ,t h ed e c o d e rg e n e r a t e st h ei c l d ,i c t da n di c ci nd e c o d e ra p p r o x i m a t e t h o s eo ft h eo r i g i n a la u d i os i g n a l s i n c et h es i d ei n f o r m a t i o nc o n t a i n sl e s si n f o r m a t i o nt h a nt h eo r i g i n a l a u d i oc h a n n e l ,t h eb i t r a t eo f b c ci sa sl o wa st h a to f m o n oa u d i oc o d i n g t h ec o n t e n to f t h i st h e s i sm a i n l y i n c l u d e st h ef o l l o w i n gp a r t s : 1 a n a l y z et h ei n f l u e n c et h a ti c l di c t da n di c ct oa u d i oi m a g e ,g i v e no u tt h e i re s t i m a t em e t h o d a n df a s ta r i t h m e t i c 2 r e f e r e n c et oo t h e r sw o r k ,p u tf o r w a r dt h ec o m p l e t e l yb c cs c h e m e 3d i s c u s sl o wc o m p l e x i t yb c ci n d e t a i l ,i n c l u d i n gs u b b a n d sd i v i s i o n ,s u ms i g n a la r i t h m e t i c , c o n v o l v i n gi nt h es t f td o m a i np e r c e p t u a lp a r a m e t e rq u a n t i z a t i o na n dc o d i n gb c c d e c o d i n ga r i t h m e t i c e t cp r o g r a ms i m u l a t i o ni si m p l e m e n t e d t e s t i n gr e s u l ti sg o o d i m p l e m e n t e d s t e r e oa u d i oh a v et h eb e t t e r s t r o n gs p a t i a ls e n s ea n d l o wd i s t o r t i o n k e yw o r d :i t d ,i l d ,i c ,1 c t d ,i c l d ,i c c ,b c c l i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生躲牲日期:型 关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或 部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:妻室照导师签名: 日期:2 0 0 6 0 3 第一章绪论 1 1 音频编码分类 第一章绪论 音频编码可以看作是改变音频信号表示形式的一种处理方法,通过这种处理,使音频信号更加适 合传输和存储,音频编码的主要目的是进行音频压缩。当前,虽然高容量的信道、网络和存储系统已 经可以实现,但是为了最小化传输或存储成本,或者在容量受限的信道中进行高效的数据传输,减小 音频信号的码率是非常必要的。音频编码按照压缩后的音频质量可以分为有损音频编码和无损音频编 码。 1 1 1 无损音频编码 无损音频编码是指在不降低音频质量的情况下对音频数据进行压缩的一种编码方式,解码后的 重构音频数据与原始音频采样数据完全相同,没有任何信息损失,实际聆听效果与编码前相同。常用 的无损音频编码是在时间或者时频变换中运用预测技术来去除音频信号中的冗余,实现压缩的目的。 对典型的c d 音频信号,无损编码可以实现2 :l 的压缩比。对更高采样率的音频信号,由于固有的冗 余增加,因此可以实现更高的压缩比,目前无损编码的最高压缩比可达到4 :1 。无损编码可广泛用于 高保真音频数据归档和网上高质量音频信号下载。 i i 2 有损音频编码 在大多数情况下,往往需要对音频数据进行高的压缩,如在无线通信传输中,由于带宽资源有限, 数据传输速率受到很大限制,就需要对传输数据进行很大程度的压缩。有损编码不追求完美的音频信 号重建,可实现高的数据压缩,它可提供1 2 :1 或者更高的压缩比。有损音频编码的方法很多,具有 代表性编码方案有:n h k 方式( n h k :日本广播协会) 、p a s c ( p r e c i s i o n a d a p u v e s u b b a n d c o d i a g k m u s i c a m ( m a s k i n g - p a t t e r na d a p t e d u n i v e r s a ls u b b a n d i n t e g r a t l e dc o d i n ga n dm u l t i p l e x i n g ) 、 a s p e c ( a u d i os p e c t r a lp e r c e p t u a le n t r o p yc o d i n g ) 、a t r a c ( a d a p t i v et r a n s f o r ma c o u s t i cc o d i n g ) 以及著 名的i s o i e cm p e g l - 2 4 系列和杜比a c 一2 - 3 等。感知音频编码是其中应用最为广泛的一项编码技 术。 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阀值电平,低于这个电平的音频信 号就变得不可闻,因此就可以把这部分信号忽略掉,无需对它进行编码,而不影响听觉效果。心理声 学模型中的另一个概念是听觉掩蔽效应。音频压缩算法同样可以建立这种特性的模型去除更多的冗余 数据。感知音频编码就是利用人耳的听觉感知特性,使用心理声学模型,将人耳不能感知的声音成分 去掉,只保留人耳能感知的声音成分;另外,也不味追求最小的量化噪声,只要量化噪声不被人耳 感知即可。这样,既实现了音频数据压缩的目的,又不影响解码端重建音频信号的主观听觉质量。 图l ,l 给出了典型的感知音频编码原理图。输入信号被分割为许多频域子带。感知模型对掩蔽阈 1 东南大学硕士学位论文 值进行计算。根据计算出的掩蔽阈值大小,对每一个子带信号进行量化和编码,为了达到最大的压缩 比,每个子带的量化噪声大小刚好控制在掩蔽阈值以下。 1 2 立体声编码 图1 1 感知音频编码器结构框图 比特流 随着技术的不断进步和人们生活水准的不断提高,消费者对声音质量和声音效果要求越来越高, 由此推动了立体声编码的快速发展。从单声道到双声道再到具有更强定位能力和空问效果的三维立体 声编码技术在不断地取得成功。当前最著名的立体声编码标准有i s o n e cm p e g 一2 b c - 2 a a c 和杜比 a c - 2 - 3 。同时电影行业也出现了一种数字剧院系统d t s ( d i g i t a l t h e a t e r s y s t e m s ) f l l ,可实现1 1 0 ,l 声道的立体声编码方式。 然而,立体声编码存在的最大挑战是巨大的数据量给存储和传输带来的压力。例如,对于c d 音 质的数字音频,所用的采样率为4 4 i k l - l z ,量化精度为1 6 b i t ,双声道立体声时,其码率 艮。= 2 r e = 1 4 1 1 m b s ,i 小时的c d 音乐大约需要6 3 5 m b 的存储空间,而c d 盘的容量一 般不会超过8 0 0 m b ,最大的重放时间一般为7 4 分钟。如果5 1 声道的音频格式 占,。= 5 1 r 只= 3 5 9 8 m b s ,1 小时的音乐需要1 6 2 g b 的存储空间,大大地超出了磁盘的存储 范围。为了减小数据量并且保持高的音频质量,许多音频编码器采用了强度立体声编码( i n t e n s i t y s t e r e o c o d i n g ) 和m s 立体声编码技术。下文对这二种编码技术作一介绍。 1 2 1m s 立体声编码 m s 编码历史悠久,在不同场合中,它有着不同的应用。如在美国调频立体声系统中,它被用于 捕捉声场( s o u n d f i e l d ) 。在音频编码中,它被用于控制编码噪声的声像。在噪声声像和信号声像中,随 频率和信号属性的不同,需要注意2 个问题:第一个问题为双耳掩蔽声级降低( b i n a u r a lm a s k i n gl e v e l d e p r e s s i o n ) ,也就是说,随信号和噪声的相位不同,低频信号( 2 k h zo t ) 的掩蔽门限的差别可达2 0 d b 。 另一个问题为短时信号或高音信号的高频声像。在这两种情况下,立体声信号的编码将比独立透明 2 第一章绪论 n s p a r e n t ) 编码需更多的比特数。通过合理使用m s 编码、l s 编码( 强度立体声编码) 和l r 编码( 左右 编码) ,就可以避免过高的立体声编码代价,同时解决噪声声像、控制信号声像的变化以及节省比特率。 图1 2 为m s 立体声编码模型。 时频b蚯 蟛曰 反 l 转换i m s 处m s l 时频i 理处 1 转换r1 匝 怔砸 理 图1 2 m s 立体声编解码模型 m s 立体声编码在口1 中首先被引入低码率编码。编码器使用了一个类似调频立体声传送技术的矩 阵操作,而解码器则使用了相应的逆矩阵操作,如图1 3 和图1 a 所示。和、差信号被处理,以取代传 送左、右信号。它们被称为中间( m ) 和旁边( s ) 声道。矩阵操作既可以在时域( 分析滤波器组之前) 、也 可以在频域( 分析滤波器组之后) 完成。若在时域进行矩阵操作,程序运行时要在普通双声道编码和 m s 编码之间进行切换,切换瞬间会产生咯哒声,因为分析合成滤波器组的时间延迟并不与样本块相 一致。如果矩阵操作在频域进行,则这一问题可以避免。m s 立体声编码可以看作是输入信号轴变换 的一种特殊形式”1 。 lm r x s c = 1 2 图1 3m s 矩阵 ml sx r 图1 4 逆m s 矩阵 m ,s 立体声处理的主要特征可以作如下描述: ( 1 ) 着重于去除冗余 m s 联合立体声编码着重于去除独立声道间信号的冗余。由于立体声非掩蔽效 直( s t e r e o u n m a s k i n ge f f e c t s ) ,对于双声道编码系统而言,信号类型通常很关键。最大编码增益是指两维信号的 3 东南大学硕士学位论文 轴变换的理论增益。 ( 2 ) 精确重建 m s 联合立体声编码中的矩阵操作是可逆的。如不考虑量化和编码,其处理是完全透明的。即使 在低码率情况下,这种技术也可不引入噪声。 ( 3 ) 码率的节省依赖于输入信号 m s 立体声编码的编码增益强烈依赖于实际信号。若左、右声道信号完全一样,则增益可达到近 5 0 。而另外一些情况下,由于逆向非掩蔽效应( r e v e r s e u n m a s k i n g e f f e c t ) 影响,以至于这种技术不能 使用。 ( 4 ) 对整个频谱范围均可用 由于m s 矩阵操作基本上保存了全部空间信息,它可应用于整个音频频谱范围,而不会有引入严 重噪声的危险。 1 2 2 强度立体声编码 料j r 一 t ,l - 、 。毒扩* 、 巍xl 。麓” t 。乡 、 i t 。 、 图i 5 编码前使用轴变换 在参考文献 4 1 中,谈及对立体声双声道的数据进行轴变换( a x i st r a n s f o r m ) ,而强度立体声编码正 来源于此。图1 5 可以作为这一方法的一个例子。如果绝大多数数据点集中在主轴( l ,) 附近,则在编码 之前通过将信号旋转一个角度,可提高编码增益。然而,对用“保真”立体声技术录制的音源而言, 这并不会产生明显的增益。 在大多数实际应用中调整了这一技术,在比特流中不传送与主轴正交的第二成分。因此,重建后 的左右信号只是幅值比例不一样,而相位信息完全一样。但是,通过乘一幅值比例的操作,可以完好 地保存原信号能量一时间包络。此技术与人耳听觉系统的感知机理是一致的,即高频的主要空间信息 由能量包络决定。 另个对参考文献【4 】所作的主要改进是,传送的信号来自于左右声道的和信号,而不是将左、右 信号均旋转。这进一步简化了程序,节省了轴变换的计算量。图1 6 描述了这样的强度立体声编解码 方法的信号处理过程。这一处理方法对每一比例因子频带( 即编码频率分区) 均独立展开。 4 第一章绪论 强度立体声编码的主要特性: ( 1 ) 着重于减少不相关性 对于“保真”立体声录制音源,强度立体声编码主要得益于高频处的不相关性。 ( 2 ) 不保存波形 由于信号的相位信息在传送过程中丢失了,因而总体说来原信号的波形无法保存。 ( 3 ) 节省5 0 的编码样本数据量 在应用强度立体声编码的频谱范围内,只需传送一个声道的频谱数据。 ( 4 ) 仅对高频范围有效。 强度立体声编码技术中利用的心理声学机理仅对高频范围适用( 高于6 k h z 左右) 。如将强度立体声 处理拓展到低频处,将会引起严重的人为噪声。 左声道比例因子 左声道 频域数据l 右声道 频域数据r 右声道比例因子 图1 6 强度立体声编解码方法的信号流程图 1 3 双耳线索编码b c c ( b i n a u r a lc u ec o d i n g ) 参数编码作为一种编码技术,已经在声音编码中得到了重要的应用。这种编码技术的优点是压缩 比高,但计算量大,重建音频信号的质量较差,自然度低,不适合于高保真度要求的场合,一般多用 于语音信号的压缩。随着技术的进步和人们认识水平的提高,近几年来,参数立体声编码技术已经在 许多国际会议上被提出来,有望成为强度立体声下一步的发展方向。本文的研究内容就是基于空间感 知线索的一种参数立体声编码方法b c c 。 1 3 1b c c 基本原理 对空间听觉研究发现,耳间声级差i l d ( i n t e r a u r a ll e v e ld i f f e r e n c e ) 、耳间时间差i t d ( i n t e r a u r a lt i m ed i f f e r e n c e ) 和耳间相关性i c ( i n t e r a u r a lc o h e r e n c e ) 对空间声像定位有着十 分重要的影响( 具体在第二章中介绍) 。对应于立体声或多声道信号分别为声道问声级差i c l d ( i n t e r - c h a n n el e v e ld i f f e r e n c e ) 、声道同时间差i c t d ( i n t e r - ( :h a n n e lt i m ed i f f e r e n c e ) 和声 道间相关性i c c ( i n t e r c h a n n e lc o h e r e n c e ) 。因此对立体声和多声道音频编码来说,可考虑从立体 声中抽取其重要的声道间空间线索,然后用这些空间线索来重建多声道立体声空间声像,这就是b c c , 5 东南大学硕士学位论文 b c c 的基本思想是分离多声道音频信号对应的空间感知线索和基本的音频内容,把多信道信号表示为 一个单声道音频信号和b c c 参数( i c l d 、i c t d 、i c c ) ,单声道信号仅仅是对所有声道信号求和( 具体 的求和方法在后面章节介绍) 。这样可用一个极低码率的编码器对b c c 参数进行编码压缩,形成边信息, 和信号也可用一个合适的低码率音频编码器进行编码压缩。最后,b c c 解码器利用和信号和边信息重 建出多声道立体声信号,重建的立体声具有强的空间定位感。b c c 基本原理如图1 7 所示”。 确( x ,如k x c 甜 向下混合 和倍号 1 鼍i c x l 芋l p s ( 园 综会i j _ r i a f di c l d t _ 边带信患 l i c c 估计 图1 7b c c 基本原理 i l 五( 功 图1 8 为一个b c c 综合方案,和信号通过滤波器组被转换到频域,时间延迟和声级差被加入到每 个输出声道的频谱系数中去,然后通过相关性综合处理重新引入音频声道间的相关性关系,最后,所有 的综合输出声道通过反滤波被转换回时域。 口1 馥) s ( 斥) 1 3 2b c c 的特点 图1 8b c c 综合方案 i l ( 力 毛( 国 砧 b c c 最大的特点就是提供极高的压缩比和任意声道的立体声形式,它可看作是强度立体声的进一 步发展,但是它又有强度立体声不具有的优点,具体有以下几点:强度立体声编码只对i c l d 进行综合, 因此仅对高频范围有效,如将强度立体声处理拓展到低频处,将会引起严重的噪声:而b c c 对i c l d 6 第一章绪论 和i c t d 进行综合,整个频谱范围内均有效,不会产生令人难以接受的噪声。另外强度立体声编码不 能重建具有宽度立体声声像的音频信号,而b c c 可以利用i c c 对其进行很好的重建。 1 3 3b c c 的应用 b c c 按照边信息来源不同,通常有两种编码方式:一种是自然恢复方式( n a t u r a lr e n d e r i n g ) : 另一种是灵活恢复方式( f l e x i b l er e n d e r i n g ) ( 后面章节将对此进行具体介绍) 。自然恢复方式可对 立体声和多声道音频信号进行压缩。提供极高的压缩比和多声道环绕格式。同时它还可与单声道格式 兼容,可广泛应用于无线电音频广播中,使单声道广播系统增强为立体声或多声道形式。 灵活恢复方式通常用于分离源信号编码,利用和信号和b c c 边信息,重放声音可呈现出人们习惯 的源听觉空问声像,就好像声源被分别地传输一样,可应用于电话会议和虚拟现实中。 ( 1 ) 电话会议 客户服务系统 图1 9 客户服务系统 编码台 ) 扬 声器信号 编码语 音信号 b c c 边 带信息 别的客户端 服务系统 客户端 别的客户 端的接收 a b c c 编码器 口 节阿 一la 卜一 li l 信号处理 ,一十o 图1 1 0 服务系统 b c c 边带信惠 编褐语音信号 编码扬声罄信号 、-llll、ii【 户入 客输 的晦 鄹端 东南大学硕士学位论文 圈1 9 是一个电话会议中的客户服务系统,由四部分组成:a 、c 为语音编码器;b 为b c c 解码器: d 为立体声回声消除器。图1 1 0 是电话会议中的服务系统,每个客户服务系统通过服务系统连接到别 的客户服务系统,a 和c 分别是语音解码器和编码器。 整个操作过程如下:从别的客户端输出的语音信号编码后送入b c c 编码器中,b c c 编码器把输入 信号转换为一个和信号和b c c 边带信息送入到接收者的客户服务系统,语音编码器对和信号进行编码 后送入b c c 解码器,解码器对和信号和b c c 边带信息进行综合,可得出“分离”的重建语音信号。 ( 2 ) 虚拟现实 在虚拟现实系统中,使用者希望视频图像和声音背景能够紧密融合,当视频图像移动时,声源位 置也相应发生变化,而且在虚拟现实中通常有多个声源背景,如果对这些声源背景进行单独存储和传 输,那么会产生巨大的数据量,这时可采用b c c 灵活恢复编码方式,用和信号和极低码率的边带信息 来重建所有不同方位的源背景声音,大大减少数据量。相似地,灵活恢复方式也可用于网络游戏中的 音频编码。实现低码率传输。 1 4 本文的内容安排 b c c 是一种新型的参数编码方法,由于其编码方案是建立在极少的参数( 空间感知线索) 基础上, 因此可以大大降低码率,适合于低码率音频编码,特别在多声道音频信号编码中具有很强的优势。当 前b c c 还处于研究阶段,一些技术还不够成熟。本文对b c c 的编码原理进行了系统介绍,重点对低复 杂度编码方案进行了研究,给出了相关算法,并实现了程序仿真,实验结果比较理想,获得的立体声 信号定位感强,质量较高。本文的内容安排如下: 第章绪论,通过对传统立体声编码的介绍引入b c c ,分析了b c c 的特点和应用。 第二章听觉空闻特性及空间感知参数的估计方法,介绍了i c e d 、i c t d 和i c c 对空间声像定位的 影响并对其算法进行了描述,给出了相关的快速算法,是b c c 编码的背景知识。 第三章双耳线索编码,介绍了常规的b c c 具体过程。 第四章低复杂度b c c ,利用f i l l 变换使b c c 编码算法的复杂度大大降低,取得了较好的实验结 果。 第五章全文总结。 8 第二章空间听觉特性及声像方向和宽度估计 第二章空间听觉特性及声像方向和宽度估计 b c c 探讨的是空间音频编码,基本思想是提取立体声或多声道信号中的空问感知参数,在解码时运 用该参数在人耳中重建出与声源对应的空间听觉声像。因此,人的空间听觉特性是b c c 研究的一项重要 内容。本章在对空闻听觉特性讨论的基础上,提出了b c c 编码方案中听觉空闻声像的方向和宽度估计方 法,并给出了相关参数估计的快速算法。 2 1 空间听觉特性 与人眼对视频图像的感知相似,人耳能够感知到听觉空间声像。听觉空间声像往往是由一些不同 的对象组成,称之为听觉事件。例如,对音乐演奏来说,听觉事件就是人们听到的正在演奏的各个乐 器。当立体声或者多声道音频信号重放时,各个听觉事件会在人耳中产生一个完整的听觉空间声像。 本节将对人耳听觉系统对听觉空间声像的感知特性进行探讨 2 1 1 单声源空间听觉方向感知特性 ( 1 ) i t d 、i l l ) 、i c 及声源方向定位 心理声学研究结果表明,对声源定位最重要的依据是两耳之间声音信号的差别,通常用耳间时间 差和耳问声级差两个概念来描述这种差别。由于双耳间存在一定的距离,因此从声源到达双耳中的声 音信号在路程上存在着一个差别,称为双耳接收信号的路程差用d 表示。如图2 1 所示。d 可表示 为声源方位角由的函数: 、s d = k s i n 西k = 2 l c m 2 一d l 图2 。l 正弦法则示意 这就是人们熟知的“正弦法则”。这里k 指的是双耳之间的距离,因为头部周围曲线路径的影响,k 值 的选择往往大于两耳之间的实际距离。由于到达左右耳的声音信号存在着路程差,因此也存在着一个 9 东南大学硕士学位论文 时间差,称为耳间时间差i t d ( i n t e r a u r a lt i m ed i f f e r e n c e ) 。 正弦法则忽略了头部阴影等因素的影响,也就是说没有考虑头、躯干和耳廓的衍射、折射及共振效 应对双耳接收信号的影响,这些影响因素使左右耳的接收信号强度存在差异,称为耳间声级差i l d ( i n t e r a u r a ll e v e ld i f f e r e n c e ) ,有些文献用耳问强度差l i d ( i n t e r a u r a li n t e n s i t yd i f f e r e n c e ) 或耳间幅度差i a d ( i n t e r a u r a la m p l i t u d ed i f f e r e n c e ) 表示。i l d 表示如果声源在听者的左方,那么 到达左耳的声音信号强度比到达右耳的声音信号强度高”。 i t d 和i l d 是反映耳接收信号特性的两个重要参数,它们不仅和声源方向由有关,而且与声源信号 的特性( 声波频率) 有关。但是实验证明,如果在频域内考虑这两个参数,那么可以近似地认为声源 方向单独决定i t d 和i l d 。 i t d 和i l d 提供了听觉系统关于声源方向的信息,听觉系统可依据它们对声源方向进行定位“7 “”, 下面将对此进行讨论。为了使问题更加简单,用两个耳机信号来模拟双耳接收信号,图2 2 为产生左右 耳机接收信号e - ( n ) 和e 。( 1 1 ) 的实验设置,其中s ( n ) 是声源信号。d l 和d :为延迟器,a l 和赴为声音信号强 度调制因子。这时i t d = d 2 - d 。,i l d :a d a l ,用d b 表示为2 0 l o g ,。( 赴a ,) 。 s ( 挖) 图2 2 耳机接收信号产生设置 图2 3 为两个耳机信号不同i t d 和i l d 对应的感知听觉事件。当i t d 、i l d = o 对,听觉事件出现在听者 左右耳中间位置,更精确地说,出现在听者头部上半部分前面区域的中心位置,如图2 4 ( a ) 区域1 所示。 如果增加边的耳机信号强度值,那么听觉事件将向相同的方向移动,例如增加右耳机的信号强度值, 听觉事件会向右侧移动,如图2 3 ( a ) 区域2 所示。在极端情况下,当右耳机信号为0 时,这时听觉事件出 现在其能够到达的左侧极端位置如图2 3 ( a ) 区域3 所示。同样i t d 也可用来类似对听觉事件位置进行 控制。 i t d 和i l d 相互作用通常用经典的双工理论( d u p l e xt h e o r y ) 理论来刻画,即在低频时i t d 起主要作 用,在高频时i l d 起主要作用。一般来说,对频率小于i k h z 信号i t d 的作用比较明显,两当频率大于1 5 k h z 时i l d 起主要作用,对于3 0 0 h z 附近的过渡频率范围i t d 和l e d 都很难发挥作用。对i t d 而言。它是基于频 率特性而产生两耳信号时间上的差异,因为听觉系统所感知的其实是耳间的相位差i p d ( i n t e r a u r a l 1 0 第二章空同听觉特性及声像方向和宽度估计 p h a s ed i f f e r e n c e s ) 。所以i t d 实际上通过i p d 起作用。1 。图2 4 所示是不同频率正弦波的i t d 与i p d 的 关系。a 、b 是频率低于8 0 0 h z 的正弦信号在两耳间产生的i p d 。由于其半波长大于两耳间的距离,所以 人的听觉系统很容易感知这种相位差并判别其相对关系。而当频率大于1 6 k h z 时。其波长小于两耳间 距。此时将会产生i p d 的判决模糊。如图2 4 的c ,d 所示,人耳无法辨别是c 的相位超前还是d 的相位超 前,因此i t d 将不再有明显的作用。 f a ) ( b ) 图2 3 不同的i t d 、i l d 和i c 对应的感知听觉事件 l 一一”k 一一 a 、 b,一“、 d 、 cn 豫气a 蠡 nn nn 删! i。uu vvu0v 图2 4i t d 与i p d 但是最近的研究表明可以利用高频信号幅度包络的时间差信息来进行声源定位。这种i t 咆络的作 用是基于听觉系统能够从幅度包络的开始部分提取时差信号而不是从包络内波形的时间上提取。幅度 包络信号的频率( 例如调幅频率) 比包络内信号的频率( 载频) 低得多。听觉系统在两耳提取高频分 量的整个幅度包络,对包络到达左右耳的时间差进行比较。 i l d 对高频信号起主要作用是因为高频信号的衰减特性。假设有一个右方的声源,在它传至左耳的 路径中,除了空气的吸收外,人的头部就相当于一个障碍物,高频信号将因此被衰减,并且随着频率 的增加衰减也越来越大。在方位角9 0 度时,3 1 ( i z 的正弦波衰减约l o d b ,6 k h z 的正弦波衰减约为2 0 d b , l l 东南大学硕士学位论文 l o k h z i e 弦波的衰减达到约3 5 d b 。而当频率低于约l k h z 时,声波波长大于人的头部宽度,声波将产生所 谓的“头部衍射”而沿着头部表面弯曲,从而绕过了这一遮挡物,使得声音信号传到左耳的强度比右 耳没有衰减或衰减很小,因此i l d 的作用很不明显了。 i t d 和i l d 对空间声源定位的作用是有限的,主要表现在2 个方面:其一是距离定位的不准确性。因 为声源距离虽然会影响到人耳听到声音的延时和强度,但对耳间时间差及强度差却没有太大作用。其 二就是我们通常所说的“锥面模糊”现象“。i t d 和i l d 在左右方向上的定位作用是非常明显的,但对 前后以及上下方向的定位却容易产生混淆,例如在图2 5 所示的圆锥面上,处于同一水平面的a 点和b 点到两耳的路径是对称的,位于这两点上的声源在两耳间引起的i t d 和i l d 也会是相同的,因此将产生 声源位置判断时前后的不准确性;同样地,对位于同一垂直平面内的x 和y 点上的声源,它们两耳的路 径也是对称的,如果仅用玎d 和i l d 来判断的话,则将会出现上下方向的判断模糊。当然这只是理论上 的情况,对于实际的人体来说,这几个点上的i t d ,i l d 不可能完全样,除非头部是一个圆球并且将 不对称性、面部因素和耳廓的影响排除在外。但当在两个位置的i t d 、i l d 非常相似时,正如上面的情 况,如果没有其它空间因素存在就很可能出现判断的混淆。 x 图2 5 锥面模糊 y b 另一个描述耳接收声音信号特性的是双耳接听信号的相似度,用耳间相关性i c ( i n t e r a u r a l c o h e r e n c e ) 来表示。i c 定义为规格化互相关函数的最大绝对值3 : ,1 二o o k :o + d 1 见2 峄彦i 菰蒜 这里延迟d 在i m s - 范m 内,i c 在0 和1 范围内。i c = i 意味着两声音信号是相同的( 声音信号的缩放比 例和延迟相同) ,i c 2 0 意味着两个声音信号是独立的。i c 也可以被定义为互相关函数的最大数量值,值 在l 之间。一1 意味着信号是相同的只不过相位反向。 当同一个声音信号( i c 2 1 ) 送入到图2 z 的两个耳机中时,听觉系统感知到的是一个相对压缩的感知 听觉事件,如图2 3 ( b ) 区域1 所示。当i c 发生变化时,听觉事件的宽度随着i c 的减小而增加,直到两个 1 2 第二章空问听觉特性及声像方向和宽度估计 明显的听觉事件出现在头部两侧“”“,如图2 4 ( b ) 区域2 、3 、4 所示。 综上所述:通过对i t d 和i l d 进行选择可以控制感知听觉事件的位置移动同时听觉事件的宽度和 i c 有关,但是1 1 1 ) 和i l d 对听觉事件方位的作用是有限的。 ( 2 ) h r t f s 及声源方向定位 单纯的i t d 和i l d 存在着“锥面模糊”的局限性。因此为了准确判定声源位置,还必须考虑到心理 声学的另一个要素,即接收声源的谱结构。谱结构是影响空间听觉的一个非常重要的因素1 ,因为声 音在人耳内引起的是耳膜基于其声波频率的振动。 如果把从声源到达耳膜之前的传输路径看成一个滤波器的话。这一滤波器的频率响应就包含了所 需要的谱结构信息,这一频率响应就是所谓的“与头相关的传递函数”。从心理声学的角度来说,h r t f 是综合了i t d ,i l d 和谱结构特性的声源定位模型:从物理声学的角度来说,h r t f 则是由人体结构特性 决定的声源位置的函数,也即是相应传输路径的响应,它可以看成是一频域衰减及相位延迟器“。 人耳的听觉特性决定了听觉响应实际上是基于频谱的响应,h r t f 中包含了人体结构对声音信号的 频率响应,人体的各个部位对不同频率的信号有着不同的响应。这些响应有些是有方向性的,如躯干, 头肩和耳廓,耳腔的反射以及头部衍射:有些是无方向的,如耳腔的回响和耳道、耳膜的阻抗。h i ( f f 是耳道中声信号与自由声场中声信号的付里叶变换之比。h r t f 的谱特征反映在它们的谷点频率和峰点 频率上,某些谷点频率与蜂点频率随着声源方向的改变而改变。 h r t f 是声源位置尤其是声源方向的函数”。不同的声源方向对应不同的h r t f s ,对于距离可以认 为它只与频谱能量有关,即能量与距离平方成反比关系,实际上声源距离对h r t f 的谱结构也有影响。 当声波在媒质传播时,由于媒质对不同频率信号的衰减情况不同,一般而言,高频信号衰减总是比较 大一些,所以远距离传来的信号中高频分量能量较低,相应h i ( r f 的高频部分幅度也要降低一些。 同时h r t f 是一个不对称的函数。h r t f 无论在左右,前后还是上下方向上其谱结构都是有差别的, 声源同侧的h r t f 脉冲响应的强度明显大于声源背面的h r t f 脉冲响应的强度,而且声源同侧h 肼f 脉冲响 应的波形较声源背面的波形也要复杂,即起伏变化剧烈,在频谱特性上袁出高频分量要充足些,这是 由于人体对声音信号响应具有方向性所造成的,数据在高频处至少有一较深的谷点频率。当声源由低 纬度向高纬度移动时,谷点的频率也向高频移动。这些都是h i r r f 包含的重要方位信息。h r t f 中包含的 这种有方向性的频率响应,使得它成为一个在各个方向上都不对称的函数。因此,用h r t f 定位可以解 决i t d 、i l d 的锥面模糊问题。 h r t f s 最大的缺点是它具有很强的个体性,不同人具有不同的h r t f s 。当前的h i r f f s 都是基于固定人 体模型的测量值,那么获取的结果实质上是一个近似值,因此利用h r i t s 来对声源方向进行定位在实际 应用中并不可靠,主要应用在对声源方向定位要求不高的场合中,如虚拟现实中。i i r t f s 另一个局限性 是基于自由声场条件下的测量值,没有充分考虑反射信号的影响。 除了上面介绍的声源定位信息外,听觉系统用来对声源进行定位的信息还有:头部移动线索( h e a d m o v e m e n tc u e s ) 、视觉线索( v i s u a lc u e s ) “”。本文不包含对这些信息的讨论,因为对扬声器音 频重放系统来说,这些信息会随扬声器的摆放位置自动地加入到耳接收信号中去。 东南大学硕士学位论文 2 1 2 两个声源的空间听觉方向感知特性 ( 1 ) 两个相关声源的方向定位 研究两个相关声源的空间听觉特性具有很强的实用价值,因为可以把立体声重放系统的两个扬声 器信号看作两个相关声源。同样。多声道扬声器系统的情况与此类似。 i t d 、i l d i u i c 描述的是双耳中接收信号的特性,两个相关的立体声扬声器信号也有与此相似的特 性,因此为了区别,后者用i c t d ( 声道间时间差,i n t e r c h a n n e lt i m e d i f f e r e n c e ) 、i c l d ( 声道间 声级差,i n t e r c h a n n e ll e v e ld i f f e r e n c e ) 和i c e ( 声道问相关性,i n t e r - c h a n n e lc o h e r e n c e ) 表 示。对耳机重放系统而言,i t d 、i l l 3 、i c 和i c r d 、i c l d 、i c e 是相同的。 念、 、 、 、 、一, ( a ) j ; ii 。 l i、 , , 、 7、 、 、 、一一一一, ( b ) 图2 6 不同的i c t d 、i c l d 和i c e 对应的感知听觉事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论