已阅读5页,还剩58页未读, 继续免费阅读
(信号与信息处理专业论文)参数立体声编码的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 立体声编码可以将立体声音频信号压缩,使其所占存储空间与带宽降低,以便高效 地存储和传输。与传统的立体声编码技术相比,参数立体声编码可以在不降低音质的前 提下,获得更高的编码增益。 参数立体声编码的理论基础是空间听觉,编码时将原立体声信号用单声道信号和空 间参数来表达,解码时再进行相反的操作。还原声场中声音的基本信息由单声道信号反 映,各个声像的位置和尺寸等信息则由空间参数控制,因此参数的选取在参数立体声编 码技术占有重要的地位。 本文通过对空间听觉理论的系统研究,分析得出合适的空间参数,并以此为依据建 立参数立体声编码模型。从当前的空间听觉研究成果来看,本文所建模型涵盖了所有可 用的空间参数,其他所谓的新参数本质上均可由所列参数衍生得到。目前已有的参数立 体声编码技术,均符合本文所建模型。 在给出编码模型后,本文研究了模型的实现,详细地介绍了编解码的具体细节。在 剖析了典型参数立体声编码的基础上,本文探索了可能的改进方法,提出一种码流分层 结构,采用这一结构可以得到变速率的编码算法。 针对现有参数立体声存在的问题,本文提出了几个新的空间参数,并根据这些参数 设计了基于f f t 的编解码方案。最后对这一方案进行m u s h r a 评分,测试结果表明, 该方案和a a c p l u sv 2 中的参数立体声性能相当,但在左右声道相关性较小时,本文方案 所得分值明显较高。 需要指出,本文所研究的参数立体声编码,实际上并不局限于声道数为2 的情况, 可以推广为多声道音频编码。 关键词:参数立体声;空间听觉;立体声编码;i c t d ;i c i d ;i c c 大连理工大学硕士学位论文 r e s e a r c ha n dr e a l i z a t i o no fp a r a m e t r i cs t e r e oc o d i n g a b s t r a c t t os t o r ea n dt r a n s m i ts t e r e oa u d i os i g n a l s s t e r e oc o d e c c o m p a r e dw i t ht r a d i t i o n a ls t e r e o h i g h e rc o d i n gg a i nw i t hs a m eq u a l i t y e f f i c i e n t l y ,t h e ys h o u l db ec o m p r e s s e db y c o d i n g ,p a r a m e t r i cs t e r e oc o d i n ge n s u r e s p a r a m e t r i cs t e r e oc o d i n gi sb a s e do ns p a t i a lh e a r i n g t h eo r i g i n a ls t e r e os i g n a l ,w h i c hi s r e p r e s e n t e db ym o n os i g n a la n ds p a t i a lp a r a m e t e r si ne n c o d e r ,c a nb es y n t h e s i z e di nd e c o d e r t h eb a s i ci n f o r m a t i o no ft h er e b u i l ts o u n df i e l di sd e r i v e df r o mm o n os i g n a l ,a n dt h ep r o p e r t y o fs p a t i a li m a g e si sc o n t r o l l e db ys p a t i a lp a r a m e t e r s h e n c ei t sv e r yi m p o r t a n tt oc h o o s et h e r i g h tp a r a m e t e r st oe n c o d ei np a r a m e t r i cs t e r e oc o d i n g w i t ht h o r o u g h l yr e s e a r c ho fs p a t i a lh e a r i n g ,p r o p e rp a r a m e t e r sa r ep r e s e n t e di nt h i s t h e s i s am o d e lo fp a r a m e t r i cs t e r e oc o d i n gi si n t r o d u c e du s i n gt h es e l e c t e dp a r a m e t e r s a l l k i n d so fp o s s i b l ep a r a m e t e r sa r ei n c l u d e di nt h em o d e l t h o s es o - c a l l e dn e wp a r a m e t e r sc a n a c t u a l l yb eo b t a i n e db yt h ep a r a m e t e r si nt h em o d e l i ts u i t sw e l lf o rt h ee x i s t i n gp a r a m e t r i c s t e r e oc o d i n ga l g o r i t h m s t h em o d e li sr e a l i z e d ,a n dt h ed e t a i l so fr e a l i z a t i o na r eg i v e n a f t e rt y p i c a la l g o r i t h mi s a n a l y z e d ,s o m ep o s s i b l em e t h o d st oi m p r o v ea r el i s t e d t h es c a l a b l eb i ts t r e a md e s c r i b e di n t h et h e s i se n a b l e sb i t r a t ev a r i a b l e t oo v e r c o m et h es h o r t c o m i n g so fe x i s t i n gp a r a m e t r i cs t e r e oc o d e r ,s o m en e w p a r a m e t e r s a r ep r e s e n t e d ac o d e ru s i n gt h e s ep a r a m e t e r si sd e s i g n e da n di t sb a s e do nf f t m u s h r a t e s t ss h o wt h a tt h ec o d e rh a sa l m o s tt h es a m ep e r f o r m a n c ea sa a c p l u sv 2 ,a n di t ss c o r ei s e v e nh i g h e rw h e nt h ec o h e r e n c eb e t w e e nc h a n n e l si sl o w t h ew o r ko ft h i st h e s i sc a r la l s ob ed e d i c a t e dt om u l t i c h a n n e la u d i oc o d i n g ,w h e r et h e n u m b e ro f c h a n n e l si sg r e a t e rt h a n2 k e yw o r d s :p a r a m e t r i cs t e r e o ;s p a t i a lh e a r i n g ;s t e r e oc o d i n g ;i c t d ;i c i d ;i c c f i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名: 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学硕士学位论文 1 绪论 1 。1应用背景 音频压缩编码能将音频信号压缩,使其占有更小的空间和带宽,以便更加高效地存 储和传输。在此基础上的多声道音频压缩编码,可以更逼真地还原自然声场,使听者获 得立体感和环绕感,得到身临其境的感受。 1 1 1 音频编码 音频压缩编码【l 】通常简称为音频编码,能将原始的音频数据用较少量的比特数来表 达,同时尽量保持原有的听觉感受。编码后的音频数据,所占空间和带宽都比编码前小, 更适合存储和传输。 一个高压缩率的音频编码算法,通常需要一个模型来支撑,如利用听觉掩蔽效应【1 2 的感知模型【l l 。目前的主流音频编码算法都使用了感知模型,其框图如图1 1 所示。此 类音频编码器又被称作感知音频编码器。 图1 1 典型音频编码框图 f i g 1 1 a t y p i c a lf r a m e w o r ko fa u d i oe n c o d e r 音频编码大体上可以分成两大类,即波形编码和参数编码。前者追求解码所得音频 信号在波形上和原始信号的逼近,这种逼近可以是时域或频域的;后者则强调音频信号 的参数表示,试图用一系列参数来表示原始的音频信号。相比之下,前者的压缩率较低, 但是在高比特率的情况下,解码音频信号的音质较好,而后者则在极低比特率( 通常指 低于3 2 k b p s ) 时性能较好。 目前,大部分基于波形编码的音频编码算法都使用感知模型。而基于参数编码的音 频编码算法大多遵从同一基本思想:将音频信号分解为几种音频对象,如瞬态音、正弦 参数立体声编码的研究与实现 波、谐波成分和嗓音等【3 ,4 1 。总体上看,目前主流的音频编码算法仍基于波形编码,并 且以感知音频编码为主。 1 1 2 多声道音频编码 在单声道音频编码的基础上,最简单的多声道编码方法,就是对每个声道都进行单 声道编码,如图1 2 所示。 图1 2多声道音频编码的简易实现 f i g 1 2 as i m p l ei m p l e m e n t a t i o no ft y p i c a lm u l t ic h a n n e la u d i oe n c o d e r 显然,图1 2 所示方法的压缩率并不高,码速率随声道数的增加线性增长。使用感 知音频编码时,还应修正感知模型以适应多声道场合,需考虑双耳掩蔽级差( b i n a u r a l m a s k i n gl e v e ld i f f e r e n c e ,b m l d l 5 】) o 实际上,多声道信号的各声道间具有冗余性,多声道音频编码算法可以利用这种冗 余性来提高压缩率。此外,在较高频段( 2 k h z 以上) 时,听觉系统对音频信号相位谱精 细结构的声道间差异并不敏感【6 】,因此在对此频段信号编码时,可以丢弃声道间相位差 异信息。 本文主要考虑声道数为2 的多声道音频编码,即立体声编码。立体声编码以单声道 音频编码为基础,可以充分利用现有研究成果。 单声道音频编码的具体实现不在本文探讨范围之内,但是完整的立体声编码算法必 须包括单声道音频编码。现有的各流行单声道音频编码器,可参考文献【7 9 。本文介绍 的立体声编码可以附加在任一现有的单声道音频编码算法之上,构成一个完整的立体声 编码算法。在本文1 3 中,对已有立体声编码算法进行了介绍。 大连理工大学硕士学位论文 1 2 立体声概述 在我们聆听四周的声音时,除了能感受到声音的响度、音调和音色外,还能感受出 声源的方向、距离和大小等信息。这种具有立体感的声音就是立体声【10 1 。 通常人们所说的立体声系统均指人工双声道系统,而多于两个声道的系统,则被称 作环绕立体声系统。除了本小节中关于立体声概念的描述以外,本文所说的立体声,均 指人工双声道立体声。 根据不同的立体声获取和捡拾方式,可以将立体声系统分为很多种。根据立体声的 获取方式,可以按表1 1 进行划分。对于录制的立体声,可以进一步根据捡拾方式【1 1 l 按 表1 2 进行划分。 由表1 2 可见,在不同的立体声系统中,所传输或者回放的立体声具有不同的特点。 表1 1 立体声获取方式 t a b 1 1t h em e t h o d st od e r i v es t e r e os i g n a l s a b 型 x y 型 m s 型 多组传声器 假头型 两声道信号有相位差、强度差和音色差 两声道信号仅有强度差 可由x y 型立体声信号作和差变换得到 两声道信号有相位差、强度差和音色差 优秀的假头型系统的可以逼真地还原声场 通过分析不同类型的立体声系统,可知实际立体声信号的特点声道间通常具有 相位差、强度差和音色差。 本文所研究的立体声编码具有通用性,并不针对特定的立体声系统。因此,从系统 构建角度来看,立体声编码所处位置如图1 3 所示。图中的灰色部分,即立体声编码和 解码,通常统称为立体声编码。在系统前端的立体声采集部分,可以是表1 1 中的任一 种获取方式;在系统末端的回放部分,可以是耳机或扬声器。 参鼓立体声编码的研究与9 ;现 l 很立_ 阵声 m s 立体声 强度立体声 联台立体声 双耳线索编码 参数立体声 对左右声道分别使用单声道编码 仅在声道闻相关性丈时具有高压缩率 仅适用于较高颠段,压缩军高 前三种技术的联合使用,压缩率较高 立体声音质保持较好,压缩率高于联合立体声 核心架构同双耳线索编码 传统技术 传统技术 传统技术 传统技术 新技术 新技术 鞋台立体声 联台立体声 联台立体声 m p 3 ,a a c 暂无 a a c p l u sv 2 l r 立体声编码是图12 中声逆数为2 的情况,这里不再介绍。联舍立体声( j o i n t s l e c e o ”1 ) 是抓立体声编码、m s 立体声编码和强度立体声编码的联合使用,能在不同 技术问实时切换,具有较高的压缩率。 131 m i s 编码 m s 编码是m i d s i d e 立体声编码的简称,也称作和差立体声变换编码l 川。在该编码 技术中,首先对左右声道的信号进行和差变换,得到m 信号和s 信号: 吖:型( 1 i ) 大连理工大学硕士学位论文 s :l - r 2 在和差变换后,再对m 信号和s 信号进行编码。在解码端, 号,再进行相应的逆变换,就可以得到左右声道的输出信号 l t = m l + s | r7 = m 一s ( 1 2 ) 先解码得出m7 和s 信 ( 1 3 ) ( 1 4 ) 如果左右信道的相关性较大,则s 的功率较小,给它分配的比特数可以减少。但是 有研究表明,m s 编码的编码增益实际上非常有限【14 1 。m s 编码技术对声道间相关性具 有依赖性,在相关性较大时才可获得较高的压缩率,实际应用中,通常作为联合立体声 的一部分来使用。 1 3 2 强度立体声 在1 9 9 1 年,w a a l 和v e l d h u i s 提出了立体声子带编码技术【1 4 】。在他们的论文中,针 对m s 的缺点,提出了轴变换的方法。这种编码技术后来被称作强度立体声编码,在 h e r r e 等人的论文【l ”中有系统的阐述。 强度立体声编码的核心思想是坐标轴旋转,通过将原来信号空间的坐标轴旋转,得 到强度信号和残差信号。图1 4 是旋转示意图,r7 方向为强度信号,l 方向为残差信号。 在编码时,只保留强度信号,丢弃残差信号,最终仅对强度信号和坐标轴旋转角度口进 行量化编码。 r , 。 r l 、口k 7 弋 图1 4 坐标轴旋转 f i g 1 4 r o t a t i o no fa x e s 参数立体声编码的研究与实现 在解码端,根据接收到的角度口和强度信号,进行坐标轴的反向旋转,即可恢复出 左右声遵的输出信号。 强度立体声编码仅保留了左右声道的幅度差异信息,丢弃了相位差异信息。听觉系 统对较高频段( 约2 k h z 以上) 信号的精细相位结构差异不敏感,但是对于低频部分的信 号,使用强度立体声会引入较大的失真,因此一般不单独使用。 强度立体声编码压缩率高,但只适用于高频信号,实际应用中,通常作为联合立体 声编码的一部分来使用。 133 双耳线索编码 在2 0 0 2 年,f a i l e r 和b a u m g a r t e 提出了名为双耳线索编码( b i n a u r a lc u ec o d i n g ,b c c ) 的立体声编码算法 “,并在次年系统地阐述了b c c 的工作机制m ” ,补充考虑了一些 细节,并给出各选的实现算法。随后,f a i l e r 在他的博士论文l ”里对b c c 进行了详细的 介绍,并给出了一个低复杂度的b c c 实现算法。 b c c 的提出具有重要的意义,其出发点和传统立体声编码不同,着重于恢复声像”1 的位置和大小等信息。 b c c 编码的比特流由两部分组成: ( 1 ) 将输入信号向下混合为单声道信号再对单声道信号编码得到比特流; ( 2 ) 从输入信号中提取各个和声像有关的参数,对这些参数编码得到边带比特流。 在b c c 解码时,先根据单声道比特流,解码得到下混台单声道信号,然后再从边 带比特流中得到各个参数,最后综合出各个声道的输出信号。b c c 算法的核心架构如图 l5 所示。 j k 舟“ i 0 扯山 。,! ! 一 7 引牛机斗舢 _ l “+ 朴“ 艄m f l -o。*- t h 图l5g c c 立体声编码核心架构“” f i g 】5 c o r ef r a m e w o r ko f 2 - c h a n n e l sb c c 大连理工大学硕士学位论文 在本文中,将与b c c 核心架构一致的立体声编码统称作参数立体声编码,不再加 以细分。本文所研究实现的立体声编码就属于参数立体声编码,在后续章节中有详细的 叙述。 由于边带比特流的比特数远小于单声道比特流,参数立体声编码可以获得比传统立 体声编码更高的压缩率【2 2 】。采用这种新的编码技术,在较低速率( a a c p l u sv 2 ,3 2 k b p s ) 下就能获得较好的立体声音质。 1 3 4 其他编码技术 ( 1 ) 声道间预测编码 在虚拟听觉【2 3 中,将声波从发出到抵达听觉系统的过程看作滤波,用头相关传输函 数( h e a dr e l a t e dt r a n s f e rf u n c t i o n ,h r t f ) 来描述。如果在频域定义h r t f ,用尻和 环分别表示声源到左右耳的频响,用s 表示声源的频谱,则双耳接收到的频谱分别为 l = s 吼 r = s ( 1 5 ) ( 1 6 ) 显然,可以从式( 1 5 ) 和式( 1 6 ) 得出 r :三监:l h( 1 7 ) h l 由式( 1 7 ) 可见,右声道信号可由左声道滤波得到。如果能将滤波器日的系数用较 少比特来表达,即可获得较高的编码压缩率。但是有研究表明,通过声道间预测来进行 立体声编码,只能得到有限的效果【2 4 ,2 5 1 。 ( 2 ) 常见技术的变种 除了上述各常见立体声编码技术外,还有很多从中衍生出的编码技术。这些技术可 以视作常见技术的变种,依据其大体思想可分两类。 第一类,是对传统立体声编码( 联合立体声) 的改进方案:在编码前预处理,提高声 道间相关性后再进行m s 编码【2 6 ,2 7 】;在强度立体声中使用预测编码,从强度信号中滤 波得到残差信号凹;先量化左右声道信号,再进行编码【2 9 】。 第二类,是对参数立体声编码的完善或改进方案:先划分频段,再在不同频段选取 不同的参数集【3 0 】;使用动态的时频划分技术,自适应地确定时频分辨率【3 1 】;用新方法控 制声道间相关性,引入不连续传输【3 2 】的思想,对静态声场只传输标记而非参数【3 3 1 。 以上各种编码技术,大多是对联合立体声和参数立体声的局部改动。唯有采用预测 编码的方法1 2 s 】改动较大,本质上,该方法和上文提到的声道间预测编码一致。 参数立体声编码的研究与实现 1 4 本文工作和组织结构 本文所要完成的工作有以下几点: ( 1 ) 从空间听觉的理论出发,研究可用于参数立体声编码的空间参数,并以此为依 据构建模型,研究各个参数的提取和综合,以便模型的实现; ( 2 ) 分析现有的参数立体声编码技术,探索改进的办法; ( 3 ) 提出一种新的参数立体声编码算法; ( 4 ) 通过仿真,对本文所提出的编码算法进行主观测试,分析算法的性能。 本文的章节安排如下: 第二章是空间听觉基础理论,从心理声学出发,对空间听觉的机理进行分析。 第三章研究了主要的空间参数,根据空间听觉理论,研究可用于参数立体声编码的 各个参数,剖析各个参数的特点,并给出各参数提取和综合的方法。 第四章从整体上研究参数立体声编码,剖析典型的参数立体声编码方案,总结论证 了可能的改进方法。最后提出几种用于参数立体声编码的新参数。 第五章是参数立体声编码设计,依据第四章所提出的新参数,构建一个完整的基于 f f t 的编解码系统。 第六章是主观测试,将第五章所设计的方案和a a c p l u sv 2 中的参数立体声进行对比, 验证其可行性与实用性。 本文的最后是结论,总结全文,并给出了下一步工作的开展方向。 大连理工大学硕士学位论文 2 空间听觉基础理论 立体声编码所要达到的最终目标,是用尽量少的比特数来编码,同时追求在解码端 重现出逼真的空间听觉感受,最大限度地保持各个声像的位置和大小等信息。 依据空间听觉理论,可以得出一个立体声模型。对这个模型加以适当的简化,使其 在保持有效性的前提下,适用于立体声编码,就有可能得到高压缩率的编码算法。这种 思想在参数立体声编码中已经得到应用,其边带参数的选择,和空间听觉中各个主要定 位因素对应,因此有些文献中又将其称作空间音频编码。 显然,研究高压缩率的立体声编码,离不开空间听觉理论。在真实的环境中,人耳 可以感知出声源的方向、距离和大小等信息,而空间听觉就是关于人耳如何获取这些信 息的理论。早在1 9 9 7 年,b l a u e r t 就在其专著【5 】中从各方面系统地介绍了空间听觉。在 其他和立体声相关的书籍中,也有关于空间听觉的介绍【l o 1 1 , 2 3 , 3 4 ,3 5 1 。 本章将对空间听觉理论进行研究,试图给出影响空间听觉的各主要因素,为后几章 内容奠定基础。 2 1人耳的频率选择性 研究表明,人类听觉系统的基本特性,可以近似描述为一组交错重叠的线性带通滤 波器,即听觉滤波器i z 引。 根据不同的听觉滤波器带宽估计方式,可以得到两个最常用的模型,分别是临界频 带模型和等效矩形带宽模型【2 3 ,35 1 。为了符合人耳的听觉特性,在立体声编码需要依据这 两个模型来进行子带划分。 2 1 1 临界频带模型 临界频带这一概念由f l e t c h e r 首次提出【3 6 】。在临界频带模型中,听觉滤波器带宽称 为临界频带宽度1 ,2 3 ,3 6 1 ( c r i t i c a lb a n d w i d t h ,c b ) 。如果有频率为厂的纯音,则只有以厂为 中心的一定频带内的噪音对纯音有掩蔽作用,这一频带宽度就是临界频带宽度。 由不同实验方法所得的临界频带宽度也不同,其中最为广泛的计算方法为p 7 j a f = 2 5 + 7 5 ( 1 + 1 4 f 2 ) 0 6 9 ( 2 1 ) 式中的厂代表中心频率,其单位与临界频带宽度厂一样,均为k h z 。 由式( 2 1 ) 可知,临界频带宽度随中心频率的增加而变大。因此,人耳的频域分辨率 并不均匀,在较高频率处对应较低分辨率。因而在立体声编码时,需采用不均匀的子带 划分方式,以符合人耳的听觉特性。 参数立体声编码的研究与实现 2 1 2 等效矩形带宽模型 在临界频带模型提出之后有研究阴表明,实际上听觉滤波器的形状并不具有对称 性。为了简化问题,可针对临界频带宽度定义等效矩形带宽,作为临界频带宽度的- s e e 近似。 对中心频率为f n 矩形滤波器,在传输白噪声时,和中心频率为厂的听觉滤波器所 输出的功率一致时所具有的宽度就是等效矩形带宽( e q u i v a l e n tr e c t a n g u l a rb a n d w i d t h , e r b 3 8 】) 。 e r b 和中心频率厂的关系如式( 2 2 ) 【3 8 1 所示。 e r b = 0 1 0 8 f + 2 4 7 ( 2 2 ) 式中厂的单位是h z 。 2 2 单声源空间听觉 如果考虑声源的个数,可以将声场分成两种情况,分别是单声源和多声源的情况。 对多声源的情况的分析建立在单声源的基础上,本节给出单声源空间听觉的介绍,多声 源的情况将在下一节探讨0 2 2 1耳间定位因素 对于人耳具有定位能力最直接的解释,就是人的左右耳所接收的声音具有差异,这 种差异中蕴含了可供定位的信息。 早在1 9 0 7 年,瑞利提出的双工理论就试图对双耳所感知的信号差异建模【3 9 。瑞利 认为,人耳对声源的定位是根据耳间声级差( i n t e r a u r a li n t e n s i t yd i f f e r e n c e ,i i d ) 和耳间时 间差( i n t e r a u r a lt i m ed i f f e r e n c e ,i t d ) 这两个因素进行的,在高频处由i i d 起主要作用, 在低频处则是i t d 。i i d 在许多文献中又被称作i l d ( i m e r a u r a ll e v e ld i f f e r e n c e ) 。 对i i d 和i t d 的进一步研究表明,虽然在自由声场下的低频i i d 小得几乎可以忽略, 人耳对低频处的i i d 仍然非常敏感。在使用耳机回放时,通过在低频处人为引入i i d , 再由实验测试即可得出上述结论。 图2 1 是i t d 的产生示意图,其中巩表示声源与左耳间的距离,呔表示声源与右 耳间的距离。由于声源在人耳的左侧,靠比吮要大,所以声波较早到达左耳。声波到 达两耳的时间差如式( 2 3 ) 所示。 a t = i t d = ( 呔一屯) c ( 2 3 ) 大连理工大学硕士学位论文 图2 1i t d 产生示意图 f i g 2 1 ad e m o n s t r a t i o no ft h ed e r i v a t i o no fi t d 图2 2 展示了头部对声波的遮蔽现象。由于头部的阻挡,从左侧声源发出的声波在 到达右耳时的强度不及左耳,因此听觉系统所接收的声音存在i i d 。 图2 2 头部对声波的遮蔽示意图 f i g 2 2 t h es h a d o w i n go fh e a d 依据i t d 和i i d 因素,听觉系统只能感知声源的方位,无法判断声源的大小和稳定 性。b l a u e r t 在其专著【5 j 中指出,声源尺寸及稳定性同抵达两耳的声信号间的相关性,即 耳间相关性( i n t e r a u r a lc o h e r e n c e ,i c ) 直接相关。随着i c 的减小,人耳所感受到的声源 尺寸变大,当i c 小于一定的门限后,会产生声源分裂现象,即听觉系统会认为左右两 侧各有一个声源。 i t d 、i i d 和i c 是最重要的空间听觉因素,在参数立体声编码中已经得到了运用, 这些因素的详细描述见本文第三章。 参数立体声编码的研究与实现 2 2 2 其他定位因素 ( 1 距离定位因素 听觉系统不仅能确定声源的方向,还能确定声源的距离。距离定位因素较多1 4 ,其 中主要的有主观响度和直达反射比( 直达声和反射声的能量之比) 。 在远场( 距头部l m 以外) 时,主观响度随声源距离的增大而减小,对于辐射能量相 同的声源,主观响度越小距离越大。但主观响度只在无反响的环境中有效,在室内时, 声场受房间具体环境影响,此时直达反射比为主要的距离定位因素【5 j 。此外,i i d 和i t d 也随距离变化,因此这两个因素对距离定位也有一定贡献。 直达反射比在提取和综合方面存在困难,难以用于参数立体声。而i i d 、i t d 和主 观响度可以在编码过程中得到保留,因此解码出的音频信号仍包含较多距离信息。综上, 现有的参数立体声编码并未采用单独针对距离因素的参数。 ( 2 ) 谱因素 谱因素有助于听觉系统判断声源的离地高度,对镜像位置的声源定位也有贡献,其 产生原因是耳廓对入射声波的散射和多径反射j 。 不同传播路径的声波经叠加后进入耳道时,一些频率因叠加而增强,另一些频率则 由于叠加变弱。因此,从声源到耳道的频响曲线并不平坦。对于不同方向的声源,频响 曲线的第一个谱谷所处位置也不同,听觉系统可以根据这种对应关系来确定声源方位。 谱因素是一个极具个性化的定位因素,不同个体的耳廓及谱谷分析方式具有差异, 因而从通用性角度考虑,该因素不适用于参数立体声编码。 ( 3 ) 动态因素 对于一些特殊位置的声源,人们必须借助头部的转动来进行定位【4 2 ,4 3 1 。在聆听过程 中,这种通过转动头部来改变声源相对位置来帮助定位的因素,称作动态因素。 毫容 e 、袋慕7 e 弋义 。岁| ,一4 、 曼:磬 jl 混乱锥 浙 芦 岁一 镜像位置混乱锥 图2 3 镜像位置和混乱锥 f i g 2 3 f r o n t b a c kc o n f u s i o n & c o n ec o n f u s i o n 丈连理工大学硕士学位论文 图23 是听觉定位中模糊位置的示意图,可见l i d 和i t d 和空间具体位置并不一一 对应。在这些位置上的声源,单纯靠l i d 和i t d 无法准确定位,此时起作用的定位因素 为谱因素和动态因素。 与谱因素类似,动态因素也是个性化的因素,无法提取和综合,因此无法应用于参 数立体声编码。 23 多声源空间听觉 根据声波的线性叠加原理,在多声源的情况下,双耳所接收到的声波由各个宙源独 自产生的声波叠加而成。此时听觉系统所依据的定位因素,同单声源情况致,不同的 是,多声源时声波中蕴含的定位信息是多个声源信息叠加的效果。 以扬声器回放的场合为例,每个扬声器本质上都是一个声源,在两个扬声器同时回 放时,人耳所感知到的是叠加的声音。此时,人耳可能仅感觉到一个声像。如图2 4 所 示,声像可能位于两个扬声器的中间,其尺寸随声道间相关性减小而变大。 m 目月* r 日十 i 函月十 一女 图24 双扬声器回放 f i g24 2 - l o u d s p e a k e r sr e n d e r i n g 通过与图2 4 一样的实验装置,还可以研究声源信号时问差对空间定位的影响。通 过实验可观得出优先效应”j ,也叫做哈斯效应。 优先效应表明,将一个未经延迟的声音送往一个扬声器,同时把加以延迟的同一声 音信号送往另一个扬声器,在延迟时间在某个范围内时,听觉系统会认为声音只来自未 经延迟的扬声器。如果延迟小于这个范围的下限,落入正常i t d 的范围后,听觉系统会 认为在两个扬声器之间有一个声源。如果延迟超过这个范围的上限,听觉系统就能分辨 出这两个声音,将延迟声理解为回声。 正是由于优先效应的存在,听觉系统才得阻在室内条件下进行相对准确的定位,避 免误认为反射声来自其他的声源。 参数立体声编码的研究与实现 2 4 特定场合的空间听觉 2 4 1it d 的局限性 听觉系统只对低频( 1 5 k h z 以下) 范围内的i t d 比较敏感,对i t d 的分析表明,这 一现象由相位模糊导致。对于频率为f ( k h z ) 的纯音,声波到达两耳的最大相位差如式 ( 2 4 ) 所示。 t t n 蛾。= 兰等咝2 r e = i t d 。2 矿= 1 3 6 矿 ( 2 4 ) 当频率大于某个上限值名后,最大相位差会超过2 万,此时同样的相位差可能对应 几个不同的i t d ( 相位模糊) 。例如,设声波的周期为丁,它到达左耳和右耳的时间差为 a t ,则相位差2 万对应了a t = 0 和a t = t 这两种情况。通常认为i t d 。,为6 6 2 p s ( 见本文 的3 2 3 ) ,令最大相位差为2 万,可以根据式( 2 4 ) 得出詹约为1 5 k h z 。 有研究【4 4 粕】表明,富含高频分量的复杂声波仍然含有时间定位信息。此时的时间信 息来自高频包络到达两耳的时间差,为了与一般意义的i t d 区分,这种时间差被称作耳 间包络差( i n t e r a u r a le n v e l o p ed i f f e r e n c e ,i e d ) 。尽管听觉系统可以感知到i e d ,在基于 时间信息的声源定位中,起主导作用的仍为低频i t d t 4 7 , 4 8 】。 类似地,人耳对不同时间的i t d 的敏感程度也不一样。一段完整的声音片段,可以 分成起始( o n s e t ) 、持续( o n g o i n g ) 和衰减( o f f s e t ) 三个阶段。在起始或衰减阶段的i t d 和 持续阶段的i t d 重要程度不同,前者在后者较模糊时【4 9 5 0 1 ,或声信号为短于1 0 m s 的瞬 态音时【5 1 j 显得更重要,后者在其他时候更重要。 2 4 2 室内空间听觉 在立体声的应用领域中,室内立体声占很大比例,即所记录和回放的立体声来源于 室内。有必要对室内空间听觉进行研究,分析此时各定位因素所受的影响。 在室内的条件下,由于环境比较复杂,声波的传播路径也比较多,听觉系统通常能 获得一种空间印象感。在特定房间内,通过分析所接收到的声音,听觉系统能判断出房 间的尺寸和空旷程度等信息。 图2 5 为室内声波的多径传输和衰减示意图。从图( a ) 中可以看出,来自同一声源的 声波可以通过多种路径到达人耳,而且可能来自不同的方向。如果按照单声源定位因素 来定位,听觉系统会错误地认为存在多个不同的声源。但是事实上,由于优先效应的存 在,听觉系统能够做出比较正确的判断。 大连理工大学硕士学位论文 由图( b ) 可见,在室内条件下,强度最大的直达声先到达,然后是早期反射声,最 后是混响声。早期反射声的强度和具体室内布置有关,但是大体趋势是随时间的推移趋 于密集,同时强度逐渐变弱。最后到达的是连成一片的混响声,其幅度随时间的推移平 滑地衰减为零。 幅 ( b ) 图2 5 室内声波的多径传播和衰减 f i g 2 5 s o u n dw a v e sf r o mas o u r c ei nar o o m 在介绍距离定位因素时已经提到,在室内条件下,直达声和反射声的能量比对距离 定位有很大帮助。但是从整体上看,听觉系统在室内的定位精确度还是会降低【52 | 。一种 最直接的解释,是听觉系统对反射声方向的辨别能力会对定位造成影响,优先效应只能 在一定程度上克服这种定位误差 5 3 _ ”】。 图2 6 有助于理解由反射所带来的混淆现象。图中的s 表示真实声源位置,s 】至s 4 表示由于反射导致的伪声像位置。 f i g 2 6 i n f l u e n c ed u et or e f l e c t i o n s s 一 参数立体声编码的研究与实现 在典型的房间内,对于低频声信号,第一反射声比直达声晚到的时间长度可能落在 正常i t d 的范围内,从而干扰听觉系统对低频段i t d 的估计。此时,听觉系统主要依 赖的时间信息来自瞬态音起始阶段的i e d 。 综合考虑各种因素,典型室内条件下,听觉系统根据声信号起始阶段最初2 m s 内所 蕴含的信息来定位( 2 0 1 ,而空间印象感则由i c 来反映。 2 4 3 其他问题 ( 1 ) 近场与远场 近场和远场的划分依据是声源距离,通常以l m 作为分界线,如图2 7 所示。 远场 图2 7 近场和远场 f i g 2 7 n e a r - f i l e d & f a r - f i e l d 在远场情况下,听觉系统需要利用多种定位因素来定位。在近场时,由于i i d 比较 大,听觉系统的主要定位因素是i i d ,其他因素的重要性较低。 ( 2 ) 复杂因素 听觉系统的工作原理错综复杂,除了前面所提及的各个因素,还有其他一些比较复 杂的因素。例如借助视觉的帮助,听觉系统能获得更佳的立体感。另外,听觉系统对比 较熟悉的声源往往表现出更好的定位能力。这些复杂因素的内在机理尚不明确,而且具 有鲜明的个性特征,因此很难运用于参数立体声编码中。 大连理工大学硕士学位论文 3 主要空间参数的研究 上一章介绍了空间听觉的各个定位因素,本章从中筛选出主要因素,并将它们数值 化,作为构建立体声编码模型的空间参数。换言之,本章所要完成的主要任务之一就是 建立一个参数立体声编码模型。本章还详细地介绍了各参数的特点及使用方法。 为避免误解,这里指出,本文中的参数、声道间差异参数和空间参数这几个词具有 同样的意思。而对于参数和因素这两个词,前者用于编码中,后者用于空间听觉理论中。 3 1参数的分析和选择 在正式进行分析之前,需要明确参数立体声编码所要解决的问题。如图1 3 所示, 参数立体声编码的输入是已经采集完毕的立体声信号,输出是用于回放的立体声信号。 因此参数的选择必须满足如下两个条件: ( 1 ) 可以从采集所得的立体声信号中提取; ( 2 ) 根据所提取的参数,能在艇码时恢复出原有的空间信息。 3 1 1 耳间差异与声道间差异 根据本文1 2 的介绍,通常立体声各声道信号是不同的,即存在声道间差异。这 差异在不同的回放方式下,所体现的效果也不同。 如图3 1 所示,在采用扬声器回放时,声波到人耳的传播路径比较复杂,因而声道 间差异和耳间差异会有较大的不同。但此时二者是相关的,通常认为相同的声道间差异 对应相同的耳间差异。 图3 1 扬声器回放时的交叉路径 f i g 3 1 c r o s s t a l ko fl o u d s p e a k e rp l a y b a c k 参数立体声编码的研究与实现 在耳机回放时,耳廓的影响可以忽略,从而可以近似地将回放的立体声信号视作抵 达耳道的声信号,此时声道间差异近似为耳间差异。 综上,不论采用何种回放方式,耳间差异都由声道间差异决定。根据空间听觉理论, 耳间差异能直接影响空间听觉感受,因此参数立体声编码最终选择的参数必须能体现与 耳间差异对应的声道间差异。 3 1 2 主要因素的选取 根据图1 5 所示的参数立体声编码基本框架,可知: ( 1 ) 编码部分的输入是采集所得的立体声信号,输出为单声道信号和边带信息; ( 2 ) 解码部分的输入是编码部分的输出,输出是用于回放的立体声信号。 原有立体声所包含的空间信息主要保存在边带比特流中,边带中的各个参数和主要 空间听觉因素相对应。下面根据参数立体声编码的需求,选取主要的空间听觉因素。 本文第二章已对各空间听觉因素做了全面的介绍,分析了室内室外、近场远场和多 声源等场合下各个因素的有效性。此处将各个因素进行归纳罗列,如表3 1 所示。 表3 1空间听觉因素一览表 t a b 3 】al i s to fs p a t i a lc u e s 有关部分因素不予采用的原因,在第二章中已有叙述,此处结合参数立体声编码的 基本框架,再加以简明的分析。 在参数立体声编码中,编码部分输出的单声道信号也具有部分空间信息,如主观响 度和直达反射比,因此在考虑边带参数对应的空间听觉因素时,这两个因素不必考虑。 大连理工大学硕士学位论文 参数立体声编码应能维持立体声的空间信息,不能因为听者的不同或者移动而改变,因 此谱因素、动态因素和其他复杂因素也不在考虑范围内。 这样最终选取的空间听觉因素为i t d 、l e d 、i i d 和i c ,这四个因素都属于耳间差 异,分别反映了声信号的耳间时间差异、包络差异、强度差异和相关性。 3 1 3 立体声编码模型 根据3 1 1 中的论述,耳间差异在立体声信号上反映为声道间差异。因此,需要进 一步分析出和上面选取出来的空间听觉因素对应的声道间差异参数。 在耳机回放时,声道间差异和耳间差异一致,因此和上述主要因素对应的分别是声 道间时间差( i n t e r c h a n n e lt i m ed i f f e r e n c e ,i c t d ) 、声道间包络差( i n t e r c h a n n e le n v e l o p e d i f f e r e n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025山东商河经济开发区招聘7人笔试历年常考点试题专练附带答案详解试卷3套
- 2025国投泰康信托校园招聘笔试历年典型考点题库附带答案详解试卷3套
- 甘肃甘州区公务员考试试题及答案
- 片区城中村改造项目社会稳定风险评估报告
- 2025光大兴陇信托校园招聘笔试历年常考点试题专练附带答案详解试卷3套
- 2025中联重科校园招聘笔试历年典型考点题库附带答案详解试卷3套
- 2025中国电子数据产业集团社会招聘笔试历年典型考点题库附带答案详解试卷3套
- 2025上交所技术有限责任公司校园招聘20人笔试历年典型考点题库附带答案详解试卷3套
- xx片区城中村改造项目社会稳定风险评估报告
- 芬兰市公务员考试试题及答案
- 福建省泉州市四校2024-2025学年高二上学期11月期中联考物理试卷(含答案)
- 重度贫血病例讨论
- 反诉状(业主反诉物业)(供参考)
- (高清版)AQ 2061-2018 金属非金属地下矿山防治水安全技术规范
- 高考英语读后续写专题 02 话题分类+公益组织、公益活动(人与社会)
- 《失智老年人照护》课件-项目四:失智老年人康复照护
- 大学生城市地下空间工程职业生涯规划
- GB/T 43642-2024法医学个体识别技术规范
- 中国传统文化介绍课件:八大菜系介绍(英文版)
- 2024职业性放射性疾病诊断程序和要求
- 脑机接口技术在康复医学中的应用与展望
评论
0/150
提交评论