(通信与信息系统专业论文)低码率感知音频编码研究.pdf_第1页
(通信与信息系统专业论文)低码率感知音频编码研究.pdf_第2页
(通信与信息系统专业论文)低码率感知音频编码研究.pdf_第3页
(通信与信息系统专业论文)低码率感知音频编码研究.pdf_第4页
(通信与信息系统专业论文)低码率感知音频编码研究.pdf_第5页
已阅读5页,还剩98页未读 继续免费阅读

(通信与信息系统专业论文)低码率感知音频编码研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

低码率感知音频编码研究 摘要 f 低码蜜音频编码是现代多媒体技术中一个重要领域,它在网络多媒体广播通信、 消费电子产品以及数字音频广播等许多领域扮演关键角色。对低码率音频编码技术 的研究有着重要的理论意义和实际意义。 许多应用要求用很低的比特速率来传递具备一定质量的声音。尽管语音编码器 可以用很低的比特速率传送较高质量的语音信号但在处理音乐等音频信号时其性 能大大降低,声音质量不能让人接受。在本学位论文中我们设计了一种低码率音频 编码器。对于很多不同类型的音频信号,它可以工作在很低的码速率上,虽然此时 它所提供的听觉质量不是透明的( 相对于c d 唱片) ,人们仍然可咀接受。 本文首先对研究低码率音频压缩编码的意义进行了阐述,对整个音频编码技术 做了概要介绍,着重介绍了感知音频编码技术。鉴于听觉系统的掩蔽特性在当代音 频编码技术中的重要地位,本文同时对听觉掩蔽特性作了详细阐述。, 本文主要工作是设计了一个基于人耳感知特性的低码率音频编码器。这是一种 领域编码器它具有以下特色: 第一首次采用了分析窗与合成窗不相同的m d c t 形式并白行设计了分析窗与 台成商。所用的分析窗在幅频特性上优于正弦窗。同时在实施m d c t 变换时专门设 计了一套快速算法。该算法利用m u 2 点的f f t 来计算2 m 点的m d c t 。 第二二采用了非均匀频率分辨率的窗切换,即把信号划分为四个等频宽子带信 号,住窗切换时最低的子带信号始终采用长窗m d c t 。这样可以提高系统对低频信 号的频率分辩率和对高频信号的时问分辨率,进一步改善编码质量。 第三,改计算各量化带的最小噪声掩蔽门限为计算各量化带的平均噪声掩蔽门 限。 第凹,根据信号的不可预测性和非平稳性之间的联系,采用基于信号不可预测 性的窗切换判据来控制编码器在不同的窗长度之间切换。 第五在自适应噪声分配模块中采用单循环结构,大大降低了计算复杂度。 该编码器已在t m s 3 2 0 c 6 7 0 1 d s p 评估板上实时实现。 为了设计m d c t 的分析合成窗,我们对m d c t 的来龙去脉、基本原理和使用 方法及各种特性做了详细的描述和严密的推演。 此外我们还讨论了通过i n t e m e t 实时传输音频信号的特点和难点一抖动和突发 连续丢包。对人们为克b 捌动和丢包而开发出的各种技术做了归类介绍。在此基础 之上提出了套面向i n t e r n e t 的音频压缩编码和传输的方案。 关键词:音频编码,心理声学模型,修正离敞余弦变换,窗切换,d s p ,i n t e r n e t 2 t s t u d yo nl o wb i tr a t ea u d l oc o d i n g a b s t r a c t a sam a j o r p a r to f m u l t i m e d i at e c h n o l o g y , l o wb i tr a t ea u d i oc o d i n gi sw i d e l yu s e di n m a n ya p p l i c a t i o n a r e a ss u c ha si n t e m e tm u l t i m e d i ab r o a d c a s t ,c o n s u m e re l e c t r o n i c s p r o d u c t s ,d i g i t a la u d i ob r o a d c a s t ( d a b ) a n d s oo n s oi ti sn e c e s s a r yt od or e s e a r c ho n t h et e c h n i q u e sf o ra u d i oc o m p r e s s i o na tl o wb i tr a t e m a n ya p p l i c a t i o n n e e dt o c o n v e ya u d i os i g n a l a tl o wb i tr a t ew i t h o u to b v i o u s d e t e r i o r a t i o na l t h o u g hv o c o d e rc a nt r a n s m i t t e rs p e e c hs i g n a la t , v e r yl o w 龇r a t e i td o e s n o tw o r kw e l lw h e nd e a l i n gw i t ha u d i os i g n a l i nt h i st h e s i s ,w eh a v ed e s i g n e dal o wb i t r a t ea u d i oc o d e r ( l b a c ) w h i c hc a nd e a lw i t hv a r i o u sa u d i os i g n a la tl o wb i tr a t ew i t h a c c e p t a b l es u b j e c t i v eq u a l i t y ano v e r v i e wo ft h et e c h n o l o g i sf o rl o wb i t r a t ea u d i oc o d i n gi sg i v e nf i r s tt h e nt h e h u m a n a u d i t o r ym a s k i n g i sd e s c r i b e di nd e t a i l s t h em a i nw o r kw ed i di st od e s i g nap e r c e p t u a l l yl o wb i t r a t ea u d i oc o d e r ( l b a c ) t h el b a cl sf e a r m r e dw i t h : 1 a d o p tn u n i d e n t i c a la n a l y s i sa n ds y n t h e s i sw i n d o wo fm d c t w ed e s i g n e ds u c h w i n d o w sb yo u r s e l v e s t h ef r e q u e n c yr e s p o n s eo ft h ew i n d o w si sb e t t e rt h a nt h a to f s i n u s o i d a lw i n d o w 2 w ed e v i s e dan o n u n i f o r m t i m e f r e q u e n c yt r a n s f o r m ( n u t f t ) t or e p l a c e t h e o r d i n a r yt i m e f r e q u e n c yt r a n s f o r mu s e di n s h o r tb l o c kt oo b t a i nh i g hr e s o l u t i o ni nl o w f r e q u e n c yb a n da n da c c u r a t el o c a t i o no fh i g hf r e q u e n c yc o m p o n e n t si nt i m ea x i s t h e c r i t e r i af o rw i n d o ws w i t c h i n gi se x a m i n e di nd e t a i l sa n dt h e nm o d i f i e dt oo b t a i nb e t t e r p e r f o r m a n c e 3 l b a cc a l c u l a t e st h em e a nm a s k a b l en o i s ei n s t e a do ft h em i n i m u mm a s k a b l e n o i s ei ne a c hq u a n t i z a t i o ns u b b a n d 4 a p p l ys i n g l el o o p s t r u c t u r ei nt h em o d u l ef o rn o i s ea l l o c a t i o nt or e d u c et h e c o m p u t a t i o n a ll o a df i n a l l y , l b a ci si m p l e m e n t e dr e a lt i m eo nat m s 3 2 0 c 6 7 0 1e v m b o a r d t h ec h a m c t e 商i c so fp a c k e dc 。n a p r e s s e da u d i os i g n a l o v e ri n t e r n e ta r ed i s c “5 s 。d t h ec 。r r e s d 。n d i n gt e c h n 。1 。g i e s a r ei n s p e c t e da s c h e m ef o rt h ew a n s m i s s i 。n 。fp a c k e 0 a u d i os i g n a lo v e ri n t e r n e ti sp r e s e n t e d k e y w o r d s : a u d i oc o d i n g ,p s y c h o a c o u s t i cm o d e l ,m d c t d s p ,i “t e m e t 4 一 一一 第一章绪论 1 1 研究低码率音频压缩编码的意义 今天,几乎到处都在谈数字化,数字电视机、数字照相机、数字光盘,视频领域是这样, 音频领域也是如此个人计算机更是全数字的。因此可以说,数字化是当今技术的发展潮流, 音频数字化也是发展的必然趋势,音频领域正在全面实现数字化,即提高质量、扩展功能, 而且由于数字信号的共通性,正在与其它领域日盏紧密地结台起来,产生了mi di ( 乐器 数字接口) 、daw ( 数字音频工作站) 等模拟所没有的新一类设各这种结台还表现在 图像、文字、数据信号的结台,它给人们带来新的功能,提高效率、降低劳动强度等多方面 的好处。 从8 0 年代末开始,音频数字化呈现两极化发展趋向,一个趋向是提高数字记录设备的 戢样频率和量化比特值,追求高音质的记录与重放,出现了96k h z 取样、20b i t 量化的 d a t 和p c m 录音机。另一种趋向是降低信号的数码率,以便节约存储容量或在同样的频 带内增加传输的路数。m d 和d c c 是降低数码率记录的有代表性的数码录音机。1 9 9 2 年 m p e g ( 活动图像专家组) 的第一个标准m p e g 1 完成,此后很快诞生了用m p e g 1 压 缩的v c d 。1 9 9 4 年更高质量压缩的m p e g 2 标准完成采用这一标准压缩的d v d 于1 9 9 6 年投放市场,现在m p e g - 2 在视音频领域得到了广泛的应用。今天,数字音频技术得到如 此发展和广泛应用,可毫不夸大地说数字音频技术己成为音频领域的核心技术。 传统的c d 和d a t 录制的音频信号是经4 4 】或4 8 k h z 采样,每个采样用1 6 比特进行 p c m 编码。这样,单声道每秒要7 0 5 6 7 6 8 k b ,立体声每秒要1 4 1 1 1 5 4 m b 。虽然数据率如 此高,但作为第一代多媒体数字音响应用产品的c d 和d a t 主要面向存储所以依然采纳 了这种技术。 随着数字技术的飞速发展,越来越多的信息( 语音,音频图像,视频) 采用数字化的 形式传输和存储。将来大部分的声像多媒体制品将通过网络发行而不是用高密度存储媒介如 c d 或d v d 。由于网络上的数据流量飞速增长,网络的带宽总是满足不了需求为此,为 开辟新的无线和网络多媒体应用,要求在不损伤声音质量的隋况下压缩数据量。正是由于这 种需求的存在,推动了二十世纪九十年代数字音频压缩技术的迅猛发展。越来越多的标准被 制定出来,尤其是最近五年中,几种标准业已成为商品化标准。 更高的品质和更高的编码效率( 即更低的码率) 一直是音频压缩的目标。虽然当前的数 字音频压缩技术已经达到了很高的水准,但还是不能满足人们各种各样的个性化需求。针对 一些特定应用的数字音频压缩技术正在出现,而更多的个性化应f i 还在等待人们开发。因此, 7 薮字音频匾缩技术一葭是个非常活跃的研究领域。 本文土要研究低码事高压缩比的音频压缩算法,侧重点在于码率蚋降低和易实现性。由 于在码串恨低的情况下难虬做剑感知透明编码囚此如何分配感知噪声以提高听觉舒适度也 是本论文盼个衢宄重点。这砷压缩算法可蛆应用于存储介质容罱或 t 输带宽有限的应用场一 台 1 2 本文的目的 数字音频压缩的目标咀尽可能少的比特来表示音频信号并且不降低或只略微降低音频 信号的品质。设计一个数字音频编码器必须考虑压缩比、重建声音质量、算法复杂度、时延 和成本等各方面要求。其中最重要的两个设计考虑因素是压缩比和重建声音的质量。在数字 音频广播、高保真数字音响及数字影院等应用场台,重建声音的质量比压缩比更为重要。而 在诸如录音采访、网络会议等存储介质空间或传输带宽受限制的场台,压缩比则是设计编码 器的首要考虑因素。算法复杂度往往和成本紧密相连,复杂的算法一般对硬件有较高的要求, 这导致成本的提高。此外时延也是一个影响编码器性能的重要因素。在i p 电话、网络会 议等音频信号取向互动传输的应用中,过长的延对会使人难以适应。但是在数字音频广播, 网络音频点播等音频信号单向传输仃,应用中,时延因素对编码器性能的影响则不明显。 本文的目的是对当前一些关键的音频压缩技术进行研究并在此基础上针对传输带宽或 存帖介质容岢有限的实时应用场合设计一种高压缩比的音频编码器。该编码器对调幅或调频 音频信号进行实时编码。为了降低计算赞同时尽量保存信号的质量必须对压缩算法做必要 帕改过, 1 3 音频编码技术概述 音频压缩编码的主要方法可以参考m p e g - 4 中的音频编码标准来划分。m p e g 4 中所描 述的音频压缩编码对于每个声道来说每秒的编码比特数的范围可以低到2 k 比特( 对应于可 辨认f | 语音编码) ,高到6 4 k 比特( 高保真音频编码) 。同一种编码方法不可能支持这么宽的 码率变化范围,实际上某一个特定码率是由某一种或某一类编码器来实现的。所有这些编码 厅法可以归为三火类: 参数编码器i ( p a r a m e t r i cc o d i n g ) 。它产生的码率从最低端的2 k b i t s s 到6 k b i t s s 。参数 编码特别适台处理以8 k h z 采样的语音信号。 混合编码器【2 1 ,如码本激威线性预删编码( c o d ee x c i t e dl i n e a rp r e d i c t i v ec o d i n g ) 。它的 码率一般是从6 k b i i s 居到2 4 k b i t s s 。它既能处理语音也能处理窄带音频信号。信号一般是猷 8 - l d t z 或1 6 k h z 采样的。 波形编码器“,即时频编码( t i m e f r e q u e n c yc o d i n g ) 。它的码率从1 6 k b i t s s 到6 4 k b i t s s 。 8 它支持的采样率可阻从最低的8 k h z 直到最高9 6 k h z 。 参数编码器对表征声音特征的参数进行估算和编码,解码器根据这些参数来台成声音。 重建的声音在听觉上和原始声音的效果相似但是在波形上不必要和原始声音相似。参数编 码往往用于要求糕低码率同时对声音质量要求相对不高的应用场合。和参数编码相反,波形 编码器的性能不是以主观听觉效果而是用重建声音和原始声音的波形相似度来衡量的,往往 t 作在较高的码率。混台编码嚣则综台了参数编码和波形编码两者的技术因而能够提供更好 的声音品质,而码率一般介于两者之间。下面分别简要介绍。 1 3 1 参数编码器 参数编码p 1 方法是对信号建立数学模型,计算表征这个模型的参数并对其编码。对于语 音信号,人们可队找到很好的模型来对语音信号的发生机理进行描述。在这个模型中发声 声道用一个时变滤波器( 台成滤波器) 描述。该滤波器的输入( 声道的激励) 可以是白噪声 ( 对于清音) 或者是以基因周期为间隔的脉冲序列( 对于浊音) 。语音参数编码器产生的码 速率往往在2 k b p s 左右或更低。 对于一般的音频信号。一种很有前途的编码方法一结构化音频编码”正在浮出水面。这 种方法属于m p e g - - 4 音频标准的一部分。它的码率范围可以从0 1 k b p s 到1 0 k b p s 。困为输入 的音频信号是不同音源对象产生的声音信号的叠加,每种音源对象可以用一个合适的模型来 描述。结构化音频编码的方法是把输入信号分解成对应于各个音源对象的信号分量,根据每 种分量对相应模型的参数进行计算和编码。解码时,首先解码每个音源对应的声音,再把他 f f j s g 加得到最终结果。 1 3 2 波形编码器 波形编码器在编码的时候力图使最终解码重建的信号在波形上与原始信号尽可能接近。 由于一般的音频信号不象语音信号那样可以用单一的音源模型来描述,波形编码便成为这类 音频信号的最佳编码方式。波形编码对于不同类型的音频信号都能提供高品质的重建声音, 不足之处在于码速率往往很高。波形编码可咀分为时域和频域两大类。 时域编码 时域编码就是在时域中直接对信号编码,属于这一类的编码方法包括脉冲编码调制 ( p c m ) ,自适应脉冲编码调制( a p c m ) ,差分编码调制( d p c m ) ,自适应差分编码调制 ( a d p c m ) ,增量调制( d m ) 自适应增量调制( a d m ) 和自适应预测编码( a p c ) 。下面 对其中的部分方法做简要介绍。 在时域波形编码中p c m 是一种广- 泛采用的波形编码;对音频信号而苦线性p c m 编 码一般焐1 6 个比特柬量化一个采样值。除丁线性p c m 之外还有用于话音信号的非线性对 数p c m 方法,包括a 律( 欧洲标准) 和u 律( 北美标准) 。这两种语音方法只有轻微帕区 制每个采样值悄8 个比特进行非线性量化。在音频方面有n i c a m 7 2 8 ( 丽音) 则将每样 值1 4 个比特的采样信号压缩到每样值1 0 个比特。p c m 提供很高质量的声音但是需要很 高的码速率。 d p c m 假设信号时域采样样本之问有足够的相关性。基于这个假设,d p c m 不是对采 样值直接编码而是对所要编码的采样值进行预测。然后对实际值和预删值| 1 f j 羞进行量化编 码。在a d p c m 中,其预测器和量化器由d p c m 申的崮定方式改进为能够根据输入信号的 即时局部特性进行动卷更新的自适应方式,使得性能得到提高。a d p c m 得到广泛采用,基 于a d p c m 原理的国际标准有i t ug 7 2 1 、g 7 2 6 、g 7 2 7 等。 频域编码 频域编码”“7 7 ”2 07 顾名思义就是把音频信号从时域映射到频域然后在频域中 实施压缩编码。与时域编码相比,由于信号能量在频域中的分布更集中,故频域方法往往能 提供更好的重建质量。除此之外由于人的听觉系统的心理声学模型是在频域中建立的,所 以频域编码方法可以很方便的利用心理声学模型来进一步提高编码效率。频域编码的缺点是 因为增加了时频映射环节,所以运算量很高,但是随着硬件水平的发展,通用和专用处理芯 片的处理能力快速的提升,频域方法越柬越受青啉。 频域编码又可进一步分为子带编码5 17 ”2 0 2 1 1 和变换编码62 1 】两娄。二者之间并没 有本质不同。子带编码h j 带通滤波器把音频信号划分成若干带通信号( 成为子带信号) ,再_ 对每个子带信号单独编码。i t ug 7 2 2 就是一种子带编码器。它可以把1 6 k h z 采样的7 k h z 带宽的音频信号压缩刮4 8 ,5 6 或6 4 k b p s 等3 种码速率。变换编码则用某种变换手段( 一般 为正交变换或重叠正交变换) 把音频信号以块为魄位变换到频域,对变换系数进行编码。 子带方洼中信号网往往被划分为较少的频带,如在m p e g 1 的第一层和第二层音频编 码器中信号只被分割为3 2 个子带。而变换编码中信号一般会被分割成更多的子带,如在 a c - 3 中子带数是2 5 6 ,而m p e g - 2 a a c 中子带数目更高达】0 2 4 。但是二者之问只存在量的 差别,没有本质的不同。另外子带方法中分析合成滤波器组往往只是近似完整重建,而变换 方法中的分析合成滤波器组( d f t ,d c t ,m d c t ) 则具备完整重建条件。 1 3 3 混合编码器 混合编码器【3 ”】兼具波形编码器和参数编码器的特征。一方面它象参数编码器一样 是对声音信号建立一个描述模型并对模型的参数进行计算和编码;除此之外,它还对原始信 0 号波形与根据编码的参数重建的信号波形的误差进行编码,以便最终重建波形和原始波形更 加接近这一点叉使它具有波形编码器的特征。 在语音编码领域中晟成功的混合编码方法是码本激励线性预测( c e l p ) 编码。许多基 于c e l p 的编码器已经成为国际标准,如l t u 的g 7 2 3l ( 6 3 53 k b p s ) g 7 2 9 ( 8 k b d s ) ,g 7 2 8 ( 1 6 k b p s ) 以及所有的数字移动电话编码标准( 包括g s m ,i s 5 4 i s 9 5 和i s 1 3 6 ) 。c e l p 的简单框图如图1 】所示。 语音信号 图1 - 1c e l p 原理框图 f i g 1 - 1d i a g r a m o f c e l p c e l p 用一个台成滤波器模拟声道,滤波器参数由输入信号提取。波形逼近由长时相羌 预测( 基因周期搜索) 和短时相关预铡( 随机码本搜索) 两步组成。每一步都采用闭环分析 一台成方式实现。 而对于一般的音频信号人们近来则提出了基于音源对象的分析合成方法。 1 4 音频编码的发展现状 音频编码技术发展到现在经历了约3 0 年,早期音频编码技术不过是语音编码技术的 延伸,到了八十年代它渐渐独立出来特别是在感知编码技术出现后,它迅速崛起。随着多 媒体技术和网络技术的高速发展,人们在电子生活中不再满足于窄带的语音通信,而要求更 高质量声音通信,这种需求推动了数字音频感知编码和其相关技术的发展。当今音频编码技 术主要分为变换编码和子带编码器两大类。 变换编码太多是以牺牲一定的时间分辨率来换取良好的频率分辨率。主要工作包括 s c h r o e d e r 的m s c 、b r a n d e n b u r g 的o c f 、j o h n s t o n 的p x f m 综合编码器和m a h i e u x 的c n e t 。 所有这些工作多是为推动音频压缩标准的制定而开展的i s o i e c 最终将工作中取得的成果 归结到一个算法中,即自适应频域熵编码的高质量音频算法简称a s p e c ( a d a p t i v es p e c t r a l 流 e n t r o p yc o d i n go fh i g hq u a l i r ym u s i cs i g n a l s ) 。该葬法被成功地用于i s o i e cm p e g l 和 m p e g 一2 的音频编码标准之中。a s p e c 最早的工作开始于8 0 年代后半段,k r a h e 对心理声 学模型用于音频编码进行了初步的研究,s c h r o e d e r 扩展了他的思想提出了多级自适应频域 音频编码l m u l t i p l e a d a p t i v es p e c t r a l a u d i o c o d i n g ) 简称m s c 。m s c 采用1 0 2 4 点的d f t - 然后将频谱系数按照临界频带的划分组成2 6 个子带,接着根据心理声学模型的比特分配策 略对频谱系数的幅度和相位进行两级( 粗一细) 量化编码。经s e h r o e d e r 试验,在压缩至 1 3 2 k b s 依然能得到c d 音质。 与变换编码器相同,子带编码嚣也在颁域上寻求压缩的途径与前者不同之处在于它不 对信号直接变换,而采用带通滤波器组把听觉范围内的信号( 2 0 h z 一2 0 k h z ) 割裂成很多子 带,再对抽选后的信号进行编码解码端分别对各子带进行解码,内插后再台成滤波,重 建声音信号这种方法通过对于带信号高效量化和编码来获得编码增益比特分配依然根据 心理声学模型工作,量化因子将作为边带信息传送用于解码器恢复量化阶早在8 0 年代末, 很多文献便提出了子带编码的思想,咀i m t i t u tf u rr u n d f u n k t e c h n i k ( i r t ) 、p h i l i p sr e s e a r c h l a b o r a t o r i e s 和c c e t t 的算法为主大多数工作部围绕数字音频广播( d i g i t a lb r o a d c a s t a u d i o ,简称d b a ) 的欧洲e u r e k a 1 4 7 计划展开的i s o e e c 最终综台1 r t 、p h i l i p s 和c c e 订 的建议制定了子带掩蔽编码标准m u s i c a m ( m a s k i n gp a t t e r na d a p t e du n i v e r s a ls u b b a n d i n t e g r a t e dc o d i n ga n dm u l t i p l e x i n g ) ,并被用于i s o i e cm p e g - 1 和m p e g 一2 的音频编码中, 归纳起来,有四项关键技术在当前的音频压缩算法中起着重要作用,它们是:感知编码 ( p e r c e p t u a lc o d i n g ) 、频域编码( f i e q u e n c y - d o m a i n c o d i n g ) 即变换,子带编码、窗切换( w i n d o w s w i t c h i n g 和动态比特分配( d y n a m i cb i t a l l o c a t i o n ) 。 所谓感知编码,就是在设计编码器时考虑了音频信号的产生机理和听觉系统对音频信号 的感如机理而且编码器误差评价也从波形上的差别转为听觉感受上的差别,基于这种设计 1 思想的编码器叫做感知编码器( 1 6 ”1 5 ”2 ”。 由于 的听觉系统具有掩蔽特性,输入听觉系统的声音信号只有一部分可以被感知。即 声音信号中存在羞主观冗余成分。感知编码既要消除信号的客观冗余成分,又要消除信号的 主观冗余成分。信号的客观冗余成分体现在其时问抽样序列呈现一定的相关性。所有这些客 观的和主观的冗余成分可以在编码中被摒弃,从而降低码率。图1 2 是基于频域处理的感知 编码器的简单框图。 1 2 t 图1 2 感知编码器原理框图 f i g i - 2d i a g r a m o f p e r c e p t u a lc o d e r 感知编码器首先把信号从时域映射到频域,然后利用信号的频谱分析计算听觉掩蔽门 限,接下来根据掩蔽门限对频域系数进行量化编码,最后把编码的系数和辅助信息拼装起来 形成最终的编码比特流。 岔切换则是用来克服预回声现象的利器。预回声现象是变换编码所必须面对和解决的不 利现象。它的出现降低了重建的音质。可以利用人耳的时域掩蔽特性来解决预回声。但时域 掩蔽时间是很短只能采用短的数据帧编码才能把预回声覆盖在时域掩蔽范围内。而帧的长 度变短会降低编码效率。解决这对矛盾的办法就是窗切换一仅在可能会出现预回声的时候采 用短帧,而在其它情况下采用长帧工作。关于预回声的控制将在第四章第3 节详细讨论。 动态比特分配指在总的码率恒定的情况下每一帧可用的比特数目依据信号的具体特征 来动态地分配。 当前无论是子带变换编码还是正交变换编码都是把信号划分成若干频带,根据人耳在各 个频带内的听觉掩蔽门限确定各个频带内的量化器的可用比特数( 即分多少段来量化) 和标 量因子( 即量化器的步长) 来对各个频带内的元素进行量化编码。而人耳在某个频带内的掩 蔽门限值是和频率位置、信号的强度、信号的特征有关的,或者说它取决于信号的短时谱特 征。由于每一帧信号的谱特性都会变化,各个频带内人耳听觉掩蔽门限就必须以帧为单位每 帧计算一次。与此相对应,各个频带量化器的比特数也必须以帧为单位动态地分配。 1 5 论文主要贡献 1 3 本文的主要贡献如下: 设计了一个低码率音频编码器。该编码器在高压缩比0 1 6 :1 ) 情况下依然能取得较满 意的土现听觉效果。 首次采用了分析窗与台成窗不相同的m d c t 形式并自行设计了分析窗与合成窗。所用 的分析窗在幅频特性上略优于正弦窗。由于这种分析窗的带外抑制比正弦窗更强因此和正 弦窗相比,采用这种窗可以对信号的频带进行更“t 净”的分害0 。 为了配合m d c t 窗的设计,以矩阵方法对m d c t 的完整重建条制( 包括有限长度信号 和无限长度信号) 、宙切换形式进行了直接的严格推导。囚为信号从m d c t 到i m d c t 再 到重建的整个运算过程应该用i = g 。h k h 。* d 。= i 来描述。这里列向量i 表示输 信号,i 表示重建信号矩阵i - i “m 是各个数据块m d c t 变换的总体表示,g 。“,表示变换信号的重 建运算。而咀往的文献在进行讨论时总是把变换矩阵的位置颠倒来讨论即认为 ;:h 。“一g b k :i 。虽然这样并不影响最后结论的正确性,但是这种间接形式不易给人直 。 现的认识。本文第一次以矩阵方式直接从主= g 。 出h 舢= i 出技推导了m d c t 的完整重建 条件和窗切换7 l 式。 首次采用了非均匀频率分辨率的窗切抉,即把信号划分为四个等频宽子带信号在窗切 换时最低的子带信号始终采用长窗m d c t 。这样既可以提高系统对低频信号的频率分辨率 和对高频信号的时间分辨率进一步改善编码质量。 提出利用信号的不可预测性和非平稳性之问的联系柬检测信号的平稳性,以此来控制时 频变换窗的切换。 在目适应噪声分配模块中采用单循环结构,大大降低了计算强度并在t m s 3 2 0 c 6 7 0 1 d s p 评估扳上实时实现了该编码器。该系统以1 6 :l 的压缩比对1 6 比特量化3 2 k h z 采样的 宽带音频信号进行编码时非正式主观试听取得了较为满意的效果。 讨论了通过i n t e m e t 实时传输音频信号的特点和难点一抖动和突发连续丢包。指出了导 致这种现象的主要原因并对人们为克服抖动和丢包而开发出的各种技术做了归类介绍。最 后我们提出了一套面向i n t e m e t 的音频压缩编码和传输的方案。这套方案尝试把现有的一些 成熟技术结合起来从多方面改善最终的声音同放效果。 1 6 论文结构 本论文分为六章,第一章为绪论。第二章介鲥听觉系统的基本概念包括听闽、痛闽和临 d 界频带等重点阐述了听觉掩蔽原理一频域掩蔽和时域掩蔽,并列举丁些有影响的心理声 学模型, 第三章详细叙述了m d c t 的原理、特点,解释了m d c t 的能有效降低块边界效应的原 因,以矩阵的形式直接推导了m d c t 的分别左有艰长j 叟信号和无限长度信号下的完整重建 条件给出了m d c t 的窗切换形式并加以严格的证明。 第四章分5 节详细描述了我们设计的低码率音频编码器l b a c 。第1 节介绍了l b a c 采用的分析与合成窗不相同的m d c t 形式、分析与台成窗的设计方法以及采用的快速算法; 第2 节描述l b a c 的心理声学模型:第3 节描述了l b a c 的预回声控制技术:第4 节描述 l b a c 的自适应量化噪声分配方法。第5 节介绍丁l b a c 在t m s 3 2 0 c 6 7 0 1 评估板上的实时 实现。 第五章对通过i n t e m e t 实时传输音频信号进行了讨论,指出其特点和难点一抖动和突发 连续丢包。指出了导致这种现象的主要原因,并对人们为克服抖动和丢包而开发出的各种技 术做了归类介绍。提出了一套面向i n t e r n e t 的音频压缩编码和传输的方案。 第六章为结束语。 5 第二章人类听觉掩蔽特性 感知编码是当今音频编码的荚键技术之一,它以对听觉系统掩蔽特性的认识为基础力图 在降低音频信号客观冗余度之后再进一步降低信号中的主观冗余度即对信号中听觉系统分辨不 出的部分做进一步剔除。感知编码的关踺是建立听觉系统的心理声学模型。- 牟章介绍听觉系统 的基本结构和感知特性,重点介绍听觉掩蔽原理和几个重要的心理声学模型。 2 1 听觉系统生理结构 首先简要介绍人的听觉系统生理结构。听觉系统负责把声波转换为机械能,再把机械能 转换为能被大脑感应的电脉冲信号。它由耳朵、听觉神经纤维和人脑的部分区域构成。其中耳 朵是一个非常关键的器官。圈2 1 为人耳的简化结构。 讣玎q - 耳内耳 图2 - 1 人耳结构简图 f i g 2 - 】s t r u c m r eo f e a r 人耳由外耳、中耳和内耳3 部分构成。外耳由耳翼、外耳道和鼓膜构成,它的作用一是对 声源定位:二是对声音放大。中耳含有一个由三块听小骨构成的链,其作用是进行声阻抗变 换,将中耳两端的声陋抗匹配起来:二是保护内耳。听小僭在一定的声强范围内对声音进行线 性传递,而在声强超过一定范围时对声音进行非线性传递。内耳的主要构成部分是耳蜗。它是 听觉系统的受纳器,把声音由机械震动转换为神经刺激信号。耳蜗是一根密闭的螺纹状盘旋的 管子,内部充满了淋巴液。在耳蜗壁上覆盖着基膜,摹膜上是一层纤毛细胞。每个纤毛细胞有 一根纤毛伸展在淋巴液中,而其根部与一条听传入神经相连。:_ 声波经外耳传人中耳后,听小 骨的运动引发耳蜗内淋巴液的波动。不同的声音所引发的波动模式不同。纤毛细胞通过纤毛感 受淋巴液的波动刺激,并把这种刺激传导给听传入神经 2 2 响度、听阂和痛阈 6 这里介绍几个听力系统的基本概念。 响度 声音的响度就是声音的强弱。在物理上,声音的响度使用客观i 9 1 | | 最单位来度量,即用声压 d ”,c m 2 ( 达园平方厘米) 或声强w ,c m 2 ( 瓦特,平方厘米) 。在心理上,主观感觉的声音强弱使用响 度级“? j - ( p h o n ) ”或者“宋( s o n e ) ”来度量c 这两种感知声音强弱的计最单位是完全不同的两种概念, 但是它们之间又有一定的联系。 听阈 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阚”或者叫做绝对听 力门限。例如,1k h z 纯音的声强达到1 0 1 6 w c m 2 ( 定义成零d b 声强级) 时,人耳刚能听到,此 时的主观响度级定为零方。实验表明,听阐是随频率变化的。实验测出的“听闽一频率”曲线如 图2 - 2 所示。图中最下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听力门限”曲线,即在 安静环境中,能被人耳听到的纯音的最小值,可由下式近似计算。 r ( 厂) = 3 6 4 ( f l o o o ) 0 8 6 5 e f 06 ( ,“o d o 。3 r + 1 0 - 3 ( f 1 0 0 0 ) 4( d b ) 痛阈 另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1k h z 的纯音的声 强级达到1 2 0d b 左右时人的耳朵就感到疼痛这个阈值称为“痛阈”。对不同的频率进行测 量,可以得到“痛阐一频率”曲线,如图2 - 2 中最上面所示的一报曲线。这条曲线也就是1 2 0 方等响度级曲线。 在“听阉一频率”曲线和“痛闽一频率”曲线之间的区域就是人耳的听觉范围。这个范围 内的等响度级曲线也是用同样的方法测量出来的。由图2 - 2 可以看出,】k h z 的1 0d b 的声音和 3 0 0h z 的3 0d b 的声音,在人耳昕起来具有相同的响度。 、 , , , , _一 , :孓一, 心) j 亡专 7 、甘港) 、,、 x 、7 7 i 入7 晶爸 i 图2 - 2 听闽一频率、痛阀一频率曲线 f i g2 - 2c u r v e so f h e a r i n g 7 09 0 0 篡 图2 - 2 说明人耳对不同频率的敏感程度差别很大,其中对2k h z 4k h z 范副的信号最为敏 感,幅度很低的信号都能被人耳昕到。而在低频1 利高频i k 能被八耳听到的信号幅度要高得 多。 人耳对啊度的感觉有一个范围,即从听润到辅闽。同样人耳对频率的感觉也有一个范瑚。 人耳可以听到的虽低频率约2 0h z ,最高频率约1 8 0 0 0h z 。正如测母响应时是咀1k h z 纯音为 基准一样在测量音高时则以4 0d b 声强为基准并且矧样由主观感觉来确定。 2 3 临界频带c r i t i c a l b a n d s 人耳对声音的频谱分析是通过一种频率一位置映射来实现的【】”o ”。这个映射过程在内耳 进行。实验发现信号的不同频率分量是由耳膜的不同部位来处理的。即耳膜的不同部位只对声 波信号的特定频段敏感,或者说特定频段的信号只对耳膜的不同部位产生有效激励。耳膜内侧 的部位对高频敏感,外侧对低频敏感。图2 3 中相线是耳膜一个部位对不同频率的敏感程度。 鉴于此,我们可以把耳膜从外向内分成许多段,每段对应于一个带通滤波器,其幅频特性对应 图中2 - 3 的一条曲线。这样整个耳膜可以看成一组频带重叠的带通滤波器。这些滤波器的频率 响应是非线性并且非对称的。它们把整个频谱划分为一个个不等宽的频带我们称之为临界频 带。为了确定每个带通滤波器的临界频带位置,研究人员经过多次实验提出以临界带宽来划分 临界颖带。即把每个带通滤波器幅频特性曲线的峰值频率的临界带宽定为该带通滤波器的带宽, 以此来确定临界频带。关于临界带宽,可以认为它是引起主观感觉变化明显的带宽。可以用下 面两个试验来增加对临界带宽的认识。 在第一个实验中如图2 4 ( a ) ,我们用一个带宽为,的噪声以固定的声压级播放然后 加大该信号的带宽并仍然维持声压级恒定,此时人耳感觉声音的晌度没有变化;当噪声的带宽 a f 超过一个特定的带宽即临界带宽时人耳会忽然盛觉到声音响度的明显变化,如图2 - 4 ( c ) 。 这个现象我们可以这样解释:一开始噪声的带宽很窄,所有频率成分都落在一个带通滤波器的 i 临界频带内;当a f 超过了临界带宽,噪声的一部分频率进入帽邻的带通滤波器这时人耳就感 觉到了声音的变化。 在第二个试验中如图2 4 ( b ) ,我们用两个单频信呼来掩蔽二者之问的一个窄带噪声信 。当两个单频的频率间隔厂不超过l 临界带觉时,窄,噪声的感知门限保持不变:但是当频率 问隔超过临界带宽之后窄带噪声的感知门限就会迅速下降。i j 样如图2 - 4 ( e ) 。 t 图2 - 3 耳膜不问部位的频率响应曲线 f i g 2 - 3f r e q u e n c yr e s p o a s eo f p o i n t sa l o n gb m r 3 疑 蔓 诅 o 弓 u 添 仨 纯音 厂 鱼临界带宽 o + o 醴 广 三 “ 酋 频率频率 ( a )( b ) 图2 - 4 关于临界带宽的实验 f i g 2 - 4c r i t i c a lb a n d sm c , a s l z r c m e n tm e t h o d s v ( c ) 通过测试,频率,到临界带宽b w 。的对应关系可用下式来描述: 占旺( ,) = 2 5 + 7 5 】+ 1 4 ( f 1 0 0 0 ) 2 。”( h z )( 1 2 ) 从上式可以看出不同频率的临界带宽是不相等的,频率越高临界带宽越宽。为了分析方 便,可以把频率,和:对应起来,使得对于不同的:以:表示的临界带宽引氍( = ) 是等宽的。 人们根据实验总结出许多表达式来描述= ( 单位叫做b a r k ) 与频率f ( 以k h z 为单位) 的对 应关系。s c h r o e d e r 等人提出的表达式是 f = 6 5 0 s i a h ( z 7 ) z w i c k e r 提出的表达式为 z ( ,) = 1 3 a r c t g ( o 0 0 0 7 6 f ) + 3 5 a r c t g ( 厂l o o o ) 2 】( 1 3 ) 2 4 听觉掩蔽a u d i t o r ym a s k i n g 当两个声音同时或一前一后进入听觉系统时,强的声音( 掩蔽音m a s k e r ) 能阻碍听觉系 统感知弱的声音( 被掩蔽音,m a s k e e ) ,这种现象称为掩蔽效应。掩蔽是听觉系统的一个重要 特征。日常生活中可以观察到很多掩蔽现象。比如在一个嘈杂的环境中开会,发言者必须提高 声音才能让自己的话被别人听到。 掩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论