（通信与信息系统专业论文）移动音频关键技术的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：59 大小：2.55MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（通信与信息系统专业论文）移动音频关键技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要由于无线和移动网络的迅速发展，人们期望实现网络中高质量音频通信。然而，因为网络拥塞、信道干扰和噪声等因素的存在，实时的音频通信面临数据包丢失的问题。这个问题严重影响了音频通信质量，一直以来是音频压缩技术研究的重点。因此，无线和移动网络的可靠音频通信成为现在关注的热点。多描述编码是信源编码的一种，它被用来在不可靠网络中实时传输音频信号，它可以在不附加延迟的基础上提供可靠的信源编码。根据感知音频编码和多描述编码算法，文章研究了一种新的音频编码算法。算法主要思想是把音频采样信号分解成了听觉掩蔽信号和剩余残差信号，进行合成分析，并根据多描述算法和听觉掩蔽理论，对剩余信号进行标量量化两描述算法编码。在利用n s 2 网络仿真器设计了无线m 网络和移动自组织a dh o e 网络传输丢包仿真模型基础上，对文章研究的算法进行了音频测试及质量评估，音频测试分为主观和客观音频质量评估。测试评估结果证明，本文研究的音频压缩算法达到抗丢包低延迟高质量音频传输的目的，而且在较高丢包率情况下，该音频编码算法与现在流行的音频编码算法相比，抗丢包性能得到了明显改善。关键字：音频编码无线移动网络多描述抗丢包低延迟 a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fr n o b i l ea n dw i r e l e s si pn e t w o r k s ，h i g h - q u a l i t ya u d i o c o m m u n i c a t i o n so v e rt h en e t w o r k sa r eh i g h l ye x p e c t e d h o w e v e r , b e c a u s eo fn e t w o r k c o n g e s t i o n ，c h a n n e ld i s t u r b a n c ea n dn o i s e ，a n ds oo n , r e a l t i m ea u d i oc o m m u n i c a t i o n s a r ef a c i n gt h ep a c k e t - l o s sp r o b l e m sw h i c hr e s u l ti ns e v e r ea u d i oq u a l i t yd e g r a d a t i o n s t h e s ep r o b l e m sa r ef a ra w a yf r o mb e i n gs o l v e d t h e r e f o r et h er e l i a b l et r a n s m i s s i o n so f c o m p r e s s e da u d i oo v e rt h em o b i l ea n dw i r e l e s sc h a n n e l sh a v eg m n e dm u c ha t t e n t i o n m u l t i p l ed e s c r i p t i o nc o d i n g ( m d c ) i sas o u r c ec o d i n gt e c h n o l o g yt h a tc a nb e u s e dt ot r a n s m i ta u d i oi nr e a l - t i m eo v e ru n r e l i a b l en e t w o r k s ，i ti sa b l et op r o v i d er o b u s t s o u r c ec o d i n ga l g o r i t h m sw i t h o u ta d d i t i o n a ld e l a y a c c o r d i n gt ot h eg e n e r a lp r i n c i p l e s o fp e r c e p t u a la u d i oc o d i n ga n dm d c ，an e wa u d i oc o d i i l ga l g o r i t h mb a s e do nm d ci s d e s i g n e da n dt e s t e d t h em a i ni d e a so fa u d i oc o d i n ga l g o r i t h ma l et h ed e c o m p o s i t i o no f a u d i os i g n a l si n t oh e a r i n gm a s k i n gt h r e s h o l da n dr e s i d u a ls i g n a l si nt e r mo fa u d i o a n a l y s i sa n ds y n t h e s i s ，f o l l o w e db ym d cp r o c e s s i n go fb o t hh e a r i n gm a s k i n gt h r e s h o l d a n dr e s i d u a ls i g n a l sw i t ht h ee m p h a s e sb e e np u to nt w od e s c r i p t i o n sc o d i n ga l g o r i t h r n s f o rr e s i d u a ls i g n a l sb yt w od e s c r i p t i o n ss c a l a rq u a n t i z i n g t h ed e s i g n e da l g o r i t h m sa r ef u l l yt e s t e da n de v a l u a t e db o t hi nm o b i l ei pn e t w o r k s a n da dh o cn e t w o r k st h a ts u f f e rf r o mp a c k e tl o s s e sb yu s i n gn s 2n e t w o r ks i m u l a t o r , i n c l u d i n gb o t hs u b j e c t i v ea n do b j e c t i v eq u a l i t ye v a l u a t i o n s t h er e s u l t sh a v es h o w n t h a t t h ea u d i oc o d i n gs c h e m e sp r o p o s e di nt h i sp a p e rd oh a v er o b u s ta n t i - p a c k e t - l o s s p e r f o r m a n c e ，a n di n t h ec 豁eo fh i g h e rp a c k e t l o s sr a t e s ，t h ea u d i oq u a l i t yi se v e nb e t t e r t h a tt h a to fs o m ep o p u l a ra u d i oc o d i n gs c h e m e s k e y w o r d ：a u d i oc o d i n g w i r e l e s s m o b i l en e t w o r k m u l t i p l ed e s c r i p t i o nc o d i n ga n t i - p a c k e t - l o s s l o w d e l a y 独创性( 或创新- | 生) 声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：查j 蚕日期关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。日期蓑名名签签人师本导第一章绪论第一章绪论 1 1 音频压缩技术发展入耳可以听见的声音频率动态范围从2 0 h z 到2 0 k h z ，声音强度的动态范围则在1 0 0 d b 以上。声音的宽带和动态范围比较大，所以要求无损的存储音频数据的数据量就非常的大。因此，降低音频数据的数据量成为设计各种音频编码算法的直接目的。通常用低比特率传输和存储音频信号，得到有较小失真的可接受的音频质量。现在高效的音频编码算法大多都为感知音频编码，利用人的听觉系统特性来压缩声音数据。音频压缩技术的发展【l 】最初是从无损压缩开始的。2 0 世纪7 0 年代初期，音频编码中采用了脉冲编码调制p c m ( p u l s ec o d i n gm o d u l a t i o n ) 编码，这是一种通用的无损压缩编码，它的特点是保真度高、编解码运算复杂度低、但编码后的数据量大、编码效率比较低。2 0 世纪8 0 年代出现的c d 技术，全面体现了数字音频的高保真、大动态范围、稳健性等优点，并在实际应用中取得了巨大成功。传统的音频编码技术 2 1 是通过去除音频信号中的统计冗余达到降低编码比特率的目的，感知音频编码技术就是利用了入耳听觉系统的掩蔽特性，根据心理声学分析，有效地去除音频信号的感知冗余，从而在保证良好感知音质的同时进一步降低编码比特率。通常采用其中的变换编码( t g 称频域编码) 不仅能有效去除统计冗余，而且也便于心理声学分析。目前高效的音频编码算法大多都属于变换的感知音频编码。如m p e g 一系列音频标准，音频编码技术的发展主要朝向高压缩比、高音质和高灵活性。数字音频编解码技术【3 】现在已作为应用最为广泛的数字技术之一，具有高保真、大动态范围和稳健性的优点，其c d 、v c d 、d v d 等大众消费类产品早已走迸千家万户。近年来，应用的需求促进了数字音频压缩技术的研究，各种高质量音频编码技术也取得了较快发展。但数字化后的音频信号数据量非常大，如未经处理，其存放、网络传送都存在很大问题，因此音频的数据压缩就显得尤为重要。现代多媒体和网络通信技术的飞速发展【4 】【5 1 ，数字音频技术己经在数字影音系统、高清晰度电视、数字音频广播、电话会议系统、无线通信、互联网多媒体业务等领域中得到了广泛的应用。如今，音频压缩己存在很多的压缩编解码方案，有w m a 、a a c 、m p 3 等，其中最常用的是m p 3 。但随着时代的进步，这种音频压缩算法己不能满足需要，比如压缩率落后，低码率下音质不理想，仅有两个声道等等。 2 移动音频关键技术的研究另外，随着多媒体应用的日益广泛，特别是在无线和移动网络环境下，常常受到带宽等因素的限制无法兼容高码率。但是用户期望在所有的数字系统上都能享受c d 音质的回放，为了利用有限资源，因此要求在不降低音质的情况下，对原始数字音频信号进行压缩以减小数据传输所需要的码率，这已成为无线和移动音频通信中一个重点研究的问题。第三代移动通信3 g 的发展，其用高的频谱利用率向移动用户提供多媒体业务。其中的语音编码技术【6 】【7 】可降低语音信号的传输速率。代表如a m r ( a d a p t i v e m u l t i r a t e ) 语音编码标准，支持多种不同的速率，可根据无线信道和业务量选择最佳的信道模型和编码模式。a m r 语音编码技术带动了移动音乐点播、手机音频广播、手机电视、移动音频会议等业务。另外3 g p p 还制订了面向移动多媒体应用的音频编码标准，如e a a c + ( e n h a n c e da a c ) 和a m rw b + ( a d a p t i v em u l t i r a t ew d e b a n d ) 。移动流媒体技术1 8 j 是近年来的新兴技术，它是流媒体技术和移动通信技术相结合的产物。移动流媒体技术标准中，最适合当前移动通信技术及移动终端制造水平的是m p e g 4 编码标准。无线数字广播d a b 技术便利用了入耳的听觉特性掩蔽效应，有效利用频谱在多径环境中接收和传输多路优质立体声广播信号。采用掩蔽通用子带集成编码复用m u s i c a m ( m a s k i n gp a t t e r nu n i v e r s a ls u b t e n di n t e g r a t e d c o d i n ga n dm u l t i p l e x i n g ) ，将宽带信号的频谱分割成3 2 个子带，每个子带根据人耳的听觉特性去除语言和音乐信号的冗余和不相关。 1 2 主要音频压缩标准经过近二三十年的研究，音频信号压缩技术已取得了很大进展，开发出了许多压缩方法和标准，代表如m p e g 音频等，本节就简要介绍几种典型压缩标准例。 m p e g i 音频压缩标准是第一个高保真音频数据压缩标准，广泛地应用在 v c d 的制作和一些视频片段下载的网络应用。压缩都会带来音频的失真，但 m p e g l 利用人耳听觉系统的感知特性，去掉人耳听不到的信息细节降低压缩率，因此对入耳而言不失真。m p e g l 音频压缩标准提供了三个压缩层次，其中第3 层 m p e g l 层i i i 音频压缩模式复杂但音质最好。它将音乐文件以l ：1 0 甚至l ：1 2 的压缩率，压缩成容量较小的文件，因为体积小，音质高的特点使得m p 3 广泛使用。每分钟音乐的m p 3 格式只有1 m b 左右大小，这样每首歌的大小只有3 - - - 4 兆字节，而m p 3 播放器则用以对m p 3 进行实时的解压缩，这样高品质的m p 3 音乐就播放出来了。 1 9 9 4 年颁布了m p e g 2 标准，成功利用了感知音频编码技术。接着m p e g 又相继推出了一系列音频压缩编码标准，如面向多声道的音频编码标准m p e g 2 第一章绪论 a a c ，面向对象的音频编码标准m p e g4 音频标准等。m p e g 2a a c 音频标准不仅利用人耳的掩蔽特性来掩蔽有损编码失真，而且利用变换编码除去通道内的统计冗余，压缩率可达l ：l5 ，在6 4k b s 声道的编码码率下可达到感知无损的音频编码效果。 d o l b y 音频压缩标准是由美国杜比实验室开发的将心理声学、d o l b y 音频压缩标准、人耳掩蔽效应与信号处理技术结合形成了多声道音频处理技术。d o l b y 音频压缩标准a c l 用于卫星通信和数码有线广播，a c 2 用于专业音频的传输和存储， a c 3 采用第三代自适应变换编码a t c 技术。a c 3 被广泛应用于数字影院d v d ，卫星数字广播d b s 等标准中。a c 3 感知编码系统主要利用心理声学中掩蔽效应和哈斯效应原理，将原始信号中不相关分量和冗余分量有效的去除掉来实现。人类的听觉掩蔽作用是将每一声道的音频频谱分成许多不同的窄频带，并对应于人类听觉对频率的选择性进行处理。这样就使得它有可能敏锐地滤掉编码噪声。只要这些噪声是被控制停留在某一频率上，而该频率与被编码信号的频率分量十分接近。在没有信号或信号输入时，杜比降噪则进行工作，将噪音降低或消除，因而可将原来信号的音质完整地保留下来。 a a c 是继m p e g 音频标准之后的新一代音频压缩标准，该标准主要是在a c 3 及m p e g l 层i i i 等的音频压缩算法的基础上发展起来的。其主要目的就是码率要求进行大幅度的压缩。a a c 可以支持1 到4 8 路之间任意数目的音频声道组合、包括1 5 路低频效果声道、配音多语音声道，以及1 5 路数据。它可同时传送1 6 套节目，每套节目的音频及数据结构可任意规定。在码率为6 4 k b s 的条件下，a a c 可以提供较好的声音质量。 1 3 本文研究主要内容及成果本论文通过对音频压缩编码，感知编码技术，以及现有的移动音频压缩编码算法的研究、分析、对比，在感知音频编码和多描述编码算法基础之上，重点研究了一种适用于无线和移动网络传输的抗丢包低延迟的音频压缩算法，实现了网络传输后的音频质量得到一定保证和优化的目的。为了在互联网上可靠传输语音信号，采用多描述编码m d c 算法，它是信源编码的一种，被用来在不可靠网络中实时传输音频信号，它可以在不附加延迟的基础上提供可靠的信源编码。算法主要思想是把音频采样信号分解成了听觉掩蔽信号和剩余残差信号，进行合成分析，并根据多描述算法和听觉掩蔽理论，对剩余信号进行标量量化两描述算法编码。另外算法还采用了相对较短的、长度固定的变换窗和采用m d c t 技术，在算法低延迟下提供实时的高质量的音频服务。 4 移动音频关键技术的研究论文还研究了移动和无线网络传输仿真。利用网络仿真器n s 2 网络仿真软件环境，编写相应的t c l 仿真脚本文件，在无线和移动网络结构理论基础上，构建了无线i p 网和移动自组织a dh o e 网络的传输模型。并将之前的音频编解码器应用其上以便于考查算法性能，重点考察音频算法通过a dh o c 网络传输模型后的数据报丢包情况。论文的最后一部分音频性能测试与评估上，选取3 g p p 提出的e a c c + 和a m r1 j b + ，以及本文的音频抗丢包算法，进行主观音频测试，对比分析测试结果，可以看出本算法在网络质量严重丢包情况下仍能够保持较好的音频和可懂语音质量，明显优于其它两种编解码算法。 1 4 论文结构安排本文核心研究了一种抗丢包低延迟音频编码算法，采用关键技术如多描述算法、m d c t 变换等，根据音频编码信号通过无线网络和移动网络传输的仿真验证，分析证明了音频算法的抗丢包性能改善。具体论文结构如下：第一章：绪论，简要介绍音频压缩编码技术发展及主要的音频压缩的标准。第二章：音频压缩编码，介绍现有音频技术、发展，接着介绍了感知编码技术及移动音频技术。第三章：移动音频编码算法，重点研究一种适用于移动网络传输的抗丢包音频压缩算法及关键技术，如多描述算法的分析，心理声学模型的分析等等。第四章：移动网络传输仿真，研究了压缩编码音频信号在无线网络和移动网络传输仿真，利用网络仿真器n s 2 软件建立传输丢包模型，实现本文的抗丢包音频编解码信号的实时双工网络通信模拟。第五章：性能评估与结论，介绍了音频性能测试分析，测试对分析比包括本算法在内的三种算法压缩的音频信号在经过移动自组织网络传输后的抗丢包性能，并得出结论。第六章：结论，总结了本文的主要算法研究与工作。第二章音频压缩编码第二章音频压缩编码 2 1 音频语音编码音频语音压缩编码在信息论中属于信源编码范畴，就是为了提高信号传输和存储的效率，以最少的码率表示信源所发的信号。信源编码方法可以分为有失真编码和无失真编码。无失真编码压缩比有限，对于音频信号来说，并不需要完全无失真地恢复原始信号，音频压缩通常采用有失真编码方法。音频语音编码标准采用的主要压缩算法按编码技术可分为参数编码、混合编码和波形编码三大类1 】【7 11 9 1 1 0 1 。 ( 1 ) 波形编码数字音频信号最直接的表示形式是一维波形。波形编码就是直接对音频时域或频域波形样值进行编码，通过去除信号间的冗余度，利用人类听觉特性，降低量化每个音频样值的比特数，同时保持原始音频波形特征，使重建信号与原始信号的波形尽可能相同。波形编码能保持原始信号的波形特征，可以获得感知无失真的透明质量，适合于宽带音频信号，但受量化噪声的限制，码率不易降低，属于中高码率编码，在数字音频广播、数字电视伴音、多媒体通信等一些要求高质量的领域应用十分广泛，并且经常被选为宽带音频压缩标准的主体技术。波形编码可以分为时域编码和频域编码。以t 3 a 律压扩脉冲编码调制p c m 最简单、最成熟，应用广泛，这是时域波形编码方法。其它还有差分脉冲编码调制 d p c m ，自适应差分脉冲编码调制a d p c m 等。时域编码算法简单，易实现，压缩率较小，音质不高，只适用于窄带语音信号，主要应用于卫星通信，长距离通信等。频域编码可分为子带编码s b c 和自适应变换编码a t c 。s b c 就是利用带通滤波器组把信号频带分割成若干子频带( 简称子带) ，然后通过调制过程将各子带信号平移到零频率附近变成低通信号，以奈奎斯特速率对各子带输出采样，最后分别对各子带信号独立进行量化、编码。在解码端，将各子带信号解码并重新调制回其原始位置，再让其通过合成带通滤波器组，最后把所有滤波器的输出相加就得到接近于原始信号波形的重构信号。 s b c 各子带信号的量化噪声都束缚在本子带内，对其它频带没影响，从而避免能量较小频带内的输入信号被其它频段的量化噪声所掩蔽，也可以控制噪声谱的形状。但由于它的均匀子带划分，与人耳听觉要求的按临界频带近似对数的非均匀划分的特性不相匹配，不能使噪声较好的掩蔽，影响了码率的降低。目前它已成为宽带音频信号压缩国际标准中的主要技术，代表是由国际标准化组织i s o 6 移动音频关键技术的研究下属的运动图象专家组制定的m p e g 音频等。 a t c 是频域波形编码技术，利用正交变换把时域音频信号变换到另一个变换域中，正交变换可去除样本间的相关性，使变换域信号能量集中在较小范围内，再根据信号短时统计特性对变换系数进行自适应比特分配、量化和编码，实现码率的压缩。在解码时使用相应的逆变换可获得重构的音频信号。在a t c 中普遍存在预回声问题，即当信号帧有瞬变时会产生入耳能感觉到的噪声。解决的方法是根据信号的内容调整帧长，如依据信号的特性自适应地改变变换长度。 ( 2 ) 参数编码最早的音频压缩对象是电话语音信号。语音学和医学研究表明，人类发音器官产生声音的过程可以用一个数学模型来逼近。参数编码就是以语音信号产生模型为基础，把语音信号表示成某种模型( 如共振峰模型、声管模型等) 的输出，提取必要的模型参数和激励信号的信息( 如基音周期、共振峰、语音谱、声强等) ，并对这些参数进行编码，加以传输或存储，最后在解码端再利用这些特征参数合成出再生的语音信号，这类系统又称声码器，己开发出各种不同类型的声码器系统，如相位声码器、共振峰声码器、线性预测l p c 声码器等。其中应用最为广泛的是 l p c 声码器。声码器的码率可压缩到很低，如可达2 4 k b s 。参数编码重点是考察再生语音与原始语音具有相同或接近的听觉效果，而非波形的一致。参数编码属于低码率编码，压缩效率较高，但合成语音的音质较差，而且算法复杂，计算量大，很难满足实时性的要求。另外，该方法基础是人类发音的声道模型原理，因而只适合于语音信号，对音乐等非语音的音频信号难以胜任，在当前的多媒体音频压缩中没有考虑这一方法。参数编码方法主要应用于窄带信道的语音通信、保密和军事通信等领域。 ( 3 ) 混合编码多年来人们一直使用准周期脉冲( 对浊音) 和白噪声( 对清音) 作为激励源，这种简单的激励模型限制合成语音质量的进一步提高。近年来出现混合编码的新方案，在保留参数编码基础上，应用波形编码准则去优化激励信号。编码系统是先“分析输入语音，提取声道模型参数，然后选择激励信号去激励声道模型产生“合成”语音，通过比较合成语音与原始语音的差别，寻找感知失真最小的激励信号，以追求最佳逼近原始语音的效果。编码的过程是一个分析加合成的过程，称为“按分析来合成 a b s ( a n a l y s i sb ys y n t h e s i s ) 编码。由于采用的激励信号模型不同，这类方法中派生出多种新的编码方案，代表有码激励线性预测c e l p ，即从矢量激励码本中选择最佳码矢量作为激励源。近年来c e l p 的研究在改善音质、降低复杂度和减少编码延迟方面都提出了许多改进，如代数码激励线性预测a c e l p ( a l g e b r a i cc e l p ) 和c s a c e l p ( c o n j u g a t es t m c n 鹏 a c e l p ) 等等。第二章音频压缩编码混合编码是中低码率高质量语音编码的发展方向，码率较低，音质好于参数编码，能产生接近原始语音波形的合成语音，保留说话人的各种自然特征，提高了合成语音质量，但还达不到高保真的透明质量，算法复杂。目前8 k b s 的语音编码技术已经标准化，码率在4 k b s 左右的编码方案是标准化制定和实用产品竞争的热点，主流仍为基于c e l p 的编码技术。而研究转向更低的码率，比如2 4 k b s 或 1 2 k b s 。 2 2 感知音频编码音频压缩编码是为了有效地存储或传输高质量的音频信号，主要目的是用尽量少的比特数来描述原始信号，且尽可能保证重构的信号不失真。依靠人耳听觉模型，感知音频编码技术可以更容易达到这个目的。为了获得更高的压缩比，一种追求在主观感知意义上更接近的高质量、低码率的音频编码逐渐成为数字音频压缩技术的主导，并且可以加上各种其它技术，如时频变换技术d c t ，m d c r t l o j 等。总之音频压缩研究重点已从由精确恢复原始信号波形转为充分利用人类的听觉感知特性，去除信号的固有冗余，且有效去除感知冗余，这种方法称为感知音频编码p a c ( p e r c e p t u a la u d i oc o d i n g ) i l l 】。感知编码技术产生于上2 0 世纪8 0 年代，在音频编码中有着广泛的应用最早是在1 9 9 1 年制定的m p e g1 音频编码中得到成功应用1 9 9 2 年p b i l i p s 公司生产的数字录音带d c c ( d i g i t a lc o m p a c tc a s s e t t e ) 是最早采用感知编码技术的设备。之后的m p e g2 、杜比a c 3 、d t s 和a v s 等音频编码标准都是感知编码技术的成功应用，以下简单介绍感知编码技术。感知音频编码器利用信号的统计特性和人类听觉的感知特性，去除信号的统计冗余，并利用心理声学现象中的掩蔽效应，建立心理声学模型，去除人耳不能感知的声音成分。同时也不一味追求最小的量化噪声，而是力求使量化噪声不被人耳感知即可。“掩蔽”心理声学效应就是如果一个单音在频率上接近另一个单音，但其声强较低，将不会被听到，声强较低的单音为声强较高的单音掩蔽了。掩蔽门限曲线是频率的函数，在该曲线下的另一个声音就无法为人类的听觉系统感觉到。这是个动态的过程，当声音的频谱改变时，掩蔽曲线也跟着改变。所有的数字音频系统都受到在量化过程中产生的噪声影响。感知编码器的工作原理就是对量化噪声的频谱进行尽可能精确的整形，使其被控制在掩蔽门限以下。这样既实现了音频数据压缩的目的，又不影响解码端重构音频信号的主观音质。由于子带编码和变换编码的优点，使得两者在感知音频编码算法中被广泛应用。感知音频编解码器的基本结构框图分别如图2 1 和图2 2 所示：移动音频关键技术的研究堑擎磊鬲幽二蕊眶图2 1 感知音频编码器的基本结构框图图2 2 感知音频解码器的基本结构框图不同感知音频编码器在具体实现上可能略有差异，但其算法原理与过程基本相同。编码器用变换窗对输入的数字音频信号加窗分块处理，为了消除边界噪声，相邻数据块之间往往相互重叠。时频分析( 滤波器组) 不仅提供基本的分析综合系统，它是实现变换编码和子带编码的基础。编码器将一个短周期内的连续时间采样信号( 即数据块) 送入子带滤波器中，滤波器组将信号分成多个限带信号。各子带信号再经过时频变换，得到的频域参数被输入到量化编码模块。由于子带滤波器和变换滤波器级联，所以通常称为混合滤波器组。心理声学模型【1 2 】是感知编码器的核心，它利用了心理声学中的掩蔽现象，提出了临界频带的概念。心理声学模型对一个数据块进行分析，以临界频带为单位分析信号的掩蔽特性和掩蔽效果，模型输出掩蔽阈值曲线，以此为依据去除听觉不相关成分，掩蔽阈值提供给比特分配模块来控制量化噪声的大小，决定比特分配方案。比特分配模块依据心理声学模型提供的信息拟定比特分配方案，供量化编码模块参考。量化编码模块按照给定的比特分配方案进行比特分配，对频域参数进行量化和编码，并将结果送给复合器进行比特流封装，在比特流中加入必要的边信息形成最终的输出码流。量化编码模块一要考虑心理声学模型的分析结果，去除听觉不相关成分并尽可能地将量化噪声控制在掩蔽阈值之下，同时还要考虑编码比特率，因此，量化编码模块要在给定的编码比特率下力求获得最好的音质，或在给定的音质要求下要求最小的编码比特率。感知音频解码器相对于编码器而言要简单，由于没有心理声学模型，所以计算量也小得多，除此之外，解码过程基本上是编码过程的逆过程。解码时，编码比特流经拆帧，得到数据流和边信息，两者经熵解码，即得到频域参数，再经时频反变换，形成重构的数字音频输出。第二章音频压缩编码 9 2 3 1 移动通信信道 2 3 移动音频编码近年来无线通信【1 3 】发展迅猛。无线通信是指不借助有线传输媒介，通过电磁波在空间传播传递信息的通信方式。无线通信因其传输媒介是无线信道而具有以下特征： ( 1 ) 广播性：一个发射机发送，多个接收机都可以接收。 ( 2 ) 信道随空间变化而变化：随着空间环境的不同，信道特性往往不同。 ( 3 ) 信道随时间变化而变化：存在快速变化和较慢变化的区别。 ( 4 ) 传播距离有限：发送信号随距离增大而逐渐衰减，信号衰减到一定程度上接收机将不能正确接收。 ( 5 ) 多径效应：信号可沿不同路径到达接收机，造成衰落和时延扩展。 ( 6 ) 相互之间形成干扰：多个发射机发送的信号可能会在接收端叠加，形互相互干扰，从而对信号的正确接收造成影响。移动通信信道是信号传播的“通道”。在移动通信信道中，由于散射体的存在、以及移动台运动引起了包括衰落、多径时延扩展、多普勒扩展、衰减等在内的多种信道损伤。也因为移动台运动的原因，移动通信信道是一个线性时变信道。散射物2 移动台l 图2 3 无线通信移动通信信道的主要特征之一是存在多径衰落。多径衰落是由通信终端的移动和电波的多径传输而引起的，是由直射波和各种反射波、散射波的相互干涉和串扰，以及移动台运动和传播媒质时变所引起的多普勒频展等产生的。实际中移动台的运动和周围环境的变化都是随机和无规则的，使得多径衰落信号具有非常复杂的特性。移动通信中的电磁波是在复杂的环境中传播的地型、地貌以及建筑物要对电磁波产生反射、散射、绕射。多个建筑物( 散射体) 对电磁波的反射、散射、绕射到收发天线的接收波是多个信号的迭加，它们对收发天线上的来波的方 l o 移动音频关键技术的研究向角度、时间延迟等量产生影响，引起衰落及多普勒效应。如上图2 3 ，信号在通信环境下的衰落现象。移动通信的电磁波信号通过移动信道时会受到各个方面衰减损失。影响信号衰减的因素主要是衰落现象。移动通信的复杂性还体现在通信环境或移动台或散射物的移动性。由于移动台和一部分或全部散射体的移动，使得投射在其上的信号的频率发生偏移，即多普勒效应 2 3 2 移动音频技术现在的音频编解码技术主要有m p e g 音频，a c 3 和o g gv o r b i s t l 4 1 1 5 j 等。m p e g 音频发展的趋势是低编码速率、高压缩率、低时延等。还有开放源码的音频编解码技术o g gv o r b i s 也是一种高质量的音频编解码方案。例如m p 3 ，a a c ，a c 3 等都成功运用感知编码技术。利用人的听觉系统的特性来压缩声音数据，关键的技术就是心理声学模型，心理声学模型模拟了人耳的听觉特性，在听觉阈值以外的电平可以去掉，去掉冗余相当于压缩数据。移动音频是现代移动通信系统中的新业务，移动音频被广泛应用的领域主要是手机和m p 3 播放器。近年来，日益发展的无线网络也使得宽带语音和高保真音频压缩编码技术也得到迅速发展，移动通信高度衰落的环境产生的延迟成为首要的问题，移动通信系统的丢包问题也严重影响质量。还有存在一些问题有如怎样满足源功率和存储量限制，有限的频带，移动设备通信中低能耗；在最低码率下怎样实现尽可能小的数据丢包从而达到好的音质等等。随着移动通信的快速发展和3 g 试验网的开通，带动了移动音乐点播、手机音频广播、手机电视、移动音频会议等新兴移动音频增值业务需求的快速增长。但传统语音频编码难以满足移动多媒体应用低码率、高质量的编码要求，因此3 g p p 制订了面向移动多媒体应用的音频编码标准，将波形编码与参数编码相结合，在 l0 2 0k b s 的编码码率下可高质量地重建音频信号，代表如e a a c + 和a m rw b + 。中国的数字音视频标准工作组( a v s ) 在2 0 0 5 年底制定完成了具有自主知识产权的面向数字电视、高密度激光存储、网络流媒体等重大音频应用的新一代音频编码压缩技术标准a v s 音频编码标准【l 们，它采用通用感知音频编码框架和最新的数字信号处理技术和编码压缩技术，在“k b s 的编码码率下达到了感知透明的编码质量，其编码性能和压缩效率已达到了国际先进的m p e ga a c 音频编码标准，并优于m p 3 、d o l b y 、a c 3 等音频编码技术，支持可分级编码。为了向迅速发展的移动通信、移动多媒体业务、无线流媒体等诸多应用提供音频编解码、文件和存储格式等方面的规范和标准，a v s 音频工作组于2 0 0 5 年底启动了a v sm 移动音频编码标准的制订，2 0 0 7 年3 月已经完成了w d 文档，初步的性能测试表明其性第二章音频压缩编码能与a m rw b + 相当。移动音频技术特色【1 7 】主要体现在以下三点： ( 1 ) 实现高效压缩移动多媒体应用是随着第三代移动通信发展而出现的新业务，种类包括通信服务、手机电视、音视频广播、移动音乐点播、互动游戏等，这些服务涉及到大量的音频数据，在传输过程中需要相当大的带宽。中国目前移动网络带宽情况好坏不一，但共同的特点就是带宽较窄，这样的带宽在移动网络上传输大量的音视频数据势必会造成网络拥塞，必须采用高效率的编码标准进行数据压缩，才能保证高品质的声音。例如移动音频充分利用人耳听觉的掩蔽特性与心理声学特性，采用各种先进的数字信号处理技术和压缩技术充分去除音频信号的冗余，在1 0 , - - 2 0 k b s 的编码码率下能达到高保真音质。这样在实现高压缩比的同时仍能保持高质量的声音效，最大限度地节省了系统带宽。 ( 2 ) 编码的灵活性例如a v sm 移动音频编码标准实现了信源的自适应可变速率编码，其编码码率在8 - - 4 8 k b s 范围内连续可调，并且对应不同的容错率，允许在每帧的边界处进行不同的速率切换。移动音频编码还可根据当前网络的实际业务量大小和通信信道的好坏调整源编码速率和容错率，选择最佳编码模式和最佳信道模式使编码质量和系统容量达到最佳组合，能够使音频数据自适应地在移动网络上传输，体现了其编码灵活性的特点。 ( 3 ) 强大的错误保护机制当前无论是3 g p p 的咖s 还是3 g p p 2 的c d m a 2 0 0 0 系统，系统架构都将向全口的方向演进和发展，包括对语音、数据、多媒体等业务形式的承载均是基于口的。l p 是一种无连接、无资源预留、尽力而为型的传输标准，不提供q o s 保证，也就是说网络中所有的数据包将被同等传输，不能保证一定的端到端延迟或不被丢弃。而网络传输所造成的延迟、抖动或丢包等问题，也是影响移动多媒体业务至关重要的因素之一。因此，移动音频技术要求提供了非常强大的错误保护机制，误码恢复技术可降低压缩码流对差错的敏感性。同时移动音频还可支持对误码保护信息进行非均匀分配，对重要的对象进行重点错误保护，从而在网络状况极差的情况下，最大限度地降低重要对象的出错概率，使移动多媒体业务能以较低的出错概率实时或低延时地进行传输。 2 4 本章小结本章主要研究了音频压缩编码，首先简要介绍了波形编码、参数编码、和混移动音频关键技术的研究合编码这三种编码技术。其次重点介绍了现在被广泛应用的感知编码技术，分析了感知编码算法原理，核心是利用了心理声学特性和掩蔽效应。接着分析了移动通信信道的基本特征，主要是多径效应，正是由于移动信道的特殊性，因而给移动音频通信带来了一定的影响，因此移动音频技术与普通音频压缩更要关注一个问题：网络传输使接收到的解码音频数据质量受损严重。最后本章也简要介绍了移动音频技术特色。第三章移动音频编码算法研究 1 3 3 1 1 算法原理第三章移动音频编码算法研究 3 1 移动音频编解码算法在移动和无线通信中，无线信道随机和时变的，移动设备的移动性和无线通信多径效应引起延迟会增加传输数据包出错。另外在移动网络中，无线信道的干扰和噪声也增加了数据丢包率。在无线或移动通信中怎样实现高质量音频通信，研究一种抗丢包、低延迟、高质量、高保真的音频编码算法成为重点。本章讨论的一种抗丢包低延迟的音频编解码算法【1 8 1 1 9 1 ，在算法低延迟下提供实时的高质量的音频服务，同时采用抗丢包技术多描述算法来保证了网络可靠通信。算法采用m d c t 技术，由于未使用子带滤波器组，编码器能在不进行下采样的条件下，可将c d 高质量立体声信号压缩到低于4 8 k b s 比特率，输出比特率支持变速率v b r 和恒定速率c b r ，范围为1 6 - 1 2 8 k b s c h ，输入音频信号支持采样率8 - 1 9 2 k h z ，支持单声道、立体声、4 声道、5 1 声道，最高可支持2 5 5 独立声、u 遭。编码过程如下图3 1 所示，原始p c m 音频信号在经过，加窗处理后分成两路，一路进行时频分析，一路进行心理声学分析。时频分析完成音频信号从时域到频域的变换，从而得到信号的频域参数( 频谱) 。时频变换的主要目的是为了将信号的能量集中于少数的几个频谱系数，便于量化和编码。另一路加窗后的数据块f f t 后作心理声学分析，结合m d c t 频谱系数，计算掩蔽曲线。为了以尽量少的比特，且又能较精确地表示掩蔽曲线，算法结合了i 艋界频带的概念，对掩蔽曲线通过线性分段逼近的方式获得基底曲线，然后用基底曲线对m d c t 频谱进行白化处理，得到去除感知冗余之后的残差信号，由于残差信号的动态范围明显变小，从而可以减少量化误差或节省编码比特数。剩余信号原始音频输入听觉剩余时频分析信号分析 ji 无失真编码与熔苗门荫音频包形成。，心理声学模型 3 1 编码器框图对于多声道，采用声道耦合技术可以进一步降低冗余度。耦合主要是将左右 1 4移动音频关键技术的研究声道数据从直角坐标映射到正方极坐标，再将掩蔽门限和剩余信号进行无失真编码( 如h u f f m a n 编码) ，以消除信源统计多余度，进一步压缩比特率。最后，将编码比特流送入信道。 3 1 2 关键技术分析跟其它感知音频编码算法一样，该算法是通过去除感知冗余和统计冗余来获得编码增益，因此时频分析模块与心理声学模型是本文音频编码器的核心。 l 时频分析技术在本文研究的编码算法中，时频分析算法利用m d c t 1 0 】【1 9 】用作心理声学分析，是许多其它感知音频编码算法不具有的特点。分析合成技术广泛应用于语音和音频编码，分析合成系统的基本结构包括一个分析滤波器组和一个合成滤波器组，分析滤波器将输入信号x 坼j 分为多个连续的频带或多个通道信号x t k ) ，合成滤波器将多个通道的信号合成以得到原始输入信号的重构。有两种实现方式：一种是用带通滤波器或低通滤波器结合调制器。在频域中分析信号重构的条件：各通道分析合成滤波器的频率响应的叠加为一常数。另一是实现方式是基于块的变换，原始的时域信号加窗后变换成为频域表示，这种变换可以很好地在频域中解释信号的特性，常用的变换有d f t 、d c t 。合成时，经反变换后的时域序列与合成窗相乘，再与先前的部分数据混叠相加。由于基于块处理是对每一数据块单独量化编码，易引起边界噪声，而时域混叠抵消滤波器组在处理语音和音频信号时，相邻块之间有5 0 的混叠，可以有效地消除块效应。滤波器在使用快速算法的d c t 变换中加入时域混叠抵消的作用，修改了变换对的变换基之后，得到m d c t 变换对如下 2 4 1 ：刖= 2 n 孰- o 刊c o 争+ 肛0 ，l ，舢陆。荆= 吾m 墨帅挣+ 肛蛳，州陆2 ，其中是变换块长度，1 1 0 是一个固定的时间偏移量，帅j 为窗函数，其长度等于变换块的长度，加窗目的是为了降低边界效应对谱分析的影响，同时提高频域分辨率。为了重构输入信号，窗函数数必须是偶对称，且平方的重叠相加为1 。 w ( 一1 一刀) = w o ) 矿0 ) + w 2 ( 2 + n ) = l ( 3 - 3 ) ( 3 4 ) 第三章移动音频编码算法研究 1 5 2 心理声学分析技术f 2 0 l 【2 1 人耳的听觉系统是一个相当复杂的生理系统

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）移动音频关键技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）移动音频关键技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档