(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf_第1页
(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf_第2页
(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf_第3页
(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf_第4页
(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(电路与系统专业论文)av3中cbc算法的改进与cbr编码模式的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 a v s 是我国具备自主知识产权的第二代信源编码标准,包括系统、视频、 音频、数字版权管理等四个主要技术标准和一致性测试等支撑性标准。a v sp a r t 3 ( a v 3 ) 是其音频部分,具有压缩效率高、编码质量好、支持精细粒度可伸缩 编码等特点,适用于高分辨率数字广播、高密度激光数字存储媒体、无线宽带 多媒体通信、互联网宽带流媒体等重大信息产业。a v s 是我国唯一的政府推荐 标准,且相比于m p e g 标准具有专利使用费低的竞争优势,这些都使a v s 具 有不可估量的发展前景,故对a v s 音频部分的研究具有重大的现实意义。 论文详细分析了a v 3 的核心算法叫b c ,并针对低码率情况对c b c 算 法提出了改进方法一比特平移位平面编码方法,使其在低码率情况下能有更 好的编解码效果。利用m a t l a b 对改进前后的c b c 算法的编解码结果进行分 析比较,结果表明:在码率相当且比特封装发生截断的情况下,改进后的c b c 算法解码出来的音频信号在客观质量上比改进前c b c 算法解码出来的音频信 号要好,解码后的相对误差平均减小6 5 2 d b 。 同时,因为在一个带宽受限的信道中,相比于a b r 编码模式,c b r 编码 模式将更适合于这样的信道,故本文还对c b r 模式下的a v 3 编码器进行了探 索和研究。论文首先分析了c b r 模式下感知音频编码器中的一些关键技术,然 后着重研究了a v 3 编码器的量化模块,但因为双层迭代模型存在一些缺点,故 本文采用改进的循环迭代模型对频谱系数进行量化。论文还在w i n d o w s 平台上 实现了c b r 模式下a v 3 编解码器的c 代码,并对其解码结果进行分析。结果 表明:c b r 模式下的编码器比a b r 模式下的编码器更易于实现码率控制,当 在带宽受限的信道中传输a v 3 码流时,c b r 模式下的码流在传输过程中不会 发生比特流截断的问题,且在两种编码器实际输出码率相当的情况下,c b r 模 式下的信号包含的频谱成分更丰富;但是,对于内容比较复杂或幅度变化比较 剧烈的音频部分,c b r 模式下解码得到的信号产生的误差比a b r 模式下解码 得到的信号产生的误差大。 关键词:a v s ;音频编解码;上下文位平面编码( c b c ) ;固定码率( c b r ) 浙江大学硕士学位论文 a b s t r a c t a v si st h es e c o n dg e n e r a t i o ns o u r c ec o d i n gs t a n d a r dw h i c hi sd e v e l o p e db y c h i n e s ee x p e r t si n d e p e n d e n t l y , i ti n c l u d e sf o u rm a i nt e c h n i c a ls t a n d a r d s :s y s t e m , v i d e o ,a u d i oa n dd i g i t a lc o p y r i g h tm a n a g e m e n t ,a n ds u p p o r t i n gs t a n d a r d : c o n s i s t e n c yt e s t a v sa u d i oi st h et h i r dp a r to fa v ss t a n d a r d ,埘mt h ea d v a n t a g e so f l l i g hc o m p r e s s i o nr a t i o ,h i g hq u a l i t ya n df r e eg r a i ns c a l a b i l i t yc o d i n g ,a n di sa p p l i e d i n t h ef i e l do fs i g n i f i c a n ti n f o r m a t i o ni n d u s t r y a v si st h eo n l ys t a n d a r dt h a t s u p p o r t e db yg o v e r n m e n ta n dh a st h ea d v a n t a g eo fv e r yl o wp a t e n tf e ec o m p a r e d 、析mm p e g - 2 b o t ho ft h e s et w oa d v a n t a g e si n d i c a t et h a ta v sw i l lh a v eg o o d p r o s p e c t s ,s oi ti ss i g n i f i c a n to fm a k i n gr e s e a r c ho na v s a u d i o i nt h i s p a p e r , a v 3 sc o r ea l g o r i t h m - c b ci sa n a l y z e ds p e c i a l l ya n dan e w m e t h o df o rt h ec b ci sp r o p o s e dw h i c hi sm o r es u i t a b l ei nl o wb i t - r a t e b yt h e a n a l y z i n go fm a t l a b ,t h er e s u l t si n d i c a t e dt h a tt h ee r r o ri n t h ei m p r o v e dc b c h a s d e c r e a s e da b o u t6 5 2 d bw h e nt h e i rb i t r a t ei sc o m p a r a t i v ea n db i t s t r e a mi st r u n c a t e d i nf o r m a t t i n g w h e nc h a n n e l s w i d e b a n di sl i m i t e d , i ti sm o r es u i t a b l eo fu s i n gc b rm o d e t h a na b r , s ot h ep a p e ra l s os t u d i e sa b o u tc b rm o d ef o ra v 3 t h ek e yt e c h n i c a lo f p e r c e p t i v ec o d e ci s f i r s ta n a l y z e d ,a n dt h e nt h eq u a n t i z a t i o no fa v 3c o d e ci s a n a l y z e dp a r t i c u l a r l y , w h i c hi ss i m i l a rt oa a ca n dm p 3 b u tb e c a u s et h e r ea r es o m e s h o r t c o m i n g si nt h ed o u b l e l o o pi t e r a t i o n , s ot h ei m p r o v e dd o u b l e l o o pi t e r a t i o ni s a p p l i e d t h ep a p e ra l s op r o g r a m si t scc o d e sb a s e do nw i n d o w sa n da n a l y z e si t s d e c o m p r e s s i o nf i l e s ,w h i c hi n d i c a t e st h a t :t h ec b r m o d ec o d e ci sm o r ec o n v e n i e n t t h a na b rm o d eo nt h ec o n t r o l l i n go fb i t r a t e ,w h e nc h a n n e l s w i d e b a n di sl i m i t e d , t h eb i t s t r e a mo fc b rm o d ew i nn o tb et r u n c a t e da n dw h e nt h e i rb i t r a t ei s c o m p a r a t i v e , t h ec b rm o d ec o d e cc o n s i s t sm o r es p e c t r a lt h a na b r , b u tw h e nt h e c o n t e x ti sc o m p l e xo rc h a n g e ss h a r p l y , c b rm o d ec o d e cm a yp r o d u c em o r ee r r o r s k e y w o r d s :a v s ;a u d i oe o d e c ;c o n t e x t - d e p e n d e n tb i t - p l a n ec o d i n g ( c b c ) ; c o n s t a n tb i t r a t e ( c b r ) 一i i 浙江大学硕士学位论文 第1 章绪论 1 1 课题研究目的和意义 随着数字信号处理技术的不断发展,各种消费类电子产品也不断地产生, 如c d 、v c d 、m p 3 、d v d 等,并成为人们日常生活中不可或缺的一部分。同 时,随着网络多媒体、无线通信等的发展,人们对音视频的应用要求也不再局 限于c d 、m p 3 之类的本地存储了,而是希望能够通过网络传输随时随地更新 内容。但不论信号是本地存储的还是通过网络传输的,若对其不做任何处理, 将需要很大的存储空间和传输带宽,故对数字化后的音频信号进行压缩处理是 很有必要的。同时,随着社会的发展,人们对音频信号的质量、占用带宽的要 求也不断提高,各种压缩编码技术也随之不断的出现。 虽说国际上出现了一系列的音频编码标准,但在这些国际标准中,如 m p e g 2 ,其代理公司m p e gl a 规定,每台m p e g 2 解码设备必须由设备生 产厂商交纳2 5 美元的专利使用费;m p e g 4 ,m p e gl a 为其制定的专利收费 政策更苛刻,要通过运营商对用户每次收看的节目按次收费( 每个节目2 美分) 且还未包括m p e g - 4 使用的全部专利,如果我国用户采用这些标准,那就必须 支付昂贵的专利使用引1 1 。面对这样的情况,我国必须建立自己的音视频编解 码标准。a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 是由我国牵头制定的、拥有自主 知识产权的第二代信源编码标准,性能达到了和国际标准同样的水平,且用户 只需支付1 元专利使用费就可获得全部专利的使用权,适用于高分辨率数字广 播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重 大信息产业,同时a v s 是我国唯一的政府推荐标准,具有不可估量的发展前景。 随着网络上传输的信息量的不断增多,信道的带宽资源也变得越来越紧张, 为了使a v s 音频标准能更好的应用于低码率场合,本文对a v sp a r t3 ( a v 3 ) 编解码器中的核心算法一上下文位平面编码( c b c ) 算法提出了改进方法。 同时,因为在一个带宽受限的信道中,受限的只是最高码率,故在这样的信道 中,相比于平均码率( a b r ) 编码模式,固定码率( c b r ) 编码模式将更适合, 如在网络流媒体播放方案中,c b r 模式最为有效。2 0 0 5 年1 月,a v s 音频工 作组完成立体声音频部分的草案工作,并相继发布了参考代码和标准文档,但 浙江大学硕士学位论文 该参考代码只支持a b r 编码模式【2 】,故对c b r 模式下的a v s 音频编码方法进 行研究是很有必要的。 1 2 国内外研究现状及发展趋势 1 2 1 国内外研究现状分析 1 2 1 1 音频编码技术 数字信号具有保密性强、抗干扰性好等优点,故在实际生活中人们把要传 输和存储的模拟音频信号通过采样、量化、编码等过程转换为数字信号。但未 经任何处理的数字化音频信号具有非常大的数据量,如对于采样率为4 4 1 k h z , 量化精度为1 6 b i t s 的立体声音频信号,其传输码率约为 4 4 1 k * 1 6 2 = 1 4 1 1 2 m b p s ,1 秒的信号大约需要1 7 2 2 6 5 6 k b 的存储空间,为了 减小对存储空间和传输带宽的要求,必须对数字化后的音频信号进行压缩处理, 而音频信号自身存在的相关性和人耳的听觉特性也正好为音频信号的压缩编码 提供了理论依据。音频压缩编码技术的主要目的就是在保证一定重构质量的前 提下,以尽量少的比特数来表征音频信号。目前,音频压缩编码技术主要包括 参数编码、波形编码、混合编码三大类【3 】【4 】。 ( 1 )参数编码 参数编码方法是对信号建立数学模型,计算表征该模型的参数并对其进行 编码。对于语音信号,人们可以找到很好的模型对其的发生机理进行描述,但 对于一般的音频信号,因为它们是由不同的音源对象产生的声音信号的叠加, 每种对象可以用一个合适的模型来描述,故可采用结构化音频编码方法对其进 行编码。结构化音频编码方法是把输入的音频信号分解为对应于各个音源的信 号分量,根据每种分量对相应模型的参数进行计算和编码。解码时,首先解码 每个音源对应的声音,再把它们相加得到最终结果。 ( 2 )波形编码 波形编码器在编码的时候力图使最终解码重建的信号在波形上与原始信号 尽可能接近。由于一般的音频信号不像语音信号那样可以用单一的音源模型来 描述,故波形编码便成为这类音频信号的最佳编码方式。波形编码对于不同类 型的音频信号都能提供高品质的重建声音,但它的码率往往很高。波形编码又 可以分为时域和频域两大类。 一2 一 浙江大学硕士学位论文 ( a ) 时域编码 时域编码就是在时域中直接对信号进行编码,如脉冲编码调制( p c m ) 、 自适应脉冲编码调制( a p c m ) 、差分编码调制( d p c m ) 、自适应差分编码调 制( a d p c m ) 、增量调制( d m ) 、自适应增量调制( a d m ) 和自适应预测编码 ( a p c ) 。 ( b )频域编码 频域编码就是把音频信号从时域映射到频域,然后在频域中实施压缩编码。 与时域编码相比,由于信号能量在频域中的分布更集中,故频域方法往往能提 供更好的重建质量。另外,由于听觉心理声学模型是在频域中建立的,所以频 域编码方法可以利用心理声学模型来进一步提高编码效率。频域编码又可分为 变换编码和子带编码两种。 变换编码是指利用数学变换,把原始信号从时域变换到另一个域中,即利 用正交变换可以去除样本间的相关性,使变换域内的信号能量集中在一个较小 的范围内,更容易进行压缩处理。如对于音频信号,大部分都是低频信号,将 其从时域变换到频域后,信号在频域中比较集中,再对频域内的音频信号进行 采样和量化编码。因为该变换过程是一个可逆的过程,故在解码端可以用相应 的反变换获得重构的音频信号。目前用于变换编码的数学变换主要有d f t 、 d c t 、m d c t 、w a l s h - h a d a m a r d 变换和k a r h u n e n - l o e v e ( k - l ) 变换等。在音 频编码中,因为m d c t 变换在消除边界效应的性能优于d c t 变换,大多数编 码器都采用m d c t 。 子带编码,即通过带通滤波器把原始音频信号按频率范围分割成若干个子 频带,通过等效于单边带调幅的调制过程,将各子带搬移到零频带附近以得到 低通表示后,再以奈奎斯特速率对各子带输出取样值,并对取样值进行通常的 数字编码。其基本思想是利用心理声学模型计算出各个子带的掩蔽阈值,在编 码过程中保留信号的带宽而忽略掩蔽阈值以下的信号,最后把各个子带的编码 结果通过多路复用器一起传输到解码端。在解码端,通过多路分配器将接收到 的码流分开,对各子带分别进行解码,内插后再合成滤波,重建声音信号。虽 然重建的声音信号和编码前的信号不相同,但人耳无法感觉到它们之间的差别。 如m p e g - i 音频就是一个子带编码系统,输入的p c m 音频信号被分割成3 2 个 一3 一 浙江大学硕士学位论文 子频带,按照信掩比( s 腿) 分别为各个子带分配量化位数,调节各个子带的 量化编码,并利用人耳听觉系统的掩蔽特性保留可感知的信号而忽略掉被掩蔽 的信号。 ( 3 ) 混合编码 混合编码结合了波形编码的高质量和参数编码的低数据率的特点,既对声 音信号建立一个模型并对模型参数进行计算和编码,又对原始信号波形与重建 信号波形的误差进行编码,以使最终重建波形和原始波形更加接近。如多脉冲 线性预测编码( c ) 、码激励线性预测编码( c e l p ) 。 1 2 1 2 国内外音频编码标准 近十多年来,基于应用的需求促进了数字音频压缩技术的发展,国际上也 出现了大量的音频编码标准。 ( 1 ) m p e g 系列 m p e g 系列音频编码标准是由i s o 的m p e g 组制定完成的,以m p e g 1 、 m p e g 2 、m p e g - - 4 为代表,融合了变换编码、子带编码和感知编码等技术。 m p e g - 1 5 1 【6 】的音频标准是数字音频压缩领域中的第一个国际标准,支持采 样率为3 2 k h z 、4 4 1 k i - i z 和4 8 k h z 的单声道及双声道编码。m p e g 1 音频标准 包括两种编码方案:m u s i c a m ( m a s k i n gp a t t e r na d a p t e du n i v e r s a ls u b b a n d i n t e g r a t e dc o d i n ga n dm u l t i p l e x i n g ) 和a s p e c ( a d a p t i v es p e c t r a lp e r c e p t u a l e n t r o p yc o d i n g ) ,并按照编码复杂度和压缩比分为i ,i i ,三个层次,编码 复杂度和压缩率都逐层递增,可根据不同的应用需求选择不同的编码层。第 层使用了心理声学模型i i 、正交镜像滤波器组、m d c t 、比特缓冲池技术、预 回声控制、非均匀量化和熵编码等技术,编码复杂度最高,编码效果也最好, 能在低于1 2 8 k b p s e h 的码率下获得极高品质的音频,在商业上获得了巨大的成 功,即大家熟知的m p 3 ,是目前流传最广的一种音乐格式,并在人们的日常生 活中扮演着非常重要的角色。 m p e g 2 【7 】【8 】【9 】的音频标准定义了两种压缩格式:m p e g 2a u d i o 和m p e g 2 a a c ,m p e g 2a u d i o 因与m p e g 1 兼容故又称m p e g 2b c ;m p e g 2a a c 因 与m p e g 1 不兼容故又称为m p e gn b c 。 m p e g 2a u d i o 是对m p e g 1 的扩充,增加了1 6 k h z 、2 2 0 5 k h z 和2 4 k h z 一4 一 浙江大学硕士学位论文 三种采样率,其输出码率也由m p e g 1 的3 2 3 8 4 k b p s 扩充到8 - - 6 4 0 k b p s ,同时 也增加了5 1 声道和7 1 声道的环绕立体声。m p e g 2a u d i o 采用m p e g 1 编码 器,有三个层次的多通道扩展。此外,m p e g 2a u d i o 还支持传输多个附加声 道,利用这些附加声道可以支持多语言编码。 m p e g 2a a c 是一种非常灵活的感知音频编码标准,同m p 3 相比,它具 有更好的压缩效果,在相同音质条件下码率是它的7 0 。m p e g 2a a c 支持8 k h z - 9 6k h z 的采样率,编码器音源可以是单声道、立体声和多声道声音,并支 持4 8 个主声道、1 6 个低频音效加强声道和1 6 个数据流。m p e g 2a a c 的编码 结构主要包括心理声学模型、增益控制、滤波器组、时域噪声整形( t n s ) 、长 时预测编码、i s 立体声编码、感知音频编码、m s 立体声和迭代循环结构等模 块,而且各个模块相互独立,便于实现。标准根据包含模块的不同,定义了三 种编码框架:主框架( m a i n ) 、低复杂度框架( l c ) 和采样率可分级( s s r ) 框架,用户可以根据自己的需要选择不同的框架。 表1 - 1m p e g 2a a c 三种编码框架的比较 框架类采用的编码模块编码质量运算复杂度 型 主框架不采用增益控制模块最好最高 l c 框架不采用预测编码和预处理模低于主框架低于主框架 块,t n s 的级数受限 s s r 框不采用预测编码模块,t n s提供可变采样率信最低 架的带宽和级数也受限号 m p e g - 4 5 1 1 9 1 是一种甚低码率的压缩编码标准,它综合了很多不同类型的音 频编码方式,能完成各种音频信号的编码,包括自然音和人工合成音,语音和 音乐,单声道和多声道信号,具有高度的灵活性和可扩展性。与之前的m p e g 标准相比,m p e g _ 4 不再定位在透明的或近似于透明的高质量的音频信号编码, 而是更注重于低比特率编码,并且提供了多套工具,面向不同的应用,每个声 道传输的内容也比之前的m p e g 标准传输的单一内容复杂的多。m p e g - 4 关于 音频信号编码集中在传统的音频编码即所谓的“自然音频 和新颖的“结构音 一5 一 浙江大学硕士学位论文 频一以及“合成自然混合编码 ,自然音频编码将码率规定为 2 k b p s d e k - 6 4 k b p s e h ,并相应的定义了参数编码、线性预测和时间频率三种编 码工具。当码率为6 4 k b p s c h 时,就是m p e g 2a a c 编码标准。目前,m p e g - 4 又增加了m p e g - 4a l s ( s t a n d a r df o rl o s s l e s sa u d i oc o d i n g ) 和m p e g - 4s l s ( s c a l a b l et ol o s s l e s ss t a n d a r d ) 两种无损音频编码标准。 ( 2 ) d o l b ya c 系列【1 o 】【1 1 】 d o l b y 实验室推出的a c 系列包括a c 1 、a c 2 和a c 3 ,其中a c 3 是目 前最流行的环绕声技术,美国也已经把a c 3 作为高清晰度电视( 玎d t v ) 和数 字有线电视的音频编码格式。a c 3 是第一个专门为编码多声道数字音频信号而 设计的感知编码系统,可以满足从单声道到5 1 声道数字音频的编码要求,它 将高质量和低码率进行有效的结合,码率分布在3 2 k b p s - - 6 4 0 k b p s 的范围内,典 型应用是3 8 4 k b p s 的5 1 声道杜比消费格式和1 9 2 k b p s 的双声道立体声。同时, 为了满足消费者不同的要求和听音条件,采用了动态范围压缩控制技术和向下 混合技术。a c 3 编码依据不同的声道用不同的比特数表示数据,根据传输码率 和频率分辨率的要求采用三种模式进行编码。和m p e g 2 相比,a c 3 具有更 大的灵活度,算法对人耳掩蔽曲线的逼近也更为接近,压缩的效果也相对较好。 ( 3 ) o g g v o r b i s 【1 2 】【1 3 1 o g gv o i b i s 是美国x i p h o r g 组织2 0 0 2 年7 月开发的通用感知音频编码器, 它最大的特点是完全免费、开放源码、无专利限制,具有较大的编码灵活性。 同m p 3 一样,o g gv o r b i s 也采用了一种有损音频压缩算法,但在同等码率条件 下,它的声音质量甚至超过了m p 3 ,且文件更小。同时,o g gv o r b i s 支持采样 率为8 k h z - 1 9 2 k h z 的1 6 位以上的c d 音频或p c m 数据,支持3 0 1 9 0 k b p s e h 的可变码率模式,并且具有压缩率实时调节的技术,可以让用户在压缩一个文 件的过程中不用中断工作就马上改变压缩率。o g gv o r b i s 支持单声道、立体声、 4 声道、5 1 声道,最多可支持2 5 5 个独立声道。虽然它的编码复杂度同样非常 高,但其解码却相对简单,比较适合于实时实现和网络广播。 国外还有很多其它优秀的音频编码技术,如索尼的a t a r c 、贝尔实验室的 p a c 和微软的w m a 也都获得了相当广泛的应用。 我国在数字音频编码领域的研究起步比较晚,研究成果在技术上有广州广 一6 一 浙江大学硕士学位论文 晟数码技术有限公司开发的具有国际领先水平、享有完全自主知识产权的 d r a t m 数字音频编解码技术【1 4 】。d r a t m 数字音频技术可广泛应用于数字电 视、家庭影院、个人媒体播放器、数字音频广播、网络流媒体和数字电影院领 域,可支持1 6 4 个正常声道和1 _ 4 个低频效果声道( l f e ) ,支持3 2 2 3 0 4 k b p s 范围的码率,编码延迟在3 4 4 m s 之间,其算法特点是采用自适应时频分块 ( a 唧) 方法实现对音频信号的最优分解,进行自适应量化和熵编码。我国在 标准上的成果主要为a v s 音视频编码标准的第三部分音频部分。2 0 0 2 年6 月国家信息产业部科学技术司批准成立数字音视频编解码技术标准工作细 a v s ( a u d i oa n dv i d e oc o d i n gs t a n d a r dw o r k i n go f c h i n a ) 工作组。a v s 包括系 统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑性标 准,是我国牵头制定的第二代信源标准,不但在技术上达到了国际先进水平, 而且还具有专利费用低的特点,适用于高分辨率数字广播、高密度激光数字存 储媒体、无线宽带多媒体通信、互联网宽带流媒体等重大信息产业,并于2 0 0 5 年1 月完成立体声音频部分的草案工作,相继发布了参考代码和标准文档【1 5 】。 1 2 2 发展趋势 随着计算机网络、移动通信等的不断发展以及应用需求多样化的推动,音 频编码技术的研究不再仅仅局限于压缩特性,而逐渐开始向网络适应性、用户 交互性、高保真等方面转移。近几年来,音频编码技术一方面继续研究如何进 一步提高压缩率和抗误码率特性使其适合移动和网络多媒体应用,另一方面又 不断的向无损编码、可伸缩编码、空间编码等分支方向发展【1 6 1 。 1 3 论文研究内容及章节安排 本文主要研究了a v 3 中的核心算法b c ,对其提出了一种比特平移的 改进方法,使其更适合于应用到低码率场合,同时还对更适合于在码率受限的 信道中传输的c b r 码流进行了探索和研究,全文总共分五个章。 第一章是绪论,主要介绍了对音频编码技术的研究意义及目前国内外在音 频编码技术方面的研究成果和发展趋势。 第二章简要介绍了a v 3 编码器的特点,同时详细分析了a v 3 编码器各个 功能模块的工作原理并对解码器也作了简要介绍。 第三章详细分析了a v 3 编码器的核心算法c b c 的工作原理,同时针对c b c - - 7 - 浙江大学硕士学位论文 中存在的不足提出了一种改进方法,并对改进前和改进后的c b c 编码算法进行 了分析比较。 第四章介绍了c b r 模式下a v 3 编码器的工作原理,对其中涉及到的相关 模块进行了详细的分析,并在他人的基础上对a v 3 编码器采用改进后的双层迭 代模型进行频谱系数的量化,同时在w m d o w s 操作平台上实现了编解码器的c 代码,并对解码结果进行了分析。 第五章总结了本文的工作内容,同时也对未来的工作做了展望。 一8 一 浙江大学硕士学位论文 第2 章a v s 音频编解码器算法原理分析 2 1a v s 音频编解码器的特点及性能分析 a v s 是我国牵头制定的、具备自主知识产权的第二代信源编码标准,包括 系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑性 标准。2 0 0 5 年8 月,a v s 标准工作组组织会员单位对a v s 标准音频部分( a v 3 ) 的编解码质量进行了内部主观测试,测试结果表明:最新的a v s 音频标准的编 解码质量强于l a m em p 3 t 1 7 1 ,且具有压缩效率高、支持可伸缩性编码、方案简 洁、知识产权政策明晰等优点,适用于高分辨率数字广播、高密度激光数字存 储媒体、无线宽带多媒体通讯、互联网宽带流媒体业务等重大信息产业。 在第一阶段,a v 3 是一个高质量的立体声编码标准,旨在应用于那些对质 量有高要求而对带宽、延时等要求不高的场合f 1 8 】。a v 3 编码器支持采样率 8 k h z , 9 6 k h z 的单声道或双声道p c m 信号,输出码率为1 6 k b p s e h 一9 6 k b p s c h , 在6 4 k b p s c h 编码时可实现接近透明音质,压缩率为1 0 - 1 6 倍。同时,a v 3 编 码器支持f g s ( 精细粒度可伸缩) 编码,可伸缩编码步长在编码速率为 1 6 k b p s c h - - - 7 9 k b p s c h 时l k b p s ,编码速率为8 0 k b p s c h - 9 6 k b p s c h 时略大于 l k b p s t l 9 】。解码器可以根据解码端的解码能力,在低于编码比特率下解码a v 3 码流,当解码速率从编码速率降到较低比特率时,解码出来的信号的音质从高 到低逐级衰减【2 0 】。 同m p e g a a c 相比,a v 3 编码器采用的c b c 熵编码技术要比m p e g a a c 采用的h u f f m a n 熵编码的编码效率高,在6 4 k b p s c h 码率下,c b c 的平均编码 比特数可节省6 。在编码框架上,为满足不同的应用需求,a v 3 编码器可分 为m a i n 和s c a l a b i l i t y 两种,其中m a i n 具有高质量、高复杂度的特点,s c a l a b i l i t y 具有可分级的码率和编码质量的特点,编码比特流由基本层和增强层组成,可 以在最小音质损失情况下动态地自适应网络带宽的变化及用户终端的解码能 力,极大地方便了系统的灵活性。同a a c 的l c 框架相比,a v 3 的m a i n 框架 可以获得与之相当或更高的编码质量,但编码和解码运算复杂度都要高于a a c l c 2 0 1 。 一9 一 浙江大学硕士学位论文 2 2a v 3 编码原理分析 同国际上其它感知音频编码标准一样,a v 3 编码器也由多个编码模块组成, 主要包括长短窗判决、整数m d c t 变换( i n t m d c t ) 、非均匀量化、后量化方 极坐标立体声编码( p q s p s c ) 和上下文位平面熵编码( c b c ) ,其基本的流程 如图2 1 所示【1 9 1 。 图2 1a v 3 编码框图 2 2 1 长短窗判决 预回声问题在变换编码中普遍存在,即瞬变信号之前的量化噪声在时域中 扩散开,使人耳可闻。解决预回声问题的其中一种方法就是进行自适应长短窗 切换,当信号为稳态信号时,采用长窗编码,当信号为非稳态信号时,采用短 窗编码。 长短窗判决的方法主要有三种:基于自相关特性的判据、基于感知熵的判 据和基于不可预测性的判据,其主要目的是准确检测出急剧变化的非稳态信号, 仅对非稳态信号使用短窗,而对稳态信号使用长窗,从而控制预回声现象。 考虑到基于自相关特性的判据的计算复杂度,一般将其转换为基于能量的 一10 浙江大学硕士学位论文 判据。但基于能量的判决方法对多频稳态信号不能做出有效判断,会错误地把 它们当成是非稳态信号而使用了短窗。基于感知熵的判决方法,虽然比基于能 量的判据效果好,但它同样会把适合用长窗的多频稳态信号使用短窗来处理, 且运算复杂度比较高。基于不可预测度的判据是根据平稳信号之间具有强相关 性来度量的,在频域中,不可预测度能精确地描述其与信号平稳性之间的关联, 能判断多频稳态信号的平稳特性【2 1 i 2 2 1 。 a v s 综合考虑以上三种方法的优缺点,采用了一种基于时域能量和频域不 可预测性的时域稳定性两级判决法,该算法既利用了基于能量判据计算简单和 基于不可预测性判据准确的优点,又克服了基于能量判据不准确和基于不可预 测性判据计算复杂的缺点,能高效准确地检测出瞬变信号,有效的控制预回声 现象,图2 2 表示时域稳定性两级判决法的基本流程【1 9 1 。 浙江大学硕士学位论文 输出判决结果 图2 2 时域稳定性两级判决法基本流程图 时域稳定性两级判决法的原理可描述如下:首先把输入的一帧音频信号划 分为1 6 个子块,然后进行以下两个步骤的计算: a 基于能量特征的判决 ( 1 ) 计算时域内各个子块的能量e , 2 - i e = 矗 ( 2 - 1 ) 一1 2 浙江大学硕士学位论文 其中n = 6 4 ,o 1 6 ,黾厅的前“点是前一子块的值,后6 4 点是当前子 块的值。 ( 2 ) 计算子块能量变化量弓的最大值 e ,:刨 ( 2 - 2 ) 。 e j 一1 其中o s j 1 6 。 ( 3 ) 时域内判决 若前一帧为瞬态帧,则当衄,2 es w i t c h 3 时,就判该帧为瞬态帧, 否则判为稳态帧,结束整个计算过程;若前一帧为稳态帧,则当 a e ,es w i t c h 时,继续进行第二级的频域内不可预测度的判决,否则就将 该帧判为稳态帧。 b 基于不可预测度的判决 ( 1 ) 计算输入信号的复频谱 a 给输入信号s ( i ) 加汉宁窗 s w ( i ) = j ( f ) 0 5 e o s ( ( p i + ( f + 0 5 ) ) i b l e n ) ) ( 2 - 3 ) b 对s w ( i ) 进行1 2 8 点的f f t 计算 c 计算变换后的极坐标表示。变换后的s w ( i ) 的幅度和相位分别表示为 ,( w ) 和( 忉。 ( 2 ) 计算预测幅度,一p r e d ( w ) 和预测相位厂一p r e d ( w ) ,一雕d ( w ) = 2 0 幸,( 卜1 ) 一r ( r 一2 ) ( 2 - 4 ) f p r e d ( w ) = 2 0 f ( t 一1 ) - f ( t 一2 ) 其中,代表当前块号,f l 代表前一数据块号,一2 用来索引再前一个阈值 计算块的数据。 ( 3 ) 计算不可预测度 一1 3 一 浙江大学硕士学位论文 c ( w ) = 【( ,( 忉c o s ( f ( w ) ) 一,一p r e d ( w ) e o s ( f p r e d ( w ) ) ) 2 + ,( 们s i n ( f ( w ) ) 一,- 一p r e d ( w ) 幸s i n ( f p r e d ( w ) ) ) 2 】0 。5 ) ( 2 5 ) 【,( w ) + a b s ( r p r e d ( w ) ) 】 ( 4 ) 计算子块的不可预测度q c j = 形( 叻q ( 叻 ( 2 6 ) 其中缈( 计是加权因子,可以直接取对应谱线的幅度r ( w ) 的平方。子块不可 预测度最大值,一p - - m a x ( c j ) ,其中3 - a b s ( r ) e l s e 黔茅三一 ( 2 2 5 ) ( 2 2 6 ) 从计算复杂度看,p q s p s c 比a a c 中的联合立体声编码( m s 立体声编 码和强度立体声编码) 高,但从整个编解码器来看,p q s p s c 模块占用的时间 很少,且从对称关系可以看到p q s p s c 一个声道传输的是原始数据,而m s 则传输的是和差信号,因此p q s p s c 编码只有一个声道存在量化误差的叠加。 2 2 5 熵编码 数字压缩技术的理论基础是信息论,根据信息论原理,可以找到最佳的数 据压缩编码方法,压缩的理论极限是信息熵。如果要求在编码过程中不丢失信 息量,即要求保存信息熵,这种信息保持编码叫熵编码。熵编码是一种利用数 据的统计信息进行压缩的无语义数据流的无损编码,如游程编码、h u f f m a n 编 码、算术编码等。 h u f f m a n 编码是根据信源符号出现的概率来分配编码的码字,出现概率越 高的符号分配的码字越短,出现频率越低的符号分配的码字越长。a v 3 编码器 中采用的c b c 编码方法,不但采用了h u f f m a n 编码方式,还引入了比特平面 这一概念,同时还利用上一比特层的编码信息对当前比特层进行编码,达到了 比m p e g a a c 中单独使用h u f f a n m 编码时具有更高的编码效率。对于c b c 编 码方法,本文将在第三章中对其进行更加详细的分析说明。 2 3a v 3 解码器分析 a v 3 解码器是编码器的逆变换过程,其主要任务是通过去格式化器从接收 - - 2 1 - - 、-、 、-_ 力 , 一 浙江大学硕士学位论文 到的码流中分离出数据信息和控制信息,解出量化值和其它重建信息,恢复量 化频谱,通过其他可用模块处理恢复的频谱值,从而逼近输入比特流给出的实 际信号频谱,最后通过反i n t m d c r 变换将频谱值从频域变换到时域。a v 3 的 解码过程主要包括c b c 解码、p q - s p s c 解码、反量化、反向i n t m d c t 变换和 反加窗等几个步骤,如图2 3 所示【1 9 1 。 lc b 叩码 图例 数据一 控制 比 1p q s p s c 解 a v s 音频流特 7 i毋 l 流 上 r 士 一 反量化厶 格 式 。l 反i n t m d c t 器 变掺 j蛤山时向唐且 帽u 山h - jl 叫1 日7 反加窗 l r ( 1 )c b c 解码 图2 - 3 a v 3 解码框图 c b c 解码模块是从比特流去格式化器中取得分析信息,解出编码带模式信 息、比例因子值、立体声控制信息,并利用解码得到的编码带模式信息选择相 应的h u f f m a n 码本,将频谱的编码数据变换为量化后的频谱系数。对于采用 p q s p s c 的比例因子带,在解码左声道的比例因子值时仍为左声道内相邻比例 因子带之间的差分解码,而对于右声道的比例因子值改为在左右声道间进行差 分解码。 ( 2 ) p q s p s c 解码 对于采用p q s p s c 的比例因子带,输入的是变换后的幅角( m a ) ,根据 式( 2 2 6 ) 对频谱系数进行反向耦合操作,得到对应于左右声道的量化频谱值。 ( 3 )反量化 解码器在c b c 无损解码后必须根据式( 2 1 9 ) 和( 2 2 0 ) 对量化系数进行 - - 2 2 一 浙江大学硕士学位论文 反量化操作,因为在量化过程中会引入量化误差,故此过程恢复得到的频谱值 只能是接近量化前的i n :t m d c t 系数。 ( 4 )反向i 愀t 变换 反向i n t m d c t 变换是i n t m d c t 变换的逆过程,由使用的窗类型决定输入 长度为1 0 2 4 或1 2 8 ,并通过反向m d c t 变换和反向窗运算来实现。 ( 5 ) 反加窗 编码器在进行i n t m d c t 变换前对输入的音频信号进行加窗操作,相应的, 在解码端解码器对反向i n t m d c t 变换得到的时域信号也要进行反加窗操作,最 后输出音频信号,其中窗序列控制信息从可变帧头中解码获得。 一2 3 浙江大学硕士学位论文 第3 章c b c 编码模块的改进与结果分析 3 1 引言 a v 3 编解码器通过位平面编码( b i t - p l a n ec o d i n g ,b p c ) 技术实现了比特 流精细粒度可伸缩特性( f i n eg r a i ns c a l a b i l i t y ,f g s ) ,伸缩步长约为l k b p s c h 。 b p c 技术是一种嵌入式编码技术,最早开始应用于视频网络流媒体的传输中, 如m p e g - 4s t r e a m i n gv i d e op r o f i l e 2 7 】,后来又被应用到图像编码中,如j p e g 2 0 0 0 1 2 s l ,b p c 技术的应用使这些编码器都具有了f g s 特性。虽然目前国际上 对具有f g s 特性的视频编码有较多的研究,但可能因为和视频的数据量相比音 频数据量比较小,故对其在f g s 方面的研究比较少。但随着网络流媒体的发展 及人们对音频质量要求的不断提高,同时考虑到i n t m d c t 变换得到的频谱数据 的分布特性及b p c 技术的优点,利用b p c 技术实现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论