(基础数学专业论文)基于小波包分解算法的mpeg4音频压缩编码的改进与实现.pdf_第1页
(基础数学专业论文)基于小波包分解算法的mpeg4音频压缩编码的改进与实现.pdf_第2页
(基础数学专业论文)基于小波包分解算法的mpeg4音频压缩编码的改进与实现.pdf_第3页
(基础数学专业论文)基于小波包分解算法的mpeg4音频压缩编码的改进与实现.pdf_第4页
(基础数学专业论文)基于小波包分解算法的mpeg4音频压缩编码的改进与实现.pdf_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 m p e g 音频编码标准是当前国际上通用的三大商用音频编码标准之一。尤其 是1 9 9 9 年被定为国际标准的m p e g - 4 音频编码方案普遍应用在因特网上的交互式 多媒体应用、高清数字电视和数字电影录制等领域。m p e g - 4 音频编码方案的优 越之处在于,它不仅支持自然声音,而且支持合成声音,力图尽量多地覆盖现有 的音频应用并充分考虑到可扩展性需求。 i 卿e g - 4 音频编码标准针对不同的编码对象制定了相应的编码方案。其中适 用于中高质量的通用音频编码方式之一:m p e g - 4 a a c 是m p e g - 4 一系列音频编码 方案之中应用比较广泛的。m p e g - 4 a a c 编码方案建立在通用心理声学模型基础 上,其标准的时频变换模块采用的是直接正向“修正的离散余弦变换( 尬c t ) ” 本文在介绍i 咿e g - 4 音频编码标准之后,重点讨论了m p e g 一4 a a c 编码流程,并提 出了一种基于临界频带匹配的广度优先小波包算法,采用此算法来替换m d c t , 构成新的时频变换模块。与小波变换不同,小波包变换不仅可以对信号低频部分 进行分解,还可以进一步分解信号的高频部分,实现高频部分的精细分割。所以 小波包变换能够对含有许多中频和高频信息的非平稳信号进行更好的时频局部 化分析。小波包变换的一大优势是可以实现不完全小波包的分解,通过不同信号 的特性来选取适合信号的最佳小波包基。本文算法降低了计算复杂度,能够更好 的适用于音频压缩编码的应用领域。最后,将本文算法应用于m p e g - 4 a a c 音频 编码流程中并进行了实现。 同小波编码算法相比,本文的编码方案能够使对声音信号频带的划分尽量符 合临界频带,从而有利于提高信号的编码质量;而且本文算法可以根据计算复杂 度来调节小波包分解的深度,使得音频编码更加灵活。这些优势会在网络和实时 数字多媒体迅速普及的时代发挥很好的作用。 关键词:音频编码m p e g - 4 a a c 小波包变换心理声学分段信噪比 m a b s t r a c t t h em p e ga u d i oc o d i n gs t a n d a r di so n eo ft h et h r e ei n t e r n a t i o n a la u d i oc o d i n g c o m m e r c i a ls y s t e m s e s p e c i a l l y , m p e g - 4a u d i oc o d i n gf o r m u l ai si n s t i t u t e da s i n t e r n a t i o n a ls t a n d a r di n19 9 9 i ti sw i l d l yu s e di nt h ea r e a so fi n t e r a c t i v em u l t i m e d i a i ni n t e m e t ,h d d t v ,d i g i t a lm o v i e sa n ds oo n t h ea d v a n t a g eo fm p e g - 4a u d i o c o d i n gf o r m u l ai st h a ti ts u p p o r t sb o t hn a t u r a ls o u n da n ds y n t h e s i z e dv o i c e m p e g - 4 a u d i oc o d i n gf o r m u l at r i e st oa p p l yt oa sm a n ya r e a so fa u d i ou s i n g 勰p o s s i b l e a n d h a s c o n s i d e r e de x t e l l s i b l ed e m a n d s m p e g - 4a u d i oc o d i n gs t a n d a r di n s t i t u t e sd i f f e r e n tc o d i n gf o r m u l a sa c c o r d i n gt o d i f f e r e n ts u b j e c t s t h eg e n e r a la u d i oc o d i n g ,m p e g - 4 a a c ,h a se x t e n s i v eu s i n g a m o n gas e r i e so fa u d i oc o d i n gf o r m u l a si nm p e g - 4 m p e g - 4 a a cb a s e so ng e n e r a l p s y c h o a c o u s t i cm o d e l i t st i m e - f r e q u e n c yt r a n s f o r mm o d u l ea d o p t sm d c t i nt h i s p a p e r , w ei n t r o d u c em p e g - 4a u d i oc o d i n g ,a n dt h e nd i s c u s sm p e g - 4 a a cp r o c e s s d e t a i l e d l y f i n a l l y , w ed e v e l o pab r e a d t h - f i r s tw a v e l e tp a c k e ta l g o r i t h mb a s e do n c r i t i c a lb a n dm a t c h i n gt or e p l a c em d c t u n l i k ew a v e l e tt r a n s f o r m , w a v e l e tp a c k e t t r a n s f o r mc a nn o to n l yd e c o m p o s et h ef r e q u e n c yo fs i n g l e ,b u ta l s oa l l o waf i n e r r e s o l u t i o na th i g hf r e q u e n c y s o ,w a v e l e tp a c k e tt r a n s f o r mc a np r o v i d eb e t t e r d e c o m p o s i t i o nf o rs i g n a l si n c l u d i n gn u m e r o u si n t e r m e d i a t ea n dh i g hf r e q u e n c y t h e a d v a n t a g eo f w a v e l e tp a c k e tt r a n s f o r mi st h a ti tc a ni m p l e m e n ti n c o m p l e t ew a v e l e t p a c k e td e c o m p o s i n ga n d c h o o s et h eb e s tw a v e l e tp a c k e tb a s i sf o rs i n g l e s t h e a l g o r i t h mi nt h ep a p e rc a nr e d u c et h ea l g o r i t h m i cc o m p l i c a t e dd e g r e ea n da d a p tt h e a r e a so f a u d i oc o d i n gw e f t t h e n , w eu s ei tt om p e g - 4 a a cp r o c e s sa n di m p l e m e n ta n e wa u d i oc o d i n gf o r m u l aa tl a s t c o m p a r ew i t hw a v e l e tt r a n s f o r ma l g o r i t h m s ,n e wa u d i oc o m p r e s s i o ns y s t e mi s a b l et od i v i d ef r e q u e n c y - b a n do fa u d i os i g n a l sc l o s et ot h ec r i t i c a lb a n da s f a ra s p o s s i b l e s o ,i ti sh e l p f u lt oi m p r o v et h ee n c o d i n gq u a l i t y m o r e o v e r , w ec a na d j u s t d e c o m p o s i n gd e p t ho fw a v e l e tp a c k e ta c c o r d i n gt oc o d i n gc o m p u t a t i o n a lc o m p l e x i t y i tm a k e sa u d i oc o d i n gm o r ef l e x i b l e t h e s ea d v a n t a g e sa r ea b l et op l a ya ne x c e l l e n t r o l ei nt h ei n t e r n e ta n dm u l t i m e d i aa g e i v k e yw o r d s :a u d i oc o d i n g m p e g - 4 a a cw a v e l e tp a c k e tt r a n s f o r m p s y c h o a c o u s t i c ss e g s n r v 学位论文原创性声明 本人所提交的学位论文基于小波包分解算法的m p e g 一4 音频压缩编码的改 进与实现,是在导师的指导下,独立进行研究工作所取得的原创性成果。除文 中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过 的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中标明。 本声明的法律后果由本人承担。 论文作者( 签名) : - 2 7 0 年6 只6 日 指导教师确认( 签名) : 伽。 年 6 具占日 学位论文版权使用授权书 、彳 锄胁 l 本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构 送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编学位论文。 l l 历 备 名,月 鹤勿 i y , 撕叩 黝加 串 铝驭 、, 名多 签月 者三 倒年 文7 埘叩 加 绪论 随着多媒体处理技术的迅猛发展,数字音频压缩编码技术得到了广泛的应 用。声音是一种能量波,数字音频编码是把连续变化的波形信号转化为离散的数 字信号的过程。数字音频压缩编码所处理的对象是离散化的音频信号,即 p c m ( p u l s ec o d em o d u l a t i o n ) 音频信号。 p c m 也称为脉冲代码调制编码。脉冲调制把一个时间连续,取值连续的模拟 信号变换成时间离散,取值离散的数字信号。它是对模拟信号先抽样,再对样值 幅度量化,编码的过程。这个过程与数字图像处理中的抽样,量化,编码非常类 似。在计算机应用中,能够达到最高保真水平的就是p c m 编码。因此,规定p c m 编码为无损编码。 虽然p c m 编码能够达到高保真的音质水平,但是p c m 编码的声音文件的数据 量是非常大的。例如:一个采样率为4 4 1 k h z ,采样大小为1 6 b i t ,双声道的p c m 编码的w a y 文件,它的码率为4 4 i k x1 6 2 = 1 4 1 1 2 k b s ,这个w a v 文件的数据 速率,即为1 7 6 4 k b s 。这表示存储1 秒钟采样率为4 4 1 k h z ,采样人小为1 6 b i t , 双声道的p c m 编码的音频信号,需要1 7 6 4 k b 的空间,1 分钟则约为1 0 3 4 m 。显 然,在许多应用场合,不支持如此之大的数据量。所以要降低磁盘存储空间。有 两种方法,降低采样指标或者对信号进行压缩。降低采样指标不可行,因此研究 者开发了各种信号压缩方案。 音频压缩编码的作用一是采用一定格式来纪录数字数据,二是用一定算法来 压缩数字数据以减少存贮空间并且提高传输效率。通常来讲,根据压缩后的音频 能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类: 而按照压缩方案的不同,可以划分为时域压缩、变换压缩、子带压缩,和多种技 术相互融合的混合压缩等。 当前国际上通用的商用音频编码系统主要有i t u - t 标准,杜比音像系统和 m p e g 音频编码标准 1 | 。 1 9 8 8 年,国际电工委i e c ( i n t e r n a t i o n a le 1 e c t r o t e c h n i c a lc o m m i s s i o n ) 和国际标准化组织i s o ( i n t e r n a t i o n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ) 旗下的m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 专家组成立。这个小组制定的音 频编码标准是数字音频压缩领域中的第一个国际标准。 1 9 9 3 年,m p e g - 1i s o i e c1 1 1 7 2 编码标准建立 2 】,用于码率在1 5 m b i t s 以 下的数字媒体。m p e g - 1 的音频编码标准i s o i e c1 1 1 7 2 3 中,规定了三种模式: 层i ,层i i ,层i i i ,系统特性在复杂性和低码率情况下的音质逐步提高。其中 层i i i 就是常用的m p 3 音频格式,m p 3 己成为网络音乐传输的标准。 m p e g 专家组于1 9 9 4 年公布了m p e g - 2i s o i e c l 3 8 1 8 编码标准 3 。m p e g - 2 保持 了对m p e g 一1 音频兼容并进行了扩充,m p e g - 2 标准定义了两种音频压缩算法:m p e g - 2 b c 和m p e g - 2 a a c 。m p e g - 2 音频编码标准可以提高低采样率( 低于3 2 k h z ) 下的声音 质量,而且支持多通道环绕立体声和多语言技术。 1 9 9 8 年,m p e g 专家组制定了m p e g - 4 编码标准 4 第一版i s 0 i e c l 4 4 9 6v e r s i o n l ,第二版i s 0 i e c l 4 4 9 6 于1 9 9 9 年建立。m p e g - 4 是第一个真正的基于多媒体内容 的表示标准。它的音频标准允许对现实世界对象进行语义级描述。m p e g - 4 音频对 象可以描述自然声音或者合成声音。与m p e g 之前的音频标准不同,m p e 6 - 4 音频的 设计不是面向单一的应用,因此它并= 单纯追求高的压缩比,而是要尽量多地适 应现有的音频应用,并且充分考虑可扩展性的需求。 m p e g - 4 能在普通c d - r o m 上基本实现d v d 的质量。m p e g - 4 音频的比特率低、能 将相互分离的高质量音频编码、计算机音乐及合成语音等合成在一起,可在互联 网和其他网络上进行交互操作。因而广泛应用在网络上的交互式多媒体应用、h d t v 上的联合广播、移动通信等领域。 1 9 9 9 年之后,m p e g 专家组陆续制定了m p e g - 7 和m p e g - 2 1 。m p e g - 7 的全称是 “多媒体内容描述接口”。制定这一标准的目标是要把各种视音频媒体的表示统 一化。m p e g - 2 1 是m p e g 专家组在1 9 9 9 年末推出的一个标准。m p e g - 2 1 的目的是 为多媒体信息的用户提供透明而且有效的使用环境。 当前常用的音频编码方案多采用基于心理声学模型的子带编码和变换编码 技术。如子带编码技术中的m u s i c a l 5 ( 掩蔽型通用子带综合编码复用) 方法, 变换编码技术常用的d f t ( 离散傅里叶变换) ,d c t ( 离散余弦变换) ,m d c t i s ( 修 正的离散余弦变换) 等。这些方法对音频信号频带的划分不能很好地匹配临界频 带,对本质是时变的音频信号有一定的局限性。所以人们提出了许多针对音频编 码的改进算法。近年来,采用小波变换的音频编码算法已成为人们研究的一个热 2 点c 7 c s c o 。 然而,小波变换只对信号的低频部分作进一步分解,而对高频部分,即信号 的细节部分不再继续分解,所以利用小波变换能很好地表示以低频信息为主要成 分的信号,但它不能很好地分解和表示包含大量细节信息的信号。与小波变换不 同,小波包变换 1 0 可以对信号高频部分提供更精细的分解。结合小波包变换的 优点,国内外的研究者提出了一系列的基于小波包分解的音频编码算法 1 l 】 1 2 】 13 l 。与原有的音频编码算法相比,这些算法不但可以在低码率上获得高质 量的编码信号,而且具有较低的计算复杂度。 目前研究者设计的基于小波包变换的音频编码算法改进主要针对m p e g - i 层 i ,层i i ,层i i i ,l e g - 2 音频标准等。随着互联网和实时多媒体技术的快速普及, 新兴的m p e g - 4 编码标准逐渐被许多新型的媒体产品和网络服务所采用。因此,作 为m p e g - 4 自然音频编码基本组成部分的m p e g - 4 a a c 标准也越来越受到研究者的重 视。本文基于m p e g - 4 a a c 标准,设计并实现了一种基于临界频带匹配的广度优先 小波包算法音频编码方案。本文编码方案采用了不完全小波包变换。主要工作体 现在以下几个方面:一是利用临界频带选取最优小波包分解基,从而达到提高信 号编码质量的目的;二是对现有小波包编码算法进行了发展,并应用于m p e g - 4 a a c 编码器模块,取得了令人满意的效果。 本论文具体安排如下: 绪论介绍有关数字音频压缩编码技术的理论和研究现状,然后对本文所做的 工作和本文的结构安排进行了说明。 第一章介绍m p e g - 4 音频编码方案的结构,重点介绍m p e g - 4 a a c 编码流程的实 现。 第二章介绍小波包变换理论知识和小波包最佳基搜索算法。 第三章提出了本文的算法并在m p e g 一4 h a c 编码方案中进行实现。然后介绍实 验的参数和结果,通过实验结果对比和分析证明了本文编码方案的优越性。 最后是本文的结论与展望。 1 m p e g - 4 音频编码方案详述 1 1心理声学模型 心理声学模型是对听觉系统掩蔽行为的一个数学表述模型,它把音频信号频 带按临界频带划分,估计出各子带的掩蔽阈值,并得到信掩比( s 胀) 。心理声学 模型可以在极大降低音频信号传输带宽的同时保证主观听觉感官质量。在音频信 号的处理中,通过去除不可闻的信号成分以及引入不可闻的量化噪声,达到普通 熵编码无法达到的压缩比。 人的耳朵对声音的感知能力是有限的,人耳的听觉范围是2 0 h z - 2 0 k h z 的声 音。根据人耳的特性,实验人员经过测试绘制出了下表的等响曲线 4 】,见图1 1 。 图中最靠下面的一根曲线就是“绝对听阈”曲线,也称“静音阈值”曲线, 就是在安静环境中,人耳能听到的最小纯音。图中最上面所示的一根曲线,是1 2 0 方等响度曲线,就是“痛阈”曲线。即当声强超过某一最大值时,声音在入耳中 会引起痛觉,这个最人声强称为痛阈。在“静音阈值”曲线和“痛阈”曲线之间 的区域就是人耳的听觉范围。 iii l i 、k , 【_- ( 彩 淞卜、 。 、 一, 乡 蚺 、 1 _ 、 。娄? 、 * 、,。 夕 厂 乡 - 慕蕊 、 寒 _ 、一 寒 、 n 漆 “ 一 , , 叫 - 。 一 、 心过: 一, 撕 。、 挣i 一 过、 f 、 。 、 _ _ o、 、。 图1 1 人耳等响曲线 对于人类的听觉来说,线性频率尺度变换不能描述人类对声音的感知特性, 可以采用被称为临界频带的有限频段来表达。同一频段里具有一样的心理声学特 性。人耳对音频信号的分析以临界频带为基础。所以,要将信号从频率域映射到 4 临界频带域( 单位是b a r k ) 。对于音频信号来说,在其频率范围内约有2 6 个临界 频带。表1 列出了每个临界频带的起止频率 1 5 。 表1 临界频带的截止频率列表 另一种重要的心理声学效应是掩蔽效应 1 引,即当两个响度不等的声音作用 于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受, 使其变得不易察觉。掩蔽可以分为时域掩蔽和频域掩蔽。 时域掩蔽是指在时间上相邻的声音之问有掩蔽现象,时域掩蔽分为超前掩蔽 ( p r e m a s k i n g ) 和滞后掩蔽( p o s t - m a s k i n g ) 。一个响度较高的声音可以掩蔽比这 个声音更早一点的较小的声音,这称为超前掩蔽,而滞后掩蔽是指一个响度很大 的声音发出后,如果紧跟着发出个响度较小的声音,则入耳无法听到后一个声 音。产生时域掩敞的主要原因是人脑处理信息时,有一定的处理时间。 心理声学中最突出的特点是频率域中的掩蔽效应。频域掩蔽是指:一个强纯 音会掩蔽在其附近同时发声的弱纯音。图1 2 为掩蔽阈示例:在中心频率2 5 0 h z , l k h z 、4 k h z 的信号噪声的掩蔽效应。点线是噪声信号的声压级,实线是掩蔽阈。 下面的点线是绝对闻阈。三个窄带信号为掩蔽者,则其中低于掩蔽阈的所有信号 都不可闻。 图1 2 掩蔽阈值曲线示例 为了在音频编码中利用频域掩蔽效应,研究者提出了声音掩蔽模型,即:一 个较弱的信号可以被一个较响的、具有类似频率内容的掩蔽者完全掩蔽掉。在音 频编码中一个很重要的问题是:在不影响听觉质量的前提下能够把多少噪声引 入信号? 这个问题可以采用心理声学来解决。根据人耳的掩蔽曲线,对信号进行 压缩时虽然引入了大量的量化噪声,但在解码后,这些噪声就被有用的声音信号 掩蔽掉了,人耳无法察觉。 利用输入信号或者分析滤波器组的输出信号,可以采用心理声学模型,计算 出实际的掩蔽阈估计值。实际掩蔽阈值的估计对于一个音频编码系统是很有必要 的。通过实际掩蔽阈值得到s 腿,用来控制量化模块的参数,保证引入的量化噪 声低于掩蔽阈值曲线,从而在主观上能够被音频信号掩蔽。如果这个估计比较精 确,那么就可以在低的码率获得较好的编码质量。 在m p e g 标准中确立的心理声学模型共有两个版本( i s o i e cm p e gp s y c h o a c o u s t i cm o d e ll & 2 ) ,m p e g - 4 a a c 采用通用心理声学模型 1 7 。 6 1 2m p e g - 4 音频编码标准 m p e g 一4 音频标准包括自然音频编码和合成音频编码。自然音频编码提供三 种编码器设计:参数编码( p a r a m e t r i cc o d i n g ) ,码本激励线性预测( c e l p ) 编码 和时间频率( t f ) 编码。合成音频编码提供两种编码设计:结构音频( s a ) 和文 语转换( t t s ) 。编码方案标准的内容包括两部分:标准部分提供解码的语法和解 码过程,附录部分提供编码器和接口 1 8 】。 1 2 1 自然音频编码 仲e g _ 4 支持2 k b s 6 4 k b s 的自然声音编码。如8 k h z 采样频率的2 k b s 一 4 k b s 的语音编码,和8 k h z 1 6 k h z 采样频率4 k b s 1 6 k b s 的音频编码,通常 使用参数编码技术;6 k b s - - 一2 4 k b s 的语音编码,使用码本激励线性预测编码技 术:大于1 6 k b s 的编码,使用时频变换编码技术。为了实现最大范围的码率和带 宽的可缩放性,m p e g 一4 音频编码定义了一个通用的框架,如图1 3 所示。从较 低码率的编码开始,逐步向g a 音频编码器中加入增强的块部分 1 9 。 曰 三三 4k 垃8 川zt v d ;c a l a u d i o b 引硎h 嫩l2 0 k 图1 3m p e g 一4 音频通用块图 基于m p e g - 4 自然音频编码提供的编码器设计,m p e g - 4 自然音频通用框架提 供了下列编码方案 2 0 3 : ( 1 ) 谐音矢量激励编码( 8 v x c ) :用于低速率清晰声音的编码方法。 ( 2 ) 码本激励线性预测( c e l p ) :用于电话或者宽带声音编码方法。 ( 3 ) 通用音频编码( g e n e r a la u d i o ,g a ) :用于中等质量以及高质量的通用 声音编码,采用了t w i n v q 和a a c 变换编码方法。 h v x c 和c e l p 2 1 适用于2 k b s - - 一2 4 k b s 之间的语音编码。其中2 k b s 4 k b s 7 的语音编码用i n x c 实现,4 k b s 一2 5 k b s 的语音编码用c e l p 实现。而且,在可 变码率下,h v x c 可以实现平均码率为1 2 k b s 的语音编码,c e l p 具有8 k h z 和 1 6 k h z 两种采样频率,分别应用于窄带语音编码和宽带语音编码。 通用音频编码的码率范围是6 k b s 6 4 k b s ,如图1 4 所示。量化编码部分 有三种方法,可以相互替换:比特切片算术编码( b s a c ) 、高级声音编码( a a c , a d v a n c e da u d i oc o d i n g ) 和交错矢量量化( t w i n v q ) ,如果量化编码部分选用 a a c ,那么整个系统就是m p e g - 4 a a c 音频编解码系统。 图1 4 通用音频编码( g a ) 流程图 交错矢量晕化方案 2 2 ( t w i n v q ) 是m p e g - 4 音频系统中通用音频编码系统的 一部分,此方案可以提高音乐信号甚低位率编码的编码效率。在正常频谱中可以 应用t w i n v q 来替换m p e g 一4 a a c 中使用的标量因子、频谱数据的编码方法。图1 5 8 给出t w i n v q 的方案。输入信号矢量被交错到子矢量中。采用矢量量化器量化子 矢量。 i n p ms i g n a lv e c t o r 凌懿煞, i i d i s u : i 一 1 i 1 1 t 1 t w 啪训8 哪妒 w e i g h t e dw e i g m e d v q v q i n d e xi n d e xi n d e xi n d e x 图1 5h i n v q 方案 1 2 2 合成声音编码 2 羽 m p e 6 - 4 音频系统支持乐谱驱动合成( s d s ) 和文语转换合成( 1 - t s ) 。s d s 在乐 谱文件描述文件控制下生成声音,乐谱文件是按时间顺序组织的一系列调用乐 器的命令,合成乐音传输不是声音参数而是乐谱,因此可以获得很低的码率。 t t s 将文本形式的信息转换成自然语音,它的目的是让计算机输出清晰自然 的声音。要求计算机可以根据文本的内容带有各种情调来朗读文本。 t t s 系统非常复杂,其编码器输入可以是单一文本也可以是带有韵律参数的 文本。编码器的码率控制在2 0 0 b s - 1 2 k b s 。t t s 支持参数生成,这些参数保 证声音与相关联的面部动作同步,文本内容与国际语音同步以及国际符号与音素 同步等。它还可以添加用来在文本里携带控制信息的标记,并将标记信息传输给 需要与该文本同步的成分。 1 3m p e g - 4 a a c 编码实现 m p e g - 4 a a c 是一种高音质量音频编码方式。分三个档次e 2 4 :m a i np r o f i l e ( 主要) 档次,l c ( 低复杂性) 档次和s s r ( 可分级采样率) 档次。 9 下面就详细介绍m p e g - 4 a a c 编码方案的流程: 首先对音频编码器初始化,设定编码器输入数据的采样频率和通道数目,并 配置从c 音频编码器自身结构参数,初始化编码器各函数。然后对一帧音频采样 数据( 1 0 2 4 点) 进行编码。先将采样数据按通道分离,更新采样存储空间。再 按次序对每一通道的数据进行编码。 - p e g - 4 a a c 编码器结构如图1 4 所示,其中a a c 量化编码模块采用的是哈夫 曼编码和比例因子编码。m p e g - 4 m i c 编码器的各个模块如下所示: 1 3 1 增益控制和心理声学模型 取样率可分级( s s r ) 时使用增益控制模块,信号首先输入增益控制 2 5 】( g c ) 工具中的多相正交滤波器( p q f ) 。时域信号被分成4 个等带宽的频带。信号解码 时采用忽略p q f 高频带或控制最低频带以外的其余每个频带的增益值的方式, 最终获得低取样率下的输出信号。 m p e g - 4 a a c 编码器的通用心理声学模型中,先对输入音频信号做加窗的快速 傅里叶变换。窗口采用h a n n 窗,其中长窗长度为2 0 4 8 ,短窗长度为2 5 6 。然后 利用扩散函数和t o n a li n d e x ( 取值介于0 1 ) ,并结合临界频带的绝对闻阈和预 回声控制来计算出每一个频域子带的最小掩蔽阈值。最后利用掩蔽阈值计算每一 频域子带的信掩比( s 豫) 。 定义掩噪比( m n r ) 是信噪比和掩蔽比的差,即m n r = s n r - s i 恹。适当比特分配 保证洲r 大于0 。信号重建时,子带内的量化噪声将被限制在相应的频带内,并 被每个相应子带内的信号所掩蔽。 1 3 2m p e 6 - - 4 a a c 滤波器模块 将音频信号按帧输入a a c 滤波器,帧长为1 0 2 4 。滤波器组首先对输入信号 加窗,窗函数使用k d b ( k a i s e r - b e s s e ld e r i v e d ) 窗或者使用正弦( s i n e ) 窗。k b d 窗适用于频谱间隔大于2 2 0 h z 的信号,当频谱间隔小于1 4 0 h z 时信号采用正弦窗。 窗函数的长度分为两类,长窗长度为2 0 4 8 个点,短窗长度为2 5 6 个点。由 于长窗的频域分辨率较高,所以长窗适用于比较平稳的时域信号;而短窗的时域 分辨率较高,所以短窗适用于变化较快的时域信号。 m p e g - 4 a a c 标准滤波器组采用的是直接正向“修正的离散余弦变换( m d c t ) 下面给出m d c t 和i m d c t 的公式。 1 0 m d c t 变换可使用下式表示: 删= 鼢句咿- + 抄城舻q h n t , i m d c t 变换可使用下式表示: 刍 删= 删三薹以功c o s 乞( 劲“+ 争( 锄“”,尸= ”。,n _ 1 ( 1 2 ) 其中x ( k ) 是输入滤波器组的音频信号,f ( k ) 是窗函数,肝e g - 4 从c 在m d c t 变换时一共定义了四种不同的窗序列:仅有长窗,长开始窗,仅有短窗和长结束 窗。 在具体的编码过程中这些计算是由类似于f f t 的蝶形算法完成。滤波器组将 n 个时域值x ( k ) 变换为n 2 个频域值x ( m ) 。 1 3 3 频域预测( t n s ) 模块 2 6 】 基于时频对偶性特点,t n s 在每个变换窗内将量化噪声置于实际信号以下, 然后平滑该工具信号的瞬态包络,最终可以通过控制量化噪声的瞬态精细结构来 掩蔽瞬态噪声。 针对信号变化较慢的信号,肝e g - 4 采用肝e g _ 2 中的后向自适应2 阶品格预 测器,对频谱系数进行频域预测操作。 1 3 4 长时预测( l t p ) 模块 2 7 】 l t p 模块是一种工具。这一工具可以有效降低相继编码帧之间信号冗余,对 具有明确基音周期特性的信号极其有效。 因为l t p 是前向自适应预测器,它的预测系数可以作为附带信息发送,所以 其实现的复杂度要小于肝e g - 2a a c 中的频域预测。l t p 的特点是对解码时数字 舍入错误或者频谱系数的位错误不太敏感。 1 3 5 知觉噪音替换( p n s ) 模块 2 8 】 m p e g - 4 a a c 编码系统具有一种新的特性,这是i i i p e g - 2 a a c 所没有的,就是知 觉噪音替换。引入p n s 的目的是优化低位速中a a c 的位率效率。 p n s 技术是基于这样一种特性,就是一种噪音听起来像另一种噪音。这说明 一个噪音信号的结构并不能影响人们对这个信号的主观感受。由此,我们可以不 用传输噪音信号的实际谱成分,而是通过位流说明此频率范围内有一个类似某种 噪音的信号,并且将一些附加信息加入此频段的总功率。 p n s 可以用于节约位速。在解码时,利用位流中标明的功率级把一个随机生 成的噪音插入相对应的谱区域。 1 3 6 联合立体声编码模块 联合立体声编码技术有两种:矩阵立体声编码( m ss t e r e o ) 和强度耦合编 码( i n t e n s i t ys t e r e o ) 。在m p e 6 4 a a c 中,相同比例因子波段内的频域系数,根 据心理声学模型,在两种编码方法中选择所需比特数较小的那种方法。 在矩阵立体声编码中,传送的是规格化的中间旁边声道的信息,计算公式 如下。其中:l ,r 表示转换后的左右声道值,m 表示中间声道值,s 表示旁边声 道值。 啪习 强度耦合编码 剐首先对左、右高频子带取样,然后在一个声道内相加。比 例因子仍然是独立的。右声道的信息由左声道与和声道的比值来表示。 强度耦合编码是在甚低码率时降低可闻伪差的有效的方法。但是在重构的 信号中,有损失空问信息缺点。 1 3 7a a c 量化编码模块 3 0 】 信号经过时频变换后,整个频谱分成若干组频域系数,构成比例因子波段。 每个比例凶子波段内的频域系数共用一个比例因子,采用同一个量化器量化。处 理过的频域信号,首先利用心理声学模犁提供的参数采用迭代循环的方式确定每 个比例因子波段内的量化精度和比例因子,然后使用比例因子工具和非均匀量化 器先后对频域信号进行噪声整形和量化,最后使用无噪编码工具对量化后的频域 信号进行编码。 m p e g - 4 a a c 编码模块的迭代循环划分为三级:最高级称为帧循环程序。最高 级调用外迭代循环和内迭代循环。外迭代循环控制在内迭代循环中量化频域行而 产生的量化噪声,内迭代循环控制比特率。 调整频域噪卢采用比例因子工具,具体到m p e g - 4 a a c 编码模块中是通过迭代 循环完成的,见图1 6 。编码器端可以对比例因子波段内的频谱系数进行单独放 大。放大频谱系数的结果是得到较大的噪声整形值,从而在量化后可以得到较高 1 2 的信噪比,可以使量化失真小于心理声学模型计算出的允许值。因为在解码器中 要复原放大的结果,所以需要在比特流中传送比例因子。 , 警:f l :k 、 _ 一 o i l , 艋:_ 特攀 控制 ,犬虞 茬剃 过程 比饲 陶了 :n 城亿 上j 亳 允嗓 缡筠 i 共 图1 6 迭代循环 无噪编码是在m p e g - 4 a a c 量化器内通过迭代循环实现的,输入的数据是一组 1 0 2 4 个已量化频谱系数。对比例因子和量化频谱进行以下编码来去除每个声道 内的冗余。 首先比例因子以1 5 d b 的步长进行量化,然后将首个比例因子用p c m 编码为 8 比特无符号整数,叫做全局增益。将其它的比例因子相对于前一个比例因子值 进行差分编码,最后利用比例因子码本1 对全局增益和比例因子进行霍夫曼编 码,编码使用霍夫曼码本1 l l 。 小波包变换在编码中的应用 m d c t 变换在音频编码中应用广泛。m d c t 是一种很好的快速算法,但是它也 存在一些不足:一方面每一变换后的频域子带可能包含多个临界频带,在压缩时 若丢失一部分信息则影响不止一个临界频带;另一方面,量化编码时频域子带中 最大的量化噪声被定为该子带所有临界频带的掩蔽阈值的最小值,结果是不利于 提高编码质量。 研究者不断探究一种新的变换,使音频编码算法对信号的划分尽量符合临界 频带,以更好的适应人耳的听觉特性。 小波包变换是一种很好的变换方法。可以在信号高频部分实现精细分割,并 且通过设置选取最佳小波包基的信息代价函数,可以实现不完全小波包分解。使 经小波包滤波器组分解后的信号频带匹配固有的临界频带【3 1 。 2 1小波包变换的理论知识 小波包变换是由c o i f m a n 、m e y e r 与w i c k e rh a u s e r 引入的 3 2 l 。在正交小波 基的基础上创立了正交小波包的概念,后来发展到半正交小波包和广义小波包。 小波变换只分解信号的低频部分,频域分辨率随频率的升高而降低。而小波 包变换可以进一步分解信号的高频部分,对信号进行更好的时频局部化分析。 2 1 1 小波包的定义与性质 3 3 正交小波包是一组能够构造z 2 ( r ) 标准正交基库的函数组,正交小波基便是 其中的一组,即小波函数是小波包函数组中的一个。所以小波包是小波函数的推 广。 在正交小波基的多分辩分析( m r a ) 中,尺度空间杉和小波空间形满足下式: 形= 么- o l ,= o ,l ,2 , ( 2 1 ) 定义2 1 1 设 勿) 。z 是正交尺度函数( ,) 对应的正交低通实滤波器, 岛 。z 是 正交小波函数y ( ,) 对应的高通滤波器,其中岛= ( 一1 ) ”属一。,则它们的 两尺度方程和小波方程定义为: 1 4 为了便于表示小波包函数,我们引入以下记号: i ( 力:_ ( 力 【巧( 力:= y ( 力 因此,式( 2 2 ) 可以表示为: 所以,小波包函数可以通过u o 、屈箩在固定尺度下定义。 i 毪( ,) = 互幺( 2 ,一句 定义2 1 2 由二 递归定义的函数锡,n = o ,1 ,2 ,称为由 l 吃。( ,) = 压晶( 2 ,一句一”矿 “ 正交尺度函数= 妒( ,) 确定的小波包。 小波包变换可以用如图2 1 所示的完全二叉树结构表示。 图2 1 小波包二叉树结构 由定义2 1 2 ,可以得到小波包的基本性质,见下述定理。 定理2 1 1 : 如果任意非负整数n 的二进制表示为刀= 影2 ,影= o 或1 ,则小 波包的傅里叶变换为也( 妫= 兀c o 乞( 石c o ) ( 2 5 ) 1 - - 1 o 句 哪 叫 卜 犰 似 力 幺 箩 越匹脚 厅;压 力 m 句 句 幺 晶 彪越虼彪l!:】彪 力 哆 纠 疗(a,):2:!三:善。it?g广dd口 。:。;, 忡= 击矽妇 u 内 i 哌。= 。,j ez 1 喙。= 班z 1 2 9 k 以 戮 。、 k i矽。 联 、 l硝c t ,、 1形:乏,:l 以 i 联;:彤: :矾:l 成l ( ,: ( a ) 小波分解( b ) 小波包分解 图2 2 小波变换和小波包变换的空间剖分 2 1 2 小波包滤波器组 设一个长度为= 2 z 的均匀采样的离散输入信号b k ,计算信号经小波包 变换后的频域系数。结合式( 2 1 1 ) ,若已知信号在空间矿上的小波包系数,如 何计算出在其两个子空间噶和嘲1 上的小波包系数。我们可以通过离散的小 波变换的滤波器组快速计算出小波包系数。将小波m a l l a t 快速算法应用于小波 包变换就得到了小波包分解与重构的滤波器组。 小波包分解公式: 小波包重构公式: 啄。 k l - 红2 一 刁+ g k - :衫剃【刀( 2 1 3 ) | z涎z 其中巧”和巧肿1 分别为信号在子空间略和厂户肿1 1 上的小波包系数。 2 1 3 不完全小波包分解 我们称图2 2 ( a ) 为小波包的完全分解。和小波分解不同,对于同一个空间, 在相同分解层数上,小波包分解可以提供不同的空间剖分,即小波包正交基并不 唯一。图2 3 给出了若干个小波包分解空间剖分和对应的可容许树 3 4 i 。 1 7 ,_l引薜 ” ,啦 髟 rl i 吖 肿 铲, 铲,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论