(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf_第1页
(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf_第2页
(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf_第3页
(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf_第4页
(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(通信与信息系统专业论文)音频和语音统一编解码算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,高质量低码率音频编码技术和宽带语音压缩技术虽然得到了广泛的发 展,但是,对于如何将音频信号和语音信号统一到一个编码核进行编码的技术发 展稍显滞后,所以对这一领域的研究具有重大的意义。 本文提出的一种音频和语音统一编码算法。它以现有的感知音频编码方法为基 础,对感知音频编码的关键模块进行了改进,以适应语音信号和混合信号地处理 要求。本文共对三种现有的心理声学模型分析方法进行了改进,并对三种改进的 心理声学模型的优缺点进行了分析。本文所介绍的语音和音频统一编码算法增加 了适应语音信号编码和混合信号编码的预处理能量分析模块。在处理方法上,它 是一种类似统计信号分析的处理方法。从分析的结果来看,它能够对心理声学分 析模块所产生的掩蔽曲线进行基于临界频带内信号平坦程度的补偿,使心理声学 分析所产生的掩蔽曲线更加准确。 分析和测试结果表明,本文所研究的心理声学模型分析方法得到的掩蔽曲线能 够更加准确的得到声音信号的残差,使压缩达到更大的压缩比;预处理能量分析 对临界频带内信号的平坦程度分析准确,且更适合对心理声学分析得到的各条掩 蔽曲线进行调整和补偿。虽然在技术发展的现阶段还存在一些不足,但是可以通 过后续研究来改进。 关键字:联合语音音频编码心理声学能量分析掩蔽曲线 a b s t r a c t r e c e n ty e a r sv a r i o u sk e yt e c h n o l o g i e so fh i g h - q u a l i t ya n dl o wb i tr a t ea u d i oa n d s p e e c h c o d i n ga l g o r i t h m sh a v eb e e nd e v e l o p e d ,m o s to ft h e mf o c u s e do ne i t h e ra u d i oo r s p e e c h ,s e p a r a t e l y b u ti nc o n t r a s t ,u n i f i e ds p e e c ha n da u d i oc o d i n gi sa l i t t l ef a rb e h i n d s oi ti so fg r e a tp r a c t i c a ls i g n i f i c a n c et od os o m er e s e a r c ho nt h e s ea r e a s t h i sp a p e rp r e s e n t sau n i f i e ds p e e c ha n da u d i oc o d i n ga l g o r i t h mf r a m e w o r k b a s e d o nt h ep r e s e n tp e r c e p t i o na u d i oc o d i n g ,s o m ek e ym o d u l e sa r em o d i f i e dt om e e tt h e n e e do f p r o c e s s i n gs p e e c h ,a u d i oa n dm i x e ds i g n a l s at o t a l o ft h r e ee x i s t i n g p s y c h o a e o u s t i e m o d e l a n a l y s i s m e t h o di s i m p r o v e d ,a n d t h e a d v a n t a g e s a n d d i s a d v a n t a g e so ft h e s et h r e ep s y c h o a c o u s t i cm o d e l sa r er e s e a r c h e d t h ei m p r o v e d t h r e ep s y c h o a c o u s t i cm o d e la n a l y s i sm e t h o d sa r ea b l et oa n a l y s i sn o to n l ya u d i os i g n a l b u ta l s os p e e c hs i g n a lo rm i x e ds i g n a lm o r ea c c u r a t e l y a ne n e r g ya n a l y s i sm o d u l ei s d e s i g n e dt om o d i f yt h eo u t p u to fp s y c h o a c o u s t i cm o d e l t h i se n e r g ya n a l y s i sm o d u l ei s s i m i l a rt os t a t i s t i c a la n a l y s i so fs i g n a lp r o c e s s i n g f r o mt h er e s u l t s ,t h i sm e t h o dc o u l d a c c u r a t e l ya n a l y s i st h ef l a tl e v e lo fs p e c t r u m t h er e s u l t so ft h i sa n a l y s i sc a r lb eu s e dt o m o d i f 3 ,t h ep s y c h o a c o u s t i cm a s k i n gc u r v e 。 i nt h ec u r r e n ts t a g e ,t h e r ea r es t i l ls o m es h o r t c o m i n g si nt h i sf r a m e w o r k ;i tc a nb e i m p r o v e dl a t e rb yf u r t h e rr e s e a r c h e s k e y w o r d s :u n i f i e ds p e e c ha n da u d i oc o d i n g e n e r g ya n a l y s i s p s y c h o a c o u s t i c m a s k i n gc u n ,e 创新性声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:日期羔翌翌:主:! 兰 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名: 导师签名: 曰期鲨髯:主:! 圣 日期丝2 主:乡 第一章绪论 第一章绪论 1 1 前言 随着多媒体和网络通信技术的飞速发展,数字音频技术逐渐代替了模拟音频技 术,成为多媒体技术领域内重要的研究方向。数字音频已经在数字影音系统、高 清晰数字电视( h d t v ) 、数字音频广播( d a b ) 、电话会议系统、无线通信、互联网 多媒体业务等领域中得到了广泛的应用【l 】。然而,对于数字化后的音频信号,如果 没有有效的压缩编解码方案,海量的数据将给存储和传说带来巨大的压力,这就 促进了各种音频压缩编解码算法的发展。众多的音频压缩方案就是这样产生的, 例如w m a 、a a c 、m p 3 等。但随着时代的进步,这种音频压缩算法己越来越不 能满足需要,比如压缩率落后,低码率下音质不理想等等。 传统的对声音信号的编码根据侧重点不同主要分为两大类:语音编码和音频 编码【2 1 。语音编码主要专注于对语音信号进行压缩编码,包括3 4 k h z 以下的窄带 语音和8 k h z 以下的宽带语音。而音频编码专注的范围更为广泛,主要研究对自然 界所有声音的压缩处理。其重点主要是对音乐信号进行编码,所以它所进行处理 的音频信号频率更加广泛,从1 6 k h z 到4 8 k h z ,甚至有的能够用来处理高到9 6 k h z 的原始信号( 3 】。然而,目前并没有一种编码器能够即能对语音信号提供很好的压缩 效果,又能对音频信号进行高质量的压缩。根据人的发声原理和人的听觉特性的 不同,语音信号和音频信号的编码压缩很难统一到一个编码器核中。 随着技术的发展和人们需求的增长,集成化成为技术发展的一个重要方向, 语音和音频的联合编码也成为声音信号压缩的必然方向。m p e g 4 标准化进程中提 出了设计一种统一的语音和音频的编解码器( u s a c :u n i f l e ds p e e c h a u d i o c o d i n g ) 。目的就是研究一种能够对语音、音频和混合信号进行编码的算法,对几 种信源都有良好的编码效果。鉴于当前音频编码算法和语音编码算法的缺陷和 m p e g 标准化的方向,研究一种联合语音音频编码器已成为压缩算法领域的热点 和重点。 音频和语音统一编解码算法研究 1 2 语音、音频编码及其区别 1 2 1 语音、音频编码概述 音频信号数字化之后,所面临的第一个问题就是如何实现数字音频的有效存 储和传输,因此,为了降低传输或存储的费用,对数字音频信号进行有效的编码 处理为重要【4 】1 5 1 。数字音频编码的主要目的是力求以最小的数据量表示更多的信 息,故也称为压缩编码。音频编码算法一般可分为有损编码核无损编码两大类【6 】。 按照压缩原理的不同,可将音频压缩编码方式分为以下四种:波形编码、参数编 码、混合编码以及感知编码。对于各种不同的压缩编码方法,其算法复杂度、重 构音频信号的质量、压缩比、编解码延迟等都有很大的不同,因此其应用场合也 各不相同。 1 、波形编码:波形编码是指直接对音频信号时域或频域波形样值进行编码, 核心思想是不利用生产音频信号的任何知识产生的一种重构信号,它编解码后的 波形会和原始波形尽可能地一致。最常见的波形编码方法就是脉冲编码调制 ( p c m :p u l s ec o d em o d u l a t i o n ) 。p c m 编码仅仅是对输入信号进行采样和量化,不 同的量化级固定地分布在输入信号的整个幅度范围内。其改进方法自适应脉冲编 码调铝t j ( a d p c m :a d a p t i v ep c m ) 贝j 是采用可变的量化级,先将差分信号利用自适 应编码因子进行缩放,再根据固定的量化曲线进行量化。 由于波形编码保留了信号原始样值的细节变化,从而保留了信号的各种过渡 特征,所以,波形编码适应性强,算法复杂度低,编解码延迟小,重构音频信号 的质量一般较高,但压缩比不高,编码效率比较低。 2 、参数编码:数编码是是根据对声音形成机理的分析,从话音波形信号中提 取生成话音的参数,对这些参数进行编码,解码的时候使用这些参数通过语言生 成模型重构出话音,针对话音的编解码器叫做声码器( v o c o d e r ) 。它由白噪声作无 声话音段激励或者脉冲段做有声话音段激励。常用的音频参数有滤波器组、发声 或者不发声的标志和有声话音的音节周期等。 这种编码技术的优点是压缩比高,但计算量大,重构音频信号的质量较差, 自然度低,不适合于高保真度要求的场合,一般多用于语音信号的压缩。 3 、编码混合:编码是将波形编码与参数编码结合起来,它不使用两个状态( 有 声或无声) 的模型来切换滤波器的输入激励信号,而是采用一种可变的激励信号, 使得该信号激励产生的波形尽可能接近原始话音的波形。采用混合编码的方法, 可以在较低的编码比特率下获得较高的音质。如码激励线性预钡, i ( c e l p :c o d e 第一章绪论 3 一 e x c i t e dl i n e a rp r e d i c t i v e ) 、多脉冲线性预测编码( m p l p c :m u l t i p u l s el i n e a r p r e d i c t i v ec o d i n g ) 等。 4 、感知编码:感知音频编码器主要利用信号的统计特性和人类听觉的感知特 性,首先编码器会分析输入信号的频率和振幅,然后将其和人类听觉感知模型进 行比较,一方面力求去除信号的统计冗余,另一方面利用心理声学现象中的掩蔽 效应,去除人耳不能感知的声音成分,同时也不一味追求最小的量化噪声,而是 力求使量化噪声不被人耳感知即可,尽管这样做损失了一部分音频成分,但是入 的耳朵却感觉不到编码信号质量的下降,因此,既实现了音频数据压缩的目的, 又不影响解码端重构音频信号的主观音质。 1 2 2 语音编码和音频编码的区别 从信源本身的特点来讲,两者没有本质的区别,都是空气振动产生的机械波。 其不同点就是语音是由人发声产生的,音频是自然界的一切声音。从频率上来看, 语音的频率范围要比音频的频率范围窄很多。 从编码方式角度来讲,两类编码的主要区别在于,语音编码主要是基于人的发 声特性,或者线性预测模型来进行压缩的;而目前主流的音频编码主要是基于人 的听觉特性来进行压缩的感知编码。语音编码器一般只适用于压缩采样率在1 6 k h z 采样以下的信号;音频编码器一般只适用于压缩采样率在1 6 k h z 采样以上的信号。 语音编码器在进行时频变换时采用的窗长通常较短,很少用51 2 点以上的窗长; 而音频编码器的窗长范围较宽,m p e g 一1l a y e r - 1 采用的3 8 4 点的汉宁窗,o g gv o r b i s 算法的窗长可以到2 0 4 8 甚至更长的窗长。语音编码一般编码速率比较低;而音频 编码一般编码速率比较高,有损压缩甚至可以到4 4 8 k b p s 。这些都制约着语音编码 和音频编码的统一。 1 3 本文研究的内容 本课题的工作是研究一种能够对语音、音频和混合信号都能够进行编码的算 法,且对各种新源的编码效果不低于现有主流的语音、音频编解码算法。近期, m p e g 专家组在m p e g 4 标准化进程中提出了设计一种统一的语音和音频的编解 码器( u s a c u n i f i e ds p e e c h & a u d i oc o d i n g ) 。 论文所涉及的主要工作和内容如下:分析研究当前主要的心理声学分析方法: m p e g 心理声学模型i 、m p e g 心理声学模型i i 和o g gv o r b i s 心理声学模型,并对 4 一 音频和语音统一编解码算法研究 心理声学模型进行改进以适应语音信号处理。分析研究对时频分析得到的频谱进 行白化得到音频信号的残差的方法。 本论文所改进的心理声学模型分析方法适应分析从8 k h z 采样到4 8 k h z 采样的 原始信号;所设计的音频预处理方法算法较简单,预处理分析准确。 1 4 论文的结构安排 本论文共分为五章,具体内容和结构安排如下: 第一章主要对音频编码技术的发展、意义及技术分类作了简单介绍,最后简 述了本论文的研究内容。 第二章研究了目前国际上已存的多种联合语音音频编码算法( u s a c ) ,并分析 这些算法的优缺点。 第三章研究了一种新的联合语音音频编码算法,对算法的各个模块进行分析。 第四章对算法的关键模块进行详细论述,主要研究心理声学分析模块和预处 理模块。并且论述其他模块的计算方法。 第五章对算法关键模块进行性能的评估。 第六章对全文进行总结和展望。 第二章现有音频和语音统一编解码算法 第二章现有音频和语音统一编解码算法 5 一 在m p e g 提出要将联合语音音频编码算法写入标准之前,在信源编码领域已 经对联合语音音频编解码算法作了大量的研究,提出了一些算法框架。m p e g 提 出要将联合语音音频编码算法作为m p e g 4 标准化进程的一个方向之后,联合语 音音频编码算法成为数据压缩领域的一个研究热点。在这一章,论文将重点介绍 目前已存的集中联合语音音频编码算法,以及其发展方向,最后将介绍衡量算法 的几个重要的性能指标。 2 2 现有联合语音音频编码算法 现有的联合语音音频编码算法可以大致分为两大类,第一类是在于处理时进行 语音和音频特性的判断,将语音和音频信号用两个相互独立的编码核进行编码; 或者将信号进行分离成两个信号分别进行编码。第二类是用一个编码核来对信号 进行编码。 2 2 1 第一类联合语音音频编码算法研究 第一类联合语音音频编码算法框架是将带编码得信号输入到一个分析模块中, 分析信号的特点以判断该信号是语音信号还是音频信号,根据分析得结果将输入 信号送到不同编码核进行编码。如图2 。1 所示,是一个第一类联合语音音频编码算 法框架7 1 。 对这种方法的研究开始的较早,早期的联合语音音频编解码算法主要采用的是 这种方法。其关键技术在于统一编码器窗长和对待编码信号的分析。由于编码器 采用了两个编码器核,所以必须统一两个编码器的输入参数,例如窗长,编码质 量等。在这些参数中,差别最大的是窗长。语音编码器通常采用较短的窗对信号 进行时频分析,如g 7 2 2 1 中采用3 2 0 点的窗长;而音频编码器通常采用较长的窗 长,如m p 3 中采用1 1 5 2 点的窗长。在对待编码信号进行分析的时候,一般对信号 6 一 音频和语音统一编解码算法研究 的功率谱进行分析,这也要求对信号进行较长的窗长进行分析。 _ 语音音频鉴别 i7 一语音编码器 _ 比 选择控制 l特 封 帽q 、1 日7 _ 1 音频编码器卜j 装 图2 1 第一类联合语音音频编码算法框架 这类编码框架的核心在于如何对待编码信号的分析,以确定将待编码信号作为 语音进行编码还是作为音频进行编码,即语音音频识别( s a d :s p e e c ha u d i o d i s c r i m i n a t i o n ,有的文献也叫s m d :s p e e c hm u s i cd i s c r i m i n a t i o n ) 。目前语音音频识 别主要通过对信号的时域包络和频谱能量进行分析来实现的。语音信号由能量较 大的浊音信号和能量较小的清音信号组成,信号能量起伏较大;音频信号相对稳 定,时域包络相对平稳,如图2 2 所示。 4 仪舱 输 入 j 堕毒 了 - 4 貔 时 域 包 络 音频:1 秒 图2 2 语音和音频信号的时域包络比较 语音信号的基因周期是一个不断变化的量,但是变化范围较小,变化相对缓慢: 音频信号的基因周期也是一个变化的量,但是变化范围较大,且通常变化很快, 如图2 3 所示。 从频谱上来看,语音信号的能量主要集中在基频的谐波分量上,其谐波特性较 好,而音频信号的能量一般分布在各个频率点上,其谐波特性较差。还有一些特 性可以运用到语音音频识别中,如信号的过零率、信号的倒谱域、基于小波变换 第二章现有音频和语音统一编解码算法 的h l 和l h 子图能量比等【8 1 1 9 】【l o 】。 o 输黼- 入 广 信 。 号”掀 一4 0 基 因 周 期 音频:1 秒 2 0 0 0 o 0 0 d 语音:1 秒 l - j i i - _ r 1 图2 3 语音和音频信号的基因周期比较 7 一 这种方法采用了两个编码核,用语音音频识别的方法作为一个开关,对信号进 行判决,从而实现了语音和音频同时进行编码。但是这种方法实际上还是两个编 码器在进行编码,并没有实现联合语音音频编码。 图2 4 给出了另外一种联合语音音频编解码框架【1 。这种编码框架采用分层的 方式将编码器分为基础层和增强层,基础层是一个语音编码核,用来对信号的谐 波部分进行编码,增强层是个音频编码核,用来对信号的剩余部分进行编码。 这个框架的基本原理是,用语音编码核对谐波特性比较好的信号分量进行编码, 用音频编码器对剩余的音频的细节部分进行编码。比特分配通过对谐波部分和剩 余部分的能量比进行分析来决定两个编码核分别用多大的编码速率进行编码。 图2 4 分层的第一类联合语音音频编码框架 谐波信号 残差信号 原始信号首先经过个谐波分离模块( h a r m o n i cs e p a r a t i o n ) 将谐波特性比较好 8 一 音频和语音统一编解码算法研究 的信号分量分离出来送到语音编码核进行编码。谐波分量和剩余信号分量进行能 量对比来确定谐波分量和剩余信号分量分别用多少的编码速率进行编码。本地解 码器对基础层的编码结果进行解码。从原始信号中去掉本地解码得到的信号,得 到剩余信号分量。将剩余信号分量送到音频编码器中进行编码得到增强层的编码 结果。 这种编码算法的关键技术在于如何从原始的音频信号中分离出谐波特性比较 好的信号分量。调制频率( m o d u l a t i o nf r e q u e n c y ) 分析方法是通过对将f f t 系数在 进行短时f f t 变换得到的系数进行分析来对信号进行分离的,如图2 5 所示。首 先将时域信号加重叠窗进行f f t 变换,将相同的频率点的多帧f f t 系数作为一组 进行短时f f t 变换得到调制频率。 x t 竺忽遂蓝m m - , ) 山山山1 | j ,1 | 3 ,山击t t , 击山山山古山喜 黼 专 域稚掰 专 乏 ”专 黼 专 凇篇= 亭事i 商f 季矜兮 g ( t 互- 脚p e 啦。 图2 5 调制频率分析 x k 赴 专 兮 专 专 专 调制频率 不同的信号源得到的调制频率不同,如图2 6 所示。图中,左边为调制频谱图, 右边是各频率点上的调制频谱能量和,由图上可以看出,语音、音频和混合信号 的调制频谱和调制频谱能量分布有所不同。因此可以看出此信号为语音、音频还 是混合信号。然后对结果进行分析以进行比特分配。这种编码器框架的优点在于 加入了混合信号分析,使得编码器能够很好的处理语音和音频的混合信号。但是 从调制频谱分析的方法上就可以看出,这种编码器会带来较长的时延,不适合信 号的实时分析。 第:章现有音频和语者统一编自¥码算注 图2 6 不同信号的调制颇诺留 ( 第一行为语音信号的调制频谱筇二行为音频信号的调制频谱,第二行为混合信号的调制频 谱1 另一种对信源进行分析的方法是h n m ( h a r m o n i c p l u s n o i s e m o d e l ) i ”1 。语音信 号由清音和浊音两部分组成。h n m 模型将浊音信号分成一个闽值为界的两个波 段,小于闽值的波段被视为谐波部分,大于闽值的波段被视为噪声部分。因此, 合成语音信号是将浊音信号5 ( f ) 分成两部分合成。 j ( f ) = 0 ( f ) + 5 。( f ) ( 2 - 1 ) 其中:j ( ,) 是合成语音信号,s 。( f ) 是由谐波组成的谐波部分,s 。( r ) 是噪声部分。 语音信号中的谐波部分可表示成若干谐波之和的形式: “( f ) = 4 ( f ) c o s 【瓦( ,) 血+ 最( ,) 】 ( 2 - 2 ) 其中:上( ,) 为谐波的个数t ( f ) 为信号在t 时刻的基频,4 ( f ) 为信号在t 时刻 第k 条谐波分量的振幅,e a t ) 为信号在t 时刻第k 条谐波分量的相位。将余弦用 指数形式表示,即有: “( ,) :兰a a t ) c 。s ;( e ,t “m “+ 。m ,+ e “m “+ “c m ) ( 2 - s ) - l l j 从而可得到在t 时刻语音信号的表达形式: s a t ) = a 。( m “”( 2 - 4 ) 一 霾 1 0 音频并语音统一编解码算法研究 其中:a k ( t ) 是语音信号在t 时刻第k 条谐波分量的复振幅,三( f ) 和c 0 0 ( t ) 的意 义和2 3 式中意义相同。 噪声部分s 。( f ) 通过从原始信号中去掉谐波部分得到。 对于h n m 分析的方法,其缺点在于h n m 分析主要是对语音信号进行分析, 在对音频信号和混合信号的分析中,难以准确地预测基频。 2 2 2 第二类联合语音音频编码算法研究 第二类是用一个编码核来对信号进行编码。这类编码器通常采用闭环反馈的方 法对信号进行编码。如图2 7 和图2 8 所示两种已存的联合语音音频编码算法框架 【1 3 1 1 1 4 】 o 巍入j。八。荨。盈轴“:上l 摸式铷剃 一l 硝丐刀冒删筘嘲1 盘i i 矗憎 i - 谮包络 孑带增麓 。| 比祷分鬣 长删 l 一司a 1 广、 一墩化 , l r i 引r 勰y 一 。时频饔换 j 块长 r 熵编鹃 l 左一 - 一 | 嫒赣化 。、 汐 时凝魇璐 o _ 时域稻频域信萼 参数、控铬目信患 图2 6m t p c ( 多模式变换预测编码器) 算法框架 第一种是m t p c 编码器。m t p c ( m u l t i m o d et r a n s f o r mp r e d i c t i v ec o d e r ) 编码器 包含了t p c ( 变换预测编码) 的基本模块:线形预测模块、长时“基因周期 预测、 变换编码、频域子带比特分配和量化。并且也包含了新加入的模式识别、变换窗 切换和h u f f m a n 编码以适应联合语音音频的编码。 第二种是非线性预测的方法,如图2 7 。采用非线性预测实现联合语音音频编 码算法和c e l p 有很大的相似性,但是有三处较大的不同:第一,用心理声学分 析模型来代替简单的感知加权滤波器来得到加权滤波系数,从而使得噪声掩蔽特 第二章现有音频和语音统一编解码算法 性更加的准确和优良,在这个模块,加权滤波器系数由信号噪声掩蔽门限分析得 到;第二,激励增益由一个非线性的网络增益适应器( n o n 1 i n e a rn e u r a ln e t w o r k g a i na d a p t o r ) 进行计算得到;第三,用一个二阶的沃尔特拉滤波器( v o l t e r r af i l t e r ) 做非线性预测,来去掉信号的谱相关性。 图2 7 非线性预测联合语音音频编码框架 以上的两种联合语音音频编码算法框架都只采用了一个编码核对信号进行编 码。在普通的语音编码器的基础上增加了了反馈或心理声学分析来适应音频信号 的压缩。但是从语音编码器的基础上来改进编码器以实现联合语音音频编解码算 法的方法有很多的局限性。这类方法将音频编码仅仅作为编码器的一个附加功能, 并不能对语音、音频以及混合信号进行质量较好的编码压缩。 2 3 联合语音音频编码算法的发展方向和性能指标 根据两类联合语音音频编码算法的不同,联合语音音频编码算法仍然有两个发 展方向。第一类联合语音音频编码算法的发展方向是如何更加准确的判断输入信 号的类别。目前,此类联合语音音频编码算法的研究重点是如何将谐波分离出来。 第二类联合语音音频编码算法的发展方向是如何用一个编码核对信号进行编 码,如何在现有的语音或音频编解码器上进行改进,增加对不同信号的处理模块 对信号进行处理。 联合语音音频编码算法和其他声音信号处理算法一样,衡量其算法性能的主要 指标有p e s q 、p e a q 客观测试得分和m u s h r a 主观测试得分,算法复杂度,算 法延时等。 1 2 音频和语音统一编解码算法研究 2 4 本章小结 本章对现存的联合语音音频编码算法进行了介绍。介绍了两类不同的联合语音 音频编码算法,以及它们的关键技术和解决办法。分析了这些联合语音音频编码 算法的优点和局限性,提出了这些联合语音音频编码算法的发展方向。 笫一类联合语音音频编码算法框架一般使用了两个编码核,编码质量较高但是 对于混合信号难以准确的判定使用哪一个编码器核,改进以后的方法引入了较大 的算法延时,增加了算法的复杂度,不适合算法的实时性,在嵌入式设备上也由 于其算法复杂度太高而无法得到广泛的应用。 第二类联合语音音频编码算法框架一般是由语音编码算法框架发展而来,并没 有针对音频信号进行很好的优化,所以对音频信号的处理能力较差,对混合信号 的处理也难以实现。 本章对现有的联合语音音频编码算法框架的研究表明,现有的联合语音音频编 码算法框架虽然各有优点,但是并不符合联合语音音频编码提出的要求。所以迫 切的要求有一种新的联合语音音频编码算法的出现。 第二章音频和语音统一编解码算法研究 第三章音频和语音统一编解码算法研究 q1 己i 吉 u 上 ,j 口 1 3 一 在上一章,论文重点介绍了目前已存的集中联合语音音频编码算法,以及其发 展方向。但是这些算法都存在一定的局限性,如延时太大、判断信号类型不准确 等。在这一章,论文将主要介绍一种新的联合语音音频编码算法框架,这个框架 是从感知音频编码算法发展而来的。 综合所有的声音信号,音频信号占了绝大多数。而对于声音信号来说,基于感 知的压缩方式是最能够反应人耳对声音的感知特性的,能够达到最大的压缩比, 所以本章将要介绍的联合语音音频编码算法框架是一个从感知音频编码算法框架 上发展而来的,能够对语音、音频和混合信号实现实时高质量的压缩。 3 2 感知音频编码算法研究 音频编码或音频压缩算法是为了有效地存储或传输高质量的音频信号,其主 要目的是以尽量少的比特数来描述原始信号,且要尽可能地保证重构的信号不失 真。若要以最少的位数来做编码,可经由量化器移除一些不必要或不相关的信号 数据,以达到最少的位编码目的。借着人类听觉的感官模型,可使感知式音频编 码器更容易达到这个目的。 为了获得更高的压缩比,一种追求在主观感知意义上更接近的高质量、低码 率的音频编码技术越来越成为数字音频压缩技术的主导,因而设计重点从由精确 恢复原始信号波形转向充分利用人类的听觉感知特性,不仅要去除信号的固有冗 余,且要能有效去除感知冗余,这种方法称为感知音频编码( p a c :p e r c e p t u a l a u d i o c o d i n g ) 。本节介绍感知音频编码的基本原理并分析音频编码技术的发展趋势及面 临的问题。 感知音频编码器主要利用信号的统计特性和人类听觉的感知特性,一方面力 求去除信号的统计冗余,另一方面利用心理声学现象中的掩蔽效应,使用心理声 学模型,去除人耳不能感知的声音成分,同时也不仅仅追求最小的量化噪声,而 是力求使量化噪声不被人耳感知即可,这样,既实现了音频数据压缩的目的,又 不影响解码端重构音频信号的主观音质。由于子带编码和变换编码的优点,使得 1 4 音频和语音统一编解码算法研究 两者在感知音频编码算法中被广泛应用。 不同感知音频编码器在具体实现上可能略有差异,但其算法原理与过程基本 相同。编码器用变换窗对输入的数字音频信号进行加窗,有些编码器为了消除边 界噪声,相邻数据块之间往往相互重叠。时频分析( 滤波器组) 不仅提供基本的 分析综合系统,它是实现变换编码和子带编码的基础。而时频分析工具的选择, 主要取决于编码系统在时域分辨率和频域分辨率方面的权衡。一个典型的感知音 频编码算法框架如图3 1 【5 】。通过时频变换和心理声学分析对信号进行量化和有失 真的压缩,然后进行熵编码无失真压缩,最后进行比特封装送入信道。时频分析 是进行量化编码的基础,而心理声学分析模块决定了有失真压缩的程度。 p c m 时频分析 - 量化编码 - 呻 11 熵 比 编 特 封 码 装 _ 心理声学分析 - - 比特分配 - - 图3 1 感知音频编码算法框图 编码器将一个短周期内的连续时间采样信号( 即数据块) 送入子带滤波器中, 滤波器组将信号分成多个限带信号,以近似人耳的临界频带( c r i t i c a lb a n d ) 。各子 带信号再经过时频变换,得到的频域参数被输入到量化编码模块。由于子带滤波 器和变换滤波器级联,所以通常称为混合滤波器组。 心理声学模型是感知编码器的核心,它利用了心理声学中的掩蔽现象,提出 了临界频带的概念。心理声学模型对一个数据块进行分析,以临界频带为单位分 析信号的掩蔽特性和掩蔽效果,模型输出掩蔽阈值曲线,以此为依据去除听觉不 相关成分,掩蔽阈值提供给比特分配模块来控制量化噪声的大小,决定比特分配 方案。 比特分配模块依据心理声学模型提供的信息拟定比特分配方案,供量化编码 模块参考。 量化编码模块按照给定的比特分配方案进行比特分配,对频域参数进行量化 和编码,并将结果送给复合器进行比特流封装,在比特流中加入必要的边信息形 成最终的输出码流。量化编码模块一方面要考虑心理声学模型的分析结果,力求 去除听觉不相关成分并尽可能地将量化噪声控制在掩蔽阈值之下,同时还要考虑 编码比特率,因此,量化编码模块要在给定的编码比特率下力求获得最好的音质, 第三章音频和语音统一编解码算法研究 或在给定的音质要求下,力求最小的编码比特率。 感知音频解码器框架如图3 2 。 图3 2 感知音频解码器框架 感知音频解码器相对于编码器而言要简单,由于没有心理声学模型,所以算法 复杂度也小得多,除此之外,解码过程基本上是编码过程的逆过程。解码时,将 编码比特流进行拆帧以后,得到数据流和边信息,两者经熵解码,即得到频域参 数,再经时频反变换,形成重构的数字音频输出。 感知音频编码器主要利用信号的统计特性和人类听觉的感知特性,一方面力 求去除信号的统计冗余,另一方面利用心理声学现象中的掩蔽效应,使用心理声 学模型,去除人耳不能感知的声音成分,同时也不单单追求最小的量化噪声,而 是力求使量化噪声不被人耳感知即可,这样,既实现了音频数据压缩的目的,又 不影响解码端重构音频信号的主观音质。由于子带编码和变换编码的优点,使得 两者在感知音频编码算法中被广泛应用。 3 2 联合语音音频编码算法 本章所介绍的联合语音音频编码算法是一种基于感知音频编码的联合语音音 频编码算法。从其算法框架上来看,和普通的感知音频编码算法比较相似,如图 3 - 3 。 p l 预处理h 时频分析h量化卜一 比 熵 特 编 心理声学 比特分配 码 封 装 分析 图3 ,3 基于感知编码的联合语音音频编码算法框架 b i t 流 由图3 3 可知,此联合语音音频编码算法和普通的感知音频编码框架相比,在 音频和语音统一编解码算法研究 时频分析和心理声学分析之前增加了预处理分析。预处理的目的是为了判断此帧 的频谱是近似于平坦的噪声还是近似子尖锐的谐波,以确定噪声掩蔽门限和音调 掩蔽门限的补偿系数。在语言信号中,可以理解为判断此帧的频谱是近似于平坦 的清音信号还是近似于尖锐的浊音信号。 其他模块和普通的感知音频编码算法中的作用基本相同,下面将对关键模块进 行介绍。 3 2 1 预处理 预处理分析的作用有两个:分析信号能量的变化决定数据块的大小以减小预回 声和过回声;对信号进行统计信号分析判断此帧信号的统计特性。如图3 4 所示预 处理的算法框图。 p c m 厂 厂 兰竺三! 三卜_ 1 :竺兰坌塑卜j 图3 4 预处理分析框图 预处理模块是该联合语音音频编码算法的重要模块。实现将感知音频编码算法 增加功能实现了对语音信号和混合信号的编码。 3 2 3 时频分析 时频分析将时域信号转换到频域信号。该联合语音音频编码算法框架中的时频 分析工具有两种:m d c t 和f f t 。m d c t 变换系数用来计算剩余信号,f f t 系数 用来进行心理声学分析。 f f t 是离散傅立叶变换的快速算法。f f t 频域系数被广泛应用于各种信号处理 领域。 下面简要介绍一个m d c t 变换【2 1 。m d c t 变换是d c t 变换的一个变种。众所 周知,正交变换通常是分块进行,而每块的变换系数一般独立编码,因此相继块 的量化误差未必相同。由于正交变换在边界处存在着固有的不连续性,因此在这 块边界处就有可能产生很大的幅度差异。为了消减这种影响,最直观的想法是利 用各种滤波器来平滑边界处的突跳。而另一种效果更好的思路,是设法重叠相邻 第三章音频和语音统一编解码算法研究 1 7 分块的部分数据点再做变换:首先用本块n 个采样样和两个临快k 2 个采样构成 斟+ k ) 各样本,加窗后做n + k 点离散余弦变换,得到n + k 个独立的变换系数;解 码恢复后再把这k 个样本叠加,以减少各块间的失真。由于对这k 个重叠点变换 了两次,因而导致了离散余弦变换编码效率的降低。为了克服这一不足,人们提 出了修正离散余弦变换( m d c t :m o d i f i e dd c t ) 。它利用时域混叠消除技术( t d a c : t i m ed o m a i na l i a s i n gc a n c e l l a t i o n ) 来减轻“边界效应”。 首先对于输入序列x ( m ) ,用一个长为2 n 的窗函数h ( r a ) 截取其2 n 点,并将截 取的数据段h ( k ) x ( k ) 用m d c t 变换为: 坳) = 信誉k ) c o s ( 2 m + 1 ) ( 2 k + n + 1 ) z r l m = o ,1 抄1 ( 3 - 1 ) 然后将“窗口”移动n 个点,继续上述工作,使得在各块窗口数据间有5 0 重 叠( 即本块的n 个采样和前块的n 个采样重叠) 的情况下,将适于数据变换成“频 域”系数,完成对数据的分析【1 1 。显然,对每一个输入样本要进行两次变换,数据 量也扩大了一倍,但由式3 1 ,可知变换系数x ( k ) 具有如下对称性: x ( 朋) = 一x ( 2 一1 一m )( 3 - 2 ) 因此,2 n 个变换系数中只有n 个是独立的,5 0 重叠变换的编码性能并未降 低。 x ( m ) 的反变换( 即i m d c t ) 定义为 曼( 七) = 忍( 尼、万2 - m 刍- ix ( 所) c 。s 羔垄竺二! ! ! 连竽 ,聊= 。,1 ,2 一l ( 3 - 3 ) 由式3 3 可知只用n 个独立系数不可能表示2 n 个数据,因此曼( 尼) x ( k ) 。但 如果窗函数h ( k ) 满足如下的对称性条件: 乃( f ) 2 + 五( f + ) 2 = 1 五( f ) = h ( 2 n 一1 一f )( 3 4 ) 则可按照下式将变换域的混叠在时域抵消,从而精确地重构出原始数据。 z ( 七) = 曼( 足+ ) + 曼( 厅) ,k = o ,1 ,n - 1( 3 5 ) 其中舅为前一个分块样本的反变换。 有人又把m d c t 称之为余弦调制的滤波器组。由于其性能优于d c t ,实现完 全重构,分块重叠,也有快速算法,因此被广泛用于宽带音频的编码。 1 8 音频和语音统一编解码算法研究 3 2 3 心理声学分析 心理声学分析模块的作用是得到掩蔽门限。在本章所介绍的联合语音音频编码 算法框架中,心理声学模型通过对信号的f f t 分析得到信号频域的信掩比。根据 信掩比和m d c t 系数得到信号的全局掩蔽门限。该联合语音音频编码算法框架中, 心理声学分析模块使用了改进的m p e g 心理声学模型i 、m p e g 心理声学模型 和o g gv o r b i s 心理声学模型【”j 。 比特分配模块得到掩蔽门限之后,在m d c t 系数中去掉掩蔽门限以下的人耳 所无法感知的部分,得到经过白化的残差信号。 3 2 4 量化和熵编码 残差信号和掩蔽曲线是解码器重构音频信号必需的信息,因而需要对其进行 量化、编码和传输。掩蔽曲线相对独立,采用均匀标量量化的方法;残差信号具 有较强的相关性,所以根据不同编码模式,残差信号可采用维数不同的矢量量化 技术,以充分利用矢量内部各分量间的相关性,进一步提高压缩比。 矢量量化的码本是根据当前编码模式构造而成的,而编码模式是由输入待编 码音频信号的参数( i n 采样速率和声道数等) 唯一确定的。标量量化的掩蔽曲线和矢 量量化的频域残差均采用h u f f m a n 编码这种无失真编码技术,利用信源统计特性 再次压缩编码速率。 3 2 5 比特分配和比特封装 比特分配根据编码时设置的编码速率和预处理得到的信号类别信息来进行处 理。 比特封装可以将掩蔽曲线和残差信号封装到本地的文件封装格式,如o g g 格 式等。也可以封装到网络协议包中进行网络传输,如r t p 包等。 3 2 6 解码算法框架 如图3 5 所以为该联合语音音频编码算法所对应的解码框架。由于该编码框架 是基于感知音频编码算法改进而来的,所以该联合语音音频解码算法的框架和普 通的感知音频解码算法框架相同。 第三章音频并l i 语音统一编解码算法研究 基j 氐基j 氐墨j 氐 b i t 流 无 恢 时 拆 失反 复 频 帧 真 且频 里 域 反 解化 信 变 换 残差 码 残差残差 号 图3 5 联合语音音频解码算法框架 m 1 9 在对编码比特流进行拆帧得到掩蔽曲线和残差信号后,对两者分别进行无失真 解码和反量化。接下来将两者进行叠加,得到信号的完整频域系数。最后进行时 频反变换得到解码信号。 解码的关键技术在于无失真解码、反量化和时频反变换。在以后的研究中在解 码端增加网络抗丢包、帧结构的校验等模块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论