(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf_第1页
(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf_第2页
(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf_第3页
(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf_第4页
(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于内容的压缩音频分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电犬学硕七研究生学位论文摘要 摘要 基于内容的音频分类是一个涵盖十分广泛的研究领域,为了使计算机能够像人那样对 音频语义实现自动理解,这个领域的研究从初始对原始音频流分析向目前感知理解发展, 从实际认识向抽象理解发展,因为人脑对事物的理解是抽象的,是基于知识的。 目前,基于内容的音频分类研究主要集中在非压缩音频的分类上,专门针对压缩音频 进行分类的方法研究较少。虽然非压缩音频的分类方法也可用于对压缩音频进行分类,但 这些方法的效率太低,计算量太大。专门对压缩音频进行分类的方法也有学者进行了研究, 但已有方法酱遍存在一些不足之处:如对特征参数提取的理论分析不够深入,没有很好地 利用音频压缩编码过程的计算结果,对人耳的听觉特性考虑得较少。 本文设计了一个对压缩音频进行基于内容分类的系统,并对系统各个模块的实现方法 和原理进行了深入的分析和探讨。本文提出方法的优势在于,充分利用了编码器的计算结 果,充分考虑到了入耳的听觉特性,使用了心理声学的研究成果。另外,本文还对从压缩 音频中提取参数的含义做了透彻的分析,并通过实验检验了方法的有效性,从而在理论和 实践两方面验证了方法的正确性和可行性。 关键词: 基于内容,压缩音频分类,音频压缩编码,心理声学 南京邮电大学硕士研究生学位论文 a b s t r a c t a b s t r a c t c o n t e n t - b a s e da u d i oc l a s s i f i c a t i o ni sa ne x t e n s i v er e s e a r c hs u b j e c t ;i t so b j e c t i v ei st h a t c o m p u t e rc a na u t o m a t i c a l l yc o m p r e h e n dt h ec o n t e n t o ft h ea u d i o n o w a d a y s t h es t u d y o fc o n t e n t b a s e da u d i oc l a s s i f i c a t i o nf o c u so nt h e c l a s s i f i c a t i o no fn o n c o m p r e s s e da u d i o ,t h em e t h o d so fc l a s s i f i c a t i o n0 1 3c o m p r e s s e d a u d i od i r e c t l yh a s n tb e e ns t u d i e ds ot h o r o u g h l y a l t h o u g ht h em e t h o d so f n o n - c o m p r e s s e da u d i oc l a s s i f i c a t i o nc a nb eu s e do nc o m p r e s s e da u d i o ,t h e ya r el o w e f f i c i e n tf o rc o m p r e s s e da u d i o t h ee x i s t i n gm e t h o d so fc o m p r e s s e da u d i oc l a s s i f i c a t i o n a r en o tg o o de n o u g h t h e r ea r em a n yd r a w b a c k s ,s u c ha si n s u f f i c i e n tt h e o r e t i c a l a n a l y s e sa b o u tt h ep a r a m e t e r s ,n o tf u l l ye x p l o i t i n gt h er e s u l to ft h ec o m p r e s s e da u d i o c o d i n g ,e t c t h i sp a p e rd e m o n s t r a t e st h es y s t e ma r c h i t e c t u r eo fc o n t e n t - b a s e dc o m p r e s s e d a u d i oc l a s s i f i c a t i o n ,a n a l y s e st h es e v e r a lm o d e l so ft h i ss y s t e m t h ea d v a n t a g e so ft h i s s y s t e ma r ef u l l ye x p l o i t i n gt h er e s u l to ft h ee n c o d er t a k i n ga c c o u n to ft h ec h a r a c t e r i s t i c o fh u m a nh e a r i n gs y s t e m ,w h i c hi st h er e s u l to fp s y c h o a c o u s t i c sr e s e a r c h i na d d i t i o n , t h i sp a p e ri l l u s t r a t e st h em e a n i n go ft h ep a r a m e t e r s w h i c ha r ee x t r a c t e df r o mt h e c o m p r e s s e da u d i os t r e a md i r e c t l y a tl a s t ,t h i sp a p e rv e r i f i e st h ev a l i d a t i o no ft h i sm e t h o d p r o p o s e db ye x p e r i m e n t k e yw o r d s :c o n t e n t - b a s e d 。c o m p r e s s e da u d i oc l a s s i f i c a t i o n ,c o m p r e s s e da u d i o c o d i n g ,p s y c h o a c o u s t i c s 南京邮电大学 硕士学位论文摘要 学科、专业:工学计算机应用技术 研究方向:计算机在通信中的应用 作 者:三塑生级研究生 刘鹏 指导教师王缉建 题目:基于内容的压缩音频分类研究 英文题目:r e s e a r c ho fc o n t e n t - b a s e dc o m p r e s s e da u d i o c l a s s i f i c a t i o n 主题词:基于内容压缩音频分类音频压缩编码 心理声学 k e y w o r d s : c o n t e n t b a s e d c o m p r e s s e da u d i oc l a s s i f i c a t i o n c o m p r e s s e da u d i oc o d i n gp s y c h o a c o u s t i c s 南京邮电大学学位论文独创性声明 y8 5 0 1 1 5 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 主! 衄塾【1 期:塑! :! ! 1 7 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:奎2 蝗导师签名:;捏凄日期:翌! :型 南京邮电大学硕士研究生学位论文 前言 前言 音频是一种很重要的媒体,当前音频数据的数据量呈爆炸性增长,如何对这些音频数 据进行存储和管理成为一个很现实的问题。 基于人工输入的属性和描述来进行音频分类和检索是一种传统的方法,其主要缺点 有:一是当数据量越来越多时。人工注释的工作量太大;二是人对音频的感知有时难以用 文字注释表达清楚,人工注释存在不完整性和主观性;三是不能支持实时音频数据流的分 类和检索。 为解决上述问题,基于内容的音频分类和检索技术应运而生。基于内容的音频分类就 是通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上 保持相似:而基于内容的音频检索是以基于内容的音频分类为基础的。 目前许多研究机构对音频分类,检索进行了多方面的研究。m u s c l ef i s h 是一个商业 化的基于音频感知特征的音频检索引擎。 但是,很多研究都是针对非压缩音频进行分类研究,而当前大部分多媒体数据,包括 音频数据,是以压缩形式保存的。如果以这些研究提出的方法进行基于内容的分析,首先 要把音频数据解压缩,这无疑大大增加了运算量。 因此,直接对压缩音频数据进行基于内容的分析悬一条很好的思路,也有学者在这方 面进行了探索,但取得的结果不甚理想。主要体现在两个方面:一是没有很好地使用音频 压缩过程中已经得到的一些运算结果,二是参数提取过程中对人耳的听觉特性考虑得不 够。 在对感知音频编解码器进行充分研究的基础上,本文提出了一种对压缩音频进行基于 内容分类的方法,使用这种方法,可以构建基于内容的音频检索系统。目前,m p 3 格式是 最流行的音乐交换格式,因此本文选定m p 3 格式的音乐文件作为实验数据,实现了m p 3 文件音频特征参数提取,以及基于内容分类的框架。 本文的内容分为四章: 第一章介绍了基于内容音频分类的概念和基本方法,以及系统实现中的关键技术和主 要模块。 第二章介绍了基于内容的音频分类系统中的特征参数提取。由于本文的目的是对压缩 音频进行分析,因此,这一章首先介绍了感知音频压缩编解码器中使用的关键技术,其中 包括音频信号分析、变换的算法及实现人的听觉系统工作原理,并简单介绍了m p e g 1 。1 南京邮电大学硕士研究生学位论文 前言 音频编解码标准:在此基础上,提出了压缩音频特征参数的选择和提取方法,并对参数的 意义进行了分析。 第三章介绍了应用在音频分类中的模式识别算法,如人工神经网络,隐性马尔可夫链, 支持向量机,还对几篇相关论文中采用的模式识别算法进行了对比分析。本章还重点分析 了b p 网络,l v q 网络这两种人工神经网络的实现思路及其在音频分类中的应用。 第四章详细论述了实验系统的实现方案和原理,对系统各个模块的实现进行了阐述。 另外,还对实验结果进行了简单的分析,指出了系统的不足之处。 2 南京邮电太学硕十研究生学位论立 第一章基于内容的音频分类 第一章基于内容的音频分类 1 1 基于内容的音频分类概述 计算机和网络的速度及处理能力的快速提高已经允许将音频作为一个数据类型包含 在很多计算机程序中,但直到! e l 前为止,音频数据仍然只是被当作些透明的无意义的字 节的集合,与一些原始的信息相关联,如名字,抽样率等。习惯于搜索,扫描及检索文本 数据的开发者及用户很可能会感到沮丧,因为根本无法看到音频对象中的内容信息”】 2 3 】。 例如,多媒体数据库或文件系统中拥有的音频记录很容易就达到几千项,这些记录的 内容可能很广。这种库经常只加有少量的索引,即使有些记录事先指定了关键字或索引 这些关键字和索引也是高度主观的,对另一个人可能完全没有作用。更糟的是,音频数据 很难直接浏览,因为它需要实时的试听不像视频数据有关键帧,搜索一个特定的声音或 一类声音是一件让人头痛的事情。 为解决上述问题,基于内容的音频分类及检索技术应运而生。基于内容的音频分类就 是通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上 保持相似。 1 2 基于内容的音频分类系统的原理及系统结构 基于内容的音频分类系统一般由两个模块组成,特征参数提取模块和模式分类模块 模式分类模块又可分为两个子模块:训练模块和分类模块。 1 3 本论文的工作 图1 基于内容的音频分类系统结构框图 通过分析比较相关文献中的方法,本文设计并实现了一个以人工神经阿络为模式分类 通过分析比较相关文献中的方法,本文设计并实现了一个以人工神经阿络为模式分类 3 - 南京邮电大学硕士研究生学位论文 第一章基于内容的音频分类 第一章基于内容的音频分类 1 1 基于内容的音频分类概述 计算机和网络的速度及处理能力的快速提高已经允许将音频作为一个数据类型包含 在很多计算机程序中,但直到目前为止,音频数据仍然只是被当作一些透明的无意义的字 节的集合,与一些原始的信息相关联,如名字,抽样率等。习惯于搜索,扫描及检索文本 数据的开发者及用户很可能会感到沮丧,因为根本无法看到音频对象中的内容信息【1 1 1 2 1 1 3 1 。 例如,多媒体数据库或文件系统中拥有的音频记录很容易就达到几千项,这些记录的 内容可能很广。这种库经常只加有少量的索引,即使有些记录事先指定了关键字或索引, 这些关键字和索引也是高度主观的,对另一个人可能完全没有作用。更糟的是,音频数据 很难直接浏览,因为它需要实时的试听,不像视频数据有关键帧,搜索一个特定的声音或 一类声音是一件让人头痛的事情。 为解决上述问题,基于内容的音频分类及检索技术应运而生。基于内容的音频分类就 是通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上 保持相似。 1 2 基于内容的音频分类系统的原理及系统结构 基于内容的音频分类系统一般由两个模块组成,特征参数提取模块和模式分类模块 模式分类模块又可分为两个子模块:训练模块和分类模块。 1 3 本论文的工作 圈1 1 基于内容的音频分类系统结构框图 通过分析比较相关文献中的方法,本文设计并实现了一个以人工神经网络为模式分类 南京邮电大学硕士研究生学位论文 第一章基于内容的音频分类 器的,基于内容的压缩音频分类器;并对系统实现中的各个模块进行了有效性的探讨,详 细分析了系统实现的原理。实验数据表明,本文提出的方法能取得较高的分类精度,而且 计算复杂度较低。 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 第二章音频特征参数提取 音频特征参数的提取是基于内容音频分类的第一个步骤,也是一个极为关键的步骤, 它是接下来计算过程的基础。接下来的模式识别过程以特征参数为输入,因此只有取得区 分特性足够好的特征参数,后续的模式识别计算才有可能取得很好的结果。 2 1 非压缩音频的特征参数提取 按提取方法来分类,音频特征参数可分为时域特征参数和频域特征参数两大类。 2 1 1 音频时域特征的提取 可提取的音频时域特征有平均能量、过零率和静音比等。 平均能量说明了音频信号的强度,可用于静音的检测,对于一个音频例子,如这个音 频例子中的某个短时帧的平均能量低于一个事先设定的闽值,则可判定该短时帧为静音【4 】。 过零率是指每秒内信号值通过零值的次数,一定程度上,它说明了平均信号频率。一 般语音信号由单词构成,单词又由元音和辅音交替的音节组成,辅音信号的过零率低,而 元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以其开始和结束部 分的过零率总会有显著变化,利用其过零率可判断语音是否开始或结束。另外,大多数音 乐信号集中在低频部分,其过零率不表现出突然升高或降低的起伏特性,所以有时也可用 过零率来区分语音和音乐两种不同音频信号【4 】。 静音比表示声音片断中静音帧的比例【3 l 。 2 1 2 音频频域特征的提取 傅里叶变换可分解出音频信号的频率成分,可提取的音频特征参数有带宽、频谱中心、 谐音、音调,m f c c 等f l l 【2 】1 3 】嘲。 带宽说明了声音的频率范围,音乐通常比语音信号具有更高的带宽。 频谱中心也称亮度,是一个声音信号频谱能量分布的中心点。语音与音乐相比,频谱 中心较低。 频率为最低频率的倍数的频谱成分称为谐音。在有谐音的声音中,大多数频谱成分的 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 频率是最低频率的整数倍,音乐通常比其它声音具有更多的谐音。 音调是分辨声音高低的特性,完全由频率决定,可通过频谱估计出来。只有阶段性的 声音,如那些由音乐设备产生的声音或语音,才会产生一种音调的感觉。可通过音调的级 别对声音进行排序,音调是一个主观特征。 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基 本上是一个对数关系,前面所求的那些参数都没有考虑到这一点,m e l 尺度倒谱系数 ( m e l s c a l e dc e p s t r u mc o e f f i c i e n t s ) ,或称m e i 频率倒谱系数,简称m f c c ,比较充分地 利用了人耳这种感知特性,因此,得到了广泛的应用。大量研究表明,m f c c 可以很好地 提高识别系统的性能,而且m f c c 有较好的鲁棒性( r o b u s t n e s s ) ”。 2 2 压缩音频的特征参数提取 上面列举了音频分类应用中常用的特征参数,对压缩音频而言,如果首先将压缩音频 解压,得到时域波形,则接下来的分析过程与非压缩音频并无不同之处,但这样做有如下 几个缺点。 首先是计算量的问题,当前比较先进的音频压缩方法都具有很大的计算复杂度。即使 对于m p e g - - a u d i o 这种编码和解码不对称的音频编解码方法悯,其解码所需的计算量也 是很大的。 现在的高效音频压缩方法大部分都是感知音频编码,在编码过程中都充分考虑到了人 耳的生理特性见编码过程中的很多计算量都花在了对人的听觉系统进行建模上,而传统 的熵编码只占了一小部分计算量。如果不对这些计算结果加以利用,无疑是非常浪费的。 因此,本文提出的方法是:不对压缩音频进行解码,而是直接分析压缩音频的帧数据, 充分利用编码过程中的计算结果,结合人耳的听觉特性,提取出所需的特征参数。 下面首先对音频压缩的基本知识做简要阐述,然后对人耳的听觉特性做简单分析。音 频压缩编解码方法是实现压缩音频特征参数提取的基础,而人耳听觉特性是参数提取的理 论依据。由于本文分析的压缩音频是m p e g - 1 伴音格式,因此,本文还对当前广泛使用的 m p e g 一1 音频压缩编解码做了概要介绍。最后,对其他学者在做相关工作时提取的特征参 数做一小结。 - 8 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 2 2 1 音频压缩的相关知识 2 2 1 1 时频映射 2 2 1 1 1 第一部分( p q m f ) 在音频编码中,将音频信号分解成各个频率成分,对各个频率成分进行合理的比特分 配,能降低音频信号的冗余度。 频域编码技术相比时域编码技术( 如预测编码a d p c m ) 有一定的优势,因为在频域 编码过程中,用来对各个频率成分进行编码的比特数是可以自适应的。对各个频率成分分 配不同的比特数,就可以控制各个频率成分的量化噪声水平,能保证最需要高量化精度的 频率成分分配到最多的比特数。而通过对人体听觉系统的研究,可以确定哪些频率成分可 忍受较大的量化噪声而不对声音的主观品质产生影响【7 】。 通过一个带通滤波器组,将声音信号分解为k 个子带成分,各个子带成分的信号用有 限的比特量化,能容忍较大量化噪声( 不被人耳感觉到) 的子带成分分配较少的比特数。 量化后的信号发送至解码器,解码器先将各个子带成分量化后的信号反量化,再将各 个子带成分合并,恢复出原始信号。 但是,将信号分成k 个并行的子带,会使数据速率变为原有的k 倍。为了避免在编码 器端的滤波器组处增大数据速率,可在编码端各个子带滤波器后进行k 阶下抽样,在解码 端合成滤波器前再进行k 阶上抽样。 下图为时频映射过程的简图: 佟j i l i t 撑t i w 娩包 含苴化相i 垃鼙化 厂o 一o 。卜o 书 墒叫: l 卜9 0 匕“po _ 图2 1 时频映射框图 通过合理地设计滤波器组,可以保证从下抽样的信号中完全恢复原始信号,这类滤波 南京邮电大学碗士研究生学位论文 第二章音频特征参散提取 器的设计方法和理论在文献【8 1 中有详细论述。其中一种特殊的滤波器组,伪正交镜像滤波 器圣且( p q m f ) ,对音频编码的发展有很大影响,3 2 路p q m f 应用于m p e g 音频编码。 下面对p q m f 的推导过程和设计思路做一简要介绍。 苴左丛量简垫数:瞳迅:巫通道宣全重掏选这矍珏始竺。 期望的结果,即完全重构,意味着,【n 】为x 【n 】的延时。 在讨论过程中,y o - - y o ,y l - - y l 之间直接相连,未经其它处理。 下面给出简要的推导过程: x ( z ) = r o ( z2 ) g o ( z ) + i ( z 2 ) g ,( z ) k c z ,= 圭 丑;c z ;,z c z ;,+ ,如c z ;,x c z ;, 五c z ,= 圭 日,t z ;,x c z ;,+ h 。e z ;,x t z ;, 可推得 x ( z ) = l e o ( z ) x ( z ) + 胃o ( 一z ) z ( 一z ) 】g o ( z ) + :阮( z ) 朋+ q ( - z ) 故刁b = 妻【h o ( z ) g 。( z ) + h 。( z ) g ( z ) ( z ) + - 兰p 了。( 一z ) g o ( z ) + h 。( 一z ) g 。( z ) k ( 一z ) 在上式中,第二项为混叠成分,必须在运算过程中消除。 即 h o ( 一z ) g o ( z ) + h l ( 一z ) g l ( z ) = o 满足此条件的滤波器组有很多,常见的有q m f ( q u a d r a t u r em i r r o rf i l t e r s ,正交镜像 滤波器组) 和c q f ( c o n j u g a t eq u a d r a t u r ef i l t e r s ,共扼正交滤波器组) f 7 j 【刚。 下面简要介绍c q f ,因为由它推广的p q m f 广泛用于音频编码。 它的冲击响应满足如下条件,合成滤波器就是分析滤波器的反转。 - 8 - 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 g o 网= h o i n 一1 一月】 g l m = 【一1 一”】 h i k 】( 一1 ) ”h o i n l 一”】 不难验证它满足消除混叠条件。 验证过程如下所示: 由冲击响应之间的关系,可得 g o ( z ) = z 一_ 1 h o ( z _ 1 ) g l ( z ) = z 一“”h j ( z 。1 ) h l ( z ) = z 州。h o ( 一z 。) o ( 一z ) g 。( z ) + h i ( 一z ) g 1 ( z ) = 日。( - z ) z 一“一日o ( z _ ) + h i ( 一z ) z 一”一。日l ( z 一、) = h o ( - z ) h o ( z 一) z 一“一”+ z 一一( 一z ) 一一1 乩( z 一) z “一风( 一z ) :。( 一z ) h 。( z 一一) z 一( _ 1 ) l + ( - 1 ) ”一1 】 n 为偶数时,满足消除混叠条件。 要使此滤波器组满足完全重构条件,只需满足如下等式 h o ( z ) g o ( z ) + h 。( z ) g l ( z ) = 2 z 。 可简化为 h o ( z ) h o ( z - 1 ) + h o ( - z ) h 。( 一z - 1 ) = 2 d = n 一1 这样,问题转化为设计滤波器h o ( z ) ,使其满足上式约束条件。 将上述约束条件转化为傅氏频域形式,可变换为能量互补条件: j 月j ( ) j 2 + i ( 一b 2 + ) f2 = f 月j ( 厂x 2 + i h ( 厂) f 2 = 2 只2 有很多标准方法能用来设计满足此条件的f i r 滤波器。 王西金缉麴僵自塑遭道宝全重捡撞亡到垒通道塞全重捡。 在实际应用中,需要多通道滤波器组。如人耳的频响特性可分为2 0 - - 3 0 个关键带i ”。 早期的研究试图通过叠加q m f 来实现,滤波器组形成树形结构。但这种方案的缺点 是脉冲响应太长,计算复杂度太高。后来,在c q f 的基础上推广,得出了个更加高效, 并行的多带分解方案,p q m f ( p s e u d o - q m f ) 。它的基本思想是:首先设计一个窄带低通滤 波器,然后对其进行调制( 频谱搬移) ,以覆盖整个频带。各滤波器的衰减足够快,相邻 滤波器间的混叠可忽略不计,而且相邻的滤波器间满足c q f 完全重构条件【n 。 - 奄 南京邮电大学硕士研究生学位论文第二章音频特征参数提取 p q m f 实现了接近完全重构的滤波器组,有非常重要的历史意义。m p e g 1 和m p e g 2 中层i 和层i l 使用它来进行时频映射i s 。 它的优点是能以较高的精度重构,而且实现比较高效,使早期的感知音频编码器的实 现成为可能【7 j 。 p q m f 由k 个通道组成,每个通道的冲击响应函数由一个低通滤波器h 【n 】进行余弦调 制得到唧9 l 【1 0 】【1 1 】。 m 巾b i n c o s = ( 譬砌一争地1 ”】= 孑兰) ( h 一二:- :二) + g i n 】= h k n 一1 一竹 n 为h 【n 】冲击响应长度,相位九的取值由相邻带消除混叠条件决定。满足 苁一欢一,= 昙( 2 ,+ 1 ) ( r 为整数) 从 【打】的表达式可以看出,【n 】的频响对应为h ( 。分别平移到正负两个频率后相加, 移动的频率大小为 七+ ! 乃迟彳只2 因此,k 个通道可对应于2 k 个h ( d 的复本,来分割整个频带卜f s 2 ,f s 2 。这表明低通 滤波器h ( o 的频响宽度为啦k ,其通带为 篆,别 按完全重构约束条件的要求,h n 】的频率成分在川s 轰之外的部分可忽略不计,低频 成分满足p q m f 能量互补公式 i h ( s ) 1 2 + 1 日( 一只2 k + f ) 1 2 = 2 1 f ,2o - 1 1 1 - f , t 4 k 与c q f 能量互补公式很相似。 m p e g 一1 和m p e g 一2 中音频编码部分使用3 2 通道p q m f 滤波器组,其中低通滤波器 h 【n 】有5 1 3 个抽头,文献1 6 1 啐, 给出了h 【n l 的定义,此滤波器第一个和最后一个抽头系数为 0 - 1 0 - 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 下图为h 【n 1 的时域波形和频域波形 图2 , 3h 【n 1 的时域波形图 幽2 , 4h l n 的频域波形圈 k = 3 2 驴三c 竿耻+ 争 协m 小。s ( n 争( 肛1 6 ) 劫 班【一 = 埘栉】c 。s ( t + 三) ( 珂+ 1 6 ) 量 k = 0 , l 3 1 n = o 1 3 l 南京邮电大学硕士研究生学位论文第二章音频特征参数提取 下图给出了k = l 和k = 2 时的波形 圈2 5h k n 的时域波形图 盥2 6 h k n 鹩频域波形圈 由滤波器的频响特性可以看出,原型滤波器h 【n 】在频率f s , 6 4 处并没有尖锐的截止, 由于过渡带的存在,滤波器组相邻带的频率成分有一定的重叠。相移以能够保证在合成滤 波器处完全消除混叠成分。 虽然p q m f 不是理想的完全重构滤波器组,但m p e g 原型滤波器h 【n 】的设计保证了 分析与合成滤波器组的总频率响应波纹小于0 0 7 d b 在m p e g 一1 音频编解码标准中给出了分析和合成滤波器在进行滤波运算时的快速算 法【6 】。 南京邮电大学硕t 研究生学位论文第二章音频特征参数提取 2 2 1 1 2 第二部分( m d c t ) t - q 1 2 】 m d c t 的发展历史与变换编码相关,在运算过程中,将一系列抽样数据组合成块,然 后再加以一定的变换,是变换编码的关键步骤。变换编码和子带编码其实是相同底层技术 的不同外在体现,虽然它们从不同的应用领域发展而来。变换编码中使用的窗函数与子带 编码中子带滤波器组的原型低通滤波器相关,两者的主要区别在于分析信号的子带数目。 按目前的观点,频带数较少的编码( 如m p e g l a y e r i ,i i ) 称为子带编码,丽频带数较多的 编码( 如a t & t l u c e n t p a c ,d o l b y a c - 2 ,a c - 3 ,m p e g a a c ) 称为变换编码。从数学的角 度看,两者并无区别。 下面讨论一个典型的变换,d f t ,用来构建音频编码器的方法,并由此导出m d c t 的 设计思想。 将信号由时域变换到频域的原因有以下两点: 1 更容易消除冗余度。与时域相比,频域内容更稳定,能获得更简洁的描述。 2 可以利用频域掩蔽效应来消除信号成分间的相关性。 对信号进行d f t 之前,要进行加窗,这又提出了新的问题,如何从频域成分恢复出原 始信号? 对频域成分施加反变换后,如何消除进行d f t 之前加窗对数据的影响? 存在两种解决方案: 1 反变换后的数据除以窗函数系数。 这种方法的缺点是,由于量化和反量化过程中不可避免的在数据中引入了误差,这些 误差本来不是很大,但是数据除以窗函数系数,会导致误差放大,尤其在窗口函数边界处, 窗函数系数接近0 的地方。这种方案不可行。 2 窗口重叠相加。 合理的设计窗函数,可使在对信号进行窗1 3 重叠部分累加后,忽略量化引起误差的情 况下,能无失真的恢复出原始信号:在误差存在的情况下,也不会引起误差放大。 1 3 - 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 窗口重叠相加方案的示意图如下: lll 4 ,、妊“二? 誓 4反整换 二z 图2 ,7 窗口重叠相加方案示意图 1 滑动m 个抽样后加窗( 窗长为n ) 2 对加窗后的信号进行长度为n 的块交换 3 对变换后的信号进行量化,传输,存储。 4 对反量化后的信号进行长度为n 的反变换 5 对反变换的结果进行加窗,并对重叠部分进行累加。 最后的步骤是进行加窗和累加,有两个理由: 1 确保频域反变换后块边缘处数据的量化误差保持在很低的水平( 与一个较小的数相 乘) 。 2 分析和合成过程可实现对称。 下面对重叠相加过程进行量化分析。 为了实现容易,实际应用的系统中一肘芸,即仅相邻的块间有重叠,重叠的抽样 z 数为一m 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 削2 8 留口薹叠相加量化分析示意图 对w 0 1 h 】和【以】的约束条件如下: 不重叠部分 胛 。k 【拧】= lh = ( 一m ) t ( 埘一1 ) 重叠部分 w 。 n 】w ;。【玎 + w a “【m + 一】“k “【m + 】_ l ,z = 0 ( 一吖一1 ) 如果分析窗和合成窗的形状一样,重叠相加完全重构条件还可简化。 【月 2 = 1 n = ( 一m ) ,( m 一1 ) w 【聆 2 + w 卜【m + 竹】2 = 1疗= 0 ,( 一m 一1 ) 窗函数实例一 基于正弦函数的窗函数 州孵】= 1 咖呼高,删,川一, l t = ( n m ) ,( 肘一i ) n 一”一一1 s i n 【要暑】”:m ,( 一1 ) 2n m 。 : ” 该函数不能在分辨率与频谱泄漏间取得足够好的权衡。 窗函数实例二 通过归一化过程,任意窗函数都能变换为满足重叠相加完全重构条件的窗函数。 取一个初始窗函数w 【n 】,脉冲响应长度为n - m + i ( n 与m 为偶数) ,以此窗函数为基 础构造长度为n 的窗函数。 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 h 川= h = 0 ,( 一m 1 ) 玎= ( 一m ) 一,( m 一1 ) n = m ,( 一1 ) 如果取k a i s e r - b e s s e l 为初始窗函数,相邻窗间5 0 的重叠率,可构造”k a i s e r - b a s e d d e r i v e d ”k b d 窗函数。在d o l b ya c 系列编码器以及m p e ga a c 编码中使用到了此窗函 数。 窗函数的设计过程中要考虑以下两个因素: 1 滤波器的频率分辨率要尽可能大。 2 人耳能感知到的块效应要尽可能小。 这两个因素与窗函数的两个参数相关:长度和形状。 如果信号的节奏感很强,则谱成分有很多相隔很近的尖峰,在信号的表示上,频率选 择性扮演更重要的角色。 如果信号的各个频率成分之间间隔很大,更高的旁瓣衰减有利于编码过程中利用信号 成分间的屏蔽效应。 因此,没有哪个窗函数对所有信号都是最优的,应该基于信号的特征动态选取窗口的 形状和长度。 在m p e g 音频编码中使用了窗口长度切换机制。更长的平滑窗口能提供更好的频谱分 辨率,减小泄漏,但同时会导致时域分辨率降低,产生信号失真( 如果信号存在跳变,则 量化噪声会扩散到跳变点之前,即产生p r e e c h o 效应) 【13 】。为了更好地处理这种情况, 有必要使用较短的窗口处理变化剧烈的信号。但在信号比较稳定的情况下,还是希望使用 较长的窗口。 窗口重叠率越高,块效应越小,数据速率越大。由以上分析可看出,熏叠相加过程在 取得任何编码增益之前就已经增大了数据速率。 在编码器的设计中,对分析合成系统的一个期望是,分析阶段产生的数据速率与输入 信号数据速率相同,满足此条件的系统称为临界抽样系统( c r i t i c a ls a m p l e d ) 。如果使用 d f t ,即使相邻块间有很少的重叠,也会显著地增加信号频域表示的数据速率。m d c t , 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 取代了d f t ,使用在目前最先迸的音频编码器中,m d c t 允许相邻块间有5 0 的重叠而 不增加数据速率。 m d c t 是时域混叠消除( 1 1 m ed o m a i na l i a s i n gc a n c e l l a t i o n ,t d a c ) 变换的一个例 子【7 l f l 2 】。t d a c 变换有两种。o t d a c ( o d d l y - s t a c k e dt d a c ) 署i e t d a c ( e v e n l y s t a c k e d t d a c ) ,m d c t 属于o t d a c 。t d a c 变换不像d f t 一样是可逆的,在它的反变换中混杂 有相邻两块的信号成分,其中,后一块的信号成分称为时域混叠成分。在使用t d a c 变换 时,重叠相加过程可消除时域混叠成分。可见,虽然t d a c 变换不是可逆的,但通过使用 重叠相加方法,也可实现信号的完全重构。 对实信号而言,n 点t d a c 变换仅有一半的频域抽样是独立的,也就是说只需n 2 个 频域抽样就可恢复原始信号。于是,可以设计重叠率为5 0 的编码器( 最大程度地消除块 效应) 而不增加数据速率。 接下来介绍一下t d a c 完全重构条件的推导。 下图用矩阵方式显示了变换及反变换的整个流程,从右至左,先将n 个时域抽样变换 为n 2 个频域抽样,再进行反变换。图中非阴影部分为全0 图2 , 9t d a c 变换及反变换的矩阵形式 整个流程用公式表达如下: 8 善。 主。o p 。, 台 鬈。昂:0 。 囊。 =w阡:,s5l8w阡:,。8b占12爿:荔s3:爱a。:差彳:sslw,a ba 妻, 1彬,。h j 进行5 0 的重叠相加后,最终的输出表示为 l 形+ 。s c 。a c b 4 + 彬5 一彬。一墨4形s 一a c 且41 fs l形5 l w , 。一垦4形5 l w , 。c 岛4 + 玎,- 1 5 r a r b , a j _ s , _ ,j 为使变换后的信号能完全恢复,要求上面的变换矩阵为单位矩阵。 1 7 南京邮电大学硕士研究生学位论文第二章音频特征参数提取 导出以下两个条件: f 8n 形a 。蜀a := 3 。氓a r b :a 。= o 。 f 彬+ 5 c 彬+ a t b :a :+ 彤s 一彬4 一鼠4 = i ! 。! 这两个条件同时限制了窗函数和变换方法,m d c t 是满足上面条件的一个特解。 其窗函数限制条件: w o h 】+ w ,。【门 + w 。卜【2 + 咒 + w ,i - i 【2 + 一】= 1 【n 】= w s ”1 i n 一1 1 7 】胛= 0 ,- ,n 2 1 w , 月 _ k ”1 i n 一1 一n 】 变换及反变换公式: 槲廿篓协肋】c 0 s ( 等( ”+ 嘣i + 三) ) t - o ,2 一ln 1 0 1 v t 渊= w s 嗍万4n 刍1 2 - 1 x 肚】c 。s ( 等+ 凇+ 争) n = i , - , n - 1 ”。:( 昙+ 1 ) 2 由窗函数限制条件可看出,使用m d c t 变换时,窗函数的选择准则与使用d f t 变换 重叠相加法一致。但是,在实现窗1 3 长度切换时,块间的时域混叠消除条件要求更加仔细 的设计窗口函数。 下面介绍在m p e gl a y e r l l l ,m p e g a a c 中的窗口切换方法,由e d l e r 提出。 仅讨论由长块切换为短块的情况,由短块切换为长块的情形正好相反。 基本思想是基于长块m d c t 窗1 :3 函数创建一个过渡窗,将长块m d c t 窗口函数的某 一侧的一段置为0 。 示意图如下 一 长窗左半边短毫右半边 图2 1 0e d l e r 法窗口切换示意图 8 - 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 将后续短窗的左半边与过渡窗右侧”短窗右半边“部分中心对齐,可保证消除时域混 叠川。 e d l e r 法对数据速率的影响: 设长窗和短窗长度分别为n 。和n s ,当窗口长度从长切换为短时,数据数率增加了 去( t 一s ) ,从短窗切换为长窗时,情况正好相反,数据速率会减小去( t 一s ) 。总的 数据速率不变,仍满足临界抽样条件。 在实际的编解码系统中,如m p e g - - 1l a y e r l l l 和m p e ga a c ,在信号出现很强的 瞬时特性时,切换为短窗,等到信号处于比较平稳的状态后,切换回长窗。 2 2 。1 1 3m d c t 和p q m f 滤波器组的比较 历史上,这两个方法是独立开发的,但m a l v a r 指出,m d c t 是p q m f 在滤波器长度 n = 2 k ( k 为频带数) 时的一个特殊情况用。 2 2 。1 2 人的听觉系统工作原理 人的耳朵由三部分组成:外耳,中耳,内耳。各部分的功能如下: 办罩收集声波信号,并通过耳道将它们汇聚起来,再经鼓膜传到中耳。 鸲;将声波在鼓膜上的压力转化为内耳中耳蜗内液体的运动。 力甄将液体的运动转化为电信号送入听觉神经。 人的听觉系统可分为两个区域: 峁彩区鸳采对声波进行预处理,但仍保持它原有的性质。 感觉豸嬲:通过神经处理产生听觉。 下面叙述人耳各个组成部分在感知声音时的功能细节。 办耸;声波接近听者时大致为平面波,人的头部和肩膀使声波在进入人耳之前发生失 真,这会导致声波中1 5 0 0 h z 左右的频率成分发生遮蔽和反射。1 5 0 0 h z 对应的波长大约 为2 2 c m ,是人头部的大致尺寸。耳道也影响鼓膜处的声压级,耳道是一个长度为2 c m , 一端开口的管道,共振频率为4 k h z 左右。 手罩外耳和中耳由于滤波产生的频率响应可由下式描述 a ( f ) d b = 0 6 + 3 6 4 ( f k e z ) “一一6 5 e 。0 6 ,7 ”一33 ) 1 + 1 0 3 ( f l d - z ) - 1 9 - 南京邮电大学硕士研究生学位论文 第二章音频特征参数提取 力耳: 内耳中最重要的器官是耳蜗耳蜗是一根长而细的管道,螺旋缠绕在一起两周半,在 耳蜗内有三个充满液体的管道。术语称作 s c a l a e ”,分别是”s c a l av e s t i b u l i ”,“s c a l am e d i a ”, “s c a l at y m p a n i ”。s c a l av e s t i b u l i 与中耳通过o v a lw i n d o w 相连。s c a l am e d i a 与s c a l a t y m p a n i 之间隔一层称作r e i s s n e r 膜的薄膜。s c a l at y m p a n i 与s c a l am e d i a 之间同样隔 一层薄膜,这层薄膜称做b a s i l a r 膜( 基底膜) 。耳蜗的生理构造与人耳的很多感知特性直接 相关,但本文在此不作详细介绍,可参见文献【7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论