(计算机应用技术专业论文)基于内容的mp3音频分类研究.pdf_第1页
(计算机应用技术专业论文)基于内容的mp3音频分类研究.pdf_第2页
(计算机应用技术专业论文)基于内容的mp3音频分类研究.pdf_第3页
(计算机应用技术专业论文)基于内容的mp3音频分类研究.pdf_第4页
(计算机应用技术专业论文)基于内容的mp3音频分类研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文摘要 摘要 音频信息检索技术是多媒体信息检索技术中的一个重要组成部分,而音频分类技术作 为音频检索技术的基础,也越来越被受到关注。基于内容的音频分类是一个涵盖十分广泛 的研究领域,为了使计算机能够像人那样对音频语义实现自动理解,这个领域的研究从初 始对原始音频流分析向目前感知理解发展,从实际认识向抽象理解发展,因为人脑对事物 的理解是抽象的,是基于知识的。 目前,已经有很多学者对基于内容的压缩音频分类方法进行了研究,但已有方法普遍 存在一些不足之处,如对人耳的听觉特性考虑较少,没有较好地利用音频压缩编码过程中 的计算结果等等。到目前为止,还没有一个既能实现高正确率、又能实现高效率的同时针 对纯音乐音频和非纯音乐音频的分类算法。 本文设计了一种在压缩域上对音频进行基于内容的分类系统,并对系统的分层结构和 系统各个模块的实现方法和原理进行了深入的分析和探讨。本文所采用的方案的优势在 于,充分利用了编码器的计算结果,充分考虑了人耳的听觉特性,还使用了心理声学的研 究成果。另外,本文还对从压缩音频中提取参数的含义做了较透彻的分析。并通过实验结 果检验了方法的有效性,在理论和实践两方面验证了方法的正确性和可行性。 关键词:基于内容,压缩音频分类,音频压缩编码,心理声学 南京邮电大学硕士研究生学位论文 a b s t r a c t a u d i or e t r i e v a lt e c h n i q u ei sa ni m p o r t a n tp r o p o r t i o no fm u l t i m e d i ai n f o r m a t i o n r e t r i e v a lt e c h n i q u e a st h eb a s i co fa u d i or e t r i e v a lt e c h n i q u e ,a u d i oc l a s s i f i c a t i o n t e c h n i q u e h a sb e e n g e e i n gm o r e a n dm o r ea f f e n t i o n c o n t e n t - b a s e da u d i o c l a s s i f i c a t i o ni sa ne x t e n s i v er e s e a r c hs u b j e c t ;i t so b j e c t i v ei st h a tc o n t e n to ft h ea u d i o c a nb ea u t o m a t i c a l l yc o m p r e h e n d e db yc o m p u t e r n o w a d a y s ,al o to fr e s e a r c h e so nc o n t e n t - b a s e da u d i oc l a s s i f i c a t i o nh a v eb e e n d o n e b u tt h ee x i s t i n gm e t h o d so fc o m p r e s s e da u di oc l a s s i f i c a t i o na r en o tg o o d e n o u g h t h e r ea r em a n yd r a w b a c k s ,s u c ha sn o tf u l l ye x p l o i t i n gt h er e s u l to ft h e c o m p r e s s e da u d i oc o d i n g t h e r eh a s n tac l a s s i f i c a t i o nm e t h o do fa b s o l u t em u s i ca n d n o n - a b s o l u t em u s i cw h i c hi sb o t hh i g h - - l e g i t i m a c ya n dh i g h - e f f i c i e n c y t h i sp a p e rd e s i g n st h es y s t e ma r c h i t e c t u r eo fc o n t e n f b a s e dc o m p r e s s e da u d i o c l a s s i f i c a t i o n ,a n da n a l y s e st h el a y e r e da r c h i t e c t u r ea n dt h es e v e m lm o d u l e so ft h i s s y s t e m t h ea d v a n t a g e so ft h i ss y s t e ma r ef u l l ye x p l o i t i n gt h er e s u l to ft h ee n c o d e r a n dt a k i n ga c c o u n to ft h ec h a r a c t e r i s t i co fh u m a nh e a r i n gs y s t e m 。w h i c hi st h er e s u l t o fp s y c h o a c o u s t i c sr e s e a r c h i na d d i t i o n ,t h i sp a p e ri l l u s t r a t e st h em e a n i n go ft h e p a r a m e t e r s 。w h i c ha r ee x t r a c t e df r o mt h ec o m p r e s s e da u d i os t r e a md i r e c t l y a tl a s t 。 t h ev a l i d a t i o no ft h i sm e t h o dp r o p o s e di nt h i sp a p e rh a sb e e nv e r i f i e db ye x p e r i m e n t k e yw o r d s :c o n t e n t b a s e d ,c o m p r e s s e da u d i oc l a s s i f i c a t i o n ,c o m p r e s s e da u d i o c o d i n g ,p s y c h o a c o u s “c s 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期:耻7 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研触张缝卑导师橼一垒! 堡b 期:旦虹 南京邮电大学硕士研究生学位论文前言 前言 随着计算机处理能力和网络速度的不断提高,计算机和网络数据中包含的多媒体数据 也越来越多,如视频、图像和音频。人们也已经不再满足于通过一般的属性( 如名称、日 期等) 进行分类和检索,对于图像和视频可以采用主色调、纹理等视觉特征来分类;同样, 对于占多媒体总信息量2 0 左右的音频信息也迫切需要行之有效的方法来进行分类和检 索。由于在音频中蕴含了大量的语义信息,所以基于内容的音频信息检索技术已经成为多 媒体信息检索技术的研究重点之一。 一直以来,音频信息的处理主要集中在语音识别、说话者识别等语音处理方面的研究。 比如在语音识别方面,i b m 的v i a v o i c e 已越来越趋于成熟。另外剑桥大学的v m r 系统以及 卡内基梅隆大学的i n f o r m e d i a 都是很出色的音频处理系统n 】。刚出来的w i n d o w sv i s t a 系统也包含了语音识别功能。但对于基于内容的音频信息分类和检索技术的研究还不是很 多。显然,这样的发展是不均衡的。只有在基于音频物理特征的检索技术方面有所突破, 才有可能在更高层次的基于知识辅助的音频检索方面作出更深入的研究。近年来,已有一 些公司和研究机构开始基于内容的音频信息检索方面的研究。其中美国的m u s c l ef i s h 公 司较早推出了较为完整的原型系统,他们研制的系统可以对音频进行检索和分类,对包括 笑声、铃声、电话声等1 6 类特定声音的分类有较高的准确率曙1 。目前,特别重视基于内容 的音频信息分类和检索技术,有大量的问题等待人们去研究。 基于内容的音频检索技术的主要思想是通过提取音频流中的时域或频域特征来描述 音频内容。传统的音频检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术 的发展,m p e g 凭借其易于传输存储的优点而成为多媒体数据压缩通用标准。用非压缩域方 法来对m p e g 数据流进行语义标注时,必须先对m p e g 数据流进行解码才能提取特征,这样 造成运算量无谓增大。我们人类是通过听觉特征来感知声音的,人们希望能够自然地利用 听觉特征来检索音频信息,而m p e g 对音频部分的编码恰恰是结合了听觉心理学,编码时 就考虑了人的听觉感知特性,所以,直接在m p e g 压缩域上提取特征可以使得这些感知特 性不会丢失,保证了对音频信息的正确理解。 因而,直接对压缩音频数据进行基于内容的分析是一条不错的思路,之前也有些学 者在这方面进行了探索,但取得的结果不甚理想。主要体现在两个方面:一是没有很好地 使用音频压缩过程中已经得到的一些运算结果,二是参数提取过程中对入耳的听觉特性考 虑得不够。 南京邮电大学硕士研究生学位论文 前言 本文中设计了一种基于压缩域的m p 3 音频分层分类的方法,较为有效地实现了非纯音 乐音频和纯音乐音频的分类。本文之所以选择m p 3 格式的音乐文件作为实验数据,是因为 虽然m p 3 格式已经出现多年,但在目前,m p 3 格式还是网络上最流行的音乐交换格式之一。 本文的内容分为四章: 第一章介绍了基于内容的音频分类技术产生的背景和概念,以及分类系统的一般结构 和实现的主要模块。 第二章简要介绍了m p e g 技术和m p e g - 1 音频标准,以及基于内容的音频分类系统中的 特征参数的提取。由于本文主要目的是对压缩音频进行分析,因此在这一章还介绍了感知 音频压缩编解码器中使用的关键技术,其中包括音频信号的时频变换算法及实现,人的听 觉特性和心理声学。最后还介绍了其他学者提出的压缩音频特征参数的选择和提取方法, 并在此基础上提出了本文对参数的选择和提取方法。 第三章介绍了应用在音频分类中的模式识别算法,如人工神经网络,隐性马尔可夫链, 支持向量机等,本章还重点分析了b p 人工神经网络的实现思路及其在音频分类中的应用。 第四章详细论述了实验系统中采用的一种音频分类器的方案,并对实验系统作了简要 介绍,对系统分层结构和系统的各个模块的实现进行了阐述。另外,还对实验结果进行了 简单的分析,指出了系统的不足之处。 南京邮电大学硕士研究生学位论文第一章基于内容的音频分类 第一章基于内容的音频分类 1 1 基于内容的音频分类概述 音频通常被作为一种不透明的数据集合来处理,仅仅涉及到它的文件名、文件格式 和采样率。用户只能检索、浏览和读取相关的文本描述,若想了解音频对象的内幕则是不 可能的。如今,随着算机和网络的速度及处理能力的快速提高,在多媒体数据库中含有几 千个音频数据已是常有的事,而这种库通常只加有少量的索引,即使有些记录事先指定了 关键字或索引,这些关键字和索引也是高度主观的,对另一个人可能就完全没有作用了。 更糟糕的是,音频数据很难直接浏览,因为它需要实时的试听,不像视频数据有关键帧, 因此要想在这样一个庞大的数据库中检索一个特定的声音或者为声音分类都是会令人胆 怯的。 为解决上述问题,基于内容的音频分类及检索技术应运而生。音频信息检索技术是多 媒体信息检索技术中的一个重要部分,而在音频检索应用中,需要对音频数据进行分类1 。 主题或者类别信息是音频数据的重要语义内容,它能够让用户对音频内容有一个全局 概念上的认识,所以它通常是用户检索和浏览的首要依据。在音频的自动分类过程中需要 衡量音频的相似度,而相似性检索是基于内容的音频检索的重要特点,因此,分类问题是 基于内容的音频检索的核心问题。1 。此外,音频内容的自动分类对于语音识别精度的提高 也具有重要意义口1 。 由此可见,基于内容的音频分类具有重要的意义和价值。基于内容的音频分类就是通 过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持 相似h 1 。 1 2 基于内容的音频分类系统的原理及系统结构 随着基于内容的音频分类技术的产生和发展,国内外的很多学者都对基于内容的音频 分类方法进行了研究。统计学习方法具有坚实的理论基础、简单的实现机制等特点,因而 为目前的大多数音频分类系统所采用b 1 。 目前,分类系统一般由两个模块组成:特征参数提取模块和模式分类模块。模式分类 模块又可分为两个子模块:训练模块和分类模块哺1 。系统结构如图1 1 所示: 南京邮电大学硕士研究生学位论文 第一章基于内容的音频分类 1 3 本论文的工作 图1 1 基于内容的音频分类系统结构框图嫡1 由于基于内容的压缩音频的分类技术具有重要的意义和价值,是音频检索技术的前提 和基础,而目前我们还没有能力直接研究检索技术,因此本文将基于内容的m p 3 音频分类 作为研究内容。 本文简要介绍了m p e g - 1 音频标准和音频压缩的相关知识,并分析比较了一些国内外 学者在相关文献中提出的特征参数提取方案和分类方法,并在此基础上阐述了本文的参数 提取方案;本文设计且实现了一个以人工神经网络为模式分类器的,基于内容的压缩音频 分层分类系统,并对系统实现中的各个模块进行了有效性的探讨,详细分析了系统实现的 原理。实验结果表明,本文采用的分层分类器方案不仅对于纯音乐的分类有较高的正确率, 还对非纯音乐的分类取得了较高的分类精度,而且计算复杂度较低。 南京邮电大学硕士研究生学位论文 第二章m p 3 音频介绍及特征参数的提取 第二章m p 3 音频介绍及特征参数的提取 本文中分析的压缩音频m p 3 是m p e g - 1 的伴音格式,所以下面有必要首先对m p e g 标准 作一些简单介绍,以便能够更好地说明本文的音频特征参数的提取和选择。 2 1m p e g 简介 m p e g 是活动图像专家组( m o v i n gp i c t u r ec o d i n ge x p e r t sg r o u p ) 的简称。m p e g 是 1 9 8 8 年i s o i e c 、j t c1 s c 2 9 所建立的几个专家组之一。是专门从事多媒体音、视频压 缩技术标准制定的国际标准组织1 。该组织自成立以来,已经制定和正在制定的m p e g 标准 有m p e g 一1 ,m p e g 一2 、m p e g 一4 、m p e g - 7 和m p e g 一2 1 ,这些标准在多媒体发展中的不同时期发 挥了巨大的作用致力于研究、开发数字压缩标准,以保证活动图像质量的前提下,压缩传 输码率的组织。由于该小组所制订的影音信息压缩标准对通信、广播、电视、音响、计算 机等电子信息产业的发展贡献非常重大,使得m p e g 专家组声名远扬,m p e g 也成了影音视频 信息压缩标准的代名词。 2 1 1m p e g - 1 标准简介 m p e g - 1 在1 9 8 9 年7 月开始研究,1 9 9 2 年被i s o i e c 批准为正式标准,正式标准编号是 i s o i e c l l l 7 2 ,m p e g 一1 规定了在数字存储介质中实现对活动图像和声音的压缩编码,编码 码率最高为1 5 m b p s h l 。主要用于c d - r o m ( 包括v i d e o - c d 等) 存储彩色的同步运动视频图像, 它针对s i f ( 标准交换格式) 标准分辨率( n t s c 帝t j 为3 5 2x2 4 0 ;p a l 铝t j 为3 5 2x2 8 8 ) 的图像进 行压缩,每秒可播放3 0 帧画面,具备c d ( 指激光唱盘) 音质。同时,它还被用于数字电话网 络上的视频传输,如非对称数字用户线路( a d s l ) 、视频点播( v o d ) 、教育网络等。使用m p e g 一1 的压缩算法,可以将一部1 2 0 分钟长的电影压缩到1 2 g b 左右,因此,它被广泛地应用 于v c d n 作和一些视频片段的下载,9 0 以上的v c d 都是用m p e g 一1 格式压缩的。 2 1 2 m p e g - 1 音频标准介绍 m p e g 音频标准描述了一个二进制数据格式和解码传送函数抽1 。其开放的架构使其得到 了不断的完善并且使其可以轻松地适应各种应用的特殊需要。这种灵活性使基于m p e g 标准 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 的音频系统得以始终保持与声学方面最先进技术的同步发展。另外,由于解码器是通用的, 所以生成的数据并不是生产厂商特定的。 m p e g 音频标准描述了每一帧数据以二进制数据流在串行接口上进行传送和接收时的 形式阳1 。来自于各个厂商的系统均可以对任意m p e g 音频文件进行读取和解码工作。该标准 并未对磁盘录制系统的文件结构的应用方面提供相应标准。 m p e g 音频编码中还可以被编进为客户应用而特定的辅助信息。该信息的读取可以由解 码器单独完成,并且对于在保持标准和解码兼容性的同时传送一些特殊的信息( 如:音量 变化信息) 是十分有用的。 。 每一帧m p e g 音频数据是由数据头、c r c 、声音数据和辅助数据组成的。数据头固定占 据3 2 l b 特的空间,其中包含了支配其余数据的参数,如层信息、采样频率和数据比率等。 c r c 虽p 错误侦测码是可选的并且其存在与否的信息被保存在数据头中。如果存在,其长度 : 为1 6 比特阳1 。它对数字音频硬盘录制系统并不起作用。声音数据是被压缩后的声音数据, 它的长度是可变的。辅助数据是由用户自由定义的区域,其长度也是可变的,以获得由m p e g 音频标准设定的该帧的全长。 m p e g 压缩比率是可编程的。它可以应用在:单声道、双声道和立体声等方式,它还提 供3 个编码层即:l a y e ri 、l a y e ri i 和l a y e ri i i 。其中l a y e ri i i o p 为m p 3 音频格式。因 为m p e g 音频的压缩率不是固定的,所以码率的选择范围必须由m p e g 音频编码器来完成。对 于m p 3 ,标准定义了一个从8 一- - 3 2 0 k b i t s 的范围。m p 3 的解码器还必须支持从音频帧到音频 帧的码率的转换阳,。 2 2 音频特征参数的提取 音频有其自身的特点和属性,在音频分类之前首先要进行音频特征的提取。音频特征 的提取与选择是音频分类的一个重要环节,它是一个信息大幅度压缩的过程,是音频分类 的基础。后面的模式识别过程以音频特征参数为输入,因此选取区分特性足够好的特征参 数,才能保证在后续的模式识别计算中有可能取得较好的结果晦1 。 2 2 1 非压缩音频的特征参数提取 音频分类以一些主观或客观的音频特征为基础。在音频数据中提取特征有两种方法, 一是提取听觉感知特征如音高、响度,一是计算非感知特征或称为物理特性,如对数倒频 谱系数,线性预测系数。音频特征还可分为时域特征参数和频域特征参数两类,下面就以 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 这种划分来介绍特征参数。 2 2 1 1 音频时域特征的提取 可提取的音频时域特征有平均能量、过零率和静音比等h 3 。 平均能量说明了音频信号的强度,可用于静音检测,对于一个音频例子,如这个音频 例子中的某个短时帧的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音帧一1 。 过零率是指每秒内信号值通过零值的次数,一定程度上说,它说明了平均信号频率。 一般语音信号由单词构成,单词又由元音和辅音交替的音节组成,辅音信号的过零率低, 而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以其开始和结束 部分的过零率总会有显著升高,利用其过零率可判断语音是否开始和结束。另外,大多数 音乐信号集中在低频部分,其过零率不表现出突然升高或降低的起伏特性,所以有时也可 用过零率来区分语音和音乐两种不同音频信号呻1 。 静音比表示静音的声音片段的比例h 1 。 2 2 1 2 音频频域特征的提取 傅里叶变换可分解出音频信号的频率成分,可提取的音频频域特征参数有带宽、频谱 中心、谐音、音调,m f c c 等n o m 帅羽。 带宽,一段音频信号所覆盖的频率范围,通常乐声的带宽( 2 0 k h z ) 比人声带的可调节 范围( 4 k h z ) 要宽得多心1 。 频谱中心,是频谱能量分布的平衡点“1 。音乐信号往往具有比语音信号更高的激励能 量,语音中浊音与清音的频谱中心也有不同分布。对应的主观感知度量为声音的亮度。 频率为最低频率的倍数的频谱成分称为谐音h 1 。在有谐音的声音中,频谱成分大部分 是是最低频率的整数倍,音乐通常比其它声音具有更多的谐音。 音调是听觉分辨声音高低的特性,完全由频率决定,可通过频谱估计。只有阶段性的 声音,如那些由音乐设备和语音产生的声音,才会产生一种音调的感觉。可通过音调的级 别对声音排序,音调是一个主观特征h 1 。 m f c c ( m e l - f r e q u e n c yc e p s t r a lc o e f f i c i e n t ) 即基于m e l 频率的倒谱系数,它一般采用 三角滤波器组对傅立叶变换能量系数滤波,并对其频域进行m e l 比例变换,以更符合人类的 听觉特性n 舢。人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不 同的,基本上是一个对数关系,前面所求的那些参数都没有考虑到这一点,m e l 尺度倒谱 系数( m e l - s c a l e dc e p s t r u mc o e f f i c i e n t s ) ,或称m e l 频率倒谱系数比较充分地利用了人 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 耳这种感知特性,因此,得到了广泛的应用。已有研究表明,m f c c 系数可以用作音频分类 特征,并能很好地提高音频分类的精度,而且 i f c c 有较好的鲁棒性( r o b u s t n e s s ) n 习。 2 2 2 压缩音频的特征参数提取 前文所列举的是针对非压缩音频的分类应用中常用的一些特征参数,对于压缩音频来 说,如果我们先将压缩音频解压得到时域波形,那么接下来的分类计算过程与非压缩音频 的分类过程并无不同之处,但是这样做显然有如下缺点: 首先是计算量的问题,当前比较先进的音频压缩方法都具有很大的计算复杂度。尽管 m p e g 一1 音频的编解码过程是非完全对称的,但是其解码过程仍可视为编码的求逆,所需的 计算量仍然是很大的。 其次,目前的大部分高效音频压缩方法在编码过程中都充分考虑到了人耳的生理特性 n 3 1 ,针对人的听觉特性,编码过程中的大部分计算量都花在了对人的听觉系统的建模上, 而传统的熵编码只占了小部分的计算量。如果不对这些计算结果加以利用,无疑是非常浪 费的嗍。 为了避免以上的缺点,本文提出的方法不对压缩音频进行解码,而是直接对压缩音频 的帧数据进行分析,充分地利用了编码过程中的计算结果,并且结合了人的听觉特性,提 取出所需的特征参数。 本文分析的压缩音频是m p e g - 1 伴音格式,在本章开始已经作了简单介绍,而音频压 缩编解码方法是实现压缩音频特征参数提取的基础,入耳的听觉特性则是参数提取的理论 依据,所以下面有必要作一些简单的介绍。在本章的最后,本文还对其他学者在做相关工 作时所提取的特征参数作了介绍和比较,并在此基础上提出本文的参数选取方案。 2 2 3 音频压缩的相关知识 2 2 3 1 时频映射第一部分( p q m f ) 本节和下一节介绍的是音频信号从时域映射到频域的通用技术。其基本思想是:通常 将音频信号分解成各个频率成分,然后对各个频率成分进行合理的比特分配,从而可以实 现减少音频信号冗余成分的目标n 钉。 频域编码技术相比时域编码技术( 如预测编码a d p c m ) 有一定的优势,因为在频域编 码过程中,用来对各个频率成分进行编码的比特数是可以自适应的n 钔。对各个频率成分分 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 配不同的比特数,就可以控制各个频率成分的量化噪声水平,能保证最需要高量化精度的 频率成分分配到最多的比特数。而通过对人体听觉系统的研究,可以确定哪些频率成分可 忍受较大的量化噪声而不对声音的主观品质产生影响n 们。 时频映射的基本技术是通过一个带通滤波器组,将声音信号分解为k 个子带成分,各 个子带成分的信号用有限的比特量化,能容忍较大量化噪声( 不被人耳感觉到) 的子带成分 分配较少的比特数。量化后的信号发送至解码器,解码器先将各个子带成分量化后的信号 反量化,再将各个子带成分合并,恢复出原始信号n 钉。 然而,将信号分成k 个并行的子带,会使数据速率变为原有的k 倍。为了避免在编码 器端的滤波器组处增大数据速率,可在编码端各个子带滤波器后进行k 阶下抽样,在解码 端合成滤波器前再进行k 阶上抽样n 们。 下图为时频映射过程的简图: : 梅输j 盘釉i l l 可能t 霓 图2 1 时频映射框图“盯 通过合理地设计滤波器组,可以保证从下抽样的信号中完全恢复原始信号,这类滤波 器的设计方法和理论在文献 1 5 中有详细论述。其中一种特殊的滤波器组,伪正交镜像滤 波器组( p s e u d oq u a d r a t u r em i r r o rf i l t e r ) p q m f ,对音频编码的发展有很大影响,3 2 路 p q m f 被应用于m p e g 音频编码。 下面是p q m f 的推导过程和设计思路的简要介绍。首先从最简单的情况:双通道完全 重构滤波器开始。然后讨论如何从双通道滤波器推广到多通道完全重构滤波器组1 。 图2 2 双通道完全重构滤波器组结构图n 盯 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 期望的结果,即完全重构,意味着x f n 】为x 【n 】的延时。 在讨论过程中,y o - - y o ,y l - - y l 之间直接相连,未经其它处理。 首先写出由y o n 】,y l n ,g o n ,9 1 【n 】的z 变换得出的x 【n 】的z 变换: x ( z ) = y o ( z 2 ) g o ( z ) + z ( z 2 ) g l ( z ) 1 4 1 ( 2 1 ) 然后写出由x 【n 1 和滤波器h o n 】,h i n 得到的y o n 】,y l n 的z 变换: z ( z ) = 去( 日,( z j ) x ( z i ) + h 。( 一z j ) x ( 一z i ) ) i = 0 ,1 口钔( 2 2 ) 由上面的式子可推出如下结果: 彳7 ( z ) = 去 h o ( z ) g o ( z ) + h l ( z ) g l ( z ) p ( ( z ) + + 扣o ( - z ) g o ( z ) + 训叼g t ( z ) p ( - z ) 【l 4 1 :( 2 3 ) 注意:在上式中,第二项为混叠成分,我们设计滤波器时首先要做的就是确保第二项 的系数为0 1 4 3 。 即h 。( 一z ) g o ( z ) + h l ( 一z ) g l ( z ) 2 0 ( 2 4 ) 而在实际应用中多为多通道滤波器组,如人耳的频响特性可分为2 0 3 0 个关键带n 钔。 下面介绍如何由双通道完全重构推广到多通道完全重构。 早期的研究试图通过叠加q m f 来实现,滤波器组形成树形结构。但这种方案的缺点是 脉冲响应太长,计算复杂度太高。后来,在c q f 的基础上推广,得出了一个更加高效,并 行的多带分解方案,p q m f ( p s e u d o - o m f ) 。它的基本思想是:首先设计一个窄带低通滤波器, 然后对其进行调制( 频谱搬移) ,以覆盖整个频带。各滤波器的衰减足够快,相邻滤波器 间的混叠可忽略不计,而且相邻的滤波器间满足c q f 完全重构条件n 们。 p q m f 实现了接近完全重构的滤波器组,有非常重要的历史意义。m p e g - 1 和m p e g 一2 中 层i 和层i i 使用它来进行时频映射踊1 。它的优点是能以较高的精度重构,而且实现比较高 效,使早期的感知音频编码器的实现成为可能口钔。 p q m f 滤波器由k 个通道组成,每个通道的冲击响应函数由一个低通滤波器h 【n 】进行余 弦调带0 得到n 钉。 1 协】- 组小。s k + - ) ( 刀一竿) + “8 ,k _ o “1 刀】- 魂 一l 一刀】1 帕 ( 2 5 ) ( 2 6 ) 南京邮电大学硕士研究生学位论文 第二章m p 3 音频介绍及特征参数的提取 其中n 是h 【n 】冲击响应长度。相位九的取值由相邻带消除混叠条件决定,满足如 下关系式: 丸一九一- = 三( 2 ,+ 1 ) 1 r 是整数( 2 7 ) 从【疗】的表达式可以看出,魄 胛】的频响对应为h ( f ) 分别平移到正负两个频率后相加, 移动的频率大小为 以= 唼( 峥i c 1 4 】 ( 2 8 ) 因此,k 个通道可对应于2 k 个h ( f ) 的复本,来分割一f s 2 到f 业之f - j 的频带。这就意 味着低通滤波器h ( d 的整个带宽为f s ,2 k ,釜通带为 一乏,篆 n 4 】。 按完全重构约束条件的要求,h 【n 】的频率成分在l f | 彖之外的部分可忽略不计,低频 成分满足p q m f 能量互补公式: l h ( 厂) 1 2 + 1 日( 一e 2 k + f ) 1 2 = 2 i f , 2 m 1 o _ 啦一 南京邮电大学硕士研究生学位论文 第二章m p 3 音频介绍及特征参数的提取 o , c 2 _ , 曼 o 宴 擘 d i f f e r e n c e , f i :赠1 w e e nc u t 。o f ff r e q u e n c i e s 。 图2 13 两个窄带噪声对中心频率处纯音的掩蔽门限1 基于这些实验结果,研究人员总结出,不论掩蔽音为何种类型,在掩蔽音的频率附近, 总存在一个“关键带宽”( c r i t i c a lb a n d w i d t h ) ,在此带宽之内,掩蔽门限为定值n 们。关键 带宽的概念最早由h a r v e yf l e t c h e r 提出。f l e t c h e r 基于实验数据和假设,以一个带通滤波 器组来对听觉系统进行建模,带通滤波器组中各个带通滤波器相互连接,宽度为关键带宽。 实验表明,关键带宽取决于掩蔽音的频率,但是,关键带宽与掩蔽音频率之间严格的 公式还没有定论,因为使用不同测量方法得到的结果也不一样。 基于f l e t c h e r 的开创性工作以及z w i c k e r 的研究成果,在5 0 0 h z 以下,关键带宽为 1 0 0 h z ,在更高的频率处,关键带宽大致为掩蔽音频率的1 5 ,下面给出普遍接受的关键 带宽公式口钔: a f lh z :2 5 + 7 5 1 1 + 1 4 ( f 。k h z ) 2r ( 2 3 0 ) 基于人耳的生理学原理,此公式给出了一种将频率映射到基底膜上尺寸的方法。假设 每个关键带宽对应基底膜上一段固定的长度,可以定义基底膜上的一个单位长度对应一个 关键带宽单位,该关键带宽单位定义为b a r k ,以纪念该领域的早期研究者b a r k h a u s e n 关键带宽公式表示了各个频率点处d f d z 的值,即基底膜上移动单位长度对应的频率 改变值。对该公式取逆求频率f 的积分,得到一个函数z ( f ) ,称作关键带率( c r i t i c a lb a n d r a t e ) ,下式给出了关键带率的良好估计陆1 : z b a r k = 1 3 a r c t a n ( o 7 6 f l k h z ) + 3 5 a r c t a n ( ( f 7 5 k h z ) 2 ) ( 2 3 1 ) 表2 2 给出了基底膜上各单位长度对应的频率范围,最高频率达到了1 5 5 0 0 h z ,这已 经接近入耳的听觉上限了。这些频率范围定义为关键带,z 表示关键带编号,是关键带低 频率限f 1 的函数。如果假定基底膜长为2 5 关键带,而临床测量数据基底膜长度大约为 3 2 r a m ,可得出每个关键带对应1 3 毫米的基底膜晴1 。 南京邮电大学硕士研究生学位论文第二章m p 3 音频介绍及特征参数的提取 表2 2 关键带以及对应的低频率限f l ,高频率限f u ,中心频率f c 和关键带宽甜5 z ( b a r k )f l ( h z )f u ( h z )f c ( h z )“h z )z ( b a r k )f l ( h z )f u ( h z )f c ( h z )a f ( h z ) 001 0 05 01 0 01 32 0 0 02 3 2 02 1 5 03 2 0 11 0 02 0 01 5 01 0 01 42 3 2 02 7 0 02 5 0 03 8 0 22 0 03 0 02 5 01 0 01 52 7 0 03 1 5 02 9 0 04 5 0 33 0 04 0 0 3 5 01 0 01 63 1 5 03 7 0 0 3 4 0 0 5 5 0 44 0 05 0 04 5 01 1 01 73 7 0 04 4 0 04 0 0 07 0 0 55 1 06 3 0 5 7 01 2 01 84 4 0 05 3 0 04 8 0 09 0 0 66 3 07 7 07 0 01 4 01 95 3 0 06 4 0 05 8 0 01 1 0 0 7 7 7 09 2 08 4 01 5 02 06 4 0 07 7 0 07 0 0 01 3 0 0 89 2 01 0 8 01 0 0 01 6 02 17 7 0 09 5 0 08 5 0 01 8 0 0 9 1 0 8 0 1 2 7 0 1 1 7 01 9 02 29 5 0 01 2 0 0 01 0 5 0 02 5 0 0 1 01 2 7 01 4 8 01 3 7 02 1 02 31 2 0 0 01 5 5 0 01 3 5 0 03 5 0 0 1 11 4 8 01 7 2 01 6 0 02 4 02 4 1 5 5 0 0 1 21 7 2 02 0 0 01 8 5 02 8 0 2 2 4 压缩音频特征参数的提取举例 已经有很多学者对基于内容的压缩音频分类进行了大量研究,并且都提出了各自的特 征参数提取方案。因为在压缩音频编码过程中的第一步工作就是子带分析,所以,比较常 用的参数提取方法就是,利用编码器的计算结果直接对子带数据进行分析,并在此基础上 提取出音频特征参数。 m p e g - 1 音频编码器中采用3 2 个子带的滤波器组,将音频信号从时域分解到频域的3 2 个等带宽的子带上。在文献 1 8 中,作者提出可以通过对每个子带内的数据进行傅里叶分 析来计算特征参数:首先从m p e g 音频文件中提取出每个子带的抽样,加上h a m m i n g 窗后, 进行f f t 变换,计算出每个子带的幅度谱;然后将各个子带的幅度谱串连起来,得到一个 频率范围覆盖了整个信号频带的频谱矢量;这样就可利用这个频谱矢量进行进一步的计 算,得到特征矢量了。这种参数提取方案虽然频域分辨率较低,但是和将信号通过合成滤 波器组重构之后再进行频谱分析相比,显然是要容易很多。文献 1 9 的作者提出可用o 号 子带内的信号能量方差来进行静音片断检测,并计算出其它各个子带内的能量,推导出几 个描述各子带内能量分布的参数。 文献 2 0 的作者对m p e g - 2 层i i i 的压缩音频进行分析,计算出各组子带数据的平均 能量,得到一个3 2 维矢量,然后基于这个平均能量矢量进行进一步的计算。作者计算了 频谱质心,频带衰减,帧能量,连续两个片断对应的3 2 维矢量的差值,作为特征参数。 在文献 2 中,作者提出可以将提取的特征参数分为两类:帧参数和子带分析参数。 帧参数来源于m p e g 音频码流,针对不同层次的编码方法帧格式的不同,可利用的帧参数 ; 2 4 南京邮电大学硕士研究生学位论文 第二章m p 3 音频介绍及特征参数的提取 也不尽相同。子带分析参数由子带数据分析得到。 文献 2 1 中,作者直接利用m d c t 变换的系数进行进一步的分析计算,并在此基础上 提取特征参数,作者虽然利用了编码器的计算结果,但没有充分考虑到人耳的听觉特性, 没有利用心理声学的研究成果。在文献 1 中,作者提取出m p e g 音频数据中的比例因子, 进行分析计算得到特征参数,实现了语音和音乐的分类。 本文在综合分析了以上文献优缺点的基础上,在提取音频特征参数过程中充分考虑了 心理声学的研究成果,并且利用了编码器的计算结果,不仅实现了m p 3 音频纯音乐与非纯 音乐的较高正确率的区分,更实现了非纯音乐的不同种类的高区分度。 南京邮电大学硕士研究生学位论文第三章音频分类器 第三章音频分类器 针对不同类型的音频信号和不同的应用场合,音频分类器的选择也必然有所不同。 目前,音频分类器的实现可采用矢量量化技术( v q ) ,隐性马尔可夫( m a r k o v ) 模型( h m m ) , 高斯混合模型( g m m ) ,支持向量机( s ) ,人工神经网络( a n n ) 等多种方法。 本文综合考虑了各种分类器的适用场合和优缺点,最终采用人工神经网络( a n n ) 来实现音频的分类。下面简要介绍几种音频分类器并分析其特点。 3 1 隐性马尔可夫( m a r k o v ) 模型( h m m ) : 在语音识别中基于h m m 的技术最为流行且识别性能较好。 语音识别系统通常包括训练和模式匹配两个阶段凹别。语音的最小单位为音素。每个音 素被分解成输入状态、中间状态和输出状态3 个可听到的状态,每个状态可持续超过一个 帧的时间( 通常为l o m s ) h 3 。在训练阶段,使用训练语音数据为每个可能的音素构建h m m 。 每个h m m 都具有以上三个状态,并由状态转换概率和符号发生概率来定义。在该环境中, 符号是为每个帧计算的特征矢量。 在训练阶段末期,由不同的发音者、时间变化和周围的声音引起的变化,是每个音素 都由捕获不同帧的特征矢量变化的一个h m m 表示。在语音识别阶段,按照帧的顺序计算每 个输入音素的特征矢量。识别问题的目的是去发现哪个音素h m m 最可能产生输入音素的特 征矢量序列。h m m 对应的音素被认为是输入音素,由于一个单词含有大量的音素,因此通 常把音素序列放在一起进行识别h 1 。 而对于一般的音频信号来说,信号中没有明显的基本构造单元,如果使用h m m 对它们 进行建模的话,参数的选择和计算极其困难。在文献 2 3 中,作者针对上述难点提出了一 种针对音频信号进行h m m 建模的方法,可以用来对各个h m m 进行参数选择和估计,并能取 得较好的性能。 作者提出,可以从音频流中找出一系列具有代表性的音频类别,这样任何音频流都可 以看成一个音频片段的序列,每个音频片段都属于一个音频类别。一个特定的序列能代表 一定的意义,例如:一系列的射击声和尖叫声的音频片段说明这个声音来自于枪战场景。 这些代表性音频类别的确定,以及这些类别之间区分的细节,是由具体的应用决定的,正 如在语言识别应用中,各个音节由语言和词汇确定一样。 南京邮电大学硕士研究生学位论文 第三章音频分类器 3 2 支持向量机( s v m ) 支持向量机s v m ( s u p p o r tv e c t o rm a c h i n e s ) 是由v a n p i k 领导的a t & t b e l l 实验室研 究小组在1 9 6 3 年提出的一种非常有潜力的分类技术,s v m 是一种基于统计学习理论的模式 识别方法,主要应用于模式识别领域晦1 。由于当时这些研究尚不十分完善,在解决模式识别 问题中往往趋于保守,且数学上比较艰涩,因此这些研究一直没有得到充的重视。直到9 0 年代,一个较完善的理论体系统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,简称s l t ) 的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确 定网络结构的问题、过学习与欠学习问题等,使得s v m 迅速发展和完善,在解决小样本、 非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他 机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论