




已阅读5页,还剩64页未读, 继续免费阅读
(计算机科学与技术专业论文)基于支持向量机的音频分类技术研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毒 1 jl, 咱 基 、j 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: ,本人承担一切相关责任。 日期:兰f 竺:l ! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注 hf飞文 p 。0 oj,2。 童 北京邮电大学硕士研究生论文 基于支持向量机的音频分类技术 研究与应用 摘要 随着多媒体技术的发展,多媒体数据已成为信息处理领域中主要 的媒体形式。其中,音频信息在多媒体信息中占有非常重要的地位。 音频数据是一种非语义符号表示和非结构化的二进制数据流,缺乏对 内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作 带来了很大的困难。如何提取音频内容的语义信息是音频信息深度处 理、基于内容的检索和特定音频类别处理的关键问题。音频分类技术 是解决这一问题的有效方法,是音频内容结构化的基础。本文主要研 究如何选择与提取能够准确区分各种类别音频的特征参数,并选择一 种有效的分类器对各种音频类别进行分类。 本文对现有的音频分类技术及其应用进行充分研究,设计与实现 了基于支持向量机的音频分类模块,应用于多个多媒体应用系统中。 首先,本文对现有的短时音频信号处理方法进行分析;其次,研究了 音频特征集构造方法,在已有的音频时域和频域特征的基础上使用 p c a l d a 的方法构造音频特征集;然后,采用基于s v m 的分类器, 设计与实现音频分类模块;最后,将该音频分类模块嵌入到现有的自 动字幕生成系统、色情信息过滤系统中。实验表明,引入p c a - l d a 特征集构造方法的音频分类模块能够对音频信息进行有效分类。 关键词:音频特征,主向量分析,线性判别分析,支持向量机 : h l ; j 一 j 北京邮电大学硕士研究生论文 r e s e a r c ha n da p p l i c a t i o no fs v mb a s e d a u d i oc l a s s i f i c a t i o nt e c h n o l o g y a b s t r a c t w i t ht h e d e v e l o p m e n t o fm u l t i m e d i a t e c h n o l o g y , m u l t i m e d i a i n f o r m a t i o nh a sb e e nw i d e l yu s e di nt h ea r e ao fi n f o r m a t i o np r o c e s s i n g a u d i oi n f o r m a t i o np l a ya ni m p o r t a n tr o l ei nt h i sa r e a a u d i oi n f o r m a t i o n a r en o n s e m a n t i cn o t a t i o na n du n s t r u c t u r e db i n a r yd a t as t r e a mw h i c hh a s c a u s e dg r e a td i f f i c u l t i e si na u d i os i g n a lp r o c e s s i n ga n da n a l y s i s h o wt o e x 仃a c tt h ea u d i os e m a n t i ci n f o r r n a t i o ni st h ek e yi s s u eo ft h ea u d i os i g n a l p r o c e s s i n g a n dc o n t e n t b a s e da u d i oi n f o r m a t i o nr e t r i e v a l a u d i o c l a s s i f i c a t i o nt e c h n o l o g yi st h em a j o rt e c h n o l o g yt os o l v et h i sp r o b l e m a n di ti st h eb a s i so fa u d i oc o n t e n te x t r a c t i o n t h i st h e s i sm a i n l yf o c u s e s o nh o wt os e l e c ta n de x t r a c ta u d i of e a t u r e sw h i c hc a na c c u r a t e l yd e s c r i b e t h ed i f f e r e n c eb e t w e e nv a r i o u st y p e so fa u d i os i g n a l sa n dh o wt om a k ea n e f f e c t i v ea u d i os i g n a lc l a s s i f i e r i nt h i sp a p e r ,w es t u d yt h ee x i s t i n ga u d i oc l a s s i f i c a t i o nm e t h o d s w 色 d e s i g na n di m p l e m e n tas v m b a s e da u d i oc l a s s i f i c a t i o nm o d u l e a n d a p p l yt om a n ym u l t i m e d i aa p p l i c a t i o ns y s t e m s f i r s t ,w ea n a l y z et h e e x i s t i n gs h o r t - t e r ma u d i os i g n a lp r o c e s s i n ga p p r o a c h 。腑a l s os t u d yt h e m e t h o d so fa u d i of e a t u r ee x t r a c t i o na n dc o n s t r u c tas e to ff e a t u r ev e c t o r s b a s e do np c a l d a t h e n w ed e s i g na n di m p l e m e n ta na u d i o c l a s s i f i c a t i o nm o d u l eb a s e do ns v m f i n a l l y , t h ea u d i oc l a s s i f i c a t i o n m o d u l ei se m b e d d e di n t oa ne x i s t i n ga u t o m a t i cs u b t i t l eg e n e r a t i o ns y s t e m a n dp o r n o g r a p h i ci n f o r m a t i o nf i l t e r i n gs y s t e m t h ee x p e r i m e n t ss h o w t h a tu s i n gp c a l d am e t h o di na u d i of e a t u r ee x t r a c t i o ni se f f e c t i v ef o r i r e p r o v i n gt h ea u d i oc l a s s i f i c a t i o nr e s u l t s k e yw o r d s :a u d i of e a t u r e ,p c a ,l d a ,s v m - h i - 雌 j j 北京邮电大学硕士研究生论文 目录 第一章绪论1 1 1 研究背景1 1 2 相关研究现状2 1 2 1音频分类方法的研究现状2 1 2 2 典型的音频分类方法3 1 3 本文研究内容及其意义5 1 4 论文组织结构6 第二章 音频特征提取与特征集构造方法9 2 1 音频信号概述9 2 1 1 音频编码9 2 1 2 p c m 基本工作原理1 0 2 1 3 w a v 音频文件1o 2 2 音频特征参数提取l3 2 2 1 音频时域特征提取1 3 2 2 2 音频频域特征提取1 4 2 3 音频特征集构建l7 2 王l 主分量分析方法( p c a ) 1 7 2 3 2 线性判别分析( l d a ) 1 8 2 3 3基于p c a - l d a 的音频特征集构造2 0 第三章基于s v t l 的音频分类方法2 3 3 1 音频分类流程2 3 3 2 支持向量机理论2 3 - i 北京邮电大学硕士研宄生论文 3 2 1 统计学习理论2 3 3 2 2 支持向量机原理2 5 3 3 基于s v m 的音频分类2 9 3 - 3 1支持向量机模型的训练2 9 3 3 2 惩罚系数的选择3 0 3 3 3用支持向量机进行音频分类31 第四章原型系统设计与实现3 3 4 1 音频分类模块概述3 3 4 2 音频分类模块设计3 3 4 2 i 系统功能模块设计3 3 4 2 2系统详细流程设计3 4 4 3 音频分类系统实现3 6 4 3 1音频分类模块类结构设计3 6 4 3 2 训练音频库的准备3 6 4 3 _ 3 音频特征提取3 7 4 3 4 p c a l d a 特征集构造方法中降维矩阵的计算求取方法3 8 4 3 5基于s v m 的音频分类与分类模型训练模块的实现3 9 4 3 6 音频分类模块实现4 0 第五章音频分类模块应用及性能分析4 l 5 1 音频分类模块在自动唱词系统中的应用4 l 5 1 1 自动唱词系统简介4 l 5 1 - 2 音频分类模块在自动唱词系统中的应用方法4 l 5 1 3性能分析4 3 5 2 音频分类模块在色情信息过滤系统中的应用4 4 5 2 i色情 5 2 2 音频 5 2 3性能 第六章 6 1 本文总结4 9 6 2 展望4 9 参考文献5l 攻读硕士学位期间发表的论文。5 5 致谢5 7 - 1 一 、: j | 北京邮电大学硕士研究生论文 第一章绪论 本章首先介绍了音频分类方法研究的背景,概述了音频分类的研究现状,并 在此基础上阐述了本文的研究内容和意义,提出了论文的组织结构。 1 1 研究背景 随着多媒体技术的发展,多媒体数据己成为信息处理领域中主要的媒体形 式。多媒体技术是计算机技术与音频、视频和通信技术的有机结合。多媒体数据 包括文字、图像和声音信息,其中音频信息占有很重要的地位。原始音频数据是 一种非语义符号表示和非结构化的二进制流,缺乏对内容语义的描述和结构化的 组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频内容 的语义信息是音频信息深度处理、基于内容的检索和特定音频类别处理的关键。 音频分类技术是解决这一问题的关键技术,是音频内容结构化的基础。如何选择 与提取能够准确区分各种类别音频的特征参数并选择一种有效的分类器对各种 音频类别进行分类是本论文的主要研究内容。 音频信号的表征与提取是音频分类的基础,所选取的特征应充分的表示音频 时域和频域的重要分类特性。一方面针对多种多样的音频类别我们需要选择多种 不同类别的音频特征参数,音频特征参数选择的越多,那么进行音频处理时音频 分类的准确度就越高。另一方面,我们需要控制特征参数的维数,特征维数的增 加会直接导致识别复杂度的增加,导致音频分类时的效率大大降低。而且,如果 提取的特征之间,存在太多的相关性信息会造成识别分类的稳定性差,影响分类 结果,并提高识别的复杂度。 分类器的选择是实现音频准确分类的关键,由于音频信息有别于图像信息, 它是以一维线性时间序列存在,我们对音频的分类需要考虑音频的时域与频域的 特征。所以,音频分类器的设计需要能够较好的表征音频内容的统计特性,具有 良好的鉴别能力。这就需要我们认真学习现有的多种分类方法结合音频信息的特 点,选择合适的音频分类器,在此基础上完成音频分类器的设计与实现。 在本论文中我们认真学习了音频短时处理技术,对现有的各个音频特征参数 进行分析,并引入基于p c a l d a 的音频特征集构造方法,对前一步提取的音频 特征进行特征选择。同时在此基础上利用基于支持向量机的分类方法,实现了对 多种音频类别的准确分类。该方法已经成功的用于自动字幕机、网络色情音频监 测等多个系统均取得了良好的效果。 北京邮电大学硕士研究生论文 1 2 相关研究现状 1 2 1 音频分类方法的研究现状 近年来随着信号处理、语音识别和数据分类技术的发展和成熟,对于音频分 类技术的研究从2 0 世纪9 0 年代末掀起了高潮。音频分类技术主要应用于音频分 析和检索系统中。在音频分析系统中,人们首先对音频进行特征分析,然后应用 音频分类技术对音频基于内容进行识别和分类。在检索系统中,音频分类技术主 要应用于音频特征的提取和音频检索索引的建立,它用来对音频的每一帧信息进 行标注,提取音频的高层语义信息,从而尽可能准确的表征音频的内容,方便实 现基于内容的音频检索系统。 南京大学计算机软件新技术国家重点实验室提出一种基于隐马尔可夫模型 的音频分类方法【i l ,用于语音、音乐以及它们的混合声音的分类,最优分类精度 达到9 0 2 8 。文中通过对多阶的m f c c 及其差分系数m f c c 的计算分析,指 出am f c c 可以比较好地反映音频信号的动态变化特性。实验表明,隐马尔可夫 模型可以表示音频特征的时间统计特性,从而能够揭示不同类型音频的时间统计 特性。 在文献【2 】中将音频分为语音、音乐、环境音和静音,基于过零率和短时能量 特征区分语音,基于带宽周期、频谱流量和噪音帧率特征区分音乐、环境音和静 音,最后采用k 邻近分类方法并结合视频颜色信息辅助视频分析,对新闻视频 分段取得了良好效果。 文献1 3 】以反映人的音频感知特性的m f c c 系数为特征,建立特征向量,设计 实现了基于支持向量机的音频多级分类器,为多级音频分类技术进行了有益的探 索。但文中也指出基于向量机的分类器存在训练时间长的缺点。 文献【4 】采用e l l i p s o i d 距离方法对乐器声、男声、女声、环境音等音频类型进 行分类,使用的特征有短时能量、过零率、频率质心和频谱带宽等,分别计算各 声音类型在这些特征上的均值和标准方差,在特征的选取方法上提出采用优化的 对称矩阵衡量特征的可用度,取得了良好的实验结果,区分环境音准确率达到 1 0 0 ,但对于男声和女声的分类不是很理想,准确率分别只有6 3 和7 7 。 同时,国外对于多媒体和音频技术的研究主要集中在语音识别和音频分类检 索方面。它们主要应用了包括数字信号处理、模式识别、统计学习等理论对音频 特征的提取、音频内容的描述和音频分类等方面进行研究。 在音频分类的研究工作中,最基本的一个研究问题是对语音和音乐的区分。 语音和音乐在音频特征上具有显著的区别,例如能量、频带宽度、音色和音调等。 文献【5 】利用过零率和短时能量特征,采用门限比较的方法,试验取得了很好的效 北京邮电大学硕士研究生论文 果。文献【6 】使用了时域、频域和倒谱域共1 3 种特征,并使用了一些基本的分类 方法( m a p , k n n ) ,取得了一定的效果。声音信号的进一步分类需要考虑更多 的信号,文献【7 j 研究了音乐、语音和其它声音三类信号的分类问题,先根据在一 个窄带频域中存在一定峰值的信号的平均时间长度,将音乐信号提取出来;然后, 根据基频的轨迹提取语音信号。他们将这种方法用在了新闻故事的解析上。文献 峭】也提出了一种类似的声音分类方法,将声音分为语音、笑声、非语音( 例如音 乐) 以及其它无用的信息,并把语音按照说话人进行分类。该方法采用倒谱系数 作为特征,并使用了h m m 的建模作为分类器。针对语音、音乐、环境噪声和静 音的典型分类系统还有文酬引。该系统使用了高过零率比率、低短时能量比率、 谱通量、噪音帧率等特征,采用自项向下基于规则的区分方法,首先利用前两种 特征,区分语音和非语音,然后利用后两种特征进一步分类为音乐、环境噪音和 静音。 本文主要对多种音频特征进行提取,并且引入了p c a l d a 方法来进行音频 特征选择和音频特征集构造来解决音频特征维数过高的问题,最后选用支持向量 机的方法进行音频分类,提取音频的内容信息,实现音频分类模块。 1 2 2 典型的音频分类方法 根据音频特征对音频进行分类,首先需要进行音频特征选择和音频特征提取 形成特征向量集。然后需要将特征向量集输入到音频分类模块中进行音频分类操 作。不同的分类方法有各自的特征,分别适用于不同的情况。以下主要介绍目前 典型的音频分类方法。 ( 1 ) 贝叶斯分类方法 贝叶斯分类方法【2 4 】是基于统计学的分类方法,它的主要思想是:用训练集 的类分布来作为每个类别的概率分布,由训练集每个类别的先验概率,利用概率 论和数理统计学中著名的贝叶斯定理来估算对于某个特定的样本,它属于每个类 别的概率值( 后验概率) ,后验概率最高的那个类别即为这个样本的类别。贝叶斯 方法还可以分为朴素贝叶斯方法和可以处理属性间存在相互依赖关系的贝叶斯 信念网络。 目前,在大规模数据的分类问题中,朴素贝叶斯分类的类条件独立的假设很 难满足,研究较多的是贝叶斯信念网络,但是贝叶斯信念网络中评估函数比较难 选,学习训练的复杂度比较大,这些问题都有待解决。 ( 2 ) 决策树方法 决策树是一种结构简单、搜索效率高的分类器。决策树分类方法【2 4 】以信息 论为基础,对大量的实例选择重要的特征,建立决策树。决策树分类方法具有以 北京邮电大学硕士研究生论文 下优点:复杂的决策区域可以分解为决策树中不同层次的子空间的“并”:层次 式多阶段的搜索决策树是一种结构简单、搜索效率高的分类器。 决策树方法中,只要特征在该分枝结点中,该特征子集将具有最优的判别性 能,就可以为树中不同的分枝结点选取不同的特征子集。因此,其特征选取相对 要灵活一些。由于各分枝结点只是涉及相对较小的特征予空间,因此它可以解决 “维度灾难”问题。最优决策树的构造是一个n p 完全问题,其设计原则可表示 为: m i n ( 丁,f ,d ld ) f 、 v t 。,d “ 其中t 为特定的决策树结构,f 和d 分别为分支节点的特征子集和决策规则,d 为所有的训练数据,( 丁,f ,d i 功为在数据集合d 上选取特征集合f 和决策规 则d 训练得到的结构为t 的决策树的分类错误s 的条件概率。因此,决策树的构 造过程可以分为三个问题:选取合适的结构、为分枝结点选取合适的特征子集和 决策规则。 决策树方法在多个类别区域存在覆盖现象,尤其是在类别数目非常多时,其 存储和计算代价会过大,并且上层的分类错误会累积到下一层,从而形成“雪球” 效应。 ( 3 ) 神经网络分类方法 神经网络f 2 6 】是一组连接的输入输出单元,其中每个连接都与一个权值相联。 在学习阶段,通过调整神经网络的权值,使得能够预测输入样本的正确类标号。 神经网络需要很长的训练时间,因而对于有足够长训练时间的应用更合适。它需 要大量的参数,这些通常主要靠经验确定。它模拟人脑神经元结构,以m p 模型 和h e b b 学习规则为基础,建立了三大类神经网络模型。前馈式网络,以反向传 播模型、函数型网络为代表,用于预测、模式识别等方面;反馈式网络,以h o p f i e l d 离散模型和连续模型为代表,分别用于联想记忆和优化计算;自组织网络,以 a p t 模型和k o h o n e n 模型为代表,用于聚类。 在使用神经网络进行音频分类时,可以令输入层的节点与音频的特征向量相 对应,而输出层的节点对应于类别。在训练时,通过对训练样本集的样本进行反 复学习来调节网络参数,从而使全局误差函数取得最小值。这样,就可以期望该 网络能够对新输入的待分类样本进行正确的分类。 ( 4 ) 最小距离法 最小距离法的优点是概念直观、方法简单,有利于建立多维空间分类方法的 几何概念。在音频分类中应用的最小距离分类法主要有k 近邻方法( k - n e a r e s t n e i g h b o r ,k - n n ) 和最近特征线方法( n e a r e s tf e a t u r el i n e ) 等t 引l 。 k 近邻方法的思想是根据未知样本x 最近邻的k 个样本中多数点的类别来判 4 北京邮电大学硕士研究生论文 定x 的类别。为此需要计算x 与所有样本x i 的距离,并从中选出距离最小的k 个样本作为近邻样本集合k n n ,计算其中所有属于类别w i 的距离之和,并且根 据如下规则进行分类: c ( a 9 = a r g m i n 芝:d ( x ,置) ( 1 2 ) e c 石:x 7 v ,( ? ( 置) = 其中,c 为类别集合c = ( ,形) 。 当k = l 时,k 近邻方法就退化为最近邻方法。由于k 近邻方法利用了更多的 样本信息确定类别,所以k 取大一些有利于减少噪声的影响。但是,由于k 近邻 方法需要计算所有样本的距离,因此,当样本数目非常大时,其计算量就相当可 观。 ( 5 ) 支持向量机分类法 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 起源于统计学习和运筹学的最优 化理论,它研究如何构造学习机,实现模式分类问题。其最大的特点是根据v a p n i k 结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m 准则) 原理构造决策超平砸使 每一类数据之间的分类间隔最大。s v m 的思想就是在样本数目适宜的前提下, 选取比较好的v c 维,使经验风险和置信值达到一个折中,使每一类别数据之间 的分类间隔最大,最终使实际风险变小。对于线性不可分数据,按照c o v e r 定理, 将低维空间不可分数据映射到高维空间中。支持向量机根据s r m 准则尽量提高 学习机的泛化能力。即由有限的训练集样本得到小的误差,仍然能够保证对独立 的测试集保持小的误差。另外,由于支持向量算法是一个凸优化问题,所以局部 最优解一定是全局最优解,这是其它学习算法所不及的。s v m 是小样本两类阿 题的最优方法,对于多类问题是构建多个两类s v m 分类器,并与其它多类决策 方法结合来解决。但是这样需要训练的s v m 分类器个数太多训练复杂,存在过 拟合问题。 本文通过实验选定应用支持向量机分类模型对音频进行建模和分类操作,同 时引入和p e a l d a 的方法解决了音频特征向量在分类时维度过高导致分类器效 率下降的问题。 1 3 本文研究内容及其意义 本文对现有的音频分类技术及其应用进行充分研究,设计与实现了基于支持 向量机的音频分类模块,并应用于多个多媒体应用系统中。首先,对现有的音频 短时处理方法进行学习和研究l 其次,研究音频特征集构造方法,在已有的音频 时域和频域特征的基础上采用p c a l d a 的方法构造音频特征集;然后,采用基 于s v m 的分类器,设计与实现音频分类模块;最后,将该音频分类模块嵌入到 北京邮电大学硕士研究生论文 现有的自动唱词系统、色情信息过滤系统中。 本文研究的主要内容包括。 ( 1 ) 音频特征参数的提取 在音频分类模块中,我们首先对音频进行特征分析,从时域和频域提取音频 特征参数。由于系统中有专门的主要特征选取方法,所以此时不需要根据音频的 不同特点来进行特征选取,仅需要将音频的所有特征提取以备以后分析。 ( 2 ) 音频特征集构造 在训练音频分类模型之前,由于所提取的音频特征参数维数过高,为防止发 生维数灾难,本文主要采取主分量分析方法( p c a ) 和线性判别分析方法( l d a ) 相结 合的方式,将音频特征向量中最能表现音频特征的向量作为主向量分离出来,并 通过投影的方法对音频特征向量进行降维处理。这样,既减小了音频特征向量的 维度,提高了模型训练和模型检测的效率,同时由于采用了p c a l d a 结合的方法 进行降维,并没有损失向量表征音频特征的能力,使得在音频分类中可以保证较 高的准确性。 ( 3 ) 基于支持向量机的音频分类 本文在音频分类阶段选择了支持向量机的方法。在支持向量机训练和识别阶 段,我们使用的音频特征向量是经过降维处理的,所以使得音频分类具有很高的 效率。文中实现了基于支持向量机的音频分类模块,并将其应用在自动唱词生成 系统的预处理阶段,将音频中的音乐,背景噪音,含有背景噪音语音和纯语音进 行标注,对自动唱词系统无法识别的声音提示出来交由人工处理,保证系统的总 体准确性。 ( 4 ) 音频分类模块的设计与实现 本文利用所研究的工作,研究并编写了音频分类模块。该系统采用 m i c r o s o f tv i s u a lc + + 2 0 0 5 开发,并将该模块嵌入实验室现有的自动唱词系统 和色情信息过滤系统中,获得了良好的效果。 1 4 论文组织结构 论文总共分为六章,其它章节的内容组织如下: 在第二章中,着重介绍音频特征提取和音频特征集构造的相关理论和实现方 法,主要包括基本音频参数和特征的分析、音频特征的提取方法和应用p c a l d a 相结合的方式进行音频特征的构造方法; 在第三章中,介绍了支持向量机模型,并在此基础上对提取的音频特征向量 集进行分类; 北京邮电大学硕士研究生论文 北京邮电大学硕士研究生论文 在第四章中,设计并实现了音频分类模块; 在第五章中,介绍了自动唱词系统与色情信息过滤系统中音频分类模块的应 用,并且对分类模块的性能进行测试; 在第六章中,总结工作并对未来工作展望。 北京邮电大学硕士研宄生论文 第二章音频特征提取与特征集构造方法 2 1 音频信号概述 2 1 1 音频编码 音频信号是语音、音乐等频率和幅度有规律变化声波的信息载体。规则音频 是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三 个要素是音调、音强和音色。声波或正弦波有三个重要参数:频率、幅度和相位, 这也就决定了音频信号的特征。 声音信号的产生主要是由于物体的振动,通过空气等媒介传输。声带振动产 生的语音信号和乐器振动产生的音乐信号等都是以模拟信号的方式存在。模拟信 号直接记录声音的振动信息,在声音的存储和声音的传输中模拟信号的处理非常 繁杂。这时,我们需要将模拟信号转换成数字信号进行传输和存储,然后再将数 字信号转换成模拟信号播放出来使入耳可以感知。这种模数和数模信号之间的转 换就称为音频编码。 音频编码使模拟信号数字化,它使得信号传输成本更低,信号保密性得到满 足,同时信号传输的频率可以得到有效的利用,大大减少了音频信息传输和存储 的数据量。 音频编码的方式通常分为三类:波形编码( w a v e f o r mc o d e r ) 、参数编码 ( p a r a m e r i cc o d e r ) 与混合编码。波形编码目的是使重建后的音频时域信号波形 与原信号波形保持一致,具有质量好适应力强的特点,缺点是需要的编码速率高。 主要代表是自适应差分脉冲编码调制( a d p c m ) 和脉冲编码调制( p c m ) 。参数编码 通过建立音频信号的产生模型,提取代表音频信号的特征参数来编码,并不一定 在波形上与原始信号匹配。这种编码方式编码速率低但音频合成质量差,并且对 环境噪声敏感。主要代表是共振峰声码器和线性预测声码器( l p c ) 。混合编码方 式是上述两类方法的有机结合,它基于音频产生模型的假定并采用了分析合成技 术,但同时又利用了音频的时间波形信息,提高了音频的质量。主要代表是多脉 冲激励线性预测编码( m p l p c ) 和规则脉冲激励线性预测编码( r p e l p c ) 等。 本文拟对采集的音频或以文件形式存储的音频进行分析和分类,音频信号的 编码需要有较高的信号质量和较好的通用性。本文采用脉冲编码调制( p c m ) 方式 对分类模块输入音频进行编码。 北京邮电大学硕士研究生论文 2 1 2p c m 基本工作原理 p c m 编码是由a h r e e v e s 在1 9 3 7 年提出,p c m 编码的全称是脉冲编码调制 ( p u l s ec o d em o d u l a t i o n ) ,是把模拟信号变换为数字信号的一种调制方式。p c m 编码采用波形编码方法,其目的是力图重建音频波形来保持原音频信号的形状。 它的优点是具有较强的适应能力,缺点是编码速率高,编码效率低。它直接把音 频信号进行采样量化,表示成二进制数字信号,并通过并串转换过程转换成串行 的脉冲,并用脉冲对采样幅度进行编码,以便于传输和存储,故称为脉冲编码调 制。 p c m 编码主要有均匀p c m 、非均匀p c m 和自适应p c m 几种形式。本文主要应 用均匀p c m 编码进行音频特征提取和特征集构造工作。因为,均匀p c m 不论信号 幅度大小,它都采用同等的量化阶距进行量化。这种方式没有利用音频信号的性 质,信号没有得到压缩,最大化的保留了信号的质量。 p c m 通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 声音是一种能量波,具有频率和振幅的特征,频率对应于时间轴线,振幅对应于 电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对 有限的,数字编码过程中,必须对弦线的点进行采样。采样主要指在时间轴上对 信号数字化,采样频率是指一秒钟内采样的次数。即2 2 k h z 音频表示每秒钟含有 2 2 0 0 0 个采样点。量化是指在幅度轴上对信号数字化,它决定模拟信号数字化后 的动态范围。一般的量化位数取计算机的字节大小,为8 位或1 6 位二进制位。 量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号, 但所需要的存贮空间也越大。编码是指按一定格式记录采样和量化后的数字数 据。在编码时可以选择单声道或双声道模式对音频数据进行保存,双声道同时保 存两条线路数据,音质音色好,但占用空间多一倍。本文中的分类算法主要基于 单声道音频编码设计。对于双声道的音频模式,预处理阶段首先采用均值法,即 同一时间的的两个采样频率求均值采样,来进行由双到单声道的转换。 2 1 3w a v 音频文件 本文中音频分类模型的训练需要应用音频文件的输入方式,音频文件主要采 用w a v 文件格式,对音频信号应用均匀p c m 编码。 w a v 文件格式由微软公司开发,符合r i f f ( r e s o u r c ei n t e r c h a n g ef i l e f o r m a t ) 规范。w a v 文件对音频信息的编码没有硬性的要求,除常用的p c m 编码 外还可以使用其它的编码规范。由于p c m 格式的w a v 文件在w i n d o w s 平台下支持 广泛,同时本身具有很高的音质,所有在音频分类中应用这种音频格式对支持向 量机模型进行训练。但是,这种编码方式最大的缺陷是会占用大量的存储空间, 北京邮电大学硕士研究生论文 不便于音频信号的传输。 删文件所表示的音频信号质量主要由w a v 文件的数据率决定,数据率是每 秒音频所占用二进制b i t 数。因此,数据率是计算机处理音频信号时要应用的基 本技术参数,未经压缩的p c m 编码音频数据率的计算如下: 数据率= 采样频率( h z ) x 量化位数( b i t ) 声道数( b i t s ) w a v 文件结构是由若干块( c h u n k ) 组成,按顺序分别包括r i f f 块( r i f f c h u n k ) ,格式信息块( f o r m a tc h u n k ) ,可选信息块( f a c tc h u n k ) 和数据块( d a t a c h u n k ) 。其中每一个块都是由块i d ,块大小( 去除i d 和s i z e 所占的字节数后 剩下的其他字节数目) 和块内容三部分组成。其中所有数值表示均为低字节表示 低位,高字节表示高位。 r i f f 块主要是w a v 文件标识作用,它表明该文件遵循r i f f 文件结构并且保 存的资源为w a v e 音频文件,同时它记录了整个w a v 文件的大小。r i f f 文件结构 如表2 - 1 。 表2 - 1p d f f 文件头结构 属性名称字节数作用 i d4 r i f f ,标识 s i z e4 w a v 文件长度一8 字节 t y p e 4 w a v e ,标识 r i f f 结构定义如下: 格式信息串记录了音频信号的采样特性,是w a v 文件中最重要的组成部分。 格式信息块的结构如表2 - 2 。 表2 - 2 格式信息块结构 属性名称字节数作用 i i )4 f m t ,标识 s i z e4 1 6 或1 8 ,1 8 表示块后有附加信息 f o r m a t t a g 2 编码方式标识,一般为o x 0 0 0 1 c h a n n e l s2 声道数目,1 单声道;2 双声道 北京邮电大学硕士研究生论文 s a m p le s p e r s e c4 采样频率,每秒钟采样点个数 a v g b y t e s p e r s e c 4 每秒采样存储所需字节数 b l o c k a li g n 2 每个采样所需字节数 b i t s p e r s a m p l e 2 每个采样所需b i t 数 e x t r a i n f o 2 附加信息,通过s i z e 判断有无 结构定义如下: f a c tc h u n k 是可选字段,一般当w a v 文件由某些软件转化而成,则包含该 块。f a c tc h u n k 块结构如表2 - 3 。 表2 - 3f a c t 块结构 属性名称字节数作用 i d4 f a c t ,标识 s i z e4 数值为4 d a t a4 附加数据 结构定义如下: 数据块保存了音频文件数据,以d a t a 作为该块的标识。然后是数据块的大 小。数据块结构如表2 - 4 。 北京邮电大学硕士研究生论文 表2 4 数据块结构 属性名称 字节数作用 i d4 d a t a 。标识 s i z e4 音频数据大小 d a t a 音频数据 数据块头结构定义如下: 音频数据的存储格式分为单声道和双声道两种存储模式,在格式块中指定了 数据的声道数,采样频率和采样位数。根据单声道和双声道的不同,w a y 的存储 格式如表2 - 5 。 表2 - 5 单声道和双声道采样存储方式 采样1采样2采样3采样4 单声道 声道0声道0声道0声道0 采样1 采样2 双声道 左声道右声道左声道右声道 2 2 音频特征参数提取 2 2 1 音频时域特征提取 ( 1 ) 短时能量的提取 短时能量是常用音频特征参数之一n 明,是音频信号最直观的表示,短时能量 的特征基于音频信号幅度随时间有相当变化这一现象,表示采集到的音频信号音 量的大小。可以用于区分声音和静音片段或者用于音频端点检测。 短时能量它被定义为一段音频信号中所有采样值的平方和。第f 帧的短时能 量定义为; 其中,表示一帧中音频采样点的个数,瓯表示第刀个采样点的值 ( 2 1 ) 砰 柚 l 蜀 北京邮电大学硕士研究生论文 一般来说,音频信号中某一帧所对应的声音越大,其短时能量的值越大。在 纯语音的环境中,语音的能量要比背景噪声的能量大,背景噪声对应的短时能量 较小,接近于0 。由此可以对语音和背景噪音进行一定的分类。如图2 - 1 所示。 尊- 谤: 一 i 图2 1 短时能量波形图 ( 2 ) 短时过零率的提取 过零表示音频信号幅度从正值过渡到负值,或从负值过渡到正值经过零点。 首先,对音频信号进行分帧处理对每一帧统计音频信号的过零次数,这个过零 的次数表示音频信号的短时过零率( c r o s sz e r or a t i o ) 。 语音信号短时过零率的定义是: 础= s g n ( s 。) - s g n ( s , , _ ,) | ( 2 2 ) 其中,n 表示一帧中音频采样点的个数,鼠表示第n 个采样点的值,s g n 是 符号函数: g n s g n ( x ) :j 1 x ( 刀) o ( 2 3 ) 2 1 一lx :刀; ,n 表示帧长。对他,而,h 作n 点傅里叶变换( f f t ) ,将时域信号转化为频域分量。 步骤3 :将线性频标转化为m e l 频标。转化方法是将频域信号首先用m e l 尺 度变换到m e l 域,然后通过一系列三角滤波器,即m e l 带通滤波器进行滤波,并 将每个滤波器频带内的能量进行叠加,得到该滤波器的输出功率谱。三角滤波器 北京邮电大学硕士研究生论文 的中心频率间隔特点是在1 0 0 0 h z 以下为线性分布,1 0 0 0 h z 以上为等比数列分布。 三角滤波器的输出则为: 耻。羡静+ 。凳。糕五 亿 其中,r 为第i 个滤波器的输出。 步骤4 :将每个滤波器的输出功率谱取对数,得到相应的对数功率谱,并进 行反离散余弦变换( d c t ) ,最后,得到m f c c 系数。 m f c c 特征在处理与语音相关的特征分析的时候具有相当优越的效果,在本论 文中我们提取1 6 维m f c c 参数来描述音频特征信息。 2 3 音频特征集构建 在建立音频分类模型时,我们首先需要提取音频的特征,形成音频特征向量。 然后通过分类模型的构造方法,找到一组参数,这组参数可以唯一决定一个函数 式,使得函数式对于所有的训练音频特征向量的输入都可以得到该特征向量所对 应音频的类别信息,从而达到分类模型训练的目的。一方面,我们需要选择恰当 的音频特征参数,使其能够充分表征各种类型的音频类型;另一方面,我们需要 降低选择恰当的方法来降低特征维数。特征维数过高会提高训练以及测试的复杂 度,而且大量冗余信息的存在会影响音频分类效果。如果简单的丢弃一部分音频 特征,显然会导致音频特征的缺失,破坏音频特征信息的完整性。那么,如何找 到一种有效的方法,保留特征向量中最有效,最重要的成分,舍去冗余的、包含 信息量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年反射疗法师大赛理论考试彩蛋押题参考答案详解
- 民生银行成都市双流区2025秋招笔试专业知识题专练及答案
- 兴业银行唐山市路南区2025秋招信息科技岗笔试题及答案
- 农发行安庆市太湖县2025秋招笔试性格测试题专练及答案
- 农发行永州市零陵区2025秋招数据分析师笔试题及答案
- 2025年贵州铜仁市思南县事业单位招聘114人方案笔试模拟试题及答案详解1套
- 兴业银行广州市荔湾区2025秋招结构化面试经典题及参考答案
- 驾驶校车考试题目及答案
- 嘉兴二模考试题及答案
- 家政保洁考试题目及答案
- 2025鄂尔多斯市国源矿业开发有限责任公司社会招聘75人笔试参考题库附带答案详解
- 2025年解除租赁合同协议书
- 工业废水零排放技术解决方案创新创业项目商业计划书
- 黄冈市2025年高三年级9月调研考试(一模)生物试卷(含答案)
- 人工搬运培训课件
- 2025年哈尔滨投资集团有限责任公司校园招聘笔试备考题库含答案详解(精练)
- DB4406∕T 47-2024 养老机构安全风险管理规范
- 城乡垃圾压缩站建设施工组织设计方案
- 安徽省合肥市六校联考2025-2026年高三上学期开学考试语文试卷(含答案)
- 2025年北京市中考英语真题卷含答案解析
- (2025年标准)课时合同转让协议书
评论
0/150
提交评论