音频分类总结(算法综述)_第1页
音频分类总结(算法综述)_第2页
音频分类总结(算法综述)_第3页
音频分类总结(算法综述)_第4页
全文预览已结束

音频分类总结(算法综述).docx 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

总结音频分类的算法总结音频分类的算法 刚开始对音频分割还有特征提取有些自己的想法 感觉应该能够分清楚 但是当开始查阅文献的时候 发现对他们两个的概念越来越模糊 很多时候他 们是重叠的 后来我在一篇文献里找到这句话 觉得应该是这个道理 音频数据的分类是一个模式识别的问题 它包括两个基本方面 特征选择 和分类 音频分割是在音频分类的基础上从音频流中提取出不同的音频类别 也就 是说在时间轴上对音频流按类别进行划分 分类是分割的前提和基础 对音频 流的准确分割是最终的目的 于是我找了一下比较典型的分类算法 比较典型的音频分类算法包括最小距离方法 支持向量机 神经网络 决 策树方法和隐马尔可夫模型方法等 1 最小距离法 最小距离法 典型的音频分类算法典型的音频分类算法 最小距离分类法的优点是概念直观 方法简单 有利于建立多维空间分类 方法的几何概念 在音频分类中应用的最小距离分类法有k近邻 k Nearest Neighbor 简称K NN 方法和最近特征线方法 Nearest Feature 简称NFL 等 k近邻方法的思想是根据未知样本X最近邻的k个样本点的类别来确定X的类 别 为此 需要计算X与所有样本x 的距离d x x 并且从中选出最小的k 个样本作为近邻样本集合KNN 计算其中所有属于类别Wj的距离之和 并且按照 以下判别规则进行分类 其中 C为类别集合 argminC x d x xi 1 CWWn 由于k近邻方法利用了更多的样本信息确定它的类别 k取大一些有利于减 少噪声的影响 但是由于k近邻方法中需要计算所有样本的距离 因此当样本数 目非常大的时候 计算量就相当可观 取k l时 k近邻方法就退化为最近邻方 法 最近特征线方法是从每一类的样本子空间中选取一些原型 Prototype 特征 点 这些特征点的两两连线称为特征线 Feature Line 这些特征线的集合用 来表示原先每一类的样本子空间 设类C的原型特征点集合 其中Nc为类C的原型 特征点数目 则对应的特征线的数目为 而类C的特征线集 合 Sc i jl构成类C的特征线空间 它是类C的特 1 cc ijc XXi jNij 征子空间 般所选取的原型特征点的数目比较少 因此特征线的数目也比较 少 未知样本X与特征线的距离定义为x在上的投影距离 如图4 cc ij XX cc ij XX 所示 而X与类别C的距离为X与类C的特征线空间中的所有特征线的最短距离 2 神经网络 神经网络 Neural Network 在使用神经网络进行音频分类时 可以令输入层的节点与音频的特征向量 相对应 而输出层的节点对应于类别Ci 如图5所示 在训练时 通过对训练 样本集中的样本进行反复学习来调节网络 从而使全局误差函数取得最小值 这样 就可以期望该网络能够对新输入的待分类样本T输出正确的分类Ci 3 支持向量机 支持向量机 support Vector Machine 简称为 简称为 SVM 支持向量机是Vapnik等人提出的以结构风险最小化原理 Stuctural Risk Minimization Principle 为基础的分类方法 该方法最初来自于对二值分类问 题的处理 其机理是在样本空间中寻找 个将训练集中的正例和反例两类样本 点分割开来的分类超平面 并取得最大边缘 正样本与负样本到超平面的最小距 离 如图6所示 该方法根据核空间理论将低维的输入空间数据通过某种非线 性函数 即核函数 映射到 个高维空间中 并且线性判决只需要在高维空间中 进行内积运算 从而解决了线性不可分的分类问题 根据不同的分类问题 可以选用不同的核函数 常用的核函数有三种 项式核函数 径向基核函数 Sigmoid核函数 SVM训练算法主要有三类 二次规划算法 分解算法 增量算法 4 决策树方法 决策树方法 决策树是一种结构简单 搜索效率高的分类器 这类方法以信息论为基础 对大量的实例选择重要的特征建立决策树 如图7所示 最优决策树的构造是一个NP完全 NP Comepleteness 问题 其设计原则可 以形式化地表示为其中T为特定的决策树结构 F和d分别为分枝 结点的特征子集和决策规则 D为所有的训练数据 为在数据 集合D上选取特征集合F和决策规则d训练得到的结构为T的决策树的分类错误 的条件概率 因此 决策树的构造过程可以分为三个问题 选取合适的结构 为分枝结点选取合适的特征子集和决策规则 常用的决策树构造方法有非回溯 的贪心 Greedy 算法和梯度上升算法 5 隐马尔可夫模型隐马尔可夫模型 Hidden Markov Model 简 简 HMM 方法 方法 隐马尔可夫模型 HMM 的音频分类性能较好 它的分类对象是语音 speech 音乐 music 以及语音和音乐的混合 speech music 共3类数据 根据极大似 然准则判定它们的类别 最优分类精度可达90 28 HMM本质上是一种双重随机过程的有限状态自动机 stochastic finite state automata 它具有刻画信号的时间统计特性的能力 双重随机过程是指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论