【《几种典型的传统机器学习分类方法分析概述》1900字】_第1页
【《几种典型的传统机器学习分类方法分析概述》1900字】_第2页
【《几种典型的传统机器学习分类方法分析概述》1900字】_第3页
【《几种典型的传统机器学习分类方法分析概述》1900字】_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-3"\h\u2283 121435 1398 121183 2自上个世纪五十年代开始,人工智能(ArtificialIntelligence)的这一思想开始出现,而机器学习的出现是人工智能领域发展到成熟时期后的产物。到上世纪80年代末,反向传播(BackPropagation)的出现给机器学习又带来了希望。机器学习(MachineLearning)属于一门多领域的交叉学科,涵盖多种领域,能够通过数据或以往的经验进行算法选择、模型构建、新数据预测,并重新排列已知的知识结构去不断调整和改善自身性能。决策树算法采用的是邻近离散函数值的方式。首先对输入数据预处理,采用归纳算法生成有序可读的规则和决策树,最后对新数据利用决策进行分析计算。从本质上讲决策树的方法是通过一系列规则对输入的数据进行分类。对使用本算法的人要求并不高,只需在事前对数据做好标注,就能把一组无序的事物理成决策树所代表的规则。图2-1表示的是一种树形结构的决策树,图中每一个决策树节点表示一个属性的测试,一个叶节点视为一个类别,有多少个分支就有多少个测试输出。图2-1决策树树形结构示意图Fig.2-1Treestructureofdecisiontreek-近邻算法(k-NearestNeighbor,KNN)是一种监督型学习算法,也是我们常用的最简单的机器学习算法之一,常被研究者们用在分类和回归问题中。所谓k最近邻,就是指k个最近的邻居的意思,每个样本都可以用它最接近的k个邻居来代表。它属于基于实例的学习(Instance-basedLearning),也属于懒惰学习(LazyLearning),即KNN不会显示学习过程,数据集事先已有分类和特征值,接收到新样本后直接进行处理。该算法的具体思路是:一个样本在特征空间中的有k个样本都靠近某个类别,其中k占所有样本的比例最高,那该样本就归属于这个类别。KNN算法中,选取的邻近样本均是已正确分类的样本对象。该方法在确定类别时只依据最相近的一个或者几个的类别来判定。KNN算法中最重要的方面是k值的选取和距离的选取。1.K值得选取十分重要,若K选取的过小,一旦样本存在噪声成分,预测结果在很大程度上会偏离实际值,如果K值选取过大,就相当于采取更大地邻域对训练样本进行预测,学习的近似误差会差很多。在进行k值选取时,我们常采用交叉验证的方法去挑选一个相对小的数值。K的取值尽量要取奇数,以保证在计算结果最后会产生一个较多的类别,若选取偶数则可能会产生相等的情况,不利于预测。1.KNN算法中距离度量的方法与样本的向量表示方法有关联,最常采用的距离度量方法有曼哈顿距离和欧式距离等。曼哈顿距离欧式距离KNN算法作为一种惰性学习算法,使用简单,便于理解,无需建模与训练就可以实现,适合应用于稀有事件。在样本分类时,内存消耗较大,测试样本分类时计算量也大,性能低,可解释性差,与决策树相比无法给出相应的规则。支持向量机(SupportVectorMachine,SVM)是一种建立在学习理论上的分类算法,通过寻找最小结构化风险去加大学习机的泛化能力,尽力缩小经验风险和置信范围,在统计样本比较较少的前提下,同样也能很好地统计样本规律。它最终的目的是采用间隔最大化的方式利用超平面去分割样本,最后化解为求解一个凸二次规划的问题。若样本数据在空间内是线性可分的,给定一个训练集C={(x1,y1),(x2,y2),(x3,y2)(x3,y3),…,(xn,yn)},yi∈{-1,+1},在C的样本空间中找一个超平面,选取间隔最大且能正确划分的超平面,上述这个平面也叫作决策边界。图2-2展示了一种最优超平面,红蓝两类样本被分开并且使两类别间隔达到最大,邻近决策边界的样本点叫做支撑向量,支撑向量距离决策边界的距离l相等,穿过支撑向量且平行于决策边界有两条直线,两条直线距离被称作“间隔”(margin),由定义可得margin=2l。图2-2分割两种类别的最优超平面Fig.2-2Theoptimalhyperplanefordividingtwoclasses在在样本空间中,划分超平面可通过如下线性方程来描述:ω(2-1)式中w为法向量,判定超平面的方向;b是位移量,决定原点与超平面之间的距离。如果认定超平面能正确分类训练样本,对训练样本(xi,yi),应该满足下面的公式:ω(2-2)该公式为最大间隔假设,yi=+1表示样本为正样本,yi=−1表示样本为负样本。实际上该公式等价于:y根据公式推导,式中引入拉格朗日算子去求解最小目标函数,其数学公式可以表示为:s.t(2-3)针对非线性问题,支持向量机不能很好地解决,需要使用非线性模型才能更好地进行分类。需要将训练样本从本来地空间投射到一个更高维的空间,使样本在高维空间内部是线性可分的。x映射的特征向量用∅xf(2-4)于是最小函数:s.t(2-5)为求解出上述方程,在此引入核函数,在实际应用中,人们会根据样本数据的不同,选择不同的参数,根据参数的需要选择不同的核函数。下表列举了一些常用的核函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论