【《机器学习基础理论综述》2400字】_第1页
【《机器学习基础理论综述》2400字】_第2页
【《机器学习基础理论综述》2400字】_第3页
【《机器学习基础理论综述》2400字】_第4页
【《机器学习基础理论综述》2400字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习基础理论综述目录TOC\o"1-3"\h\u25442机器学习基础理论综述 149701.1机器学习算法 161701.2集成学习 415031.3蚁群算法 41.1机器学习算法机器学习任务按照训练样本数据是否打标签可以分为监督学习(supervisedlearning)和无监督学习(unsupervisedlearning),有标记的训练数据样本通常称为监督学习。在监督学习中,每个样本都是有一个输入对象和一个期望的输出值(标签)组成。例如,回归算法中的“线性回归”就是给定打了标签的数据特征,来试图学得一个线性模型来尽可能准确的预测出真实的输出值。在监督学习的回归算法中常用的是线性回归和逻辑回归算法。监督学习中的分类是指得到一个分类函数或分类模型,来将未知类别的数据对象映射到某个给定的类别中,和回归不同的是分类的预测输出值是离散型类别,而回归是连续型类别。由于离散型数据和连续型数据是可以转换的,所以回归算法和分类算法可以看做同一类的算法。目前常用的分类算法有:线性回归,逻辑回归,决策树,支持向量机,贝叶斯网络等;本问详细阐述决策树,支持向量机,逻辑回归算法的原理知识。1.决策树算法由一系列正式和非正式组的决策树表示的分类规则,递归使用自上而下的方法,并根据不同的属性值将决策树的内部节点与契约的后代进行比较。叶节点属性值在1986年goinlan,并显示ID3算法。基于ID3算法,在1993年的C3.5算法中提出了满足大量数据处理需要的数据,然后提出了各种改进算法,其中圆滑和竞赛两种算法。图2.1显示了一个在商业上使用的树的示例。假设希望购买电子产品计算机的用户可以预测购买特定记录(人)的意图机。<30<3030-40>40noyesexcellentfair年龄?学生?信用等级?NOYESNOYESYES图2.1决策树的例子(一个椭圆框)代表一个类(购买计算机=是或购买计算机=否)预测所拥有的记录类别,并预测客户是否你可以买电脑。ID3算法在规范中选择信息更多的属性,生成结果节点,并设置一个不同值的分支,然后将子集方法的每个分支创建一个分支计划树。C3.5算法ID3算法的C3.5优势:1使用信息获取来指定属性简化帐户;2修剪树建造过程;3可以处理不完整的数据。扫描和排序几次,导致算法效率低下,仅C3.5内存记录,如果存储中的培训集非常大,则无法执行该程序。SLIQ算法光滑算法改进了C3.5决策树分类算法的实现,系统采用了"前"和"广度优先"的策略来解决技术树的构建过程。1)提前要求。常量属性若要在每个内部节点上查找最佳分区条件,则必须按排序属性值对训练集进行排序,这是一个耗时的过程。因此,光滑算法采用了分类技术。以前的分类,对于属性的每个值,所有数据集都以升序排序,以消除树数中每个节点实现的数据排列。2)每个功能列表,这需要花费很多时间。因此,使用圆滑的第一个政策作出决定。3)利用所有这些技术,使算法处理更多的训练一组C3.5算法光滑,并具有良好的可扩展性,作为记录数量的属性在指定的范围内。SPRINT算法为了减少内存中的数据量,算法还竞赛数据树决策树算法改进和删除应存储在光滑内存中的类别列表,并合并每个属性列表中的类别列。几种算法决策树的比较如表2.1所示。表2.1几种决策树算法的比较2.支持向量机算法支持向量机(SupportVectorMachine,SVM)是基于统计学理论发展起来的,在1995年是CorinnaCortes和Vapnik首先提出的[28],其特点是能够同时最小化经验误差和最大化几何边缘,能很好的用于高维数据,从而避免维数灾难。在解决小样本,非线性和高维的二分类和回归问题上有许多优势。支持向量机可以分为支持向量分类机和支持向量回归机。分类机用于研究输入变量与二分类型输出变量的关系与预测,简称支持向量分类(SupportVectorClassification,SVC);支持向量回归机用于研究输入变量与数值型输出变量的关系及预测,简称支持向量回归(SupportVectorRegression,SVR)。本文以支持向量分类为例来详述支持向量机的原理。支持向量分类通常以训练样本集作为数据对象来分析输入变量和二分类输出变量之间的关系,对与训练样本集同分布的新样本的输出变量进行预测。通常解决的是二分类的问题,目的是尽可能的找到两个相互平行且间距最大,可将不同类别的样本点正确分开的边界,位于两边界中间并与之平行的的平面即为分类结果的最终解,也就是所说的最大边界超平面。3.逻辑回归算法逻辑回归(LogisticRegression,LR)是机器学习中一种常见的模型,是线性回归的一种推广形式,是利用sigmoid函数将线性转换成非线性的过程。1.2集成学习集成学习(ensemblelearning)是近些年非常流行的机器学习方法,其本身并不是一个学习算法,而是通过构建并结合若干个学习器来完成学习的任务。集成学习可以用于分类问题集成,回归问题集成,特征选取问题集成,异常点检测问题集成等等。图2-1集成学习框架图图2-1显示了集成学习的实现框架,可以看出集成学习需要解决的问题有两个,一个是如何得到这些个体学习器,一个是选择何种结合策略将个体学习器结合成一个强的学习器。集成学习主要有两种个体学习器(基学习器):一种是整个集成过程用的个体学习器都用的都是同一种算法,如决策树个体学习器,神经网络个体学习器等,称为同质的学习器;另外一种是个体学习器不全属于同一种算法训练出来的,如对于一个分类问题,在训练集时可以同时使用逻辑回归学习器,支持向量机学习器和决策树学习器等,再通过某种策略生成最终的强分类器,这样的个体学习器称为不同质的学习器。现在应用较多的集成学习基学习器是同质的学习器,且使用最广泛的模型使CART决策树和神经网络等。同质基学习器按照学习器之间是否存在强依赖关系可以分为串行生成的学习器和并行生成的学习器。1.3蚁群算法近年来,生态群体智能算法越来越受到研究者的关注,这些群体算法多是用来做优化的,如蚁群算法,模拟退火算法,蜂群算法等。本文根据对各个算法的了解,得出蚁群算法在路径优化方面应用比较好,本文尝试用蚁群算法来优化用户行为数据的训练参数,从而对xgboost算法进行优化。蚁群算法最早是由MarcoDorigo等人在20世纪90年代提出的,他们发现蚂蚁在寻找食物源的时候,能释放一种叫信息素的物质在走

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论