集成学习算法理论研究.docx_第1页
集成学习算法理论研究.docx_第2页
集成学习算法理论研究.docx_第3页
集成学习算法理论研究.docx_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集成学习算法理论研究 【摘要】集成学习的核心思想就是集成多个基学习器,并组合它们的预测结果,以形成最终的结论。目前对集成学习没有明确的分类。数据集通常由特征向量构成,其中每个特征向量都使用一个特征集合对一个对象进行描述。 【关键词】集成学习 基学习器 Adaboost Bagging 基学习器:通常是指预测模型,机器学习的任务就是在一个数据集上,构建或发现相应的结构模型,如一个决策树,一个神经网络,一个支持向量机等。从数据生成模型的过程称为学习或训练,通常由一个学习算法完成(accomplish)。学习模型又可以称为假设,在本论文中也称为一个基学习器。学习算法的设置多种多样,通常分为监督学习算法与非监督学习算法。监督学习算法的目标是预测未知类标签实例的所属类,通过学习得到的模型称为一个预测器。 基学习器的学习:其主要任务模式识别与数据挖掘,及从数据集上构建出好的学习模型。学习过程形式化定义如下 记X表示实例空间,D是X的分布函数,f是正确的(gronud- truth)目标函数。给定数据集D=(x1,y1),(x2,y2),(xm,ym),且yi=f(xi)其中实例xi独立同分布,以分类作为示例,其目标是构建一个基学习器,实现泛化误差最小化,即err(h)=Ex-Dh(x)f(x)。 一、典型的基学习器算法 (一)线性辨别分析 一个线性辨别基学习器由权值 ,a与偏移值b构成。给定实例x,依据下式得到预测类标签y,即y=sign(w.x+b)。线性辨别分析的分类过程分两步。第一步,通过权值向量,将实例空间映射到一维空间(即线性空间),线上的点用于区分正类与负类。 (二)决策树 决策树通常是迭代式学习算法,迭代的每一步,将给出一个数据集,选择一个分裂点,在用该分裂点将数据集划分成子集,将每一个子集作为下一次迭代所要用的一个数据集。决策数算法的关键是如何选择分裂点。著名的决策树算法ID3(Quinlan,1998),C4.5(Quinlan,1993),CART(Breiman et al.,1984)等。 (三)神经网络 神经网络也称人工神经网络,源于对生物神经网络的模拟。神经网络的功能由神经元模型,网络结构与学习算法共同决定。神经元也称为单元,是神经网络的基本计算组件。最流行的神经元模型是Mccullochpitts模型(M-P模型),在此模型中,首先用输入信号与对应的连接权值相乘,然后汇集信号,并与阈值(神经元的偏移值)相比较。如果汇集的信号大于阈值,则该神经元将被激活,最后通过激活函数(也称为传输函数或压缩函数)生产输出信号。 (四)朴素贝叶斯公式 朴素贝叶斯公式是实现测试实例分类方法的概率模型,对不同y的后验概率P(yx)进行估计,用最大的后验概率值作为最终的预测结果,即最大后验概率规则(MAP)。 (五)k-近邻算法(knn) Knn算法所依赖的准则是:如果对象在输入空间中是相似的,则在输出空间中对象也是相似的。该算法属于懒惰学习方式,因为它没有明确的训练过程,而只是简单的存储训练集。对于一个测试实例,knn算法鉴定出与该测试实例最近的k个实例。对于分类,测试实例将被归类于k个实例的多数类。在回归分析中,测试实例将被赋予k个实例的平均值。 (六)支持向量机 支持向量机(SVMs)(Cristianini and shawe-Taylor,2000)是最大间隔基学习器,即用最大间隔超平面划分不同类的实例。最初设计出的SVM被用于解决二分类问题,间隔定义成不同类实例到分类超平面之间的最小距离。 二、对基学习器的评估 通常情况下,我们有多个备用的学习算法可供选择,并且有一些参数可供调整。选择最好的算法,并设置对应的参数,称为模型选择,为此我们需要估计基学习器的性能。通过实证的方式评估基学习器的性能时,通常需要设计实验,统计假设检验与模型比较。 三、典型集成学习算法 (一)Boosting 集成学习算法 Boosting指的是一系列算法,这些算法能够将弱学习器提升成强学习器。直观地说,弱学习器的性能仅略好于随机猜测,而强学习器却近于有完美的性能,几乎可以完全正确的处理所有样本实例。Boosting算法源于回答kearn与valiant所提出的一个有趣理论问题(1989),即能够被弱学习器解决的问题问题与能够被强学习器解决的问题是否等同。该问题很重要,因为如果答案是肯定的,则表明弱学习器都能够潜在的被提升成一个强学习器,而在现实应用中,同获取强学习器相比,获取弱学习器相对容易得多。Schapire(1990)证明,该问题的答案是肯定的,证明的过程就是构建的过程,即boosting过程。因此,称boosting算法是当今机器学习领域中,最重要的集成算法之一。 (二)Adaboost 集成学习算法 AdaBoost是最流行的boosting 算法。AdaBoost产生一组基学习器,并通过权值多数投票法整合基学习器所预测的结果。通过训练学习算法产生基学习器,更新训练数据集的分布,使用的训练实例取自于被反复迭代更新分部的。更新训练数据集的分布,通过随机抽取样本实例,训练学习算法产生基学习器。更新数据集的分布能够确保,被前一个基学习器误分类的实例,能够最大可能的被放到下一个基学习器的训练子集中。随着对基学习器的训练,所用的样本实例趋向于增加难于分类的样本实例。 (三)Bagging集成学习算法 Bagging主要由两个关键要素:引导(bootstrap)与聚集(aggregation)组成。bagging算法简单明了,易于实现,并且性能特别好。Bagging 算法采用bootstrap可重复抽样的方式生成多样化的基学习器。换句话说,该算法应用bootstrap采样法(Efron and Tibshi- Rani,1993)从整个数据集中随机抽取数据子集,再用这些数据子集训练基学习器,最后用多数投票法整合基学习器所得结果,输出结论。具体而言,给定一个包含m个训练样本的数据集,通过可替换采样方式生成新的m个训练样本。一些原始的样本在新数据集中会出现多次,而另外一些原始的样本将不会出现一次。将该过程运行T次,便可以获得m个训练样本。然后应用基学习器算法,在各个样本上训练基学习器,最后整合所得结果,测试期间,针对特定的样本实例,采用大多数基学习器的投票结果作为所属的类。 (四)随机森林集成学习算法 随机森林(RF)(Breiman,2001)是一种具有代表性的流行集成算法。RF是bagging算法的扩展与变种,由决策树构建而成。似于bagging算法,RF的参数,可由训练数据集的bootstrapped 复制得到,这些参数也可以是不同的特征子集,这类似于随机子空间方法。与bagging的最大不同点在于RF融入了随机化的特征选择。构建决策树组件期间,在每一步的分裂选择中,RF首先随机选择一个特征子集,然后在选出的特征子集上,执行常规的分裂选择程序。 (五)VR-树集成学习算法 RF在各个节点上通过选择一个特征子集,生成随机决策树,而在选中的特征子集范围内的分裂选择仍是确定的。VR-树集成算法通过随机化特征选择过程与分裂选择过程,生成随机决策树。VR-树集成算法的基学习器是VR-树。在树的各个节点上,投掷硬币,正面朝上的概率是 。如果投掷结果是正面朝上,则构建一个确定的节点,即采用传统的决策树方式,从所有可能的分裂节点中,选出最好的分裂节点。否则,构建一个随机节点,即随机选择一个特征,然后在此特征上,随机选择一个节点进行分裂。 (六)层叠泛化集成学习算法 层叠泛化算法简称stacking。与bagging与 boosting算法不同的是,stacking可能(或在正常情况下)集成不同类型的学习模型。 该算法总体过程如此下所示: (1)将训练集拆分成两个不相交的训练集。 (2)在第一个训练集上训练几个基学习器。 (3)在第二个训练集上测试所训练的基学习模型。 (4)将步骤3的预测作为输入,对响应的修正作为输出,训练高层次的学习模型。 注意,步骤1-3与交叉验证一样,但不用赢家通吃的方式,基学习器的集成可能采用非线性的方式。 四、小结 本文对集成学习算法理论进行了研究,给出了集成学习的基本概念,典型的基学习器算法与经典的集成学习算法。 参考文献: 刘培,杜培军,谭琨等.一种基于集成学习和特征融合的遥感影像分类新方法J.红外与毫米波学报,2014,(3). 唐伟,周志华.基于Bagging的选择性聚类集成J.软件学报,2005,(4). 邵珠宏,欧阳军林,廖帆等.基于局部特征和集成学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论