付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征技术与数据技术的集成学习研究
自20世纪90年代以来,一体化学习对机械学习研究者产生了极大的兴趣。一体化学习很快成为机械学习的研究热点之一,并在挖掘、识别特征、文本分类、预测等方面得到了应用。目前,文献中有许多集成学习算法,大致可分为在线或附加集成算法、软集成学习算法、采用不同技术筛选模型的集成算法、抗噪声能力的综合算法和小型数据集的综合学习算法。事实上,研究人员继续研究一体化学习和各种融合方法的差异。在这项工作中,我们主要研究基于资源集和数据技术的集成学习方法。资源集技术是一种基于特定策略选择资源集的不同方法。在这种方法中,有许多不同的方法可以选择资源集,如使用枚举法或资源集,并使用遗传算法法选择资源集。基于数据技术,不同的训练数据由随机方法选择,这些训练数据生成纳入其中的个体。为了通过随机选择数据方法来获得集成个体之间的差异,有必要根据不同的策略选择资源集。1基于adabsost的学习算法基于数据的集成主要使用随机取样的方法获取训练数据,它是集成学习算法获取个体差异性经常使用的方法,包括有放回随机取样、无放回随机取样与混合取样(包括无放回随机取样与有放回随机取样)3种.较典型的方法是Bagging与Adaboost.Bagging是由Breiman提出的一种集成学习方法,通过采用有放回随机取样技术(Bootstrap取样)获取训练集,然后使用该数据集生成集成学习中的个体.在这种方法中,集成个体间的差异性是通过Bootstrap重取样技术获得的,或者说它是通过训练数据的随机性及独立性来提供集成中个体的差异性.该方法主要用于不稳定(不稳定是指当训练集中数据有微小的变化时,则会导致模型有很大的变化)的学习算法,例如神经网络和决策树.为了减少个体所产生的方差,通过对这些个体的预测值投票,从而减少了泛化误差.对于稳定的学习算法,例如朴素贝叶斯方法,Bagging集成并不能减少误差.Boosting方法是一类集成学习算法的总称,它有许多变种,AdaBoost是较流行的方法.通过直接引导难以分类的数据以生成集成的差异性.在这种算法中,假设学习算法能够处理加权实例,若学习算法不能直接处理加权实例,则按照权分布对训练集取样以产生新的训练集.AdaBoost对训练实例的权进行维护,并且在第i次迭代中,通过最小化训练集的加权误差来训练分类器Ci,然后使用分类器Ci的加权误差更新训练实例上的权分布,这样使得错分实例的权值增加,而正确分类实例的权值减少,在训练下一个分类器时,则使用更新后实例的权值分布,并重复此过程.在训练完成之后,使用个体分类器的加权投票融合方法∑iwiCi(x)∑iwiCi(x)进行决策.当数据量不足或有大量的分类噪声(即具有不正确的类标号的训练实例)时,这种学习算法的性能有所下降.2特征集的构造特征集方法是用来提高集成个体差异性的另一类方法,通过提取不同的特征子集来训练集成中的个体.为了提高集成个体的差异性,通常采取不同的技术获取这组特征子集.最直接的方法就是在大小为n的特征集合中,求出所有的特征子集,然后在其中选取所需要的特征子集集合.但由于由特征子集所构成的搜索空间由2n种可能状态构成,显然,即使在特征数目不高的情况下,搜索空间也是庞大的.在实际应用中,这种穷尽式搜索是不可行的,因此,研究者们致力于用启发式搜索算法寻找特征子集集合.如Ho提出的随机子空间方法.在这种方法中,随机选择特征子集,并分配给学习算法,然后在这个子空间中生成分类器,最后根据分类器的正确率使用加权投票方法进行集成.Guerra-Salcedo与Whitley合作使用遗传算法的搜索过程产生集成成员或集成个体.另外,Tumer与Oza提出了ID(InputDecimation)方法.这种方法目的是减少集成成员产生错误的相关性,通过使用不同的特征子集训练集成中的成员.这种方法与随机子空间方法是不同的,因为对于每一类,要明显地计算每个特征与类的输出间的相关性,并且仅在特征最相关的子集上训练集成成员.Xu等、Park等与Breukelenvan等也研究了基于特征集的集成学习方法,并提出了划分特征集的方法,并在每一个子集上构造集成中的成员.综上所述,对于上面的这些集成学习方法可以概括为如下的集成学习框架:1)选取不同的特征集以构成特征集的集合;2)使用这组特征集集合生成集成中的个体;3)选取一种融合方法对个体结论融合.在下面的实验研究中,分别使用了不同的获取特征集的方法,评价函数为信息增益(IG)、增益率(GR)与主成分(PC)函数.3实验与研究3.1数据集的组成为了验证基于特征集与数据技术的集成学习算法的性能,在10个数据集对集成学习算法Bagging,Adaboost,Attribute-Selection进行了实验研究,这些数据集的具体特性见表1所示.实验中集成学习算法的基模型分别为神经网络与决策树,学习算法分别为BP与C4.5.神经网络的结构除了含有输入层与输出层外,另外选择了含有10个节点的单隐层,BP算法中其他参数的设置(例如学习率等)采用了Weka系统中的默认值.实验过程分为2组:一组是基于数据的集成学习,例如Bagging与Adaboost算法;另一组是基于特征集的集成学习,例如搜索特征集时采取不同的评价函数可得到不同的特征子集集合,实验研究中的评价函数为信息增益(IG)、增益率(GR)与主成分(PC)评价函数.3.2基于特征集的集成学习实验中使用了十重交叉验证方法,实验结果如图1与图2所示.由图1看到,在大多数数据集上集成算法Bagging与Adaboost.M1的泛化性能相当.从总体上讲,基于属性选择的集成算法的泛化性能要差于Bagging、Adaboost.M1,尤其是使用决策树作为基模型的集成学习效果更差.出现这种情况的主要原因是选取的特征数目少从而导致集成个体间的差异性减少,因此集成学习的性能较差.由图2知,基于不同评价函数获得的特征集的集成学习算法的性能是不同的,它们依赖数据集的特性等因素,比如数据集的规模、数据集中属性的个数.总之,当数据集的规模较大,而数据的维数较低时,集成的效果比较明显.因此,对于使用不同特征集生成差异性的方法是需进一步研究的问题.实际上,可以通过采用不同搜索策略、不同评价函数等因素获取这些特征集,进而进一步增加集成个体的差异性.4数据技术的集成学习算法差异性是集成学习算法提高性能的一个重要因素,可以说没有差异性就没有提高.本文从差异性出发,分析研究了基于特征技术与数据技术的集成学习算法,及这些集成学习算法产生差异性的方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 万科建筑设计师招聘面试全攻略
- 兴蓉环境行政工作的质量管理体系建设
- 高科技企业招聘工程人员的面试攻略
- 房地产企业财务风险控制方法
- 攻略在手应聘无忧-全方位解读中通速递招聘过程
- 橱柜套餐话术精要
- 汽车行业供应链审计要点解析
- 苏宁易购电商运营岗位面试全解析
- 基于用户体验的市场研究方法和产品设计面试技巧参考手册
- 三年(2023-2025)内蒙古中考语文真题分类汇编:专题09 非文学文本阅读(原卷版)
- 人教版8下物理10.4 跨学科实践:制作微型密度计(分层作业)【解析版】
- 2025年苏州工业职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年江西省高职单招文化统一考试真题及答案(网络版)
- 人教版五年级数学下册典型例题期中复习·终极压轴版(原卷版+解析)
- 学校教室护眼灯投标方案
- 畜禽舍建筑设计指南
- 第二节 物质的密度(教学设计)2024-2025学年北师大版八年级物理下册
- 人工智能技术基础 课件 第1章 人工智能概述
- 《平凡的世界》中不平凡的人生8600字(论文)
- 机器人售后服务体系
- GB/T 25085.1-2024道路车辆汽车电缆第1部分:术语和设计指南
评论
0/150
提交评论