版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
特征选择与稀疏学习-包裹式选择FeatureSelectionandSparseLearning–Wrapper主讲:王丹羽计算机与信息技术学院视觉智能实验室(VisInt)BeijingJiaotong
University特征选择的意义特征选择是一个重要的“数据预处理”(datapreprocessing)过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器,那么,为什么要进行特征选择呢?特征选择的意义特征选择是一个重要的“数据预处理”(datapreprocessing)过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器,那么,为什么要进行特征选择呢?维数灾难问题,这是由于属性过多造成的。若能从中选择出重要的特征,则能缓解该问题。随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降特征选择的意义特征选择是一个重要的“数据预处理”(datapreprocessing)过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器,那么,为什么要进行特征选择呢?维数灾难问题,这是由于属性过多造成的。若能从中选择出重要的特征,则能缓解该问题。去除不相关特征往往会降低学习任务的难度。特征选择的意义在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可的问题,有时候可能不知道如果想要让当前的模型效果更好,到底是应该加还是减掉一些特征,加又是加哪些,减又是减哪些。包裹式选择意义包裹式特征选择,目的就是为给定学习器选择最有利于其性能,量身定做的特征子集。包裹式选择,直接把最终将要使用的学习器的性能作为特征子集的评价准则。包裹式选择递归特征消除递归特征消除(RecursiveFeatureElimination)使用一个基模型(学习器)来进行多轮训练,每轮训练后移除若干特征,再基于新的特征集进行下一轮训练。对特征含有权重的预测模型,RFE通过递归减少待考察特征集规模来选择特征。RFE的稳定性很大程度上取决于迭代时,底层使用的预测模型。包裹式选择递归特征消除步骤:
首先,预测模型在原始特征集上进行训练,通过coef_(回归系数)
属性或feature_importances_属性为每个特征指定一个权重;然后,剔除那些权重绝对值较小的特征;如此循环,直到剩余的特征数量达到所需的特征数量。包裹式选择递归特征消除递归特征消除还有一些改进方法如RFECV方法,该方法通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的特征集合,它的所有子集的个数是2^d−1。举个例子,假设特征集为{A,B,C},那么其所有特征子集为{A}、{B}、{C}、{A,B}、{A,C}、{B,C}、{A,B,C}。包裹式选择LVW(LasVegasWrapper)拉斯维加斯算法(LasVegas)是一种随机算法思想,它具备随机算法最为重要的特征之一——基于随机数进行求解。拉斯维加斯算法在生成随机值的环节中,会不断的进行尝试,不断地返回没有找到结果从而继续;或者返回合法的结果并结束。在这过程中,每进行一次随机运算都会提高下一次得到解的概率,但拉斯维加斯算法的时间效率通常比蒙特卡洛算法来的低,在规定时间内还可能无法得到解。优点是一旦该算法找到一个解,那么这个解一定是问题的正确解。包裹式选择LVW(LasVegasWrapper)蒙特卡洛算法也不是一种具体的算法,而是一类算法的统称。
其基本思想是基于随机事件出现的概率。蒙特卡洛算法得到的最终结果并不一定是正确的,我们可以通过计算算法出错的概率值,然后进行多次求解,使得最终得到正确结果的可能性变得很高。
由于求解次数人为设定,所以该算法耗时可控。最终结果不一定是最优解,但如果求解次数足够大,也可以得到最优解。包裹式选择LVW(LasVegasWrapper)LVW是一个典型的包裹式特征选择方法,它在拉斯维加斯(LasVegasmethod)框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。包裹式选择LVW(LasVegasWrapper)方法步骤:包裹式选择意义优点与缺点:包裹式选择方法直接针对给定学习器进行优化,因此,从最终学习器性能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人力管理制度包括什么方面(3篇)
- 传播嘉兴活动策划方案(3篇)
- 充气电锤施工方案(3篇)
- 公路施工机械维修管理制度(3篇)
- 减肥论坛活动策划方案(3篇)
- 医疗产品卫生管理制度内容(3篇)
- 卷材固化施工方案(3篇)
- 品质公园活动策划方案(3篇)
- 国企大楼物业保洁管理制度(3篇)
- 基建考核程序管理制度(3篇)
- 2025年及未来5年市场数据中国新型肥料行业发展前景预测及投资战略数据分析研究报告
- 《军事理论》-第五章 信息化装备
- 农网考评员考试题及答案
- 煤矿开采合规性自查报告
- 2026年中级注册安全工程师之安全生产法及相关法律知识考试题库500道附答案【能力提升】
- 旅游美学课件
- 地质灾害治理工程监理安全管理制度
- 圆弧夹芯板施工方案
- 垃圾填埋操作工技师考试试卷与答案
- 《法律职业伦理(第3版)》全套教学课件
- 2025至2030军工新材料行业发展趋势分析与未来投资战略咨询研究报告
评论
0/150
提交评论