特征选择与稀疏学习-过滤式选择_第1页
特征选择与稀疏学习-过滤式选择_第2页
特征选择与稀疏学习-过滤式选择_第3页
特征选择与稀疏学习-过滤式选择_第4页
特征选择与稀疏学习-过滤式选择_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

特征选择与稀疏学习:过滤式选择Featureselectionandsparselearning:filteredselection主讲:赵泽蕊计算机与信息技术学院视觉智能实验室(VisInt)BeijingJiaotong

University过滤式选择过滤式特征选择:先按照某种规则对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。原理引入某种规则:使用发散性或相关性指标对各个特征进行评分,设定阈值或者欲选择特征的个数,选择分数大于阈值的特征或者选择前K个分数最大的特征。过滤式选择原理引入◎特征的发散性:如果一个特征不发散,例如方差接近于0,也就是说样本在该特征上基本没有差异,那么这个特征对于样本的区分并没有什么用。◎特征与目标的相关性:特征与目标的相关性越高说明特征的变动对目标的影响较大,因此我们应当优先选择与目标相关性高的特征。具体来说,计算每个特征的发散性,移除发散性小于阈值的特征/选择前k个分数最大的特征;计算每个特征与标签的相关性,移除相关性小于阈值的特征/选择前k个分数最大的特征。特点:过滤式特征选择法简单、易于运行、易于理解,通常对于理解数据有较好的效果,但对特征优化、提高模型泛化能力来说效果一般。方差选择法使用方差作为特征评分标准,如果某个特征的取值差异不大,通常认为该特征对区分样本的贡献度不大,因此在构造特征过程中去掉方差小于阈值的特征,或者指定待选择的特征数k,然后选择k个最大方差的特征。注意:方差选择法适用于离散型特征,连续型特征需要须离散化后使用;方差较小的特征很少,方差选择法简单但不好用,一般作为特征选择的预处理步骤,先去掉方差较小的特征,然后使用其他特征选择方法选择特征。基本概念方差选择法实例说明ABY110210310121221321特征A的方差4要大于特征B的方差1.5,但特征A对最终分类结果Y的区分度明显没有特征B好。单看这6条数据,特征A几乎没有办法区分Y是0还是1。因此我们需要明确一个概念,特征值的方差越大不一定对分类结果有更好的区分。关键原因是特征值的方差仅仅只考虑自身的取值,而没有结合最终的分类结果。相关性方法使用统计量卡方检验作为特征评分标准,卡方检验是评价定性自变量对定性因变量相关性的统计量,卡方检验值越大,相关性越强表明特征与预测结果的相关性也越大,同时p值也相应较小,因此我们优先选择卡方值大的特征。需要注意的是,卡方检验适用于分类问题。卡方检验法皮尔森相关系数法使用pearson系数作为特征评分标准,相关系数绝对值越大,相关性越强(相关系数越接近于1或-1时,相关性越强;相关系数越接近于0时,相关性越弱)。特征与预测值的相关系数值越接近-1或1时,特征的变化趋势与预测值的变化趋势具有高度的一致性(反向或同向),也就是说这些特征对预测值产生的影响也越大,因此,我们优先选择相关系数绝对值大的特征。在机器学习中我们一般采用皮尔森相关系数来测量两个序列的线性关系,也就是说皮尔逊相关系数只能检测出线性关系,那么对于分类问题的适用性就远低于回归问题,因此相关系数法常用于回归问题。相关性方法

互信息法互信息法与卡方检验法相同,都是评价定性自变量对定性因变量的相关性。互信息用以计算两个特征或自变量与因变量之间所共有的信息。互信息计算的不是数据序列,而是数据的分布,因此互信息可以用于检测特征间的非线性关系。所以互信息法既可以解决分类问题,也可以解决回归问题。互信息量计算公式:离散随机变量X和Y:连续随机变量X和Y:根据公式可以看出,若X与Y完全独立,则p(X,Y)=p(X)p(Y),I(X,Y)=0。也就是说I(X,Y)越大,则表明X与Y的相关性越大。Relief方法Relief方法是一种为二分类问题设计的过滤式特征选择方法。只需在数据集的采样上而不必在整个数据集上估计相关统计量,其时间开销随采样次数以及原始特征线性增长,是一个运行效率很高的过滤式特征选择算法。设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。指定一个阈值τ,选择比τ大的相关统计量分量所对应的特征;也可指定欲选取的特征个数k,然后选择相关统计分量最大的k个特征。Relief方法1.给定训练集{(x1,y1),(x2,y2),...,(xm,ym)},对每个示例xi,先在xi的同类样本中寻找其最近邻xi,nh,称为猜中近邻near-hit。(选中样本中的一个好瓜,则离此好瓜最近的另一个好瓜则为猜中近邻)2.从xi的异类样本中寻找其最近邻xi,nm,称为猜错近邻near-miss(离第一步选中的好瓜最近的坏瓜则为猜错近邻)3.若xi与其猜中近邻xi,nh在属性j上的距离小于xi与其猜错近邻xi,nm的距离,则说明属性j对区分同类与异类样本是有益的,于是增大属性j所对应的统计量分量,反之xi与其猜中近邻xi,nh在属性j上的距离大于xi与其猜错近邻xi,nm的距离,则说明属性j对区分同类与异类样本起负面作用,于是减小属性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论