属性约简方法概述_第1页
属性约简方法概述_第2页
属性约简方法概述_第3页
属性约简方法概述_第4页
属性约简方法概述_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——属性约简方法概述属性约简方法概述

属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保存原始数据的特征。属性约简主要是为了解决高维数据计算的繁杂性和确凿性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。

对数据进行属性约简的意义,主要从以下几个方面考虑:

a)从机器学习的角度来看,通过属性约简去除噪音属性是十分有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算繁杂度,减少计算时间;

c)假使不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;

d)当用较多的特征来描述数据时,数据均值表现得更加相像,难以区分。为了描述属性约简方法,这里假设数据集合为D,D={x1,x2….xn},xi表示D中第i个实例,1≤i≤n,n为总的实例个数。每个实例包含p个属性{|xi|=p}。从机器学习的角度来看,属性约简方法可以分为监视的和非监视的两类。下面是几种常用的方法。

(1)PCA主成分分析

主成分概念是Karlparson于1901年最先引进。1933年,Hotelling把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的繁杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。

主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。

定义4-1[44]:设X?(X1,X2,...,Xp)'为p维随机向量,它的第i主成分分量可表示Yi?ui'X,i=1,2,…,p。其中ui是正交阵U的第i列向量。并且满足:

Y1是X1,X2,...,Xp的线性组合中方差最大者;

(k=2,3,…p)。Yk是与Y1,...Yk?1不相关的X1,X2,...,Xp的线性组合中方差最大。

定义4-2[45]:设?是随机向量X?(X1,X2,...,Xp)'的协方差矩阵,其特征值-特征向量对(?1,e1),(?2,e2),...(?p,ep),其中?1??2?...??p?0。则第i个主成分为:

Yi?ei'X?1eXi=1,2,…p….式X?2X?...?ipepi1ie2(4-1)

且var(Yi)?ei'?ei??ii=1,2,…p;cov(Yi,Yj)?ei'?ej?0i?j。定义4-3[45]:设随机向量X?(X1,X2,...,Xp)'有协方差矩阵?,其特征值-特征向量对(?1,e1),(?2,e2),...(?p,ep),其中?1??2?...??p?0,Yi是主成分,则

?11??22pp?...?pp??var(Xi)???1?...2??p??var(Yi)………….式(4-2)

i?1i?1定义4-3说明主成分向量的协方差阵?为对角矩阵?。总体信息量可以用特征值来衡量,相应的特征值反映的是对应主成分的信息量。进而可以计算每个主成分的贡献率。

定义4-4[44]:记

?k??i?ip1为第k主成分的贡献率,i?pi?i????ki为前k个主成分的累

ii积贡献率。

主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保存低阶主成分,忽略高阶主成分做到的。主成分描述了数据的可变性,通过它可以模拟原始数据。主成分分析作为最重要的多元统计方法之一,在经济社会、企业管理、工业控制、模式识别等各领域有极其广泛的应用。

(2)监视条件下的维规约方法(Chi-Square检测,信息增益,增益率)监视的维规约方法主要用来分辩属性值预计类标识的能力。设考察的属性为V,V有p个取值V={V1,V2……Vp},数据集有z个类,用C={C1,C2……Cz}表示。nri是指当属性V的值为Vr时,类为Ci的个数,uri是指当数据为均匀分布此属性值时期望的类的数目,1≤r≤p,1≤i≤z。属性V的取值分布见表4-1。

表4-1属性V取值分布表

Table4-1ValueDistributionTableofAttributeV

类标识属性值V1……Vr(1≤r≤p)……VpC1n11(u11)……nr1(ur1)……np1(up1)n’1……Cin1i(u1i)……nri(uri)……npi(upi)n’i……Czn1z(u1z)……nrz(urz)……npz(upz)n’z个数n1……nr……npna)Chi-Square检测

卡方检验是一种假设检验方法,它在分类资料统计推断中的应用,包括:两个概率或两个构成比比较的卡方检验;多个概率或多个构成比比较的卡方检验以及分类资料的相关分析等,它引入了一个听从卡方分布的评分准则。在数据集合D上,特征f和类c的相关性评分公式如下:

?2(D,c,f)???i?1j?1pz?nij?uij?uij2……………式(4-3)

从本质上来看,卡方分布是对数据集的实际属性值类别数目与期望中的属性和类无关时的类别数目区别的评分。

b)信息增益(IG)

息增益(informationgain)是指期望信息或者信息熵的有效减少量。从数据分类的角度看,根据它能够确定在什么样的层次上选择什么样的变量来分类。

信息增益度量了某个特征给训练集带来的信息量大小。它定义为用特征f划分数据集D引起熵的约简。如公式4-4和公式4-5所示。

IG(D,c,f)=H(D,c)-v?values?f?Dpz?DvH?Dv,c?…………式(4-4)

nij2log…………式(4-5)niH表示熵,H(D,c)=-i=1??nij=1nij信息增益越大,说明属性对最终类别的影响越大。在分类问题上,可以选作分类的属性。本文则看作对聚类结果有较大影响的属性,保存起来。

c)增益率(信息增益比,GR)

以信息增益作为属性划分的尺度,倾向于选择值域中含有较多值的属性。从信息论的角度讲,就是倾向于选择更加取值混乱的属性。事实上这种倾向并不一定合理。信息增益率,用f的信息增益除以f的初始信息量来消除这种影响。如公式4-6-公式4-8所示:

GR(D,c,f)=(H(D,c)-H(D|c))/H(D,f).………式(4-6)

H(D|c)=-v?values?f??DvDpH?Dv,c?……………式(4-7)

H?D,f????nrnr……………式(4-8)log2nnr?1增益率方法不仅考虑了属性的值域的大小,而且还考虑了取值的分布。它有如下特点:(1)在值域大小一致时,取值分布越均匀,则H(D,f)越大,即当相应地属性重要性最小;(2)属性在自己值域内各种取值全为均匀分布时,即等概率

分布时,值域越大则H(D,f)越大,相应地属性重要性越小。以上两个特点符合人们对重要属性评判的刻度。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论