第九章特征选择与降维sect9-1单个特征的评价课件

上传人：t*** IP属地：贵州上传时间：2023-07-24 格式：PPT 页数：76 大小：1.44MB 积分：25 举报 版权申诉

已阅读5页，还剩71页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第九章特征选择与降维

§9-1单个特征的评价

在本节中，我们首先介绍几个对于单个特征进行评价的方法。评价每个特征的标准通常是它的分类能力。通过对于各个特征的评价，可以选出那些对于分类最有效的特征，淘汰那些无效的特征。7/23/20231北京邮电大学信息工程学院一.K-W检验

K-W（KruskalandWallis）检验是一种常用的特征选择方法。假定要检验某个特征x对于分类的有效程度,已知一批样品共有N个，这批样品分为m类，第i类包括品，，则检验方法如下：

(1)列出全部样品对应的特征x的取值。

(2)按照x取值从小到大的顺序给每个样品编号。例如，x取值最小的样品编号为1，x取值次小的样品编号为2，等等。

若有几个样品所对应的x值相同，可以对它们随机编号，也可以采用平均也可以采用随机编号的办法。

(3)取每类各样品编号的平均值，分别记作。

(4)计算统计量H，公式为：7/23/20232北京邮电大学信息工程学院

(9.1)

在实用中一般只需比较各特征的H值，H越大时，特征的分类能力越强。例9.1设有N＝10个样品，共分m＝2类，每个样品取4个特征，用K－W检验比较特征的分类能力。原始资料矩阵见表9.1。w1w2X1X2X3X4X5X6X7X8X9X10x10.360.410.200.180.270.540.520.680.490.81x20.100.200.300.402.500.600.700.800.900.50x30.100.320.540.780.910.220.460.620.870.99x40.210.350.360.400.690.610.720.750.840.85特征样品类别表9.1原始矩阵7/23/20233北京邮电大学信息工程学院首先对将各样品按值大小编号，所对应的值最小(0.18)。编号为第1号，编为第2号，全部编号结果列在表9.2的第一行中。于是有表9.2对于各样品的重新编号X1X2X3X4X5X6X7X8X9X10212341067895x313579246810x412346578910特征样品7/23/20234北京邮电大学信息工程学院对于分别有，，。所以特征的分类能力最强，次之，最差。

K-W检验的原理是清楚的。首先，式(9.1)括号中的(N＋1)/2是全体样品编号的均值，而是各类样品编号的均值，因此H实际上相当于特征x对应编号的组间离差。其次，用编号代替特征x的原有取值也是不难理解的。在表9.1中，两类样品所对应的特征的原有取值的平均值都是0.7，即两类均值完全相同。从这一事实来看，应该是一个很坏的特征。但是，用对样品分类时，如果取0.4和0.5之间的某个数，例如0.45作为分界点，被分错的却只有一个点。这又说明这个特征不太坏。那么何以会出现两类均值相同的现象呢？不难看出，这是由于7/23/20235北京邮电大学信息工程学院点的值太大而造成的结果。用编号代替特征则可以排除这种干扰。因为编号只反映特征的大小顺序，而不考虑其数值。二．直方图方法我们仍然考虑例9.1。特征的变化范围在0.1到0.9之间。我们把这一范围分为几个长度为0.1的区间，在每个区间内画出落在该区间内的样品点数与总数之比(f)。这样的图形称为特征值-样品频数直方图。对于每特征分两类做出这样的直方图，其中和的直方图见图9.1。7/23/20236北京邮电大学信息工程学院

图9.1特征值-样品频数直方图ab7/23/20237北京邮电大学信息工程学院

在图9.1中可以看到，在的直方图中两类样品可以比较清楚地分开，而在特征的直方图则有较多的混淆现象。因此，直方图可以作为检验特征分类能力的一种工具。从直方图出发可以构造所谓可接受的运算特征(ROC)曲线。一个一般的直方图如图9.2(a)所示。任意取x轴上一点t作为分界点。第一类样品被判错部分的面积记为α，第二类被判错部分记作β，不断改变t的位置，并将点(α,1-β)画在平面上，便形成图9.2(b)中的ROC曲线。图中的面积A表示特征x的分类能力，A越大，x的分类能力越强。

现在我们来做例9.1中特征的ROC曲线，使t从开始逐渐增加直到，对应的α和β值记在表9.3中，ROC曲线见图9.2(c)。7/23/20238北京邮电大学信息工程学院从直方图出发还可以设计另外的特征选择方法。例如，在图9.1(a)中把两类中互不混淆的部分分别记作和。当有多个特征时，先从中挑选一个使之值最大的特征，并且去掉那些可以用这个特征分开的样品，再从剩下的样品中挑选其他的特征。表9.3特征的ROC曲线计算步骤分界点

t0.10.20.30.40.50.60.70.80.9第一类判错个数α

5542110001.01.00.80.40.20.20.00.00.0第二类判错个数β0000001350.00.00.00.00.00.00.20.61.0图9.2ROC曲线7/23/20239北京邮电大学信息工程学院三．利用不确定性选择特征

不确定性或熵是信息论中的概念。假定要考查某个特征x的分类能力。首先把x的取值范围分为k段，把样品点落到其中第j段的频率记作。又设样品共有m类，把第i类样品点落到第j段的频率记作。然后计算熵：熵越小则x的分类能力越强。(9.2)7/23/202310北京邮电大学信息工程学院例9.2设有40个样品点共分两类，其中某特征x的变化范围在0.20到0.90之间。将这个范围分为两段，所得结果列在表9.4中。

段号j变化范围第1类样品第2类样品样品总数10.20-0.59144180.4520.60-0.90616220.55段号j10.77780.2222-0.3626-2.170220.27270.7273-1.87480.4594表9.4特征x之熵的计算步骤7/23/202311北京邮电大学信息工程学院由表9.4求出A＝0.8089。熵的原理可以用两个极端的例子说明。在上例中，若第一段中只有第一类样品而第二段内只有第二类样品，则最后得到A＝0。另一方面，如果每段内的两类样品数都相等，则最后得到。以上两种情形分别对应于x的分类能力最强和最弱的两种状态。7/23/202312北京邮电大学信息工程学院四．用于有序样品的特征选择方法

有序样品，指那些按照某种次序或位置排列的样品。例如，在研究某个地区的强震弱震规律时，每个样品表示一个“时间段”，其长度通常取1至3年，全部样品可以按照其时间先后次序排列。对于这种样品的聚类称为满足邻接条件的聚类问题。对于用来描述有序样品的各种特征，可以采用以上所介绍的各种方法进行评价和选择。但是，这时还应该考虑特征的“顺序依赖性”。下面我们通过一个例子介绍顺序依赖性的概念，以及利用这种性质进行特征选择的方法。7/23/202313北京邮电大学信息工程学院例9.3假设已知10各样品点，按照下标从小到大的次序排列，x是用描述这些样品点的一个特征，它的取值如表9.5所示。由表9.5可见，x共有3种可能的取值：0，1，2。做出x的直方图，并计算x的每种取值出现的概率，见表9.6。样品号12345678910x取值2100012100编号123x的取值范围012取对应的样品数532取值的出现概率P(i)0.50.30.2表9.5特征x的顺序取值表9.6特征x的取值范围7/23/202314北京邮电大学信息工程学院我们假设把样品点想象为上文中所说的时间段，而把特征x想象为每段时间前的若干年内6.0－6.9级地震的发生次数。根据这种想象，x在不同时间段上的先后取值应该是有联系的，而不能认为是独立的随机变量。由这一假定出发，我们建立描述这种先后联系关系的转移概率矩阵P。P通过以下两步算出：

(1)求矩阵,其中每个元素等于表中上一段x取值编号为i，而下一段x取值编号为j的次数，i，j＝1,2,3。例如,当i＝j＝1时,表示上段时间x取零,而下段时间x也取零的次数。这种情况在表9.5中共发生了三次，即m从3到4，从4变到5和从9变到10，所以，同样，(m从5到6)，，照此计算最后得到矩阵：7/23/202315北京邮电大学信息工程学院

(2)用中每行元素之和去除该行的每个元素，得到转移概率矩阵P：其中每个元素表示特征x从编号i转移到编号j的概率。7/23/202316北京邮电大学信息工程学院

形成转移概率矩阵P以后，便可由此出发首先计算特征编号i的熵或分散程度：如果所有特征编号为i的样品点都具有这样的性质：它们的下一点特征编号相同，例如为j＝1，那么，由于，所以;而由于对j≠1有,所以。这时将取得最小值零。反之，特征编号为i的诸点下一步转移趋势越分散时，也越大。特征x的总体熵可以定义为：(9.3)7/23/202317北京邮电大学信息工程学院其中p(i)等于x取值编号为i的概率，见表9.6的最后一行。同样，E越大表示特征x的分散程度越大。对于上面所举的例子，有：

总体熵是对于特征顺序依赖性的一种量度，它可以作为评价特征作用的参考。一般地说，E取值较小时x的作用较大。但是，由于同一个熵值可能对应着不同的分布情况，因此也有可能出现E很小，分类效果却不好的情况。不过，总体熵作为一种评价顺序依赖性的参考指标仍是有意义的。本节介绍了几种对于单项特征进行评选的方法。当然，根据分类结果对特征进行评选可能更有说服力。7/23/202318北京邮电大学信息工程学院§9.2主成分分析和对应分析在第一节中，我们介绍了评价单个特征分类能力的一些方法，利用这些方法可以挑选出最有效的特征。可惜的是，已经有人证明了以下事实：如果我们依次挑选出前M个最有效的单个特征，那么这M个特征放在一起却不一定是M个特征的最佳组合。这一事实在一定程度上可以这样解释：假定我们在诊断某种疾病时发现体温是最有效的特征，而白血球个数是下一个有效地特征。那么，由于体温与白血球个数之间有着很密切的关系（“相关性”），因此这两个特征组合在一起实质上只相当于一个特征。7/23/202319北京邮电大学信息工程学院从本节开始，我们将陆续介绍另外一些特征选择方法。它们的共同特点在于：不在从原有特征中进行选择和淘汰，而是利用原有各个特征去构造一批新特征。每个新特征都是原有各特征的函数。但是新特征的总数应该少于原有特征的总数。这样，我们的新特征集合既保留了原有各特征的主要信息，又达到了减少特征个数，即降低空间维数的目的。这一类方法可以统称为降维映射方法。本节首先介绍两种最常使用的降维映射的方法，即主成分分析和对应分析。它们都属于所谓线性映射方法，也就是说，由它们构造出的每个新特征都是原有各特征的线性函数。7/23/202320北京邮电大学信息工程学院一.主成分分析线性变换实际上相当于一种坐标变换。利用坐标变换可以从原有特征得到一批个数相同的新特征，而且这些特征中的前几个可能包含了原有特征中的主要信息。主成分分析就是从这一观点出发的特征选择方法。

一.基本概念现在来考虑更一般的情况。假定对每个样品取n个特征，即。要求构造n个新特征，并使它们满足以下的条件：

(1)每个新特征是原有各特征的线性组合，即

i=1,2,…,n

或其中各是常数(9.4)7/23/202321北京邮电大学信息工程学院

(2)各个新变量之间是不相关的，即相关系数为零：

i=1,2,…,n

i≠j

(3)使的方差达到极大，使的方差达到次大，等等。满足以上条件的新特征分别称为样品点的第1，2，…，n个主成分。下面讨论怎样求出各个，或者说怎样求出各个。首先求出全体样品点的协方差矩阵：(9.5)7/23/202322北京邮电大学信息工程学院这里S的下标x表示这是对应旧特征的协方差矩阵。然后，求出的n个特征值和与之对应的特征向量。每个是一个数，而与之对应的特征向量是一个列向量，它们之间的关系是：，i＝1，2，…，n

因此求和相当于解以上的方程。具体的解法[例如，雅克比（Jacobi）方法]可在各种计算方法教材中找到。如果我们在解方程时还要求正交归一条件

i,j＝1，2，…，n

成立，则各个就是唯一确定的。(9.6)(9.7)7/23/202323北京邮电大学信息工程学院现在我们来说明，用以上方法所求的各个就可满足前面所说的条件(1)—(3)。令，i＝1，2，…，n，也就是令或Y＝UX(9.8)

于是就是由经线性变换而得到的新特征。可以证明，当经过上述形式的线性变换后，如果对应于X的协方差矩阵是，那么对应于Y的协方差矩阵就是(9.9)7/23/202324北京邮电大学信息工程学院注意到的每列恰好是的一个特征向量并利用条件(9.6)得到其中是以为主对角线元素的主对角阵。再利用正交归一条件(9.7)，又可得到

这就是说：新特征两两之间的协方差为零，即它们是不相关的。这样，我们已经找到了解决主成分分析问题的关键，即求原始协方差矩阵的特征值和特征向量。(9.10)7/23/202325北京邮电大学信息工程学院我们再来强调一下主成分分析三条件的作用：条件(1)是线性条件，它反映新老特征之间的关系是简单的，便于计算；条件(2)是不相关性，它要求每个新特征都有着独立的作用；条件(3)是方差极大条件。每个特征的方差数值在一定意义下反映了它所包含的信息量。当前几个新特征的信息量已经足够大时，便可以舍弃其余的新特征，从而达到减少特征个数的目的。二.计算步骤下面，我们来详细叙述主成分分析的计算步骤。假定原始资料矩阵已知。7/23/202326北京邮电大学信息工程学院

(1)求出原有特征的协方差矩阵。

(2)用任一种计算方法求出的全部特征值和对应的特征向量。考虑到上面条件(3)的要求,求出各个特征值后应将它们按照从大到小的顺序排列，也就是使特征向量也应按照对应特征值的顺序排列。在上段中已经知道，这时已经可以求出n个新特征，它们满足条件Y＝UX，其中U等于矩阵的转置，而且是对角阵。在中主对角元素之和等于原有各特征方差之和。在中，分别等于新特征的方差，而且之值仍然等于。(2.11)7/23/202327北京邮电大学信息工程学院

(3)我们定义第i个主成分的“方差贡献率”为

前m个主成分的“累计方差贡献率”为当前m个主成分的累计方差贡献率已经足够大(例如，达到70%，80%或更大)时，就可以只取前m个主成分作为新的特征。这是有其后的n－m个新特征可以舍去。(2.12)(2.13)(2.14)7/23/202328北京邮电大学信息工程学院主成分分析的计算到这里本来已经完成，下面是两点补充。我们称第k个新特征(主成分)与第i个旧特征之间的相关系数为在上的“因子负荷量”，计算公式为

求出全体并作出因子负荷量矩阵：这个矩阵有以下两点性质：

(1)每行元素平方之和为1。

(2)第k列各元素平方再乘以对应原有元素方差之和为,即(9.15)7/23/202329北京邮电大学信息工程学院

由此出发，也可定义前m个主成分对原有变量的累计贡献率为当足够大时，可以认为前m个主成分已经包含了中的主要信息量。例9.4我们举两个最简单的例子说明主成分分析的计算步骤。假设有两批样品，每批样品数为N＝4，特征数n＝2。两批样品的原始资料矩阵见表9.7。样品集1-12-21-12-2样品集1-12-2-112-2样品特征特征样品表9.7两批样品的原始资料矩阵7/23/202330北京邮电大学信息工程学院根据上面所讲的计算步骤，首先计算每批样品的协方差矩阵，结果为：然后分别计算两个协方差矩阵的特征值和特征向量，得到特征值特征向量特征值特征向量与的相同。由此可知，对于两组样品利用主成分分析所得的新特征都是7/23/202331北京邮电大学信息工程学院即：这一公式表示新特征即主成分所对应的坐标系相当于将原坐标系旋转而得，见图9.3。图9.3主成分分析的几何解释7/23/202332北京邮电大学信息工程学院下面分别对两组数据计算主成分的累计方差贡献率，对有：即只用第一主成分已可包含了原数据的全部信息。这点是显而易见的因为全部四4个点都分布在轴上。对于则有：即只用时要损失原有信息的20%。三.应用实例下面举出一个应用主成分分析解决实际问题的例子。例9.5为了解决服装定型的问题，对N＝128个成年男人测量体型，每人测量n＝16项指标，分别为：7/23/202333北京邮电大学信息工程学院

(身长)，(坐高)，(胸围)，(头高)，

(裤长)，(下裆)，(手长)，(领围)，

(前胸)，(后背)，(肩厚)，(肩宽)，

(袖长)，(肋围)，(腰围)，(腿肚)为了节省篇幅，只列出各特征的均值和方差，见表9.8。这一问题的讨论共分四步：(1)相关分析。首先，由原始资料矩阵（未列出）求出16个特征的相关系数矩阵R，见表9.9，表中只列出了下三角部分。对相关系数矩阵进行初步观察可以得出以下结论：

1)凡是反映“长”的特征，彼此之间的相关系数都比较大。例如，(身长)与(头高)的相关系数为0.96。

2)凡是反映“围”的特征，彼此间的相关系数也比较大。7/23/202334北京邮电大学信息工程学院例如，(胸围)与(肋围)的相关系数为0.64。

3)“长”与“围”之间的相关系数相对较小。例如，与之间的相关系数为0.36。由此可见，“长”与“围”两类特征大体上反映了两种不同的性质。特征均值(cm)164.590.085.7138.196.075.519.435.8方差6.83.73.26.54.94.40.81.6特征均值(cm)36.034.812.220.775.173.386.350.1方差2.62.61.11.43.44.23.72.9表9.816项体型特征的均值与方差7/23/202335北京邮电大学信息工程学院

1.000.791.000.360.311.000.960.740.381.000.890.580.310.901.000.790.580.300.780.791.000.760.550.350.750.740.731.000.260.190.580.250.250.180.241.000.210.070.280.200.180.180.29-0.041.000.260.160.330.220.230.230.250.49-0.341.000.070.210.380.08-0.020.000.100.44-0.160.231.000.520.410.350.530.480.380.440.30-0.050.500.241.000.770.470.410.790.790.690.670.320.230.340.100.621.000.250.170.640.270.270.140.160.510.210.150.310.170.261.000.510.350.580.570.510.260.380.510.150.290.280.410.500.631.000.210.160.510.260.230.000.120.380.180.160.310.180.240.500.651.00表9.9相关系数矩阵7/23/202336北京邮电大学信息工程学院(2)主成分的计算与讨论。用相关系数矩阵代替协方差矩阵进行主成分分析。计算步骤同例9.4。计算所得的16个特征值和累计方差贡献率在表9.10中，前三个特征向量列在表9.11中，因子负荷量矩阵的前三列列在表9.12中。特征值7.032.611.630.840.770.640.580.46累计贡献率0.440.600.700.760.810.850.880.90特征0.360.310.240.220.170.140.070.04累计贡献率0.930.950.960.970.990.991.001.00特征向量分量u10.340.270.230.340.330.290.290.19u20.200.14-0.330.180.200.270.19-0.37u30.01-0.060.140.030.03-0.030.02-0.15u10.090.150.100.240.320.180.270.16u20.07-0.17-0.35-0.020.11-0.37-0.27-0.36u30.63-0.53-0.20-0.31-0.020.250.140.24表9.10特征值和累计贡献率表9.11前三个特征向量7/23/202337北京邮电大学信息工程学院由表可见，前三个主成分的累计方差贡献率已达到70%，所以只取前三个主成分进行讨论。123456780.910.700.620.910.860.760.780.500.320.23-0.530.290.320.440.31-0.600.920.540.670.910.850.770.700.610.01-0.080.180.040.04-0.030.03-0.190.920.550.700.920.850.770.710.659101112131415160.230.410.260.640.8410.480.710.420.11-0.28-0.57-0.030.18-0.60-0.44-0.590.060.250.390.410.740.590.690.520.80-0.67-0.26-0.40-0.030.320.170.310.700.700.450.570.740.690.720.61表9.12因子负荷量与累计贡献率7/23/202338北京邮电大学信息工程学院

1)第一主成分。由表9.11可见，第一主成分与原有各特征间的关系为：在以上表达式中，每项系数都是正数，而数值都在0.09到0.34之间。考虑正交归一条件(9.7)，16项系数的平方和为1，所以各系数的平均值。这样，每项系数都与平均值相差不远。如果某人的原有16项特征值都比较大，则也会比较大。反之，原有各特征取值都小时也比较小。因此，可以认为是全面的反映某人的魁梧或瘦小程度的特征，不妨称之为“大小因子”。

2)第二主成分。在第二主成分的表达式中，原有各特征的系数有正有负，绝对值相差仍不悬殊。系数为正的各项多数对应于反映“长”的旧特征，而系数为负者多数是但应映“围”的旧7/23/202339北京邮电大学信息工程学院特征。不难想象，瘦高的人所对应的值将比较大，而矮胖者对应的则较小。因此，称为“形状因子”。

3)第三主成分。在的表达式中，多数系数接近于零，绝对值超过0.3的系数只有三个，分别对应(前胸)，(后背)和

(肩宽)，因此，是反映有无鸡胸、驼背或宽肩等畸形形状的特征，可以称之为“姿势因子”。由于各主成分是不相关的。所以可以认为是在大致相同时区分胖瘦的成分，是在大致相同时区分有无畸形的成分。(3)对原有各特征的分类。我们以和为坐标轴，在平面画出各个(i=1,2,…,16)的位置，称为各的平面点图，见图9.4。7/23/202340北京邮电大学信息工程学院在图9.4可以明显地看到，多数反映“长”的旧特征集中在一个类中，反映“围”的旧特征集中在另一类中，而反映畸形的3各特征不能归类。这样，我们对于原有各特征的关系有了一个比较清晰的直观认识。(4)对样品的分类。现在，我们用前两个主成分为坐标轴，做出各个样品点的平面点图，见图9.5。

图9.4原有特征的平面点图7/23/202341北京邮电大学信息工程学院图9.5样品点的平面点图7/23/202342北京邮电大学信息工程学院

由图可见，绝大多数样品点聚集在7个区域内，每个区域的点数和位置接近于中心的代表点点号见表9.13。我们可以用7个代表点(每点对应一个人)的体型作为典型号，将服装分成7种型号。各类服装的数量按25：14：9：7：12：20：8的比例准备。代表点82012791425点数ⅦⅥⅤⅣⅢⅡⅠ区域表9.13样品点的分类情况7/23/202343北京邮电大学信息工程学院二.对应分析对应分析是另一种常用的线性降维映射的方法。这一方法的提出主要从主成分分析谈起。在上面已经讲过，主成分分析的目的在于从旧特征X出发构造新特征Y，使得

Y＝UX或

i=1,2,…,n每个称为一个主成分，它是综合原有各特征而形成的一种具有代表性的新特征。不难想到，用同样的方法可以从原有样品出发构造一批新样品F，使得

i=1,2,…,N7/23/202344北京邮电大学信息工程学院其中是旧样品，是新样品，是系数。在求时，只要用样品间的某种相似系数(例如夹角余弦)矩阵代替特征间的协方差矩阵即可。新样品可以理解为代表性的典型样品。它通常不是原有样品中的某一个，而是综合原有样品的性质而得到的“标准”样品。例如，英文字母“A”可以被不同的人写成各种不同的形式，但是不会有人反对用印刷体作为这个字母的典型代表。这种研究通常称为因子分析。也有些书籍把对于特征的线性映射称为R型因子分析，而把对样品的线性映射称为Q型因子分析。因子分析（Q型）与主成分分析的原理虽然相同，但在计算上却要困难的多。这是因为，通常情况下样品数目N要远远大于特征数目n。因此，样品相似系数矩阵将是一个庞大的矩7/23/202345北京邮电大学信息工程学院矩阵，对它的计算无论在时间或空间上将是很困难的。对应分析便是针对这一问题而提出的一种方法。它可以利用特征间的协方差矩阵同时完成R型和Q型两种因子分析。下面，我们介绍对应分析的计算步骤。资料的标准化在进行主成分分析时，对原始资料可以进行标准化，也可以不进行。但是，对应分析要求必须对资料进行特定的标准化。首先，假定原始资料矩阵的每个元素(如果某个只要将第i行的每个元素都减去该元素的最小值便可满足上述条件)。然后做以下两次变换：

1)令T等于原始资料矩阵全体元素之和，即7/23/202346北京邮电大学信息工程学院然后进行“总和标准化”：总和标准化与常用的极差标准化或标准差标准化不同。它把原始资料矩阵的行与列同等对待，也就是把样品与特征同等对待。经过总和标准化后，全体之和为1，因此每个可以看成一种2维情形下的概率。由此将矩阵X变到P。

2)令和分别表示矩阵P的第i行及第j列元素之和，即然后令得到新的资料矩阵Y，见表9.14。7/23/202347北京邮电大学信息工程学院表9.14对应分析的变化步骤

原始资料矩阵X矩阵P:矩阵Y：

7/23/202348北京邮电大学信息工程学院由P到Y的变换可以这样解释：P中任意两点，可以写成

,求与的欧氏距离平方得：如果考虑到第α(β)列在所有各列中所占比例为()，而第i行在所有各行中所占比例是，因而改用以下的加权欧氏距离平方：就相当于先将变换成后，再求欧氏距离平方。R型因子分析下面来求特征间的协方差矩阵S。根据协方差定义，应有

i,j=1,2,…,n7/23/202349北京邮电大学信息工程学院分别是第i,j行的平均值。现在将这一公式略加修改，令即把通常意义下的算术平均改为加权平均，再令

i,j=1,2,…,n便得到加权的协方差公式。若令

i,j=1,2,…,nk=1,2,…,N其中是X的第i行元素之和，而是X的第k列元素之和，则有或下面的步骤与主成分分析相同：求S的各特征值与特征向量，按照累计方差累计贡献率求出前几个新的特征。7/23/202350北京邮电大学信息工程学院由以上的步骤可以看出，若在第1步时直接令而得到新资料阵Z，则可令而进行R型因子分析。Q型因子分析我们令样品之间的协方差矩阵为：B是N行N列矩阵，进行分析的计算量很大。但是，已经证明了以下结论：B和S的非零特征值相同。若u是S的特征向量，则是B的特征向量。若v是B的特征向量，则Zv是S的特征向量。根据以上的结论，如果已经求出了S的前k个特征向量

7/23/202351北京邮电大学信息工程学院那么只需计算便可得到B的特征向量，而无需直接计算了。§9－3考虑多类情形的线性降维法本节介绍另一种线性映射降维方法。在叙述这种方法之前，我们先对上节所介绍的两种方法做一个简单的回顾。首先，上节所谈的两种方法都是线性映射的方法。从几何学的观点来看，线性映射相当于一次坐标旋转。例如，如果一批样品点散落在一个椭圆形的区域中，那么进行主成分分析的结果将使第一主成分指向椭圆的长轴方向，第二主成分指向短轴方向，如图所示。同理，如果样品点是散布在一个椭球7/23/202352北京邮电大学信息工程学院或超椭球中，各个主成分便将依次与最长轴、次长轴…直至最短轴重合。其次，上节所讲的两种方法都没有考虑样品的类别，而是把全体样品作为一类加以处理的。因此，这种降维方式固然可以较好的保留样品分布的信息，但对于分类则并不一定有利。不妨举一个极端的例子：如果全体样品点被分为图中所示的两类，那么显然可以看到，第一主成分的分类效果反而不及。在本节中我们将讨论另一种线性映射降维方法，它在映射时将利用有关样品类别的信息，并且设法增强样品的“类别可分离性”。需要指出，这类方法种类很多，限于篇幅，我们只能介绍比较新颖而且有效的一种。7/23/202353北京邮电大学信息工程学院一.几种常用线性映射及其性质设有一批样品,每个样品用n个特征表示,即可写成。对于各原有特征的一个线性变换可以表示为：

i=1,2,…,m;m≤n或Y＝AX(9.16)其中A是变换矩阵，可以是方阵，也可不是方阵，即m<n。每个是一新的特征。线性映射对原有样品分布情况的影响，集中图9.6主成分分析的几何解释7/23/202354北京邮电大学信息工程学院地反映在对于样品均值和协方差的影响上。设原有样品的均值为而协方差矩阵为，可以证明，经过如式(9.16)的映射后，在新特征空间中的样品均值和协方差矩阵分别变为：

正交归一变换我们在主成分分析中所用的变换称为正交归一变换。在上一节中已经指出，这时所用的变换矩阵A＝U是以的各个特征向量为列所形成矩阵的转置，而是对角矩阵。还可以证明，在正交归一变换之下欧氏距离保持不变。或者说，这种变换只改变了坐标轴的方向，而没有改变分布的形状，即坐标轴只被旋转(图9.6)。白化变换

(9.17)7/23/202355北京邮电大学信息工程学院如果令变换矩阵。则由式(9.17)可知：其中I是单位矩阵。这种变换称为白化变换。关于白化变换有两个重要的性质：经过白化变换以后，样品的分布形式将发生变化，或者是将被压缩或膨胀，见图9.7。经过白化变换后，由于协方差已经是单位阵，所以再对Y进行任一种正交归一变换Z＝UY后所得的新协方差阵仍是单位阵，即:

是正交归一变换的性质。一类归一变换

(9.18)(9.19)7/23/202356北京邮电大学信息工程学院x2x1y2,z2y1,z1正交归一变换后白化变换图9.7白化变换的几何解释图9.8一类归一变换的几何解释7/23/202357北京邮电大学信息工程学院现在我们开始考虑多类情形。为简单起见，先考虑只有两类的情况。假定两类样品均值分别为和，而协方差矩阵分别为和。如果我们对第一类样品实行白化变换，即求的特征向量转置矩阵，和以特征值为对角线元素的对角阵，并对两类样品同时做变换，则变换后的两类协方差矩阵将分别为：这时，第1类样品的分布将变为圆形（球形、超球），而第2类样品的分布也将随之变为比较规整的形状(图9.8)。在某些情形下,这种变换将会有利于样品分离。下面我们将介绍一个以一类归一变换为出发点的线性特征选择方案。(9.20)7/23/202358北京邮电大学信息工程学院二.多类问题线性映射算法本段介绍由德赛尔(Decell，H.P.)，奥德尔(Odell，P.L.)，科柏利(Coberly，W.A.)以及杨(Young，D.M.)等人提出的一种线性映射降维方法。假定已知N个n维样品，它们分别属于m个不同的类。严格地说，各类样品应当遵从多维正态分布。当这个条件不满足时，可以进行适当的数据变换以达到上述要求。但是，在实践中，即使正态分布的要求不满足，这一算法也可起到较好的效果。算法的步骤如下：

(1)实行一类归一化。例如，以为基础以对全体样品做一7/23/202359北京邮电大学信息工程学院类归一变换。这时，经变换后的协方差矩阵变为，而其他各类的协方差阵分别变为。还要注意，本方法要求在归一化之前将类的样品均值变为零，即先将原点平移到的均值处。经过平移后，其它各类的均值仍记作，而一类归一化则将各类均值变到

i＝2,3,…,m(2)构造新的原始资料M。经过一类归一化后，构造以下的矩阵：其中竖线是向量或矩阵分割记号。换句话说，M的第1到m－1列分别是向量到，第m到m－1＋n列是矩阵的各列，等等。n是特征个数。所以M是n行和(m-1)(n+1)列矩阵。以下的步骤和主成分分析相同，即(9.21)7/23/202360北京邮电大学信息工程学院

(3)求M的协方差矩阵S。

(4)计算S的各个特征值并按从大到小的顺序排列，记作。相应的特征向量按同样的次序排列称为一个矩阵φ，φ的各列分别是特征向量。φ的转置记作。

(5)选取前p个特征值，使其累计方差贡献率达到所需的比例。

(6)取U的前p行形成线性映射矩阵，并作线性变换：

i=1,2,…p，这样便实现了降维的线性映射。在算法的第(3)步中，也可以用矩阵代替M。根据我们的实验，两者的效果差别不大。7/23/202361北京邮电大学信息工程学院上述的降维方法出去同样可以达到降维的目的外，还有利于区分各类样品。需要说明的是，这一方法是以贝叶斯分类原理作为基础的。例9.6已知27个样品点，共分3组，每个样品原有3个特征。原始资料见表9.15。123456789x1230123012x2221111000x3109810987910样品特征101112131415161718X1223012312X2－1－2－2－3－3－3－3－4－4X3211212212特征样品表9.1527个样品的原始资料矩阵7/23/202362北京邮电大学信息工程学院采用上面所介绍的线性降维映射方法，对类进行一类归一变换，并将此变换同时用于和。经过求的特征值和向量后，发现前两个特征值的累加贡献率达到92.7%。取前两个特征向量进行变换后所得的2维平面点图见图9.9。由图可见，三类点可以较好地分开，而以第1类点最为集中。192021222324252627X1－6－6－5－6－5－6－5－5－5X2－1－2－2－3－3－4－4－5－5X3－8－7－5－5－6－8－7－6－5样品特征7/23/202363北京邮电大学信息工程学院

图9.927点经降维映射后的平面点图7/23/202364北京邮电大学信息工程学院§9.4非线性的降维映射方法在二三节中所介绍的降维方法都是以线性映射作为基础的。我们自然会想到，如果采用非线性的映射方法，即允许新特征不一定是原有特征的线性函数，降维的效果或许可以得到进一步的改善。遗憾的是，关于这一方面的研究至今还很不成熟。因此，我们在本节中只能介绍一些简单的情况。一.降维方法中的几个问题我们首先讨论降维映射中的一些主要问题，或者说是对于降维方法的一些要求或希望。拟合程度问题当我们通过降维映射把n维特征空间的N个样品点7/23/202365北京邮电大学信息工程学院变换为m维空间中的N个点时，我们总是希望的散布方式或者相互关系能与尽量吻合一致。也就是说，降维映射应当尽量保持原有样品的结构信息。新旧样品点之间的这种结构一致性称为拟合程度。它可以通过以下一些标准进行衡量：应力设与两点间的某种距离(例如，欧氏距离)记作,而经过映射后的对应点与间的距离记作。则可用以下函数度量映射前后样品点的拟合程度：

若经过映射后所得的每一对点与间的距离记作都和它们所对应的原样品点与间的距离很接近，则将会接近于零。因此，一个拟合程度较高的映射应使取极小(9.22)7/23/202366北京邮电大学信息工程学院值。是系数，通常可取

α是一参数。上式表示，若很大，则将会很小。也就是说，对于那些本来相距很远的点可以不予重视。还要指出，是的函数，因而是各个新特征的函数，而则是常数。连续性指标沿用上面的记号，可以改用以下目标函数：这里同样是一个非负的数值。当很大时，由于权的作用，将接近于零。因此，要使整个达到极小，映射就应具有这样的性质：当较小时，也是很小。(9.23)7/23/202367北京邮电大学信息工程学院单调性指标我们首先定义一个排列函数R，对于最大的，；对次大的，，等等。对于也是一样。其次，定义函数f(ξ)，当ξ=0时f(ξ)＝0；ξ≠0时f(ξ)>0(例如，等于一个常数或|ξ|)。然后取下述目标函数：意味着经过映射之后各点间距离大小的排列次序不变，即在n维特征空间中相距最远的点，映射到m维空间中仍然最远，等等。但是，这一要求往往是难以满足的。有些文献在使用这一指标时先把特征空间划分为几个部分，然后在每个部分上使用单调性指标。(9.24)7/23/202368北京邮电大学信息工程学

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第九章特征选择与降维sect9-1单个特征的评价课件

文档简介

温馨提示

最新文档

评论

第九章特征选择与降维sect9-1单个特征的评价课件

文档简介

温馨提示

最新文档

评论

相关文档