机器学习之降维—PCA-LDA_第1页
机器学习之降维—PCA-LDA_第2页
机器学习之降维—PCA-LDA_第3页
机器学习之降维—PCA-LDA_第4页
机器学习之降维—PCA-LDA_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,Principal Component Analysis,题目: 主成分分析 PCA,预习内容,(1)均值的概念和定义,期望用来表示什么? (2)方差的概念和定义,方差用来表示什么? (3)协方差和协方差矩阵的概念和定义,协方差的作用及意义? 请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法,1前言,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 实例1 实例2 你必须要把各个方面作出高度概括,用一两个指标简

2、单明了地把情况说清楚。,4,(1) 如何作主成分分析? 当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该怎样选择?,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:,2. 问题的提出,5,各个变量之间差异很大,6,(2) 如何选择几个主成分。 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。应该保留几个主成分才能最大化的代表原始信息?,7,美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一

3、项十分著名的工作。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。,实例1: 经济分析,8,实例2: 成绩数据,100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,9,从本例可能提出的问题,目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?,10,PCA,多变量问题是经常会遇到的。变

4、量太多,无疑会增加分析问题的难度与复杂性. 在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的.,11,原理: 主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。 PCA的目标就是找到这样的“主元”(即问题中的主元成分),最大程度的除冗余和噪音的干扰。,问题描述,如何确定PCA方法中,到

5、底应该取几个主成分?请查阅文献并举例回答。How to define the number of the components in PCA? Please find the solution from literature.,13,先假定数据只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值; 如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的).,14,主成分分析的几何解释,平移、旋转坐标轴,15,主成分分析的几何解释,平移、旋转坐标轴,16,主成分分析的几何解释,平移、旋转坐标轴,17,主成分分析的几何解释,平移、旋

6、转坐标轴,18,椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,19,二维数据,20,进一步解释PCA,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理

7、。,主要内容,一、主成分的定义及导出 二、主成分的几何意义 三、主成分的性质和例子,一、主成分的定义及导出,设 为一个 维随机向量, , 。考虑如下的线性变换 希望在约束条件 下寻求向量 ,使 得 达到最大, 就称为第一主成分。 设 为 的特征值, 为相应的单位特征向量,且相互正交。则可求得第一主成分为 它的方差具有最大值 。,?,最大化方差法:,如果第一主成分所含信息不够多,还不足以代表原始的 个变量,则需考虑再使用一个综合变 量 ,为使 所含的信息与 不重叠,应要求 我们在此条件和约束条件 下寻求向量 ,使得 达到最大,所求的 称为第二主成分。求得的第二主成分为 其方差为 。 一般来说,

8、的第 主成分是指:在约束条件 和 下寻求 ,使 得 达到最大。第 主成分为,二、主成分的几何意义,在几何上, 表明了第 主成分的方向, 是 在 上的投影值(即投影长度), 是这些值的方差,它反映了在 上投影点的分散程度。 记 ,则主成分向量 与原始向量 有如下关系: 该正交变换的几何意义是将 中由 构成的原 维坐标轴作一正交旋转,一组正交单位向 量 表明了 个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。,26,三、主成分的性质,一、两个线性代数的结论,1、若A是p阶实对称阵,则一定可以找到正交阵U,使,其中 是A的特征根。,27,2、若上述矩阵的特征根所对应的单位特征向量为,则实对

9、称阵 属于不同特征根所对应的特征向量是正交的,即有,令,28,3、均值,4、方差为所有特征根之和,说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。,?,主成分选择,总方差中属于第 主成分 (或被 所解释)的比例为 称为主成分 的贡献率。 第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的

10、能力。 通常取(相对于 )较小的 ,使得累计贡献达到一个较高的百分比(如8090)。此时, 可用来代替 ,从而达到降维的目的,而信息的损失却不多。,主成分的性质和例子,34,主成分分析的步骤,第一步:由X的协方差阵x,求出其特征根,即解方程 ,可得特征根 。,一、基于协方差矩阵,35,第二步:求出分别所对应的特征向量U1,U2,Up,,第三步:计算累积贡献率,给出恰当的主成分个数。,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。,课堂作业:实例参数,该实例符合三维高斯分布,具体参数如下: 均值向量

11、:= 0,5,2T 协方差矩阵:,PCA实例 软木塞数据集,37,作业,(1)给定Rock数据,请使用PCA方法,找出类marble和granite的主成分特征集合。,线性判别分析(LDA),Linear Discriminant Analysis,引入,主要内容,一、LDA介绍 二、LDA基本思想 三、LDA目标 四、LDA与PCA区别 五、LDA的公式推导 六、LDA实例,介绍,线性判别分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,1936年由Ronald

12、Fisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。,基本思想,线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。,因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。,可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间 会有重复,导致分类效果下降。右图映射

13、到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内 部点的离散程度是最小的(或者说聚集程度是最大的)。,LDA的目标:,LDA的目标:,我们分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。,LDA与PCA区别:,LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。,二分类LDA推导,上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA最求的目标是,给出一个

14、标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时候,如下图所示:,红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了,这个数据只是随便画的,如果在高维的情况下,看起来会更好一点。下面我来推导一下二分类LDA问题的公式:,首先给定特征为d维的N个样例, 其中有 个样例属于类别 ,另外 个样例属于类别 。现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。,假设这个最佳映

15、射向量为w(d维),那么样例x(d维)到w上的投影可以表示为,二分类LDA推导,假设用来区分二分类的直线(投影函数)为: LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好,所以我们需要定义几个关键的值:,二分类LDA推导,类别i的原始中心点(均值)为: 类别i投影后的中心点为: 我们首先发现,能够使投影后的两类样本均值点尽量间隔较远的就可能是最佳的,定量表示就是:,二分类LDA推导,J(w)越大越好。但是只考虑J(w)行不行呢?,样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(w),但是由于有重叠,x1不能分离样本点。投影到纵轴x2上,虽然

16、J(w)较小,但是能够分离样本点。因此我们还需要考虑样本点之间的方差,方差越大,样本点越难以分离。我们使用另外一个度量值散列值(Scatter)。,二分类LDA推导,对投影后的类求散列值,如下:,从公式中可以看出,只是少除以样本数量的方差值,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。而我们想要的投影后的样本点的样子是:不同类别的样本点越分开越好,同类的越聚集越好,也就是均值点间距离越大越好,散列值越小越好。正好,我们可以使用J(w)和S(w)来度量。定义最终的度量公式:,衡量类别i投影后,类别点之间的分散程度(方差),分子为两个类别各自的中心点的距离的平方,二分类LDA

17、推导,定义,该协方差矩阵称为散列矩阵(Scatter matrices)。利用该定义,上式可简写为:,类内离散度矩阵,即:,二分类LDA推导,展开分子:,那么J(w)最终可以化简表示为:,分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的中心点的距离的平方,我们最大化J(w)就可以求出最优的w,二分类LDA推导,在我们求导之前,需要对分母进行归一化,因为不做归一的话,w扩大任何倍,都成立,我们就无法确定w。这里w并不是唯一的,倘若w对应J(w)的极大值点,则a*w仍旧可以达到J(w)的极大值点。,即目标函数J(w)化简为等于其分子部分,且受,约束。加入拉格朗日乘子并求导得到:,二分类LDA推导,利用矩阵微积分,求导时可以简单地把 当做 看待。如果 可逆(非奇异),那么将求导后的结果两边都乘以 ,得,二分类LDA推导,LDA多分类问题,对于N(N2)分类的问题,就可以直接写出以下的结论: 这同样是一个求特征值的问题,求出的第i大的特征向量,即为对应的Wi。,Fisher线性判别方法(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论