




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析简介Principal Component Analysis(PCA)什么是主成分分析? 我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现: a1語文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量主成分什么是主成分分析? 推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。 由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信
2、息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量
3、;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息4什么是主成分分析? 由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的
4、大部分信息对主成分的要求 上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。 一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。 主成分分析的目的 压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。 这样就可以消除原始变量间存在的共线性,克服由此造成的运
5、算不稳定、矩阵病态等问题。为什么要进行主成分分析? 消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题 压缩变量个数,剔除冗余信息,使模型更好地反映真实情况。 PCA分析在很多领域有广泛应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等)为什么要进行主成分分析? 对p个变量进行n次观测得到的观测数据可用下面的矩阵表示 采用PCA(主成分分析)技术可以将上述矩阵的列数压缩。 npnnppxxxxxxxxxX212222111211基本概念 协方差(covariance) 方差 标准差)(11),cov(1yyxxnyxiniiniixxxxnL1
6、2)(11xxxLS 基本概念 相关系数(correlation coefficient ) 协方差数据矩阵的每一列对应一个变量的n个量测值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时,yxSSyxyxr),cov(),(2),cov(iSii协方差矩阵协方差矩阵2232221) 3 ,cov()2 ,cov() 1 ,cov(), 3cov()2 , 3cov() 1 , 3cov(), 2cov() 3 , 2cov() 1 , 2cov(), 1cov() 3 , 1cov()2 , 1cov(pSppppSpSpSZ 主成分的求解步骤:主成分的求解步骤: i)对原始
7、数据矩阵进行标准化处理)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩:npnnpppnxxxxxxxxxX212222111211),;,( ,/ )(pjniSxxxjjijij2121 ii)求协方差矩阵Z iii)特征分解 相当于将原来的坐标轴进行旋转得到新的坐标 轴U: Z的特征值组成的对角阵 UZ的特征向量按列组成的正交阵,它构成 了新的矢量空间,作为新变量(主成分)的坐 标轴,又称为载荷轴。 tUUZ特征值表示新变量(主成分)方差的大小得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减特征矢量相互正交,即不相关 iv) 确定主成分个数 (1)根据累积
8、贡献率 当 大于某个阈值时,可认为主成分数目为m。 (2)根据其它准则* 特征值大于1.0的因子数定为主成分数。* 利用特征值与因子数目的曲线,到某一因子数后,特征值减小幅度变化不大,此转折点的因子数即为主成分数m。* 保留那些与一个以上变量有重大关系的因子。)/(2121pmmm v) 求主成分得分新的变量值 F阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。mppnmnUXF主成分分析原理 根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数
9、据向量的线性组合。 通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。主成分的特点 主成分是原变量的线性组合; 各个主成分之间互不相关; 主成分按照方差从大到小依次排列,第一主 成分对应最大的方差(特征值); 每个主成分的均值为0、其方差为协方差阵 对应的特征值; 不同的主成分轴(载荷轴)之间相互正交。主成分的特点 如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化; 如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的
10、变化。PCA的优点 它能找到表现原始数据阵最重要的变量的组合 通过表示最大的方差,能有效地直观反映样本之间的关系 能从最大的几个主成分的得分来近似反映原始的数据阵的信息主成分分析的计算步骤(1)计算相关系数矩阵在公式(3)中,rij(i,j=1,2,p)为原来变量xi与xj的相关系数,其计算公式为因为R是实对称矩阵(即rij=rji),所以只需计算其上三角元素或下三角元素即可。 (2)计算特征值与特征向量 首先解特征方程IR=0求出特征值i(i=1,2,p),并使其按大小顺序排列,即12,p0;然后分别求出对应于特征值i的特征向量ei(i=1,2,p)。 (3)计算主成分贡献率及累计贡献率 一
11、般取累计贡献率达8595的特征值1,2,m所对应的第一,第二,第m(mp)个主成分。 (4)计算主成分载荷 由此可以进一步计算主成分得分: 由此可以进一步计算主成分得分: 例1:有3个变量X1, X2与X3(m=3),其16次(n=16)观测值见下表: 相关矩阵为:相关阵R的特征值分别为2.077,0.919,0.004, 这说明第三个主成分所起作用非常小,可以只要两个主成分 。 例2:8个样品中苯和二甲苯的含量见下表:原始数据矩阵中含有8(n8)个样品、两个变量, 其协方差矩阵为:根据根据PC1求得的苯与二甲苯含量及残差求得的苯与二甲苯含量及残差主成分得分的平方和、特征值与方差(17.67)2+(10.58)2+(10.64)2+(4.96)2+(5.67)2+(10.61)2+(12.73)2+(14.84)2=1089(81) 155.59=1089主成分的平方和(n1) 对应特征值由于主成分的均值为零,所以主成分的平方和(n1 ) 方差特征值反映的是相应主成分的方差大小对于维数较大的数据矩阵,采用Jacobi法进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甘肃省酒泉市金塔县等4地2024-2025学年高二上学期11月期中考试政治试卷(含答案)
- 【设计】室内装饰装修施工组织设计
- 部门安全知识培训记录课件
- 部门员工安全培训需求表课件
- 基因检测眼病预后评估-洞察及研究
- 企业形象塑造-洞察及研究
- 基于成本效益分析的制动式浴缸排水系统市场渗透策略
- 基于分子模拟技术解析甲维盐水剂与靶标蛋白的相互作用机制
- 地坪漆施工中湿度和温湿度波动对固化效果的影响及补偿策略
- 国产化替代浪潮中工业控制主机的软硬协同适配瓶颈
- 售后服务网点授权协议书
- 工贸企业主要负责人和安全管理人员安全培训演示文稿
- 狮子王中英文台词对照(超全的完整版)(英语口语练习必备)
- HP碗式中速磨煤机检修教程
- 办公室一族常见病预防
- 精神科诊疗常规及技术操作规范-
- 人教版小学六年级上册语文单元测试卷全册
- DB37T 3842-2019 铁矿绿色矿山建设规范
- 《农业园区规划与管理》课件第一部分 03
- 江苏常熟新材料产业园环境风险评估报告
- 建设法规工程建设执业资格法规
评论
0/150
提交评论