版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析(一)pcacpv函数 主成分分析又称主分量分析,由皮尔逊在1901年首次引入,后来由霍特林在1933年进行了发展。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通过表示为原始变量的线性组合,为了使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。主成分分析在很多领域都有广泛的应用,一般来说,当研究的问题涉及多个变量,并且变量间相关性明显, 即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样更容易抓住事物的主要矛盾,使问题简化。 1. 主成分分析的几何意义 假设从二元总体x=(x1,x2)
2、中抽取容量为n的样本,绘制样本观测值的散点图,如图所示。从图中可以看出,散点大致分布在一个椭圆内, x1与x2呈现出明显的线性相关性。这n个样品在x1轴方向和x2轴方向具有相似的离散度,离散度可以用x1和x2的方差来表示,这里的x1和x2包含了近似相等的信息量,丢掉其中的任意一个变量,都会损失比较多的信息。将图中坐标按逆时针旋转一个角度,使得x1轴旋转到椭圆的长轴方向F1,x2轴旋转到椭圆的短轴方向F2,则有 F1=x1cos+x2sin F2=-x1sin+x2cos 此时可以看到n个点在新坐标系下的坐标F1 和F2几乎不相关,并且F1的方差要比F2的方差大得多,也就是说F1包含了原始数据中
3、大部分的信息,此时丢带变量F2,信息的损失是比较小的。称F1为第一主成分,F2为第2主成分。 主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标轴方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标变换关系式。 2. 主成分分析的MATLAB函数 与主成分分析相关的MATLAB函数有pcacov、princomp函,数,这一节我们先看一下pcacov函数 (1)pcacov函数 pcacov函数用来根据协方差矩阵或相关系数矩阵进行主成分分析,调用格式如下: COEFF=pcacov(V) COEFF,latent=pcacov(V) COEFF,latent,explained=
4、pcacov(V) 以上调用的输入参数V是总体或样本的协方差矩阵或相关系数矩阵,对于p维总体,V 是pxp的矩阵。输出参数COEFF是p个主成分的系数矩阵,它是pxp的矩阵,它的第i列是第i个主成分的系数向量。输出参数latent是p个主成分的方差构成的向量,即V的p个特征值的大小(从大到小)构成的向量。输出参数explained是p个主成分的贡献率向量,已经转化为百分比。 3.例:从协方差矩阵或相关系数矩阵出发求解主成分 在指定服装标准的过程中,对128名成年男子的身材进行了测量,每人测量了六项指标:身高(x1)、坐高(x2)、胸围(x3)、手臂长(x4)、肋围(x5)和腰围(x6), 样本
5、相关系数矩阵如下表所示。根据样本相关系数矩阵进行组成分分析。 对于这个例子,调用pcacov函数作主成分分析变量身高(x1)坐高(x2)胸围(x3)手臂长(x4)肋围(x5)腰围(x6)身高(x1)10.790.360.760.250.51坐高(x2)0.7910.310.550.170.35胸围(x3)0.360.3110.350.640.58手臂长(x4)0.760.550.3510.160.38肋围(x5)0.250.170.640.1610.63腰围(x6)0.510.350.580.380.631 (1)调用pcacov函数 成分分析 %定义相关系数矩阵PHOPHO = 10.790
6、.360.760.250.510.7910.310.550.170.350.360.3110.350.640.580.760.550.3510.160.380.250.170.640.1610.630.510.350.580.380.631;%调用pcacov函数根据相关系数矩阵作主成分分析% 返回主成分表达式的系数矩阵COEFF,返回相关系数矩阵的特征值向量latent和主成分贡献率向量explainedCOEFF,latent,explained = pcacov(PHO)COEFF =0.4689-0.3648-0.09220.12240.07970.78560.4037-0.3966-
7、0.6130-0.3264-0.0270-0.44340.39360.39680.2789-0.6557-0.40520.12530.4076-0.36480.70480.10780.2346-0.37060.33750.5692-0.16430.01930.7305-0.03350.42680.3084-0.11930.6607-0.4899-0.1788latent =3.28721.40620.45910.42630.29480.1263explained =54.786723.43737.65167.10574.91332.1054 % 为了更加直观,以元胞数组形式显示结果 resul
8、t1(1,:) = 特征值, 差值, 贡献率, 累积贡献率; result1(2:7,1) = num2cell(latent); %diff函数式用于求导数和差分的. result1(2:6,2) = num2cell(-diff(latent); %cumsum函数通常用于计算一个数组各行的累加值。 result1(2:7,3:4) = num2cell(explained, cumsum(explained)result1 =特征值差值贡献率累积贡献率3.28721.881054.7867 54.78671.40620.947123.4373 78.22400.45910.0328 7.
9、6516 85.87560.42630.1315 7.1057 92.98130.29480.1685 4.9133 97.89460.1263 2.1054100.0000 %由result1可以看出,前三个主成分累积功效率为85.8756%,因此可以只用前3个主成分进行后续分析 % 以元胞数组形式显示前3个主成分表达式s = 标准化变量;x1:身高;x2:坐高;x3:胸围;x4:手臂长;x5:肋围;x6:腰围;result2(:,1) = s ;result2(1, 2:4) = Prin1, Prin2, Prin3;result2(2:7, 2:4) = num2cell(COEFF(
10、:,1:3) result2 =标准化变量Prin1Prin2Prin3x1:身高0.4689-0.3648-0.0922x2:坐高0.4037-0.3966-0.6130x3:胸围0.3936 0.3968 0.2789x4:手臂长0.4076-0.3648 0.7048x5:肋围0.3375 0.5692-0.1643x6:腰围0.4268 0.3084-0.1193 为了使结果更加直观,定义了两个元胞数组: result1和result2,用result1存储特征值、贡献率和累积贡献率等数据。result2存放前3个主成分表达式的系数数据,即COEFF矩阵的前3 列。这样做的目的仅仅是为
11、了直观。 (2)结果分析 从result1的结果来看,前3个主成分的累积贡献率达到了85.8756%,因此可以只用前3 个主成分进行后续的分析,这样虽然会有一定的信息损失,但是损失不大,不影响大局、result2中列出了前3个主成分的相关结果,可知前3个主成分的表达式分布为: y1=0.4689x1+0.4037x2+0.3936x3+0.4076x4+ 0.3375x5+0.4268x6 y2=-0.3648-0.3966x2+0.3968x3- 0.3648x4+0.5692x5+0.3084x6 y3=-0.0922x1-0.6130x2+0.2789x3+0.7048x4- 0.164
12、3x5-0.1193x6 从第一主成分y1的表达式来看,它在每个每个标准化变量上有相近的正载荷,说明每个标准变化量对y1的重要性都差不多。当一个人的身材是“五大三粗”,也就是说又高又胖时,x1, x2,x6都比较大时,此时y1的值就比较大;反之,当一个人又矮又瘦时,x1,x2.,x6都比较小,此时y1的值就比较小,所以可以认为第一主成分y1是身材的综合成分。 从第二主成分y2的表达式来看,它在标准变换量x1、x2和x4上有相近的负载荷,在x3、x5和x6上有相近的正载荷,说明当x1、x2和x4增大时,y2的值减小,当x3、x5和x6增大时,y2的值增大。当一个人的身材瘦高时,y2的值比较小,当一个人的身材矮胖时,y2的值比较大, 所以可认为第二主成分y2是身材的高矮和胖瘦的协调成分。 从第三主成分y3的表达式来看
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 半导体封装质量工程师岗位招聘考试试卷及答案
- 钙化病变标准化治疗策略(冠脉钙化 新指南完整版)
- 心力衰竭合并呼吸衰竭患者护理查房
- 上海市五爱中学2026年高考化学试题实战演练仿真卷含解析
- 弓形虫感染新生儿发育里程碑监测与异常识别
- 贵州省黔西县2026届高考化学试题命题比赛模拟试卷(2)含解析
- 四川省成都市成外2026年高三阶段性测试(二)(4月)化学试题试卷含解析
- 2026劳动保障考试题及答案
- 2025年脑机接口与康复机器人的人机交互优化
- 2026浙江安邦护卫安全服务有限公司招聘1人备考题库及答案详解(网校专用)
- 【中学】【带班育人方略】琢玉成器 成就最美的自我
- 农投集团笔试题目及答案
- 六化安全培训课件
- 碎石加工设备安装与调试方案
- 京瓷哲学的培训课件
- 淋膜基础知识培训课件
- 《电动汽车储能系统原理与维修》课件-项目四 北汽新能源EV200动力蓄电池
- 2023RDPAC行业行为准则
- 2025年云南省高考化学试题(学生版+解析版)
- 农药污染土壤的修复技术
- 2026届新疆乌鲁木齐市天山区中考数学对点突破模拟试卷含解析
评论
0/150
提交评论