《多元统计分析-基于R(第3版)》课件 第9章-主成分分析_第1页
《多元统计分析-基于R(第3版)》课件 第9章-主成分分析_第2页
《多元统计分析-基于R(第3版)》课件 第9章-主成分分析_第3页
《多元统计分析-基于R(第3版)》课件 第9章-主成分分析_第4页
《多元统计分析-基于R(第3版)》课件 第9章-主成分分析_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主编:费宇中国人民大学出版社第9章主成分分析2024/7/312

主成分分析(principalcomponentanalysis,PCA)是将具有相关关系的多个变量有效地转化为少数几个综合变量来处理,从而简化相关统计分析的一种多元统计方法.主成分分析也称主分量分析,是由Pearson于1901年首先提出,到1933年由Hotelling加以完善后发展起来的.目前,在涉及到高维数据分析处理的诸多领域主成分分析都有广泛的应用.本章介绍主成分的基本思想、总体主成分和样本主成分的定义、性质、主成分的计算和解释、主成分回归等.2024/7/313

基本思想:用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,从而可以简化数据,对原来复杂的数据关系进行简明有效的统计分析.

主成分分析的本质就是“有效降维”,既要减少变量个数,又不能损失太多信息.换句话说,就是“降噪”、“挤水分”或者说“冗余消除”,将高维数据有效地转化为低维数据来处理.揭示变量之间的内在联系,进而分析解决实际问题.

第9章

主要内容9.1

主成分分析的基本思想9.2

总体主成分

主成分的含义、计算、主要性质、主成分个数的确定、变量的标准化.9.3

样本主成分

样本主成分的性质和计算;主成分分析的步骤和相关R函数.9.4案例:主成分回归分析2024/7/314

9.1

主成分分析的基本思想2024/7/315

实际统计分析中,经常处理多变量、大维数数据分析问题,分析过程较复杂,难度较大.全部变量中可能存在信息的重叠.为去除这些信息重叠,希望用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,达到降维的目的,从而进行简明有效的统计分析.主成分分析中的信息,就是指变量的变异性,常用标准差或方差来表示它.9.2总体主成分

9.2.1

主成分的含义

以二维正态分布样本点来直观说明:如图,设有n个样品点大致分布在平面上一个椭圆内:2024/7/316

图9-1二维情形主成分示意图二维情形主成分的解释

样本点之间的差异是由

x1和

x2的变化引起的,两者变动的相差不大,但如果用新坐标

y1和

y2来代替,易见,这些样本点的差异主要体现在

y1轴上,n个点在

y1轴方向上的方差达到最大,即在此方向上包含了有关n个样品的最多的信息.

将这些点投影到

y1轴方向能使信息的损失最小,如果

y1轴方向的差异占了全部样本点差异的绝大部分,那么将

y2忽略是合理的,这样就把两个变量简化为一个,显然这里的

y1轴代表了数据变化最大的方向,称之为第一主成分.y2称为第二主成分,并要求已经包含在

y1中的信息不出现在

y2中,即2024/7/317

二维情形主成分的解释(续)

注意两个主成分

y1和

y2都是

x1和

x2的线性组合:其中P为旋转变换矩阵,它是正交矩阵.

极端情形1:椭圆变成圆,第一主成分

y1只体现了原始二维样品点约一半的信息,若此时将

y2忽略,则将损失约50%的信息,这显然是不可取的.

极端情形2:椭圆扁平到了极限,变成

y1轴上一条线段,第一主成分

y1几乎包含有二维样品点的全部信息,仅用

y1代替原始数据几乎不会有任何的信息损失,此时降维效果是非常理想的.2024/7/318

利用R程序来模拟这一过程(先下载安装mvtnorm)2024/7/319

>library(mvtnorm)

#先加载多元正态及t分布程序包mvtnorm>set.seed(8)

#设置随机数种子>sigma<-matrix(c(1,0.9,0.9,1),ncol=2)#设定协方差矩阵,相关系数为0.9>mnorm<-rmvnorm(n=200,mean=c(0,0),sigma=sigma)>plot(mnorm)#产生200个二维正态分布随机数并画散点图(见图9-2)>abline(a=0,b=1);abline(a=0,b=-1)#画坐标轴旋转45度后的二条直线>eig<-eigen(cor(mnorm));eig#求特征值和特征向量>vector1<-eig$vectors[,1];vector2<-eig$vectors[,2]>y1<-scale(mnorm)%*%vector1;y2<-scale(mnorm)%*%vector2#将数据标准化>plot(y1,y2,ylim=c(-2,2));abline(h=0,v=0)

#见图9-3>cbind(var(y1),var(y2),cor(y1,y2))

[,1][,2][,3][1,]1.885428

0.11457184.418324e-16#可见y1方差很大为1.885,y2方差相对很小为0.115,且y1和y2不相关

#可以认为原来二维数据的变化都体现在y1一个维度上了2024/7/3110

图9-2二维正态分布模拟数据的主成分示意图2024/7/3111

图9-3坐标轴旋转以后的散点图一般,设总体的p个主成分为:

第i

个主成分yi的方差为y1

X的一切线性组合中方差最大者;y2

是与y1

不相关是

X的一切线性组合中方差最大者;······2024/7/3112

9.2.2主成分的计算2024/7/3113

9.2.3主成分的主要性质2024/7/3114

设总体X的p个主成分所成向量为:性质1

:性质2:性质3:载荷与载荷矩阵:2024/7/3115

9.2.4主成分个数的确定2024/7/3116

第i

个主成分yi的方差贡献率为:通常取使得累积贡献率满足的最小的k为主成分个数.有的文献取累积贡献率首次超过85%的k.

9.2.5变量的标准化及意义从总体协方差矩阵Σ出发做主成分分析倾向于反映方差大的变量的信息,会出现“大数吃小数”的现象.为了均等地对待每一个原始变量,常常将各原始变量作标准化处理:标准化后的总体

的协方差矩阵恰好是原总体X的相关系数矩阵

ρ.综上讨论,既可从Σ出发,也可以从ρ出发做主成分分析,考虑到现实经济意义,后者用得更多.2024/7/3117

9.3样本主成分实际问题中Σ和ρ往往是未知的,需要用样本的协方差矩阵

S和样本的相关系数矩阵

R来估计:2024/7/3118

9.3.1样本主成分的性质和计算设S的p个特征值为,对应的单位正交特征向量为,则样本的第

i个主成分为性质1

:性质2

:性质3

:性质4:2024/7/3119

9.3.2主成分分析的步骤

实际问题中更常用的是从样本相关系数矩阵R

出发进行主成分分析,方法是用

R

替换

S,其余操作不变,其步骤可归纳为:将原始样本标准化求样本的相关系数矩阵

R

求R的特征值以及对应的单位正交特征向量按主成分累积贡献率超过80%确定主成分的个数k,并写出主成分表达式为(5)对分析结果做统计意义和实际意义两方面的解释.2024/7/3120

主成分分析特别说明:2024/7/3121

9.3.2

(续)主成分相关的R函数1.

princomp函数(这是主成分分析最常用的函数)princomp(x,cor=FALSE,score=TRUE,…)2.summary函数(提取主成分的信息)summary(object,loadings=FALSE,…)3.loadings函数(显示主成分的载荷阵)loadings(object)4.

predict函数(预测主成分的值)predict(object,newdata,…)5.

screeplot函数(画出主成分的碎石图)screeplot(object,type=c(“barplot”,“lines”,…)2024/7/3122

2024/7/3123表9-1给出了52名学生的数学

(x1)、物理

(x2)、化学

(x3)、语文

(x4)、历史

(x5)和英语

(x6)成绩,对其进行主成分分析.例9.1学生六门课成绩数据的主成分分析>setwd("C:/data")#设定工作路径>d9.1<-read.csv(“exam9.1.csv”,header=T)#读入数据>R=round(cor(d9.1),3);R#样本相关系数阵保留三位小数

x1x2x3x4x5x6x11.0000.6470.696-0.561-0.456-0.439x2

0.6471.0000.573-0.503-0.351-0.458x30.6960.5731.000

-0.380-0.274-0.244x4-0.561-0.503-0.3801.0000.8130.835x5-0.456-0.351-0.2740.8131.0000.819x6-0.439-0.458-0.244

0.8350.8191.000解

先读取数据,求样本相关系数矩阵,R程序如下:表6-017个地质勘探点样品的标准化数据2024/7/3124

学号x1x2x3x4x5x6165617284817927777766470553676349656757478847562716456671675265576831007941675078694975163558678453586656……………………………………4599100995363604678685275746647729073768079486964606874804952626510096100507072567482745172747588918652687470878783表

9-152名学生六门课程成绩数据2024/7/3125

易见,文科三门课程语文(x4)、历史(x5)和英语(x6)相关性较强;理科三门课程数学(x1)、物理(x2)和化学(x3)相关性也较强.可以进一步作主成分分析,求样本相关矩阵的特征值和主成分载荷.

由下面的R程序运行结果可知主成分的标准差,即相关系数矩阵的六个特征值开方各为:同时前两个主成分的累积贡献率为0.618+0.210=0.829,已经超过80%,所以取两个主成分就可以了.2024/7/3126>PCA9.1=princomp(d9.1,cor=T)

#用样本相关系数阵做主成分分析>PCA9.1Call:princomp(x=d9.1,cor=T)Standarddeviations:Comp.1Comp.2Comp.3Comp.4Comp.5Comp.61.926

1.1240.6640.5200.4120.3836variablesand52observations.>summary(PCA9.1,loadings=T)

#列出主成分分析结果Importanceofcomponents:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Standarddeviation1.926

1.124

0.6640.5200.4120.383ProportionofVariance

0.6180.2100.0730.0450.0280.024CumulativeProportion

0.6180.8290.9020.9470.9761.000Loadings:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6x1-0.412-0.3760.2160.788-0.145x2-0.381-0.357-0.806

-0.1180.212

0.141x3-0.332-0.563

0.467-0.588x40.461-0.279

0.599-0.590x50.421-0.415-0.250-0.738

-0.205x60.430-0.4070.1460.1340.2220.749第一主成分和第二主成分分别为:参见教材分析,可将将它们分别理解为“课程差异主成分”

和“课程均衡主成分”.2024/7/31

27>round(predict(PCA9.1),3)

#作预测,计算主成分得分并解释>screeplot(PCA9.1,type=“lines”)

#画线型碎石图(见图9-4)>load=loadings(PCA9.1)

#提取主成分载荷矩阵为load>plot(load[,1:2],xlim=c(-0.6,0.6),ylim=c(-0.6,0.6))#作散点图>rnames=c(“数学”,“物理”,“化学”,“语文”,“历史”,“英语”)#命名>text(load[,1],load[,2],labels=rnames,adj=c(-0.3,1.5))#用中文为散点图标注>abline(h=0,v=0,lty=3)

#用虚线划分四个象限(见图9-5)2024/7/31

28图9-452名学生六门课程成绩的主成分线型碎石图2024/7/31

29图9-5前两个主成分的载荷散点图2024/7/31

30图9-652名学生成绩数据的双坐标散点图>biplot(PCA9.1,scale=0.5)

#绘制52个样本点关于前两个主成分的散点图2024/7/3131

由于第一主成分是文理课程差异因子,理科课程在第一主成分上的载荷绝对值大且取负值,文科课程在第一主成分上的载荷绝对值大且取正值,因此图中Comp.1轴方向靠左的样本点,如6,7和45号样本点,对应理科成绩好、文科成绩差的学生;相对的Comp.1轴方向靠右的样本点,如30和49号样本点,对应文科成绩好、理科成绩差的学生.又第二主成分表示课程均衡因子,在图中Comp.2轴方向靠下的样本点,如26,33号样本点,对应各科成绩都较好学生,相对的Comp.2轴方向靠上的样本点,如3,5和8号样本点,对应各科成绩都较差的学生,而居中的样本点,如42,24和39号样本点,对应各科成绩都属于中等且差异不大的学生.这样就可以对52名学生按对应样本点所在的位置进行大致分类.2024/7/3132

在某沉积盆地一坳陷区的17个取样点经勘探测定了六个地质变量:x1为有机碳(%);x2为生油层埋深(米);x3油层孔隙度(%);x4为储层厚度(米);x5为地下水含碘量(p.p.m);x6为地下水矿化度(克/升),见表9-2.要求根据这些数据进行主成分分析.例9.2石油勘探样品数据分析(数据exam9.2)表6-017个地质勘探点样品的标准化数据2024/7/3133

点号x1x2x3x4x5x61-0.9142-0.7119-0.9293-0.4385-0.57100.73612-0.3095-0.5206-1.3309-0.2764-0.57100.57143-1.0654-0.71190.2756-0.7626-1.09570.90074-1.3073-0.95111.25740.3718-1.09571.394650.1743-0.47270.3203-0.9895-0.0463-0.25186-0.8235-0.59230.40951.3441-0.83330.406870.90002.1583-0.1260-0.85981.7901-1.89838-0.0071-0.3532-1.4201-1.0219-0.0463-0.581191.20231.6799-0.7508-0.60052.3148-1.2397100.1743-0.3532-0.97391.3441-0.04630.2421112.26061.44070.72192.64050.7407-1.075012-1.4282-0.95110.0079-0.7950-1.09571.065313-0.3397-0.52062.1499-0.1144-0.57100.4068140.7790-0.23361.19700.69590.21610.9104150.41620.72321.0789-0.30880.47840.745716-0.6118-0.71190.36490.0477-0.57101.5593170.90001.08200.1418-0.27641.0031-0.5811表

9-217个地质勘探点样品的标准化数据2024/7/3134>setwd("C:/data")

#设定工作路径>d9.2<-read.csv("exam9.2.csv",header=T)#将exam9.2数据读入到d9.2中>R=round(cor(d9.2),3);R

#求样本相关系数矩阵

x1x2x3x4

x5x6x11.0000.8400.003

0.3470.839-0.747x20.8401.000-0.051

0.077

0.939-0.839x30.003-0.0511.0000.259-0.1640.285x40.3470.0770.259

1.000-0.0370.022x50.8390.939-0.164-0.0371.000-0.827x6-0.747-0.8390.2850.022-0.8271.000

易见,x2与x5相关性最强,其绝对值在0.9~0.95,x1与x2,x1与x5,x2与x6,x5与x6的相关性较强,其绝对值在0.8~0.9,说明六个变量之间确实存在较强的相关关系,应当进行“降维”处理,可以作主成分分析.2024/7/3135>options(digits=3)

#设置小数点位数为3>PCA9.2=princomp(d9.2,cor=T,scores=T);PCA9.2#作主成分分析Call:princomp(x=d9.2,cor=T,scores=T)Standarddeviations:Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6

1.8851.1700.8600.4300.3400.197>summary(PCA9.2,loadings=T)

#列出主成分分析结果Importanceofcomponents:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Standarddeviation

1.8851.1700.8600.43010.33990.19653ProportionofVariance0.5920.2280.1230.03080.01930.00644CumulativeProportion0.592

0.8200.9430.97430.99361.00000Loadings:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6x10.4850.2390.2910.7350.274x20.510-0.166-0.587

0.600x30.646-0.728-0.181x40.7020.640-0.254-0.153x50.509-0.1540.409-0.187-0.713x6-0.484

0.1590.837-0.1180.155前两个主成分的累积贡献率为0.592+0.228=0.82,已经超过80%,所以只需取两个主成分.第一主成分和第二主成分各为(为简明起见,样本主成分表达式中的所有“*”省略,以下同):2024/7/3136

四个变量x1

(有机碳),x2(生油层埋深),x5(地下水含碘量)和x6(地下水矿化度)在主成分z1上载荷较大,故第一主成分z1可解释为“生油条件”主成分;第二主成分z2与x3(油层孔隙度)和x4(储层厚度)这两个变量关系特别密切,可解释为“储油条件”主成分.这样的分析结果与石油地质理论是相符合的.2024/7/3137>screeplot(PCA6.1,type=“lines”)#画碎石图,用直方图类型(见图9-7)图9-717个石油地质勘测点样本数据的主成分碎石图2024/7/3138用主成分载荷矩阵前两列数据作主成分载荷散点图(见图9-8),R程序如下:.load=loadings(PCA9.2)#提取主成分载荷矩阵plot(load[,1:2],xlim=c(-0.5,1),ylim=c(-0.2,0.8))

#作散点图rnames=c(“x1有机碳”,“x2生油层埋深”,“x3油层孔隙度”,“x4储层厚度","x5地下水含碘量","x6地下水矿化度")#见图9-8text(load[,1],load[,2],labels=rnames,cex=0.8,adj=c(-0.1,0.6))

#用中文为散点标号abline(h=0,v=0,lty=3)

#用虚线划分象限六个变量在主成分z1和z2坐标面上的载荷散点图表明了两个主成分z1和z2具有明显的“生油”和“储油”倾向特征.2024/7/3139

图9-8两个主成分的载荷散点图2024/7/3140>A=round(PCA9.2$scores,3)

#计算主成分得分,取3位小数>B=round(apply(A[,1:2],1,crossprod),2)

#按行加总前2个主成分上的载荷平方>cbind(A,"综合得分“=B,"排名“=rank(B))

#按列合并主成分得分、综合得分和排名

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6综合得分

排名

[1,]

-1.333

-1.1500.6350.136-0.150

-0.015

3.10

9

[2,]

-0.798

-1.1751.0730.252

0.1530.261

2.024

[3,]

-1.901

-0.540

-0.429

-0.187-0.047

0.287

3.9112

[4,]

-2.421

0.956

-0.424

-0.124-0.402-0.125

6.7814

[5,]

-0.037

-0.640

-0.669

-0.357

0.749

-0.144

0.412

[6,]

-1.2091.0340.836

-0.626-0.472-0.190

2.536

[7,]3.560

-1.001

-0.862

-0.504-0.495

0.093

13.6816

[8,]0.265

-1.930

0.606

-0.359

0.514

0.0033.8011

[9,]3.474

-1.110

-0.2160.441-0.255-0.37513.30

15[10,]0.0420.2641.8140.143-0.052-0.2290.071[11,]3.0332.6361.183

-0.323

0.189

0.30416.1517[12,]

-2.269

-0.814

-0.245

-0.119-0.2010.0955.8113[13,]

-1.0471.250

-1.458

-0.573

0.258-0.144

2.667[14,]

-0.0401.500

-0.2940.678

0.464-0.181

2.255[15,]0.4510.589

-1.0980.725-0.161

0.258

0.553[16,]

-1.6920.285

-0.0300.668-0.095

0.000

2.948[17,]1.922

-0.152

-0.4200.129

0.003

0.102

3.7210

11号样本点综合排名最高,为17分;7号和9号排名次之,分别为16分和15分;之后样本点得分排名从高到低依次为4、12、3、8和17号.

利用函数biplot来绘制它们在z1和z2构成的坐标面

z1Oz2上的散点图,并且加入六个变量在同一坐标面

z1Oz2上的载荷散点图,得到所谓的“双坐标”散点图(见图9-9).

借助该图可以对17个勘测样本点进行大致分类:11号样本点独居右上,它在

“生油”主成分z1和“储油”主成分z2上得分均高,应该首先重点关注.7、9号样本点相邻且最靠右,且在z1得分很高,可合为一类,次重点考虑;此外,在z1和z2上至少有一个得分较高的3、4、8、12和17号样本点也应该重点考察.这与上面的综合得分和排名一致.2024/7/3141

2024/7/3142

图9-917个石油地质勘测点样本数据的双坐标散点图>biplot(PCA9.2,scale=0.5)#绘制17个样本点和6个变量对z1和z2的散点图9.4案例:主成分回归分析

案例9.1(数据文件为case9.1)表9-3给出了2019年全国31个地区相关数据.它们分别为:货运量x1(万吨),货物周转量x2(亿吨公里),GDPx3(亿元),人均GDPx4(元),城镇居民人均可支配收入y(元).根据这些数据做线性回归分析和主成分回归分析,并比较它们的异同.2024/7/3143

2024/7/3144

表9-32019年全国部分地区货运量、GDP、人均可支配收入等数据城市x1x2x3x4y北京22808108935371.316422073848.5天津50093266214104.39037146118.9河北2424451356335104.54634835737.7山西192192546617026.74572433262.4内蒙古182702458717212.56785240782.5辽宁178253892124909.55719139777.2吉林431931

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论