全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析(principal component analysis)是将多指标化为少数几个综合指标的一种统计分析方法,这种降维的技术而生成的主成分,能够反映原始变量的绝大部分信息,通常表示为原始变量的线性组合。下面主要介绍在R中的主成分分析(1)概念:主成分的均值和协方差阵主成分的总方差 贡献率及累计贡献率原始变量与主成分变量之间的相关系数m个主成分对原始变量的贡献率原始变量对主成分的影响(2)从相关矩阵或者协方差矩阵出发求主成分变量的标准化scale()(3)在R中,可以用stats包中的prcomp函数及princmp()函数进行主成分分析。# 类formula的S3方法prcomp(formula, data = NULL, subset, na.action, .)# Default S3 method:prcomp(x, retx = TRUE, center = TRUE, scale = FALSE, tol = NULL, .)参数介绍:formula:在公式方法中设定的没有因变量的公式,用来指明数据分析用到的数据框汇中的列data:包含在formula中指定的数据的数据框对象,subset:向量对象,用来指定分析时用到的观测值,其为可选参数na.action:指定处理缺失值的函数x:在默认的方法下,指定用来分析的数值型或者复数矩阵retx:逻辑变量,指定是否返回旋转变量center:逻辑变量,指定是否将变量中心化scale:逻辑变量,指定是否将变量标准化tol:数值型变量,用来指定精度,小于该数值的值将被忽略。princomp(formula, data = NULL, subset, na.action, .)# Default S3 method:princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, subset = rep_len(TRUE, nrow(as.matrix(x), .)# S3 method for class princomppredict(object, newdata, .)参数介绍:formula:是没有相应变量的公式cor:逻辑变量,若为cor=T表示用样本的相关矩阵R作主成分分析,cor=F,表示用样本的协方差矩阵s作为主成分分析covmat:协方差矩阵,如果数据不用x提供,可由协方差提供。(4)可以用summary()函数查询关于每个主成分的重要信息summary(object,loadings=F,cutoff=0.1,)#object是由prcomp得到的对象,loadings是逻辑变量,当loadings=T表示显示loadings的内容,loadings=F是表示不显示(5)使用loadings()函数查看每个变量对主成分的贡献度loadings(x)#x是由函数prcomp()或factanal()得到的对象(6)针对princomp()对象的plot方法。该方法可以绘制展示每个主成分与其自身方差贡献度相关性的悬崖碎石图。plot()(7)用双标图将主成分可视化,画出数据关于主成分的散点图和原坐标在主成分下的向量biplot(model,choices=1:2,scale=1,pc.biplot=F,)#model是由prcomp()得到的对象,choices是选择的主成分,缺省值是第1,第2主成分。pc.biplot是逻辑变量,缺省值为F,当pc.biplot=T,用Gabriel提出的方法绘图。(8)predict函数是预测主成分的值,predict(object,newdata,)#object是由prcomp()得到的对象,newdata是由预测值构成的数据框,当newdata缺省时,预测已有数据的主成分值。实例:中学生身体四项指标的主成分分析30名学生,测量其 身高(X1)、体重(X2),胸围(X3)和坐高(X4)。对这30名中学生身体四项指标数据做主成分分析。解:用数据框形式输入数据,用prcomp()做主成分分析,由分析,选择相关矩阵作为主成分分析更为合理,因此,cor=T。最后,用summary()列出主成分分析的值,这里选择loadings=T。数据:data数据框 data#作主成分分析利用函数princomp(),并显示分析结果 data.pr summary(data.pr,loadings=T)Importance of components: Comp.1 Comp.2 Comp.3 Comp.4Standard deviation 1.8734984 0.55887643 0.33494435 0.25587705Proportion of Variance 0.8774991 0.07808572 0.02804693 0.01636827Cumulative Proportion 0.8774991 0.95558481 0.98363173 1.00000000Loadings: Comp.1 Comp.2 Comp.3 Comp.4X1 -0.498 0.530 -0.517 0.452X2 -0.516 -0.225 -0.378 -0.736X3 -0.484 -0.716 0.151 0.480X4 -0.502 0.395 0.753 -0.155#作主成分分析利用函数prcomp(),并显示分析结果 data.prcomp summary(data.prcomp)Importance of components: PC1 PC2 PC3 PC4Standard deviation 11.1906 3.28990 1.70325 1.54005Proportion of Variance 0.8861 0.07658 0.02053 0.01678Cumulative Proportion 0.8861 0.96269 0.98322 1.00000以上结果介绍:Standard deviation :表示主成分的标准差,即主成分的方差的开方,也就是相应的特征值的开方Proportion of Variance:表示方差的贡献率Cumulative Proportion :表示方差的累计贡献率在summary()函数的参数中选取了loadings=T,因此列出了loadings的内容,实际是主成分对应于原始变量X1,X2,X3,X4的系数,可以得到主成分Z1=-0.498X1-0.516X2-0.484X3-0.502X4Z2=0.530X1-0.225X2-0.716X3+0.395X4由于前面两个主成分累计贡献率已达到96%,另外两个主成分可以舍去,达到降维的目的。第一主成分对应系数的符号都相同,其值在0.5左右,反映中学生身材魁梧程度;我们称第1主成分为大小因子;第二主成分对应高度与维度的差,第二主成分值大的学生表明该学生细高,值小的说明学生矮胖。我们称第2主成分为体形因子。各样本的主成分的值(用predict()函数)#对主成分做预测 predict(data.pr)从第一主成分预测值可以看出,较小的几个值是25,3,5号样本,说明这几个学生身材魁梧,而11,15,29样本的值较大,说明这几个学生身材瘦小;从第二主成分预测值可以看出,较小的几个值是17,8,2号样本,说明这几个学生身材属于矮胖型,而231,19,4样本的值较大,说明这几个学生身材属于细高型的;#画出主成分的碎石图 screeplot(data.pr,type=lines)#画出关于第1主成分和第2主成分样本的散点图。 biplot(data.pr)主成分分析的应用主成分分类根据主成分分析,通过散点图可以看出,对于不同的指标,将会聚集在一起,故可以进行分类。主成分回归对自变量出现多重共线性的时候,主成分分析能够克服经典回归的不足。代码:data-read.table(C:data.txt)data.pr-princomp(da
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030信息学校监控电视行业项目调研及市场前景预测评估报告
- 旅游安全与危机题库及答案解析
- 2025至2030房产交易管理行业产业运行态势及投资规划深度研究报告
- 申论 住房安全知识题库及答案解析
- 2025-2030绿色建筑行业市场现状供需分析及投资价值评估分析报告
- 2025-2030绿色建筑技术推广障碍与市场渗透率调查报告
- 2025-2030绿色养殖背景下药用饲料政策环境与行业发展预测报告
- 2025-2030绿氢电解槽技术路线竞争格局与降本空间测算分析报告
- 2025-2030维生素D缺乏与婴幼儿神经发育关联性研究综述
- 2025-2030细胞治疗临床试验进展与监管政策演变趋势研究报告
- 07第七讲 发展全过程人民民主
- 公文写作培训公文格式公文写作方法PPT
- 虎门销烟微电影剧本
- 计算材料学导论
- 中国肺动脉高压诊断与治疗指南(2021版)解读
- 心肺复苏与电除颤指南课件
- GB/T 25747-2010镁合金压铸件
- 文创产品设计专题课件
- 李冬梅:第一讲+高中信息技术新课标理念目标与实施
- DB4401-T 6-2018园林绿地养护技术规范-(高清现行)
- 药品生产质量管理工程完整版课件
评论
0/150
提交评论