第6章-主成分分析.ppt_第1页
第6章-主成分分析.ppt_第2页
第6章-主成分分析.ppt_第3页
第6章-主成分分析.ppt_第4页
第6章-主成分分析.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主编 费宇中国人民大学出版社 2020 4 20 主编 费宇 1 第6章主成分分析 2020 4 20 主编 费宇 2 主成分分析 也称主分量分析 是由Hotelling于1933年提出的一种常用的多元统计方法 基本思想 用个数较少 但是保留了原始变量的大部分信息几个不相关的综合变量 即主成分 来代替原来较多的变量 从而可以简化数据 对原来复杂的数据关系进行简明有效的统计分析 主成分分析的本质就是 降维 将高维数据有效地转化为低维数据来处理 本章主要内容 6 1主成分分析的基本思想6 2总体主成分主成分的含义 计算 主要性质 主成分个数的确定 6 3样本主成分样本主成分的性质和计算 主成分分析的步骤和相关R函数 6 4案例 主成分综合分析 2020 4 20 主编 费宇 3 6 1主成分分析的基本思想 2020 4 20 主编 费宇 4 实际统计分析中 经常处理多变量 大维数数据分析问题 分析过程较复杂 难度较大 全部变量中可能存在信息的重叠 为去除这些信息重叠 希望用个数较少 但是保留了原始变量的大部分信息几个不相关的综合变量 即主成分 来代替原来较多的变量 达到降维的目的 从而进行简明有效的统计分析 主成分分析中的信息 就是指变量的变异性 常用标准差或方差来表示它 6 2总体主成分6 2 1主成分的含义 以二维正态分布样本点来直观说明 如图 设有n个样品点大致分布在平面上一个椭圆内 2020 4 20 主编 费宇 5 二维情形主成分的解释 样本点之间的差异是由x1和x2的变化引起的 两者变动的相差不大 但如果用新坐标y1和y2来代替 易见 这些样本点的差异主要体现在y1轴上 n个点在y1轴方向上的方差达到最大 即在此方向上包含了有关n个样品的最多的信息 将这些点投影到y1轴方向能使信息的损失最小 如果y1轴方向的差异占了全部样本点差异的绝大部分 那么将y2忽略是合理的 这样就把两个变量简化为一个 显然这里的y1轴代表了数据变化最大的方向 称之为第一主成分 y2称为第二主成分 并要求已经包含在y1中的信息不出现在y2中 即 2020 4 20 主编 费宇 6 二维情形主成分的解释 续 注意两个主成分y1和y2都是x1和x2的线性组合 其中P为旋转变换矩阵 它是正交矩阵 极端情形1 椭圆变成圆 第一主成分y1只体现了约一半的信息 若此时将y2忽略 则将损失约50 的信息 这显然是不可取的 极端情形2 椭圆扁平到了极限 变成y1轴上一条线段 第一主成分y1几乎包含有二维样品点的全部信息 仅用y1代替原始数据几乎不会有任何的信息损失 此时降维效果是非常理想的 2020 4 20 主编 费宇 7 一般 总体的p个主成分为 第i个主成分yi的方差为y1是X的一切线性组合中方差最大者 y2是与y1不相关是X的一切线性组合中方差最大者 2020 4 20 主编 费宇 8 6 2 2主成分的计算 2020 4 20 主编 费宇 9 6 2 3主成分的主要性质 2020 4 20 主编 费宇 10 X的p个主成分所成向量为 性质1 性质2 性质3 6 2 4主成分个数的确定 2020 4 20 主编 费宇 11 第i个主成分yi的方差贡献率为 通常取前k k p 个主成分 使得的累积贡献率即可 6 3样本主成分 主成分分析倾向于反映方差大的变量的信息 为避免 大数吃小数 的现象 均等地对待每一个原始变量 常常将各原始变量作标准化处理标准化后的总体的协方差矩阵 就是原总体X的相关系数矩阵 既可从 出发 也可以从 出发作主成分分析 考虑到现实经济意义 后者用得更多 2020 4 20 主编 费宇 12 6 3样本主成分 续 实际问题中 和 往往是未知的 需要用样本的协方差矩阵S和样本的相关系数矩阵R来估计 2020 4 20 主编 费宇 13 6 3 1样本主成分的性质和计算 设S的p个特征值为 对应的单位正交特征向量为 则样本的第i个主成分为性质1 性质2 性质3 性质4 2020 4 20 主编 费宇 14 6 3 2主成分分析的步骤 实际问题中更常用的是从样本相关系数矩阵R出发进行主成分分析 方法是用R替换S 其余操作不变 其步骤可归纳为 将原始数据标准化 求样本的相关系数矩阵R 求R的特征值 对应的特征向量为按主成分累积贡献率超过80 确定主成分的个数k 并写出主成分表达式为 5 对分析结果做统计意义和实际意义两方面的解释 2020 4 20 主编 费宇 15 6 3 2主成分相关的R函数 1 princomp函数 这是主成分分析最常用的函数 princomp x cor FALSE score TRUE 2 summary函数 提取主成分的信息 summary object loadings FALSE 3 loadings函数 显示主成分的载荷 loadings object 4 predict函数 预测主成分的值 predict object newdata 5 screeplot函数 画出主成分的碎石图 screeplot object type c barplot lines 2020 4 20 主编 费宇 16 例6 1六门课程成绩的主成分分析 表6 1给出了52名学生的数学 xu12 物理 x2 化学 x3 语文 x4 历史 x5 和英语 x6 成绩 对其进行主成分分析 打开数据文件eg6 1 xls 选取A1 F53区域后复制 data6 1R round cor data6 1 3 R 求样本相关系数矩阵并显示 保留三位小数 PCA6 1 princomp data6 1 cor T PCA6 1 summary PCA6 1 loadings T 前两个主成分的累积贡献率82 9 2020 4 20 主编 费宇 17 例6 1 续 六门课程成绩的主成分分析 第一主成分和第二主成分分别为将它们分别理解为课程差异因子和课程均衡因子 round predict PCA6 1 3 作预测 screeplot PCA6 1 type lines 画碎石图 PCA6 1 scores 可计算主成分得分 load loadings PCA6 1 提取主成分载荷矩阵 plot load 1 2 xlim c 0 6 0 6 ylim c 0 6 0 6 text load 1 load 2 adj c 0 5 0 5 为散点标号 abline h 0 abline v 0 划分象限 2020 4 20 主编 费宇 18 6 4案例 主成分综合分析 案例6 1 数据文件为case6 1 表6 2给出了某市工业部门13个行业8项重要经济指标数据 其中X1为年末固定资产净值 万元 X2为职工人数据 人 X3为工业总产值 万元 X4为全员劳动生产率 元 人年 X5为百元固定资产原值实现产值 元 X6为资金利税率 X7为标准燃料消费量 吨 X8为能源利用效果 万元 吨 根据这些数据进行主成分分析 2020 4 20 主编 费宇 19 2020 4 20 主编 费宇 20 案例6 1求解过程 1 计算样本相关系数阵 打开数据文件case6 1 xls 选取B2 J15后复制 case6 1R round cor case6 1 3 求样本相关系数阵 R 显示样本相关系数阵 易见前三个指X1 X2 X3之间的相关性很强 X4 X5 X6之间的相关性较强 2020 4 20 主编 费宇 21 2 作主成分分析 计算R的特征值画 碎石图 PCAcase6 1 princomp case6 1 cor T PCAcase6 1 summary PCAcase6 1 loadings T screeplot PCAcase6 1 type lines plot load 1 2 xlim c 0 6 0 5 ylim c 0 6 0 5 text load 1 load 2 adj c 0 8 0 5 cex 1 2 abline h 0 abline v 0 2020 4 20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论