




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析 principalcomponentsanalysis PCA 主成分分析介绍基本思想基本原理作用计算主成分个数选取原则例题SPSS操作 主成分分析介绍 在统计学中 主成分分析 principalcomponentsanalysis PCA 是一种简化数据集的技术 它是一个线性变换 这个变换把数据变换到一个新的坐标系统中 使得任何数据投影的第一大方差在第一个坐标 称为第一主成分 上 第二大方差在第二个坐标 第二主成分 上 依次类推 主成分分析经常用减少数据集的维数 同时保持数据集的对方差贡献最大的特征 这是通过保留低阶主成分 忽略高阶主成分做到的 这样低阶成分往往能够保留住数据的最重要方面 但是 这也不是一定的 要视具体应用而定 主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标 这少数几个指标能够反映原来指标大部分的信息 85 以上 并且各个指标之间保持独立 避免出现重叠信息 主成分分析主要起着降维和简化数据结构的作用 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法 在社会经济的研究中 为了全面系统的分析和研究问题 必须考虑许多经济指标 这些指标能从不同的侧面反映我们所研究的对象的特征 但在某种程度上存在信息的重叠 具有一定的相关性 主成分分析的基本思想 主成分分析试图在力保数据信息丢失最少的原则下 对这种多变量的截面数据表进行最佳综合简化 也就是说 对高维变量空间进行降维处理 很显然 识辨系统在一个低维空间要比在一个高维空间容易得多 在力求数据信息丢失最少的原则下 对高维的变量空间降维 即研究指标体系的少数几个线性组合 并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息 这些综合指标就称为主成分 主成分分析法的基本原理 主成分分析法是一种降维的统计方法 它借助于一个正交变换 将其分量相关的原随机向量转化成其分量不相关的新随机向量 这在代数上表现为将原随机向量的协方差阵变换成对角形阵 在几何上表现为将原坐标系变换成新的正交坐标系 使之指向样本点散布最开的p个正交方向 然后对多维变量系统进行降维处理 使之能以一个较高的精度转换成低维变量系统 再通过构造适当的价值函数 进一步把低维系统转化成一维系统 主成分分析的主要作用 1 主成分分析能降低所研究的数据空间的维数 即用研究m维的Y空间代替p维的X空间 m p 而低维的Y空间代替高维的x空间所损失的信息很少 即 使只有一个主成分Yl 即m 1 时 这个Yl仍是使用全部X变量 p个 得到的 例如要计算Yl的均值也得使用全部x的均值 在所选的前m个主成分中 如果某个Xi的系数全部近似于零的话 就可以把这个Xi删除 这也是一种删除多余变量的方法 2 有时可通过因子负荷aij的结论 弄清X变量间的某些关系 主成分分析的主要作用 3 多维数据的一种图形表示方法 我们知道当维数大于3时便不能画出几何图形 多元统计研究的问题大都多于3个变量 要把研究的问题用图形表示出来是不可能的 然而 经过主成分分析后 我们可以选取前两个主成分或其中某两个主成分 根据主成分的得分 画出n个样品在二维平面上的分布况 由图形可直观地看出各样品在主分量中的地位 进而还可以对样本进行分类处理 可以由图形发现远离大多数样本点的离群点 4 由主成分分析法构造回归模型 即把各主成分作为新自变量代替原来自变量x做回归分析 主成分分析的主要作用 5 用主成分分析筛选回归变量 回归变量的选择有着重的实际意义 为了使模型本身易于做结构分析 控制和预报 好从原始变量所构成的子集合中选择最佳变量 构成最佳变量集合 用主成分分析筛选变量 可以用较少的计算量来选择量 获得选择最佳变量子集合的效果 主成分分析法的计算 假设我们所讨论的实际问题中 有p个指标 我们把这p个指标看作p个随机变量 记为X1 X2 Xp 主成分分析就是要把这p个指标的问题 转变为讨论m个新的指标F1 F2 Fm m p 按照保留主要信息量的原则充分反映原指标的信息 并且相互独立 其中 主成分分析法的计算 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维 主成分分析通常的做法是 寻求原指标的线性组合Fi 满足如下的条件 每个主成分的系数平方和为1 即主成分之间相互独立 即无重叠的信息 即 主成分分析法的计算 主成分的方差依次递减 重要性依次递减 即先讨论二维情形求第一主成分F1和F2 主成分分析法的计算 我们已经把主成分F1和F2的坐标原点放在平均值所在处 从而使得F1和F2成为中心化的变量 即F1和F2的样本均值都为零 因此F1可以表示为关键是 寻找合适的单位向量 使F1的方差最大 实际上 X的协方差矩阵S的第二大特征根所对应的单位特征向量即为 并且就是F2的方差 主成分分析法的计算 其中 aij称为因子载荷量因子载荷量 主成分与变量间的相关系数即 因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向 从而可以说明各主成分的意义 主成分分析法的计算 计算步骤 求样本均值和样本协方差矩阵S 求S的特征根求解特征方程 其中I是单位矩阵 解得2个特征根求特征根所对应的单位特征向量写出主成分的表达式 主成分个数的选取原则 根据累积贡献率的大小取前面m个 m p 主成分选取原则 且 例题 例1下表是10位学生的身高 胸围 体重的数据 对此进行主成分分析 例题 求样本均值和样本协方差矩阵求解协方差矩阵的特征方程解得三个特征值和对应的单位特征向量 例题 由此我们可以写出三个主成分的表达式 主成分的含义F1表示学生身材大小 F2反映学生的体形特征 三个主成分的方差贡献率分别为 例题 前两个主成分的累积方差贡献率为 操作 下面是某年
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医生初级面试技巧与模拟题解析
- 2025年特岗教师招聘考试物理模拟试题及答案解析
- 2025年水利行业高级职位面试必-备灌区管理模拟题解析
- 2025年餐饮企业审计部门笔试模拟题集
- 胆囊癌护理查房
- 甲状腺癌病例讨论课件
- 甲状腺功能亢进护理
- 使用课件的教学方法
- 新解读《GB-T 36806-2018甘蔗杆状病毒实时荧光PCR检测方法》
- 做教学课件反思与总结
- 最全海外常驻和出差补助管理规定
- 试生产总结报告
- 房地产制度与标准 -中建一局项目管理标准化指导手册(第一版)
- 《老年学概论(第3版)》课件第一章
- GB/T 6495.1-1996光伏器件第1部分:光伏电流-电压特性的测量
- GB/T 30951-2014小型水电站机电设备报废条件
- GB/T 18948-2017内燃机冷却系统用橡胶软管和纯胶管规范
- 电动汽车充电桩申请安装备案表
- DB32T 4073-2021 建筑施工承插型盘扣式钢管支架安全技术规程
- 易制毒、易制爆培训试卷及答案
- 入行论94课第1个颂词
评论
0/150
提交评论