




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 一 主成分分析概述 2 假定你是一个公司的财务经理 掌握了公司的所有数据 这包括众多的变量 比如固定资产 流动资金 每一笔借贷的数额和期限 各种税费 工资支出 原料消耗 产值 利润 折旧 职工人数 职工的分工和教育程度等等 如果让你向上级或有关方面介绍公司状况 你能够把这些指标和数字都原封不动地摆出去吗 引子 3 当然不能 汇报什么 发现在如此多的变量之中 有很多是相关的 人们希望能够找出它们的少数 代表 来对它们进行描述 需要把这种有很多变量的数据进行高度概括 用少数几个指标简单明了地把情况说清楚 4 主成分分析 PrincipalComponentsAnalysis 和因子分析 FactorAnalysis 就是把变量维数降低以便于描述 理解和分析的方法 主成分分析也称为主分量分析 是一种通过降维来简化数据结构的方法 如何把多个变量化为少数几个综合变量 综合指标 而这几个综合变量可以反映原来多个变量的大部分信息 所含的信息又互不重叠 即它们之间要相互独立 互不相关 这些综合变量就叫因子或主成分 它是不可观测的 即它不是具体的变量 这与聚类分析不同 只是几个指标的综合 在引入主成分分析之前 先看下面的例子 什么是主成分分析法 5 成绩数据 53个学生的数学 物理 化学 语文 历史 英语的成绩如下表 部分 6 从本例可能提出的问题 能不能把这个数据表中的6个变量用一两个综合变量来表示呢 这一两个综合变量包含有多少原来的信息呢 能不能利用找到的综合变量来对学生排序呢 7 事实上 以上的三个问题在地理学研究中 也会经常遇到 它所涉及的问题可以推广到对企业 对学校 对区域进行分析 评价 排序和分类等 比如对n个区域进行综合评价 可选的描述区域特征的指标很多 而这些指标往往存在一定的相关性 既不完全独立 又不完全相关 这就给研究带来很大不便 若选指标太多 会增加分析问题的难度与复杂性 选指标太少 有可能会漏掉对区域影响较大的指标 影响结果的可靠性 8 这就需要我们在相关分析的基础上 采用主成分分析法找到几个新的相互独立的综合指标 达到既减少指标数量 又能区分区域间差异的目的 9 二 主成分分析的基本原理 10 一 主成分分析的几何解释 例中数据点是六维的 即每个观测值是6维空间中的一个点 希望把6维空间用低维空间表示 先假定只有二维 即只有两个变量 语文成绩 x1 和数学成绩 x2 分别由横坐标和纵坐标所代表 每个学生都是二维坐标系中的一个点 11 空间的点 如果这些数据形成一个椭圆形状的点阵 这在二维正态的假定下是可能的 该椭圆有一个长轴和一个短轴 在短轴方向上数据变化很少 在极端的情况 短轴如退化成一点 长轴的方向可以完全解释这些点的变化 由二维到一维的降维就自然完成了 12 假定语文成绩 X1 和数学成绩 X2 的相关系数 0 6 设X1和X2分别为标准化后的分数 右图为其散点图 13 那么随机向量 的方差 协方差矩阵为 可以看出 在变量标准化的情况下的方差 协方差矩阵与其相关矩阵相等 由求矩阵特征值和特征向量的方法 令 可以求出 14 对应的特征向量分别为 显然 这两个特征向量是相互正交的单位向量 而且它们与原来的坐标轴X1和X2的夹角都分别等于45 如果将坐标轴X1和X2旋转45 那么点在新坐标系中的坐标 Y1 Y2 与原坐标 X1 X2 有如下的关系 Y1和Y2均是X1和X2的线性组合 系数代表什么 15 在新坐标系中 可以发现 虽然散点图的形状没有改变 但新的随机变量Y1和Y2已经不再相关 而且大部分点沿Y1轴散开 在Y1轴方向的变异较大 即Y1的方差较大 相对来说 在Y2轴方向的变异较小 即Y2的方差较小 16 事实上 随机变量Y1和Y2的方差分别为 可以看出 最大变动方向是由特征向量所决定的 而特征值则刻画了对应的方差 这只是我们举的一个例子 对于一般情况 数学上也能证明 17 在上面的例子中Y1和Y2就是原变量X1和X2的第一主成分和第二主成分 实际上第一主成分Y1就基本上反映了X1和X2的主要信息 因为图中的各点在新坐标系中的Y1坐标基本上就代表了这些点的分布情况 因此可以选Y1为一个新的综合变量 当然如果再选Y2也作为综合变量 那么Y1和Y2则反映了X1和X2的全部信息 18 从几何上看 找主成分的问题就是找出p维空间中椭球体的主轴问题 就是要在x1 xp的相关矩阵中m个较大特征值所对应的特征向量 究竟提取几个主成分或因子 一般有两种方法 特征值 1累计贡献率 0 8那么如何提取主成分呢 二 主成分分析的基本思想 19 假定有n个地理样本 每个样本共有p个变量 构成一个n p阶的地理数据矩阵 3 5 1 综合指标如何选取呢 这些综合指标要想尽可能多地反映原指标的信息 综合指标的表达式中要含有原指标 那么我们通常是取原指标的线性组合 适当调整它们的系数 使综合指标间相互独立且代表性好 20 定义 记x1 x2 xP为原变量指标 z1 z2 zm m p 为新变量指标 3 5 2 可以看出 新指标对原指标有多个线性组合 新指标对哪个原指标反映的多 哪个少 取决于它的系数 系数lij的确定原则 zi与zk i k i k 1 2 m j 1 2 p 相互无关 21 z1是x1 x2 xP的一切线性组合中方差最大者 最能解释它们之间的变化 z2是与z1不相关的x1 x2 xP的所有线性组合中方差最大者 zm是与z1 z2 zm 1都不相关的x1 x2 xP 的所有线性组合中方差最大者 则新变量指标z1 z2 zm分别称为原变量指标x1 x2 xP的第1 第2 第m主成分 22 从以上的分析可以看出 主成分分析的实质就是确定原来变量xj j 1 2 p 在诸主成分zi i 1 2 m 上的荷载lij i 1 2 m j 1 2 p 从数学上可以证明 它们分别是相关矩阵 也就是x1 x2 xP的相关系数矩阵 m个较大的特征值所对应的特征向量 23 三 主成分分析的计算步骤 24 一 计算相关系数矩阵rij i j 1 2 p 为原变量xi与xj标准化后的相关系数 rij rji 其计算公式为 3 5 3 3 5 4 25 二 计算特征值与特征向量1 解特征方程 求出特征值 并使其按大小顺序排列 2 分别求出对应于特征值的特征向量 要求 1 即 其中表示向量的第j个分量 也就是说为单位向量 26 3 计算主成分贡献率及累计贡献率贡献率 累计贡献率 一般取累计贡献率达85 95 的特征值所对应的第1 第2 第m m p 个主成分 27 4 计算主成分载荷在主成分之间不相关时 主成分载荷就是主成分zi与变量xj之间的相关系数 在数学上可以证明 5 各主成分的得分得到各主成分的载荷以后 可以按照 3 5 2 计算各主成分的得分 3 5 5 28 3 5 6 每个地区的综合评价值为 对各个主成分进行加权求和 权重为每个主成分方差的贡献率 29 四 SPSS在主成分分析中的应用 30 以全国31个省市的8项经济指标为例 进行主成分分析 第一步 录入或调入数据 图1 图1原始数据 未经标准化 31 32 设置描述 Descriptives 选项 单击描述按钮 弹出描述对话框 选中单变量描述性 Univariatedescriptives 复选项 则输出结果中将会给出原始数据的抽样均值 方差和样本数目选中原始分析结果 Initialsolution 复选项 则会给出主成分载荷的公因子方差 这一栏数据分析时有用 在相关矩阵 CorrelationMatrix 栏中 选中系数 Coefficients 复选项 则会给出原始变量的相关系数矩阵 选中行列式 Determinant 复选项 则会给出相关系数矩阵的行列式 如果希望在Excel中对某些计算过程进行了解 可选此项 否则用途不大 其它复选项一般不用 但在特殊情况下可以用到 设置完成以后 单击Continue按钮完成设置 图5 33 打开抽取对话框 因子提取方法主要有7种 在方法 Method 栏中可以看到 系统默认的提取方法是主成分 因此对此栏不作变动 就是认可了主成分分析方法 设置抽取 Extraction 选项 在分析 Analyze 栏中 选中相关性矩阵 Correlationmatirx 复选项 则因子分析基于数据的相关系数矩阵进行分析 如果选中协方差矩阵 Covariancematrix 复选项 则因子分析基于数据的协方差矩阵进行分析 对于主成分分析而言 由于数据标准化了 这两个结果没有分别 因此任选其一即可 34 在输出 Display 栏中 选中Unrotatedfactorsolution 非旋转因子解 复选项 则在分析结果中给出未经旋转的因子提取结果 对于主成分分析而言 这一项选择与否都一样 对于旋转因子分析 选择此项 可将旋转前后的结果同时给出 以便对比 选中ScreePlot 碎石图 则在分析结果中给出特征根按大小分布的折线图以便我们直观地判定因子的提取数量是否准确 35 在抽取栏中 有两种方法可以决定提取主成分 因子 的数目 一是根据特征根 Eigenvalues 的数值 系统默认的是 1 我们知道 在主成分分析中 主成分得分的方差就是对应的特征根数值 如果默认 1 则所有方差大于等于1的主成分将被保留 其余舍弃 如果觉得最后选取的主成分数量不足 可以将 值降低 例如取 0 9 如果认为最后的提取的主成分数量偏多 则可以提高 值 例如取 1 1 主成分数目是否合适 要在进行一轮分析以后才能肯定 因此 特征根数值的设定 要在反复试验以后才能决定 一般而言 在初次分析时 最好降低特征根的临界值 如取 0 8 这样提取的主成分将会偏多 根据初次分析的结果 在第二轮分析过程中可以调整特征根的大小 36 第二种方法是直接指定主成分的数目即因子数目 这要选中Numberoffactors复选项 主成分的数目选多少合适 开始我们并不十分清楚 因此 首次不妨将数值设大一些 但不能超过变量数目 本例有8个变量 因此 最大的主成分提取数目为8 不得超过此数 在我们第一轮分析中 采用系统默认的方法提取主成分 需要注意的是 主成分计算是利用迭代 Iterations 方法 系统默认的迭代次数是25次 但是 当数据量较大时 25次迭代是不够的 需要改为50次 100次乃至更多 对于本例而言 变量较少 25次迭代足够 故无需改动 设置完成以后 单击Continue按钮完成设置 37 选中保存为变量 Saveasvariables 栏 则分析结果中给出标准化的主成分得分 在数据表的后面 至于方法复选项 对主成分分析而言 三种方法没有分别 采用系统默认的 回归 Regression 法即可 选中显示因子得分系数矩阵 Displayfactorscorecoefficientmatrix 则在分析结果中给出因子得分系数矩阵及其相关矩阵 设置完成以后 单击Continue按钮完成设置 设置得分 Scores 设置 38 其它对于主成分分析而言 旋转项 Rotation 可以不必设置 对于数据没有缺失的情况下 选项 Option 项可以不必理会 全部设置完成以后 点击OK确定 SPSS很快给出计算结果 实例 全国31个省市的8项经济指标 39 按顺序排列的主成分得分的方差 Total 在数值上等于相关系数矩阵的各个特征根 全部解释方差表 TotalVarianceExplained 每一个主成分的方差百分比 ofVariance 由于全部特征根的总和等于变量数目 即有m i 8 故每一一个特征根的方差百分比为 i m 从左边栏目中提取的三个主成分及有关参数 40 主成分的数目可以根据相关系数矩阵的特征根来判定 根据 值决定主成分数目的准则有三 i只取 1的特征根对应的主成分从TotalVarianceExplained表中可见 第一 第二和第三个主成分对应的 值都大于1 这意味着这三个主成分得分的方差都大于1 本例正是根据这条准则提取主成分的 ii累计百分比达到80 85 以上的 值对应的主成分在TotalVarianceExplained表可以看出 前三个主成分对应的 值累计百分比达到89 324 这暗示只要选取三个主成分 信息量就够了 iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图 碎石图 上可以看到 第4个 值是一个明显的折点 这暗示选取的主成分数目应有p 4 那么 究竟是3个还是4个呢 根据前面两条准则 选3个大致合适 41 都显示了各个变量与有关主成分的相关系数 注 主成分得分或因子得分有3种说法 1 成分矩阵 2 成分得分系数矩阵 3 成分矩阵 按列 特征根的开根 用TRANSFORM COMPUTE来计算特征向量 42 主成分计算 矩阵的按列线性组合 怎么解释这三个主成分 前面说过主成分是原始八个变量的线性组合 是怎么样的组合呢 这里每一列代表一个主成分作为原来变量线性组合的系数 比例 这些系数称为主成分载荷 loading 它表示主成分和相应的原先变量的相关系数 相关系数 绝对值 越大 主成分对该变量的代表性也越大 43 从ComponentMatrix即主成分载荷表中可以看出 国内生产总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智慧社区智慧养老与关怀系统
- 禽常见病的尸体剖检
- 热导蛋白技术讲解
- 军营招聘面试题库:涵盖多个职业领域的深度解析
- 终身学习理念下的职业教育
- 需避光输注的药物管理规范
- 餐饮培训资料管理礼仪流程制度
- 细胞储存技术及应用解析
- 星舰结构图讲解
- 系统物理图讲解
- 知识题库-人社劳动知识竞赛测试题及答案(十五)
- 中国历史地理概况智慧树知到期末考试答案章节答案2024年复旦大学
- 越野赛道计划书
- DR002012 NE系列路由器路由协议故障处理 ISSUE 1.00
- 幻觉妄想的护理诊断及护理
- 2024年福建泉州水务集团有限公司招聘笔试参考题库附带答案详解
- 社区团购团长起号流程
- 安徽省高速公路施工标准化指南
- 国网超市化招标评标自动计算表(区间复合平均价法)
- GB/T 21218-2023电气用未使用过的硅绝缘液体
- 2023电赛综合测评报告
评论
0/150
提交评论