利用Excel进行主成分分析的具体操作_第1页
利用Excel进行主成分分析的具体操作_第2页
利用Excel进行主成分分析的具体操作_第3页
利用Excel进行主成分分析的具体操作_第4页
利用Excel进行主成分分析的具体操作_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 1 利用利用 Excel2000 进行主成分分析进行主成分分析 举例如下 第一步 录入数据 并对进行标准化 例 一组古生物腕足动物贝壳标本的两个变量 长度和宽度 图图 1 1 原始数据和标准化数据及其均值 方差原始数据和标准化数据及其均值 方差 取自张超 杨秉庚 取自张超 杨秉庚 计量地理学基础计量地理学基础 计算的详细过程如下 将原始数据绘成散点图将原始数据绘成散点图 图 2 主持分分析原则上要求数据具有线性相关趋势 如果数据之间不相关 即正交 则没有必要进行主成分分析 因为主成分分析的目的 就是用正交的变量代替原来非正交的变量 如果原始数据之间为非线性关系 则有必要对 数据进行线性转换 否则效果不佳 从图 2 可见 原始数据具有线性相关趋势 且测定系 数 R2 0 4979 相应地 相关系数 R 0 7056 对数据进行标准化对数据进行标准化 标准化的数学公式为 2 j jij ij xx x 这里假定按列标准化 式中 n i ijij x n x 1 1 Var 1 2 ij n i jijij xxx 分别为第 j 列数据的均值和标准差 为第 i 行 即第 i 个样本 第 j 列 即第 j 个变量 ij x 的数据 为相应于的标准化数据 为样本数目 ij x ij x25 n 原始数据的散点图y 0 7686x 2 3174 R2 0 4979 0 5 10 15 20 25 0510152025长度 宽度 图图 2 2 原始数据的散点图原始数据的散点图 标准化数据的散点图 y 0 7056x 2E 16 R2 0 4979 2 000000 1 000000 0 000000 1 000000 2 000000 3 000000 2 00000 0 1 00000 0 0 000000 1 000000 2 000000 3 000000 长度 宽度 图图 3 3 标准化数据的散点图标准化数据的散点图 对数据标准化的具体步骤如下 求出各列数据的均值 命令为 average 语法为 3 average 起始单元格 终止单元格 如图 1 所示 在单元格 B27 中输入 AVERAGE B1 B26 确定或回车 即得第一列数据的均值 然后抓住单88 10 1 x 元格 B27 的右下角 光标的十字变细 右拖至 C27 便可自动生成第二列数据的均值 68 10 2 x 求各列数据的方差 命令为 varp 语法同均值 如图 1 所示 在单元格 B28 中输入 VARP B2 B26 确定或回车 可得第一列数据的方差 右拖至4656 19 Var 1 x C28 生成第二列数据的方差 0976 23 Var 2 x 求各列数据的标准差 将方差开方便得标准差 也可利用命令 stdevp 直接生成标准 差 语法和操作方法同均值 方差 不赘述 标准化计算 如图 1 所示 在单元格 D2 中输入 B2 B 27 B 29 回车可得 第一列第一个数据 3 的标准化数值 1 然后按住单元格 D2 的右下角下拖至 D26 便 会生成第一列数据的全部标准化数值 按照单元格 D2 的右下角右拖至 E2 就能生成第二 列第一个数据 2 的标准化数据 1 抓住单元格 E2 的右下角下拖至 E26 便会生成第二 列数据的全部标准化数值 作标准化数据的散点图 图 3 可以看出 点列的总体趋势没有变换 两种数据 的相关系数与标准化以前完全相同 但回归模型的截距近似为 0 即有 斜率等于0 a 相关系数 即有 Rb 求标准化数据的相关系数矩阵或协方差矩阵求标准化数据的相关系数矩阵或协方差矩阵 求相关系数矩阵的方法是 沿着 工具 T 数据分析 D 的路径打开 分析工具 A 选项框 图 4 确定 弹 出 相关系数 对话框 图 5 在 输入区域 的空白栏中输入标准化数据范围 并以 单元格 G1 为输出区域 具体操作方法类似于回归分析 确定 即会在输出区域给出相关 图图 4 4 分析工具选项框分析工具选项框 图图 5 5 相关系数对话框相关系数对话框 4 系数矩阵的下三角即对角线部分 由于系对称矩阵 上三角的数值与下三角相等 故未给 出 图 6 可以通过 拷贝 转置 粘帖 的方式补充空白部分 图图 6 6 标准化数据的相关系数和协方差标准化数据的相关系数和协方差 求协方差的方法是在 分析工具 选项框中选择 协方差 图 7 弹出 协方差 选项框 图 8 具体设置与 相关系数 类似 不赘述 结果见图 6 可以看出 对于 标准化数据而言 协方差矩阵与相关系数矩阵完全一样 因此 二者任取其一即可 图图 7 7 在分析工具选项框中选择在分析工具选项框中选择 协方差协方差 图图 8 8 协方差选项框协方差选项框 计算特征根计算特征根 我们已经得到相关系数矩阵为 17056 0 7056 0 1 C 而二阶单位矩阵为 10 01 I 5 于是根据公式 我们有0 det CI 0 17056 0 7056 0 1 17056 0 7056 0 1 10 01 按照行列式化为代数式的规则可得 05021 0 27056 0 1 222 根据一元二次方程的求根公式 当时 我们有04 2 acb a acbb 2 4 2 据此解得 对于本例 显然 这便是7056 1 1 2944 0 2 R 1 1 R 1 2 相关系数矩阵的两个特征根 求标准正交向量求标准正交向量 将代入矩阵方程 得到 1 0 CI 0 0 7056 0 7056 0 7056 0 7056 0 2 1 在系数矩阵中 用第一行加第二行 化为CI 0 0 00 7056 0 7056 0 2 1 由此得 令 则有 于是得基础解系 21 1 1 1 2 单位化为 1 1 1 7071 0 7071 0 1 e 单位化的公式为 2 2 2 1 i i e2 1 i 完全类似 将代入矩阵方程 得到 2 0 CI 0 0 7056 0 7056 0 7056 0 7056 0 2 1 用系数矩阵的第二行减去第一行 化为 0 0 00 7056 0 7056 0 2 1 于是得到 取 则有 因此得基础解系为 21 1 1 1 2 单位化为 1 1 2 7071 0 7071 0 2 e 这里 便是标准正交向量 1 e 2 e 求对角阵求对角阵 首先建立标准正交矩阵 P 即有 7071 0 7071 0 7071 0 7071 0 21 eeP 6 该矩阵的一个特殊性质便是 即矩阵的转置转置等于矩阵的逆逆 根据 可 1 PPTCPPD T 知 7071 0 7071 0 7071 07071 0 17056 0 7056 01 7071 07071 0 7071 0 7071 0 D 2934 0 0 07056 1 下面说明一下利用 Excel 进行矩阵乘法运算的方法 矩阵乘法的命令为 mmult 语法是 mmult 矩阵 1 的单元格范围 矩阵 2 的单元格范围 例如 用矩阵 与矩阵 C 相乘 T P 首先选择一个输出区域如 G1 H2 然后输入 mmult A1 B2 C1 D2 然后按下 Ctrl Shift Enter 键 图 9 即可给出 1 1 0 20817 0 20817 再用乘得的结果与 P 阵相乘 便得对角矩阵 1 1 0 0 0 00 0 如果希望一步到位也不难 选定输出区域如 C3 D4 然后输入 mmult mmult A1 B2 C1 D2 E1 F2 图 10 同时按下 Ctrl Shift Enter 键 立 即得到结果 图 11 显然 对角矩阵对角线的数值恰是相关系数矩阵的特征值 图图 9 9 矩阵乘法示例矩阵乘法示例 图图 1010 矩阵连乘的命令与语法矩阵连乘的命令与语法 至此 标准化的原始变量 x 与主成分之间 z 之间可以表作 2 1 21 2 1 21 2944 0 0 07056 1 17056 0 7056 0 1 z z zz x x xx 7 显然与之间正交 1 z 2 z 图图 1111 乘法结果 对角矩阵乘法结果 对角矩阵 根据特征根计算累计方差贡献率根据特征根计算累计方差贡献率 现已求得第一特征根为 第二特征根为7056 1 1 二者之和刚好就是矩阵的维数 即有 这里 m 2 为变量数2944 0 2 2 21 m 目 注意前面的 n 25 为样本数目 比较图 6 或图 10 中给出的相关系数矩阵 C 与图 11 中给出的对角矩阵 D 可以看出 Tr C 1 1 2 Tr D 1 7056 0 2944 2 即有 Tr C Tr D 可见将相关系数亦即协方差矩阵转换为对角矩阵以后 矩阵的迹迹 trace 即对角 线元素之和 没有改变 这意味着将原始变量化为主成分以后 系统的信息量没有减少 现在问题是 如果我们只取一个主成分代表原来的两个变量 能反映原始变量的多少信息 这个问题可以借助相关系数矩阵的特征根来判断 利用 Excel 容易算出 第一特征根占特 征根总和即矩阵维数的 85 28 见下表 即有 特征根累计值百分比累计百分比 1 1 85 28 85 28 0 214 72 100 00 也就是说 1 7056 1 28 852 7056 1 1 m 0 2944 2 72 14 2944 0 2 mm 2 21 1002 2 21 m 这表明 如果仅取第一个主成分 可以反映原来数据 85 28 的信息 换言之 舍弃第 二个主成分 原来数据的信息仅仅损失 14 72 但分析变量的自由度却减少一个 整个 分析将会显得更加简明 计算主成分载荷计算主成分载荷 根据公式 容易算出 jjj e 9235 0 9235 0 7071 0 7071 0 7056 1 1 3837 0 3837 0 7071 0 7071 0 2944 0 2 计算公因子方差和方差贡献计算公因子方差和方差贡献 根据上述计算结果可以比较公因子方差和方差贡献 再考 虑全部的两个主成分的时候 对应于和的公因子方差分别为 1 2 13837 0 9235 0 22 2 1 j ij V 8 1 3837 0 9235 0 22 2 2 j ij V 对应于第一主成分 z1和第二主成分 z2的方差贡献分别为 7056 1 9235 0 9235 0 22 1 i ij CV 2944 0 3837 0 3837 0 22 2 i ij CV 可以看出 图 12 第一 方差贡献等于对应主成分的特征根 即有 jj CV 第二 公因子方差相等或彼此接近 即有 21 VV 第一 公因子方差之和等于方差贡献之和 即有 2 mCVV j j i i 第一个规律是我们决定提取主成分数目的判据与之一 第二个规律是我们判断提取主成分 数目是否合适的判据之一 第三个规律是我们判断提取主成分后是否损失信息的判据之一 去掉次要的主成分以后 上述规律理当仍然满足 这时如果第二个规律不满足 就意味着 主成分的提取是不合适的 此外 上述规律也是我们检验计算结果是否正确的判据之一 图图 1212 公因子方差 方差贡献的计算结果及其与特征根的贡献公因子方差 方差贡献的计算结果及其与特征根的贡献 计算主成分得分 根据主成分与原始变量的关系 应有 XPZ T 或者 PZX 对于本例而言 式中 2 1 x x X 2 1 z z Z 2221 1211 21 ee ee eeP 7071 0 7071 0 7071 0 7071 0 这里 为前面计算的标准化特征向量 于是有 T eee 12111 T eee 22212 2 1 2 1 7071 0 7071 0 7071 0 7071 0 x x z z 化为代数形式便是 211 7071 0 7071 0 xxz 212 7071 0 7071 0 xxz 式中的 x 均为标准化数据 对进行转置 可得XPZ T PXZ TT 9 图图 1313 计算特征向量的公式及语法计算特征向量的公式及语法 图图 1414 计算主成分得分计算主成分得分 根据这个式子 利用 Excel 计算主成分得分的步骤如下 将特征向量复制到标准化数据的附近 10 选中一个与标准化数据占据范围一样大小的数值区域 如 G2 H26 输入如下计算公式 mmult 标准化数据的范围 特征向量的范围 在本例中就是 MMULT B2 C26 E2 F3 图 13 同时按下 Ctrl Shift Enter 键 计算主成分得分的均值和方差 可以发现 均值为 0 由于误差之故 约等于 0 方 差等于特征根 最后 可以对主成分得分进行标准化 已知主成分得分的均值为 0 我们不按总体方差 进行标准化 而按样本方差进行标准化 图图 1515 主成分得分的标准化结果主成分得分的标准化结果 样本方差的计算公式为 n i jijj xx n x 1 2 1 1 Var 相应地 标准差为 11 n i jijjj xx n x 1 2 1 1 Var 标准化公式同前面给出的一样 结果见表 15 注意 这里之所以按样本方差进行标准化 主要目的是为了与 SPSS 的计算结果进行比较 分别以 z1 z2为坐标轴 将主成分得分 包括标准化的得分 点列标绘于坐标图中 可以发现 点列分布没有任何趋势 回归结果表明 回归系数和相关系数均为零 即有 图 16 图 17 这从几何图形上显示 主成分之间是正交的 0 a0 b0 R 即有 试将图 16 图 17 与图 2 图 3 对比 0cos 主成分得分的空间分布 y 7E 17x 2E 16 R2 2E 32 1 500000 1 000000 0 500000 0 000000 0 500000 1 000000 1 500000 3 000000 2 000000 1 000000 0 000000 1 0000002 0000003 0000004 000000 第一主成分得分 第二主成分得分 图图 1616 主成分得分的相关系数为零主成分得分的相关系数为零 主成分得分的空间分布 标准化 y 2E 16x 4E 17 R2 3E 32 2 1 5 1 0 5 0 0 5 1 1 5 2 2 5 3 2 10123 第一主成分得分 第二主成分得分 图图 1717 主成分得分的相关系数为零 标准化 主成分得分的相关系数为零 标准化 最后可以验证因子载荷即为 标准化 原始数据与主成分得分之间的相关系数 容易 算出 12 9235 0 Correl 1111 zxzx 9235 0 Correl 12

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论