




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析法与因子分析法 主要内容 主成分分析法因子分析法附 主成分分析法与因子分析法的区别 主成分分析法 PrincipalComponentsAnalysis PCA 主成分分析法概述主成分分析的基本原理主成分分析的计算步骤 一 主成分分析概述 假定你是一个公司的财务经理 掌握了公司的所有数据 这包括众多的变量 比如固定资产 流动资金 每一笔借贷的数额和期限 各种税费 工资支出 原料消耗 产值 利润 折旧 职工人数 职工的分工和教育程度等等 如果让你向上级或有关方面介绍公司状况 你能够把这些指标和数字都原封不动地摆出去吗 引子 当然不能 汇报什么 发现在如此多的变量之中 有很多是相关的 人们希望能够找出它们的少数 代表 来对它们进行描述 需要把这种有很多变量的数据进行高度概括 用少数几个指标简单明了地把情况说清楚 主成分分析法 PrincipalComponentsAnalysis 和因子分析法 FactorAnalysis 就是把变量维数降低以便于描述 理解和分析的方法 主成分分析也称为主分量分析 是一种通过降维来简化数据结构的方法 如何把多个变量化为少数几个综合变量 综合指标 而这几个综合变量可以反映原来多个变量的大部分信息 所含的信息又互不重叠 即它们之间要相互独立 互不相关 这些综合变量就叫因子或主成分 它是不可观测的 即它不是具体的变量 只是几个指标的综合 在引入主成分分析之前 先看下面的例子 什么是主成分分析法 成绩数据 53个学生的数学 物理 化学 语文 历史 英语的成绩如下表 部分 从本例可能提出的问题 能不能把这个数据表中的6个变量用一两个综合变量来表示呢 这一两个综合变量包含有多少原来的信息呢 事实上 以上问题在平时的研究中 也会经常遇到 它所涉及的问题可以推广到对企业 对学校 对区域进行分析 评价 排序和分类等 比如对n个样本进行综合评价 可选的描述样本特征的指标很多 而这些指标往往存在一定的相关性 既不完全独立 又不完全相关 这就给研究带来很大不便 若选指标太多 会增加分析问题的难度与复杂性 选指标太少 有可能会漏掉对样本影响较大的指标 影响结果的可靠性 这就需要我们在相关分析的基础上 采用主成分分析法找到几个新的相互独立的综合指标 达到既减少指标数量 又能区分样本间差异的目的 二 主成分分析的基本原理 一 主成分分析的几何解释 二 主成分分析的基本思想 一 主成分分析的几何解释 例中数据点是六维的 即每个观测值是6维空间中的一个点 希望把6维空间用低维空间表示 先假定只有二维 即只有两个变量 语文成绩 x1 和数学成绩 x2 分别由横坐标和纵坐标所代表 每个学生都是二维坐标系中的一个点 因为在实际应用中 往往存在指标的量纲不同 所以在计算之前须先消除量纲的影响 而将原始数据标准化 为了实现样本数据的标准化 应求样本数据的平均和方差 对数据矩阵Y作标准化处理 即对每一个指标分量作标准化变换 变换公式为 其中 样本均值 样本标准差 原始变量经规格化后变为新变量 其均值为零 方差为1 对二维空间来讲n个标准化后的样本在二维空间的分布大体为一椭圆形 该椭圆有一个长轴和一个短轴 在短轴方向上数据变化很少 极端的情况下 短轴如退化成一点 长轴的方向可以完全解释这些点的变化 由二维到一维的降维就自然完成了 假定语文成绩 X1 和数学成绩 X2 分别为标准化后的分数 右图为其散点图 椭圆倾斜为45度 如果将坐标轴X1和X2旋转45 那么点在新坐标系中的坐标 Y1 Y2 与原坐标 X1 X2 有如下的关系 Y1和Y2均是X1和X2的线性组合 在新坐标系中 可以发现 虽然散点图的形状没有改变 但新的随机变量Y1和Y2已经不再相关 而且大部分点沿Y1轴散开 在Y1轴方向的变异较大 即Y1的方差较大 相对来说 在Y2轴方向的变异较小 即Y2的方差较小 在上面的例子中Y1和Y2就是原变量X1和X2的第一主成分和第二主成分 实际上第一主成分Y1就基本上反映了X1和X2的主要信息 因为图中的各点在新坐标系中的Y1坐标基本上就代表了这些点的分布情况 因此可以选Y1为一个新的综合变量 当然如果再选Y2也作为综合变量 那么Y1和Y2则反映了X1和X2的全部信息 22 二 主成分分析的基本思想假如对某一问题的研究涉及p个指标 记为X1 X2 Xp 由这p个随机变量构成的随机向量为X X1 X2 Xp 设X的均值向量为 协方差矩阵为 设Y Y1 Y2 Yp 为对X进行线性变换得到的合成随机向量 即 1 设 i i1 i2 ip A 1 2 p 则有 2 23 且 3 由是式 1 2 能够看出 可以对原始变量进行任意的线性变换 不同线性变换得到的合成变量Y的统计特征显然是不一样的 每个Yi应尽可能多地反映p个原始变量的信息 通常用方差来度量 信息 Yi的方差越大表示它所包含的信息越多 由式 3 可以看出将系数向量 i扩大任意倍数会使Yi的方差无限增大 为了消除这种不确定性 增加约束条件 24 为了有效地反映原始变量的信息 Y的不同分量包含的信息不应重叠 综上所述 式 1 的线性变换需要满足下面的约束 1 即 i 1 2 p 2 Y1在满足约束 1 即的情况下 方差最大 Y2是在满足约束 1 且与Y1不相关的条件下 其方差达到大 Yp是在满足约束 1 且与Y1 Y2 Yp 1不相关的条件下 在各种线性组合中方差达到最大者 满足上述约束得到的合成变量Y1 Y2 Yp分别称为原始变量的第一主成分 第二主成分 第p主成分 而且各成分方差在总方差中占的比重依次递减 在实际研究工作中 仅挑选前几个方差较大的主成分 以达到简化系统结构的目的 三 主成分分析的计算步骤 一 计算相关系数矩阵 二 计算特征值与特征向量 三 计算主成分贡献率及累计贡献率 四 计算主成分载荷 一 计算相关系数矩阵rij i j 1 2 p 为原变量xi与xj标准化后的相关系数 rij rji 其计算公式为 3 5 3 3 5 4 二 计算特征值与特征向量1 解特征方程 求出特征值 并使其按大小顺序排列 2 分别求出对应于特征值的特征向量 要求 1 即 其中表示向量的第j个分量 也就是说为单位向量 29 三 计算主成分贡献率及累计贡献率主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和 1 2 P 则总方差中属于第i个主成分 被第i个主成分所解释 的比例为称为第i个主成分的贡献率 定义称为前m个主成分的累积贡献率 衡量了前m个主成份对原始变量的解释程度 四 计算主成分载荷在主成分之间不相关时 主成分载荷就是主成分zi与变量xj之间的相关系数 因子分析法 FactorAnalysis FA 因子分析法概述因子分析法的模型附 主成分分析与因子分析的区别 一 因子分析法概述 因子分析法与主成分分析法都基于统计分析法 但两者有较大的区别 主成分分析是通过坐标变换提取主成分 也就是将一组具有相关性的变量变换为一组独立的变量 将主成分表示为原始观察变量的线性组合 而因子分析法是要构造因子模型 将原始观察变量分解为因子的线性组合 因此因子分析法是主成分分析法的发展 二 因子分析法的模型 狭义的因子分析法常与主成分分析法在处理方法上有相类似之处 都要对变量规格化 并找出原始变量规格化后的相关矩阵 其主要不同点在于建立线性方程组时所考虑的方法 因子分析是以回归方程的形式将变量表示成因子的线性组合 而且要使因子数m小于原始变量维数p 从而简化了模型结构 其步骤为 将原始数据标准化 求标准化数据的相关矩阵 求相关矩阵的特征值和特征向量 计算方差贡献率与累计方差贡献率 确定因子 因子旋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届湖北省孝感市汉川市第二中学高三一诊考试英语试卷含答案
- 2025年云南省昆明市禄劝县一中高考英语二模试卷含答案
- 初级消防设施操作员习题库及答案
- 分析化学练习题库(含答案)
- 海洋石油钻探的深海地质调查进展考核试卷
- 电气机械设备施工安装考核试卷
- 继续拓展调味品与发酵制品相关主题考核试卷
- 电力设备维护与保养管理考核试卷
- 玻璃行业生产过程中的能源管理考核试卷
- 航标反射器设计原理考核试卷
- 刑事案件模拟法庭剧本完整版五篇
- 2022年高考全国I卷数学高考真题(原卷版)
- 《商务英语阅读》教学大纲
- 会计学毕业论文8000字-会计学论文范文8000字
- 小学教育毕业论文6000字范文
- 《爱心树》-经典绘本省名师优质课赛课获奖课件市赛课一等奖课件
- 初级家政服务员培训烹饪篇课件
- 西游记搞笑剧本【五篇】
- 初中物理-第十二章简单机械复习课教学课件设计
- 第七章聚乙烯醇纤维
- 职业暴露针刺伤应急预案演练脚本-
评论
0/150
提交评论