已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如果你要到裁缝店定做一件上衣 需要测量很多尺寸 譬如身长 袖长 胸围 腰围 肩宽 肩厚等 但服装厂要生产一批新型服装 却不可能完全按照每个人的这些尺寸来对型号进行划分 而是把各个方面进行高度概括 用少数几个指标作为分类的型号 简单明了的反映不同人群的体态特征 日常生活中经常遇到包含很多变量的数据 比如各个地区的若干经济指标数据 上市公司财务报表公布的多项财务数据等等 这些数据中的变量虽然很多 但往往相互之间都有着一定的关联 这使得只要找出少数几个 代表 就可以对复杂的信息进行比较完整的描述了 主成分分析和因子分析便是实现这一过程的两种方法 第8章用少数变量代表多个变量 8 1主成分分析8 2因子分析 在研究实际问题时 往往需要收集多个变量 但这样会使多个变量间存在较强的相关关系 即这些变量间存在较多的信息重复 直接利用它们进行分析 不但模型复杂 还会因为变量间存在多重共线性而引起较大的误差 为能够充分利用数据 通常希望用较少的新变量代替原来较多的旧变量 同时要求这些新变量尽可能反映原变量的信息 主成分分析和因子分子正是解决这类问题的有效方法 它们能够提取信息 使变量简化降维 从而使问题更加简单直观 主成分分析和因子分析 PrincipalComponentAnalysis FactorAnalysis 8 1主成分分析8 1 1主成分分析的基本思想是什么 8 1 2如何选择主成分 8 1 3怎样解释主成分 第8章用少数变量代表多个变量 8 1 1主成分分析的基本思想是什么 8 1主成分分析 主成分的概念由KarlPearson在1901年提出考察多个变量间相关性的一种多元统计方法研究如何通过少数几个主成分来解释多个变量间的内部结构 即从原始变量中导出少数几个主成分 使它们尽可能多地保留原始变量的信息 且彼此间互不相关 主成分分析的目的 数据的压缩 数据的解释它常被用来寻找判断事物或现象的综合指标 并对综合指标所包含的信息进行适当的解释 什么是主成分分析 PrincipalComponentAnalysis 例8 1 表8 1是北京市某高中50名学生的六门课程测试成绩数据乍一看 很难从这六门课程的测试得分来评价这50名学生的成绩优劣 也很难分析这些学生的成绩分布特征 要解决这样的问题 自然希望能把这一数据中包含的六个变量概括成一两个综合变量 那么这一做法是否可行呢 提炼出来的少数变量能够代表原数据的多少信息 如何解释它们呢 我们首先来了解一下主成分分析的基本思想 对于例8 1中的数据 每一个学生的观测值都包含了六个变量 所以表示在坐标系中每一个观测值就是六维空间中的一个点 每一维就代表一个变量 把六个变量概括成一两个综合变量 实质上就是一个降维的过程 主成分分析的基本思想是什么 表8 1北京市某高中学生六门课程测试成绩数据 对于存在线性相关的两个变量 直接进行分析可能由于多重共线性而无法得出正确结论 如何对这两个变量所携带的信息 在统计上信息往往是指数据的变异 进行浓缩处理 分别用横轴和纵轴表示两个变量 每个观测值就是二维坐标系中的一个点 所有的数据点大致散布成一个椭圆形 那么这个椭圆有一个长轴和一个短轴 我们称之为主轴 主轴之间是相互垂直的 主成分分析的基本思想是什么 以两个变量为例 显然 短轴方向上 数据点之间的差异较小 长轴方向上 数据变化则较大 如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行 那么相对来说 长轴所代表的变量就描述了数据的主要变化 短轴所代表的变量则描述了数据的次要变化 现在沿椭圆的长轴设定一个新的坐标系 则新产生的两个变量和原始变量之间存在明显的数学换算关系 但这两个变量彼此不相关 且信息量的分布显然不同 长轴变量携带了大部分数据变异的信息 而短轴变量只携带了一小部分变异信息 椭圆的长轴和短轴相差越大时 说明长轴方向所代表的变量包含原始信息越多 那么用这个新变量来代替原始的两个变量 即忽略包含少数信息的短轴变量 也就越合理 从而二维数据就可以降低为一维数据 但现实数据往往并不满足这样的条件 这就需要把原始数据构成的坐标系进行旋转 产生一个新的坐标系 使得新坐标系的横轴和纵轴与椭圆的长短轴平行 实质上也就是把原数据中的两个变量变换成两个新的变量 主成分分析的基本思想是什么 主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来 再用代表绝大部分信息的那个轴 也就是长轴 作为代替原始变量的新变量 多维变量降维过程类似 只要把原始数据散布的高维椭球的各个主轴找出来 选择最长的几个轴作为新变量 主成分分析就基本完成了 作为椭圆 或椭球 的主轴 它们之间是相互垂直的 在代数上 这些新变量是原始变量的线性组合 叫作主成分 principalcomponent 原始数据中有几个变量 它们构成的椭球就有几个主轴 也就意味着最终可以找到几个主成分 主成分分析的基本思想是什么 降维的目的 是选择越少的主成分来代表原先的变量效果越好 根据主成分分析的思想 选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分 至于占到多少才足够具有代表性 并没有一个硬性的说法 在实际中 如果数据中包含的变量之间相关性很差 降维也就很难实现 因为不相关的变量显然无法找到一个很好的共同的代表 所以具体选几个主成分 要视实际情况而定 有些文献建议 所选的主轴总长度占所有主轴长度之和的大约85 即可 其实 这只是一个大体的说法 具体选几个 要看实际情况而定 主成分分析的基本思想是什么 数学上的处理是将p个指标作线性组合 作为新的综合指标 如果第一个线性组合 即第一个综合指标记为F1 自然希望F1中更多地反映原来指标的信息 这里的 信息 是用F1的方差Var F1 来表示 Var F1 越大 表示F1包含的信息越多 在所有的线性组合中 所选的第1个主成分应该是方差最大的 如果第1个主成分不足以代表原来p个指标的信息 再考虑选择第2个线性组合 即第2个主成分F2 依此类推 可以选出第3个 第4个 第p个主成分 这些主成分间互不相关 且方差递减 主成分分析的数学模型 对原来的p个指标进行标准化 以消除变量在水平和量纲上的影响 根据标准化后的数据矩阵求出协方差矩阵求出协方差矩阵的特征根和特征向量确定主成分 并对各主成分所包含的信息给予适当的解释 主成分分析的步骤 8 1 2如何选择主成分 8 1主成分分析 用SPSS实现主成分分析 第1步 选择 分析 下拉菜单 并选择 降维 因子分析 选项进入主对话框 第2步 在主对话框中将原始数据中的所有变量选入 变量 第3步 点击 抽取 在 输出 下选择 碎石图 点击 继续 回到主对话框 第4步 点击 旋转 在 输出 下选择 载荷图 点击 继续 回到主对话框 点击 确定 用SPSS对例8 1实现主成分分析 如何选择主成分 解 例8 1中的数据主成分分析的SPSS输出结果如下表 表中的 初始特征根 对应的就是关于主成分的信息 初始特征根 下面的第一列 合计 即原始数据构成的高维椭球的六个主轴的长度 数学上又称之为特征值 特征根可以看作是主成分影响力度的指标 代表引入该主成分后可以解释平均原始变量的信息 如果特征根小于1 说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大 因此可以用特征根大于1作为纳入标准 第二列 方差的 则是每个主轴长度占所有主轴长度总和 也就是所有特征值的总和 又叫总方差 的百分比 表明该主成分的方差占全部总方差的比重 也称为主成分的方差贡献率 第三列 方差 分别对应的就是由大到小排列的前若干个主轴长度之和占所有主轴长度总和的累积百分比 累计贡献率 如何选择主成分 最长的主轴 即第一主成分 长度为3 729 它占六个主轴长度总和的62 164 第二长的主轴 即第二主成分 长度为1 206 占所有主轴长度总和的20 096 二者的长度之和累积起来则占到了所有主轴长度总和的82 242 后面四个主轴的长度在所有主轴长度总和中所占的比例相对较小 从而对代表原先六个变量的贡献越来越少 因此在这里我们采用SPSS输出结果中所建议的 表中最右侧三列 对例8 1的数据选择头两个主成分 如何选择主成分 SPSS还提供了一个更为直观的图形工具来帮助选择主成分 即碎石图 ScreePlot 从碎石图中可以直观的看到例8 1中六个主轴长度变化的趋势 实践中 通常结合具体情况 选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表 在该例中选择前两个主成分即可 如何选择主成分 8 1 3怎样解释主成分 8 1主成分分析 寻找主成分的过程实质上就是寻找椭球主轴的过程 而这些主轴所代表的新变量在代数上是原始变量的线性组合 坐标旋转 SPSS同样可以自动输出关于这些组合的计算结果 下表即例8 1的主成分载荷矩阵 怎样解释主成分 输出结果 成分矩阵 中的每一列分别给出了所选择的每一个主成分作为原始变量线性组合的系数 如果我们分别用表示原始数据中的六门课程成绩 而用表示六个主成分 那么根据表中给出的结果 我们选择的头两个主成分与原先六个变量的关系如下 怎样解释主成分 主成分对应原始变量的每一个系数实质上就是主成分与原先每一个变量之间的线性相关系数 称为主成分载荷 Loading 理论上而言 相关系数 绝对值 越大 说明主成分与该变量之间的线性相关关系越强 从而主成分对该变量的代表性也就越大 例8 1中提取的第一主成分与原先六个变量之间的相关系数都较大 与 物理 的相关系数相对偏低 说明它可以充分的解释原先的所有变量 而第二主成分只与原始数据中的 物理 有较大的相关关系 与其他变量的相关系数均较小 这可能是由于 物理 这门课程与其他课程性质上较大的区别所导致的 怎样解释主成分 对于提取两个主成分的情形 SPSS还提供了一张二维图来直观显示它们对原始变量的解释情况图中把原先的每一个变量与提取的两个主成分之间的相关系数分别作为坐标系中两个方向的坐标值 这样每一个变量对应的主成分载荷就对应坐标系中的一个点 因此人们把这种图形称为载荷图 LoadingPlot 怎样解释主成分 实际中 主成分分析的一个重要应用则在于利用主成分与原始变量之间的线性关系 可以根据每一个观测对象各个变量的原始取值 计算出其所对应的各个主成分的值 这样便可以按照少数几个主成分的数值 简单明了的分析研究对象的状况 从而解决对包含多个复杂变量的数据进行排序 评价等问题 比如例8 1 我们就可以把每个学生的六门课程测试成绩的数据转换成两个主成分的值 然后再按照它们的大小对各个学生的成绩进行比较 怎样解释主成分 案例分析中国上市公司财务绩效综合评价 1 案例背景上市公司的财务绩效是指上市公司在一定期间的盈利能力 资产质量 经营增长等方面的有关信息 了解了不同上市公司的财务绩效 有利于投资者等信息使用者据以评价企业盈利能力 预测企业成长潜力 进而做出更加准确的相关经济决策 案例分析 2 案例分析指标设定与数据来源 1 指标设定 绩效评价要依靠财务指标 而财务指标企业总结和评价财务状况和经营成果的相对指标 因此我们选择了对于上市公司来说具有意义的指标 每股收益 x1 每股营业利润 x2 每股息税前利润 x3 每股未分配利润 x4 资产报酬率 x5 和资产净利率 x6 销售净利率 x7 营业利润率 x8 成本费用率 x9 2 案例数据 案例分析 3 案例拟解决的问题试建立上市公司经营绩效评价模型 并对选取的样本上市公司进行财务绩效 4 案例分析要求通过本案例 使学生掌握以下内容 1 主成分的基本思想 2 主成分在实际应用中的主要作用 3 由协方差矩阵和相关矩阵求主成分有什么不同 4 能够用SPSS软件进行主成分分析 5 理解主成分命名的依据 8 2因子分析8 2 1什么是因子分析 8 2 2怎样解释因子分析结果 8 2 3几点说明 第8章用少数变量代表多个变量 8 2 1什么是因子分析 8 2因子分析 因子分析和主成分分析有很多相似之处 它们的目的是一致的 都是要将具有一定关联的多个变量进行高度概括 寻找合适的少数变量来代表原先的所有变量 尤其在计算机上实现时 两种方法所要耗费的时间并没有太大差异 除了可能有一两个选项不同之外 它们的输出结果所包含的内容十分类似 因此 人们往往对二者不加区分 实质上 主成分分析可以看作是因子分析的一个特例 因子分析是主成分分析的推广和发展 二者最直观的区别就在于变量和主成分 因子个数的一致性上 主成分分析的基本思想是要寻找高维椭球的所有主轴 因此 原始数据包含了多少个变量 就有多少个主成分 人们对于主成分的选择是依据最终的分析结果来确定的 而因子分析则需要事先确定要找几个成分 也就是所谓的因子 Factor 因子个数从一开始可能就远少于原始变量的个数 什么是因子分析 因子分析是由CharlesSpearman在1904年提出的 他被公认为因子分析之父 因子分析在某种程度上可以被看成是主成分分析的推广和扩展 因子分析对问题的研究更深入 它是将具有错综复杂关系的变量综合为少数的几个因子 以再现原始变量与因子之间的相互关系 探讨多个能够直接测量 并具有一定相关性的实测指标是如何受少数几个独立因子所支配的 同时根据不同因子还可以对变量进行分类 因子分析是多元统计中处理降维的一种统计方法 什么是因子分析 FactorAnalysis 原始变量和因子个数的不一致 使得不仅在数学模型上 而且在实际求解过程中 因子分析和主成分分析都有着一定的区别 计算上因子分析更为复杂 因子分析可能存在的一个优点是 在对主成分和原始变量之间的关系进行描述时 如果主成分的直观意义比较模糊不易解释 主成分分析没有更好的改进方法 因子分析则额外提供了 因子旋转 factorrotation 这样一个步骤 可以使分析结果尽可能达到易于解释且更为合理的目的 什么是因子分析 FactorAnalysis 8 2 2怎样解释因子分析结果 8 2因子分析 用SPSS实现因子分析 第1步 选择 分析 下拉菜单 并选择 降维 因子分析 选项进入主对话框 第2步 在主对话框中将原始数据中的所有变量选入 变量 第3步 点击 抽取 在 方法 下选择一种方法 在 输出 下选择 碎石图 在 抽取 下可以选择按照特征值大小选因子 也可以选定因子的个数 点击 继续 回到主对话框 第4步 点击 旋转 在 方法 下选择一种旋转方法 在 输出 下选择 旋转解 和 载荷图 点击 继续 回到主对话框 第5步 点击 得分 并选择 输出因子得分系数矩阵 点击 确定 用SPSS对例8 1实现因子分析 Principalcomponents 主成分法 这是默认选项 多数情况下不用更改 通过主成分分析的思想提取公因子 它假设变量是因子的线性组合 UnweightLeastSquare 不加权最小平方法 该方法使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小 GeneralizedLeastSquare 加权最小平方法 用变量值进行加权 该方法也是使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小 MaximumLikelihood 最大似然法 该方法不要求数据服从正态分布 在样本量较大时使用较好 PrincipalAxisFactoring 主轴因子法 该方法从原始变量的相关性出发 使得变量间的相关程度尽可能地被公因子解释 提取公因子的方法 SPSS SPSS提供5种旋转方法 其中最常用的是Varimax 方差最大正交旋转 和Promax Varimax 方差最大正交旋转 这是最常用的旋转方法 使各因子保持正交状态 但尽量使各因子的方差达到最大 即相对的载荷平方和达到最大 从而方便对因子的解释 Quartimax 四次方最大正交旋转 该方法倾向于减少和每个变量有关的因子数 从而简化对原变量的解释 Equamax 平方最大正交旋转 该方法介于方差最大正交旋转和四次方最大正交旋转之间 DirectOblimin 斜交旋转 该方法需要事先指定一个因子映像的自相关范围 Promax 该方法在方差最大正交旋转的基础上进行斜交旋转 因子旋转的方法 SPSS 例8 1数据的因子分析 在SPSS中 因子分析与主成分分析类似 也可以根据各个特征值的大小来选择因子 也可以绘制直观的碎石图来帮助判断 标准也是类似的 不同的是 因子分析可以通过 因子旋转 这一步骤得到下表的旋转后的因子载荷矩阵 怎样解释因子分析结果 在上表的输出结果中 每一个数值同样代表了所选择的因子和原先的每一个变量之间的相关系数 因此称之为因子载荷 factorloading 这个表也就描述了原先的六个变量与两个因子的关系 但有所不同的是 具体的关系表达式改变了 仍以表示原始数据中的六门课程成绩 而用表示两个因子 根据上面的输出结果 因子和这些原始变量之间的关系为 怎样解释因子分析结果 这里因子写在了方程的右边 而原始变量写在了方程的左边 与主成分分析中主成分载荷矩阵给出的表达式恰好相反 但两种分析方法下得到的系数均是各个成分 因子 与各个原始变量之间的线性相关系数 所以系数的绝对值大小都说明了成分 因子 对原始变量的解释程度 因子分析得到的两个因子的旋转后因子载荷表现出了较为明显的特征 第一个因子和 语文 历史 英语 三门课程成绩相关关系最强 且均为正值 与其他三门课程成绩的关系较弱 第二个因子则恰好相反 它与 数学 物理 化学 三门课程成绩的相关关系最强 也均为正值 相对于前面的主成分分析 这样的结果似乎能够使人们更容易结合实际 对两个因子的直观意义进行合理说明 即可以给第一个因子取名为 文科因子 第二个因子取名为 理科因子 怎样解释因子分析结果 该矩阵给出了每个因子作为所有原始变量线性组合的系数 根据这些系数便可以计算每个学生对应的第一个因子和第二个因子的取值 我们把它们称为因子得分 factorscore 有了因子得分 我们就可以对每个学生分别按照 文科因子 水平和 理科因子 水平进行评价和排序 怎样解释因子分析结果 样本量要足够大 一般而言 要求样本量至少是原始变量总数的5倍以上 如果要得到比较理想的结果 则应该在10倍以上 此外 样本总量也应足够大 理论要求应该在100以上 各原始变量间应该具有相关性 如果变量独立 则无法提取公共因子 因子分析也就没有意义了 因子分析中各公因子应该具有实际意义 因子分析的注意事项 8 2 3几点说明 8 2因子分析 作为多元分析中处理降维的两种统计方法 无论是主成分分析还是因子分析 我们已经知道 只有当原始数据中的变量之间具有较强的相关关系时 降维的效果才会明显 试图用少数几个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石子买卖协议书范本
- 三级护理质量评价标准
- 足球校队训练计划
- 2026年高端私人影院建设公司外部设计专家联合创作管理制度
- 前列腺炎常见症状辨明及护理要点训练
- 2025-2026学年福建省福州市部分学校高三上学期开学检测历史试题
- 自闭症儿童的社交游戏训练
- 2025-2026学年安徽省滁州市高三上学期八月第一次联考历史试题(解析版)
- 介绍营养元素
- 蔬菜与水果营养价值解析
- 吴忠市利水水利工程有限公司公开招聘工作人员考试笔试参考题库附答案解析
- 2025江苏连云港海州区国有企业第二次招聘工作人员24人笔试历年典型考点题库附带答案详解试卷3套
- 餐厅后厨消防安全培训
- 2025年高考浙江卷(6月)物理真题
- 压力性损伤评估及护理
- 建筑施工安全消防课件
- 《县级(区域)医疗资源集中化运行规范 第1部分:集中审方中心》
- 2025年广西公需科目真题考试参考答案
- 2025至2030全球及中国区块链安全解决方案行业项目调研及市场前景预测评估报告
- 统编版小学语文四年级下册背诵篇目(新修订)
- 变频柜维修专业知识培训课件
评论
0/150
提交评论