统计学10主成分和因子分析_第1页
统计学10主成分和因子分析_第2页
统计学10主成分和因子分析_第3页
统计学10主成分和因子分析_第4页
统计学10主成分和因子分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学-从数据到结论,第10章主成分分析和因子分析,报告什么?假设你是一家公司的财务经理,掌握了公司的所有数据,包括许多变量,如:固定资产、营运资本、贷款金额和期限、各种税费、工资支出、原材料消耗、产值、利润、折旧、员工人数、劳动分工和教育水平等。如果你被要求向你的上级或相关方介绍公司的情况,你能把这些指标和数字按原样公布出来吗?需要高度概括,在这么多变量中,有许多是相关的。人们希望找到一些“代表”来描述他们。这种有许多变量的数据需要高度概括。本章介绍了两种降低变量维数的方法,以便于描述、理解和分析:主成分分析和因子分析。事实上,主成分分析可以说是因子分析的一个特例。在介绍主成分分析之前,先看看下面的例子。10.1主成分分析,100 100学生在数学、物理、化学、中文、历史和英语方面的分数如下表(部分)所示。SPSS的数据形式,从这个例子中可能会提出问题,目前的问题是,你能不能把这个数据中的6个变量用一个或两个综合变量来表达?这一两个综合变量包含多少原始信息?所找到的综合变量可以用来对学生进行分类或相应地进行其他分析吗?在这个例子中,数据点是六维的。也就是说,每个观察点都是6维空间中的一个点。希望6维空间将由低维空间来表示。首先假设只有两个维度,即只有两个变量,由横坐标和纵坐标表示;每个观测值具有对应于两个坐标轴的两个坐标值;如果这些数据形成一个椭圆点阵(这在二维法线的假设下是可能的),椭圆有一个长轴和一个短轴。数据在短轴方向上变化很小。在极端情况下,如果短轴退化为一个点,长轴的方向可以完全解释这些点的变化,从二维到一维的降维自然完成。椭圆的长轴和短轴,当坐标轴和椭圆的长轴和短轴平行时,代表长轴的变量描述数据的主要变化,而代表短轴的变量描述数据的次要变化。然而,坐标轴通常不平行于椭圆的长轴和短轴。因此,有必要找到椭圆的长轴和短轴并对它们进行变换,以便新变量平行于椭圆的长轴和短轴。椭圆的长轴和短轴。如果长轴变量代表数据中包含的大部分信息,则该变量用于替换原始的两个变量(忽略较小的一个维度),并且维度缩减完成。椭圆的长轴和短轴之间的差异越大,尺寸缩小就越合理。主轴和主成分、多维变量的情况与二维相似。也有高尺寸的椭圆体,但它们不那么直观。首先,找到高维椭球的主轴,然后将代表大多数数据信息的最长轴用作新变量。这样,主成分分析基本完成。主轴和主分量,就像二维椭圆有两个主轴,三维椭球有三个主轴一样,一些变量有几个主轴。与二维情况类似,高维椭球体的主轴相互垂直。这些新的正交变量是原始变量的线性组合,称为主成分。对于主成分的选择,选择的主成分越少,降维越好。标准是什么?也就是说,由所选主分量表示的主轴长度之和占主轴长度之和的大部分。一些文献建议所选择的锭子的总长度应该占所有锭子总长度的大约85%。事实上,这只是一个一般性的陈述。具体的选择回头看!你选择了多少个主成分?来看看“贡献率”对于我们的数据,SPSS的输出是,这里的初始值是六个主轴的长度,也称为特征值(数据相关矩阵的特征值)。前两个分量的特征值占总方差的81.142%。后一特征值的贡献越来越小。特征值的贡献也可以从SPSS的所谓砾石图中看出,如何解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。这里,每一列代表作为原始变量的主成分的线性组合的系数(比例)。例如,第一主成分是六个变量的线性组合:数学、物理、化学、中文、历史和英语,系数(比例)为-0.806,-0.674,-0.675,0.893,0.825和0.836。如果x1、x2、x3、x4、x5、x6用于表示原始的六个变量,y1、y2、y3、y4、y5、y6用于表示新的主成分,那么第一和第二主成分是,这些系数被称为主成分载荷,其表示主成分和对应的原始变量的相关系数。例如,y1表达式中x1的系数是-0.806,这意味着第一主成分和数学变量之间的相关系数是-0.806。相关系数(绝对值)越大,主成分对变量的代表性越强。可以看出,第一主成分已经完全解释了所有的变量。最后几个主成分与原始变量不太相关。第一和第二主分量的载荷点可以绘制成二维图形,以直观地显示它们如何解释原始变量。这个图被称为负载图。左边的三个点是数学、物理和化学,右边的三个点是中文、历史和外语。图中的六个点不容易区分,因为它们相对拥挤。然而,只要这些点的坐标被识别为前面的第一主分量载荷,坐标就是前面表中第一列和第二列中的数字,并且它们仍然可以被识别。10.2、因子分析、主成分分析原则上是找出椭球体的所有主轴。原始变量中有几个主要成分。因子分析是预先确定要找到多少个分量,这里称之为因子(如两个),然后找到两个。这使得数学模型中的因子分析和主成分分析有许多不同之处。此外,因子分析的计算要复杂得多。根据因子分析模型的特点,它还有一个过程:因子旋转;这一步可以使结果更好。10.2因素分析对于计算机来说,因素分析并不费事。从输出结果来看,因子分析也有因子负

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论