多元统计作业.doc_第1页
多元统计作业.doc_第2页
多元统计作业.doc_第3页
多元统计作业.doc_第4页
多元统计作业.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南大学多元统计分析课程论文学 院 数学与统计学院 年级专业 2009级数学与应用数学 论文写作 唐维彬 学 号 222009314012030 资料收集 李虹霖 学 号 222009314012023 软件操作 刘鹏懿 学 号 222009314012027 数据分析 冉俊峰 学 号 222009314012029 日 期 2012年10月30日 基于主成分分析和因子分析评估大气污染摘要:近年来大气污染日趋严重,引起了人们的广泛关注。本文采用主成分分析法和因子分析法,为了评估某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的8个大气取样点,每日4次同时抽取大气样品,测定其中包含的6种气体的浓度,前后共4天,每个样品每种气体实测16次。最后通过数据的分析与整理,运用SPSS软件,进行主成分分析和因子分析,对该大型化工厂的污染情况做出评估,关键字:主成分分析 因子分析 SPSS17.0软件 大气污染正文 主成分分析法(一) 主成分分析原理主成分分析是设法将原来众多具有一定相关性( 比如P 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 ( 选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即Var()越大, 表示 包含的信息越多。因此。在所有的线性组合中选取的 应该是方差最大的, 故称为第一主成分。如果第一主成分不足以代表原来P 个指标的信息, 再考虑选取即选第二个线性组合, 为了有效地反映原来信息, 已有的信息就不需要再出现在中, 用数学语言表达就是要求Cov(,)=0, 则称 为第二主成分, 依此类推可以构造出第三、第四, , 第P 个主成分。(二) 主成分分析数学模型其中, , , (i=1, ,m)为X 的协方差阵的特征值多对应的特征向量, , , ,是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响注: 本文指的数据标准化是指Z 标准化。,为相关系数矩阵, ,是相应的特征值和单位特征向量, 。(三) 主成分分析主要步骤如下:首先。结合数据,判断是否需要进行主成分分析;其次,进行分析,结合主成分的累计贡献率和特征值来确定提取的主成分或因子的数目;然后,进行主成分分析,将提取的主成分存为新的变量,以便继续分析。主成分分子也是通过菜单栏中的Analyze Data Reduction Factor命令来实现的,基本操作与因子分析相同。具体操作如下:1 利用SPSS进行数据处理(1)打开数据文件后,在数据编辑窗口一次选择Analyze Data Reduction Factor Analysis, 弹出Factor Analysis 对话框Factor Analysis 对话框。(SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptive 过程进行计算。)(2)在左边的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入variables列表框,具体符号说明如下: 图1 变量选择图氯代表 硫化氢代表 SO2代表Z碳代表 环氧氯丙烷代表 环已烷代表(3)单击Extraction按钮,即可打开Factor Analysis:Extraction对话框,在Eigenvalues over文本框中输入0.6作为因子提取的阀值,即提取特征值大于0.6的因子,并且选择Display选项组的两个复选框。 图 2 因子提取(4)单击OK按钮,执行因子分析得到如下所示的特征值和方差贡献表以及因子负荷矩阵。下表为各因子对应的特征值,% of Variance列为各因子的方差贡献率;Cumulative %列为累计方差贡献率。从表中可以看出,前4个变量已经可以解释89.264%的方差。 表 1 特征值与方差贡献表 下表为旋转前的因子负荷矩阵,与因子分析得到的结果是一致的。 表2 旋转前的因子负荷矩阵2 利用因子分析的结果进行主成分分析(1)将旋转前的因子负荷矩阵中的数据输入到SPSS数据编辑窗口,将4个变量分别命名为A1 A2 A3 和A4。 图 3 新变量A1 A2 A3 A4(2)然后,依次计算特征向量矩阵。在主菜单栏中选择TransformCompute Variable命令,打开如图所示的Compute Variable对话框,“T1=A1/SQR(2.183)”,单击OK按钮,即可在数据编辑窗口中得到变量名为T1的第一特征变量。依次类推,计算T2 T3 和T4 ,注SQRT后的括号内的数值为相应的特征值。图4 特征向量的计算表 3 特征向量矩阵设变量氯,硫化氢,SO2,碳4,环氧氯丙烷,环已烷依次为,,则根据上面的特征向量表可以得到主成分的表达式如下: 由于是以相关系数矩阵为出发点进行因子分析,所以主成分分析表达式中的应该是经过标准化变换后的标准变量。所以计算主成份之前首先需要对原始变量进行标准化处理,得到变量名为,。标准化处理变量通过Descriptive Statistics 菜单中的Descriptive命令实现,该命令不仅可以用于描述分析,还可以用来标准化数据变量。将变量标准化后,再次调用Compute Variable命令,分别在对话框中输入等式 就可以计算得到主成分表如下:表4 8个取样点的主成分表3 结果分析 从上面的主成分表达式可以看出,在式中第一主成分上有较高的载荷(为0.56),说明第一主成分是由变量氯()决定的,气体中氯作为主要污染气体是可信的。在第二主成分上有较高的载荷(为0.74),说明主要依赖,说明SO2作为主要污染气体是可信的。依次类推,主要依赖碳4,主要依赖环氧氯丙烷。综上所诉,在对这8个取样点的空气质量进行评估时,可以认为氯,SO2,碳4,环氧氯丙烷是空气污染的主要气体因子分析(一) 因子分析原理因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。(二) 因子分析数学模型因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors)和唯一因子(unique factors)。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings)表示。因子分析最常用的理论模式如下:(,n为原始变量总数)可以用矩阵的形式表示为。其中F称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用表示,这里模型中实际上是以F线性表示各个原始变量的标准化分数),因此又称为公共因子。因子可理解为高维空间中互相垂直的m个坐标轴,A称为因子载荷矩阵,称为因子载荷,是第个原始变量在第个因子上的负荷。如果把变量看成m维因子空间中的一个向量,则表示在坐标轴上的投影,相当于多元线性回归模型中的标准化回归系数;称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。其中,(1)为第个变量的标准化分数;(2)(i=1,2,m)为共同因素;(3)为所有变量共同因素的数目;(4)为变量的唯一因素;(5)为因素负荷量。( 三) 因子分析主要步骤如下:为了测量某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的8个大气取样点,每日4次同时抽取大气样品,测定其中包含的6种气体的浓度,前后共4天,每个样品每种气体实测16次,计算每个取样点每种气体的平均浓度如下表,并建立数据文件如下:图5 数据文件建立1. SPSS具体操作步骤(1)打开数据文件后,在数据编辑窗口一次选择Analyze Data Reduction Factor Analysis, 弹出Factor Analysis 对话框(2)在左边的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入variables列表框,具体符号说明如下: 图6 因子分析变量氯代表 硫化氢代表 SO2代表碳4代表 环氧氯丙烷代表 环已烷代表(3)单击Descriptives按钮,打开Factor Analysis:Descriptives对话框。选择Coefficients,Significant level 和Deteterminant选项,然后单击Continue, 返回Factor Analysis 对话框图 7 因子分析描述(4)单击Extraction按钮,即可打开Factor Analysis:Extraction对话框,在Eigenvalues over文本框中输入0.6作为因子提取的阀值,即提取特征值大于0.6的因子,并且选择Display选项组的两个复选框。 图8 因子提取(5)单击Rotation按钮,打开Factor Analysis:Rotation对话框。在Method选项组中选择Varimax单选按钮,使用正交旋转方法,并选中Display选项组的两个复选框。设置结束后,单击Continue按钮确认并返回主对话框。图 9 因子旋转(6)单机OK按钮确认,并执行因子分析。2 结果分析表5 共同度表(communalities)CommunalitiesInitialExtraction氯1.000.927硫化氢1.000.741SO21.000.937碳41.000.961环氧氯丙烷1.000.981环已烷1.000.808Extraction Method: Principal Component Analysis. 在表中给出了采用主成分法提取因子后的各变量共同度,包括各变量对应的初始共同度(Initial)和提取因子后的再生共同度(Extraction) 表6 相关矩阵表(correlation Matrix)Correlation Matrixa氯硫化氢SO2碳4环氧氯丙烷环已烷Correlation氯1.000-.557-.443.249-.519.214硫化氢-.5571.000-.067-.092.377-.214SO2-.443-.0671.000.123-.082.517碳4.249-.092.1231.000-.145.203环氧氯丙烷-.519.377-.082-.1451.000-.183环已烷.214-.214.517.203-.1831.000Sig. (1-tailed)氯.076.136.276.094.306硫化氢.076.437.414.179.306SO2.136.437.386.424.095碳4.276.414.386.366.315环氧氯丙烷.094.179.424.366.333环已烷.306.306.095.315.333a. Determinant = .089 表的第一行为相关系数矩阵,第二部分为零假设相关系数为零的单侧显著性检验概率矩阵。从表中可以看出,各概率均大于0.05,因此可以认为各变量两两之间是不相关的。 表7 总方差解释表(total)在表中,Component表示因子序号:Total为特征值,特征值的大小反映公因子的贡献;% of Variance 为特征值占方差的百分数;Cumulative %为特征值在方差百分数的累加值。Extraction Sums of Squared Loadings列为根据特征值大于0.6的原则提取的4个因子的特征值,占方差百分数以及其累加值。这4个因子解释的方差占总方差的89.264%,能够比较全面的反映所有信息。Rotation Sums of Squared Loadings列为旋转因子矩阵后的4个因子的特征值,占方差百分数及其累加值。图 10 碎石图如图所示,横坐标表示因子序号,纵坐标表示各因子所对应的特征值。从碎石图中可以比较清楚看出因子的重要程度。比较陡的直线说明直线断点所对应的因子的特征值差值较大,比较缓的直线则对应较小特征值差值。因子1,2,3,4间连线的坡度较陡,说明前4个因子是主要因子,这和前面结论吻合。下表为所提取因子的因子负荷矩阵,所采取的方法是主成分分析法。表8 因子负荷矩阵下表为使用Varimax法进行因子旋转后得到的因子负荷矩阵。与上表相比,该表跟好地对主因子进行解释。旋转后的因子负荷矩阵两端集中,能更好地解释主因子。从表中可以看出,第一个因子与氯和硫化氢关系紧密,第二个因子与SO2和环己烷关系紧密,第三个因子与碳4关系紧密,第四个因子与环氧氯丙烷关系紧密。表 9 旋转后的因子负荷矩阵用因子分析方法得到的结论:取前4个公共因子可反映原始变量的89.264%的信息。由方差最大正交旋转后的载荷矩阵可以得出,第一公共因子主要代表(氯为-0.849)和(硫化氢为0.813);第二公共因子主要代表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论