因子分析最终版_第1页
因子分析最终版_第2页
因子分析最终版_第3页
因子分析最终版_第4页
因子分析最终版_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因子分析组员:霍志轩毛杉喻珊徐双01/02/03/04/因子分析理论的模型与基本概念因子分析的过程及计算方法因子分析法案例因子分析在环境科学中的应用31因子分析理论的模型与基本概念霍志轩

§1引言因子分析(factoranalysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。4

但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:

称是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。56CHAGDBFE3127主成份分析与因子分析比较主成份分析和因子分析都是基于降维的思想主成份分析和因子分析计算方法相似,但因子分析在主成份分析基础上有所发展主成份分析提取的主成份不一定具有明确的含义,而因子分析主因子代表一定含义主成份分析只能对样本排序,因子分析还可以判定主要影响因素,找出问题本质§

2因子分析模型

一、数学模型

设个变量,如果表示为8

称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:即不相关;9模型中的矩阵A称为因子载荷矩阵,称为因子“载荷”,是第i个变量在第j个因子上的负荷,如果把变量看成m维空间中的一个点,则表示它在坐标轴上的投影。即互不相关,方差不一定相等。。10即互不相关,方差为1。二、因子载荷矩阵中的几个统计特征

1、因子载荷aij的统计意义

因子载荷是第i个变量与第j个公共因子的相关系数

模型为

在上式的左右两边乘以

,再求数学期望

根据公共因子的模型性质,有

(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的密切程度越高。11

2、变量共同度的统计意义定义:变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义:两边求方差

所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。12

3、公共因子方差贡献的统计意义因子载荷矩阵中各列元素的平方和称为所有的对的方差贡献和。衡量的相对重要性。1314三、因子命名与因子旋转因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释,即对因子进行命名。1.因子命名152.因子旋转为什么要进行因子旋转?可能同一个变量在多个公共因子上都有较大的载荷,也可能多个变量在同一个公共因子上都有较大载荷,说明该因子对多个变量都有较明显的影响作用。这种因子模型反而很难对因子的实际背景进行合理的解释。

这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,这时就突出了每个公共因子和其载荷较大的那些变量的联系,该公共因子的含义也就能通过这些载荷较大的变量做出合理的说明。16

如何进行因子旋转?因子旋转方法有正交旋转和斜交旋转两类,这里我们重点介绍正交旋转。

对公共因子作正交旋转就是对载荷矩阵A作一正交变换,右乘正交矩阵Γ,使得旋转后的因子载荷阵有更鲜明的实际意义。变换后因子的共同度:设正交矩阵,做正交变换变换后因子的共同度没有发生变化!17变换后因子贡献设正交矩阵,做正交变换变换后因子的贡献发生了变化!1819四、因子得分因子得分是因子分析的最终体现。当因子载荷阵确定以后,便可以计算各因子在每个样本上的具体数值,称为因子得分。得到了因子得分之后,就可以像主成分分析那样,用因子得分来代替原始变量,从而达到降维的效果。估计因子得分的方法也有很多,常用的方法包括回归法(Regression)、巴特莱特法(Bartlett)、安德森-鲁宾法(Anderson-Rubin)等。202因子分析的过程及计算方法毛杉211.数据预备

因子分析通常包括如下步骤在环境系统中,我们通过采样、测量,对某种因素(变量)进行定性及定量的描述.通常在一个样品中,并不是只有一个变量起作用,而是有多个变量的同时作用才决定了该样品的性质.同样,了解了某地区的一个样品,并不等于了解了该地区的环境质量水平.我们只有独立的、多次重复采集样品,对变量进行多次的测量,才能逐步了解环境的情况。22假设我们经过n次采样、分析得到大量的观测数据,共n×p个.为了研究的方便,常把P个变量从左到右排列,而n次观测值从上到下排列.建立原始数据矩阵应遵循下述规则:l、样品数n应远远大于变量数P;2、样品应是随机采取的且对变量来说,数据服从正态分布;

3、样品及变量监测的数据要准确可靠,对每一样品来说,不得缺少任何一个所被考察的变量项,原始数据必须完整;4、对于定性指标可以在数量化后进入原始数据矩阵满足上述4点要求,就可以对原始数据矩阵进行处理了。232.数据求解

数据求解是利用某种数学方法来确定因子的数目,进而求得因子的初始载荷阵。通常所用的数学方法有:

主成份分析法、主因子法、最大似然法等。其中,以主成份分析法最为常用。

设随机向量的均值为,协方差为,

为的特征根,为对应的标准化特征向量,则主成分分析法24

上式给出的表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有25

上式有一个假定,模型中的特殊因子是不重要的,因而从的分解中忽略了特殊因子的方差。26注:残差矩阵其中S为样本的协方差矩阵。27

主因子法

主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则

R=AA’+DR*=AA’=R-D称R*为约相关矩阵,R*对角线上的元素是,而不是1。28直接求R*的前p个特征根和对应的正交特征向量。得如下的矩阵:29

当特殊因子的方差不为0且已知的,问题非常好解决。3031

在实际的应用中,个性方差矩阵一般都是未知的,可以通过一组样本来估计。估计的方法有如下几种:

首先,求的初始估计值,构造出

1)取,在这个情况下主因子解与主成分解等价;

2)取,为xi与其他所有的原始变量xj的复相关系数的平方,即xi对其余的p-1个xj的回归方程的判定系数,这是因为xi

与公共因子的关系是通过其余的p-1个xj

的线性组合联系起来的;322)取,这意味着取xi与其余的xj的简单相关系数的绝对值最大者;4)取,其中要求该值为正数。5)取,其中是的对角元素。33343.数据变换

因子在多数情况下只是在数学上有意义,而在实际的环境问题中无法对其进行解析。为了能够确定因子的实际意义,必须对初始因子载荷阵进行变换,以获得最终因子载荷阵,从而达到解析因子的目的。

进行变换的方法通常有目标检验法和因子轴旋转法。因子轴旋转法又可分为正交旋转和斜交旋转。354.数据解析

数据解析的过程是根据求得的最终因子载荷阵,利用专业知识对每个因子做出合理的解释,从而推导出某一环境污染现象的成因或解析出某混合物的组成及其浓度。

可以说,数据解析才是我们进行因子分析所要达到的最终目的。363因子分析法案例徐双37因子分析法在环境质量评价中的应用实例[摘要]环境作为人类赖以生存的基础对经济社会的发展起着巨大的作用。基于国家统计局统计数据库2008年的数据,采用因子分析法对中国31个省市的环境质量进行了排序。

分析结果显示,环保建设和环境污染在环境质量评价中起主要作用,地区在注重保护基础环境的同时更要加强对环境的补偿。381环境质量评价指标体系构建依据国家统计局统计数据库2008年统计数据,选取14项具体指标,作为中国区域环境质量评价指标体系。这些指标分别为:X1(生活污水排放量)、X2(废水治理设施数)、X3(工业废气排放量)、X4(工业烟尘排放量)、X5(工业粉尘排放量)、X6(生活烟尘排放量)、X7(工业废气治理设施数)、X8(工业固体废弃物排放量)、X9(林业用地面积)、X10(森林覆盖率)、X11(林业重点工程造林面积)、X12(森林病虫鼠害防治率)、X13(工业污染治理项目本年投资完成额)、X14(林业系统营林固定资产投资完成额)。392因子分析因子分析首先将原始数据标准化处理,建立相关系数矩阵并计算其特征值和特征向量,接着从中选择特征值大于等于1的特征值个数为公共因子数,或者根据特征值累计贡献率大于80%来确定公共因子,求得正交或斜交因子载荷矩阵,最后计算公因子得分和综合得分。40使用SAS9.0作为统计分析工具,得到各指标之间的相关系数矩阵R(如表1所示)。相关系数矩阵为非单位阵,故可实施因子分析。41矩阵特征值与累计贡献率如表2所示,前4个因子为综合因子,提取了78.87%数据信息,因此提取前4个主因子。公共因子与原有变量指标之间的关联程度有因子载荷值体现。42由于初始因子载荷阵结构不够简明,各因子的含义不突出。为此采用方差最大正交旋转变化,使各变量在某个因子上产生较高载荷,而在其余因子上载荷较小,即在SAS的因子分析过程中调用ROTATE程序。经过2次迭代收,得到旋转后因子载荷矩阵,如表3所示。43同时,将指标值载荷矩阵中载荷较高额情况分为4类,可以给各个公因子命名。通过因子分析,将14个指标变量降维成4个公共因子,如表4所示。443数据处理调用SAS的因子分析过程中SCORE程序,得到了各地区环境质量评价的因子得分,并对其进行排序,根据各因子的方差贡献率占4个因子总方差贡献率的比重作为权重进行加权汇总,得到各地区的综合得分,即:F=(26.24×F1-25.08×F2+15.87×F3+11.68×F4)/78.87将各公因子的Fi得分值代入上式,计算出各地区环境质量的综合得分F值,以F值的大小进行排序,就可以排列出中国地区环境质量的排名,如表5所示。45464结果分析1)4个公共因子得分和因子综合得分越大,就说明地区的环保建设水平、环境污染水平、环境补偿水平、基础水平越高,综合环境质量竞争力越强。由于原始数据的标准化处理意味着将整个地区各公因子和综合因子的平均水平定为零点,表中的负值仅表示该地区的环保建设水平、环境污染水平、环境补偿水平、基础水平及综合环境质量低于全国平均水平,正值的意义则相反。分析发现,广东、四川、江苏、浙江、广西、福建、云南、湖北、北京、黑龙江、湖南、山东、内蒙古13个省或直辖市的环境质量水平在全国水平之上,其他的地区在全国的平均水平之下。472)广东、江苏、山东、浙江的环境建设因子得分较高,这是因为一个地区的经济越发达,其人口就越多,生活污染和工业污染就越高,迫使该地区必须提高对污染处理的能力,增加污染处理设备和投资。

贵州、宁夏、海南、青海、西藏在F1上的得分较低不是因为环保建设不到位,而是这些地区的发展相对较弱,对环境的破坏也相对较小,治理污染工作的要求也就相应较低。而值得特别注意的倒是在0附近的得负值的地区,说明其污染的程度要大于治理的程度,加之这些地区的原始环境条件也不容乐观,因此,在发展经济的同时必须再进一步提高对污染的处理能力。483)辽宁、山西、河北、内蒙古的污染相当严重,这是当地特色工业发展所决定的,而除内蒙古之外,其余3省的环境补偿因子得分都相对靠后、基础条件也一般。

这就需要上述地区在转变经济发展模式、降低污染的同时,加大环境保护工作力度,更加重视基础环保建设,以求从根本上改善环境。494)四川和内蒙古在补偿因子得分具有明显优势,海南虽然排名靠后,但不是因为没有对环境补偿,而是因为海南的产业不以林业发展为主,加上环境的特点,并不需要通过林业的发展改善环境。

值得注意的是安徽、辽宁、天津、上海、福建、浙江、山东、河南8个省市由于地理限制和已有工农业特点,经济林业和林业重点工程建设并不是上述地区经济发展的重点,但是鉴于林业对环境保护作用的贡献,这些地区应充分利用有限的空间发展林业,从点滴做起改善环境。505)宁夏、北京、甘肃、江苏、天津、上海、山东7个省或直辖市的基础因子排名靠后,表明上述地区的原始生态条件较差,其中宁夏和甘肃应加强自然生态环境保护,而北京、江苏、天津、上海、山东应该在保持经济可持续的同时,加强环境建设,从而弥补基础环境条件的不足。514因子分析在环境科学中的应用喻珊52因子分析广泛的应用于环境科学的各个领域:大气污染分析

大气颗粒物污染分析大气主要污染来源分析水环境问题分析

水污染的主要因素及水质评价基于因子分析定权的水质评价模型水体富营养化分析水化学特征分析矿石淋溶作用对地下水的影响噪声源分析土壤污染分析化学物质生物危害分析区域环境污染源分析总体环境质量检测53大气颗粒物污染分析大气颗粒物来源及各源贡献率分析采用改良后的因子分析——绝对主因子分析法并引入了富集因子这一概念

54大气颗粒污染物分析不同季节PM10水溶性组分分析选取沈阳市6个监测点位,采集2005年冬、春、夏、秋大气可吸入颗粒物样本,用因子分析法分析了沈阳市大气可吸入颗粒物水溶性组分的来源,得到以下结论:

春季,大气可吸入颗粒物主要有来源有工业源、土壤、建筑源、交通源;

夏季,主要来源有工业源、交通源;

秋季,主要来源有工业源、土壤、建筑源;

冬季,主要来源有工业源、交通源、土壤、建筑源;由沈阳市各种源对PM10水溶性组分的贡献率分析得,沈阳市工业、燃煤源对PM10水溶性组分的贡献最大,其中尤以夏季突出,说明工业、燃煤型污染相对较重。其次为土壤源,沈阳市夏季土壤源对PM10没有贡献,说明城市绿化及软硬覆盖较好。交通源排在第三位,这与近年来机动车保有量的迅猛增加有关,而在冬季贡献最大,与北方冬季气象、路况等因素相关。调整产业结构,减少重污染工业比重加强能源结构调整,鼓励开发、使用新型环保型能源加强对建筑工地日常监督管理改善路况,加强冬季特殊天气的车辆疏导55水环境问题分析水污染的主要因素及水质评价水体中的污染物多种多样,不同水体污染因素与污染程度不同,选取水质指标高锰酸钾指数、pH值、悬浮物、溶解氧、生化需氧量、总氮、硝酸盐、总磷、总硬度等代表各种污染的指标进行因子分析可以判断出水体的主要污染因素,如有机污染、无机污染、重金属污染等,进而对各区域水体污染程度排序,根据分析结果可以分析不同区域污染状况与周围污染源的关系,找出主要治理对象和治理措施。关于这方面的研究非常多,说明因子分析在水质评价中的应用已经很成熟。56噪声源分析在道路交通噪声分析中应用因子分析法能方便地分析出影响道路交通噪声的各因素之间的关系,并从中找出最基本的影响因素,在珠海特区环境噪声现状调查中分析道路交通噪声时应用了因子分析方法取得了较好的效果。第一因子F1主要代表了路段测点的声级水平,因此,道路交通噪声的治理重点应该是重型车及轻型车的流量,具体说就是限制重型车进入,限速及禁止鸣笛。第二因子F2综合反映了路段的繁华程度,因此可利用它们将要研究的路段分成城区中的繁华路段和边缘的非繁华路段两种道路类型分别进行研究,以求准确地了解不同类型道路其交通噪声的规律。57土壤污染分析土壤污染包括很多方面,如重金属、氮、磷、易降解有机物、难降解有机物、游离态或络合态的物质等,通过因子分析可以判定主要污染因素,以找到重点治理对象。

对太原市土壤重金属污染状况的因子分析

58化学物质生态危害分析不同污染物污染性质、污染程度不同,通过对化学物质生态毒理学指标的因子分析,可以分析出影响化合物毒性的主要因素及化合物污染程度。选取61种环境优先污染物对它们的环境毒理学指标进行因子分析,提取出四个主因子。59因子1主要与鱼毒、藻毒、溞毒正相关,可认为它反映的是化合物对生物的毒性影响,可以定义为生物毒性因子;蓄积性、分配系数和吸附性在因子2上载荷较高,化学物质在介质中的吸附,在生物体内的蓄积,及辛醇-水分配系数,都体现的是化学物质在不同介质中的分配,没有改变化学物质本身的状态,这3个指标都反映了化学物质的分配特性,因此可以称之为分配性因子;可将反映化学物质降解性的因子3归结为降解性因子。然后可以根据各化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论