多元统计分析课程设计

上传人：非*** IP属地：河北上传时间：2026-03-05 格式：PDF 页数：28 大小：4.66MB 积分：12 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多元统计分析课程设计

题目：《因子分析在环境污染方面应用》

姓名：王厅厅

专业班级：统计学级2班

学院：数学和系统科学学院

时间：1月3日

1.摘要:......................................................................1

2•弓I言：....................................................................1

2.1背景.................................................................1

2.2问题的研究意义........................................................1

2.3方法介绍..............................................................2

3.实证分析................................................................10

3.1指标.................................................................10

3.2原始数据.............................................................10

3.3数据来源.............................................................13

3.4分析过程：...........................................................13

4.结论及建议..............................................................25

5.参考文献................................................................26

1.摘要:

中国环境问题，因为中国政府对环境问题关注，环境法律

日趋完善，执法力度加大，对环境污染治理投人逐年有较大幅

度增加，中国环境问题已朝着好方面发展。不过，仍存在着环

境问题，关键表现在环境污染问题，其中关键为水污染和大气

污染。

关键词：环境污染水污染大气污染因子分析

2.引言：

2.1背景：

中国环境保护取得了显著成就，部分地域环境质量有所改善。

不过，从整体上看，中国环境污染仍在加剧，环境质量还在恶化。

大气二氧化硫含量居高不下，境质量呈恶化趋势，固体废弃物污染

量大面广，噪声扰民严重，环境污染事故时有发生。据中国社会科

学院公布一项汇报表明：中国环境污染规模居世界前列。

2.2问题研究意义：

为分析比较各地环境污染特点，利用因子分析对环境污染各个

指标进行降维处理并得到影响环境内在原因，深入对环境污染原因

及治理方法进行分析，让更多人认识到环境关键性，正确把握各地

域环境治理方法和针对不一样地域制订不一样政策改善环境问题，

这对综合治理环境问题含相关键意义。

2.3方法介绍

因子分析意义：变量间信息高度重合和高度相关会给统计方法应用

设置很多障碍。为处理此问题，最简单和最直接处理方案是削减变

量个数，但这肯定会造成信息丢失和

信息不完全等问题产生。为此大家期望探索一个更有效地处理方

法，它既能大幅降低参与数据建模变量个数，同时也不会造成信息

大量丢失。因子分析正是这么一个能够有效降低变量维数分析方

法。

因子分析步骤：

•因子分析前提条件：要求原有变量之间存在较强相关关系。

•因子提取：将原有变量综合成少数多个因子是因子分析关键内

容。

若存在随机向量尸=（耳…3）'（夕"）及£使

简记为X=4/且

（1）£（＜=。，。（尸）=〃（标准化）：

EU）=O,DU）=

（2）L巧」（中心化）；

（3）。皿号尸）=。（不相关）。

那么，称指标向量X含有正交因子结构（全部因子相互正交，即

E（FFj）=0,i,j=j,q,i*j）；称此模型为正交因子模型；称匕，…，与

为公共因子（对整个X有影响公共原因）；称〜…，金为特殊因子

（只正确X各对应分量有影响特殊原因）；称A=（与）…为因子载荷

矩阵，均为第，个指标在第/个公共因子上载荷。

因子载荷矩阵建立

因子分析最基础任务之一就是建立因子载荷矩阵Ao

对于正交因子模型，有

D（X）=AAf+D（£）

若X己标准化，则

R（X）=AA+Q（£）

在绝大多数实际问题中，。（外往往全部是未知，由此求出A是不可

能，这时能够经过主成份分析给出一组公共因子及其因子载荷矩

阵。

具体方法以下:

⑴求出R特征根42…之4>°,和对应单位特征向量

〃⑺=(〃”,•••,〃加)'(，=1,…，p)

(2)建立主成份。

匕=4i)X，Y=U'X

〃二(，，⑴，…，”))是正交矩阵。

E(Y)=U'E(X)=O,D(Y)=U'R(X)U="=A

(3)结构公共因子，并建立因子载荷矩阵。

1_1

X=UY=U♦”丫(逆问题)

令

F=A-2y

轻易验证:

E(F)=O,D(F)=Ip

X含有以下正交因子结构:

X=AF（A——U、F——r?）

完全忽略了特殊因子影响。

航=亚7aFq+I+…+收％

Xi=M%iR+…+R/Fq+q

若只取前/个主成份，且令

A=…国％_,F=（F],…,Fq），，£金）'

则有

X=AF+s

其中E（尸）=0,0（F）=//E（s）=0,Cbv（马尸）=0,D⑹=R-AAo

忽略了不关键公共因子，由特殊因子解析。

换句话说，用主成份法取得了X正交因子分解（近似）中

这里关键问题是怎样确定因子数k

方法一：依据特征值确定因子数。

观察各个特征值，通常取特征值大于1。

方法二：依据因子累计方差贡献率确定因子数。

通常选择累计方差贡献率大于0.85时特征值个数为因子个数

•使因子含有命名解释性

实际分析工作中大家总是期望对因子实际含义有比较清楚认识。未

处理这个问题，可经过因子旋转方法使一个变量只在尽可能少多个

因子上有比较高载荷。最理想状态下，使某个变量在某个因子上载

荷趋于1,在其它因子上载荷趋于0。这么，一个因子就能够成为某

个变量经典代表，于是因子实际含义也就清楚了。

因子正交旋转

当指标向量X含有正交因子结构时，其公共因子向量、因子载荷矩

阵及正交因子分解均不唯一确定。

X=AF+£

对任一9阶正交矩区丁，有

X=ATTF+£

令

F*=7户,A*=AT

则

X=与尸+£

E(尸)=O,D(F*)=FD(F)T=TrT=I

COV（F\£）=E（尸/）=T,E（Fs,）=0

（A*（A）=A4,（/?：）2=〃：,说明的问题）

利用正交因子分解这一性质，在因子分析（正交因子模型）中，常

常在建立了初始因子载荷矩阵以后，再对具作合适正交变换（几何

解释：因子轴旋转），以使得因子载荷矩阵4=AT含有更简练、更

理想（近乎分块对角矩阵形式）结构，公共因子向量尸二7户含有更

显著、更直观实际意义，正交因子分解X=4尸+£更合理、更能反

应客观实际c

现在，已经提出了多种因子旋转方法。比较常见一个是方差极大因

子轴正交旋转法，简称方差极大法。

先考虑两个公共因子平面正交旋转。

a”cos0+a1？sin(/)-sin^+w12cos^bnbyi

AT=；:—•

4川cos。+sin。一%、s\n(/f+ap.cos^j［力川%

含有更理想、更简化结构，即使其各列因子载荷值尽可能地两极分

化，大者尽可能大，小者尽可能小。

各载荷值可正可负，x,依靠程度”也不一样，消除其影响:

bij=b^/hie[O,l]（z'=1,j=h2）（规格化）

1p_

V⑺二不»-4六1,2

正交旋转目标就是要使新因子载荷矩阵各列方差之和（总方差）

f⑴+%

达成最大。

记

%=?■i==

%=或一嫌，力=2%%/=1,•••，p

a===-夕=

i=li=li=li=l

则。可由下式确定：

40=_*二23_」

tg〃/一（a?一42）g

且。符号可由e符号确定：

7T.7T

e>0=>衣（0,—）;ev0=>。£（,0）

当公共因子数〃>2时，需要对因子载荷矩阵中4列因子载荷向量配

C2二式"I）

两两对旋转，共旋转"一2次。

取列。先确定°,后旋转。

仅取列元素改变。

全部列两两配对旋转完成后，就完成了第一轮旋转。假如因子载荷

矩阵还不能达成要求，那么进行第二轮旋转，如此进行下去，直到

满足要求为止。

每经一轮旋转，全部可算出因子载荷矩阵总方差。

⑷°）=A⑴fA⑵-…；/。）7v⑴fV⑵t…

人⑴=小。”）…北儿=人几人⑵=心瑞）…尊）W=小忆=人电，…

吸，W⑵，…是一非降序列，且有上界（为W）,故必收敛于某一

极限值口，V即为最大总方差。

实际中，通常旋转到总方差改善不大，即

（给定精度）

时，旋转停止。

最终，取*="=前…，=A［作为最终因子载荷矩阵。

•计算因子得分

因子得分是因子分析最终表现。在因子分析实际应用中，当因子确

定以后，便可计算各因子在每个样本观察上具体数值，这些数值称

为因子得分，形成变量称为因子得分变量。于是，在以后分析中就

能够因子得分变量替换原有变量进行数据建模，或利用因子得分变

量对样本进行分类或评价等研究，进而实现降维和简化问题目标。

（R,…,Fq,FqN.,F/=QY,（F\FqN.,F/=”Y

」1

尸尸=（r,o）（尸，死…,K，）'=（F,O）/\WY=（rfi）^uru

\_I

二（r',o）（/u'）（uA"u'）x=（F,O）（/\QU'）RTX

=(r,0):卜一/=(A7YR」X=(A)R“X

尸，(4*)'RTXa(A)RTAr,R-I=u八-p',A^=AT

A=UA?qy

U(p-g)xq函)'R-W=••・=//

3.实证分析

3.1指标:

废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总

量、氮氧化物排放总量、烟尘灰尘排放总量

3.2原始数据:

化学需二氧化氮氧化烟尘灰

废水排氨氮排

地域氧量排硫排放物排放尘排放

放总量放总量

放总量总量总量总量

北京15.0716.881.97.8915.15.74

天津8.9421.432.4520.9228.2313.95

河北30.98126.8510.27118.99151.25179.77

山西14.544.135.37120.82106.99150.68

内蒙古11.1984.774.93131.24125.83102.15

辽宁26.29121.710.0199.4690.2112.07

吉林12.2274.35.3137.2354.9247.51

黑龙江14.96142.398.4947.2273.0679.35

上海22.1222.444.4618.8133.2814.17

江苏60.1211014.2590.47123.2676.37

浙江41.8372.5410.3257.468.7937.97

安徽27.2388.5610.0549.380.7365.28

福建26.0662.988.9335.641.1736.79

江西20.8372.018.653.4454.0146.23

山东51.44178.0415.5159.02159.33120.81

河南42.28131.8713.9119.82142.288.21

湖北30.17103.3112.0458.3858.0250.4

湖南31122.915.4462.3755.2849.62

广东90.51167.0620.8273.01112.2144.95

广西21.9374.47.9346.6644.2440.29

海南3.9419.62.293.269.52.32

重庆14.5838.645.1352.6935.522.61

四川33.13121.6313.4779.6458.5442.86

贵州11.0932.673.892.5849.1137.79

云南15.7553.385.6563.6749.8936.68

西藏0.542.790.340.424.831.39

陕西14.5850.495.8278.170.5870.91

甘肃6.637.323.8157.5641.8434.58

青海2.310.50.9815.4313.4523.99

宁夏3.7321.981.6637.7140.423.92

新疆10.2767.024.5985.386.2881.39

3.3数据起源：《中国环境年鉴》

3.4分析过程：

利用SPSS软件进行分析，首先录入数据，然后一次进行以下处

理：

一、考察原有变量是否适合进行因子分析

首先考察搜集到原有变量之间是否存在一定线性关系，是否适

合采取因子分析。这里借助变量相关系数矩阵进行分析工表一是原

有变量相关系数矩阵。能够看到：大部分相关系数全部较高，各变

量呈较强线性关系，能够从中提取公共因子，适合进行因子分析。

表一

相性矩阵

氮氧化烟尘灰

废水排放物排放尘排放

总量化学需氧量氨氮排放总二氧化硫排总量总量

单位：亿排放总量量单放总量单位：单位:

吨单位：万吨位：万吨单位：万吨万吨万吨

相^废水排放总

量单1.000.762.913.424.612.277

位：亿吨

化学需氧量

排放总量.7621.000.906.647.773.592

单位：万吨

氨氮排放总

量单.913.9061.000.519.650.394

位：万吨

二氧化硫排

放苞量.474,647S191000.903

单位：万吨

氮氧化物排

放总量.612.773.650.9031.000.864

单位：万吨

烟尘灰尘排

放总量单

.277,592.394.842,8641.000

位：万吨

二、提取因子

这里首优异行尝试性分析：依据原有变量相关系数矩阵，采取

主成份分析提取因子并选择大于1特征值，分析结果如表2所表

不。

表二

Communalities

起始撷取

废水排放总量单位：亿吨1.000.923

化学需氧量排放总量单位：

1.000.892

万吨

氨氮排放总量单位：万吨1.000.971

二氧化硫排放总量单位：万

1.000.908

吨

氮氧化物排放总量单位：万

1.000.953

吨

烟尘灰尘排放总量单位：万吨1.000.931

撷取方法：主醴元件分析。

表二显示了在指定提取2个变量共同度数据。第一列数据是因

子分析初始解下变量共同度，它表明：假如对原有7个变量采取主

成份分析方法提取全部特征值，那么原有变量全部方差全部可被解

释，变量共同度均1.实际上，因子个数小于原有变量个数才是因子

分析目标，所以不可能提取全部特征值。第二列数据是在按指定提

取条件提取特征值时变量共同度。能够看到全部变量绝大部分信息

可被因子解释，信息丢失少。所以，此次因子提取总体效果比较理

想。

表三

起始特徵值撷取平方和载人循琪平方和载入

元件翻十燮昊%累加%嬷十燮昊%累加%£鬻十建巽%累加外

14.38273.04073.0404.38273.04073.0402.81046.83146.831

21.19619.93292.9721.19619.93292.9722.76846.14192.972

3.2073.44496.416

.1342.24198.656

.0621.03799.694

6.018.306100.000

撷取方法：主葭元件分析。

表三中，第一列是因子编号，以后三列组成一组，每组中数据

项含义依次是特征值、方差贡献率和累计方差贡献率。

前两个因子解释原有变量总方差93%,总体上，原有变量信息

丢失较少，因子分析效果较理想。

表四

陡坡园

元件联礁

表四中，横坐标为因子数目，纵坐标是特征值。能够看到：第

一个因子特征值很高，对解释原有变量贡献最大;第二个以后因子特

征值全部较小，对解释原有变量贡献很小，所以提取两个因子是适

宜。

表五

元件矩阵,

氮氧化物排放总量单位：万吨

化学需氧量排放总量单位：万吨

氨氮排放总量单位：万吨

二氧化硫排放总量单位：万吨.848-.434

废水排放总量单位：亿吨.778.564

烟尘灰尘排放总量单位：万吨.775-.575

撷取方法：丰骷元件分析。

a.撷取2f固元件。

表五显示了因子载荷矩阵，是因子分析关键内容。依据该表能

够写出因子分析模型：

氮氧化物排放总量

=0.939*/,-0.266*f2

化学需氧量排放总量

=0.917*/,+0.226*f2

氨氮排放总量

=0.856*/+0.487*f2

二氧化硫排放总量

=0.848*/-0.434*/2

废水排放总量

=0.778*/+0.564*f2

烟尘灰尘排放总量=0.775*/-0.575*/,

由表五可知，六个变量在第一个因子上载荷全部很高，意味着

她们和第一个因子相关程度高，第一个因子很关键。

第二个因子和原有变量相关性均较小，它对原有不安量解释不

显著。

三、因子命名解释

采取方差极大法对因子载荷矩阵进行正交旋转以使因子含有命

名解释性。得到旋转后因子载荷矩阵图六所表示。

图六

旋削元件矩障'

元件

烟尘灰尘排放总量单位：万吨.955.136

二氧化硫排放总量单位：万

.909.287

吨

氮氧化物排放总量单位：万

.855.471

吨

氨氮排放总量单位：万吨.268.948

废水排放总量单位：亿吨.157.948

化学需氧量排放总量单位：

.494.805

万吨

撷取方法：主髓元件分析。

樽事的方法:含有Kaiser正境化最大燮昊法。

a.在3叠代中收敛循琪。

由表六可知，烟尘灰尘排放总量、二氧化硫排放总量、氮氧化

物排放总量在第一个因子上有较高载荷，第一个因子能够解释为大

气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排

放总量在第二个因子上有较高载荷，第二个因子能够解释为水污染

物排放总量。和旋转前相比，因子含义较清楚。

表七

元件^分共燮昊敷矩障

元件12

11.000.000

2.0001.000

撷取方法：主醴元件分析。

幡岫方法：含有Kaiser止睨化最大

燮昊法。

元件押分。

表七显示了两因子协方差矩阵。两因子没有线性相关关系，实

现了因子分析设计目标。

四、计算因子得分

采取回归法估量因子得分系数，并输出因子得分系数。

表八

元件押分保数矩阵

元件

废水排放总量单位：亿吨-.205.461

化学需氧量排放总量单位：

.016.282

万吨

氨氮排放总量单位：万吨-.147.427

二氧化硫排放总量单位：万

.393-.122

吨

氢氧化物排放总量单位：万

.309-.007

吨

烟尘灰尘排放总量单位:万吨.463-.218

撷取方法：主能元件分析。

樽申由方法：含有Kaiser正规化最大燮昊法。

元件押分。

依据表八可写出以下因子得分函数：

6=-0.205*废水排放总量+0.016*化学需氧量排放总量-0.147*氨氮排

放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*

烟尘灰尘排放总量

尸2=0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放

总量-0.122*二氧化硫排放总量0007*氮氧化物排放总量-0.218*烟尘

灰尘排放总量

另外，因子得分均值为0,标准差为1。正值表示高于平均水

平，负值表示低于平均水平。

地域因子得分1因子得分2地域因子得分1因子得分2

北京-1.24699-0.57979河南1.089550.97693

天津-0.88044-0.73934湖北-0.374430.75745

河北2.36983-0.09971湖南-0.464941.17204

山西2.03859-1.24591广东-0.774943.30542

内蒙古1.814460.91302广西-0.503040.13154

辽宁1.047180.15182海南-1.26173-0.76721

吉林-0.25843-0.33525重庆-0.55114-0.41907

黑龙江0.220970.2四川-0.309471.03004

上海-1.06205-0.24016贵州0.18358-0.85403

江苏0.320921.46441云南-0.20629-0.36888

浙江-0.526020.77841西藏-1.24652-1.09844

安徽-0.050730.37961陕西0.46793-0.62279

福建-0.75070.30179H.肃-0.3-0.80876

江西-0.307840.09465青海-0.82359-1.11995

山东1.82861.31332宁夏-0.43681-1.03388

新疆0.85653-0.81297

五、各地域综合评价

可利用因子得分变量对地域进行对比研究。

首先，绘制两因子得分变量散点图，图九所表示。

地

区

400000-

o安

o北fi

京

福

建

Lo"木

东

广

3.00000-

西

o广

S.J2

州

o贵

南

W奔

北

o河

南

o河

E2.00000-

o龙

Z«

北

湖

南

po湖

杯

o古

oOt苏

1ooooo-j

sr西

」

0o亍

1tl

ii古

内«

。

夏

丁

|2ooooo-o奔

art

山

o东

山

o西

陕

ual四

o上

弯

o囚

-1.ooooo-川

天

津

西

O藏

新

福

云

南

-200000-淅a

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多元统计分析课程设计

文档简介

温馨提示

最新文档

评论

多元统计分析课程设计

文档简介

温馨提示

最新文档

评论

相关文档