空气污染研究地主成分分析报告_第1页
空气污染研究地主成分分析报告_第2页
空气污染研究地主成分分析报告_第3页
空气污染研究地主成分分析报告_第4页
空气污染研究地主成分分析报告_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实用文档 空气污染研究的主成分分析 一、提出问题 本文对于给定的某城市 42天中午12点的空气污染数据进行主成分分析,主要解决以下 几个问题: (1) 分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异; (2) 对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。 二、分析问题 主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究 中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度 上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反 映的信息在一定程度上有重叠。本文中所研究

2、的问题变量较多,因此利用主成分分析法研究 本问题,减少计算量和降低分析问题的复杂性。 针对问题一,首先将数据标准化, 计算样本协方差矩阵和相关矩阵,然后分别计算样本 协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列 出主成分方程并解释主成分意义。 针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%就可以反映原 始数据的变化,并且对所选取的主成分做出解释。 三、模型假设 1、影响污染程度的变量只有本文中所提到的变量; 2、随机选取的42天; 3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现 强烈波动; 4、题目中所给的

3、污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测 仪器精确度不同等影响。 四、符号说明 符号 符号含义 aii 样本方差 X 原始变量 Y 样本主成分 Cov(Xi,Xj) 样本协方差 P 样本相关矩阵 h 样本平均值 S 协方差矩阵 P 特征向量矩阵 丸 矩阵的特征值 e 矩阵的特征向量 信息提取率 五、问题求解 5.1协方差矩阵主成分分析 设7是x= (x1, x2 ,x3 / ,Xp)T的协方差矩阵,的特征值与正交化特征向量分别为 12 -人3-人p - 0及42,,,ep,且X的第i个主成分为 Y= eXi+G2X2+U3X3 +eipXp,(i= 1,2,3,p) 根

4、据已有数据计算得样本(x1,x2,x3/ ,Xp)T的均值向量 (X1,X2,X3/ ,Xp)T为 X =(7.5 73.8333 4.4762 2.1905 10.0476 9.4048 3.0952)T 根据协方差矩阵计算公式 1 n _ (人-X)(Xi -X)T n -1 id 代入数据可求得随机变量X =(X1,X2,X3,X4,X5,X6,X7)T相应的样本协方差矩阵为 - 2. 500 -2. 781 -0. 378 -0.463 -0. 585 -2. 232 0. 1711 -2. 781 300. 156 3. 909 -1.387 6. 763 30. 791 0. 62

5、4 -0. 378 3.909 1. 522 0. 674 2.315 2. 822 0. 142 -0. 463 -1. 387 0. 674 1. 182 1.088 -0. 811 0. 177 -0. 585 6.763 2. 315 1. 088 11. 364 3. 127 1. 044 -2. 232 30. 791 2. 822 -0.811 3. 127 30. 979 0. 595 - 0. 171 0.624 0. 142 0. 177 1.044 0. 595 0. 479j 利用特征值计算公式 KE -Z 0代入数据可求得 Z的特征值 入与对应单位正交化特征向 量e(

6、i =1,2,7)分别为 =303.6941 , e =(0.0099 -0.9932 -0.0150 0.0046 -0.0246 -0.1125 -0.0024)T 2 =28.3132, 佥=(0.0766 0.1163 -0.1059 0.0128 -0.1501-0.9727 - 0.0237)T 3 =11.4674, 0=(-0.0314-0.00700.18610.1320 0.9541-0.17110.0851)T ,4 =2.5494, e4 -(0.8996 -0.0005 -0.1998 -0.3467 0.1188 0.0670 0.1092)T 5 =1.4703,

7、 e5 =(0.3886 0.0016 0.7183 0.5364- 0.2074- -0.00950.0470) 6 =0.5479, e6 =(0.0386 0.0036 -0.5099 0.5912-0.0264 0.05570.6207)T 7 =0.2243, e7 =( - 0.1766 -0.0081 0.3716 -0.4743- 0.0931 -0.06520.7699) 利用第i个主成分的贡献率 k(3) 及前k个主成分的累计贡献率 kP v s v STt J (4 ) 代入数据计算得x的各标准化主成分的贡献率及累计贡献率(如表 1所示),可以看出,前 三个标准化样本的累

8、计贡献率已经达到98.6968%,故只需提取前三个主成分即可: 表1二的各标准化主成分的贡献率及累计贡献率 i 贡献率(%) 累计贝献率(% 1 304.2579 87.2948 87.2948 2 28.2761 8.1127 95.4075 3 11.4645 3.2893 98.6968 4 2.5243 0.7242 99.4210 5 1.2795 0.3671 99.7881 6 0.5287 0.1517 99.9398 7 0.2096 0.0601 100.0000 记主成分向量为丫 =(,丫2,丫3,丫4,丫5 丫6,丫7) 由丫 = PTX , P =(G,e2,e3,e

9、4,e5,e6,e7) 知x的前三个主成分分别为 第=0.0099 -0.9932x2 -0.0150X3 0.0046x4 - 0.0246x5 - 0.1125 ij ) p p 其中 仏二 E(Xi ,Yj ) CovgXj) Cov(Xi ,Xj)为 Xi ,Xj 的协方差。 代入数据计算得到样本相关矩阵为 - 1.000 -0. 101 -0. 194 -0.270 -0. 110 -0. 254 0. 156 -0. 101 1.000 0. 183 -0.074 0. 116 0. 320 0. 052 -0. 194 0. 183 1. 000 0. 502 0. 557 0.

10、 411 0. 166 P 二 -0. 270 -0. 074 0. 502 1.000 0. 297 -0. 134 0. 235 -0. 110 0. 116 0. 557 0. 297 1.000 0. 167 0. 448 -0. 254 0. 320 0. 411 -0. 134 0. 167 1. 000 0. 155 - 0. 156 0. 052 0. 166 0. 235 0.448 0. 155 1. 000 一 利用特征值计算公式卜E - P| = 0代入数据可求得 P的特征值 盯 与单位正交化特征向量 e(i =1,2,3,7)分别为 / =2.3122 * = (-0

11、.24210.2068 0.5463 0.38980.49010.3237 0.3212)T / =1.3833 e2 =(0.2768-0.5273-0.00390.4356 0.1960- 0.57090.3021)T / -1.2109 T e3 = (0.6303 0.2274 -0.1333 - 0.3974 0.2136 0.1586 0.5518) / =0.7286 q =(0.2179 0.7645 0.0557 0.2853 -0.0572 -0.4980 - 0.1798)T 5 = 0.6565 Q =(-0.5865 0.2048 -0.5931 0.0141 0.0

12、836 -0.1803 0.4179)T 6 =0.5417 Q =(0.1077 0.0305 0.0263 0.4185 -0.7628 0.2852 0.3854)T 7 =0.1668 3 =(-0.2539 -0.0115 0.5729 -0.4936 - 0.2892 - 0.4270 0.3123丁 利用第i个主成分的贡献率 ,e3 ,e4 ,e5 ,e6(7 ) 则X的前三个主成分分别为 =-0.2421X1 0.2068X2 0.5463X30.3898X4 0.4901X5 0.3237X6 0.3212X7 Y2 =0.2768X-0.5273X/ -0.0039X/ 0

13、.4356X40.1960X5 -0.5709X6 0.3021X7 丫3 -0.6303X, 0.2274X2 -0.1333X3 -0.3974X40.2136X5 0.1586X6 0.5518X7 由Y1*与的相关系数 := i 勺(10) 计算出前三个主成分与各原始变量的相关系数如表: 表4前三个主成分与各原始变量的相关系数 Y/ y2* 丫3屮 X/ -0.3681 0.3255 0.6936 X2* 0.3145 -0.6202 0.2502 X3* 0.8307 -0.0046 -0.1467 X4* 0.5927 0.5123 -0.4373 * X5 0.7452 0.23

14、05 0.2350 X6 0.4922 -0.6714 0.1745 X7 0.4884 0.3553 0.6072 由表4可看出,Yi与X3 “、X5相关度较高,Yi近似是7个变量的等权重之和,反 映了空气质量的综合指标,Yi值越大,空气质量越差。丫2”与X3”相关度较低,由相关矩 阵的主成分权重系数(即特征向量e2 ”中的各个值)知,CC对空气污染指标y2的影响较小; y3与 Xi ”、x/相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量*中的 各个值)知,风速和HC对空气污染的影响较大。考虑前三个主成分的贡献率之和达到 70.3833%,因此综合考虑来 Y,丫2”和丫/来评判影响

15、空气污染的重要指标。 5.3差异性 从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两 个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而 有很大变化。从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为 -0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进行主 成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、 0.3246、0.3194。两者差距很大,并且在第二主成分中的两个系数相差更远。因此,由

16、协方 差矩阵和相关矩阵所得的主成分一般是不同的。 为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做的主成分分析应保留 4个主成分,而从协方差矩阵来看,只保留 1个主成分即可。由此可知,用协方差矩阵进行 主成分分析更能简化运算。本文中,由于设计的各变量的变化范围差异不大,因此应从先关 矩阵出发求主成分比较合理。 Y/近似是7个变量的等权重之和,反映了空气质量的综合指标,丫值越大,空气质 量越差。综合考虑来 第“,丫2 ”和丫3 ”来评判影响空气污染的重要指标。 六、模型评价 模型优点: (1)用主成分分析方法能够较好地揭示污染物于污染程度之间的关系; (2)该模型所用工具较易操作; (3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定 的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性; 能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得到的综合指 标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。 (4)方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论