




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_空气污染和径赛纪录问题分析摘 要 本文运用主成分分析法,主要讨论空气污染和女子径赛纪录的数据分析问题,并解释主成分的实际意义。针对问题一,以中午12点的7个空气污染因子为变量,建立总体样本。分别从样本协方差矩阵和相关矩阵出发,运用MATLAB的princomp函数作主成分分析。再比较二者的特征向量和相关系数,可知由相关矩阵所得的前三个主成分更能够反映原始数据的变化情况。针对问题二,以径赛项目上的7个女子纪录为变量,建立总体样本。首先将数据标准化,运用MATLAB中的cov函数得出相关矩阵;并利用princomp函数求出矩阵的特征值、特征向量、累计贡献率和主成分得分。其次结合权重和相关系数,得出第一主成分综合反映了各个国家和地区的运动员优秀程度,第二主成分反映国家的相对实力。最后,根据第一主成分得分对各个国家排序,结果与原始数据中的直观看法基本吻合。 关键词 空气污染;径赛纪录;主成分分析精品资料一、问题重述生活中往往会遇到涉及众多变量的问题,如某省的居民生活质量分析、机械类各企业的经济效益、体育成绩统计分析等问题。一般来说,每个变量都可以提供一定的信息,但其重要性有所不同,因此会选择基于降维的主成分分析法来解决此类问题,现根据主成分分析法解决以下问题:问题一:已知某城市在42天中的中午12点的7项空气污染数据(见附录表1),分别为风速、太阳辐射、及。试利用尽可能少的变量提取原数据集的信息,分别利用样本协方差矩阵和样本相关矩阵做主成分分析,并说明二者结果的差异。结合原始数据的变化可否由三个或者更少的主成分反映并对所选取的主成分作出解释。问题二:已知世界上55个国家和地区1984年前在7个径赛项目上的女子纪录(见附录表2)。试分析以下问题:1.求女子记录的样本相关矩阵及它的特征值和相应正交单位化特征向量。2.求前两个标准化样本主成分及累计贡献率。3.解释2中的两个主成分的意义(事实上,第一主成分近似于各变量的等权重之和,它反映了个国家和地区的运动员的优秀程度,第二主成分可用于度量个国家和地区在各径赛项目上的相对实力)。4.基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中的达到的直观看法是否基本吻合。二、问题分析 在空气污染和女子径赛纪录的数据分析问题中,由于变量较多,会增加计算的复杂性,所以考虑运用主成分分析法求解,用较少的变量反映原变量提供的绝大部分信息。以下针对问题一、问题二分别从协方差矩阵和相关矩阵进行分析,得出主成分和累计贡献率,并作出合理解释。针对问题一,以中午12点的7个空气污染因子为变量,已知某城市42个样本数据,为了利用尽可能少的变量提取样本信息,可以分别从样本协方差矩阵和样本相关矩阵作主成分分析。利用MATLAB的cov函数可以得到协方差矩阵,将数据标准化后利用cov函数可以得到相关矩阵,再利用MATLAB的princomp过程可以得到两个矩阵的特征值、贡献率和主成分等,并由此判断前三个主成分是否能判断影响空气质量的重要指标,同时可以对所选主成分作出合理解释。针对问题二,以径赛项目上的7个女子纪录为变量,已知55个国家和地区的样本数据,为求出样本的相关矩阵,可先将数据标准化,运用MATLAB中的cov函数得出相关矩阵,再求特征值和特征向量。并且运用MATLAB中的princompz函数可以得到标准化样本的主成分、累计贡献率和第一主成分的得分,最后解释2个主成分的实际意义并根据主成分得分排序。 三、基本假设1.各变量之间相互独立;2.忽略其他对空气污染造成微小影响的空气成分;3.忽略其他径赛项目对问题二得分情况的影响。四、符号说明符号含义样本个数变量个数样本方差()原始变量()样本主成分样本协方差样本相关矩阵样本平均值()协方差矩阵特征向量矩阵矩阵的特征值()矩阵的特征向量第一主成分得分五、模型的建立及求解由问题分析可知,主成分分析是常见的处理多变量生活问题的解决方法,其主要是构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息。下面将对某城市42天中午的空气污染数据和55个国家的7项女子径赛记录数据作主成分分析。5.1 主成分分析原理及步骤5.1.1 主成分定义假定有个样本,每个样本共有个变量,构成阶的数据矩阵当较大时,在维空间内考虑问题比较麻烦。为克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些综合指标尽量多地反映原来指标所反映的信息,这些综合指标即为主成分。主成分定义如下:记,为原变量指标,()为新变量指标其中,系数的确定原则:(1)与()相互无关(2)是,的一切线性组合中方差最大者;是与线性无关的,的所有线性组合中方差最大者;是与,都线性无关的,的所有线性组合中方差最大者。则新变量指标,分别称为原变量指标,的第1,2,主成分。15.1.2 利用协方差矩阵做主成分分析1.计算协方差矩阵样本数据的协方差矩阵为,其中 (1)2.确定主成分求出的特征值,前个较大特征值为,及相应的正交单位特征向量。由分析可知分别对应前个主成分的方差,为第个主成分关于原变量的系数,所以表示为,主成分的方差贡献率为 (2)用来表示第个主成分反映信息量的大小。3.选择主成分,中的确定是通过方差累计贡献率确定 (3)当累计贡献率大于85%时,就认为能足够反映原来变量的信息,对应的为抽取的前个主成分。4.计算主成分得分计算样品在个主成分上的得分 (4)5.1.3 利用样本相关矩阵做主成分分析实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响,常用的方法是将原始数据标准化,即做如下数据变换(;) (5)其中,由此可得标准化变量。计算标准化变量的协方差矩阵,即为原变量的相关矩阵,再计算相关矩阵的特征值和对应的正交单位特征向量,按特征值由大到小所对应的正交单位特征向量为组合系数的,的线性组合分别表示的第一、第二、直至第个主成分,各主成分的方差等于相应的特征值。5.2 关于空气污染数据的主成分分析由问题分析可知,可以运用主成分分析的方法尽可能的提取原数据集的信息,并用较少的变量表示原始数据的信息。下面利用协方差矩阵和样本相关矩阵分别作主成份分析,并比较二者的差异,分别分析前三个主成分是否能够评判影响空气质量的重要指标。选取能够综合评价空气污染程度的主成分来建立综合评价模型,再通过模型分别计算各天的主成分得分,比较各天的空气质量。5.2.1 由样本协方差矩阵出发进行主成分分析由MATLAB的cov函数代入数据可求得随机变量的协方差阵为(只写出下三角部分)利用特征值计算公式,第个主成分的贡献率,及前个主成分的累计贡献率,代入数据,并由MATLAB的princomp过程,求出的特征值(程序见附录程序1),得到各主成分的贡献率及累计贡献率如表1所示表1 的特征值及贡献率(特征值)贡献率(%)累计贡献率(%)1303.694187.201687.2016228.31328.129895.3314311.46743.292798.624142.54940.732099.778351.47030.422299.356160.54790.157399.935670.22430.0644100.0000由问题分析可知,选取前三个主成分,累计贡献率达到98.62%,记主成分向量为。前三个样本主成分中各变量()的系数(即对应,的正交单位化特征向量)为由可得前三个主成分分别为 因此,用三个主成分代替原来的7个变量,信息损失量较小。此结果表明,太阳辐射占比在第一主成分中作用明显,而其他变量相对较弱,这说明太阳辐射给空气造成空气污染的威胁是非常突出的,;和占比分别在第二和三主成分中作用明显,说明和的浓度增强会加剧空气污染程度。进一步由相关系数公式,计算出前三个主成分与各个原始变量的相关系数如表2所示表2 前三个主成分与个原始变量的相关系数0.1087-0.2576-0.0672-0.9994-0.0357-0.0014-0.19370.41810.46750.0740-0.06260.4111-0.12740.23690.9585-0.35210.9299-0.1041-0.06130.18240.4168由表2可以看出,与相关度较高,与相关度较高,与相关度较高,;而由各个主成分的权重系数(即个特征值对应的单位化特征向量)可知,前三个主成分中方差最大的分别是、和;也就是说,前三个主成分主要由方差大的变量控制。所以对空气污染影响较大的因素为太阳辐射、和。考虑前三个的主成分贡献率依次降低,影响空气污染的最重要因素为太阳辐射,与实际情况不符,所以前三个主成分不能评判影响空气质量的重要指标。5.2.2 由样本相关矩阵出发进行主成分分析利用标准化公式对原数据进行标准化处理得到一组新的数据,即令 (6)其中为的平均值,为的方差。此时,由于的协方差矩阵即为的相关矩阵 (7)其中为的协方差,则运用MATLAB软件cov函数带入数据计算得到样本相关矩阵为(只写出下三角部分)又由MATLAB软件的princomp函数(程序见附录程序2),求出的特征值及相应的单位正交化特征向量()(程序见附录程序2),得各标准化主成分的贡献率及累计贡献率如表3所示表3 的特征值及贡献率贡献率(%)累计贡献率(%)12.312233.031633.031621.383319.761852.793431.210917.298070.091540.723610.407980.499350.65659.378389.877760.54177.739397.617070.16682.3830100.000由表3可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.0915%,前五个标准化样本主成分的各标准化变量()前的系数(即对应与,的正交单位化特征向量,)如表4所示表4 标准化特征向量,标准化变量0.2421-0.27680.6303-0.20680.52730.2274-0.54630.0039-0.1333-0.3898-0.4356-0.3974-0.4901-0.19600.2136-0.32370.57090.1586-0.3212-0.30210.5518由表4得到前三个标准化样本主成分为由与的相关系数,计算出前三个主成分与各原始变量的相关系数如表5所示表5 前三个主成分与各标准变量的相关系数0.3681-0.32550.6936-0.31450.62010.2503-0.83080.0046-0.1466-0.5927-0.5124-0.4373-0.7453-0.23060.2350-0.49220.67140.1745-0.4884-0.35540.6072由表5可以看出,与、的相关度较高,由相关系数矩阵的主成分权重系数知,和对空气污染指标的影响较大。另外,近似是7个变量的等权重之和,反映了空气质量的综合指标,的值越大,空气质量就越差。与的相关度较低,同理知对空气污染指标的影响较小。与、的相关度较高,同理知风速和对空气污染指标的影响较大。又考虑到前三个主成分的累计贡献率达到70.0915%,因此综合考虑、和来评判影响空气污染的重要指标。5.2.3 综合评价模型由于样本协方差矩阵对角线的元素差异较大,所以由样本相关矩阵出发作主成分分析所得的主成分建立综合评价模型。以各个主成分的贡献率为权重,由主成分得分和对应权重线性加权求和可得到综合评价模型1通过princomp过程得到各天对于各个主成分的得分,利用MATLAB(见附录程序2)计算可各天的综合得分,如表6所示表6 各天的主成分总得分天数综合得分天数综合得分天数综合得分天数综合得分1-0.564512-0.0640230.0365340.56112-0.115813-1.4752240.1316350.667930.1508140.1285250.4134360.464740.3122150.6337260.4937370.758150.2353160.5373270.044938-0.60816-0.0596170.5839280.998739-0.67627-0.846418-0.717429-0.153840-0.02448-1.456619-0.1117300.732641-0.290490.1696200.1059310.9400420.004810-0.192321-0.5237320.260611-0.7334220.350633-1.1030 比较表6中数据可知,第28天的主成分综合得分最高,第8天的主成分综合得分最低。5.3 关于女子径赛纪录的主成分分析 以7个径赛项目为变量建立总体样本,求解样本的相关矩阵及特征值和相应正交单位特征向量,并利用相关矩阵做主成分分析,解释两个主成分的实际意义,最后基于第一主成分的得分对各个国家和地区排序。设分别表示55个国家和地区1984年前分别在,马拉松7个竞赛项目上的女子纪录。设总体样本,利用标准化公式对原始数据进行标准化处理,得到一组新数据。利用5.1原理可知,的协方差矩阵即为的相关矩阵,所以由MATLAB的cov函数求的协方差矩阵(只写出下三角部分)即为总体样本的相关矩阵。 利用特征值计算公式,代入数据可求得的特征值,由大到小依次为,再利用特征向量计算公式,可求得相应的特征向量,并将特征向量正交单位化可得表7 的特征值和单位正交特征向量15.805720.653730.299940.125150.053860.039270.0226由5.1中确定和选择主成分原理可得出各标准化主成分的贡献率和累计贡献率如表8所示表8 的特征值和主成分贡献率贡献率(%)累计贡献率(%)15.805782.939082.939020.65379.339292.278230.29994.283896.562040.12511.778798.340750.05380.769299.109960.03920.559499.669370.02260.3224100.000由表8可知,前两个标准化样本的主成分的累计贡献率已达到92.2782%,故只需取前两个主成分即可。计算前两个主成分和中各标准化变量前的系数(即,对应的正交单位特征向量,),由此可得标准化样本的2个主成分和分别为和的累计贡献率为92.2782%。 由5.1中计算主成分原理,计算主成分和与各标准化变量的相关系数如表9所示。表9 前两个主成分与各标准化变量的相关系数0.88750.39640.88040.43370.91950.19930.9266-0.12560.9376-0.29150.9370-0.28190.8844-0.2986由表9可知与,的相关系数较高,与的相关系数较高。由第一主成分表达式可看出, 近似于各标准化变量的等权重之和,并且与标准化变量的相关系数较大且相近。结合题意,综合反映了各个国家和地区的运动员优秀程度,其优秀程度由,马拉松7个指标共同决定,值越小,则7项指标的值也越小,所以运动员的优秀程度越高。由第二主成分表达式可看出,在中,的系数为正,的系数为负,当值较小时,值较小,的值较大。结合题意,反映了各国家和地区在各径赛项目上的相对实力,当值较小时,该国家在,项目上的所用时间较短,相对实力较强,在,马拉松项目上的所用时间较长,相对实力较弱。根据MATLAB中的princomp函数计算第一样本主成分得分(程序见附录程序3),并根据得分排序,结果如下表10所示表10 各个国家第一主成分得分情况表次序国家得分次序国家得分1原东德-3.50629巴西-0.11812俄罗斯-3.464830墨西哥-0.06283美国-3.335931日本-0.05914捷克斯洛伐克-3.053732哥伦比亚0.14185原西德-2.925833百慕大0.38826英国-2.783234朝鲜0.46247波兰-2.672135阿根廷0.52758加拿大-2.608136智利0.54799芬兰-2.181837中国0.641410意大利-2.139638希腊0.815911澳大利亚-2.093539印度1.014712罗马尼亚-2.029940韩国1.234113法国-1.892141卢森堡1.301914瑞典-1.827742土耳其1.608415荷兰-1.794443菲律宾1.640616新西兰-1.511244缅甸1.682317比利时-1.509945泰国1.953618挪威-1.483146新加坡1.970419匈牙利-1.477247印度尼西亚2.112720奥地利-1.380348多米尼加共和国2.295921瑞士-1.346749马来西亚2.329222爱尔兰-1.117350哥斯达黎加2.619623丹麦-1.116351危地马拉3.227924中国台北-0.499952巴布亚新几内亚3.981425肯尼亚-0.430853毛里求斯4.234426西班牙-0.355654库克岛6.077827葡萄牙-0.224355西沙摩亚8.334128以色列-0.1429由表10可知,原东德第一主成分得分最低,排名第一,西沙摩亚得分最高,排名最后,排名结果与直接观测原始数据的判断基本一致。六、模型评价与推广6.1 优点1.对题目所给的数据进行主成分分析时,选择更少的变量反映原始变量,简化评价模型的建立;2.分别采用协方差矩阵和样本相关矩阵作主成分分析,使得问题一的结论更加准确与合理;3.基于主成分分析法建立关于空气污染的综合评价模型,更全面地得出每天的空气污染程度。6.2 缺点1.新变量只是反映原始比变量提供的绝大部分信息,在实际问题的研究中,采用主成分分析法会使结果出现一定偏差。6.3 推广1.在研究空气污染时,因为造成空气污染的因素较多,所以可以利用主成分分析的方法对所给数据进行处理,从中选出较少的变量来反映空气污染的主要原因,进一步用回归分析法对选出的主成分进行预报及控制,给出合理的控制方案;2.通过主成分分析法建立的综合评价模型还可以应用于涉及众多变量的领域,如土地生态的安全评价、学生综合评价、体育成绩统计分析等问题。参考文献1 范金城,梅长林.数据分析M,北京:科学出版社,2002.精品资料附录表1 空气污染数据风速()太阳辐射()()()()()()898721282710743953710343563108852815469142810389052121249847412155572642114478251111138645213946715410336914212737727418103107042117310724181039774191038764177387153164496742132396933953106253144498842763880421311453033523683511023488432763678421111387921710366243983103731723风速()太阳辐射()()()()()()871111073752411284548658436754110243103541692885419102585316122586721318277974925377952862668621114384043652表2 55个国家和地区1984年前7个径赛项目的女子记录国家和地区10020040080015003000马拉松阿根廷11.6122.9454.52.154.439.79178.52澳大利亚11.222.3551.081.984.139.08152.37奥地利11.4323.0950.621.994.229.34159.37比利时11.4123.045224.148.88157.85百慕大11.4623.0553.32.164.589.81169.98巴西11.3123.1752.82.14.499.77168.75缅甸12.1424.47552.184.459.51191.02加拿大1122.2550.0624.068.81149.45智利1224.5254.92.054.239.37171.38中国11.9524.4154.972.084.339.31168.48哥伦比亚11.62453.262.114.359.46165.42库克岛12.927.160.42.34.8411.1233.22哥斯达黎加11.9624.658.252.214.6810.43171.8捷克斯洛伐克11.0921.9747.991.894.148.92158.85丹麦11.4223.5253.62.034.188.71151.75国家和地区10020040080015003000马拉松多米尼加共和国11.7924.0556.052.244.749.89203.88芬兰11.1322.3950.142.034.18.92154.23法国11.1522.5951.7324.148.98155.27原东德10.8121.7148.161.933.968.75157.68原西德11.0122.3949.751.954.038.59148.53英国1122.1350.461.984.038.62149.72希腊11.7924.0854.942.074.359.87182.2危地马拉11.8424.5456.092.284.8610.54215.08匈牙利11.4523.0651.52.014.148.98156.37印度11.9524.2853.62.14.329.98188.03印度尼西亚11.8524.2455.342.224.6110.02201.28爱尔兰11.4323.5153.242.054.118.89149.38以色列11.4523.5754.92.14.259.37160.48意大利11.292352.011.963.988.63151.82日本11.732453.732.094.359.2150.5肯尼亚11.7323.8852.724.159.2181.05韩国11.9624.4955.72.154.429.62164.65朝鲜12.2525.7851.21.974.259.35179.17卢森堡12.0324.9656.12.074.389.64174.68马来西亚12.2324.2155.092.194.6810.46182.17毛里求斯11.7625.0858.12.274.7910.9261.13墨西哥11.8923.6253.762.044.259.59158.58荷兰11.2522.8152.381.994.069.01152.48新西兰11.5523.1351.62.024.188.76145.48挪威11.5823.3153.122.034.018.53145.48巴布亚新几内亚12.2525.0756.962.244.8410.69233菲律宾11.7623.5454.62.194.610.16200.37波兰11.1322.2149.291.953.998.97160.82国家和地区10020040080015003000马拉松葡萄牙11.8124.2254.32.094.168.84151.2罗马尼亚11.4423.4651.21.923.968.53165.45新加坡12.32555.082.124.529.94182.77西班牙11.823.9853.592.054.149.02162.6瑞典11.1622.8251.792.024.128.84154.48瑞士11.4523.3153.112.024.078.77153.42中国台北11.2222.6252.52.14.389.63177.87泰国11.7524.4655.82.24.7210.28168.45土耳其11.9824.4456.452.154.379.38201.08美国10.7921.8350.621.963.958.5142.72俄罗斯11.0622.1949.191.893.878.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 舞台用品租借合同范本
- 制药工程化学题目及答案
- 医疗器械临床试验质量管理在临床试验统计分析中的应用报告
- 2025年迷你世界解说题目及答案
- 2025年施工员考试《管理实务》仿真试题及答案
- 2025年山西省运城市事业单位工勤技能考试题库及答案
- 2025年山东省中小学教师招聘面试真题及答案
- CN120305738A 一种农药生产用过滤装置 (沾化国昌精细化工有限公司)
- CN120197952A 一种基于数字孪生的工程质量验评档案管理方法 (中国建筑第四工程局有限公司)
- 高压试验题库答案
- 2025至2030年中国北京酒店行业市场全景调研及投资规划建议报告
- 2025年陕西省评标专家考试题库及答案
- 低压电动机检修培训课件
- GB/T 45947-2025家用电器用废旧锂电池拆解及回收规范
- 【《混凝土搅拌机的传动系统计算设计》1300字】
- 评估公司分公司管理制度
- 贵州矿山开采施工管理办法
- 2025年学校食堂从业人员食品安全知识培训考试试题(附答案)
- 2025年少先队辅导员技能大赛考试题库(含答案)
- 腕踝针中医技术课件
- 中国可编程逻辑控制器(PLC)行业发展运行现状及投资策略研究报告
评论
0/150
提交评论