




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于主成分分析的空气污染研究摘 要 本文主要运用主成分分析方法对某城市空气污染数据进行分析,选择出几个适当的主成分,使其保留所有污染指标的主要信息,成为衡量城市污染状况的主要指标,以方便地获得一个城市的空气污染状况,采取相应的措施治理该城市的空气污染,保护人们的身体健康。最后对模型进行了正反两方面的评价并适当推广。关键词 主成分分析;贡献率;标准化;MATLAB一、 问题重述随着经济发展和城市化进程的加快,空气污染物的排放量不断增加,污染范围不断扩大,空气污染问题日趋严重。环境污染对经济建设和人体健康造成了极大危害,人们必须重视环境空气质量问题。为了研究空气污染物对空气污染程度的影响,根据题目中所给数据,解决以下问题:问题一:利用尽可能少的变量提取原数据集的信息,分别利用样本协方差矩阵(1)和样本相关矩阵(1)做主成分分析(1),只注明一个就可以了区分二者结果的差异性;问题二:讨论并研究原始数据的变化可否由三个或者更少的主成分反映,并且对所选取的主成分做出解释。二、 问题分析主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。针对问题一,首先将数据标准化,利用MATLAB程序计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取主成分个数,列出主成分方程并解释主成分意义。针对问题二 ,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。三、 模型假设1、 影响污染程度的变量只有本文中所提到的变量;2、 随机选取42天;3、 题中所提到的城市的发展是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;4、 题目中所给的污染物浓度及气象参数有效数据都准确可靠。同时不考虑人为因素,检测仪器精确度不同的影响。四、 符号表示下标要注明取值范围符号含义贡献率主成分相关矩阵协方差矩阵的特征值的特征值的特征向量的特征向量标准化变量五、 模型建立与求解由问题可知,为了选择出一个适当的主成分,通过一系列定性和定量分析,使其保留所有污染指标的主要信息,成为衡量城市污染状况的唯一指标。需要从协方差矩阵和相关矩阵两方面进行求解。5.1 对问题一求解如下在本题的研究中,涉及到七个有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。因此,利用降维的思想,基于变量()的观测值,综合运用MATLAB程序语句,分别从样本协方差矩阵和样本相关矩阵出发,做主成分分析。5.1.1 从协方差矩阵出发对所有变量进行主成分分析由MATLAB程序(见附录中程序)得到样本协方差矩阵为运用MATLAB程序(见附录中程序1),得出了协方差矩阵的全部特征值和特征向量,每个主成分的贡献率和累计贡献率,如表1所示。表1 的特征值、特征向量及贡献率表超出范围贡献率(%)累计贡献率(%)特征值特征向量T要正体10.06010.06010.20960.1697 0.0018 -0.4436 0.46290.1050 0.0670 -0.738020.15170.21180.52870.0118 0.0034 -0.5639 0.4975-0.0090 0.0511 0.657030.36710.57891.27950.3424 0.0022 0.6501 0.6432-0.2066 -0.0003 0.062040.72421.30322.52430.9203 -0.0002 -0.1383 -0.32780.1024 0.0632 0.109553.28934.592511.46450.0309 0.0066 -0.1828 -0.1302-0.9553 0.1698 -0.085268.112712.705228.27610.0762 0.1162 -0.0996 0.0132-0.1504 -0.9734 -0.0238787.2948100.0000304.2579-0.0100 0.9932 0.0141 -0.00470.0243 0.1124 0.0023由表1可知,第7主成分和第6主成分的累积贡献率为95.4%。因此,对其他主成分完全可以忽略不计,用这两个主成分就可以很好地概括这组数据。MATLAB程序还输出了全部特征值所对应的特征向量,它们是线性无关的单位向量。第一列表示第一主成分的得分系数,第二列表示第二主成分的得分系数,以此类推。据此可以写出各主成分的关系式:5.1.2 从相关矩阵出发对所有变量进行主成分分析由MATLAB程序(见附录中程序)得到样本均值向量和样本相关矩阵为居中运用MATLAB程序(见附录中程序)得到相关矩阵的全部特征值和特征向量,每个主成分的贡献率和累计贡献率,如表2所示。表2 的特征值、特征向量及贡献率表超出范围了贡献率(%)累计贡献率特征值特征向量133.382433.38242.3368-0.2368 0.2056 0.5511 0.37760.4980 0.3246 0.319422.227135.60950.15590.2415 0.0113 -0.5852 0.46090.3378 0.4171 -0.3139319.799755.40921.38600.2784 -0.5266 -0.0068 0.43470.1998 -0.5670 0.3079417.201272.61041.20410.6435 0.2245 -0.1136 -0.40710.1966 0.1598 0.541057.667080.27740.53670.2236 0.0057 0.1095 0.4502-0.7450 0.3306 0.266569.335689.61300.65350.5605 -0.1561 0.5734 -0.05670.0502 0.0802 -0.5661710.3870100.00000.72710.1727 0.7781 0.0053 0.2905-0.0424 -0.5079 -0.1431第1、3、4、7、6主成分的累计贡献率为90%。因此,对其他主成分完全可以忽略不计,用这几个主成分就可以很好地概括这组数据。MATLAB程序还输出了全部特征值所对应的特征向量,它们是线性无关的单位向量。第一列表示第一主成分的得分系数,第二列表示第二主成分的得分系数,以此类推。据此可以写出由标准化变量所表达的各主成分的关系式:5.1.3 差异性从协方差矩阵出发对所有变量进行主成分分析和从相关矩阵出发做主成分分析两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性由于标准化而有很大变化。从协方差矩阵出发分析所得第一主成分中,权重系数分别为-0.01、0.9932、0.941、-0.0047、0.0243、0.1124、0.0023,而从相关矩阵出发分析所得的第一主成分中,权重系数分别为-0.238、0.2056、0.5511、0.3776、0.498、0.3246、0.3194。两者差距很大,而且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做主成分分析应保留五个主成分;而从协方差矩阵出发做主成分分析应保留两个成分。由此可知,从协方差矩阵出发做主成分分析更能简化运算。在本文中,由于涉及的各变量的变化范围差异不大,因此应从相关矩阵出发求主成分比较合理.5.2 对问题二求解如下由问题一可知,第7主成分和第6主成分的累计贡献率为95.4%。因此,对其他主成分完全可以忽略不计,用这两个主成分就可以很好地概括这组数据。从协方差矩阵出发做主成分分析时,在第一主成分的表达式中,风速和前的系数为负,而其他变量前的系数为正,当某一天的值较大时,说明,的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由太阳辐射、这些变量导致的。第二主成分的表达式中,风速和太阳辐射、前的系数为正,而其他变量前的系数为负,当某一天的值较大时,说明,的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由风速、太阳辐射、这些变量导致的。从相关矩阵出发做主成分分析时,在第一主成分的表达式中,风速前的系数为负,而其他变量前的系数为正,当某一天的值较大时,说明的值较小,而其他变量的值相对较大,即当某一天污染程度较重时,主要是由太阳辐射、这些变量导致的。由于的贡献率最大,故若用的得分值来对1-42天的空气污染程度进行排序,能从整体上反映这些天空气质量的差别。将协方差矩阵中的值及中各的值以及42天关于的观测值代入的表达式中,可求得1-42天的得分及其按其得分由大到小的排序结果,见表3(见附录中程序)。表3 按第一主成分得分排序按第一主成分排序序号y1值排序序号y1值排序220.0429 12715.5892 22319.2991 21715.3819 23118.9611 34015.3423 24418.5863 41415.0035 25618.0362 53114.6198 263617.7251 62014.2424 27517.6387 71313.9344 282517.6318 8813.8890 292217.5590 94113.6939 301217.4118 101813.6291 313717.2807 111913.5616 323817.1667 121013.0764 333416.8747 131112.6867 342816.8213 142112.6288 352616.7686 152912.1197 363916.7649 163210.8539 37716.5998 17359.2849 38916.5378 18308.7501 392316.4317 19428.6539 401616.3733 20337.9032 411515.7845 21245.4158 42由表可以看出,第2天的空气污染程度最重,第15天的空气污染程度最低。六、 模型评价与推广6.1 模型评价6.1.1模型优点:(1)用主成分分析方法能够较好地揭示污染物与污染程度之间的关系;(2)该模型所用工具较易操作;(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;它能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得出的综合指标之间相互独立,不仅简化了评价体系,而且减少了信息的交叉和冗余。另外,方法计算简便,数学物理意义明确,在计算机普及的今天有较强的可操作性和一定的推广应用价值可去掉。6.1.2 模型缺点:(1)尚未考虑到其他变量的影响,存在预测误差;(2)该模型未给出图像,难以反映各变量对空气污染程度的影响; (3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。6.2 模型推广利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,由主成分分析法构造回归模型,把各成分作为新的自变量代替原来自变量作回归分析。参考文献1 姜启源,谢金星,数学建模第四版,北京:高等教育出版社,2003此篇写的很不错,加油.附录clc;x1=8 7 7 10 6 8 9 5 7 8 6 6 7 10 10 9 8 8 9 9 10 9 8 5 6 8 6 8 6 10 8 . 7 5 6 10 8 5 5 7 7 6 8;x2=98 107 103 88 91 90 84 72 82 64 71 91 72 70 72 77 76 71 67 69 62 88 . 80 30 83 84 78 79 62 37 71 52 48 75 35 85 86 86 79 79 68 40;x3=7 4 4 5 4 5 7 6 5 5 5 4 7 4 4 4 4 5 4 3 5 4 4 3 5 3 4 2 4 3 4 4 6 4 . 4 4 3 7 7 5 6 4;x4=2 3 3 2 2 2 4 4 1 2 4 2 4 2 1 1 1 3 2 3 3 2 2 3 1 2 2 1 3 1 1 1 5 1 . 1 1 1 2 4 2 2 3;x5=12 9 5 8 8 12 12 21 11 13 10 12 18 11 8 9 7 16 13 9 14 7 13 5 10 7 . 11 7 9 7 10 12 8 10 6 9 6 13 9 8 11 6;x6=8 5 6 15 10 12 15 14 11 9 3 7 10 7 10 10 7 4 2 5 4 6 11 2 23 6 11 10 . 8 2 7 8 4 24 9 10 12 18 25 6 14 5;x7=2 3 3 4 3 4 5 4 3 4 3 3 3 3 3 3 3 4 3 3 4 3 4 3 4 3 3 3 3 3 3 4 3 3 . 2 2 2 2 3 2 3 2;x=x1 x2 x3 x4 x5 x6 x7;for j=1:7 y(j)=sum(x(:,j)/length(x(:,j);endy=vpa(y,4) %样本均值向量S=cov(x) R=corrcoef(x) dS,vS=eig(S) dR,vR=eig(R)s=diag(S);for i=1:42 xx(i,:)=(x(i,:)-sum(x(i,:)/length(x(i,:)./sqrt(s); y1(i)=sum(xx(i,:).*dR(:,1);endy1,sort(y1,descend)y = 7.5, 73.86, 4.548, 2.19, 10.05, 9.405, 3.095S = 2.5000 -2.7805 -0.3780 -0.4634 -0.5854 -2.2317 0.1707 -2.7805 300.5157 3.9094 -1.3868 6.7631 30.7909 0.6237 -0.3780 3.9094 1.5221 0.6736 2.3148 2.8217 0.1417 -0.4634 -1.3868 0.6736 1.1823 1.0883 -0.8107 0.1765 -0.5854 6.7631 2.3148 1.0883 11.3635 3.1266 1.0441 -2.2317 30.7909 2.8217 -0.8107 3.1266 30.9785 0.5947 0.1707 0.6237 0.1417 0.1765 1.0441 0.5947 0.4785R = 1.0000 -0.1014 -0.1938 -0.2695 -0.1098 -0.2536 0.1561 -0.1014 1.0000 0.1828 -0.0736 0.1157 0.3191 0.0520 -0.1938 0.1828 1.0000 0.5022 0.5566 0.4109 0.1660 -0.2695 -0.0736 0.5022 1.0000 0.2969 -0.1340 0.2347 -0.1098 0.1157 0.5566 0.2969 1.0000 0.1666 0.4478 -0.2536 0.3191 0.4109 -0.1340 0.1666 1.0000 0.1545 0.1561 0.0520 0.1660 0.2347 0.4478 0.1545 1.0000dS = -0.1697 0.0118 0.3424 0.9203 -0.0309 0.0762 0.0100 -0.0018 0.0034 0.0022 -0.0002 -0.0066 0.1162 -0.9932 0.4436 -0.5639 0.6501 -0.1383 0.1828 -0.0996 -0.0141 -0.4629 0.4975 0.6432 -0.3278 0.1302 0.0132 0.0047 -0.1050 -0.0090 -0.2066 0.1024 0.9553 -0.1504 -0.0243 -0.0670 0.0511 -0.0003 0.0632 -0.1698 -0.9734 -0.1124 0.7380 0.6570 0.0620 0.1095 0.0852 -0.0238 -0.0023vS = 0.2096 0 0 0 0 0 0 0 0.5287 0 0 0 0 0 0 0 1.2795 0 0 0 0 0 0 0 2.5243 0 0 0 0 0 0 0 11.4645 0 0 0 0 0 0 0 28.2761 0 0 0 0 0 0 0 304.2579dR = 0.2368 -0.2415 0.2784 -0.6435 0.2236 -0.5605 0.1727 -0.2056 -0.0113 -0.5266 -0.2245 0.0057 0.1561 0.7781 -0.5511 0.5852 -0.0068 0.1136 0.1095 -0.5734 0.0053 -0.3776 -0.4609 0.4347 0.4071 0.4502 0.0567 0.2905 -0.4980 -0.3378 0.1998 -0.1966 -0.7450 -0.0502 -0.0424 -0.3246 -0.4171 -0.5670 -0.1598 0.3306 -0.0802 -0.5079 -0.3194 0.3139 0.3079 -0.5410 0.2665 0.5661 -0.1431vR = 2.3368 0 0 0 0 0 0 0 0.1559 0 0 0 0 0 0 0 1.3860 0 0 0 0 0 0 0 1.2041 0 0 0 0 0 0 0 0.5367 0 0 0 0 0 0 0 0.6535 0 0 0 0 0 0 0 0.7271y1 = Columns 1 through 7 18.9611 20.0429 19.2991 18.5863 17.6387 18.0362 16.5998 Columns 8 through 14 13.8890 16.5378 13.0764 12.6867 17.4118 13.9344 15.0035 Columns 15 through 21 15.7845 16.3733 15.3819 13.6291 13.5616 14.2424 12.6288 Columns 22 through 28 17.5590 16.4317 5.4158 17.6318 16.7686 15.5892 16.8213 Columns 29 through 35 12.1197 8.7501 14.6198 10.8539 7.9032 16.8747 9.2849 Columns 36 through 42 17.7251 17.2807 17.1667 16.7649 15.3423 13.6939 8.6539ans = Columns 1 through 7 20.0429 19.2991 18.9611 18.5863 18.0362 17.7251 17.6387 Columns 8 through 14 17.6318 17.5590 17.4118 17.2807 17.1667 16.8747 16.8213 Columns 15 through 21 16.7686 16.7649 16.5998 16.5378 16.4317 16.3733 15.7845 Columns 22 through 28 15.5892 15.3819 15.3423 15.0035 14.6198 14.2424 13.9344 Columns 29 through 35 13.8890 13.6939 13.6291 13.5616 13.0764 12.6867 12.6288 Columns 36 through 42 12.1197 10.8539 9.2849 8.7501 8.6539 7.9032 5.4158上面留太多了各个国家和地区的女子径赛项目的主成分分析摘 要 本文主要运用主成分分析法对55个国家和地区1984年以前的7个女子径赛项目进行分析,选择出几个适当的主成分,使其保留所有指标的主要信息,成为衡量国家和地区的女运动员的优秀程度和各竞赛项目上的相对实力的重要指标,以方便地获得一个国家和地区的女运动员径赛状况,采取相应的措施提高女运动员的径赛水平,保证国家各项径赛水平都能得到提高,为训练提供依据。最后对模型进行了正反两方面的评价并适当推广。关键词 主成分分析;贡献率;标准化;MATLAB一、 问题重述随着背景可再多写阐述综合国力的提升,国家对影响综合国力的每一个因素都提高重视,为了研究女运动员径赛水平对国家整体运动员水平的影响,根据题目中所给数据,解决以下问题:问题一:通过尽可能少的变量提取原数据集的信息,利用样本相关矩阵(1)做主成分分析(1),并求前两个标准化样本主成分及其累计贡献率,同时解释主成分意义;问题二:基于第一样本主成分的得分对各国家和地区排序,判断与从原始数据中得到的直观看法是否一致。二、 问题分析主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文主要探讨这55个国家女子运动员径赛项目中的主成分,为训练提供依据。所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。针对问题一: 题中给出了55个国家和地区1984年前在7个径赛项目上的女子记录,分别为100、200、400、800、1500、3000米和马拉松。其中每一项(随机变量)的记录可表示为一个向量,因此有7个随机变量,7个列向量,则可将7个向量表示成一个矩阵,并用MATLAB中的corrcoef函数计算其相关矩阵,最后由MATLAB中的eig函数计算出其相关矩阵的特征值和特征向量;求一个相关矩阵的主成分,根据得出相关矩阵的特征值与特征向量,计算贡献率和累计贡献率,而贡献率(某一特征值占所有特征值综合的比例)最大的成分为第一主成分,将替换为 ( )为协方差矩阵的对角线元素,即标准化的主成分可表示为:其中写的太细化了,即可计算出相关矩阵的主成分,并且解释前两个主成分的意义。针对问题二 :利用MATLAB程序计算第一样本主成分的得分,并对得分排序,最后与从原始数据中的得到的直观看法相比较,判断是否吻合。三、模型假设1、评估国家径赛女运动员整体水平的只有本文中所提到的变量;2、题中所提到的国家的发展是平衡发展,政府对运动员干预较小,即此国家或地区运动员水平一定时间内波动不大; 3、 题目中所给的有效数据都准确可靠。同时不考虑人为因素,检测仪器精确度不同的影响。四、 符号表示左边超出横线了;下标为给出范围符号含义相关矩阵协方差矩阵的特征值第个主成分第个特征值对应的特征向量特征向量组成的矩阵标准化变量组成的向量第个相关向量的平均值协方差矩阵的第行对角线元素五、 模型建立与求解由问题可知,先求样本的相关矩阵及其特征值和特征向量,从中选择出两个适当的主成分,以便反应各国家和地区的运动员的优秀程度和度量各国家和地区在各径赛项目上的相对实力。5.1 对问题一求解如下在本题的研究中,涉及到七个有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。因此,利用降维的思想,基于变量()的观测值,综合运用MATLAB程序语句,从样本相关矩阵出发,做主成分分析。5.1.1求解比赛记录的相关矩阵及特征值与特征向量题中给出了55个国家和地区1984年前在7个径赛项目上的女子记录,分别为100、200、400、800、1500、3000米和马拉松。其中每一项(随机变量)的记录可表示为一个向量,因此有7个随机变量,7个列向量,则可将7个向量表示成一个矩阵,并用MATLAB中的corrcoef函数计算其相关矩阵,最后由MATLAB中的eig函数计算出其相关矩阵的特征值和特征向量。计算相关矩阵:(程序见附录)则可由MATLAB中的corrcoef函数计算出其相关矩阵相关矩阵为:协方差矩阵为:进而由MATLAB的计算出的特征值与特征向量特征值为:(主对角线上的值为特征值)特征向量为:5.1.2 前两个标准化样本主成分及其累计贡献率5.1.1中已经计算出相关矩阵及其对应的特征值及特征向量,而标准化样本这段怎么处理成这个样子?看前一篇是在那么处理的.的主成分即贡献率最大的特征值所对应的特征向量与矩阵的乘积,将替换为 为矩阵的对角线元素,即标准化的主成分可表示为:其中由5.1.1知,特征向量的贡献率及其累计贡献率如表1所示:表1 的特征值、特征向量及贡献率贡献率L累计贡献率特征值81.990%81.990%5.73929.263%91.253%0.64844.300%95.553%0.30102.034%97.587%0.14241.090%98.677%0.07630.730%99.407%0.05110.593%100.000%0.0415由表可知:特征值,的贡献率分别为第一和第二个。则由和对应求出的主成分分别为第一,二主成分。当时,对应的主成分为标准化的第一主成分,所以第一主成分为: 是的特征向量;代入数值得:=0.5335 -2.1112 -1.3906 -1.5232 0.3962-0.1159 1.6977 -2.6324 0.5513 0.64760.0602 6.1309 2.5245 -3.0761 -1.12682.3201 -2.2021 -1.9091 -3.5390 -2.9521-2.8088 0.8212 2.6567 -1.4902 1.02222.0119 -1.0577 -0.1466 -2.1613 -0.0578-0.4362 1.2452 0.4674 1.3135 2.36744.2693 -0.0629 -1.8125 -1.5227 -1.49914.0203 1.6577 -2.6972 -0.2287 -2.05021.9909 -0.3609 -1.8453 -1.3611 -0.50321.9750 1.6205 -2.5415 -3.5056 8.4264第二主成分为: 是的特征向量代入数值得要给出两个的具体表达式:=-0.6895 -0.5738 -0.3204 0.0567 -1.0073-0.9597 0.5828 -0.7430 1.1543 0.96340.0053 1.3953 0.4029 -1.0741 0.5079-0.6384 -0.7113 -0.4880 -1.2648 -0.4907-0.6229 0.2029 -0.3973 0.0266 0.2280-0.2903 0.4173 0.1274 0.3137 0.63640.4461 0.8033 1.6722 1.1575 -0.0054-1.2357 0.5561 -0.0855 0.3550 0.8922-0.3642 -0.8992 -0.7512 1.2421 0.57250.9390 0.9081 -0.2979 0.4871 -1.2778-0.1723 0.5827 0.4129 -0.3072 -2.37995.1.3 两个标准化主成分的意义第一个主成分近似是7个标准化变量的等权重之和,是反映各国家或地区女运动员优秀程度的综合指标,的值越大,则这个国家或地区的女运动员优秀程度越低;第二个主成分可以度量各国家和地区在各径赛项目上的相对实力,由数据可知,运动员最优秀的国家实力不一定最强。5.2 对问题二求解如下由于的贡献率高达81.99%,故若用的得分值对各国家和地区进行排序。能从整体上反映各国家和地区之间的女运动员优秀程度差别,将中的值及中各的值以及各国家和地区关于的观测值代入的表达式中,可求得的得分和按得分由大到小的排序结果,如表2所示。表2 各国家和地区得分排序表C第一主成分排序28-0.1466428558.426429144-0.2287429126.130923247-0.3608930364.269298331-0.4361631414.02026450-0.5031632232.656744527-1.0576833132.52446615-1.1267734352.367397749-1.361135162.32005483-1.3906436262.0119479242-1.4902137461.9908561040-1.4990938511.9750051139-1.522673971.69771124-1.5232440421.6576691338-1.8124741521.6205491448-1.8452942341.3135051518-1.9091443321.2452051645-2.0501944251.0222172-2.1112145220.8212011829-2.1612646100.6475891917-2.202114790.5513372053-2.541464810.533517218-2.6323949330.4674062243-2.697245050.3962412321-2.8088251110.0602132420-2.952055230-0.057762514-3.07615337-0.062932654-3.50563546-0.11592719-3.5390355由表2可见,原东德运动员的得分最低,所以其运动员优秀程度最高;西沙摩亚运动员的得分最高,所以其运动员优秀程度最低;毛里求斯运动员居于西沙摩亚之上,而西沙摩亚运动员在55个国家中最差。在原数据表中(见附录中表1),仅由数据分析,原东德在运动项目中,每一项用时最少,所以其运动员优秀程度最高;西沙摩亚运动员在运动项目中,每一项用时最多,所以其运动员优秀程度最低,和主成分分析之后所得的结果相符。 六、 模型评价与推广6.1 模型评价6.1.1模型优点:(1)该模型所用工具较易操作;(2)用主成分分析方法能够较好地揭示女运动员径赛水平与国家女运动员优秀程度的关系;(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;它能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得出的综合指标之间相互独立,不仅简化了评价体系,而且减少了信息的交叉和冗余。另外,方法计算简便,数学物理意义明确,在计算机普及的今天有较强的可操作性和一定的推广应用价值。6.1.2 模型缺点:(1)尚未考虑到其他变量的影响,存在预测误差;(2)该模型未给出图像,难以反映各变量对国家女运动水平的影响; (3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。6.2 模型推广利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,由主成分分析法构造回归模型,把各成分作为新的自变量代替原来自变量作回归分析。同时此方法可以推广到获得一个国家和地区的运动员径赛状况,采取相应的措施提高运动员的径赛水平,保证国家各项径赛水平都能得到提高,为训练提供依据。参考文献1 姜启源,谢金星,数学建模第四版,北京:高等教育出版社,2003其实这篇文章整体都还不错,但是其中一部分写的有问题.附录clc;x1=11.6100 11.2000 11.4300 11.4100 11.4600 11.3100 . 12.1400 11.0000 12.0000 11.9500 11.5000 12.9000 . 11.9600 11.0900 11.4200 11.7900 11.1300 11.1500 . 10.8100 11.0100 11.0000 11.7900 11.8400 . 11.4500 11.9500 11.8500 11.4300 11.4500 . 11.2900 11.7300 11.7300 11.9600 12.2500 . 12.0300 12.2300 11.7600 11.8900 11.2500 . 11.5500 11.5800 12.2500 11.7600 11.1300 11.8100 . 11.4400 12.3000 11.8000 11.1600 11.4500 . 11.2200 11.7500 11.9800 11.7900 11.0500 12.7400;x2= 22.9400 22.3500 23.0900 23.0400 23.0500 . 23.1700 24.4700 22.2500 24.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年欧美同学会会计准则强化题集
- 2025年人事代理招聘笔试模拟题及答案解析
- 2025年安全员考证模拟试卷及答案详解
- 2025年村级养老站社工笔试冲刺题
- 2025年幼师面试模拟题及答案解析
- 2025年物流无人机面试模拟题与答案解析
- 2025年安全员资格证考试模拟题及答案集
- 2025年红白理事会面试常见问题解析
- 2025年心理健康师中级考试复习
- 机电仪安全知识培训课件
- 语“你相遇”文启新程-2025年秋季高一语文开学第一课-2025-2026学年高中主题班会
- 个性化教育实施策略
- 2025年安全生产考试题库(安全知识)安全培训课程试题
- 试述ABC库存管理办法
- 13.2+磁感应强度+磁通量+课件-2024-2025学年高二上学期物理人教版(2019)必修第三册
- 急诊科护理月质量分析
- 结肠癌围手术期管理
- 2025秋统编版(2024)道德与法治二年级上册教学计划
- 寿险财务流程管理办法
- 《老年人生活能力康复训练》养老服务与管理专业全套教学课件
- 在线教研室活动方案
评论
0/150
提交评论