




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 7个径赛项目上的女子纪录的主成分分析处理摘 要 本文通过主成分分析的相关方法,建立了评价55个国家和地区1984年前在7个径赛项目上的女子纪录的数学模型。针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法,利用MATLAB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。针对第三个问题,由第二个的求解结果进行相关的分析,确定两个主成分的具体意义。第一主成分反应了各国家和地区的运动员的优秀程度;第二主成分反映了各国家和地区在短跑和长跑项目上的相对实力。针对第四个问题,由前两个问题的求解结果,然后基于第一样本主成分的得分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法
2、基本吻合。最后本文针对两种不同方式得出结果的差异性进行了分析。关键词 主成分分析;相关矩阵;贡献率;第一样本主成分一、问题重述在实际问题的研究中,往往会涉及众多有关的变量。但是变量太多不但会增加计算的复杂性,而且也给合理的分析问题和解释问题带来了困难,一般来说每个变量所提供的信息在一定程度上有所重叠,因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的,主成分分析便是在这种降维的思想下产生的处理高维数据的方法(1)。 现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的女子纪录数据(见附录),解决如下问题:(1)求其样本
3、相关矩阵及它的特征值和相应正交单位化特征向量。(2)求前两个标准化样本主成分及其累计贡献率。(3)解释(2)中的两个主成分的意义。(4)基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中得到的直观看法是否基本吻合?二、问题分析 分析问题可知,文中所给数据较多,首先要合理使用MATLAB软件对数据进行处理;要求解文中问题,主要基于主成分分析法的相关方法。由文中数据可知,所给的七个变量有着不同的量纲,这会引起各变量取值的分散程度差异较大。若用协方差矩阵求主成分,则优先照顾了方差大的变量,会造成很不合理的结果,为了消除由于量纲的不同可能带来的影响,故采用变量标准化的方法,即用相关矩阵求解
4、。对于前两个问题,可直接使用MATLAB中的相关函数进行求解。求解结果可用表格表示。对于第三个问题,需要利用第二个问题求解出的第一主成分和第二主成分的表达式进行具体分析。对于第四个问题,要先求各国家和地区的第一样本主成分的得分,然后再根据得分的高低具体分析。最后针对文中的求解过程与求解结果,讨论模型的不足之处与需要改进的方法。三、模型假设假设题中所给数据均准确有效。四、符号表示 符号含义样本协方差矩阵样本相关矩阵主成分特征值标准化特征向量第个主成分的贡献率五、模型建立与求解本文运用主成分分析法对高维数据进行了降维处理,其间通过求解样本的协方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映
5、样本数据的绝大部分信息,假设当主成分的累计贡献率达到时,即视为满足了提取原数据中绝大部分信息的要求。模型建立与求解如下:5.1 模型建立设是元总体,从中取得样本数据:第个观测数据记作, () 称为样品,引进样本数据观测矩阵 它是矩阵,它的个列即是个样品它们组成来自元总体的样本。观测矩阵的个行变量分别是个变量在次试验中所取得的值。样本协方差矩阵及相关矩阵分别为 其中,利用和求得的样本组成分有下述结论:设是样本协方差矩阵,其特征值为,相应的正交单位化向量为,这里,则第个样本主成分为 其中为的的任一观测值。当依次代入的个观测值时,便得到第个样本主成分的个观测值,此即为第个主成分的得分。 为消除量纲的
6、影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所求得的样本主成分称为标准化祥本主成分。只要求出的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为。 实际应用中,将样本代人各主成分中,可得到各样本主成分的观测值。5.2 模型求解 本文通过求解样本相关矩阵,根据累计贡献率提取主成分,并对主成分的含义给出了合理解释,最后对各国家的综合成绩进行排名。5.2.1 求解相关矩阵由题中所给数据,利用matlab求解,可得:协方差矩阵为相关矩阵为的特征值及其正交单位化特征向量见表1和表2:表1 特征值及其贡献率
7、特征值5.79270.66040.29940.12830.05390.03990.0254贡献率/(%)0.82750.09430.04280.01830.00770.00570.0036累计贡献率0.82750.92180.96460.98290.99060.99631.0000 表2 特征值对应的正交单位化特征向量标准化变量-0.3688-0.4855 -0.2765 0.3465 0.2057 0.6234 0.0263 -0.3641-0.5435 -0.2281 -0.0971 0.0740 -0.7075 -0.0672 -0.3821-0.2451 0.5094 -0.3496
8、-0.5910 0.1914 0.1625 -0.38490.1594 0.5897 -0.0464 0.6426 -0.0172 -0.2531 -0.38860.3618 0.0042 0.4310 -0.0251 -0.2073 0.6989 -0.3890.3489 -0.1441 0.3470 -0.4154 -0.0514 -0.6405 -0.36740.3616 -0.4935 -0.6633 0.1296 0.1680 0.0747 5.2.2 样本主成分分析由表1知前两个标准化样本主成分为解出两个主成分的累计贡献率为0.9218,远远满足要求。分析上述数据两个主成分的意义:
9、第一主成分近似于各变量的等权重之和,它反应了各国家和地区的运动员的优秀程度。第一主成分各标准化变量前的系数全部带负号,说明各个国家或地区的径赛项目上的女子纪录越高,则该项纪录上相应的数值越低,第一主成分越大。的贡献率达82.79%,已能大致反映出一个国家或地区的女子运动员的优秀程度。所以对某一国家或地区而言,如果由径赛项目上的女子纪录所算出的第一主成分大,则说明这个国家或地区1984年前在7个径赛项目上的女子成绩高,7个径赛项目上的女子运动员十分优秀;反之,则说明这个国家或地区的女子运动员表现一般。第二主成分可用以度量各国家和地区在短跑和长跑项目上的相对实力。第二组成分前三个标准化变量前的系数
10、带负号,后四个标准化变量前的系数带正号。这说明在100米,200米,400米项目上的成绩越差,在800米,1500米,3000米,马拉松项目上的成绩越好,第二主成分越大。因此反映了一个国家或地区的短跑项目与长跑项目的相对优势。所以对某一国家或地区而言,如果由径赛项目上的女子纪录所算出的第二主成分大,则说明这个国家或地区1984年前在短跑项目上的女子成绩较差或在长跑项目上的成绩较好或是短跑项目成绩较差并且长跑项目成绩较好;反之,第二主成分小,则说明这个国家或地区的女子运动员在短跑项目上的女子成绩较好或在长跑项目上的成绩较差或是短跑项目成绩较好并且长跑项目成绩较差。此外,第一主成分和第二主成分的累
11、计贡献率大0.9218,已能反映出大部分信息。根据这两个量的大小,可大体判断出一个国家或地区径赛项目上的女子运动员的优秀程度和径赛上的优势与劣势。5.2.3 各国家地区成绩排名利用公式:,可先求出七个标准化变量,再利用5.2.2中求第一主成分的公式:可依次得出每一个国家所对应的值,并按的大小从大到小排序,得下表3所示,并根据表中数据对主成分进行分析:表3 基于第一样本主成分的得分对各国家和地区的排序名次国家值名次国家值1美国30.57495 29哥伦比亚6.20882 2原西德25.82414 30巴西4.49973 3新西兰25.36825 31韩国3.85393 4加拿大24.67861
12、32百慕大2.80115 5俄罗斯24.54171 33中国1.83623 6英国24.42426 34泰国0.01136 7挪威24.25050 35智利-0.52904 8澳大利亚20.92726 36中国台北-2.00241 9爱尔兰20.53966 37朝鲜-4.87978 10意大利20.52477 38卢森堡-4.97877 11原东德20.42717 39哥斯达黎加-5.16506 12芬兰20.35639 40阿根廷-5.17254 13荷兰19.44090 41肯尼亚-5.53100 14捷克斯洛伐克18.87584 42希腊-9.36541 15瑞典18.44951 43马
13、兰西亚-10.84084 16丹麦18.41425 44新加坡-11.36793 17日本18.07064 45印度-13.36210 18法国17.93137 46缅甸-17.05586 19瑞士17.66790 47菲律宾-23.94870 20葡萄牙17.24283 48印度尼西亚-25.77716 21匈牙利16.60109 49土耳其-26.08904 22波兰15.98727 50多米尼加-28.38907 23比利时15.12018 51危地马拉-38.64880 24奥地利14.53908 52巴布亚新几内亚-54.77388 25墨西哥11.48463 53库克岛-60.90
14、762 26罗马尼亚9.78540 54毛里求斯-78.35123 27以色列9.50973 55西萨摩亚-119.50531 28西班牙8.68288 分析上表可知美国的值最大,为30.57495;其次为原西德,为25.82414,与美国相比,有较大差距;最小为西萨摩亚,为-119.50531。名次靠前的十几个国家,主要集中分布在24,20,28,17这几个数值左右;名次中等或靠后的国家,值之间大差距大致呈阶梯状下降。由上述分析结论可知,基于第一样本主成分的得分对各国家和地区排序,与从原始数据中得到的直观看法基本吻合。但从基于第一样本主成分的得分对各国家和地区的排序表中,可以很方便地看出各个
15、国家或地区的七个径赛项目上的女子运动员的整体水平。而从原始数据中要得到一些结论是比较困难的。由于原始数据内容较多,信息量庞大,难以直接有效地读出有用的数据。转化为基于第一样本主成分的得分排序表后,能够直观的得到大部分需要的信息。六、模型评价与推广采用样本协方差矩阵与样本相关矩阵处理数据称为主成分分析法,其使用简单方便,可快速对高维数据进行降维处理,且降维后的主成分可反映原数据中绝大部分信息,也就是说能够找到一组最佳的基于紧凑的方式来表达数据。在主成分分析法中,提取了方差较大的主成分来代表原变量,从而大大减少了数据处理的工作量。在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始
16、数据的信息量占全部信息量的比重,这样确定的权数较为客观、合理(2)。但用主成分分析法处理数据时,有时对提取变量的并不能给出合理的解释,其变量不能像原始数据那样具有准确的意义,且在提取主成分时必须使主成分的累计贡献率达到一个较高的水平,才能得出一个较为准确的结果,这就使模型本身具有局限性。主成分分析法虽然使用简单,但却是很多领域里非常有利的工具,可应用于物理中近红外光谱的分析以及核磁共振光谱数据的分析,化学中滴定实验分析,以及对食品功能特性的评价。参考文献1 范金城,梅长林.数据分析.北京:科学出版社,2002.附 录1.1 矩阵Y1=11.61 11.2 11.43 11.41 11.46 1
17、1.31 12.14 11 12 11.95 11.6 12.9 11.96 11.09 11.42 11.79 11.13 11.15 10.81 11.01 11 11.79 11.84 11.45 11.95 11.85 11.43 11.45 11.29 11.73 11.73 11.96 12.25 12.03 12.23 11.76 11.89 11.25 11.55 11.58 12.25 11.76 11.13 11.81 11.44 12.31 11.8 11.16 11.45 11.22 11.75 11.98 10.79 11.06 12.74'Y2=22.94
18、22.35 23.09 23.04 23.05 23.07 24.47 22.25 24.52 24.41 24 27.7 24.6 21.97 23.52 24.05 22.39 22.59 21.71 22.39 22.13 24.08 24.54 23.06 24.28 24.24 23.51 23.57 23 24 23.88 24.49 25.78 24.96 24.21 25.08 23.62 22.81 23.13 23.31 25.07 23.54 22.21 24.22 23.46 25 23.98 22.82 23.31 22.62 24.46 24.44 21.83 22
19、.19 25.85'Y3=54.5 51.08 50.62 52 53.3 52.8 55 50.06 54.9 54.97 53.26 60.4 58.25 47.99 53.6 56.05 50.14 51.73 48.16 49.75 50.46 54.93 56.09 51.5 53.6 55.34 53.24 54.9 52.01 53.72 52.7 55.7 51.2 56.1 55.09 58.1 53.76 52.38 51.6 53.12 56.96 54.6 49.29 54.3 51.2 55.08 53.59 51.79 53.11 52.5 55.8 56.
20、45 50.62 49.19 58.73'Y4=2.15 1.98 1.99 2 2.16 2.1 2.18 2 2.05 2.08 2.11 2.3 2.21 1.89 2.03 2.24 2.03 2 1.93 1.95 1.98 2.07 2.28 2.01 2.1 2.22 2.05 2.1 1.9 2.09 2 2.15 1.97 2.07 2.19 2.27 2.04 1.99 2.02 2.03 2.24 2.19 1.95 2.09 1.92 2.12 2.05 2.02 2.02 2.1 2.2 2.15 1.96 1.89 2.33'Y5=4.43 4.13
21、 4.22 4.14 4.59 4.49 4.45 4.06 4.23 4.33 4.35 4.84 4.68 4.14 4.18 4.74 4.1 4.14 3.96 4.03 4.03 4.35 4.86 4.14 4.32 4.51 4.1 4.21 3.98 4.35 4.15 4.42 4.25 4.38 4.69 4.79 4.25 4.06 4.18 4.01 4.84 4.6 3.99 4.16 3.96 4.52 4.14 4.12 4.07 4.38 4.72 4.37 3.95 3.87 5.81'Y6=9.97 9.08 9.34 8.88 9.81 9.77
22、9.51 8.81 9.37 9.31 9.46 11.1 10.43 8.92 8.71 9.89 8.92 8.98 8.75 8.59 8.62 9.87 10.54 8.98 9.98 10.02 8.89 9.37 8.63 9.2 9.2 9.62 9.35 9.64 10.46 10.9 9.59 9.01 8.76 8.53 10.69 10.16 8.97 8.84 8.53 9.94 9.02 8.84 8.77 9.63 10.28 9.38 8.5 8.45 13.04'Y7=178.52 152.37 159.37 157.85 169.98 168.75 1
23、91.02 149.45 171.38 168.48 165.42 233.22 171.8 158.85 151.75 203.88 154.23 155.27 157.63 148.53 149.72 182.2 215.08 156.37 188.03 201.28 149.38 160.48 151.82 150.5 181.05 164.65 179.17 174.68 182.17 261.13 158.53 152.48 145.48 145.48 233 200.37 160.82 151.2 165.45 182.77 162.6 154.48 153.42 177.87 1
24、68.45 201.08 142.72 151.22 306'Y=Y1 Y2 Y3 Y4 Y5 Y6 Y7;1.2 样本协方差矩阵>>S=cov(Y)1.3 样本协方差矩阵的正交单位化特征向量V3和特征值U3V1,U1=eig(S)1.4 S的贡献率Mz=0.0009 0.0060 0.0150 0.1165 0.3417 4.0774 930.9305;c=sum(z)M=z/c2.1 样本相关矩阵>> R1=corrcoef(Y)2.2 样本相关矩阵的正交单位化特征向量V2和特征值U2V2,U2=eig(R) 2.3 R的贡献率NW= 5.7927 0.66
25、04 0.2994 0.1283 0.0539 0.0399 0.0254;d=sum(W)N=W/d3.1 数据表表1 世界上55个国家和地区1984年前在7个径赛项目上的女子纪录国家和地区100m/s200m/s400m/s800m/min1500m/min3000m/min马拉松/min阿根廷11.61 22.94 54.50 2.15 4.43 9.97 178.52 澳大利亚11.20 22.35 51.08 1.98 4.13 9.08 152.37 奥地利11.43 23.09 50.62 1.99 4.22 9.34 159.37 比利时11.41 23.04 52.00 2.
26、00 4.14 8.88 157.85 百慕大11.46 23.05 53.30 2.16 4.59 9.81 169.98 巴西11.31 23.07 52.80 2.10 4.49 9.77 168.75 缅甸12.14 24.47 55.00 2.18 4.45 9.51 191.02 加拿大11.00 22.25 50.06 2.00 4.06 8.81 149.45 智利12.00 24.52 54.90 2.05 4.23 9.37 171.38 中国11.95 24.41 54.97 2.08 4.33 9.31 168.48 哥伦比亚11.60 24.00 53.26 2.11
27、 4.35 9.46 165.42 库克岛12.90 27.70 60.40 2.30 4.84 11.10 233.22 哥斯达黎加11.96 24.60 58.25 2.21 4.68 10.43 171.80 捷克斯洛伐克11.09 21.97 47.99 1.89 4.14 8.92 158.85 丹麦11.42 23.52 53.60 2.03 4.18 8.71 151.75 多米尼加11.79 24.05 56.05 2.24 4.74 9.89 203.88 芬兰11.13 22.39 50.14 2.03 4.10 8.92 154.23 法国11.15 22.59 51.7
28、3 2.00 4.14 8.98 155.27 原东德10.81 21.71 48.16 1.93 3.96 8.75 157.63 原西德11.01 22.39 49.75 1.95 4.03 8.59 148.53 英国11.00 22.13 50.46 1.98 4.03 8.62 149.72 希腊11.79 24.08 54.93 2.07 4.35 9.87 182.20 危地马拉11.84 24.54 56.09 2.28 4.86 10.54 215.08 匈牙利11.45 23.06 51.50 2.01 4.14 8.98 156.37 印度11.95 24.28 53.6
29、0 2.10 4.32 9.98 188.03 印度尼西亚11.85 24.24 55.34 2.22 4.51 10.02 201.28 爱尔兰11.43 23.51 53.24 2.05 4.10 8.89 149.38 以色列11.45 23.57 54.90 2.10 4.21 9.37 160.48 意大利11.29 23.00 52.01 1.96 3.98 8.63 151.82 日本11.73 24.00 53.72 2.09 4.35 9.20 150.50 肯尼亚11.73 23.88 52.70 2.00 4.15 9.20 181.05 韩国11.96 24.49 55.70 2.15 4.42 9.62 164.65 朝鲜12.25 25.78 51.20 1.9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学校园消防安全教育
- 口腔早期矫正课件
- 毕业设计中期检查
- 2025届河北省正定中学高三下学期第二次模拟考试历史试题(含答案)
- 2025合作协议保险合同样本
- 交通安全主题教育
- 2024-2025统编版道德与法治二年级下册第一单元练习卷及答案
- 2024-2025苏教版科学一年级下册第四单元测试卷及答案
- 2025小学道德与法治教师课标练习卷简答题100题及答案
- 2025高中地理教师课标考试模拟试卷附参考答案
- 小学科学课堂教学设计策略课件
- 中药饮片出库单
- 国开2023春《语言学概论》形考任务1-3+大作业参考答案
- 宿舍楼施工方案方案
- 甲醇-水精馏塔
- 中国话剧史专题知识
- GB/T 15544.1-2023三相交流系统短路电流计算第1部分:电流计算
- GB/T 90.3-2010紧固件质量保证体系
- GB/T 18799-2020家用和类似用途电熨斗性能测试方法
- 科技公司涉密计算机软件安装审批表
- GA/T 1369-2016人员密集场所消防安全评估导则
评论
0/150
提交评论