




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数理统计大作业(二) 意甲球队的聚类分析和判别分析 1 数理统计大作业(二)英超球队的聚类分析和判别分析 院(系)名称能源与动力工程学院2015年 12月英超球队的聚类分析和判别分析摘要英格兰足球超级联赛(Premier League),通常简称“英超”,是英格兰足球总会属下的职业足球联赛,欧洲五大联赛之一,由20支球队组成。由超级联盟负责具体运作。英格兰超级联赛成立于1992年2月20日,是英格兰联赛系统的最高等级联赛,其前身是英格兰足球甲级联赛。每个赛季结束积分榜末三位降入第二级别的英格兰足球冠军联赛。 英超一直以来被认为是世界上最好的联赛之一,快节奏、竞争激烈、强队众多,现已成为世界上最受欢迎的体育赛事之一,也是收入最高的足球联赛。本文采用聚类分析和判别分析这两类数据分析方法对2014-2015赛季英格兰足球超级联赛参赛球队进行了分类与判别。应用SPSS软件首先对其中18支参赛队样本进行系统聚类分析,样本数据取自其比赛数据,得到树状谱系图,并将其强制分为三类。然后根据另外两支球队的数据,利用聚类分析得到的分组结果,用Fisher 判别分析法进行判定,最终确定两支球队所属类别。关键词:英超、SPSS、聚类分析、判别分析1引言在多元统计分析中,常常使用聚类分析(Cluster Analysis)和判别分析(Discriminant Analysis)来解决样本的分类问题。在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。聚类分析又称群分析,是分类学的一种基本方法。聚类分析的基本原理是把某种性质的对象归于同一类而不同类之间则存在较大差异。聚类分析包括Q聚类和R聚类判别分析是根据观察或测量到的若干变量值来判断研究对象如何分类的方法,目的是得到体现分类的函数关系式,即判别函数。基本思想是在利用观测对象的分类和特征变量的前提下,从中筛选出能够提供较多信息的变量,建立判别函数,目标是使得到的判别函数对观测量判别其所属类别时错判率最小。英格兰足球超级联赛(Premier League),通常简称“英超”,是英格兰足球总会属下的职业足球联赛,欧洲五大联赛之一,由20支球队组成。英超一直以来被认为是世界上最好的联赛之一,快节奏、竞争激烈、强队众多,现已成为世界上最受欢迎的体育赛事之一,也是收入最高的足球联赛。2013年1月8日,国际足球历史和统计联合会(IFFHS)公布了2012年世界最强国家联赛的排名,西甲连续第3年荣膺世界第一联赛,巴甲力压德甲、意甲和英超列第二。英超延续颓势,2012年仅排名第5,这是因为来自英超的球队在欧洲赛事表现低迷,切尔西尽管夺得2011/2012赛季欧冠冠军,并不能掩盖英超的整体表现。本文利用多元统计方法,采用SPSS 软件,对2012-2015 赛季意大利足球甲级联赛参赛球队进行了分类与判别(聚类类型:Q 型聚类;聚类方法:分层聚类),产生分组结果。并且利用Fisher 判别对另外两队就行判别分析、归类。2 数据的采集及标准差标准化处理本文选取的数据来自网易国际足球数据直播。选取2012-2013赛季意大利足球甲级联赛前15轮比赛的各项数据作为分类的自变量,分别是联赛排名、胜利场次、平局场次、进球总数、失球总数、联赛积分。数据整理结果如表2-1所示。表2-1 2014-2015赛季英超球队统计数据无论是应用聚类分析还是判别分析,都要对数据进行标准化处理。本文采用标准差标准化对数据进行处理。Z得分值法标准化就是把个案转换为样本均值为0、标准差为1的样本。在SPSS 软件中,事先不需要进行数据的标准化处理,在接下来的聚类分析中,我们选择在系统聚类对话框,选择方法中勾选Z scores(即Z 得分值),此时软件会自动在聚类分析之前将所有变量值按照统计量的标准化方法进行标准化。3 聚类分析3.1 聚类分析概述聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。研究怎样对事物进行合理分类(归类)的统计方法称为聚类(clustering)分析。依据分类对象的不同可以把聚类分析再分成Q 型聚类和R 型聚类,Q 型聚类是指对样品进行聚类,R 型聚类是指对变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。为此,首先要能刻画各个变量之间或者各个样本点之间的相似性。Q 聚类一般使用“距离”度量样本点之间的相似性,定义样本点之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度。R 聚类则使用“相似系数”作为变量相似性的度量。定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。聚类分析包括很多种方法, 本文中使用的为系统聚类法是最常用的一种聚类方法,初始时要先把要归类的n 个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,知道最后把n 个对象都归为一类时停止。这种聚类过程可以用一张聚类谱系图形象的展示出来。由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类,这是还需要规定类与类之间的相似性测度,常用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。本文中先使用系统聚类的Wards Method (Ward 法即最小离差平方和法),并采用Euclidean distance (欧氏距离,即两观察样本间的距离为其差值的平方和开根号,该技术用于Q 型聚类)量来对2014-2015赛季英格兰足球超级联赛18支参赛球队的数据进行聚类分析,得到树状谱系图,并最终划分为三种类型3.2 聚类分析过程及结果输出进入SPSS19.0分析程序,选择分析分类系统聚类,进行系统聚类分析(Hierarchical Cluster Analysis),采取对个案进行聚类,即Q 型聚类分析。聚类方法使用Wards Method,距离测量技术选择Euclidean distance(欧氏距离),得出以下计算结果。表3-1为分层聚类分析的聚类过程表。表中第一列表示聚类分析的步骤。第二列和第三列表示该步聚类分析中,哪两个样本聚成了一类;如:第一步显示第9和10两个样本聚成了一类,聚类过程共进行了17步,所有的样本聚成了一大类。第四列表示两个样本间的距离,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n 步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。表3-1 群组成员聚类过程表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 219105.500002291114.66710735636.16700144151766.16700551516112.83340861213161.8330013789232.417021381415311.2500512912405.25000111047505.25000141113629.9179016121418790.417801513812972.000761514451327.75010316158143025.73513121716145372.104111417171818722.38916150得到的使用Ward 联结的树状图如图3-1,该图较好地反映了各球队类型之间的关联。图3-1 聚类分析Ward 联结树状图上面的树状图清晰地表示了聚类的全过程。它将实际的距离按比例调整到0至25 的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。经过SPSS 软件处理,我们选择的分类范围为3 类,分组结果如表3-2 所示。表3-2 群集成员案例群集案例群集切尔西1埃弗顿3曼城1西汉姆联3阿森纳1西布朗3曼联2莱斯特城3托特纳姆热刺2纽卡斯尔3利物浦2阿斯顿维拉3南安普敦2赫尔城3斯旺西3伯恩利3水晶宫3女王公园巡游者3由上表可以看出,英超18队被分为三个类别按照球队实力分为争冠球队、中游球队、下游球队。具体见表3-3表3-3 分类结果类别性质球队第一类争冠球队切尔西、曼城、阿森纳第二类中游球队曼联、托特纳姆热刺、利物浦、南安普敦第三类下游球队斯旺西、水晶宫、埃弗顿、西汉姆联、西布朗、莱斯特城、纽卡斯尔、阿斯顿维拉、赫尔城、伯恩利、女王公园巡游者33讨论切尔西、曼城、阿森纳等球队实力强劲,球员能力超群,攻守平衡;由于球队主教练更换,英超豪门曼联一度退出争冠行列,由于主力球员转会,中游球队与争冠球队有一定差距,但是球队仍旧有一定实力,虽然不是联赛冠军的争夺者,但是仍旧有机会夺得欧冠及欧联的席位;而余下的斯旺西等球队实力均为偏下,比较前两档次实力又有一定差距,他们力争自己在联赛的排名能有所提高,远离降级区。4 判别分析4.1 判别分析概述 判别分析是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。它是判别样品所属类型的一种统计方法。其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。因而是个学习和预测的过程。我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。这里采用的是Fisher判别法,这种方法是以Fisher准则为标准来评选判别函数的。所谓Fisher准则,指的是较优的判别函数应该能根据待判对象的n个指标最大限度地将它所属的类与其他类区分开来。4.2 判别分析过程及结果输出 选取18个球队的联赛数据,根据聚类分析得出的结果对这些数据进行判别分析的初步归类。选择SPSSAnalyzeClassifyDiscriminant Analysis,定义分类结果为变量“分组类别”,采用自变量全进入模型来进行判别分析,由于在聚类分析中将英超联赛18支参赛队伍分为三类,因此该变量取值范围为13。输出结果如下图所示:表4-1 标准化的典型判别式函数系数标准化的典型判别式函数系数函数12排名2.8761.873平-.149.807净胜球.311-.320进球.6621.064积分2.733.689结构矩阵函数12积分.592*-.561进球.565*-.215净胜球.557*-.359胜a.622-.667*排名-.409.641*平-.081.372*判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性a. 该变量不在分析中使用。表4-2 分类函数系数分类函数系数群集123排名55.32748.67046.377平8.1957.6958.843净胜球-2.058-2.174-2.345进球8.5087.5177.427积分23.83421.20019.888(常量)-1328.315-1040.568-954.194Fisher 的线性判别式函数按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(Dd | G=g)P(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2pdf初始111.35121.0002.0932.00061.5448.830.683211.84721.000.3312.00049.6957.8651.064311.15221.0003.7712.00021.2685.459.494422.0872.9994.8771.00119.5713.051-.141522.8812.999.2523.00114.388.796-1.579622.5142.9921.3313.00811.087.156-1.702722.61121.000.9853.00020.8421.140-2.449833.0392.5356.5102.4656.794-1.281-1.921933.4522.9991.5892.00116.148-2.694-.9131033.93421.000.1372.00016.464-2.214.5861133.7622.998.5452.00213.347-1.772.5321233.85921.000.3042.00020.888-2.996.1311333.9252.999.1562.00114.330-2.103.2201433.79421.000.4612.00023.456-3.138.5041533.80321.000.4402.00017.236-2.697-.2971633.51321.0001.3372.00025.213-2.8081.4391733.23621.0002.8882.00033.013-3.5281.6691833.36921.0001.9952.00021.160-2.0681.680表4-3 按照案例顺序的统计量图4-1 典则判别函数4.3 讨论由表4-2 可以得出Fisher 判别准则的三个判别函数如下:F1=55.327*联赛排名+23.834*积分+8.195*平局场+8.508*进球总数-2.058*净胜球-1328.315F2=48.670*联赛排名+21.200*积分+7.695*平局场+7.517*进球总数-2.174*净胜球-1040.568F3=46.377*联赛排名+19.888*积分+8.843*平局场+7.427*进球总数-2.345*净胜球-954.194得到了三个判别函数,再另外选取两支球队的数据,根据已建立的Fisher判别准则对类型进行判别。另外选取的球员数据如表。表4-4 待判别的两支球队数据球队排名胜平进球净胜球积分斯托克城915948354桑德兰1671731-2238按Fisher 判别准则对两支球队的数据进行线性计算,得到结果如表4-5 所示。表4-5 判别函数值表球队F1F2F3斯托克城932.629965.8119
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育培训心得体会总结简短(汇编10篇)
- 第二章 函数2026年高三数学第一轮总复习
- 职高简单高考题目及答案
- 酒店工作心得体会怎么写(例文10篇)
- 美食餐厅推广营销案例分析
- 体育产业市场分析与投资机会研究
- 医药行业创新发展模式探讨
- 农产品检测技术革新-2025年无损检测技术应用创新报告
- 2025年车工考试题及答案
- 2025年山西省晋城市事业单位工勤技能考试题库及答案
- 2025年安徽省综合评标评审专家库考试历年参考题库含答案详解(5卷)
- 天津市河西区2024-2025学年八年级下学期期末物理试题(含答案)
- 2025年保密教育线上培训考试题带答案
- 中成药合理使用培训课件
- 国企公司合并方案(3篇)
- 2025年海南省通信网络技术保障中心招聘事业编制人员考试笔试试卷【附答案】
- 2025年江苏省昆山市辅警招聘考试试题题库及答案详解(典优)
- 外委人员管理办法
- 《国家基层肥胖症综合管理技术指南(2025)》解读
- 邮储银行招聘考试笔试试题集及参考答案
- 投标部奖罚管理办法
评论
0/150
提交评论