球队数据挖掘实训论文_第1页
球队数据挖掘实训论文_第2页
球队数据挖掘实训论文_第3页
球队数据挖掘实训论文_第4页
球队数据挖掘实训论文_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于因子分析的影响NBA热火队上赛季i=i成绩的几个主要因素的数据挖掘摘要:该文首先简介了因子分析理论及分析步骤,然后举例说明如何使用SPSS统计软件对NBA热火队上赛季成绩是进行因子分析,分析数据,挖掘出球队的潜在能力,从而帮助球队在以后的比赛中取得更好的成绩。一、 弓I言球队成绩分析是整个比赛过程的一个重要环节。它对于教练来说是一件必须要做的事情,但是它也是一件复杂的事情。每个赛季教练都能获得很多球队和队员的数据,那么我们该如何从这些数据中获得对比赛有用的信息呢?我们该怎样从这些数据中挖掘出球队的潜在能力呢?因子分析是研究如何以最少的信息的丢失,将众多的原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的解释性的一种多元统计分析方法。也就是说利用少数的几个公共因子,即挖掘出数据的共性,去解释较多需观测的变量中存在的复杂关系。因此我们可以利用因子分析方法的这一特性来分析球队的各项数据,找出少数隐含的公共因子来解释球队的各项数据,进而分析球队的潜在能力。SPSS是世界上最早的,也是目前最好的统计软件,所以我们使用SPSS这一统计软件来对球队成绩进行因子分析。二、 因子分析我们观测的变量之间往往存在相关性,那么变量之间为何会有相关性呢?这是因为往往有一些共同的因子支配着这些相关的变量。例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性;身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多元统计方法。因子分析正是基于信息损失最小化而提出的一种非常有效的方法。它把众多的指标综合成几个为数较少的指标,这些指标即因子指标。因子的特点是:第一,因子变量的数量远远少于原始变量的个数;第二,因子变量并非原始变量的简单取舍,而是一种新的综合;第三,因子变量之间没有线性关系;第四,因子变量具有明明解释性,可以最大限度地发挥专业分析的作用。因子分析是把每个原始变量分解成两个部分:一部分是由所有变量共同具有的少数几个因子构成的,即所谓公共因子;另一部分是仅对某一个变量产生影响,为某一个变量所特有的,即所谓特殊因子。基于这样的假设,相应的因子模型为:设有p个气,七,…,X为可观测的随机变量,每个变量可作如下分解:X=MF+人F+ +人F+81 11 1 12 2 1mm1X=MF+MF+...+人F+8X=人彳.+人F+ +人F+8上式为因子模型,其中F,F,…,F为公共因子,8,8,…,8为特殊因12 m 12 p子,人(i=1~p,j=1~m)为因子载荷;数学上可以证明,因子载荷人就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。在因子模型中,公共因子F,F,…,F之间互不相关,特殊因子8,8,…,8之间互不相关,1 2 m 1 2 p都是独立的,相互之间是没有关的。特殊因子与公共因子互不相关。特殊因子与被测原始变量相关。因子载荷人表示了公共因子f对第i个变量入的影响程度,即入对F.的依赖程度。它是变量入在公共因子F上的载荷量。所以因子分析是如何从一组原始的观测变量出发,分析出公共因子和特殊因子,并求出相应的载荷矩阵,进而解释各个公共因子的含义。即用于寻找表示这种潜在能力因子的统计方法。因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。因子分析常常有以下四个基本步骤:(1)确认待分析的原有干变量是否适合作因子分析。(2)构造因子变量。(3)利用旋转方法使因子变量更具有可解释性。(4)计算因子变量得分。三、应用SPSS统计软件来分析NBA热火队的上赛季季后赛成绩现使用NBA热火队的上赛季季后赛21场比赛中篮板、助攻、失误、抢断、盖帽、犯规6项数据使用SPSS统计软件进行分析,将篮板、助攻、失误、抢断、盖帽、犯规作为六个变量,也就是因子模型中的可观测的随机变量X,X,X,X,X,X,具体步骤是:1 2 3 4 5 61、在SPSS中将数据输入表中。2、按Analyze—DataReduction—Factor顺序点击菜单项,打开Factor对话框。3、在对话框中指定分析变量。将如下数据选入右面框中:

4、 点击Extraction...按钮,出现对话框,选择主成分提取法。5、 点击对话框Rotation...按钮,选择varimax方法进行因子载荷旋转。6、 点击对话框OK按钮,给出计算结果,见表1、表2、表3、表4、表5、表6、表7。DescriptiveStatisticsMeanStd.DeviationAnalysisN篮板41.055.90321助攻16.483.85521失误12.712.83121抢断7.292.70421盖帽6.102.34321犯规19.244.57121表1反应的是各项数据的平均值和标准差。表2CorrelationMatrix篮柝用1攻拍断Correlation篮板1.000-.047-.092-.527-.152-.097助攻-.0471.000-.074-.431-.116.127失误-.092-.0741.000.143-.079.206艳断-.527-.431.1481.000.185.221盖帽-.152-.116-.079.1351.000-.072犯规-.021-.0721.000表2反应的是任意两个变量之间的相关程度,可以看成是一个矩阵。从表2中可以看出变量间的相关性不会很高,所以不会带来严重的共线形的问题。表3KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy.Bartlett'sTestof Approx.Chi-SquareSphericity 讲Sig..39115.35215.392表3是用于判断数据能否进行因子分析。KMO(Kaiser-Meyer-Olkin)统计量检验统计是用于比较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。表格中的第一行为检验变量间相关性的KMO统计量,数值为0.391,虽然值较小,还是可以进行因子分析。第二行为巴特利特球度检验的结果,巴特利特球度检验是以变量的相关系数矩阵为出发点。如果该统计量值比较大,则适合作因子分析,反之则不适合因子分析。从表中的巴特利特球度检验的数据值为15.852,还是可以进行因子分析。表4

CommunalitiesInitialExtraction篮板1.000.744助攻1.000.906失误1.000.501抢断1.000.022盖帽1.000.516犯规1.000.597ExtractionMethod:PrincipalComponentAnalysis.表4指的是按照所选标准提取相应数量因子后,各变量中信息分别被提取出的比例。从表4中可以看出各项数据被提取的都比较多。表5TotalVarianceExplainedComnonentInitialEigenvaluesErfractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%11.82130.34830.3481.82130.34830.3481.59526.58326.58321.28721.447517951.28721.44751.7951.30021.66348.24631.06017.66269.4571.06017.66269.4571.27321.21169.4574.80613.42782.8845.76912.81195.6956.2584.305100.000ExtractionMethod:PrincipalComponentAnalysis.碎石图ScreePlotI 1 I II I1 2 3 4 5 6ComponentNumber表5为整个输出中最重要的部分,表中列出所有的因子,它们按照特征根从大到小的次序排列。可以看到第一个因子的特征根为1.821,它解释了总变异的30.348%,第二个因子的特征根为1.287,它解释了总变异的21.447%,第三个因子的特征根为1.060,它解释了总变异的17.662%,而第四个因子的特征根为0.806V1,这说明该因子的解释力度还不如直接引入原变量。所以这六个变量只需要提取出前三个因子作为公因子即可了。碎石图是用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小。它将因子按特征根大小依次排列,从中可以非常直观的了解到哪些是最主要的因子。从图可以看出只需要提取前三个公因子就可以了。表6ComponentMatrix^Component123篮板-.689-.104-.509助攻-.465.493.668失误.326.522-.450抢断.903-.063-.045盖帽.339-.506.301犯规.30570S.060ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.表6反映六个变量的变异可以主要由三个公因子来解释,即各变量的信息被这三个公因子提取了多少,亦即给出了在因子分析中需要的因子表式。所以根据表中提供的系数可以给出各变量的因子表达式为:X1=-0.689x1-0.104x2-0.509x3+气(1)X2=-0.465x1+0.493x2+0.668x3+£2(2)X6=0.305x1+0.708x2+0.060x3+£6(6)通过这六个表达式,我们可以在假定每场比赛球队的潜在能力相同和估计每一项数据的特殊因子的数值的情况下,计算出每场比赛的六项数据的大概成绩。表7RotatedComponentMatrix^Component123篮板-.850-.097-.115助攻-.043.032.950失误.006.727-.230抢断.736.232-.477盖帽.513-.489-.110犯规.257.684.250ExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.a.Rotationconvergedin5iterations.表7,通过该系数阵就可以将公因子表示为各个变量的线形组合,如:Z=-0.850X-0.048X+…+0.257X6⑺Z=-0.097X+0.032X+…+0.684X6⑻Z=-0.115X+0.950X+…+0.250X6⑼从(7)(8)(9)式我们可以知道,教练在得到任意一场比赛的数据时,可以直接计算出这三个因子的标准化值,即决定这六项数据成绩好坏的潜在能力的强弱,大概的衡量出球队在该场比赛中这三项数据的所获得的潜在能力的大小。四、结论通过对球队各项成绩 篮板、助攻、失误、抢断、盖帽、犯规这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论