某高校在校生体测成绩的统计分析_第1页
某高校在校生体测成绩的统计分析_第2页
某高校在校生体测成绩的统计分析_第3页
某高校在校生体测成绩的统计分析_第4页
某高校在校生体测成绩的统计分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某高校在校生体测成绩的统计分析毕业论文毕业论文某高校在校生体测成绩的统计分析ASTATISTICALANALYSISOFCOLLEGESTUDENTSTHECERVIXSCORES摘要在现代生活中,随着生活水平的日渐提高,现在大学生的身体素质真是越来越差了,越是学历高的人,身体素质普遍就越差。很多人对身体素质这个词并不陌生。在日常生活中,人们常说,谁谁力气大,谁谁跑的快,或者谁谁很灵活,谁谁耐久力强。实际上这些能力都属于身体素质。身体素质通常指的是人体在肌肉活动中所表现出来的各种能力。一般包括力量、速度、耐力、灵敏和柔韧。因此,本文通过分析中国农业大学2010年6290名在校生体测成绩数据,利用MATLAB统计分析理论建立相关模型,研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。首先利用描述性统计分析方法对体测数据进行初步研究。再利用方差分析对13个学院的学生的身高进行单因素一元方差分析和非参数分析,判断不同学院的学生的身高有无显著性差异。在研究身高和体重的关系时,利用了MATLAN做了回归模型,用一元回归求出身高和体重的函数关系,二元回归求出来身高和体重做自变量,肺活量做因变量的函数关系。判别分析主要是用5999个学生的身高体重等级去判别291个学生的类别。关键词体测成绩;统计分析;MATLAB;方差分析;回归分析;判别分析ABSTRACTINTHEMODERNLIFE,ALONGWITHTHERISINGOFLIVINGSTANDARDS,COLLEGESTUDENTSPHYSICALQUALITYISWORSEANDWORSENOW,THEMOREHIGHLYEDUCATEDPEOPLE,PHYSICALQUALITYGENERALTHEWORSEALOTOFPEOPLEISNOSTRANGERTOTHEWORDPHYSICALQUALITYINDAILYLIFE,PEOPLEOFTENSAY,SOANDSOINSTRENGTH,WHOCANRUNFAST,ORWHOISVERYFLEXIBLE,SOANDSOSTRONGENDURANCEINFACTTHESEABILITIESAREPHYSICALQUALITYPHYSICALQUALITYUSUALLYREFERSTOTHEHUMANBODYINMUSCLEACTIVITYOFALLKINDSOFABILITYGENERALLYINCLUDESPOWER,SPEED,STAMINA,AGILITYANDFLEXIBILITYTHEREFORE,THROUGHTHEANALYSISOFCHINAAGRICULTURALUNIVERSITYIN2010,6290STUDENTSCERVIXRESULTDATA,THERELEVANTMODELISESTABLISHEDUSINGMATLABSTATISTICANALYSISTHEORY,RESEARCHTHEREALSTATUSOFTHECURRENTCOLLEGESTUDENTSPHYSICALQUALITY,THERESULTSOFTHESTUDYHASAVERYIMPORTANTAPPLICATIONVALUEFIRST,USEOFDESCRIPTIVESTATISTICSANALYSISMETHODTOAPRELIMINARYSTUDYONTHECERVIXDATASECOND,ANALYSISOFVARIANCEONTHEHEIGHTOF13STUDENTSOFTHECOLLEGEONASINGLEFACTORANALYSISOFVARIANCEANDNONPARAMETRICANALYSIS,JUDGETHEHEIGHTOFDIFFERENTCOLLEGESTUDENTSHAVESIGNIFICANTDIFFERENCESINTHESTUDYOFTHERELATIONSHIPBETWEENHEIGHTANDWEIGHT,USEOFMATLANMADEAREGRESSIONMODEL,USEAREGRESSIONMODELTOTHEFUNCTIONRELATIONOFHEIGHTANDWEIGHTBIVARIATEREGRESSIONOFHEIGHTANDWEIGHTDOSEEKOUTINDEPENDENTVARIABLES,VITALFUNCTIONOFTHEDEPENDENTVARIABLESDODISCRIMINANTANALYSISISMAINLYUSED5999GRADESTUDENTHEIGHTANDWEIGHTTODETERMINE291STUDENTSINCLASSESKEYWORDSTHECERVIXGRADES;STATISTICANALYSIS;MATLAB;ANALYSISOFVARIANCE;ANALYSISOFREGRESSION;DISCRIMINANTANALYSIS目录1前言12常用统计分析方法321描述性统计分析322方差分析423回归分析824判别分析93MATLAB主要统计函数简介114某高校在校生体测成绩统计分析1341数据来源1342描述性统计量1343方差分析1644回归分析2045判别分析265总结与不足28参考文献29致谢31附录32天津科技大学2014届本科生毕业论文1前言随着我国国力的增强,我国逐渐重视大中学生体质健康。2014年四月二十四日,教育部体卫司司长王登峰在发布会上透露,新版国家学生体质健康标准已经基本成形,和旧版相比,取消了所有选测项目,统一为必测项目。据介绍,新版中要求大、中学生必测长跑。测试成绩分优秀、良好、及格和不及格4个等级,分别记入学校为每个学生制作的国家学生体质健康标准登记卡。教育部表示,学校没按规定执行的,将在学校体育工作等级评比中“不合格”。新版标准还要增加体育课学分。【13】大学生的健康成长关系到一个国家和整个民族发展的未来,对于我国大学生而言,其身体与智力的发展正处于关键时期。大学生健康体适能测试,是高校体育工作中的一个重要的组成部分,也是学校教育评价体系中所必不可少。统计分析这种方法从整体上反映和分析事物数量特征,可以观察并发现事物的本质和发展规律,作出正确的判断。体测成绩的统计分析从微观上有助于学生自己更好的了解自己的身体健康状态,并作出相应调整。研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。朱慧平,张晓芳在18中采用文献资料法、数理统计法、问卷调查等方法,对甘肃省当前大学生的体质健康状况进行了调查研究。结果发现1)男生和女生体质健康状况存在着较大的差距,男生明显好于女生。2)城市、县城、村镇的学生体质健康状况存在着一定的差异,乡村学生好于城市学生。3)年级不同,学生的体质状况也不同,研究结果表示大二学生最好,大四学生最差,从大学一年级到四年级学生的体质健康状况有先提高后降低的趋势。李恺宪在17中探讨不同体育生活方式对大学生的体质状况有什么影响以及两者相互关系,研究当中主要采用文献资料、问卷调查、专家访谈等研究方法,进行问卷调查对江苏地区普通高校大学生的体育生活方式,结果发现不同年级的体育生活方式存在明显的差异,前三个年级的学生都有很好的体育生活方式,到大四之后学生的体育生活方式明显下降在这些学生中调查了不同的体育生活方式并进行比较分析,结果表明,具有良好体育生活方式特征的大学生体质状况明显好于另一部分大学生因此,建立良好的体育生活方式,可以提高身体机能素质,促进柔韧、速度和耐力素质的发展,最终促进大学生体质的全面发展。吴磊在19中通过体育课的体能练习提高大学生体质测试的健康水平,结合体测的内容设置相关的体能项目的训练,并有针对性的进行练习。本文运用访谈法、1天津科技大学2014届本科生毕业论文问卷调查法、统计法试验法等相关研究方法对目前高校存在的问题进行分析和总结提出相关具体方案,为大学生身体素质的提升打好基础。本文以2010年中国农业大学的在校生体测数据为依据,主要运用统计分析的描述性统计、方差分析、回归分析、判别分析,旨在发现一些规律和问题。首先从描述性统计量中算出各个年级的体测成绩的几个统计量。接着用方差分析对不同学院学生的身高分别进行了显著性分析,用多重比较得出哪两种学院学生的身高差异性大。在回归分析中,先对数据做了相关性分析,查找相关性比较强的,所以拟合了身高和体重的一元回归和身高、体重。肺活量的二元回归,最后求出回归方程,画出了拟合图。在判别分析中,对身高体重等级做了分类。第一类是超重,第二类是肥胖,第三类是较低体重,第四类是营养不良,第五类是正常体重,用5999名学生对291名学生进行分类。2天津科技大学2014届本科生毕业论文2常用统计分析方法21描述性统计分析211常用统计量通常在得到数据并对数据进行预处理后,需要对数据进行描述性的统计分析。常用统计量有以下几种1样本均值(MEAN),描述了样本数据相对中的中心位置,计算公式1NIIX2样本标准差(STD),描述了样本数据变异程度的大小,计算公式21NIIS3样本极差(RANGE)作为样本数据变异程度大小的一个简单度量,计算公式121RANGE,NXX4最大值和最小值(MAX和MIN)求样本数据中的最大值和最小值。公式是。12121MX,MIN,NNXX()和5中位数(MEDIAN)顾名思义就是将样本数据从小到大依次排列,位于中间的那个观测值,样本P分位数定义如下P1,2NPPXP若不是整数;若N是整数,6众数(MODE)描述了样本观测值数据中出现最多的数。7变异系数是衡量数据变异程度的一个统计量,和标准差不同,当单位和平均值不同时,比较其变异程度就要用变异系数,即标准差和平均数的比值。SX8样本偏度(SKEWNESS)用来计算样本数据的偏度,偏度反映了总体分布密度曲线的对称性信息,偏度越接近0,说明分布越对称。如偏度大于0说明概率密度的右尾巴长,顶点偏向左边,偏度小于0说明概率密度的左尾巴长,顶点偏向右边,计算公式,其中为样本K阶中心矩。3152B3天津科技大学2014届本科生毕业论文9样本K阶中心矩(MOMENT)1NKKIIBX10样本的峰度(KURTOSIS)反映了总体分布密度曲线在其峰值附近的陡峭程度,计算公式42212常用统计图1直方图HIST/HIST3在观察数据所服从的分布时,直方图是非常简洁实用的。做直方图的步骤如下1将样本观测值从小到大排序得12LXX2适当选取略小于的数与略大于的数,将区间随意分为1XALB,ABK个不相交的小区间,记第个小区间为,其长度为IIIIH3把样本观测值逐个分到各区间内,并计算样本观测值落在各区间内的频数及频率INIINF4在轴上截取各区间,并以各区间为底,以为高作小矩形,就得到频数直方XIN图,若以为高作小矩形,就得到频率直方图。IFHMATLAB中绘制频数直方图的函数是HIST和HIST3(二元变量的三维直方图)。2箱线图(BOXPLOT)箱线图的做法如下1画一个箱子,其左侧线为样本025分位数位置,其右侧线为样本075分位数位置,在样本中位数(即05分位数)位置上画一条竖线,画在箱子内。这个箱子包含了样本中50的数据。2在箱子左右两侧各引出一条水平线,左侧线画至样本最小值,右侧线画至样本最大值,这样每条线段包含了样本25的数据。以上两步得到的图形就是样本数据的水平箱线图,当然箱线图也可以作成竖直的形式。从箱线图上能大概看出样本数据的分布情况。22方差分析方差分析产生于英国,它是由统计学家RAFISHER在20世纪20年代提出的一种统计方法。方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产4天津科技大学2014届本科生毕业论文和科学研究中,经常要分析各种因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。也就是分析在诸多因素中哪些因素是主要的,哪些是次要的,以及主要因素处于何种状态时,才能使所考察的指标达到一个较高的水平,这就是方差分析所要解决的问题。本文主要对数据中的13个学院学生的身高进行了单因素一元方差分析和非参数方差分析,其中单因素一元方差分析,样本数据应满足方差分析的几个基本假定,即1所有样本均来自正态总体2这些正态总体具有相同的方差3所有观测值相互独立,即独立抽样。在前两个假定基本满足的情况下,一般认为方差分析检验(ANOVATEST)是稳健的。1单因素方差分析的数学模型。设因素有个水平,对应试验指标的个AKK总体,记为,它们的分布为12,K(21)2,1,IINI今从这个总体中各自独立地抽取一个样本,取自的样本记为KI列表如表21所示。12,1,2IINXK表21单因素方差分析的样本数据组别样本样本均值样本方差1112,NX1X21S222K12,KKNK2K其中(22)2211,1,IINIJIIJIJJIIXSX单因素方差分析的数学模型为(23)2,1,0IJIJDIIJIKJNN其中表示独立同分布。欲检验因素对试验指标有无显著影响,相当于检验IDA不全相等(24)01212,KKHH原假设成立表示因素对试验指标无显著影响。令05天津科技大学2014届本科生毕业论文1,1,2KIIIIK则23式可改写为2521,1,0,IJIJDIIJKXIKJNN24式等价于0121,0KIHH至少存在一个这里的称为因素的第个水平所引起的效应,可以看成对总,IKAIIA平均的“贡献”大小。若,称的效应为正,若,称的效应为负。0IIII2单因素方差分析的原理,作24式的假设检验,应从分析样本数据的差异入手,数据的差异可分为系统偏差和随机误差,来自不同总体样本数据之间的差异称为系统偏差,来自同一总体样本数据之间的差异称为随机误差。样本数据之间的差异通常用离差平方和(样本观测数据与总均值的差的平方和)来表示,方差分析就是将样本数据的总的离差平方和分解为两部分,一部分为因素所造成的离差平方和,即系统偏差,又称为组间离差平方和;另一部分为随机因素所造成的离差平方和,即随机误差,又称为组内离差平方和。然后根据两部分平方和构造检验统计量,推导统计量所服从的分布,最后写出拒绝域。直观上可以这样理解若总离差平方和中主要是组间离差平方和,组内离差平方和所占比重非常小,则可认为各组数据之间的差异是显著的,即因素对试验指标的影响是显著的;若总离差平方和中主要是组内离差平方和,组间离差平方和所占比重非常小,则可认为因素对试验指标的影响是不显著的。3离差平方和及自由度的分解,从模型25式可以看出(26),1,1,IJIJIXIKJN上式左边表示每一个样本观测数据与总均值的偏差,这个偏差被分成两部分,其中表示由因素的不同水平所引起的系统偏差,表示随机误差。令IAIJ用作为的估计,作为的估计,作为的估计,则26式为XIXIIJIXIJ,1,1,IJIIJIIKN记表示总离差平方和,则TS6111,INKKKIJIIJN天津科技大学2014届本科生毕业论文2211IINNKKTIJIIJIIJIJSXX2211INKKIIJIIJ令2211,INKKAIEIJIIJSNXSX可以看出,为因素所造成的离差平方和,称为组间离差平方和,为随机ES因素所造成的离差平方和,称为组内离差平方和。这样就有如下平方和分解式TAESS为了构造检验统计量并推导其分布,引入如下定理。在以上记号下,对于模型25式,有以下结论成立。;2ENK原假设成立时,与相互独立。0H221,1ATSSKNESA对于24式的假设检验,构造检验统计量/AAEEMFSNKS其中称为组间均方离差平方和,称为组内均/1AMSK/ENK方离差平方和。由定理可知,当原假设成立时,0H/11,AAEESKSFFKN直观上可以看出,当统计量的观测值大于某个临界值时,应拒绝原假设,所0H以对于给定的显著性水平,拒绝域为1,WKN其中为分布的上侧分位数。1,FKN1,FKN4单因素方差分析表根据以上过程列出单因素方差分析表,如表22所示。表22单因素方差分析表来源平方和自由度均方离差值F临界值F组间AS1K/1AMSK/AEMS1,KN7天津科技大学2014届本科生毕业论文组内ESNK/EMSNK总计T1方差分析表很直观地展现了方差分析的过程,通过对比值与临界值F的大小,作出最后的结论。也可以将表格最后一列的临界值换成1,FKN检验的值,其中。对于给定的显著性水平,当时PPF的观测值P,应拒绝原假设,即认为因素对试验指标有显著影响,并且值越小,显著0HA性越强;当时,应接受原假设,即认为因素对试验指标无显著影响。0HA非参数方差分析不要求样本来自于正态总体,也不要求正态总体具有相同的方差,即不要求正态性和方差性假定。当样本不满足这正态性和方差性的假定时,就要采取基于秩的非参数检验,本文中主要用KRUSKALWALLS检验。MATLAB工具箱中提供了KRUSKALWALLS函数,用来做单因素非参数方差分析。检验的原假设是K个独立样本来自于相同的总体。当原假设成立时,并且样本容量足够大时,检验统计量H近似服从自由度为K1的分布,即2(27)212311KJJRNNKN其中,K为样本数,为第J个样本的样本容量,为JN(,,,K)1KJNNJR第J个样本的秩和。对于给定的显著性水平,当H的观测值大于或等于,拒绝原假设,表示K个独立样本来自于不同的总体,或者说K个样本21K有显著性差异。【16】23回归分析在客观世界中变量之间的关系普遍存在。变量之间的关系一般说可以分为非确定性和确定性这两种。非确定性关系即所谓相关关系。例如人的身高和体重之间存在着关系,一般来说越高体重越重,有时同样身高的人,体重也是不一样的,之所以有这种关系,是因为我们涉及的变量是随机变量。确定性关系是指变量之间的关系可以用函数表达。回归分析研究的是相关关系的一种数学工具,这种工具能从一个变量取得值去估计另一个变量所取的值。用来认识事物的内在规律和本质属性。【16】(1)一元回归模型8天津科技大学2014届本科生毕业论文设有两个变量和,其中是可以精确测量或控制的非随机变量,是随XYXY机变量,假定随机变量与可控变量之间存在线性相关关系,建立与的数X学模型如下(28)2,0,YABXN其中未知参数和都不依赖于。称28式为关于的一元线性回归模型,AB2X,其中称为回归系数。由一元线性回归模型可知,当固定时,X2,YNABX,令,它是固定时随机变量的数学期望。直线|XEYY近似表示了与的线性相关关系,称为关于的回归ABYYX函数,称为关于的理论回归方程。(2)参数的最小二乘估计对作次独立的观测,得到观测数据根据2,XYN,1,2IXYN8式可得2,0,1,IIDIYABNN其中表示独立同分布。令ID2211,NNIIIQABYABX二元函数的最小值点称为的最小二乘估计,通过解下面方程组,AB,求得291211,20NIIINNIIIIIAXBYYABXXQB其中11,NNIIXY当方程组29的系数矩阵的行列式2221110,NNNIIIIDXXX可以解得210,XYAYBL其中221111,NNNNXIIXYIIIIILXLXY9天津科技大学2014届本科生毕业论文将代入理论回归方程可得,称之为关于的经验回归方程。由于,ABYABXYX,B可知关于的经验回归直线一定过点YX,可以证明估计量服从以下分布,AB(211)221,XXNBNNLL从而可知分别是的无偏估计。,(3)回归方程的显著性检验对于变量和的任意对观测值,只要不全相等,则无YXN,IXYNX,21论变量和之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程AB显然,只有当变量和之间存在线性相关关系时,这样的线性回归方程才是有YX意义的。为了使求得的线性回归方程真正有意义,就需要检验变量和之间是YX否存在显著的线性相关关系。若和之间存在显著的线性相关关系,则回归模YX型28式中的不应为0,因为若,则就不依赖于了。因此需要检B0B|EYXX验假设21201,0HBB检验FXYYABXYII,IXYXO图21离差分解示意图如图21所示,每个观测点处的与均值的离差被分解为两部分,即,IXYIYIY,I于是总离差平方和可作如下分解2211NNTIIIIISYYY22111NNNIIIIIII10天津科技大学2014届本科生毕业论文可以证明令120NIIIYY2211,NNEIRIIISSY则有(213)TER这里的为总离差平方和,它被分解为两部分。其中是估计值的离差平TSRSIY方和,反映了的总变差中由于与之间的线性关系所引起的的变差,称为YYX回归平方和。就是前文中的,称为残差平方和(或剩余平方和),它反映了EEQ的总变差中不能由回归直线来解释的变差。由图2Y6可以看出,若总离差平方和中主要是回归平方和,残差平方和所占TSRSES比重非常小,则说明观测数据的散点基本集中在回归直线附近,进一步说明和Y之间存在显著的线性相关关系,因此可以根据和构造检验统计量,检XE验和之间的线性相关关系是否显著。Y(4)多重线性回归分析原理设随机变量与个可控变量之间存在线性相关关系,建立与YP12,PXY的数学模型如下12,PX214012,PYBXBN其中未知参数和都不依赖于称214式为关于01,PB212,PY的重线性回归模型,其中称为回归系数。类似于一元线12,PX,B性回归,称为关于的理论1012|,PPEYXXXYY1,PX回归方程。24判别分析判别分析是对样本进行分类,但是和聚类分析不一样,判别分析的研究对象是已经有了分类,根据抽取的样本建立判别公式和判别标准,然后用这些公式和标准判别未知的类别的样本的类别。本文主要用距离判别,其中距离判别的基本思想是首先根据已知分类的数据,分别计算各类的重心,即分组均值,判别标准对于任给一次观测值,若她与I类的重心距离最近,就认为她来自第I类。马氏距离原理设G是维总体,它的分P布的均值向量和协方差矩阵分别为11天津科技大学2014届本科生毕业论文(215)1211212,PPPP设为取自总体G的两个样品,假定(为1212,XXYY0正定矩阵),定义X,Y间的平方马氏距离为21,DXXY定义X到总体G的平方马氏距离为(216)21,X两个总体的判别,设有两个P维总体,分布的均值分别为,协方2G和12和差矩阵分别为。从两总体中分别抽取容量为的样本,记为120,12N,。现有一未知类别的样品,记为X,试试判别X的归属,122,NNXX现有以下判别规则当时,判定;否则判定。若相等则待判。这是通常12,DG12X为马氏距离。在采用马氏距离的情况下,下面分情况进行讨论。(1)已知时2将两个距离相减可得(217)2211212,DXX令(218)112212,PAAWXX,则判别规则还可表示为(219)12,0GXX若若待判,若称WX为两组距离判别的线性判别函数,A为判别系数。(2)已知时12令(220)21,JXDGX则为二次判别函数,判别规则为12天津科技大学2014届本科生毕业论文22112,0XGJX若若待判,若(3)未知时12在实际问题中,这种情况最为常见,此时有样本对进行估计12,2121,XS于是可得平方马氏距离的估计和二次判别函数的估计(222)122,IIIDXGXSXJDG将格式(221)中的换位,即可得此种情况的判别规则。3MATLAB主要统计函数简介MATLAB意为矩阵工厂(MATRIX读取文件SGX,3提取矩阵X的第3列数据,即全部学生的身高COLLEGEY2END,1提取元胞数组Y的第1列的第2行至最后一行数据,即全部学生所在学院的名称数据COLLEGE_IDX,1提取矩阵X的第1列数据,即全部同学所在学院的编号数据正态性检验调用LILLIETEST函数分别对13个学院学生的身高进行正态性检验FORI113SGISGCOLLEGE_IDI提取第I个学院的身高数据H,PLILLIETESTSGI正态性检验RESULTI,P把检验的P值赋给RESULT变量ENDRESULT01538000100162700010002010020600010003820001000335000370324800792运行以上程序得出检验的P值,可知动科学院、工学院的P值大于005,在显著性水平005下可认为这两个学院的学生身高服从正态分布。432方差齐性检验调用VARTESTN函数分别对13个学院学生身高进行方差齐性性检验,相应程序如下方差齐性检验调用VARTESTN函数进行方差齐性检验P,STATSVARTESTNSG,COLLEGEP94377E013从上面结果可以看出,检验的P值P94377E013调用MULTCOMPARE对不同不同学院的学生身高进行多重比较C,M,H,GNAMESMULTCOMPARESTATSC查看多重比较的结果矩阵CGNAMES,NUM2CELLM把M矩阵转为元胞数组,与GNAMES放在一起显示ANS动科学院31246E03998107动医学院28153E031041488工学院35271E03640019经济管理学院28797E03675339理学院32788E03855072农学与生物技术学院29029E03567191人文与发展学院25881E03974824生物学院32824E03946601食品科学与营养工程学院27311E03844831水利与土木工程学院34725E03752713信息与电气工程学院35882E03661749资源与环境学院30212E031650814教务处35164E034280107运行以上程序,得出动科学院和人文与发展学院、工学院、信息与电气工程学院学生的身高差异显著。动医学院和工学院、信息与电气工程学院学生的身高差异显著。工学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。经济管理学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。理学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。农学与生物技术学院和工学院、水利和土木工程学院、息与电气工程学院学生的身高差异显著。人文与发展学院和动科学院、工学院、理学院、生物学院、土木工程学院、息与电气工程学院学生的身高差异显著。生物学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。食品科学与营养工程学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。水利和土木工程学院和动医学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。信息与电气工程学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。44回归分析本节先对各个数据进行相关性分析,观察各数据的相关性,在进行回归分析时,主要对身高和体重的一元回归,身高、体重和肺活量的二元回归。其中SG代表身高,TZ代表体重,SGTZFS代表身高体重分数,FHL代表肺活量,FHLTZFS代表肺活量体重分数,NL代表耐力,NLFS代表耐力分数,RRLL代表柔韧力量,RRLLFS代表柔韧力量分数,SDLQ代表速度灵巧,SDLQFS代表速度灵巧分数,ZF代表总分。441相关性分析调用CORRCOEF函数对样本数据进行相关分析,得到的相关性系数矩阵如表45所列(见附录)。调用MATRIXPLOT函数对相关矩阵作图,得到的相关系数矩阵图如图42所示,相应的MATLAB代码如下DATAXLSREAD2010XLS读取数据DATA,12610131619选取数据RCORRCOEFDATA进行相关性分析XVARNAMESSG,TZ,SGTIFS,FHL,FHLTZZS,FHLTZFS,NL,NLFS,RRLL,RRLLFS,SDLQ,SDLQFS,ZFMATRIXPLOTR,FIGSHAP,E,FIGSIZE,AUTO,COLORBAR,ON,XVARNAMES,XVARNAMES,YVARNAMES,XVARNAMES画图图44各数据相关系数矩阵图442身高和体重的一元线性回归调用LINEARMODELFIT函数对身高体重做一元回归分析,拟合效果图如图43所示,相关代码如下DATAXLSREAD2010XLSYDATA,4XDATA,3MDLLINEARMODELFITX,YMDLLINEARREGRESSIONMODELY1X1ESTIMATEDCOEFFICIENTSESTIMATESETSTATPVALUE_INTERCEPT1002821539465550X10946770012814738880NUMBEROFOBSERVATIONS6290,ERRORDEGREESOFFREEDOM6288ROOTMEANSQUAREDERROR785RSQUARED0465,ADJUSTEDRSQUARED0465FSTATISTICVSCONSTANTMODEL546E03,PVALUE0YHAT094677X10028PLOTX,Y,K,MARKERSIZE,15散点图HOLDONPLOTX,YHAT,LINEWIDTH,3回归直线XLABEL身高(X)YLABEL体重(Y)14015016017018019020030405060708090100110120130体体体X体体体体Y体图43身高体重拟合图运行以上代码得出一元线性回归方程,Y是体重,X是094671028YX身高。对回归方程进行显著性检验,检验的P值等于0,小于005,说明回归方程显著。443身高、体重和肺活量的二元回归调用LINEARMODELFIT函数对在用身高和体重做自变量,肺活量做因变量,做二元回归,拟合效果图如图44所示,相应代码如下DATAXLSREAD2010XLSXDATA,34YDATA,7MDLLINEARMODELFITX,YMDLLINEARREGRESSIONMODELY1X1X2ESTIMATEDCOEFFICIENTSESTIMATESETSTATPVALUE_INTERCEPT6556194033378940403E230X15159136063791816029E283X2250770979662559814755E137NUMBEROFOBSERVATIONS6290,ERRORDEGREESOFFREEDOM6287ROOTMEANSQUAREDERROR610RSQUARED0504,ADJUSTEDRSQUARED0504FSTATISTICVSCONSTANTMODEL319E03,PVALUE0X,YMESHGRIDLINSPACEMINX,1,MAXX,1,30,LINSPACEMINX,2,MAXX,2,30Z65565159X25077YMESHX,Y,ZXLABEL身高(X)YLABEL体重(Y)ZLABEL肺活量(Z)HOLDONPLOT3X,1,X,2,Y,14016018020050100150010002000300040005000600070008000体体体Y体体体体X体体体体体Z体图44身高、体重和肺活量的拟合图运行以上代码得到回归方程。其中X是身高65192507ZXY,Y是体重,Z是肺活量,P值等于0,小于005,说明回归方程显著。45判别分析本节主要用了距离判别法,用5999个学生的类别去求291个人的类别。结果见表46,47所示。代码如下X,TEXTDATAXLSREAD2010XLS从2010XLS读取文件SAMPLEX,37SAMPLE,34从X中读取6290个学生的身高,体重,肺活量数据GROUPTEXTDATA,7GROUP160016291从TEXTDATA中读取样本的分组信息数据TRAININGXLSREAD2010XLS,1从2010XLS中手动读取5999名学生的身高,体重,肺活量数据OBSTEXTDATA,3OBS1,从TEXTDATA中读取学生的学号C,ERRCLASSIFYSAMPLE,TRAINING,GROUP,MAHALANOBIS调用CLASSIFY函数OBS,C查看结果表465999个学生判别对比表超重肥胖较低体重营养不良正常体重超重34112000肥胖0750000较低体重010720722160营养不良0006820正常体重079002154表47291个学生判别对比表超重肥胖较低体重营养不良正常体重超重170000肥胖071000较低体重0137800营养不良000420正常体重4001083运行以上程序,得出5999个学生中超重的353人有12个人被判别到肥胖中。肥胖中除了12个超重的还有107个较低体重和79个正常体重被误判。较低体重有2072个判对,但是还有216被判到营养不良,107个判到较低体重。有682个营养不良,其中有216个被判成较低体重。有2233个正常体重,其中有79个被判成肥胖。291个学生中有有13个超重,其中有4个被误判成超重。有58个肥胖,有13个较低体重被误判成肥胖。有78个较低体重判对,有13个被误判成肥胖。有32个营养不良,有10个正常体重被误判到营养不良。有83个正常体重判对,但有10个被误判成营养不良。5总结与不足本研究对中国农大2010年的体测成绩进行了统计分析,主要用到了描述性统计量、方差分析、回归分析、判别分析统计方法。首先根据中国农大2010年的体测成绩统计分析得出三个年级的不同项目的8个常用统计量,通过表格的方式列出,更能方便了解这次数据的特征。其次通过方差分析知道不同学院的学生的身高有显著性差异,通过多重比较了解了动科学院和人文与发展学院、工学院、信息与电气工程学院学生的身高差异显著。动医学院和工学院、信息与电气工程学院学生的身高差异显著。工学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。经济管理学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。理学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。农学与生物技术学院和工学院、水利和土木工程学院、息与电气工程学院学生的身高差异显著。人文与发展学院和动科学院、工学院、理学院、生物学院、土木工程学院、息与电气工程学院学生的身高差异显著。生物学院和人文与发展学院、食品科学与营养工程学院学生的身高差异显著。食品科学与营养工程学院和工学院、水利和土木工程学院、信息与电气工程学院学生的身高差异显著。水利和土木工程学院和动医学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。信息与电气工程学院和动科学院、动医学院、经济管理学院、农学与生物技术学院、人文与发展学院、食品科学与营养工程学院学生的身高差异显著。通过箱线图可以更好的看出各学院学生的身高的不同。再次通过分析数据的相关性得出相关矩阵图,通过回归分析,得出学生身高和体重的一元回归方程,身高、体重和肺活量的二元回归Y094671028X方程,画出各自的拟合效果图。Z651X25Y最后通过距离判别用已知的5999个学生的身高体重类别对291个学生分类。得出5999个学生中超重的353人有12个人被判别到肥胖中。肥胖中除了12个超重的还有107个较低体重和79个正常体重被误判。较低体重有2072个判对,但是还有216被判到营养不良,107个判到较低体重。有682个营养不良,其中有216个被判成较低体重。有2233个正常体重,其中有79个被判成肥胖。291个学生中有有13个超重,其中有4个被误判成超重。有58个肥胖,有13个较低体重被误判成肥胖。有78个较低体重判对,有13个被误判成肥胖。有32个营养不良,有10个正常体重被误判到营养不良。有83个正常体重判对,但有10个被误判成营养不良。本研究还存在一些不足和值得改进之处,从本文来说在进行描述性统计时,工程量比较大,没有做个函数帮助减少工作量。在进行方差分析时只从身高方面来进行不同学院的显著性分析。还可以从体重,肺活量,耐力类,速度、灵巧类等方面进行分析。从数据来说,只有一个学校的数据,不能从多个学习进行分析比较,只有2010年的体测成绩,没有分析更多年份的体测成绩。参考文献1王岩,隋思涟MATLAB回归分析J青岛理工大学学报,2006,041291322崔敏基于MATLAB的加工误差统计分析系统J机械,2008,S121233程毛林MATLAB软件在多元统计分析中的应用J数理统计与管理,2008,022792844杨伍梅MATLAB在回归分析中的应用J高等函授学报自然科学版,2008,0533345杜华强,范文义,赵宪文,王雪基于MATLAB遥感数据分形及地统计分析软件实现J北京林业大学学报,2005,0592976易芳采用MATLAB的线性回归分析J兵工自动化,2004,0168697陈辉,胡英,王绪本,郭科判别分析中的变量择优及其MATLAB实现J河南师范大学学报自然科学版,2004,0112168邹昌平,雷刚,梁锡昌应用MATLAB软件统计分析刀具寿命分布规律J工具技术,2001,0730329程毛林浅谈MATLAB软件用于统计分析教学J统计教育,2001,05212310冯三营MATLAB软件在多元统计分析教学中的应用研究J洛阳师范学院学报,2010,02232611王曙东回归分析中的残差分析J中学生数理化高二版,2012,065812NONDEK,LUBOMIR,NIEDERBERGER,ANNEARQUITSTATISTICALANALYSISOFCDMCAPACITYBUILDINGNEEDSJCLIMATEPOLICY,2005,4313KJWORSLEY,JETAYLOR,FCARBONELL,MKCHUNG,EDUERDEN,BBERNHARDT,OLYTTELTON,MBOUCHER,ACEVANSSURFSTATAMATLABTOOLBOXFORTHESTATISTICALANALYSISOFUNIVARIATEANDMULTIVARIATESURFACEANDVOLUMETRICDATAUSINGLINEARMIXEDEFFECTSMODELSANDRANDOMFIELDTHEORYJNEUROIMAGE,2009,4714LAYNEJE,NEISONMETHEEFFECTSOFPROGRESSIVERESISTANCETRAININGONBONEDENSITYAREVIEWJMEDSCISPORTSEXERC,1999,31253015谢中华MATLAB统计分析与应用40个案例分析M北京北京航空航天大学出版社,201016李恺宪不同体育生活方式大学生体质状况的探讨和分析J首都体育学院学报,2009,21(6)73773917朱慧平,张晓芳甘肃高校学生体质健康状况调查研究J甘肃科技纵横,2012,41515816718吴磊结合体育课体能项目的练习提高大学生健康体测成绩J运动人体科学,2013,325212219张伟,陈华卫江苏高校学生身心健康发展现状与策略研究J山东体育学院学报201147899120陈星,张欣,张霈高校学生体质健康现状与对策研究J北京体育大学报2008,12794494521边文洪,张占平江苏省高校学生不同体质健康水平生活方式的调查分析J哈尔滨体育学院学报,2008,26113613922魏巍MATLAB应用数学工具箱技术手册M北京国防工业出版社,200423苗大培论体育生活方式M北京北京体育大学出版社,200424王利森,祁国鹰运动因子影响大学生体质状况的统计分析J北京体育大学学报,2005,28912241226致谢毕业论文的顺利完成首先要感谢老师在专业知识、论文结构、内容和格式上给予的细心指导和帮助,他细致的要求和精益求精的态度给了我很大的影响,也激励我更好地完成论文。同时我也要感谢理学院的老师们在毕业论文评定和检查工作中认真严谨的态度,他们对待学生耐心而且宽容的,用高要求对待学术,专注于每天的教学工作中,得到大家的敬佩和爱戴。感谢天津科技大学提供了良好的教学设备供我们查阅浏览电子图书,感谢图书馆的老师给我们创造了一个干净舒适的图书馆环境,让大家都能有秩序的借阅经典书籍和最新的书刊,得到我们需要的专业知识和理论。感谢父母的引导、监督和关怀,陪伴我度过大学四年的学习生活。附录进行描述性代码SGXLSREAD2010XLS,C2C2205读取文2010XLS的工作表中的D2D2205中的数据,即09级身高数据SG_MEANMEANSGS1STDSG计算51式的标准差SG_MAXMAXSG计算样本最大值SG_MINMINSG计算样本最小值SG_RANGERANGESG计算样本极差SG_MODEMODESG计算样本众数SG_CVARSTDSG/MEANSG计算样本计算变异系数SG_MEDIANMEDIANSG计算样本计算中位数SG_SKEWNESSSKEWNESSSG计算样本计算偏度SG_KURTOSISKURTOSISSG计算样本计算峰度TIZHONG_KURTOSISKURTOSISTIZHONG计算样本峰度进行方差分析的有关代码X,YXLSREAD2010XLS读取文件SGX,3提取矩阵X的第3列数据,即全部学生的身高COLLEGEY2END,1提取元胞数组Y的第1列的第2行至最后一行数据,即全部学生所在学院的名称数据COLLEGE_IDX,1提取矩阵X的第1列数据,即全部同学所在学院的编号数据正态性检验调用LILLIETEST函数分别对13个学院的考试成绩进行正态性检验FORI113SGISGCOLLEGE_IDI提取第I个学院的身高数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论