2016体育统计学课件_第1页
2016体育统计学课件_第2页
2016体育统计学课件_第3页
2016体育统计学课件_第4页
2016体育统计学课件_第5页
已阅读5页,还剩276页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大学体育统计学,第一章绪论,第一节体育统计及其研究对象,统计的作用,客观事物的特征,质的特征,量的特征,统计活动,研,究,统计的分类(从性质上),(一)描述性统计对事物的特征与状态进行数量描述,身高=226cm体重=141kg,百米速度=15s投篮命中率=52%,(二)推断性统计通过样本数量特征估计推断总体特征,抽,样,总体平均成绩是14.6秒吗,体育统计的概念体育统计是运用数理统计的原理和方法对体育领域里各种随机现象规律性进行研究的一门基础应用学科。属于方法论学科范畴。理解:1:用普遍的方法研究特殊领域的问题。2:无论描述统计还是推断统计,都服务于对随机现象规律性的研究。,统计工作的基本过程,统计资料的搜集,统计资料的整理,统计资料的分析,统计资料的搜集:(基础环节)根据研究设计的要求获取有关数据资料。统计资料的整理:(中间环节)按照分析的要求对数据资料进行审核和分类。统计资料的分析:(决定性阶段)按照研究目的对整理后的数据进行统计学处理。,统计工作的基本过程,体育统计的研究对象及其特征,研究对象:(1)体育领域里的各种可量化的随机现象。(2)非体育领域里对体育发展有关的各种随机现象。,研究范围逐渐扩大了!,体育统计研究对象的特征,运动性特征:反映运动能力心理能力等方面的数量指标是具有运动性特征的。(1,与运动有关;2,是动态的)综合性特征:兼有自然科学和社会科学的综合属性。客观性特征:数据来源于客观事物本身,是对客观事物的反映。,第二节体育统计在体育活动中的作用,是体育教育科研活动的基础有助于训练工作的科学化能帮助研究者制定研究设计能帮助研究者有效地获取文献资料,总体与个体1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。2,个体的概念:组成总体的每个基本单位。3,总体的分类:,第三节体育统计中的若干基本概念,总体,现存总体,假想总体,有限总体,无限总体,有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。无限总体:基本研究单位的数量是无限多个的总体。,样本1,样本的概念:根据研究需要与可能,从总体中抽取的部分研究对象所形成的子集为样本。2,样本的分类:随机样本和非随机样本,样本,随机样本,非随机样本,采用随机抽样方法获得的样本,研究者根据研究需要,制定某些条件获得的带非随机性质的样本,必然事件和随机事件1,必然事件:在确定的条件范围内,必然发生(或不发生)的事件。(具备可预言性)2,随机事件:在一定的实验条件下,有可能发生,也有可能不发生的事件。(具备不可预言性,只能猜)随机变量1,随机变量:随机事件的数量表现。,随机变量,连续型随机变量,离散型随机变量,至少理论上可以穷举,不能穷举,总体参数和样本统计量1,总体参数:反映总体数量特征的指标。2,样本统计量:反映样本数量特征的指标。概率1,古典概率:适用于总体明晰的情况下。2:统计概率:适用于总体状况不明的情况下。,补充内容:连加和的缩写式,在高等数学中,采用连加求和缩写式形式来表示连加求和数,它的一般形式为:其中:连加求和号变量(一组观测数据)在中,i是下标,n是上标,i、n表示连加求和的界限,即从通项公式具体分解的第一项开始相加一直到第n项为止。各具体项根据i的取值不同而有所不同,i取1为第一项,取“n”为第n项。,体育中常用的连加求和运算:,为了避免符号过于复杂,今后凡在求和范围可以看清的条件下,通常将号上下标省略不写,简记为,补充内容:连加和的缩写式,课堂练习:展开连加和缩写式,体育统计学,第二章统计资料的收集与整理,收集资料的基本要求1:资料的准确性2:资料的齐同性3:资料的随机性收集资料的基本方法1:日常积累2:全面普查3:专题研究,第一节统计资料的收集,几种常用的抽样方法,简单随机抽样(完全随机抽样)抽取特点:1:不分组,不分类,不排队地抽取;2:总体中每个个体都有被抽中的机会;3:总体中每个个体被抽中的机会是均等的。抽取方法:1:抽签法2:随机数表法(见随机数表)该方法的优点:样本代表性好该方法的缺点:总体含量大时,编号困难。工作量大。,几种常用的抽样方法,分层抽样抽取步骤方法:1:按属性特征分成若干类型、部分或层;2:在类型、部分或层中按照比例进行简单随机抽样。分层的需注意的问题:1:层间必须有清晰的界面;(类间差异大,类内差异小)2:必须知道各类型中的个体数目和比例;3:层的数目不宜太多,但也不要极少。分层抽样的优点:1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡;2:适用于总体情况复杂、个体数目较多的情况。,分层抽样范例,某大学体育系大一新生总体人数合计900人,田径350人,篮球200人,足球150人,网球100人,体操80人,游泳20人,分,层,田径35人,篮球20人,足球15人,网球10人,体操8人,游泳2人,按照10%比例简单随机抽样,研究样本含量为90人,按照学生专项属性分层,继续下一步的研究过程,几种常用的抽样方法,整群抽样整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。划分群应注意的问题:群间差异要小,群内差异要大。讨论:调查广东省初中毕业生体质达标的情况。如何抽样?,第二节统计资料的整理,资料的审核1:初审简单排误2:逻辑检查专业知识、常识,指标关系间排误3:复核按比例抽样复核,频数整理频数分布表的制作,频数分布表的编制(实例),【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。,117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121,分组方法,单变量值分组,1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况,单变量值分组表,组距分组,将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组,组距分组的步骤(等距分组),求全距(极差)R:R最大值最小值确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定组距I:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即:组距(最大值最小值)组数(k)确定组限(组限:是指每组的起点值与终点值),5.根据分组整理成频数分布表填写组限按照从上到下、从小到大的顺序填写,只写下限,不写上限划记将数据逐个划记到相应的组中,五个为一组计算:频数(f);频率;组中值(组中值该组下限组距2),组距分组涉及的几个概念,1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值,课堂练习,117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121,【例】某小学五年级学生跳绳成绩如下(单位:个/分钟)。对数据进行分组。,1.求全距(极差)R:R最大值(Xmax)139最小值(Xmin)107322.确定组数:3.确定组距:组距(最大值139-最小值107)组数75,1+1.70/0.306.6677,4.确定组限:第一组下限(L1)最小值(Xmin)组距(I)/21075/2104.5105其他组组限的确定:从第一组开始,每一组的下限加上组距,就得到该组的上限,此上限又是下一组的下限,于是就形成了一列左闭右开的半开区间5.根据分组整理成频数分布表:(略,参照书P17-P18),需要说明的几个问题,关于组数的确定:1:可以依据已有的成熟的专业经验来确定;2:可参考前苏联专家制定的参考表(如右表)确定:关于图形的绘制:可以绘制直观的图形来方便了解数据的信息。较常使用的图形形式有多边形图和直方图等。图形中,一般横坐标代表组限,纵坐标代表频数。,作业,1.每人准备一本固定的作业本。2.教材P19第二章习题第4题,按照步骤与格式制作频数分布表及其直方图。,体育统计学,第三章样本特征数,第一节集中位置量数,数据的分布特征及其测量指标,集中趋势(Centraltendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势指标值适用于高层次的测量数据,反过来,高层次数据的集中趋势指标值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,中位数(Median),中位数,又称中数,中点数。符号Md(Median),定义:是指位于一组数据中较大一半与较小一半中间位置的那个数。,中位数(Median),特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两个数的平均数为中数。,概念:样本观测值在频数分布表中频数最多的那一组的组中值。(分组数据的众数,属于引申概念)原始概念:众数,符号Mo,它指在一组数中出现次数最多的那个数。计算方法是直接找到出现次数最多的那个数。众数具有不唯一性。例如:,众数(Mode),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,分组数据中众数的计算,频数最多的那一组的组中值。如书P21-P22:练习:找找众数,利用上次所做的作业。,几何平均数,概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。主要适用于一组数据中有少量数据偏大或偏小,数据分布呈偏态。计算公式:举例说明:1,2,3,4,8,16,42,108见教材P22,例题3.4,算术平均数,算术平均数简称为平均数或均值,符号为M(Mean)总体算术平均数:希腊字母(音:miu)样本算术平均数:英文字母(音:Xbar)。算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为:,算术平均数在应用上有如下特点:算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。,第二节:离中趋势量数,数据分布的另一个重要特征离中趋势的各指标值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,全距(极差,两极差),概念:一组数据最大值与最小值之差。公式:R最大值(Xmax)最小值(Xmin)特征与缺陷:1:能够了解数据的范围(区域,区间)。2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够。,绝对差与平均差,绝对差:平均差;,方差和标准差,1:是离散程度的测量指标值之一,最常用。2:能反映数据的分布。3:能反映各变量值与均值的平均差异。4:根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。,总体方差和标准差的计算公式,总体方差的计算公式,总体标准差的计算公式,样本方差和标准差,样本方差的计算公式,样本标准差的计算公式,自由度(degreeoffreedom),一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,平均数与标准差在体育中的应用,平均数与标准差在决策中的直接应用。变异系数在稳定性研究中的应用。法在原始数据逻辑审核中的应用。,平均数与标准差在决策中的直接应用,例题:教练员要从两名标枪运动员中决定一人参加比赛,如何作出决策?队员甲:40.50;41.26;40.44;39.62;40.1242.10;39.84;40.18;38.70;39.54队员乙:40.48;42.88;40.50;39.50;38.00;43.32;38.72;41.82;36.84;40.24简单应用平局数与标准差进行数据决策的步骤:1:确定样本数据的全域。2:确定样本数据的平均水平。3:确定样本数据的离散程度。4:根据专业专项应用要求采取相应不同决策。注意:决策前提是认同所取得的数据是真实客观有效的。,变异系数在稳定性研究中的应用,例题:某运动员主项为100m跑,兼项为跳远,在竞技期内,其主、兼项目测试结果如下:100m:ss跳远:mm试比较该运动员主项、兼项成绩的稳定性。(试比较该运动员100m跑、跳远两成绩的离散程度。)解答:二者的指标单位不同且性质不同,不能够直接进行比较。依据变异系数的概念特征,可以计算CV进行比较:由于该运动员100m跑的CV跳远的CV,故该运动员的100m跑的成绩比跳远成绩稳定。(或说100m跑成绩的离散程度小于跳远成绩),例题:随机抽取某市300名初中男生的身高,经检验基本服从正态分布,并得出cm,cm,在这300名学生中,有三人的身高原始数据为cm,cm,cm。试用法检查这三个数据是否为可疑数据。法进行原始数据逻辑审核的步骤:1:求的下限和上限。2:数据检验,看数据是否存在下限,上限区间之内。3:作出初步判定a:在区间之内,可以初步认定数据正常;b:在区间之外,需要进一步审核数据的准确性。,法在原始数据逻辑审核中的应用,作业,1.计算教材P19第二章习题第4题中样本数据的所有集中量数指标和离散量数指标。2.教材P39第三章习题第2题。3.自习教材第三章与第四章未讲到的内容。,体育统计学,第五章正态分布,正态分布的概念与性质,200个样本数据的频率分布直方图,总体密度曲线,无穷多个样本数据的频率分布直方图,正态分布的重要性,1.描述连续型随机变量的最重要的分布2.可用于近似连续型的离散变量的分布3.经典统计推断的基础,概率密度函数,f(x):随机变量X的频数:总体方差=3.14159;e=2.71828x=随机变量的取值(-x0正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一簇分布,每一特定正态分布通过均值和标准差来区分。决定曲线的位置,称为位置参数;决定曲线的形状,称为形状参数。曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1,即概率值等于1随机变量的概率由曲线下的面积给出,和对正态曲线的影响,正态分布的概率,标准正态分布,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的概率密度函数,标准正态分布,标准正态分布的重要性,一般正态分布的不同取决于均值和标准差计算概率时,每一个一般正态分布都需要有自己的正态概率分布表,这种表格是无穷多的。若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态分布表)就可以了。,先将一个一般正态分布转换为标准正态分布计算概率时,查标准正态概率分布表对于负的x,可由(-x)-x得到对于标准正态分布,即XN(0,12),有P(aXb)baP(|X|a)2a1对于一般正态分布,即XN(,2),有,标准正态分布表的使用,标准化的例子A(5,102),x,=5,=10,一般正态分布,6.2,P(5X6.2),标准化的例子B(5,102),一般正态分布,P(2.9X7.1),正态分布(实例),【例】设UN(0,12),求以下概率值:(1)P(U2);(3)P(-12)=1-P(U2)=1-0.9973=0.0227(3)P(-1U3)=P(U3)-P(U-1)=(3)-(-1)=(3)1-(1)=0.9987-(1-0.8413)=0.8354(4)P(|U|2)=P(-2U2)=(2)-(-2)=(2)-1-(2)=2(2)-1=0.9545,正态分布(实例),【例】设XN(5,32),求以下概率值(1)P(X10);(2)P(2X10)解:(1),(2),正态分布(实例),【例】设XN(1,4),求P(0X1.6)解:XN(1,4)XN(1,22)故,=1,=2P(0X1.6),正态分布理论在体育中的应用,主要应用方面:制定考核标准制定离差评价表进行人数估算在综合评价中统一变量单位,应用正态分布理论制定考核标准,制定考核标准的步骤:1:制作正态曲线的分布草图。2:计算出从到ui值所围成的面积概率。3:查表求得各等级的ui值。4:求得各等级标准的原始成绩xi值。举例说明(如书本例5.1),应用正态分布理论制定离差评价表,制定离差评价表的步骤:1:根据指标总数画好框表。2:将各个指标的平均数填入0标准差等级线与各个指标纵线的交叉处。3:计算1标准差,2标准差,3标准差的对应指标数值,并填入各级标准差等级线与各个指标纵线的交叉处。特别要注意计量的方向性(如:田径中田赛与径赛的计分区别)。4:依据指标成绩基础值和指标变化值画出不同时期的变化图线。5:注意离差等级的划分标准合理制定。(参考标准有两种)举例说明(如书本例5.2),应用正态分布理论进行人数估算,应用正态分布理论进行人数估算的步骤:1:作正态分布曲线的草图,以确定估计范围。2:求各个区间的ui值。3:查表找到所估计范围的面积概率。4:计算估计范围的人数。举例说明(如书本例5.3),在综合评价中统一变量单位,U分法:就是依据距离平均数有多少个标准差的距离来确定分数的方法。如果距离平均数在正方向有2个标准差的距离,则记为U分为2分。在负方向有2个标准差距离,则记为U分为-2分。直接用u值来评分。Z分法:是通过U分转换成更加符合实际运用情况的分数计量方法。可以转换为百分计分法,公式为:累计计分法:用于符合正态分布的前提下不等距升分的方法之一。其公式为:百分位数法:用于不符合正态分布的条件下使用变换分数的变量标准化法。其公式见教材P99(5.15)。,作业,1.P49第三章课后习题第7题。2.P99第五章课后习题第2题。3.P100第五章课后习题第3题。4.P100第五章课后习题第5题。,体育统计学,第六章统计推断(假设检验),关于误差的说明1:随机误差偶然因素造成,不可避免,无法消除2:系统误差实验条件和研究方法造成的,可以改善3:抽样误差抽出的样本统计量之间或样本统计量与总体参数之间的偏差,主要由于个体间差异造成的,样本含量增大时,抽样误差会有减少的趋势4:人为误差(过失错误)人为过失错误造成的统计数据的失真性。统计处理中最关心的是系统误差和抽样误差。,第一节参数估计,第一节参数估计,关于“标准误”的概念表示样本均数(或样本率)与总体均数(或总体率)之间偏差程度的标准差。均数标准误的计算公式:,第一节参数估计,均数标准误的计算公式:,第一节参数估计,点估计与区间估计点估计选定适当的样本统计量作为参数的估计量。区间估计以变量的概率分布规律来确定未知参数值的可能范围。置信概率在区间估计中,预选规定的概率。置信区间在区间估计中,按照预选规定的概率确定下来的区间范围。,置信区间的计算,一:总体均数的置信区间1:大样本含量(n45),可以认定符合正态分布,根据正态分布原理,用u分计算。2:小样本含量(n45),不符合正态分布,只能根据t分布原理,用t分计算。二:总体率的置信区间样本含量必须足够大(如:n100)p的抽样分布逼近正态分布,用u分计算。计算公式:教材P108-109.,假设检验的基本思想及步骤,主要学习目标:假设检验的基本知识u检验t检验卡方检验(不讲),什么是假设?,假设是对总体参数的一种看法总体参数包括总体均值、比例、方差等分析之前必需要有合理的陈述,我认为:蛙跳训练能够促进100m跑成绩的提高!,什么是假设检验?,根据研究目的,对样本所属总体的特征提出一个假设,然后根据样本资料所提供的信息,对这个假设作出拒绝或者不拒绝的判断,这一过程成为假设检验。概念核心:事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立,假设检验的基本思想,.因此我们拒绝假设=173cm,样本均值,m,=173cm,抽样分布,H0,这个是我们抽样得出的某个样本均值.,150,假设检验的过程(提出假设抽取样本作出决策),假设检验中的小概率原理,什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定(与置信区间相关),假设检验的基本步骤,(1)根据实际情况建立原假设H0,备择假设H1(2)选择并计算检验统计量的取值(3)确定显著性水平,查表得出相应的临界值(4)把实值与临界值进行比较,作出统计判断,什么检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为,确定适当的检验统计量,提出原假设H0和备择假设H1,什么是原假设?(NullHypothesis)1.待检验的假设,又称“0假设、虚无假设”。2.如果错误地作出决策会导致一系列后果。3.总是有等号,或4.表示为H0H0:某一数值0例如,H0:1.73(米),提出原假设H0和备择假设H1,什么是备择假设?(AlternativeHypothesis)1.与原假设对立的假设2.总是有不等号:,或3.表示为H1H1:某一数值,或某一数值例如,H1:F,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若FF,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响,单因素方差分析表(基本结构),MSE,单因素方差分析(一个例子),【例】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中消费者对总共23家服务企业投诉的次数,结果如表9.7。试分析这四个行业的服务质量是否有显著差异?(0.05),单因素方差分析(一个例子),单因素方差分析(计算结果),解:设四个行业被投诉次数的均值分别为,m1、m2、m3、m4,则需要检验如下假设H0:m1=m2=m3=m4(四个行业的服务质量无显著差异)H1:m1,m2,m3,m4不全相等(有显著差异)Excel输出的结果如下,结论:拒绝H0。四个行业的服务质量有显著差异,方差分析中的多重比较(作用),多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异多重比较方法有多种,这里介绍Fisher提出的最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,方差分析中的多重比较(步骤),提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)检验的统计量为,若|t|t,拒绝H0;若|t|2.096颜色2与颜色3的销售量有显著差异|x2-x4|=|29.5-31.4|=1.92.096颜色3与颜色4的销售量有显著差异,体育统计学,第八章相关分析,变量间的关系(函数关系),是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上,函数关系的例子圆的面积(S)与半径之间的关系可表示为:S=R2某种商品的销售额(y)与销售量(x)之间的关系可表示为:y=px(p为单价),变量间的关系(函数关系),变量间的关系(相关关系),变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围,相关关系的例子父亲身高(y)与子女身高(x)之间的关系家庭收入状况(y)与体育消费(x)之间的关系体育用品销售额(y)与广告费支出(x)之间的关系收入水平(y)与受教育程度(x)之间的关系,变量间的关系(相关关系),相关关系的类型,相关关系的图示,相关系数,对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数或积差相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为r,简单相关系数(积差相关系数),样本相关系数的计算公式,或化简为,相关系数取值及其意义,r的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关-1r0,为负相关0t,拒绝H0若tt,接受H0,若IrI大于表上的=5%相应的值,且小于表上1%相应的值,称变量x与y之间有显著的线性关系若IrI大于表上=1%相应的值,称变量x与y之间有十分(非常)显著的线性关系若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系,相关系数的显著性检验,相关系数的显著性检验(实例),以例8.1为例:对其相关系数进行检验解:第一步:提出假设:H0:;H1:0第二步:计算检验统计量:,相关系数的显著性检验(实例),第三步:确定显著性水平,并作出决策,体育统计学,第九章回归分析(一元线性回归),什么是回归分析?(内容),从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制,回归模型的类型,回归模型与回归方程,回归模型,回答“变量之间是什么样的关系?”方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3.主要用于预测和估计,一元线性回归模型(概念要点),当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量y如何依赖于自变量x和误差项的方程称为回归模型,一元线性回归模型(概念要点),对于只涉及一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数,一元线性回归模型(基本假定),误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的x值,y的期望值为E(y)=0+1x对于所有的x值,的方差2都相同误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的x值,它所对应的与其他x值所对应的不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关,回归方程(概念要点),描述y的平均值或期望值如何依赖于x的方程称为回归方程简单线性回归方程的形式如下E(y)=0+1x,方程的图示是一条直线,因此也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值,估计(经验)的回归方程,简单线性回归中估计的回归方程为,其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值,用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程,总体回归参数和是未知的,必需利用样本数据去估计,参数0和1的最小二乘估计,最小二乘法(概念要点),使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,最小二乘法(图示),最小二乘法(和的计算公式),根据最小二乘法的要求,可得求解和的标准方程如下,估计方程的求法(实例),【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程根据和的求解公式得,估计(经验)方程,人均消费金额对人均国民收入的回归方程为,y=54.22286+0.52638x,估计方程的求法(Excel的输出结果),回归方程的显著性检验,离差平方和的分解,因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示,离差平方和的分解(图示),离差平方和的分解(三个平方和的关系),2.两端平方后求和有,从图上看有,SST=SSR+SSE,离差平方和的分解(三个平方和的意义),总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和,样本决定系数(判定系数r2),回归平方和占总离差平方和的比例,反映回归直线的拟合程度取值范围在0,1之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2(r)2,回归方程的显著性检验(线性关系的检验),检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验(检验的步骤),提出假设H0:线性关系不显著,2.计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若FF,拒绝H0;若Ft,拒绝H0;tt=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系,对前例的回归系数进行显著性检验(0.05),回归系数的显著性检验(Excel输出的结果),预测及应用,利用回归方程进行估计和预测,根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计,利用回归方程进行估计和预测(点估计),2.点估计值有y的平均值的点估计y的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值,利用回归方程进行估计和预测(点估计),y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得,利用回归方程进行估计和预测(点估计),y的个别值的点估计,利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计,2.比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得,利用回归方程进行估计和预测(区间估计),点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计预测区间估计,利用回归方程进行估计和预测(置信区间估计),y的平均值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)在1-置信水平下的置信区间为,式中:Sy为估计标准误差,利用回归方程进行估计和预测(置信区间估计:算例),【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为,712.5710.265,人均消费金额95%的置信区间为702.305元722.835元之间,利用回归方程进行估计和预测(预测区间估计),y的个别值的预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间y0在1-置信水平下的预测区间为,利用回归方程进行估计和预测(置预测区间估计:算例),【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为,712.5734.469,人均消费金额95%的预测区间为678.101元747.039元之间,影响区间宽度的因素,1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度(s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的xp与x的差异程度区间宽度随xp与x的差异程度的增大而增大,置信区间、预测区间、回归方程,第三节多元线性回归,一.多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测,多元线性回归模型,多元线性回归模型(概念要点),一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1,x2,xp和误差项的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为,b0,b1,b2,bp是参数是被称为误差项的随机变量y是x1,,x2,xp的线性函数加上误差项说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性,多元线性回归模型(概念要点),对于n组实际观察数据(yi;xi1,,xi2,xip),(i=1,2,n),多元线性回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论