统计学之数据的特征量与统计分析_第1页
统计学之数据的特征量与统计分析_第2页
统计学之数据的特征量与统计分析_第3页
统计学之数据的特征量与统计分析_第4页
统计学之数据的特征量与统计分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 数据的特征量及统计分析第一节 集中量n 集中量是代表一组数据典型水平或集中趋势(central tendency)的量。n 它能反映频数分布中大量数据向某一点集中的情况。n 常用的集中量有算术平均数 、中位数Md 、众数M0等。一、平均数或算术平均数( mean or arithmetic average )的概念算术平均数是所有观察值的总和除以总频数之商,简称平均数或均数、均值。若以X1,X2,XN表示X变量各个观察值,N表示观察值的个数,则算术平均数可表示为:二、算术平均数的性质1.观察值总和等于算术平均数的N倍。2.在一组观察值中,每个观察值与该组均值之差(离均差)之和等于零。3.在一组数据中,每个数都加上或减去一个常数,所得的平均数为原来的平均数加上或减去此常数。4.在一组数据中,每个数都乘以或除以一个常数,所得的平均数为原来的平均数乘以或除以这个常数。5.如果某一组观察值是由多个部分组成,这组观察值的平均数可由组成部分的平均数求得三、算术平均数的计算方法1.原始数据计算法2.频数分布表计算法可以用频数分布表计算一组数据算术平均数的近似值。公式为:频数分布表计算法3.用假定平均数计算平均数的方法设假定平均数为A,则,用假定平均数计算算术平均数的公式为:四、加权平均数、几何平均数、调和平均数六、算术平均数的优缺点算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏、有公式严密确定、简明易懂、适合代数运算等等,因此是一个最常用的集中量。主要不足:当数据中有极端值时,不宜使用算术平均数。(截尾平均数)当数据不同质时,不宜使用算术平均数。1.截尾平均数:又称修剪平均数(trimmed mean)是从一组数据中去除一定百分比(如5%)的最大值和最小值数据后,再次计算的算术平均数。2.同质:同一种测量工具所测量的某一特质 。七、计算和应用算术平均数的原则同质性原则:算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。二、中位数的计算方法52名学生数学成绩频数分布表三、中位数的特点及应用中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比较容易。中位数不受两端极端数据的影响,但反应不灵敏,也不适合进一步代数运算的要求。一般用于下列情况:一组数据中有极端数据时;资料属于等级性质时。四分位数 四分位数( quartile )( Q1,Q2,Q3)十分位数(decile )( Q1,Q2 Q9 )百分位数(percentile)(PP)四分位数数据: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49Q1 = 15, Q2 = 40, Q3 = 43 四分位数的位置:Q1的位置=(n+1)/4Q2的位置=(n+1)/2 Q3的位置=3(n+1)/4n表示项数:数据: 7, 15, 36, 39, 40, 41 一共6项 Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3.5 Q3的位置=3(6+1)/4=5.25Q1 = 7+(15-7)(1.75-1)=13 Q2 = 36+(39-36)(3.5-3)=37.5Q3 = 40+(41-40)(5.25-5)=40.25百分位数的概念52名学生数学成绩频数分布表计算第70百分位数四分位距的计算方法 1.原始数据计算法2.频数分布表计算法用中位数作集中量时,常用四分位距作差异量。因为它们都属于百分体系。百分位差(百分位距) 百分位距是指两个百分位数之差。常用的百分位距有两种:一是第90百分位数与第10百分位数之差,用P90P10表示。即依一定顺序排列的一组数据中间部位80%个频数的距离。另一个是第93百分位数与第7百分位数之差,用P93P7表示,是一组数据中间部位86%个频数的距离。计算公式:三、方差和标准差方差(variance)又称为变异数,是表示一组数据离散程度的统计指标。一般样本的方差用 或 表示,总体的方差用 表示。 标准差(standard deviation)是方差的算术平方根。一般样本的标准差用 S 或 表示,总体的标准差用 表示。标准差和方差是描述数据离散程度的最常用的差异量。1.方差和标准差的定义2方差和标准差的计算公式1) 原始数据计算法2)频数分布表计算公式52名学生数学成绩方差和标准差计算表标准差的合成某年级四个班的学生人数分别为50人、52人、48人、51人。期末数学考试各班平均成绩分别为90分、85分、88分、92分,标准差分别为6分、5.5分、7分、8.2分。求四个班成绩的总标准差。解:设N1=50, N2=52, N3=48, N4=51例题3-173方差和标准差的应用及优缺点方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算。应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。四相对差异量1.差异系数的概念及计算公式差异系数(coefficient of variation)是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为2.差异系数的作用比较不同单位资料的差异程度 ;比较单位相同而平均数相差较大的两组资料的差异程度可判断特殊差异情况 根据经验,一般CV值常在535之间。如果CV大于35时,可怀疑所求得的平均数是否失去了意义;如果CV小于5时,可怀疑平均数与标准差是否计算有误。比较计量单位不同的数据资料的差异程度上海市区6岁男童体重与身高数据:上海市区两组女童体重的数据: 3.差异系数的应用条件差异系数主要应用于平均数不等于零的连续数据。学科成绩可以勉强计算差异系数。五、偏态量及峰态量偏态量和峰态量是用以描述数据分布特征的统计量。偏态量和峰态量是用以描述数据分布特征的统计量。在考察频数分布是否呈正态分布时,也要用到偏态量和峰态量作为指标。一、偏态量 有两种计算方法:利用算术平均数与众数或中位数的距离来计算当频数分布呈正态时,算术平均数( )、中位数(Md)和众数(Mo)三者合为一点,即 =Md=Mo;当频数分布呈偏态时, 与Md距离较近,而与Mo距离较远。分布呈正偏态时, MdMo;分布呈负偏态时, MdMo。皮尔逊根据他的这一发现,提出了描述数据分布形态的偏态量。其公式为:在这里,SK表示偏态量, 表示算术平均数,Mo表示众数, 表示标准差。当SK=0,则分布呈对称形;当SK,分布呈正偏态,当SK,分布为负偏态。由于Mo具有不稳定、不确定性,常可以用中位数及算术平均数来表示众数。将公式Mo3Md-2 代入上式:二、峰态量用两个百分位距来计算一个频数分布,若平均数周围频数比例越大,分布形态越高狭;若平均数周围频数比例较小,则分布形态越低阔。常用的峰态量是以第75与第25百分位距比上2倍的第90与第10的百分位距。用公式可表示为:当Ku=0.263,分布呈正态峰;Ku0.263,分布呈高狭峰;Ku0.263,分布呈低阔峰。只有当n1000时,所计算出的峰态系数才比较可靠。六、标准分数1.标准分数的定义标准分数是将原始数据与其平均数之差,除以标准差所得的商。标准分数是以标准差为单位衡量某一原始数据与平均数之差的,即刻画了原始分数在平均数以上或以下几个标准差的位置上。实际上,标准分数是无名数(没有单位),是一种相对位置量数。2.标准分数的性质:一组数据的标准分数的平均数为0,即一组数据的标准分数的标准差为1,即3.标准分数的求法一组数据平均数为83,标准差为6.56.求每个数据对应的标准分数4.标准分数的应用1)比较某个学生在不同测验中得分的优劣例:测验一个班级的数学成绩,平均分为80分,标准差为8分,又测验了该班的语文成绩,平均分为70分,标准差为5分。一名学生数学得分81分,语文得分78分。问该生哪一门科目在班上的成绩较好。解:Z数学=(81-80)/8=0.125Z语文=(78-70)/5=1.6故在班级中,该生语文成绩比数学成绩好。2)计算学生的总成绩例:在招生考试中,有甲、乙两个考生各科成绩如下。如果这两个考生只录取一个,请问应该录取哪个考生?第四章推断统计概述本章主要内容:概率论基本知识,几种常见的概率分布,抽样分布的基本原理,参数估计的基本原理假设检验的基本原理第一部分 概率论基本知识 一、概率的定义 二、概率的性质三、概率的加法定理和乘法定理 四、概率分布类型一、概率的定义 1.后验概率(或统计概率) 随机事件的频率当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。2.先验概率(古典概率)古典概率模型要求满足两个条件: 试验的所有可能结果是有限的; 每一种可能结果出现的可能性相等。二概率的性质1任何随机事件的概率都是在0与1之间的正数,即 0 P(A)12不可能事件的概率等于零,即 P(A)= 0 3必然事件的概率等于1,即 P(A)= 1 三概率的加法定理和乘法定理概率的加法定理:若事件发生,则事件就一定不发生,这样的两个事件为互不相容事件。 两互不相容事件和的概率,等于这两个事件概率之和,即概率的乘法定理 若事件发生不影响事件是否发生,这样的两个事件为互相独立事件。 两个互相独立事件积的概率,等于这两个事件概率的乘积,即 例1:某一学生从个试题中任意抽取一题,进行口试。如果抽到每一题的概率为15,则抽到试题或试题的概率是多少? 如果前一个学生把抽过的试题还回后,后一个学生再抽,则个学生都抽到试题1的概率是多少? 计算抽到第一题或第二题的概率应为抽到第一题的概率和抽到第二题的概率之和,即四个学生都抽到第一题即四个学生同时抽到第一题,其概率应为抽到第一题的概率的乘积,即例2:从30个白球和20个黑球共50个球中随机抽取两次(放回抽样),问抽出一个黑球和一个白球的概率是多少? 解:抽出一个白球的概率为35,抽出一个黑球的概率为25。抽出一个黑球和一个白球的情况应包括先抽出一个黑球、后抽出一个白球和先抽出一个白球、后抽出一个黑球两种情况。因此:四、概率分布类型二项分布的概率分布函数 这里, !为阶乘符号,如3!=321,0!定义为1 。二项分布的分布列X012npp0p1p2pn例3:从男生占/的学校中随机抽取个学生,问正好抽到个男生的概率是多少?最多抽到个男生的概率是多少?解:将n=6,p=2/5,q=3/5,X=4,则恰好抽到4个男生的概率为:最多抽到个男生的概率,等于个也没有抽到、抽到个和抽到两个男生的概率之和,即:例设由6个选择题组成的测验,每一题有4个备选答案,其中1个正确,3个错误。如果随机抽答,求抽得正确答案的概率分布。解:p=1/4, q=3/4。需要分别计算抽得正确答案0个、1个、2个、3个、4个、5个、6个,共七个不同事件的概率。这七个事件各自所含可能情况分别有: 做对个数每个事件包含的情况概率0123456二项分布的两个参数 显然对于不同的n、不同的p有不同的二项分布。它们是二项分布的两个参数。 若X服从二项分布,则记XB(n, p)。二项分布的基本特征当p =0.5时,图形对称;当p 0.5时,图形呈偏态,但随n的增大,图形逐渐对称。二项分布的图形图4-1 p=0.5时,不同n值对应的二项分布二项分布的图形图4-2 p=0.3时, 不同n值对应的二项分布二项分布的性质二项分布有如下性质:当p=q时,图形是对称的。当pq时,直方图呈偏态。pq与pq时的偏斜方向相反。3二项分布的平均数和标准差如果二项分布满足pq且 nq5(或者pq且 np5时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。二项分布的平均数为 ,二项分布的标准差为 4二项分布的应用二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中主要用来判断试验结果的机遇性与真实性的界限。例1:一个学生凭猜测做10个是非题,平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢?解:猜对与猜错的概率:p=q=1/2。猜对8的概率为0.044;猜对9题的概率为0.010;猜对10题的概率为0.001;猜对8题以上的概率为:0.044+0.010+0.001=0.055一个学生做10个正误题做对不同题数的概率分布做对题目数出现方式数概率P(X)累积概率010.0010.0011100.0100.0112450.0440.05531200.1170.17242100.2050.37752520.2460.62362100.2050.82871200.1170.9458450.0440.9899100.0100.9991010.0011.000总和10241.0002:一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为13,问:平均能猜对几个学生的成绩?假如规定猜对95,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?解:(1)(2)这个教师至少要猜对5个学生,才有一定的评判能力。二、正态分布正态分布(normal distribution)也称为常态分布,是连续型随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。 正态分布由棣莫弗于1733年发现的。拉普拉斯、高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。1正态分布曲线函数又称概率密度函数(即方程),其一般公式为公式所描述的正态曲线,由和两个参数决定。1正态分布曲线函数将N改为频率,正态曲线形态不变。 XN(m,s2),正态分布图示f(X) X正态曲线的特征关于x=对称。在x=处取得该概率密度函数的最大值,在 处有拐点,表现为钟形曲线。 决定曲线在横轴上的位置, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。 决定曲线的形状,当 恒定时, 越大,数据越分散,曲线越“矮胖”; 越小, 数据越集中,曲线越瘦高。曲线下面积为1。正态曲线下的面积规律正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相等;m-1.64s m+1.64s内面积为90% , m-1.96s m+1.96s内面积为95%;m-2.58s m+2.58s内面积为99%。正态曲线下面积的含义1.曲线下面积是全体数据落入某区间的概率;2.曲线下面积是落入某区间的数据占全体数据的比例。2标准正态分布曲线将标准分数代入正态曲线函数,则公式变换为标准正态分布函数:以为横坐标,以为纵坐标,可绘制标准正态分布曲线。标准正态分布曲线的纵线高度为概率密度,曲线下的面积为概率。3标准正态分布曲线的特点:曲线在处达到最高点曲线以处为中心,双侧对称曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。标准正态分布曲线的平均数为,标准差为。从3至3之间几乎分布着全部数据(99.73%)。曲线的拐点为正负一个标准差处。正态曲线下的面积4.正态曲线的面积与纵线1)累积正态分布函数正态曲线与基线之间某一区间的面积,相当于能在该区间找到个体的概率。曲线下的面积,即累积概率是用积分表示的。累积正态分布函数是:、4.正态曲线的面积与纵线2)标准正态曲线下面积的求法积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。正态分布表的特点: 表中仅列有标准正态曲线下的面积,因此,查表前应先将原始变量转换为。表中列出的数据,是从到右边某一值之间的面积,查表时应注意合理使用。2)标准正态曲线下面积的求法(1)已知Z值求曲线下面积求Z=0至某一Z值之间的面积已知Z0 ,求P(0Z|Z0|)(以下的0、1、2都是下标)求两个Z值之间的面积已知Z1、Z2,求P ( Z1Z Z2 )求某一Z值以上或以下的面积已知Z0 ,求P(Z Z0 )或P(Z Z0 )(2)已知曲线下面积求Z值求Z=0以上或以下某一面积相对应的Z值求与正态曲线上端或下端某一面积相对应的Z值求与正态曲线下中央部位某一面积相对应的Z值3)正态曲线的纵线正态曲线的纵线高度Y是横轴上某一Z值的频率密度(即概率)(1)已知Z值求纵线高度(2)已知面积求纵线高度三、正态分布的应用1以标准分数表示考试成绩 比较学生的考试成绩时,使用原始分数不合理。原始分制度没有提示考生成绩在考生团体成绩中的位置。各科原始分相加不合理。由于各科命题难度不同,导致各科原始分之间不能直接比较,造成分数解释上的困难。采用标准分数,有如下特点:标准分的大小,既表明考生水平的高低,也表明该生在考生团体中的位置的高低。各科标准分都表示考生各科在同一团体中的位置,可根据标准分大小直接比较考生的各科成绩水平。各科标准分的参照点和单位都一样,具有可加性,克服了原始分的缺陷。2确定等级评定的人数如要将某种正态分布的数据分成等距的几个等级,在确定各等级人数时,可将正态分布基线上Z3至Z3之间6个标准差(Z=3之间的面积达0.9973)的距离分成相等的几份,然后查表求出各段Z值之间的面积,再乘以总人数,即为各等级人数。例:若有100人某种能力呈正态分布,欲将其分成五个等距的等级,问各等级应有多少人?解:65=1.2。每个等级应占1.2个标准差的距离。等级各等级界限比率PN应占人数A1.8以上0.03593.594B0.61.80.238423.8424C-0.60.60.451545.4544D-1.8-0.60.238423.8424E-1.8以下0.03593.5953.确定录取分数线例:某项职业录取考试,准备在参加的1600考生中录取200人,考试分数分布接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?解:将200/1600=0.125作为正态分布上端的面积。P=0.5-0.125=0.375,则Z=1.15录取分数线为 4.确定正态分布下特定分数段内的人数或某面积下(或人数)的分数段例1:某地区某年高考物理科考生4.7万,平均分为57.08,标准差为18.04。试问:成绩在90分以上有多少人?成绩在80分到90分之间有多少人?成绩在60分以下有多少人?解:先算出90分、80分、60分的标准分数。例2:某次测验分数为正态分布,其平均分为72分,标准差为6分,问:95%的学生分数落在平均数上下多少分中间?99%的学生分数落在平均数上下多少分中间?解:将95%和99%看作是正态曲线中央部分的面积。则,第三部分 抽样分布的基本原理 三平均数离差统计量的分布2总体正态,未知(不管样本容量大小),或总体非正态,未知,大样本 平均数离差的抽样分布呈t分布t分布的特点形状与正态分布曲线相似t分布曲线随自由度不同而有一簇曲线自由度的计算:自由度是指能够独立变化的数据个数或总体参数估计中变量值能够独立变化的个数。查t分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。有关自由度的其他说明通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。t分布表的查法自由度df,t值和概率(面积或显著性水平)三平均数离差统计量的分布3总体未知,大样本时的近似处理样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理。(注意:此时的分布仍然是t分布)第四部分 参数估计的基本原理根据样本统计量对相应总体参数所作的估计叫作总体参数估计。平均数区间估计的计算总体正态,已知(不管样本容量大小),或总体非正态,已知,大样本平均数离差的的抽样分布呈正态,平均数的置信区间为:=0.05时,总体平均数区间估计为=0.01时,总体平均数区间估计为例题1:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95和99置信区间。解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为=6.25。无论样本容量大小,一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校10岁女童身高总体平均数95和99的置信区间。其标准误为: 当0.95时,1.96因此,该校10岁女童平均身高95的置信区间为:当0.99时,2.58因此,该校10岁女童平均身高99的置信区间为:总体正态,未知(不管样本容量大小),或总体非正态,未知,大样本平均数离差的抽样分布为t分布,平均数的置信区间为:例题2:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95和99的置信区间。解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差未知,样本的容量较小(=1230),t分布接近于正态分布,因此可用正态分布近似处理。样本标准差:当0.95时,1.96因此,该年全部考生作文成绩95的置信区间为:当0.99时,2.58因此,该年全部考生作文成绩99的置信区间为: 总体非正态,小样本 不能进行参数估计,即不能根据样本分布对总体平均数进行估计。第五部分 假设检验的基本原理 利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。1假设假设检验一般有两个互相对立的假设。H0:零假设,或称原假设、虚无假设(null hypothesis)、解消假设;是要检验的对象之间没有差异的假设。H1:备择假设(alternative hypothesis),或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。假设检验进行假设检验时,一般是从零假设出发,以样本与总体无差异的条件计算统计量的值,并分析计算结果在抽样分布上的概率,根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。2小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。当概率足够小时,可以作为从实际可能性上把零假设加以否定的理由。因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。3显著性水平统计学中把拒绝零假设的概率称为显著性水平,用表示。显著性水平也是进行统计推断时,可能犯错误的概率。常用的显著性水平有两个:0.05 和 0.01。( 或其他0.10、0.001等。 )在抽样分布曲线上,显著性水平既可以放在曲线的一端(单侧检验),也可以分在曲线的两端(双侧检验)。正态抽样分布上0.05的三种不同位置双侧检验和单侧检验在确定检验形式时,凡是检验是否与假设的总体一致的假设检验,被分散在概率分布曲线的两端,因此称为双侧检验。双侧检验的假设形式为:H0:0, H1:0 (样本平均数和总体平均数是否有显著差异)凡是检验大于或小于某一特定条件的假设检验,是在概率分布曲线的一端,因此称为单侧检验。单侧检验的假设形式为:H0:0,H1:0(样本平均数是否显著低于总体平均数)或者 H0:0,H1:0(样本平均数是否显著高于总体平均数)4假设检验中的两类错误及其控制对于总体参数的假设检验,有可能犯两种类型的错误,即错误和错误。假设检验中的两类错误当H0为真当H0为假拒绝H0错误正确接受H0正确错误为了将两种错误同时控制在相对最小的程度,研究者往往通过选择适当的显著性水平而对错误进行控制,如0.05或0.01。对错误,则一方面使样本容量增大,另一方面采用合理的检验形式(即单侧检验或双侧检验)来使误差得到控制。5假设检验的基本步骤一个完整的假设检验过程,一般经过四个主要步骤:提出假设选择检验统计量并计算统计量的值确定显著性水平做出统计结论第五章 平均数检验与单因素方差分析总体平均数的显著性检验一总体平均数的显著性检验总体平均数的显著性检验是指对样本平均数与总体平均数之间的差异进行的显著性检验。若检验的结果差异显著,可以认为该样本不是来自当前的总体,而来自另一个、与当前总体存在显著差异的总体。即,该样本与当前的总体不一致。1总体平均数显著性检验的原理检验的思路是:假定研究样本是从平均数为的总体随机抽取的,而目标总体的平均数为0,检验与0之间是否存在差异。如果差异显著,可以认为研究样本的总体不是平均数为0的总体,也就是说,研究样本不是来自平均数为0的总体。 2总体平均数显著性检验的步骤一个完整的假设检验过程,一般经过四个主要步骤:提出假设选择检验统计量并计算统计量的值确定显著性水平做出统计结论提出假设 即根据研究假设提出相应的统计检验的假设。 双侧检验的假设形式为:H0:0, H1:0 单侧检验的假设形式为:H0:0,H1:0 (左侧检验)或者 H0:0,H1:0 (右侧检验)选择检验统计量并计算结果直接应用原始数据检验假设是有困难的,必须借助于根据样本构造出来的统计量,而且针对不同的条件,需要选择不同的检验统计量。各种检验统计量的计算公式都是针对特定条件的,学习中一定要注意把条件与统计量计算公式联系起来。确定显著性水平在假设检验中有可能会犯错误。如果零假设是正确的,却把它当成错误的加以拒绝,就会犯错误。 表示做出统计结论时犯错误的概率,称为显著性水平。显著性水平一般为0.05和0.01。做出统计结论根据已确定的显著性水平,查统计量的分布表,找到该显著性水平时统计量的临界值,并以计算得到的统计量值与查表得到的临界值比较,根据统计决断规则做出拒绝或接受零假设的决定。总体为正态,总体标准差已知平均数的抽样分布服从正态分布,以为检验统计量,其计算公式为:例:某小学历届毕业生汉语拼音测验平均分数为66分,标准差为11.7。现以同样的试题测验应届毕业生(假定应届与历届毕业生条件基本相同),并从中随机抽18份试卷,算得平均分为69分,问该校应届与历届毕业生汉语拼音测验成绩是否一样?检验步骤: 提出假设H0:0,H1:0或 H0:66, H1:66选择检验统计量并计算统计量的值学生汉语拼音成绩可以假定是从正态总体中抽出的随机样本。总体标准差已知,样本统计量的抽样分布服从正态,以Z为检验统计量。计算: 确定显著性水平和检验形式 显著性水平为=0.05,双侧检验做出统计结论查表得Z/2=1.96,而计算得到的Z=1.09|Z|/2,则概率P0.05差异不显著,应在0.05显著性水平接受零假设结论:该校应届毕业生与历届毕业生汉语拼音测验成绩一致,没有显著差异。双侧Z检验统计决断规则Z与临界值比较 P值 显著性 检验结果 Z1.96P0.05不显著保留H0,拒绝H11.96Z2.580.05P0.01显著在0.05显著性水平拒绝H0,接受H1Z2.58P0.01极其显著在0.01显著性水平拒绝H0,接受H1单侧Z检验统计决断规则Z与临界值比较 P值 显著性 检验结果 Z1.65P0.05不显著保留H0,拒绝H11.65Z2.330.05P0.01显著在0.05显著性水平拒绝H0,接受H1Z2.33P0.01极其显著在0.01显著性水平拒绝H0,接受H1例2:某市高中入学考试数学平均分数为68分,标准差为8.6。其中某所中学参加此次考试的46名学生的平均分数为63。过去的资料表明,该校数学成绩低于全市平均水平,问此次考试该校数学平均分数是否仍显著低于全市的平均分数?检验步骤:(1) 提出假设 H0:68 H1:68(2)选择检验统计量并计算其值(3)确定检验形式此次考试该校数学平均分是否明显低于全市平均分,因此要用单侧检验(左侧检验)(4) 统计决断 |Z|=3.942.33,则P0.01。所以在0.01的显著性水平上拒绝H0,接受H1。可以认为该校数学平均分数显著低于全市的平均分数。总体为正态,总体标准差未知,样本容量小于30双侧t检验统计决断规则t与临界值比较 P值 显著性 检验结果 tt(df)0.05/2P0.05不显著保留H0,拒绝H1t(df)0.05/2tt(df)0.01/20.05P0.01显著在0.05显著性水平拒绝H0,接受H1tt(df)0.01/2P0.01极其显著在0.01显著性水平拒绝H0,接受H1单侧t检验统计决断规则t与临界值比较 P值 显著性 检验结果 tt(df)0.05P0.05不显著保留H0,拒绝H1t(df)0.05tt(df)0.010.05P0.01显著在0.05显著性水平拒绝H0,接受H1tt(df)0.01P0.01极其显著在0.01显著性水平拒绝H0,接受H1例1:某区初三英语统一测验平均分数为65,该区某校20份试卷的平均分数为69.8,标准差为9.234。问该校初三年级英语平均分数与全区是否一样?df=20-1=19. t(19)0.05/2=2.093, t(19)0.01/2=2.861例2:某校上一届初一学生自学能力平均分数为38,这一届初一24个学生自学能力平均分数为42,标准差为5.7,假定这一届初一学生的学习条件与上一届相同,试问这一届初一学生的自学能力是否高于上一届?df=24-1=23, t(23)0.05=1.714, t(23)0.01=2.500总体标准差未知,样本容量大于30平均数的抽样分布服从t分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z代替t近似处理,计算公式为:例3:某年高考某市数学平均分数为60,现从参加此次考试的文科学生中,随机抽取94份试卷,算得平均分数为58,标准差为9.2,问文科学生的数学成绩与全市考生是否相同?-2.11 总体非正态,小样本不能对总体平均数进行显著性检验。总体平均数的显著性检验平均数差异的显著性检验一、平均数差异的显著性检验的各种情况1.相关样本平均数差异的显著性检验(不要求总体标准差或总体方差2是否相等)(1)配对组(2)同一组(总体方差已知,统计量服从Z分布,总体方差未知,统计量服从df=n-1的t分布;当为大样本,可以为近似Z分布)2.独立样本平均数差异的显著性检验(1)独立大样本a.两总体方差已知(统计量服从Z分布)b.两总体方差未知(不管总体方差或总体标准差是否相等,统计量服从Z分布)(2)独立小样本a.两总体方差相等(统计量服从df=n1+n2-2的t分布)b.两总体方差不等(统计量服从t分布,临界值需另算)二、相关样本平均数差异的显著性检验 两样本相关的判断 两个样本的数据之间存在着一一对应的关系时,称两样本为相关样本。 常见的情形主要包括三种: 一是同一组被试在前后两次在同一类测验上的结果; 二是同一组被试分别接受两种不同实验的测验结果; 三是按条件相同的原则选择的配对实验结果。例1:为了揭示小学二年级的两种识字教学法是否有显著性差异,根据学生的智力水平、努力程度、识字量多少、家庭辅导力量等条件基本相同的原则,选择了10对学生,然后把每对学生随机地分入实验组和对照组。实验组施以分散识字教学法,而对照组施以集中识字教学法。后期统一测验结果实验组平均成绩为79.5,标准差为9.124;对照组平均成绩为71.0,标准差为9.940,两个组成绩的相关系数为0.704。问两种识字教学法的教学效果是否有显著差异?两种识字教学法教学效果差异检验计算表序号实验组X1对照组X2D=X1-X212345678910937291658177898473707674805263628285647217-211131815 7-1 9-2289 4121169324225 49 1 81 4总和795710851267解题过程:1提出假设 H0:1=2 H1: 12 2选择检验统计量并计算:两种识字教学法的测验得分假定是从两个正态总体中随机抽出的样本,它们差数的总体也呈正态分布。两总体标准差未知,因此平均数之差的抽样分布服从t分布,应以t为检验统计量。3.确定检验形式 双侧检验4.统计决断查df=n-1=10-1=9的t分布(双侧检验),得:t=3.459小学分散识字与集中识字教学法有极其显著的差异。例2:32人的射击小组经过三天集中训练,训练后与训练前测验分数分别为:训练前平均成绩为44.156,标准差为13.650;训练后平均成绩为46.594,标准差为13.795。两组成绩相关系数为0.884,问三天集中训练有无显著效果?(根据过去的资料得知,三天集中射击训练有显著效果)解题过程:1提出假设 H0:12 H1: 12 ( 1为训练前, 2 为训练后)2选择检验统计量并计算训练前后的射击成绩假定是从两个正态总体中随机抽出的相关样本, 两总体标准差未知,平均数之差的抽样分布服从t分布,但两样本容量大于30,因此可以代替t为近似处理。3.确定检验形式 单侧检验(过去资料表明三天射击训练有效果)4.统计决断 单侧检验时0.05=1.65,0.01=2.33 1.65|Z|=2.0532.33在0.05的显著性水平上拒绝原假设,接受备择假设。 可以认为三天的射击训练有显著效果两总体总体方差已知时,计算的统计量为:例3:某幼儿园在儿童入园时对49名儿童进行了比奈智力测验(=16),结果平均智商为106。一年后再对同组被试施测,结果平均智商分数为110。已知两次测验结果的相关系数为r=0.74,问能否说随着年龄的增长和一年的教育,儿童智商有了显著提高?解:1.提出假设: H0:12 H1: 12 2.选择检验统计量并计算正常儿童的智力测验结果,可以认为是从正态总体中随机抽出的样本。总体标准差已知,而同一组被试前后两次的测验成绩,属于相关样本。因此平均数之差的抽样分布服从正态分布,应选用作检验统计量,并选择相关样本、总体标准差已知的计算公式。3.确定检验形式 单侧检验4.统计决断 单侧检验时0.05=1.65,0.01=2.33 而计算得到的=-2.34|Z|0.0,则概率P0.01在0.01的显著性水平上拒绝H0,接受H1。结论:可以说随着年龄的增长和一年的教育,儿童智商有了显著提高。三、独立样本平均数差异的显著性检验1.独立大样本 两总体方差已知,计算的统计量为:例1:在参加了全国统一考试后,且已知考生成绩服从正态分布。在甲省抽取153名考生,得到平均分为57.41分,且该省总体标准差为5.77分;在乙省抽取了686名考生,得到平均分为55.95,该省的总体标准差为5.17分。问两省在该次考试中,平均分是否有显著差异?(取=0.01)解:已知: 提出假设 H0:12 H1: 12 计算统计量:确定检验形式 双侧检验统计决断 双侧检验时,Z0.01/2=2.58 Z=2.88 Z0.01/2=2.58,P0.01.可以认为,两省考生的平均成绩有极其显著的差异。三、独立样本平均数差异的显著性检验1.独立大样本两总体方差未知,计算的统计量为:例2:为了比较独生子女和非独生子女在学习方面的差异,随机抽取独生子女135人,非独生子女98人,然后统一进行智力测验,结果独生子女平均分为60.6分,标准差为6分;非独生子女平均分为59.8,标准差为10.2分。问独生子女和非独生子女在智力方面是否存在显著差异?(取=0.05)解:已知提出假设 H0:12 H1: 12 计算统计量:确定检验形式双侧检验统计决断双侧检验时,Z0.05/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论