版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 集中量数一、算术平均数集中量:表示数据集中趋势、平均水平、典型水平的特征量。众数和中位数的特点,众数主要与出现次数多少有关;中位数与位置有关,二者都与数据大小无关,实际应用中使用最为频繁的为算术平均数。 平均数 公式:=ix nx 1算术平均数的性质 (1)设=ix nx 1,若y=x+c,则有c x y +=(2)若y=kx,则有x k y = (3)若y=kx+c,则有c x k y += 应用这样的性质可以使运算变得简单更重要的性质 (4)0(. ( (0121=-+-+-=-=x x x x x x x n xxx n x nx n iii即离差之和等于0,但是0 (2-x x
2、 i 。例题:下面为5人的数学成绩,请你计算出x671=x ,772=x ,763=x ,824=x ,685=x直接利用基本公式即可计算得:746882767767(511=+=i x nx原始公式变型:+-=+-=AA x nA A x nx nx ii i (1(11这A 称为假定平均数同上例,根据上例数据情况假定A 70,则+-=7070(51ixx(5)分组数据形式的计算 521. f f f n +=nf f f f f x 343215565758595+=若用i x 表示第i 组的组中值,用i f 表示相应各组的频数,则有=iii ff x x分组数据的平均数大小既与组中值有关
3、,又与各组的频数有关 (6)加权平均数 例: 求平均成绩 这里3ixx332211x Nn x Nn x Nn nn x x iii +=总人数数值总和,其中321n n n N +=例题学生期末总成绩等于70期末(y30平时(x T (期末成绩)7. 03. 07. 03. 0%30%70+=+=y x x y这种情况下,我们把0.3与0.7(反映了与之对应的成绩对总分的贡献)称为权重 若95. 005. 095. 005. 0+=y x T ,则可能学多学生认为缺课没有关系;若6. 04. 06. 04. 0+=y x T ,则学生轻易不会缺课,因为如果平时成绩为0,则这时只有期末成绩得满
4、分,才能及格。因此我们说权重往往具有导向作用。 公式1(2121=+=w w y w x w T1w 与2w 的大小反映了x 与y 对总分的贡献,即说明了x 与y 的相对重要性(反映变量间相对重要性的数值),我们称之为权重。算术平均数实际上是等权处理,为加权平均数的特殊情况。 即 (5. 05. 05. 05. 05. 02y x y x y x T +=+=+=二、几何平均数 例题某校招生,已知第一年招40人,第二年招360人,第三年招1440人,第一年招40人,第三年招1440人,求三年以来年平均增长率为多少? 设年平均增长率为x ,则根据题意列方程为:14401(402=+x解得x=50
5、0%第一年为40人,第二年为360人,第一到第二年增长率为800;同理,第二年到第三年增长率为300,年平均增长率刚才已经求得为500,为什么不是%5502%300%800=+?即用两年增长率的算术平均数表示年平均增长率问题? 以下的推导给出了答案以下为某校5年内招生情况 解:设年平均增长率为x ,根据题意列式得: 第一年:0a第二年: 1(01x a a +=. 第三年: 1(12x a a +=. 第四年: 1(23x a a +=. 第五年: 1(34x a a +=. ×××得4321043211(x a a a a a a a a +=342312014
6、1(a a a a a a a a x =+134231201-=a a a a a a a a x以上公式可以归纳为1134231201-=-nn n a a a a a a a a a a x一般增长率问题经常要用到几何平均数三、众数下列两种数字格式:对于有些数据资料,不能或者不适合用平均数表示,比如,学习态度问题,用1表示赞成;用2表示说不清楚;用3表示反对。 如果甲班学生中一半赞成,一半反对,则平均数为2; 乙班所有同学皆说不清楚。这时,我们说用平均数2不能真实地反映出统计结果,也不能正确地描述事实。本例中,如果因为平均数都为2,即得出两个班级学生都一致持中立态度的结论,则掩盖了问题的
7、本质。又例如,两个不同企业甲和乙甲5名员工工资为200,800,800,800,1400 乙5名员工工资为800,800,800,800,800两者的平均数皆为800,但是我们不能据此得到两个企业的工资实际情况。因为甲企业中工资最高和最低差别非常大,而乙企业员工工资水平非常稳定。由此可以得到,只依赖平均数不能揭示数据的全貌,还需要用其它类型的集中量数 众数:一组数据忠出现频数最多的那个数据的数值称为这组数据的众数。 例1:3、4、5、5、6、7,众数为5对于绝对无重复数据的一组数字:3、4、5、6、7,我们可以说无众数 有两种方法(1)用组中值来代替(2)另一种方法,则可以比较准确地得到众数的
8、理论近似值 计算公式为:i f f f L M+=2120i :组距;L :众数所在组精确下限;2f :众数所在组与上限相邻的的组别的频数;1f :众数所在组下限相邻组的频数本例子中,5. 7510101212700+=M又例,对于多个重复数据来说,比如以下的一组数据,我们想知道它的众数: 3,4,4,4,5,5,5,5,6,6,7,8如果我们按照定义去计算,则得到这里的众数为5,因为它出现的次数最多。但是这里有多个重复数字,我们应该将这组数据转换成分组数据。需要虚构上下限,不妨 d 是5。计算得9. 412325. 40+=M若用其它标准进行分组则会得到不同的众数。比如,上例1若组距改为20
9、 7. 762042020700=+=M这个结论有别于上面例1中得到的结论75.5它不是最敏感的,但是它可以迅速地进行估计。在数据的分布中,分布的最高点为众数,如右图所示。四、中位数将一组数据按照从小到大或从大到小排列之后,位置居中的数,称为这组数据的中位数。 若一组数据从小到大(或从大到小)排列如下1x 、2x n x(1)若n 为奇数,则21+n x 为中位数如数据3,7,10,15,18中位数为10,在它的左右包含了同等个数的数据。中位数只与位置有关,而与其它数据没有关系。(2)若n 为偶数,则2122+nn x x 为中位数(3)另外一种估计中位数的方式是从频数分布上来看,如右图所示,
10、累积频数分布表从小到大,再从大到小,两条累积曲线交点的横坐标即为中位数。 (4)分组数据中位数的计算方法 若一组数据3,3,4,4,5,5,5, 6 ,6,7,8如果按照定义计算,则中位数d M 5 如果分组以后, 中位数的计算公式为i fn NL Md-+=2在这里L :表示众数所在组的下限 i :表示组距N :数据个数(总频数)n :中位数所在组下限以下频数之和 f :中位数所在组的频数按照这个公式,上例的结论为:1144.5153dM -=+=这里只是凑巧数值也是5,事实上,多种情况下,按照定义计算出来的中位数和分组之后的中位数是不同的。第四章 差异量数前面我们讲解了集中量的分析及其之间
11、相互的比较,请大家看一看下面几组数据有什么异同 5名学生的成绩,如果你是校长,想要评价一下这四位教师的教学水平,你会采用什么样的办法来评价? 在上面的表格中,四组学生的平均成绩均为70,即A x =B x =C x =70D x =,这样,只依赖平均成绩就不能区分四组学生的学习成绩情况,也就不好对四位教师的教学质量进行评定。对待四位老师的评定,要取决于评价者不同的价值观:如果以能否出现尖子生为标准,则A 组学生的教师教学水平高;如果以成绩是否稳定来衡量,则A 组学生的教师的教学水平存在着问题,因为出现了两极分化的问题。由上例可以得出这样的结论:仅仅利用集中量不足以反映各组数据的全貌,于是出现了
12、一个代表性问题。如果以70x =代表各组数据的平均水平,显然最后一组数据代表性最好,而第一组数据代表性最差。仅仅利用集中量数本身,看不出代表性的好坏,因此描述一组数据的时候除了利用集中量数以外,还需要用到差异量数。 常用的差异量有:一、全距(极差):max min R x x =-,全距的大小反映了数据组中数据的分布范围,全距越大,对学生的区分程度越好。 二、四分位距(差):311( 2Q Q Q =-三、百分位距由于上述差异量没有涉及到每一个数据,因此不够精确。因此人们考虑到用平均差来描述一组数据的离散程度。设有一组数据1x 、2x n x ,其平均数为x ,根据以前所讲到的平均数的性质,我
13、们有( 0ixx -=,这是因为所有的数据中,有的比平均数大,有的比平均数小,作离差后,有正、有负,出现了正、负抵消的情况,因此,离差之和不能反映出改组数据偏离平均数的程度。为了避免正、负抵消的情况,我们用下面的两个差异量数来描述一组数据的离散情况:四、离差取绝对值,平均差:1d i A x xn=-五、离差平方,方差:221(x ix x n=-标准差:x = 标准差的性质:上面提出的考核四名教师的教学水平的例子中,我们通过计算得到A x =B x =C x =70D x =;A =15.81;B =7.91;C =1.58;D =0,这说明了教师A 所教的学生的成绩分布范围最大,或者说是成
14、绩最不稳定,而教师D 所教的学生的学习成绩最为稳定。 六、相对差异量数例题:A 项目:满分,6分,5个人得分分别为:6、5、5、5、4B 项目:满分,60分,5个人得分分别为:60、50、50、50、40根据上述标准差的性质,我们可以知道,10B A =,但这不能说明B 项目区分程度好于A 项目。一般来说,对于考试来说,标准差越大,区分度越好,但是这要在一定的条件下才可以。 (1)满分相同(2)平均数相差不能过于悬殊 有单位的量数:绝对量数; 没有单位的量数:相对量数由此,标准差、方差等绝对差异量数可以比较两组数据离散程度的大小,但有时需要用相对差异量数来进行比较。以下谈一谈标准差的应用: 标
15、准差的应用差异系数:xCV x=比如上面的两组数据中x A A AC V xx =1010x A B A AC V C V xx =因此说,本质上这两个项目对学生的区分程度是一样的。 差异系数的好处(1)对于具有不同单位的数据组,可以利用差异系数进行比较如:数学90分,语文80分;1美元和8元人民币等等)为了比较,必须要转换成相同的单位。(2)对于平均数差异过于悬殊的数据组,可以通过差异系数来比较两组数据的差异程度 标准差的应用标准分: 标准分:分数的一种; 卷面分:原始分数例题:数学80分,语文90分,二者不能进行比较数学80分,语文80分,二者同样不能比较因为价值不同,所以不能直接进行比较
16、,原始分不能直接相加,因为学科性质不同这同1美元8人民币1000日元不能直接进行运算一样,不能简单相加,必须通过汇率首先统一单位,然后才能进行加法运算。 这里1234M m m m m =+ 则3124123411223344m m m m T x x x x w x w x w x w x MMMM=+=+这里i w 在计算不同币种相加的时候相当于汇率经过加权之后,各国不同单位的数据相当于化成了相同单位,可以进行运算;对于一组数据,除了进行加权,化成可以进行运算的数据的方法,还有别的方法,比如有一组数据1x 、2x n x ,其平均数为x ,标准差为x i x x -说明了某一个数据偏离平均
17、数的距离例如:A 、B 两个物体,长度分别为4A l m=、2B l m =,2A B l l m -=,二者可以进行加、减运算,因为二者单位相同。若以B 物体长度为单位,则A 物体长度为422A Bm l l m=同样,对于数据组1x 、2x n x ,其平均数为x ,标准差为x i x x -说明了某一个数据偏离平均数的距离i xx x-是以标准差为单位,原始数据数值偏离平均数的距离称为标准分记做:i xx xz -=标准分是从原始分数中推导转换以后得到的,又称为导出分,但导出分不一定为标准分(如,也可以为百分等级分)原始分不能比较,但都转换成标准分数后就可以进行比较了。 可以进行大小比较
18、以及进行加、减运算只是我们暂时还不明白它的意义何在,从以上公式我们可以看到,标准分数有正、负之分。第五章 概率及其分布第一节 概率的一般概念对数据的处理过程中,仅仅依赖描述统计是不够的,许多时候我们需要利用已有的信息进行推断。但这种推断往往并不是十分准确,而是总有一定的概率。以下我们讨论概率及其分布,也就是我们从本节课开始进入推断统计内容。 一 、概念 1、试验就是对事物或现象进行的观察或实验。 2、事件观察或实验的结果成为事件 3、随机事件随机现象的结果,称为随机事件4、随机现象必须满足的三个必要条件(1)在相同的条件下试验可以重复进行;(2)每次试验的结果具有多种可能性,而且在试验之前可以
19、明确试验的所有可能结果;(3)在每次试验之前不能准确地预言该次试验将出现哪一种结果。 5、必然事件:一定发生的事件,一定出现的结果,一般用表示。6、不可能事件:一定不会发生的事件,不一定不会出现的结果,一般用表示 7、基本事件:不可分解为两个或两个以上更多事件的事件称为基本事件。例如:投骰子中,观察向上的点数,每观察一次即为一次试验。观察可能有六种结果,分别为“点数为1”、“点数为2”“点数为6”,都成为事件。其中每一个结果都不能再被分解,因此在投骰子的试验中,共有6个基本事件。但是事件“点数为偶数”则可以被分解成“点数为2”、“点数为4”、“点数为6”三个基本事件,因此“点数为偶数”这个事件
20、不是基本事件。8、基本空间:所有基本事件的集合称为基本空间,一般用表示。二、概率事件一般用大写英文字母P 来表示,比如对投掷骰子的每一次观察称为试验,试验的结果称为事件。事件“出现点数4”我们可以用事件A 表示一个事件出现的可能性称为该事件的概率。 一般事件A 出现的概率记作P(A 即P(A表示事件A 出现的可能性。那么如何计算P(A呢?有各种不同的计算公式。 这些公式与人们对概率的定义有关。 1、古典定义( A P A =事件所包含的基本事件数基本空间中所包含的基本事件数例如,投骰子试验中,每一次结果的观察称为一次试验,试验共有六种可能结果,我们成为6个基本事件。我们用“1”表示事件“出现点
21、数1”用“6”表示事件“出现点数6”,则在投骰子试验中,1、2、3、4、5、6;如果用A 表示事件“出现偶数点”则A 2、4、6,31( 62P A =以上古典定义的不足之处,若中基本事件数为无限多,则不能应用以上的定义计算( P A 2、统计定义某n 次随机试验中,事件A 出现m 次则m n为事件A 出现的频率( limx m P A n=,用这种方式定义概率的重要前提是试验必须无限次重复。例如抛硬币,对其正面或是反面哪一面向上的每一次观察都是一次试验,这个试验可以重复进行,只可能有两种结果,试验之前不能预先知道出现哪个结果,因此是随机试验,设共抛硬币n 次,其中正面向上m 次,m n称为正
22、面向上这个事件出现的频率,当我们进行的次数越多,m n的值越接近12,当n 趋向无穷大时,其值即等于12。抛硬币正面向上事件出现的可能性为12是不以人的意志为转移的,频率与概率二者的区别是一个是表面现象,一个是事物的本质,是由事物的本质所决定的。 3、主观概率现实生活中还经常存在另外一种情况的概率,称为主观概率。基于已有的信息由决策者主观判断的一种可能性。例如:考虑到投资问题,如股市、房产,做某些项目取得成功的可能 性有多大,依赖于决策者所掌握的信息,从而作出主观判断,这种现象在现实生活中广泛存在。4、概率的基本性质 (1)0( 1P A ;(2)1 (=P ;( 0P =;(3)可加性(概率
23、的加法);概率加法的最简单的情况为两事件互斥的情况。互斥事件:不可能同时出现的事件称为互斥(互不相容)事件。设A 、B 为两个互不相容事件,则有( ( ( P A B P A P B +=+。这是最简单的加法,这里的A+B也称为A 与B 的并,也可以记作A B . 特别地,对于互斥事件A 与A 有( ( 1P A P A += 由此可知,若A 与B 互斥,则( 1( P A P B =-若A 与B 不是互斥事件,则有概率加法的更一般的公式( ( ( ( P A B P A P B P AB +=+- 例如,某市对该市市民订阅报纸的情况进行了统计,结果是,订阅解放报的占全市人口的20,订阅文汇报
24、的占全市人口的16,同时订阅这两种报纸的占全市人口的8,求至少订阅一种报纸的占全市人口的百分之几? 设事件A 表示“订阅解放报”;事件B 表示“订阅文汇报”。则至少订阅一种报纸这个事件可以表示为A+B,有概率的一般加法公式有( ( ( ( P A B P A P B P AB +=+-20168(4)概率的乘法两个事件除了可以相加,也可以相乘,表示这两个事件同时发生。如“事件A 与事件B 同时发生”这个事件就可以记作事件AB 。以上讨论了在互斥条件下,概率加法法则最为简单,即有( ( ( P A B P A P B +=+。对于两个相乘的事件而言,求它的概率的时候也有最简单时候的公式,这时候对
25、事件A 和事件B 的要求是它们要互相独立。 事件互相独立:如果两个事件发生与否彼此互不影响,则称这两个事件互相独立。 对于两个独立事件A 、B 来说,( ( ( P AB P A P B =,若A 、B 不互相独立,则应该考虑使用条件概率公式。条件概率:事件A 发生条件下事件B 发生的概率称为事件A 发生条件下事件B 发生的概率。记作( P B A 。这时有( ( ( P AB P A P B A =例如,班级中有男生6人,女生27人,现在抽取两名学生,则两人都是男生的概率为多少?设i A 表示抽到男生,i B 表示抽到女生。则12A A 表示两次都抽到男生;12B B 表示两次都抽到女生;1
26、2A B 表示第一次抽到男生,第二次抽到女生;12B A 表示第一次抽到女生,第二次抽到男生。按照上面给出的一般概率乘法公式,我们有1265( 3332P A A =;122726( 3332P B B =;12627( 3332P A B =;12275( 3332P B A =以上的抽取人的方法为不放回抽取,还有另外一种抽取方法叫做放回抽取。还是上面的已知条件,这回是抽取两次,每次都是有放回地抽取,则两次抽取结果互不相关,为独立事件,因此有1266( 3333P A A =我们还可以简单探讨一下互斥与独立的关系。如果A 与B 之间互斥,则二者一定不独立;如果二者不互斥,则可能独立,也可能不
27、独立。 又例种子A 发芽的概率为0.8 ,种子B 发芽的概率为0.7,则在A 、B 两批种子中各取一粒,求两粒种子同时发芽的概率?按照以上的说法,可以得到( 0.80.7P AB =,因为A 与B 两个事件互相独立。 如果求至少有一粒发芽的概率,即求( P A B +,则按照概率加法公式有( ( ( ( P A B P A P B P AB +=+-=0.8+0.70.8×0.7若要计算恰有一粒发芽的概率,则( 1( (P A B AB P A B P AB +=-=10.2×0.30.8×0.7三、概率分布有了概率之后,下面我们来探讨概率分布首先我们要对随机变量
28、进行分类,随机变量分为两类,间断型(离散型)随机变量和连续型随机变量。 例投骰子试验,每一次观察为一次试验,每一个观察的结果称为一次随机事件,我们分别用“1”“6”来表示出现的点数,并统一用X 表示,那么X 为一个随机变量,它的所有取值恰好表示了随机现象的所有可能结果。它的取值有6个,分别为x=1、x=2x=6,对于随机变量X 来说,它有6种取值的可能,这个随机变量是间断的。同样,抛硬币试验,如果记正面向上这个事件为“1”,记反面向上为“2”,并用Y 表示其取值,则Y 为随机变量,它有2种取值的可能,分别为y=1、y=2,变量Y 也为间断型随机变量。若随机变量取值可以是某一区间的值,则这个变量
29、称为连续型随机变量,以下我们分别讨论连续型和离散型随机变量。 1、离散型随机变量的概率分布对于随机变量X 来说,我们针对随机变量X 的每一个取值,列出其对应的概率,这样的表格形式称为随机变量X 的概率分布,X 称为随机变量,P(x称为随机变量X 的概率函数如下表所示 X 2表示有对有错,以X 3X 的概率分布 变量的期望值和期望方差。E(X表示随机变量X 的期望值 例若让我们猜测做100道选择题,完全凭猜测,那么最后可能做对多少道?很多人会回答最有可能做对25道,这25道就是我们对于做对题数的一个期望值。 期望值的数学定义为1( ( nii i E X xp x =例如投骰子试验,611112
30、1( ( 12. 66666i i i E X x p x =+=离散型随机变量的数学期望类似于加权平均数。 随机变量方差的数学定义为 2( ( D X E X E X =-依然以掷骰子为例6221( ( (ii D X E X E X xE x =-=-(i XP 这个公式类似于分组数据方差的计算公式222111(13.5 (23.5 . (63.5 666=-+-+-1(6.252.250.25 22.96=+=1.71= 对于掷骰子而言,最有可能出现的点数为3.5(理论数值),与最可能情况的偏差的标准差为1.7第二节 二项分布上节课我们讨论了离散型随机变量的分布。对于离散型随机变量,若我
31、们能确定其各个取值及其对应的概率,则以表格形式表示出来,即为离散型随机变量的概率分布。在离散型随机变量分布中,有一个重要的分布,二项分布。 一、二项试验凡满足以下条件的试验称为二项试验:(1)一次试验只有两种可能结果,即成功和失败; (2)各次试验相互独立,即各次试验之间互不影响;(3)各次试验中成功的概率相等,各次试验中失败的概率自然也相等。在教育研究中属于二项试验的事例很多。例如,某校男生人数占13,从中抽取4个学生,每抽一个学生相当于做一次试验,共做4次试验,每抽一个学生只有男、女两种可能结果,前一次抽到男或女与后一次抽到男或女没有关系,每次抽到男生的概率都是13。二、二项分布函数一般地
32、,如果一个二项试验中,事件A 发生概率记作p ,不发生概率记作q ,则p+q=1,如果做n 次二项试验,以变量X 表示这n 次二项试验中事件A 发生的次数,则X 为一个随机变量,它有n+1个取值X=0、X=1X n 。它的概率分布函数可以表示为 发现它们正好是下列等式的右侧各项。n 次二项试验中事件A 出现k 次的概率为( k k n k n P X k C p q -= 对于二项分布,我们依然可以考虑它的期望和方差。 可以证明,二项分布的期望( E X np =2( D X pq =n例做100道四选一选择题,完全凭猜测,最有可能答对多少道题?(期望) 做对这些题目的概率有多大?110025
33、4=25752510013(25 44P X C = 第三节 正态分布正态分布最早是由德莫弗(A.de Moivre)于1733年研究二项分布的极限形式时提出的。但是当时没有引起人们的重视。后来,高斯(C.F. Gauss)和拉普拉斯(M.de Laplace)在19世纪初分别重新提起了正态分布。正态分布是统计学中最重要的分布。这是因为,第一,大量的客观现象服从或近似服从正态分布。例如测量的误差、人体的体重和身高、农作物的产量以及学生的考试成绩等等。在教育学和心理学中,一般情况下,心理测验的指标和教育考试成绩往往都服从正态分布;第二,正态分布具有许多良好的数学性质,许多非正态分布以正态分布为极
34、限分布。通过长期研究,人们掌握了标准正态分布函数表,这使得问题更加容易处理了。1、正态分布的基本特点正态分布的概率密度函数为22( 21( ( x f x x -=-<<+ 其中,是圆周率,e 是自然对数的底(约为2.7183),为正态分布的平均数,为正态分布的标准差。我们可以通过高等数学的计算知道,密度函数( f x 满足 x2不同参数和的正态分布密度函数曲 线( 1f x dx +-= ,即有22( 21x dx -+-=我们规定,如果随机变量X 的概率密度函数为22( 2( ( x f x x -=-<<+,我们称X 服从正态分布,记为2(, X N 。响正态分布
35、函数形态的有两个参数,和和2 定曲线的中心位置,2或峭程度。右图给出了三条正态分布密度函数曲线,它们的都是0,则分别为0.5、1 、2。2、一般正态分布转化为标准正态分布一般正态分布函数的密度函数表达式为22( 2( ( x f x x -=-<<+,其中(平均数)及(标准差)决定了该函数的形状。特别地,当0=且1=时,一般正态分布的密度函数表达式将变为221( ( xf x x -=-<<+,这时我们称变量X 服从标准正态分布,记为2(0,1 X N 。当变量服从标准正态分布时候,我们可以查阅标准正态分布表,计算变量介于任意区间的面积(即变量介于该区间的概率) 。但是
36、,许多情况下变量服从于一般正态分布而不是标准正态分布,我们可以采取变换形式,把任意一般正态分布转化为标准正态分布问题进行解决。一般正态分布密度函数为22( 2( ( x f x x -=-<<+,我们采用变换X Z -=,则把该式代入密度函数中得到,22( ( Zf Z Z -=-<<+标准正态曲线的特点是:(1)曲线在Z=0处为最高点;(2)曲线以Z=0为中心,左右对称;(3)曲线从最高点向左右缓慢下降,以横轴为渐近线; (4)标准正态分布的平均数为0,标准差为1; (5)在1Z =±处有拐点;(6)从3Z =-到3Z =±这个区间包括的概率几乎达
37、到1 Z 0标准正态分布表各项内容示意图3、标准正态分布表通过标准正态分布表,可以实现Z 值、面积(概率P )和概率密度(纵线高度Y )之间的互查。标准正态分布表中第一列为Z 值;第二列为Z 值对应的概率密度Y 值;第三列为概率P ,注意,列表中给出的P 本的书中有不同的规定)是指Z 取值为0(0, Z 这个表中的Z 据正态分布曲线左右对称的原理,正值查找Y 值和P 值。另外,由于是连续变量,某个点对应的概率应该是0,所以Z 开区间还是闭区间结果是相同的。 通过查阅标准正态分布表,我们可以得到:3Z =时,0.49865P =,于是,(33 04986520.997P Z -=.2Z =时,0
38、.47725P =,于是,(22 04772520.854P Z -=.1Z =时,34134. 0=P ,于是,(11 03413420.682P Z -=.1.96Z =时,0.475P =,于是,(1.961.96 047520.95P Z -=. 2.58Z =时,0.495P =,于是,(2.582.58 049520.99P Z -=.4、标准正态分布的应用(1)将原是分数转化成标准分数Z 值服从标准正态分布,故在心理测验和教育考试中被称为标准分数。一般来说,心理测验、心理实验、教育考试中直接得到的原始分数都服从或近似服从正态分布,但是原始分数本身不能反映自己在整体中的地位。比如,
39、智力测验得到原始分数为80分,并不能说明被试智力的高低。因为如果全体被试的平均分数为90分,则这位被试智力较低;如果平均分数为70,则这位被试智力较高。例 已知某班期末考试中数学、语文和外语的平均分数和标准差分别为数学:80,10;语文:75,5;外语:85,8。现有两位学生,成绩分别是甲生:数学:85,语文:75,外语77;乙生:数学:70,语文:90,外语75。 试判断哪一位学生总成绩更高些?考试成绩服从正态分布,故可以将两位考生的成绩转换为标准分数如下:甲生:数学:85,85800.510Z -=语文,75,757505Z -= 外语,77,778518Z -=- 甲生原始分数总分为85
40、7577237;标准分数总分为0.5+0+(1 0.5已生:x 数学:70,7080110Z -=- 语文,90,907535Z -= 外语,75,75851.258Z -=- 甲生原始分数总分为709075235;标准分数总分为(1)3(1.25)0.75 从上例可以看出,甲生的原始分数比乙生高,可是标准分数却比乙生低。不过,Z 值往往有小数点,而且有负值,看着很不习惯。所以常常将其进一步转换成T 分数,转换公式为:T=KZ+C这是一种线性转换,转换后得到的T 值仍保持了Z 分数的特征:各科标准分数的单位是绝对等价的。为了进行合理的转换,还要求K 值应大于(至少等于)原始分数的标准差,C 值
41、应大于或等于3倍K 值(普通考试中)或4倍K 值(大规模考试中)。(2)确定录取分数线已知分数线定人数例 N 名学生参加一个大规模考试,考试成绩X 服从2(80,12 X ,求在这次测验中,95分以上有多少人?60分以下有多少人? 当X 95时,95801551.2512124Z -=,P 0.39435,0.50.394=0.1065000×0.106=530(人) 当X 60时,60802051.66712123Z -=-=-,P 0. 452,0.50.452=0.0485000×0.048=240(人)已知录取人数确定分数线例 某校要招聘教师100人,其中有2000
42、人应聘,现在决定以考试的方式进行录取。考试成绩X 服从2(75,8 X ,问100人的录取分数线为多少分?录取率为10010.05200020=0.50.05=0.45查取标准正态分布表中0.45所对应的Z 值,Z 1.65751.658X -=1.6587513.207588.2X =+=+=(3)确定等级评定人数若学生知识能力的水平呈正态分布,拟将之分成等距的几个等级,在确定各等级人数时,可将正态分布基线上Z=3至Z=3之间6个标准差的距离分成相等的几份(因为在3Z =±之间的面积已达0.9973,几乎包括了全体学生),然有利用标准正态分布表求出各段Z 值之间的面积,再乘以学生总
43、人数,即为各等级人数。例 态分布,若某校新生入学时,准备将2000x 力水平分按照从高到底分为A 、B 、C 、D 四个层次进行分层教学实验,则应该如何分层比较科学?如果按照每个层次200÷450人来分层,则实际上把学生的智力水平看作是如图所示的矩形分布来进行的,这样做显然不科学;可以按照以下的方法进行分层。首先把Z=3至Z=3之间6个标准差的距离分成相等的4份,然后利用标准正态分布表分别计算出各段Z 值之间的面积,再乘以200,即可以得到各等级人数。按照这样的想法,可以先查Z 1.5时所对的P 值为0.43,0.50.43=0.07则A 班人数为200×0.0714B 班
44、人数为200×0.4386C 班人数为200×0.4386D 班人数为200×0.0714(4)品质评定数量化有时对某些作品或事物的评定,虽有严格的评定标准,业评定那样,对于答案的正误、优劣有十分明确的界限。如对作文、书法、体操、歌咏等的评定,往往就受到评定者主观因素的影响,对同一作品或事物,不同的评定者会给予不同的评定结果。例如,张、李两位老师以甲、乙、丙、丁、戊五个等级分别对45名学生的书法作业进行评定,由于两位老师的审美观和对评定标准的掌握不完全相同,对于学生A ,张老师给他甲等,而李老师给他丙等;对于学生B ,张老师给他乙等,而李老师给他丙等。在这种情况下
45、,可将两位老师评定的等级分别变成数量化分数,用两位老师所评定的等级数量化分数的平均数来表示一个学生的评定结果。这样,每个学生书法作业成绩就可以相互比较了。等级数量化分数是将两位老师所评定的各等级人数百分比分别作为正态曲线下的面积,再以平分每块面积的Z 值(中位数),作为各等级数量化的分数。例 A 、B 两位评定者对50名学生的口头表达能力作出优、良、中、及格与不及格五个等级的评定。由于评定者掌握的标准不可能完全相同,同一个学生,可能得到两个不同的等级评定。例如,对于学生甲,A 评定为“优”,B 评定为“良”;对于学生乙,A 评定为“良”,B 评定为“优”。那么,学生甲与学生乙究竟哪个口头表达能
46、力强?也许你会说,两位学生都得了一个“优”和一个“良”,平均一下就是介于“优”与“良”之间,所以他们的成绩不相上下。但是,严格地说,五分制是不能计算平均分的。为此,必须研究如何先将五分制成绩转换成标准分数,然后再加以平均。现在假定,A 评定者比较严格,B 评定者比较宽大,他们对50名学生的评定结果分别如表中和图中所示。 A 评定者评定结果示意图不及格x 0.4B 评定者评定结果示意图x将两位评定者的结果比较一下,可以看出,A 评定者比较严格,他评定优等的比例只有10,50个学生只有5个被评为优等。这时,我们要为这10的优等学生赋予一个典型的Z 分数。他们的平均数显然无法求得,于是只好找他们的中
47、位数,也就是说,用一条分界线将他们分为2个5,这条分界线对应的1Z 就是A 评定者评价为“优”的学生典型Z 分数,按照标准正态分布表的查表方法,可以很方便地查到它的Z 值是1.64。反观B 评定者,则显得十分宽厚,竟有40的人被评为“优”,同样办法可以查出相应的Z 值是0.84。可见,他给出“优”的“含金量”比A 评定者差多了。根据同样的思路,我们可以利用正态分布表查出两位评定者其它评定等级所对应的Z 值,如下表所示。 甲学生总分1.64+0=1.64乙学生总分0.84+0.84=1.68这时我们可以得到结论:乙学生的口头表达能力强一些。第六章 假设检验基本原理及总体平均数的显著性检验第一节
48、假设检验的基本原理一、假设检验的概念和基本思路1、假设检验的概念利用样本信息,根据一定的概率,对关于总体参数或分布的假设的正确性作出判断,从而选择拒绝或保留的决断,称为假设检验。假设检验分为参数假设检验和非参数假设检验。参数假设检验是对关于总体参数的假设进行检验。例题根据长期以来的测验得知,某校学生的作文平均成绩为80分,标准差为10分。使用新的教学方法后,从学生中随机抽取50人,计算得到他们的平均成绩为85分,问能否才能够总体上说新旧教学方法的效果有显著差异?这个问题就是有关对总体(使用新的教学方法后该校学生作文成绩的全体)参数(平均数)的假设检验问题。要回答这个问题,首先要强调一点:凡是抽
49、样,就会有误差。50个人的平均分为85X =,比原来总体平均成绩80=分高出5分,这5分有可能是抽样误差造成的。还句话说,这50个人的平均分数是85分,换一个同样是50人的样本,其平均分数或许就是75、76、78、80、81、82,如果真是这样,那就只能说新旧教学方法没有显著差异。但是,如果50个人的平均分数90X =,我们会觉得(事实上也的确如此),这次高出的10分,再单纯地用抽样误差来解释似乎不够了:抽样误差固然可以解释其中的一部分,但是很难解释全部的10分差距。这时,我们不得不说,新旧教学方法的效果还是有显著差异的,以此来解释抽样误差以外的部分差异。以上的推理过程我们称为一种推断过程,如
50、果进一步分析,显然可以分成几个阶段:第一阶段,假设新旧教学方法的效果没有显著差异,成绩差异完全由抽样误差造成;第0.025P =0.025P =二阶段,判断成绩差异的相对大小,评价抽样误差能解释全部成绩差异的可能性;第三阶段,判断第一阶段假设的正确性:如果抽样误差能解释全部的成绩差异,则判定该假设正确,新旧教学方法的效果无显著差异,否则认定该假设错误,应该选择与其相反的假设,即新旧教学方法的效果有显著差异。这一过程可以看成是用直觉经验进行的假设检验。2、假设检验的基本思路假设检验建立在统计量的抽样分布的基础上。以下以总体平均数的假设检验为例,介绍假设检验的基本思路。既然是假设检验,当然要先建立
51、一个假设,然后看是否接受它。正如数学中经常用到的反证法。如求证三角形中最小的角不能大于60 这样一个结论的证明。用反证法证明时,首先要提出假设:最小的角大于60 ,然后获得矛盾:“三角形内角和大于180 ”,最后否定假设,从而肯定结论的正确性。在总体平均数的假设检验中,一般首先假设“X 所代表的总体的平均数与没有显著差异”,或者说“X 是从总体平均数为的总体中抽出的样本平均数”。这个总体是正态分布,因为考试成绩一般来说都是正态分布的。前面平均数抽样分布形态中我们已经探讨过,若总体X 服从正态分布,12(, . n X X X 是抽自该总体的一个简单随机样本,则样本平均数服从正态分布,且22,
52、x x n=即2(, X N n 前面还有关总体参数的区间估计的探讨中我们已经知道,如果有一个平均数为,方差为2的正态总体,从这个总体中抽取容量为n 的样本的平均数随着样本的不同,有的可能高于,有的可能低于,但是围绕着上下波动,而且落在离近的地方的概率大,落在离远的地方的概率小,即这样的平均数实际上构成了以为平均数(分布中心)的正 态分布。且落在区间(1.96/1.96/-+内的概率为0.95,落在这个范围以外的概率为0.05。这里之所以专门提到0.95和0.05,是因为在统计学中,我们一般把发生概率非常小的事件,叫做小概率事件。小概率事件被认为是在一次试验中实际上几乎不可能发生的事件。他有两
53、个标准:概率分别为0.05 和0.01。概率小于0.05而大于0.01的小概率事件,是“几乎不可能发生”的事件;概率小于0.01的小概率事件,是“几乎完全不可能发生”的事件。按照上面的说法,我们就可以说,从一个平均数为,方差为2的正态总体中抽取的容量为n的样本平均数几乎不可能落在(1.96/1.96/-+以外。 那么如果样本平均数落在这个范围之外又怎样呢?统计学上一般这样规定:由于样本平均数有95的可能落在区间之内,因此落在区间之外的可能性只有5,也即落在区间之外是一个小概率事件,被认为在一次试验中几乎是不可能发生的事情。一旦样本平均数落在了这个区间之外,我们只能认为这种事件之所以发生,不是由
54、抽样误差所致,而是由于这个样本所在的总体平均数应该不是,或者说这个样本是从另一个总体中抽出来的。这时,我们说这个样本所在的总体平均数与原来的那个总体平均数有显著区别。 于是,统计学上规定,如果X 落入(1.96/1.96/-+这个区间,就说明这个X 所代表的总体的平均数与没有显著差异;相反,如果X 落 在(1. 96, 1. 9/ -+这个区间以外,就认为X 所代表的总体的平均数与有显著差异。 我们刚才已经先确定了一个假设“X 所代表的总体的平均数与没有显著差异”,或者说“X 是从总体平均数为的总体中抽出的样本平均数” 。现在我们看到,(1.96/1.96/-+这个区间就是接受该假设的区域,称作接受区域;而这个区间以外的区域就是拒绝这个假设的区域,称作拒绝域。 在假设检验过程中,实际的计算过程往往不是计算X 是否落在上述范围中,而是将它转换成Z 值,判断其绝对值是否大于1.96。因为既然样本平均数服从正态分布,我们可以运用公式Z =2(0,1 Z N 。由正态分布的对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工安全操作考试题及答案
- 2026年室内墙面抹灰施工方案
- 2026年事业单位内部控制风险评估报告2篇
- 2026年企业合规管理工作方案
- 2026年药品防潮不当失效演练脚本
- 2026年幼儿园校园周边环境整治工作方案
- 树体调控对光皮树开花结实的影响:技术、效果与机制探究
- 柴胡龙牡汤对小鼠Lewis肺癌的干预效应及机制探究
- 柱芳烃:从分子识别到动态材料构筑的前沿探索
- 柔石小说中民俗的悲剧性叙事与深层意蕴探究
- 24J113-1 内隔墙-轻质条板(一)
- 农行柜面培训课件
- 《矿井通风》课件
- 白鹤滩500千伏配套工程温升改造工程对四川螺髻山省级自然保护区影响评价报告
- 外科学教学课件:颈、腰椎退行性疾病
- 天耀中华合唱简谱大剧院版
- 新生儿危重患者的抢救配合课件
- 房地产户型分析与鉴赏
- 篮球往返绕杆运球教学设计
- 导管相关血流感染预防与控制指南
- 射频连接器与电缆组件
评论
0/150
提交评论