第六章概率分布_第1页
第六章概率分布_第2页
第六章概率分布_第3页
第六章概率分布_第4页
第六章概率分布_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章概率与分布,第一节概率的基本概念,一、概率二、概率的基本性质三、概率分布类型,一、概率,(一)随机现象(二)事件与概率,(一)随机现象,1、确定性现象:在一定条件下事先可以断言必然会发生某种结果的现象。必然现象:在一定条件下必然会发生的现象。不可能现象:在一定条件下必然不会发生的现象。2、随机现象:在一定条件下,事先不能断言会出现哪种结果的现象。随机试验:对随机现象的一次观察。随机试验是研究随机现象的手段。,随机现象的特点,偶然性:一次试验前,不能预言发生哪一种结果。必然性:在相同条件下,进行大量次重复试验,呈现出统计规律性。,随机事件,随机事件:随机现象中出现的各种可能的结果,简称事件。随机事件中有两种极端情况:必然事件和不可能事件。必然事件:某一事件包含随机试验中所有可能的结果。不可能事件:某一事件不包含随机试验中的任何结果。,(二)事件与概率,在N次重复试验中,事件A发生的次数为n,那么n与试验总次数N的比值,称为事件A发生的频率,记作:,那么什么是概率呢?,概率是表明随机事件出现可能性大小的客观指标。概率的两种不同定义:后验概率、先验概率。,1、后验概率,如果把一枚质地均匀的硬币抛出以后,正面向上的概率有多大呢?假定,在n次抛掷(试验)中,硬币正面向上的次数为m,则正面朝上的频率为mn。这个频率不是概率,因为有随机误差的存在。在这n次试验中,可能碰巧正面朝上的情况多一点,在另外的n次试验中,也许正面朝上的情况就少一点。为了减少这种误差,就要加大试验的次数。,抛硬币,随着抛掷次数的不断增加,硬币正面朝上的次数与抛掷总次数的频率越来越趋于稳定在0.5附近,于是0.5就被认定为正面朝上的概率,这个概率称为后验概率。,后验概率,后验概率是在大量试验的基础上建立起来的,假定用A表示一个随机事件,后验概率就是在大量试验中随机事件A出现次数的稳定比率。即:对随机事件进行n次实验,某一事件A出现m次,m与n的比值叫做随机事件A的频率,当n时,随机事件A的频率m/n趋于某一常数P,则这一常数P就是随机事件A发生的概率,即,2、先验概率,在某些条件下,我们不做试验就可以确定随机事件的概率,这种无需进行大量实验的概率就是先验概率,也称古典概率。,古典概型,先验概率涉及的问题都比较简单,例如掷骰子(touzi)、抛硬币等,这些随机现象有两个共同的特点:a、结果数目有限,b、各种结果出现的可能性被认为是相等的。满足这两个条件的模型,称为古典概型。,先验概率的定义,先验概率就是通过古典概型加以定义的。即某一随机事件A的概率为该事件所包含的可能结果个数m与所有可能结果的总数n的比值,即,例题,例6-1,一个箱子里有100个球,其中97个是白色的,3个是红色的,从箱子里任意取出一个球,这个球是红色的概率是多少?例6-2,抛掷硬币3次,问其中一次正面朝上的概率是多大?,二、概率的基本性质,(一)概率的公理系统(二)概率的加法定理(三)概率的乘法定理,(一)概率的公理系统,1、任何一个随机事件A的概率都是非负的。2、在一定条件下必然发生的事件即必然事件的概率为1。3、在一定条件下,必然不发生的事件,即不可能事件的概率为0。0P(A)1,越接近1,事件发生的可能性越大,越接近0,可能性越小,2、3反过来不成立。,(二)概率的加法定理,1、不相容事件:在一次实验中,不可能同时出现的事件。即,则称A与B为互不相容事件。2、加法定理:两个互不相容事件A、B之和的概率,等于这两个事件的概率之和:P(A+B)=P(A)+P(B)。3、推论:有限个互不相容事件和的概率,等于这些事件概率之和。,(三)概率的乘法定理,1、独立事件:一个事件的出现对另一事件的出现不发生影响,则称这两个事件为相互独立事件:。2、相关事件:如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A的出现而改变,则这两个事件为相关事件。3、乘法定理:两个独立事件积的概率,等于这两个事件概率的乘积。即。4、推论:有限个独立事件积的概率,等于这些事件概率的乘积。,例6-3,盒中有6支红粉笔、5支黄粉笔、2支绿粉笔和7支白粉笔。问任意摸得一只红色或绿色粉笔的概率是多少?任意摸得一支红色或黄色或白色粉笔的概率是多少?,例6-4,某专业研究生复试,让考生从6个试题中任意抽取一题进行,若抽到每一题的概率为16,前一考生抽过的试题再放回,后一考生再抽,问2个考生都抽到试题1的概率是多少?,练习,1、掷出一个骰子,计算骰子数字大于3的概率。2、连续抛2枚硬币,计算两次都是正面朝上的概率。,三、概率分布类型,(一)按随机变量取值类型(二)依分布函数的来源来分(三)依据概率分布所描述的数据特征,(一)按随机变量取值类型,1、离散分布:随机变量只取孤立数值的分布。如二项分布、泊松分布、超几何分布。2、连续分布:连续型随机变量的分布。如正态分布、负指数分布、威布尔分布等。,(二)依分布函数的来源来分,1、经验分布:根据观察或实验所获得的数据而编制的次数分布或相对频率分布。经验分布往往是总体的一个样本,它可对所研究的对象给以初步描述,并作为推论总体的依据。2、理论分布:(1)随机变量概率分布的函数数学模型。(2)按某种数学模型计算出的总体的次数分布。,(三)依据概率分布所描述的数据特征,1、基本随机变量分布:理论分布中描述构成总体的基本变量的分布。常用的有二项分布和正态分布。2、抽样分布:样本统计量的理论分布。又称随机变量的函数分布。,第二节正态分布(normaldistribution),正态分布,正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种,是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。正态分布是由棣莫弗1733年发现的。拉普拉斯高斯对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。,一、正态分布特征,(一)正态分布曲线函数(二)正态分布的特征(三)标准正态分布,(一)正态分布曲线函数,为待定参数(即理论平均数和理论标准差),且,则称随机变量X服从正态分布,记作:。影响正态分布函数形态的有两个参数:。决定曲线的中心位置,决定曲线的陡峭程度。,(二)正态分布的特征,1、正态分布的形式是对称的(但对称的不一定是正态的),它的对称轴是经过平均数点的垂线。正态分布中,平均数、中数、众数三者相等。此点y值最大(0.3989)。左右不同间距的y值不同,各相同间距的面积相等,y值也相等。2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端间向靠近基线处无限延伸,但始终不能和基线相交。整条曲线呈现“中间高、两边低”的形状。,(二)正态分布的特征,3、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。正态曲线下每一横坐标所对应的面积与总面积(总面积为1)之比其值等于该部分面积值,故正态曲线下的面积可视为概率,即值为每一横坐标值(加减一定标准差)的随机变量出现的概率。4、正态分布是一族分布。当时的正态分布称为标准正态分布,即作N(0,1)。,(二)正态分布的特征,5、正态分布中各差异量数值相互间有固定比率。6、在正态曲线下,标准差与概率有一定的数量关系。,(三)标准正态分布,当时的正态分布称为标准正态分布,记作N(0,1)。标准正态分布的是确定的,它的位置和形状也都是确定的。标准正态分布在Z0时达到最高点,曲线的拐点为Z1两点。在数理统计中,任何一般的正态分布都可以转化为标准正态分布。若,令,则ZN(0,1)。,标准正态分布的特点,1、Z0处曲线位于最高点。2、曲线以Z0为中心左右对称。3、曲线从最高点向左右缓慢下降,以横轴为渐近线。4、。5、在Z1处有拐点。6、从Z-3到Z3这个区间包括的概率几乎达到1。,二、正态分布表的编制与使用,(一)正态分布表的编制与结构(二)正态分布表的使用,(一)正态分布表的编制与结构,1、第一栏是Z分数单位2、纵高y3、概率值P,(二)正态分布表的使用,1、依据Z分数求概率P。2、从概率(P)求Z分数。3、已知概率P或Z值,求概率密度y。4、将非标准正态分布转化为标准正态分布来查表求值。,1、依据Z分数求概率P,(1)求某Z分数值与平均数(Z0)之间的概率。(2)求某Z分数以上或以下的概率。(3)求两个Z分数之间的概率。,例,设随机变量Z服从标准正态分布,求:P0Z1、P-1Z0PZ0、PZ0、PZ1、PZ1、PZ1P-1Z1、P1Z2、P-2Z1,2、从概率(P)求Z分数,(1)已知从平均数开始的概率值求Z值。(2)已知位于正态分布两端的概率值求该概率值分界点的Z值。(3)若已知正态曲线下中央部分的概率,求Z分数是多少。,例,ZN(0,1),已知下列概率,求Z0。P0ZZ00.45PZZ00.05P-Z0ZZ00.90,3、已知概率或Z值,求概率密度y,例,ZN(0,1),求下列情况下对应的曲线纵高YZ1.93Z=-1.93P0ZZ00.32894,4、将非标准正态分布转化为标准正态分布来查表求值,例,设随机变量X服从平均数为10,标准差为2的正态分布,求:P10X12P9X10PX14,4、将非标准正态分布转化为标准正态分布来查表求值,例,求以下概率:,三、次数分布是否正态的检验方法,检验偏态峰态量数描述方法累加次数曲线法直方图法概率纸法等。,(一)皮尔逊偏态量数法,正偏态:MMdMo;负偏态:MMdMo。偏态量数:。SK0,分布对称;SK0,正偏态;SK0,负偏态。,(二)峰度、偏度检验法,这种方法是根据分析分布的峰度系数与偏度系数,确定分布形态。一般情况下,需要观测数据的数目要足够大,应用这种方法才有意义。1、偏度系数g12、峰度系数g2,1、偏度系数g1,g10,分布对称;g10,正偏态;g10,负偏态。N200时,g1才可靠。,2、峰度系数g2,g20,正态分布的峰度;g20,低阔;g20,高狭。N1000时,g2才可靠。,四、正态分布的一些实际应用,(一)标准分数及其应用(二)利用正态分布,确定录取分数线(三)确定在正态分布下特定分数界限内的考生人数(四)划等级评定为测量数据(五)确定测验题目的难易度(六)在能力分组或等级评定时确定人数(七)测验分数的正态化,(二)利用正态分布,确定录取分数线,在选拔性或竞赛性的考试中,录取或授奖的人数(或比率)往往是事先确定的。若考分呈正态分布,在根据考试结果确定分数线时,可将录取或授奖的人数比率作为正态分布中分数右侧,即上端的面积,由此找出相应标准分数Z值,然后根据,由Z求原始分数X。,例题,例,某项职业录取考试,在参加考试的1600人中准备录取200人,考试分数接近正态分布,平均分数为74,标准差为11,问录取分数线是多少?例,在某年高考的平均分数为500,标准差为100的正态总体中,某考生得到650分。设当年高考录取率为10,问该生的成绩能否入围?,(三)确定在正态分布下特定分数界限内的考生人数,例,某地区某年高考物理科考生4.7万人,平均分为57.08,标准差为18.04。试问:(1)成绩在90分以上有多少人?(2)成绩在80分到90分之间有多少人?(3)成绩60分以下有多少人?,(四)划等级评定为测量数据,例,A、B两位评定者对50名学生的口头表达能力作出优、良、中、及格、不及格五个等级的评定。由于评定者掌握的标准不可能完全相同,同一个学生,可能得到两个不同的等级评定。例如对于学生甲,A评定为“优”,B评定为“良”,对于学生乙,A评定为“良”,B评定为“优”。那么,学生甲与学生乙究竟哪个口头表达能力强?,不相上下?,(1)不同的评定者由于各自的标准不同(2)等级分数界限宽,又不一定是等距尺度,所以不能计算平均分。,解决办法,要将等级评定转化为测量数据,然后求平均。要求:数据必须是正态分布。,转换步骤,(1)根据各等级被评者的数目求各等级的人数比率。(2)求各等级比率值的中间值,作为该等级的中点。(3)求各等级中点以上(或以下)的累加比率。(4)用累加比率查正态表求Z值,该Z值就是各等级代表性的测量值。(5)求被评者所得评定等级的测量数据的算术平均数,即为每个被评定者的综合评定分数。,(五)确定测验题目的难易度,测验题目的难易度一般用答对者的百分数确定。但不是等距尺度,无法比较。办法是转换成难度分数。原理是假设一个测验中不同难易测验题目的分布是正态的,即一个测验中通过率较大和较小的题目很少,而通过率居中的题目较多。转换之后就有理由认为难度分数是等距尺度,不同题目之间的难易差异就可直接比较。,确定题目难易分数的具体步骤,(1)计算各题目的通过率。(2)用0.5减去通过率,不计正负号,获得正态分布表中的概率值。(3)依据P值查正态表中相应的Z值,通过率大于50的Z值计为负值,通过率小于50的Z值计为正值。(4)将查表得到的Z分数加上5,便可得到从010的十进制的难度分数值。,(六)在能力分组或等级评定时确定人数,假定能力是正态分布,这时若将能力分组,分成等距的几个等级,各组人数应是多少?在确定各等级人数时,可将正态分布基线上Z-3至Z+3之间6个标准差的距离分成相等的几份(因为在Z3之间的面积已达到0.9973,几乎包括了全体学生),然后用附表1求出各段Z值间的面积,再乘以学生总人数,即为各等级人数。,例,如果100个人某种能力呈正态分布,欲将其分成甲、乙、丙、丁四个等距的等级,问各等级应有多少人?分为五个等级、六个等级呢?,(七)测验分数的正态化,将样本原始分数分布转换成为正态分布,称作次数分布的正态化。正态化是建立正态标准分数的关键。前提条件:研究对象的总体事实上应该是正态分布。正态化是将原始分数转换成Z分数,但转换后的Z分数往往有小数点,并且有负值,看着很不习惯,所以常常要进一步将其转换成T分数,转换公式为TKZ+C。也就是将标准分数扩大K倍,再移到C这个中心位置来表示分数。转换后得到的T值仍保持了Z分数的特征,是一种标准分数。,进行合理的转换,要求,TKZ+C(1)K值应大于(至少等于)原始分数的标准差;(2)C不应小于3K(一般考试中)或4K(在大规模考试中)。T分数的平均数为C,标准差为K。,几种常见的T分数,1、T分数:T10Z+50。是麦克尔(W.A.McCall,1939年)创用的方法,常被用在心理与教育测验中建立常模。2、离差智商:韦氏量表:IQ15Z+100比奈西蒙量表:IQ16Z+1003、标准九:标准九2Z+54、高考分数:CEEB100Z+500(总分再进行转换),如何将原始分数正态化?,(1)将原始数据整理成次数分布表。(2)计算各分组上限以下的累加次数:cf。(3)计算每组中点的累加次数,即前一组上限以下的累加次数加上该组次数的一半。(4)各组中点以下的累加次数除以总数求累积比率。(5)将各组中点以下累积比率视为正态分布的概率,查正态表,将概率转化为Z分数,这一步是关键。(6)将正态化的Z值利用公式T10Z+50加以直线转化。,第三节二项分布,第三节二项分布,二项分布(binominaldistribution)是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,所以又叫做贝努里分布。二项分布是心理与教育统计中常用的一种基本随机变量分布。,第三节二项分布,一、二项式定理二、二项试验三、二项分布四、二项分布的性质五、二项分布的应用,一、二项式定理,(一)排列与组合(二)二项式定理,问题,从甲、乙、丙3名同学中选出2名参加某天的一项活动,其中1名学生参加上午的活动,1名参加下午的活动,有多少种不同的方法?从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?,1、排列,定义:从n个不同的元素中,任取m个(mn)元素,按一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。(1)当mn,所得排列称为选排列,记作:。(2)当mn时,所得排列称为全排列,记作:。,练习,(1)用1到9这9个数字,可以组成多少个没有重复数字的三位数?(2)有5本不同的书,从中选3本送给3名同学,每人各1本,共有多少种不同的选法?,问题,从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?,2、组合,定义:从n个不同元素中,任取m个(mn)元素,不管顺序,并成一组,称为从n个不同元素中取出m个元素的一个组合,记作。,练习,平面内有10个点,以其中每2个点为端点的线段共有多少条?,(二)二项式定理,公式所表示的定理叫二项式定理,(1)右边的多项式叫做的二项展开式,它一共有n+1项。(2)(r0,1,2,n)叫做二项式系数。(3)p按降幂排列,指数从n逐渐减1直到0;q按升幂排列,指数从0逐渐增1直到n。(4)各项次数和等于二项式次数。(5)(6)当项数为奇数时(二项式的指数n为偶数),中间一项的系数最大;当项数为偶数时(二项式的指数n为奇数),中间两项的系数相等且最大。,二、二项试验,问题:一位心理学家想了解儿童对于某种材料的再认能力。于是他设计了10个记忆项目,先让一个儿童识记,然后进行再认测验。结果,该儿童能够再认5个项目。现在要判断的是,该儿童对于这张材料究竟有没有再认能力?二项试验的问题,什么是二项试验呢?,满足以下条件的试验被称为二项试验(或称贝努里试验):1、任何一次试验恰好有两个结果,“成功”或“失败”,或。(这里的“成功”或“失败”并不是真正意义上的成功或失败,只是说明有两种结果或状态。)2、共有n次试验,并且n是预先给定的任一正整数。3、每次试验各自独立,各次试验之间无相互影响。4、某种结果出现的概率在任何一次试验中都是固定的。即任何一次试验中成功或失败的概率保持相同,成功的概率在第一次为P(A),在第n次试验中也是P(A),但成功与失败的概率可以相等也可以不等。即假设“成功”的概率为p,“失败”的概率为q,则p+q1。5、试验可以在同样的条件下重复进行。,三、二项分布,重复进行n次二项试验,“成功”的次数可以从0到n不等。不同的“成功”次数所对应的概率也可能是不一样的。我们把重复进行n次二项试验后不同“成功”次数的概率分布,称为二项分布。具体定义如下:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q,(q1-p),则对于某事件出现X次(0,1,2,n)的概率分布为:也即次数X服从二项分布,记作:Xb(x,n,p)。,例题,例,抛掷硬币3次,正面朝上的次数分别是0,1,2,3的概率分别是18,38,38,18。例,一个学生完全凭猜测回答2道是非题,答对0,1,2道题的概率是多大?如果是3道是非题呢?,结论,可以说二项分布是用n次方的二项展开式来表达在n次二项试验中成功次数(x=0,1,n)的概率分布。二项展开式的通式就是二项分布函数,运用这一函数就可以直接求出成功事件恰好出现x次的概率。,例题,例,用二项展开式的通式计算一个学生会凭猜测答4道是非题,答对1道题和2道题的概率分别是多大?例,设某班学生英语六级通过率为p0.90,抽取了3个学生,问其中通过英语六级的人数分别为0,1,2,3的概率是多少?通过英语六级的人数在2人及2人以上的概率为多少?,练习,从男生占25的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?至多抽到2个男生的概率是多少?,四、二项分布的性质,(一)二项分布是离散型分布,概率直方图是跃阶式。因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象。1、当pq0.5时,二项分布图形左右对称。2、当pq时,直方图呈偏态,pq与pq的偏斜方向相反。P值偏离0.5越远,图形偏斜程度越大。pq时,向右偏斜正偏态;pq时,向左偏斜,负偏态。3、如果n很大,即使pq,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。当pq且np5或pq且nq5,这时,二项分布就可以当作一个正态分布的近似图形,二项分布的概率可用正态分布的概率作为近似值。,(二)二项分布的平均数和标准差,如果二项分布满足当pq且np5或pq且nq5时,二项分布接近正态分布。这时,二项分布的X变量(即成功的次数)具有如下性质:,即X变量为的正态分布。其中n为独立试验的次数,p为成功事件的概率,q1-p。它们的含义是指在二项试验中,成功次数的平均数,成功次数的离散程度。,验证,假设你在用请人预测从52张抽取大小王之后的扑克牌中抽出的牌的花色来测试人的特异功能(ESP)。在48次试验中,一个人能完全正确地预测14次的概率是多少?,例,一份试卷由50道四选一的选择题(每题1分)组成,考生有把握地回答了其中30题,对剩余的2题只能进行猜测,问这20题的平均得分和标准差分别是多少?,五、二项分布的应用,二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,是指在实验或调查中,实验结果可能是由于猜测而造成的。如果猜对的概率非常大,达到95%或99%,我们就认为他不是猜测的,可能真会。原理:“小概率事件在一次试验中几乎不可能发生”。“小概率事件”:概率不超过0.05的事件当做“小概率事件”。,例题,例,心理学家想了解儿童的再认能力,设计了10个记忆项目,让儿童识记之后再认,问儿童再认出几张,才能认为不是出于猜测因素?例,有10道四择一的选择题,即每题有四个备选答案,其中只有一个是正确的,问答对几题才能说不是猜的结果?,例题,假如你忘记准备一次小测验,因此不得不猜测每一题的答案。这是个有40道题的对错选择题测验。你将完全凭运气至少答对26题的概率是多少?即P(X26)=?,第四节样本分布,第四节样本分布,总体分布:总体内个体观察值的次数分布或概率分布。样本分布:样本内个体观察值的次数分布或概率分布。也即样本统计量的分布,它是统计推论的重要依据。常用的样本分布:平均数的分布、方差的分布。,第四节样本分布,一、正态分布及渐近正态分布二、t分布三、分布四、F分布,统计推论的基础,在科学研究中,一般是通过一个样本进行分析,只有知道了样本统计量的分布规律,才能依据样本对总体进行推论,也才能确定推论正确或错误的概率是多少。要保证各个样本是独立的,各个样本都服从同样的分布。,一、正态分布及渐近正态分布,指样本统计量的分布为正态分布或接近正态分布的两种情况,凡符合这两种情况的分布,都可根据正态分布的概率进行统计推论。(一)样本平均数的分布(总体方差已知)(二)方差及标准差的分布,(一)样本平均数的分布(总体方差已知),所谓样本平均数的分布是指从基本随机变量为正态分布的总体(又称母总体)中,采用放回随机抽样方法,每次从这个总体中抽取大小为n的一个样本,计算出它的平均数,然后将这些个体放回总体去,再次抽取n个个体,又可计算出一个,再将n个个体放回去,再抽取n个个体,这样如此反复,可计算出无限多个,这无限多个平均数的分布是属于什么样的分布呢?就称为样本平均数的分布。,中心极限定理,中心极限定理是统计学中一个极为重要的定理。它包括以下三方面的内容:1、当总体呈正态分布时,从总体中抽取容量为n的一切可能样本的平均数的分布也呈正态分布;不论总体呈什么分布形态,当样本容量足够大时,样本平均数的分布也渐近正态分布。2、从总体中抽取的全部样本平均数的平均数等于总体平均数。即3、从总体中抽取的全部样本平均数的标准差等于总体标准差除以样本容量的算术平方根。即,1、总体分布为正态,总体方差()已知,样本平均数的分布为正态分布。,Z分数,不论母总体的分布还是样本平均数的分布,都可通过求标准分数,将各自的正态分布形态转化为相同的标准正态分布。样本平均数的标准分数,可写作:,2、总体分布非正态,但已知,这时当样本足够大时(n30),其样本平均数的分布为渐近正态分布。,接近正态分布的程度与样本容量n和总体偏斜程度有关。(1)样本n越大,接近得越好。或总体偏态越小,接近程度越好。(2)当偏斜较大时,n越大,才接近正态分布。,(二)方差及标准差的分布,依随机取样的原则,自正态分布的总体中抽取容量为n的样本,当n足够大时(n30),样本方差及标准差的分布,渐趋于正态分布,这时,样本方差和标准差的平均数和标准差与母总体的的关系近似表示如下:,其它正态分布或渐近正态分布,如两个样本平均数之差的分布、相关系数的分布、比率的分布等,二、t分布,t分布(t-distribution)是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特(Gosset)1908年在以笔名“student”发表的一篇论文中推导的一种分布。因此,这种分布有时也叫学生氏分布(studentsdistribution),这种分布是一种左右对称、峰态比较高狭,分布形状随样本容量n-1的变化而变化的一族分布。,所计算的统计量,自由度(degreesoffreedom),自由度(degreesoffreedom)是指任何变量中可以自由变化的数目,是t分布密度函数中的参数,它代表t分布中独立随机变量的数目,故曰自由度。自由度一般用df表示,是指变量在特定条件下能自由变化数据的数目。自由度的取值是由样本容量n减去由资料算出的各统计值受到限制的数目。,(一)t分布的特点,1、平均数为0。2、以平均值0左右对称的分布,左侧t为负值,右侧t为正值。3、变量取值在-+之间。4、与标准正态分布不同的地方:标准正态分布不管样本容量n的大小,分布曲线只有一条,并且曲线形状不随n的大小而变化。而t分布随df的不同而不同,是一组曲线。(1)当n+时,t分布接近正态分布,方差为1;(2)当n-130(或n30)时,t分布接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;(3)当n-130(或n30)时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布图的中间变化而尾部变高。,(二)t分布表的使用(附表2),t分布表由三部分构成:t值、自由度、显著性水平。(1)表的左列为自由度;(2)表的最上一行是某一t值分布在两尾端的概率,即双侧概率;(3)表的最下一行是单侧界限,即某一t值在单侧尾端的概率。,表示方法,双侧概率通常写作:单侧概率写作:,(1)已知自由度和概率P,求相应的t值。,(2)已知t值和自由度,求相应的概率。,(三)样本平均数的分布(总体方差未知),1、总体分布为正态,方差()未知时,样本平均数的分布为t分布,(三)样本平均数的分布(总体方差未知),2、当总体分布为非正态而其方差又未知时,若满足n30这一条件,样本平均数的分布近似为t分布。当n30时,应用正态表计算概率(近似值)或应用t分布表计算概率(较精确值)都可以。只是标准误的计算,要用样本方差来进行。,其它t分布,未知时两样本平均数之差的分布、样本相关系数的分布、回归系数的分布在一定条件下也遵从t分布。,三、分布,(为希腊字母,读音为Chi,读作卡方)分布是抽样分布中应用较多的一种抽样分布。它是刻画正态变量二次型的一种重要分布。设XN(0,1),x1,x2,xn,是来自总体X的样本,则是服从以n为自由度的分布。,可写作,如果正态总体的平均数未知,若用样本平均数作为的估计值时:,(一)分布的特点,1、卡方分布是一个正偏态分布。随每次所抽取的随机变量X的个数(n的大小)不同,其分布曲线的形状不同,n或n-1越小,分布越偏斜。df很大时,接近正态分布,当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论