分布与抽样分布.ppt_第1页
分布与抽样分布.ppt_第2页
分布与抽样分布.ppt_第3页
分布与抽样分布.ppt_第4页
分布与抽样分布.ppt_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章分布与抽样分布,第二节抽样分布,第一节概率与概率分布,第三节统计推断,第一节概率与概率分布,一概率,(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。,概率的统计定义在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率(statisticsprobability),或者称后验概率(posteriorprobability),表3-1抛掷一枚硬币发生正面朝上的试验记录,从表3-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P(A)=pm/n(n充分大),(二)概率的性质1、对于任何事件A,有0P(A)1;2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0。,一个总体是由一个随机变量的所有可能取值来构成的,而样本只是这些所有可能取值的一部分,随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,若要全面了解随机变量则必须知道随机变量的全部值和各个值出现的概率,即随机变量的概率分布,概率和概率分布是生命科学研究中由样本推断总体的理论基础,随机变量的种类很多,每一种随机变量都有其特定的概率分布。,连续型随机变量,离散型随机变量,在一定范围内可连续取值的变量。,在一定范围内只取有限种可能的值的变量。,正态分布,二项分布、泊松分布,二概率分布,1.正态分布,正态分布(normaldistribution)的概念是由德国数学家和天文学家Moivre于1733年首次提出的,由德国数学家Gauss率先将其应用于天文学研究,故正态分布又称为Gauss分布(Gaussiandistribution)。,许多生物学领域(如身高、体重、脉搏、血红蛋白、血清总胆固醇等)的随机变量都服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分布基本上都与正态分布有关,它们的极限就是正态分布。,1.1正态分布的定义,在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线性时,往往服从正态分布,频数分布表:,下面我们以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。,频数分布图(又称直方图),从频数表及频数分布图上可得知:该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。,频数分布图二,频数分布图三,正态分布图四,和正态分布相对应的曲线称为正态分布密度曲线,简称为正态曲线。,用来描述正态曲线的函数称为正态分布密度函数,总体平均数,2总体方差,圆周率3.14,总体标准差,任何一个正态分布均由参数和所决定,如果一个随机变量x服从平均数为、方差为2的正态分布,可记为xN(,2)。,e自然对数的底,2.71828,1.2正态分布的特点,(1)正态分布曲线以直线x=为对称轴,左右完全对称,(3)正态分布曲线有两个拐点,拐点座标分别为(-,f(-)和(+,f(+),在这两个拐点处曲线改变方向,即曲线在(-,-)和(+,+)区间上是下凹的,在-,+区间内是上凸的,(2)在x=处,f(x)有最大值,(4)正态分布密度曲线的位置由决定(为位置参数),形状由决定(为形状参数),(5)正态分布曲线向两边无限延伸,以x轴为渐进线,分布从-到+,的大小决定了曲线在x轴上的位置,的大小则决定了曲线的胖瘦程度,当恒定时,愈大,则曲线沿x轴愈向右移动,愈小,曲线沿x轴愈向左移动,越大表示数据越分散,曲线越胖,越小表示数据越集中,曲线越瘦,1.3标准正态分布,正态分布由和所决定,不同的、值就决定了不同的正态分布密度函数,因此在实际计算中很不方便的。需将一般的N(,2)转换为=0,2=1的正态分布。我们称=0,2=1的正态分布为标准正态分布(standardnormaldistribution),可见,由正态分布密度函数,得到标准正态分布密度函数:,1.4正态分布的概率计算,根据概率论原理,可知随机变量x在区间(a,b)内取值的概率是一块面积:,面积由,曲线,所围成的曲边梯形所组成:,随机变量x在(-,+)间取值的概率为1,即:,求随机变量x在某一区段内取值的概率就转化成了求由该区段与相应曲线所围成的曲边梯形的面积。,由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些计算在动物科学或动物医学生产实践中又经常会用到。,最好的解决办法:将正态分布转化为标准正态分布,然后根据标准正态分布表(附表1)直接查出概率值。,(1)标准正态分布的概率计算,附表1列出了在标准正态分布随机变量u在区间(,u内取值的概率:,标准正态分布的概率计算通式,标准正态分布函数表,例1:若uN(0,1),求:,(1),(2),(3),解:,(1),(2),(3),关于标准正态分布,以下几种概率应当熟记:,P(-1u1)=0.6826,P(-2u2)=0.9545,P(-3u3)=0.9973,P(-1.96u1.96)=0.95,P(-2.58u2.58)=0.99,P(u1),u变量在上述区间以外取值的概率,,即两尾概率:,=1-P(-1u1),=1-0.6826=0.3174,P(u2)=1-P(-2u2)=0.0455,P(u3)=1-0.9973=0.0027,P(u1.96)=1-0.95=0.05,P(u2.58)=1-0.99=0.01,(2)正态分布的概率计算,对于服从任意正态分布N(,2)的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布N(0,1)的随机变量,然后查表即可。,实质:为了能使正态分布应用起来更方便一些,可以将x作一变换,令:,变换后的正态分布密度函数为:,标准正态分布均具有=0,2=1的特性,如果随机变量u服从标准正态分布,可记为:uN(0,1),u变换,这个变换称为标准化或u变换,由于x是随机变量,因此u也是随机变量,所得到的随机变量U也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为u分布。可见:,例2:设xN(30,102)试求x40的概率。,解:,首先将正态分布转化为标准正态分布,令:,则u服从标准正态分布,故:,例3:设x服从=30.26,2=5.102的正态分布,试求P(21.64x32.98)。,解:令,则u服从标准正态分布,故=P(-1.69u0.53)=(0.53)-(-1.69)=0.7019-0.04551=0.6564,关于一般正态分布,经常用到以下几个概率:,P(-x+)=0.6826,P(-2x+2)=0.9545,P(-3x+3)=0.9973,P(-1.96x+1.96)=0.95,P(-2.58x+2.58)=0.99,把随机变量x落在平均数加减不同倍数标准差区间之外的概率称为两尾概率(双侧概率),记作。,对应于两尾概率可以求得随机变量x小于-k或大于+k的概率,称为一尾概率(单侧概率),记作2。,0.3173,0.0455,0.0027,0.05,0.01,/2,附表2:,给出了满足,两尾临界值u,因此,可以根据两尾概率,由附表2查出相应的临界值u。,例4:已知uN(0,1),试求u:,(1),(2),解:,(1),(2),2.二项分布,二项分布(binomialdistribution)是一种最常见的、典型的离散型随机变量的概率分布。,有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称为二项总体。,结果“此”用变量1表示,,概率为p,结果“彼”用变量0表示,,概率为q,对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A-中之一,在每次试验中出现A的概率是p(01),(df2),服从t-分布,4.2t-分布的特点,(1)t分布为对称分布,关于t=0对称;只有一个峰,峰值在t=0处;与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平,(2)t分布曲线受自由度df的影响,自由度越小,离散程度越大,(3)t分布的极限是正态分布。df越大,t分布越趋近于标准正态分布,当n30时,t分布与标准正态分布的区别很小;n100时,t分布基本与标准正态分布相同;n时,t分布与标准正态分布完全一致,4.3t-分布的概率计算,附表4给出了t分布的两尾临界值,当左尾和右尾的概率之和为(每侧为/2)时,t分布在横坐标上的临界值的绝对值,记为t,例7:根据附表4查出相应的临界t值:(1)df=9,=0.05;(2)df=9,=0.01,从一个平均数为,方差为2的正态总体中,进行独立地抽样,可获得随机变量x,则其标准离差:,N(0,1),如果连续进行n次独立抽样,可得n个标准正态离差ui,对这n个独立的标准正态离差ui进行平方求和就得到一个新的统计量2:,5.2-分布(不要求),5.12-分布的定义,如果用样本进行计算:,由这些2值所组成的一个分布,就称之为2分布(2distribution),5.22-分布的特点,(1)2分布的取值范围为0,+),无负值,(2)2分布的平均数为:,方差为:,(3)2分布的形状决定于自由度df,当df=1时,曲线呈反J形,随着df的增大,曲线渐趋对称,当df30时,向正态分布渐近,(4)2还可以定义为理论次数与观察次数间的符合程度(离散型变量),O观察次数,E理论次数,5.32-分布的概率计算,附表3给出了2分布的右尾临界值,当右尾概率为时,2分布在横坐标上的临界值的绝对值,记为,例8:根据附表3查出相应的右尾临界2值:(1)df=9,=0.05;(2)df=9,=0.01,如果计算左尾概率为时2分布的临界值,只需查右尾概率为1-的右尾临界值即可。,6.F-分布,6.1F-分布的定义,从一个方差2的正态总体中独立地抽取样本容量分别为n1、n2的两个样本,这两个样本的方差分别为:,则有:,这两个2变量除以各自的自由度后的比值为:,由一系列F值所构成的分布称为F分布(Fdistribution),FF(df1,df2),已计算:,6.2F-分布的特点,(1)F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形状随着df1、df2的增大逐渐趋于对称;,(2)F分布的取值范围是(0,+),其平均数:,6.3F-分布的概率计算,附表5给出了F分布的右尾临界值,当右尾概率为时,2分布在横坐标上的临界值的绝对值,记为F,例9:根据附表5查出相应的右尾临界F值:(1)df1=4,df2=20,=0.05;(2)df1=4,df2=20,=0.01,F0.01(4,20)=4.43,F0.05(4,20)=2.87,第三节统计推断,假设检验,参数估计,1.统计推断:根据样本的观察结果以及样本统计量的抽样分布,对总体的数量特征作出具有一定可靠程度的估计和判断。2.统计推断的基本内容有两个:(1)参数估计(利用样本指标来推断估计未知的总体指标。)(2)假设检验(先对总体参数做一个假设,然后利用样本资料检验这个假设是否成立。),统计推断概述,假设你正在研究平均一个美国人一生中要得到多少交通罚单,报告研究结果的方法有以下两种:“10”或者“8到12之间”,一、参数估计,区间估计:给结论留一些余地。,GudmundR.Iversen,1、点估计,1.用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用样本方差直接作为总体方差的估计2.没有给出估计值接近总体参数程度的信息,2、区间估计,在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95%,(不要求),统计假设检验又称为显著性检验,是生物统计学的核心内容,是统计推断的主要组成部分,统计推断(statisticalinference)就是通过样本特征(统计量)来推断相应总体特征(参数)的方法,参数估计(parametricestimate),通过样本统计量估计总体参数的方法,点估计(pointestimate),区间估计(intervalestimate),直接用样本统计量的数值估计出相应总体参数具体值的方法,在一定的概率保证下(一般为95%或99%),根据样本统计量的分布,计算出总体参数出现的数值范围或区间,用该区间来估计总体参数的方法,参数估计是对总体参数的定量分析,二、假设检验,统计假设检验(hypothesistest),根据某种实际需要,对未知的或不完全知道的总体参数提出一些假设,然后根据样本观测值和统计量的分布,通过一定的计算,再作出在一定概率意义上应当接受哪种假设的方法。,统计假设检验的假设是对总体提出的,由于最后检验的结论只有两种:要比较的总体参数间要么存在显著差异,要么不存在显著差异,统计假设检验是对总体参数的定性分析,1.统计假设检验的意义,以两个平均数之间差异的显著性检验为例,现随机挑选10名中国女性和10名韩国女性,请世界网络知名度大赛评委和观众进行知名度评分,试比较哪个国家女性知名度更高?,9.99,9.85,9.99,9.95,9.98,9.97,9.95,9.95,中国女性的平均得分9.98,韩国女性的平均得分9.91,两个国家女性的平均得分并不相等,其差值(表面效应)为:,根据两个样本平均数的差值0.07,是否可以给两个样本所在总体的总体平均数下这样的结论:,中国女性总体的平均得分高于韩国女性总体的平均得分中国女性比韩国女性知名度更高,如果从经典数学的角度来看,答案应该是肯定,如果从生物统计学的角度来看,在未经过统计假设检验以前,只能说“不一定”,事实上,仅仅凭借样本平均数之差不等于0就得出其所属的总体平均数不相等是不可靠的,实际上,进行试验研究的目的并不在于了解样本的结果,而是要通过样本了解总体,通过样本来推断总体,从而对总体给出一个全面的结论,2.统计假设检验的基本思想与步骤,首先根据具体试验目的提出一个假设,然后在假定该假设成立(或正确)的前提下进行试验,并取得数据,接着对这些资料进行统计分析,获得该假设成立的概率,最后根据所获得的概率值的大小来判断假设是否成立,如果所得概率较大,就表明我们没有足够的理由来否定所作假设,即必须接受这一假设,如果所得概率较小,就表明这一假设不大可能成立,应予否定,从而接受其对立假设,统计假设检验的基本步骤,例3-3:通过以往的大规模调查,已知某地成年黑白花奶牛血液中的白细胞数为52.3,标准差为5.38,现测得10头黑白花牛白细胞数分别为53.6,55.3,46.4,57.2,46.0,43.2,48.1,51.1,49.9,44.5;=49.53。试问这批黑白花奶牛是否来自于某地黑白花奶牛总体?,(1)对所研究的总体提出假设,研究某一随机样本所在的总体(用表示)和一已知总体(用0表示)是否为同一总体,也就是研究这一随机样本是否来自于已知总体,假设:,两个总体为同一个总体(即两个总体的总体平均数相等),无效假设(nullhypothesis),用H0表示,即H0:=0,无效假设的含义:,无效假设就是假设两总体的平均数相等,即H0:,假设样本平均数,与已知总体平均数,由抽样误差引起的,并不是两总体之间的真实差异,两总体之间的差异是由抽样误差所引起的,为了在无效假设被否定后有可以被接受的假设,因此应在设立无效假设的同时设立一个后备假设,备择假设(alternativehypothesis),用HA表示,即HA:,备择假设的统计学意义:,样本所在总体与已知总体不是同一个总体,即两总体的平均数不等,即:,两总体之间的差异,是真实差异,而不是由抽样误差引起的,统计假设检验中完整的假设是:,两总体之间的差异是真实差异,(2)在假定无效假设成立的前提下,研究样本平均数的抽样分布,计算样本平均数出现的概率,样本平均数与总体平均数间有一个实际存在的差值:,这个差值就是表面效应,可能是抽样误差,也可能是真实差异,因此需要借助概率原理来进行判断,第一种方法:计算差值-2.77(或样本平均数)出现的概率,在无效假设成立的前提下,样本所在的总体与已知总体为同一个总体,因此样本所在总体的总体平均数和方差已知,即:,由于总体方差已知,根据标准正态分布就可以计算出差值-2.77出现的概率,0.10.11,标准化:构造统计量正态分布转换为标准正态分布-计算概率,第二种方法:计算样本平均数的接受区间,根据标准化公式计算样本平均数的接受区间:,接受区间,否定区间,接受区间和否定区间是有一定的概率保证的,保证概率为1-,常用的保证概率为95%和99%;为显著水平,常用的显著水平有0.05和0.01,倘若样本平均数落在接受区间内,就接受H0,反之,倘若样本平均数落在接受区间之外,就否定H0,接受HA,作为0.05显著水平上接受或否定无效假设的两个临界值,作为0.01显著水平上接受或否定无效假设的两个临界值,95%的接受区间为:,99%的接受区间为:,(3)根据“小概率事件实际不可能性原理”接受或否定无效假设,小概率事件实际不可能性原理是指在一次试验中,概率很小的事件是不可能出现的,在统计学中,当样本平均数与总体平均数差值出现的概率小于5%时,就认为这种差异由抽样误差引起的概率较小,而是两总体间的真实性差异,从而否定无效假设,差值-2.77出现的概率为0.10.11,大于0.05,概率较大;说明样本平均数与已知总体的总体平均数之间的差异是抽样误差的概率较大,而不大可能是真实差异,接受无效假设,也就是说这批黑白花奶牛是来自于某地黑白花奶牛总体。,总结:统计假设检验的步骤,(1)提出假设,(2)构造、计算检验统计量(转换为方便计算概率,如U,t值等),(3)查附表,根据小概率原理作出接受或者否定无效假设的推断,并结合专业知识作出合理的、科学的解释,例4-2:1995年,已知某地20岁应征男青年的平均身高为168.5cm。2005年在当地20岁应征男青年中随机抽取85人,平均身高为171.2cm,标准差为5.3cm,问2005年当地20岁应征男青年的身高与1995年的是否相同?,解:,(1)提出假设,H0:=168.5,HA:168.5,与1995年相比,2005年当地20岁应征男青年的身高没有变化,与1995年相比,2005年当地20岁应征男青年的身高有变化,(2)计算u值,(3)查表,作出推断,u0.05=1.96,u0.01=2.58,|u|=4.70,2.58=u0.01,,P0.01,根据“小概率事件原理”可以认为无效假设不成立,因此否定无效假设,接受备择假设,样本不是来自于已知总体,即2005年当地20岁应征男青年的身高有变化,比1995年增高了,在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理”,用来确定否定或接受无效假设的概率标准称为显著水平,记作,若|u|u0.05,P0.05,,说明表面效应属于试验误差的可能性大,不能否定无效假设,,两个总体平均数间差异不显著,若u0.05|u|u0.01,P0.05,,说明表面效应属于试验误差的概率P在0.01-0.05之间,表面效应属于试验误差的可能性较小,应否定无效假设,接受备择假设,两个总体平均数间差异显著,标记*,若|u|u0.01,P0.01,,说明表面效应属于试验误差的概率P不超过0.01,表面效应属于试验误差的可能性更小,应否定无效假设,接受备择假设,两个总体平均数间差异极显著,标记*,3.一尾检验和两尾检验,所研究样本的样本平均数,有可能大于已知总体的总体平均数,也有可能小于已知总体的总体平均数,即计算所得的u值可能会落在标准正态分布左边否定区,也有可能会落在右边否定区,既考虑左边否定区又考虑右边否定区即考虑分布曲线两尾的检验称为两尾检验(two-tailedtest),在很多情况下,事先并不知道所抽样本的样本平均数是不是肯定大于总体平均数或肯定小于总体平均数,因此,备择假设HA:0中,有两种可能性存在,既包括0,又包括0,两尾检验是生物统计学中最常用的方法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论