




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章第三章 抽样分布与参数估计抽样分布与参数估计资料分析:统计描述资料分析:统计描述 统计推断:参数估计统计推断:参数估计 假设检验假设检验 进行统计推断即利用样本信息推断总体特进行统计推断即利用样本信息推断总体特 征(抽样研究)征(抽样研究) 第一节第一节 抽样误差抽样误差 一、均数的抽样误差和标准误一、均数的抽样误差和标准误(一)抽样研究的意义:实际工作中,由于存在(一)抽样研究的意义:实际工作中,由于存在无限总体,即使是有限总体,由于受到人力、物无限总体,即使是有限总体,由于受到人力、物力、财力及其他因素的限制,只能通过对样本的力、财力及其他因素的限制,只能通过对样本的研究和分析,推断
2、该样本所在总体的特征。研究和分析,推断该样本所在总体的特征。(二)抽样误差的概念:由于生物界变异普遍存(二)抽样误差的概念:由于生物界变异普遍存在,进行随机抽样时,不可避免地造成样本统计在,进行随机抽样时,不可避免地造成样本统计量与总体参数之间或各样本统计量之间的差别,量与总体参数之间或各样本统计量之间的差别,称为抽样误差。称为抽样误差。抽样误差存在的根本原因:个体差异抽样误差存在的根本原因:个体差异 由于个体差异的普遍存在,所以抽样误差是不由于个体差异的普遍存在,所以抽样误差是不可避免的(但其存在是有规律的),为更加准确可避免的(但其存在是有规律的),为更加准确地通过样本统计量估计其总体参数
3、,就应该寻找地通过样本统计量估计其总体参数,就应该寻找抽样误差的规律,估计抽样误差的大小。抽样误差的规律,估计抽样误差的大小。(三)模拟试验:(三)模拟试验: 中心极限定理:从正态总体中心极限定理:从正态总体N( 2)中以固定中以固定的样本含量的样本含量n随机抽取随机抽取k个样本,该个样本,该k个样本均数也个样本均数也是以原总体均数是以原总体均数 位中心的正态分布;即使原总体是位中心的正态分布;即使原总体是偏态分布总体,当偏态分布总体,当n足够大时(足够大时(n50),),抽取的抽取的k个个样本均数也是以原总体均数样本均数也是以原总体均数 位中心的正态分布。位中心的正态分布。(四)我们所要估计
4、的抽样误差,正是这些服从正(四)我们所要估计的抽样误差,正是这些服从正态分布的均数间的差别,均数之间的差别(变异程态分布的均数间的差别,均数之间的差别(变异程度)也可以用均数的标准差表示,但为了区别前面度)也可以用均数的标准差表示,但为了区别前面的的s,表示均数之间差别的指标称为均数的标准误。表示均数之间差别的指标称为均数的标准误。(五)均数的抽样误差:(五)均数的抽样误差: nXnsSX二、率的抽样误差:二、率的抽样误差:同理,从总体率为同理,从总体率为 的总体中以固定的样本含量的总体中以固定的样本含量n进行进行k次抽样,所得的这些样本率次抽样,所得的这些样本率p往往各不相等,往往各不相等,
5、样本率样本率p和总体率和总体率 也不相等,这种由抽样造成的也不相等,这种由抽样造成的样本率和总体率的差异称为率的抽样误差。样本率和总体率的差异称为率的抽样误差。np)1 (nppsp)1 ( C00.050.10.150.20.250.3-5 -4 -3 -2 -1012345 第二节第二节 t分布和总体均数的估计分布和总体均数的估计 一、一、t分布分布(一)(一)t分布的概念分布的概念1、应用方便,常将正态变量进行变换,即,、应用方便,常将正态变量进行变换,即,可将一般的正态分布变换为标准正态分布。可将一般的正态分布变换为标准正态分布。XuC00.050.10.150.20.250.3-5
6、-4 -3 -2 -1 01 23 45 ),(2N) 1 , 0(N2、又根据中心极限定理,、又根据中心极限定理,即本章第即本章第1节又讲了在节又讲了在正态分布总体正态分布总体 中以固定中以固定n n随机抽样时,样随机抽样时,样本均数本均数 的分布仍服从正态分布。同理,对正的分布仍服从正态分布。同理,对正态变量态变量 进行进行u u变换(变换( )后,也)后,也可将正态分布可将正态分布 变换为标准正态分变换为标准正态分布布 。 ),(2NXXXXu)( ),(2XN)1 ,0(NC00.050.10.150.20.250.3-5 -4 -3 -2 -1012345 C00.050.10.15
7、0.20.250.3-5 -4 -3 -2 -1 0 1 2 3 4 5 ),(2XN)1 ,0(N3、由于实际工作中,、由于实际工作中, 往往是未知的,常用往往是未知的,常用s s作为作为 的估计值,此时不再是统计量的估计值,此时不再是统计量u u,而而是统计量是统计量t t,统计量统计量t t的分布为的分布为t t分布。分布。 nsxsXtXnxXuX)((二)(二)t分布的图形和特征为:分布的图形和特征为:1 1、以、以0 0为中心,左右对称的单峰分布。为中心,左右对称的单峰分布。2 2、t t分布曲线是一簇曲线,其形态变化与自由度的大分布曲线是一簇曲线,其形态变化与自由度的大小有关。自
8、由度越小,小有关。自由度越小,t值越分散,曲线越低平;自由值越分散,曲线越低平;自由度逐渐增大时,则度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布逐渐逼近正态分布(标准正态分布)。当分布)。当 时,时,t分布即为分布即为u分布。分布。 (三)(三)t分布曲线下面积的分布规律分布曲线下面积的分布规律同样,我们最关心的是同样,我们最关心的是t分布曲线下面积的分布规律。分布曲线下面积的分布规律。但由于但由于t分布曲线是一组曲线故分布曲线是一组曲线故t分布曲线下面积为分布曲线下面积为95%和和99%界值不是一个常量,随着自由度的变化,界值不是一个常量,随着自由度的变化,95%或或99%面积的界值
9、发生变化,当面积的界值发生变化,当 时,时,95%和和99%面积对应的界值趋近于面积对应的界值趋近于u值。值。1、t界值表:横标目为自由度,纵标目为概率,一界值表:横标目为自由度,纵标目为概率,一侧尾部面积称为单尾概率,两侧尾部面积之和称双侧尾部面积称为单尾概率,两侧尾部面积之和称双尾概率。其中与单尾概率相对应的尾概率。其中与单尾概率相对应的t界值用界值用 表表示,与双尾概率相对应的示,与双尾概率相对应的t界值用界值用 表示。表示。vt,vt,22、举例、举例例如,单侧例如,单侧 ,表示,表示 时,时, 的概率或的概率或 的概率为的概率为0.05,记作:记作: 或或 。697. 130,05.
10、 0t30v697. 1t697. 1t05. 0)697. 1(tP05. 0)697. 1(tP其通式:其通式:单侧:单侧: 或或双侧:双侧:图中非阴影部分面积的概率为:图中非阴影部分面积的概率为: )(,vttP)(,vttP)()(,2,2vvttPttP1)(,2,2vvtttP3、从、从t值表及值表及t分布曲线可得分布曲线可得(1)在相同自由度时,概率)在相同自由度时,概率P越小,越小,t绝对值越大。绝对值越大。(2)在相同)在相同t值时,双尾概率是单尾概率的两倍。值时,双尾概率是单尾概率的两倍。(3)相同概率时的)相同概率时的t界值,自由度越小,界值,自由度越小,t的绝对值的绝对
11、值 越大。越大。 二、总体均数的估计二、总体均数的估计统计推断:总体均数估计和假设检验统计推断:总体均数估计和假设检验总体均数的估计:点值估计和区间估计总体均数的估计:点值估计和区间估计1、 未知,且未知,且n较小较小1)(,2,2vvtttPXsXt1)(,2,2tsXtPX总体均数的 可信区间:)%1 (100),(,2,2XXstXstX2、 未知, n足够大(n100)总体均数的可信区间为总体均数的可信区间为 , XsuX2()2XsuXnsxsXuX1)(22uuuP1)(22usXuPX3、 已知,按正态分布原理 :1)(22uuuPnxXuX)(1)(22uXuPxXuX2/()
12、2/XuX总体均数的可信区间为总体均数的可信区间为 ,三、可信区间与可信限的区别三、可信区间与可信限的区别 标准差和标准误的区别标准差和标准误的区别 均数的可信区间和医学参考值范围的区别均数的可信区间和医学参考值范围的区别标准差(s) 标准误 计算公式1)(2nXXs nssX (1)表示观察值的变异程度 (1)估计均数的抽样误差的大小 (2)计算变异系数%100XsCV (2)估计总体均数可信区间 ),(,2,2XXstXstX (3)确定医学参考值范围 (3)进行假设检验 (4)计算标准误 第三节第三节 二项分布和总体率的估计二项分布和总体率的估计一、二项分布一、二项分布例例 设小白鼠接受
13、一定剂量的某种毒物时的死亡率为设小白鼠接受一定剂量的某种毒物时的死亡率为80%。若每组各。若每组各用甲乙丙用甲乙丙3只小白鼠逐个做实验,观察每组小白鼠的存亡情况。如果只小白鼠逐个做实验,观察每组小白鼠的存亡情况。如果考虑生、死的顺序时,则有考虑生、死的顺序时,则有8种排列方式;如果不考虑生、死的顺序种排列方式;如果不考虑生、死的顺序只考虑生死的数目时,则有只考虑生死的数目时,则有4种组合方式,如表种组合方式,如表3-4第(第(3)、()、(4)栏所示。栏所示。小白鼠存亡组合方式 排列方式 每种排列的概率 每种组合的概率 生存数(n-X) 死亡数(X) 甲 乙 丙 XnXXnCXP)1 ()(
14、(1) (2) (3) (4) 3 0 生 生 生 0.20.20.2=0.008 008. 0)8 . 01 ()8 . 0()0(03003CP 生 生 死 0.20.20.8=0.032 生 死 生 0.20.80.2=0.032 2 1 死 生 生 0.20.80.2=0.032 096. 0)8 . 01 ()8 . 0() 1 (13113CP 生 死 死 0.20.80.8=0.128 死 生 死 0.80.20.8=0.128 1 2 死 死 生 0.80.80.2=0.128 384. 0)8 . 01 ()8 . 0()2(23223CP 0 3 死 死 死 0.80.80
15、.8=0.512 512. 0)8 . 01 ()8 . 0()3(33333CP 3, 8 . 0n小白鼠存亡组合方式 排列方式 每种排列的概率 每种组合的概率 生存数(n-X) 死亡数(X) 甲 乙 丙 XnXXnCXP)1 ()( (1) (2) (3) (4) 3 0 生 生 生 0.20.20.2=0.008 008. 0) 8 . 01 () 8 . 0 () 0 (03003CP 生 生 死 0.20.20.8=0.032 生 死 生 0.20.80.2=0.032 2 1 死 生 生 0.20.80.2=0.032 096. 0) 8 . 01 () 8 . 0 () 1 (1
16、3113CP 生 死 死 0.20.80.8=0.128 死 生 死 0.80.20.8=0.128 1 2 死 死 生 0.80.80.2=0.128 384. 0) 8 . 01 () 8 . 0 () 2(23223CP 0 3 死 死 死 0.80.80.8=0.512 512. 0) 8 . 01 () 8 . 0 () 3 (33333CP 3只小白鼠存亡的排列和组合方式及其概率的计算只小白鼠存亡的排列和组合方式及其概率的计算 3, 8 . 0n该例题中各种组合的概率恰好等于该二项式展开式的各项,所以将该例题中各种组合的概率恰好等于该二项式展开式的各项,所以将n次这种只具有两种互相
17、对立结果中一种的随机实验成功次数的概次这种只具有两种互相对立结果中一种的随机实验成功次数的概率分布称为二项分布。率分布称为二项分布。nnnnXXnXnnnnnnnCCCC 11222111)1 ()1 ()1 ()1 ()1 ()1(该例题中各种组合的概率恰好等于该二项式展开式该例题中各种组合的概率恰好等于该二项式展开式的各项,所以将的各项,所以将n次这种只具有两种互相对立结果次这种只具有两种互相对立结果中一种的随机实验成功次数的概率分布称为二项分中一种的随机实验成功次数的概率分布称为二项分布。布。3223231131333) 8 . 0() 8 . 0() 8 . 01 () 8 . 0()
18、 8 . 01 () 8 . 01 ( 8 . 0) 8 . 01(CC一、二项分布一、二项分布(一)二项分布的概念(一)二项分布的概念只具有两种互相排斥的可能结果的随机试验,当成功只具有两种互相排斥的可能结果的随机试验,当成功的概率是恒定的,且各次试验互不影响,相互独立,的概率是恒定的,且各次试验互不影响,相互独立,这种试验在统计学上称为贝努里试验。如果进行这种试验在统计学上称为贝努里试验。如果进行n次次贝努里试验,取得成功次数为贝努里试验,取得成功次数为x(x=0,1,2.n)的概的概率服从的分布为二项分布,可用下面公式来计算:率服从的分布为二项分布,可用下面公式来计算:XnXXnCXP)
19、1 ()(XnC:表示在:表示在n n次试验中出现次试验中出现x x次成功的组合数,称之为二项系数次成功的组合数,称之为二项系数 nX(二)应用条件(二)应用条件1、每次试验只具有两种互相排斥的结果之一;、每次试验只具有两种互相排斥的结果之一;2、已知发生某一结果的概率恒定,均为、已知发生某一结果的概率恒定,均为 ;3、n次试验在相同条件下进行,各次试验结果互不影次试验在相同条件下进行,各次试验结果互不影响,相互独立。响,相互独立。(三)二项分布的性质(三)二项分布的性质1、均数和标准差、均数和标准差n)1 (npnp)1 (nppsp)1 ( 2、二项分布的累计概率、二项分布的累计概率从阳性
20、率为从阳性率为 的总体中随机抽取的总体中随机抽取n n个观察单位,则个观察单位,则(1 1)最多有)最多有k k例阳性的概率为例阳性的概率为 (2 2)最少有)最少有k k例阳性的概率为例阳性的概率为 )() 1 ()0()(kPPPkXP) 1(1)() 1()()(kXPnPkPkPkXP3、二项分布的图形 n, 为二项分布的两个参数为二项分布的两个参数(1)当)当 时,图形呈对称分布。时,图形呈对称分布。(2)当)当 且且n n小时,图形呈偏态分布;小时,图形呈偏态分布; 越远离越远离0.5,其分布越偏;随着,其分布越偏;随着n n的增大,其分布的增大,其分布逐渐趋于对称。逐渐趋于对称。
21、5 . 05 . 0二、总体率的估计二、总体率的估计 点值估计点值估计 区间估计区间估计(一)查表法(一)查表法(二)正态近似法(二)正态近似法当样本含量当样本含量n n足够大,且样本率足够大,且样本率p p或或(1-(1-p)p)均不太小,均不太小,如如npnp与与n(1-p)n(1-p)均大于均大于5时,样本率时,样本率p p的抽样分布近似的抽样分布近似正态分布正态分布 ,总体率的可信区间为:总体率的可信区间为: ,psup2/()2/psup pspu1)(22uuuP1)(22uspuPppsup2/()2/psup总体率的可信区间为总体率的可信区间为 , 第四节第四节 Poisson
22、分布和总体平均数的估计分布和总体平均数的估计 一、一、Poisson分布分布(一)一) Poisson分布的概念分布的概念 Poisson分布是一种重要的离散型分布,由法国分布是一种重要的离散型分布,由法国数学家数学家(1837)提出。在医学研究中,常用于研究单提出。在医学研究中,常用于研究单位时间、人群、空间内,某罕见事件发生次数的分布。位时间、人群、空间内,某罕见事件发生次数的分布。 1、模拟试验、模拟试验 设有一箱黄豆,每设有一箱黄豆,每1000个黄豆中有个黄豆中有5个染成红色豆子,个染成红色豆子,红豆的发生率红豆的发生率 =5/1000(用一个缸子,大约可盛(用一个缸子,大约可盛500
23、个豆子),每盛一缸子,看一缸子豆子中红豆的个数。个豆子),每盛一缸子,看一缸子豆子中红豆的个数。在上述模拟试验中在上述模拟试验中 较小,较小, =5/1000( )样本含量样本含量n较大(较大(n=500),),每个缸子中红豆子个数的概每个缸子中红豆子个数的概率率P(0),P(1),P(2),P(n)服从服从Poisson分布。分布。 在实际工作中,在实际工作中,Poisson分布较多地用于研究单位时间、分布较多地用于研究单位时间、单位空间、单位人群,某罕见事件的发生数。例如某细单位空间、单位人群,某罕见事件的发生数。例如某细菌在单位空气和单位水中出现的情况,一定人群中某患菌在单位空气和单位水
24、中出现的情况,一定人群中某患病率很低的非传染性疾病患病数或死亡数的分布等。病率很低的非传染性疾病患病数或死亡数的分布等。05. 03、Poisson分布最初是作为二项分布的一个特例提出来的,在分布最初是作为二项分布的一个特例提出来的,在n较大,较大, 较小时,较小时,Poisson分布是二项分布的极限形式。分布是二项分布的极限形式。举例:据以往经验,新生儿染色体异常率为举例:据以往经验,新生儿染色体异常率为1%,试分别用二,试分别用二项分布和项分布和Poisson分布原理,求分布原理,求100名新生儿中发生名新生儿中发生x例染色体例染色体异常的概率。异常的概率。P (x) x 二 项 分 布
25、P oisson 分 布 ( 1) ( 2) ( 3) 0 0.3660 0.3679 1 0.3697 0.3679 2 0.1849 0.1839 3 0.0610 0.0613 4 0.0149 0.0153 5 0.0029 0.0031 6 0.0005 0.0005 7 0.0001 0.0001 8 0.0000 0.0000 合 计 1.0000 1.0000 xnxxnCxP)1 ()(3660. 0)99. 0 ()01. 0 () 0 (010000100CP3697. 0)99. 0 ()01. 0 () 1 (110011100CP367880. 071828. 2)
26、0(1eP367880.010)0()1 (PP183940.011)1 ()2(PP 所以,当样本含量所以,当样本含量n较大,较大, 较小时,如果较小时,如果某事件发生是完全随机的,则单位时间、单位空间某事件发生是完全随机的,则单位时间、单位空间内,某罕见事件的发生数内,某罕见事件的发生数x可用上述公式求得。可用上述公式求得。2、 Poisson分布的概率分布的概率 为为Poisson分布的总体均数,分布的总体均数,x为单位为单位时间(面积、容积、人群)某事件的发生数。时间(面积、容积、人群)某事件的发生数。 eP)0(XXPXP/) 1()(实际运算递推公式:实际运算递推公式:) !/()
27、(XeXPXn举例:对于举例:对于 (n=10,20,40,100)的的四种情况四种情况按xnxxnCnB)1 (),( 按!)(xexPx x n=1010. 0 n=20 05. 0 n=40 025. 0 n=100 01. 0 1n 0 0.349 0.358 0.363 0.366 0.368 1 0.385 0.377 0.372 0.370 0.368 2 0.194 0.189 0.186 0.185 0.184 3 0.057 0.060 0.060 0.061 0.061 4 0.011 0.013 0.014 0.015 0.015 4 0.004 0.003 0.005
28、 0.003 0.004 1n(二)(二)Poisson分布的应用条件分布的应用条件1、每次试验只具有两种互相排斥的结果之一;、每次试验只具有两种互相排斥的结果之一;2、已知发生某一结果的概率恒定,均为、已知发生某一结果的概率恒定,均为 ;3、n次试验在相同条件下进行,各次试验结果互次试验在相同条件下进行,各次试验结果互不影响,相互独立。不影响,相互独立。4、n很大,很大, 较小(较小( )05. 0注意:注意:1、传染病的发病不符合、传染病的发病不符合Poisson分布分布2、平稳性:、平稳性:x的取值与观察单位的位置无关,的取值与观察单位的位置无关, 只与只与观察单位的大小有关。对于单位时
29、间、单位容积内,观察单位的大小有关。对于单位时间、单位容积内,所观察事物因某原因分布不均匀时,如细菌在牛奶所观察事物因某原因分布不均匀时,如细菌在牛奶中呈集落存在,钉螺在繁殖期呈窝状散布时,均不中呈集落存在,钉螺在繁殖期呈窝状散布时,均不呈呈Poisson分布分布(三)(三)Poisson分布的性质分布的性质1、Poisson分布是一种单参数的离散型分布,其参数分布是一种单参数的离散型分布,其参数为为 ,它表示单位时间、人群、空间内某事件,它表示单位时间、人群、空间内某事件平均发生的次数。平均发生的次数。2 2、PoissonPoisson分布的方差分布的方差 与均数与均数 相等。相等。3 3
30、、对于服从、对于服从Poisson分布的资料,在抽样研究中,样分布的资料,在抽样研究中,样本阳性数(本阳性数(Poisson计数)与总体平均阳性数(简称总计数)与总体平均阳性数(简称总体平均数)的差异称为体平均数)的差异称为Poisson计数的计数的抽样误差抽样误差。衡量。衡量Poisson计数抽样误差大小的指标为标准误计数抽样误差大小的指标为标准误 (理论(理论值),值),实际工作中,由于实际工作中,由于 往往是未知的,可用往往是未知的,可用样样本阳性数本阳性数x x作为的估计值,作为的估计值,计算标准误(计算标准误( )的估计的估计值值 。 2X4、Poisson分布的图形分布的图形 5、Po
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国食品防腐剂替代解决方案与天然原料开发趋势分析报告
- Unit 6 Food Lesson4(教学设计)-人教精通版(2024)英语三年级上册
- 律师咨询方案有哪些
- 零售餐饮服务业预付卡合同样本(全新2025)
- 药盒营销方案
- 零售餐饮服务业预付卡服务条款及条件协议
- 咨询卵巢肿瘤治疗方案
- 2025年造价工程师执业资格考试试卷及答案
- 结晶原理经验总结与指南
- 智能家居环保智能生活规定
- 2025浙江杭州市工会社会工作者招聘工作40人笔试模拟试题及答案解析
- 2025年镇江市中考英语试题卷(含答案及解析)
- 2025年云南省“爱我国防”知识竞赛考试题库150题(含答案)
- 济南生物考试题目及答案
- 2025西安市第五医院招聘(6人)考试参考试题及答案解析
- 《英语(第三版)》课件-Unit 3
- 2025年江西省高考生物试卷真题(含标准答案及解析)
- 2025-2026学年九年级英语上学期第一次月考 (江苏省连云港专用)原卷
- 2025年食品行业市场风险防范策略方案
- 2025年国有企业中层管理岗位竞聘面试技巧与预测题集
- 电动消防排烟窗施工方案
评论
0/150
提交评论