第五节率的抽样误差_第1页
第五节率的抽样误差_第2页
第五节率的抽样误差_第3页
第五节率的抽样误差_第4页
第五节率的抽样误差_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第五节率的抽样误差一、率的抽样误差与标准误

在同一个总体中随机抽取含量相同的若干个样本,各样本率之间往往是不同的,且与总体率之间也有一定的误差,这种由于抽样所造成的样本率之间及样本率与总体率之间的差别称为率的抽样误差。率的抽样误差大小可由率的标准误来衡量。当π与n已知时,率的标准误由下式计算:如果总体率π未知,用样本率p估计二、总体率的估计1.点估计:类似于样本均数的点估计,直接用样本p去估计相应的总体率,即。

2.区间估计:(1)查表法:(2)正态近似法:

(1)查表法:对于n≦50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可得到其总体率的可信区间。

例6-2在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。

本例n=13,X=6。查附表6,取0.05时,在n=13(横行)与X=6(纵列)的交叉处数值为19~75,即该吻合术妇女受孕率的95%可信区间为(19%,75%)。

附表6只列出

的部分。当

时,可先按“阴性”数n-X查得总体阴性率的1-α可信区间QL~QU,再用下面的公式转换成所需的阳性率的1-α可信区间:

PL=1-QU,PU=1-QL

(2)正态近似法:当n足够大,且np与n(1-p)均大于5时,p的抽样分布就近似正态分布,可按下式计算总体率100(1-α)%的可信区间

例6-3在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者100人,发现55人有效,试据此估计该药物治疗有效率的95%可信区间。三、大样本率的假设检验

率的分布服从于二项分布。当n较大,且率不接近于0和1时,二项分布近似服从正态分布。因此,两个大样本率的比较可采用u检验。率的u检验的应用条件为:

1.n较大,如每组例数大于60例;

2.样本p或1-p均不接近于100%和0%;

3.np和n(1-p)均大于5。一、单样本率的u检验也称样本率与总体率比较的u检验。样本率(p)与总体率(π0)比较的目的是推断样本所来自总体的总体率(π)与已知总体的总体率(π0)是否相同。其基本原理是在无效假设H0:π=π0和大样本的条件下,样本率p近似地服从于均数为π0,方差为σ2的正态分布。因此,统计量u值的计算公式为:

例6-6对某疾病采用常规治疗,其治愈率为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法是否比常规疗法的效果好?解:1.建立假设,确定检验水准。

H0:π=45%(新治疗方法和常规疗法效果相同)

H1:π>45%(新治疗方法比常规疗法效果好)单侧检验,α=0.05。2.用公式计算检验统计量u值。本例n=180,p=117/180=0.65

3.确定P值,做出结论。单侧界值u0.01=2.33,现

|u|>u0.01,故P<0.01,按α=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为新治疗方法比常规疗法的效果好。

二、两个率比较的u检验对两个样本率(p1和p2)进行检验的目的是推断两个总体率(π1和π2)是否不同。其基本原理与两样本均数u检验类同,在无效假设H0:π1=π2和大样本的条件下,两样本率的差值(p1-p2)近似服从均数为π1-π2=0,方差为的正态分布。因此,两样本率u检验的计算公式为:

例6-7为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。解:1.建立假设,确定检验水准。

H0:π1=π2(男女颈椎病发病率相等)

H1:π1≠π2(男女颈椎病发病率不等)

α=0.05。2.计算检验统计量u值。已知:

n1=120,X1=36,p1=X1/n1=36/120=0.30n2=110,X2=22,p2=X2/n2=22/110=0.20

代入公式得:

3.确定P值,做出结论。u0.05/2=1.96,现|u|<u0.05/2,故P>0.05,按α=0.05检验水准接受H0,差异无统计学意义,尚不能认为男女颈椎病发病率有差别。

Chi-squareTest第七章

χ2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,此方法以χ2分布为理论依据,可用于两个或多个率(构成比)间的比较、计数资料的关联度分析、拟合优度检验等等。

c2分布是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。c2分布的形状依赖于自由度的大小:

(1)当自由度小于等于2时,曲线呈L形;

(2)随着自由度的增大,曲线逐渐趋于对称;

(3)当自由度趋向于无穷大时,c2分布趋向正态分布。

χ2分布(chi-squaredistribution)图7-1不同自由度的χ2分布曲线图c2分布具有可加性:

如果两个独立的随机变量X1和X2分别服从自由度n1和n2的χ2分布,那么它们的和X1+X2就服从自由度为n1+n2的χ2分布。

χ2分布分位数:

当自由度n确定后,χ2分布曲线下右侧尾部的面积为α时,横轴上相应的χ2值记作

,即χ2分布的分位数。χ2分布规律自由度一定时,P值越小,χ2值越大。当P

值一定时,自由度越大,χ2越大。

u=1时,P=0.05,χ2=3.84

P=0.01,χ2=6.63

P=0.05时,u=1,χ2=3.84

u=2,χ2=5.99

目的:推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较两个分类变量之间有无关联性频数分布拟合优度的检验。

检验统计量:应用:计数资料总体率(或构成比)的假设检验当两个样本率不同时,有两种可能:1.P1,P2所代表的总体率相同,由于抽样误差的存在,造成的不同,这种差别在统计上叫差别无统计学意义。

2.P1,P2所代表的总体率不同,即两个样本来不同的总体,其差别有统计学意义。假设检验的目的就是要用统计学的方法判断差别到底属于那种情况。两组或多组率比较卡方检验数据的整理格式

行(Row)×列(Column)表比较组分类指标(X)合计数阳性数阴性数甲组A11A12n1乙组A21A22n2合计A11+A21A12+A22nA:表示某组某分类的例数(频数)表100例高血压患者治疗后临床记录编号年龄性别治疗组舒张压体温疗效

X1

X2

X3

X4X5

X6137男A11.2737.5有效

245女B12.5337.0无效

343男A10.9336.5有效

459女B14.6737.8无效。10054男B16.8037.6无效两组药物对高血压患者治疗的疗效

疗效(X)比较组有效人数无效人数合计有效率%A组20204050B组25356042

问:两药对高血压的疗效是否不同?将原始数据整理成计数资料的频数表第一节四格表资料的检验c2

目的:推断两个总体率(构成比)是否有差别(和u检验等价)要求:两样本的两分类个体数排列成四格表资料

例7-1某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?

表7-1两组降低颅内压有效率的比较组别有效无效合计有效率(%)试验组99510495.20对照组75219678.13合计1742620087.002.卡方检验的基本思想:表7-2四格表资料的基本形式处理组阳性事件发生数阴性事件发生数合计甲aba+b乙cdc+d合计a+cb+dn

本例资料经整理成表7-2形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。根据检验假设H0:,即两样本来自同一总体,或两总体率相同,则从理论上讲,各处理组的发生率和总发生率应相等,有:

各处理组的未发生率和总的未发生率应相等,有:

实际频数A

(actualfrequency)(a、b、c、d)的理论频数T(theoreticalfrequency)(H0:π1=π2=π):a的理论频数=(a+b)pc=(a+b)[(a+c.)/n]=nRnC/nb的理论频数=(a+b)(1-pc)=(a+b)[(b+d.)/n]=nRnC/nc的理论频数=(c+d)pc=(c+d)[(a+c)/n]=nRnC/nd的理论频数=(c+d)(1-pc)=(c+d)[(b+d.)/n]=nRnC/n

各种情形下,理论与实际偏离的总和即为卡方值(chi-squarevalue)。若H0成立,则四个格子的实际频数A与理论频数T相差不应该很大,即χ2统计量不应该很大。若χ2值很大,即相对应的P值很小,比如P≤0.05,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即。

χ2检验的基本公式

理论频数T是根据检验假设,且用合并率来估计π而定的。如上例,无效假设是试验组与对照组降低颅内压的总体有效率相等,均等于合计的有效率87%。那么理论上,试验组的104例颅内压增高症患者中有效者应为104(174/200)=90.48,无效者为104(26/200)=13.52;同理,对照组的96例颅内压增高症患者中有效者应为96(174/200)=83.52,无效者为96(26/200)=12.48。

检验统计量χ2值反映了实际频数与理论频数的吻合程度。

若检验假设H0:π1=π2成立,四个格子的实际频数A与理论频数T相差不应该很大,即统计量不应该很大。如果χ2值很大,即相对应的P值很小,若P≦α,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2。

由公式(7-1)还可以看出:χ2值的大小还取决于个数的多少(严格地说是自由度ν的大小)。由于各皆是正值,故自由度ν愈大,χ2值也会愈大;所以只有考虑了自由度ν的影响,χ2值才能正确地反映实际频数A和理论频数T的吻合程度。

χ2检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,ν=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值c2

检验的基本步骤

H0:π1=π2,即试验组与对照组降低颅内压的总体有效率相等H1:π1≠π2,即试验组与对照组降低颅内压的总体有效率不等

α=0.05检验假设表7-1两组降低颅内压有效率的比较组别有效无效合计有效率(%)试验组99(90.48)5(13.52)10495.20对照组75(83.52)21(12.48)9678.13合计1742620087.00计算检验统计量

基本公式:

查附表8的界值表得P﹤0.005。按α=0.05拒绝H0,接受H1,可以认为两组降低颅内压总体有效率不等,即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪+地塞米松的有效率。

查表作结论二、四格表专用公式(1)

为了不计算理论频数T,

可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:四格表专用公式:四格表资料数据格式组别阳性阴性合计A组a

b(a+b)B组c

d(c+d)合计(a+c)(b+d)(n)计算检验统计量

结果与用基本公式相同!查表作结论

三、四格表资料连续性校正

实际频数为分类资料,是不连续的,因此计算所得的χ2值的分布也是离散型的。而χ2界值表的依据是χ2分布,χ2分布是连续型分布。因此由公式计算的χ

2值,查χ2界值表所得的P偏小,特别是当自由度为1时。

(1)当n≥40,且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格表资料的Fisher确切概率法。

对于四格表资料,通常规定:

(2)当n≥40

,但有1≤T<5时,用四格表资料的校正公式;或改用四格表资料的Fisher确切概率法。

(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。

(4)连续性校正仅用于ν=1的四格表资料。

四格表资料连续性校正公式

例7-2某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等?

表7-2

两种药物治疗脑血管疾病有效率的比较

组别有效无效合计有效率(%)胞磷胆碱组4665288.46神经节苷酯组188

(4.67)2669.23

合计64147882.05H0:

π1=π2即两种药物治疗脑血管疾病的有效率相等H1:

π1≠π2即两种药物治疗脑血管疾病的有效率不等α=0.05

未校正:

校正:

ν=1,按校正χ2值3.14,查χ2界值表,得P>0.05,按

α=0.05检验水准不拒绝H0,尚不能认为两种药物治疗脑血管疾病的有效率不等若按不校正时的χ2值,查χ2界值表,得P<0.05,结论与之相反

第二节配对四格表资料的χ2检验

与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果。

免疫荧光法乳胶凝集法合计+

-+11(a)12(b)23-2(c)33(d)35合计134558表7-3两种方法的检测结果

例7-3某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统性红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?

上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:①两种检测方法皆为阳性数(a);②两种检测方法皆为阴性数(d);③免疫荧光法为阳性,乳胶凝集法为阴性数(b);④乳胶凝集法为阳性,免疫荧光法为阴性数(c)。

其中,a,d为两种方法观察结果一致的两种情况,b,c为两种方法观察结果不一致的两种情况。当两种处理方法无差别时,对总体有B=C。由于在抽样研究中,抽样误差是不可避免的,样本中的b和c往往不相等。为此,需进行假设检验。(b+c)≥40时

(b+c)<40时

本例

(b+c)=14<40,应采用校正公式,P<0.05H0:B=C,即两种方法的总体检测结果相同H1:B≠C,即两种方法的总体检测结果不相同α=0.05

注意:

本法一般用于样本含量不太大的资料。因为它仅考虑了两种方法结果不一致的两种情况(b,c),而未考虑样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。第四节行×列表资料的检验c2行×列表资料①

多个样本率比较时,有R行2列,称为R×2表;②

两个样本的构成比比较时,有2行C列,称2×C表;③

多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为R×C表。1.R×C表的χ2检验通用公式2.几种R×C表的检验假设H0表7-8三种疗法有效率的比较

疗法有效无效合计有效率(%)

物理疗法199720696.60

药物治疗1641818290.11

外用膏药1182614481.94

合计4815153290.41

例7-6

某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别?H0:π1=

π2=

π3,即三种疗法治疗周围性面神经麻痹的有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=0.05查c2界值表,得p<0.005,按α=0.05水准,拒绝H0

,接受H1

,三种疗法治疗周围性面神经麻痹的有效率有差别。

例7-7

某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?表7-9DN组与无DN组2型糖尿病患者ACE基因型分布的比较

检验步骤双向无序分类资料的关联性检验表7-10某地5801人的血型ABO血型MN血型合计MNMNO4314909021823A3884108001598B4955879502032A计1451166626845801问题:(1)两分类变量有无关联?(2)关联程度如何?分析步骤:H0:两种血型系统间无关联

H1:两种血型系统间有关联α=0.05

查界值表得P<0.05。按α=0.05检验水准拒绝H0

,接受H1

,认为两种血型系统间有关联。=213.16ν=(4-1)(3-1)=6

表7-10资料,可用行×列表资料χ2检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:

列联系数C取值范围在0~1之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。

结论:两种血型系统间虽然有关联性,但列联系数数值较小,虽然有统计学意义,仍可认为关系不太密切。

进一步计算列联系数:查界值表得P<0.05。按α=0.05检验水准拒绝H0

,接受H1

,认为两种血型系统间有关联。四、行×列表资料χ2检验的注意事项1.行列表中的各格子T≥1,并且1≤T<5的格子数不宜超过格子总数的1/5,否则可能产生偏性。处理方法有三种:

增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序R×C表的Fisher确切概率法(可用SAS软件实现)第五节多个样本率比较的

分割法c2一、基本思想因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准的估计方法亦不同。通常有两种情况:

多个样本率比较的资料可整理成R×2表资料,若经行×列表资料χ2检验的结论为拒绝H0,接受H1时,可不经任何处理,直接用分割法把R×2表分成多个独立的四格表进行两两比较,但必须重新规定检验水准。其目的是为保证检验假设中I型错误α的概率不变。

例7-9

对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别?多个实验组间的两两比较H0:πi=πj

,任两对比组的总体有效率相等H1:πi≠πj

,任两对比组的总体有效率不等α=0.05

检验假设:检验步骤检验水准调整:三种疗法治疗周围性面神经麻痹的实例中,检验水准调整为:对应的临界值:对比组有效无效合计值值

物理疗法组19972066.76<0.0125药物治疗组16418182合计36325388

物理疗法组199720621.32<0.0125外用膏药组11826144合计31733350

药物治疗组164181824.59>0.0125外用膏药组11826144合计28244326三种疗法有效率的两两比较

三、各实验组与同一个对照组的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论