Stata基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验_第1页
Stata基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验_第2页
Stata基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验_第3页
Stata基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验_第4页
Stata基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Stata软件基本操作和数据分析入门

第四讲两组计量资料平均水平的统计检验

一、配对设计的平均水平检验

统计方法选择原则:

如果配对的差值服从近似止态分布(小样本)或大样本,则用配对t

检验

小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检

验(matched-pairssigned-rankstest)。

例110例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:

表10例男性矽肺患者血红蛋白值(g/dL)

病例号12345678910

治疗前11.315.015.013.512.810.011.012.013.012.3

治疗后14.013.814.013.513.512.014.711.413.812.0

问:治疗前后的血红蛋白的平均水平有没有改变

这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解

释可能会有问题)

Stata数据输入结构

XIX2

11.314

1513.8

1514

13.513.5

12.813.5

1012

1114.7

1211.4

1313.8

12.312

操作如下:

gend=xl-x2产生配对差值的变量d

sktestd正态性检验

正态性检验结果如下:

.sktestd

Skewness/KurtosistestsforNormality

--------joint------

Variable|Pr(Skewness)Pr(Kurtosis)adjch12(2)Prob>chi2

-------------+----------------------------------------------------------

d|0.2790.7741.430.4885

正态性检验的无效假设为:资料正态分布

相应的备选假设为:资料非正态分布

a=0O5,由于正态性检验的P值=0.401X9»a,故可以认为资料近

似服从正态分布。

ttestd=0配对t检验:Ho:|i<i=OVS曰:川工0,

a=().()5

结果如下:

One-samplettest

Variable|ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

1

d|106799999.52042721.645735-1.857288.4972881

Degreesoffreedom:9

Ho:mean(d)=0

Ha:mean<0Ha:mean-=0Ha:mean>0

t=-1.3066t=-1.3066t=-1.3066

P<t=0.1119P>|t|=0.2237P>t=0.8881

P值=0.2237>a,故认为治疗前后的血红蛋白的平均数差异没有统计

学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平

均数不同。

如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如

下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差

为1.65,则输入命令如下:

ttesti样本量样本均数样本标准差0

本例为:ttesti10-0.661.650

得到下列结果如下:

.ttesti10.661.650

One-samplettest

ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

---------+------------------------------------------------------------------------

x|10.66.52177581.6552033891.840339

Degreesoffreedom:9

Ho:mean(x)=0

Ha:mean<0Ha:mean〜=0Ha:mean>0

t=1.2649t=1.2649t=1.2649

P<t=0.8812P>|t|=0.2377P>t=0.1188

结果解释与结论同上述相同。

如果对于小样本的情况下,差值不满足正态分布,贝J用

Match-Sign-ranktest,操作如下:

signrank差值变量名=0

假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本

例满足正态分布)则

Ho:差值的中位数=0

(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗

前的血红蛋白小于治疗后的血红蛋白的概率)

Hi:差值的中位数,0

a=0.05

本例为signrankd=0

Wilcoxonsigncd-ranktest

sign|obssumranksexpected

1

positive|41827

negative|53627

zero111

all|ID5555

unadjustedvariance96.25

adjustmentforties0.00

adjustmentforzeros-0.25

adjustedvariance96.00

Ho:d=0

z=-0.919

Prob>|z|=0.3583

P值=().3583>>a,故没有足够的证据说明两个总体不同。

二、平行对照设计的两组资料平均水平统计检验

统计方法选择原则:

如果两组资料的方差齐性和相互独立的,并且每组资料服从正态

分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可

以用成组Wilcoxon秋和检验。

例2为研究噪声对纺织女工子代智能是否有影响,一研究人员在

某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织

女工及同一单位、条件与接触组相近但不接触噪声的女职工,其

子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中

国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子

代智能有无影响?(接触组group=(),不接触组group=l)

资料及其结果女「下:

groupX

079

093

091

092

094

077

093

074

091

0101

083

073

088

0102

090

0100

081

091

083

0106

084

078

087

095

0101

1101

1100

1114

186

1106

1107

1107

194

189

1104

198

1110

189

1103

189

1121

194

195

192

1109

198

198

1120

1104

1110

方差齐性检验

Ho:3=02vsH[:6NO2

a=0.1

两组方差齐性的检验命令(仅适合两组方差齐性检验)

sdtestx,by(group)

Varianceratiotest

GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

02589.081.8229289.1146485.3176692.84234

125101.521.9009829.50491197.59657105.4434

1

combined5095.31.57745611.154392.1299898.47002

Ho:sd(O)=sd(l)

F(24,24)observed=F_obs=0.920

F(24,24)lowertail=F_L=Fobs0.920

F(24,24)uppertai1=F_U1/F_obs=1.087

Ha:sd(O)<sd(l)Ha:sd(0)sd(1)Ha:sd(0)>sd(l)

P<F」)bs=0.4195P<F_L+P>F_U::0.8389P>F_obs=0.5805

P值=().8389>>a,因此可以认为两组方差齐性的。

正态性检验:Ho:资料服从正态分布vsHi:资料偏态分布

a=O.O5

每一组资料正态性检验

sktestxifgroup==0

Skewness/KurtosistestsforNormality

----------joint-------

Variable|Pr(Skewness)Pr(Kurtosis)adjch12(2)Prob>chi2

----------------+

x|0.9270.3261.050.5926

.sktestxifgroup==l

Skewness/KurtosistestsforNormality

----------joint-------

Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Prob>chi2

----------------+

x|0.4740.6750.730.6948

P值均大于a,因此可以认为两组资料都服从正态分布

Ho:1^1—|12vsH]:

a=0.05

ttestx,by(group)

Two-samplettestwithequalvariances

GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

---1

0I2589.081.8229289.1146485.3176692.84234

1125101.521.9009829.50491197.59657105.4434

X1-

combined5095.31.57745611.154392.1299898.47002

,1一

diff-12.442.633781-17.73557-7.144429

Degreesoffreedom:48

Ho:mean(0)-mean(l)=diff=0

Ha:diff<0Ha:diff~=0Ha:diff)0

t=-4.7232t=-4.7232t=-4.7232

P<t:0.0000P>|t|=0.0000P>t=1.0000

P值(<0.0001)<a,并且有内一门的95%可信区间为(-17.73557,-7.144429)

可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并

且差别有统计学意义。

如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令

进行统计检验

ttesti样本量1样本均数1样本标准差1样本量2样本均数2样本标准差2

例如:本例第1组nl=25均数1=89.08标准差1=9.115

第2组n2=25均数2=101.52标准差2=9.505

则ttesti2589.089.11525101.529.505

Two-samplettestwithequalvariances

ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

x|2589.081.8239.11585.3175192.84249

y125101.521.9019.50597.59653105.4435

combined5095.31.57748211.1544892.1299398.47007

4._

diff|-12.442.633843-17.7357-7.144303

Degreesoffreedom:48

Ho:mean(x)-mean(y)=diff=0

Ha:diff<0Ha:diff~二0Ha:diff>0

t=-4.7231t=-4.7231t=-4.7231

P<t=0.0000P>|t|=0.000()P>t=1.0000

结果解释同上。

方差不齐的情况,(小样本时,资料正态分布)还可以用检验

命令:ttest观察变量名,by(分组变量名)unequal

立即命令为ttesti样本量1均数1标准差1样本量2均数2标准差2,unequal

假定本例的资料方差不齐(实际为方差不齐的),则要用检验如下

nestx,by(group)unequal

Two-samplettestwithunequalvariances

GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]

0|2589.081.8229289.1146485.3176692.84234

1125101.521.9009829.50491197.59657105.4434

combined5095.31.57745611.154392.1299898.47002

diff-12.442.633781-17.73581-7.144189

Satterthwaite'sdegreesoffreedom:47.9159

Ho:mean(0)-mean(l)=diff=0

Ha:diff<0Ha:diff0Ha:diff>0

t=-4.7232t=-4.7232t=-4.7232

P<t=0.0000P>|t|=0.0000P>t=1.0000

结果解释同上。

t'检验有许多方法,这里介绍的Satterthwaite方法,主要根据两

个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差

比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t'

自由度为47.9159)o由于t检验要求的两组总体方差相同(称为方差

齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方

差齐性的情况下,样本方差表现为两个样本方差之比句。(注意:两

个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为

0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个

样本标准差仅差0.09,但是两个样本方差之比为100o故用方差齐性

检验的结果如下:

方差齐性的立即命令为sdtesti样本量1.标准差1样本量2.标准差2

sdtesti100.0.1100.0.01

Varianceratiotest

|ObsMeanStd.Err.Std.1)ev.[95%Conf.Interval]

x|100..01.1••

y|100..001.01••

1

combined|200♦♦*••

Ho:sd(x)=sd(y)

F(99,99)observed=F_obs=100.000

F(99,99)lowertail=F_L=1/F_obs=0.010

F(99,99)uppertail=F_U=F_obs=100.000

Ha:sd(x)<sd(y)Ha:sd(x)~=sd(y)Ha:sd(x)>sd(y)

P<F_obs=1.0000P<F_L+P>F_U=0.0000P>F_obs=0.0000

P值<0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样

本方差之比是否接近1。

如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例

介绍成组秩和检验),则用秩和检验(WilcoxonRanksumtest)。

Ho:两组资料所在总体相同

Hi:两组资料所在总体不同

a=0.05

命令:ranksum观察变量名,by(分组变量)

本例为ranksumx,by(group)

.ranksumx,by(group)

Two-sampleWilcoxonrank-sum(Mann-Whitney)test

groupobsranksumexpected

0125437637.5

1125838637.5

1

combined5012751275

unadjustedvariance2656.25

adjustmentforties-3.70

adjustedvariance2652.55

Ho:x(group==0)=x(group==l)

z=-3.893

Prob>|z|=0.0001

P值〈O.OOOka,故认为两个总体不同

练习题

一、某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统

计分析:

指标性别例数均数标准差标准值

男3604.660.584.84

红细胞数(IO,2/L)

女2554.180.294.33

男360134.5()7.10140.20

血红蛋白(g/L)

女255117.6010.20124.70

(1)该地健康成年男女血红蛋白含量有无差别?

(2)该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?

二、为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校

随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。问聋哑学生学习成绩与血

清锌含量有无关系?

表14对学生的血吃锌含量(ug/mL)

编号优生组差生组编号优生组差生组

11.201.3180.800.86

20.991.3490.840.72

31.031.10100.850.88

40.900.72111.050.81

51.220.92121.081.30

60.901.34131.150.85

70.970.98140.900.80

教学应用:考察影响t检验结果的各种因素

1.首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的

目录下\ado\base(例如:Stata软件安装在D:\stata,则把这两个

程序复制到d:\stata\ado\base目录下。然后输入连接命令:在

STATA环境下,输入netsetado路径\stata\ado\base。(路

径表示Stata所在的盘符和目录)

2.程序ttest2.ado是模拟在正态总体中随机抽10000个样本,每个样

本有2组,两组的样本量、正态分布的总体均数和标准差由读者选

择输入,考察a=0.05的情况下,考察当两个总体均数相同时拒绝

II。的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总

体均数不同时接受H。的比例(估计发生第二类错误的概率)。

运行ttest2.ado的输入命令为:

ttest2样本量1均数1标准差1样本量2均数2标准差2

例如:考察两组样本量均为30,总体均数均为100,标准差均为6

的拒绝H。/产也)比例,结果如下:

.ttest2301006301006

两样本t检验模拟程序

输入样本量1均数1标准差1样本量2均数2标准差2

sig1Freq.PercentCum.

receive950695.0695.06

refuse4944.94100.00

TotalI10000100.00

Variable|ObsMeanStd.Dev.MinMax

average1|1000099.993881.08310695.77671104.2778

sdl100005.942067.77644233.2457098.692573

average2I1000099.996751.08640695.91508103.8237

sd2100005.949536.77767113.2766359.546211

t100000036441.0035-4.327873.602131

—Binom.Interp.一

Variable|ObsPercentileCentile[95%Conf.Interval]

1

t1100002.5-2.001922-2.077161-1.955956

150-.01159320389369.0137221

197.51.9923171.9333082.033179

average1100002.597.8590497.7923697.93009

15099.9893699.96717100.0172

197.5102.1116102.0614102.1734

average2|100002.597.8611997.8074997.91781

15099.986899.96412100.0107

197.5102.1835102.1131102.2403

在随机抽10000个样本中,计算了10000个二值,结果有494次拒绝

HO(|1I=|12),因此非常接近a=0.05。

建议读者运行程序ttest2考察下列情况

目的1:山工生时,不同的样本量,考察下列不同情况下的接受H。的比

例(估计例以及两组样本量之比不同的情况对检验结果的影响。

两组的总体标准差o=2

|ii=100也=99)ii=100匹=98|ii=100也=97

ni:n210:1010:1010:10

Hi:n220:2030:3020:20

nun230:3010:5030:30

ni:n240:4040:4040:40

ni:n230:5030:5030:50

ni:n220:6020:6020:60

ni:n210:7010:7010:70

目的2:考察方差不齐对t检验(不是t'检验)结果的影响

p.i=100|j,2=100内二100生二98|11=100|12=97

6=16=901=96=13=56=5

ni:n240:1040:1040:10

ni:n210:4010:4010:40

onn260:3060:3060:30

Hi:n230:6030:6030:60

ni:n230:3030:3030:30

ni:n240:4040:4040:40

ni:n240:4040:4040:40

目的3:通过运行程序ttestexp.ado,考察资料非正态分布对结果的

影响。

3.程序ttestexp.edo是模拟在指数分布总体中随机抽10000个样本,

每个样本有2组,两组的样本量和总体均数由读者选择输入,考察

a=0.05的情况下,考察当两个总体均数相同时拒绝H。的比例(拒绝

的频率估计第一类错误)是否接近0.05和当两个总体均数不同时

接受H。的比例(估计发生第二类错误的概率)o

运行ttestexp.2do的输入命令为:

ttestexp样本量1均数1样本量2均数2

例如:考察两组样本量均为10,总体均数均为1的拒绝H。(内二也)的比

例,结果如下:

.ttestexp5151

指数分布

输入样本量1均数1样本量2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论