版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Stata软件基本操作和数据分析入门
第四讲两组计量资料平均水平的统计检验
一、配对设计的平均水平检验
统计方法选择原则:
如果配对的差值服从近似止态分布(小样本)或大样本,则用配对t
检验
小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检
验(matched-pairssigned-rankstest)。
例110例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:
表10例男性矽肺患者血红蛋白值(g/dL)
病例号12345678910
治疗前11.315.015.013.512.810.011.012.013.012.3
治疗后14.013.814.013.513.512.014.711.413.812.0
问:治疗前后的血红蛋白的平均水平有没有改变
这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解
释可能会有问题)
Stata数据输入结构
XIX2
11.314
1513.8
1514
13.513.5
12.813.5
1012
1114.7
1211.4
1313.8
12.312
操作如下:
gend=xl-x2产生配对差值的变量d
sktestd正态性检验
正态性检验结果如下:
.sktestd
Skewness/KurtosistestsforNormality
--------joint------
Variable|Pr(Skewness)Pr(Kurtosis)adjch12(2)Prob>chi2
-------------+----------------------------------------------------------
d|0.2790.7741.430.4885
正态性检验的无效假设为:资料正态分布
相应的备选假设为:资料非正态分布
a=0O5,由于正态性检验的P值=0.401X9»a,故可以认为资料近
似服从正态分布。
ttestd=0配对t检验:Ho:|i<i=OVS曰:川工0,
a=().()5
结果如下:
One-samplettest
Variable|ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
1
d|106799999.52042721.645735-1.857288.4972881
Degreesoffreedom:9
Ho:mean(d)=0
Ha:mean<0Ha:mean-=0Ha:mean>0
t=-1.3066t=-1.3066t=-1.3066
P<t=0.1119P>|t|=0.2237P>t=0.8881
P值=0.2237>a,故认为治疗前后的血红蛋白的平均数差异没有统计
学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如
下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差
为1.65,则输入命令如下:
ttesti样本量样本均数样本标准差0
本例为:ttesti10-0.661.650
得到下列结果如下:
.ttesti10.661.650
One-samplettest
ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
---------+------------------------------------------------------------------------
x|10.66.52177581.6552033891.840339
Degreesoffreedom:9
Ho:mean(x)=0
Ha:mean<0Ha:mean〜=0Ha:mean>0
t=1.2649t=1.2649t=1.2649
P<t=0.8812P>|t|=0.2377P>t=0.1188
结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,贝J用
Match-Sign-ranktest,操作如下:
signrank差值变量名=0
假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本
例满足正态分布)则
Ho:差值的中位数=0
(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗
前的血红蛋白小于治疗后的血红蛋白的概率)
Hi:差值的中位数,0
a=0.05
本例为signrankd=0
Wilcoxonsigncd-ranktest
sign|obssumranksexpected
1
positive|41827
negative|53627
zero111
all|ID5555
unadjustedvariance96.25
adjustmentforties0.00
adjustmentforzeros-0.25
adjustedvariance96.00
Ho:d=0
z=-0.919
Prob>|z|=0.3583
P值=().3583>>a,故没有足够的证据说明两个总体不同。
二、平行对照设计的两组资料平均水平统计检验
统计方法选择原则:
如果两组资料的方差齐性和相互独立的,并且每组资料服从正态
分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可
以用成组Wilcoxon秋和检验。
例2为研究噪声对纺织女工子代智能是否有影响,一研究人员在
某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织
女工及同一单位、条件与接触组相近但不接触噪声的女职工,其
子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中
国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子
代智能有无影响?(接触组group=(),不接触组group=l)
资料及其结果女「下:
groupX
079
093
091
092
094
077
093
074
091
0101
083
073
088
0102
090
0100
081
091
083
0106
084
078
087
095
0101
1101
1100
1114
186
1106
1107
1107
194
189
1104
198
1110
189
1103
189
1121
194
195
192
1109
198
198
1120
1104
1110
方差齐性检验
Ho:3=02vsH[:6NO2
a=0.1
两组方差齐性的检验命令(仅适合两组方差齐性检验)
sdtestx,by(group)
Varianceratiotest
GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
02589.081.8229289.1146485.3176692.84234
125101.521.9009829.50491197.59657105.4434
1
combined5095.31.57745611.154392.1299898.47002
Ho:sd(O)=sd(l)
F(24,24)observed=F_obs=0.920
F(24,24)lowertail=F_L=Fobs0.920
F(24,24)uppertai1=F_U1/F_obs=1.087
Ha:sd(O)<sd(l)Ha:sd(0)sd(1)Ha:sd(0)>sd(l)
P<F」)bs=0.4195P<F_L+P>F_U::0.8389P>F_obs=0.5805
P值=().8389>>a,因此可以认为两组方差齐性的。
正态性检验:Ho:资料服从正态分布vsHi:资料偏态分布
a=O.O5
每一组资料正态性检验
sktestxifgroup==0
Skewness/KurtosistestsforNormality
----------joint-------
Variable|Pr(Skewness)Pr(Kurtosis)adjch12(2)Prob>chi2
----------------+
x|0.9270.3261.050.5926
.sktestxifgroup==l
Skewness/KurtosistestsforNormality
----------joint-------
Variable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Prob>chi2
----------------+
x|0.4740.6750.730.6948
P值均大于a,因此可以认为两组资料都服从正态分布
Ho:1^1—|12vsH]:
a=0.05
ttestx,by(group)
Two-samplettestwithequalvariances
GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
---1
0I2589.081.8229289.1146485.3176692.84234
1125101.521.9009829.50491197.59657105.4434
X1-
combined5095.31.57745611.154392.1299898.47002
,1一
diff-12.442.633781-17.73557-7.144429
Degreesoffreedom:48
Ho:mean(0)-mean(l)=diff=0
Ha:diff<0Ha:diff~=0Ha:diff)0
t=-4.7232t=-4.7232t=-4.7232
P<t:0.0000P>|t|=0.0000P>t=1.0000
P值(<0.0001)<a,并且有内一门的95%可信区间为(-17.73557,-7.144429)
可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并
且差别有统计学意义。
如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令
进行统计检验
ttesti样本量1样本均数1样本标准差1样本量2样本均数2样本标准差2
例如:本例第1组nl=25均数1=89.08标准差1=9.115
第2组n2=25均数2=101.52标准差2=9.505
则ttesti2589.089.11525101.529.505
Two-samplettestwithequalvariances
ObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
x|2589.081.8239.11585.3175192.84249
y125101.521.9019.50597.59653105.4435
combined5095.31.57748211.1544892.1299398.47007
4._
diff|-12.442.633843-17.7357-7.144303
Degreesoffreedom:48
Ho:mean(x)-mean(y)=diff=0
Ha:diff<0Ha:diff~二0Ha:diff>0
t=-4.7231t=-4.7231t=-4.7231
P<t=0.0000P>|t|=0.000()P>t=1.0000
结果解释同上。
方差不齐的情况,(小样本时,资料正态分布)还可以用检验
命令:ttest观察变量名,by(分组变量名)unequal
立即命令为ttesti样本量1均数1标准差1样本量2均数2标准差2,unequal
假定本例的资料方差不齐(实际为方差不齐的),则要用检验如下
nestx,by(group)unequal
Two-samplettestwithunequalvariances
GroupObsMeanStd.Err.Std.Dev.[95%Conf.Interval]
0|2589.081.8229289.1146485.3176692.84234
1125101.521.9009829.50491197.59657105.4434
combined5095.31.57745611.154392.1299898.47002
diff-12.442.633781-17.73581-7.144189
Satterthwaite'sdegreesoffreedom:47.9159
Ho:mean(0)-mean(l)=diff=0
Ha:diff<0Ha:diff0Ha:diff>0
t=-4.7232t=-4.7232t=-4.7232
P<t=0.0000P>|t|=0.0000P>t=1.0000
结果解释同上。
t'检验有许多方法,这里介绍的Satterthwaite方法,主要根据两
个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差
比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t'
自由度为47.9159)o由于t检验要求的两组总体方差相同(称为方差
齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方
差齐性的情况下,样本方差表现为两个样本方差之比句。(注意:两
个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为
0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个
样本标准差仅差0.09,但是两个样本方差之比为100o故用方差齐性
检验的结果如下:
方差齐性的立即命令为sdtesti样本量1.标准差1样本量2.标准差2
sdtesti100.0.1100.0.01
Varianceratiotest
|ObsMeanStd.Err.Std.1)ev.[95%Conf.Interval]
x|100..01.1••
y|100..001.01••
1
combined|200♦♦*••
Ho:sd(x)=sd(y)
F(99,99)observed=F_obs=100.000
F(99,99)lowertail=F_L=1/F_obs=0.010
F(99,99)uppertail=F_U=F_obs=100.000
Ha:sd(x)<sd(y)Ha:sd(x)~=sd(y)Ha:sd(x)>sd(y)
P<F_obs=1.0000P<F_L+P>F_U=0.0000P>F_obs=0.0000
P值<0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样
本方差之比是否接近1。
如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例
介绍成组秩和检验),则用秩和检验(WilcoxonRanksumtest)。
Ho:两组资料所在总体相同
Hi:两组资料所在总体不同
a=0.05
命令:ranksum观察变量名,by(分组变量)
本例为ranksumx,by(group)
.ranksumx,by(group)
Two-sampleWilcoxonrank-sum(Mann-Whitney)test
groupobsranksumexpected
0125437637.5
1125838637.5
1
combined5012751275
unadjustedvariance2656.25
adjustmentforties-3.70
adjustedvariance2652.55
Ho:x(group==0)=x(group==l)
z=-3.893
Prob>|z|=0.0001
P值〈O.OOOka,故认为两个总体不同
练习题
一、某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统
计分析:
指标性别例数均数标准差标准值
男3604.660.584.84
红细胞数(IO,2/L)
女2554.180.294.33
男360134.5()7.10140.20
血红蛋白(g/L)
女255117.6010.20124.70
(1)该地健康成年男女血红蛋白含量有无差别?
(2)该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?
二、为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校
随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。问聋哑学生学习成绩与血
清锌含量有无关系?
表14对学生的血吃锌含量(ug/mL)
编号优生组差生组编号优生组差生组
11.201.3180.800.86
20.991.3490.840.72
31.031.10100.850.88
40.900.72111.050.81
51.220.92121.081.30
60.901.34131.150.85
70.970.98140.900.80
教学应用:考察影响t检验结果的各种因素
1.首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的
目录下\ado\base(例如:Stata软件安装在D:\stata,则把这两个
程序复制到d:\stata\ado\base目录下。然后输入连接命令:在
STATA环境下,输入netsetado路径\stata\ado\base。(路
径表示Stata所在的盘符和目录)
2.程序ttest2.ado是模拟在正态总体中随机抽10000个样本,每个样
本有2组,两组的样本量、正态分布的总体均数和标准差由读者选
择输入,考察a=0.05的情况下,考察当两个总体均数相同时拒绝
II。的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总
体均数不同时接受H。的比例(估计发生第二类错误的概率)。
运行ttest2.ado的输入命令为:
ttest2样本量1均数1标准差1样本量2均数2标准差2
例如:考察两组样本量均为30,总体均数均为100,标准差均为6
的拒绝H。/产也)比例,结果如下:
.ttest2301006301006
两样本t检验模拟程序
输入样本量1均数1标准差1样本量2均数2标准差2
sig1Freq.PercentCum.
receive950695.0695.06
refuse4944.94100.00
TotalI10000100.00
Variable|ObsMeanStd.Dev.MinMax
average1|1000099.993881.08310695.77671104.2778
sdl100005.942067.77644233.2457098.692573
average2I1000099.996751.08640695.91508103.8237
sd2100005.949536.77767113.2766359.546211
t100000036441.0035-4.327873.602131
—Binom.Interp.一
Variable|ObsPercentileCentile[95%Conf.Interval]
1
t1100002.5-2.001922-2.077161-1.955956
150-.01159320389369.0137221
197.51.9923171.9333082.033179
average1100002.597.8590497.7923697.93009
15099.9893699.96717100.0172
197.5102.1116102.0614102.1734
average2|100002.597.8611997.8074997.91781
15099.986899.96412100.0107
197.5102.1835102.1131102.2403
在随机抽10000个样本中,计算了10000个二值,结果有494次拒绝
HO(|1I=|12),因此非常接近a=0.05。
建议读者运行程序ttest2考察下列情况
目的1:山工生时,不同的样本量,考察下列不同情况下的接受H。的比
例(估计例以及两组样本量之比不同的情况对检验结果的影响。
两组的总体标准差o=2
|ii=100也=99)ii=100匹=98|ii=100也=97
ni:n210:1010:1010:10
Hi:n220:2030:3020:20
nun230:3010:5030:30
ni:n240:4040:4040:40
ni:n230:5030:5030:50
ni:n220:6020:6020:60
ni:n210:7010:7010:70
目的2:考察方差不齐对t检验(不是t'检验)结果的影响
p.i=100|j,2=100内二100生二98|11=100|12=97
6=16=901=96=13=56=5
ni:n240:1040:1040:10
ni:n210:4010:4010:40
onn260:3060:3060:30
Hi:n230:6030:6030:60
ni:n230:3030:3030:30
ni:n240:4040:4040:40
ni:n240:4040:4040:40
目的3:通过运行程序ttestexp.ado,考察资料非正态分布对结果的
影响。
3.程序ttestexp.edo是模拟在指数分布总体中随机抽10000个样本,
每个样本有2组,两组的样本量和总体均数由读者选择输入,考察
a=0.05的情况下,考察当两个总体均数相同时拒绝H。的比例(拒绝
的频率估计第一类错误)是否接近0.05和当两个总体均数不同时
接受H。的比例(估计发生第二类错误的概率)o
运行ttestexp.2do的输入命令为:
ttestexp样本量1均数1样本量2均数2
例如:考察两组样本量均为10,总体均数均为1的拒绝H。(内二也)的比
例,结果如下:
.ttestexp5151
指数分布
输入样本量1均数1样本量2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省徐州市市级名校2025-2026学年初三九月月考英语试题含解析
- 四川省成都市浦江县市级名校2026届初三下期末考试(数学试题理)试卷含解析
- 四川省眉山市洪雅县2025-2026学年初三年级第一次调研考试语文试题含解析
- 重庆市西南大附中2025-2026学年初三一模考试物理试题试卷(理工类)含解析
- 期浙江省金华市市级名校2025-2026学年初三年级校内模拟英语试题试卷(最后一卷)含解析
- 四川省泸州泸县联考2026年初三线上测试英语试题试卷含解析
- 湖北省襄阳襄城区四校联考2026届初三英语试题下学期第四次月考试题含解析
- 期货操盘合同
- 2026年跨学科科研团队高效协作模式探索与实践
- 2026年企业品牌传播的线下活动整合策略研究
- MOOC 管理学原理-武汉理工大学 中国大学慕课答案
- 高中英语阅读教学问题链设计
- 心脏大血管护理查房课件
- 2023年江苏南京市特种设备安全监督检验研究院招考聘用高层次人才笔试历年高频考点试题含答案带详解
- 巴林特工作小组培训
- (完整版)船舶涂装
- 安徽绿沃循环能源科技有限公司12000t-a锂离子电池高值资源化回收利用项目(重新报批)环境影响报告书
- 幼儿园施工单位竣工验收自评报告
- 城市社会地理学16城市社会学研究方法
- 中央空调系统设计详细计算书
- 儿科疾病作业治疗(治疗) 作业治疗课件
评论
0/150
提交评论