Stata软件基本操作和数据分析入门_第1页
Stata软件基本操作和数据分析入门_第2页
Stata软件基本操作和数据分析入门_第3页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairssigned-rankstest)例110例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.81

2、2.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)Stata数据输入结构X1X211.3141513.8151413.513.512.813.510121114.71211.41313.812.312操作如下:gend=x1-x2产生配对差值的变量dsktestd正态性检验正态性检验结果如下:.sktestdSkewness/KurtosistestsforNormalityjointVariable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Prob>chi2+d|0.2790.7741.

3、430.4885正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布=0.05,由于正态性检验的P值=0.40189>>,故可以认为资料近似服从正态分布。ttestd=0配对t检验:Ho:d=0vsHi:d0,=0.05结果如下:One-samplettestVariable|+-ObsMeanStd.Err.Std.Dev.95%Conf.Intervald|10-.6799999.52042721.645735-1.857288.4972881Degreesoffreedom:9Ho:mean(d)=0Ha:mean<0Ha:mean=0Ha:mean&g

4、t;0t=-1.3066t=-1.3066t=-1.3066P<t=0.1119P>|t|=0.2237P>t=0.8881P值=0.2237>,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:ttesti样本量样本均数样本标准差0本例为:ttesti10-0.661.650得到下列结果如下:.ttesti10.661.650One-samplettes

5、t|Obs+MeanStd.Err.Std.Dev.95%Conf.Intervalx|10.66.52177581.65-.52033891.840339Degreesoffreedom:9Ho:mean(x)=0Ha:mean<0Ha:mean=0Ha:mean>0t=1.2649t=1.2649t=1.2649P<t=0.8812P>|t|=0.2377P>t=0.1188结果解释与结论同上述相同。如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-ranktest,操作如下:signrank差值变量名=0假如本例不满足正态分布(为了借用上

6、例资料,而假定的,实际上本例满足正态分布)则H0:差值的中位数=0(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗前的血红蛋白小于治疗后的血红蛋白的概率)Hi:差值的中位数0=0.05本例为signrankd=0Wilcoxonsigned-ranktestsign|obssumranksexpected+positive|41827negative|53627zero|111+all|105555unadjustedvariance96.25adjustmentforties0.00adjustmentforzeros-0.25adjustedvariance96.00Ho:d=

7、0z=-0.919Prob>|z|=0.3583P值=0.3583>>,故没有足够的证据说明两个总体不同二、平行对照设计的两组资料平均水平统计检验统计方法选择原则:如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。例2为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。

8、问噪声对纺织女工子代智能有无影响?(接触组group=0,不接触组group=1)资料及其结果如下:groupx0790930910920940770930740910101083073088010209001000810910830106084078087095010111011100111418611061107110719418911041981110189110318911211941951921109198198112011041110方差齐性检验H0:1=2vsH1:i2=0.1两组方差齐性的检验命令(仅适合两组方差齐性检验)sdtestx,by(group)Variancerat

9、iotestGroup|ObsMeanStd.Err.Std.Dev.95%Conf.Interval+0|2589.081.8229289.1146485.3176692.842341|25101.521.9009829.50491197.59657105.4434+combined|5095.31.57745611.154392.1299898.47002Ho:sd(0)=sd(1)F(24,24)observed=F_obs=0.920F(24,24)lowertail=F_L=F_obs=0.920F(24,24)uppertail=F_U=1/F_obs=1.087Ha:sd(0)&

10、lt;sd(1)Ha:sd(0)=sd(1)Ha:sd(0)>sd(1)P<Fobs=0.4195P<FL+P>FU=0.8389P>Fobs=0.5805P值=0.8389>>,因此可以认为两组方差齐性的正态性检验:H0:资料服从正态分布vsHi:资料偏态分布=0.05每一组资料正态性检验sktestxifgroup=0Skewness/KurtosistestsforNormalityjointVariable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Prob>chi2+x|0.9270.3261.050.5926

11、.sktestxifgroup=1Skewness/KurtosistestsforNormalityjointVariable|Pr(Skewness)Pr(Kurtosis)adjchi2(2)Prob>chi2+x|0.4740.6750.730.6948P值均大于,因此可以认为两组资料都服从正态分布H°:i=2vsHi:i2=0.05ttestx,by(group)Two-samplettestwithequalvariancesGroup|ObsMeanStd.Err.Std.Dev.95%Conf.Interval+0|2589.081.8229289.114648

12、5.3176692.842341|25101.521.9009829.50491197.59657105.4434+combined|5095.31.57745611.154392.1299898.47002+diff|-12.442.633781-17.73557-7.144429Degreesoffreedom:48Ho:mean(0)-mean(1)=diff=0Ha:diff<0Ha:diff=0Ha:diff>0t=-4.7232t=-4.7232t=-4.7232P<t=0.0000P>|t|=0.0000P>t=1.0000P值(<0.0001

13、)<,并且有01的95洌信区间为(-17.73557,-7.144429)可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并且差别有统计学意义。如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验ttesti样本量1样本均数1样本标准差1样本量2样本均数2样本标准差2例如:本例第1组n1=25均数1=89.08标准差1=9.115第2组n2=25均数2=101.52标准差2=9.505则ttesti2589.089.11525101.529.505Two-samplettestwithequalvariances|+-ObsMeanStd.Err.Std.D

14、ev.95%Conf.IntervalX|2589.081.8239.11585.3175192.84249yI-4-25101.521.9019.50597.59653105.4435combined|-k5095.31.57748211.1544892.1299398.47007diff|-12.442.633843-17.7357-7.144303Degreesoffreedom:48Ho:mean(x)-mean(y)=diff=0Ha:diff<0Ha:diff=0Ha:diff>0t=-4.7231t=-4.7231t=-4.7231P<t=0.0000P>

15、|t|=0.0000P>t=1.0000结果解释同上。方差不齐的情况,(小样本时,资料正态分布)还可以用t检验命令:ttest观察变量名,by(分组变量名)unequal立即命令为ttesti样本量1均数1标准差1样本量2均数2标准差2,unequal假定本例的资料方差不齐(实际为方差不齐的),则要用t检验如下ttestx,by(group)unequalTwo-samplettestwithunequalvariancesGroup|ObsMeanStd.Err.Std.Dev.95%Conf.Interval+0|2589.081.8229289.1146485.3176692.84

16、2341|25101.521.9009829.50491197.59657105.4434+combined|5095.31.57745611.154392.1299898.47002+diff|-12.442.633781-17.73581-7.144189Satterthwaite'sdegreesoffreedom:47.9159Ho:mean(0)-mean(1)=diff=0Ha:diff<0Ha:diff=0Ha:diff>0t=-4.7232t=-4.7232t=-4.7232P<t=0.0000P>|t|=0.0000P>t=1.0000结

17、果解释同上。t检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的白由度,由于本例的两个样本方差比较接近,故白由度几乎没有减少(t检验的白由度为48,而本例t白由度为47.9159)。由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比1。(注意:两个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。故用方差齐性检验的结果如

18、下:方差齐性的立即命令为sdtesti样本量1.标准差1样本量2.标准差2sdtesti100.0.1100.0.01Varianceratiotest|Obs+MeanStd.Err.Std.Dev.95%Conf.Intervalx|100.01.1.y|100.001.01.+combined|200Ho:sd(x)=sd(y)F(99,99)observed=F_obs=100.000F(99,99)lowertail=F_L=1/F_obs=0.010F(99,99)uppertail=F_U=F_obs=100.000P>F_obs=0.0000Ha:sd(x)<sd(

19、y)Ha:sd(x)=sd(y)Ha:sd(x)>sd(y)P<F_obs=1.0000P<F_L+P>F_U=0.0000P值0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样本方差之比是否接近1如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例介绍成组秩和检验),则用秩和检验(WilcoxonRanksumtest)。Ho:两组资料所在总体相同Hi:两组资料所在总体不同=0.05命令:ranksum观察变量名,by(分组变量)本例为ranksumx,by(group).ranksumx,by(group)Two-sampleWilcoxonra

20、nk-sum(Mann-Whitney)testgroup|obsranksumexpected+0|25437637.51|25838637.5+combined|5012751275unadjustedvariance2656.25adjustmentforties-3.70adjustedvariance2652.55Ho:x(group=0)=x(group=1)z=-3.893Prob>|z|=0.0001P值<0.0001<,故认为两个总体不同练习题某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统计分析:(1)该地健康成年男女血红蛋白含量

21、有无差别?性别例数均数标准差标准值男3604.660.584.84女2554.180.294.33男360134.507.10140.20女255117.6010.20124.70指标红细胞数(1012/L)血红蛋白(g/L)(2)该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?二、为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。问聋哑学生学习成绩与血清锌含量有无关系?表14对学生的血清锌含量(g/mL)编p优生组差生组编p优生组差生组11.201.3180.800.8620.991.3490.8

22、40.7231.031.10100.850.8840.900.72111.050.8151.220.92121.081.3060.901.34131.150.8570.970.98140.900.801. 教学应用:考察影响t检验结果的各种因素首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的目录下adobase(例如:Stata软件安装在D:stata,则把这两个程序复制到d:stataadobase目录下。然后输入连接命令:在2. STAT部境下,输入netsetado路径stataadobase。(路径表示Stata所在的盘符和目录)程序ttest2.ad

23、o是模拟在正态总体中随机抽1000昨样本,每个样本有2组,两组的样本量、正态分布的总体均数和标准差由读者选择输入,考察=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttest2.ado的输入命令为:ttest2样本量1均数1标准差1样本量2均数2标准差2例如:考察两组样本量均为30,总体均数均为100,标准差均为6的拒绝H0(1=2)比例,结果如下:.ttest2301006301006两样本t检验模拟程序输入样本量1均数1标准差1样本量2均数2标准差2sig|Freq

24、.PercentCum.+receive|950695.0695.06refuse|4944.94100.00+Total|10000100.00Variable|ObsMeanStd.Dev.MinMax+average1|1000099.993881.08310695.77671104.2778sd1|100005.942067.77644233.2457098.692573average2|1000099.996751.08640695.91508103.8237sd2|100005.949536.77767113.2766359.546211t|10000-.0036441.0035-

25、4.327873.602131-Binom.Interp.-Variable|ObsPercentileCentile95%Conf.Interval-+t|100002.5-2.001922-2.077161-1.955956|50-.0115932-.0389369.0137221|97.51.9923171.9333082.033179average1|100002.597.8590497.7923697.93009|5099.9893699.96717100.0172|97.5102.1116102.0614102.1734average2|100002.597.8611997.807

26、4997.91781|5099.986899.96412100.0107|97.5102.1835102.1131102.2403在随机抽1000昨样本中,计算了10000个t值,结果有494次拒绝H0(1=2),因此非常接近=0.05建议读者运行程序ttest2考察下列情况目的1:12时,不同的样本量,考察下列不同情况下的接受H0的比例(估计)以及两组样本量之比不同的情况对检验结果的影响。两组的总体标准差=2i=i002=99i=i002=98i=i002=97ni:n2i0:i0i0:i0i0:i0ni:n220:2030:3020:20n:n230:30i0:5030:30ni:n240

27、:4040:4040:40n:n230:5030:5030:50ni:n220:6020:6020:60ni:n2i0:70i0:70i0:70目的2:考察方差不齐对t检验(不是t'检验)结果的影响i=i002=i00i=i002=98i=i002=97i=i2=9i=92=ii=52=5ni:n240:i040:i040:i0n:n2i0:40i0:40i0:40ni:n260:3060:3060:30ni:n230:6030:6030:60n:n230:3030:3030:30ni:n240:4040:4040:40ni:n240:4040:4040:40目的3:通过运行程序tte

28、stexp.ado,考察资料非正态分布对结果的影响。3. 程序ttestexp.ado是模拟在指数分布总体中随机抽10000个样本,每个样本有2组,两组的样本量和总体均数由读者选择输入,考察=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttestexp.ado的输入命令为:ttestexp样本量1均数1样本量2均数2例如:考察两组样本量均为10,总体均数均为1的拒绝H)(1=2)的比例,结果如下:.ttestexp5151指数分布输入样本量1均数1样本量2均数2Variable|-U-ObsMeanStd.Dev.MinMaxaverage1|10000.9942006.444696.12237833.46752sd1|10000.8637844.5004927.03107054.281092average2|100001.007233.4560518.06139913.577513sd2|10000.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论