Stata软件基本操作和数据分析入门.doc_第1页
Stata软件基本操作和数据分析入门.doc_第2页
Stata软件基本操作和数据分析入门.doc_第3页
Stata软件基本操作和数据分析入门.doc_第4页
Stata软件基本操作和数据分析入门.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Stata软件基本操作和数据分析入门第四讲 两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)Stata数据输入结构X1X211.3141513.8151413.513.512.813.510121114.71211.41313.812.312操作如下:gen d=x1-x2 产生配对差值的变量dsktest d 正态性检验正态性检验结果如下:. sktest d Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- d | 0.279 0.774 1.43 0.4885正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布a=0.05,由于正态性检验的P值=0.40189a,故可以认为资料近似服从正态分布。ttest d=0 配对t检验: H0:md=0 vs H1:md0,a=0.05结果如下:One-sample t test-Variable | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- d | 10 -.6799999 .5204272 1.645735 -1.857288 .4972881-Degrees of freedom: 9 Ho: mean(d) = 0 Ha: mean 0 t = -1.3066 t = -1.3066 t = -1.3066 P |t| = 0.2237 P t = 0.8881P值=0.2237a,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:ttesti 样本量 样本均数 样本标准差 0本例为: ttesti 10 -0.66 1.65 0得到下列结果如下:. ttesti 10 .66 1.65 0One-sample t test- | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- x | 10 .66 .5217758 1.65 -.5203389 1.840339-Degrees of freedom: 9 Ho: mean(x) = 0 Ha: mean 0 t = 1.2649 t = 1.2649 t = 1.2649 P |t| = 0.2377 P t = 0.1188结果解释与结论同上述相同。如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:signrank 差值变量名=0假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则H0:差值的中位数0(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率治疗前的血红蛋白小于治疗后的血红蛋白的概率)H1:差值的中位数0a=0.05本例为 signrank d=0Wilcoxon signed-rank test sign | obs sum ranks expected-+- positive | 4 18 27 negative | 5 36 27 zero | 1 1 1-+- all | 10 55 55unadjusted variance 96.25adjustment for ties 0.00adjustment for zeros -0.25 -adjusted variance 96.00Ho: d = 0 z = -0.919 Prob |z| = 0.3583P值=0.3583a,故没有足够的证据说明两个总体不同。二、平行对照设计的两组资料平均水平统计检验统计方法选择原则:如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。例2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子代智能有无影响?(接触组group=0,不接触组group=1)资料及其结果如下:groupx0790930910920940770930740910101083073088010209001000810910830106084078087095010111011100111418611061107110719418911041981110189110318911211941951921109198198112011041110方差齐性检验H0:s1s2 vs H1:s1s2a=0.1两组方差齐性的检验命令(仅适合两组方差齐性检验)sdtest x,by(group)Variance ratio test- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434-+-combined | 50 95.3 1.577456 11.1543 92.12998 98.47002- Ho: sd(0) = sd(1) F(24,24) observed = F_obs = 0.920 F(24,24) lower tail = F_L = F_obs = 0.920 F(24,24) upper tail = F_U = 1/F_obs = 1.087 Ha: sd(0) sd(1) P F_obs = 0.4195 P F_U = 0.8389 P F_obs = 0.5805P值=0.8389a,因此可以认为两组方差齐性的。正态性检验:H0:资料服从正态分布 vs H1:资料偏态分布a=0.05每一组资料正态性检验sktest x if group=0 Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.927 0.326 1.05 0.5926. sktest x if group=1 Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.474 0.675 0.73 0.6948P值均大于a,因此可以认为两组资料都服从正态分布H0:m1m2 vs H1:m1m2a=0.05ttest x,by(group)Two-sample t test with equal variances- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434-+-combined | 50 95.3 1.577456 11.1543 92.12998 98.47002-+- diff | -12.44 2.633781 -17.73557 -7.144429-Degrees of freedom: 48 Ho: mean(0) - mean(1) = diff = 0 Ha: diff 0 t = -4.7232 t = -4.7232 t = -4.7232 P |t| = 0.0000 P t = 1.0000P值(0.0001)a,并且有m0m1的95%可信区间为(-17.73557,-7.144429)可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并且差别有统计学意义。如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验ttesti 样本量1 样本均数1 样本标准差1 样本量2 样本均数2 样本标准差2例如:本例第1组n1=25 均数1=89.08 标准差1=9.115第2组 n2=25 均数2=101.52 标准差2=9.505则ttesti 25 89.08 9.115 25 101.52 9.505Two-sample t test with equal variances- | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- x | 25 89.08 1.823 9.115 85.31751 92.84249 y | 25 101.52 1.901 9.505 97.59653 105.4435-+-combined | 50 95.3 1.577482 11.15448 92.12993 98.47007-+- diff | -12.44 2.633843 -17.7357 -7.144303-Degrees of freedom: 48 Ho: mean(x) - mean(y) = diff = 0 Ha: diff 0 t = -4.7231 t = -4.7231 t = -4.7231 P |t| = 0.0000 P t = 1.0000结果解释同上。方差不齐的情况,(小样本时,资料正态分布)还可以用t检验命令:ttest 观察变量名,by(分组变量名) unequal立即命令为 ttesti 样本量1 均数1 标准差1 样本量2 均数2 标准差2,unequal假定本例的资料方差不齐(实际为方差不齐的),则要用t检验如下ttest x,by(group) unequalTwo-sample t test with unequal variances- Group | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- 0 | 25 89.08 1.822928 9.11464 85.31766 92.84234 1 | 25 101.52 1.900982 9.504911 97.59657 105.4434-+-combined | 50 95.3 1.577456 11.1543 92.12998 98.47002-+- diff | -12.44 2.633781 -17.73581 -7.144189-Satterthwaites degrees of freedom: 47.9159 Ho: mean(0) - mean(1) = diff = 0 Ha: diff 0 t = -4.7232 t = -4.7232 t = -4.7232 P |t| = 0.0000 P t = 1.0000结果解释同上。t检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t自由度为47.9159)。由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比1。(注意:两个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。故用方差齐性检验的结果如下:方差齐性的立即命令为 sdtesti 样本量1 . 标准差1 样本量2 . 标准差2sdtesti 100 . 0.1 100 . 0.01Variance ratio test- | Obs Mean Std. Err. Std. Dev. 95% Conf. Interval-+- x | 100 . .01 .1 . . y | 100 . .001 .01 . .-+-combined | 200 . . . . .- Ho: sd(x) = sd(y) F(99,99) observed = F_obs = 100.000 F(99,99) lower tail = F_L = 1/F_obs = 0.010 F(99,99) upper tail = F_U = F_obs = 100.000 Ha: sd(x) sd(y) P F_obs = 1.0000 P F_U = 0.0000 P F_obs = 0.0000P值 |z| = 0.0001P值0.0001a,故认为两个总体不同练习题一、 某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统计分析:指标性别例数均数标准差标准值红细胞数(1012/L)男3604.660.584.84女2554.180.294.33血红蛋白(g/L)男360134.507.10140.20女255117.6010.20124.70(1) 该地健康成年男女血红蛋白含量有无差别? (2) 该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?二、 为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。问聋哑学生学习成绩与血清锌含量有无关系?表 14对学生的血清锌含量(g/mL)编号优生组差生组编号优生组差生组11.201.3180.800.8620.991.3490.840.7231.031.10100.850.8840.900.72111.050.8151.220.92121.081.3060.901.34131.150.8570.970.98140.900.80教学应用:考察影响t检验结果的各种因素1. 首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的目录下adobase(例如:Stata软件安装在D:stata,则把这两个程序复制到d:stataadobase目录下。然后输入连接命令:在STATA环境下,输入 net set ado 路径stataadobase。(路径表示Stata所在的盘符和目录)2. 程序ttest2.ado是模拟在正态总体中随机抽10000个样本,每个样本有2组,两组的样本量、正态分布的总体均数和标准差由读者选择输入,考察a=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttest2.ado的输入命令为:ttest2 样本量1 均数1 标准差1 样本量2 均数2 标准差2例如:考察两组样本量均为30,总体均数均为100,标准差均为6的拒绝H0(m1=m2)比例,结果如下:. ttest2 30 100 6 30 100 6两样本t检验模拟程序输入 样本量1 均数1 标准差1 样本量2 均数2 标准差2 sig | Freq. Percent Cum.-+- receive | 9506 95.06 95.06 refuse | 494 4.94 100.00-+- Total | 10000 100.00 Variable | Obs Mean Std. Dev. Min Max-+- average1 | 10000 99.99388 1.083106 95.77671 104.2778 sd1 | 10000 5.942067 .7764423 3.245709 8.692573 average2 | 10000 99.99675 1.086406 95.91508 103.8237 sd2 | 10000 5.949536 .7776711 3.276635 9.546211 t | 10000 -.003644 1.0035 -4.32787 3.602131 - Binom. Interp. - Variable | Obs Percentile Centile 95% Conf. Interval-+- t | 10000 2.5 -2.001922 -2.077161 -1.955956 | 50 -.0115932 -.0389369 .0137221 | 97.5 1.992317 1.933308 2.033179 average1 | 10000 2.5 97.85904 97.79236 97.93009 | 50 99.98936 99.96717 100.0172 | 97.5 102.1116 102.0614 102.1734 average2 | 10000 2.5 97.86119 97.80749 97.91781 | 50 99.9868 99.96412 100.0107 | 97.5 102.1835 102.1131 102.2403在随机抽10000个样本中,计算了10000个t值,结果有494次拒绝H0(m1=m2),因此非常接近a=0.05。建议读者运行程序ttest2考察下列情况目的1:m1m2时,不同的样本量,考察下列不同情况下的接受H0的比例(估计b)以及两组样本量之比不同的情况对检验结果的影响。两组的总体标准差s=2m1=100m2=99m1=100m2=98m1=100m2=97n1:n210:1010:1010:10n1:n220:2030:3020:20n1:n230:3010:5030:30n1:n240:4040:4040:40n1:n230:5030:5030:50n1:n220:6020:6020:60n1:n210:7010:7010:70目的2:考察方差不齐对t检验(不是t检验)结果的影响m1=100m2=100m1=100m2=98m1=100m2=97s1=1s2=9s1=9s2=1s1=5s2=5n1:n240:1040:1040:10n1:n210:4010:4010:40n1:n260:3060:3060:30n1:n230:6030:6030:60n1:n230:3030:3030:30n1:n240:4040:4040:40n1:n240:4040:4040:40目的3:通过运行程序ttestexp.ado,考察资料非正态分布对结果的影响。3. 程序ttestexp.ado是模拟在指数分布总体中随机抽10000个样本,每个样本有2组,两组的样本量和总体均数由读者选择输入,考察a=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。运行ttestexp.ado的输入命令为:ttestexp 样本量1 均数1 样本量2 均数2 例如:考察两组样本量均为10,总体均数均为1的拒绝H0(m1=m2)的比例,结果如下:. ttestexp 5 1 5 1指数分布输入 样本量1 均数1 样本量2 均数2 Variable | Obs Mean Std. Dev. Min Max-+- average1 | 10000 .9942006 .444696 .1223783 3.46752 sd1 | 10000 .8637844 .5004927 .0310705 4.281092 average2 | 10000 1.007233 .4560518 .0613991 3.577513 sd2 | 10000 .8707893 .5053219 .0353676 4.620248 t | 10000 -.0177069 1.115122 -5.64

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论