第八周-知道有多少孩子要使用不过话说stataSASSP_第1页
第八周-知道有多少孩子要使用不过话说stataSASSP_第2页
第八周-知道有多少孩子要使用不过话说stataSASSP_第3页
第八周-知道有多少孩子要使用不过话说stataSASSP_第4页
第八周-知道有多少孩子要使用不过话说stataSASSP_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(statastataSASSPSS应该一通百通,除了编程代第一Stata概机资源中心(ComputerResourceCenter)19851998的十四年时间里,已连1.1,1.2,1.3,1.4,1.5,……2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版WORD等直接调用。Stata Stata640k内存的微机,3.1Stata2400个记录×99个变量,并随计算机扩展内存的增加而4.0WINDOWS版本,Stata4800个记录×99WINDOWS95下的5.0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据。变量数和记录数可以互相交易(trade),即减少记录数可可以将分组变量转换成指示变量(哑变量)可以对数据文件进行横向和纵向,可以将行数据转为列数据,或反之可以恢复、修改执行过令StataStata20法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归Poisson回归、负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如 数值变量资料的一般分析:参数估计,t分类资料的一般分析:参数估计,列联表分析(2检验,列联系数,确切概率)元线性回归,逐步回归,回归,稳键回归,二阶段回归,百分位数(中位数)回归,残 度分析:条件和非条件的logistic回归,多类结果与有序结果的logistic回归,ProbitlogisticPoisson回归,等。生存分析:基线生存曲线的估计、相对度的估计,Kaplan-Meier生存曲线、表分析,对数秩检验,Man-Haenszel检验,Wilcoxon-Gehan检验,Cox比例风险模型,正TobitWeibull回归,等。三、Stata的作图功能Stata的作图模块,主要提供如下八种基本图形的制作:直方图(histogram),条形图(bar),Stata如矩阵的加、积、逆、Cholesky分解、Kronecker内积等;还提供了一些高级运算,如特尽管Stata的容量最大只容许400400的矩阵(默认为4040),用它来完成日常工作中的Stata所欲。事实上,Stata的ado文件(高级统计部分)Stata自己的语言编写的。下面这n个参数为的Poisson分布的随机数。progdefine/*setobs/*setseed/*设置随机数gen/*定义变量rpPoissonlocal/*lamda0=exp(local/*while`j’<`2’+1j<n循环,jjPoissonlocallocalwhile`i’>0ilocalr1=均匀分布的随机localif`r0’<localn0=`i’-n0=i-locali=-i=-}locali=i}quietreplacerp=`n0’ifjlocalj=j}§1.3DOSStataStataautoexec.batDOS下任何位Statad:\盘上进行。进入Stata后,屏幕显示Stata的版本号,公司所在地等信息,Dos版本下的Stata即出现Stata的各种命令。若已在Stata状态读入了数据,并且已将数据按Stata指令存盘,或读入的数据虽经分析,.inputxxy1.1..即可退出Stata动修改数据结构,如按某变量排序等),这时,Stata将退出Stata状态。若确实不需要存盘而退出Stata,可键入:.(e为exit的简写)即可强行退出Stata.drop.WINDOWS版本的Stata的进入和退出在桌面上双击Wstata的图标:StataStataFileexitStata。如数据未存盘,Stata给出如下提示:“Datahaschangedwithoutbeingsaved.Doyoureallywanttoexit?”(数据已改变,但未存盘,是否真的要退出?)如要退出,则按确定,否则按取WINDOWS令退出StataStata可以从键盘输入数据,也可以从文件读入数据。WINDOWS下的Stata还可以用x12345y5.56.. 142345Statad:\mydata\子ex1.dta,命令为:.savefiled:\temp\ex1replace.dta该指令在d:盘的mydata子 中建立了一个名为“ex1.dta”的Stata格式的数据文件。后缀dta是Stata内定的数据格式文件。该格式文件只能在Stata中用use命令打开:.use 中已有相同文件名的文件存在,则该命令将给出如下信息:filed:\mydata\ex1.dtaalreadyexists,告诉用户在该目标盘及子 如欲覆盖已有文件,则加选择项replace。命令及结果如下:.saved:\mydata\ex1,replacefiled:\temp\ex1.dtasaved这样,Stata在d:盘的mydata子 Stata在屏幕上显示的运行结果有两种,一种是纯字符型的(如方差分析结果,回归分析结log.logusingresult1Stata自动加上后缀“.log”,亦可由用户自己加上其他后缀。执行该指令后的所有操作指令和文字结果(help下显示的结果)将记录在结果文件“result1.log”中。若执行某一指令后的结果没有必要记录下来,则可事先用指令“logoff”暂停记录,需要记录时再用“logon”继续记录,最后用“logclose”关闭文件。如果结果文件“result1.log”已经存在,用“logusingresult1”result1.logresult1.logreplace。即键入:.logusingresult1,.logusingresult1,文件“result1.log”可在EDIT、PE2、WPS或WORD等字处理软件下编辑、打印,也可DOS下用type或print命令通过显示器浏览 输出硬拷贝若要将图形结果打印下来,需要在绘图指令中加上“saving”1.1中xy的散点图并存入文件“ex1.gph”,可用下述指令.graphyx,c(l)这时屏幕上显示y与x的散点图,并将被存入d:\mydata\子 “ex1.gph”(gph是Stata内定的图形文件后缀,用户亦可自己定义后缀名)。该图形可在Stata状态用“graphusingd:\mydata\ex1”重新显示在屏幕上,可在File的PrintGraphDOS版本的Stata可在DOS提示符下用“gphdot”D:\MYDATA>gphdot Stata的操作方Stata状态直接键入指令,每输入一个指令,Stata执行一个,这种方式称为交互式操例 用例1.1数据建立回归方程.use..regy 令文件(文本格式,即ASCII码),并仔细核对分析内容、命令格式,直至组织数据文件的合理性等,修改好后再在Stata状态执行该命令文件。例 用非交互式操作对例1.1数据进行相关和回归分析setmore/*指定结果窗口中,当输出结果满一屏后,不再显示--logusinguse/*gray/*yxcoryyxregyyxlogsetmore/*指定结果窗口中,当输出结果满一屏后,显示-,直到按任意键后,再显示下一第二步,在Stata状态键入.doStata执行这些命令是自动的,不间断的。 Stata的帮助功 helpStataHelp此时输入需要帮 ,如regress,按OK即可得到帮助StatahelpcontentsStata的全部命令及其简单解释;或在帮助窗口按Contents,则出现如下的帮助内容窗口。 令时,用菜单操作更好。Stata的常用命令见附录。下面以多元线性回归命令为例,介绍Stata 欲得到命令格式,键入helpregress即可得到:[byvarlist:]regress[depvar[varlist1[(varlist2)]]][weight][ifexp][inrange][,level(#)betahasconsnoconstantnoheadereform(string)depname(varname)mse1]命令中,[]这里介绍命令的公共选择部分,该命令 选择项将在相应章节作介绍byvarlistvarlistgroup,且1,2,3,4,则“bygroup:”Statagroup=1,group=2,group=3和group=44个回归方程。在选用该选择项前,要对变量排序,即先执行.sort ifexp,if /*group=1if /*group>2ifgroup==1| /*对满足group=1或group=2if /*group3ifgroup==1& /*group=1,sex=0inrange,指定观察值的范围,对在范围内的观察值作分析。下列语句是合法的:in1/25 /*对观察值范围为1~25号的观察值作分析in /*26~44in26/l /*对观察值范围为26~最后(last)的观察值作分析in5/l /*对最后5个观察值进行分析另外一个选择项,也可用于很多命令,它就是for。例如,在作回归分析时,自变量为x1,x2,…,x2222变量,而因变量有y1,y2,…,y10,z1,…,z515个变量。欲分别建立每个yizix1,x2,…,x2215for选择项只需一个命fory1-y10z1-z5:regress@x1-命令中,for后面的变量是选定的,regress是作回归分析,@是替换符,Statafory*:summ本节STATA命令摘要[[1]]input12…(end结束)infile12…musing(save路径](STATAdta,replaceFileSAVEasSAVE进行操作)outfileusing路径](raw,replace)调用已存的STATA格式文件use路径](Fileopengen=修改变量值replace=[in][if((miningdata)STATA(ASC)读入数据和在DOSFoxStata1命令格式:input12…10(<>,pp蛋在下列STATAx1x2STATA令1.inputinputx1x2113140150150135128100100110120130123STATA命令:infile12…musing路径]如:上例数据已以文本方式存在C:\user子 STATAinfilex1x2usingSTATAsave 中存盘(STATA格式的数据文件的缺省扩展名为如果ex1.dta在当前 在的文件ex1.dta,则:saveex1.dtac:\usersavesavec:\user\ex1.dta,STATAoutfile12…musing路径]文本数据文件名[,replace]相同的文件STATA文本数据文件ex1.txt并存入c:\user,则:STATA令outfilex1x2usingc:\userex1.txt,并打算用当前STATA盖它。则outfilex1x2using(STATASTATA数据文件)use]STATAclear子命令,表示清除原如:调用在c:\user 下的ex1.dtaSTATA系统数据文件,则useuse注意:use与save是一对调用STATA系统数据文件和以STATA系统格式存 令infile和outfile也是一对调用外部文本数据文件和以文本文件格式存 令STATAgen新变量名=STATAx1x2的数据,因此需要genx=x1-STATAreplace变量=[if逻辑表达式in范围x999STATA缺省值的记号,所有大于1002;x10051;x5的所0。replacex=.ifreplacereplacex=0ifreplacex=1ifx>5&x<=100[2]replacex=2ifx>100第二章描述性统计命令与输出结果STATAby分组变量:]summarize12…变量名m[,detail]ci12…m[,level(#)binomialpoissonexposure(varname)by(ciilevel(#)tab1变量名[,generate(变量名)](卫生统计学,1978,p21):组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),STATAex2a.dtasummarizeuseex2,clearsummarizex1x2Variable|ObsMeanStd.Dev.Min++x1|114.7109091.3029772.6x2|133.3546151.3043681.673.35461.30441.675.78。计算资料均数,标准差,中位数,低四分位数和高四分位数令summarize以及子命令detail,仍以述资料为例:useex2,clearsummarizex1x2,detailPercentilesSmallest()1%2.62.65%2.610%3.243.73Obs11(样本数25%3.73低四分位3.73SumofWgt50%4.73中位数最大值Mean4.710909(均数)LargestStd.Dev.1.302977(标准差)75%5.78(高四分位90%6.45.78Variance1.697749方差95%6.536.4Skewness 99%6.536.53Kurtosis1.809951峰度④Percentiles1%1.675%1.6710%1.981.98Obs25%①2.332.33SumofWgt.50%②3.6Mean⑤LargestStd.Dev.1.30436875%③4.174.1790%4.824.57⑥Variance95%5.784.82⑦Skewness99%5.785.78⑧Kurtosis由上述结果可知:summarize命令并使用子命令detail,不仅可以得到各变量资料的均和⑥标准差,而且可以得到主要的非参数描述指标:①低四分位(lowerquartile),②中位(Median)以及③高四分位(upperquartile)。对于非正态资料,一般不应用均数±标准差进描述,而应使用中位数以及(低四分位-高四分位,称interquartilerange,IQR)进行描若调用ex2a.dta文件,进行描述性统计,可用下列命令usesortgroup(group)bygroup:summarizex->group=xPercentiles1%2.65%2.610%3.243.73Obs25%3.733.73SumofWgt.50%4.73MeanLargestStd.Dev.1.30297775%5.785.5890%6.45.78Variance95%6.536.4Skewness-99%6.536.53Kurtosis->group=1PercentilesSmallest1%1.671.675%1.6710%1.981.98Obs25%2.332.33SumofWgt.50%3.6MeanLargestStd.Dev.1.30436875%4.174.1790%4.824.57Variance95%5.784.82Skewness99%5.785.78Kurtosis[2]95%可信限计算:ci0-1ci变量名poissonci90%90%()正态数据:ci变量名,level(90)0-1ci变量名level(90poissoncilevel(90)ex2.dtax1,x295use①②③Variable|ObsMeanStd.Err.[95%Conf.+||..95%x195[3.8356,5.5863],x2的95[3]95cii90401295%cii9040Variable|ObsMeanStd.Err.[95%Conf.+|90401.26491137.4866590%[37.48665,cii9040Variable|ObsMeanStd.Err.[90%Conf.+|90401.26491137.89752STATAtab1[,g(因为该命令主要适用描述计数资料(即:属性资料),当使用子命令g(新变量)这些指示变量作为亚元变量进行分析。例:50510养一定时间后,测定鼠肝中的铁的含量(mg/g)各组鼠肝中铁的含量是否有显著性差别(摘自医学统计方法,金丕焕主编,p220)。用x表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。11111111111222222222263333333333444444444435555555555tab1->tabulationof①②group|Freq.Percent+1|1020.002|1020.003|1020.004|1020.005|1020.00+Total|50比;③为累计百分比。50510样本数的10%。因为使用了子命令g(a),从而产生5个指示变量(a1,a2,a3,a4a5a11资料:即:当资料属于第1组的(group=1),则a1=1;其它组的资料(group¹1)a1=0a22a3,a4和a5相应分别指示第3,4,5组的资料(详细见下表)。1111111111111111111110000000000000000000000000000000000000000222222222200000000001111111111000000000000000000000000000000600000000000000000000[1][1]分布。正[2]可11111111110000000000000000000033333333334444444444000000000000000000000000000000111111111100000000003555555555500000000000000000000000000000000000000001111111111算相应0.95中,独立地抽样10095%9595%所对应[3]为立即命令第三态检验与作图STATAswilkswilk12…mgraph变量名[,bin(#)]graph12[,在t检验、方差分析、线性回归、相关系数等检验中,都假设数据服从正态分布,因此需要对数据作正态性检验。一般需要从频数分布直方图上考察数据是否偏态以及用Shapiro-Wilk方法进行正态检验。因为仅使用Shapiro-Wilk方法进行正态性检验,虽然能了解数据整体分布情况,但不能了解少量数据偏态情况,而性判断。以下以ex2.dta数据为例,进行正态检验。useex2.dta,clearswilkx1x2Shapiro-WilkWtestfornormal①Variable|ObsWVzPr>+x1|110.962630.605-0.856x2|130.930791.2190.388H0:p值,若p值<0.05graph#15graph1m(³1)graph12…mc(c1…cmc(c1…cm)为连接设置:c1…cm为对应m()l点与点之间用直线连接¡LsOO(STodp.i例:graphy1y2x,c(l.)则:y1xy2x线图为散点图且用小菱形表示这些散点。第四t检验和单因素方差分析(上STATAttestvarname=ttestvarname1varname2unequalunpairedttestvarname,by(分组变量)[unequal]ttestittesti111222unequal]sdtest1=2onewaymeansbonferronischeffesidaktN(m,s2)H0m=m0ttest=#(#m0)10如下(数据摘自金丕焕主编<医用统计方法>,pp37):ex1.dta(x1数据为x2),问:患者治疗前后的血红蛋白是否有显著改变?gend=x2-H0t(ttest①Variable|ObsMeanStd.+d|10 Ho:mean=③t=1.31with9④Pr>|t|=上准tp[1]结果(t)tttSTATAttest1=ex1.dta)usettest |ObsMeanStd.+x1|1012.59x2|1013.27+diff.|10- Ho:diff=0(paireddata)t=-1.31with9d.f.Pr>|t|=t对于两组数据的t检验,要求两组数据均服从正态分布,两组(不能应用两组数据的t检验)。STATA令ttest1=2,ttest1=2,unequal(x1x2入ex2.dta文件中)。H0:相同。useex2.dta,ttestx1=x2,unpaired(①Variable|ObsMeanStd.+x1|114.710909x2|133.354615+③combined|243.97625Ho:mean(x)=mean(y)(assumingequal④t=2.54with22⑤Pr>|t|=tt值;⑤Ho的tpp=0.0187(<0.05)[2]本例也可以使用ex2a.dta(在STATA如何输入数据这一)x分组变量group表示健康组(group=1)或患者组(group=0),则:useex2a.dta,clearttestx,by(group)|ObsMeanStd.+①0|114.7109091|133.354615+combined|243.97625Ho:mean(x)mean(y)(assumingequalvariances)t=2.54with22d.f.Pr>|t|=0.0187group=0group=1ttestunequal.ex2a.dta方差不满足齐性要求(仅仅是假设而已,实际上两组方差是齐性的),则usettestx,by(group)Variable|ObsMeanStd.+0|114.7109091|133.354615+combined|24Ho:mean(x)mean(y)(assumingunequalvariances)t=2.54with21.35Pr>|t|=tt(t)ptm=m0STATAttesti#m01.280.92210.2ttesti211.280.92|ObsMeanStd.+x|211.28Ho:mean=t=5.38with20d.f.Pr>|t|=0.0000t5.3820p<0.0001显著地大于0.2。STATA命令为:ttesti11122211101.91412.82.3若两组假定方差齐性,则:ttesti11101.91412.8Variable|ObsMeanStd.+x|1110y|1412.8+combined|2511.568Ho:mean(x)=mean(y)(assumingequalvariances)t=-3.25with23d.f.Pr>|t|=tttesti11101.91412.82.3,Variable|ObsMeanStd.+x|1110y|1412.8+combined|25Ho:mean(x)=mean(y)(assumingunequalvariances)t=-3.33with22.92d.f.Pr>|t|=STATAsdtest1=2sdtestby()ex2.dtax1x2(性),则:usesdtestx1=x2(①Variable|ObsMeanStd.+x1|114.710909x2|133.354615+combined|24.③Ho:sd(x)=sd(y)(two-sided④F(12,10)=⑤2*(Pr>F)=F值;⑤Hop值(p于1p11)p<0.05x1和x2p0.05近1,ex2a.dtax(group)useex2a.dta,clearsdtestVariable|ObsMeanStd.+0|114.7109091|133.354615+combined|24.Ho:sd(x)=sd(y)(two-sidedtest)F(12,10)=1.002*(Pr>F)=ex2.dta和ex2a.dta[1](Ho)p值。pHopHo[2]t验这个变量总体均数是否大于另一个变量的总体均数,但是t检验统计量结果与这两个均数的差的95%可信限一一对应:t检验的p值<0.05,则对应的两个均数的差的95%可信限不包含095%0tp<0.05;们的样本均数的差<0以及t检验的p值<0.05,则95%可信限的两个区间边界均为负数。由于95%可信限是总体均数的区间估计,因此两个总体均数的差<0的概率不小于0.95;反之若样本均数的差>0以及t检验的p值<0.05,则95%可信限的两个区间边界均为正数,因此两个总体均数的差>0的概率不小于0.95。由两个总体均数之差大于0或小于0,便可得知哪一个变量的总体均数更大一些。t··单因素方差分析又称为OnewayANOVA,用于比较多组样本的均Ho:STATA中可用命令:onewaymeansbonferroni例:测定健康男子各年龄组的淋巴细胞转化率(%),结果见表,(资料摘自卫生统计学,四川医学院主编,p30)(%)11-20岁组:58616162636870707441-50545757586060636461-7543525556x11-2041-5061-75x111111111122x222222233333STATAonewayxgroup,mean|Summaryofxgroup|Mean+1|2|3|+Total|61.25ysisofSourceSSdfMSFProb>③④⑤⑥Betweengroups616.3111112308.1555569.77⑧⑨Withingroups662.18888921Total1278.5023Bartlett'stestforequalvariances:chi2(2)=2.1977Prob>chi2=0.333ComparisonofxbygroupRowMean-|ColMean|1|2|-6.61111|0.054|3|- -| ①为对应三个年龄组的淋巴细胞转化率的均数;②三组合并在一起的总的样本均数;③组间离均差平方和;④组间离均差平方和的自由度;⑤组间均方和(即:⑤=③/④);⑧组内离均差平方和;⑨组内离均差平方和的自由度; 组内均方和(即:=⑧/⑨);⑥为F统计值(即为⑤/ );⑦为相应的p值; 为方差齐性的Bartlett抯检 方差齐性检验相应的p值; 第二组的淋巴细胞转化率样本均数-第一组的淋巴细胞转化率的样本均数的差; 第二和第一组均数差的显著性检验所对应的p值; 第三组的淋巴细胞转化率样本均数-第一组的淋巴细胞转化率的样本均数的差;p值;-数的差;第三和第二组均数差的显著性检验所对应的p值。似服从正态分布,无效假设Ho检验所对应的p值<0.01,可以认为这三组均数有显著差异。由Bonferroni统计检验结果表明:第一组淋巴细胞转化率显著地高于第三组淋巴细胞转化率(p<0.005),其它各组之间均数无显著性差异。第五章STATAranksumby(分组变量kwallisby(分组变量Mann,WhitneyandWilcoxon料的中位数是否有差异。STATA命令为:ranksumby((金丕焕主编,p218)。表中用x表示雌鼠体重增加(克),用group=1表示高蛋白饲料组以及用group=2表示低蛋白饲料组。x1111111111x112222222Ho:ranksumx,Test:Equalityofmedians(Two-SampleWilcoxonRank-①SumofRanks:49.5(group==2)ExpectedSum:70②③z-statistic-Prob>|z|0.0832()70zp在本例中,虽然第二组的秩和为49.5而期望值估计为70,但p0.0832白饲料喂养能明显增加雌鼠的体重。(布(即:至少有一组的资料均不服从正态分布)或各组的资料方KruskalandWallis(Ho:数相同)。STATA命令为:kwallisby(分组变量例:50510(mg/g)各组鼠肝中铁的含量是否有显著性差别(摘自医学统计方法,金丕焕主编,p220)。用x表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。 1 11111111 22222222 6 33333333 44444444 3 55555555x,Test:Equalityofpopulations(Kruskal-Wallis①group_Obs110210310410510chi-squared=27.856bability=0.0001c2验所对应的p值。本例结果表明:5组的中位数有显著的差异。即:5个不同饲料量与喂养的饲料有关。作者:登:医学统计STATA命令摘要[by分层变量名:]tab212[,allchi2exactcellcolumnrow]tabi#1112[#21#22allchi2exactcellcolumnrow]·STATA令[by分层变量tab212,allchi2lichi2exactcellcolumn上述命令中,变量12为列计数变量;all表示卡方(c2)检验,似然比(likelihoodratio)检验以及一些统计描述指标和Fisherexact表示Fisherchi2表c2lichi2likelihoodratiocell示每个观察计数值占该列联表总观察计数值的比例;row表示输出的列联表中显示每个观察计数值占该观察计数值所在行coloumn每个观察计数值占该观察计数值所在的列各观察计数值总数的比例。“”()group=1表示肝癌组患者和group=2custom=1custom=2饮用醋冷水和饮用醋冷水和custom=3表示从不饮用醋冷水。具体资料为:(摘自医学统计方法,金丕焕主编,p163)。组 经 偶 从不饮 合肝癌 健康 合 "",""""检验患肝癌是否与饮水习惯有关。tab2groupcustom,row->tabulationofgroupby|group|123| 1|①264428||②26.5344.9028.57| 2|③284917||④29.7952.1318.09| Total|⑤549345||⑥28.1248.4423.44|Pearsonchi2(2)=2.9497Pr=()3(健康组)的3个观察数;④该行表示第二组的各个观察数的占三个分类:“经常”,“偶尔”和“从不”的合计数;⑥该行表示上述三个合计数分别占总样本数的百分比。2.94972,p0.229以根据当前资料和结果显示:患肝癌病与是否饮用醋冷水无·tabi#11#12[...]\[#21#22[...][\...][,allchi2exactcellcolumn#11#12一行第二列的观察数;\表示换一行;#21表示列联表中第二行第一列的观察数,其它以此类推。子命令:allchi2exactcellcolumnrow与上述命令完全相同。以上例的资料为STATAtabi264428\284917,chi2|row|123| 1|264428||26.5344.9028.57| 2|284917||29.7952.1318.09| Total|549345||28.1248.4423.44|Pearsonchi2(2)=2.9497Pr=0.229likelihood-ratiochi2(2)=2.9760Pr=0.226方检验(Pearsonchi2test)与似然比检验(likelihoodratiochi2test)趋向一·Fisher()(6547(Ho成立时的期望频数)。5Fisher精确检验法。相应的tabi42\05,exactcol|row|12| 1|42||66.6733.33||100.0028.57| 2|05||0.00100.00||0.0071.43| Total|47||36.3663.64||100.00100.00|①Fisher'sexact=②1-sidedFisher'sexact=FisherFisher在Fisher精确检验中,假定每列和每行的合计数都是常数情况FisherFisherFisherp0.04545+0.01515»0.061·由于Fisher检验是在每列和每行的合计数都是常数的假定下的(的人数是常数,即:仅每行的合计数是常数),横断面抽样调查()Fisher[1]Fisherp值:观察数理论数>1.8ptptt样本计算值ptt-t样本计数值的面积之和,而Fisher双侧检验:计算|观察剩-理论数|>1.8的p值的和。即:在本例中,观察数-理论数=1.8相应t检验中的t样本计算值。STATA-理论数5-3.2=1.8起的,所以不仅要计算所有观察数-理论数(3.2)1.8的p值[1],还要计算所有理论数(3.2)-观察数大于1.8的p值。即:计算|-|1.8p(3.2)-442605547Fisher察数大:06641547correlate12…spearman11,…mSTATA命令为:pwcorrpwcorr12…m,例:上海医科大学儿科医院研究某种代乳粉的营养价值时,用(克)(克)的原始数据如下表,用x表示大白鼠进食量和用y表示大白鼠增加体重,试作相关分析(资料摘自医学统计分析,金丕焕主进食量(克增加体重(克x和ypwcorrx|y+x|||y|①0.9395|②|①为xyr(Ho:r=0)应的p量与(xy布)xy对于那些不能满足正态分布的数据之间的相关分析应采用非Spearman方法。STATA命令为:spearman1spearmanxNumberofobs=Spearman'srho=0.8994TestofHo:xandyindependent③Pr>|t|=SpearmanHo:xySpearman相关显著性检验所对应的p值。由上述结果表明:Spearman相关系数为0.8994,相应的p值为0.0004大白鼠体重增加呈正相关。STATAlogrank[,by(分组变量在医学研究中,除了计量资料和计数资料外,还经常遇到生存分析的资料,这种资料不仅描述所观察对象是否有结果(死亡或没死亡以及失访)而且还记录了从观察开始起至观察结束的时间长度。这种资料容许失访资料参加分析。因此这类资料至量(死亡或未死亡),失访资料记录了从开始观察至到失访时的观察时间长短以及失访结果作为未死亡的情况(因为在失访)检验的方法,一般采用logrank检验方法(无效假设:两组死亡人数的期望值相同)。STATA命令为:logrank生存时间变量果变量[,by(分组变量例:25A、B1974531并用group=0表示A组和group=1表示B组;t表示参加试验的日数();e=0e=1ex7.dta0000000t88e10111100000011te 10011 11111t e 11101 11t e 11logranke,①GroupEvents06111③chi2(1)=④Pr>chi2=logrankHologrankp值由上述统计结果表明:两组死亡人数期望值无显著性差异,因性差异。因素方差分析命令与输出结果说STATAanova12…tabulate12,summarize(anova1*2例:治疗缺铁性贫血病人12例,分为4组,采用4种不同治疗方(/mm3)(称一般疗法组);第二组为一般疗法+A药(称+A药组);第三组为—般疗法—般疗法+B药(称+B药组);第四组为一般疗法+A药+B药(称+A+B药组)(用y表示)。用X1=2A药以及用X1=1表示未加用A药;用X2=2表示加用B药以及用X2=1表示未加用B药;研究问题为“哪一种治疗方案疗效最佳?"(资料如下表所示,摘自医学统计方法,金丕焕主编,p71)。+A+B+A药+B2tabulatex1x2Means,StandardDeviationsandFrequenciesof|x1|12 1|① 1||② ||③33| 2|1.22.1|| ||33| Total|11.55|| ||66|的标准差;③为该组的样本数;其它各组的结果也对应相同。A0.4(百万/mm3)B0.2(0.2(百万/mm3);加AB多1.3(百万/mm3),超过了单独加A药与一般疗法的红细胞增加数均数差值(0.4百万/mm3)与单独加B药与一般疗法的红细胞增加数均数差值(0.2百万/mm3)之和(0.6百万/mm3),因此需要用二因素方差分析的方法检验这些不同的治疗方法所对应不同的红细胞增加数是否有显著性差异?anovayx1x2Numberofobs=12R-squared=0.9737RootMSE=.10AdjR-squared=0.9638①②③④Source|PartialSSdfMSFProb>+Model| 3 98.75|⑥x1|1.687511.6875168.75⑦x2| 1 90.75⑧x1*x2| 1 0.0003|⑨Residual| .01+Total| 11FFpA药;⑦加BAB药()项 所有因素的变异度之和以及对应的统计量和检验值(p=0.0003)AB药具有协同作用,即:其疗效显著地超过了分别加A药和加B药疗效之和。第第十章线性回归和逐步回归命令和输出结果说STATAregress因变12stepwise12m,baforwstfe(#)fs(#)test表达式predict新变predict新变量,resipredictstdppredictregressbeta()。stepwisebaformstfe(#)F(#)STATA0.54;fs(#)F(#)STATA0.14。testpredicty值()。predict,resipredicty(标准误也不同)。predict新变量,stdr是计算因变量y的预测值的标准误。例:对15名对象的血浆粘度(Y)及其3个血浆成分:白蛋白(x1),球蛋白(x2)和纤维蛋白原(x3)进行测定,试建立多元线性回归方():编号y123456789regressyx1x2 ①①②Source|SSdfMSNumberofobs=+④F(3,11)=⑤Model|3⑦Prob>F=⑥Residual|11⑧R-squared=-⑨AdjR-squared=Total|14RootMSE=y|Coef.Std.Err.tP>|t|[95%Conf.+x1|9.57e-060.1610.875-.x2|.0.5120.619-.x3|.2.4970.030._cons|1.1327322.6500.023FFp度后的决定系数 为残差均方和的根号 回归系数 回系数的标准误 回归系数检验的t值 回归系数检验相应p值 回归系数的95%可信限变量,因此应对残差作正态性检验和残差分析,由于这部分内容已超出了本教材的范围,所以不在此处详细介绍。以本例数据介绍逐步线性回归分析,设筛选变量进入模型的F值等于变量从模型中剔除的F值,并均为1.5,其输出内容对应相同:stepwiseyx1x2x3,fe(1.5) :x1F=0.02577 :x2F=Source|SSdfMSNumberofobs=+F(1,13)=Model|1Prob>F=Residual|13R-squared=+AdjR-squared=Total|14RootMSE=y|Coef.Std.Err.tP>|t|[95%Conf.+x3|.2.8250.014._cons|1.28797411.7410.0001.050982x1的Fpredictyhatyhatpredicte,resi计算残差epredictpredictymuse,stdppredictyhatse,stdr第第十一章Logistic回归分析命令与输出结果说logistic因变量12变量mclogit因变量12m,strata(配对编号变量logisticlogistic,logistic1(=1)(=0)以及P(Y=0)=1-logistic的模型,x1,x2,…,xm为协变量,用这些协变量刻划研究问题中P(Y=1)。lfitclogit是条件logistic回归命令。例:为了分析研究一组病患者,经治疗后的病情恢复情况。设Y(Y=0Y=1)x1情严重程度(x1=0表示不严重,x1=1表示严重),变量x2为年龄(岁),变量x3为疗法(x3=0表示新疗法,x3=1表示传统疗法)。现40logistic析()YY110100121010018100011100000000000000001000Y=1Y=0(化)logisticyx1x2LogitEstimatesNumberofobs=①chi2(3)=③②Prob>chi2=LogLikelihood=-22.509701④PseudoR2=⑤⑥⑦⑧y|OddsRatioStd.Err.zP>|z|[95%Conf.+|.-.|.-.|.-.①为(1)比检验();应的p标准Z95%x1x2(x3=1)(Odds)小于新疗法(x3=0)的恢复和未恢复的比数(Odds)(比数比logistic(logisticSTATA令clogit12…变量m,strata(配对编号变量YY=1Y=0类似情况与其对应)12…m为协变量。在配对1:1的条件下,发病的概率为:数据对模型拟合才能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论