




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据统计分析一般可遵循以下思路:(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、2检验、非参数检验等。相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。(2)明确数据类型,根据数据类型进一步确定方法:定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。 第一部分:统计描述1. 定量资料的统计描述指标及SAS实现;(1)数据分布检验:PROC UNIVARIATE基本格式:语句格式示例:1. PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/2. CLASS group;/*指定group为分组变量*/3. VAR weight;/*指定分析变量为weight*/4. RUN;结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P0.05提示不服从正态分布,P0.05提示服从正态分布。注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3)(2)数据描述(符合正态分布的数据):PROC MEANS基本格式:关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min;n:有效数据记录数(有效样本量) median:中位数mean:均数 qrange:四分位数间距std:标准差 var:方差clm:95%可信区间 max、min:最大、最小值语句格式示例:1. PROC MEANS n mean std median qrange clm;/*关调用proc means过程,要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95%可信区间*/2. CLASS group;/*指定group为分组变量*/3. VAR weight;/*指定分析变量为weight*/4. Run;结果以“均数标准差”表示(3)偏正态分布的统计描述: 基本思想:计算中位数和百分位数,并且用“中位数(Q1Q3)”表示语句格式示例:1. proc univariate data=aa;2. var x;3. output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100百分位数,间隔2.5个百分位数,并将结果输出在数据集“aa”中*/4. run;5. proc transpose data=c out=d; 6. proc print data=d;7. run;/*以上是求解百分位数语句*/1. proc univariate data=aa2. CIPCTLDF(alpha=0.05);/* 求百分位数的95%可信区间,(alpha=0.05)此处可缺省;若需求可信区间,只需指定相应的alpha水平*/3. var x;4. run; 结果:a.偏态分布的统计描述以“中位数(Q1Q3)”表示 b.总体参数的95%可信区间2. 分类(定性)资料的统计描述指标及SAS实现(1)输出频数表:PROC FREQ基本格式:语句格式示例:1. PROC FREQ;2. TABLE group * weight;/*table后有group和grade两个变量,交叉形成一个行X列的表格,若group为2类,grade为3类,因此形成2X3=6个格子,每一格子中给出例数和相应比例*/3. RUN;(2)直方图的绘制基本语句:histogram 变量x语句格式示例:1. proc univariate; 2. var x;3. histogram x/midpoints=163 to 183 by 2; /*要求Univariate过程绘制的直方图中各直条的组中值为163、165、183(自行改动)*/4. run;(3)计算基本统计量和95%可信区间:PROC UNIVARIATE基本要求:计算定性资料的95%可信区间语句格式示例:1. proc univariate cibasic; /*基本统计量及其可信区间,对应于CIBASIC选项*/2. var x;3. run;结果:此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏,其他可无视。第二部分:定量资料的统计分析1.单一样本均数的检验(1)直接公式编辑适用条件:没有原始数据,而只知道样本均数及已知总体的总体均数时方法示例:某医生测量了36名从事某作业的男性工人的血红蛋白含量,其均值为130.83g/L,标准差为25.74g/L。问从事该作业男性工人的血红蛋白含量是否不同于正常成年男性的均值140g/LSAS过程步:1. data aa;2. n=36;3. sm=130.83;/*样本均数*/4. std=25.74; /*样本标准差*/5. pm=140; /*总体均数*/6. df=n-1; /*自由度*/7. t=(sm-pm)/(std/sqrt(n); /*单样本t 检验的计算公式*/8. p=(1-probt(abs(t),df)*2;/* abs(x)函数:返回x的绝对值。probt(x,df)函数:是student t分布的概率分布函数,用于计算自由度为df的t分布在t取x值时的概率。因为是做双侧检验,所以求得一侧的概率值后再乘以2*/9. proc print;10. var t p;11. run; 结果使用t和p值(2)利用MEANS或UNIVARIATE过程计算已知样本资料的原始数据,单样本t 检验可以利用MEANS过程和UNIVARIATE过程实现语句格式示例:1. proc means mean std t ptr;2. var y;/*y值为每一个观测值与已知总体均数的差值*/3. run;或者1. proc univariate;2. var y;/*y值为每一个观测值与已知总体均数的差值*/3. run;方法类似于统计描述,结果指标为t和p值2.完全随机两组正态分布资料的比较分析思路:两组比较属于差异性研究,再看是否正太,可考虑方法有独立样本的t检验或Wilcoxon秩和检验,具体还应进一步看资料的分布情况。正态性检验:1. proc univariate normal;2. class group; var x;3. run;若为正态性则可使用t检验,否则使用Wilcoxon秩和检验(见后文)t检验语句:1. proc ttest2. class group;3. var x;4. run;结果:观察t值和p值,给出结论3.完全随机两组非正态分布资料的比较思路同上2,首先进行正态性检验;语句略非正态分布时两组之间的秩和检验语句:1. proc npar1way Wilcoxon;/*wilcoxon选项给出wilcoxon和Kruskal-Wallis检验值*/2. class group;3. var x;4. run;秩和检验观察Z值和P值,得出结论4.完全随机多组正态分布资料的比较前提是研究为完全随机设计,需要分析两组数据的变化值,因此可以考虑方差分析或Kruskal-Wallis秩和检验,具体还应进一步看资料是否符合正态分布;正态性检验确定具体分析方法,若为正态,使用方差分析,否则为Kruskal-Wallis秩和检验(非参数检验,见后文):正态性检验过程步略方差分析:只有glm过程,anova过程请参考课件1. proc glm; 2. class group;3. model x=group;4. means group/hovtest lsd;/*使用lsd法进行两两比较并给出p值*/5. run;根据两组之间p值是否有意义给出结论5.完全随机多组非正态分布资料的比较同上思路,首先正态检验,不符合时候,使用多组之间的Kruskal-Wallis秩和检验;首先进行秩和检验:1. proc npar1way Wilcoxon;/*wilcoxon选项给出wilcoxon和Kruskal-Wallis检验值*/2. class group;3. var x;4. run;多组非正态分布资料两两之间的比较的过程步:(原理:对研究变量的秩进行排序,用方差分析对秩次进行两两比较);1. proc rank data=ex12_5 out=rank5;2. var x;3. run;4. proc print data=ranks;5. run;6. proc glm data=ranks;7. class group;8. model x=group;9. means group/lsd;10. run;完全copyPPT结果观察:先看2和p值(总体指标)有无统计学意义,若无意义,无需进行两两比较,只有总体指标2和p值有意义才需进行两两检验。6.析因设计方差分析析因设计有一点重要的是:A和B两个指标之间可能会有交互作用,需考虑二者之间的交互作用a*b首先仍然是正态性检验,若符合可直接用析因设计的方差分析,否则可用Kruskal-Wallis秩和检验(类似于完全随机设计);析因设计的过程步(符合正态分布):1. proc glm data=aa;2. class a b;3. model x=a b a*b;/*计算a,b以及a*b,之间的相互作用*/4. output out=glmout P=pred R=resi; /*将三者之间的P值和R值输出到新的数据集glmout中,并对二者进行赋值*/5. run;1. proc gplot data=glmout ;2. plot pred*a=b/HAIXS=0.5 1 2 2.5 VAIXS=0.1 to 0.2 by 0.02; /*2*2析因设计交互效应作图*/3. symbol I=join;4. run;结果参考:同样先看总体之间差异有无统计学意义:若有意义,继续观察两两之间的p值;若无意义,可无视。7.配对资料的分析配对分析思路:配对设计分析一般以差值作为分析指标,实际上是前后数据分析差值与0相比是否有统计学意义。利用proc univariate程序对差值的正态性及分布进行检验;首先正态性检验,过程步略若符合正态分布,可直接用glm过程(若不符合正态分布,其差值具体大小需要结合中位数来看,而不是均数):1. data aa;2. input x1 x2;3. y= x1-x2;/*用y来表示配对两者资料的差值*/4. cards;5. (具体数据)6. ;7. proc univariate;8. var y;9. run;结果推断:结合SAS结果中的“Test for Location”结果的S和Pr值判断是否有意义8.随机区组资料的分析(配伍组资料分析)要点:随机区组设计有分区变量block、分组变量group以及分析变量x;具体分析方法根据正态性选择方差分析或Friedman检验;若为正态分布的数据,采用随机区组方差分析:proc glm过程步1. PROC GLM;2. CLASS group block; /*将组别和区组均指定为分类变量*/3. MODEL x=group block;/*model语句指定x为分析变量,group为分组变量,block为区组变量。如果不加block,其效果等同于完全随机设计的方差分析*/4. means a/snk;/*用SNK法分析处理组a间的两两比较*/5. RUN;若非正态分布,采用Friedman检验,即偏态分布时使用的随机区组分析方法:PROC FREQ语句1. PROC FREQ;/*调用FREQ命令*/2. TABLE block*group*den/noprint scores=rank cmh2;/*TABLE语句指明分组变量和分析变量,noprint表示不打印交叉表,scores=rank表示执行非参数检验,cmh2表示输出行平均得分差值*/3. RUN; 结果分析:根据总的差异统计量G和P值得出结论第三部分:定性资料的统计分析1. 四格表(22)资料的分析对于两个变量均为二分类变量,首选方法是四个表资料的2检验,还可以采用Logistic回归(略);四格表资料2检验的数据步和过程步:1. PROC FREQ;/*调用freq程序*/2. WEIGHT f ;/*表明输人的f是一个权重值*/3. TABLE a* b/chisq expected relrisk;/*table语句列出列联表,chisq选项调用2检验结果,expected输出理论频数,relrisk输出相对危险度*/4. RUN;注意点:输入语句中第一个do语句输人行变量,第二个do语句输人列变量,顺序一定要和后面的数据对应起来;input f后一定要有两个;一定要有output语句,且要在end语句前;end与do语句是相对应的,有几个do语句,output后就要加几个end;weight语句一定要指定频数变量,如果无weight语句,SAS会认为四格表中每个格子的例数均为1。 结果中会给出2检验结果和Fisher检验的结果当研究例数40或理论频数1时,用Fisher精确检验更为可靠。危险度请参考课本2. R2表资料的分析R2表含义:R2表指行变量为多分类的分组指标,列变量为二分类的分析指标,组间差异比较可采用2检验。 分析中只要分析指标为无序变量,则不论分组指标是有序还是无序均可采用2检验进行分析。如果组间总的差异有统计学意义,还可进一步做两两比较。 过程步: 1. PROC FREQ;2. WEIGHT f;3. TABLE a*b/nopercent nocolchisq;/*nopercent表示不输出总百分比,nocol表示不输出列百分比,chisq选项调用卡方检验结果*/4. RUN; 若需用精确检验法时,可在table语句后加入fisher选项。3. 2C表无序资料的分析2C表无序资料:2C表资料指行变量为二分类的分组指标,列变量为多分类的分析指标。如果分析指标为无序分类变量,可用2检验分析组间构成比是否有差异,如果例数小于40或有理论频数小于1,可以采用Fisher精确概率检验法。 过程步同四格表2检验程序,无其他特殊语句4. 2C表有序资料的分析2C表有序资料:如果分析指标为有序分类变量,用2检验只能说明组间构成比是否有统计学差异,无法说明等级的差别。如要比较组间等级差异是否有统计学意义,可用Wilcoxon秩和检验 过程语句 1. PROC NPARIWAY wilcoxon;/*调用秩和检验程序,指定采用Wilcoxon检验*/ 2. CLASS group;/*指明分组变量*/ 3. VAR effect;/*指明分析变量*/ 4. FREQ f ;/*freq语句与proc freq命令中的weight语句类似,因为数据输人都是频数方式,因此通过freq指定f为频数*/ 5. RUN; 例如在检验药品疗效时分析变量有“无效、有效、显效、痊愈”,采用2检验,结果显示两组的分布有统计学差异,但是不说明疗效问题,如果将结果指标的顺序打乱,如按“无效、痊愈、显效、有效”的顺序排列,2检验的结果仍然不变,而秩和检验的结果会发生变化5. 配对四格表(22)资料的分析类似于定量资料的配对设计语句1. PROC FREQ;2. WEIGHT f;3. TABLE a*b/nopercent nocol norow chisq; 4. RUN;检验统计量为结果中第一行的Pearson卡方。6. Cochran Armitage趋势检验属于定性资料2检验的一部分,在table语句后面多了一个trend选项语句示例1. PROC FREQ;2. WEIGHT f;3. TABLE path*hp/nopercent nocol chisq trend;4. RUN;Cochran-Armitage趋势检验结果中,统计量(Z)0时,单侧P值给出的是左侧P值,单侧第一列呈下降趋势。当统计量(Z)0,单侧P值给出的是右侧P值,表明第一列呈上升趋势。 注:Cochran-Armitage趋势检验只能有两列。结果示例:此结果统计量Z小于0,表示在原始数据中第一列(阴性率)呈下降趋势。第四部分:相关与回归分析1.定量资料的相关分析首先正态性检验(略),如果符合正态分布,采用Pearson法进行相关分析,否则改用Spearson相关; 相关分析的过程步: 1. PROC CORR pearson spearman;/*选项pearson和spearman分别输出Pearson和Spearman相关系数*/2. VAR bmi tc fbg;/*本例有三个分析指标*/3. RUN;结果示例:如果符合正态分布,则参考Pearson,不符合正态分布采用Spearson相关系数结果。2.分类资料的相关分析分类资料的相关性分析一般可用2检验或对数线性模型。对于仅有两个变量的二维列联表2是最常用的方法。分类资料相关分析的SAS实现1. PROC FREQ;2. WEIGHT f;3. TABLE a*b/chisq;/*两个研究变量a和b*/4. RUN:结果中的输出和2检验的结果一样,但是需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江缙云县保安服务有限公司招聘国有企业项目用工10人笔试参考题库附带答案详解
- 2025中国一冶集团建安公司春季校园招聘笔试参考题库附带答案详解
- 危险因素安全培训课件
- 地质灾害滑坡课件
- 地球的内部构造
- 回忆我的母亲课件介绍
- 地球与地球仪课件
- 地板厂安全培训课件
- 危化安全教育培训课件
- 嘉兴消防安全知识培训课件
- 主播岗位职业生涯规划与管理
- 老年综合评估各种表格
- 2025至2030中国牙科手机消耗行业项目调研及市场前景预测评估报告
- NBT 11551-2024 煤矿巷道TBM法施工及验收标准
- 口腔瓷贴面诊疗沟通指南
- 山东安全管理人员大考试题库
- 2025-2030冲牙器行业市场深度调研及发展趋势与投资前景预测研究报告
- 70华诞主题班会课件
- 建筑抗震设计规程(下)DB62T3055-2020
- 商品赠品协议书范本
- 工伤事故赔偿协议书范本
评论
0/150
提交评论