社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验_第1页
社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验_第2页
社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验_第3页
社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验_第4页
社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 定量资料的统计描述和t、u检验 (医学统计之星)上次更新日期: 从本章开始,我们将正式开始使用SAS解决我们的统计问题。从前面的几章可知,SAS的主要功能是由不同的程序步来体现的。因此在以后的各章中,我们将对每种问题重点介绍一些常用的程序步,以及它们的输出结果的解释。对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是: UNIVARIATE过程 提供单个变量的详细描述和对其分布类型的检验。 MEANS过程 提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。 TTEST过程 对变量进行t/u检验。5.1 引 例例5.1 文本文件“C:USERW

2、TLI1_1.DAT”中已存入某市110名7岁男子童的身高资料(cm) ,请计算均数、标准差s、变异系数CV(卫统第三版p6例2.1)。解:该题应首先用数据步建立一个数据集,然后调用UNIVARIATE过程或MEANS过程来求出所需要的统计量。具体的程序如下: 设定数据库环境:LIBNAME A C:USER; 数据步,建立数据集:DATA A.WTLI1_1;INFILE C:USERWTLI1_1.DAT;INPUT X ;RUN; UNIVARIATE或MEANS过程,求出所需要的统计量:PROC UNIVARIATE DATA=A.WTLI1_1;PROC MEANS DATA=A.W

3、TLI1_1N MEAN STD CV ;VAR X;VAR X;RUN;RUN;例5.2 某医生测得18例慢支炎患者与16例健康人的尿17酮类固醇排出量 (mg/dl)分别为X1和X2,问两者均数是否不同(医统第二版P19例2.17)?解:这是成组设计的两样本均数比较的t检验,程序应首先建立数据集,然后调用TTEST过程进行检验,在检验的同时也可以得到两个样本的简单描述。 设定数据库环境:LIBNAME A C:USER; 数据步,建立数据集,这里采用直接输入数据的方法:DATA A.YTLI2_17;INPUT GROUP VALUE ;CARDS;1 3.14 1 5.83 1 7.35

4、 1 4.62 1 4.05 1 5.08 1 4.98 1 4.22 1 4.35 1 2.351 2.89 1 2.16 1 5.55 1 5.94 1 4.4 1 5.35 1 3.8 1 4.122 4.12 2 7.89 2 3.24 2 6.36 2 3.48 2 6.74 2 4.67 2 7.38 2 4.95 2 4.082 5.34 2 4.27 2 6.54 2 4.62 2 5.92 2 5.18;RUN; TTEST过程,进行两样本的t检验。PROC TTEST DATA=A.YTLI2_17;VAR VALUE;CLASS GROUP;RUN;5.2 UNIVARI

5、ATE过程Univariate过程对数值变量给出比较详细的变量分布的描述,其中包括: 变量的极端值。 常用的百分位数,包括四分位数和中位数。 用几个散点图描绘变量的分布。 频数表。 确定数据为正态分布的检验。5.2.1 语法格式Univariate过程的语法格式如下:PROC UNIVARIATE DATA= 选项 ;指定要分析的数据集名及选项 VAR ;指定要分析的变量名列BY ;按变量名列分组统计,要求数据集已按该变量名列排序FREQ ;表明该变量为分析变量的频数WEIGHT ;表明分析变量在统计时要按该变量权重ID ;输出时加上该变量作为索引OUTPUT OUT= 指定统计量的输出数据集

6、名关键字= .指定统计量对应的新变量名pctlpts=指定需要的百分位数pctlpre= ;指定所需百分位数对应的输出变量名如果省略所有非必需的语句和选项,则UNIVARIATE过程按默认情况输出全部变量的全部常用统计量。5.2.2 语法说明【选项】Univariate过程常用的选项如下: NOPRINT 禁止统计报告在OUTPUT视窗中输出 PLOT 绘出茎叶图、箱式图和正态概率图 FREQ 给出频数表 NORMAL 对变量进行正态性检验【关键字】SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有: 基本统计量 N MEAN STD(标准误) CV SU

7、M VAR(方差) RANG 百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 与假设检验有关的统计量 STDMEAN(标准误) T5.2.3 结果解释在默认的情况时,Univariate过程会输出绝大部分统计量,此时的输出结果如下:Variable=变量名 变量标签 Moments 和矩有关的统计量 Quantiles(Def=5) 分位间距统计量N 样本量 Sum Wgts 权重总和 100% Max 最大值 99% 99%百分位数Mean 均数 Sum 总和 75% Q3 75%百分位数 95% 95%百分位数Std Dev 标准差 Va

8、riance 方差 50% Med 50%百分位数 90% 90%百分位数Skewness 偏度系数 Kurtosis 峰度系数 25% Q1 25%百分位数 10% 10%百分位数USS 未校正平方和 CSS 校正平方和 0% Min 最小值 5% 5%百分位数CV 变异系数 Std Mean 标准化均数 1% 1%百分位数 T:Mean=0 变量总体均数为0的t检验 Pr|T| t检验的p值 Range 全距Num = 0 变量值非0的例数 Num 0 变量值大于0的例数 Q3-Q1 四分位间距M(Sign) 变量总体均数为0的符号检验 Pr=|M| 符号检验的p值 Mode 众数Sgn

9、Rank 变量总体均数为0的秩和检验 Pr=|S| 秩和检验的p值 Extremes 极端值统计 Lowest Obs Highest Obs 老 幺 (观察值序号) 五大值(观察值序号) 次小值 (观察值序号) 四大值(观察值序号) 三小值 (观察值序号) 三大值(观察值序号) 四小值 (观察值序号) 次大值(观察值序号) 五小值 (观察值序号) 大哥大(观察值序号)5.2.4 应用实例例5.3 某地101例健康男子血清总胆固醇值测定结果已存入文本文件“c:userWT1_1.dat”中,请绘制直方图,计算均数、标准差s、变异系数CV、中位数M、p2.5和p97.5(卫统p233 1.1题)

10、。解:UNIVARIATE过程的默认输出中并不给出p2.5和p97.5,因此程序中要加以相应修改,最后在OUTPUT视窗中只会输出所需的几个统计量,具体程序如下:libname a c:user;指定c:user文件夹为数据库adata a.wt1_1;数据步开始,指定要建立的数据集为a库的wt1_1infile c:userwt1_1.dat;采用外部文件读入方式,文件名为c:userWT1_1.datinput x ;输入的变量为x,采用连续输入的格式proc gchart data=a.wt1_1;调用绘图程序步gchart,所用数据集为a.wt1_1vbar x ;绘出竖直条图,用于绘

11、图的变量为xproc univariate data=a.wt1_1 noprint;调用程序步univariate,并且禁止在OUTPUT视窗中输出var x;要分析的变量为xoutput out=temp指定输出数据集为work.temp,n=n mean=xbar std=s cv=cv median=m将n、mean、std、cv、median按指定变量名存入pctlpts=2.5,97.5 pctlpre=per;指定输出p2.5和p97.5,其输出变量名以per开头。proc print data=temp;将数据集work.temp的内容打印输出run;开始运行以上程序例5.4

12、50例链球菌咽峡炎患者的潜伏期如下,计算其均数、中位数和几何均数(卫统p233 1.3题)。122436486072849610812017111175422解:由于几何均数无法直接得到,因此将数据集加以对数变换,求出均数后再行反对数变换得到几何均数,程序如下:libname a c:user;指定c:user文件夹为数据库adata a.wt1_3;数据步开始,指定要建立的数据集为a库的wt1_3input x f ;输入的变量为x和f,采用连续输入的格式x=x+6;将变量x的值更正到每个组段的组中值处logx=log(x);定义新变量logx为变量x的自然对数,用于算出几何均数cards;

13、数据块开始12 1 24 7 36 11 48 11 60 7 72 5 84 4 96 2 106 2数据块;数据块结束proc print;将数据集a.wt1_3的内容打印输出proc univariate data=a.wt1_3 noprint;调用程序步univariate,并且禁止在OUTPUT视窗中输出var x logx;要分析的变量为x和logxfreq f;指定变量f代表分析变量x的频数output out=temp n=n mean=xbar logxmean median=m ;输出数据集和统计量的定义data temp2;数据步开始,指定要建立的数据集为work.te

14、mp2set temp;让work.temp2继承work.tmep的全部数据g=exp(logxmean);产生新变量g,它等于elogxmeandrop logxmean;在work.temp2中删除临时变量logxmeanproc print data=temp2;输出数据集work.temp2中的数据run;开始运行以上程序请注意,这里UNIVARIATE过程有两个分析变量X和LOGX,因此在OUTPUT语句中MEAN=后跟了两个变量名,它们分别存储两个变量的均数,而其余的关键字后只有一个变量名,则它们只存储分析变量序列的第一个变量X的统计结果。5.3 MEANS过程Means过程提供

15、单个或多个变量的简单描述。和Univariate过程相比,它更倾向于描述已经明确样本所在总体符合正态分布的变量,因此它不提供百分位数,但可以提供95%可信区间。同时在多个变量输出时,它的输出格式紧凑,便于阅读。5.3.1 语法格式PROC MEANS DATA= 选项指定要分析的数据集名及一些选项统计量关键字列表 ;列出需要的统计量VAR ;要分析的变量名列BY ;按变量名列分组统计,要求数据集已按变量名列排序CLASS ;按变量名列分组统计,不要求数据集排序FREQ ;表明该变量为分析变量的频数WEIGHT ;表明分析变量在统计时要按该变量权重ID ;输出时加上该变量作为索引OUTPUT 指

16、定统计量的输出数据集名关键字= . ;指定统计量对应的新变量名5.3.2 语法说明【选项】Means过程常用的选项如下: NOPRINT 禁止统计报告在OUTPUT视窗中输出 MAXDEC=n 给出列表输出的最大小数位数,缺省值为2【统计量关键字】MEANS过程中常用的统计量关键字有: 基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX 与假设检验有关的统计量 STDERR(标准误) T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限)注意Means过程中标准误的关键字是STDERR,而Univariate过程中为STDMEAN,另外L

17、CLM和UCLM这两个关键字也是Univariate过程所没有的。5.3.3 结果解释和Univariate过程不同,MEANS过程在默认情况下只输出样本量、均数、标准差、最小值和最大值,如例5.1的数据,如果MEANS过程不加任何选项,则输出如下: Analysis Variable : X 分析变量名为X N Mean Std Dev Minimum Maximum - 110 119. 4. 108. 132. -可见Means过程的输出结构极为紧凑。5.3.4 应用实例例5.5 给出例5.1的均数、标准差s、变异系数CV和95%可信区间,并检验其总体均数是否为0(卫统p233 1.1题

18、)。解:如果数据集a.wt1_1已经建立,则程序如下:proc means data=a.wt1_1 n mean std cv lclm uclm t prt ;var x;run;5.4 TTEST过程顾名思义,TTEST过程就是用于进行两样本均数的比较,它给出两总体方差齐和不齐时的检验结果,并同时做方差齐性检验。综合两者的结果,即可做出判断。事实上,ttest过程的功能非常有限,只能做一般的两样本t检验,对于按频数表格式输入的资料,我们只能用以后要介绍的ANOVA等过程来分析。5.4.1 语法格式PROC TTEST DATA= 指定要分析的数据集名COCHRAN ;要求在方差不齐时做C

19、OCHRAN近似CLASS ;必需,指定一个两分类的分组变量 VAR ;指定要检验的变量名列BY ;按变量名列分组统计5.4.2 结果解释以例5.2的TTEST过程为例,它的输出结果如下: TTEST PROCEDUREVariable: VALUE 分析变量名为VALUEGROUP N Mean Std Dev Std Error Variances T DF Prob|T| 样本量 均数 标准差 标准误 方差 统计量t值 自由度 p值- - 1 18 4. 1. 0. Unequal -1.8132 31.2 0.0794 2 16 5. 1. 0. Equal -1.8179 32.0

20、0.0785For H0: Variances are equal, F = 1.09 DF = (15,17) ProbF = 0.8589可见该结果分为三大部分:第一部分为两组各种描述统计量的值,第二部分分别给出两组所在总体方差齐和方差不齐时的t检验结果,第三部分为方差齐性检验,因此该过程一共进行了三个假设检验。对于无效假设H0:两总体方差齐的检验结果为F = 1.09,DF = (15,17),p = 0.8589,可见在本例中方差是齐的,从而应选用方差齐时的t检验结果,即t= -1.8179,=32,p=0.0785,按=0.05水准,不拒绝H0,尚不能认为慢支炎患者与健康人的尿17酮类固醇排出量不同。5.4.3 应用实例例5.6 某医院对9例慢性苯中毒患者用中草药一号抗苯一号治疗,得下列白细胞总数(109/L),问该药是否对白细胞总数有影响(卫统p225 2.3题)?病人号123456789治疗前6.04.55.03.47.03.86.03.54.3治疗后4.25.46.33.84.44.05.98.05.0解:该题为样本差值均数和总体均数为0比较的t检验,TTEST过程无法完成。这里用MEANS过程来处理,程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论