Ch5 SAS基本统计过程(一) mean uni ttest npa_第1页
Ch5 SAS基本统计过程(一) mean uni ttest npa_第2页
Ch5 SAS基本统计过程(一) mean uni ttest npa_第3页
Ch5 SAS基本统计过程(一) mean uni ttest npa_第4页
Ch5 SAS基本统计过程(一) mean uni ttest npa_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章SAS基本统计过程,我们曾经讲过,SAS程序可分为DATA步和PROC步,即数据步和过程步。其中数据步(DATA)的主要作用是建立SAS数据集,而过程步(PROC)则是要求系统从过程库中调出一个过程并执行这个过程。各种统计分析方法在SAS中大都以“过程”的形式存放在SAS过程库中,当我们需要进行某种统计分析时,只需用PROC步去调用相应的过程,即可得到所需要的分析结果。下面分别介绍统计资料的描述和常用的几种假设检验方法。,1计量资料的描述,SAS中可以对计量资料进行描述的过程有很多,我们介绍两个常用的过程:MEANS和UNIVARIATE过程。,1.MEANS过程MEANS过程用来对数据集中的数值变量计算简单描述统计量。该过程由下列语句控制:PROCMEANSoptionsstatistics-keywords;VARvariables;CLASSvariables;该过程除PROC语句(下划线部分)是必须的外,其它的语句都是可选的。,1).PROCMEANS语句PROCMEANSoptionsstatistic-keywords;这里的options可以有:DATA=SASdataset:用以说明过程分析处理的数据集的名字,若省略,则用最近产生的SAS数据集;ALPHA=value:设置计算概率可信区间的置信水平,这个ALPHA在0-1之间取值,默认为0.05。,关于statistic-keywords,在MEANS过程中可计算如下的一些统计量:描述统计量N:例数,MEAN:均数,STD:标准差,MIN:最小值,MAX:最大值,SUM:和,CV:变异系数,STDERR:标准误,SKEW:偏度系数,KURT:峰度系数,CLM:可信区间,LCLM:可信区间下限,UCLM:可信区间上限分位数MEDIAN:中位数QRANGE:四分位数间距P1、P5、P10、P25、P50、P75、P90、P95、P99,2).VAR语句VARvariables;规定要计算描述性统计量的数值变量及顺序。若省略该句,则对所有数值变量计算描述性统计量,除BY、CLASS语句中列出的变量之外。3).CLASS语句CLASSvariables;该语句用CLASS变量定义的观测组分别计算其相应的描述统计量。,例4-1现有40名学生的相关信息,包括编号、性别、体重和身高。试计算:(1)所有40名学生体重和身高的均数和标准差;(2)分男女生分别计算其体重和身高的均数和标准差;(3)结果保留2位小数。,datastudent;inputidsex$heightweight;cards;1女1605921男174702女1634622女158413女1635623女170564女1535024男170575男1806425男165556女1565226女160537女1555027女158458女1494128男160559女1605829男1806510女1585430男1846711女1645631男1736512女1504032女1645213女1675233男1716214女1585034女1584615女1524335男1685516女1604536男1787217女1534537女1605118女1625438女1685119女1524339男1745820女1605440男16756;Run;Procprint;Run;,首先建立SAS数据集并打印出来,PROCMEANSDATA=student;VARweightheight;Run;,(1)所有40名学生体重和身高的均数和标准差;,调用MEANS过程计算常规描述性统计量,DATA=student选项指明分析时数据所在的SAS数据;VAR语句指明要对哪些变量进行统计分析。计算结果如下:,TheMEANSProcedureVariableNMeanStdDevMinimumMaximum-height40163.37500008.6815085149.0000000184.0000000weight4053.60000007.941452440.000000072.0000000-,Variable:变量名N:例数Mean:均数StdDev:标准差Minimum:最小值Maximum:最大值,PROCMEANSdata=student;VARweightheight;CLASSsex;/*添加此行语句*/RUN;,(2)分男女生分别计算其体重和身高的均数和标准差;,Class语句指明按SEX变量的取值(男、女)分别计算VAR语句中变量的统计量;结果如下:,TheMEANSProcedureNsexObsVariableNMeanStdDevMinimumMaximum-男13height13172.61538466.7766568160.0000000184.0000000weight1361.61538466.007474055.000000072.0000000女27height27158.92592595.3488024149.0000000170.0000000weight2749.74074075.509380840.000000059.0000000-,(3)结果保留2位小数,PROCMEANSdata=studentmaxdec=2;VARweightheight;CLASSsex;RUN;,TheMEANSProcedureNsexObsVariableNMeanStdDevMinimumMaximum-男13height13172.626.78160.00184.00weight1361.626.0155.0072.00女27height27158.935.35149.00170.00weight2749.745.5140.0059.00-,maxdec=2选项指明计算结果要保留的小数位数,注意该选项在PROCMEANS语句中;结果如下:,添加此选项,2.UNIVARIATE过程该过程除可以完成类似MEANS过程的基本统计量的计算外,它还可以计算以下统计量:描述变量极端值的情况;计算分位数,如中位数;生成若干个描述变量的分布图;对数据进行正态性检验;对数据进行配对t检验和配对秩和检验。该过程由下列语句控制:PROCUNIVARIATEoptions;VARvariables;CLASSvariables;其中,下划线的部分是必须的,其余语句都是可选的。,下面介绍该过程使用的语句:CLASS语句和BY语句用法与MEANS过程相同,这里就省略了。1).PROCUNIVARIATE语句PROCUNIVARIATEoptions;用于UNIVARIATE过程语句的选项有(与MEANS过程相同用法的选项略去说明):DATA=SAS-data-set:指定分析的数据集。NORMAL:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出(即进行正态性检验)。PLOT:要求生成一个茎叶图(或水平直方图),一个盒形图和一个正态概率图。,PROCUNIVARIATEdata=student;VARheight;RUN;,例4-2:我们利用前面例4-1建立的数据集student来看看univariate过程的输出结果。,用univariate过程对身高变量进行分析程序如下:,MomentsN40SumWeights40Mean163.375SumObservations6535StdDeviation8.68150849Variance75.3685897Skewness0.54153667Kurtosis-0.263264UncorrectedSS1070595CorrectedSS2939.375CoeffVariation5.31385371StdErrorMean1.37266702,BasicStatisticalMeasuresLocationVariabilityMean163.3750StdDeviation8.68151Median161.0000Variance75.36859Mode160.0000Range35.00000InterquartileRange11.00000,Variance:方差,UncorrectedSS:未校正平方和,CorrectedSS:校正平方和SumObservations:总和,CoeffVariation:变异系数,StdErrorMean:标准误,Mode:众数,Range:全距,InterquartileRange:四分位数间距,ExtremeObservations-Lowest-Highest-ValueObsValueObs1491517438150231783215237180915229180181533318420,TestsforLocation:Mu0=0Test-Statistic-pValue-Studentstt119.0201Pr|t|=|M|=|S|W-Sq0.1321Anderson-DarlingA-Sq0.537864PrA-Sq0.1635,四种正态性检验,通常情况下只需看W统计量,此例W=0.960959,P=0.1806,大于0.05,因此,体重数据服从正态分布。注意:一般样本量小于2000时Shapiro-Wilk检验结果比较好;样本量大于2000时,可以看Kolmogorov-Smirnov的检验结果,在样本量小时其结果不可靠。,绘制直方图,程序语句:PROCUNIVARIATEdata=student;Histogramheight;RUN;,语句选项:1、拟合正态曲线Histogramheight/normal;2、指定直方图的组中值Histogramheight/midpoints=3540455055606570;,2计量资料的统计推断,SAS统计分析过程提供了强大的分析模块。我们先介绍t检验、秩和检验及直线相关回归分析模块。,1.两样本均数比较的t-检验在SAS系统中,两组资料比较的t-检验是用TTEST过程来实现的。TTEST过程计算用CLASS变量的两个水平识别两个观测组中每一个的样本均值,并检验总体均值相等的假设。.两组观测的方差相等;.在每个组内,各个观测独立且服从正态分布。如果两组观测的方差不等,则计算近似的t统计量(t),一.t-检验,语句格式:PROCTTESToptions;CLASSvariables;VARvariables;下划线部分是必须的,其余语句是可选的。procttestoptions;这里的选项常用的有:Data=SAS-data-set:指定TTEST过程所用的SAS数据集;如果缺省,则使用最近生成的SAS数据集。Alpha=p,p默认为0.05,设置可信区间水平:100(1-p)%h0=数值,默认为0,设置要检验的总体参数值。,2)Classvariables;给出分类变量名(组别变量),这里的分类变量必须且只须有两个水平(变量只有两个取值)。TTEST过程对按分类变量分成的两个观测组进行t检验。Class变量可以是数值型的,也可以是字符型的。3)Varvariables;指出要比较其均值的变量名。如果缺省,则对输入数据集中的所有数值型变量进行分析,除出现在Class语句中的数值变量以外。下面是关于t检验的一个例子:,例4-3(两样本均数比较的t检验):两组雌性大鼠分别以含高蛋白和低蛋白饲料喂养后,观察第28天到第84天之间,每只大鼠所增体重(g),结果见下表,试作两样本比较的t检验。,Dataex1;Inputxgrp;Cards;134114617021182;,PROCTTESTdata=ex1;CLASSgrp;VARx;RUN;,TheTTESTProcedure,variable::分析的变量Mean:均数,StdDev:标准差,SteErr:标准误LowerCLXX:95%可信区间下限如LowerCLMean:均数的95%可信区间下限LowerCLStdDev:标准差的95%可信区间下限UpperCLXX:95%可信区间上限,分组变量,方差齐性检验P=0.8735,两组资料总体方差齐同,看此表之前应先看下面的方差齐性检验表,由于两组资料总体方差齐同(P=0.8735,两组资料总体方差齐同),故看“Equal”一行的结果:t=1.81,p=0.0885;如果方差不齐,则看“Unequal”一行的结果。,2.配对资料比较的t-检验进行配对资料比较时,我们是利用各对子的差值d与零均数进行比较来实现的。此时,问题的实质已经转化为单变量(d)的统计分析问题了。,例4-4(配对资料的t检验):某医师用一种中药治疗高血压患者,观察患者治疗前后舒张压(mmHg)的变化,数据如下表,试用配对t检验比较中药是否对高血压患者治疗前后舒张压的变化有影响。,注意在录入数据时一定要一对一对数据的录入!,dataex2;inputx1x2;d=x1-x2;cards;1109011511613310113313112611010888110921101041401261048612088120112;run;,procmeansnmeanstdtprt;vard;run;,方法1:(用MEANS或UNIVARIATE过程处理),procunivariate;vard;run;,PROCTTESTdata=ex2;PAIREDx1*x2;RUN;,方法2:(用TTEST过程来处理),PROCTTESTdata=ex2;vard;RUN;,1.NPAR1WAY过程(单因素非参数过程)NPAR1WAY过程是一个单因素的非参数过程,它分析变量的秩,计算几个相应的统计量,并检验一个变量的分布在不同组中具有相同的位置参数,或者检验在不同组中的变量具有相同的分布。NPAR1WAY过程处理独立组,不处理成对数据。关于成对数据的情形,用单变量统计分析(UNIVARIATE)过程来处理。,二.非参数统计分析,语句说明PROCNPAR1WAYoptions;CLASSvariable;VARvariables;这里,前两句(下划线部分)是必须的语句,后两句是可选的。,PROCNPAR1WAYoptions;这里的选项options有较多选择,下面介绍两个常用的选项:Data=SAS-data-set:指定分析数据集名。Wilcoxon:对数据或wilcoxon的秩次得分进行秩分析。对于两组,为wilcoxon秩和检验;对于多组,为Kruskal-WallisH检验。,2)Classvariable;这个语句是必须的,它指定一个且只能指定一个分类变量。该变量用来识别数据中的各个类。Class变量可以数值变量,也可以是字符变量。3)VARvariables;该语句命名要分析的响应变量或自变量。如果省略,则过程分析数据集中所有数值变量,除了Class变量以外。,例4-6.(两样本比较的秩和检验)10名健康人与7名铅作业工人血铅测得值如下:,试作两样本比较的秩和检验。,Dataex;Inputx;If_n_=10theng=1;Elseg=2;Cards;55

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论