定量资料的统计描述和检验_第1页
定量资料的统计描述和检验_第2页
定量资料的统计描述和检验_第3页
定量资料的统计描述和检验_第4页
定量资料的统计描述和检验_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述和检验第1页/共29页

对于定量资料的统计描述和基本推断,SAS提供了四个强有力的程序步,它们是UNIVARIATE过程提供单个变量的详细描述和对其分布类型的检验。MEANS过程提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。TTEST过程对变量进行t/u检验。ANOVA过程对变量进行方差分析。第2页/共29页§4.1UNIVARIATE过程Univariate过程对数值变量给出比较详细的变量分布的描述,其中包括:变量的极端值;

常用的百分位数,包括四分位数和中位数;

用散点图描绘变量的分布;

频数表;

确定数据为正态分布的检验;第3页/共29页Univariate过程的语法格式PROCUNIVARIATE[DATA=<数据集名>[选项]];指定要分析的数据集名及选项

[VAR<变量名列>;指定要分析的变量名列

BY<变量名列>;按变量名列分组统计,要求数据集已按该变量名列排序

FREQ<变量名>;表明该变量为分析变量的频数

WEIGHT<变量名>;表明分析变量在统计时要按该变量权重

ID<变量名>;输出时加上该变量作为索引

OUTPUTOUT=<数据集名>指定统计量的输出数据集名关键字=<新变量名列>...指定统计量对应的新变量名

pctlpts=<百分位数,...>指定需要的百分位数

pctlpre=<新变量名列>];指定所需百分位数对应的输出变量名第4页/共29页Univariate过程常用的选项如下:NOPRINT禁止统计报告在OUTPUT视窗中输出;PLOT绘出茎叶图、箱式图和正态概率图;FREQ给出频数表;NORMAL对变量进行正态性检验。第5页/共29页注:FREQ语句语句格式:FREQ变量;功能:规定一个数值变量,它的值表示数据集中某观测值出现的频数。说明:数据集中观测值总数等于FREQ变量的和。第6页/共29页例:

DATAB;INPUTSEX$AGENUMBER;CARDS;F2010F2223M2119M2216PROCMEANS;VARAGE;PROCMEANS;FREQNUMBER;VARAGE;weightNUMBER;run;第7页/共29页dataa;inputxf;cards;12713816917201822;proc

Univariatenormal;varx;FREQf;weightf;outputout=bn=nmean=xbarstd=scv=cv;proc

printdata=b;run;第8页/共29页4.2MEANS过程

功能:提供单个或多个变量的简单描述。Means过程和Univariate过程相比,它更倾向于描述已经明确样本所在总体符合正态分布的变量,因此它不提供百分位数,但可以提供95%可信区间。同时在多个变量输出时,它的输出格式紧凑,便于阅读。第9页/共29页语句说明PROCMEANS[DATA=<数据集名>[选项]指定要分析的数据集名及一些选项

[统计量关键字列表]];列出需要的统计量

[VAR<变量名列>;要分析的变量名列

BY<变量名列>;按变量名列分组统计,要求数据集已按变量名列排序

CLASS<变量名列>;按变量名列分组统计,不要求数据集排序

FREQ<变量名>;表明该变量为分析变量的频数

WEIGHT<变量名>;表明分析变量在统计时要按该变量权重

ID<变量名列>;输出时加上该变量作为索引

OUTPUT<OUT=数据集名>指定统计量的输出数据集名关键字=<新变量名列>...];指定统计量对应的新变量名第10页/共29页PROCMEANS[选择项列表];

PROCMEANS语句中可使用的选择项包括:DATA=SAS数据集NOPRINT

MAXDEC=n

指定打印结果的小数位数(0~8),缺省为2VARDEF=除数

指明用于方差计算的除数,缺省值是VARDEF=DF。第11页/共29页Statisticlist统计量列表:MEANS过程可以计算的统计量有21种,可用下列关键词表示:N、MAEN、MAX、MIN、STD、STDERR、SUM、VAR、USS、CSS、NMISS、RANGE、T、PRT、SUMWGT、CV、SKEWNESS、KURTOSIS、CLM、LCLM、UCLM。缺省时为N、MIN、MAX、MEAN、STD。第12页/共29页OUTPUT语句OUTPUT[选择项];

OUTPUT语句能将MEANS过程计算的统计值输出到一个新的SAS数据集里。OUTPUT语句中的选择项包括:OUT=SAS-dataset(SAS数据集)output-statistic-list(输出统计量列表)例:

PROCMEANS;

VARX1X2;

OUTPUTOUT=STATS

MEAN=MX1MX2STD=SX1;第13页/共29页MEANS过程示例:

DATASCORE;LENGTHNAME$12;INPUTNAMESEXGROUP$T1-T3@@;S=SUM(OFT1-T3);CARDS;SUNHONG23899787ZHAOBIN23669886WANGDONG11907060XUEPING22859588ZHOUHUA11778469HEYAN12957888HUANGSHAN23677576第14页/共29页procmeansdata=scoremaxdec=3;vart1t2t3;classgroup;title'statisticswithclassvariable';procsortdata=score;bygroup;procmeansmaxdec=3;bygroup;vart1t2t3;title'statisticswithbyvariable';Run;第15页/共29页§4.3TTEST过程TTEST过程就是用于进行两样本均数的比较,它给出两总体方差齐和不齐时的检验结果,并同时做方差齐性检验。综合两者的结果,即可做出判断。第16页/共29页PROCTTEST[DATA=<数据集名>指定要分析的数据集名

CLASS<变量名>;必需,指定一个两分类的分组变量

[VAR<变量名列>;指定要检验的变量名列

BY<变量名列>];按变量名列分组统计第17页/共29页dataa;inputx1-x4class@@;cards;-0.45-0.411.090.451-0.56-0.311.510.1610.060.021.010.401-0.07-0.091.450.261-0.10-0.091.560.671-0.14-0.070.710.281-0.23-0.300.220.1810.070.021.310.2510.010.002.150.701-0.28-0.231.190.6610.150.051.880.2710.370.111.990.381-0.08-0.081.510.4210.050.031.680.9510.010.001.260.6010.120.111.140.171-0.28-0.271.270.5110.510.102.490.5420.080.022.010.5320.380.113.270.5520.190.052.250.3320.320.074.240.6320.310.054.450.6920.120.052.520.692-0.020.022.050.3520.220.082.350.4020.170.071.800.5220.150.052.170.552-0.10-1.012.500.5820.14-0.030.460.2620.140.072.610.522-0.33-0.093.010.4720.480.091.240.1820.560.114.290.4520.200.081.990.3020.470.142.920.4520.170.042.450.1420.580.045.060.132;proc

ttest;classclass;varx1-x4;run;第18页/共29页

某工厂实行早、中和晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析不同班次工人的劳动效率是否有显著性差异。第19页/共29页早班中班晚班344939374740355142334839335041355142365140第20页/共29页

为什么各值会有差异?可能的原因有两个。

一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。

二是,随机误差的存在。

如何衡量两种原因所引起的观察值的差异?总平均劳动效率为:第21页/共29页三个班次工人的平均劳动效率分别为:总离差平方和ss组间离差平方和(条件误差)ssA第22页/共29页组内离差平方和(随机误差)sse

统计量F第23页/共29页查F分布表得临界值因为故应拒绝原假设,即不同班次工人的劳动效率有显著的差异。

方差分析:比较3个或3个以上的总体均值是否有显著性差异。用组间的方差与组内方差相比,据以判别误差主要源于组间的方差(不同组工人的产量,条件误差),还是源于组内方差(随机误差)。第24页/共29页§4.4ANOVA-方差分析单因素试验(各处理重复数相等)第25页/共29页PROCANOVA[DATA=<数据集名>

MANOVA按多元分析的要求略去有任一缺失值的记录

OUTSTAT=<数据集名>];指定统计结果输出的数据集名

CLASS<处理因素名列>;必需,指定要分析的处理因素

MODEL<应变量名=处理因素名列>/[选项];必需,给出分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论