第三章定量资料的统计描述和检验_第1页
第三章定量资料的统计描述和检验_第2页
第三章定量资料的统计描述和检验_第3页
第三章定量资料的统计描述和检验_第4页
第三章定量资料的统计描述和检验_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、定量资料的统计描述和检验定量资料的统计描述和检验 第三章第三章 对于定量资料的统计描述和基本推断,sas提供了四个强有力的程序步,它们是univariate过程 提供单个变量的详细描述和对其分布类型的检验。 means过程 提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。 ttest过程 对变量进行t/u检验。 anova过程对变量进行方差分析。4.1 univariate过程 univariate过程对数值变量给出比较详细的变量分布的描述,其中包括: 变量的极端值; 常用的百分位数,包括四分位数和中位数; 用散点图描绘变量的分布; 频数表; 确定数据为正态分布的检验;

2、univariate过程的语法格式过程的语法格式proc univariate data= 选项选项 ;指定要分析的数据集名及选项指定要分析的数据集名及选项 var ;指定要分析的变量名列指定要分析的变量名列by ;按变量名列分组统计,要求数据集已按按变量名列分组统计,要求数据集已按该变量名列排序该变量名列排序freq ;表明该变量为分析变量的频数表明该变量为分析变量的频数weight ;表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重id ;输出时加上该变量作为索引输出时加上该变量作为索引output out= 指定统计量的输出数据集名指定统计量的输出数据集名关键字关键字

3、= .指定统计量对应的新变量名指定统计量对应的新变量名pctlpts=指定需要的百分位数指定需要的百分位数univariate过程常用的选项如下:noprint 禁止统计报告在output视窗中输出;plot 绘出茎叶图、箱式图和正态概率图; freq 给出频数表;normal 对变量进行正态性检验。注: freq 语句语句格式:freq 变量;功能:规定一个数值变量,它的值表示数据集中某观测值出现的频数。说明:数据集中观测值总数等于freq变量的和。例:例: data b; input sex $ age number; cards ; f 20 10 f 22 23 m 21 19 m 2

4、2 16 proc means ; var age ; proc means ; freq number ; var age ; weight number ; run;data a;input x f;cards;12 713 816 917 2018 22;proc univariate normal;var x;freq f;weight f;output out=b n=n mean=xbar std=s cv=cv ;proc print data=b;run;4.2 means 过程 功能:提供单个或多个变量的简单描述。 means过程和univariate过程相比,它更倾向于描述

5、已经明确样本所在总体符合正态分布的变量,因此它不提供百分位数,但可以提供95%可信区间。同时在多个变量输出时,它的输出格式紧凑,便于阅读。语句说明proc means data= 选项指定要分析的数据集名及一些选项统计量关键字列表 ;列出需要的统计量var ;要分析的变量名列by ;按变量名列分组统计,要求数据集已按变量名列排序class ;按变量名列分组统计,不要求数据集排序freq ;表明该变量为分析变量的频数weight ;表明分析变量在统计时要按该变量权重id ;输出时加上该变量作为索引output 指定统计量的输出数据集名关键字= . ;指定统计量对应的新变量名proc means

6、选择项列表; proc means语句中可使用的选择项包括:data= sas数据集noprint maxdec=n 指定打印结果的小数位数(08),缺省为2vardef=除数 指明用于方差计算的除数,缺省值是vardef=df。 statistic list 统计量列表:means过程可以计算的统计量有21种,可用下列关键词表示:n、maen、max、min、std、stderr、sum、var、uss、css、nmiss、range、t、prt、sumwgt、cv、skewness、kurtosis、clm、lclm、uclm。缺省时为n、min、max、mean、std。output 语

7、句output 选择项; output语句能将means过程计算的统计值输出到一个新的sas数据集里。output语句中的选择项包括:out=sas-dataset(sas数据集)output-statistic-list (输出统计量列表) 例: proc means; var x1 x2; output out=stats mean=mx1 mx2 std=sx1;means过程示例: data score; length name $ 12; input name sex group $ t1-t3 ; s=sum( of t1-t3); cards; sunhong 2 3 89 97

8、 87 zhaobin 2 3 66 98 86 wangdong 1 1 90 70 60 xueping 2 2 85 95 88 zhouhua 1 1 77 84 69 heyan 1 2 95 78 88 huangshan 2 3 67 75 76proc means data=score maxdec=3 ;var t1 t2 t3;class group;title statistics with class variable;proc sort data=score;by group;proc means maxdec=3;by group;var t1 t2 t3;titl

9、e statistics with by variable;run;4.3 ttest过程 ttest过程就是用于进行两样本均数的比较,它给出两总体方差齐和不齐时的检验结果,并同时做方差齐性检验。综合两者的结果,即可做出判断。proc ttest data= 指定要分析的数据集名class ;必需,指定一个两分类的分组变量 var ;指定要检验的变量名列by ;按变量名列分组统计data a;input x1-x4 class;cards; -0.45 -0.41 1.09 0.45 1 -0.56 -0.31 1.51 0.16 1 0.06 0.02 1.01 0.40 1 -0.07 -

10、0.09 1.45 0.26 1 -0.10 -0.09 1.56 0.67 1 -0.14 -0.07 0.71 0.28 1 -0.23 -0.30 0.22 0.18 1 0.07 0.02 1.31 0.25 1 0.01 0.00 2.15 0.70 1 -0.28 -0.23 1.19 0.66 1 0.15 0.05 1.88 0.27 1 0.37 0.11 1.99 0.38 1 -0.08 -0.08 1.51 0.42 1 0.05 0.03 1.68 0.95 1 0.01 0.00 1.26 0.60 1 0.12 0.11 1.14 0.17 1 -0.28 -0.

11、27 1.27 0.51 1 0.51 0.10 2.49 0.54 2 0.08 0.02 2.01 0.53 2 0.38 0.11 3.27 0.55 2 0.19 0.05 2.25 0.33 2 0.32 0.07 4.24 0.63 2 0.31 0.05 4.45 0.69 2 0.12 0.05 2.52 0.69 2 -0.02 0.02 2.05 0.35 2 0.22 0.08 2.35 0.40 2 0.17 0.07 1.80 0.52 2 0.15 0.05 2.17 0.55 2 -0.10 -1.01 2.50 0.58 2 0.14 -0.03 0.46 0.

12、26 2 0.14 0.07 2.61 0.52 2 -0.33 -0.09 3.01 0.47 2 0.48 0.09 1.24 0.18 2 0.56 0.11 4.29 0.45 2 0.20 0.08 1.99 0.30 2 0.47 0.14 2.92 0.45 2 0.17 0.04 2.45 0.14 2 0.58 0.04 5.06 0.13 2;proc ttest;class class;var x1-x4;run; 某工厂实行早、中和晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析

13、不同班次工人的劳动效率是否有显著性差异。早班中班晚班344939374740355142334839335041355142365140 为什么各值 会有差异?可能的原因有两个。 一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。 二是,随机误差的存在。 如何衡量两种原因所引起的观察值的差异?总平均劳动效率为:kinijijnyyi1/ )(571.412140423734三个班次工人的平均劳动效率分别为:714.341y571.492y429.403y总离差平方和sskinjijiyy112)(222)571.4140()571.4137)571.

14、4134(1429.835201211n自由度:组间离差平方和(条件误差)ssakiiiyyn12)(22)571.41571.49(7)571.41714.34(72)571.41429.40(7286.786组内离差平方和(随机误差)ssekinjiijiyy112)(22)714.3436()714.3434(22)571.4151()571.4149(857.38)429.4040()429.4039(2218321kn自由度 统计量fknsskssea1118.18218857.382286.786查f分布表得临界值因为 故应拒绝原假设,即不同班次工人的劳动效率有显著的差异。554.

15、 3)18, 2(05. 0f013. 6)18, 2(01. 0f013. 6)18, 2(118.18201. 0ff 方差分析:比较3个或3个以上的总体均值是否有显著性差异。用组间的方差与组内方差相比,据以判别误差主要源于组间的方差(不同组工人的产量,条件误差),还是源于组内方差(随机误差)。 4.4 anova-方差分析单因素试验(各处理重复数相等)单因素试验(各处理重复数相等)proc anova data= manova按多元分析的要求略去有任一缺失值的记录outstat= ;指定统计结果输出的数据集名class ;必需必需,指定要分析的处理因素model / 选项;必需必需,给出分析用的方差分析模型means / 选项 ;指定要两两比较的因素及比较方法by ;freq ;manova h= 效应 ;指定多元方差分析的选项data e;input tr$ y;cards; a1 15 a1 16 a1 15 a1 17 a1 18 a2 45 a2 42 a2 50 a2 38 a2 39 a3 30 a3 35 a3 29 a3 31 a3 35 a4 31 a4 28 a4 20 a4 25 a4 30 a5 40 a5 35 a5 31 a5 32 a5 30; proc anova; class t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论