SAS统计分析系统操作手册(ppt 123页).ppt_第1页
SAS统计分析系统操作手册(ppt 123页).ppt_第2页
SAS统计分析系统操作手册(ppt 123页).ppt_第3页
SAS统计分析系统操作手册(ppt 123页).ppt_第4页
SAS统计分析系统操作手册(ppt 123页).ppt_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SAS 统计分析系统 Statistical Analysis System,公共卫生学院信息数据处理教学实验室,SAS软件简介,1966年美国North Carolina大学的两位生物统计学研究生开始研制SAS系统,直至1976年成立了SAS软件研究所,正式推出了SAS软件,1985年推出微机版SAS。 SAS是用于决策支持的大型集成信息系统,软件系统最早的功能限于统计分析,现在统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的最新版本为9.0版,大小约为1GB。,在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品,堪称统计软

2、件界的巨无霸。 经过多年的发展,SAS已经被全世界120多个国家和地区的近三万家机构所采用,直接用户超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。,由于SAS系统是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此操作以SAS语言编程为主,另外也有非编程方式的菜单系统,但人机对话的界面不太友好。 学习SAS软件时,需要用户有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。,第一节 SAS软件的使用基础,一、SAS的启动和退出 启动SAS 双击桌面SAS图标 开始菜单 程序 The Sas System

3、 The Sas System for Windows V*.* 直接双击SAS应用程序 退出SAS 标题栏关闭按钮 菜单栏 File Exit 在命令框键入“Bye”或“Endsas”,标题栏、菜单栏、工具栏 PROGRAM EDITOR 程序编辑窗口 LOG 运行过程日志窗口 OUTPUT 结果输出窗口 SAS常用功能键,二、SAS的工作窗口,例:一组体检资料,包括姓名、性别、年龄、身高、体重,要求分性别计算身高、体重的均数、标准差、最大值、最小值。 姓名 性别 年龄 身高 体重 ZHANGLIN F 47 156.3 47.1 ZHAOHUA M 38 172.4 61.5 WANGQA

4、NG M 41 169.2 64.5 LIULI F 52 158.2 53.6 SHIDONG F 39 160.1 48.0 KONGYING M 29 174.1 64.6 LILING F 37 152.3 42.2 GUANFEN M 32 166.2 60.2 MIAOQING M 26 180.3 74.3 NIUHUA M 31 178.2 80.2 TANGJIE F 35 169.2 60.8 GAOJUN M 24 176.0 73.3 SUNHONG F 27 158.3 49.9,三、SAS程序构成,DATA AA1; INPUT NAME$ SEX AGE HEIG

5、HT WEIGHT; CARDS; ZHANGLIN 2 47 156.3 47.1 ZHAOHUA 1 38 172.4 61.5 WANGQANG 1 41 169.2 64.5 LIULI 2 52 158.2 53.6 SHIDONG 2 39 160.1 48.0 KONGYING 1 29 174.1 64.6 LILING 2 37 152.3 42.2 GUANFEN 1 32 166.2 60.2 MIAOQING 1 26 180.3 74.3 NIUHUA 1 31 178.2 80.2 TANGJIE 2 35 169.2 60.8 GAOJUN 2 24 176.0

6、73.3 SUNHONG 2 27 158.3 49.9 ; PROC MEANS; CLASS SEX; VAR HEIGHT WEIGHT; RUN;,数据步,过程步,DATA STEP(数据步) 以DATA语句开始 将数据读入SAS系统,建立SAS数据集 PROCEDURE STEP(过程步) 以PROC语句开始 调用各种已编好的过程处理和分析数据 RUN (结束) 整个程序的最后必须要有RUN语句结束,表示要执行以上全部任务。,1. 必须在PGM窗口。SAS语句书写格式自由,每个语句以“;”结束,可以在一行中写几个语句或一个语句写在几行中,不区分字母大小写。,2. 运行SAS程序 工具

7、栏执行按钮 功能键“F8”( Submit ) 菜单栏 Locals Submit 命令框键入“Submit”命令 自动激活OUTPUT窗口,出现程序运行结果,四、SAS程序编写、运行、调试、保存,3. 调试SAS程序 没出现结果窗口,或结果不理想时。 激活LOG窗口(F6) 查看运行过程及出错信息 黑色文字:源程序及运行情况 蓝色文字:程序运行情况说明信息 红色文字:出错信息 绿色文字:警告信息 激活PGM窗口(F5) 调回SAS程序 (F4) 修改错误后重新发送,4. 保存SAS程序或其他窗口内容,激活相应窗口 常用工具栏 存盘按钮 菜单栏 File Save(或Save as) 命令框输

8、入File命令 可以分别保存程序、运行结果、日志,5. 打开已保存的程序、结果等 只能在PGM窗口 常用工具栏 打开按钮 菜单栏 File Open 命令框输入Include命令 可打开以前保存的程序、运行结果、日志等文件及其他文本格式的文件。,第二节 SAS数据集,SAS数据集(SAS Dataset) 数据值被安排在一个矩阵式的表格结构中 每一行数据表示一个观测(Observation) 每一列数据表示一个变量(Variable) 变量命名:18个字符,第1个字符必须是字母,后面 可以是字母、数字和下划线 变量类型:数值型、字符型和日期时间型 字符型变量名后加“$”表示, 日期型: 16O

9、CT98 D,时间型: 9:25:30T 变量缺失值:用“”表示,一、SAS数据集的种类,临时SAS数据集 不保存,一旦退出SAS就消失。 数据集名称为1个单词,如DATA AA; 永久SAS数据集 保存在用户指定的文件夹里。 数据集名称为2个单词,中间用“.”分开,也称二级名,如DATA NEW.AA;,LIBNAME NEW D:MY DATA; DATA NEW.AA; 在数据集的二级名称 NEW.AA中; 第1个词NEW是库标记,代表用户指定的保存SAS数据文件的位置,前面要用LIBNAME语句指定它代表的文件夹和位置。 第2个词AA是保存的SAS数据集的文件名。 执行这个过程的结果将

10、会在D:MY DATA文件夹中产生1个永久SAS数据文件 AA.SD2 SD2是自动产生的SAS数据文件默认扩展名,二、创建SAS数据集,1.在PGM窗口创建数据集 DATA AA; 命名将要创建的数据集名 INPUT X1-X4; 描述数据集中的变量名 CARDS; 以下开始是数据 2 47 156.3 47.1 1 38 172.4 61.5 ; 数据结束 INPUT X Y;连续读数据不换行 INPUT NAME$ AGE; 字符型变量名加,2.在VIEWTABLE窗口创建数据集,菜单栏Globals Manage Open tables 打开VIEWTABLE窗口直接输入数据 保存数据

11、:File Save(或Save as) 在Tables右边框中输入数据集名称 在Path右边框中 选默认位置 *:sassaswork 建立临时数据集 用户指定位置可以建立永久数据集,3.用分析员模块创建数据集,菜单栏 Globals Analyze Sta- tistical Analysis 打开Analyze(分析员)窗口直接输入数据 保存数据:File Save Library:库标记名(代表要保存文件的 位置,选Work可以建临时数据集) Table Name:数据集文件名 Description:可以对文件进行描述,4.由其它类型数据文件转换成SAS数据集,菜单栏 File im

12、portSAS可以直接与下列格式文件互相转换 dBASE/FoxBASE File (*.dbf) Excel 4.0/5.0 File (*.xls) Lotus 1/3/4 File (*.wk1/3/4) Delimited File (*.*) 空格分隔 Tab Delimited File (*.txt) 制表符分隔 Comma Separated Velues(*.csv)逗号分隔,注意: Visual Foxpro的数据表(*.dbf) 在VFP系统中通过菜单栏 文件 导出 类型选 dBASE、FoxBASE、Excel 5.0、 Delimited File 均可以 Excel

13、 97/2000/2002的文件(*.xls) 在Excel系统中通过菜单栏 文件 另存为 保存类型选 Excel5.0/4.0 (*.xls)或逗号分隔(*.csv) 制表符分隔(*.txt) 均可以 Excel文件中要求第1行是变量名,另外: 在写字板、记事簿、Word 或 Excel 中的数据也可以直接采用复制、粘贴的方式,通过PGM窗口创建SAS数据集。 通过 菜单栏 File Export 也可以把SAS数据集转换成相应的其它类型数据文件,5 .从已有的SAS数据集中创建新数据集,DATA A1(子集);SET AA(原数据集); (1)选择部分变量(列) 保留部分变量:KEEP D

14、ATA A1;SET AA;KEEP X1 X2; 去掉部分变量:DROP DATA A1;SET AA;DROP X3 X4; 赋值新的变量 Y=X3+X4; LY=LOG(Y);,常用SAS函数: LOG(x) 以e为底的自然对数 LOG10(x) 以10为底的常用对数 EXP(x) 以e为底的反对数 SQRT(x) 平方根 ABS(x) 绝对值 INT(x) 取整数(不四舍五入) MOD(x,y) 取x/y的余数 SIN(x) 正弦 COS(x) 余弦 三角函数(x是弧度) TAN(x) 正切,(2) 选择部分观测(行) 建子集语句:IF DATA A1;SET AA;IF SEX=1;

15、 DATA A1;SET AA;IF AGE40; IF X1=3 (不等于) IF SEX=1 AND AGE60 IF AGE20 AND AGE40,(3) 数据集连接 纵向连接 A1 DATA AA;SET A1 A2; A2 要求 A1和 A2中的变量相同 A1中有10行,A2中有15行,则AA有25行。 横向合并 A1 A2 DATA AA;MERGE A1 A2; BY Num; 匹配合并时,要求 A1和 A2中必须有1个相同的变量,且排列顺序也相同,作为标识变量用 BY 语句指定。,(4)数据集转置(行列互换) PROC TRANSPOSE;BY G;VAR X1-X4;,OB

16、S X1 X2 X3 1 2 3 4 5 6 7 8 9,OBS _Name_ Col1 Col2 Col3 X1 1 4 7 X2 2 5 8 X3 3 6 9,选择项有: OUT=新数据集名(缺省按DATA n自动命名) PREFIX=新变量名前缀(缺省按Col n自动命名) NAME=为原变量名列命名(缺省自动命名为_Name_),第三节 统计描述,一、定量资料的统计描述 简单描述:MEANS过程 输出样本含量、均数、标准差、最小值、最大值 ( N、Mean、Std Dev、Minimum、Maximum) 详细描述:UNIVARIATE过程 输出更多指标:样本含量、均数、标准差、最小值

17、、最大值、方差、标准误 、中位数、四分位数间距、常用百分位数、众数、平方和、离均差平方和等,可以作正态性检验 另外还显示原数据中的部分极端值,PROC MEANS; CLASS SEX; VAR HEIGHT WEIGHT; RUN; CLASS 指定分组变量(可以不写) VAR 指定需要分析的变量(不写即分析全部变量) MAXDEC=n 指定计算结果保留小数位数(默认2位) 可加的选项有:标准误(StdErr)、方差(Var)、总和(Sum)、平方和(USS)、离均差平方和(CSS)、全距(Range)、变异系数(CV)、偏度系数(Skewness)、峰度系数(Kurtosis)、可信区间(

18、CLM)等 还可以计算总体均数=0的 t 检验(T、Prt) 不加任何选项时,自动输出5项结果: N、Mean、Std Dev、Minimum、Maximum,MEANS过程,频数表资料:,DATA AA2; INPUT X F; CARDS; 2.5 5 2.7 10 2.9 12 3.1 23 3.3 24 3.5 22 3.7 17 3.9 7 4.1 3 ; PROC MEANS N MEAN STD STDERR CLM ; VAR X;FREQ F;RUN; 数据步中:X 是组中值,F是频数 过程步中:VAR X;指定分析变量是 X FREQ F;指定 F 是频数,计算几何均数,D

19、ATA AA3; INPUT X F; Y=LOG10(X); CARDS; 4 1 8 5 16 6 32 2 64 7 128 10 256 4 512 5 ; PROC MEANS; VAR Y; FREQ F; OUTPUT OUT=C MEAN=M; BY SEX; PROC UNIVARIATE; BY SEX; VAR HEIGHT WEIGHT; RUN; BY 指定分组变量(可以不写) SORT 用BY之前必须先按分组变量排序 加选项 NORMAL 可以作正态性检验(W) 在已知资料不服从正态分布时或对资料的分布类型不确定时可以用UNIVARIATE过程作探索性分析。,UNI

20、VARIATE过程,Moments 样本含量 N 7 频数之和 Sum Wgts 7 均数 Mean 53.55714 X Sum 374.9 标准差Std Dev 10.46564 方差Variance 109.5295 偏度系数Skewness 1.246 峰度系数Kurtosis 1.376 X2 USS 20735.75 CSS 657.1771 变异系数 CV 19.54106 标准误 Std Mean 3.955638 =0的t检验 T:Mean=0 13.53944 Pr|T| 0.0001 非0变量个数 Num = 0 7 0变量个数 Num 0 7 符号检验 M(Sign)

21、3.5 Pr=|M| 0.0156 符号秩和检验 Sgn Rank 14 Pr=|S| 0.0156 正态性检验 W:Normal 0.900687 PrW 0.3488,Quantiles(Def=5) P100 100% Max 73.3 P99 99% 73.3 P75 75% Q3 60.8 P95 95% 73.3 M 50% Med 49.9 P90 90% 73.3 P25 25% Q1 47.1 P10 10% 42.2 P0 0% Min 42.2 P5 5% 42.2 P1 1% 42.2 全距 Range 31.1 四分位数间距 Q3-Q1 13.7 众数 Mode 42

22、.2,极端值Extremes Lowest Obs Highest Obs 最小 序号 最大 序号 42.2 ( 4) 48 ( 3) 47.1 ( 1) 49.9 ( 7) 48 ( 3) 53.6 ( 2) 49.9 ( 7) 60.8 ( 5) 53.6 ( 2) 73.3 ( 6),定量资料统计描述非编程方式(分析员模块),(1 )打开分析员窗口 菜单栏 Globals Analyze Statistical Analysis (2 )打开SAS数据集 菜单栏 File Open by SAS name (3 )作简单统计分析 菜单栏 Statistics Descriptive Su

23、mmary Statistics 在Analysis窗口选入要分析的变量 在Classification窗口选入分组变量 用Statistics可以选更多的统计分析结果 用Variables可以对变量有更多的选择方式 选OK完成,二、定性资料统计描述,FREQ 过程 可以产生频数表和 n 维列联表 PROC FREQ;TABLES A ;RUN; TABLES 指定要分析的定性变量 TABLES A 产生一维频数表 TABLES A*B 产生二维列联表(A是行B是列) TABLES A*B*C 产生三维列联表 (A是分层,B是行,C是列) TABLES A*(B C) 产生A*B、A*C两个二

24、维表 TABLES X1-X3 产生X1、X2、X3三个一维表 TABLES (X1-X4)*Y 产生X1*Y X2*Y X3*Y X4*Y 四个二维表,如描述以下三个定性变量(258人) A文化程度(1=文盲2=初中以下3=高中4=大学) B工作强度(1=轻 2=中 3=重) C月收入 (1=300 2=300- 3=500- 4=1000-) DATA AA4; INPUT A B C; CARDS; 3 2 3 4 1 4 4 1 3 ; PROC FREQ; TABLES A B C; PROC FREQ; TABLES A*B; PROC FREQ; TABLES A*B*C; PR

25、OC FREQ; TABLES A*(B C); RUN;,一维频数表 Cumulative Cumulative A Frequency Percent Frequency Percent 频数 构成比 累计频数 累计构成比 2 78 30.2 78 30.2 3 85 32.9 163 63.2 4 95 36.8 258 100.0,二维频数表 A=4 Frequency| Percent | C Row Pct | Col Pct | 1 | 2 | 3 | 4 | Total -+-+-+-+-+ 1 | 0 | 6 | 37 | 26 | 69 B | 0.00 | 6.32 |

26、38.95 | 27.37 | 72.63 | 0.00 | 8.70 | 53.62 | 37.68 | | . | 75.00 | 67.27 | 81.25 | -+-+-+-+-+ 2 | 0 | 2 | 18 | 6 | 26 | 0.00 | 2.11 | 18.95 | 6.32 | 27.37 | 0.00 | 7.69 | 69.23 | 23.08 | | . | 25.00 | 32.73 | 18.75 | -+-+-+-+-+ Total 0 8 55 32 95 0.00 8.42 57.89 33.68 100.00,频数 构成比 行构成比 列构成比,定性资料统计

27、描述非编程方式(分析员模块),菜单栏 Globals Analyze Statistical Analysis 菜单栏 File Open by SAS name 作一维频数表 菜单栏 Statistics Descriptive Freguency counts 把变量选入Frequencies 窗口,OK 作二维频数表 菜单栏 Statistics Table Analysis 分别把变量选入Row、Column、Strata窗口,OK 用Tables可以选每个格中出现更多的结果,三、定量资料频数表,先用MEANS过程找出最大值和最小值 MIN=2.5 MAX=5.71 RANGE=3.2

28、1 确定组距(I=0.3)和第一组段的下限(L=2.5) 然后用数据步分组 赋值新的变量:Y=INT(X-L)/I)*I+L 用FREQ过程作频数表: DATA AA; SET AA5; Y=INT(X-2.5)/0.3)*0.3+2.5; PROC FREQ; TABLES Y; RUN;,定量资料作直方图 PROC GCHART; VBAR X/LEVELS=11 SPACE=0 ; RUN; GCHART过程作图 VBAR 作纵向条图 ; HBAR作横向条图 常用选项有: LEVELS 分组的数目 WIDTH 指定竖条的宽度,以字符宽度为单位 SPACE 指定竖条之间的距离,直方图=0

29、MIDPOINTS=2.65 TO 5.65 BY 0.3 指定组中值,直方图非编程方式(分析员模块),菜单栏 Globals Analyze Statistical Analysis 菜单栏 File Open by SAS name 菜单栏 Graphs Histogram 把变量选入Analysis窗口,OK 用 Display 可以增加更多的选项,第四节 定量资料假设检验,一、样本均数与总体均数比较 以往新生儿出生体重平均为3000g,某医院对产妇开展孕期保健指导后,测得15名新生儿出生体重如下,问开展孕期保健指导后对新生儿体重是否有影响? 2800 3400 2900 2750 30

30、00 3100 4600 3900 2350 3500 2600 3700 3800 2950 3200,样本均数与总体均数比较用MEANS过程,DATA AA6; INPUT X; Y=X-3000; CARDS; 2800 3400 2900 2750 3000 3100 4600 3900 2350 3500 2600 3700 3800 2950 3200 ; PROC MEANS MEAN STD STDERR T PRT; VAR Y; RUN; 结果 Mean Std Dev Std Error T Prob|T| 236.67 586.60 151.46 1.56 0.1405

31、 P0.05,不拒绝H0,尚不能认为开展孕期保健指导对新生儿体重有影响 。,二、配对设计 t 检验,为了比较新旧两个测声计的测定效果,随机选定10个场地,在每地同时用新旧两个测声计测量数据如下,问新旧两个测声计的测量结果是否不同? 场地 1 2 3 4 5 6 7 8 9 10 旧: 87 65 74 95 65 55 63 88 61 54 新: 86 66 77 95 60 53 62 85 59 55,配对设计 t 检验用MEANS过程,DATA AA7; INPUT X1 X2 ; Y=X1-X2;CARDS; 87 86 65 66 74 77 95 95 65 60 55 53 6

32、3 62 88 85 61 59 54 55 ; PROC MEANS MEAN STD STDERR T PRT; VAR Y; RUN; 结果 Mean Std Dev Std Error T Prob|T| 0.90 2.28 0.72 1.25 0.2440 P0.05,不拒绝H0,尚不能认为新旧两个测声计的测定结果有差别。,三、两样本均数比较,试比较克山病人与健康人的血磷值(mmol/L)是否不同? 克山病人 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人 0.54 0.64 0.64 0.75 0.76 0.81

33、 1.16 1.20 1.34 1.35 1.48 1.56 1.87,两样本均数比较用TTEST过程,DATA AA8; INPUT X; IF _N_11 THEN G=1; ELSE G=0; CARDS; 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 ; PROC TTEST; CLASS G; VAR X; RUN; 在TTEST过程中,分类变量G只能是两分类。,条件语句 IF THEN /

34、ELSE,IF 后面是条件的表达式,如果满足条件就执行 THEN 后面操作,否则(不满足条件),就执行 ELSE 后面的操作(ELSE可选)。 IF X4=0 THEN X4=. ; IF CJ2 AND X5=1 THEN Y=1; ELSE Y=2; _N_ 是SAS数据步中自定义的变量,它的值表示观测的序号。 IF _N_11 THEN G=1; ELSE G=0; 也可用G=(_N_11);赋值分组变量G:前11个观测G=0,超过11时G=1。,t 检验结果 (1) G N Mean Std Dev Std Error 1 11 1.52 0.4218 0.1272 2 13 1.08

35、 0.4221 0.1171 (2) Variances方差 T DF Prob|T| Unequal 不齐 2.5239 21.4 0.0196 Equal 齐 2.5237 22.0 0.0193 (3) For H0: Variances are equal, 方差齐性检验 F = 1.00 DF = (12,10) ProbF = 1.00 结论:P0.05,拒绝H0,接受H1,可以认为两组人群血磷值不同,克山病人血磷值较高。,两大样本均数比较时,如只有均数标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式编写程序完成。 调查健康人群红细胞数

36、 (1012/L)资料如下: 男性360人,均数466.02,标准差57.46; 女性255人,均数417.80,标准差29.10。 试比较男女红细胞数有无差别?,DATA BB; INPUT N1 X1 S1 N2 X2 S2; SE=SQRT(S1*S1/N1+S2*S2/N2); U=ABS(X1-X2)/SE; P1=1-PROBNORM(U); P=2*P1; U=ROUND(U,0.001); P=ROUND(P,0.00001); IF P0.0001 THEN P=0.0001; FILE PRINT; PUT #2 10 U= 25 P= ; CARDS; 360 466.0

37、2 57.46 255 417.80 29.10 ; RUN;,定量资料假设检验非编程方式(分析员模块),菜单栏 Globals Analyze Statistical Analysis 菜单栏 File Open by SAS name (1)样本均数与总体均数比较 菜单栏 Statistics Hypothesis Tasts One-Sample t-test for Means 往Variable窗口选入变量,Mean 窗口输入,OK 和己知时可选 One-Sample z-test for Means Mean 窗口输入, Std Dev 窗口输入。,(2)配对 t检验 菜单栏 St

38、atistics Hypothesis Tasts Two-Sample Paired t-test for Means 分别选入第一组和第二组变量 ,OK (3)两样本均数比较 t检验 菜单栏 Statistics Hypothesis Tasts Two-Sample t-test for Means 往Dependent窗口选入要分析的变量 往Group窗口选入分类变量,OK,四、单因素方差分析,用于完全随机设计(成组设计)资料 例:比较三组人群载脂蛋白测定值有无差别?,单因素方差分析用ANOVA过程,DATA AA9; INPUT X; IF _N_20 THEN G=3; ELSE

39、G=2; CARDS; 85.7 105.2 109.5 96.0 115.2 95.3 ; PROC MEANS; CLASS G; VAR X; PROC ANOVA; CLASS G; MODEL X=G; MEANS G/SNK ; RUN; 在SNK后面加HOVTEST可以作方差齐性检验,Analysis of Variance Procedure Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr F 变异来源 自由度 SS MS F P Model模型 2 2384.02550505 1192

40、.01275253 5.85 0.0077 Error误差 27 5497.83616162 203.62356154 Total总 29 7881.86166667 R-Square R2 C.V. Root MSE Sy.x X Mean 0.302470 12.93519 14.26967279 110.31666667 Source DF Anova SS Mean Square F Value Pr F 变异来源 自由度 SS MS F P G组间 2 2384.02550505 1192.01275253 5.85 0.0077 P0.01,拒绝H0,接受H1,可以认为三组人群载脂

41、蛋白不同。,Student-Newman-Keuls test for variable: X 均数间两两比较q检验(SNK法) Means with the same letter are not significantly different. 相同字母表示的均数无显著性差别 SNK Grouping Mean N G A 122.800 10 3 B 105.455 11 1 B B 102.389 9 2 第三组高于前两组,即健康人的载脂蛋白高于两组病人。,单因素方差分析时,如只有各组的均数、标准差,而无原始数据时,无法直接调用SAS软件中的某个过程进行分析,只能在数据步中按照计算公式

42、编写程序完成。 例:研究不同季节人体肾上腺皮质3-HSD活性变化,DATA AA; INPUT K XX; DO I=1 TO K; INPUT N X S; OUTPUT; SS1+(XX-X)*(XX-X)*N; SS2+S*S*(N-1);NN+N; END; SS1=SS1/(K-1); SS2=SS2/(NN-K); F=SS1/SS2; P=1-PROBF(F,K-1,NN-K); F=ROUND(F,0.001); P=ROUND(p,0.00001); IF P0.0001 THEN P=0.0001; FILE PRINT; PUT #2 10 F= 25 P= ; CARD

43、S; 4 0.6867(总均数) 42 0.78 0.13 40 0.69 0.22 32 0.68 0.14 36 0.58 0.20 ; RUN;,五、两因素方差分析,用于随机区组设计(配伍组设计)资料 例:取同品系同体重24只小鼠分为8组,每组3只小鼠来自同一窝,分别用A、B、C三种营养素喂养,问三周后所增体重有无差别。,两因素方差分析用ANOVA过程,DATA AA10; DO I=1 TO 3; DO J=1 TO 8; INPUT X; OUTPUT; END; END; CARDS; 50.1 47.8 53.1 63.5 71.2 41.4 61.9 42.2 58.2 48.

44、5 53.8 64.2 68.4 45.7 53.0 39.8 64.5 62.4 58.6 72.5 79.3 38.4 51.2 46.2 ; PROC MEANS; CLASS I ; VAR X; PROC ANOVA; CLASS I J ; MODEL X=I J ; RUN;,Analysis of Variance Procedure Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr F Model模型 9 2521.29375 280.14375 11.52 0.0001 Error误差

45、 14 340.54250 24.32446 Total总 23 2861.83625 R-Square C.V. Root MSE X Mean 0.881006 8.860514 4.93198381 55.6625 Source DF Anova SS Mean Square F Value Pr F I 处理间 2 144.9175 72.45875 2.98 0.0836 J 区组间 7 2376.37625 339.48232 13.96 0.0001 处理间P0.05,不拒绝H0,尚不能认为三种营养素喂养小鼠增重有差别;区组间P0.01,拒绝H0,接受H1,可以认为8组小鼠体重增

46、加有差别。,循环语句,在数据步的执行中反复地执行某一部分语句。 DO 循环变量=初值 TO 终值 BY 增值 ;END; 增量=1时可省略。 DATA B1; DATA B2; DO I=1 TO 10; DO I=1 TO 10 BY 2; S+I; S+I; OUTPUT; OUTPUT; END; END; PROC PRINT; PROC PRINT; RUN; RUN;,循环语句可以嵌套(多重循环) 如打印乘法表: 1*1=1 DATA BB; 2*1=2 2*2=4 DO I=1 TO 9; 3*1=3 3*2=6 3*3=9 DO J=1 TO I; 4*1=4 4*2=8 4*

47、3=12 4*4=16 X=I*J; 5*1=5 5*2=10 5*3=15 OUTPUT; 6*1=6 6*2=12 6*3=18 END; 7*1=7 7*2=14 7*3=21 END; 8*1=8 8*2=16 8*3=24 PROC PRINT; 9*1=9 9*2=18 9*3=27 RUN;,单因素方差分析的数据也可以用双重循环语句编写,在各组样本含量不等时,加缺失值 “.”补满。,DATA BB; DO I=1 TO 11; DO J=1 TO 3; INPUT X; OUTPUT; END; END; CARDS; 85.7 96 144 105.2 124.5 117 10

48、9.5 105.1 110 96 76.4 109 115.2 95.3 103 95.3 110 123 110 95.2 127 106.5 99 121 125.6 120 115 100 . 159 111 . . ; PROC ANOVA; CLASS J; MODEL X=J; RUN;,六、三因素方差分析,用于拉丁方设计资料 例:比较动物对不同药物和用药次序的反应 拉丁方设计要求三因素水平数相同,因有四种药物A、B、C、D,故取4只动物,反复用药4次。,DATA AA11; DO CX=1 TO 4; DO DW=1 TO 4; INPUT YW$ X ; OUTPUT; END

49、; END; CARDS; A 75 B 29 C 27 D 42 B 45 D 71 A 81 C 53 C 25 A 71 D 80 B 23 D 47 C 31 B 48 A 87 ; PROC ANOVA; CLASS CX DW YW; MODEL X=CX DW YW; MEANS YW/ SNK; RUN;,Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr F Model 9 6396.5625 710.7292 4.02 0.0521 Error 6 1059.8750 176.6458

50、Total 15 7456.4375 R-Square C.V. Root MSE X Mean 0.857858 25.46743 13.29081763 52.1875 Source DF Anova SS Mean Square F Value Pr F CX 3 773.1875 257.7292 1.46 0.3167 DW 3 270.68750 90.2292 0.51 0.6894 YW 3 5352.68750 1784.2292 10.10 0.0092 四种药物之间PB、C。而动物之间和用药次序均无影响。,七、析因试验设计的方差分析,可以分析各因素之间的交互作用。 例:用

51、新、旧两法分别提取某食品中甲、乙两种化合物,观察回收率有无差别(包括方法间、化合物间及方法与化合物间交互作用)。,DATA AA12; DO A=1 TO 2; DO B=1 TO 2; DO I=1 TO 4; INPUT X ; OUTPUT; END; END; END; CARDS; 52 48 44 44 84 88 90 88 52 44 40 26 47 64 52 45 ; PROC ANOVA; CLASS A B; MODEL X=A B A*B; RUN;,Dependent Variable: X Source DF Sum of Squares Mean Square

52、 F Value Pr F Model 3 5309.00 1769.67 33.39 0.0001 Error 12 636.00 53.00 Total 15 5945.00 R-Square C.V. Root MSE X Mean 0.893019 12.82839 7.28 56.75 Source DF Anova SS Mean Square F Value Pr F A 1 1764.00 1764.00 33.28 0.0001 B 1 2704.00 2704.00 51.02 0.0001 A*B 1 841.00 841.00 15.87 0.0018 不同方法、不同化

53、合物间均有差别,且交互作用也有统计学意义。 新法高于旧法,乙物高于甲物,以新法+乙物为最佳组合。,八、交叉试验设计的方差分析,研究新药催醒宁对麻醉剂的作用,将6只大鼠配成3对,随机决定每对中1只接受处理的顺序(催醒宁或生理盐水),等动物完全清醒3天后将实验组和对照组动物互换,同法重复试验一次。结果如下: (Y 药物组 D 对照组),DATA AA13; DO CX=1 TO 2; DO DW=1 TO 6; INPUT YW$ X ; OUTPUT; END; END; CARDS; Y 15 D 31 Y 17 D 30 D 25 Y 5 D 27 Y 25 D 28 Y 14 Y 18 D

54、 26 ; PROC ANOVA; CLASS CX DW YW; MODEL X=CX DW YW; RUN;,Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr F Model 7 621.5833 88.7976 5.85 0.0535 Error 4 60.6667 15.1667 Total 11 682.2500 R-Square C.V. Root MSE X Mean 0.911079 17.90547 3.8944 21.75 Source DF Anova SS Mean Square F Value Pr F CX 1 18.75 18.75 1.24 0.3285 DW 5 158.75 31.75 2.09 0.2470 YW 1 444.08 444.08 29.28 0.0057 药物间P0.01,拒绝H0,接受H1,可以认为实验组与对照组不同,催醒宁有效。,方差分析非编程方式(分析员模块),菜单栏 Globals Analyze Statistical Analysis 菜单栏 File Open by SAS name (1)单因素方差分析 菜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论