




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SAS 过程步(procedure step),SAS应用,复习数据步(data step)相关内容,1、主要功能 2、生成SAS数据集的方法 3、SAS数据集的要素 4、基本语句 5、临时数据集和永久数据集的区别 (Temporary data set / Permanent data set ),例1:,DATA CLASS1; INPUT NAME $ 1-8 AGE 10 SEX $ 12 HEIGHT 14-17 WEIGHT 19-23 BUST 25-28; CARDS; Lumin 3 B 0.94 13.59 50.4 caihang 3 B 0.91 14.20 50.0
2、limin 4 G 1.39 16.15 51.6 liyou 4 B 1.02 15.44 51.9 liuyin 4 B 1.06 15.30 51.0 liuyang 5 G 1.01 15.04 51.9 huye 5 G 1.02 15.07 52.7 chengbin 6 G 1.07 17.04 53.7 yangbin 6 B 1.12 18.09 54.1 liuhong 6 B 1.14 18.80 53.5 yanjin 7 G 1.16 19.93 55.5 zhangge 7 G 1.15 18.20 51.4; RUN;,授课内容: 1.SAS过程步和常用统计方法
3、2.求基本统计量过程 授课学时:8个学时(理论4学时,实习4学时) 目的: 1.掌握SAS过程步的通用语句和三个常用的过程步 的格式和功能,并能够根据要求编写相应程序。 2.正确应用means过程,univariate过程和freq过程 来计算常见的基本统计量。 难点: 1.“过程”与“语句”的区别 2.format语句与format过程的区别 3.Univariate过程的输出结果的阅读,本次课主要内容,过程步的通用语句 proc var by format freq (Class Id Output Title) 三个过程步 1.Print 过程 2.Sort 过程 3.Format 过程
4、,概念,过程步(procedure step)是以关键字PROC开始的一个或多个语句,它的任务是分析和处理数据集中的数据。,过程步的格式,PROC 过程名 过程选择项; 语句 /语句选择项; 语句 /语句选择项; 语句; RUN;,PROC PRINT DATA=CLASS; VAR NAME AGE; BY SEX; RUN;,在PROC步里,有一些最基本的信息要告诉SAS系统,1、选择的过程是什么?(proc) 2、要分析的数据集是什么?(data) (永久数据集,临时数据集,当前数据集和非SAS数据集) 3、要处理的变量是什么?(variable) 4、是否要分组进行处理分析?(grou
5、ping),第一句是proc 语句。表明要进行一项数据分析。proc 后面是SAS系统定义的过程名,然后是SAS 数据集名,然后是过程选择项。(指明过程) 第二句开始是系统指定的必选SAS 语句以及语句选择项。(指明分析变量) 然后是与该过程名配合使用的一些其它SAS 语句。(分组及其它) 最后一句是结束语句。,例2:,PROC PRINT DATA=CLASS; VAR NAME AGE; BY SEX; RUN;,过程名(Procedure program ),SAS 过程步是用来完成某个实际任务的SAS 程序。这种程序和SAS 数据步程序不同,它仅需要告诉计算机做什么,而不需要象SAS
6、数据步那样告诉计算机怎么做。这是因为SAS系统的过程库里已经存储了各种现成的用来完成不同任务的程序,并且SAS系统给每一个程序定义了一个相应的名字,称为过程名 。 过程名不超过8个字符,代表一种数据分析或实用过程的名字。例如,ttest,anova,reg,corr,tabulate,plot,print 等,它们分别是t-检验,方差分析,回归分析,相关分析,制表,绘图和输出打印的过程名。,三、用于SAS过程步中的通用语句,能够在SAS过程步中使用的语句。而非各个过程步的专用语句。 1、PROC语句:表示过程步的开始及调用某一要使用的过程 2、VAR语句:定义被分析的变量 3、BY语句:按指定
7、的变量值来分组处理数据集 4、CLASS语句:在分析中定义分类变量 5、SUM语句: 对指定的变量求和,当然该变量必须是数值型变量。 格式: sum SAS变量名;,PROC 语句,格式:PROC SAS过程名 选择项; 功能:调用SAS过程并完成该过程处理数据的任务。 PROC语句选择项: 1关键字(keyword)指定反应本过程特征 的关键字。 2关键字=值 指定关键字的初值,该值可能是数 值或字符串。 3关键字=SAS数据集 指定输入或输出的数据集。,PROC SORT DATA=A OUT=B ; 语句中SORT是过程名,DATA、OUT是关键字,A和 B是关键字的值。 Proc me
8、ans data=class n mean std max min maxdec=2; var height weight; By sex; Run;,举例:,5、ID语句:定义一个或多个变量识别观察值 6、FORMAT语句:用于在过程步中调用变量的格式 7、OUTPUT语句:将过程产生的结果输出到一个新的SAS数据集中。 8、FREQ语句:指定一个数值变量,它的值表示数据集中观测值出现的频数。,例3:,PROC PRINT DATA=CLASS1; PROC PRINT ; ID NAME AGE; RUN;,format 语句,format语句是用在过程步中调用变量输出格式的语句。form
9、at 语句是非必选语句,必须写在过程步里面。 结构: format SAS变量名 输出格式或格式名; 这里,输出格式是当时赋予的格式,而输出格式名是由format过程步定义的格式名字。 一个format 语句可以给多个SAS变量赋予相同的或分别赋予不同的格式。例如。 format sex sex. age agegrp. birthday yymmdd8. ; 这里sex 和age用的是事先定义好的格式名,birthday 是当时赋予的格式。,例4:,PROC PRINT DATA=CLASS1; FORMAT HEIGHT 6.1; RUN; DATA CLASS2; INPUT DATE
10、YYMMDD10. (X1-X5) (3.); CARDS; 1995-05-20 20 50 30 25 10 1996-07-03 21 40 50 20 8 1996-12-03 19 20 25 10 15 1997-01-15 18 51 42 30 20 RUN; PROC PRINT; FORMAT DATE YYMMDD10.; RUN;,例5: OUTPUT语句:,PROC MEANS DATA=CLASS1; VAR BUST; OUTPUT OUT=NEW MEAN=MEANBUST; RUN;,格式:OUTPUT OUT=数据集名 统计关键字名字 “统计关键字”指在新的
11、数据集中需要保留的统计量 “名字”则是给这些统计量命的名字。 功能:将过程产生的结果输出到一个新的SAS数据集中。,例6: FREQ语句,data a; input sex $ age number ; cards; f 20 10 f 22 23 m 21 19 m 22 16 proc means; freq number; var age; run;,现有一批人,其中20岁女性10人,22岁女性23人,21岁男性19人,21岁男性16人,求平均年龄。,9、TITLE语句:为SAS输出规定标题行,a.上一过程步或数据步的RUN语句之后 b.如果上一步无RUN 语句,则放在本过程的PROC语
12、句之后以及下一个DATA步或PROC步或RUN语句之前。,例7:,Proc print data=class1; Title “title for two procedure”; Proc means data=class1; Var weight; Run; Proc print data=class1;run; Title “title for two procedure”; Proc means data=class1; Var weight; Run;,10. LABEL 语句,格式:label 变量“标识” 功能:给变量赋以标记,输出时代替变量名。 例 label H=“HEIGHT
13、” W=“WEIGHT”; LABEL SEX=“性别”;,四、几个服务过程,1.Print过程 2.Sort过程 3.Rank过程 4.Format过程,格式: PROC PRINT data=SAS数据集; VAR 变量; WHERE 条件表达式; FORMAT 变量 变量输出格式; 功能:将数据集输出到OUTPUT窗口。,1. PRINT过程,例8:,PROC PRINT ; DATA=CLASS1; VAR NAME SEX AGE; RUN; PROC PRINT DATA=CLASS1; WHERE SEX=“B”; RUN; PROC PRINT DATA=CLASS3; PRO
14、C PRINT DATA=CLASS3; FORMAT DATE DATE7; RUN;,2. SORT 过程,格式:PROC SORT data=SAS数据集 out=SAS数据集; BY descending 变量; 功能:将数据集按某(些)变量排序。,例9:,PROC SORT DATA=CLASS1 OUT=SORT1; BY SEX DESCENDING HEIGHT; PROC PRINT DATA=SORT1; RUN;,3. rank 过程步,将SAS数据集中指定的变量的值按从小到大的顺序附给一个序数,也称为秩次。产生的新变量称为是原变量对应的秩次变量。 结构: proc ra
15、nk data=SAS数据集名 ; var SAS变量名; ranks 新变量名; 其它SAS语句; run;,3. rank 过程步,proc rank 语句,表明要建立SAS变量的秩次变量。 第二句是var 语句,指明数据集中要被秩次转换的变量。 第三句是ranks语句,给出秩次转换后新的变量名。若该句缺省,则新变量名覆盖原变量名。 第四句是其它SAS语句,仅允许使用by语句。 最后是过程结束语句。 rank过程步和sort过程步一样,不产生任何输出信息,必须借助于print 过程步,才能看到新数据集的结果。,rank过程步和sort过程步 的区别,rank过程步不改变所有变量的观察值的顺
16、序,而sort过程步改变变量的观察值的顺序 rank过程步产生新变量,不产生新的SAS数据集,而sort过程步不产生新变量,产生新的SAS数据集。,4. FORMAT过程,功能:对字符或数值变量定义一个所需的输出格式。 格式: PROC FORMAT; VALUE $格式名 原值1=输出值1 原值2=输出值2 ; run;,例10:,PROC FORMAT; VALUE $SF B=BOY G=GIRL; VALUE HF LOW-1.0=LOW 1.0-1.2=MID 1.2-HIGH=HIGH; PROC PRINT DATA=CLASS1; FORMAT SEX $ SF. HEIGHT
17、 HF.; RUN;,练习:,表1 学生基本情况表,1、建立SAS学生基本情况数据集 2、按班级、学号升序,总学分降序排列。 3、在OUTPUT窗口输出该表,输出格式:出生日期YYMMDD10. X性别男=boy,女=girl,一般统计描述-MEANS 过程,Proc means 操作选项统计量关键字列表; VAR ;/*指定分析的变量名列表,缺省为所 有数值变量*/ BY ; /*指定分组统计变量,要求排序*/ CLASS ;/*指定分组统计变量,不要求排序*/ FREQ ; /*表明该变量为分析变量的频数*/ OUTPUT 关键字= ; Run;,一般统计描述-MEANS 过程,Proc
18、means 操作选项 data= 指定要分析的数据集名 maxdec= 指定输出结果的小数位数,默认为7位 noprint 禁止统计结果在output窗输出 alpha= 设定计算可信区间的水平,默认为0.05 注:在proc语句中的选项直接跟在proc名后,以空格分隔,中间不加“/” ,其他命令语句的选项需以“/” 分隔。,一般统计描述-MEANS 过程,统计指标选项:,一般统计描述-MEANS 过程,OUTPUT 关键字= 语句 将分析结果输出到SAS 数据集 OUT= 数据集名 指定SAS数据集名称 关键字= 指定要输出的统计量 可输出的有N,NMISS,MEAN,STD, MIN,MA
19、X,RANGE, SUM, VAR,USS(平方和),CSS(离均差平方和),CV,STDERR,T, PRT, SKEWNESS, KURTOSIS,LCLM,UCLM(同时指定输出为双侧;如只选一个,输出单侧可信区间)可以重新对统计量命名,也可用原名; 格式 n=n mean=mean prt=p,程序3-1,data a; set child ; proc means maxdec=2; var x2-x6; run; Variable N Mean Std Dev Minimum Maximum - X2 7 73.86 70.48 30.00 178.00 X3 6 116.25 3
20、8.24 89.00 168.00 X4 7 23.79 19.48 11.00 53.50 X5 7 59.29 14.74 47.00 82.00 X6 7 56.43 26.25 35.39 100.14 -,加入 class x1; 后:,X1 N Obs Variable N Mean Std Dev Minimum Maximum - f 3 X2 3 80.33 84.60 30.00 178.00 X3 3 115.00 41.57 91.00 163.00 X4 3 24.50 22.95 11.00 51.00 X5 3 58.00 18.19 47.00 79.00 X6
21、 3 55.93 27.69 35.39 87.42 m 4 X2 4 69.00 71.34 32.00 176.00 X3 3 117.50 43.85 89.00 168.00 X4 4 23.25 20.18 12.50 53.50 X5 4 60.25 14.52 52.00 82.00 X6 4 56.80 29.44 35.81 100.14 -,程序3-2,data a; input group x y z; cards; 1 545 40 50 1 490 46 39 1 515 45 44 1 505 45 47 1 492 46 32 2 485 45 25 2 499
22、49 17 2 480 45 20 2 566 49 36 2 539 49 27 ;,proc means maxdec=2 noprint; var x ; class group; output out=b n=n mean=mean sum =sum std=std lclm=lclm uclm=uclm; run; proc print ;run;,程序3-2,OBS GROUP _TYPE_ _FREQ_ N MEAN SUM STD LCLM UCLM 1 . 0 10 10 511.6 5116 29.0524 490.817 532.383 2 1 1 5 5 509.4 2547 22.3450 481.655 537.145 3 2 1 5 5 513.8 2569 37.2518 467.546 560.054,详细统计描述-UNIVARIATE 过程,Proc univariate 操作选项 ; VAR ; 指定分析的变量名列表, 缺省为所有数值变量 BY ; 指定分组统计变量,要求排序 FREQ ; 表明该变量为分析变量的频数 Run; proc univariate 语句的操作选项 data= 指定要分析的数据集名 noprint 禁止统计结果在output窗输出 norma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度企业移动办公解决方案合同
- 2025PKISSL基础技术支持与维护服务合同
- 中班健康绘本课件
- 中小学质量管理课件
- 湖北初一上学期数学试卷
- 2025-2030中国硅铍石行业市场发展趋势与前景展望战略研究报告
- 衡阳县考编数学数学试卷
- 中小学欺凌防治工作课件要点
- 2025-2030中国无线遥控器行业市场运行态势分析及发展前景与投资研究报告
- 海门区初三一模数学试卷
- 2025至2030年中国高速公路广告行业市场行情监测及投资前景展望报告
- 识别心内科护理高风险
- 2025年 嘉峪关市招聘编制外聘用制教师笔试试卷附答案
- 货代公司风险管理制度
- 食品公司卫生间管理制度
- 2025年数据挖掘和分析考试试卷及答案
- 2025河南省豫地科技集团社会招聘169人笔试参考题库附带答案详解析集合
- JG/T 518-2017基桩动测仪
- CJ/T 394-2018电磁式燃气紧急切断阀
- 鱼塘回填改耕地协议书
- T/CIE 150-2022现场可编程门阵列(FPGA)芯片时序可靠性测试规范
评论
0/150
提交评论