




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS过程步操作基础,薛富波2006/04/23,1,PPT学习交流,有关过程步程序的基本概念,2,PPT学习交流,过程步(procstep)的概念,过程步是指用以调用某个SAS过程(SASprocedure)的一组SAS语句所构成的相对独立的程序单元。过程步均以SAS系统中包含的各类过程(procedure)为基础,其中所能包含的语句和语句中的选项均表现为相对固定的形式,取决于所调用的具体过程。用户所能调用的SAS过程取决于安装SAS时所包含的模块。不同的SAS模块包含着执行相应功能的一个或多个SAS过程。,3,PPT学习交流,过程步程序的一般结构,以proc语句开始、run语句结束;过程步程序包含以下三方面的内容:(1)proc语句,其中包含proc关键字、所要使用的过程名以及所要处理的数据集等;(2)其它用于定义分析操作内容的语句,如class语句、var语句、tables语句等;(3)run语句,用于标志当前过程步程序的结束。如果此过程步后紧随其它过程步或数据步,run语句可省略。,4,PPT学习交流,proc语句,每一个过程步都以proc语句开始;proc语句以proc关键字开始,紧跟其后的是所调用SAS过程的名称,语句中还可包括众多的控制选项;多数SAS过程的proc语句中均包括“data=”选项,用以指定该SAS过程所要处理的数据集;不同的SAS过程,其proc语句中所包含的语句选项也各不相同。,5,PPT学习交流,BASE模块SAS过程的功能与操作,6,PPT学习交流,BASE模块所含过程的功能分类,报表输出过程:用以显示各种实用信息,包括数据列表、汇总报告、日历、书信、标签、表单以及各种图形报表等。统计计算过程:用以计算各种基本统计量,包括均数、标准差等基于矩的统计量,分位数,可信区间,频数等;还可编制交叉表、进行相关分析以及针对各种分布形式的假设检验;此外还可对数据进行编秩及标准化等操作。实用工具类过程:此类过程为用户提供各类实用工具,可实现的功能包括对数据集的创建、编辑、排序以及转置等操作,创建和恢复数据交换文件,创建用户自定义的格式,维护SAS文件等。某些SAS过程同时兼备上述分类的两项以上功能,如means过程、freq过程等既具有统计计算功能,又具有报表输出功能。,7,PPT学习交流,报表输出过程,8,PPT学习交流,统计计算过程,9,PPT学习交流,实用工具类过程,10,PPT学习交流,BASE中若干常用的SAS过程,contents:显示SAS数据集的有关属性信息,帮助用户了解自己的数据;print:将数据集中全部或指定的部分变量、以及全部或指定的部分观测输出显示;means:针对数值型变量计算其各种描述性统计量;sort:根据一个或多个变量,对数据集的全部观测进行排序。import过程:从外部文件读取数据并创建SAS数据集;export过程:从SAS数据集读取数据并将其写入外部文件;printto过程:指定output窗口及log窗口的输出路径。,11,PPT学习交流,contents过程,contents过程用于显示指定的SAS数据集的有关信息或者相应逻辑库中所包含成员的列表信息。对于指定的SAS数据集,contents过程将列出数据集的各种属性信息,以及所包含的全部变量及其属性。有关变量信息的列表将按照字母顺序排列,变量属性信息包括变量类型、长度、标签以及格式等。contents过程的一般形式如下:proccontentsdata=SAS-data-setoptions;run;,12,PPT学习交流,proccontents语句的主要选项,detials|nodetials:用于控制显示结果的详尽程度。前者将显示上述的全部内容,后者则仅显示有关变量信息的部分。默认设置:detials。varnum:要求将变量按照其在数据集中的排列顺序而非字母顺序显示。short:有关变量信息部分仅显示变量名称,不显示变量属性。out=:将输入数据集中有关变量的信息存储到指定的数据集中。noprint:禁止程序运行结果在output窗口的输出显示。,13,PPT学习交流,contents过程示例,14,PPT学习交流,print过程,print过程用于将数据集中的全部或特定内容输出显示。可通过特定语句实现对选定列(变量)和特定行(观测)的输出显示。print过程功能特性:自动格式化,以变量名称或标签为列标题,选择性输出,特定的by格式以及id格式。print过程的一般形式:procprintdata=SAS-data-setoptions;otherstatements;run;,15,PPT学习交流,procprint语句的主要选项,label:使用变量标签作为列标题,否则变量名称将被用作列标题显示。n:在输出结果的末尾显示观测总数,如果同时设置“=string”项,“string”将同观测总数一同显示。noobs:禁止显示观测编号列。obs=:为观测编号列指定作为列标题的标签。,16,PPT学习交流,print过程支持的其它语句,by语句:分区显示各by分组(使用by语句需首先对输入数据集按照by变量进行排序)。id语句:指定一个或多个用以标识观测的变量,替代观测编号的作用。sum语句:指定一个或多个数值型变量,输出结果中将显示其合计值。sumby语句:指定一个by变量,以此by变量对数据集的不同分组中,分别进行sum变量的合计值计算与显示。var语句:指定所要输出显示的变量。Where语句:筛选所要显示的观测。,17,PPT学习交流,print过程示例,18,PPT学习交流,means过程,means过程主要执行数据汇总的功能,与univariate过程有众多相似之处;可对全部观测或在指定的分组内对指定(或默认)的变量计算各种指定(或默认)的描述性统计量;means过程还可对样本的分布位置(对应于均数为零的无效假设)执行t检验的功能;means过程还可创建有关描述性统计量的输出数据集。,19,PPT学习交流,means过程的一般形式,means过程的一般形式:procmeansdata=SAS-data-setstatistic_keywordsoptions;otherstatements;run;procmeans语句中除包含众多的选项外,还可包含各种统计量关键字(“statistic_keywords”项),用来指定means过程所要计算的统计量。,20,PPT学习交流,procmeans语句的主要选项,missing:将class变量的缺失值作为合法的水平用以创建代表分组的组合;fw=:指定输出结果中显示有关统计量的列的宽度;maxdec=:指定一个08的整数,用以设置输出结果中有关统计量的最大小数位数;noprint:禁止在结果窗口显示任何分析结果;alpha=:指定均数可信区间的置信水平,默认值为0.05。,21,PPT学习交流,means过程可计算的统计量(一),22,PPT学习交流,means过程可计算的统计量(二),23,PPT学习交流,means过程可用的其它语句,by语句:按照by变量的取值分割数据集,每个子集分别进行分析。class语句:指定用于分组的变量,可指定一个或多个。freq语句:指定用以作为观测频数(重复次数)的变量,该变量的取值表示当前观测被扩增的倍数。output语句:将分析所得的各类统计量存储到指定的输出数据集中。var语句:指定所要分析的变量。weight语句:指定作为权重的变量,进行各种加权统计量的计算。,24,PPT学习交流,means过程示例,25,PPT学习交流,sort过程,sort过程用于对SAS数据集的观测按照一个或多个变量的观测值进行排序,排序后的数据可存为新的数据集,也可直接替换原有数据集。sort过程可根据一个或多个变量进行排序操作,升序或降序可由用户自定义。在windows和unix系统中,sort过程的排序操作依照ASCII码的排列顺序为准。,26,PPT学习交流,字符排列顺序,字符型变量:blank!“#$%?ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghIghIjklmnopqrstuvwxyz|数值型变量:缺失值(._.Ato.Z)数值(依照大小顺序),27,PPT学习交流,sort过程的形式和语句选项,sort过程一般形式:procsortdata=SAS-data-setoptions;byvar1;run;procsort语句的几个重要选项:(1)nodupkey:查找在by变量上(观测值)的重复观测并将其从数据集中剔除。(2)noduprecs:查找重复的观测(两行上所有的变量取值相同)并剔除之。(3)out=:指定一个输出数据集的名称,用以存储排序后的数据,否则原有数据将被替换。by语句中的升序降序设置:默认情况下by语句中指定的变量将以升序的方式排列观测,如需将其改变为降序排列,在相应变量名前设定descending选项。,28,PPT学习交流,sort过程示例,datatest;inputsnxy;datalines;261901302555562323214323833916;run;procsortdata=testout=testnnodupkey;bysn;run;procprintdata=testn;run;,29,PPT学习交流,import过程,import过程用于从外部数据文件中读取数据,创建SAS数据集。import过程可读入诸多类型的外部数据文件来创建新的SAS数据集,其中包括微软的access数据库、excel工作表,lotus的数据文件,以及各种分隔符(空格、逗号等)分隔的数据文件(文本文件等)。,30,PPT学习交流,import过程的形式和语句,import过程的形式:procimportoptions;datasourcestatements;run;procimport语句的重要选项:datafile=:用以指定外部数据文件的物理路径;table=:用以指定数据库文件中所要读入的数据表(此选项与datafile=选项不可同时使用);out=:用以指定所要创建的数据集名称;replace:如果所要创建的数据集已存在,设置此选项将会以新数据集覆盖已有的数据集;dbms=:用以指定所读入外部数据的格式。windows环境下import过程可读入的外部数据格式见下页。,31,PPT学习交流,windows环境下可用的外部数据格式,32,PPT学习交流,import过程的数据源语句,数据源语句(datasourcestatements)为import过程读入外部数据时提供更为细致和具体的控制信息。不同的外部数据格式对应不同类型的数据源语句。,33,PPT学习交流,工作表及PC文件对应的数据源语句,34,PPT学习交流,数据库表对应的数据源语句,35,PPT学习交流,import过程示例,procimportdatafile=d:officeseminarsas_basecasesstroke1.xlsout=stroke1dbms=excel2002replace;sheet=stroke1;getnames=yes;run;,36,PPT学习交流,export过程,export过程执行与import过程完全相反的功能,从SAS数据集读取数据写入指定的外部数据文件(新建)。可写入的外部数据文件格式与import过程可读入的数据文件格式完全相同。export过程一般形式:procexportoptions;datasourcestatements;run;procexport语句中的选项与import过程的相应选项相对应;export过程所含的数据源语句多数也与import过程相同或相近。,37,PPT学习交流,procexport语句选项,data=:指定要读取的SAS数据集,对应于import过程的out=;outfile=:指定要写入的外部数据文件,对应于import过程的datafile=;outtable=:指定要写入的数据库表,对应于import过程的table=;dbms=:同import过程的相应选项;replace:同import过程的相应选项。,38,PPT学习交流,export过程示例,procexportdata=stroke1outfile=d:officeseminarsas_basecasesstroke1n.xlsdbms=excel2002replace;sheet=data;run;,39,PPT学习交流,printto过程,printto过程用于指定SAS程序运行结果以及log窗口内容的显示或存储位置。默认状态下,SAS程序运行结果显示在output窗口中,log窗口的提示信息显示在log窗口中。printto过程允许用户将上述的两项内容保存到外部文件中或者SAS的目录条目(catalogentry)中。printto过程的一般形式:procprinttooptions;run;,40,PPT学习交流,procprintto语句选项,log=:指定log窗口内容的显示或存储位置。指定为外部文件时,log窗口内容将被存储到此文件中,log窗口本身不再显示任何内容。设置为log=log时恢复默认显示方式。print=:指定output窗口内容的显示或存储位置。指定为外部文件时,output窗口内容将被存储到此文件中,output窗口本身不再显示任何内容。设置为print=print时恢复默认显示方式。new:如果log或output窗口内容目标文件已存在,则清空其中所含的原有内容,仅保存此次新加入的内容;未指定此选项时新内容将被追加到原有内容之后。,41,PPT学习交流,printto过程示例,procprinttolog=d:logprint=d:outputnew;run;procprinttolog=logprint=print;run;,42,PPT学习交流,练习1,读入文本文件“data2.txt”,创建数据集data2。数据说明:数据共5列,前两列为分组因素,取值为1或0,变量名取factor1和factor2,后三列为数值变量,变量名取x1-x3。目的:按照factor1分层(分割数据集),在每一层内,按照factor2分组,求每一组内变量x1,x2,x3的均数及其95%可信区间、标准差、中位数、四分位数间距、最大值和最小值。创建一个输出数据集,将x1、x2、x3的均数及其95%可信区间保存到该数据集中,输出显示该数据集,观察其中的内容。要求:使用means过程,其中使用by语句进行数据分层。,43,PPT
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京海淀第十九中学教师招聘模拟试卷附答案详解(突破训练)
- 2025年西安经开第七小学招聘数学教师考前自测高频考点模拟试题及答案详解一套
- 2025福建武夷山市供销总公司招聘3人模拟试卷及答案详解(夺冠)
- 2025贵州黔西南州兴义民族师范学院高层次人才引进20人模拟试卷及答案详解参考
- 2025广东深圳市优才人力资源有限公司招聘编外聘用人员拟聘人员考前自测高频考点模拟试题及参考答案详解
- 2025年滁州明光市公开引进高中教育紧缺人才11人考前自测高频考点模拟试题及答案详解(必刷)
- 2025河南许昌市建安区人力资源和社会保障局招聘公益性岗位人员13人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025广西南宁隆安县南圩镇杨湾卫生院医学影像专业招聘1人模拟试卷及答案详解(易错题)
- 安全培训教学图课件
- 安全培训救护小结课件
- 生理学全套课件
- 课件:年金保险
- 物业工作拍照技巧培训课件
- 大数据可视化管控平台的人工智能与智能家居
- 数字化工厂安全生产培训课程
- 《青少年心理健康》课件
- 盆腔炎性疾病护理查房课件
- 女性子宫内膜癌的早期预防与筛查
- JCT908-2013 人造石的标准
- 创伤急救(中医骨伤科学十三五教材)
- 陈德华同志先进事迹材料之一
评论
0/150
提交评论