统计分析系统sas--03_第1页
统计分析系统sas--03_第2页
统计分析系统sas--03_第3页
统计分析系统sas--03_第4页
统计分析系统sas--03_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 3讲数据步语句SAS过程初步计算中心 何宁计算中心数据步语句v选择语句SELECT (选择表达式 );WHEN(值列表 ) 语句 ;WHEN(值列表 ) 语句 ;OTHERWISE 语句 ;END;计算中心数据步语句v其中 “选择表达式 ”是一个取数值、字符型值的变量或表达式, “值列表 ”为一项或者若干项 ,多项之间逗号分开 ,每项可以是一个与选择表达式相同取值类型的表达式。v“语句 ”可以是单个语句或复合语句。执行SELECT结构时 ,先计算出选择表达式和值列表中的所有值 ,然后把选择表达式值由前向后与值列表中的值相比 ,发现相等值则执行对应的语句,然后退出 SELECT结构(不再查看后面的值列表) .v如果选择表达式的值不等于任何值列表中的值则执行 OTHERWISE对应的语句,这种情况下没有 OTHERWISE语句会出错。计算中心数据步语句v 选择语句的另一种形式SELECT;WHEN(条件 ) 语句 ;WHEN(条件 ) 语句 ;OTHERWISE 语句 ;END;v 这种 SELECT语句没有选择表达式,而是在每一个 HEN语句指定一个条件(逻辑表达式)v 执行第一个满足条件的 WHEN后的语句v 如果所有条件都不满足则执行 OTHERWISE后的语句。计算中心数据步语句SELECT;WHEN(age选择项 ;v功能 : 指定所需调用的过程以及该过程的若干选择项。v选择项 关键字 关键字 =值 关键字 =SAS数据集,如 DATA=数据集计算中心SAS常用过程vIMPORTvSQLvPRINTvFREQvMEANSvSORTvFORMAT计算中心IMPORT过程Proc import out=数据集datafile=“文件全名 ”|table=“表名 ”DBMS=标识名 REPLACE其他语句;Run;其中,标识名如下:Access2000|dbf|excel2000|dlm|csv|tab上述标识名依次对应的扩展名为:.mdb|.dbf|.xls|.*|.csv|.txt其他语句Getnames=yes|noDatarow=n(标识名为 dlm|csv|tab时可用 )计算中心IMPORT过程Proc import out=aaadatafile=“e:sasdatabank.xls“DBMS=excel2000;Run;计算中心SQL过程PROC SQL;CREATE TABLE 数据集名 AS SELECT 语句 ; Proc SQL ; CREATE TABLE AB.CLASSBAK AS SELECT NAME,GENDER FROM AB.CLASS1 WHERE AGE=5; Run;计算中心FREQ过程vProc freq data=数据集名 选项 ;v tables 变量名列表 /选项 ;vRun;v Tables语句中的选项: nocum 不要累计的频数和百分数 nopercent-不要百分数和累计的百分数v Proc freq语句中的选项: order=internal-按变量值排序 freq-按频数降序排序 data-按数据集中的值的次序排序 formatted-按变量格式化的值排序计算中心MEANS过程PROC MEANS DATA=;VAR ; BY ; CLASS ; RUN;计算中心可以计算的描述性统计量关键字及其含义见下表关键字 所代表的含义 关键字 所代表的含义n 有效数据 记录 数 range 极差nmiss 缺失数据 记录 数 skewness 偏度mean 均 值 kurtosis 峰度std 标 准差 t 分布位置假 设检验 之 t统计 量stderr 标 准 误 probt 上述 t统计 量 对应 的概率 值var 方差 q1 第一四分位数median 中位数 q3 第三四分位数mode 众数 qrange 四分位数 间 距cv 变 异系数 p1 第一百分位数max 最大 值 p5 第五百分位数min 最小 值 p10 第十百分位数sum 总计 p90 第九十百分位数sumwgt 加 权值总计 p95 第九十五百分位数css 校正平方和 p99 第九十九百分位数uss 未校正平方和计算中心UNIVARIATE过程PROC UNIVARIATE DATA = ;VAR ;BY | CLASS ;HISTOGRAM /;OUTPUT OUT = = ;RUN;计算中心UNIVARIATE过程vUNIVARIATE过程和 MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在 UNIVARIATE过程中计算(如众数),而且 UNIVARIATE过程中具有绘图功能。v 其中, HISTOGRAM语句用来指示 SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。计算中心用分析家作频数统计v 选择 ”解决方案 /分析 /分析家 ”进入分析家环境v 点击 ”文件 /按 SAS名称打开 ”打开数据集v 点击 ”统计 /描述性统计 /频数统计 ”,在弹出的对话框中: AGE=Frequencies,Sex=Frequencies 点击 OK计算中心FORMAT过程vPROC FORMAT;vVALUE 格式变量名 分组形式 ;vRUN; 其中 :格式变量名由用户命名 ,在其他在其他过程中可以引用该格式名 .v引用 :PROC 过程名 DATA=数据集名 ;过程语句 ;FORMAT 数据集中的变量名 格式名 .;RUN;计算中心FORMAT过程Proc format;Value wfmt low-;PLOT * = /;SYMBOLn ;RUN;计算中心选项 意义 说明FRAM | NOFRAM 在 图 形四周加入或不加入 边 框 缺省 为 加入CFRAM = 颜 色 边 框内的 颜 色 缺省 为 白色AUTOHREF(AUTOVEREF) 在水平 (垂直 )轴 的每个主刻度 处 加入水平 (垂直 )参考 线NOAXIS 取消坐 标轴 及相关的 图 形元素CAXIS = 颜 色 设 定 轴 的 颜 色CTEXT = 颜 色 设 定与 轴 相关字符的 颜 色HAXIS = 值 列 举 设 定水平 轴 主刻度的 值VAXIS = 值 列 举 设 定垂直 轴 主刻度的 值overlay 多个 图 共坐 标PLOT语句的选项计算中心选项 意义 取值V = 符号 表示点使用的符号 plus, star, squar, diamond, triangle, point, dot,circleC = 颜 色 表示点的符号及 连线 的 颜 色 black, red, green, blue, cyan, magenta, gray, pink, orange, brown, yellowCV =颜 色 专 指点的符号的 颜 色H = n 指名符号的大小 单 位有: cell, cm, pct, pt, inPOINTLABEL 在点的附近表明 Y轴变 量的 值i = 连线 方式 指明 连线 的方式 none, join, spline, needle(从数据点到横 轴 画直线 )Hl(直 线 回 归线 )CI = 颜 色 专 指 连线 的 颜 色L = n n为线 型的序号 0 空白 线 , 1 - 实线 , 2 虚 线 W = n n表示 线 的 宽 度vSYMBOL语句用来控制表示点的符号和点间的连线。其中 n是不同 SYMBOL语句的序号,可以是1-99

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论