版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一次实验第一次实验SASSAS系统入门系统入门数据的探索性分析数据的探索性分析 SASSAS入门主要内容入门主要内容uSASSAS系统系统简介简介uSAS for WindowsSAS for Windows启动与退出启动与退出uSASSAS界面操作和文件管理界面操作和文件管理uSASSAS帮助系统的使用帮助系统的使用SASSAS系统简介系统简介SASSAS系统特征:系统特征: 功能全面功能全面 使用灵活使用灵活 应用广泛应用广泛SASSAS的主要模块:的主要模块: SAS/BASESAS/BASE(基础)(基础)完成数据整理和初步统计分析;完成数据整理和初步统计分析; SAS/STATSA
2、S/STAT(统计)(统计)广泛的统计分析;广泛的统计分析; SAS/ASSISTSAS/ASSIST(面向任务的通用菜单驱动界面(面向任务的通用菜单驱动界面)交互式菜单操作;交互式菜单操作; SAS/GRAPHSAS/GRAPH(图形)(图形)提供了许多产生图形过程并支持众多图形设提供了许多产生图形过程并支持众多图形设备备。SASSAS界面操作与文件管理界面操作与文件管理(1 1)SASSAS启动与退出启动与退出(2 2)SASSAS系统界面简介系统界面简介 EditorEditor程序编辑窗口程序编辑窗口主要用于编辑主要用于编辑SASSAS源程序文件源程序文件,操作操作时光标可在整个窗口随
3、意移动,且支持时光标可在整个窗口随意移动,且支持WindowsWindows系统常规编辑系统常规编辑操作方式,如剪切、复制、粘贴等。操作方式,如剪切、复制、粘贴等。SASV9.2SASV9.2的智能编辑功能的智能编辑功能可根据用户输入的不同的可根据用户输入的不同的SASSAS程序部分显示出不同的颜色。若程序部分显示出不同的颜色。若用户输入有误,对应的颜色不对,以警告错误的发生。用户输入有误,对应的颜色不对,以警告错误的发生。 LogLog运行记录窗口运行记录窗口用于显示和记录用于显示和记录SASSAS程序的运行情况程序的运行情况,说明其运行成功或提示错误信息。当程序运行不成功,说明其运行成功或
4、提示错误信息。当程序运行不成功,LogLog运运行记录窗口将分别用绿色字符和红色字符显示警告和错误信行记录窗口将分别用绿色字符和红色字符显示警告和错误信息息。SASSAS界面操作与文件管理界面操作与文件管理 OutputOutput输出记录窗口输出记录窗口分页显示分页显示SASSAS程序运行的文本型程序运行的文本型输出结果输出结果,可使用主界面菜单的可使用主界面菜单的File|SaveFile|Save As As将其保存在磁将其保存在磁盘中,文件扩展名为盘中,文件扩展名为. .lstlst,该类型文件可用文字处理软件例,该类型文件可用文字处理软件例如如WordWord、写字板、记事本等将其打
5、开和编辑、写字板、记事本等将其打开和编辑。(3 3)SASSAS数据集和逻辑库数据集和逻辑库 SASSAS数据集数据集可以看做由若干行和列组成的表格,数据可以看做由若干行和列组成的表格,数据集的每一行叫做一个观测(集的每一行叫做一个观测(ObservationObservation), ,每一列叫做一个每一列叫做一个变量(变量(VariableVariable)。 SASSAS逻辑库逻辑库是一个连接,将磁盘中存储的文件和是一个连接,将磁盘中存储的文件和SASSAS系统联系起来系统联系起来,分为临时逻辑库和永久逻辑库。,分为临时逻辑库和永久逻辑库。SASSAS界面操作与文件管理界面操作与文件管理
6、 新建逻辑库新建逻辑库 1 1、编程:、编程:LIBNAME LIBNAME 逻辑库标记逻辑库标记 “ “文件夹路径文件夹路径”; 2 2、菜单法。、菜单法。 临时逻辑库临时逻辑库仅仅WORKWORK逻辑库,它存储逻辑库,它存储SASSAS临时文件,临时文件,在每次启动在每次启动SASSAS系统时自动生成,关闭系统时自动生成,关闭SASSAS系统时库中的系统时库中的数据集被自动删除数据集被自动删除。 永久逻辑库永久逻辑库用于用于存储存储SASSAS永久文件,永久文件,SASSAS预定义预定义SasuserSasuser和和SashelpSashelp两个永久逻辑库,其中两个永久逻辑库,其中Sa
7、suserSasuser用以保存与个人设用以保存与个人设置有关的文件,置有关的文件,SashelpSashelp逻辑库保存与逻辑库保存与SASSAS帮助系统、应用帮助系统、应用实例有关的文件实例有关的文件。SASSAS帮助系统帮助系统(1 1)打开帮助系统)打开帮助系统 选择菜单栏中选择菜单栏中help|SAShelp|SAS Help and Documentation Help and Documentation命令;命令; 单击工具栏上的单击工具栏上的 按钮;按钮; 在命令栏中输入在命令栏中输入helphelp,然后回车;,然后回车; 按下按下F1F1功能键。功能键。(2 2)界面介绍)
8、界面介绍 目录目录 索引索引 搜索搜索 收藏夹收藏夹SASSAS交流网站交流网站SAS在线帮助系统:在线帮助系统:http:/ ,COS统计之都统计之都SAS子板块子板块/cn/forum/software/sas/SAS中文论坛中文论坛http:/ 1)基本统计分析指标)基本统计分析指标 基本概念:基本概念: 总体:研究对象的全体。总体:研究对象的全体。 样本:从总体中抽取的个体。样本:从总体中抽取的个体。 随机抽样:从总体中抽取样本,且每个样本被抽到的机会均等。随机抽样:从总体中抽取样本,且每个样本被抽到的机会均等。 MEAN(均值):计算公式为(均值):计算公
9、式为 (n为样本量为样本量N)。)。 MODE(众数):样本中出现次数最多的数据。(众数):样本中出现次数最多的数据。 MEDIAN(中位数):指将数据按大小顺序排列起来,形成一个数列(中位数):指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的数据。若总数为奇数,取中间值;若总数为偶,居于数列中间位置的数据。若总数为奇数,取中间值;若总数为偶数,取中间两个值的平均值。数,取中间两个值的平均值。 PX(分位数):它将全部观察值分成两个部分,其中有(分位数):它将全部观察值分成两个部分,其中有X%个观察值小个观察值小于于PX,(,(100X)%个观察值大于个观察值大于PX。 MAX(最
10、大值):样本(最大值):样本中的中的最大最大观察观察值。值。1()/niimeanxn描述性统计分析指标描述性统计分析指标 MIN(最小值):样本中的最小观察值。(最小值):样本中的最小观察值。 SUM(和):样本观察值的总和。(和):样本观察值的总和。 RANGE(极差):最大与最小观测值之差。(极差):最大与最小观测值之差。 STD DEV(标准差):计算公式为(标准差):计算公式为 (n为样本量为样本量)。 VAR(方差):为标准差的平方,用来衡量相对于均值的分散性和变(方差):为标准差的平方,用来衡量相对于均值的分散性和变异性。数据的集中程度高则方差小,反之则大。异性。数据的集中程度高
11、则方差小,反之则大。 STDERR(标准误):计算公式为(标准误):计算公式为 CV(变异系数):计算公式为(变异系数):计算公式为 USS(加权平方和):计算公式为(加权平方和):计算公式为其中其中 代表权重代表权重2()1xxStdDevnSTDERRSTD/N100%sCVx21niiiUSSw xiw描述性统计分析指标描述性统计分析指标 CSS(加权离差平方和):计算公式为(加权离差平方和):计算公式为 SKEWNESS(偏度系数)(偏度系数):计算公式为计算公式为 主要衡量数据的对称性,若其值大于主要衡量数据的对称性,若其值大于0则表示位于均值右边数据较分散则表示位于均值右边数据较分
12、散,若小于,若小于0则表示均值左边数据较分散。则表示均值左边数据较分散。 KURTOSIS(峰度系数):计算公式为(峰度系数):计算公式为 峰值反映分布的尖锐度或平坦度,正峰值表示相对尖锐的分布,负峰峰值反映分布的尖锐度或平坦度,正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。值表示相对平坦的分布。 PROB|T|:在总体均值是:在总体均值是0的假设条件下,学生的假设条件下,学生T统计量大于临界统计量大于临界T的的绝对值的概率。绝对值的概率。21()niiiCSSw xx3()(1)(2)ixxnSKEWnns42(1)3(1)()(1)(2)(3)(2)(3)ixxn nnKURTnnn
13、snn描述性统计分析指标描述性统计分析指标(2 2)MEANSMEANS过程过程: : 主要用于针对单个数值型变量的描述性主要用于针对单个数值型变量的描述性统计量,默认输出统计量,默认输出N, MEANN, MEAN,STD DEVSTD DEV,MINMIN,MAXMAX 一般使用格式一般使用格式 PROC MEANS DATA=SAS PROC MEANS DATA=SAS数据集数据集 ; ; VAR VAR 变量列表变量列表; ; CLASS CLASS 变量列表变量列表; ; BY BY 变量列表变量列表; ; FREQ FREQ 变量变量; ; WEIGHT WEIGHT 变量变量;
14、 ; ID ID 变量列表变量列表; ; OUTPUT OUT= OUTPUT ; ; RUN; RUN;进入在编辑窗口输入程式:进入在编辑窗口输入程式:data ex;input no$ sex$ age h w;Cards;10 f 47 156.3 47.1 24 m 38 172.4 61.553 m 41 169.2 64.546 f 52 158.2 53.638 f 39 160.1 48;proc sort;by sex;proc means;by sex;var h w;run;SASSAS数据集数据集 SAS的名字 SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规
15、则: 1) 由英文字母、数字、下划线组成; 2) 第一个字符必须是字母或下划线; 3) 不区分大、小写字母。 另外,SAS逻辑库名最多用8个字符;数据集和变量的名字最多用32个字符。描述性统计分析指标描述性统计分析指标(3 3)UNIVARIATEUNIVARIATE过程:过程:主要用于对指定随机变量进行主要用于对指定随机变量进行详细的描述性统计,不仅包括详细的描述性统计,不仅包括MEANSMEANS过程的功能,还可计过程的功能,还可计算其他一些统计量,也可绘制茎叶图,盒形图,正态概率图算其他一些统计量,也可绘制茎叶图,盒形图,正态概率图和计算各种百分位值。和计算各种百分位值。 一般使用格式一
16、般使用格式 PROC UNIVARIATE DATA=SAS PROC UNIVARIATE DATA=SAS数据集数据集 ; ; VAR VAR 变量列表变量列表; ; BY BY 变量列表变量列表; ; FREQ FREQ 变量变量; ; WEIGHT WEIGHT 变量变量; ; ID ID 变量列表变量列表; ; OUTPUT OUT= OUTPUT PCTLPTS= ; RUN; RUN;data ex;input id$ hometown$ age income;cards;/数据省略数据省略/;proc univariate plot;class hometown;var inc
17、ome;run;Eg2. 调查不同地区的居民收入情况,分地区对收入情调查不同地区的居民收入情况,分地区对收入情况进行简单的描述性统计分析。况进行简单的描述性统计分析。主要内容主要内容u描述性统计分析指标MEANS/UNIVARIATE过程u常见统计图GPLOT/GCHART过程描述性统计图形描述性统计图形1 1. .常见统计图形介绍常见统计图形介绍图形类型图形类型主要特征主要特征条形图条形图表示相互独立的统计指标的数量大小。通常纵轴表示数量,横轴为分组标志。绝表示相互独立的统计指标的数量大小。通常纵轴表示数量,横轴为分组标志。绝对数或相对数均可表示数量,图中各长条的高度反映了数值大小。对数或相
18、对数均可表示数量,图中各长条的高度反映了数值大小。圆饼图圆饼图表示事物内部的构成情况。图中每个扇形面积的大小表示百分比数量大小,将表示事物内部的构成情况。图中每个扇形面积的大小表示百分比数量大小,将360360圆心角看成是圆心角看成是100%100%,把每一部分所占的百分比数折算成圆心角的度数,画,把每一部分所占的百分比数折算成圆心角的度数,画出对应的扇形。出对应的扇形。直方图直方图表示计量资料(测定每个观察单位某项指标值的大小)各组段上的频数的分布情表示计量资料(测定每个观察单位某项指标值的大小)各组段上的频数的分布情况。图中各长条的面积表示各组数量的大小。况。图中各长条的面积表示各组数量的
19、大小。折线图折线图用于资料中包含两个数量指标,放在横轴上的数量指标通常是时间。适用于表示用于资料中包含两个数量指标,放在横轴上的数量指标通常是时间。适用于表示一个或多个事物随着时间的推移,在数量上的增减幅度。一个或多个事物随着时间的推移,在数量上的增减幅度。散点图散点图用于资料中包含两个数量指标,且两个变量之间有自变量和因变量之分。通常把用于资料中包含两个数量指标,且两个变量之间有自变量和因变量之分。通常把自变量放在横轴上,因变量放在纵轴上。将成对的数据点(自变量放在横轴上,因变量放在纵轴上。将成对的数据点(X X,Y Y)在)在X X和和Y Y直角直角坐标系中用点表示出来,所以称为散布图或散
20、点图。坐标系中用点表示出来,所以称为散布图或散点图。描述性统计图形描述性统计图形2. GPLOT过程过程(画散点图和连线图画散点图和连线图) 一般使用格式:一般使用格式: PORC GPLOT DATA=数据集数据集 ; PLOT 纵坐标变量纵坐标变量Y*横坐标变量横坐标变量X; SYMBOL ; AXISN ; RUN;描述性统计图形描述性统计图形-gplot (1) SAS实例实例绘制年龄和血压的散点图绘制年龄和血压的散点图 根据根据Eg3的数据绘制年龄和血压的散点图的数据绘制年龄和血压的散点图程序:程序:proc gplot; /*调用调用gplot绘图过程绘图过程*/plot SBP*
21、age/VAXIS=AXIS2 HAXIS=AXIS1; /*定义绘图变量,指定坐标轴设置定义绘图变量,指定坐标轴设置*/SYMBOL v=star i=none c=black; /*指定用黑色星形表示数据、数据间不连接指定用黑色星形表示数据、数据间不连接*/AXIS1 LABEL=(age) ORDER=(20 TO 64 BY 4); /*定义坐标轴定义坐标轴1的标签、刻度的标签、刻度*/AXIS2 LABEL=(Systolic blood pressure) ORDER=(100 TO 160 BY 10) ;RUN;描述性统计图形描述性统计图形-gplot (2) SAS实例实例绘
22、制国内生产总值的折线图绘制国内生产总值的折线图 Eg4-已知已知我国自我国自1978年改革开放以来至年改革开放以来至2010年的国内生产总年的国内生产总值(值(GDP),请据此绘制折线图。请据此绘制折线图。程序:程序:Proc gplot; /*调用调用gplot过程作图过程作图*/Plot GDP*year /haxis=axis1 vaxis=axis2;/*设定纵轴和横轴变量分别为设定纵轴和横轴变量分别为GDP、year,且纵轴和横轴的设定参数分别见,且纵轴和横轴的设定参数分别见axis1、axis2*/Symbol i=join v=dot h=0.5;Axis1 label=(yea
23、r) order=(1978 to 2010 by 4 );/*定义定义Axis1的标签为的标签为“年份年份”,且取值从,且取值从1978至至2010每隔每隔4年取一个刻度年取一个刻度*/Axis2 label=(GDP) ; /*定义定义Axis2的标签为的标签为GDP*/Run;Symbol -用来规定图中线和点的特征用来规定图中线和点的特征V=符号符号-用来表示点的符号,常用符号有:用来表示点的符号,常用符号有:none,dot,circle,star,diamond,triangle,square,plusC=颜色颜色-规定点和连线的颜色,常用颜色有:规定点和连线的颜色,常用颜色有:r
24、ed,yellow,blue,orange,green,black,brown,gray,pinkCV=颜色颜色-规定点的颜色,选项同规定点的颜色,选项同CCI=颜色颜色-规定线的颜色,选项同规定线的颜色,选项同CH=值值-规定点的大小规定点的大小I=选项选项-规定插值连线的方式,常用选项有:规定插值连线的方式,常用选项有:none(不连线),(不连线),join(直线连接),(直线连接),SPLINE(样条插值),(样条插值),RL(回归直线),(回归直线),BOX25(盒型线)等盒型线)等W=值值-连线的线宽连线的线宽L=n-规定线的类型,可用的选项有规定线的类型,可用的选项有1(实线),
25、(实线),2(虚线)等(虚线)等描述性统计图形描述性统计图形-gchart2. GCHART过程(可画条形图,饼形图等)过程(可画条形图,饼形图等)一般使用格式:一般使用格式:PROC GCHART DATA=数据集数据集 ;VBAR 变量列表变量列表 /;HBAR 变量列表变量列表 /;PIE 变量列表变量列表 /;BY 变量列表变量列表 ;RUN;VBAR -垂直条形图垂直条形图HBAR -水平条形图水平条形图PIE -饼图饼图TYPE=选项选项-表示对变量的哪一种统计量进行绘图,表示对变量的哪一种统计量进行绘图,CFREQ(累积频数),(累积频数),PERCENT(百分比),(百分比),
26、CPERCENT(累积百分比),(累积百分比),FREQ(频数),(频数),SUM(和),(和),MEAN(均值)(均值)GROUP=变量名变量名-对变量的每一个值都画一个条形对变量的每一个值都画一个条形SUBGROUP=变量名变量名-当变量为离散型时,将每个条形再分为几段,每段对当变量为离散型时,将每个条形再分为几段,每段对应变量的一个取值应变量的一个取值SUMVAR=变量名变量名-对该变量的和或者均值绘制条形。当对该变量的和或者均值绘制条形。当TYPE=SUM时,根时,根据据SUMVAR=变量的和绘制条形,当选项变量的和绘制条形,当选项TYPE=MEAN时,根据时,根据SUMVAR=变量的
27、均值绘制条形。不规定时,系统默认根据变量的均值绘制条形。不规定时,系统默认根据SUMVAR=变变量的和绘制条形。量的和绘制条形。描述性统计图形描述性统计图形-gchartdata xyl01;input x;cards;70 72 94 24 68 57 90 95 93 109 64 58 79 40 81 84 70 99 32 54 100 77 34 68 26 48 87 85 95 75 50 70 55 45 73 90 58 101 134 94 94 62 65 61 84 77 23 35 40 100 79 31 72 66 30 44 41 98 100 90 78 4
28、4 50 58 60 76 78 92 61 62 52 97 81 54 98 75 81 60 90 65 63 100 80 69 98 84 25 79 97 76 56 73 43 82 60 68 60 39 ;proc gchart;vbar x/type=cpct space=0;run;(1) SAS实例实例-频率和累计频率直方图频率和累计频率直方图描述性统计图形描述性统计图形-gcharttype=pct时:时:(2) SAS实例实例绘制某种玉米株高的条形图绘制某种玉米株高的条形图 三类条形图简介:三类条形图简介:简单条形图简单条形图用若干平行、等宽的条状来表示数量对比关系
29、,组间用若干平行、等宽的条状来表示数量对比关系,组间有间隙。有间隙。分组条形图分组条形图指由每两条或多条组成一组的条形图,组间间隔大,指由每两条或多条组成一组的条形图,组间间隔大,组内条形无间隔或间隔小。组内条形无间隔或间隔小。分段条形图分段条形图以条形的全长代表某个变量的整体,条形内部的各分以条形的全长代表某个变量的整体,条形内部的各分段长短代表各组部分在整体中所占比例,每段用不同颜色或线条表示段长短代表各组部分在整体中所占比例,每段用不同颜色或线条表示、之间无间隙,各条之间有间隙。、之间无间隙,各条之间有间隙。Eg5-从不同地区(从不同地区(A,B,C)抽取不同品种()抽取不同品种(m,n
30、)的玉米分别)的玉米分别20株,测量得株,测量得出玉米的株高。出玉米的株高。1)请绘制不同地区的玉米平均株高的简单条形图;)请绘制不同地区的玉米平均株高的简单条形图;2)请分地区绘制不同品种玉米平均株高的分组条形图;)请分地区绘制不同品种玉米平均株高的分组条形图;3)请分品种绘制不同地区的玉米平均株高的分段条形图。)请分品种绘制不同地区的玉米平均株高的分段条形图。描述性统计图形描述性统计图形-gchart描述性统计图形描述性统计图形程序:程序:Proc gchart; /*调用调用gchart过程过程*/Vbar area/discrete sumvar=height type=mean;/*
31、绘制简单条形图:绘制不同地区玉米平均株高的条形图绘制简单条形图:绘制不同地区玉米平均株高的条形图*/Run; Proc gchart; Vbar type/discrete sumvar=height group=area;/*绘制分组条形图:分地区绘制不同品种的玉米株高条形图绘制分组条形图:分地区绘制不同品种的玉米株高条形图*/Run;Proc gchart;Vbar type/discrete sumvar=height subgroup=area;/*绘制分段条形图,分品种绘制不同地区的玉米株高条形图绘制分段条形图,分品种绘制不同地区的玉米株高条形图*/Run;描述性统计图形描述性统计图形 (3) SAS实例实例绘制绘制09年年GDP构成的饼图构成的饼图 Eg6-已知已知09年的国内生产总值的构成,请绘制呈现不同产业生年的国内生产总值的构成,请绘制呈现不同产业生产总值占国内生产总值的百分比的饼图产总值占国内生产总值的百分比的饼图 程序:程序:Proc gchart; Pie type/discrete /*根据离散型变量根据离散型变量Type分组绘制饼图分组绘制饼图*/ Sumvar=GDP /*定义计算变量为定义计算变量为GDP*/ Slice=arrow /*定义用线将扇形和它的标签连接起
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 线下促销提案-提升皮革服装销售业绩
- 肾肿瘤切除患者健康教育规范
- 酒吧灭火和应急疏散预案
- 2026年法律服务工作者初级工职业技能鉴定题库
- 离散时间信号处理(英文版)chp6-第1讲
- 26年绒毛膜癌基因检测关联要点
- 2025年等高线地形图判读智慧课堂建设
- 2026 减脂期寿喜烧课件
- 鞋子护理的步骤详解
- 2026 校园增肌期饮食调整课件
- 第四章 《金瓶梅》
- 传感器技术与应用-说课
- GB/T 3452.4-2020液压气动用O形橡胶密封圈第4部分:抗挤压环(挡环)
- GB/T 13816-1992焊接接头脉动拉伸疲劳试验方法
- 2022年养老护理员理论考试题库(600题)
- 碳捕集、利用与封存技术课件
- 翰威特-绩效管理理论与操作实务
- 新生儿听力筛查(共29张)课件
- 《消防安全技术实务》课本完整版
- (精心整理)数学史知识点及答案
- 王家岭煤矿初设说明书201204
评论
0/150
提交评论