




免费预览已结束,剩余26页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章 描述性统计过程以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色: UNIVARIATE 进行单变量统计,包括分位数及描绘分布图。 SUMMMARY 按观测值分组计算基本单变量统计值。分组是由CLASS语句中的变量所决定。统计结果可输出到SAS数据集中而不产生打印输出。 MEANS 计算均值及其他描述统计量。 TABULATE 打印基本统计的复杂表格。CORR 求变量间相关系数。进行基本统计的其他过程还包括: CHART 画频数、均值、总和的条形图、立体直方图、饼图及星图。FREQ 对分类变量计算频数分布,并作多维列联表。SAS基本统计过程及其一些重要统计量统计量MEANSUNIVARIATESUMMARYTABULATECORR非缺项值数(N)缺项值数(NMISS)权重和(SUMWEIGH_T)均值(MEAN)和(SUM)最小值(MIN)最大值(MAX)全距(RANGE)未修正平方和(USS)修正平方和(CSS)方差(VAR)标准差(STD)变异系数(CV)偏度(SKEWNESS)峰度(KURTOSIS)T统计量值(t)大于t值的概率(PRT)中位数(MEDIAN)四分位数(QUARTILE)众数(MODE)输出到SAS数据集YesYesYesNoYesCLASS语句YesNoYesYesNoBY语句YesYesYesYesYes第一节 MEANS 过程 MEANS过程对数值变量给出简单的描述性统计。 例: 数据集SCORE含有学生三门课程的成绩(见SORT过程),用MEANS过程可得到: PROC MEANS DATA=SCORE; MEANS过程由下列语句控制: PROC MEANS 选择项; VAR 变量表; BY 变量表; CLASS 变量表; FREQ 变量; WEIGHT 变量; ID 变量表; OUTPUT 选择项;除PROC语句之外的其他语句均为可选语句。8.1.1 语句说明 1PROC MEANS语句 PROC MEANS 选择项; 常用下列选择项: DATA=SAS数据集 指出需做MEANS分析的SAS数量集名。 NOPRINT 说明不打印任何描述性统计值。此选择项仅仅是为了建立一新的数据集时才使用。 MAXDEC=N 指出MEANS用于打印结果的最大小数位(08),缺省值为2。 VARDEF=除数 指明用于方差计算的除数,缺省值是VARDEF=DF。 VARDEF=DF 用自由度(N-1)作除数。 VARDEF=WEIGHT|WGT 用权重和作除数。 VARDEF=N 用观测值数(N)作除数。 VARDEF=WDF 用权重和减1作除数统计量列表它们可以是N、MAEN、MAX、MINSTD、STDERR、SUM、VAR、USS、CSS、NMISS、RANGE、T、PRT、SUMWGT、CV、SKEWNESS、KURTOSIS等18个统计量的任意组合。隐含为N、MIN、MAX,MEAN、STD。 2OUTPUT语句 OUTPUT 选择项; OUTPUT语句将MEANS过程产生的统计值输出到一个新的SAS数据集。 选择项包括: OUT=SAS数据集 指定输出数据集名。 统计关键字=名字 指明新数据集中想要的统计项。并给包含这些统计项的变量起名。这些名字将作为统计值在新数据集中使用。等号右边第一个变量名代表VAR语句中第一个变量的相应的统计量;第二个名字代表VAR语句中第二个变量的相应的统计量等等。例如: PROC MEANS; VAR X1 X2; OUTPUT OUT=STATS MEAN=MA MB STD=SA SB; MEAN=后的第一个变量MA。代表VAR语句中第一个变量X1的均值;第二个变量MB代表VAR语句中第二个变量X2的均值。STD=后的第一个变量SA代表VAR语句中第一个变量X1的标准差;X2的标准差不输出。若省略了 “统计关键字=” 选择项,MEANS输出一个含有N、MIN、MAX、MEAN、STD的SAS数据集。8.1.2 举例例1:利用MEANS过程进行单变量统计。SCORE为含学生成绩的数据集。(注意CLASS及BY语句的区别)。(yp74.sas)PROC MEANS DATA=SCORE MAXDEC=3; VAR T1-T3; CLASS GROUP; TITLE Statistics With a Class Variable;PROC SORT DATA=SCORE; BY GROUP;PROC MEANS MAXDEC=3; BY GROUP; VAR T1-T3; TITLE Statistics With By Variable;RUN; 例2:40名麻疹易感儿接受麻疹疫苗一个月,血凝抑制抗体滴度如下表,求平均滴度。 抗体滴度 4 8 16 32 64 128 256 512 人数 1 5 6 2 7 10 4 5有关背景知识及题目分析: (1)抗体滴度为几何级数,必须先化成对数再求均值。设Y=LOG10(X) (2)由于需把按对数值求得的平均值再转换成滴度,即要对MEANS产生的结果作进一步处理,要使用OUTPUT语句将MEANS结果输入到另一SAS数据集,但结果不需显示因此选用了NOPRINT。 (3)变量F代表频数 (4)第二个数据步用于将均数还原成滴度。(yp75.sas)DATA A; INPUT X F ; Y=LOG10(X);CARDS;4 1 8 5 16 6 32 2 64 7 128 10 256 4 512 5;PROC MEANS NOPRINT; VAR Y; FREQ F; OUTPUT OUT=B MEAN=MY;DATA C; FILE PRINT; SET B; MX=10*MY; PUT MX;RUN; 例3:在某一年级中,测得20名男学生的身高。试求出身高的平均值95的置信区间。求置信区间时要先求出tdf,1-a/2,此值可用TINV函数得到。程序如下: (yp76.sas)DATA STUDENT; INPUT XUEHAO HEIGHT ;CARDS;1001 175.8 1002 168.9 1003 178.2 1004 180.11005 169.8 1006 172.5 1007 175.3 1008 177.41009 168.8 1010 176.9 1011 181.1 1012 179.21013 178.2 1014 175.3 1015 177.6 1016 182.31017 173.5 1018 176.5 1019 175.2 1020 171.8;PROC MEANS DATA=STUDENT NOPRINT; VAR HEIGHT; OUTPUT OUT=B MEAN=MH STD=MS N=NUM;DATA CAL; SET B; T=TINV(0.975,NUM-1); IN=T*MS/SQRT(NUM); L=MH-IN; U=MH+IN; PUT L U;RUN; 程序中,利用MEANS过程建立一个仅有MH(身高平均值)、MS(标准差)和NUM(人数)的数据集B。在DATA CAL中,用TINV函数求出t值。第二节 FREQ 过程8.2.1 简介 FREQ过程产生一维至n维的频数表和列联表。对于二维表,PROC FREQ计算统计量并给出检验。对n维表,PROC FREQ作分层分析,在层内作计算统计,频数也能输出到SAS数据集中。由于频数表对某个变量列出所有的值,可以查看这些值取值是否合理。所以它是检查数据错误的有效工具。例:(yp77.sas) PROC FORMAT; VALUE VFMT LOW-80=C 80-=90 then grade=A; else if average60 then grade=C; else grade=B;cards;92101 90 91 89 92102 89 87 78 92103 61 59 67 92201 90 91 8792205 87 61 56 92202 54 77 59 92203 96 90 91 92204 88 89 8592206 71 49 56 92208 86 80 87 92212 76 88 90 92207 69 54 5592210 90 88 88 92211 88 81 82 92209 78 67 65 92301 87 81 8592302 81 78 74 92303 67 54 61 92304 88 76 75 92305 77 81 8092306 71 70 65 92104 90 90 91 92307 90 91 93 92308 89 81 88;proc tabulate formchar(1 2 3 4 5 6 7 8 9 10 11)=|-|+|- ; title The Table of Student Scores; keylabel N=Number PCTN=Percent of Number; class classno grade; var average; table classno,grade all,average*(N*F=6. PCTN*F=10.2 MAX MIN) / rts=15 box=Average Scores;run;第四节 PLOT 过程8.4.1 简介PLOT是一个绘制散点图的过程。它描述数据集中两个变量的相互关系。下面是一个绘制Y=sin(x)函数关系散点图的程序。程序中DO语句产生13个x和Y的离散点对。(yp87.sas)data d3; do x=0 to 360 by 30; y=sin(x*3.14159/180); output; end;proc plot; plot y*x;run;8.4.2 语句说明 在PLOT 过程中可使用下列语句: PROC PLOT 选择项; BY 变量表; PLOT 绘图表达式选择项; 在PLOT 过程中,至少要给出一个PLOT语句,在每一个PLOT语句中可以有多个绘图表达式。 1PROC PLOT 语句 PROC PLOT 选择项; 指示PLOT 过程的开始。选择项可以是如下内容之一: DATA=SAS数据集 指示PLOT 过程要使用的数据集,缺省时,PLOT过程使用最新建立的数据集。 UNIFORM 与BY语句有关,要求BY组的坐标刻度相同,于是可直接比较BY变量不同水平的图表。VTOH=值 指示PLOT过程输出时纵横坐标的比例。VPERCENT=值 指示PLOT过程产生图表长度占一页长的纵向百分率。使用VPERCENT选择项可在一页上安排尽量多的图表。例如: VPERCENT=33,使PROC PLOT过程在每页上垂直输出三个图,且每个图占一页长的三分之一。VPERCENT=50 25 25,使PROC PLOT过程输出三个图在一页上,而且第一个图是第二个图或第三个图的两倍长; VPERCENT=33 0,产生的图仅占一页的三分之一,但这一页只输出这一个图;VPERCENT=300,产生一个三页长的图表。 HPERCENT=值 指示PLOT过程产生图表宽度占行长的百分率。使用方法完全类似VPERCENT选择项。 2BY 语句 用法见第五章。 3PLOT 语句 PLOT 绘图表达式/选择项; 绘图表达式采用以下格式: Y*X 其中Y、X分别代表两个用以绘图的变量,Y表示垂直坐标,X表示水平坐标。PLOT过程把平面坐标上关于X和Y的点描述在图上。一般情况下,PLOT过程用字符A描述座标点,若点(X,Y)具有2对相同的离散值,则用字符B描述,有3对相同的离散值时,用字符C描记等等。不过,还可以直接指出描记符号,例如: PLOT A*B=*; 请求绘制关于B、A点对的图,图上的每个点用*描述;PLOT Y*X=变量; 要求变量的值作为图上的标记。 请求绘制两个以上的图时的一些等效写法有; PLOT(Y X)*(A B); 等效于PLOT Y*A Y*B X*A X*B; PLOT Y*(A-C); 等效于PLOT Y*A Y*B Y*C; PLOT 语句可使用如下选择项: 1)有关轴刻度的选择项 VAXIS=值表 指出垂直轴上刻度标记。 例如:PLOT Y*X/VAXIS=1O TO 20 BY 5;请求绘制Y对X的图,垂直轴上的刻度标为10、15,20。 亦可采用不均匀的刻度标记,如:PLOT Y*X/VAXIS=O 100 1000 10000; 对于数值刻度要以有序的形式排列,字符刻度可以无序。 HAXIS=值 水平刻度标记,用法同VAXIS。 2)参考线 VREF=值表 请求画平行于水平轴的直线,与垂直轴的交点由值指出。 HREF=值表 请求画垂直于水平轴的直线,与水平轴的交点由值指出。 3)覆盖图 OVERLAY 请求将PLOT语句要求的所有图组合到一页上 4)等高值图 CONTOUR=值 使PLOT过程输出的图带有灰度级的概念。带有这个选择项的PLOT语句要求如下形式: PLOT 垂直变量*水平变量=变量/CONTOUR=值 变量为数据集中的数值变量。例如: PLOT A*B=Z/CONTOUR=1O; 要求图上点的灰度随z值变化,且使用1到10共10个灰度级。关于灰度打印字符,PLOT过程自动按升序指明用于每个等高值的绘图符号。也可以用跟在CONTOUR=值选择项后的S选择项和SLIST选择项自行选择灰度符号。例如: PLOT Y*X/CONTOUR=5; S1=. S2=: S3=! S4= S5=B; PLOT Y*X/CONTOUR=5 SLIST=. : ! = B;8.4.3 举例 例1:等高值图 下面的程序绘制函数Z=f(X,Y)=SQRT(X*X+Y*Y)的等高值图,可以看出该函数的立体图形为一锅形。(yp89.sas)data d4; do x=-10 to 10 by 1; do y=-10 to 10 by 0.5; z=sqrt(x*x+y*y); output; end; end;porc plot; plot y*x=z /contour=10 haxis=-10 to 10 by 1 vaxis=-10 to 10 by 1;run; 例2:覆盖图下面的程序产生两个函数的覆盖图,这两个函数是:Y=SIN(X*3.14159/180);z=2*X/180-2; 其中 *表示直线,A表示正弦函数。(yp90.sas)data d5; do x=0 to 360 by 30; y=sin(x*3.14159/180); z=2*x/180-2; output; end;proc plot; plot y*x z*x=* /overlay vaxis=-2 to 2 by 0.2;run;例3:某一地区(12个采样点)某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。从图看出:这一地区某类废水中COD和BOD浓度的关系近似为直线。(yp91.sas)data d6; input cod bod ; cards;1112.3 154.5 1560.2 210.3 899.5 133.6 800.4 110.21443.2 180.8 1555.5 201.4 700.4 103.5 456.3 90.71433.2 177.7 1421.5 171.0 1600.3 221.5 568.8 80.9;proc plot; plot cod*bod; title The Relation of COD and BOD in an area;run;第五节 CHART 过程8.5.1 简介 CHART过程产生垂直和水平的直方图、立体直方图、饼形图和星形图。这些图可形象地描述变量值的分布及变量之间的关系;同时图中的直条和区段可根据你的选择表示: 频数计数(TYPE=FREQ)、百分数(TYPE=PCT)、累计频数(TYPE=CFREQ)、合计(TYPE=SUM)、平均值(TYPE=MEAN)。例:对yp92.sas例子中的职工表给出按性别(M,W)的直方图。(yp92.sas)proc chart; vbar sex; hbar sex;run; 上述程序生成的图形中,垂直轴表示变量SEX的两个水平M和W,水平轴表示数据集中含有观测值数目。其中男职员有3人,女职员有5人。图中还给出了有关统计数据。 水平轴表示变量SEX的两个值M和W,垂直轴表示数据集中含有该值的观测值数目。8.5.2 语句说明 在CHART 过程中,可使用下列语句: PROC CHART选择项; BY 变量表; VBAR 变量表选择项 HBAR 变量表选择项; BLOCK 变量表选择项; PIE 变量表选择项; STAR 变量表选择项; 在PROC CHART 语句后可跟任意多个绘图语句。 1PROC CHART语句 PROC CHART 选择项; PROC CHART语句指示CHART过程的开始,可使用的选择项有:DATA=SAS数据集 给出CHART过程需要的数据集名。缺省时,CHART过程使用最新建立的SAS数据集。2BY 语句3HBAR语句 HBAR 变量表选择项; HBAR语句对列出的每个变量画水平直方图。 4VBAR语句 VBAR 变量表选择项; 对列出的每个变量产生垂直直方图。 在垂直轴上CHART过程描述了图的频数、累计频数、百分数、累计百分数、和或均值。在每一直条的下面打印出一个值,这个值就是VBAR语句中变量的值。对于字符变量或离散数值变量,这个值是用条表示的实际值,对于连续型数值变量,这个值给出了直条表示的间隔的中点值。 PROC CHART过程能自动调整垂直轴比例,确定直条宽度和选择两直条间的距离。因为每个图形必须对应一个输出页,所以变量的水平数对于页长PS(Page Size)和行宽LS(Line Size)有一定的要求,若PS和LS满足不了水平数的要求,则图形自动改成水平条图。此时应用OPTIONS语句改变PS= 和LS= 的值。 5. BLOCK语句 BLOCK变量表选择项; 该语句对列出的每个变量画立体直方图。VBAR及BLOCK语句要求有足够的页长(PAGE SIZE)及页宽(LINE SIZE),否则只能绘出水平直方图。此时应利用OPTION语句选择适当的页长及页宽。 6PIE 语句PIE变量表选择项; PIE语句对列出的每个变量画饼形图,表示变量的分布。 7STAR语句STAR 变量表选择项; STAR语句对列出的每个变量画星形图,星形图适于形象地描述周期性的变量。 8在 VBAR、HBAR、BLOCK、PIE和STAR语句中使用的选择项 MISSING 指定绘图变量缺项值是有效的。 DISCRETE 指定数值型绘图变量为离散量,如果缺省DISCRETE选择项,PROC CHART 过程就假定数值变量是连续的。如果没有指定MIDPOINTS或LEVELS选择项,过程自动地选择间隔作图。 SUMVAR=变量 该选择项用来对其后的变量进行均值、总和或频数计算。 MIDPOINTS=值 指定每一直条或区段代表的变量的范围之中点。例如语句: VBAR X/MIDPOINTS=1 2 3 4 5; 表示产生一个具有5个直条的图,第一直条表示以1为中点、第二直条表示以2为中点等等。对于数字变量的中点值需按递增顺序给出,而对字符变量则可不必如此。下面的书写也是合法的: VBAR X /MIDPOINTS=1 TO 10 BY 2; VBAR X /MIDPOINTS=1 2 4 8 16 32 64; VBAR X /MIDPOINTS=JAN FEB MAR; FREQ=变量 按选择项前的变量分类,属于同一类的所有观测值的FREQ变量值相加的结果作为频数。当FREQ变量的值为负数、0、缺项时,其值均视为O。当指出SUMVAR选择项时,求同一类观测值的FREQ变量乘SUMVAR变量之和。 AXIS=值1 值2 规定构造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论