版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基础统计描述与SAS第二讲基础统计描述与SAS
主讲人:张国权邮编:手机:一SAS基础服务过程CHART、GPLOT(绘图)SORT(排序)PRINT(按要求输出结果)STANDARD(数据标准化)BaseSAS功能1、Base/SAS软件是SAS系统的基本部分,主要用于:信息存储和检索、数据修改与程序设计、报表生成、基础统计计算、文件管理。2、Base/SAS软件还提供了几十个Base/SAS过程,主要用于基础统计计算、生成报表、绘图及文件管理等方面,是更简捷、易用、有效的方法。3、按用途可归为四大类:基础统计计算、报表生成、得分方法、实用方法(二)、过程简介(1)、SAS基础统计过程:分别计算单个变量的关于位置、变异性及形状等方面的基础统计量;关于检验均值假设的有关统计量;关于检验正态性假设的有关统计量;还有两个变量的有关相关性统计量。例:MEANS,SUMMARY,UNIVARIATE,CORR,FREQ,TABULATE,CHART(2)、SAS报表过程:生成一些信息显示。显示的信息可以是数据的列表,或图形显示。许多统计过程也用报表来输出结果。例:PRINT,PLOT,CHART,FORMS,CALENDAR,TIMEPLOT,TABULATE(3)SAS得分过程:用来产生包含新变量的输出数据集。这些新变量是输入数据集中数据的变换。例:STANDARD,RANK(4)、SAS实用过程:完成中间操作或数据处理的特殊形式。例:SORT,FORMAT,TRANSPOSE,APPEND,CONTENTS,DAASETS1对数据排序的sort过程简介sort过程常用于将数据集分类排序,以便其它SAS过程通过使用BY语句,可以直接调用它。语句说明PROCSORT选择项;BY[descending(递减)]变量;1.学生成绩按平均分排序后输出
title'0401班学生成绩排名';datac0401;inputname$1-10sex$mathchinese;avg=math*0.5+chinese/120*100*0.5;cards;李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110;procprint;run;procsortdata=c0401;bydescendingavg;procprint;run;0401班学生成绩原始输出0401班学生成绩排名Obsnamesexmathchineseavg1李明男929886.83332张红艺女8910688.66673王思明男869080.50004张聪男9810994.41675刘颍女8011085.83330401班学生成绩按平均分排序(递减)后输出0401班学生成绩排名Obsnamesexmathchineseavg1张聪男9810994.41672张红艺女8910688.66673李明男929886.83334刘颍女8011085.83335王思明男869080.5000学生成绩按分组排序程序dataa;inputNAME$xyg$@@;datalines;a83.00101b119.95112c145.22163d129.98234e37.95311f103.49472g39.95493h37.95511i65.79522j69.95634k100.79721l33.12892m88.05913n97.95991;
proc
sortdata=aout=b;bygx;run;
proc
printdata=b;varNAMEgxy;run;
2.学生成绩按分类输出dataa;inputNAME$xyg$;datalines;a83.00101b119.95112c145.22163d129.98234e37.95311f103.49472g39.95493h37.95511i65.79522j69.95634k100.79721l33.12892m88.05913n97.95991;
dataaa;seta;ify<40thenyy=“不称职";if40<=yandy<80thenyy="称职";ify>=80thenyy=“优秀";
proc
printdata=aa;varNAMEgyyxy;run;
学生成绩按分类输出ObsNAMEgyyxy1a1不称职83.00102b2不称职119.95113c3不称职145.22164d4不称职129.98235e1不称职37.95316f2称职103.49477g3称职39.95498h1称职37.95519i2称职65.795210j4称职69.956311k1称职100.797212l2优秀33.128913m3优秀88.059114n1优秀97.95992对数据集进行转置的TRANSPOSE过程OBSABCOBS_NAME_COL1COL2COL311231A14724562B25837893C369一、简介该过程读入一个SAS数据集并通过转置创建一个新的数据集作为它的唯一输出集。原数据集中的行变为列、列变为行。dataa;inputxyz;cards;123456789;proctranspose;varxyz;procprint;run;使用ID语句后转置结果;datab;inputabx$;cards;12x34y56.78z;proctranspose;idx;procprint;run;Obs_NAME_xyz1a1372b248对数据进行标准化的standard过程procstandardm=0s=1;var变量表;Freq变量;Weight变量;By变量;语句说明freq:该语句用来指定输入SAS数据集中的一个数值变量,它的值表示该观测重复的次数。weight:该语句规定输入SAS数据集中的一个数值变量,它的值用来对相应观测加权。by:由by变量定义的几个观测组分开的分析结果。二、输出SAS数据集包含给定变量的标准化变量。标准化值计算公式:3.数据标准化dataa;inputNAME$xyg$@@;datalines;a83.00101b119.95112c145.22163d129.98234e37.95311f103.49472g39.95493h37.95511i65.79522j69.95634k100.79721l33.12892m88.05913n97.95991;Procprint;varxy;run;procstandardm=0s=1;varxy;run;Procprint;varxy;run;
§44.秩得分过程(rank)简介通过SAS数据集中的观测计算一个或几个数值变量的秩得分,这些秩得分被输出到新的SAS数据集中。语句
procrankties=mean;var变量表;Ranksrankx;Run;二、秩及秩的应用
rank把数值从最小到最大排列,对最小值赋予秩1,对第二小值赋予秩2,等等一直到秩为n,即未丢失的观测个数。出现结值时,其秩可以赋予平均秩或最高秩、最低秩。许多非参数统计方法使用秩而不用原始变量值。例如,对一个数据集首先通过rnak得到响应变量的秩,然后使用anova,glm过程至秩拟合方差分析模型。三、实例测得两组数据,并对每个数据求比率得分。(1):556791213151821(2):171820253443dataaa;inputxg@@;datalines;5151617191121131151181211172182202252342432442;procrankties=mean;varx;Ranksrankx;run;Procprint;run;比如,ifmax(a)<20thenp=0;elsep=1;上述程序当max(a)<20时p=0,否则p=1。下述程序则是复合的IF结构。IFx>0THENDO;PUT'X为正数';x=2*x;PUTx=;END;注意SAS的分支结构的写法与其它语言有些不同,它不用ENDIF结束。循环结构
SAS数据步可以使用循环结构,主要的是两种:计数DO循环和当型、直到型循环。计数DO循环的写法是:
DO计数变量=起始值TO结束值BY步长; 循环体语句…… END;
在循环体中可以用LEAVE语句跳出循环,相当于C语言的break语句;用CONTINUE语句可以立即结束本轮循环并转入下一轮循环的判断与执行.当型循环的语法是: DOWHILE(循环继续条件);
循环体语句…… END;程序先判断循环继续条件是否成立,成立时执行循环体语句,再判断循环继续条件,如此重复,直到循环继续条件不再成立。直到型循环的写法是: DOUNTIL(循环退出条件);
循环体语句…… END;程序先执行循环体,然后判断循环退出条件是否成立,成立则结束循环,否则继续。注意每轮循环都是先执行循环体再判断是否退出。如:data;DOi=1TO20BY2;j=i**3;puti3.j5.;END;run;可以输出一个1,3,5,7,…,19的立方表。
成绩姓名第一学期第二学期常识算术填图常识算术填图zhang141328151420li101415151318liu191422201028yang91014101210zeng9825111024he9912131115用循环语句输入数据例dataa;labeli='姓名'j='学期'x='常识'y='算术'z='制图';doi=1to6;doj=1to2;inputxyz@@;output;end;end;cards;1413281514201014151513181914222010289101410121098251110249912131115;title'学生成绩';procprintdata=alabel;run;6SAS函数(一).SAS函数的定义
SAS函数是一个子程序,它由0个或几个自变量返回一个结果值。每个SAS函数都有一个关键词名字。为了引用函数,要写出它的名字,然后写出一个自变量或几个自变量,它们用括号括起来,这个函数对这些自变量执行某种运算。SAS函数的形式
functionname(argument,...)
例如:INT(1.453)SUM(X1,X2)MIN(SUM(cash,credit),1000)(二)SAS函数自变量和结果1.SAS函数的自变量 1)自变量的类型:自变量可以是简单的变量名、常数或者表达式。这个表达式还可以包含其它的函数。例如:m=max(cash,credit)n=sqrt(2500)h=min(sum(ofx1-x10),y)
2)自变量的个数:有些函数不需要自变量(如DATE()),有些只需要一个自变量,有些函数是对几个自变量作分析处理。所有函数都不允许超过2000个自变量。如果函数的自变量是表达式,则先计算作为自变量的表达式。如:LOG(x+y)这个函数,是先计算x+y,然后调用对数函数LOG来计算x+y的对数。
3)自变量的表示法:一般地,当函数有几个自变量时,它们必须用逗号分隔开。不过,以下三种写法均是合法的:
functionname(OFvariable1-variablen)functionname(OFvariablevariable...)functionname(variable,variable,...)例如:sum(ofx1-x5)sum(ofx1x2x3x4x5)sum(x1,x2,x3,x4,x5)是等价的。
2.函数的结果
作为函数结果的目标变量(因变量),其取值通常取决于自变量,当自变量是字符变量时,因变量取字符为值;当自变量为数值变量时,因变量取数值为值。对大多数函数而言,数值目标变量的长度是8个字节,字符目标变量的长度为200个字节。(三).函数的分类
SAS函数主要分为以下四类:数学函数abs():求绝对值mod(var1,var2):求var1除以var2后的余数sqrt():求平方根值 log():计算以e为底的对数值log10():计算以10为底的对数值样本统计函数
max():求最大值min():求最小值
mean():求均数std():求标准差
sum():求和随机函数
normal():产生一个正态分布的伪随机数
rannor():产生一个标准正态分布的随机数日期时间函数
year():从变量中抽取“年份”值
month():从变量中抽取“月份”值
day():返回变量的天数值data;x=0.5;y=sin(x);put'Sinefunctionvalueof'x'is'y;run;结果将在运行记录窗口显示一行Sinefunctionvalueof0.5is0.4794255386在PUT语句中使用“变量名=”来指定输出项可以显示带有变量名的输出结果,比如把上程序中的PUT语句改为putx=y=;则结果在LOG窗口显示为X=0.5Y=0.4794255386二利用SAS作样本数据描述性统计1.PROCUNIVARIATE、2.PROC
MEANS定量资料的描述、配对t检验,一个样本对应总体与一个已知总体的比较t检验SAS过程(一)univariate过程一、过程简介该过程是单变量过程。用来估计描述统计量的过程,除可以完成类似means过程的基本统计量的计算外,还可以计算其它统计量:计算变量值分布的位置参数,生成若干个描述变量分布的图,对数据进行正态性检验,描述极端值的情况。二、语句结构procunivariate选择项;var变量表;by变量表;freq变量;weight变量;id变量表;outputout=输出数据集关键字=名1名2….;三、输出结果1、prob>|T|的含义及判断标准A学生t统计量大于T绝对值的概率。B如PRT<,则拒绝原假设(检验总体均值为0的假设)2、proc<w的含义及判断标准A检验数据来自正态总体假设时,相应的显著性概率。B如PRT<,拒绝原假设(检验数据来自正态总体的假设)或W<,拒绝原假设。DATAEX1;inputx@@;cards;75.054.864.064.847.462.266.952.062.265.062.265.057.563.555.266.673.564.057.057.063.969.058.056.957.550.052.272.057.055.448.557.075.550.562.963.461.058.561.552.561.069.562.5;procunivariatenormalplot;varx;RUN;例1给出了43个试验田的小麦产量,数据如下:试作统计描述,并检验数据是否符合正态分布.75.054.864.064.847.462.266.952.062.265.062.265.057.563.555.266.673.564.057.057.063.969.058.056.957.550.052.272.057.055.448.557.075.550.562.963.461.058.561.552.561.069.562.5SAS程序
TheUNIVARIATEProcedureVariable:xMoments(容量)N43(权重和)SumWeights43(均值)Mean60.744186(总和)SumObservations2612(标准差)StdDeviation6.91021681(方差)Variance47.7510963(偏度系数)kewness0.18055079峦(峰度系数)Kurtosis-0.2825567(未校正平方和)UncorrectedSS160669.36(未校正平方和)
CorrectedSS2005.54605(变异系数)CoeffVariation11.3759312(标准误)StdErrorMean1.05379818BasicStatisticalMeasuresLocationVariability(均值)Mean60.74419(标准差)
StdDeviation6.91022(中位数)Median61.50000(方差)Variance47.75110(众数)Mode57.00000(极差)
Range28.10000(内间距Q3-Q1=64.8-56.9=7.9)InterquartileRange7.90000
作均值为0的检验H0:u0=0
TestsforLocation:Mu0=0Test-Statistic------pValue------(t检验)Student'stt57.64309Pr>|t|<.0001(非参数的符号检验)SignM21.5Pr>=|M|<.0001(非参数符号秩检验)SignedRankS473Pr>=|S|<.0001拒绝H0用4种统计量检验数据符合正态分布与否H0:数据符合正态分布TestsforNormalityTest--Statistic--------pValue------Shapiro-WilkW0.978021Pr<W0.5711Kolmogorov-SmirnovD0.082943Pr>D>0.1500Cramer-vonMisesW-Sq0.050824Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.307263Pr>A-Sq>0.2500不拒绝H0TheUNIVARIATEProcedureVariable:x
Quantiles(Definition5)百分位数与四分位数的估计QuantileEstimate100%Max75.599%75.595%73.5P(X<69.5)=90%90%69.5P(X<64.8)=75%75%Q364.8
50%Median61.525%Q156.910%52.05%50.01%47.40%Min47.4分别列出5个最小值与最大值和它们的序号
ExtremeObservations----Lowest--------Highest---ValueObsValueObs47.4569.54248.53172.02850.02673.51750.53475.0152.0875.533
数据的探索性分析画出数据的盒子图径叶图,描述数据的集中和波动趋势StemLeaf#Boxplot
74052|
72052|
70|
68052|
66692|
64008005+-----+Q3
62222594598||
600053*--+--*Q2
58052||
5690000557+-----+Q1
548243|
520253|
50052|
4851|
4641|----+----+----+----+TheUNIVARIATEProcedureVariable:xNormalProbabilityPlot75+*++*|**+++|+++|**+|+**|****|*****61+**+|+*|****|**+|***|**+|*++47+*++++----+----+----+----+----+----+----+----+----+----+-2-10+1+2画出分布形态图,从直观上检验数据的是否正态分布,当*与+重合较多表明数据基本符合正态分
画出直方图的输出(1).给定中位数及间隔proc
chart;VBAR变量/MIDPOINTS=44TO76BY4;(2).proc
capabilitygraphics;varX;histogram;
run;(3).procgchart;vbarx;run;dataEX1;inputx@@;cards;75.054.864.064.847.462.266.952.062.265.062.265.057.563.555.266.673.564.057.057.063.969.058.056.957.550.052.272.057.055.448.557.075.550.562.963.461.058.561.552.561.069.562.5;proc
univariatedata=EX1normalplot;varx;RUN;proc
chartdata=EX1;VBARX/MIDPOINTS=44TO76BY4;proc
capabilitygraphicsnoprint;varX;histogram;
run;procgchart;vbarx;run;DATAt;INPUTx@@;gr=2;x1=gr*INT(x/gr);CARDS;7.428.65 23.0221.6121.3121.469.97 22.7314.9420.1821.6223.0720.388.4017.3229.6419.69 21.6923.9017.4519.0820.5224.1423.7718.36 23.04 24.22 24.13 21.53 11.09 18.8918.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.1321.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36PROC
FREQDATA=t;TABLESx1;PROC
GCHARTDATA=t;VBARx1/DISCRETETYPR=FREQSPACE=0;VBARx/TYPR=FREQMIDPOINTS=7TO29BY2SPACE=0;RUN;
(二)计算描述统计量的MEANS、SUMMARY过程一、简介对数值变量计算单个变量的基本统计量。如果使用by语句,可把数据按by变量分为几个观测组,并对每个观测组计算数值变量的描述统计量。二、语句介绍procmeans选择项;var变量表;by变量表;class变量表;freq变量;weight变量;id变量;output选择项;MEANS过程所计算的统计量是用关键词及其含义如下: N:输入的观测值个数 NMISS:每个变量所含缺失值的个数 MEAN:变量的平均数 STD:变量的标准差 MIN:变量的最小值 MAX:变量的最大值 RANGE:变量的极差 SUM:变量所有值的和 VAR:变量的方差 USS:每一变量原始数据的平方和(未校正平方和) CSS:每一变量的离均差平方和(校正平方和) CV:变异系数 STDERR:每一变量的标准误(平均数的标准差) T:在H0:μ=0时的t值PRT:在H0:μ=0的假设下,统计量t大于t临界值绝对值的概率MEANS过程所计算的统计量是用关键词及其含义如下:
SKEWNESS:偏斜度 KURTOSIS:峭度 CLM:置信区间的上限和下限 LCLM:置信区间的下限 UCLM:置信区间的上限ALPHA=(α值):选用的统计显著性水平
DATAEX2;INPUTX@@;CARDS;20.321.522.019.822.523.725.424.323.226.818.721.924.422.826.221.4;
PROC
MEANSmeanstdstderrnCLM;proc
chartdata=EX2;VBARX/MIDPOINTS=14TO28BY2;RUN;结果输出
TheMEANSProcedureAnalysisVariable:XLower95%Upper95%MeanStdDevStdErrorNCLforMeanCLforMean----------------------------------------------------------------------------------22.80625002.27082030.56770511621.596215324.0162847----------------------------------------------------------------------------------DATAEX2;INPUTX@@;CARDS;20.321.522.019.822.523.725.424.323.226.818.721.924.422.826.221.4;
PROC
MEANSmeanstdstderrnCLM;proc
capabilitygraphicsnoprint;varX;histogram;
run;procgchart;vbarx;run;proccapabilitygraphicsnoprint; varx; histogram/midpoint=20to28by1 vscale=count; run;Datazhili;inputname$x1x2x3;cards;Zhang 14 13 28Li 10 14 15Liu 19 14 22Yang910 14Zeng9 8 25He 9 9 12;Procprintdata=zhili;Procmeansdata=zhili;varx1x2x3;run;
在这个例子中,我们看到:data,input,cards,proc,var,run是关键词;zhili是数据集名;name,x1,x2,x3是变量名;means是过程名;data=是means语句中的选项;$是特殊字符。
TheMEANSProcedureVariableNMeanStdDevMinimumMaximum-----------------------------------------------------------------------------x1611.66666674.08248299.000000019.0000000x2611.33333332.65832038.000000014.0000000x3619.33333336.562519812.000000028.0000000-----------------------------------------------------------------------------三.用菜单系统INSIGHT或分析员应用:
1.启动SAS系统=>进入INSIGHT环境=>打开CLASS数据集=>Analyze=>Multivariate(Y’s)=>选Y变量Age,Height,Weight=>Output=>在弹出Output窗口选Univariate=>OK=>OK,显示结果。
2.在分布窗口指定SEX(性别)为GROUP变量及Y变量Age,Height,Weight,在Output窗口选Univariate=>OK=>OK.
3.启动SAS系统=>进入分析员应用=>打开CLASS数据集=>Statistics=>HypothesisTests=>Two-Sample-testforMeans=>指定分析变量(Weight)和分组变量(Sex)=>OK,则显示结果。SAS常用功能键
按功能键“F9”,激活Keys窗口,可查看功能键的定义。§2SAS提供的基本运行环境-SAS常用的交互式运行方式1.用SAS编程实现各种任务2.用SAS提供的菜单系统实现各种任务3.用SAS/ASSIST进入SAS/ASSIST:使用工具栏图标发命令ASSIST下拉菜单选Globals=>ASSIST4.用SAS桌面系统发命令DESKTOP下拉菜单选Globals=>Desktop§2SAS提供的基本运行环境-SAS菜系统SAS系统提供几个交互式地心菜单系统用来完成各种上分析任务。1.SAS/INSIGHT软件2.分析员应用(ANALYST)3.市场研究应用(MARKET)4.SAS/LAB软件5.SAS/ETS软件的时间序列预报SASAWS是Windows环境下使用显示管理系统运行SAS系统的工作界面。SASAWS的请窗口是标题为SAS的窗口SASAWS还包括:1.所有条形的SAS窗口(含最小化的窗口)2.子窗口和对话框3.菜单条,工具栏,命令框,状态栏…§2SAS提供的基本运行环境-应用工作界面(AWS)正态性检验
对随机变量X,其密度如果存在函数为则称X付出正态分布,记为讨论参数的区间估计及进行统计检验时,我们都是假定总体分布为正态分布,但正态性假定是否成立,对于数据分析结论的可靠性是至关重要的。为此我们要对于数据正态性作统计检验.例1下面给出了100个农场的小麦产量,检验其正态性。数据如下:75.054.864.064.847.462.266.952.062.265.062.265.058.757.563.555.266.673.564.057.057.063.969.058.056.957.550.052.272.057.055.448.557.075.550.562.963.461.058.561.552.561.069.562.552.660.063.956.854.066.260.066.255.954.458.472.858.065.362.249.846.566.758.063.252.265.759.366.368.674.959.561.563.177.065.550.058.559.875.563.357.058.467.071.849.863.068.355.558.564.059.068.055.564.862.064.069.948.6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年重大事故隐患判定标准汇编
- 脊髓疾病患者的皮肤护理与保护
- 2026年环境小记者新闻采访与写作
- 2026年康复科出院后社区康复资源利用指南
- 2026年酒店住宿客人安全告知与温馨提示制度
- 绿色产品市场调查协议
- 风险投资2026年虚拟现实合作合同协议
- 品牌管理2026年知识产权许可协议
- 2026年社区生鲜超市线上线下融合运营模式
- 2027届高考语文考前指导
- 串串店加盟易合同范本
- 肿瘤化疗发展史全解析
- 2025年检察院书记员考试真题(附答案)
- 新闻编辑实践作业汇报
- 前庭大腺脓肿切开护理查房
- 电力拖动自动控制系统-运动控制系统(第5版)习题答案
- JG/T 355-2012天然石材用水泥基胶粘剂
- 合伙贷款合同协议书
- GB/T 2878.1-2025液压传动连接普通螺纹斜油口和螺柱端第1部分:斜油口
- 水库溃坝分析报告范文
- 中成药处方大全-仅作参考
评论
0/150
提交评论