已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章SAS的描述统计功能,2.1描述性统计的基本概念2.2在SAS中计算统计量2.3统计图形,2.1描述性统计的基本概念2.1.1统计学的基本概念2.1.2表示数据位置的统计量2.1.3表示数据分散程度的统计量2.1.4表示数据分布形状的统计量2.1.5其它统计量,2.1.1统计学的基本概念1.总体与样本总体(population):总体是指所研究对象的全体组成的集合。样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1,X2,Xn表示,其观测值(样本数据)则表示为x1,.,xn,为简单起见,有时不加区别。,2.参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值()、总体方差(2)、总体比例()等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)、样本比例(P)等。,2.1.2表示数据位置的统计量如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean)均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:,2.中位数(Median或Med)中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,3.众数(Mode)观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。4.百分位数(Percentile)分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。,2.1.3表示数据分散程度的统计量1.极差(Range)与半极差(Interquartilerange)极差就是数据中的最大值和最小值之间的差:极差=maxximinxi上、下四分位数之差Q3Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2.方差(Variance或Var)方差是由各观测值到均值距离的平方和除以观测量减1:,3.标准差(Standarddeviation或StdDev)方差的开方称为标准差:标准差的量纲与原变量一致。4.变异系数(CoefficientofVariation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:,2.1.4表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标。1.偏度(skewness)偏度是刻画数据对称性的指标。偏度的计算公式为:在SAS中:关于均值对称的数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。,2.峰度(kurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公式为:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更集中,则峰度为负,称为厚尾。,2.1.5其它统计量1.均值的标准误(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares),3.未校正平方和(Uncorrectedsumofsquares)4.k阶原点矩其中A1即为均值。5.k阶中心矩,2.2在SAS中计算统计量2.2.1用INSIGHT计算统计量2.2.2用“分析家”计算统计量2.2.3编程实现描述性统计,2.2.1用INSIGHT计算统计量INSIGHT可以非常方便地计算各种统计量。1.实例数据【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中,4个变量名分别为:ID、R_ID、Income和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。,2.在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”“Analysis(分析)”“InteractiveDataAnalysis(交互式数据分析)”,打开“SAS/INSIGHTOpen”对话框,在对话框中选择数据集:Mylib.sryzc,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图所示。,3.计算统计量选择菜单“Analyze(分析)”“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。,选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。,2.2.2用“分析家”计算统计量1.启动“分析家”选择主菜单“Solutions(解决方案)”“Analysis(分析)”“Analyst(分析家)”,打开“分析家”窗口。选择主菜单“File(文件)”“OpenBySASName”,打开“SelectAMember”对话框,选择数据集Mylib.sryzc。,2.通过SummaryStatistics菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“SummaryStatistics(汇总统计量)”,打开“SummaryStatistics”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量,如图所示。,单击“Statistics”按钮,打开“SummaryStatistics:Statistics”对话框。对话框中列出可以计算的所有统计量(如右图所示)。描述性统计量如下图所示。,3.通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量。单击“OK”按钮,即可得到关于变量Income的矩统计量和基本统计测度,2.2.3编程实现描述性统计SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。,1.FREQ过程FREQ过程包括多个控制频数输出与检验的语句和选项,格式如下:PROCFREQDATA=;TABLES;FORMAT.;RUN;其中PROCFREQ语句调用FREQ过程,标志FREQ过程的开始;TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。,例如,统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下:procfreqdata=mylib.sryzc;tablesR_IdIncome;RUN;显示结果如图所示。,2.MEANS过程(1)语法格式MEANS过程的一般格式:PROCMEANSDATA=;VAR;BY;CLASS;RUN;,PROCMEANS语句后的选项主要用来指定所要计算的统计量,默认情况下,MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。VAR语句引导所要进行分析的所有变量的列表,SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。BY语句与CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。,如对数据集Mylib.sryzc中的Income变量计算简单统计量,只要用如下MEANS过程:procmeansdata=mylib.sryzc;varIncome;run;结果如图2-15所示。,(2)使用统计量关键字列表在PROCMEANS语句中使用统计量关键字列表:procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;run;结果如图2-16所示。,可以计算的描述性统计量关键字及其含义见下表。,(3)使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。,使用BY语句之前先排序,如下代码可以在上例中按变量R_Id分组统计:procsortdata=mylib.sryzc;byR_Id;run;procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;byR_Id;run;,使用CLASS语句分组较为简单,如下代码也可以在上例中按变量R_Id分组统计:procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;classR_Id;RUN;,3.UNIVARIATE过程UNIVARIATE过程的一般格式为:PROCUNIVARIATEDATA=;VAR;BY|CLASS;HISTOGRAM/;OUTPUTOUT=;RUN;,UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。,输出包括五个部分。第一部分是矩统计量,各统计量已在2.1.1中作了介绍。第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。,2.3统计图形2.3.1定量变量的图形表示2.3.2分类变量的图形表示,2.3.1定量变量的图形表示1.直方图对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。,图2-22密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。,2.盒形图盒形图(boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。图2-23的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。,3.散点图通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图2-24)。这种图称为散点图(ScatterPlot)。,4.线图线图(LinePlot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。,2.3.2分类变量的图形表示分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。1.条形图条形图(BarChart)给出分类变量取每个值的频数,如图2-26所示为变量R_ID取值的条形图。,2.饼图通常,饼图(PieChart)可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。图2-27中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。,3.马赛克图马赛克图(MosaicPlot)一般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图2-28所示。,2.4用SAS绘制统计图形2.4.1用INSIGHT绘制统计图形2.4.2用“分析家”绘制统计图形2.4.3编程绘制统计图2.4.4图形的调整与输出,2.4.1用INSIGHT绘制统计图形INSIGHT模块可以画出多种统计图形,而且图形清晰、美观。1.绘制直方图选择菜单“Analyze(分析)”“Histogram/BarChart(Y)(直方图/条形图)”,打开“Histogram/BarChart(Y)”对话框。在数据集的变量列表中,选择变量,然后单击“Y”按钮。,单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图所示,以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。,单击“OK”按钮,即可得到直方图如图2-30左所示。单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)”,即可在图中显示频数值,如图2-30右所示。,2.绘制条形图INSIGHT模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)”,如图左所示。选择菜单“Analyze”“Histogram/BarChart(Y)”,打开“Histogram/BarChart(Y)”对话框。在数据集的变量列表中选择变量,然后单击“Y”按钮,如图右所示。,单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,单击“OK”按钮返回对话框。单击“OK”按钮,即可得到条形图如图2-34左所示。如果选择Income_freq(见2.2.2节)作为分析变量,则可以得到图2-34右所示的条形图。,3.绘制盒形图选择菜单“Analyze”“BoxPlot/MosaicPlot(Y)”,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开“BoxPlot/MosaicPlot(Y)”对话框。在数据表sryzc的变量列表中,选择income变量,然后单击“Y”按钮,income变量被选定,如图左所示。单击“Output”按钮,在打开的对话框中选择“Labels”选项,取消“YAxisVertical”如图右所示。,单击“OK”按钮,即可得到盒形图如图2-36左所示。,在“BoxPlot/MosaicPlot(Y)”对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,10号家庭的收入是一个极端值,它不具有代表性。,4.绘制马赛克图选择“Analyze(分析)”“BoxPlot/MosaicPlot(Y)(盒形图/马赛克图)”命令,可以对分类变量作马赛克图。下面以2.2.2中修改过的数据集sryzc为例,作出R_Id变量和Income_freq变量的马赛克图。,4.绘制马赛克图首先将R_Id变量改为“列名型”(参见图2-33左)。选择菜单“Analyze(分析)”“BoxPlot/MosaicPlot(Y)(盒形图/马赛克图)”,打开“BoxPlot/MosaicPlot(Y)”对话框。在数据集sryzc的变量列表中,选择R_Id变量,然后单击“Y”按钮,R_Id变量被选定,单击“OK”按钮,得到结果如图2-38所示。,5.绘制散点图选择菜单“Analyze”“ScatterPlot(YX)”,打开“ScatterPlot(YX)”对话框。在变量列表中,选择Income,单击“Y”按钮,Income变量被选定为Y轴变量,选择Outgo,单击“X”按钮,Outgo变量被选定为X轴变量,如图左所示。单击“OK”按钮,即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。,在数据集窗口选中所有1号地区的观测号,图2-40是在散点图中区分两个地区的情况,细点为2号地区,粗点为1号地区。从该图可以看出1号地区比2号地区在收入和支出水平上都要高出许多。,6.绘制线图选择菜单“Analyze(分析)”“LinePlot(YX)(分布)”,打开“LinePlot(YX)”对话框。在数据集sryzc的变量列表中,选择ID变量,单击“X”按钮,ID变量被选定为X轴,然后选择Income变量,单击“Y”按钮,如图左所示。单击“OK”按钮,即可得到线图如图右所示。,若在“LinePlot(YX)”对话框中,将ID变量选定为X轴,选择Income变量和Outgo变量,单击“Y”按钮。单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图左所示,以便输出的图形显示中文标签名。两次单击“OK”按钮,得到关于Income变量和Outgo变量的复式线图(图右)。,2.4.2用“分析家”绘制统计图形1.绘制饼图在“分析家”中打开数据集mylib.sryzc。选择主菜单“Graphs”“PieChart”,打开“PieChart”对话框,选择变量列表中的Income,单击“Chart”按钮,选定分析变量,如图左所示。所得饼图如图右所示。,2.绘制条形图选择主菜单“Graphs”“BarChart”“Horizontal”,打开“HorizontalBarChart”对话框,选择变量列表中的INCOME,单击“Chart”按钮,选定分析变量,选择R_ID变量,单击“StackBy”按钮,再选中3-D选项,如图左所示。单击“OK”按钮,得到水平条形图,如图右所示。,2.4.3编程绘制统计图SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来。在SAS/GRAPH模块的支持下,SAS可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图,等等。,1.GCHART过程(1)语法格式GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为:PROCGCHARTDATA=;/RUN;,GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2-5。图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。,选项比较重要的有:TYPE=统计量关键字,表示以图形对变量(SUMVAR所指定的变量)的哪一种统计量进行描述,比如频数(FREQ)、均数(MEAN)、总计(SUM)、频数百分比(PCTN)等;SUBGROUP=变量名(分组变量),指定要进行分组(各组段内再分组)的变量;SUMVAR=变量名(数值变量),指定要进行统计计算的变量,也就是“TYPE=统计量关键字”选项中统计量的计算所依据的变量。,(2)画条形图(直方图)使用VBAR关键字可以画条形图。例如,画出数据集Mylib.sryzc中Income变量的条形图的代码如下:procgchartdata=mylib.sryzc;vbarIncome;run;结果如图所示。,其中绘图用的变量用VBAR语句给出,如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在INSIGHT中横轴标的是区间的端点值。可以指定分组的变量,例如在每个区段内再分段,可以用如下代码:procgchartdata=mylib.sryzc;vbarIncome/subgroup=R_Id;run;结果如图所示。,(3)画三维条形图使用BLOCK关键字可以画三维条形图。例如,画出数据集mylib.sryzc中Income变量的三维条形图的代码如下:procgchartdata=mylib.sryzc;blockIncome/group=R_Id;run;结果如图所示。,(4)画饼形图使用PIE关键字可以画饼形图,PIE3D关键字可以画三维饼形图。例如,画出数据集mylib.sryzc中Income变量的三维饼形图的代码如下:procgchartdata=mylib.sryzc;PIE3DIncome;run;结果如图所示。,2.使用GPLOT过程绘制散点图和连线图通常用散点图和连线图可以表示:一个变量随另一个变量的变化;变量之间的关系;数据值的分布。(1)GPLOT过程的一般格式PROCGPLOTDATA=;PLOT*=/;SYMBOLn;RUN;常用的选项见表2-6。,表2-6PLOT语句的选项,SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。选项见表2-7。表2-7SYMBOL语句的选项,(2)散点图绘制家庭总收入对家
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 快递员综合绩效考核方案及结果应用
- 初级管理员个人工作目标设定与执行策略
- 建筑项目风险管理计划
- 营销策划案品牌推广计划与执行
- 交通领域AI数据治理师初级工作策略
- 核安全法规标准应用案例分析
- 项目进度控制与质量管理方法
- 建筑工程项目管理及施工组织设计
- 文化创作者工作室创建流程与管理方法
- 深入解析企业级应用运维的月工作安排要点
- 光伏电站安全培训课件
- 2025年消防日消防月主题知识培训
- 2022年长春财经学院公共课《思想道德基础与法律修养》科目期末试卷B
- 交安设施冬季施工方案
- 生物育种方法
- 建筑企业法人a证考试及答案
- 2025年秋统编版小学语文四年级上册第六单元综合测试卷及参考答案
- 《国有企业管理人员处分条例》测试题(名校卷)附答案详解
- 鸡蛋采购项目服务方案投标文件(技术方案)
- 医院进修人员培训报告
- 冬季燃气管道施工安全方案
评论
0/150
提交评论