第7章_统计描述.ppt_第1页
第7章_统计描述.ppt_第2页
第7章_统计描述.ppt_第3页
第7章_统计描述.ppt_第4页
第7章_统计描述.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章 统计描述,蔡德利 黑龙江八一农垦大学植物科技学院 tsaideli 2004.10.20,几个统计描述过程 means过程 summary过程 univariate过程 tabulate过程 gchart过程 gplot过程 计数资料的统计描述,主要内容,计量资料的描述,计量资料的统计描述,平均指标 的计算; 变异指标的计算; 资料分布形态(或特征)的图形表现。,几个统计描述过程,四个不同的过程: means过程 summary过程 univariate过程 tabulate过程 它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。,几个统计描述过程,相同点: 均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等, 均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。,几个统计描述过程,不同点: means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数; summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; univariate过程具有统计制图的功能,其它三个过程则没有; tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。,几个统计描述过程,统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有: chart过程 plot过程 gchart过程 gplot过程 它们只差一个字母g(代表graph),统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。,几个统计描述过程,chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状。 实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。 而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。,几个统计描述过程,chart和gchart 可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等; plot和gplot 通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。,means过程,一般格式 proc means ; by var-1var-n; class variables; (分组变量) freq variable; (数值变量,表示相应记录出现的频数) id variables; output ; types requests; weight variable; (数值变量,表示相应记录的权重系数) ways list; var variables; run;,means过程,主要功能: means过程主要执行数据汇总的功能; 可对全部观测或在指定的分组内对指定(或默认)的变量计算各种指定(或默认)的统计量; 还可对样本的分布位置(对应于均数为0的无效假设)执行t检验过程。,means过程,仅有proc means为必需,其余语句均为可选项。 proc means 语句后可以使用选项(options)和所要计算的统计量(statistic-keywords)。 默认情况下,means过程会给出5个常用统计量:观测频数、均数、标准差、最大值和最小值,其余统计量的计算均需要在选项中指定。,means过程,means 语句中的选项(options),means过程,means过程,means过程,means过程,means过程,means过程,means 语句中的描述统计量(statistic-keywords),下表绝大部分可用。,means过程,means过程,means过程,means过程,output 语句 格式: output 作用:将分析所得的各类统计量输出到指定名称的sas 数据集。 out= 指定sas数据集名称 output-statistic-specifications 指定要包含在输出数据集中的描述统计量。,means过程,在output语句中,对输出数据集中要包含的统计量的定义有三方面的内容: 要包含的统计量 要为哪些变量计算这些统计量 各统计量在输出数据集中的变量名称 例如: output mean( a b c)=ma mb mc; 对于输入数据集中的变量a、b、c分别计算均数,将三个变量的均数分别命名为ma、mb、mc存储到输出数据集中。,means过程,class语句所指定的分组变量用来进行分组 by语句所指定的分组变量是用来将数据分为若干个更小的样本,以便sas分别在各小样本内进行各自独立的处理。 freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量。 var语句引导所要进行分析的所有变量的列表,sas将对var语句所引导的所有变量分别进行描述性统计分析。,means过程,例07001: 长沙市某大学160名正常成年女子1999年体检资料中的血清甘油三酯的测量结果(mmol/l),请对其进行统计描述。 数据文件sasdata07001.txt 程序文件sasprog07001.sas,means过程,例07002: child.sas建立数据集。 以下程序进行分析: /* sasprog07002.sas */ data a; set mylib.child; proc means maxdec=2; var x2-x6; run;,maxdec=2指定输出结果中的最大小数位数为2。 可设置为0-8。,means过程,例07003: 上例数据集,用以下程序进行分析: /* sasprog07003.sas */ proc means data=a maxdec=2; class x1; var x2-x6; run;,加入class语句,指定x1为分组变量。,means过程,例07004:,/* sasprog07004.sas */ data a; input group x y z; cards; 1 545 40 50 1 490 46 39 1 515 45 44 1 505 45 47 1 492 46 32 2 485 45 25 2 499 49 17 2 480 45 20 2 566 49 36 2 539 49 27 ;,proc means maxdec=2 noprint; var x ; class group; output out=b n=n mean=mean sum=sum std=std lclm=lclm uclm=uclm; run; proc print; run;,summary过程,一般格式 proc summary ; by var-1var-n; class variables; freq variable; id variables; output ; types requests; weight variable; ways list; var variables; run;,summary过程,summary过程的语句格式(包括语句中的项目和选项等)与means过程的完全相同,所执行的功能和具体的用法也是基本相同的。 以下仅介绍差异。,summary过程,“print”和“noprint”,用来控制程序运行结果在结果窗口中的显示状态。默认情况下,summary过程不显示分析结果,即设置了“noprint”。而means默认设置为“print”。 在默认不使用var语句指定分析变量时,summary过程仅对观测进行计数工作,其他各统计量的计算都将被忽略。而means过程对全部数据值变量进行用户指定或系统默认的分析工作。,univariate过程,一般格式 proc summary ; by var-1var-n; class variables; freq variable; histogram ; id variables; output ; inset ; probplot ; qqplot ; var variables; weight ; run;,univariate过程,univariate过程的主要功能是进行数据汇总和数值型变量的分布情况的描述; 可绘制高分辨率的、描述变量分布情况的统计图形; 可对样本的分布位置(对应于均数为任意指定数值的无效假设执行t检验过程。,univariate过程,功能归纳: 计算以矩为基础的描述统计量; 计算中位数、众数、全距以及各种分位数; 对位置参数(location)和尺度参数(scale)进行稳健估计; 计算置信区间; 给出极端值及其对应观测的列表; 创建有关数据和频数表; 绘制有关数据分布情况的统计图形; 执行有关分布位置和正态性的检验; 对有关参数和非参数分布执行拟合优度检验;,univariate过程,功能归纳: 绘制直方图,还可为拟合的连续性分布选择添加分布密度曲线; 针对多种理论分布绘制q-q图及概率图,并可添加与位置参数和尺度参数对应的参考线。 绘制单因素或两因素的对比直方图、对比q-q图或对比概率图; 为绘制的统计图添加包含有关统计量的插页列表框; 创建包含指定统计量或有关拟合分布参数估计值的输出数据集。,univariate过程,例07005: 对前例用univariate分析 /* sasprog07005.sas */ proc univariate data=a; var x ; run;,univariate过程,正态性检验 正态分布指的是总体的一种理论分布。对于给定的样本,为判断其是否来自具有正态分布的总体,要进行假设检验,然后根据检验的结果判断能否拒绝正态性假设。 在proc univariate语句中加上normal 选项可以进行正态性检验。,univariate过程,/* sasprog07006.sas */ data varc; input v1-v7 v; label v1=脑血管病 v2=心血管病 v3=癌症 v4=呼吸系统病 v5=动脉硬化心脏病 v6=伤亡事故 v7=传染病 v=省名; cards; 136.97 109.48 76.32 74.52 55.23 46.47 24.65 1 128.80 95.29 79.42 69.20 52.18 28.31 26.91 2 104.03 74.30 140.66 71.76 22.50 48.16 11.90 3 101.41 126.42 98.13 89.51 55.48 40.38 50.51 4 58.76 61.74 91.09 81.58 21.08 61.92 38.04 5 70.49 109.64 72.47 81.09 20.90 40.11 26.97 6 55.93 148.51 56.25 153.94 . 101.24 81.65 7 73.86 99.84 63.09 153.38 . 54.23 93.06 8 ; proc format; value vf 1=北京 2=天津 3=上海 4=河北 5=福建 6=辽宁 7=四川 8=西藏 title 1973-1975年我国部分省市男性死因分析; proc univariate data=varc normal; var v1; run;,1973-1975年我国部分省市男性死因数据,试做正态性检验。 h0:脑血管病样本数据服从正态分布。,univariate过程,n2000 时,正态性检验用shapiro-wilk w统计量; n2000 时,用kolmogorov-smirnow d统计量。 本例w=0.908475太小,以至于不可以拒绝正态分布的假设。,univariate过程,prw:为检验的显著性概率值(p值)。 此值在0-1之间,表示对于正态性的可拒绝程度。 当此值小于给定的 =0.05时,说明数据不是来自于正态分布的总体。 本例的概率值为0.3434,所以没有理由拒绝h0,说明脑血管病样本服从正态分布。,univariate过程,例07007: 对前例用图形方法(univariate过程)分析 /* sasprog07007.sas */ proc univariate data=varc plots; var v1; run;,plots选项要求绘制茎叶图(或水平条图)、箱式图和正态分布的概率图。,univariate过程,检验正态分布的统计量除了上述的prw后面的概率值以外,还有以下几种附加的方法和统计量。 条形图:应该呈现呈现正规的“钟形”分布。 描述统计量中的偏度(skewness)和峰度(kurtosis)应该很接近于0。 正态概率图:图形的散点应该呈现一条直线。,univariate过程,本例: 由于只有8个观测值,因此很难断定茎叶图是否呈现“钟形”的正态分布; 从箱式图看,中位线段不在框体中间,而偏向框体底部,可以断定数据不是均匀分布的; 观察正态概率图,“+”号组成一条理论上的正态直线,“*”号为样本分布的图点。如果样本是来自正态分布的总体,“*”号则组成一条直线,从而覆盖全部的“+”号。图形中“+”号越多,表明数据偏离正态分布的程度越大。本例样本量太少,无法断定数据的正态性。 偏度接近于0,数据分布基本上无偏,或者说数据趋于正态分布;峰度为-1.5116407,数据稍微趋于“轻尾”的正态分布。,tabulate过程,tabulate过程的目的是制作各式的统计表格(而非统计的图形)。 可控制表格的排列方式,即表格的行(column) 、列(row) 与页(page),通常用三个文字(或数值) 变量来定义。 tabulate 过程的核心指令是table 语句。,gchart过程,gchart过程可以绘制六种类型的统计图形,其中条形图(bar chart)还可因排列方向和外观的不同分为4种类型。 格式: proc gchart output-catalog; block chart-variables; hbar | hbar3d | vbar | vbar3d chart-variables; pie | pie3d | donut chart-variables; star chart-variables; run;,gchart过程,gchart可以使用的图形关键字和所绘制的图形类型:,gchart过程,图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。 其后的选项比较重要的有: type=,表示对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(freq)、均数(mean)、总计(sum)、频数百分比(pctn)等; subgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量; levels=,分组的数目,如果变量为字符型则该选项无效; inside=,将相应的统计量显示在竖条的内部,可显示频数、百分比、均数、合计等; space=,指定竖条之间的距离,以字符宽度为单位(做直方图可设为零); width=,指定竖条的宽度,以字符宽度为单位。,gchart过程,绘制直方图 绘制直方图可用chart或gchart过程来完成。 直方图的绘制需要先编制频数表,也就是先要将各观测值按照其大小归入相应的组中。 完成这一部分的工作我们需要用到sas程序的条件语句和赋值语句。 在这里我们要建立一个新变量y,以表示不同的组,它的值就等于相应组的组中值。 所有160个观测值中,最大的为1.77,最小的为0.51,我们以0.1为组距,将所有观测值归入13个组。 以下是以直方图描述该资料分布的sas程序。,gchart过程,/* sasprog07008.sas */ data d07008; infile e:sas统计分析sasdatasasdata07001.txt; input x; if x=0.6 and x=0.7 and x=0.8 and x=0.9 and x=1.0 and x=1.1 and x=1.2 and x=1.3 and x=1.4 and x=1.5 and x=1.6 and x=1.7 then y=1.75; proc gchart; vbar y/type=freq levels=13 inside=freq space=0 width=6; run;,gchart过程,gchart过程,小样本资料的统计描述 小样本资料的处理和大样本资料的处理是大同小异,主要的区别在于小样本资料无需进行频数表的编制。 其实对于sas来说,无论大样本还是小样本,sas均是同等看待,同等处理,也就是说无论什么方法均可应用于大样本或小样本。,gchart过程,例07009 1999年长沙市某大学100名正常女子总胆固醇(mmol/l)测定结果sasdata07002.txt。 绘制直方图:最小值为2.5,最大值为5.71,我们取组距为0.3,共分为11组。,gchart过程,/* sasprog07009.sas */ data d07009; infile e:sas统计分析sasdatasasdata07002.txt; input x; proc gchart; vbar x/type=freq space=0 width=6 midpoints=2.65 to 5.65 by 0.3; run;,这里的midpoints选项用来指定直方图中各组的组中值,可以是一系列数值的列表,各数值之间以空格分开,也可以是起始值和中止值加间隔数(本例即为此种形式),格式为“ to by ”,还可以是两者相结合的形式。 需要说明的是,levels选项在以midpoints选项指定了组中值的情况下是无效的,因为midpoints选项中已经包含了分组数目的信息。,gchart过程,gchart过程,计数资料的统计描述 计数资料的描述性统计量,最为主要的是相对数,即率、构成比、相对比等。 统计图形表述方式有饼图、百分条图等。 下面我们将例07001的数据转换为计数资料的形式,用以展示计数资料统计描述的sas编程实现方法。,gchart过程,我们假设甘油三酯水平高于1.5者为异常,将160名女子划分为正常和异常两组。 分别计算正常组和异常组占总人数的构成比,并用饼图和百分条图展示构成情况。 引入一个变量g,用以表示样本的分组情况,正常组取值为0,异常组取值为1。 对于计数资料各组构成比或率等统计量的计算,经验上用tabulate过程比较方便。,gchart过程,/* sasprog07010.sas */ data temp; set d07001; i=1; if x1.5 then g=1; proc tabulate; class g; table g*(n pctn); run; proc gchart; pie g/type=freq discrete slice=arrow value=inside; hbar i/type=freq discrete subgroup=g width=8; run; run;,pctn 频数百分比,饼图选项: arrow 标注在外部,以箭头连接 inside 标注在内部 none 不标注 outside 标注在外部,gchart过程,gchart过程,gchart过程,例070011,gchart过程,/* sasprog07011.sas */ data sales; input ry $ fwcs hjcs xssl; cards; a 3 12 28000 b 6 14 33000 c 2 6 8000 a 0 22 0 a 2 19 12000 c 4 8 13000 c 8 7 27000 b 3 16 80000 b 2 14 2000 ;,proc print data=work.sales; title 销售数据; run; proc sort data=work.sales; by ry; run; proc means data=work.sales; var xssl; title 销售人员的平均销售数量; run; proc gchart data=work.sales; vbar xssl/group=ry; title 销售人员的销售数量; run;,gplot过程,gplot过程用于绘制泡状、点状散点图。 proc gplot语句和一条bubble语句或plot语句是必需的,bubble2语句和plot2语句可以和相应的bubble语句或plot语句结合使用。 格式: proc gplot output-catalog; bubble plot-requests; bubble2 plot-requests; plot plot-requests; plot2 plot-requests; run;,gplot过程,plot语句图形指令表达式(plot-requests)的一般形式为: (1) y 轴之变量名* x 轴之变量名 如plot grade*iq; 此格式,图形上的点以英文大写字母表示,a代表1点,b代表2点z代表26点或26个以上的点。 (2) y 轴之变量名* x 轴之变量名=符号 如plot y*x=+; 此格式,图形上所有的点都经用户指定的符号表示。 (3) y 轴之变量名* x 轴之变量名=含符号之变量名称 如plot height*weight=sex; 此格式,图形上的点以含符号的变量值表示。,gplot过程,plot语句的选项(options): vaxis=纵轴的单位 此选项界定纵轴的单位坐标,如 proc plot; plot y*x / vaxis=10 to 100 by 5; 根据这个写法,y 轴上的坐标单位会是10,15,20 . 100 等。 坐标单位的值不一定要以等值累加,如 vaxis=10 100 1000 10000; 根据这样的界定,会得到一个以1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论