




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章 统计数据的标志值计算及其描述5.3 探索性统计分析前面介绍的统计资料描述方法通常是先将统计资料分组处理,然后把分组资料画成各种图分析其分布规律。但这种传统的统计资料处理方法有一定的局限性,容易失去原始资料的真实性。为了克服这一弊端,70年代开始国外已经出现了新的探索性资料分析方法。探索性资料分析特征操作简便,能够准确地描述统计变量分布情况。在这里只介绍最常用的茎叶图和箱线图。5.3.1 箱线图(Boxplot)Q1Q2Q3L0H0平均数箱线图是把第一四分位数,第二四分位数(中位数),第三四分位数,四分位数范围,最大值及最小值画成一个箱子和一条线。将箱子两侧超过四分位数差1.5倍范围内的值用点线(-)连接起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。 Q1Q2Q3(B) 右偏分布Q1Q2Q3(A) 正态分布Q1Q2Q3(C) 左偏分布图5-6 箱线图与分布形状5.3.2 茎叶图(Stem-and-leaf Display)茎叶图将提供统计资料的分布形态、范围、集中程度等情报。利用茎叶图主要有两个优点,首先它既能保留原始资料的真实情报,又能为准确计算平均数等代表值提供方便。特别是对100个以下观测值的频数分布分析非常有用。其次SAS for Windows在统计量的分组中,茎叶图可将统计分组和画直方图一次完成,不会出现重复分组的可能。茎叶图将树茎置于垂直线的左侧,树叶在垂直线的右侧按顺序排列。绘制茎叶图,关键是要设计好树茎,这好比和资料分组时,先确定分组数和每组的组限一样重要。茎叶图是以观测值的间隔为纵坐标(茎),观测值的末尾数字为横坐标(叶),叶的右边数字为相应区间内观测值的个数。观测值的间隔为系统自动给出,当观测值的个数小于30时,数据间隔为10,当大于30时,间隔为5。 Stem Leaf # 9 1 1 8 4 1 7 125 3 6 135689 6 5 2558 4 4 567 3 3 5 1 2 2 1 -+-+-+-+ Multiply Stem.Leaf by 10*+15.4 利用SAS程序计算描述性统计量5.4.1 PROC UNIVARIATE 前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量12) 把描述性统计量也称作基础统计量.)的基本方法(SAS程序),SAS for Windows统计分析的基本形式如下: PROC UNIVARIATE OPTION1; VAR 变量名1 变量名2 变量名n; BY 变量名1 变量名2 变量名n; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT=dsn option2;PROGRAM 解释PROC UNIVARIATE;SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。option1- DATA=dsn:指定分析资料名dsn。- PLOT:探索性分析,作茎叶图和箱线图。在SAS for Windows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由此可知,当观测值的个数n30时,茎叶图的同一个级别的树茎不分杈,当n30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成7074和7579级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。 图(a) 观测值n30 图(b) 观测值n30 Stem Leaf # Boxplot Stem Leaf # Boxplot 9 5 1 | 9 567 3 | (右) 8 0233456 7 +-+ 9 | 7 12234556788 11 *-* 8 56 2 | 6 35 2 | + | 8 22334 5 +-+ 5 1369 4 +-+ 7 556788 6 | | 4 046 3 | 7 12234 5 *-+-* 3 9 1 | 6 5 1 | | 2 2 1 | 6 3 1 | | -+-+-+-+ 5 69 2 +-+ Multiply Stem.Leaf by 10*+1 5 13 2 | 4 6 1 | 4 04 2 | 3 9 1 | 3 | 2 | 2 2 1 | (左) -+-+-+-+ Multiply Stem.Leaf by 10*+1(图5-7) 茎叶图和箱线图与观测值- FREQ:作频数分析表(频数也称作次数)。- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。- NOPRINT:不打印分析结果。以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比如, ;PROC UNIVARIATE DATA=one PLOT FREQ;RUN; VAR 变量名1 变量名2;指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,INPUT x y z; SAS程序中有3个变量。 ;PROC UNIVARIATE PLOT; 作描述性统计分析。VAR x y; 只作x y变量的探索性统计分析。 BY 变量1 变量2;以BY指定的变量为基准,对VAR变量进行统计分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。OUTPUT OUT= dsn option2;OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。一般格式为: OUTPUT OUT= 新dsn 统计量代号=新变量名1 新变量名2;例如,OUTPUT OUT=EXAMPLE MEAN=MEANX MEANY STD=STDX STDY;option2 - N:资料个数 - MEDIAN:中位数- VAR:样本方差 - SUM:观测值的总和()- Q1:第一四分位数(上位四分位数)(25%) - Q3:第三四分位数(75%)- P1:第一百分位数(1%) - P10:第十百分位数(10%)- P90:第九十百分位数(90%) - P95:第九十五百分位数(95%)- P99:第九十九百分位数(99%) - USS:观测值的平方之和()- STDERR:平均数的标准误差() - KURTOSIS:峰度(系数)- PRT:T-统计量的p-值 - NMISS:缺省值的个数- MODE:众数 - MIN:最小值- RANGE:范围(MAX-MIN) - QRANGE:四分位数范围- CSS:离差的平方之和 - T:T-统计量- MEAN:平均数 - MAX:最大值- CV:离散系数(变动系数) - SKEWNESS:偏度系数例5-11: 在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。去年和今年的营业额分别用slast和snow表示。利用此调查资料作PROC UNIVARIATE 统计分析。(把资料直接编入SAS程序)SAS PROGRAM:OPTION PS=60 NODATE; DATA example;INPUT company $ gender $ slast snew ;CARDS;A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50 51 A F 30 40 A F 35 34B M 33 35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47 51 B F 66 70 B F 54 52RUN;PROC UNIVARIATE DATA=example PLOT NORMAL;VAR slast snew; TITLE RESULTS OF PROCEDURES UNIVARIATE;RUN;PROGRAM解释不打印日期(NODATE),每页打印60行(PS=60)。对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。运行结果及解释RESULTS OF PROCEDURES UNIVARIATEUnivariate Procedure Variable=SLAST Moments N 16 Sum Wgts 16 Mean 51.5625 Sum 825 Std Dev 13.7403 Variance 188.7958 Skewness -0.38707 Kurtosis -1.29697 USS 45371 CSS 2831.938 CV 26.64785 Std Mean 3.435075 T:Mean=0 15.01059 Pr|T| 0.0001 Num = 0 16 Num 0 16 Sgn Rank 68 Pr=|S| 0.0001 W:Normal 0.913294 PrW 0.1332 因为slast变量分布的情报和snow变量分布的情报可以作相同的解释,因此,在此省略有关snow变量分布情报的解释。. N是观测值的个数,Sum Wgts是观测值个数的权重之和(16个)。. Mean是算术平均数,Sum是观测值的总和。. Std Dev(standard deviation)是标准差,Variance是方差。. Skewness是分布的偏度系数,Kurtosis是峰度系数。因为偏度系数= -0.387070,所以分布左偏,又因为峰度系数=-1.29697|T| 0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr|T|成立。本题中,因为T=15.101,p值(0.0001)|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。.“Num =0 16 Num0 16”:表示观测值不是零个,而是16个。 Sgn Rank是对平均数为零的假设,检验其分布的符号秩(Signed Rank Test)。是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。所以,资料不服从正态分布时,要作符号秩次检验。本题的符号秩次检验结果,平均数为零的假设不成立。因为Pr(0.0001)|S(68)|不成立。.“W:Normal表示W统计量,PrW 0.1332”表示正态性检验概率;因为观测值数小于50,所以,作了Shapiro-Wilk检验。因为Shapiro-Wilk的p值比通常使用的显著性水准0.05大,因此,采用服从正态分布的假设(和矛盾)。即Pr(0.1332)|T| 0.0001 Range 73 Num = 0 30 Num 0 30 Q3-Q1 24 M(Sign) 15 Pr=|M| 0.0001 Mode 72 Sgn Rank 232.5 Pr=|S| 0.0001 W:Normal 0.918571 PrW 0.0277 Extremes Lowest Obs Highest Obs 22( 1) 83( 26) 39( 2) 84( 27) 40( 3) 85( 28) 44( 4) 86( 29) 46( 5) 95( 30) Stem Leaf # Boxplot 9 5 1 | 8 0233456 7 +-+ 7 12234556788 11 *-* 6 35 2 | + | 5 1369 4 +-+ 4 046 3 | 3 9 1 | 2 2 1 | -+-+-+-+ Multiply Stem.Leaf by 10*+1 Normal Probability Plot 95+ + * | *+* * * | * *+*+ | *+ | +*+ | +*+*+* | +* 25+ * +-+-+-+-+-+-+-+-+-+-+ -2 -1 0 +1 +2 有关考核资料的主要统计数值如下:平均数(Mean)=67.9;中位数(Med)=73.5;众数(Mode)=72;方差(Variance)=293.3;标准差(Std Dev)=17.12701;偏度系数(Skewness)=-0.92899;最大值=95;最小值=22;范围(Range)=95-22=73;第一四分位数(Q1)=56;第三四分位数(Q3)=80;四分位数(Q3-Q1)=24;第90百分位数=84.5;第95百分位数=86;因为偏度系数SK0,所以平均数小于中位数。又因为偏度系数SK=-0.92899小于零,所以资料的分布偏向左侧。 在茎叶图(Stem Leaf)中可以看到,最高分数为95分,最低分数为22分。从茎叶图树页中可以知道,答90分以上的只有1人,答8089分的有7人,答7079分的人最多,有11人。由箱线图(Boxplot)可知,观测值中不存在异常值。由于中央线略偏向第2四分位数Q3,所以分布左偏。Shapiro-Wilk(观测值数小于50)检验结果。检验统计量W:Normal=0.91857。p-值(PrW)=0.0227,比显著性水准0.05小,所以分布服从正态分布的假设不成立,也就是说考核成绩分布不服从正态分布。假设属于前40%的考核成绩为,则可按下面方法近似(当作正态分布计算)。=67.5+(0.2517.09756)=72.2因此,业务考核至少打72.2分,才有可能被提拔为处级干部。5.4.2 PROC MEANS 利用SAS for Windows PROC UNIVARIATE命令,可以计算和分析分布的平均数,标准偏差,离散系数,茎叶图,箱线图,百分位数,四分位数等描述性统计量和探索性统计量,但是PROC UNIVARIATE命令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量不需要分析,这就要求我们有选择性的统计分析。下面介绍PROC MEANS命令。PROC MEANS命令,主要是以提供分布的平均数,-值和显著型概率为核心的,最基本的描述性统计量计算和分析方法。PROC UNIVARIATE命令所提供的统计量和PROC MEANS命令所分析的统计量有许多重复的地方,PROC MEANS命令相对来说比较简单。PROC MEANS命令的基本形式为: PROC MEANS DATA=dsn1 option; VAR 变量名1 变量名2; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT= 新dsn 关键词=新变量名1 新变量名2; BY 变量名1 变量名2;PROGRAM 解释 PROC MEANS DATA=dsn1 option; 分析option 所指定的统计量。DATA=dsn1中,dsn1表示需要分析的SAS DATA set名。如果把DATA set直接编入到程序,则可以省略此命令。Option是统计分析的选择事项,可以指定如下的SAS命令13)OC MEANS option,不能指定PLOT,FROT,NORMAL等命令。但是在PROC UNIVARIATE option,可选用PLOT,FROT,NORMAL等SAS命令。因此需要分析PLOT,FROT,NORMAL等统计量时,必须选用PROC UNIVARIATE命令)MAXDEC=n:n=08之间的整数。n是对计算结果(数字)允许的最大小数点后位数。比如MAXDEC=3,则小数点后只能保留3位数。ALPHA=n:设置计算置信区间的置信水平。若缺省,系统默认ALPHA=0.05。NOPRINT:不打印其分析结果。N:打印观测值数,如果在DATA set中有缺省值,则只打印没有缺省值的观测值数。NMISS:打印各变量的缺省值数(missing value)。MEAN:计算分布的平均数。VAR:计算方差(variance)。STD:计算标准差(Standard deviation)。MAX:计算最大值。MIN:计算最小值。RANGE:范围(max-min)。SUM:计算观测值(Observation)的总和。USS(Uncorrected Sum of Squares):观测值的平方之和()CSS(Corrected Sum of Squares):观测值减去平均数的平方之和()STDERR:标准误差(Standard error)是关于平均的标准偏差14)OC UNIVARIATE中,以Std Meanvy 表示标准误差STDERR)=()CV(Coefficient of Variation):计算分布的离散系数(或称为变动系数)。(标准差/平均数)*100T:计算T-统计量(T-值)。计算检验平均数为零的统计量。PRT:p-值。这是SAS提供的显著性概率,p-值的大小将决定原假设的成立与否。SKEWNESS:分布的偏度。如果偏度=0,则对称分布;若偏度0,则右偏分布。KURTOSIS:峰度。若峰度=3,则正态分布,若峰度3,则尖顶分布;若峰度3,则平顶分布。CLM:计算置信上限和下限。LCLM:置信下限。UCLM:置信上限。VAR 变量名1 变量名2;指定分析对象的变量名,如果不指定分析对象变量,则对所有的变量进行分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。 WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。OUTPUT OUT=新dsn 关键词=新变量名1 新变量名2; 把PROC MEANS的分析结果储存到新的DATA set新dsn名下。PROC MEANS DATA=example;VAR height weight;OUTPUT OUT= example1 mean=mean1 mean2 std=std1 std2; 对变量height weight进行PROC MEANS分析的结果,以example1的新资料名储存起来。并且把分析的height weight变量的平均数mean和标准差std分别储存到mean1,mean2和std1,std2新变量下。BY 变量名1 变量名2;指定基准变量。例5-13:利用PROC MEANS,计算前面销售额例子中的snew和slast变量的观测值数,范围,平均数,方差等统计量。DATA example;INPUT company $ gender $ slast snow ;CARDS;A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50 51 A F 30 40 A F 35 34B M 33 35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47 51 B F 66 70 B F 54 52RUN;PROC MEANS N RANGE MEAN VAR; VAR slast snow; OUTPUT OUT=SALE MEAN=LMEAN NMEAN STDERR=LSD NSD; TITLE STATISTICS BY SLAST SNEW; PROC PRINT DATA=SALE; TITLE OUTPUT OF DATA SET SALE; RUN;PROC SORT DATA=example; BY company gender; PROC MEANS; BY company gender; VAR slast snew; TITLE DESCRIPTIVE STATISTICS BY COMPANY AND GENDER; RUN;SAS PROGRAM 解释分析N RANGE MEAN VAR等统计量。PROC MEANS统计量的储存。slast变量的平均数和标准差分别命名为LMEAN,LSD,变量snow的平均数和标准差分别为NMEAN,NSD,并且把这些新变量(统计量)储存到SALE名下。打印SALE资料(统计量)。把原来example DATA set,以company sex变量为基准重新排列。按重新排列的顺序,运行PROC MEANS命令。运行结果及解释: STATISTICS BY SLAST SNOW Variable N Range Mean Variance SLAST 16 40.0000000 51.5625000 188.7958333 SNEW 16 42.0000000 52.7500000 191.8000000 OUTPUT OF DATA SET SALE OBS _TYPE_ _FREQ_ LMEAN NMEAN LSD NSD 1 0 16 51.5625 52.75 3.43507 3.46230DESCRIPTIVE STATISTICS BY COMPANY AND SEX COMPANY=A gender=FVariable N Mean Std Dev Minimum MaximumSLAST 4 45.5000000 15.1986842 30.0000000 60.0000000SNEW 4 47.7500000 13.1751028 34.0000000 63.0000000 COMPANY=A GENDER=MVariable N Mean Std Dev Minimum MaximumSLAST 4 62.2500000 8.5780728 50.0000000 70.0000000SNEW 4 63.7500000 8.9953692 51.0000000 72.0000000snew和slast变量的N RANGE MEAN VAR等统计量。打印SALE的结果:标准差,平均数,频数等统计量。会社A女职员的统计量:观测值数、平均数、标准差、最小值、最大值。会社A男职员的统计量:观测值数、平均数、标准差、最小值、最大值。例5-14:投资相对风险的分析某企业在过去10年的投资收益率的资料如表2-9。试求:投资方案A,B的平均收益率、风险的大小及离散系数。(表5-9) 投资收益率(%)89909192939495969798投资方案A1211
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高考试题汇编历史专题15世界殖民体系与亚非拉民族独立运动(原卷版)
- 出版物发行保证工期的措施
- 数字化人教版九年级下册数学复习计划
- 水资源环保科技公司简介范文
- 公共安全应急基金领导小组职责
- 消防队传染病防控措施
- 2025年大班第一学期早期阅读计划
- 初三年级体育实践课说课稿集
- 小学数学教师跨学科教学研修计划
- 疫情相关高考英语作文范文实践
- 500kV变电站屋外架构组立吊装工程施工安全技术交底
- 典范英语7-2中英文对照翻译Noisy Neighbours
- (完整版)污水处理站施工方案
- 排尿评估及异常护理
- 硅锰合金的冶炼要点
- 人教版七年级初一数学:期中考试初一数学试卷及答案
- PDCA护理质量持续改进提高护士交接班质量
- 减速机整机检验报告修改版
- 叉车日常检查维护记录
- DID双重差分法
- 《建筑装饰构造》全套教案(完整版)
评论
0/150
提交评论