数据的统计描述_第1页
数据的统计描述_第2页
数据的统计描述_第3页
数据的统计描述_第4页
数据的统计描述_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的统计描述1第1页,共46页,2023年,2月20日,星期五统计描述是对观测数据进行概括、整理,使人们对其规律有个基本了解,也是进一步进行统计推断和分析的基础

第2章数据的统计描述采用相应的统计量和绘制统计图等方式对数据进行整理

SAS系统中的MEANS和UNIVARIATE过程可以实现对数据的统计描述,本章目录2第2页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据平均位置的度量1.均值本章目录3第3页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据平均位置的度量2.中位数其做法是先将这n个数按从小到大的顺序进行排列得到:,中位数是位于中间位置的数。本章目录4第4页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据平均位置的度量3.众数表示观测值中出现次数最多的数值,常用表示本章目录5第5页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据平均位置的度量4.分位数其中表示整数部分,且。分位数表示有100×%个观测值不超过分位数。故又称分位数为第100×个百分位数,中位数即0.5分位数.0.25分位数和0.75分位数分别称为下四分位数和上四分位数,并记为和。本章目录6第6页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据平均位置的度量以上几个统计量中,均值易受极端值的影响,而众数、中位数和分位数受极端值影响较小。因而这些量在实际应用中要区别对待本章目录7第7页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据离散程度的度量1.方差2.标准差3.标准误(均值的标准差)本章目录8第8页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据离散程度的度量4.极差5.四分位距(四分位极差)6.变异系数即:本章目录9第9页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据离散程度的度量方差是度量观测值分散程度的常用统计量,但其量纲与观测值的量纲不同,而标准差、极差及标准误的单位与观测值的量纲相同,而变异系数无量纲,因而便于不同量纲数据的分散性比较通常在正态分布的情况下,我们用统计量均值和方差来描述分布的平均位置和变异程度,而对分布未知或分布不规则的观测数据用统计量中位数和四分位距来度量其位置和变异本章目录10第10页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据分布形状的度量1.偏度2.峰度其中为标准差

本章目录11第11页,共46页,2023年,2月20日,星期五描述性统计量1描述性统计及SAS相关过程设是一组观测数据分布形状的度量一个分布是否对称,可通过计算偏度的值进行判断:若,可认为分布对称;若,则分布右偏(正偏),即均值右侧的数据更分散;若,则分布左偏(负偏),即均值左侧的数据更分散。

峰度是以同方差正态分布为标准,比较两侧极端数据分布情况的指标。正态分布的;若均值两侧极端值数据较多,则峰度为正,此时分布有一厚重的尾巴,且;若均值两侧的极端值较少,则。本章目录12第12页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程可用来对数值变量计算其描述性统计量,该过程除不能给出众数及分位数外,其它描述性统计量均可给出。它可以通过VAR语句指定需要分析的变量,也可通过BY语句,将变量进行分组计算其统计量,在BY组内还可通过CLASS语句进一步分组。此外该过程还可进行T-检验(其检验假设为:)和总体均数的区间估计,同时还可方便地将所分析的结果保存到SAS数据集中,方便以后进一步使用。本章目录13第13页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明1.格式PROCMEANS[选择项];

VAR变量表;

BY变量表;

CLASS变量表;

FREQ变量表;

WEIGHT变量;

ID变量表;

OUTPUTOUT=SAS数据集统计量关键词=变量名表必需的语句可选择语句本章目录14第14页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

选择项

DATA=SAS数据集名,指明进行分析的数据集名,其缺省值为最近建立的SAS数据集。NOPRINT不打印任何描述性统计量。此选项多用在将描述性统计量输出到SAS数据集时。缺省时的规定输出描述统计量,即PRINT选项。MAXDEC=n指定输出结果小数部分的最大位数,n的取值范围为0~8,缺省值为n=2ALPHA=α值,指定显著性水平α的值。VARDEF=除数指定计算方差所用的除数。除数可以用以下关键字表示:

1.DF用自由度(N-1)做除数,这是缺省设置。

2.N用观测数做除数。

3.WEIGHT|WGT用权重和做除数。

4.WDF用权重和减1做除数。本章目录15第15页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

选择项

统计量用关键词表示:

N、mean、std、min、max、Nmiss、range、sum、var、uss、css、cv、stderr、t、prt、sumwgt、skewness、krutosis、clm、lclm、uclm等,其中前五个统计量为缺省时的值.要得到这些统计量,只需给出相关的关键词即可.这此关键词亦可用于OUTPUT语句中。clm是计算置信上限和下限;lclm计算置信下限;uclm计算置信上限。本章目录16第16页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

VAR变量表

规定要进行计算的数值变量及顺序。该语句缺省时,除由BY、CLASS、FREQ和WEIGHT指定的变量外,其余的数值变量均进行计算。BY变量表根据BY后指定的变量表形成多个观测组,然后对每组分别计算相应的统计量,不过在使用该语句之前,应对BY后面指定的变量表进行过排序。本章目录17第17页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

CLASS变量表此语句的作用与BY语句类似,其不同之处是它不要求事先对CLASS的变量表进行排序,且在输出时,按CLASS变量的不同取值,以单页输出。FREQ变量指定其后的变量代表的是频数,此语句当数据集是频数表资料时才使用。用ID后面指定的变量表的值来标识输出的观测。ID变量表本章目录18第18页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

指定其后的变量代表权重。该变量的值应大于零,若某值小于零或缺失,则取该值为0。WEIGHT变量例如,设变量X,其一组观测值为,用WEIGHT语句规定权重变量为W,相应的值为,(),则加权均值和加权方差为:,其中除数由任选项VARDEF=确定。本章目录19第19页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

该语句将结果输出到某SAS数据集,其中OUT=SAS数据集指明将结果保存的数据集,若要创建永久数据集则要用两级命名。统计量关键词见选择项中的说明OUTPUTOUT=SAS数据集统计量关键词=变量名表本章目录20第20页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明2.语句说明

规定统计量并命名的形式有以下三种:OUTPUTOUT=SAS数据集统计量关键词=变量名表关键词=;或关键词(变量表)=;表示输出的数据集中计算由关键词指定的统计量,其名字仍为原变量名。前者要计算的变量和顺序由VAR语句指定,而后者则由关键词括号中的变量表指定。关键词=名字列表;表示输出的统计量的名字为等号右边的名字列表指定,计算的变量和顺序也是由VAR语句指定。关键词(变量表)=名字列表;这结合前面两者的优点,既可控制要计算的变量及顺序,也可按自已的要求给计算的统计量取名字。本章目录21第21页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明3.例子

对120个炉钢中的SI含量进行检验,得数据如下:0.860.780.830.840.770.840.810.840.810.810.800.810.790.740.820.780.820.780.810.800.810.740.870.780.820.750.780.790.800.850.810.780.870.740.810.710.770.880.780.820.770.760.780.850.770.730.770.780.770.810.710.790.950.770.780.780.810.810.790.870.800.830.770.650.760.640.820.780.800.750.820.820.840.800.790.800.900.770.820.810.790.750.820.830.790.900.860.800.760.850.780.810.830.770.750.780.820.820.780.840.730.850.830.840.810.820.810.850.830.840.890.820.810.850.860.840.820.780.820.78给出这组数据的描述统计量,样本均值,样本方差,标准差,标准误差,极差,变异系数,偏度系数,峰度系数等本章目录22第22页,共46页,2023年,2月20日,星期五MEANS过程1描述性统计及SAS相关过程MEANS过程的格式及语句说明3.例子

datastat;inputx@@;cards;0.860.780.830.840.770.840.810.840.810.810.800.810.790.740.820.780.820.780.810.800.810.740.870.780.820.750.780.790.800.850.810.780.870.740.810.710.770.880.780.820.770.760.780.850.770.730.770.780.770.810.710.790.950.770.780.780.810.810.790.870.800.830.770.650.760.640.820.780.800.750.820.820.840.800.790.800.900.770.820.810.790.750.820.830.790.900.860.800.760.850.780.810.830.770.750.780.820.820.780.840.730.850.830.840.810.820.810.850.830.840.890.820.810.850.860.840.820.780.820.78;procmeansdata=statmeanvarstdstderrrangecvskewnesskurtosis;varx;run;演示本章目录23第23页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程UNIVARIATE过程与MEANS过程一样,能计算各种描述统计量,但它的功能比MEANS过程还要强大,除了可完成MEANS过程的基本统计量的计算外,还能计算众数和分位数,生成频率表,以及进行正态性检验和绘制正态概率图、茎叶图和盒形图等方面的功能(关于这部分的功能下章再说明)。本章目录24第24页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明1.格式PROCUNIVARIATE[选择项];VAR变量表;BY变量表;FREQ变量;WEIGHT变量;ID变量表;OUTPUTOUT=输出数据集统计量关键词=变量名表

必需的语句可选语句本章目录25第25页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明选择项常用的几个选项如下:DATA=数据集给出要计算的目标数据集NOPRINT要求不在OUTPUT窗中输出.PLOT给出三种图形:茎叶图、盒式图、正态概率图。FREQ给出频数分布表,表中包括变量值、频数、百分数、累计百分数等项;NORMAL进行正态性检验,检验的原假设是:数据来自正态总体。VARDEF=DF|WGT|N|WDF规定计算方差的除数本章目录26第26页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句OUTPUT语句建立包括UNIVARIATE过程分析结果的输出数据集,其格式与MEANS过程的格式相同,但该语句必须与VAR语句联用。本章目录27第27页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(1)系统给出的统计关键词

N、NOBS、NMISS、MEAN、STDERR、SUM、STD、VAR、CV、USS、CSS、MAX、MIN、RANGE、SKEWNESS、KURTOSIS、SUMWGT、MODE、T、PRT。本章目录28第28页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(1)系统给出的统计关键词

百分位数关键字:

Q3上四分位数(第75百分位数)Q1下四分位数(第25百分位数)

QRANGEQ3-Q1四分位距MEDIAN中位数(第50百分位数)

P1第1百分位数P5第5百分位数

P10第10百分位数P90第90百分位数

P95第95百分位数P99第99百分位数本章目录29第29页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(1)系统给出的统计关键词

其它:SIGNRANK符号秩统计量PROBS大于中心的符号统计量的绝对值的概率MSIGN符号统计量PROBM大于符号秩统计量的绝对值的概率NORMAL正态检验统计量(W、Prob<W或D、Prob>D)。PROBN检验数据来自正态分布假设的概率值。本章目录30第30页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(2)自定义分位数的选项PCTLPTS=百分位数值表如PCTLPTS=5566.7即要求计算第55、和第66.7百分位数。若不指定这2个百分位数的变量名,则系统会自动地给出其变量名分别为55、和66_7。小数点用“_"代替,若指定的百分位数有两位小数,给出的变量名截成一位PCTLNAME=后缀名列表给出要输出的百分位数变量名的后缀

PCTLPRE=前缀名列表给出要输出的百分位数变量名的字头本章目录31第31页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(2)自定义分位数的选项自定义的百分位数的名字由定义的变量前缀和后缀确定或缺省名连接起来形成。以上三项常联合起来使用,其效果见下例:PROCUNIVARIATE;

VARXYZ;OUTPUTOUT=TESTOUTPCTLPTS=5566.7PCTLPRE=ABCPCTLNAME=P55P66_7;

run;本章目录32第32页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明2.语句说明OUTPUT语句下面列出其统计关键词(2)自定义分位数的选项此例中要求给出由VAR语句中规定的三个变量X,Y,Z的第55%和66.7%百分位数,则在输出数据集中产生的变量AP55AP66_7表示X的第55和66.7百分位数;变量BP55,BP66_7表示Y的第55和66.7百分位数;变量CP55CP66_7表示Z的第5566.7百分位数。本章目录33第33页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子例数据同上例,下面我们用UNIVARIATE过程给出另外的几个描述性统计量,中位数,众数,上四分位数,下四分位数,四分位距procunivariatedata=stat;varx;run;本章目录34第34页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子输出结果为:UnivariateProcedureVariable=X

Moments

(I)N 120 SumWgts 120Mean 0.80275 Sum 96.33StdDev 0.044777 Variance 0.002005Skewness -0.33182 Kurtosis 2.287141USS 77.5675 CSS 0.238593CV 5.57795 StdMean 0.004088T:Mean=0 196.3885 Pr>|T| 0.0001Num^=0 120 Num>0 120M(Sign) 60 Pr>=|M| 0.0001SgnRank 3630 Pr>=|S| 0.0001本章目录35第35页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子输出结果为:

Quantiles(Def=5)(II)

100%Max0.9599%0.975%Q30.8395%0.8750%Med0.8190%0.8525%Q10.7810%0.750%Min0.645%0.7351%0.65

极差0.31Q3-Q10.05

众数0.78本章目录36第36页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子输出结果为:

Extremes(III)

LowestObsHighestObs0.64(66)0.88(38)0.65(64)0.89(111)0.71(51)0.9(77)0.71(36)0.9(86)0.73(101)0.95(53)本章目录37第37页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子N:观测的个数 SumWgts:观测的加权和Mean:均值 Sum:观测值的总和StdDev:标准差 Variance:方差Skewness:偏度 Kurtosis:峰度USS:观测值平方和 CSS:离均差平方和CV:变异系数 StdMean:标准误差(即均值的标准差)T:Mean=0:均值为0的假设下的T值 Pr>|T|:大于T绝对值的概率Num^=0:非零观测的个数 Num>0:观测值中大于零的个数M(Sign):中位数为0的假设下符号统计量M的值

Pr>=|M|:不小于M绝对值的概率SgnRank:中位数为0的假设下符号秩和统计量S的值

Pr>=|S|:不小于S绝对值的概率。*W:Normal:正态性检验统计量W的值 Pr<W:小于W值的概率。本章目录38第38页,共46页,2023年,2月20日,星期五univariate过程1描述性统计及SAS相关过程Univariate过程的格式及语句说明3.例子上面的程序利用UNIVARIATE过程的缺省输出,结果需要在输出项中寻找才行,下面的程序直接将结果保存到SAS数据集中。procunivariatedata=statnoprint;varx;outputout=result1mode=xmodmedian=xmedQ3=xq3Q1=xq1QRANGE=xq31;procprintdata=result1;run;结果为:

XQ3XMEDXQ1XQ31XMOD0.830.810.780.050.78示范本章目录39第39页,共46页,2023年,2月20日,星期五图形具有形象直观的特点,因此用适当的图形将数据的特征展示出来,是非常有意义的。常用频率直方图和累计频率直方图来表示概率密度函数和分布函数;对数据用茎叶图和盒形图来进行探索分析等。

2

数据的图形概括本章目录40第40页,共46页,2023年,2月20日,星期五1概率密度函数及分布函数的图形表示(CHART、GCHART过程)

2

数据的图形概括设是取自总体的样本,总体的概率密度函数为,将的取值范围等分为个区间,用表示区间的长度,用表示落入第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论