数据分析方法第一章_第1页
数据分析方法第一章_第2页
数据分析方法第一章_第3页
数据分析方法第一章_第4页
数据分析方法第一章_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析方法第一章第1页,课件共111页,创作于2023年2月1.1.1表示位置的数字特征1.1.2表示分散性的数字特征1.1.3表示分布形状的数字特征1.1一维数据的数字特征设有一维数据:x1,x2,……,xn是研究对象的样本观测值,数据分析的任务是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主要信息或特征——数字特征:数据的集中位置、分散程度、数据分布的形状特征等等。2第2页,课件共111页,创作于2023年2月1.1.1表示位置的数字特征(统计量)

如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。

1.均值(Mean):是所有观测值的平均值,是描述数据取值中心位置的一个度量:均值能够概括反映所有各项数据的平均水平。有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏抗扰性(稳健性)——易受异常值的影响而使其值有较大变化。3第3页,课件共111页,创作于2023年2月设x1,...,xn是n个观测值,它们的次序统计量为x(1),x(2),…,x(n),即

x(1)≤x(2)≤…≤x(n)x(1)为最小次序统计量,x(n)为最大次序统计量,4第4页,课件共111页,创作于2023年2月2.中位数(Median或Med)表示一组数据按照大小的顺序排列时中间位置的数值中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有稳健性。计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算5第5页,课件共111页,创作于2023年2月3.分位数(Percentile)根据变量值由小到大的顺序排列分割成若干等分,其分界位置上的各个数值实际上是一种分割值。分位数也是描述数据分布和位置的统计量。对0≤p≤1,数据x1,...,xn的p分位数是0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3=M0.75和Q1=M0.25。4.三均值

各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性6第6页,课件共111页,创作于2023年2月设数据是总体X的样本,总体的分布函数是F(x),设总体的均值为μ=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计:设总体分布F(x)是连续分布,0<p<1,称满足的ξp为总体分布F(x)的p分位数,当总体p分位数为唯一的情况时,在一定条件下,样本的p分位数Mp是总体分位数ξp相合估计,即当n充分大时,ξp≈Mp7第7页,课件共111页,创作于2023年2月1.1.2表示分散性的数字特征1.方差(Variance或Var):是由各观测值到均值距离的平方和除以观测量组数减1,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;方差的开方称为标准差(Standarddeviation或StdDev):

标准差的量纲与原变量一致。8第8页,课件共111页,创作于2023年2月变异系数(CoefficientofVariation或CV):是将标准差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的,无量纲量:变异系数的值越大,说明数据集中相对于均值的变化就越大。2.极差(Range)与半极差(Interquartilerange)

极差就是数据中的最大值和最小值之间的差:极差=x(n)-x(1)=max{xi}–min{xi}上、下四分位数之差R3=Q3

–Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况,具有抗扰性——稳健性;极差有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。9第9页,课件共111页,创作于2023年2月设数据是总体X的样本,则数据的方差s2、标准差s、变异系数CV分别是总体方差σ2=Var(X)、总体标准差σ、总体变异系数r=σ/μ的相合估计:即当样本容量n充分大时,有σ2≈s2,σ≈s,r≈CV正态总体N(μ,σ2)的上、下四位数分别为

ξ0.75=μ+0.6745σ,ξ0.25=μ-0.6745σ

总体的四分位极差为r1=ξ0.75-ξ0.25=1.349σ,则有

σ=r1/1.349总体标准差σ的一个抗扰性的估计——四分位数标准差:10第10页,课件共111页,创作于2023年2月3.上、下截断点:用来判断异常值的简便方法:

Q3+1.5R1,Q1-1.5R1大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。总体为正态分布N(μ,σ2)时,上、下截断点分别为

ξ0.75+1.5r1

=μ-2.698σ,ξ0.25-

1.5r1

=μ-2.698σ数据落在上、下截断点之外的概率为0.00698,即对容量n较大的数据,异常值的比率约为0.0069811第11页,课件共111页,创作于2023年2月1.1.3表示数据分布形状的统计量

偏度和峰度是描述数据分布形状的指标。1.偏度(skewness):偏度是刻画数据对称性的指标。偏度的计算公式为:关于均值对称的数据其偏度为g1=0;左侧更为分散的数据,其偏度为负(g1<0),称为左偏;右侧更为分散的数据,其偏度为正(g1>0),称为右偏。12第12页,课件共111页,创作于2023年2月2.峰度kurtosis:峰度描述数据向分布尾端散布的趋势

利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若1近似于标准正态分布,则峰度接近于零;2尾部较正态分布更分散,则峰度为正,称为轻尾;3尾部较正态分布更集中,则峰度为负,称为厚尾。13第13页,课件共111页,创作于2023年2月14第14页,课件共111页,创作于2023年2月

设x1,...,xn是总体X的样本,μ3、μ4分别表示总体X的3、4阶中心矩,即

μ3=E(X-μ)

3,μ4=E(X-μ)3其中μ=E(X),则

总体偏度为:G1=μ3/σ3总体峰度为:G2=(μ4/σ4)-3且数据的偏度g1和峰度g2分别是总体偏度G1和总体峰度G2的相合估计,即当n充分大时,有

G1

≈g1,G2

≈g2总体偏度是度量总体分布是否偏向某一侧的指标;总体峰度是以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同15第15页,课件共111页,创作于2023年2月在SAS中计算一维数据的数字特征1PROCMEANS过程2PROCUNIVARIATE过程16第16页,课件共111页,创作于2023年2月1.MEANS过程(1)MEANS过程的一般格式:PROCMEANS[选择项][统计量关键字列表]];VAR变量表; 要分析的变量名列BY变量表;按变量名列分组统计,要求数据集已按变量名列排序CLASS变量表;按变量名列分组统计,不要求数据集排序FREQ变量表; 表明该变量为分析变量的频数WEIGHT变量表;

表明分析变量在统计时要按该变量权重ID变量表;

输出时加上该变量作为索引OUTPUTOUT=数据集[统计关键字=变量名…];

指定统计量的输出数据集名关键字=<新变量名列>...];

指定统计量对应的新变量名

17第17页,课件共111页,创作于2023年2月二、选择项说明

DATA=SAS数据集

将计算出的统计量输出到一个数据集。所有PROCMEANS语句中可用统计量均可在此指定。NOPRINT

说明不输出任何描述性统计值。MAXDEC=n

指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。FW=nn为输出统计量时的字段宽度,缺省值为12。VARDEF=N|DF|WGT|WDF指定方差计算所用的分母。

N表示观察值的总数;

WGT表示权重和WDF表示权重和减1;

DF表示自由度N-1MISSING

指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。统计量

用来指定进行计算的描述性统计量。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。18第18页,课件共111页,创作于2023年2月三、MEANS过程中常用的统计量关键字有:

l

基本统计量NMEANSTDCVSUMVARRANGMINMAXUSSCSSl

与假设检验有关的统计量STDERR(标准误)TPRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限)四、PROCMEANS过程中的其他语句l

VAR语句:列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。l

BY语句:指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序)

19第19页,课件共111页,创作于2023年2月

可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数range极差nmiss缺失数据记录数skewness偏度mean均值kurtosis峰度std标准差t分布位置假设检验之t统计量stderr标准误probt上述t统计量对应的概率值var方差q1第一四分位数median中位数q3第三四分位数mode众数qrange四分位数间距cv变异系数p1第一百分位数max最大值p5第五百分位数min最小值p10第十百分位数sum总计p90第九十百分位数sumwgt加权值总计p95第九十五百分位数css校正平方和p99第九十九百分位数uss未校正平方和20第20页,课件共111页,创作于2023年2月(3)使用CLASS语句和BY语句

使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是:

●使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。●使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。21第21页,课件共111页,创作于2023年2月使用BY语句之前先排序,如下代码可以在上例中按变量R_Id分组统计:procsortdata=mylib.sryzc;byR_Id;run;procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;

varIncome;byR_Id;run;22第22页,课件共111页,创作于2023年2月

使用CLASS语句分组较为简单,如下代码也可以在上例中按变量R_Id分组统计:procmeansdata=mylib.sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIncome;classR_Id;RUN;23第23页,课件共111页,创作于2023年2月lFREQ语句:指定某一变量,表示同一观察的出现次数。lOUTPUTOUT=数据集:将MEANS过程的结果输出给指定的数据集中。八、缺失数据处理1.VAR变量:MEANS过程在开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。2.变量:若观察在BY变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算分析。24第24页,课件共111页,创作于2023年2月3.UNIVARIATE过程

UNIVARIATE过程与MEANS的功能大同小异,他们都可以可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等统计量。而且UNIVARIATE过程中具有绘图功能。其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)

25第25页,课件共111页,创作于2023年2月UNIVARIATE过程的一般格式为:PROCUNIVARIATE选择项;VAR变量表;

指定要分析的变量名列BY变量表;

按变量名列分组统计,要求数据集已按该变量名列排序FREQ变量;

表明该变量为分析变量的频数WEIGHT变量;

表明分析变量在统计时要按该变量权重ID变量表;

输出时加上该变量作为索引OUTPUTOUT=SAS数据集关键字=名称;

指定统计量的输出数据集名关键字=<新变量名列>...

指定统计量对应的新变量名PCTLPTS=<百分位数,...

指定需要的百分位数>PCTLPRE=<新变量名列>];

指定所需百分位数对应的输出变量名

26第26页,课件共111页,创作于2023年2月二、选择项说明DATA=数据集

该选择项指定PROCUNIVARIATE使用的SAS数据集。缺省值为最新建立的数据集。NOPRINT

指定抑制产生报表。PLOT

指定给出三幅数据图:茎叶图(或水平棒图)、盒状图和正态概率图。FREQ

该选择项给出变量值、频数、百分数、累计百分数组成的频数表。27第27页,课件共111页,创作于2023年2月NORMAL

指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。正态检验:

若在过程中指定NORMAL选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于2000时,计算Shapiro-Wilk统计量W,W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显著水平由Royston近似正态变换获得;当样本量大于2000时,计算Kolomogorov统计量。

W值越大越表示数据来自正态分布。Pr<W给出了概率(0≤P≤1)值P,P值越接近0,则表示越拒绝数据来自正态分布的假设。

28第28页,课件共111页,创作于2023年2月PCDLDEF=1|2|3|4|5

指定计算百分位数的方法。缺省此项,则PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF

指定计算方差时的分母。DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。缺省值为VARDEF=DF。ROUND=舍入单位。

29第29页,课件共111页,创作于2023年2月三、过程中常用的统计量关键字SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:基本统计量

NMEANSTD(标准误)CVSUMVAR(方差)RANG等百分位数描述

MINP1P5P10Q1MEDIANQ3P90P95P99MAX

与假设检验有关的统计量STDMEAN(标准误)T30第30页,课件共111页,创作于2023年2月

输出包括五个部分。第一部分是矩统计量,各统计量已在前面作了介绍。第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。31第31页,课件共111页,创作于2023年2月dataexamp1_1;inputx@@;cards;74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;例1.132第32页,课件共111页,创作于2023年2月procunivariatedata=examp1_1noprint;varx;outputout=outmean=meanmedian=medianQ1=Q1Q3=Q3p99=p99p95=p95p90=p90p10=p10p5=p5p1=p1;procprintdata=out;run;dataa;setout;Q=0.25*Q1+0.25*Q3+0.5*Median;run;procprintdata=a;varQ;*只输出Q;没有输出所有的arun;33第33页,课件共111页,创作于2023年2月procunivariatedata=examp1_1noprint;varx;Outputout=outmean=meanMedian=MedianQ1=Q1Q3=Q3p99=p99p95=p95p90=p90p10=p10p5=p5p1=p1var=varstd=stdcv=cvQRANGE=QRANGE;procprintdata=out;run;例1.234第34页,课件共111页,创作于2023年2月dataa;setout;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE;U=Q3+1.5*QRANGE;sigma=QRANGE/1.349;run;procprintdata=a;run;datab;setexamp1_1;if64.3<=x<82.7thendelete;run;procprintdata=b;run;35第35页,课件共111页,创作于2023年2月procunivariatedata=examp1_3noprint;varxx1x2x3;outputout=out

mean=mean1mean2mean3mean4var=var1var2var3var4std=std1std2std3std4Median=M1M2M3M4

RANGE=RANGE1RANGE2RANGE3RANGE4Q1=Q11Q12Q13Q14Q3=Q31Q32Q33Q34QRANGE=QRANGE1QRANGE2QRANGE3QRANGE4Skewness=SKEWNSS1SKEWNSS2SKEWNSS3SKEWNSS4KURTOSIS=KURTOSIS1KURTOSIS2KURTOSIS3KURTOSIS4;procprintdata=out;例1.336第36页,课件共111页,创作于2023年2月dataa;setout;Q111=0.25*Q11+0.25*Q31+0.5*M1;Q112=0.25*Q12+0.25*Q32+0.5*M2;Q113=0.25*Q13+0.25*Q33+0.5*M3;Q114=0.25*Q14+0.25*Q34+0.5*M4;D1=Q11-1.5*QRANGE1;U1=Q31+1.5*QRANGE1;D2=Q12-1.5*QRANGE2;U2=Q32+1.5*QRANGE2;D3=Q13-1.5*QRANGE3;U3=Q33+1.5*QRANGE3;D4=Q14-1.5*QRANGE4;U4=Q34+1.5*QRANGE4;run;procprintdata=a;varQ111Q112Q113Q114D1D2D3D4U1U2U3U4;run;37第37页,课件共111页,创作于2023年2月小结本次课主要学习了表征一维数据位置、分散性和分布形状等的数字特征以及SAS求数字特征的PROCMEANS过程与PROCUNIVARIATE过程38第38页,课件共111页,创作于2023年2月1.2数据的分布数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,必须研究数据的分布,数据分布的主要描述方法是:1.2.1直方图、经验分布函数和QQ图1.2.2茎叶图1.2.3数据的分布拟合检验与正态性检验39第39页,课件共111页,创作于2023年2月1.2.1直方图、经验分布函数和QQ图1.直方图对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率/组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度——频率/组距。40第40页,课件共111页,创作于2023年2月例某工厂生产一种零件,由于生产过程中各种随机因素的影响,零件长度不尽相同。现测得该厂生产的100个零件长度(单位:mm)如下:频率直方图作法129,132,136,145,140,145,147,142,138,144,147,142,137,144,144,134,149,142,137,137,155,128,143,144,148,139,143,142,135,142,148,137,142,144,141,149,132,134,145,132,140,142,130,145,148,143,148,135,136,152,141,146,138,131,138,136,144,142,142,137,141,134,142,133,153,143,145,140,137,142,150,141,139,139,150,139,137,139,140,143,149,136,142,134,146,145,130,136,140,134,142,142,135,131,136,139,137,144,141,136.这100个数据中,最小值是128,最大值是155。12815541第41页,课件共111页,创作于2023年2月作频率直方图的步骤(1).先确定作图区间[a,b];a=最小数据-ε/2,b=最大数据+ε/2,ε

是数据的精度。本例中

ε

=1,a=127.5,b=155.5。(2).确定数据分组数m=[1.87×(n−1)2/5+1],组距d=(b−a)/m,子区间端点ti=a+id,i=0,1,···,m;42第42页,课件共111页,创作于2023年2月(3).计算落入各子区间内观测值频数

ni

=#{

xj

∈[ti−1,ti),j=1,2,···,n},频率fi=ni/n,i=1,2,···,m;子区间频数ni

频率fi

(127.5,131.5)60.06(131.5,135.5)120.12(135.5,139.5)240.24(139.5,143.5)280.28(143.5,147.5)180.18(147.5,151.5)80.08(151.5,155.5)40.0443第43页,课件共111页,创作于2023年2月(4).以小区间

[ti-1,ti]为底,yi=fi/d

(i=1,2,

…,m)为高作一系列小矩形,组成了频率直方图,简称直方图。44第44页,课件共111页,创作于2023年2月密度直方图与频数直方图SAS软件利用proccapability过程会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。

45第45页,课件共111页,创作于2023年2月

直方图是阶梯形,而常用的概率密度曲线是光滑曲线;参数分布拟合就是在限定的参数分布类中利用数据估计其中参数,用估计的参数所对应的密度曲线去拟合直方图边缘的形态。SAS有如下常用参数分布类型:正态分布:

对数正态分布:

指数分布:

46第46页,课件共111页,创作于2023年2月

Gamma分布:

Weibull分布:

Beta分布:

47第47页,课件共111页,创作于2023年2月2经验分布函数

直方图较适合总体分布为连续型的,对一般总体,通常用经验分布函数估计其总体分布函数F(x),设x1,...,xn是总体的样本,其经验分布函数是经验分布函数Fn(x)是非降右连续的阶梯函数,是总体分布函数F(x)的相合估计,即当n充分大时:Fn(x)≈F(x)。SAS软件利用proccapability可以做出Fn(x)与拟合的总体分布函数的图形其中I(·)是示性函数即48第48页,课件共111页,创作于2023年2月3.QQ图

直方图与经验分布函数图难于从图上判断样本分布是否近似于某种类型的分布,QQ图却能。以正态分布为例说明QQ图的做法:

设x1,...,xn是总体的样本,其次序统计量为x(1),x(2),…,x(n),Φ(x)是标准正态分布函数,Φ-1(x)是其反函数,其QQ图是由以下点构成的散点图:其中横坐标是(i-0.375)/(n+0.25)的分位数,0.375和0.25是修正量。若样本数据近似于正态分布,在QQ图上近似的在直线y=σx+μ上,此直线的斜率为标准差σ,截距是均值μ。

49第49页,课件共111页,创作于2023年2月

其它的分布,也有相应的QQ图,其中散点的横坐标是该分布的对应的分位数,可以判断数据是否近似服从该类型的分布;利用QQ图还可以获得样本的偏度与峰度的有关信息,当数据不是来处正态总体时,QQ图的散点图是弯曲的,并可根据图像的弯曲的某些特点判断偏度或峰度的正负。50第50页,课件共111页,创作于2023年2月4散点图通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图。这种图称为散点图(ScatterPlot)。

51第51页,课件共111页,创作于2023年2月5.线图线图(LinePlot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。

52第52页,课件共111页,创作于2023年2月SAS的Proccapability过程:不但具有univariate的分析功能,且能做直方图、拟合参数概率密度、作经验分布曲线及拟合的分布曲线、作QQ图等。基本语句:Proccapability

options;Histogramvariables/options;Cdfplotvariables/options;QQplotvariables/options;1)Proccapability

options可包括以下选项:DATA=SAS数据集

指定所分析与作直方图的SAS数据集名称;Graphics:

指明作高分辨率图形,缺省时将输出由字符构成的低高分辨率图形Noprint:取消与univariate过程相同的有关描述性统计的输出53第53页,课件共111页,创作于2023年2月Histogramvariables/options;*作直方图对指定的变量variables作直方图,options可以是:Midpoins=values:设置分组区间的中点值,可以逐个列出(等间隔);也可以用“Midpoins=aTObBYc”方式指定,其中a和b分别为各区间中点的初值和终值,c为步长。缺省时,系统自动根据数据确定各区间中点值。Vscale=scale:规定直方图在每个区间上柱的高度标准,其中scale可以是:Count,Percent,Proportion,分别表示每个区间上柱高为数据个数、数据个数占整个数据量的百分比和比例。缺省时,为Percent.Normal(或Lognormal,Gamma,Weibull,Beta,Exponential):要求在直方图上拟合指定的分布的概率密度函数曲线,可以同时列出一种或多种分布,其中的参数系统将自动用其极大似然估计值代替,也可在分布名称后加括号予以指定:54第54页,课件共111页,创作于2023年2月各分布密度中的参数σ均用“Sigma=value”来指定;Normal分布中的均值用“MU=value”指定;Gamma分布中的参数α用“Alpha=value”指定;Weibull分布中的参数c用“C=value”指定;Beta分布中的参数α、β用“Alpha=valueBeta=value”指定;其中上面的所有的“value”可用“EST”代替,表示用其极大似然估计值代替相应参数。如:

Normal(MU=ESTSigma=1)Lognormal(Sigma=3)Beta(Alpha=1.5Beta=2)此过程还对所拟合的分布自动输出第1章所述的几种分布拟合检验(χ2检验,Kolmogorov-Smirnov检验,Anderson-Darling检验,CramervonMises检验)的统计量的值和检验p值。55第55页,课件共111页,创作于2023年2月另外,除正态分布外,其他分布均是单侧的,一般需要指定门限参数θ的值,也可在分布名称后的括号内加“Theta=value”指定,如“Weibull(Theta=valueC=2)”,其中value比数据的最小值还要小,若不指定则自动设为“Theta=0”,同时Beta分布中的参数α、β的和要大于相应变量的观测值的最大值56第56页,课件共111页,创作于2023年2月Cdfplotvariables/options;作经验分布函数曲线及拟合的分布函数曲线;其中options是前述的6种分布QQplot

variables/options;作QQ图Options指定作QQ图的分布名称也是前述6种分布;作QQ图时:Lognormal必须在其后括号内至少写上“Sigma=value”或“Sigma=SET”;Gamma分布和Weibull分布要写上“Alpha=value或SET”及“C=value或SET”;Beta分布要写上“Alpha=value或SETBeta=value或SET”。57第57页,课件共111页,创作于2023年2月例1.4dataexamp1_4;inputx@@;cards;74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;58第58页,课件共111页,创作于2023年2月例1.4proccapabilitydata

=examp1_4graphics

noprint;histogram

x/normal(mu=est

sigma=est)

vscale=proportion;cdfplot/normal(mu=estsigma=est);qqplotx/normal(mu=estsigma

=est);run;59第59页,课件共111页,创作于2023年2月PLOT与GPLOT过程可用于描绘散点分布图,以直观地显示数据的变化趋势及数据间的相关关系等。DATAD3;DOX=0TO360BY20;Y=SIN(X*3.14159/180);OUTPUT;END;PROCPLOT;PLOTY*X;RUN;60第60页,课件共111页,创作于2023年2月

PlotofY*X.Legend:A=1obs,B=2obs,etc.1+AA|AA|AAY||AA|0+AAA||AA||AA|AA-1+AA---+---------+---------+---------+---------+--0100200300400X61第61页,课件共111页,创作于2023年2月通过PLOT过程提供的其它语句和选择项可对散点图作出如下更加具体的要求:l

可以根据用户的要求选择散点图的作图符号;

l可以用变量值加标签。l

可以选择坐标的刻度、间隔及标记;l可以选择图的大小;可在一页纸上画两个以上图。l

两个散布图可以重叠在一张图上。l可绘制等值线图(或称轮廓图,层次图等)。l可对图沿水平方向或垂直方向进行扩展.62第62页,课件共111页,创作于2023年2月PLOT语句说明

在PLOT过程中可使用下列语句:

PROCPLOT

[options];

BY

变量表;.*可选语句

PLOT

yvariable*xvariable=‘symbol’…/options;

[选择项](1)data=sasdataset:指出作图用的数据集,缺省时,以最新的数据集作图;(2)Vpercent=percent或Vpct=percent:规定该过程产生的散点图在垂直方向占一页的比例,如“Vpct=33”表示让procplot过程在每一页作3张图,每张图占一页的1/3;(3)Hpercent=percent或hpct=percent:规定各图在水平方向上占一页的比例;63第63页,课件共111页,创作于2023年2月PLOT

yvariable*xvariable=‘symbol’…/options;

说明作图变量,点表示的符号及坐标刻度规定等,其中yvariable*xvariable指出作图的数据集中变量的名称,中间用*连接;

symbol指出散点的表示符号,如*,+等,缺省时用A,B等;plot后可依次列出多组变量,如“PlotX1*Y1X1*Y2X2*Y1”等;斜杠后的options可以省略也可以是以下内容(1)Haxis或Vaxis=atobbyn:定义横坐标或纵坐标上的刻度;(2)Overlay:将PLOT后的几对变量所形成的散点图做在同一坐标系内,如“PlotX1*Y1=‘F’X1*Y2=‘T’”;(3)Box:要求将图做在一个矩形框内。

64第64页,课件共111页,创作于2023年2月应用举例例8.4.3某一地区有12个采样点,测得某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。程序如下:DATADD;INPUTCODBOD@@;CARDS;1112.3154.51560.2210.3899.5133.6800.4110.21443.2180.81555.5201.4700.4103.5456.390.71433.2177.71421.5171.01600.3221.5560.880.9PROCPLOT;PLOTCOD*BOD;RUN;65第65页,课件共111页,创作于2023年2月

2000+|||A1500+AAA|AACOD||A1000+|A|AA|500+AA---+-------+-------+-------+-------+-------+-------+-------+-------+--8010012014016018020022024066第66页,课件共111页,创作于2023年2月GPLOT语句说明

在GPLOT过程中可使用下列语句:

PROCGPLOT

[options];

PLOT

yvariable*xvariable…/options;Symbol

options;PROCGPLOT[选择项]主要指出作图用的数据集。PLOT

yvariable*xvariable…/options;与前面的基本相同,只是options除指坐标轴的刻度外,还可用“Caxis=color”指定坐标轴的颜色,其中color可以是“red,blue,green,yellow”等;Symboloptions;主要用来定义绘图的符号、颜色、是否连线及线条的粗细:67第67页,课件共111页,创作于2023年2月(1)Value或V=symbol:定义点的表示符号,symbol可以是:plut(+)square,dot,point,star,diamond,triangle,circle等。(2)I=interpolation:确定散点之间连线的形状:interpolation:join(用直线连接);spline(用光滑线连接);needl(从数据点向水平轴画垂线);none(不画线);缺省时为none(3)C=color:指定点或线的颜色(4)W或Width=n:确定连线的粗细,缺省时为1。

68第68页,课件共111页,创作于2023年2月应用举例例8.4.3某一地区有12个采样点,测得某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。程序如下:DATADD;INPUTCODBOD@@;CARDS;1112.3154.51560.2210.3899.5133.6800.4110.21443.2180.81555.5201.4700.4103.5456.390.71433.2177.71421.5171.01600.3221.5560.880.9PROCGPLOTdata=DD;PLOTCOD*BOD;Symbolvalue=dotI=splineC=redW=2;RUN;69第69页,课件共111页,创作于2023年2月1.2.2茎叶图茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图的三列数茎叶图有三列数:左边的一列表示茎,也就是变化不大的位数,从小到大;右边的一列数为统计数(某行数据频数),它是上(或下)向中心累积的值,中心的数表示最多数组的个数;中间的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。70第70页,课件共111页,创作于2023年2月

茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转9O度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。茎叶图的特征1、用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。2、茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。71第71页,课件共111页,创作于2023年2月PROCUNIVARIATE过程:PROCUNIVARIATEdata=

SASdataset

Plot;Var

variables;Run;

例1.6Dataexamp1_6;

….*此处同例1.1PROCUNIVARIATEdata=

examp1_6

Plot;Var

x;Run;72第72页,课件共111页,创作于2023年2月

StemLeaf频数

843183828126638035537955537808884772263765555555775000000046888881474333333337973555555555551172000000077777771471222247034444444869777368008885672333356665002643173第73页,课件共111页,创作于2023年2月1.2.3数据的分布拟合检验与正态性检验对直方图配的概率曲线,对经验分布函数配的总体分布函数曲线,是不是合适?需要统计检验!分布拟合检验用于检验样本观测值是否来自某种给定类型分布的总体正态性检验用于检验样本观测值是否来自正态分布的总体74第74页,课件共111页,创作于2023年2月1χ2检验法:对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。即χ2检验的用途(1)适合性检验(吻合度检验)是指对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。75第75页,课件共111页,创作于2023年2月(2)独立性检验:是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。(3)同质性检验:在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行χ2检验。

χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。实际观测值与理论推算值之间的偏离程度决定其χ2值的大小。理论值与实际值之间偏差越大,χ2值就越大,越不符合;偏差越小,χ2值就越小,越趋于符合;若两值完全相等时,χ2值就为0,表明理论值完全符合。76第76页,课件共111页,创作于2023年2月基本步骤

1.提出假设H0:F(x)≡F0(x)H1:F(x)≠F0(x)2.计算检验统计量:将实轴分为l个区间,分点满足-∞=a0<a1<a2<…al-1<al=+∞得l个区间(a0,a1],…(al-2,al-1],(al-1,al).设pi原假设H0为真时,服从F0(x)的随机变量取值于第i个区间(ai-1,ai]的概率,即:

pi=F0(ai)-F0(ai-1),i=2,3,…,l-1,p1=F0(a0),pl=F0(al)再利用如下公式计算χ2统计量:其中n是样本观测数据的容量,mi与npi分别为样本观测值落入第i组的频数与其理论频数;设k是F0(x)中待估参数的个数,则当样本容量n充分大时且原假设为真时,统计量近似服从自由度为l-k-1的χ2分布,即

χ2~χ2(l-k-1)77第77页,课件共111页,创作于2023年2月基本步骤

3.给出显著水平α:一般确定为0.05或0.014.进行统计推断:设样本算得的χ2的观测值是χ02,则当χ02>χ2α(l-k-1)时,拒绝H0;当χ02≤χ2α(l-k-1)时,不能拒绝H0.78第78页,课件共111页,创作于2023年2月

但在SAS在统计软件中,假设检验的结果通常以检验p值的方式输出,即:一个检验p值是检验统计量在H0下取其更极端值的概率。如上的χ2检验,检验p值为

p=PH0(χ2≥χ02)=PH0(χ2(l-k-1)≥χ02)对给定的显著水平α,检验准则为:当p<α时,拒绝H0;当p≥α时,不能拒绝H0.79第79页,课件共111页,创作于2023年2月经验分布拟合检验方法经验分布函数Fn(x)是总体分布函数F(x)的估计对于假设H0:F(x)≡F0(x)H1:F(x)≠F0(x),经验分布函数Fn(x)与原假设中的总体分布函数F0(x)之间的差异是经验分布拟合检验方法的出发点。

检验统计量应是Fn(x)与F0(x)这两个函数之间的“距离”——定义不同,检验的统计量也不同,通常采用以下统计量:

80第80页,课件共111页,创作于2023年2月1Kolmogorov-Smirnov统计量

2Anderson-Darling统计量3Cramer-vonMises统计量81第81页,课件共111页,创作于2023年2月当原假设H0为真时,这些统计量应取较小的值;否则,各统计量均有变大的趋势。设x1,...,xn是总体的样本观测值,求得的上述统计量观测值分别为:D0,A02,W02,则其检验p值分别为:

p1=PH0(D≥D0),p2=PH0(A2≥A02),p3=PH0(W2≥W02),对给定的显著水平α,检验准则为:当pi<α时,拒绝H0;当pi≥α时,不能拒绝H0.i=1,2,3SAS的proccapability过程可以输出前面两类检验的p值

82第82页,课件共111页,创作于2023年2月

3正态性W检验方法

计算步骤:1.计算统计量W:设x1,...,xn是总体的样本观测值,其次序统计量为x(1),x(2),…,x(n),计算d1=x(n)-x(1)d2=x(n-1)-x(2)…di=x(n-i+1)-x(i)将di与ai相乘并求和得计算W统计量:满足0<W≤183第83页,课件共111页,创作于2023年2月

2.提出假设H0:

F(x)是正态分布函数

H1:

F(x)不是正态分布函数3.检验:假设H0为真时,W接近1,W值过小拒绝H0

。因而其检验p值为

p=PH0(W<=W0),其中W0是步骤1计算所得的值,对给定的显著水平α,检验准则为:

当p<α时,拒绝H0;当p≥α时,不能拒绝H0.Procunivariatedata=sasdatasetnormal;能直接计算出W值与p值。输出以“Pr<W”表示84第84页,课件共111页,创作于2023年2月例1.7,续例1.1procunivariatedata=examp1_7normal;run;*以“Pr<W”形式输出正态性W检验proccapabilitydata=examp1_7noprintgraphics;histogramx/normal;run;*以“Pr>Chi-Sq”形式输出χ2检验统计量*以“Pr>D”形式输出Kolmogorov-Smirnov统计量*以“Pr>A-Sq”形式输出Anderson-Darling统计量*以“Pr>W-Sq”形式输出Cramer-vonMises统计量85第85页,课件共111页,创作于2023年2月例1.8,续例1.5procunivariatedata=examp1_7normal;run;*以“Pr<W”形式输出正态性W检验proccapabilitydata=examp1_8graphicsnoprint;histogramx/weibullvscale=proportion;run;datadelmin;setexamp1_8;ifx=25thendelete;run;proccapabilitydata=delmingraphicsnoprint;histogramx/weibullvscale=proportion;cdfplotx/weibull;run;86第86页,课件共111页,创作于2023年2月小结本次课主要学习了直方图、经验分布函数、QQ图和茎叶图的实际意义与做法;数据的分布拟合检验与正态性检验方法;SAS的Proccapability过程及PLOT与GPLOT过程87第87页,课件共111页,创作于2023年2月1.3多维数据的数字特征及相关分析1.3.1二维数据的数字特征及相关系数1.3.2多维数据的数字特征及相关矩阵1.3.3总体的数字特征、相关矩阵及多维正态分布88第88页,课件共111页,创作于2023年2月在医学上,许多现象之间都存在着相互联系,例如身高与体重、体温与脉搏、年龄与血压、钉螺与血吸虫感染等。而有些事物的关系是互为因果的,如上述钉螺是因,感染血吸虫是果;但有时因果不清,只是伴随关系。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。相关性分析的有关概念89第89页,课件共111页,创作于2023年2月相关是解决客观事物或现象相互关系密切程度的问题回归则是用函数的形式表示出因果关系。有相关不一定因果关系;反之,有因果关系的,一定有相关。我们称“因”的变量叫因变量,习惯上用Y表示。以横轴代表自变量X,纵轴代表依变量Y,可以将一群观察事物的两种关系在坐标图上以P(X,Y)的方法定位,作出一群散点图,便可在图上看出两者的关系。相关分析和回归分析是研究现象之间相关关系的两种基本方法。所谓相关分析,就是用一个指标来表明现象间关系相互依存的密切程度。90第90页,课件共111页,创作于2023年2月直线相关分析介绍设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。各观测点落在一条线上。自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关关系。91第91页,课件共111页,创作于2023年2月直线相关分析介绍与函数关系不同,相关变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有无数个,各观测点分布在直线周围。按相关程度划分可分为完全相关、不完全相关、和不相关:不相关如果变量间彼此的数量变化互相独立,则其关系为不相关,即没有任何相关关系。自变量x变动时,因变量y的数值不随之相应变动。92第92页,课件共111页,创作于2023年2月不完全相关如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象正相关和负相关正相关:两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。负相关:两个变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。93第93页,课件共111页,创作于2023年2月线形相关和非线形相关直线相关(或线性相关):当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线相关。曲线(或非线性)相关。在两个相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论