数据分析方法第一章_第1页
数据分析方法第一章_第2页
数据分析方法第一章_第3页
数据分析方法第一章_第4页
数据分析方法第一章_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第一章 概述n1.1 一维数据的数字特征一维数据的数字特征n1.2 数据的分布数据的分布n1.3 多维数据的数字特征与相关分析多维数据的数字特征与相关分析2第一章 概述n1.1 一维数据的数字特征一维数据的数字特征n设有一维数据:设有一维数据:x1, x2, xn是研究对象的样本观测是研究对象的样本观测值,数据分析的值,数据分析的任务任务是对样本观测值进行分析,提取是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做数据中所包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主要信息或特出推断;首先用某些简单的量概括它的主要信息或特征征数字特征:数字

2、特征:数据的集中位置、分散程度、数据数据的集中位置、分散程度、数据分布的形状特征分布的形状特征等等。等等。3第一章 概述nxxxnxnnii111n均值能够概括反映所有各项数据的均值能够概括反映所有各项数据的平均水平平均水平。n有许多的优良的统计性质,但当数据中存在有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏异常值时,它则缺乏抗扰性抗扰性( (稳健性稳健性) )易受异常易受异常值的影响而使其值有较大变化。值的影响而使其值有较大变化。4第一章 概述inininixxxx1)(1)1(max,min5第一章 概述为偶数为奇数中位数nxxnxnnn )(21 )12()2()21(6第一

3、章 概述n0.50.5分位数就是中位数,分位数就是中位数,0.750.75分位数和分位数和0.250.25分位数分位数又分别称为上、下四分位数,并分别记为又分别称为上、下四分位数,并分别记为QQ3 3=M=M0.750.75和和QQ1 1 =M =M0.250.25 。是整数不是整数npxxnpxMnpnpnpp , )(21 , )1()()1(x4. 4. 三均值三均值 31412141QMQMn各数字特征从不同侧重点反映了数据的位置特征,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以

4、考察数据的对称性中位数与各分位数可以考察数据的对称性7第一章 概述x设总体分布设总体分布F(x)是连续分布是连续分布,0p1,称满足称满足的的p为总体分布为总体分布F(x)的的p分位数,分位数,当总体当总体p分位数为分位数为唯一的情况时,在一定条件下,样本的唯一的情况时,在一定条件下,样本的p分位数分位数M p是总体分位数是总体分位数p相合估计,即当相合估计,即当n充分大时,充分大时,p M p pFp)(8第一章 概述1)(.)()(11221122nxxxxxxnsnniiniixxnss122)(119第一章 概述(%)100 xsCV2. 极差(极差(Range)与半极差()与半极差(

5、Interquartile range) 极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差= x(n) - x(1) = maxxi minxi上、下四分位数之差上、下四分位数之差R R3 3=Q=Q3 3 Q Q1 1称为称为四分位极差或四分位极差或半极差半极差,它描述了中间半数观测值的散布情况,具,它描述了中间半数观测值的散布情况,具有有抗扰性抗扰性稳健性稳健性; ;极差有许多特殊的应用,如质极差有许多特殊的应用,如质量控制图中的极差图,提供证券市场行情等。量控制图中的极差图,提供证券市场行情等。10第一章 概述 总体标准差总体标准差的一个抗扰性的估

6、计的一个抗扰性的估计四分位数四分位数标准差:标准差:349. 11R11第一章 概述12第一章 概述niisxxnnng131)()2)(1(13第一章 概述)3)(2() 1(3)()3)(2)(1() 1(214nnnsxxnnnnnKnii14第一章 概述15第一章 概述16第一章 概述17第一章 概述18第一章 概述19第一章 概述四、四、PROC MEANS过程中的其他语句过程中的其他语句 l l VAR语句:语句:列入变量表的数据集变量将被列入变量表的数据集变量将被MEANS过过程分析、若无次句,则计算输入数据集中除程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FR

7、EQ、WEIGHT语句中的变量之外的所有变语句中的变量之外的所有变量的统计量。量的统计量。 l l BY语句:语句:指定变量进行分组处理。(事先必须按指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序)语句指定的变量将输入数据集按升序排序) 20第一章 概述21第一章 概述22第一章 概述23第一章 概述24第一章 概述八、缺失数据处理八、缺失数据处理 1VAR变量:变量:MEANS过程在开始计算某一变过程在开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。被删除的观察若在其它变量上没数据的观察删除。被

8、删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。有缺失数据,则会纳入其它变量的计算过程中。 2变量:变量:若观察在若观察在BY变量上有缺失数据,则变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样过程会为这些观察另形成一个分组,同样进行计算分析。进行计算分析。25第一章 概述26第一章 概述27第一章 概述28第一章 概述29第一章 概述30第一章 概述31第一章 概述32第一章 概述例例1.133第一章 概述34第一章 概述例例1.235第一章 概述36第一章 概述例例1.337第一章 概述38第一章 概述39第一章 概述40第一章 概述41第一章 概述例

9、例 某工厂生产一种零件,由于生产过程中各种某工厂生产一种零件,由于生产过程中各种随机因素的影响,零件长度不尽相同。现测得随机因素的影响,零件长度不尽相同。现测得该厂生产的该厂生产的100个零件长度个零件长度(单位单位: mm)如下如下:频率直方图作法频率直方图作法129, 132, 136, 145, 140, 145, 147, 142, 138, 144, 147, 142, 137, 144, 144, 134, 149, 142, 137, 137, 155, 128, 143, 144, 148, 139, 143, 142, 135, 142,148, 137, 142, 144,

10、 141, 149, 132, 134, 145, 132, 140, 142, 130, 145, 148, 143, 148, 135, 136, 152, 141, 146, 138, 131, 138, 136, 144, 142, 142, 137,141, 134, 142, 133, 153, 143, 145, 140, 137, 142, 150, 141, 139, 139, 150, 139, 137, 139, 140, 143, 149, 136, 142, 134, 146, 145, 130, 136, 140, 134,142, 142, 135, 131, 1

11、36, 139, 137, 144, 141, 136.这这100个数据中,最小值是个数据中,最小值是128,最大值是,最大值是155。12815542第一章 概述作频率直方图的步作频率直方图的步骤骤(1). 先确定作图区间先确定作图区间 a, b ;a = 最小数据最小数据- -/ 2,b = 最大数据最大数据+/ 2, 是数据的精度。是数据的精度。本例中本例中 = 1, a = 127.5, b = 155.5 。(2). 确定数据分组数确定数据分组数 m = 1.87(n1)2/5 + 1, 组距组距 d = (b a) / m, 子区间端点子区间端点 ti = a + i d, i =

12、 0, 1, , m;43第一章 概述(3). 计算落入各子区间内观测值频数计算落入各子区间内观测值频数 ni = # xj ti1, ti), j = 1, 2, , n, 频率频率 fi = ni / n, i = 1, 2, , m;44第一章 概述(4).(4). 以小区间以小区间 ti-1,ti 为底,为底,yi=fi / d ( i=1, 2, , m) 为高作一系列小矩形,组成了频为高作一系列小矩形,组成了频 率直方图,简称率直方图,简称直方图直方图。45第一章 概述 46第一章 概述 直方图是直方图是阶梯形阶梯形,而常用的概率密度曲线是,而常用的概率密度曲线是光滑曲线光滑曲线;

13、参数分布拟合就是在限定的参数分布类中参数分布拟合就是在限定的参数分布类中利用数据估计利用数据估计其中参数其中参数,用估计的参数所对应的密度曲线去用估计的参数所对应的密度曲线去拟合直方拟合直方图边缘的形态图边缘的形态。SASSAS有如下常用参数分布类型:有如下常用参数分布类型:正态分布正态分布: : 222)(exp21)(xxf对数正态分布对数正态分布: : ., 0,2)(log(exp)(21)(22xxxxxf指数分布指数分布: : ., 0,)(exp1)(xxxxf47第一章 概述 GammaGamma分布分布: : WeibullWeibull分布分布: : BetaBeta分布分

14、布: : ., 0,),()()()(111其他xBxxxf., 0,exp)(1)(1xxxxxf., 0,exp1)(1xxxxxfcc48第一章 概述 直方图较适合总体分布为直方图较适合总体分布为连续型的连续型的,对一般总体,通,对一般总体,通常用经验分布函数估计其总体分布函数常用经验分布函数估计其总体分布函数F(x),设,设x1,.,xn是总体的样本,其经验分布函数是是总体的样本,其经验分布函数是niinxxInxF1)(1)( 经验分布函数经验分布函数Fn(x)是是非降右连续的阶梯函数非降右连续的阶梯函数,是,是总体分布函数总体分布函数F(x)的相合估计的相合估计,即即当当n充分大时

15、充分大时: Fn (x) F(x)。SAS软件利用软件利用proc capability可以做出可以做出Fn (x)与拟合的总体分布函数的图形与拟合的总体分布函数的图形., 0, 1)(xxxxxxIiii其中其中I()是示性函数即是示性函数即49第一章 概述 直方图与经验分布函数图难于从图上判断样本分布直方图与经验分布函数图难于从图上判断样本分布是否近似于某种类型的分布,是否近似于某种类型的分布,QQQQ图却能。以正态分图却能。以正态分布为例说明布为例说明QQQQ图的做法:图的做法: 设设x1,.,xn是总体的样本,其次序统计量为是总体的样本,其次序统计量为x(1), x(2), x(n),

16、 (x)是标准正态分布函数是标准正态分布函数, -1(x) 是其反是其反函数,其函数,其QQ图是由以下点构成的散点图:图是由以下点构成的散点图:其中横坐标是其中横坐标是(i-0.375)/(n+0.25)的分位数,的分位数,0.375和和0.25是修正量。若样本数据近似于正态分布,在是修正量。若样本数据近似于正态分布,在QQ图上图上近似的在近似的在直线直线y=x+上,此直线的斜率为标准差上,此直线的斜率为标准差,截距是均值截距是均值。 nixnii, 2 , 1,25. 0375. 0)(150第一章 概述 其它的分布,也有相应的其它的分布,也有相应的QQ图,其中图,其中散点的横坐散点的横坐标

17、是该分布的对应的分位数,标是该分布的对应的分位数,可以判断数据是否近似可以判断数据是否近似服从该类型的分布;服从该类型的分布; 利用利用QQ图还可以获得样本的偏度与峰度的有关信图还可以获得样本的偏度与峰度的有关信息,当数据不是来处正态总体时,息,当数据不是来处正态总体时,QQ图的散点图是图的散点图是弯曲的,并可根据图像的弯曲的某些特点判断偏度或弯曲的,并可根据图像的弯曲的某些特点判断偏度或峰度的正负。峰度的正负。51第一章 概述 52第一章 概述 53第一章 概述54第一章 概述55第一章 概述56第一章 概述57第一章 概述58第一章 概述data examp1_4;input x ;car

18、ds;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.

19、5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;59第一章 概述proc capability data =examp1_4 graphics noprint;histogram x/normal(mu=est sigma=est) vscale =propo

20、rtion;cdfplot/normal(mu=est sigma =est);qqplot x/normal(mu=est sigma =est);run;60第一章 概述61第一章 概述 62第一章 概述63第一章 概述选择项选择项(1)data=sasdataset:指出作图用的数据指出作图用的数据集,缺省时,以最新的数据集作图集,缺省时,以最新的数据集作图;(2)Vpercent=percent或或Vpct=percent:规定该过规定该过程产生的散点图在垂直方向占一页的比例,如程产生的散点图在垂直方向占一页的比例,如“Vpct=33”表示让表示让proc plot过程在每一页作过程在

21、每一页作3张张图,每张图占一页的图,每张图占一页的1/3; (3)Hpercent=percent或或hpct=percent:规定各图规定各图在水平方向上占一页的比例在水平方向上占一页的比例;64第一章 概述 说明作图变量,点表示的符号及坐标刻度规说明作图变量,点表示的符号及坐标刻度规定等,其中定等,其中yvariable*xvariable指出作图的数据指出作图的数据集中变量的名称,中间用集中变量的名称,中间用*连接;连接; symbol指出散点的表示符号,如指出散点的表示符号,如*,+等,缺等,缺省时用省时用A,B等;等;plot后可依次列出多组变量,后可依次列出多组变量,如如“Plot

22、 X1*Y1 X1*Y2 X2*Y1”等;等; 斜杠后的斜杠后的options可以省略也可以是以下内容可以省略也可以是以下内容 (1)Haxis或或Vaxis=a to b by n:定义横坐标或纵坐定义横坐标或纵坐标上的刻度;标上的刻度;(2)Overlay:将将PLOT后的几对变后的几对变量所形成的散点图做在同一坐标系内,如量所形成的散点图做在同一坐标系内,如“Plot X1*Y1=F X1*Y2=T ”;(3)Box:要求将要求将图做在一个矩形框内。图做在一个矩形框内。 65第一章 概述66第一章 概述67第一章 概述PROC GPLOT选择项选择项主要指出作图用的数据集。主要指出作图用

23、的数据集。PLOT yvariable*xvariable/options;与前面的基本相与前面的基本相同,只是同,只是options除指坐标轴的刻度外,还可用除指坐标轴的刻度外,还可用“Caxis=color”指定坐标轴的颜色,其中指定坐标轴的颜色,其中color可以是可以是“red,blue,green,yellow”等;等;Symbol options;主要用来定义绘图的符号、颜色、是主要用来定义绘图的符号、颜色、是否连线及线条的粗细:否连线及线条的粗细:68第一章 概述(2)I=interpolation:确定散点之间连线的形状确定散点之间连线的形状: interpolation:jo

24、in(用直线连接用直线连接);spline(用光滑线用光滑线连接连接); needl(从数据点向水平轴画垂线从数据点向水平轴画垂线); none(不不画线画线);缺省时为;缺省时为none(3)C=color:指定点或线的颜色指定点或线的颜色(4)W或或Width=n:确定连线的粗细,缺省时为确定连线的粗细,缺省时为1。 69第一章 概述70第一章 概述茎叶图的三列数茎叶图的三列数茎叶图有三列数:左边的一列表示茎,茎叶图有三列数:左边的一列表示茎,也就是变化不大的也就是变化不大的位数,从小到大;位数,从小到大;右边的一列数为统计数(某行数据频右边的一列数为统计数(某行数据频数),数),它是上(

25、或下)向中心累积的值,中心的数表示最它是上(或下)向中心累积的值,中心的数表示最多数组的个数;多数组的个数;中间的是数组中的变化位中间的是数组中的变化位,它是按照一定,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。抽出的叶子一样,所以人们形象地叫它茎叶图。71第一章 概述茎叶图的特征茎叶图的特征 1 1、用茎叶图表示数据有、用茎叶图表示数据有两个优点:一是两个优点:一是从统计图上从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶没有原始数据信息的损失,所有数据信息都可以从茎叶图中

26、得到;图中得到;二是二是茎叶图中的数据可以随时记录,随时添茎叶图中的数据可以随时记录,随时添加,方便记录与表示。加,方便记录与表示。 2 2、茎叶图只便于、茎叶图只便于表示两位有效数字表示两位有效数字的数据,而且茎的数据,而且茎叶图只方便记录叶图只方便记录两组的数据两组的数据,两个以上的数据虽然能够,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。记录,但是没有表示两个记录那么直观、清晰。72第一章 概述73第一章 概述74第一章 概述 对直方图配的概率曲线,对经验分布函对直方图配的概率曲线,对经验分布函数配的总体分布函数曲线,是不是合适?数配的总体分布函数曲线,是不是合适?需

27、要统计检验!需要统计检验! 分布拟合检验分布拟合检验用于检验样本观测值是否用于检验样本观测值是否来自某种给定类型分布的总体来自某种给定类型分布的总体 正态性检验正态性检验用于检验样本观测值是否来用于检验样本观测值是否来自正态分布的总体自正态分布的总体75第一章 概述2检验的用途检验的用途(1)适合性检验(吻合度检验)适合性检验(吻合度检验)是指对样本的理论数先是指对样本的理论数先通过一定的理论分布推算出来,然后用通过一定的理论分布推算出来,然后用与与相比较,从而得出实际观测值与理论数之间是相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。否吻合。因此又叫吻合度检验。. , )

28、( : , )( : , , 1021的一种方法的分布函数不是总体的分布函数为总体假设来检验关于总体分布的根据样本的情况下这是在总体的分布未知xFXHxFXHXXXn76第一章 概述 2检验检验就是统计样本的就是统计样本的实际观测值实际观测值与与理论推算值理论推算值之间的偏离程度。之间的偏离程度。实际观测值与理论推算值之间的偏离程度决定其实际观测值与理论推算值之间的偏离程度决定其2 2值的大小。理论值与实际值之间值的大小。理论值与实际值之间偏差越大偏差越大, 2 2值值就越大,就越大,越不符合;偏差越小越不符合;偏差越小,2 2值就越小,值就越小,越趋于越趋于符合;若两值完全相等时符合;若两值

29、完全相等时, 2 2值就为值就为0 0,表明理论值,表明理论值完全符合。完全符合。77第一章 概述 1.1.提出假设提出假设H H0 0:F(x)F:F(x)F0 0(x) H(x) H1 1:F(x)F:F(x)F0 0(x)(x)2.2.计算检验统计量:计算检验统计量:将实轴分为将实轴分为l个区间,分点满足个区间,分点满足 -=a-=a0 0aa1 1aa2 2aal-1-1a 2( (l-k-1) )时,时, 拒绝拒绝H H0 0; 当当022( (l-k-1) )时,时, 不能拒绝不能拒绝H H0 0. .2( )n79第一章 概述 但在但在SAS在统计软件中,假设检验的结果通常以检验

30、在统计软件中,假设检验的结果通常以检验p值的方式输出,即:一个检验值的方式输出,即:一个检验p值是检验统计量在值是检验统计量在H H0 0下下取其更极端值的概率。如上的取其更极端值的概率。如上的2检验,检验检验,检验p值为值为 p=PH H0 0( (2 02)= PH H0 0( (2(l-k-1 ) 02)对对给定的显著水平给定的显著水平,检验准则为:,检验准则为: 当当p 时,时, 拒绝拒绝H H0 0; 当当p时,时, 不能拒绝不能拒绝H H0 0. .定义定义 假设检验的假设检验的p p值(值(probability valueprobability value)是由检)是由检验统计

31、量的样本观测值得出的原假设可被拒绝的最小验统计量的样本观测值得出的原假设可被拒绝的最小显著性水平显著性水平80第一章 概述0H0H81第一章 概述 82第一章 概述 2 Anderson-Darling统计量统计量3 Cramer-von Mises统计量统计量| )()(|sup0 xFxFDnx)()(1)()()(0100202xdFxFxFxFxFnAn)()()(0202xdFxFxFnWn83第一章 概述 84第一章 概述 计算步骤:计算步骤:1. 1.计算统计量计算统计量W:设设x1,.,xn是总体是总体的样本观测值,其次序的样本观测值,其次序统计量为统计量为x(1), x(2)

32、, x(n),计算计算 d1= x(n)- x(1) d2= x(n-1)- x(2)di= x(n-i+1)- x(i)将将di与与ai相乘并求和得相乘并求和得计算计算W统计量:满足统计量:满足0W1kiiidab1niixxbW122)(n12-112niknnik 当 是偶数时,;当 是奇数时,85第一章 概述 2.2.提出假设提出假设H H0 0: : F(x)是正态分布函数是正态分布函数 H H1 1: : F(x)不是正态分布函数不是正态分布函数3.3.检验:检验:假设假设H H0 0为真时,为真时,W接近接近1,W值过小拒绝值过小拒绝H H0 0 。因而其检验因而其检验p值为值为

33、 p=PH H0 0( (W= W0 0),其中其中W0 0是步骤是步骤1计算所得的值,对计算所得的值,对给定的显著水平给定的显著水平,检验准则为:检验准则为: 当当p 时,时, 拒绝拒绝H H0 0; 当当p时,时, 不能拒绝不能拒绝H H0 0. .Proc univariate data=sasdataset normal; Proc univariate data=sasdataset normal; 能直接能直接计算出计算出W值与值与p值值。输出以。输出以“PrW”表示表示86第一章 概述proc univariate data=examp1_7 normal;run; * *以以“

34、PrChi-Sq”形式输出形式输出2检验统计检验统计量量* *以以“PrD”形式输出形式输出Kolmogorov-Smirnov统计统计量量* *以以“PrA-Sq”形式输出形式输出Anderson-Darling统计统计量量* *以以“PrW-Sq”形式输出形式输出Cramer-von Mises统计统计量量87第一章 概述proc univariate data=examp1_7 normal;run; * *以以“PrW”形式输出正态性形式输出正态性W W检验检验proc capability data=examp1_8 graphics noprint;histogram x/weib

35、ull vscale=proportion;run;data delmin;set examp1_8;if x=25 then delete;run;proc capability data=delmin graphics noprint;histogram x/weibull vscale=proportion;cdfplot x/weibull;run;88第一章 概述小结小结 本次课主要学习了直方图、经验分布函数、本次课主要学习了直方图、经验分布函数、QQ图和茎叶图的实际意义与做法;数据的分图和茎叶图的实际意义与做法;数据的分布拟合检验与正态性检验方法;布拟合检验与正态性检验方法; SA

36、S的的Proc capability过程及过程及PLOT与与GPLOT过程过程89第一章 概述90第一章 概述v在医学上,许多现象之间都存在着相互联系,在医学上,许多现象之间都存在着相互联系,例如身高与体重、体温与脉搏、年龄与血压、例如身高与体重、体温与脉搏、年龄与血压、钉螺与血吸虫感染等。而有些事物的关系是钉螺与血吸虫感染等。而有些事物的关系是互互为因果的为因果的,如上述钉螺是因,感染血吸虫是果;,如上述钉螺是因,感染血吸虫是果;但有时因果不清,只是但有时因果不清,只是伴随关系伴随关系。例如父母的。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、兄弟,兄高,弟也可能高,但不能说兄是因、弟是

37、果,这里不是因果关系,而可能与社会条弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。件、家庭经济、营养、遗传等因素有关。v相关性分析的有关概念相关性分析的有关概念91第一章 概述92第一章 概述v设有两个变量设有两个变量x和和y,变量,变量y随变量随变量x一起变化,一起变化,并完全依赖于并完全依赖于x,当变量,当变量x取某个数值时,取某个数值时,y依确依确定的关系取相应的值,则称定的关系取相应的值,则称y是是x的函数的函数,记为,记为 y = f(x),其中),其中x称为自变量,称为自变量,y称为因变量。称为因变量。各各观测点落在一条线上。观测点落在一条线上。v自变

38、量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。当一。当一个或几个相互联系的变量取一定数值时,与之相个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关规律在一定的范围内变化,变量间的这种相互关系,称为系,称为具有不确定性的相关关系具有不确定性的相关关系。93第一章 概述v与函数关系不同,相关变量间关系不能用函数与函数关系不同,相关变量间关系不能用函数关系精确表达,一个变量的取值

39、不能由另一个变关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量量唯一确定,当变量x取某个值时,变量取某个值时,变量y的取值的取值可能有无数个,各观测点分布在直线周围。可能有无数个,各观测点分布在直线周围。v按相关程度划分可分为完全相关、不完全相关、按相关程度划分可分为完全相关、不完全相关、和不相关:和不相关:不相关不相关v如果变量间彼此的数量变化互相独立,则其如果变量间彼此的数量变化互相独立,则其关系为不相关,即关系为不相关,即没有任何相关关系没有任何相关关系。自变量。自变量x变动时,因变量变动时,因变量y的数值不随之相应变动。的数值不随之相应变动。94第一章 概述v如果变量间的关

40、系介于不相关和完全相关之间,则如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象是统计研究的主要对象正相关和负相关正相关和负相关v正相关:正相关:两个变量之间的两个变量之间的变化方向一致变化方向一致,都是呈增,都是呈增长或下降的趋势。即自变量长或下降的趋势。即自变量x的值增加(或减少),因的值增加(或减少),因变量变量y的值也相应地增加(或减少),这样的关系就是的值也相应地增加(或减少),这样的关系就是正相关。正相关。v负相关:负相关:两个变量之间两个变量之间变化方向相反变化方向相反,即自

41、变量的,即自变量的数值增大(或减小),因变量随之减小(或增大)。数值增大(或减小),因变量随之减小(或增大)。95第一章 概述v直线相关(或线性相关)直线相关(或线性相关):当相关关系的自变:当相关关系的自变量量x x发生变动,因变量发生变动,因变量y y值随之发生大致均等的值随之发生大致均等的变动,从图像上近似地表现为变动,从图像上近似地表现为直线形式直线形式,这种,这种相关通称为直线相关。相关通称为直线相关。v曲线(或非线性)相关曲线(或非线性)相关。在两个相关现象中,。在两个相关现象中,自变量自变量x x值发生变动,因变量值发生变动,因变量y y也随之发生变动,也随之发生变动,这种变动不

42、是均等的,在图像上的分布是各种这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等表现为抛物线、双曲线、指数曲线等非直线形非直线形式式。 96第一章 概述v单相关单相关:两个因素之间的相关关系叫单相关,:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。即研究时只涉及一个自变量和一个因变量。v复相关:复相关:三个或三个以上因素的相关关系叫三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个

43、以上的自变复相关,即研究时涉及两个或两个以上的自变量和因变量。量和因变量。v在某一现象与多种现象相关的场合,当假定在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关其他变量不变时,其中两个变量之间的相关关系称为系称为偏相关。偏相关。97第一章 概述1.3.1二维数据的数字特征及相关系数二维数据的数字特征及相关系数设设(X,Y)T是二维总体,从中得到观测数据是二维总体,从中得到观测数据(x1,y1)T, (x2,y2)T, (xn,yn)T.引进数据观测矩阵引进数据观测矩阵得得记记 ,则称则称 为二维观测数据为二维观测数据的均值向量。记的均值向量。记nnyyyxxx,

44、2121niiniiynyxnx111,1Tyx),(niiixyniiyyniixxyyxxnsyynsxxns11212)(11,)(11,)(1198第一章 概述 yyyxxyxxssssSyyxxxysss2) 11(xyyyxxxyxyrsssr99第一章 概述 100第一章 概述101第一章 概述 )()(),(YVarXVarYXCovXY102第一章 概述 212xyxyrnrt103第一章 概述 设设(x1,y1)T, (x2,y2)T, (xn,yn)T是二维总体是二维总体(X,Y)T的观测数据的观测数据,且且X的数据的的数据的秩统计量秩统计量为为R1,Rn, ,Y的数据的

45、秩统计量为的数据的秩统计量为S1,Sn, ,若若X,Y相关性强时相关性强时,它们的秩统计量也具有较强的相关性它们的秩统计量也具有较强的相关性. Spearman相关系数表示秩统计量的相关性相关系数表示秩统计量的相关性!Spearman相关系数相关系数秩相关系数秩相关系数:秩秩:设设x1,xn是总体的样本观测值,其次序是总体的样本观测值,其次序统计量为统计量为x(1),x(2),x(n),若若xi= x(k),则称则称k是的是的xi秩秩,记作记作Ri ,并称并称Ri是第是第i个秩统计量个秩统计量; R1,Rn是总称为秩统计量。是总称为秩统计量。104第一章 概述 2111)() 1(61)()()(1112212121ninRnRSSRnnSSRRSSRRqniniiniiiniiniiniiixy105第一章 概述 106第一章 概述 107第一章 概述Var: 指定的变量必须为数值型变量,至少应指指定的变量必须为数值型变量,至少应指定两个变量定两个变量; ;可同时指定多个变量,此时可同时指定多个变量,此时SASSAS会会对任意两个变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论