第十章 相关分析.doc_第1页
第十章 相关分析.doc_第2页
第十章 相关分析.doc_第3页
第十章 相关分析.doc_第4页
第十章 相关分析.doc_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章 相关分析(Correlation Analysis)社会经济现象之间相互联系和相互制约是社会经济现象的普遍规律。社会经济的发展总是与一定的经济变量的数量变化密切相关。一种经济变量的变化往往取决于其他变量的变化,或者影响其他变量的变化。要认识和掌握客观经济规律,就必须探究经济现象间经济变量的相互影响及其变化规律。变量之间的统计关系是经济变量变化规律的重要特征。根据各经济现象及经济变量之间关系的紧密程度,把这些经济现象和经济变量之间的关系通常分为两类:一类是某一变量的变化完全取决于另一个或若干个其他变量的变化,即变量之间存在着唯一完全确定关系。这种关系称为函数关系。例如,银行的贷款利息为,贷款额为,则到期的本息为,可用函数式表示;销售额与单位产品的价格及产品的销售量之间存在函数关系等。另一类是变量之间存在着一定的关系,但它们关系的密切程度尚未达到由一个变量或若干变量完全确定另一个变量的程度。下面看几个例子。人们的消费水平与其经济收入有密切的正比关系,通常收入越高消费越大,但人们的消费水平不仅受经济收入的影响,还受着人们的消费意识、银行的利息、社会经济环境等因素的影响,所以无法用一个确定的函数式表达出来;又如,产品广告费支出与产品的销售额有关,广告费支出越大,产品的销售额越大,但产品的销售额不仅受广告费支出大小的影响,还受到广告媒体的种类、消费者对该产品的反映等因素的影响。再如,粮食的产量与施肥量有关,但施肥量不能完全确定粮食的产量,它还受气温、降雨量等其他自然环境条件的影响。在数理统计中,我们把上述的变量间具有的密切联系而又不能用精确的函数表达式来表示的关系称作变量间的统计关系或相关关系。现代统计学中关于相关关系的研究是数理统计研究的一个重要分支。相关分析相关系数偏相关系数次序相关系数 相关系数定义 样本相关系数 相关系数检验 SAS分析程序(图10-0)相关分析主要内容示意图 10.1相关系数的计算及其检验10.1.1样本相关系数设是资料()的组观测值(样本),则表示变量与变量线性关系的样本相关系数定义如下。 (10-1)或 (10-2)式中:,样本变量的方差: 样本变量的方差: 样本协方差:样本相关系数的取值范围为。若 ,则,关系很弱;若,则为中度相关;若,则,为高度相关。相关系数是衡量,两个变量线性关系程度的尺度。其直观意义可用下面的图形表示。但解释样本的相关系数时,值得我们注意的是样本的相关系数只表示,两个变量的线性关系的程度,而不代表两个变量的因果(cause and effect)关系。相关系数 的符号代表两个变量线性关系的方向,相关系数的大小表示其相关强度。下图是相关系数的几种情况。图10-1a和图10-1b中,两个变量,之间处于完全相关关系;图10-1c和图10-1d中两个变量,之间处于相关关系,但不是完全相关关系;图10-1e图10-1h中,两个变量,的散点图都不相等,但它们的相关系数均为零。这是因为每个观测点都对垂直或水平轴对称。所以。rxy=1YX(图10-1a)完全线性正相关rxy=1YX(图10-1b)完全线性负相关rxy=0.8YXrxy= -0.6YX(图10-1c)不完全线性正相关(图10-1d)不完全线性负相关Yrxy=0X(图10-1e)非线性正相关Yrxy=0X(图10-1f)完全不相关Yrxy=0XYX(图10-1g)完全不相关(图10-1h)完全不相关rxy=010.1.2 相关系数的检验协方差(或相关矩)在统计分析中具有非常重要的意义。两个变量的协方差可用下式来表示, (10-3)因为是量纲,其大小和变量的测量单位有关,所以不能直接利用来分析,两个变量的相关关系。但是,如果把进行标准化,可用标准化的来表示两个变量的相关关系,称作总体的相关系数(population correlation coefficient),以表示,即 (10-4)变量的标准差 变量的标准差也可用下式来表示: (10-5)在实际经济分析中,通常直接计算总体的相关系数是很困难的,所以常用样本的相关系数来研究总体变量之间的相关程度。利用观测值计算出的样本相关系数说明两个总体变量是否具有线性相关,通常还需要作假设检验。设两个变量总体的相关系数为,则其检验步骤如下:提出原假设及替换假设:原假设: =0, 即两个变量相互独立,不存在线性关系。替换假设:0,即两个变量相互影响,存在线性关系。检验统计量: (10-6)若原假设成立,则检验统计量T*服从自由度为2的-分布。检验统计决策。若,则原假设成立,两个变量线性关系不显著。若,则拒绝原假设,两个变量间的线性关系是显著的。-值计算1)在SAS程序中只要能计算统计量T*,则自动计算出其相应的p-值。); 下面介绍一下相关分析中经常遇到的皮尔逊相关系数(Pearson correlation coefficient)和斯皮尔曼相关系数(Spearman correlation coefficient)。皮尔逊相关系数(Pearson correlation coefficient)观测值(), (), ( )的Pearson样本相关系数定义如下: (10-7)变量,服从双变量正态分布(bivariate normal distribution)的假设条件下,可检测相关系数。 在正态分布中,如果变量,相互独立,则其相关系数=0。所以检测变量,的相互独立与否取决于变量,的相关系数是否等于零。皮尔逊相关系数的检验统计量-值。 (10-8)原假设: =0,即两个变量相互独立,不存在线性关系。替换假设:0,即相互影响,存在线性关系。若原假设成立,则检验统计量T*服从自由度为2的-分布。斯皮尔曼相关系数(Spearman correlation coefficient)皮尔逊相关系数是以正态分布为前提条件。但是,当已确认样本不服从正态分布时,不能采用皮尔逊相关系数来检验两个变量的独立(或相关)问题,这时我们必须采用斯皮尔曼相关系数来检验两个变量之间的独立性问题。斯皮尔曼相关系数所采用的不是观测值的大小,而是采用观测值的秩次(rank)。斯皮尔曼相关系数的计算公式如下: (10-9)式中:斯皮尔曼相关系数代表变量Xi的秩次 代表变量Yi的秩次代表Ri的平均 代表Si的平均10.1.3 相关系数SAS分析程序分析相关系数的SAS程序的基本形式如下:(a) PROC CORR DATA=dsn option; (b) VAR 变量; (c) WITH 变量; (d) PARTIAL 变量; (e) WEIGHT 变量; (f) FREQ 变量; (g) BY 变量; (a)PROC CORRPROC CORR是分析相关系数的基本命令。Option:- DATA =dsn: 分析对象资料名。- PEARSON: 分析皮尔逊相关系数。- SPEARMAN: 分析斯皮尔曼相关系数。- NOSIMPLE: 不打印(输出)各变量的描述性统计量。- NOPROB: 省略检验统计量p-值。- COV(covariance):打印协方差(矩阵)。- NOCORR: 储存时省略相关系数。- OUTP=dsn: 把皮尔逊相关关系储存到资料dsn名下。- OUTS=dsn: 把斯皮尔曼相关系数储存到资料dsn名下。(b)VAR变量指定分析相关系数的变量。(c)WITH变量计算WITH指定的变量与VAR指定的变量之间的相关系数。例)PROC CORR; VAR Y Z; WITH X;计算XY, XZ的相关系数。(d)PARTIAL变量计算PARTIAL所指定的变量的偏相关系数。(e)WEIGHT变量计算加权相关系数时,把加权数指定为行变量。(f)FREQ变量当指定的变量以频数输入时,如果使用FREQ,则按频数重复处理。(g)BY变量以BY指定的变量为基准,计算VAR指定的变量之间的相关系数。案例分析10-1:某中学从580名学生中随机抽出20名学生,作了体重(weight),每分钟心脏跳动频数(pulse),拉单杠(chins),仰卧起坐(situp),跳高(jump)等体力调查。试分析这些体力调查项目之间的相关关系及体重和其它体力调查项目之间的相关关系。(其体力调查资料直接编入到分析程序) (表10-1) 体力调查表 Weight pulse chins situps jumps Weight pulse chins situps jumps190 50 5 162 60247 50 1 50 50189 52 2 110 60193 46 6 70 31193 58 12 101 101202 62 12 210 120162 62 12 105 37176 54 4 60 25189 46 13 155 58157 52 11 230 80182 56 4 101 42156 54 15 225 73211 56 8 101 42 138 68 2 110 43167 60 6 125 40166 52 13 210 115 176 74 15 200 40154 64 14 215 105154 56 17 251 250169 50 17 120 38SAS PROGRAM:OPTION PS = 60 NODATE; DATA fit; INPUT Weight pulse chins situps jumps ;给Weight等5个变量输入数据CARDS;190 50 5 162 60 247 50 1 50 50 154 56 17 251 250 169 50 17 120 38RUN;PROC CORR DATA=fit PEARSON SPEARMAN KENDALL; VAR chins situps jumps; WITH weight pulse; RUN; 利用fit的数据,计算VAR指定的chins situps jumps变量和WITH指定的weight pulse 变量之间的皮尔逊系数,斯皮尔曼相关系数,KENDALL的Tau-b PROC CORR DATA=fit PEARSON; VAR CHINS SITUPS JUMPS; WITH WEIGHT; PARTIAL PULSE; RUN; 利用fit的数据,计算VAR指定的chins situps jumps变量和weight之间的皮尔逊系数及固定pulse后的偏相关系数运行结果及解释:基础统计量。Correlation Analysis 2 WITH Variables: WEIGHT PULSE 3 VAR Variables: CHINS SITUPS JUMPS Simple Statistics Variable N Mean Std Dev Median Minimum Maximum WEIGHT 20 178.5500 24.6651 176.0000 138.0000 247.0000 PULSE 20 56.1000 7.2104 55.0000 46.0000 74.0000 CHINS 20 9.4500 5.2863 11.5000 1.0000 17.0000 SITUPS 20 145.5500 62.5666 122.5000 50.0000 251.0000 JUMPS 20 70.5000 51.1525 54.0000 25.0000 250.0000打印皮尔逊的相关系数及其相应的p-值。从分析结果中可以看出,体重和chins,situps, jump存在负的相关关系,相关系数的显著性水准(p-值)分别为0.0907,0.0268,0.3486。每分钟心脏跳动频数和chins, situps, jump存在正的相关关系。但体重和jumps,心脏跳动频数和chins, situps, jump之间相关系数的显著性水准p值分别为0.3486,0.5261,0.3401,0.8837,比较大,似乎不存在密切的相关关系。Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.38830 -0.49415 -0.22124 相关系数 0.0907 0.0268 0.3486 p-值 PULSE 0.15065 0.22504 0.03496 0.5261 0.3401 0.8837打印斯皮尔曼的相关系数及其相应的p-值。从分析结果看,体重和situps有比较密切的相关关系(p值0.0076),体重和chins有一定的相关关系(p值0.0076),其余的变量之间似乎不存在相关关系。Spearman Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.38020 -0.57774 -0.15680 相关系数 0.0982 0.0076 0.5091p-值 PULSE 0.13662 0.17924 0.08781 0.5657 0.4496 0.7128KENDALL的相关系数及显著性水准和皮尔逊、斯皮尔曼的分析结果很相似。Kendall Tau b Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.27795 -0.42588 -0.06971 0.0956 0.0100 0.6721PULSE 0.12257 0.15430 0.07674 0.4699 0.3587 0.6467在心脏跳动频数固定不变的条件下,计算weight, chins, situp, jumps之间的偏相关系数。weight和situp的偏相关系数为0.45423,比前面的相关系数0.49415小,其显著性水平也提高了0.0515,这说明weight和situp的相关系数受pulse的影响。特别是weight和chins的相关系数的显著性水平变得没有显著性差别。 Pearson Partial Correlation Coefficients / Prob |R| under Ho: Partial Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.36215 -0.45423 -0.22403 0.1276 0.0507 0.3565案例分析10-2:生产效率与工资增加率间的相关分析某企业按职工的生产性(效率)决定其工资增加率。为了分析职工的生产性和其工资增加率之间的关系,从职工中随机抽出20名作了调查。其调查资料如表10-2。 试做职工的生产性(X)和工资增加率(Y)之间的散点图。 试求两个变量的样本相关系数,并解释其意义。 试对相关系数的显著性进行检验。(=0.05)(表10-2)工资率增加及生产性生产性工资增加率生产性工资增加率生产性工资增加率474.2595.9545.9718.1676.9766.3646.8565.7535.7354.3675.7404.0435.0575.4475.2607.5697.5232.2384.7383.8SAS PROGRAMDATA ONE;INPUT X Y ;CARDS;47 4.2 71 8.1 64 6.8 35 4.3 43 5.0 60 7.5 38 4.7 59 5.9 67 6.9 56 5.7 67 5.7 57 5.4 69 7.5 38 3.8 54 5.9 76 6.3 53 5.7 40 4.0 47 5.2 23 2.2RUN;PROC PLOT; PLOT Y*X=*; 作以职工的生产性为横轴,工资增加率为纵轴的散点图。RUN;PROC CORR NOSIMPLE; VAR X Y; RUN; 计算变量X,Y之间的样本相关系数及其统计量的p-值。利用命令NOSIMPLE不打印描述性统计量 运行结果及解释: Y 9 * 8 * * 7 * * * 6 * * * * * * * 5 * * * * 4 * * 3 * 2 20 30 40 50 60 70 80 X由X,Y的散点图可以看出,随着生产性(X)的增加,其工资率也增加,并且X,Y之间有明显的相关关系,接近一条直线。但这些样本点又不都在一条直线上,这表明变量X与Y的关系并没有确切到给定X值就可以唯一确定值的程度。事实上,对工资的增加率产生影响的因素很多。如企业的生产状况,资金周转情况等。这些对Y的取值都有随机性影响。每个样本与直线间的偏差就可以看作是其他随机因素的影响。Correlation Analysis2 VAR Variables: X YPearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20X YX 1.00000 0.89017 0.00000 0.0001Y 0.89017 1.00000 0.0001 0.0由上面的相关分析结果可知,变量与间的样本相关系数为rxy=0.89017。这说明变量与之间有明显的相关关系。相关系数rxy=0.89017,其意义是,职工的生产性(情报)对该职工的工资增加率变化的贡献率为79.2%(rxy2=0.890170.89017)。相关系数检验统计量的p值为0.0001,比给定的显著性水平=0.05小,所以变量X与Y没有显著的相关关系的原假设(xy0)被拒绝。案例分析10-3:年薪,年龄,工龄之间的相关分析。某大企业为了分析职工的年薪、年龄之间的关系,从职工中随机抽出10名职工进行了调查,其调查资料如表10-3。(表10-3)年薪和年龄资料职工12345678910年薪(Y)52354528426031383348年龄(X1)52473825445536403250工龄(X2)33211431830815727画出年薪(Y),年龄(X1),工龄(X2)的散点图,观察并说明各变量之间的关系。试求三个变量(Y,X1,X2)的相关行列,并解释其意义。试对相关系数进行显著性检验。(=0.05)SAS PROGRAMDATA ONE;INPUT Y X1 X2 ;CARDS;52 52 33 35 47 21 45 38 14 28 25 3 42 44 18 60 55 30 31 36 8 38 40 15 33 32 7 48 50 27RUN;PROC PLOT HPERCENT=50; PLOT Y* (X1 X2)=* X1*X2=*; RUN;作散点图PROC CORR NOSIMPLE; VAR Y X1 X2; RUN;不打印描述性统计量,对命令VAR所指定的三个变量Y X1 X2,计算相关行列及其p值。PROC CORR NOSIMPLE; VAR X1 X2; WITH Y; RUN; 只计算变量Y与两个变量X1 ,X2之间的相关系数。运行结果及解释:由下面的年薪Y与年龄X1的散点图(Plot of Y*X1)和年薪Y与工龄X2的散点图(Plot of Y*X2)中可知,年薪和年龄、工龄之间有明显的相关关系,接近线性关系。再由年龄和工龄的散点图(Plot of X1*X2)中可知,年龄与工龄之间有十分明显的相关关系,接近直线。Plot of Y*X1. Plot of Y*X2. Symbol used is * Symbol used is * Y Y 60 * 60 * 50 * 50 * * * * *40 40 * * * * * *30 * 30 * * * 20 30 40 50 60 0 10 20 30 40 X1 X2Plot of X1*X2. Symbol used is *.X1 *55 * * * 45 * * 35 * * 25 * 0 10 20 30 40 X2Correlation Analysis 3 VAR Variables: Y X1 X2 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 Y X1 X2 Y 1.00000 0.85187 0.87897 0.0 0.0018 0.0008 X1 0.85187 1.00000 0.97005 0.0018 0.0 0.0001 X2 0.87897 0.97005 1.00000 0.0008 0.0001 0.0上面计算结果是三个变量(Y,X1, X2)的相关行列表。此33相关行列以对角元素为中心相对称。这是因为Y与X1的相关系数和X1与Y的相关系数相等;同理,Y与X2的相关系数和X2与Y的相关系数相等。年薪和年龄,工龄之间的相关系数分别为ryx=0.85187,ryx=0.87897,具有明显的相关性。随着年龄和工龄的增加,其年薪接近直线上升。年龄与工龄的相关系数为=0.97005,具有相当明显的相关关系,完全接近直线。这说明年龄和工龄两个变量所具有的情报完全类似。对该企业来说,年龄对工龄的贡献率可以看作94%( =0.970050.97005)。相关系数验统计量的p-值分别为0.0018,0.0008,0.0001,都比显著性水平0.05小,因此变量间没有显著的相关性的原假设被拒绝。Correlation Analysis1 WITH Variables: Y2 VAR Variables: X1 X2 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 X1 X2 Y 0.85187 0.87897 0.0018 0.0008上面的计算结果是年薪与年龄及工龄的相关系数。10.3 偏相关系数的计算及检验上面讨论的是两个变量之间的相关问题。但在实际经济生活中,我们所遇到的经济现象变化很多,经常是几个重要因素相互作用的结果。如果我们所研究的经济变量为个(3),在这个变量中,只有一个是因变量,其余个(=1)为独立变量,而且这个独

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论