薪酬设计回归分析_第1页
薪酬设计回归分析_第2页
薪酬设计回归分析_第3页
薪酬设计回归分析_第4页
薪酬设计回归分析_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 265 页相关与回归分析第一节 简单线性相关分析一、相关关系的概念与种类(一)相关关系的概念在自然界和人类社会中,普遍着存在现象之间的相互依赖、相互制约的关系。一些现象在数量上的发展变化经常伴随着另一些现象数量上的发展变化。现象间的数量关系可分为两种基本类型:函数关系。它是指现象间存在的严格依存的、确定的因果关系,一种现象的数量变化必然决定着另一种现象的数量变化,这种关系可通过精确的数学表达式来反映,比如,圆面积同其半径的关系为 s=r 2,自由落体落下的距离同时间的关系为 h= gt2,等等。相关关系。指的是现象之间确实1存在着数量关系,但这种关系不是严格确定的,当一种现象的数量发生变化时,另一种现象的数量可能在一定范围内发生变化,出现不同的数值。比如,单位产品成本同产量之间的关系,一般说来,当工厂规模扩大,产品产量增加时,单位产品成本会随之下降,这种变化趋势体现了规模经济的效应,具有客观性和普遍性。但由于影响产品成本的因素众多,有主要的,也有次要的,有必然的,也有偶然的,有随机的,也有非随机的,有观察得到的,也有观察不到的,等等。同一产量水平下,可能会出现各种各样的单位成本,或者某一确定的单位成本对应着不同的产量,两者的关系不是唯一确定的。粮食收获量与施肥量之间、商品价格与需求量之间、身高与体重之间等都具有类似的特征,这种关系就是相关关系。函数关系与相关关系既有区别,又有联系。由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系又可能转化为函数关系。在社会经济领域里,一般说来,函数关系反映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描述。综上所述,相关关系是现象之间确实存在的,但关系数值不固定的相互依存关系。相关分析则是研究一个变量与另一个变量或另一组变量之间相关密切程度和相关方向的一种统计分析方法。(二)相关关系的种类现象之间的相关关系是很复杂的,从不同的角度看,相关关系有不同的种类。1.固定相关和随机相关。按变量的性质(是否是随机变量),相关关系可分固定相关和随机相关。固定相关是指一个随机变量与另一个或一组非随机变量之间的的泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 266 页相关关系。例如,农作物的施肥量是一个可控制的变量,农作物收获量是一个不确定的变量,两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关。随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。例如,大学生的身高和体重之间的关系就是两个随机变量之间的随机相关关系,如果观察某一身高的一组学生时,其体重各不相同,会形成一个分布;如果观察某一体重的一组学生时,其身高也不相同并形成一个分布,两个变量均为随机变量。2.简单相关和多元相关。按变量的多少,相关关系可分为简单相关和多元相关。简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相关关系;多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量之间的相关关系。按变量之间的相关方向不同,简单相关又可分为正相关和负相关。当自变量的值增加,因变量的值也相应地增加;自变量的值减少,因变量的值也随之减少时,这样的相关关系就是正相关。反之,当自变量的值增加时,因变量的值随之减少;自变量的值减少时,因变量的值反而增加,具有这种特点的相关关系就是负相关。多元相关可进一步分解为简单相关和偏相关。偏相关是指在测定一个随机变量与某个或某些随机变量或非随机变量之间的相互关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关。3.线性相关和非线性相关。按变量之间的相关形式,相关关系可分为线性相关和非线性相关。若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表现为线性组合时,则称它们之间的相关关系为线性相关。反之,若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。4.完全相关、不完全相关和不相关。按变量之间的相关程度不同,相关关系可分为完全相关、不完全相关和不相关。若一个变量的值完全由另一个或一组变量的值所决定,则称变量之间的这种相关关系为完全相关,即函数关系。若一个变量的值与另一个或一组变量的值有关,但其中要受到随机因素的影响,则称变量之间的这种相关关系为不完全相关。若一个变量的值完全不受另一个或一组变量值的影响,则称变量之间不相关。大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的基本内容。完全相关和不相关可视为相关关系中的特例。二、简单线性相关图表判定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一。其最简单、最直观的方法就是列相关表、绘制相关图。简单线性相关关系有固定简单线性相关与随机简单线性相关之分。简单线性相关图表可用于直观地表明这两类简单线性相关变量之间的相关程度和相关方向。(一)固定简单线性相关图表已知有两个变量,设 y 是随机变量,x 是非随机变量,对应于 x 的每一个给定泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 267 页的取值,y 有多个可能的取值,但在一次试验中,y 只取其中一个可能值。由于 x 是非随机变量,在实验中其取值可以控制并重复进行,所以在 n 次试验中,x 可能取n 个相同或不同的值,相应地也有 n 个 y 的值,即得到一一对应的样本资料(x,y)。将这些数据按 x 的取值由小到大依次对应排列,即构成固定简单线性相关表,又称之为一维相关表。例 9.1 某地区居民人均收入水平(x)与其食品支出占生活费支出比重(y)之间具有相关关系,编制相关表如下(见表 9-1):表 9-1 一维相关表人均收入水平(元)x280 320 390 530 650 670 790 880 910 1050食品支出占生活费支出比重(%)y68.3 67.5 66.2 64.9 56.7 60.2 54.4 49.0 50.5 43.6从表 9-1 可以粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。将一一对应的(x,y)描点于坐标系上,即构成散点图,又称相关图。在相关图上,以横轴表示非随机变量(x) ,以纵轴表示随机变量(y),通过观察各对变量值坐标点的分布状况,可以大致判断变量之间相关的形态、方向和密切程度。利用表 9-1 资料,可绘制相关图如下(见图 9-1):图 9-1 居民人均收入水平与其食品支出的关系图从图 9-1 可以看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。yx010203040506070800 100 200 300 400 500 600 700 800 900 1000 1100人 均 收 入 水 平 ( 元 )食品支出占生活费用支出的比重(%)泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 268 页一些常见的相关分布状态可用下述各图表示(见图 9-2):xxxxxxxxxxxx较显著的线性正相关 较显著的线性负相关xxxxxxxxxx不显著的线性负相关 不相关图 9-2 几种常见的相关散点图(二)随机简单线性相关图表设 x 、y 为两个随机变量,将观测值(x,y)分组之后按顺序排列,x 从小到大排列,y 从大到小排列,形成一棋盘式平衡表,称之为二维相关表。例 9.2 某地区为研究降雨量和农作物平均每亩收获量的关系,从 40 个降雨量不同的试验田中获得 40 对数据。用 x 表示降雨量,y 表示平均每亩收获量。据此可编出二维相关表如下(见表 9-2) 。该表中,中间每一格列出的是 x、y 的联合频数,它表明 x 和 y 同时取某值的次数;最后一列每一格是每一行的联合频数的和,它表明 y 取某值的次数;最后一行每一格则是每一列的联合频数的和,它表明 x 取某值的次数。表 9-2 二维相关表 降雨量(毫米)x i频数 fij收获量(公斤)y j8 10 12 14 16 18 行和(fj)260 1 2 1 4泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 269 页240 2 2 2 6220 2 3 5 1 11200 1 3 6 3 13180 1 2 3160 1 1 1 3列和(f i) 3 6 14 11 5 1 40从表 9-2 可以粗略看出,降雨量与收获量之间大致呈线性正相关关系。利用表 9-2 资料,可绘制相关图如下(见图 9-3):图 9-3 降雨量与收获量之间相关图三、简单相关系数(一)简单相关系数的意义简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。总体相关系数一般用 R 表示,定义式为(式 9.1)YX2式中, 和 表示变量 X 和 Y 的标准差,对有限总体而言,其计算公式为XY(式 9.2)N2)((式 9.3)Y2)(表示两个变量 X 和 Y 之间的协方差,计算公式为XY213 3521y1222261312111x0204060801001201401601802002202402602800 2 4 6 8 10 12 14 16 18 20降 雨 量 ( 毫 米 )平均每亩收获量(公斤)泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 270 页(式 9.4)NXYXY)()(2 这里,变量 X 和 Y 为总体变量,N 为总体单位数, 和 分别为变量 X 及 YXY的总体平均数,计算式为(式 9.5)X(式 9.6)NY要理解相关系数 R 的意义,首先要明确协方差 和标准差 、 在反映XY2XY变量之间相关关系中的作用。协方差 反映了变量 X 和 Y 的共变性,可以显示两个变量的相关方向和相关XY2关系的密切程度,它可能出现以下几种情况:第一,所有相关点均为正相关,则 0,说明两个变量之间正线性相关。XY2第二,所有相关点均为负相关,则 0,说明两个变量之间负线性相关。第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。若正、负全部低销掉了,结果为零,则表示不相关。第三种情况是实际经济生活中最常见到的情况。此外,还有两种极端的情况:当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。进一步,相关系数是一个界于+1 和-1 之间的数,即-1R1,若 R=1,说明两个变量之间存在完全正线性相关;若 R=-1 说明两个变量之间存在完全负线性相关;若 0 R 1,说明两个变量之间存在一定程度的正线性相关;若-1 R 0,说明两个变量之间存在一定程度的负线性相关;若 R=0,说明两个变量之间没有线性相关关系。(二)简单相关系数的计算在实际工作中,总体相关系数 R 一般是未知的,往往需要用样本资料推断总体的相关情况,因而需要计算样本相关系数。1.固定简单线性相关系数的计算设 x 和 y 为样本变量,其中 y 为随机变量,x 为非随机变量, n 为样本容量,泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 271 页、 分别为变量 x 及 y 的样本平均数, 、 和 分别表示变量 x 和 y 的样本xy xsyx2标准差及它们之间的样本协方差,其计算为(式 9.7)n(式 9.8)y(式 9.9)nxsx2)((式 9.10)yy2)((式 9.11)nxsxy2于是,就可得到与总体相关系数计算形式相同的样本相关系数(记为 r)的公式(式 9.12)yxsr2经过简单的推导,上式还可变化为下面易于计算的形式(式 9.13)222)()(ynxnr根据表 9-1 的资料计算相关系数如表 9-3 所示:表 9-3 固定简单线性相关系数计算表序号人均收入水平(元)x食品支出占生活费支出比重(%)yx2 y2 xy1 280 68.3 78400 4664.89 191242 320 67.5 102400 4556.25 216003 390 66.2 152100 4382.44 258184 530 64.9 280900 4212.01 343975 650 56.7 422500 3214.89 368556 670 60.2 448900 3624.04 403347 790 54.4 624100 2959.36 429768 880 49.0 774400 2401.00 431209 910 50.5 828100 2550.25 4595510 1050 43.6 1102500 1900.96 45780合计 6470 581.3 4814300 34466.09 355959泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 272 页将表 9-3 数字代入上述相关系数计算公式,得: 222)()(ynxnyr= - 0.98223.58109.346164708130592.随机简单线性相关系数的计算如果 x 和 y 均为随机变量,计算样本相关系数的基本式仍为 yxsr2但由于存在联合频数(f ij) ,其具体的计算略有变化,经过不复杂的类推可得下式(式 9.14)2222 )()( jjjiii jiijij fyffxfyr 根据表 9-2 资料计算相关系数,计算过程如表 9-4、表 9-5、表 9-6 所示:表 9-4 降雨量(x)数据的计算表降雨量(毫米)x i fi xi2 xifi xi2fi8 3 64 24 19210 6 100 60 60012 14 144 168 201614 11 196 154 215616 5 256 80 128018 1 324 18 324合计 40 504 6568表 9-5 平均每亩收获量(y)数据的计算表平均每亩收获量(公斤)y j fj yj2 yjfj yj2fj160 3 25600 480 76800180 3 32400 540 97200200 13 40000 2600 520000220 11 48400 2420 532400240 6 57600 1440 345600260 4 67600 1040 270400合计 40 8520 1842400表 9-6 平均每亩收获量(y)数据的计算表降雨量(毫米)x i 平均每亩收获量(公斤)y j fij xiyjfij8 160 1 1280泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 273 页8 180 1 14408 200 1 160010 160 1 160010 200 3 600010 220 2 440012 160 1 192012 180 2 432012 200 6 1440012 220 3 792012 240 2 576014 200 3 840014 220 5 1540014 240 2 672014 260 1 364016 220 1 352016 240 2 768016 260 2 832016 260 1 4680合计 40 109000根据以上各表资料可得:2222 )()( jjjiii jiijij fyffxfyr = 22850140568409= 0.67四、相关系数的统计推断总体相关系数 R 一般是未知的,能够计算出的只是样本相关系数 r,r 虽然能够提供关于总体相关程度与方向的某种信息,r 愈大,在一定程度上说明总体相关程度愈高,但也可能犯错误。这就需要根据样本资料对总体相关系数 R 进行检验和估计。(一)关于总体相关系数 R 的检验由于相关系数 r 的分布复杂,不能直接利用它去进行统计推断,但如果设ZR= (式 9.15))1ln(2zr= (式 9.16)泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 274 页可以证明,当样本(x,y)抽自正态分布总体时,z r近似服从平均值为 ZR,方差为 的正态分布,于是31nz=(zr-ZR) (式 9.17)3n近似服从标准正态分布。据此可以检验 H0:R=R 0(R00)利用例 9.1 资料,计算的样本相关系数 r=-0.98,是否可以认为总体相关系数R=-0.90,统计假设为H0:R=-0.90H1:R-0.90此时,ZR= =-1.472)90.ln(2)ln(2zr= =-2.29881.r于是,检验统计量z=(zr-ZR) 3n=(-2.298+1.472) 10=-2.185当显著水平 =5%时,查正态分布表可得 ,186.296.1025. ZZ故否定 H0,接受 H1,即不能认为总体的相关系数 R=-0.90。同理,也可以对总体相关系数进行单边检验。(二)关于总体相关系数 R 的区间估计首先,求出 ZR的估计区间。若与估计保证程度对应的概率度为 Z,Z R的估计区间就为zr- ZR zr+3n3n对于例 9.1,Z R的 95%置信估计区间为-2.298- ZR -2.298+1096. 1096.即 -3.039 ZR -1.557根据 ZR的置信区间,可以换算出 R 的置信区间:泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 275 页当 ZR= =-3.039 时,R=-0.99)1ln(2当 ZR= =-1.557 时,R=-0.92计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关系数 R 的 95%的置信区间为-0.99 至-0.92。同理,也可类似地对例 9.2 进行分析,请读者自己思考。第二节 简单线性回归分析一、回归分析的概念和种类从历史上看, “回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887 年,他第一次将“回复” (Reversion)作为统计概念使用,后改为“回归” (Regression)一词。1888 年他又引入“相关” (Correlation)的概念。原来,他在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗的讲就是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样矮,因为子女的身高不仅受到父母的影响(尽管程度最强) ,还要受其上两代共四个双亲的影响(尽管程度相对弱一些) ,上三代共八个双亲的影响(尽管程度更加弱一些) ,如此等等 ,即子女的身高要受到其2n(n 趋近无穷)个祖先的整体(即总体)影响,是遗传和变异的统一结果。回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向的,而回归分析则是在相关分析的基础上进一步借用数学方程将那种显著存在的相关关系表示出来,从而使这种被揭示出的关系具体化并可运用于实践中去。但也常从广义的角度去理解相关和回归,此时回归分析就包含着相关分析。回归分析最基本的分类就是一元回归和多元回归,前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等。进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。二、简单线性回归方程泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 276 页总体的简单线性回归模型可表示为Y=A+BX+e (式 9.18)上式中,X 称为自变量,Y 称为因变量,e 称为随机误差值。从这里可以看出相关分析与回归分析的显著区别,在前述的相关分析中通常可以将变量 X 和 Y 视作是某种“对等”的因素,而在这里的回归分析中,它们却是不“对等”的。自变量是解释变量或预测变量,并假定它是可以控制的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即相同的Y 可能是由于不同的 X 所造成,或者相同的 X 可能引起不同的 Y,其表现正是随机误差项 e。随机误差值 e 是观察值 Y 能被自变量 X 解释后所剩下的值,故又称为残差值,它是随机变量。A 和 B 为未知待估的总体参数,又称其为回归系数。由此可见,实际观测值 Y被分割为两个部分:一是可解释的肯定项 A+BX,二是不可解释的随机项 e。与相关分析类似,总体的回归模型 Y=A+BX+e 是未知的,如何根据样本资料去估计它就成为回归分析的基本任务。由此可以假设样本的回归方程如下:(式 9.19)bxaY上式中, 、 和 分别为 Y、A 和 B 的估计值。如果对变量 X 和 Y 联合进行 n 次观察,就可以获得一个样本(x,y),据此就可求出 、 的值。ab求 、 的方法有多种,但一般是采用最小平方法。它要求观察值 y 与估计值的离差平方和达到最小值,即Y=最小值22)()(bxayYyQ满足这一要求的 和 可由下述标准方程求出aby=n + xxy= x+ x 2ab解方程得:(式 9.20)222)()(xnyxyb(式 9.21)bya泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 277 页例 9.3 为研究某类企业的生产量和单位成本之间的关系,现随机抽取 10 个企业,得如下数据(见表 9-7):根据该资料,经计算可得表 9-8:表 9-7 10 个企业的生产量和单位成本情况编号 1 2 3 4 5 6 7 8 9 10产量(万件) 2 3 4 4 5 6 6 7 8 9单位成本(元/件) 52 54 52 48 48 46 45 44 40 38表 9-8 一元线性回归计算表编号产量(万件)x单位成本(元/件)yx2 y2 xy Yy- 1 2 52 4 2704 104 54.35 -2.352 3 54 9 2916 162 52.10 1.903 4 52 16 2704 208 49.85 2.154 4 48 16 2304 192 47.85 -1.855 5 48 25 2304 240 47.60 0.406 6 46 36 2116 276 45.35 0.657 6 45 36 2025 270 45.35 -0.358 7 44 49 1936 308 43.10 0.909 8 40 64 1600 320 40.85 -0.8510 9 38 81 1444 342 38.60 -0.60合计 54 467 336 22053 2422 467 0由上表资料,可得:= - 2.252225436107)(xnyb= 58.855.10467ya这样就可以得到生产量(x)和单位成本(y)之间的样本回归方程=58.85-2.25xbxaY在简单线性回归方程 中, 为截距, 为斜率,后者表示自变量 xb变化一个单位时, 将平均变化 个单位。当 取正值时,表明 x 和 y 的变化方向相同,当 取负值时,表明 x 和 y 的变化方向相反。本例中, =-2.25,表明产量b每增加 1 万件时,单位成本将平均下降 2.25 元。泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 278 页根据样本资料获得的回归方程 又称为经验方程,如果计算出观察值bxaYy 的估计值 ,并进一步求出残差 y- ,就可以观察回归方程对总体方程拟合的优Y良程度。对于某一特定的自变量 x 而言,观察值 y 同其估计值 是有一定差别的,Y比如,当产量为 5 万件时,实际单位成本为 48 元,而其估计值为 47.60 元,两者相差 0.4 元,但全部残差项之和等于零(见表 9-8),这说明估计值平均来说是无偏的。事实上,最小平方估计量还满足下式(y- )=0Y即 y这里, 表示估计值 的平均值,即Yn从理论上讲,最小平方法具有优良特性,因为参数 A、B 的最小平方估计量 、a是最优的线性无偏估计量,这一性质通常称为“高斯马尔科夫定理” ,这也是最b小平方法获得广泛应用的主要原因。此外,如果记随机误差项 e 的方差为 2,它也是未知的总体参数,其无偏估计量为(式 9.22))(22nYyQ上式中, 称为剩余离差平方和或残差平方和,n-2 为自由度。2)(Yy三、离差分析对于某一个观察值 ,其离差大小可通过观察值 与全部观察值的均值 之差iyiyy- 表示出来, - 又可进一步分解为 - 和 - 两部分,即iyi iY- =( - )+( - )iii可以证明,当变量 X 和 Y 之间线性相关时,还进一步存在下述等式关系( - )2=( - )2+( - )2yy通常记T=( - )2R=( - )2Yy泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 279 页2)(YyQ分别称 T、R 和 为总离差平方和、回归离差平方和和剩余离差平方和。总离差平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归估计值自身的离散程度,它是由于回归方程及自变量 x 取值不同所造成的,是可以解释的差别;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和。显然,T 中 R 的比重愈大,或者 的比重愈小,则说明线性回归拟合愈好,反Q之,拟合就愈差。由此可以建立下述指标r2= (式 9.23)TR称 r2为样本相关程度的判定系数,r= 为样本相关系数。由此就可直观地看出 r2和 r 的特性:(1)r 2 1 或-1 r +1(2)|r|愈接近于 1,相关程度愈强;|r|愈接近于 0,相关程度愈弱。(3)r 取正值时表明正相关,r 取负值时表明负相关。(4)r 只能表明总体是否可能存在线性相关,当|r|很小甚至接近于 0 时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步判定。从计算角度看,上述几种离差还可表示为T=( - )2=y2)(1ynR=( - )2=b2( - )2=b2 Yx2)(1xn=T-RyQ对于例 9.3,有T= =22053- (467)2=244.1022)(1n10R= b2 =(-2.25)2336- (54)2=224.78x10=T-R=244.1-224.78=19.32Q计算结果说明:单位成本的总离差平方和为 244.10,其中由于产量变化所造成的为 224.78,占 92.09%,由于产量以外的所有因素共同造成的为 19.55,占泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 280 页8.01%。据此计算的相关系数为r= = =0.96TR10.2478四、统计推断依据样本数据得到的经验回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以判断。可以证明:当变量 Y 服从正态分布时,从中随机抽取样本(x,y) ,回归系数 A和 B 的最小平方估计值 和 也服从正态分布,其平均值分别为ab=A (式 9.24)=B (式 9.25)方差分别为(式 9.26))(1)(2222 xnxna (式 9.27)2222 )()(xxb于是,就可建立两个标准正态统计量(式 9.28)aAz(式 9.29)b并且, 和 的计算式中 一般未知,但其无偏估计量为2ab22)(2nYyQ据此对 A 和 B 进行统计假设检验的步骤如下(仍以例 9.3 的资料):(1)检验 A第一步:建立统计假设泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 281 页H0:A=0H1:A0第二步:计算 z 统计量由于 =2.41523.92nQ)(1222xa=1.828541036.2=1.35282.a因此,检验统计量为= =43.528aAz352.108第三步:确定显著水平 ,做出判断若设 =5%,经查表得 =1.96z=43.528,拒绝零假设,即认为975.021z回归系数 A 显著的不为零。(2)检验 B同理,可对回归系数 B 进行检验。若统计假设为H0:B=0H1:B0此时=0.05422)(xnb2541036.=0.233054.b检验统计量 = =-9.657bAz23.0泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 282 页由于 =1.96|z|=9.657,拒绝零假设,即认为回归系数 B 也显著的不975.021z等于零,说明单位成本同产量之间存在显著的线性相关关系。与前面的讨论类似,也可对 A 和 B 进行单边检验以及 A 和 B 是否显著的与某一确定值相同或不相同的检验。但通常进行的是对 A=0 和 B=0 的检验。对 A=0 的检验是考察回归直线是否通过坐标原点;由于 B 表示 X 变化一个单位时对 Y 的影响程度,因此对 B=0 的检验实际是考察这种程度是否为零,即是否存在线性相关关系。另外,通过最小平方法获得的 和 只是 A 和 B 的点估计量,在此基础上可进ab一步给出它们的区间估计。当置信度为 1 时,A 和 B 的置信区间分别为- A + (式 9.30)aa- A + (式 9.31)bb这里= (式 9.32)aaz21= (式 9.33)bb对于例 9.3,当置信概率为 95%时= =1.961.352=2.65aaz21= =1.960.233=0.46bb于是可得 A 和 B 的置信区间分别为58.85-2.65 A 58.85+2.65即 56.20 A 61.50-2.55-0.46 B -2.55+0.46即-3.01 B 2.09五、回归预测拟合的回归方程及其参数通过检验后,经常要应用它去预测,显然,给定 x=x0时,Y 的点预测量为(式 9.34)00bxaYY 的置信度为 1- 的区间预测量为泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 283 页- Y + (式 9.35)00Y这里= (式 9.36)0Y021z)(120 xnY(式 9.37))(12202xn接上面的例子,当产量为 10 万件时,单位成本的点预测值为=58.85-2.2510=36.35(元)00bxaY由于20Y)(11220xn=3.807541036415.22= =1.9510Y87.当产量为 10 万件,置信度为 95%时,由于= =1.961.951=3.820Y021Yz于是可得单位成本的预测区间为- Y +00Y36.35-3.82 Y 36.35+3.82即 32.53 元 Y 40.17 元必须指出的是,给定的 x0如果在样本(x 1,x 2,x n)的最小值至最大值之间取值,预测过程称为内插预测,否则,称为外推预测。进行外推预测时,误差一般较大,这是由两方面原因引起的:一是 x0远离 ,二是回归方程通过检验后,虽然能代表总体的线性相关关系,但这种关系只能在样本范围内成立,在其之外就有可泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 284 页能出错误,并且,随着情况的变化,原样本也可能不再能反映总体的现状,这样,预测的效果就不好甚至失败。第三节 多元线性回归与相关分析一、多元线性回归分析简单线性回归与相关分析是对客观现象之间的关系进行高度简化的结果,但在实际问题中,影响因变量的因素往往不只一个,而是多个。比如,产品的成本不仅取决于该产品的生产量,而且也与原材料价格、技术水平、管理水平等因素有关;再如,影响农作物收获量的因素,除施肥量外,还有种子、气候条件、耕作技术等因素。多元线性回归与相关所研究的就是三个或三个以上的变量之间的数量关系问题。总体的多元线性回归方程为Y=A+B1X1+B2X2+BkXk+e (式 9.38)总体回归方程一般未知,需要通过样本去估计。设估计方程为= +b1x1+b2x2+bkxk (式 9.39)Ya上式中, 、b 1、b 2、b k称为回归系数,其中,b i(i=1,2,,k)又称为偏回归系数,它表示当其它自变量均为零时,x i每变化一个单位对因变量影响的数值。设样本为(x 1,x 2,x k,y),利用最小平方法可估计出回归方程中的参数,即要求=(y- )2=y ( +b1x1+b2x2+bkxk)2=最小值QYa据此可得下列联立标准方程y=n +b1x 1+b2x 2+bkx kax 1y= x 1+b1x 12+b2x 1x2+bkx 1xkx 2y= x 2+b1x 1x2+b2x 22+bkx 2xkx ky= x k+b1x 1xk+b2x 2xk+bkx k2当 k=2 时,标准方程为变为y=n +b1x 1+b2x 2ax 1y= x 1+b1x 12+b2x 1x2x 2y= x 2+b1x 1x2+b2x 22泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 285 页解方程,可得21221221 )()()( )(xxx yyb (式 9.40)21221 122 )()()( )(xyyb (式 9.41)= = (式 9.42)a21xynxbny21为计算方便,上述各因子项还可表示为( )2=x 12 - (x 1) 2 (式 9.43)1( )2=x 22 - (x 2) 2 (式 9.44)xn( )( )=x 1x2 - x 1x 2 (式 9.45)1( )2=y 2 - (y) 2 (式 9.46)y( )( )=x 1y - x 1y (式 9.47)1xn( )( )=x 2y - x 2y (式 9.48)2可以证明,最小平方估计量 、b 1、b 2、b k是总体参数 A、B 1、B 2、B ka的最优线性无偏估计量。例 9.4 为研究某商品的需求量、价格、消费者收入三者之间的关系,经调查得如表 9-9 所示资料:表 9-9 某商品的需求量、价格及消费者收入资料编号 需求量(件) 收入(百元) 价格(元)1 10 15 32 8 10 53 8 18 44 7 10 35 4 8 66 6 10 57 10 19 38 11 16 29 10 18 110 5 9 7泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 286 页根据上表资料,可得如表 9-10 的回归计算表:据表中数据,如果设需求量(y)与收入(x 1)及价格(x 2)之间的回归方程为:= +b1x1+b2x2Ya可通过最小平方法求出 、b 1和 b2,经计算可得:a( )2=x 12 - (x 1)2=1935- 1332=166.11xn0( )2=x 22 - (x 2)2=183- 392=30.9表 9-10 回归数据计算表编号需求量(件)y收入(百元)x1价格(元)x2y2 x12 x22 x1x2 x1y x2y1 10 15 3 100 225 9 45 150 302 8 10 5 64 100 25 50 80 403 8 18 4 64 324 16 72 144 324 7 10 3 49 100 9 30 70 215 4 8 6 16 64 36 48 32 246 6 10 5 36 100 25 50 60 307 10 19 3 100 361 9 57 190 308 11 16 2 121 256 4 32 176 229 10 18 1 100 324 1 18 180 1010 5 9 7 25 81 49 63 45 35合计 79 133 39 675 1935 183 465 1127 274( )( )=x 1x2 - x 1x 2=456- 13339=-53.71x2n0( )2=y 2 - (y) 2=675- 792=50.9y( )( )=x 1y - x 1y=1127- 13379=76.31x( )( )=x 2y - x 2y=274- 3979=-34.12n0于是可得=0.23421 )7.53(9.06147.3b泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 287 页=-0.69722 )7.53(9.0166)4(.b= = -0.234 -(-0.697) =7.506a2xy101039从而可得经验方程= +b1x1+b2x2=7.506+0.234x1-0.697x2Ya回归方程表明:在价格不变情况下,消费者收入增加 1 百元时,对该商品的需求平均上升 0.234 件;在消费者收入不变情况下,价格每上涨 1 元时,对该商品的需求平均下降 0.697 件。从数学角度看,回归方程 =7.506+0.234x1-0.697x2是一个以 为纵坐标轴、Y Yx1和 x2为横坐标轴的回归平面。此外,回归方程 Y=A+B1X1+B2X2+BkXk+e 中的随机误差项 e 的方差 2也是未知的,其无偏估计量为 1)(22nYyQ上式中,n-k-1 为自由度。从这里可以看出,样本容量 n 必须大于或等于 k+2,即 nK+2,否则就无法估计 2。事实上,实践中进行回归分析时,样本观察值数目要比 k+2 大得多。二、多元线性相关分析对多元线性回归方程而言,总离差平方和 T 同样可以分解为回归离差平方和 R及残差平方和 两部分,即QT=R+Q由此,可以定义出样本的复判定系数,即r2= (式 9.49)TRr2反映了经验方程对总体线性相关关系的拟合优度的大小,其值愈大,说明回归方程的拟合优度愈高,反之,拟合优度愈低。显然,0r 21,r 称为复相关系数,它测定了因变量 y 与 k 个自变量 x1、x 2、x k之间线性相关程度的大小。r称为复相关系数,它为泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 288 页r= (式 9.50)TR对于例 9.4,由于T=( - )2= =675- (79)2=50.9y2)(1yn01=YQyxba21=675-7.50679-0.2341127-(-0.697)274=9.286R=T- =50.9-9.286=41.614因此可得r2= = =0.82TR9.50614r= =0.908.0复相关系数 r 总是取正值,因为在多个自变量情况下,偏回归系数有两个以上,无法说明 y 与 k 个 x 变量线性关系的方向。与简单线性回归及相关分析不同,一般说来,进行多元线性回归分析时,随着自变量个数的增加,总离差平方和 T 虽不发生变化,但回归离差平方和 R 却随之增大,残差平方和 随之缩小。Q对于例 9.4,若只进行需求量(y)和收入(x 1)之间的回归分析,设回归方程为= +b1x1Ya此时, 和 b1的取值分别为a=0.4592212 39507)(xny=1.795345.0791bya回归方程为=1.795 + 0.459x1Y此时T=( - )2= =675- (79)2=50.9y2)(1yn0泉州智峰管理咨询有限公司 龚启海咨询机构提供第 28 页,共 289 页R=( - )2= b12 Yy21)(xn=(0.459)21935- (133)2=34.990=T-R=50.9-34.99=15.91Q由此可以看出,价格因素(x 2)未加入前,R=34.99,它小于价格因素(x 2)加入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论