薪酬设计回归分析_第1页
薪酬设计回归分析_第2页
薪酬设计回归分析_第3页
薪酬设计回归分析_第4页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关与回归分析第一节简单线性相关分析一、相关关系的概念与种类( 一 ) 相关关系的概念在自然界和人类社会中,普遍着存在现象之间的相互依赖、相互制约的关系。一些现象在数量上的发展变化经常伴随着另一些现象数量上的发展变化。现象间的数量关系可分为两种基本类型:函数关系。它是指现象间存在的严格依存的、确定的因果关系, 一种现象的数量变化必然决定着另一种现象的数量变化,这种关系可通过精确的数学表达式来反映,比如,圆面积同其半径的关系为s=r2,自由落体落下的距离同时间的关系为h= 1gt2,等等。相关关系。指的是现象2之间确实存在着数量关系, 但这种关系不是严格确定的, 当一种现象的数量发生变化时,另一

2、种现象的数量可能在一定范围内发生变化, 出现不同的数值。 比如,单位产品成本同产量之间的关系, 一般说来,当工厂规模扩大, 产品产量增加时,单位产品成本会随之下降, 这种变化趋势体现了规模经济的效应, 具有客观性和普遍性。但由于影响产品成本的因素众多,有主要的,也有次要的,有必然的,也有偶然的, 有随机的, 也有非随机的, 有观察得到的, 也有观察不到的, 等等。同一产量水平下, 可能会出现各种各样的单位成本, 或者某一确定的单位成本对应着不同的产量,两者的关系不是唯一确定的。粮食收获量与施肥量之间、商品价格与需求量之间、 身高与体重之间等都具有类似的特征,这种关系就是相关关系。函数关系与相关

3、关系既有区别,又有联系。由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候, 相关关系又可能转化为函数关系。在社会经济领域里, 一般说来,函数关系反映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描述。综上所述,相关关系是现象之间确实存在的,但关系数值不固定的相互依存关系。相关分析则是研究一个变量与另一个变量或另一组变量之间相关密切程度和相关方向的一种统计分析方法。( 二 ) 相关关系的种类现象之间的相关关系是很复杂的,从不同的角度看, 相关关系有不同的种类。1. 固定相关

4、和随机相关。按变量的性质 ( 是否是随机变量 ) ,相关关系可分固定相关和随机相关。 固定相关是指一个随机变量与另一个或一组非随机变量之间的的相关关系。例如,农作物的施肥量是一个可控制的变量,农作物收获量是一个不确定的变量, 两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关。 随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。例如,大学生的身高和体重之间的关系就是两个随机变量之间的随机相关关系,如果观察某一身高的一组学生时,其体重各不相同,会形成一个分布;如果观察某一体重的一组学生时, 其身高也不相同并形成一个分布, 两个变量均为随机变量。2. 简单相关和多元相

5、关。按变量的多少,相关关系可分为简单相关和多元相关。简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相关关系;多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量之间的相关关系。按变量之间的相关方向不同,简单相关又可分为正相关和负相关。当自变量的值增加,因变量的值也相应地增加;自变量的值减少,因变量的值也随之减少时,这样的相关关系就是正相关。反之,当自变量的值增加时,因变量的值随之减少;自变量的值减少时,因变量的值反而增加,具有这种特点的相关关系就是负相关。多元相关可进一步分解为简单相关和偏相关。偏相关是指在测定一个随机变量与某个或某些随机变量或非随机变量

6、之间的相互关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关。3. 线性相关和非线性相关。按变量之间的相关形式,相关关系可分为线性相关和非线性相关。 若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表现为线性组合时,则称它们之间的相关关系为线性相关。反之,若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。4. 完全相关、不完全相关和不相关。按变量之间的相关程度不同,相关关系可分为完全相关、 不完全相关和不相关。 若一个变量的值完全由另一个或一组变量的值所决定,则称

7、变量之间的这种相关关系为完全相关,即函数关系。若一个变量的值与另一个或一组变量的值有关, 但其中要受到随机因素的影响, 则称变量之间的这种相关关系为不完全相关。 若一个变量的值完全不受另一个或一组变量值的影响, 则称变量之间不相关。 大量社会经济现象之间的相关关系都属于不完全相关, 不完全相关是相关分析的基本内容。 完全相关和不相关可视为相关关系中的特例。二、简单线性相关图表判定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一。其最简单、最直观的方法就是列相关表、绘制相关图。简单线性相关关系有固定简单线性相关与随机简单线性相关之分。简单线性相关图表可用于直观地表明这两类简单线性相

8、关变量之间的相关程度和相关方向。( 一 ) 固定简单线性相关图表已知有两个变量,设y 是随机变量,x 是非随机变量,对应于x 的每一个给定的取值,y 有多个可能的取值,但在一次试验中,y 只取其中一个可能值。由于x是非随机变量,在实验中其取值可以控制并重复进行,所以在n 次试验中,x 可能取n 个相同或不同的值,相应地也有n 个y 的值,即得到一一对应的样本资料 (x,y)。将这些数据按x 的取值由小到大依次对应排列,即构成固定简单线性相关表,又称之为一维相关表。例某地区居民人均收入水平(x) 与其食品支出占生活费支出比重(y) 之间具有相关关系,编制相关表如下(见表9-1 ):表 9-1一维

9、相关表人均收入水平2803203905306506707908809101050( 元)x食品支出占生活费支出比重(%)y从表 9-1 可以粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。将一一对应的 (x,y)描点于坐标系上, 即构成散点图, 又称相关图。 在相关图上,以横轴表示非随机变量(x),以纵轴表示随机变量(y) ,通过观察各对变量值坐标点的分布状况,可以大致判断变量之间相关的形态、方向和密切程度。利用表 9-1 资料,可绘制相关图如下( 见图 9-1) :图 9-1居民人均收入水平与其食品支出的关系图从图 9-1 可以看出,随着居民人均收入水平的提高,

10、食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。一些常见的相关分布状态可用下述各图表示( 见图 9-2) :较显着的线性正相关较显着的线性负相关不显着的线性负相关不相关图 9-2几种常见的相关散点图( 二 ) 随机简单线性相关图表设 x 、y 为两个随机变量,将观测值 (x,y) 分组之后按顺序排列, x 从小到大排列, y 从大到小排列,形成一棋盘式平衡表,称之为二维相关表。例某地区为研究降雨量和农作物平均每亩收获量的关系,从 40 个降雨量不同的试验田中获得40 对数据。用x 表示降雨量, y 表示平均每亩收获量。据此可编出二维相关表如下(见表9-2 )。该表中,中

11、间每一格列出的是x、y 的联合频数, 它表明 x 和 y 同时取某值的次数;最后一列每一格是每一行的联合频数的和,它表明y 取某值的次数;最后一行每一格则是每一列的联合频数的和,它表明x 取某值的次数。表 9-2二维相关表降雨量(毫米) xi行频数 f ij收获量(公斤) y j810 1214 1618 和(f j )260121424022262202351112001363131801231601113列和 (f i )3614115140从表 9-2 可以粗略看出,降雨量与收获量之间大致呈线性正相关关系。280y1212602)240222斤2201351公 200363( 18011

12、2量 16011获 140收 120亩 100每 80均60平40x20002468101214161820降雨量(毫米)利用表 9-2 资料,可绘制相关图如下( 见图 9-3) :图 9-3降雨量与收获量之间相关图三、简单相关系数( 一 ) 简单相关系数的意义简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。总体相关系数一般用R 表示,定义式为2XYR(式)XY式中,X 和Y 表示变量 X 和 Y 的标准差,对有限总体而言,其计算公式为(XX)2XN(YY ) 2YN(式)(式)2 XY 表示两个变量X 和 Y 之间的

13、协方差,计算公式为2(XX) (XY)XY(式)N这里,变量 X 和 Y 为总体变量, N为总体单位数,X 和Y 分别为变量 X 及 Y的总体平均数,计算式为XYXNYN(式)(式)要理解相关系数R 的意义,首先要明确协方差2X、 Y在反映XY 和标准差变量之间相关关系中的作用。协方差2 XY 反映了变量X 和 Y 的共变性,可以显示两个变量的相关方向和相关关系的密切程度,它可能出现以下几种情况:第一,所有相关点均为正相关,则第二,所有相关点均为负相关,则2XY2XY0 ,说明两个变量之间正线性相关。0 ,说明两个变量之间负线性相关。第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算

14、协方差时就会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。若正、负全部低销掉了,结果为零,则表示不相关。第三种情况是实际经济生活中最常见到的情况。此外,还有两种极端的情况:当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。进一步,相关系数是一个界于+1 和 -1 之间的数,即 -1 R 1,若 R=1,说明两个变量之间存在完全正线性相关;若R=-1 说明两个变量之间存在完全负线性相关;若 0R1,说明两个变量之间存在一定程度的正线性相关;若

15、-1R0,说明两个变量之间存在一定程度的负线性相关;若R=0,说明两个变量之间没有线性相关关系。( 二 ) 简单相关系数的计算在实际工作中,总体相关系数R 一般是未知的,往往需要用样本资料推断总体的相关情况,因而需要计算样本相关系数。1. 固定简单线性相关系数的计算设 x 和 y 为样本变量, 其中 y 为随机变量, x 为非随机变量, n为样本容量,x 、 y 分别为变量 x 及 y 的样本平均数, sx 、 sy 和 s2xy 分别表示变量x 和 y 的样本标准差及它们之间的样本协方差,其计算为x(式)xny(式)ynsx(xx )2(式)nsy( yy)2(式)ns2xy( x x)(

16、yy)(式)n于是,就可得到与总体相关系数计算形式相同的样本相关系数(记为r )的公式s2xy(式)rsx sy经过简单的推导,上式还可变化为下面易于计算的形式rnxyx y(式)x) 2n y 2n x 2( y) 2根据表 9-1 的资料计算相关系数如表9-3 所示 :表 9-3固定简单线性相关系数计算表人均收入食品支出占生序号水平(元)活费支出比重x 2y 2xyx(%)y1280784001912423201024002160033901521002581845302809003439756504225003685566704489004033477906241004297688807

17、7440043120991082810045955101050110250045780合计64704814300355959将表 9-3 数字代入上述相关系数计算公式,得:103559596470581.3= -21048143001034466 .0926470581.32. 随机简单线性相关系数的计算如果 x 和 y 均为随机变量,计算样本相关系数的基本式仍为但由于存在联合频数 ( f ij ),其具体的计算略有变化,经过不复杂的类推可得下式rfijxi y j f ijxif i y jf j(式)y j 2 f j ( y j f j ) 2fi xi 2 fi( xi f i ) 2

18、f j根据表 9-2 资料计算相关系数,计算过程如表9-4 、表 9-5 、表 9-6 所示:表 9-4降雨量( x)数据的计算表降雨量 ( 毫米 )x if ix i2x i f ixi2 f i83642419210610060600121414416820161411196154215616525680128018132418324合计405046568表 9-5平均每亩收获量(y)数据的计算表平均每亩收获量 ( 公f jy j2y j f jyj2 f j斤)y j1603256004807680018033240054097200200134000026005200002201148

19、400242053240024065760014403456002604676001040270400合计4085201842400表 9-6平均每亩收获量( y)数据的计算表降雨量 ( 毫米 )x i平均每亩收获量 ( 公斤 )y jf ijx i yj f ij81601128081801144082001160010160116001020036000102202440012160119201218024320122006144001222037920122402576014200384001422051540014240267201426013640162201352016240276

20、8016260283201626014680合计40109000根据以上各表资料可得:=401090005048520504 28520 2406568401842400=四、相关系数的统计推断总体相关系数R 一般是未知的, 能够计算出的只是样本相关系数r ,r 虽然能够提供关于总体相关程度与方向的某种信息,r 愈大,在一定程度上说明总体相关程度愈高, 但也可能犯错误。 这就需要根据样本资料对总体相关系数R 进行检验和估计。( 一 ) 关于总体相关系数R 的检验由于相关系数r 的分布复杂,不能直接利用它去进行统计推断,但如果设ZR= 1 ln( 1R )21Rzr = 1 ln( 1r )21

21、r(式)(式)可以证明,当样本( x,y )抽自正态分布总体时,zr 近似服从平均值为ZR,方差为1的正态分布,于是n3z=(z r -Z R)n3(式)近似服从标准正态分布。据此可以检验H0: R=R0(R0 0)利用例资料,计算的样本相关系数r=, 是否可以认为总体相关系数R=,统计假设为H0: R=H1: R此时,R11R1ln(10.90)=Z =2ln()210.901Rzr = 1 ln( 1r )1 ln(10.98) =21.r210.98于是,检验统计量z=(z r -Z R)n 3=+ 103=当显着水平 =5%时,查正态分布表可得 ZZ 0.0251.96 Z2.186

22、,故否2定 H0,接受 H1,即不能认为总体的相关系数 R=。同理,也可以对总体相关系数进行单边检验。 ( 二 ) 关于总体相关系数 R 的区间估计首先,求出 ZR 的估计区间。若与估计保证程度对应的概率度为Z,ZR 的估计区间就为zr -ZRz r +zn 3Z3n对于例, ZR 的 95%置信估计区间为1.961.96即根据 ZR 的置信区间,可以换算出R 的置信区间:103103R11R )=时, R=当 Z =ln(1R2R11R )=时, R=当 Z =ln(1R2计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关系数 R的 95%的置信区间为至。同理,也可类似地

23、对例进行分析,请读者自己思考。第二节简单线性回归分析一、回归分析的概念和种类从历史上看,“回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887 年,他第一次将 “回复”(Reversion )作为统计概念使用, 后改为“回归”( Regression )一词。 1888 年他又引入“相关” ( Correlation)的概念。原来,他在研究人类身高的遗传时发现, 不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗的讲就是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样

24、矮,因为子女的身高不仅受到父母的影响(尽管程度最强),还要受其上两代共四个双亲的影响(尽管程度相对弱一些),上三代共八个双亲的影响(尽管程度更加弱一些),如此等等,即子女的身高要受到其n2 (n趋近无穷)个祖先的整体(即总体)影响,是遗传和变异的统一结果。回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。 从狭义上看, 相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向的, 而回归分析则是在相关分析的基础上进一步借用数学方程将那种显着存在的相关关系表示出来, 从而使这种被揭示出的关系具体化并可运用于实践中去。 但也常从广义的角度去理解相关和回归,

25、此时回归分析就包含着相关分析。回归分析最基本的分类就是一元回归和多元回归,前者是指两个变量之间的回归分析, 如收入与意愿支出之间的关系; 后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等。进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。二、简单线性回归方程总体的简单线性回归模型可表示为Y=A+BX+e(式)上式中, X 称为自变量, Y 称为因变量, e 称为随机误差值。从这里可以看出相关分析与回归分析

26、的显着区别,在前述的相关分析中通常可以将变量 X 和 Y 视作是某种“对等”的因素,而在这里的回归分析中,它们却是不“对等”的。自变量是解释变量或预测变量,并假定它是可以控制的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即相同的 Y 可能是由于不同的X 所造成,或者相同的X 可能引起不同的Y,其表现正是随机误差项e。随机误差值 e 是观察值 Y 能被自变量X 解释后所剩下的值,故又称为残差值,它是随机变量。A 和 B 为未知待估的总体参数,又称其为回归系数。 由此可见, 实际观测值 Y被分割为两个部分:一是可解释的肯定项A+BX,二是不可解释的随机项e。与相关分

27、析类似, 总体的回归模型Y=A+BX+e是未知的, 如何根据样本资料去估计它就成为回归分析的基本任务。由此可以假设样本的回归方程如下:?abx(式)Y?和 b 分别为 Y、A 和 B 的估计值。上式中, Y 、 a如果对变量 X 和 Y 联合进行 n 次观察,就可以获得一个样本(x,y) ,据此就可求出 a 、 b 的值。求 a 、b 的方法有多种, 但一般是采用最小平方法。它要求观察值 y 与估计值?的离差平方和达到最小值,即YQ( y? 2( y2=最小值Y )a bx)满足这一要求的a 和 b 可由下述标准方程求出y=na +b xxy= a x+ b x2解方程得:b( x x)( y

28、 y)n xyx y(xx)2n x2( x)2 (式)ay bxyb x(式)nn例为研究某类企业的生产量和单位成本之间的关系,现随机抽取10 个企业,得如下数据(见表9-7 ):根据该资料,经计算可得表9-8 :表 9-710个企业的生产量和单位成本情况编号12345678910产量(万件)2344566789单位成本 (元/ 件)52545248484645444038表 9-8一元线性回归计算表产量单位成本编号(万件)(元/ 件)x 2y2xyy- Y?xy12524270410423549291616234521627042084448162304192554825230424066

29、4636211627676453620252708744491936308984064160032010938811444342合计544673362205324224670由上表资料,可得:nxyx y10242254 467= -bx2( x) 210 33654 2na y b xnn467 ( 2.25) 54 =1010这样就可以得到生产量(x) 和单位成本 (y) 之间的样本回归方程?Y a bx =在简单线性回归方程Ya bx 中, a 为截距 , b 为斜率,后者表示?x 和 y自变量 x 变化一个单位时, Y 将平均变化 b 个单位。当 b 取正值时,表明的变化方向相同,当

30、b 取负值时,表明 x 和 y 的变化方向相反。本例中,b =,表明产量每增加 1 万件时,单位成本将平均下降元。根据样本资料获得的回归方程?a bx 又称为经验方程,如果计算出观察值Y?y-?y 的估计值 Y ,并进一步求出残差Y ,就可以观察回归方程对总体方程拟合的优良程度。对于某一特定的自变量x 而言,观察值?y 同其估计值 Y 是有一定差别的,比如,当产量为 5 万件时,实际单位成本为48 元,而其估计值为元,两者相差元,但全部残差项之和等于零( 见表 9-8) ,这说明估计值平均来说是无偏的。事实上,最小平方估计量还满足下式(y-?)=0Y即yY?这里, ?表示估计值? 的平均值,即

31、 ?YYYYn从理论上讲,最小平方法具有优良特性,因为参数A、 B的最小平方估计量 a 、 b 是最优的线性无偏估计量,这一性质通常称为“高斯马尔科夫定理”,这也是最小平方法获得广泛应用的主要原因。此外,如果记随机误差项e 的方差为2, 它也是未知的总体参数,其无偏估计量为?2Q( y?2Y)(式)n2n2上式中, Q( y? 2称为剩余离差平方和或残差平方和,n-2 为自由度。Y)三、离差分析对于某一个观察值yi ,其离差大小可通过观察值yi 与全部观察值的均值y 之差 yi - y 表示出来, yi - y 又可进一步分解为 Y?i- y 和 yi - Y?i 两部分,即yi -y =(

32、Y?i- y )+(yi - Y?i )可以证明,当变量X 和 Y 之间线性相关时,还进一步存在下述等式关系2?y )2+ ( y -?2( y - y )=(Y-Y )通常记T= (y - y ) 2R= (?2Y - y )分别称 T、R和 Q 为总离差平方和、 回归离差平方和和剩余离差平方和。总离差平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归估计值自身的离散程度, 它是由于回归方程及自变量 x 取值不同所造成的, 是可以解释的差别;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和。显然, T 中 R 的比重愈大,或者 Q 的比重愈小,则说明

33、线性回归拟合愈好,反之,拟合就愈差。由此可以建立下述指标r 2= R(式)T称 r 2 为样本相关程度的判定系数,r=R为样本相关系数。由此就可直观地T看出r 2 和r的特性:(1)r 2(2)|r|1 或 -1r愈接近于+11,相关程度愈强;|r|愈接近于0,相关程度愈弱。(3)r 取正值时表明正相关,r 取负值时表明负相关。(4)r 只能表明总体是否可能存在线性相关,当|r|很小甚至接近于0 时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步判定。从计算角度看,上述几种离差还可表示为T=( y - y ) 2= y21 ( y) 2n1R= (?-y )22( x -22x

34、2( x)2Y=bx )=b n? 2 =T-RQ( yY)对于例,有T= y 21 (y)2 =22053- 1 × (467)2=n1101 ×(54)R= b2x2( x) 2 = 2×336-2=n10Q =T-R=计算结果说明: 单位成本的总离差平方和为,其中由于产量变化所造成的为,占 %,由于产量以外的所有因素共同造成的为,占%。据此计算的相关系数为r=R =224.78=T244.10四、统计推断依据样本数据得到的经验回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以判断。可以证明:当变量Y 服从正态分布时,从中随机抽取样本(x,y)

35、,回归系数A 和 B 的最小平方估计值a 和 b 也服从正态分布,其平均值分别为a =A(式)b =B(式)方差分别为22x22 x2(式)an ( xx )2212n x(x)n222(式)b21(x x )x2x)2(n于是,就可建立两个标准正态统计量zaAa(式)zbAb(式)并且,a 2 和b 2 的计算式中2 一般未知,但其无偏估计量为据此对 A 和 B 进行统计假设检验的步骤如下(仍以例的资料):(1)检验 A第一步:建立统计假设0H :A=01H:A 0第二步:计算 z 统计量由于 ?2Q19.32 =n 21022.4153361=10336542 10?a1.828 =因此,

36、检验统计量为zaA=58.85 0=a1.352第三步:确定显着水平,做出判断若设=5%,经查表得 zz0.975 =<z=, 拒绝零假设,即认为回归系数A12显着的不为零。(2)检验 B同理,可对回归系数B 进行检验。若统计假设为H0:B=0H1:B0此时2?22.415=?bx2 1 ( x) 21542336n10?b0.054=检验统计量 zbA = 2.250 =b 0.233由于 zz0. 975 =<|z|=, 拒绝零假设,即认为回归系数B 也显着的不等于零,12说明单位成本同产量之间存在显着的线性相关关系。与前面的讨论类似,也可对 A 和 B 进行单边检验以及A 和

37、 B 是否显着的与某一确定值相同或不相同的检验。 但通常进行的是对 A=0和 B=0 的检验。对 A=0 的检验是考察回归直线是否通过坐标原点; 由于 B 表示 X 变化一个单位时对 Y 的影响程度,因此对 B=0的检验实际是考察这种程度是否为零, 即是否存在线性相关关系。另外,通过最小平方法获得的a 和 b 只是 A 和 B 的点估计量, 在此基础上可进一步给出它们的区间估计。当置信度为 1时,A 和 B 的置信区间分别为a -aAa +a(式)b -bAb +b(式)这里a = za12b = zb12对于例,当置信概率为95%时(式)(式)?=z? =×=aa12?=z? =×=bb12于是可得 A 和 B 的置信区间分别为A +即 AB +即 B五、回归预测拟合的回归方程及其参数通过检验后,经常要应用它去预测, 显然,给定 x=x0时, Y 的点预测量为?a bx0(式)Y0Y 的置信度为 1-的区间预测量为?- Y0Y?+ Y0(式)Y0Y0这里Y0= zY0(式)1221( x0x)2 (式)121nx(x)2n接上面的例子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论