第六章回归分析_第1页
第六章回归分析_第2页
第六章回归分析_第3页
第六章回归分析_第4页
第六章回归分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 回归分析l什么是回归是研究自变量和因变量之间的关系形式的分析方法其目的是根据已知自变量来估计和预测因变量的总平均值6.1 回归分析和相关分析相关关系的概念函数关系:反映客观事物之间存在着严格的依存关系。这种关系中,对于某一变量的每一个数值,都有另一个变量的确定的值与之对应,并且这种关系可以用一个数学表达式反映出来。例如:欧姆定律:I=U/R相关关系:反映客观事物之间的非严格、不确定的线性依存关系。其特点是:对应于一个变量的某个取值,另一个变量以一定的概率分布取值。例如身高和体重的关系。相关关系的定义:设有二维随机变量X和Y,若对应于其中任一随机变量的每一(可能的)取值都有另一个随机变量

2、的一个确定的(条件)分布,则称X与Y存在有相关关系。相关关系的特点 客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化 客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在给定自变量一个数值,因变量会有若干个数值和它对应,并且,因变量总是遵循一定规律围绕这些数值的平均数上下波动。其原因是影响因变量发生变化的因素不止一个。(a)直线关系(b)反直线关系 (c)正曲线关系(d)反曲线关系(e)较分散的反直线关系(f )没有关系x与y的一些可能关系的散点图回归分析与相关关系 都是研究和测度两个或两个以上变量之间关系的方法。

3、相关分析研究的是两个或两个以上随机变量之间线性依存关系的紧密程度。常用相关系数,复相关系数表示。 回归分析是研究某一个随机变量(因变量)与另一个或几个普通变量(自变量)之间的数量变动的关系。回归模型通常是不可逆的。回归分析与相关关系的区别与联系 区别:相关分析研究的变量都是随机变量,并且不分自变量和因变量,它们处于对称的地位;回归分析研究的变量要首先明确哪些是自变量,哪些是因变量?并且自变量是确定的普通变量,因变量是随机变量。因此,获得的回归方程是不可逆转的。 联系:是研究客观事物之间相互依存关系的两个不可分割的方面。一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基

4、础上建立回归模型,以便进行推算和预测。回归分析概述 Y对X的回归方程反映了X固定在x值条件下Y的平均值,即Y对X的回归就是Y对X的条件期望函数。该求解过程可称为曲线拟合。 三个问题:什么形式的回归方程?最佳的回归方程?特定方程的性质?回归模型的种类 根据自变量的多少,分为一元回归模型和多元回归模型 根据回归模型的形式线性与否,分为线性和非线性回归模型 根据回归模型是否带有虚拟变量,分为普通回归和带虚拟变量的回归模型。 根据回归模型是否用滞后的因变量作自变量,分为无自回归现象的回归模型和自回归模型。6.2 一元线性回归模型个观测值。的为模型。其中也是一个一元线性回归,代入上式中得对观测值的是待定

5、参数,给定常数态随机变量,即上的对应值为中心的正直线影响,它是一个以回归由于受各种随机因素的就是我们的预测目标,因变量布,即它服从正态分心极限定理,可以认为的影响的总和,根据中表示各随机因素对变量;先给定的,故称之为自为它是可以控制的或预代表影响因素,往往认式中,为:,即一元线性回归模型之间存在某种线性关系与为因变量,为自变量,设nbxayniyxnyxbabxaNyyNyxbxayxyyxiiiiii,.,2 , 1,),();, 0(22一元线性回归模型负相关。与时,正相关,与时,证明,当(或减少)多少。可以相应增加,因变量加(或减少)一个单位的斜率,表明自变量增是直线的估计值;时轴上的截

6、距,它是在是直线为回归系数,其中和;值,都可以得到一个估计变量的估计值。对于每个自为式中,得到的回归方程,则上为由一组观测值(令yxbyxbyybyxyyababxayxyyyxbxayiiiiiiiiiiiiii000),OLS估计(ordinary least square) 估计模型的回归系数的方法:最小二乘法 中心思想:通过数学模型,配合一条理想的趋势线。这条趋势线必须满足以下要求:(1)原数列的观测值与模型估计值的离差平方和为最小(2)原数列的观测值与模型估计值的离差总和为0为模型的估计值为原数列的观测值;式中,iiiiiiyyyyyy0)(min)(2OLS估计(ordinary

7、least square)nxbnyaxxyyxxxnxyxnyxxxnyxyxnbyxxbxayxbnaxbxaybQbxayaQbaQbxayyyQiiiiiiiiiiiiiiiiiiiiiiiiiiiii)()()(0)(20)(2,Q)()(22222222回归系数的估计值为对上式联立求解,得到整理得,为零,有的两个一阶偏导数对取极小值的必要条件是由极值原理,记根据最小二乘法的要求几个规律nxbnyaLLbyxnyxyxnyxyyxxLynyynyyyLxnxxnxxxLiixxxyiiiiiiiixyiiiiyyiiiixx1)()(1)()(1)(2222222222所以有则相应有

8、如果令求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢精炼时间对含碳量的回归方程,说明回归方程的确定。10.9100炉次含碳量(%)(x)精炼时间(分)(y)某钢铁厂十个炉次钢液含碳量和精炼时间某钢铁厂十个炉次钢液含碳量和精炼时间10234567892.01.0 1.2 1.4 1.5 1.6 1.7 1.81.9105235130 145 170 175 190190 220可以看出,x与 y之间的关系近似为直线关系。我们可以对其配合一条回归直线。为计算回归方程的系数a、b,我们先对原始数据进行加工。yx2y2xy100105130145170175190

9、1902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642炉次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始数据加工表51151011.xnx16616601011yny635120.b 95251451635120166.xbya所以:故精炼时间关于含碳量的回归方程为:y= 14.9525+120.635x计算

10、结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,则精炼时间平均来说大约要延长12.06分。根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精炼时间:相关系数-离差平方和的分解在一元线性回归模型中,观测值yi的取值大小上下波动,这种波动称为变差。产生变差的原因有两方面: 受自变量变动的影响,即x的取值不同; 其他因素(包括观测和实践中产生的误差)影响。称为总离差,其中,离差的平方和表示为这些次观测值的总变差可由来表示,而全部的离差平均值与其算术观测值变差的大小可以通过该对每一个

11、观测值来说,yyiyyiiLyyLnyyyy2)-(-相关系数-离差平方和的分解回归变差剩余变差即总变差记为由于212222)() ()() ()(QQLyyyyyyyyyyLyyiiiyy 剩余变差(残差平方和)由观测或实验中产生的误差以及其他未加控制的因素引起的,反映的是总变差中不能被自变量x解释的部分 回归变差(回归平方和)是由自变量x的变动而引起,是总变差中可由自变量x解释的部分相关系数-可决系数R210)()(1)()(22222222RyyyyyyyyRxyRRiiiii可见,。系强弱的一个重要指标之间线性相关关比例,是评价两个变量引起的回归变差所占的变动所的总变差中由自变量的大小

12、表明了在可决系数总变差回归变差相关系数R2222222222)()()()()(2)()(1)()(1iiiiiiiiyyxxxyiiiiiiiiiyynxxnyxyxnRLLLyyxxyyxxRyyyyyyyyR也可简化为:)根据积差法定义:()根据总变差定义:( 相关系数是可决系数的平方根,它是一元线性回归模型中用来衡量两个变量之间线性相关关系强弱程度的重要指标相关系数R,中度相关,低度相关;,高度相关;一般地,越高。值越大,表示相关程度普通相关。影响,这种情况称为的变动对总变差有部分时,说明自变量)当(之间呈函数关系;的线性函数,二者是自变量完全相关。这是因变量化引起,这种情况称为的变完

13、全由自变量总变差,总变差的变化时,说明回归变差等于)当(不相关;与情况称响,这种的变动对总变差毫无影,自变量时,说明回归变差为)当(7 . 0R0.33 . 0R7 . 0R1R031R200R1Rxxyxxyx 从定义中来看,相关系数的取值范围为-1=R=1,相关系数为正值表示两变量之间为正相关;为负值表示两变量之间为负相关。相关系数R的绝对值大小表示相关程度的高低。r= 1(1)1 r =0(2)r=0(3)r=0(4)0r1(5)r=1(6) 相关图与相关系数经验关系应当注意,相关系数r只表明x与y之间的线性关系的密切程度和方向。当r很小甚至为0时,只表明x与y之间的线性关系不密切,或不

14、存在线性关系,并不表示x与y之间就没有关系,可能二者之间有非线性关系。如上图 (4)所示,x与y之间就存在着曲线关系。回归方程在一定程度上揭示了变量之间的内在联系,但它所揭示的规律性是否显著?只有当相关系数r的绝对值大到一定程度时,用回归直线表示x与y之间的关系,并说明相关系数 r显著,配置回归直线才有意义。那么r究竟大到多大时,x与y之间才存在线性关系,配置回归直线才有意义呢?显著性检验为了给出相关系数的定量刻划,相关系数显著性检验表给出了显著性水平a为0.10, 0.05, 0.02, 0.01, 0.001时的临界值。如果相关系数观测值r大于相应的临界值,则认为y与x的线性相关关系是显著

15、的,配置回归直线有意义。否则便认为y与x的线性相关关系不显著。查表时,使用的自由度为nm1。其中n为样本容量,m为参与试验的因素个数,在一元回归场合下查表用自由度为n2。显著性检验调整。用来进行预测,要重新不通过,回归模型不能验性相关关系不显著,检,表明两变量之间的线若显著,检验通过;相关关系,表明两变量之间线性第三步:判别。若查出临界值从相关系数临界值表中值,和给定的显著性水平的自由度第二步:根据回归模型;第一步:计算相关系数)2(R)2(R);2()2(RnRnRnRn1、相关系数检验法:显著性检验则不显著相关关系显著;反之,则认为两变量之间线性若。分布表可得临界值,查的显著性水平分布。对

16、给定的,第二自由度为服从第一自由度为可以证明统计量:构造,)2, 1 (FF21F)2/()()(F22FFnFnnyyyyFiii2、F检验法:显著性检验3、t检验法:检验a,b是否显著异于0的方法。以b为例,即检验线性关系是否成立。;反之,则不显著异于异于显著则认为。若分布表可得临界值查,水平分布。对给定的显著性的服从自由度为可以证明的样本标准差。是统计量:构造00),2()2(t2tt2/2/bnttnttnbSSbtbb预测区间22)(2)()3()()(1 ,)2()(,(1222222200022nyxbyaynyySynyyxxxxnbxaNyxxbNbbbiiiiiiyiiii

17、的估计标准误差的无偏估计量为总体方差点估计量也是正态随机变量,的估计量)回归系数(可以证明: 预测区间是指在一定的显著性水平上,依据数理统计方法计算出来的包含预测目标未来真实值的某一区间范围。预测区间02002000002200202222202022200000000030)2()2()()()(11 ()()(11 ( , 0(,),(SZynSntyyntSyySeDSSSxxxxnSxxxxnNeyyexbayyxyyii时,简化为当的预测区间为:时,预测值可知,在显著性为分布,故有服从明的无偏估计量,可以证也是的无偏估计量,所以是令:可证明设其预测误差为:,预测值为设预测点为应用举例

18、例6.2.1解题步骤第一步:绘制散点图,观察变量之间的关系,确定回归模型一般形式第二步:建立回归模型(以一元线性回归为例)第三步:计算回归系数,确定模型形式第四步:检验线性相关的显著性:相关系数检验,F检验或t检验第五步:预测:(1)点估计(2)区间估计今日作业P198,2,3,利用EXCEL操作,打印出输出表格,粘贴在作业本上。6.3 多元线性回归模型研究某一个因变量与多个自变量之间的相互关系的理论和方法多元线性回归模型nnnmnmmniimmiiiiimmiiiimiiimmmmBxxxxxxXyyyYXBYxxyxixxxxynixxxyxxxyxxxyyxxx.,.,.1.1.1,.1

19、1.,.,2 , 1,.,.,.,.,21212222112212211122112121221121其中,其矩阵形式为,上式变为:有,即对任意的观测值恒等于若取对应地有的一组观测值给定变量线性回归模型:线性的,这时建立多元的关系是素与影响,假定各个影响因因素设所研究的对象受多个OSL估计YXXXBBBXXXYBXBXBXBYYYBXBYXBYBEEBXBYXBYEEYYYYEEXBYYYEE1)(0)(2)(2)2()()(min)()(min)()(,B的估计值为:整理得回归系数向量则得求导,并令其等于零,阵求导法则,上式对根据极值原理,根据矩即,应有根据最小二乘法的要求其中,则,值的残差

20、向量为,设观测值与模型估计参数向量仍采用最小二乘法估计二元线性回归模型0)(20)(20)(2,Q)(),(OSL,);,),.;,(),;,22221102122110122110021022211021022110210212222111211iiiiiiiiiiiiiinnnxxbxbbybQxxbxbbybQxbxbbybQbbbxbxbbybbbQxbxbbybbbyxxyxxyxxm令其为零,得到的一阶偏导数,对在,分别求分条件,知其最小值存根据多元函数的极值充估计,构建使用建立回归方程来估计未知参数(值归模型。要求根据样本时,便得到二元线性回,当在多元线性回归模型中二元线性回归模

21、型)()()()()()(,2222211211221211112211021021022222112012122111022110yyxxxxbxxxbyyxxxxbxxxbxbxbybbbbbbbxyxbxxbxbxyxxbxbxbyxbxbnbiiiiiiiiiiiiiiiiiiiiiiiiiii代入后两个方程中,得根据第一个方程得的最小二乘估计值。,分别称组,其解为此方程组称为正规方程:整理后得到线性方程组二元线性回归模型)()(,)()(;)()()(;)(2221112211002122221211212111222222221111121212211122222222222121

22、21111xxbxxbyyxbxbbybbblblbllblblynyyylyxnyxyyxxlyxnyxyyxxlxxnxxxxxxlxnxxxlxnxxxlyyiiyyiiiiyiiiiyiiiiiiii或方程从而得到二元线性回归获得,再利用上面的公式,此得到仍称为正规方程组,据于是,记回归系数的统计特征211111)()(),cov(2)()()()()()(1XXBBBBEBBBBBBBEXXXXBXXXEXBXXXEYXXXEBEB可证的协方差)回归系数(的无偏估计量是可见)(的数学期望)回归系数(多元线性回归模型的检验用于进一步分析回归模型所反映的变量之间的关系是否符合实际,引入的

23、影响因素是否有效。常用方法有: R检验法 F检验法 t检验法 DW检验法R检验法是通过复相关系数检验一组变量与因变量之间的线性相关程度的方法,又称复相关系数检验法之间的线性相关程度。与因变量组自变量是复相关系数,描述一的百分比变动所引起的变差所占由一组自变量的总变差中,在称为复可决系数,说明yxxxyyyyRxxxyyyyyyyyyRmiiimiiiii,.,)()(1,.,)()(1)()(21222122222R检验法复相关系数检验法步骤:(1)计算复相关系数(2)根据回归模型的自由度n-m和给定的显著性水平,查相关系数临界值表(3)判别R检验法22443322122233221211yn

24、yyxyxyxyyRynyyxyxyyRiiiiiiiiiiiiiiii三元回归复相关系数:二元回归复相关系数:可见R是一个随自变量个数增加而递增的增函数修正R2mnnRRRRmRyynyymnnyymnyyRiiiiii1-1-1)(1)() 1/()()/()(12222222222)(的关系式如下:与的影响。体现了自变量个数的自由度。是总变差的自由度,是剩余变差这里考虑回归模型中所包含的自变量个数的影响取值为零。为负数的情况,可能为负。若遇到总是非负的,但)尽管(。总是小于个数的增加,影响,随着自变量中包含了自变量个数的。说明时,)当(222222222211RRRRRRRRRmF检验,

25、则不显著。的回归效果显著;反之与因变量,认为一组自变量设,则否定假。若可得临界值,查的显著性水平分布。故对给定的,第二自由度为为统计量服从第一自由度可以证明的自由度。是剩余变差的自由度,是回归变差这里统计量)(yxxxHmnmFmnmFmnmFyymnyymmnyymyyFFmiiiiii,.,), 1(F), 1(FF1)()(1)/()() 1/()(12102222是否成立的方法统计量检验假设检验是通过0.:210mHFFF检验式关系数临界值也具有上述等分布的临界值与相关系同样,关系数的关系统计量与可决系数、相)(F) 1()() 1(11222FmmnFmRmmnRRFFt检验是否成立

26、的方法假设的每一个系数逐一检验统计量对所求回归模型检验是通过mjHttj,.2 , 1, 0:0的样本标准差。是的回归系数;个自变量为第这里统计量)(jjjjjjjSxjmjStt,.2 , 11t检验4S3S)(S12443322123322122nyxyxyxyynyxyxyymnyytiiiiiiiiiiiiiiii:误差的简洁公式分别为其二元和三元估计标准、计算估计标准误差检验的步骤)(t检验除该因素。无显著影响,应删对被接受,说明反之,假设成立,有显著影响;对说明式成立,则否定假设若、建立假设统计量、计算个元素主对角线上的第为矩阵(其中、计算样本标准差检验的步骤)(yxyxHmntt

27、mjHtjXXStjjjjjjjjj0,)(,.,2 , 1, 0:43)CCS220201jDW检验 序列相关:指数列的前后期相关 一阶自相关:时差为一期的序列相关 自相关:回归模型假设随机误差项之间不存在序列相关或自相关,若回归模型不满足这一假设,则称回归模型存在自相关。 自相关时如果采用最小二乘法估计参数,会产生严重后果:p180DW检验法之间。值在。,程度很低时,若不存在自相关或相关,负相关时和当,正相关时,和的估计量。当的相关系数和是()(,上式可写成,可以认为在大样本情况下,的估计量。上式展开得是式中,统计量定义:4-0DW2DW04;DW-1,0;DW1)-12-12302,)(

28、111111111121212221-22122221-12212221RRRRReeeDWeeeneeeeeDWyyeeeeDWDWiiiiiiniiiniiniiniiniiniininiiiniiiiiiiniiniiiDW检验法)判别检验结论。(并利用表值检验表中查得相应临界,从及自变量个数)根据给定的检验水平(在自相关;,即假定回归模型不存)确定假设(统计量;利用公式计算归模型及残差)利用最小二乘法求回(:存在自相关,步骤如下统计量,检验模型是否根据p1816.3.1,DW40:3DW)2(;1DW10VLiddmHeDW检验法如果计算的DW统计量落到了无结论区,解决的办法通常有: 增加样本容量,重新计算DW统计量,再进行检验 调换样本,利用新样本计算DW统计量,再检验 利用其它方法进行自相关检验预测区间计算步骤: 近似地估计预测区间代替实际预测中,一般运用的预测区间为:时,多元线性回归模型的显著性水平为当预测值的样本方差为预测误差,则预测值为记预测点为)计算估计标准误差(002002000102200000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论