多元线性回归预测法PPT课件_第1页
多元线性回归预测法PPT课件_第2页
多元线性回归预测法PPT课件_第3页
多元线性回归预测法PPT课件_第4页
多元线性回归预测法PPT课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 系数 2 设随机变量y与x1,x2,xp一般变量的线性回归模型为iippiiixxxy22110(4-20)其中, 是p+1个未知参数, 称为回归常数, 称为回归系数。y称为因变量,而x1,x2,xp是p个可以精确测量并可控制的一般变量,称为自变量。 是随机误差,对随机误差项假定p,100p,1i jijiedjiii, 0,cov022ni, 2 , 1nji, 2 , 1,3对一个实际问题,如果我们获得n组观测数据(xi1,xi2,xip;yi), i=1,2,n,则线性回归模型式(4-20)可表示为nnppnnnppppxxxyxxxyxxxy22110222222110211122

2、11101写成矩阵形式为 xby(4-21)4其中npnpnnppnbxxxxxxxxxxyyyy211021222211121121,111,(4-22)5回归系数b的估计 采用最小二乘法估计,设观察值与模型估计值的残差为e,则xbyyye其中(4-23)根据最小平方法要求,应有最小值)()(yyyyee即最小值)()(xbyxbyee6由极值原理,根据矩阵求导法则,对b求导,并令其等于零,则得0222bxxxybxbxbxbyyybxbyxbybee整理得回归系数向量b的估计值yxxxb1(4-24)72. 二元线性回归方程回归系数的估计二元线性回归方程为)2( ,22110pxxyiii

3、此时2122211211210111,nnxxxxxxxb得出 的计算公式如下:210,niniiiniiniiiniiniiniiniiixxxxxxxxxxnxxa12121121211211112112(4-25)8niniiiniiiniiiniiniiiniiniiniiixxxyxxxxyxxxya12121121211211112111021niniiiniiniiiniiiniiniiniiixyxxxxyxxxyna1211121211111121121niiniiiniiniiiniiniiniiniiyxxxxyxxxyxnai1121121112111111221(4-

4、28)(4-27)(4-26)9以上计算公式较繁,较易算的计算公式为,1111niixnx,1122niixnxniiyny11,211111niixxs212222niixxs,2121111221xxxxssnii,1111yyxxsiniiyyyxxsiniiy1222211222111222211ssssssssyy211222112111122ssssssssyy2210 xxy(4-30)(4-29)(4-31)10 1. 复相关系数检验 检验线性关系密切程度的指标称为相关系数,在多元回归模型中,由于自变量在两个以上,所以称为复相关系数.样本复相关系数的计算公式是22221yyyy

5、yyyyriiiiii(4-32)11复相关系数检验的步骤为:第一步,计算复相关系数二元回归方程复相关系数的计算常用其简捷公式222312121ynyyxyxyyriiiiiii(4-33)三元回归方程r计算常用其简捷公式22342312121ynyyxyxyxyyriiiiiiiii(4-34)12第二步,根据回归模型的自由度n-p和给定的显著性水平值 查相关系数临界表,得 值pnr第三步,判断。若 ,表明变量之间线性相关显著,检验通过,这时回归模型可用来进行预测。若 ,表明变量之间线性相关关系不显著,检验通不过,这时的回归模型不能用来预测,应分析原因,对回归模型重新加以处理。pnrrpnr

6、r132. 拟合优度检验 拟合优度用于检验回归方程对样本观测值的拟合程度。定义复可决系数r2222221yyyyyyyyriiiii(4-35)102 r复可决系数r2是检验多元线性回归模型拟合优度的度量指标,r2越接近1,表示拟合得越好;反之,则拟合得不好。14)1/()/(1222nyypnyyriii定义一个校正r2,记为2r(4-36) 这里,n-p是残差平方和 的自由度,n-1是总离差平方和 的自由度。 根据式(4-35)和(4-36)可得与之间关系如下2iiyy2 yyipnnrr1)1(122(4-37)(1)当 时, 。说明中包含了自变量个数的影响,随着自变量个数的增加, 总小

7、于 . (2) 尽管 总是非负的,但 都可能为负。若 为负, 取值为0。1p22rr2r2r2r2r2r2r2r2r153. 回归方程的显著性检验f检验原假设0:210ph 如果h0被接受,则表明随机变量y与x1,x2,xp之间的关系由线性回归模型表示不合适。 f检验程序如下: 第一步,计算统计量f的值。22) 1/(/iiiyyqyyupnqpuf(4-38)16第二步,对给定的显著性水平 ,查f分布表,得临界值1, pnpf 第三步,判断。若 ,则认为回归方程有显著意义,也就是p1=p2=pp=0不成立;反之,则认为回归方程不显著.1,pnpfff统计量与可决系数,相关系数有以下关系: f

8、ppnfprppnrrf111122(4-39)(4-40)17回归系数的显著性检验t检验检验假设pjhj, 2 , 1, 0:0如果接受原假设 h0j ,则 xj 不显著;如果拒绝原假设 h0j ,则 xj是显著的。t检验的具体步骤如下: 第一步,计算估计标准误差 其中二元和三元估计标准误差的简捷公式分别为12pnyysiiy(4-41)184334231212231212nyxyxyxyysnyxyxyysiiiiiiiiyiiiiiiy第二步,计算样本标准差式中 cjj 为矩阵 (xx)-1 对角线上第j个元素。第三步,计算 t 统计量(4-43)(4-42)(4-44)(4-45)yj

9、jscsjpjstjjj, 2 , 1 19第四步,对给定的显著水平 ,查自由度为n-p的t 分布表,得 。第五步,判断。若 ,则回归系数 与零有显著差异,必须保留 在原回归方程中,否则应去掉 重新建立回归方程。pnt2pnttj2|jjxjx20niiniiieeedw12121(4-46)其中 : ,是 的估计值。 因 的最初序号也必须是1,所以分子求和公式必须从2开始。将式(4-46)展开,得iiiyyeiniiniiniiiniieeeeedw1222121222(4-47)1ie21 在大样本情况下,即n30,可以认为所以上式可以写成 (4-48)r1是 与 的相关系数 的估计量。当

10、 与 正自相关时, r1 1,dw 0;当 与 负相关时, r1 -1,dw 4;若不存在自相关或相关程度很小时, r1 0,dw 2 。从式(4-48)可以看出,dw值在04之间。 niiniiniieee2222122)1 (21212221reeedwniiniiii1i1i1ii1i22根据dw统计量,检验模型是否存在自相关,其步骤如下:第一步,利用最小平方法求回归模型及残差 ;第二步,利用式(4-46)、(4-47)或(4-48)可以计算dw 统计量;第三步,确立假设 ,即假定回归模型不存在自相关;第四步,根据给定的检验水平及自变量个数p从dw检验表中查得相应临界值 。第五步,判断。

11、dw的取值域在04之间。 在 dw小于等于2时, dw检验法则规定: 如dw ,认为 无自相关; 如 dw ,不能确定 是否存有自相关ie0:10huldd ,ldudii,ldudi23在dw大于2时, dw检验法则规定:如4- dw dw ,认为 无自相关; 如 4 - dw ,不能确定 是否有自相关。由图4-2可以看出, 值等于2时为最好。根据经验, dw统计量在1.52.5之间时表示没有显著自相关问题。ldiudildudi24f(d w ) d w 2 dl 0 du 4-du 4-dl 4 无 自 相 关 区 负相关区 无结论区 负相关区 正相关区 无结论区 图 4-2 d w 统

12、 计 量 的 范 围 与 有 无 序 列 相 关 的 范 围 关 系 图 从图4-2可看出,dw检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数p有关。当n一定时,p愈大,无结论区域也愈大;当p一定时,n愈大,无结论区就愈小。如果计算的dw统计量落到了无结论区域,那么,决策者就不能做出回归模型是否存在自相关现象的结论。25(2) 产生自相关的原因及补救办法 当检验结果出现 和 情况时,说明随机误差项相互独立的假设不能成立,回归模型存在相关。 在实际预测中,产生自相关的原因可能是: (i)忽略了某些重要的影响要素。 (ii)错误地选用了回归模型的数学形式。 (iii)随

13、机误差项 本身的确是相关的。 合适的补救办法是: (i)把略去的重要影响因素引入回归模型中来。 (ii)重新选择合适的回归模型形式。 (iii)增加样本容量,改变数据的准确性。lddw 044dwdli266. 多重共线性检验多重共线性检验的步骤如下:第一步,计算任何两个自变量和间的相关系数为22jjiijjixxxxxxxxxxrji第二步,对自变量作中心标准化,则xx=(rij) 为自变量的相关阵。记 c=(cij)=(xx)-1称其主对角线元素vifj=cjj为自变量xj的方差扩大因子(vif). 经验表明,当 时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能

14、会过度地影响最小二乘估计值。 (4-49)(4-50)10jvif27多元回归模型的预测值和预测区间计算步骤如下:(1)计算估计标准误差(2)记预测点为x0=(x01,x02,x0p),则预测值为pnyysiiy2(4-51)bxy00预测误差 的样本方差为000 yye010220)(1xxxxssy(4-52)28(3)当预测值 的显著性水平为 时,多元线性回归模型的预测区间为0 y(4-52)(4-53) 由于这里x0的是一个影响因素数据向量,按公式(4-52)计算s0较复杂,故在实际预测中,一般运用sy代替s0近似地估计预测区间.30,30,)(02/002/0nszynspnty29

15、 如果先将所有的变量xj和因变量进行标准化,取得标准化变量 和 ,再进行回归便可以得到标准化回归方程jjjjsxxzyysyyzppyzzzz2211 因为z变量是无量纲变量,所以它们的回归系数称为标准化回归系数,它表示当其它变量不变时,xj变化一个标准单位,y的标准差的平均变化 。由于标准化消除了原来自变量不同的测量单位,于是 之间可以互相比较,它们绝对值的大小就代表了各自对y作用的大小。jj30计算 的另一种计算方法为jjyjjss 其中sy和sj分别为原变量y和原自变量sj的标准差。一般统计软件都能够同时输出回归系数 和标准化回归系数 .jj31承上例,该饮料公司的许多零售点设在体育比赛

16、场地,该公司明白,当比赛一边倒时,观众会比往常喝得多一些,因为这时观众就有时间注意到口渴,而不是把注意力完全集中在比赛场上。因此,可以利用比赛结束时的比分差作为第二个自变量,其预测模型就成为:饮料销售量=b0+b1气温+ b2比分差32时期( )销售量 ( )温度 ( )比分差 ( )(1) (2) (3) (4)(5) (6) (7)(8) (9) (10)14303012129003605160900144250023352110702521033504411002025352035221820077011440122548419600449042620580252294017643612

17、10054703781739029637601369648100621020242004042040042890071958915607217556481342258270178459013621602896481940035614000210240012253640010480251712000425816062528910000合计380027010011245527714154583021302129950iiy1 ix1 ixiix y12iix y2iix y21 ix22ix2iyy33时期(i)(12)(13)(14)(15)(16)19415010062360270003641

18、4411201680964225161650-440-6051004900-180-20649641190136056736113515185198100411002202096416160-80-3210449-200700-14合计10123029855354571211ixx222ixx11iiyyxx22iiyyxx1122iixxxx34解 (1)设饮料销售量为y,气温为x1,比分差为x2,则二元回归模型为 (2)计算回归系数。01122iiiybb xb x211122222112211222211222()() 9855 3023545 711012 302719.064iiii

19、iiiiiiibxxyyxxxxyyxxxxxxxxxxxx 352222111121122112222112220122()() 3545 10129855 711012 302718.810738002701009.648.810710101047.165iiiiiiiiiiibxxyyxxxxyyxxxxxxxxxxxxbyb xb x 所求回归预测模型为:1239.1989.0649.6074iiiyxx36(3)r检验201222221157395047.165 38009.064 112455 8.8107 41545 11573950 10 380 0.963iiiiiiiyby

20、bx ybx yryny当显著水平 =0.05, =10-3=7时, =0.666, 因 ,说明相关关系显著。np 0.057r0.05(7)rr37 由此可见,此回归模型解释了饮料销售变差的94.9%,而一元线性回归模型只解释了饮料销售量变差的74%。928.0963.022r(5) f检验11.4513310928. 01928. 01122ppnrrf当显著水平 =0.05时,f0.05(3-1,10-3)=4.74 ,说明回归效果非常显著。)7 , 2(74. 405. 0ff3863.307415456074. 9112455064. 93800198.391573905310222

21、102iiiiiiyyxbyxbybys这个数据与一元线性回归获得的标准误差65相比,多元回归的标准误差缩小了一半多,在对标准性要求更高的预测中,就能表现出这种误差缩小的好处。39130227711002771830227010027010)(222122112121iiiiiiiiiixxxxxxxxxxnxx0034.00002.00273.00002.00010.00248.00273.00248.00416.1)(1xx933.4786.18107.8358.99686.0064.9786.163.300034.09686.063.300010.0223112332221bbybybsbtsbtscsscs 当显著水平 =0.05时,t0.05/2(10-3)=2.365 因为 和 均大于t0.05/2(7)=2.365, 故拒绝假设b1=0和b2=0。因此可以断言,气温和比分差对饮料销售量有显著影响。2t3t40(7) dw检验时间(i)(1)销售量(y)(2)温度(x)(3)比分差(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论