下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实验4.3多元线性回归模型实验目的(1)熟练掌握多元线性回归的Matlab命令;计算残差平方和与决定系数.(2)掌握残差分析方法,通过删除异常点改进模型(3)通过回归模型的参数对实际问题给出合理的解释设Y是一个可观测的随机变量,如果其取值受到P个非随机变量 X1,X2,Xp和随机误差名的影响,且有Y = 'o 1X12X2pXp ;其中Po, Pi,,Pp是未知参数; LN (0,。2I).则称该模型为多元线性回归模型,而称XX2,Xp为自变量(解释变量),Y为因变量(内生变量、被解释变量)实验内容1.多元线性回归模型的Matlab实现Matlab中实现多元线性回归的命令如下:b,bi
2、nt,r,rint,s=regress(y,X,alpha)输入:y 因变量(列向量),X -1与自变量组成的矩阵,Alpha 显著性水平 a (缺省时设定为0.05)输出:b:回归方程的系数因同,K , bint: b的置信区间, r:残差(列向量),rint:r的置信区间s: 4个统计量:决定系数R2, F值,F(1,n-2)分布大于F值的I率p, p。时,回归模型有效,以及均方差sum(r.A2)/(n-k-1),此外,Matlab中还有一个做出残差与残差置信区间图形的命令,如果有异常值,则该点变成红色rcoplot(r,rint)通常,进行多元线性回归的步骤如下:(1)做自变量与因变量
3、的散点图,根据散点图的形状决定是否可以进行线性回归;(2)输入自变量与因变量;(3)利用命令:b,bint,r,rint,s=regress(y,X,alpha), rcoplot(r,rint)得到回归模型的系数以及异常点的情况;如果原始数据含有异常点,则应删除异常点 或者引入虚拟变量加以改进模型;(4)对回归模型进行检验首先进行残差的正态性检验:jbtest , ttest(Goldfeld Quandt)检验),其次进行残差的异方差检验(通常利用戈德菲尔德一匡特 如果存在异方差,则应对模型进行调整;最后对模型的残差进行自相关性的DW佥验,如果存在自相关,则通过广义差分变换消除自相关性;(
4、5)对模型的结果给出合理的解释戈德菲尔德检验,简称为G-Q检验.为了检验异方差性,将样本按解释变量排序后分成 两部分,再利用样本1和样本2分别建立回归模型,并求出各自的残差平方和 RSSl和RSS2 如果误差项的离散程度相同 (即为同方差的),则RSSl和RSS2的值应该大致相同;若两者之 间存在显著差异,则表明存在异方差.检验过程中为了 “夸大”残差的差异性,一般先在样本中部去掉C个数据(通常取c=n/4),再利用F统计量判断差异的显著性: F(n -c)/2-k -1,(n -c)/2-k -1)RSS2/(n -c)/2 -k -1)RS&RSS1/(n -c)/2 -k -1)
5、 - RS§其中,n为样本容量,k为自变量个数.然后对残差进行自相关性的检验,通常我们利用 DW佥验进行残差序列自相关性的检验。该检验的统计量为:nn一2 一 2DW (G -0)/ett =2tm其中et为残差序列,对于计算出的结果通过查表决定是否存在自相关性。若 du < DW <4 du,则不存在自相关性;若 DW <dl ,则存在一阶正相关;DW >4 dl ,则存在一阶负相关;若 dl<DW<du,或4du <DW <4dl ,则无法判断是否存在自相关。【例4.4根据下面的数据建立血压与年龄、体重指数、吸烟习惯之间的回归模型表
6、4.5血压与年龄、体重指数、吸烟习惯数据序号血压年龄体重指数吸烟习惯1144.000039.000024.200002215.000047.000031.10001.00003138.000045.000022.600004145.000047.000024.00001.00005162.000065.000025.90001.00006142.000046.000025.100007170.000067.000029.50001.00008124.000042.000019.700009158.000067.000027.20001.000010154.000056.000019.30000
7、11162.000064.000028.00001.000012150.000056.000025.8000013140.000059.000027.3000014110.000034.000020.1000015128.000042.000021.7000016130.000048.000022.20001.000017135.000045.000027.4000018114.000018.000018.8000019116.000020.000022.6000020124.000019.000021.5000021136.000036.000025.0000022142.000050.00
8、0026.20001.000023120.000039.000023.5000024120.000021.000020.3000025160.000044.000027.10001.000026158.000053.000028.60001.000027144.000063.000028.3000028130.000029.000022.00001.000029125.000025.000025.3000030175.000069.000027.40001.0000注:吸烟习惯0表示不吸烟,1表示吸烟;体重指数 =体重(kg) /身高(m)的平方题目分析:为了确定血压与上述三个指标之间存在何种
9、关系,我们首先做出血压与年龄,血压与体重指数之间的散点图如下:图4.5血压与体重指数的散点图图4.6血压与年龄的散点图从图中可以看出以下几点:(1)随着年龄的增长血压有增高的趋势,随着体重指数的增长血压也有增高的趋势;(2)总体上看血压与年龄、血压与体重指数存在一定的线性相关性,所以我们建立多元线性回归模型:y = ?0 . :1X . :2X2 . :3X3 .;回归系数0Q, Pi,?2,日3由数据估计,右是随机误差.利用Matlab软件,我们得到如下结果:表4.6回归模型的系数、系数置信区间与统计量回归系数回归系数倩计值回归系数置信区间P045.36363.553787.1736P10.
10、3604-0.07580.7965 P23.09061.05305.1281?311.8246-0.148223.7973R2= 0.6855 F= 18.8906p<0.0001 s2 =169.7917从表4.6可以发现:3, P3的置信区间包含零点,模型需要改进,为此我们做出残差 与残差置信区间的图形.Residual Case Order Plot1015202530Case Number60211-u oz图4.7残差与残差置信区间的图形此时可见第二与第十二个点是异常点,于是删除上述两点,再次进行回归得到表4.7改进后的回归模型的系数、系数置信区间与统计量回归系数回归系数估计值
11、回归系数置信区间后58.510129.906487.1138Pi0.43030.12730.7332防2.34490.85093.838910.30653.387817.2253R2= 0.8462 F= 44.0087p<0.0001 s2 =53.6604这时置信区间不包含零点,F统计量增大,可决系数从0.6855增大到0.8462 ,我们得到回归模型为:? = 58.5101 0.4303 x1 2.3449 x2 10.3065 x 3下面我们对模型进行检验:(1)残差的正态检验:由jbtest检验,h=0表明残差服从正态分布,进而由t检验可知h=0 , p=1,故残差服从均值为
12、零的正态分布;(2)残差的异方差检验:我们将28个数据从小到大排列,去掉中间的 6个数据,得到F统计量的观测值为:f =1.9092,由F (7,7) =3.79,可知:f =1.9092<3.79 ,故不存在异方差.(3)残差的自相关性检验:通过计算得到:dw = 1.4330,查表后得到:dl=0.97 , du=1.41 ,由于1.41 = du<DW = 1.433 c 4 - du =2.59可知残差不存在自相关性计算程序:n=30;m=3;y=144215138 145 162 142170 124 158 154 162 150 140 110 128 130 135
13、 114116 124 136142 120 120 160158 144 130 125 175;x1=39 4745 47 65 4667 42 67 56 6456 59 34 42 48 45 1820 19 3650 39 21 4453 63 29 25 69;x2=24.2 31.1 22.6 24.0 25.9 25.1 29.5 19.7 27.2 19.3 28.0 25.8 27.3 20.1 21.7 22.2 27.4 18.8 22.6 21.5 25.0 26.2 23.5 20.3 27.1 28.6 28.3 22.0 25.3 27.4;x3=0101101
14、010100001000 .00100110101;X=ones(n,1), x1',x2',x3'b,bint,r,rint,s=regress(y',X);s2=sum(r.A2)/(n-m-1);b,bint,s,s2rcoplot(r,rint)%删除异常点以后进行回归的程序Y=y(1),y(3:9),y(11:30)'x=X(1,:);X(3:9,:);X(11:30,:);b1,bint1,r1,rint1,s1=regress(Y ,x)%残差检验程序% (1)正态分布检验h,p=jbtest(r1);h,p=ttest(r1,0);% (
15、2)异方差检验c=sort(Y);c,i=sort(Y);A1=x;C=A1(i);b10,bint10j10,rint10,s10=regress(c(1:11),ones(11,1),C(1:11,1);b1h,bint1hj1h,rint1h,s1h=regress(c(18:28),ones(11,1),C(18:28,1);yf1=sum(r1h.A2)/sum(r10.A2)% (3)自相关性检验dw=sum(diff(r1).A2)/sum(r1.A2)结果说明:1.古典回归模型的基本假定利用样本数据估计回归模型中的参数时,为了选择适当的参数估计方法,提高估计精度,通常需要对模型的随机误差项和解释变量的特性事先做些假定。回归模型的基本假定有:假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)假设2,随机误差项具有零均值、同方差以及序列不相关性E (i ) = 0i = j,i,j =1,2, ,nCov(% %) =E(Jij) =0假设3,解释变量与随机项不相关Cov(Xji,八)=0假设4,随机误差项满足正态分布Ji N(0,二2)将满足这些假定的回归模型称为古典回归模型。直观地看,这些假定的作用是便于分离回归模型中每个因素的单独影响,在回归分析的参数估计和统计检验理论中,许多结论都以这些假定作为基础; 换
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青海拉面品质指南
- 小班健康《洁白的牙齿人人爱》教案+课后反思
- 亲子共同成长设计2025
- 2026年防疫小卫士测试题及答案
- 2026年前台笔式测试题及答案
- 2026年《国家安全》测试题及答案
- 2026年运营专员的测试题及答案
- 2026年幼小衔接测试题及答案
- 2026年理财风险等级测试题及答案
- 2026年色盲变态测试题及答案
- 辽宁省营口市盖州市2025-2026学年八年级(上)期末物理试卷(含答案)
- 初中英语九年级跨学科项目式导学案:数智赋能下的发明叙事与未来思辨
- 2026年广东深圳市48校中考复习阶段模拟测试物理试题(试卷+解析)
- 2026年春新教材八年级下册道德与法治第1~5共5套单元测试卷(含答案)
- 雇主责任保险条款(2015版)
- 正畸头影测量分析演示文稿
- GB/T 5858-1997重载传动用弯板滚子链和链轮
- 机房UPS安装施工方案完整
- FZ/T 64043-2014擦拭用高吸水纤维织物
- 纸桥承重精美课件
- 急腹症诊断及鉴别诊断课件
评论
0/150
提交评论