《多元统计分析-基于R(第3版)》课件 第5章-多元线性模型_第1页
《多元统计分析-基于R(第3版)》课件 第5章-多元线性模型_第2页
《多元统计分析-基于R(第3版)》课件 第5章-多元线性模型_第3页
《多元统计分析-基于R(第3版)》课件 第5章-多元线性模型_第4页
《多元统计分析-基于R(第3版)》课件 第5章-多元线性模型_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主编:费宇中国人民大学出版社5.1多元正态分布5.2多元线性模型5.3变量选择5.4回归诊断5.5回归预测第5章多元线性模型2主编:费宇2024/7/315.1.1多元正态分布的定义5.1多元正态分布2024/7/313主编:费宇5.1.1多元正态分布的定义5.1多元正态分布2024/7/314主编:费宇5.1.2多元正态分布的性质5.1多元正态分布2024/7/315主编:费宇5.1.2多元正态分布的性质5.1多元正态分布2024/7/316主编:费宇5.2多元线性模型5.2.1模型定义其中x1,…,xp是非随机的自变量,y是随机的因变量,β0是常数项,β1,…,βp是回归系数,ε是随机误差项.7主编:费宇2024/7/315.2.1.模型定义模型(5.1)的样本形式其中i=1,…,n,表示有n组观测值.8主编:费宇2024/7/315.2.1.模型定义模型(5.2)的矩阵形式其中9主编:费宇2024/7/31例5.1(数据文件为eg5.1)10主编:费宇表5-1抽样调查得到的36个学生的相关成绩2024/7/31yx1x2x3x4x5yx1x2x3x4x5858386909076456065608678909288879280768081758075787076738590888582868580807281829088828081868790………………………………928385908580627865608588788482739083878083857883模型(5.3)的参数的最小二乘估计的最小二乘估计

5.2.2模型的参数估计和检验2024/7/3111主编:费宇1.回归方程的显著性检验其中是回归平方和,而

是残差平方和,拒绝域为

5.2.2模型的参数估计和检验2024/7/3112主编:费宇5.2.2模型的参数估计和检验2024/7/3113主编:费宇例5.1续1(数据文件为eg5.1)14主编:费宇建立y关于x1、x2、x3、x4和x5的线性回归方程,并对方程和回归系数进行显著性检验.2024/7/31yx1x2x3x4x5yx1x2x3x4x5858386909076456065608678909288879280768081758075787076738590888582868580807281829088828081868790………………………………928385908580627865608588788482739083878083857883#例5.1回归分析:全变量回归setwd("C:/data")#设定工作路径d5.1<-read.csv("exam5.1.csv",header=T)#将exam5.1.csv数据读入到d5.1中lm.exam<-lm(y~x1+x2+x3+x4+x5,data=d5.1)#建立y关于x1,x2,x3,x4和x5的线性回归方程,数据为d5.1summary(lm.exam)#给出回归系数的估计和显著性检验等例5.1续1(数据文件为eg5.1)15主编:费宇R程序为:Call:lm(formula=y~x1+x2+x3+x4+x5,data=d5.1)Residuals:Min1QMedian3QMax-10.0696-1.7983-0.15352.93616.8726

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-32.7353415.35701-2.1320.0413*x10.162710.150311.0820.2877x20.227840.138351.6470.1100x30.881160.111087.9337.46e-09***x4-0.051360.15476-0.3320.7423x50.168870.143761.1750.2494回归分析结果为2024/7/3116主编:费宇---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:4.021on30degreesoffreedomMultipleR-squared:0.8945,AdjustedR-squared:0.877F-statistic:50.89on5and30DF,p-value:9.359e-14例5.1续(数据文件为eg5.1)2024/7/3117主编:费宇回归方程的F值为50.89,相应的p值为9.359

10-14,说明回归方程是显著的;但t检验对应的p值则显示:常数项和x3是显著的,而x1、x2、x4和x5不显著.最优模型一般满足2个条件(1)模型反映了变量间的真实关系

(2)模型包含的变量尽量少例5.1(续2)建立y关于x1、x2、x3、x4和x5的线性回归方程,并对方程和回归系数进行显著性检验(逐步回归建立“最优方程”).

5.3变量选择2024/7/3118主编:费宇>#例5.1回归分析:逐步回归>#假设exam5.1.xls中的数据已经读入到d5.1中>lm.exam<-lm(y~x1+x2+x3+x4+x5,data=d5.1)#建立全变量回归方程>lm.step<-step(lm.exam,direction="both")#进行逐步回归5.3变量选择2024/7/3119主编:费宇例5.1(续2)逐步回归程序Start:AIC=105.63y~x1+x2+x3+x4+x5

DfSumofSqRSSAIC-x411.78486.83103.76-x1118.95503.99105.01-x5122.31507.36105.25<none>485.05105.63-x2143.85528.90106.74-x311017.441502.49144.335.3变量选择2024/7/3120主编:费宇例5.1(续)回归结果Step:AIC=103.76y~x1+x2+x3+x5

DfSumofSqRSSAIC-x1117.91504.73103.06-x5120.57507.40103.25<none>486.83103.76-x2142.99529.81104.80+x411.78485.05105.63-x311112.961599.79144.595.3变量选择2024/7/3121主编:费宇Step:AIC=103.06y~x2+x3+x5

DfSumofSqRSSAIC-x5117.40522.14102.28<none>504.73103.06+x1117.91486.83103.76+x410.74503.99105.01-x2170.76575.50105.78-x311848.492353.23156.485.3变量选择2024/7/3122主编:费宇Step:AIC=102.28y~x2+x3

DfSumofSqRSSAIC<none>522.14102.28+x5117.40504.73103.06+x1114.74507.40103.25+x410.25521.89104.26-x2166.64588.78104.60-x311953.302475.43156.305.3变量选择2024/7/3123主编:费宇Call:lm(formula=y~x2+x3,data=d5.1)Residuals:Min1QMedian3QMax-10.4395-2.5508-0.44592.73677.2345

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-18.842907.58902-2.4830.0183*x20.249230.121442.0520.0481*x30.968040.0871311.1111.09e-12***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:3.978on33degreesoffreedomMultipleR-squared:0.8865,AdjustedR-squared:0.8796F-statistic:128.8on2and33DF,p-value:2.566e-16回归模型汇总信息:summary(lm.step)2024/7/3124主编:费宇5.4.1残差分析和异常点探测

残差向量e是模型中随机误差项

的估计,残差分析可以诊断模型的基本假定是否成立。

5.4

回归诊断2024/7/3125主编:费宇例5.2

计算例5.1得到的逐步回归模型lm.step的普通残差和标准化残差,判断可能存在的异常点,画出相应的残差散点图,并直观判断模型的基本假定是否成立.5.4

回归诊断2024/7/3126主编:费宇#例5.2#假设由例5.1已经得到逐步回归模型lm.stepy.res<-residuals(lm.exam)#计算模型lm.exam的普通残差y.rst<-rstandard(lm.step)#计算回归模型lm.step的标准化残差print(y.rst)#输出回归模型lm.step的标准化残差y.rsty.fit<-predict(lm.step)#计算回归模型lm.step的预测值plot(y.res~y.fit)#绘制以普通残差为纵坐标,预测值为横坐标的散点图plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图5.4

回归诊断2024/7/3127主编:费宇分别采用residuals(),rstandard()和rstudent()来计算普通残差,标准化残差和学生化残差.123456-1.226479490.701233481.85465439-0.18487397-0.731575470.14591132789101112-0.651653781.37662024-0.28171298-0.96473838-0.798622470.81284419131415161718-0.48393343-1.176685880.913377160.564389020.658766891.49006874192021222324-2.871217390.527102680.81076269-0.668013511.20184149-1.040201892526272829300.32282704-0.04616114-0.159120010.21602487-0.21306706-0.23026109313233343536-0.24302334-2.03567204-0.33183300-0.073548931.804380090.737029325.4

回归诊断2024/7/3128主编:费宇回归模型lm.step的标准化残差y.rst如下第19号点是异常点2024/7/3129主编:费宇图5-1例5.2中的普通残差图(左)和标准化残差图(右)例5.3

通过方差稳定变换来更新例5.1得到的逐步回归模型lm.step,并计算更新后模型的标准化残差,画出相应的残差散点图,并直观判断模型的基本假定是否成立.5.4

回归诊断2024/7/3130主编:费宇#例5.3#假设由例5.1已经得到逐步回归模型lm.steplm.step_new<-update(lm.step,log(.)~.)#对模型进行对数变换y.rst<-rstandard(lm.step_new)#计算lm.step_new的标准化残差y.fit<-predict(lm.step_new)#计算lm.step_new的预测值plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图(见图5-2)采用对数变换来解决方差非齐问题2024/7/3131主编:费宇对数变换后:第19号点是异常点2024/7/3132主编:费宇图5-2例5.3中的标准化残差图lm.exam<-lm(log(y)~x1+x2+x3+x4,data=d5.1[-c(19),])#去掉第19号观测值再建立全变量回归方程lm.step<-step(lm.exam,direction="both")#用一切子集回归法来进行逐步回归y.rst<-rstandard(lm.step)#计算回归模型lm.step的标准化残差y.fit<-predict(lm.step)#计算回归模型lm.step的预测值plot(y.rst~y.fit)#绘制以标准化残差为纵坐标,预测值为横坐标的散点图去掉19号观测值再回归2024/7/3133主编:费宇残差几乎全部落在[-2,2]区域内2024/7/3134主编:费宇图5-3例5.3中的标准化残差图:去掉19号观测值5.4.2回归诊断:一般的方法残差分析无法分析模型的影响点,即探测哪些点对模型的推断有重要影响,本节给出的回归诊断方法,可以诊断模型的基本假定是否成立,哪些值是异常点,哪些点是强影响点.在R中,函数plot()和influence.measures()可以用来绘制诊断图和计算诊断统计量.5.4

回归诊断2024/7/3135主编:费宇例5.4对例5.3得到的逐步回归模型lm.step_new进行回归诊断分析.5.4回归诊断2024/7/3136主编:费宇#例5.4#假定由例5.3已经获得模型lm.step_newpar(mfrow=c(2,2))#在一个2×2网格中创建4个绘图区plot(lm.step_new)#绘制模型诊断图influence.measures(lm.step_new)#计算各个观测值的诊断统计量运行上述程进行序可得回归诊断图(图5-4)和如下36个观测值对应的诊断统计量的值.第11,19和33号观测值被诊断为强影响点.2024/7/3137主编:费宇Influencemeasuresoflm(formula=log(y)~x2+x3,data=d5.1):dfb.1_dfb.x2dfb.x3dffitcov.rcook.dhatinf10.172353-0.052013-1.36e-01-0.291711.0522.82e-020.06622-0.0789410.0622346.53e-030.110451.1604.17e-030.069130.196029-0.049262-1.17e-010.373080.8364.31e-020.0383…110.014319-0.1934602.46e-01-0.270291.3462.49e-020.2065*12-0.0378780.0103993.07e-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论