版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章多元回归分析详解演示文稿现在是1页\一共有45页\编辑于星期五优选第七章多元回归分析现在是2页\一共有45页\编辑于星期五第一节多元线性回归第二节可化为多元线性回归的问题第三节自变量的选择与逐步回归现在是3页\一共有45页\编辑于星期五第一节多元线性回归多元线性回归模型一般形式
其中,,,…,是p+1个未知参数,为回归常数,,…,为回归系数。y称为被解释变量,,…,是p个可以精确测量并可以控制的一般变量,称为解释变量现在是4页\一共有45页\编辑于星期五对一实际问题,若得到n组观测数据(,,…,;),i=1,2,…,n,则线性模型可表示为:现在是5页\一共有45页\编辑于星期五写成矩阵形式y11x11x21…x1pY=y2x=1x12x22…x2pyn1x1nx2n…xnp
ξ
1
ξ
2e=…
ξ
n则Y=Xβ+e现在是6页\一共有45页\编辑于星期五一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且rk(X)=P+1<n,表明矩阵X中的自变量列间无多重共线性随机误差项具有零均值和同方差E(ξ
i)=0var(ξ
i)=E(ξ
i-E(ξ
i))2=E(ξ
i)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关cov(ξ
i,ξ
j)=0i≠ji,j=1,2,…ncov(ξ
i,ξ
j)=E((ξ
i-E(ξ
i)(ξ
j-E(ξj))=E(ξ
i)E(ξ
j)=0
现在是7页\一共有45页\编辑于星期五随机误差项与解释变量之间不相关cov(xi,ξ
i)=0随机误差项的正态分布假定条件为
现在是8页\一共有45页\编辑于星期五二、回归参数的估计设令即现在是9页\一共有45页\编辑于星期五现在是10页\一共有45页\编辑于星期五以上是通过使用最小二乘法(OLSE)对回归参数进行的估计,得到的回归参数的最小二乘估计为在正态假定下,回归参数的最大似然估计(MLE)与最小二乘法(OLSE)是完全相同的现在是11页\一共有45页\编辑于星期五三、回归方程的效果的检验方程显著性检验回归系数显著性检验拟合优度链接现在是12页\一共有45页\编辑于星期五1.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设H0:b1=b2=…=bp=0(2)构造统计量(3)检验给定显著性水平α,查F分布表若F>Fα,拒绝H0,表明回归总体有显著性关系.若F<Fα,接受原假设,表明不存在线性关系现在是13页\一共有45页\编辑于星期五2.回归系数显著性检验回归系数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(回归标准差)(3)检验对给定α,若︱t︱>tα/2,说明拒绝原假设若︱t︱<tα/2,则接受原假设.现在是14页\一共有45页\编辑于星期五当有多个自变量对因变量y无显著影响时,可以剔除多余变量,但由于自变量间的交互作用,不能一次剔除所有不显著变量。一般是将t值(绝对值)最小的变量删除掉,每次只剔除1个变量,再对求得的新的回归方程进行检验,直到保留的变量都对y有显著影响为止。返回现在是15页\一共有45页\编辑于星期五3.拟合优度拟合优度用于检验回归方程对样本观测值的拟合程度。样本决定系数的取值在(0,1)区间内,越接近1,回归拟合的效果越好;越接近0,回归拟合的效果越差。现在是16页\一共有45页\编辑于星期五四、复相关系数和偏相关系数复相关系数R是由SSR和SST构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。现在是17页\一共有45页\编辑于星期五复相关系数表示的是因变量与全体自变量之间的线性关系,它的符号不能由某一自变量的回归系数的符号来确定,因而复相关系数都取正号。现在是18页\一共有45页\编辑于星期五其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。现在是19页\一共有45页\编辑于星期五简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。在多元回归分析中,偏相关系数才真正反映因变量y与自变量以及自变量与的相关性的数量。返回现在是20页\一共有45页\编辑于星期五五、预测所谓预测就是给定解释变量一组值通过建立的多元回归模型,估计出对应的1、y0的点预测:2、y0以概率(1-α)落在某区间的区间预测:其中为随机误差项的标准差现在是21页\一共有45页\编辑于星期五第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。现在是22页\一共有45页\编辑于星期五多项式函数Y=β0+β
1x+β
2x2+…+β
pxp设τi=xi则多项式化为:Y=β
0+β
1τ
1+β
2τ
2
+…+β
pτ
p多元幂函数y=αx1β1x2β2…xpβplny=lnα+β1lnx1+…+β
plnxp令z=lny,β
0=lnα,τi=lnxiz=β
0+β
1τ
1+β
2τ
2+…+β
pτ
p现在是23页\一共有45页\编辑于星期五指数函数y=a∏eβixi㏑y=㏑a+β
1x1+β
2x2+…+β
pxp
z=㏑y,β
0=㏑a,则z=β
0+β
1x1+β
2x2+…+β
pxp多元对数函数y=a+β
1㏑x1+β
2㏑x2+…+β
p㏑xp设τi=㏑xi,则y=a+β
1τ
1+β
2τ
2+…+β
pτ
p现在是24页\一共有45页\编辑于星期五指数函数与幂函数的积y=aexp{∑β
ixi}∏xibi㏑y=㏑a+β
1x1+β
2x2+…+β
pxp
+b1㏑x1+b2㏑x2+…+bp㏑xp令z=㏑y,β
0=㏑a,τi=㏑xi
z=β
0+β
1x1+β
2x2+…+β
pxp+b1τ
1+b2τ
2+…+bpτ
p现在是25页\一共有45页\编辑于星期五如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数现在是26页\一共有45页\编辑于星期五第三节自变量选择与逐步回归在建立一个实际问题的回归模型,我们应该如何确定回归自变量。如果遗漏了某些重要的变量,回归方程的效果肯定不好。如果考虑过多的变量,在这些变量中有些自变量对问题研究可能不重要,有些变量可能与其它变量有很大程度的重叠。如果模型把这些变量也引入的话,不仅计算量增大,而且得到的回归方程的稳定性也很差,直接影响了回归方程的应用。现在是27页\一共有45页\编辑于星期五在实际应用中,希望拟合这样一个模型,它既能较好的反映问题的本质,又包含尽可能少的自变量。这两个方面的一个适当折中就是回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建立一个既合理又简单实用的回归模型。现在是28页\一共有45页\编辑于星期五在前面,我们认为残差平方和最小和复相关系数来衡量回归拟合的好坏。因为当引入的自变量的个数增大时,残差平方和随之减少,而复相关系数也随之增大。因此如果按上述原则来选择自变量,不论什么变量多取就行。但是由于变量之间的多重共显性,给自变量的估计值带来了不稳定性,加上变量的抽样误差积累将是y值得估计值误差增大。现在是29页\一共有45页\编辑于星期五一穷举法所谓穷举法就是从所有可能的回归方程中按一定的准则选取最优的一个或几个。设在一个实际问题的回归模型中,如果有m个可供选择的变量,由于每个变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有个,这其中包括只包含常数项的这种情况。下面给出几种选取准则:现在是30页\一共有45页\编辑于星期五1从拟合的角度考虑的准则[准则1]自由度调整复决定系数达到最大。当给模型增加自变量时,复相关系数的增大是以残差自由度的减少为代价的。随着自由度的减少,模型估计和预测的可靠性也在降低。调整复决定系数其中,为样本容量,为自变量的个数。现在是31页\一共有45页\编辑于星期五显然有,随着自变量的增加并不一定增大。因为随着变量的增加而减少,但由于其前面的系数起折扣作用,使得随着自变量的增加并不一定增加。当所增加的自变量对y不产生影响时,反而可能减少。在一个实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。现在是32页\一共有45页\编辑于星期五[准则2]平均残差平方和达到最小。平均残差平方和是指对应于模型中的估计,其中为自变量的个数。在此无偏估计式中加入了惩罚因子,它体现了对自变量个数的增加所施加的惩罚。现在是33页\一共有45页\编辑于星期五一开始自变量个数开始增加时,虽然因子增大了,但此时减少很多,故总起来说还是减少的。当自变量增加到一定程度,重要的自变量基本上都已选上了,这时再增加自变量,减少不多,以至于抵消不了的增加,最终导致了的增加。随着自变量个数的增加,平均残差平方和是先减小后增大的趋势。现在是34页\一共有45页\编辑于星期五用平均残差平方和来衡量回归方程的拟合优度,应该用最小者所对应的回归子集为最优方程。在自由度调整的复相关系数中,由于。由于分母并不随p的变化而变化,因而使达到最小的准则和使调整的复相关系数达到最大是等价的。现在是35页\一共有45页\编辑于星期五2从极大似然估计方法考虑的准则[准则3]赤池信息量AIC达到最小。AIC既可以用于时间序列分析中的自回归模型的定阶上,也可以用来作回归方程自变量的选择。AIC=,其中是与自变量个数无关的常数。现在是36页\一共有45页\编辑于星期五在回归分析的建模过程中,对每一个回归子集计算AIC,其中最小者所对应的模型是“最优”回归模型。由于在正态假定下,参数的OLSE与MLE是一致的,因此,AIC准则在OLSE的情况下也是适用的。现在是37页\一共有45页\编辑于星期五3从预测的角度考虑的准则[准则4]统计量达到最小。马勒斯从预测的角度提出的。统计量为,其中,为考虑到所有因素的全模型中的无偏估计。选择最小最小的自变量子集,这个子集对应的回归方程就是最优回归方程。现在是38页\一共有45页\编辑于星期五理论上,从所有可能的回归方程中选择应该是最好的方法。但是,穷举法所要拟合的回归方程数随自变量数目的增加而成倍增加,因此当自变量的数目较大时,计算量很大以至于难以实现。在这种情况下,逐步回归是一种可行的选择最优回归方程的方法。现在是39页\一共有45页\编辑于星期五二逐步回归一、“最优”回归方程的选择1.回归方程中包含尽量多的信息2.回归方程中包含尽量少的变量方法:逐步剔除的回归分析方法逐步引入的回归分析方法“有进有出”的回归分析方法(逐步回归分析方法)现在是40页\一共有45页\编辑于星期五逐步剔除法(backward)1、用全部m个变量建立一个回归方程2、对每个变量的回归系数进行F检验,选m个系数中F值最小者记为。如果有,则考虑把剔除。3、对剩余的m-1自变量重新建立回归方程,再检验……4、直至回归方程中的变量的F检验值都大于,没有可剔除的变量为止。这时候的得到的回归方程就是最重确定的方程。现在是41页\一共有45页\编辑于星期五逐步剔出法有明显的不足。一开始把全部自变量引入回归方程,计算量很大。如果有些自变量不太重要,一开始就不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年打造高绩效团队测试题及答案
- 2026年国开学位英语官方模拟试题及答案全解
- 2026年通过他人完成工作测试题及答案
- 末日废土风游戏图标设计专项测试题及答案2021版
- 2025年大疆无人机教师资格证考试题及答案
- 2022年CFA二级《数量方法》考前一周急救真题及答案
- 江苏南京市鼓楼实验中学2025-2026学年上学期七年级期末数学试卷(含解析)
- 口腔溃疡预防方案培训
- 伤口管理创新与科普实践大赛成果汇报
- 慢性乙型肝炎治疗方案评估
- 耳鼻喉科出科试卷及答案
- 农业综合行政执法大比武试题库及答案(2025年省级题库)
- 消毒供应室精密器械清洗流程
- 医疗耗材销售培训课件
- 车位买卖合同补充协议样本
- 2025年学历类高职单招智能制造类-化学参考题库含答案解析(5套试卷)
- 第8课 动物的耳朵 课件 青岛版六三制一年级科学下册
- IPC-4552B-2024EN印制板化学镀镍浸金(ENIG)镀覆性能规范英文版
- 化工安全工程概论-第五章
- GB/T 4340.3-2025金属材料维氏硬度试验第3部分:标准硬度块的标定
- 浙江省公路工程质检资料管理文件用表
评论
0/150
提交评论