多元线性回归分析—内容提要与案例_第1页
多元线性回归分析—内容提要与案例_第2页
多元线性回归分析—内容提要与案例_第3页
多元线性回归分析—内容提要与案例_第4页
多元线性回归分析—内容提要与案例_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归分析内容提要1.多元线性回归的数学模型【模型的理论假设】设是个自变量(解释变量),是因变量,则多元线性回归模型的理论假设是,其中,是个未知参数,称为回归常数,称为回归系数,为随机误差.【模型的建立】求元线性函数的经验回归方程,其中,是的统计估计,分别是的统计估计,称为经验回归系数.【模型的数据结构】设对变量向量的次观测得到的样本数据为,.为了今后讨论方便,我们引进矩阵,于是,多元线性回归模型的数据结构为称为多元样本回归方程,其中,且各个相互独立.由于矩阵是样本数据,的数据可以进行设计和控制,因此,矩阵称为回归设计矩阵或资料矩阵.注释 对多元线性回归模型理论假设的进一步说明: 条件表

2、明,是一个满稚矩阵,即矩阵列向量(解释变量)间线性无关,样本容量的个数应当大于解释变量的个数.反该假设时,称模型存在多重共线性问题. 条件且各个相互独立表明,系统受到零均值齐性方差的正态随机干扰,系统自变量之间不存在序列相关,即,,.当时,称回归模型存在异方差.当时,称回归模型存在自相关.当模型违反上述假设后,就不能使用最小二乘法估计回归系数.解决方法将在后面介绍,先介绍模型符合假设时的参数估计方法.【参数估计的准则】定义离差平方和,求使得,称称为模型参数的最小二乘估计,称为因变量的回归拟合值,简称回归值或拟合值.称为因变量的残差. 【参数估计的算法】 当满足元线性回归模型理论假设的条件时,模

3、型参数的最小二乘解为.可以证明,,其中.由此可见,是的无偏估计.协方差阵反映出估计量的波动大小,由于是右乘一个矩阵,所以的波动大小可以由抽样过程中进行控制.同一元线性回归分析一样,在多元线性回归中,样本抽样要尽可能的分散.3.回归方程的显著性检验 多元回归方程显著性的整体性检验检验解释变量全体对因变量是否有显著影响,方法是检验,亦称方差分析.【显著性检验基本定理】令 总偏差平方和,自由度. 回归平方和,自由度. 残差平方和,自由度.则有 . 且. 与相互独立.【显著性检验基本方法 F检验(方差分析)】检验假设.检验统计量及其分布在为真时,与相互独立,于是检验统计量.检验的显著性概率.决策准则在

4、显著性水平下,当时拒绝,即认为回归方程有显著意义. 当时,称回归方程高度显著,标记为*; 当时,称回归方程显著,标记为*; 当时,称回归方程不显著,不做标记.检验结果的报告(方差分析表)方差来源偏差平方和自由度值值显著性回归残差总计此外,与一元线性回归分析类似,可用可决系数来测定回归方程对各个观测点的拟合程度,的值越大(小)表明回归直线对各个观测点的拟合程度越高(低). 多元回归方程中每个自变量对因变量影响显著性检验检验解释变量对因变量影响的显著性.检验假设().检验统计量及其分布在为真时,检验统计量检验的显著性概率.决策准则在显著性水平下,当时拒绝,即认为解释变量对因变量影响显著.若存在不显

5、著的变量,取,从回归方程中剔除自变量.设从原回归方程中剔除自变量后,重新建立的回归方程中为,则可以证明,新回归方程的系数与原回归方程的系数有如下关系: ,.对于新建立的回归方程,必须对每一个余下的变量再次进行检验,直至余下变量全部显著为止.4.最优回归方程的选择 最优回归方程选择标准 因子完备的原则 回归方程中包含所有对因变量有显著影响的自变量. 模型从简的原则 回归方程中所包含的自变量的个数尽可能的少. 充分拟合的原则 回归方程的剩余方差达到最小. 最优回归方程选择方法(逐步回归法) 根据问题所属专业领域的理论和经验提出对因变量可能有影响的所有自变量. 计算每一个自变量对因变量的相关系数,按

6、其绝对值从大到小排序. 取相关系数绝对值最大的那个自变量建立一元线性回归模型,检验所得回归方程的显著性,若检验表明回归效果显著则转入,若检验表明回归效果不显著则停止建模. 进行变量的追加、剔除和回归方程的更新操作:若检验表明回归效果显著,则按相关系数绝对值由大到小的顺序逐一将相应的自变量引入回归方程;每引入一个新的自变量,对新回归方程中每一个自变量都要进行显著性检验.若检验表明回归效果不显著,则剔除对因变量影响最小的自变量,更新回归方程;对更新后的回归方程中的每一个自变量仍要进行显著性检验、剔除、更新,直到回归方程中的每一个自变量都显著为止,再引入前面未曾引入的自变量.以此类推,直到无法剔除已

7、经引入的自变量,也无法引入新的自变量为止.注释 逐步回归法不能保证得到真正的最优回归方程,但此法是计算量较小、预测效果较好、有工具软件支持、应用最多欧德一种方法. 逐步回归法受检验的显著性水平影响较大,较大将会有较多的自变量引入回归方程,较小将会导致一些重要的自变量被剔除.5.利用回归方程对系统进行预测 点预测 设预测点为,则是对的点估计,亦是对,的点预测. 区间预测 可以证明其中(剩余方差),.于是,点预测的误差为,即在处的区间预测为即.当较大,时,可取以此来简化计算.多元线性回归分析案例及MATLAB解决【案例】 设某种水泥在凝固时所释放出的热量(卡/克)与水泥中的下列四种化学成分有关:的

8、成分(%),的成分(%),的成分(%),的成分(%).共观测了13组数据(见下表):序号x1x2x3x4Y12345678910111213 7 11111 711 3 1 221 1111026295631525571315447406668 615 8 8 6 9172218 423 9 86052204733226442226341212试用逐步回归法求出对、和的最优回归方程.注释 数据保存在hald.mat文件中,ingredients为解释变量, heat为因变量 . 1、MATLAB逐步回归法建模的交互式图形环境介绍 【函数名称】 stepwise【函数功能】创建多元线性回归分析的

9、逐步回归法建模的交互式图形环境.【调用格式】stepwise(X,y) stepwise(X,y,inmodel,penter,premove)【参数说明】X p元线性模型解释变量的n个观测值的n×p矩阵.y p元线性模型因变量的n个观测值的n×1向量.inmodel 标量或向量(由X的列号构成),用来指明最初引入回归方程的解释变量(缺省设置为空).penter 模型检验的显著性水平上限值(缺省设置为0.05).premoveb 模型检验的显著性水平下限值(缺省设置为0.10).【案例中的应用】load hald stepwise(ingredients, heat) 【交

10、互式图形界面的说明】窗口 Coefficients with Error Bars绘出各个解释变量回归系数的估计,圆点表示点估计值,横线表示置信区间(有色线段表示90%置信区间,黑色线段表示95%置信区间).窗口的右侧给出回归系数的点估计值(Coeff)、显著性检验的t统计量的值(t-stet)和显著性概率p值(p-val).窗口 Model History该窗口绘出的圆点表示历次建模的模型标准差的估计.两个窗口中间输出的是当前模型的有关信息,包括:lntercept 模型截距(常数项)的估计.RMSE 模型标准差的估计.R-square 可决系数.Adj-R-sq 校正的可决系数.F 模型整

11、体性检验的F统计量的值.p 模型整体性检验的显著性概率.窗口右侧的三个按钮:Next Step 在回归方程中按相关系数绝对值大小逐次引入解释变量,如无解释变量可引入时按钮不可用.All Steps 直接给出“只进不出”方式建模的最终结果(注意,此时的回归方程未必是最优回归方程).Export 选择向Workspace传输的计算结果(有关变量名可由用户自定义).2、MATLAB逐步回归法建模的集成命令介绍 【函数名称】 stepwisefit【函数功能】用逐步回归法创建多元线性回归分析的最优回归方程.【调用格式】b = stepwisefit(X,y)b,se,pval,inmodel,stat

12、s,nextstep,history = tepwisefit(.). = stepwisefit(X,y,'Param1',value1,'Param2',value2,.)【参数说明】输入参数X与y的意义同函数stepwise. 其它引用参数的用法请用doc命令调阅系统帮助.输出参数b 模型系数 . se 模型系数的标准误差. pval 各个解释变量显著性检验的显著性概率. inmodel 各个解释变量在最终回归方程中地位的说明(1表示在方程中,0表示不再方程中).stats 是一个构架数组,包括: source :建模方法的说明,'stepwise

13、fit'表示逐步回归法;dfe:最优回归方程的剩余自由度;df0:最优回归方程的回归自由度;SStotal:最优回归方程的总偏差平方和;SSresid:最优回归方程的剩余平方和;fstat:最优回归方程的F统计量的值;pval:最优回归方程的显著性概率;rmse:最优回归方程的标准误差估计;B:模型系数;SE:模型系数的标准误差;TSTAT:每个自变量显著性检验的T统计量的值;PVAL:每个自变量显著性检验的显著性概率;intercept:常数项的点估计;等等.nextstep 对是否还有需要引入回归方程的自变量的说明(0表示没有)history 是一个构架数组,包括: rmse:每一

14、步的模型标准误差估计;df0:每一步引入方程的变量个数;in:记录了按相关系数绝对值大小逐步引入回归方程的变量的次序.【案例中的应用】load hald b,se,pval,inmodel,stats,nextstep,history=stepwisefit(ingredients, heat, 'penter', .10) Initial columns included: noneFinal columns included: 1 2 Columns 1 through 3 'Coeff' 'Std.Err.' 'Status' 1.4683 0.1213 'In' 0.6623 0.0459 'In' 0.2500 0.1847 'Out' -0.2365 0.1733 'Out' Column 4 'P' 2.6922e-007 5.0290e-008 0.2089 0.2054b =se =pval =inmodel = 1 1 0 0stats = source: 'stepwisefit' dfe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论