第七章 回归分析.ppt_第1页
第七章 回归分析.ppt_第2页
第七章 回归分析.ppt_第3页
第七章 回归分析.ppt_第4页
第七章 回归分析.ppt_第5页
免费预览已结束,剩余164页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章回归分析RegressionAnalysis 安徽大学数学科学院 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 联系与相互影响是普遍的现象 事物间的联系和相互影响是普遍的这种相互影响的抽象为 两变量或多变量间的数量关系这种关系可以是线性相关的 也可能是非线性相关的回归模型用来揭示变量间的关系 问题的提出 1885年 弗朗西斯 盖尔敦先生为说明人类传宗接代 其身高趋势时首先使用回归 REGRESSION 这一术语 即人类身体尺寸并不是按其父母的尺寸发展的 而是趋于人类身体尺寸的平均值 也可以说是回归于平均值 回归现象在大自然中是一种普遍现象 如地球上的春夏秋冬 某一生态系统如兔子和野狼系统 兔子增多 野狼增多 兔子减少 野狼减少 兔子增多 社会科学中的分久必和与和久必分等等 很难设想如果没有回归现象世界会是什么样子 在系统科学领域里回归现象称为负的反馈系统 而最小二乘法的算法早在十九世纪初就由C F 高斯所建立 A M 勒让得于一八零五年第一次发表有关著作 然而最小二乘法真正应用到实际中去却是在1960年代 回归分析是应用最广泛的统计模型之一 回归分析主要解决三个问题 回归方程的建立模型的检验结果的统计分析基本要求独立开发通用的回归分析程序设计应用于不同回归模型的应用界面针对数据和条件 选择不同的回归模型解决实际问题 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 回归模型 regression 通过一个或几个变量的变化去解释另一变量的变化包括找出自变量与因变量 设定数学模型 检验模型 估计预测等环节线性回归模型是为了揭示变量间存在的线性关系 考虑随机样本 X Y 这里X表示人的身高 Y表示人的体重 成年中国男性 我们随机抽一人 测其身高及体重得僻如说 1 65 60 即这个人的身高为1 65米 体重60公斤 如果我们固定身高1 65米 进行抽样 这时对Y来说仍然是一随机变量 记为 Y 1 65 我们可以得到很多类似的随机变量 Y 1 70 Y 1 75 Y 1 80 现在假定H 这些随机变量均服从等方差的正态分布 对这些随机变量求均值得E Y 1 65 E Y 1 70 E Y 1 75 E Y 1 80 则我们得到一个函数如果这个函数为一条曲线 我们称其为回归典线见图7 2 1 图7 2 1 显然随机点密集于回归线 即大部分人群密集于体均值 这也是弗朗西斯 盖尔敦提出的回归这一词的原因 注意在实际中我们是不知道这条回归的 但又是确实存在的 我们所抽的一批样本 x1 y1 x2 x2 xN yN 可以认为是回归线这一规律释放信息 我们利用这些信息在某种准则下建立一个样本回归线 用它来作为回归线的估计线 或称样本回归 真实的回归线 估计的回归线 残差 随机误差 图中的实线是 这是一条真实的可以由样本计算出来的直线 称为估计直线 通常我们总是用这条样本直线来分析解决问题的 如预报 内插等 从理论上说真实的回归规律我们永远也不可能精确的知道 这是因为回归规律释放的信息是有限的 或者说我们的抽样量是有限的 这里f x 表示真实的回归 但我们不能精确知道 图中以虚线表示 显然一个重要的问题是拟合优度的问题 拟合优度检验问题近代发展很快 属于现代回归分析部分 图中我们可以看作对f x 进行抽样的随机误差 而则是估计直线与样本的距离称为残差 从图中我们可以直观地看出 当样本直线逼近回归直线时残差的性质越接近回归的随机误差 对残差的行为进行构成了拟合优度检验的重要组成部分残差分析 线性回归模型及其矩阵表示 7 2 1 为自变量 7 2 2 要建立线性回归模型 首先要估计未知参数 称为样本 满足 其中相互独立且均服从分布 令 7 2 3 则可以简写为如下的线性回归模型的矩阵形式 其中称为观测向量 称为设计矩阵 并假设为列满秩的 即 B是待估计的未知参数向量 是不可观测的随机误差向量 在给定n组观测值时 只要令 则有 因此本章以后的讨论都适合于这些模型 只要Y与未知参数之间的关系是线性的 均可按线性回归模型 7 2 1 的方式进行分析 7 2 5 最小二乘估计的推导 正规方程 系数B的最小二乘估计是使的模最小 即 7 2 4 从式 7 2 4 得 为回归方程 最小二乘估计的性质 正则条件 理想条件 若模型 7 2 3 满足正则条件 若模型 7 2 3 满足以下条件 即误差项满足 具有0均值互不相关 且具有等方差 方差一致 我们知道最小二乘估计只是回归系数B的一个估计量 事实上回归系数B有各种各样道估计量 如岭估计 稳健估计 最小一乘估计等 那么最小二乘估计与其他的估计比较有哪些优点 在正则条件下 1 最小二乘估计具有无偏性 即 2 最小二乘估计是所有线性无偏估计中最好的 即为BLUE BestLinearUnbiasedEstimators 设都是B的线性无偏估计 如果的方差小于的方差即则称优于 因此在正则条件下 最小二乘估计是所有线性估计中最好的一个 证明见陈希孺 数理统计引论 3 如果对误差项再增加一些条件 即来自正态总体且相互独立 则最小二乘估计是所有无偏估计中方差最小的 换句话说是所有无偏估计中最好的 又称为UMVUE UniformlyMinimumVarianceintheclassofallUnbiasedEstimators 证明见陈希孺著 数理统计引论 4 误差方差 2的估计 将自变量的各组观测值代入回归方程 可得各因变量的各估计值 拟合值 残差向量 其中残差平方和 由于且 则由此得 从而 7 2 6 是的无偏估计 5 最小二乘估计的方差设B为最小二乘估计 其协方差矩阵表示为 7 2 7 从而每个系数的方差为其中为矩阵的对角线元素 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 既然最小二乘估计是所有线性估计中最好的 我们对一批数据只需用最小二乘估计拟合不就行了吗 这里我们必需强调 最小二乘估计的优良性只是在一定的条件下 即在正则条件下才具有 而真正从实际中抽得的数据往往不一定满足正则条件的 因此我们要对拟合程度的好坏进行诊断 从而找出最佳的估计模型 回归诊断是由于计算机的普及和发展而产生的新兴学科 包括残差分析 最优模型判别准则 多元共线的判别等等 一个典型的最小二乘估计不一定好的例子 真实的线性回归模型 设计的实验界面 当矩阵X的列存在高度线性相关时 矩阵不满秩 从而其逆不存在或者是病态的 即最小二乘估计不准确 当然我们的抽样遇到变量之间完全相关的情况极少见 但相关程度非常大则经常发生 特别是有关经济方面的数据 这一现象将导致估计量的方差极大的膨胀 致使结果不可信 有关方差膨胀问题我们将在后面详细介绍 从上例子可以看出 如不仔细检查数据而随意用最小二乘估计进行拟合有时会犯很大的错误的 回归诊断包括 参数诊数残差分析最优模型选择多元共线检查 1 方差分析我们将总的离差平方和Syy分离成两部分 即回归平方和U与残差平方和Q Q U 参数诊断 这是一种传统的拟合好坏的判别方法 通过计算一些统计量及对其推断 我们大致可以知道拟合好坏程度 7 3 1 N是样本数 m 1是变量数 2 复相关系数R与F检验对给定的观测值总变差Syy是不变的 Q大则U小 反之亦然 因此我们可以造一个无量纲统计量或R 7 3 2 称其为复相关系数 回归平方和U实质上是回归方程中全部自变量对总离差的贡献 而复相关系数是这种贡献所占总和的比例 易知0 R 1 因此复相关系数越接越近1 则回归效果越好 虽然我们常把R作为总回归效果的一个重要指标 但必需注意R与回归方程中自变量个数m 1及观测数据n有关 当n相对于m并不很大时 常常有较大的R 特别当n m时 即使这m个变量与Y风马牛不相及 亦必然有R 1 在实际抽样时要注意n和m的比例适当 一般认为 n至少是m的5 10倍 考虑到m n作用 这里给出比R更合理的指标 3 方差比F可用它来检验这m 1个自变量的总体效果 可根据用户给定的显著性水平自动进行假设检验 回归关系的显著性检验 为了检验Y与X1 X2 Xm 1之间是否存在显著的线性回归关系 即检验假设 这是因为若假设H0成立 那么 即Y与X1 X2 Xm 1之间不存在线性关系 至少一个 F统计量的功能与R差不多 当H0为真时 可以证明F F m 1 n m 这里F m 1 n m 表示自由度为m 1和n m的F分布 由上述对回归平方和SSR的讨论知 若H0不真 F的值有偏大的趋势 因此 给定显著性水平a 由F分布的临界值Fa m 1 n m 即F分布的上侧a分位数 计算F的观测值F0若F0 Fa m 1 n m 接受H0 即在显著性水平a之下 认为线性回归关系不显著 否则拒绝H0 认为线性回归关系显著 在Matlab及其他一些数据分析软件中 对显著性检验问题 其输出结果通常是检验的p值 对上述线性回归关系的显著性检验问题 其检验p值为其中F0是检验统计量的观测值 有了p值后 对于给定的显著性水平a 任何检验准则均为 若p a 则接受H0这样不需要查相应分布的分位数表 直接根据数据分析软件输出的p值和给定的a值 就能够判断接受还是拒绝H0 回归参数的统计推断 回归关系显著并不意味着每个字变量X1 X2 Xm 1对Y的影响都显著 可能其中的某个或某些对Y的影响不显著 一般说来 我们总希望从回归方程中剔除那些对Y的影响不显著的自变量 从而建立一个较为简单有效的回归方程 以偏于实际应用 若某个自变量Xk对Y无影响 显然在线性回归模型中 参数 因此检验Xk的影响是否显著等价于检验假设 构造检验统计量 其中是的最小二乘估计 可以证明 其中t n p 是自由度为n p的t分布 由此 若H0为真 由公式 7 3 4 知若H0不为真 由于则 t 有偏大的趋势 7 3 4 给定显著水平a 求出自由度为n m的t分布的上侧0 5a分位数记t的观察值为t0 检验准则为若 则接受H0若 则拒绝H0 对上述统计量 其p值为从而 若p a 则接受H0 否则拒绝H0另外 由式 10 3 4 可求得的置信度为1 a的置信区间为 7 3 5 建立回归方程除了解与的相依关系外 另一个重要应用就是进行预报 设给定了自变量的一组新观察值 利用回归方程可得因变量的预报值 关于预报值的统计推断 实际上是对应于的y值的点估计 但在实际应用中 更感兴趣的是给出的真值的区间估计 可证明其中 而 由此可得y0的一个置信度为的置信区间为 7 3 6 残差分析 我们知道如果样本回归拟合的好 则残差ei具有回归模型误差项 i的性质 即相互独立 方差一致 0均值 我们来看以下几个图形 图7 3 1的样本点散布在0线断附近 且无什么规律 离差也在比较固定的范围 因此残差平方和较小 则可认为拟合的不错 图7 3 2残差分布具有明显的曲线规律 暗示原回归模型为非线性 因此应用多项或其他非线性模型来拟合它 图7 3 3表示方差不一致 暗示我们原回归模型不满足正则条件 因此最小二乘估计不一定是最好的估计 我们可以选择稳健回归模型来拟合 图7 3 1 图7 3 2 图7 3 3 判断残差自相关的DW统计量由J Durbin和G S Watson提出 用来检验残差是否具有一阶自回归的序列相关问题 即 7 3 7 假设H0 0为了检验上述假设 构造杜宾一华生统计量DW 首先求出回归估计的残差ei 定义统计量DW为 7 3 8 判断残差相关的统计量 可以证明 DW值介于0和4之间 当DW 2时 0 假设H0 0成立 说明序列不相关 利用DW统计表我们可以进行统计推断 l判断方差不一致的统计量GQ由S M Goldfeld和R E Quandt首先提出 把观测值 7 3 9 按照解释变量的大小排序 7 3 9 对应的解释变量同原先的解释变量的对应关系不变 如数据 7 3 10 对应的解释变量同原先的解释变量的对应关系不变 然后 任意选择k个中心观测值予以略去 这里k的大小 戈德菲尔特和夸特经过试验认为大约相当于样本的四分之一 例如当n 30时 k 8 当n 100时k 24 剩下的样本分为大小相等的两个子样本 其中一个子样本包括的观测值是相应的解释变量较大值部分 另一子样本为乘余部分 然后对两个子样本分别进行回归拟合 求出各自的残差平方和 设 表示解释变量较小数值子样本的残差平方和 表示解释变量较大数值子样本的残差平方和 它们的自由度均是现在我们可以构造统计量GQ了 GQ服从第一自由 第二自由度都为 n k 2 m 1的F分布 如果给定一显著性水平 那么可查出 如果F 那么拒绝H0 等方差假设 得结论方差不等 7 3 11 回归方程的选取 当回归函数的类型选定为线性函数 或关于未知参数是线性函数 后 要考虑的一个重要问题就是关于自变量的选取 1 模型中应包含尽可能多的自变量 为了获得较全面的信息 2 回归方程中应包含尽可能少的且重要的自变量 1 获取如此多自变量的观测值的实际困难和费用 2 理论上证明预报值的方差随着自变量数目的增大而增大 3 包含较多自变量的模型拟合的计算量大 又不便于利用拟合模型对实际问题作解释 回归方程的选取 基本思想 在一定的准则下选取对因变量影响较为显著的自变量 建立一个既合理又简单实用的回归模型 方法 穷举法逐步回归法 穷举法 穷举法就是从所有可能的回归方程中按一定准则选取最优的一个或几个 设是所有个自变量 以所给的自变量和因变量的观测数据为基础 对任何拟合包含有个自变量的所有的可能的线性回归模型 时 即拟合仅含常数项的回归模型 共有个 这样对一切就需要拟合个 再按一定的准则从中选取最优的或是较优的 穷举法 四种选取准则 1复相关系数准则 准则 2修正的复相关系数准则或均方残差准则 或准则 3准则4预报平方和 predictionsumofsquares 准则 准则 复相关系数准则法 准则 在一个包含p 1各自变量的线性回归模型中 即模型中有p个参数 其中和分别表示拟合该模型的残差平方和及回归平方和 而总平方和是不随p变化的一个量 复相关系数准则法 越大Y与这p 1个自变量的线性回归关系越显著越大该回归方程描述因变量总变化量的比例越大 复相关系数准则法 可以证明且回归方程中不断添加自变量时的值单调不减 因此 当所有M个自变量都在回归方程中 的值最大 故通过使达到最大来选择最优回归方程都是无意义的 复相关系数准则法 实际应用中 给定某个p 将所有包含p 1个自变量的个回归方程使达到最大的回归方程作为候选模型 当p增加时 这些候选模型所对应的值一般开始增加较快 后逐渐趋于平缓 即增加自变量已不能显著提高拟合精度 则将由较快增加到趋于平缓的分界点处的值所对应的那个回归方程为最优的回归方程 复相关系数准则法 总之 利用选择回归方程的准则如下 1 拟合所有可能的个线性回归模型 并计算各模型的值 2 在包含相同个数自变量的所有回归方程所对应的值中 选择出的最大值 再同后一组的最大的值作比较 当值的增加不显著时 便选择相应的值所对应的回归方程为最优方程 修正的复相关系数准则或均方残差准则 或准则 中没有直接考虑模型中待估参数的个数的作用 而一个好的模型应该既能充分反映的变化 又包含较少的待估系数 因而包括较少的自变量 因此将的控制引入到中 得到它的一个修正量为 修正的复相关系数准则或均方残差准则 通过的自由度将引入到中 使的不断增加对的增加起平缓作用 由于并不随的变化而变化 因此利用使达到最大选择最优回归方程的准则和使小的准则是等价的 由于 当增加时 和均在减少 因而在包含不足M个自变量的回归方程中使达到最小是可能的 在实际应用中 在一定精度要求下也可选择使接近于最小 当包含较少书目的自变量的回归方程作为最优方程 准则 统计量的定义为其中是包含个回归参数 因而含个自变量 的回归方程的残差平方和 表示包含所有个自变量的回归方程的均方残差 准则 如果仅含某个自变量的线性模型已能很好地拟合所给数据 则可证明通过此式我们看到 对于拟合较好的回归方程 其值应和值相差不大 将所有可能的描在以为纵坐标 为横坐标的直角坐标系中 称为图 那么拟合较好的回归方程对应的点在图中应位于直线的附近 准则 利用值选择最优回归方程的方法如下 1 对每个可能的回归方程 计算其值 2 做出图 在图中最靠近直线的点所对应的回归方程被认为是最优回归方程 预报平方和准则 准则 基本思想 对于给定的某个自变量如 在数据中删除第组观测值后利用这个自变量及的其余组观测值拟合线性回归模型 并利用拟合的回归方程对作预报 若记此预报值为 则预报误差为 预报平方和准则 如果包含这个自变量的回归模型对所给数据拟合较好 那么的绝对值应比较小 则选取使达到最小或接近最小的回归方程为最优回归方程 预报平方和准则 理论证明 例 为了对作过某一类型的肝手术病人的生存时间作预报 某医院外科随机地选取了54位需要做此类手术的病人为研究对象 对每一位病人 手术前考察了下列四个指标 凝血值 预后指数 与年龄有关 酵素化验值 肝功化验值 手术后跟踪观测各病人的生存时间 如表 解以手术后的生存时间为因变量 以为自变量作线性回归分析 如前例同 残差分析结果表明误差的分布与正态分布有较大的偏离 而有序残差与期望值的相关系数只有0 826 其他的残差图都建议对原数据作变化 为此 对生存时间作对数变化 并将值列于数据表中最后一列 如前表 以为因变量 以为自变量拟合线性模型 残差的正态QQ图如下图 我们看到误差的正态性有明显地改善 有序残差与其期望值的相关系数达0 959 其他类型的残差图也表明变换后比较合理 虽然以为自变量 为自变量拟合线性回归模型是比较合理的 但并不能保证每个自变量均对有显著影响 因此我们通过前述准测选择最优回归方程 由于M 4 故所有可能的回归方程只有 分别拟合这16个回归方程 求得各标准值如表 考察值由值可以看到 从包括的回归方程到包含所有自变量的回归方程 其值的增加量几乎为零 而前者的 0 972已接近于1 因此我们选取的最优回归方程为包括的回归方程 若将点描在以为纵坐标 为横坐标的直角坐标系中 此图称为图 考察的值我们可以看到包含的回归方程的值最小 并同时做图 值除含全部4个自变量的回归方程外 包含的回归方程的与最接近 其他的值远远在直线之上 由准测选择含的回归方程为最优回归方程 值包含的回归方程的值最小 为最优回归方程 用各种准测所建议的最优回归方程可能是不同的 和准测侧重于回归方程的拟合优度 但后两者加进了参数个数的控制作用 而准测更侧重于回归方程的预报能力 若实际情况中次优模型的自变量值更易得到并成本更低 也可以考虑次优模型 例 氧气消耗我们研究人的各项指标和氧气消耗量的回归关系 这里X1 年龄 X2 体重 X3 跑完1 5英里所有时间 X4 平静时的脉博数 X5 跑完后的脉博数 X6 跑步途中的最大脉搏数 Y 氧气消耗量 对31人进行了考察的数据 7 3 4 在前面的例子中我们已经指出 如果样本中存在多元共线 则估计出的参数很不稳定 因此事先能检查出多元共线是十分有意义的 多元共线的实质是 存在某一指标几科可以由另一些指标线性表示 因此检查多元共线有各种方法 1 利用相关矩阵进行诊断例 美国海军医院人力需求美国海军对各海外基地医院设备 人力等进行了调查 共抽17个医院 见数据 7 3 3 多元共线性诊断 其中 X1 平均每月病人数 X2 每月X一射线诊断数 X3 每月所占病床数 X4 医院所在范围内的有权就诊人数 X5 病人每天在医院平均滞留时间 Y 每月人力要求 我们来看相关矩阵 显然根据相关矩阵我们看出X1 X3高度相关即0 99990因此这批样本一定存在多元共线性 但这种方法有局限性 它只能检查变量两两之间的相关性 2 方差膨胀因子VIFS VarianceInflationFactors 7 3 14 一般当VIFS 10时 有理由认为Xi与其他自变量高度相关 即存在多元共线性 3 利用条件数 7 3 15 其中 max为协方差阵的特征根中绝对值最大的一个 min为协方差阵的特征根中绝对值最小的一个 当 很大时预示存在严重的多元性 大的条件数也说明估计出的回归系数不稳定 当条件数超过1000时我们认为存在多元共线的影响 有时我们用 j max j 7 3 16 这也是一种有效的检验方法 3 利用特征根对系数方差的贡献率Pji现在让我们更深入地讨论多元线对估计参数的影响 我们知道多元共线的主要危险是使得一些估计参数的方差膨胀 而方差越大则估计值越不稳定 从而导致拟合的很不好 因此我们想找一种方法 它可以判别某一个多元共线性对那些系数造成了方差膨胀的影响 见图7 3 4 非常小的特征根将导致某种多元共线 因此导出每一特征根对某一系数的方差的贡献 现在我们来推导方差贡献率Pji 而判断多元线可以看矩阵的特征根 非常小的特征根将导致某种多元共线 因此导出每一特征根对某一系数的方差的贡献 现在我们来推导方差贡献率Pji因为的对角线元素即为相应系数的方差 由的正定性知 存在正交阵V使得 7 3 17 从而 7 3 18 则对角线的元素为 7 3 19 定义 4 3 20 表示第j个特征根对第i个系数方差贡献比 例 我们仍考察海军医院人力需求的例子 见输出结果 表7 3 2 输出结果7 3 2海军医院数据的多元共线诊断 输出结果7 3 2方差贡献比 从输出结果中我们可以看出 这批数据具有明显的多元共线性 首先最小的特征根为0 000028 1 18267 1482 它对某些系数方差的膨胀起了决定性影响 我们来分析输出结果 4 3 3 表的右边为方差贡献比矩阵 最后一行可以看出最小的特征根对系数 1的方差贡献比为0 9995 对 3的方差贡献比为0 9992 对 4的方差贡献比为0 4378 因此估计系数 1 3 4将十分不稳定 结果很差 这一点从输出结果 7 3 2 中也可得到证明 1 3 4的VIF值分别为 9597 5708 8933 0865 23 29都超过10 我们再看看第二个最小的特征根为 0 008215也近乎为0 从输出结果 7 3 3 来看对 0 5产生影响 方差贡献比分别为0 8048 0 7574 这可从上表中的估计标准差分别为1071 3616和209 6395得到近一步的证明 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 多元线性回归 b regress Y X 1 确定回归系数的点估计值 对一元线性回归 取p 1即可 3 画出残差及其置信区间 rcoplot r rint 2 求回归系数的点估计和区间估计 并检验回归模型 b bint r rint stats regress Y X alpha rcoplot 回归残差图Rcoplot r rint 例 解 1 输入数据 x 143145146147149150153154155156157158159160162164 X ones 16 1 x Y 8885889192939395969897969899100102 2 回归分析及检验 b bint r rint stats regress Y X b bint stats 3 残差分析 作残差图 rcoplot r rint 从残差图可以看出 除第二个数据外 其余数据的残差离零点均较近 且残差的置信区间均包含零点 这说明回归模型y 16 073 0 7194x能较好的符合原始数据 而第二个数据可视为异常点 4 预测及作图 z b 1 b 2 xplot x Y k x z r 建立回归方程也不是简单地进行一次拟合 而是拟合 拟合优度检验 拟合这样一个不断的反复过程 直至找到满意的模型为止 例 这批数据为美国1890 1970每隔十年的人口数据 见图 7 1 1 clear clcloadcensus 调入人口数据X cdate Y pop s length X XX ones s 1 X 对自变量数据加一列元素全为1 b bint r rint stats regress Y XX Y1 XX 1 2 b subplot 1 2 1 plot cdate Y r cdate Y1 title 模型和原始数据 subplot 1 2 2 plot cdate r b title 残差分析图 用一元线性回归模型来拟合得 7 4 1 最大残差为 RES 19 36 35252 有关的统计量 复相关系数 R 9603806估计的标准差 E 18 12724杜宾 华生统计量 DW 1801349GQ统计量 GQ 14 54205PRESS统计量 PRESS 7619 634自相关系数p 0 909 我们看到最大残差为36 53 而从残差图来看 其形状具有明显的曲线规律 杜宾一华生统计量为0 180也显示了这一规律性 因此这一模型拟合的不好 我们来寻求另外的模型 从残差图中知人口数据是一曲线 因此我们式用二次曲线来描述 在统计专家中选择数据处理 即对X平方 得一新的自变量 再用统计专家对Y X X2拟合得 7 4 2 有关的统计量 复相关系数 R 9990367估计的标准差 E 2 942221杜宾 华生统计量 DW 1 265472GQ统计量 GQ 62 40152PRESS统计量 PRESS 188 9147自相关系数 0 367 从结果来分析拟合优度大大好转 最大残差仅为6 6 而杜宾统计量也有所改善 然而再仔细观察残差图 我们发现样本16 17的残差点远离其他差点远离其他点群 这暗示现在的模型在这两点的预测值很不准确 究其原因 这两点正是1940 1950两年 而二次大战正在其间 这是使美国人口增长锐减的原故 因此需要回归模型能在这两点进行特殊的处理 我们可以再引进一个0 1变量Z 它在以上两点取值1 而在其余点取值0 最大残差为 RES 13 1 955386有关的统计量 复相关系数 R 9998003估计的标准差 E 1 383756杜宾 华生统计量 DW 1 37162GQ统计量 GQ 3 134458PRESS统计量 PRESS 19 99494自相关系数 0 31425 杜宾一沃尔松统计量 DW 1 372 自相关函数 P 0 31425 现在我们得到了基本满意的结果 最大残差仅为1 95 其他统计量都不错 因而我们选择式 10 1 3 为最终模型 由于有了计算机和比较好的软件 解决以上问题总共只有了十来分钟 计算机使回归分析的理论及应用起了巨大的发展 如残差分析实际上是由于了高速计算机及计算机作图功能才发展起来的 多项式回归 一 一元多项式回归 y a1xm a2xm 1 amx am 1 2 预测和预测误差估计 1 Y polyval p x 求polyfit所得的回归多项式在x处的预测值Y 2 Y DELTA polyconf p x S alpha 求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1 alpha的置信区间YDELTA alpha缺省时为0 5 方法一 直接作二次多项式回归 t 1 30 1 30 14 30 s 11 8615 6720 6026 6933 7141 9351 1361 4972 9085 4499 08113 77129 54146 48 p S polyfit t s 2 得回归模型为 法二 化为多元线性回归 t 1 30 1 30 14 30 s 11 8615 6720 6026 6933 7141 9351 1361 4972 9085 4499 08113 77129 54146 48 T ones 14 1 t t 2 b bint r rint stats regress s T b stats 得回归模型为 Y polyconf p t S plot t s k t Y r 预测及作图 二 多元二项式回归 命令 rstool x y model alpha 例3设某商品的需求量与消费者的平均收入 商品价格的统计数据如下 建立回归模型 预测平均收入为1000 价格为6时的商品需求量 方法一 直接用多元二项式回归 x1 10006001200500300400130011001300300 x2 5766875439 y 10075807050659010011060 x x1 x2 rstool x y purequadratic 在画面左下方的下拉式菜单中选 all 则beta rmse和residuals都传送到Matlab工作区中 在左边图形下方的方框中输入1000 右边图形下方的方框中输入6 则画面左边的 PredictedY 下方的数据变为88 47981 即预测出平均收入为1000 价格为6时的商品需求量为88 4791 在Matlab工作区中输入命令 beta rmse 结果为 b 110 53130 1464 26 5709 0 00011 8475stats 0 970240 66560 0005 方法二 非线性回归 1 确定回归系数的命令 beta r J nlinfit x y model beta0 2 非线性回归命令 nlintool x y model beta0 alpha 1 回归 2 输入数据 x 2 16 y 6 428 209 589 59 7109 939 9910 4910 5910 6010 8010 6010 9010 76 beta0 82 3 求回归系数 beta r J nlinfit x y volum beta0 beta 得结果 beta 11 6036 1 0641 即得回归模型为 4 预测及作图 YY delta nlpredci volum x beta r J plot x y k x YY r leverage 生成回归的中心化杠杆值 以衡量给定的观察值在输入空间而引起的对回归的影响 h leverage data h leverage data model h leverage data findstheleverageofeachrow point inthematrixdataforalinearadditiveregressionmodel h leverage data model findstheleverageonaregression usingaspecifiedmodeltype where model canbeoneofthesestrings linear includesconstantandlinearterms interaction includesconstant linear andcrossproductterms quadratic includesinteractionsandsquaredterms purequadratic includesconstant linear andsquaredtermsExampleOneruleofthumbistocomparetheleverageto2p nwherenisthenumberofobservationsandpisthenumberofparametersinthemodel FortheHalddatasetthisvalueis0 7692 loadhaldh max leverage ingredients linear h 0 7004Since0 7004 0 7692 therearenohighleveragepointsusingthisrule regstats regstats y X model stats regstats stats regstats y X model whichstats regstats y X model performsamultilinearregressionoftheresponsesinyonthepredictorsinX Xisann by pmatrixofppredictorsateachofnobservations yisann by 1vectorofobservedresponses modelcontrolstheregressionmodel Bydefault regstatsusesalinearadditivemodelwithaconstantterm modelcanbeanyoneofthefollowingstrings linear Constantandlinearterms thedefault interaction Constant linear andinteractionterms quadratic Constant linear interaction andsquaredterms purequadratic Constant linear andsquaredterms whichstats QQfromtheQRdecompositionofthedesignmatrixRRfromtheQRdecompositionofthedesignmatrixbetaRegressioncoefficientscovbCovarianceofregressioncoefficientsyhatFittedvaluesoftheresponsedatarResidualsmseMeansquarederrorrsquareR2statisticadjrsquareAdjustedR2statisticleverageLeveragehatmatHatmatrix s2 iDelete 1variancebeta iDelete 1coefficientsstandresStandardizedresidualsstudresStudentizedresidualsdfbetasScaledchangeinregressioncoefficientsdffitChangeinfittedvaluesdffitsScaledchangeinfittedvaluescovratioChangeincovariancecookdCook sdistancetstattstatisticsforcoefficientsfstatFstatistic clear clcA load I matlab ex data hosp txt y A 6 X A 1 5 stats regstats y X linear all b stats betasymsX1X2X3X4X5 XX 1X1X2X3X4X5 vpa XX b 6 subplot 1 2 1 plot stats r r title 残差图 subplot 1 2 2 plot stats standres s title 标准残差图 x2fx 讲一个因子矩阵转换为一个设计矩阵D x2fx X D x2fx X model Theorderofcolumnsforaquadraticmodelis ConstanttermLinearterms theinputXcolumns1 2 k InteractiontermsformedbytakingpairwiseproductsofXcolumns 1 2 1 3 1 k 2 3 k 1 k Squaredtermsintheorder1 2 k Example1 x 123 model 012 D x2fx x model D 111124139 Example2 x 123 456 model quadratic D x2fx x model D 11441161251042513618936 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 逐步回归的概念 我们已经知道 如果获得了自变量X1 X2 Xm的一批样本 利用统计软件可以十分方便地计算出回归结果 但如果变量之间存在线性关系 即存在多元共线性 则正规方程的解会产生 病态 或 退化 从而导致估计系数的方差膨胀 使计算产生很大的误差 7 5 1 因此人们想出一种方法 即将X1 X2 Xm看成是回归模型的备选变量 从中选取l个变量 l m 对Y作回归 而这l个自变量之间没有明显的多元共线 由于l是变化的所以有很多的回归估计 事实上我们可以有2m个备选回归方程 选取最优方程的方法很多 例如用枚举法 由于计算机的速度很快 我们可以把自变量的所有子集与Y做回归 这样可以产生2m个回归方程 然后按照某种准则 如PRESS统计量 来确定最优的回归模型 我们前几届的同学事实上已经开发出这样的子程序了 另一种传统的方法是逐步回归 逐步回归的基本思想在回归诊断中我们已经知道 通过F检验或t检验可以知道那些变量重要 那些变量不重要 这是我们选择变量和剔除变量的依据 逐步回归法 逐步回归法的基本步骤是依次拟合一系列回归方程 后一个回归方程是在前一个的基础上增加或删除一个自变量 其增加或删除某个自变量的准测是用残差平方和的增加或减少量来横量 一般采用如下的偏F检验统计量 逐步回归法 其中称为额外回归平方和 它描述了将引入到含A中各变量的线性模型中 或在含A中各自变量及的线性模型中剔除 时 其误差平方和的减少 或增加 量 可以证明 当含A中各变量的线性回归模型为真时 1 逐步向前回归第一步 首先在X1 X2 Xm 中选择对Y贡献最大的某个自变量 例如Xi与Y做回归得一个一元回归 第二步 在剩下的变量中选择对Y贡献最大的某个Xj 与Xi建立和Y的二元回归 按上面的步骤一直做下去 直到完成一个m元的回归方程 然后按照某准则在这m个回归中选一个最好的 比如l个自变量的回归方程 2 逐步向后回归第一步 首先将所有的自变量与Y做一个m元的回归方程 第二步 计算Fi i 1 2 m 选择值最小的一个 僻如说Fj 将其对应的变量Xj剔除 得m 1元回归方程 按上面的步骤一直作下去 直到完成一个一元回归方程 然后按照某准则在这m个回归中选一个最好的 比如l个自变量的回归方程 例7 5 1对医院数据进行逐步回归计算 MATLAB提供了一个界面命令 可以让我们很直观地了解逐步回归的拟合过程 基本语法为 stepwise X y stepwise X y inmodel penter premove 这里X 为n m的数据矩阵 即有m个自变量进行了n次抽样 Y 为n 1的向量 为因变量或称解释变量 Inmode 参数 说明几个或那些变量进入回归方程 Penter 进入模型变量的显著性水平 系统内定为p 0 05 Premove 剔除变量的显著性水平 系统内定为p 0 10 我们可以用给定的参数对模型的变量进行控制 如果不给出参数则按系统内定的参数进行逐步回归 对海军医院的数据进行逐步回归分析XX load e data hosp1 txt n m size XX X XX 1 m 1 Y XX m stepwise X Y 准备将X3进入 进入下一步 蓝点表示进入变量 下一步进入X2 最后的逐步回归方程为 第七章回归分析 7 1引言 7 2回归的直观解释及基本算法 7 3回归诊断 7 4Matlab工具箱中的回归分析模块 7 5逐步回归 7 6岭回归 7 7稳健回归 岭回归的基本概念 我们已经知道 很多从实际抽来的数据存在多元共线问题 特别是经济类数据 用逐步回归 我们可以解决多元共线问题 逐步回归可以将某些相关变量剔除一部分 从而降低了多元共线问题 但有时并不尽人意 如一位经济学家 根据经济学知识 对一个实际背景建立了一个经济统计模型 各变量都有其实际意义 然而由于是经济类的问题 不可避免地存在变量之间的相关 即模型存在多元共线性 而用消去一些变量的方法使原来的经济背景面貌全非 因此对这位经济学家来说 他的回归模型既需要保留所有变量 又希望估计出来的回归系数方差不能太大 当然找这样的两全其美的估计量是不可能的 我们必需对估计量的某些要求作些放松 即将无偏估计降低为有偏估计 从而保证了既不丢失变量 又使方差较小 这就是岭估计 或称岭回归 尽管岭回归方法到目前为止仍有部分统计学家持异议 但在实际各工作中有时却不得不使用岭回归的方法 例如 设b b 都是0的估计 b是0的无偏估计 而b 是0的有偏估计 但它们的方差却不同 b的方差非常大 这时你认为那一个估计更实用 见图7 5 1 无偏估计但方差太大 有偏估计但方差很小 岭回归的算法 我们来看岭回归的实质 设有两个自变量的回归数据 我们对数据进行中心化标准化即对每个变量的样本 减去其样本均值再除以样本均方 得一个相关矩阵 这里X 是标准化的矩阵 从相关系数为0 999我们推断两个自变量高度相关 而矩阵的特征值为 1 1 999 2 0 001 特征值 2非常小 则估计回归系数的方差非常大 上面矩阵的逆 则方差膨胀因子为 VIF1 500 25VIF2 500 25 远远大于10 我们可以看出 导致回归系数估计效率低的原因是某些特征很太小 因此我们想人为地对矩阵的对角线加一个小的正数正数 这里k 0 1 显然存在正交阵V使 其特征根分别为 1 2 099 2 0 101 它的逆矩阵为 方差膨胀因子改善为 VIF1 5 1887VIF2 5 1887 这个结果大大降低了由 2 0 001带来的方差膨胀 我们可以看出对与存在多元共线的矩阵 我们在其对角线上加了一个小的正数 对方差膨胀因子的降低起到了四两拨千斤的作用 当然加了一个小数最小二乘估计的矩阵改变了 估计也成了有偏估计了 然而我们牺牲了回归估计的无偏性 赢得了回归估计方差没有大幅膨胀 这里k称为收缩系数 Shrinkageparameter 或称为岭脊 岭回归估计可表示为 狭义岭回归计算公式 广义岭回归计算公式 这里 例7 5 1对海军医院数据进行岭估计 对k进行搜索 目标为PRESS最小 MATLAB的岭估计语法为 clear clc 狭义岭回归计算医院数据 验证Myers P255XX load e data hosp txt n m size XX I eye m X XX 1 m 1 Y XX m X ones n 1 X H X inv X X X 计算帽子矩阵k 0 0 对k赋初值 循环搜索最佳岭脊fori 1 50K i k A k I A 1 1 0 b inv X X A X Y 计算岭回归系数H X inv X X k I X 计算基于k的帽子矩阵Y1 b X e Y Y1 计算残差B i b PRSS i s press Hat H e 计算基于k的PRESS统计量k k 0 08 对k加0 08再循环计算endBPRSS plot K PRSS r 打印图形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论