第二章 回归分析.ppt_第1页
第二章 回归分析.ppt_第2页
第二章 回归分析.ppt_第3页
第二章 回归分析.ppt_第4页
第二章 回归分析.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海洋与气象学院大气科学专业 第二章回归分析 Ch2 1回归分析与简单线性回归Ch2 2多元线性回归Ch2 3逐步回归Ch2 4非线性回归Ch2 5回归分析在气象上的应用 海洋与气象学院大气科学专业 回归分析目前是所有统计分支中应用最广泛的一门学科 它被用于几乎所有的研究领域及工农业生产 包括产品的统计质量管理 市场预测 自动控制中数学模型的建立 气象预报 地质勘探 医学卫生等等 海洋与气象学院大气科学专业 Ch2 1回归分析与简单线性回归 一 相关与回归的基本概念 二 简单线性回归 1 相关关系的特点 2 回归分析的基本概念 1 一元线性回归模型 2 回归系数的最小二乘法估计 3 回归方程的方差分析 4 相关系数与线性回归 5 回归方程的显著性检验 F检验 海洋与气象学院大气科学专业 正相关 线性相关 不相关 相关系数 统计依赖关系 负相关 有因果关系 回归分析 正相关 无因果关系 相关分析 非线性相关 不相关 负相关 一 相关与回归的基本概念 海洋与气象学院大气科学专业 1 相关关系的特点 一 相关与回归的基本概念 1 现象之间确实存在数量上的依存关系 2 现象之间数量上的依存关系不是确定的 海洋与气象学院大气科学专业 它是以直角坐标系的横轴代表变量X 纵轴代表变量Y 将两个变量间相对应的变量值用坐标点的形式描述出来 用来反映两变量之间相关关系的图形 相关图 又称散点图 正相关 负相关 曲线相关 不相关 海洋与气象学院大气科学专业 它是以直角坐标系的横轴代表变量X 纵轴代表变量Y 将两个变量间相对应的变量值用坐标点的形式描述出来 用来反映两变量之间相关关系的图形 相关图 又称散点图 北京3月下旬平均最低温度 Tm 环流指标A 3月16 20日500Pha候平均图上沿130 E 30 40 N的高度差 例 海洋与气象学院大气科学专业 北京Tm与A资料表 海洋与气象学院大气科学专业 2 回归分析的基本概念 回归分析 regressionanalysis 是研究一个变量关于另一个 些 变量的具体依赖关系的计算方法和理论 其目的在于通过后者的已知或设定值 去估计和 或 预测前者的 总体 均值 一 相关与回归的基本概念 根据相关关系的数量表达式 回归方程式 与给定的自变量x 揭示应变量y在数量上的平均变化和求得应变量的预测值的统计分析方法 即当自变量取某个确定值时 与之统计相关的应变量所有可能出现的对应值的平均值 海洋与气象学院大气科学专业 北京Tm与A的相关图 海洋与气象学院大气科学专业 或更一般地称为总体回归曲线 是一线性函数 其中 0 1是未知参数 称为回归系数 regressioncoefficients 回归模型 sampleregressionmodel 在给定自变量Xi条件下 应变量Yi的期望轨迹 populationregressionline populationregressioncurve 称为总体回归线 海洋与气象学院大气科学专业 回归分析的类型 简单回归 复回归 一元线性回归 SimpleLinearregression 海洋与气象学院大气科学专业 Ch2 1回归分析与简单线性回归 一 相关与回归的基本概念 二 简单线性回归 1 相关关系的特点 2 回归分析的基本概念 1 一元线性回归模型 2 回归系数的最小二乘法估计 3 回归方程的方差分析 4 相关系数与线性回归 5 回归方程的显著性检验 F检验 海洋与气象学院大气科学专业 二 简单线性回归 1 一元线性回归模型 或 回归常数 回归系数 2 1 海洋与气象学院大气科学专业 2 2 回归系数的最小二乘法估计 最小二乘法 OrdinaryLeastSquares 即 达最小值 2 2 Q是待定回归系数b0和b的函数 OLS基本思想 所有散点离回归线最近 即残差平方和最小 使观测值y与估计值的误差 残差 平方和达最小值的求回归系数b0和b的方法 海洋与气象学院大气科学专业 根据微积分学的极值原理 有 即 海洋与气象学院大气科学专业 整理 有 2 3 求回归系数的标准方程组 正规方程组 海洋与气象学院大气科学专业 解标准方程组有 由 式得 2 4a 将b0代入 式整理 2 4b 海洋与气象学院大气科学专业 对北京Tm与A建立一元线性回归模型 根据所得观测资料 计算有关统计量 海洋与气象学院大气科学专业 计算b和b0 回归方程 海洋与气象学院大气科学专业 复习提问 1 OLS的基本思想是什么 2 说出求一元回归方程系数的公式 所有散点离回归线最近 即残差平方和最小 海洋与气象学院大气科学专业 对于某一个样本点yi的值 可分解成 对上式两端平方 3 回归方程的方差分析 从x与y的相关回归图上可以发现 整理上式 0 海洋与气象学院大气科学专业 结果 总离差平方和 记为Lyy 表示样本本身的变化 回归平方和 记为U 其表示由自变量X的变化而引起Y的变化 残 误 差平方 记为Q 其表示排除自变量x影响以外的其他偶然因素引起对Y的影响 海洋与气象学院大气科学专业 总离差平方和 记为Lyy 表示样本本身的变化 回归平方和 记为U 其表示由自变量X的变化而引起Y的变化 残 误 差平方 记为Q 其表示排除自变量x影响以外的其他偶然因素引起对Y的影响 原式写为 海洋与气象学院大气科学专业 对于给定的样本 Lyy是定值 当Q增大时 U减小 Q减小时 则U增大 当U较大时 表明用这种线性关系解释y与x的关系比较符合实际情况 回归模型就比较好 原式写为 海洋与气象学院大气科学专业 将 代入上式 4 相关系数与线性回归 海洋与气象学院大气科学专业 得 意义 反映了预报因子x与预报量y的的线性关系程度 说明所有实测点y全在直线回归方程上 当r 0时 即当预报因子x与预报对象y的 r 越大 则U越大 回归效果越好 当r 1时 说明x与y无线性关系 海洋与气象学院大气科学专业 5 回归方程的显著性检验 F检验 假设H0 总体的回归系数 0 引入F统计量 其中 思考 为什么分子自由度是1 分母的是n 2 F f1 f2 海洋与气象学院大气科学专业 五 回归方程的显著性检验 F检验 取信度 0 1 0 05 0 01 查F分布表 若F 时 接受H0 方程回归效果不显著 若F 时 拒绝H0 方程回归效果显著 海洋与气象学院大气科学专业 对北京3月下旬Tm与A的回归方程进行显著检验 对于一元线性回归 其U的表达式 海洋与气象学院大气科学专业 对北京3月下旬Tm与A的回归方程进行显著检验 根据所给资料计算 海洋与气象学院大气科学专业 则F统计量值 取信度 0 05 查F分布表 结果 回归方程显著 F 4 41 海洋与气象学院大气科学专业 小结 相关与回归分析的概念 一元线性回归分析 一元线性回归的模型 最小二乘法估计回归系数 回归方程效果分析与检验 海洋与气象学院大气科学专业 北京Tm与A资料表 海洋与气象学院大气科学专业 北京Tm与A的相关图 海洋与气象学院大气科学专业 北京Tm与A的相关图 海洋与气象学院大气科学专业 北京Tm与A的相关图 基本数学要求 海洋与气象学院大气科学专业 北京Tm与A的相关图 海洋与气象学院大气科学专业 北京Tm与A的散布图 海洋与气象学院大气科学专业 Ch2 2多元线性回归 MultipleRegression 一 多元线性回归方程模式 二 用最小二乘法估计回归系数 三 回归效果分析 五 多元线性回归方程建立步骤 四 多元线性回归方程因子数目 海洋与气象学院大气科学专业 一 多元线性回归方程模式 设y与多个变量x1 x2 x3 xp的关系是线性的 则其线性回归表达式为 多元线性回归的几何意义 不是一条直线 而是一个回归平面 海洋与气象学院大气科学专业 二 用最小二乘法估计回归系数 建立正规方程组 OLS基本思想 所有散点离回归线最近 即残差平方和最小 即 由微分极值定理知必有 海洋与气象学院大气科学专业 得P 1个方程 组成确定回归系数的方程组 海洋与气象学院大气科学专业 海洋与气象学院大气科学专业 正规方程组 P个方程 公式小结 海洋与气象学院大气科学专业 与原始变量的相同 距平变量的多元回归模式 标准化变量的多元回归模式 其正规方程组 其正规方程组 相关系数取代了协方差 海洋与气象学院大气科学专业 2 解正规方程组 1 当为二元方程组时 可用代入法 行列式法解 2 当为三元以上时 则用高斯 约当消元法 求解求逆 解方程 具体见教材P260 263 海洋与气象学院大气科学专业 初始步 将正规方程组的系数 常数项组成系数的增广矩阵为 1 消元法的基本思路及步骤 海洋与气象学院大气科学专业 第一步 令k 1 先把第一列中的元素变换为 第二步 令k 2 再把第列中的元素变换为 第三步 依此类推 直到把所有的系数矩阵的元素都转换成0 1 使得增广矩阵的系数矩阵变为单位矩阵 求出系数值 1 消元法的基本思路及步骤 此时称为对第1列消元 称为对第2列消元 海洋与气象学院大气科学专业 2 消元法的计算公式 B 1 高斯约当消元求解求逆计算公式 B 2 高斯约当消元求解求逆紧凑公式 海洋与气象学院大气科学专业 Ch2 2多元线性回归 MultipleRegression 一 多元线性回归方程模式 二 用最小二乘法估计回归系数 三 回归效果分析 五 多元线性回归方程建立步骤 四 多元线性回归方程因子数目 海洋与气象学院大气科学专业 三 回归效果分析 一 总回归效果分析 海洋与气象学院大气科学专业 二 复相关系数 表示一个变量与多个变量的综合作用 几何意义上是一超几何空间的 由多个变量形成的 面 用 R 表示 取值范围是 0 1 R 1 表示实际点子与理论上配合的面完全重合 R越大 表示各自变量与预报对象相关越紧密 回归效果越好 定义 MultipleCorrelation 海洋与气象学院大气科学专业 F检验公式也可以用R计算求得 海洋与气象学院大气科学专业 三 各因子重要性检验 偏回归平方和的检验 前面讲的有关多元线性回归的内容 纯属一元情形的推广 只是形式上复杂一些而已 而各因子的重要性检验则是多元回归分析所特有的 在实际工作中 建立多元回归方程的同时 我们还关心Y对x1 x2 xk的线性回归中 哪些预报因子 自变量 更重要些 哪些不重要 海洋与气象学院大气科学专业 怎栏来衡量某个特定因素 p 的影响呢 1 标准回归系数法 该方法不用适用于因子间关系太密切的情况 bzp消除了因子量纲 bzp标准回归系数越大 因子对Y的影响越大 也就越重要 海洋与气象学院大气科学专业 对于Y的总的线性影响 记作U k 2 偏回归平方和检验法 前面学过的知识 回归平方和U刻划了全体自变量对Y总的线性影响 考察xk的作用 当从原来 个自变量中删除xk变量时 U U k 则有 Vk 假定原方程中有x1 x2 xk因子 方程的回归平方和为U 海洋与气象学院大气科学专业 对于Y的总的线性影响 记作U k 2 偏回归平方和检验法 前面学过的知识 回归平方和U刻划了全体自变量对Y总的线性影响 考察xk的作用 当从原来 个自变量中删除xk变量时 U U k 则有 Vk 假定原方程中有x1 x2 xk因子 方程的回归平方和为U 海洋与气象学院大气科学专业 U U k Vk 这个差值可看作是由xk产生的 对回归平方和的作用 贡献 一般我们就称为x1 x2 xk中xk的偏回归平方和 偏回归平方和定义 当取消 引入 一个自变量Xi后 方程总回归平方和的减少 增加 的数值称为Y对Xi的偏回归平方和 记为Vi 其计算公式为 其中Cii为系数矩阵的逆矩阵中对角线上对应的元素 海洋与气象学院大气科学专业 从偏回归平方和的意义可以看出 凡是对Y作用显著的因素一般具有较大的Vi值 Vi愈大 该因素对Y的作用也就愈大 这样通过比较各个因素的V 值就可以大致看出各个因素对因素变量作用的重要性 大到什么程度才算显著 偏回归平方和的检验 若F计 F 则认为Xi因子对Y作用显著 不能剔除 反之亦然 k是方程中的因子数 取信度 大 海洋与气象学院大气科学专业 三 预报对象的置信区间估计 95 的置信区间 的无偏估计量 从一元线性回归模型的假定中可知 预报对象yi是遵从正态分布的 因此 预报对象的95 置信区间为 剩余标准差 海洋与气象学院大气科学专业 Ch2 2多元线性回归 MultipleRegression 一 多元线性回归方程模式 二 用最小二乘法估计回归系数 三 回归效果分析 五 多元线性回归方程建立步骤 四 多元线性回归方程因子数目 海洋与气象学院大气科学专业 四 多元线性回归方程因子数目 从多元线性回归的方差分析中知 某一固定的预报对象Y的总离差平方和是一常数 它所分解的U与Q成反比例 且U越大时 复相关系数也越大 方程的残差均方差估计值就越小 一般当增加进入回归方程的因子数目时 残差平方和就下降 U增大 R也增大 海洋与气象学院大气科学专业 因子之间近似独立时 即因子间的相关系数较小时 对残差平方和下降的贡献较大 经统计分析与推导可知有 见教材P57 58页的表2 4和表2 5 单相关系数愈高的因子 对残差平方和下降的贡献愈大 即r愈大 Q愈小 多引入一个因子 残差平方和就下降一些 当因子增加到一定数目时 残差平方和下降的幅度就很小 现增加因子对提高方程的精度已不起很大作用 一般方程的因子数以5 6左右为适宜 通常可取样本数n的1 5 1 10为方程的因子数 海洋与气象学院大气科学专业 Ch2 2多元线性回归 MultipleRegression 一 多元线性回归方程模式 二 用最小二乘法估计回归系数 三 回归效果分析 五 多元线性回归方程建立步骤 四 多元线性回归方程因子数目 海洋与气象学院大气科学专业 1 确定预报对象 选择适当的因子 2 根据数据计算回归系数正规方程组所包含的有关统计量 3 解正规方程组 紧凑求解求逆法 4 建立回归方程 并进行回归效果显著性检验 5 求回归方程预报置信区间 6 根据所得到的方程 进行历史回代 计算拟合率 7 利用剩余的样本进行试报 五 多元线性回归方程建立步骤 海洋与气象学院大气科学专业 例2 预报北京1982年1月气温y 选取三个因子 取自1951 1980年500hPa高度场 具体见教材P47 48 1 确定预报对象 选择适当的因子 2 根据数据计算回归系数正规方程组所包含的有关统计量 步骤 3 解正规方程组 紧凑求解求逆法 海洋与气象学院大气科学专业 4 建立回归方程 并进行回归效果显著性检验 5 求回归方程预报置信区间 6 根据所得到的方程 进行历史回代 计算拟合率 7 利用剩余的样本进行试报 海洋与气象学院大气科学专业 第二章回归分析 Ch2 1回归分析与简单线性回归Ch2 2多元线性回归Ch2 3逐步回归Ch2 4非线性回归Ch2 5回归分析在气象上的应用 海洋与气象学院大气科学专业 Ch2 3逐步回归 MultipleRegression 一 问题的提出 二 逐步回归的基本思想 三 逐步回归模式和基本计算公式 四 逐步回归举例 海洋与气象学院大气科学专业 一 问题的提出 它们的F统计量值分别计算得 所以F1 F2 F3三因子均小于查表值 不能通过检验 说明因子对预报对象的贡献并不重要 见教材P49页例2 方程三因子的偏回归平方和分别是 取信度0 05 查F分布表 F 1 26 4 23 问题一 海洋与气象学院大气科学专业 见教材P59页例4 问题二 取x1 x2 x4与y建立方程标准化变量的多元线性回归方程 方程的F值是166 4 在显著水平为0 05水平下 该回归方程是显著的 同样我们也计算三个因子的偏回归平方和并求出它们的F值 分别是 取信度0 05 查F分布表 F 1 9 5 12 所以F2 F4二因子均小于查表值 不能通过检验 说明尽管方程是显著的 但不能说明所有因子对预报量有显著影响 海洋与气象学院大气科学专业 3 增多了与预报量无关的随机因素 影响回归方程的稳定性 一般情况下 回归方程中的因子个数越多 U越大 Q越小 Sy就愈小 预报值的置信区间就愈小 方程一般也较容易通过检验 可能增加了与预报量关系不大的因子 增多因子的缺点 1 增大计算量 2 增大预报值置信区间估计值 若方程中含有对Y不起作用或作用极小的因子 则Q不会因变量的增加而减少多少 相反由于Q的自由度的减少 使残差方差估计增大 因子个数越多 海洋与气象学院大气科学专业 既要选择对预报量影响显著的因子 也就是说方程中每个因子对预报对象的影响都很重要 各因子间关系 作用相互协调 回归效果又显著 回归方程的残差方差Sy估计很小的 即所谓的最优回归方程 解决问题的关键要点 最优 的回归方程就是包含所有对Y有影响的变量 而不包含对Y影响不显著的变量的回归方程 海洋与气象学院大气科学专业 4 有进有出 的双重逐步回归分析 1 从所有可能的因子 变量 组合的回归方程中选择最优者 2 从包含全部变量的回归方程中逐次剔除不显著因子 3 从一个变量开始 把变量逐个引入方程 选择 最优 的回归方程有以下几种方法 P61 P65 以第四种方法 即逐步回归分析法在筛选变量方面较为理想 见表2 7 海洋与气象学院大气科学专业 Ch2 3逐步回归 MultipleRegression 一 问题的提出 二 逐步回归的基本思想 三 逐步回归模式和基本计算公式 四 逐步回归举例 海洋与气象学院大气科学专业 这个过程反复进行 直至既无不显著的变量从回归方程中剔除 又无显著变量可引入回归方程时为止 从一个自变量开始 视自变量x作用的显著程度 从大到小地依次逐个引入回归方程 当引入的自变量由于后面变量的引入而变得不显著时 要将其剔除掉 引入一个自变量或从回归方程中剔除一个自变量 为逐步回归的一步 对于每一步都要进行V值检验 以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量 二 逐步回归的基本思想 见P64 海洋与气象学院大气科学专业 Ch2 3逐步回归 MultipleRegression 一 问题的提出 二 逐步回归的基本思想 三 逐步回归模式和基本计算公式 四 逐步回归举例 海洋与气象学院大气科学专业 方程模式 三 逐步回归模式和基本计算公式 1 逐步回归模式 变量形式 标准化变量 确定系数的正规方程组 海洋与气象学院大气科学专业 2 基本计算公式 方程系数的增广矩阵 m 是指待引入的因子数 而不是最终方程中的因子数 为了检验方便而增加的 海洋与气象学院大气科学专业 逐步回归方程的基本统计量的计算公式 方程因子的偏回归平方和 第l步时方程因子的标准回归系数 第l步时方程的残差平方和 逐步回归方程的残差方差的标准均差 逐步回归方程的复相关系数 标准回归系数与原始变量的回归系数的转换 此时求的是原始值的置信区间估计值 海洋与气象学院大气科学专业 引入或剔除一个因子时的偏回归平方和及检验的计算公式 l 1 前一步 设第l步引入因子 则需计算 在l 1步骤时 方程中已引入的因子个数 说明 海洋与气象学院大气科学专业 设第l步剔除因子 则需计算 海洋与气象学院大气科学专业 引入或剔除因子时求解回归系数的矩阵转换计算公式 设经偏回归平方和计算和检验 第l步引入或剔除第k个因子 则矩阵求解转换计算公式 B 2 海洋与气象学院大气科学专业 因子引入和剔除的方差检验标准的确定 逐步回归方法在计算过程中 由于因子个数在每一步是不相同的 为了避免麻烦 以及为了在计算机中运行方便 一般选取固定的F方差检验值 该值往往是粗略估计值 在信度为0 05时 F的变化值通常在4 5之间 故可一般选4为因子引入或剔除的方差检验临界值 事先估计方程中入选的因子数 然后通过查表确定 n 13 估计方程因子数为13 5 13 10 2 3个因子 则f1 2 3 f2 13 2 3 1 10 9若按自由度 2 10 查F分布表 得F0 01 3 28 则可确定F检验值取3即可 方法 例如 海洋与气象学院大气科学专业 Ch2 3逐步回归 MultipleRegression 一 问题的提出 二 逐步回归的基本思想 三 逐步回归模式和基本计算公式 四 逐步回归举例 海洋与气象学院大气科学专业 四 逐步回归举例 以教材P70页例子说明 建立R 0 矩阵 即相关系数增广矩阵 确定方差检验标准临界值 在信度为0 05水平下 约为4 n 13 m 4 初始步 海洋与气象学院大气科学专业 对要引入的第k因子进行消元矩阵转换 得R 1 第一步 引入第一个因子 计算待选因子中各个因子的偏回归平方和 方差贡献值 选偏回归平方和最大者进行F方差检验 若能通过检验 则认为该因子可引入 计算余下的各待选因子的偏回归平方和 选偏回归平方和最大者进行F方差检验 若能通过检验 则认为该因子可引入 对要引入的新k因子进行消元矩阵转换 得R 2 第二步 考虑引入第二个因子 海洋与气象学院大气科学专业 计算余下的各待选因子的偏回归平方和 选偏回归平方和最大者进行F方差检验 若能通过检验 则认为该因子可引入 对要引入的k因子进行消元矩阵转换 得R 3 第三步 考虑引入第三个因子 重复第二步 第四步 考虑有无因子剔除 计算已引入方程中的各个因子的偏回归平方和 选偏回归平方和最小者进行F方差检验 若能通过检验 则认为无因子可剔除 否则对不能通过的检验的因子进行剔除 对要剔除的k因子进行消元矩阵转换 得R 4 海洋与气象学院大气科学专业 第五步 考虑有无新因子可引入 重复第三步 如此反复引入 剔除 引入 剔除 直到无因子可引入也无因子可剔除为止 最后一步 整理 写出回归方程 标准方程原始变量方程 距平变量方程 写出方差分析中 原始变量方程的各种统计量值 海洋与气象学院大气科学专业 海洋与气象学院大气科学专业 求解求逆的几个性质 每消去一列 就得到对应该列因子的回归方程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论