统计学第六版贾俊平第11章PPT课件_第1页
统计学第六版贾俊平第11章PPT课件_第2页
统计学第六版贾俊平第11章PPT课件_第3页
统计学第六版贾俊平第11章PPT课件_第4页
统计学第六版贾俊平第11章PPT课件_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章一元线性回归 11 1变量间关系的度量11 2一元线性回归11 3利用回归方程进行估计和预测11 4残差分析 学习目标 1 相关系数的分析方法一元线性回归的基本原理和参数的最小二乘估计回归直线的拟合优度回归方程的显著性检验利用回归方程进行估计和预测用Excel进行回归 11 1变量间关系的度量 变量间的关系相关关系的描述与测度相关系数的显著性检验 变量间的关系 函数关系 是一一对应的确定关系设有两个变量x和y 变量y随变量x一起变化 并完全依赖于x 当变量x取某个数值时 y依确定的关系取相应的值 则称y是x的函数 记为y f x 其中x称为自变量 y称为因变量各观测点落在一条线上 函数关系 几个例子 函数关系的例子某种商品的销售额 y 与销售量 x 之间的关系可表示为y px p为单价 圆的面积 S 与半径之间的关系可表示为S R2企业的原材料消耗额 y 与产量 x1 单位产量消耗 x2 原材料价格 x3 之间的关系可表示为y x1x2x3 相关关系 correlation 变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时 变量y的取值可能有几个各观测点分布在直线周围 相关关系 几个例子 相关关系的例子父亲身高 y 与子女身高 x 之间的关系收入水平 y 与受教育程度 x 之间的关系粮食亩产量 y 与施肥量 x1 降雨量 x2 温度 x3 之间的关系商品的消费量 y 与居民收入 x 之间的关系商品销售额 y 与广告费支出 x 之间的关系 相关关系 类型 相关关系的描述与测度 散点图 散点图 scatterdiagram 散点图 例题分析 例 一家大型商业银行在多个地区设有分行 其业务主要是进行基础设施建设 国家重点项目建设 固定资产投资等项目的贷款 近年来 该银行的贷款额平稳增长 但不良贷款额也有较大比例的提高 这给银行业务的发展带来较大压力 为弄清楚不良贷款形成的原因 希望利用银行业务的有关数据做些定量分析 以便找出控制不良贷款的办法 下面是该银行所属的25家分行2002年的有关业务数据 散点图 例题分析 散点图 例题分析 相关关系的描述与测度 相关系数 相关系数 correlationcoefficient 对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的 称为总体相关系数 记为 若是根据样本数据计算的 则称为样本相关系数 记为r 相关系数 计算公式 样本相关系数的计算公式 或化简为 相关系数 取值及其意义 r的取值范围是 1 1 r 1 为完全相关r 1 为完全正相关r 1 为完全负正相关r 0 不存在线性相关关系相关 1 r 0 为负相关0 r 1 为正相关 r 越趋于1表示关系越密切 r 越趋于0表示关系越不密切 相关系数 取值及其意义 r 相关系数 例题分析 用Excel计算相关系数 相关系数的显著性检验 相关系数的显著性检验 r的抽样分布 1 r的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时 随着n的增大 r的抽样分布趋于正态分布 尤其是在总体相关系 数很小或接近0时 趋于正态分布的趋势非常明显 而当远离0时 除非n非常大 否则r的抽样分布呈现一定的偏态 当 为较大的正值时 r呈现左偏分布 当 为较大的负值时 r呈现右偏分布 只有当 接近于0 而样本容量n很大时 才能认为r是接近于正态分布的随机变量 相关系数的显著性检验 检验的步骤 1 检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用R A Fisher提出的t检验检验的步骤为提出假设 H0 H1 0 计算检验的统计量 确定显著性水平 并作出决策若 t t 拒绝H0若 t t 不能拒绝H0 相关系数的显著性检验 例题分析 对不良贷款与贷款余额之间的相关系数进行显著性检 0 05 提出假设 H0 H1 0计算检验的统计量 3 根据显著性水平 0 05 查t分布表得t n 2 2 0687由于 t 7 5344 t 25 2 2 0687 拒绝H0 不良贷款与贷款余额之间存在着显著的正线性相关关系 相关系数的显著性检验 例题分析 各相关系数检验的统计量 11 2一元线性回归 一元线性回归模型参数的最小二乘估计回归直线的拟合优度显著性检验 什么是回归分析 Regression 从一组样本数据出发 确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验 并从影响某一特定变量的诸多变量中找出哪些变量的影响显著 哪些不显著利用所求的关系式 根据一个或几个变量的取值来预测或控制另一个特定变量的取值 并给出这种预测或控制的精确程度 回归分析与相关分析的区别 相关分析中 变量x变量y处于平等的地位 回归分析中 变量y称为因变量 处在被解释的地位 x称为自变量 用于预测因变量的变化相关分析中所涉及的变量x和y都是随机变量 回归分析中 因变量y是随机变量 自变量x可以是随机变量 也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度 回归分析不仅可以揭示变量x对变量y的影响大小 还可以由回归方程进行预测和控制 回归模型的类型 一元线性回归模型 一元线性回归 涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量 dependentvariable 用y表示用来预测或用来解释因变量的一个或多个变量称为自变量 independentvariable 用x表示因变量与自变量之间的关系用一条线性方程来表示 回归模型 regressionmodel 回答 变量之间是什么样的关系 方程中运用1个数字的因变量 响应变量 被预测的变量1个或多个数字的或分类的自变量 解释变量 用于预测的变量3 主要用于预测和估计 一元线性回归模型 描述因变量y如何依赖于自变量x和误差项 的方程称为回归模型一元线性回归模型可表示为y b0 b1x ey是x的线性函数 部分 加上误差项线性部分反映了由于x的变化而引起的y的变化误差项 是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性 0和 1称为模型的参数 一元线性回归模型 基本假定 误差项 是一个期望值为0的随机变量 即E 0 对于一个给定的x值 y的期望值为E y 0 1x对于所有的x值 的方差 2都相同误差项 是一个服从正态分布的随机变量 且相互独立 即 N 0 2 独立性意味着对于一个特定的x值 它所对应的 与其他x值所对应的 不相关对于一个特定的x值 它所对应的y值与其他x所对应的y值也不相关 回归方程 regressionequation 描述y的平均值或期望值如何依赖于x的方程称为回归方程一元线性回归方程的形式如下E y 0 1x 方程的图示是一条直线 也称为直线回归方程 0是回归直线在y轴上的截距 是当x 0时y的期望值 1是直线的斜率 称为回归系数 表示当x每变动一个单位时 y的平均变动值 估计的回归方程 estimatedregressionequation 一元线性回归中估计的回归方程为 用样本统计量和代替回归方程中的未知参数和 就得到了估计的回归方程 总体回归参数和是未知的 必需利用样本数据去估计 其中 是估计的回归直线在y轴上的截距 是直线的斜率 它表示对于一个给定的x的值 是y的估计值 也表示x每变动一个单位时 y的平均变动值 参数的最小二乘估计 最小二乘估计 使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法 即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 最小二乘估计 图示 最小二乘法 和的计算公式 根据最小二乘法的要求 可得求解和的公式如下 估计方程的求法 例题分析 例 求不良贷款对贷款余额的回归方程 回归方程为 y 0 8295 0 037895x回归系数 0 037895表示 贷款余额每增加1亿元 不良贷款平均增加0 037895亿元 估计方程的求法 例题分析 不良贷款对贷款余额回归方程的图示 用Excel进行回归分析 第1步 选择 工具 下拉菜单第2步 选择 数据分析 选项第3步 在分析工具中选择 回归 然后选择 确定 第4步 当对话框出现时在 Y值输入区域 方框内键入Y的数据区域在 X值输入区域 方框内键入X的数据区域在 置信度 选项中给出所需的数值在 输出选项 中选择输出区域在 残差 分析选项中选择所需的选项用Excel进行回归分析 回归直线的拟合优度 变差 因变量y的取值是不同的 y取值的这种波动称为变差 变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素 如x对y的非线性影响 测量误差等 的影响对一个具体的观测值来说 变差的大小可以通过该实际观测值与其均值之差来表示 变差的分解 图示 离差平方和的分解 三个平方和的关系 离差平方和的分解 三个平方和的意义 总平方和 SST 反映因变量的n个观察值与其均值的总离差回归平方和 SSR 反映自变量x的变化对因变量y取值变化的影响 或者说 是由于x与y之间的线性关系引起的y的取值变化 也称为可解释的平方和残差平方和 SSE 反映除x以外的其他因素对y取值的影响 也称为不可解释的平方和或剩余平方和 判定系数r2 coefficientofdetermination 回归平方和占总离差平方和的比例 反映回归直线的拟合程度取值范围在 0 1 之间R2 1 说明回归方程拟合的越好 R2 0 说明回归方程拟合的越差判定系数等于相关系数的平方 即R2 r 2 判定系数r2 例题分析 例 计算不良贷款对贷款余额回归的判定系数 并解释其意义判定系数的实际意义是 在不良贷款取值的变差中 有71 16 可以由不良贷款与贷款余额之间的线性关系来解释 或者说 在不良贷款取值的变动中 有71 16 是由贷款余额所决定的 也就是说 不良贷款取值的差异有2 3以上是由贷款余额决定的 可见不良贷款与贷款余额之间有较强的线性关系 估计标准误差 standarderrorofestimate 实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项 的标准差 的估计 是在排除了x对y的线性影响后 y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为 注 例题的计算结果为1 9799 显著性检验 线性关系的检验 检验自变量与因变量之间的线性关系是否显著将回归均方 MSR 同残差均方 MSE 加以比较 应用F检验来分析二者之间的差别是否显著回归均方 回归平方和SSR除以相应的自由度 自变量的个数p 残差均方 残差平方和SSE除以相应的自由度 n p 1 线性关系的检验 检验的步骤 提出假设H0 1 0线性关系不显著 2 计算检验统计量F 确定显著性水平 并根据分子自由度1和分母自由度n 2找出临界值F 作出决策 若F F 拒绝H0 若F F 不能拒绝H0 线性关系的检验 例题分析 提出假设H0 1 0不良贷款与贷款余额之间的线性关系不显著计算检验统计量F 确定显著性水平 0 05 并根据分子自由度1和分母自由度25 2找出临界值F 4 28作出决策 若F F 拒绝H0 线性关系显著 线性关系的检验 方差分析表 Excel输出的方差分析表 回归系数的检验 在一元线性回归中 等价于线性关系的显著性检验 检验x与y之间是否具有线性关系 或者说 检验自变量x对因变量y的影响是否显著 理论基础是回归系数的抽样分布 回归系数的检验 样本统计量的分布 是根据最小二乘法求出的样本统计量 它有自己的分布的分布具有如下性质分布形式 正态分布数学期望 标准差 由于 未知 需用其估计量sy来代替得到的估计的标准差 回归系数的检验 检验步骤 提出假设H0 b1 0 没有线性关系 H1 b1 0 有线性关系 计算检验的统计量 确定显著性水平 并进行决策 t t 拒绝H0 t t 不能拒绝H0 回归系数的检验 例题分析 对例题的回归系数进行显著性检验 0 05 提出假设H0 b1 0H1 b1 0计算检验的统计量 t 7 533515 t 2 201 拒绝H0 表明不良贷款与贷款余额之间有线性关系 回归系数的检验 例题分析 P值的应用 P 0 000000 0 05 拒绝原假设 不良贷款与贷款余额之间有线性关系 Excel输出的部分回归结果 11 3利用回归方程进行估计和预测 点估计区间估计 利用回归方程进行估计和预测 根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计 点估计 点估计 2 点估计值有y的平均值的点估计y的个别值的点估计在点估计条件下 平均值的点估计和个别值的的点估计是一样的 但在区间估计中则不同 对于自变量x的一个给定值x0 根据回归方程得到因变量y的一个估计值 y的平均值的点估计 利用估计的回归方程 对于自变量x的一个给定值x0 求出因变量y的平均值的一个估计值E y0 就是平均值的点估计在前面的例子中 假如我们要估计贷款余额为100亿元时 所有分行不良贷款的平均值 就是平均值的点估计 根据估计的回归方程得 y的个别值的点估计 利用估计的回归方程 对于自变量x的一个给定值x0 求出因变量y的一个个别值的估计值 就是个别值的点估计比如 如果我们只是想知道贷款余额为72 8亿元的那个分行 这里是编号为10的那个分行 的不良贷款是多少 则属于个别值的点估计 根据估计的回归方程得 区间估计 区间估计 点估计不能给出估计的精度 点估计值与实际值之间是有误差的 因此需要进行区间估计对于自变量x的一个给定值x0 根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计 confidenceintervalestimate 预测区间估计 predictionintervalestimate 置信区间估计 利用估计的回归方程 对于自变量x的一个给定值x0 求出因变量y的平均值的估计区间 这一估计区间称为置信区间 confidenceinterval E y0 在1 置信水平下的置信区间为 式中 sy为估计标准误差 置信区间估计 例题分析 例 求出贷款余额为100亿元时 不良贷款95 的置信区间解 根据前面的计算结果 已知n 25 sy 1 9799 t 25 2 2 0687置信区间为 当贷款余额为100亿元时 不良贷款的平均值在2 1422亿元到3 7778亿元之间 预测区间估计 利用估计的回归方程 对于自变量x的一个给定值x0 求出因变量y的一个个别值的估计区间 这一区间称为预测区间 predictioninterval y0在1 置信水平下的预测区间为 预测区间估计 例题分析 例 求出贷款余额为100亿元时 不良贷款95 的置信区间解 根据前面的计算结果 已知n 25 sy 1 9799 t 25 2 2 0687置信区间为 贷款余额为72 8亿元的那个分行 其不良贷款的预测区间在 2 2467亿元到6 1067亿元之间 影响区间宽度的因素 置信水平 1 区间宽度随置信水平的增大而增大数据的离散程度 s 区间宽度随离散程度的增大而增大3 样本容量区间宽度随样本容量的增大而减小4 用于预测的xp与 x的差异程度区间宽度随xp与 x的差异程度的增大而增大 置信区间 预测区间 回归方程 11 4残差分析 用残差证实模型的假定用残差检测异常值和有影响的观测值 残差 residual 因变量的观测值与根据估计的回归方程求出的预测值之差 用e表示反映了用估计的回归方程去预测而引起的误差确定有关误差项 的假定是否成立检测有影响的观测值 用残差证实模型的假定 残差图 residualplot 表示残差的图形关于x的残差图关于y的残差图标准化残差图用于判断误差 的假定是否成立检测有影响的观测值 残差图 形态及判别 残差图 例题分析 标准化残差 standardizedresidual 残差除以它的标准差后得到的数值 计算公式为ei是第i个残差的标准差 其计算公式为 标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立若假定成立 标准化残差的分布也应服从正态分布在标准化残差图中 大约有95 的标准化残差在 2到 2之间 标准化残差图 例题分析 用残差检测异常值和有影响的观

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论