方差分析PPT课件.ppt_第1页
方差分析PPT课件.ppt_第2页
方差分析PPT课件.ppt_第3页
方差分析PPT课件.ppt_第4页
方差分析PPT课件.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析 1 回归分析是最灵活和最常用的统计分析方法之一 用于分析一个因变量与一个或多个自变量间的关系特别是 定量描述和解释相互关系 估计或预测因变量的值 定义 2 3 例子 研究产品销量与价格及其他影响销量的变量因素 如广告 促销等之间的关系 4 作用 此时的回归分析能回答的问题 价格如何营销销量 若价格和广告支出同时变化一定值 则销量预期为多少 回归分析主要用于研究因果关系 最简单的情况只有两个变量 一个因变量 一个自变量 5 注意事项 但在许多问题中 并非只存在简单因果关系 所研究的变量受多个因素的影响 回归分析中的因果关系通常是一个假设 是研究者的猜测 因此需要统计学之外的知识 即理论和逻辑思考 或者进行试验 6 分清因变量 自变量例子 研究产品销量与产品知名度之间的关系 不能用回归分析 也不能用其他统计分析方法肯定地证明因果关系 只能证明变量的相关关系 这是因果关系的必要而非充分条件 7 应用领域 8 回归分析中变量可选名称 9 应用实例 一家人造黄油生产厂的销售主管对该品牌的产品销量不满意 他发现各地区的销量相差很大 想知道为什么会有这么大的差异 于是他决定调查销量取决于哪些可以影响它的基本因素 为此 他在10个大小基本相同的地区进行抽样调查 收集研究期间有关销量 价格 促销支出及代理拜访次数的数据 10 11 分析过程 1 建模 2 估计回归函数 3 检验回归函数 4 检验回归系数 5 检验模型前提 12 1 建模 从专业知识和观点出发 猜测完整的因果关系 做散点图直接观察 13 2 估计回归函数 简单回归因变量Y的估计值常数回归系数自变量 14 常数b0 回归直线与Y轴的交点 回归系数b1 几何意义是斜率 实际意义为当X变化一个单位时 Y大约变化多大 是X对Y的影响尺度 15 残差 观察值与估计值的偏差 对应xk的因变量Y的观察值 对应xk算出的Y的估计值 k为观察次数 16 最小二乘法 最小二乘估计 17 把销量和拜访次数数据代入b1和b0公式 可得 b1 18 881 b0 39 5估计的回归方程为 多做一次拜访 预期增加销量为18 881个单位 18 多元回归函数的目标函数 J 自变量的个数 K 观察次数 19 假设销售主管认为所有三个变量对解释销量都很重要 则用最小二乘法进行多元回归分析 得 20 回归系数的意义 说明了自变量变化对因变量Y的边际作用 具有重要的实际意义在例子中回归系数为销售主管提供了针对措施执行效果的重要信息但回归系数不能作为衡量重要性的标准 仅当变量计量单位相同时 回归系数才能相互比较 21 使回归系数能够相互比较的一个方法是将它们标准化标准化回归系数又称为 值 公式如下 通过标准化消除回归系数中变量不同计量单位影响 可以作为衡量变量重要性的标准 22 在例子中 Y的标准差为449 23 拜访次数的标准差为13 99 价格的标准差为1 55 支出的标准差544 29按照回归系数标准化公式 得 23 3 检验回归函数 估计出回归函数后 要检验其准确性 即确认回归函数作为反映现实的模型是否适用 检验过程分为两部分 整体检验回归函数 验证回归模型是否能解释因变量Y及解释的有效程度 检验回归系数 模型中各变量是否及怎样有助于解释因变量Y 24 2020 2 6 25 26 决定系数 R2 用于评价回归函数与实际数据的拟合度 它以残差为基础 即Y的观察值与估计值之间的离差 27 考虑观察值与平均值的总离差 例如 28 总标准差分解 总离差平方和 已解释离差平方和 未解释离差平方和决定系数 或相关系数 29 决定系数是一个标准化的 0 1 之间的值 30 对于销售和拜访次数的回归 其决定系数R2 0 3455说明销售量Y的波动很大程度上归因于未记入方程的影响因素决定系数大小受回归自变量个数的影响 引入修正决定系数 31 修正决定系数 K 观察值个数 J 回归自变量个数 32 F统计量回归分析不只用于描述现有数据 更多是用于在抽样数据的基础上 研究估计模型是否能从抽样推断出总体 此时用到F统计量 33 F统计量 34 F检验的步骤 计算实际F值 给定显著性水平 查出理论F值 比较两个F值得出结论 F 4 2230 05 0 95 F理论 5 32F F理论 回归关系不显著 35 估计剩余标准差该整体性指标说明了运用回归函数估计因变量Y时 会犯的平均误差s 385 而平均值 36 4 检验回归系数 回归系数的t检验在对回归函数整体检验后 检验各回归系数是否显著采用的t统计量 37 38 t检验步骤 计算t值 给定显著水平 查出理论t值 比较两个t值 做出判断 b1 18 881 sb1 9 187 t 2 055 0 05 0 95 t理论 2 306 K J 1 拜访次数对销售量影响不显著 39 回归系数的置信区间若通过t检验 回归系数真值不为零 可对该真值构建一个置信区间根据显著性水平和未解释标准差的自由度 K J 1 确定t值 双侧 40 5 检验模型前提 随机误差项是一个随机量 随机模型是回归分析的基础随机误差项存在原因特别有如下两条 由于未考虑到的影响量 数据误差 测量误差和选择误差进行回归时 会做一系列假设 41 线性模型假设 A1 模型对参数是线性的 模型包含重要解释变量 待定参数个数 J 1 小于观察次数KA2 随机误差期望值为0A3 解释变量与随机误差项相互独立A4 随机误差项的方差恒定A5 随机误差项相互独立 无自相关 42 A6 解释变量X间不存在线性相关 无完全共线性 A7 随机误差项服从正态分布 未发现非线性的后果是参数估计值有偏随机误差项期望值不为0 造成对b0估计不准自变量选择错误 估计值有偏 43 异方差性 残差的标准差非恒定 则存在已方差性 异方差性导致估计非有效 以及回归系数的标准差有偏 置信区间不准确 自相关 总体残差相互独立 不满足该条件的情况称为自相关 自相关主要出现在时间序列分析中 共线性 一个自变量不能是其余自变量的线性函数 否则会出现共线性 随着共线性的增强 回归参数的估计越来越不可信 回归系数标准差变大 44 随机误差项的非正态分布 只对统计检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论