




已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元回归模型与建模2005年5月 一 多元线性回归问题1 一元回归问题的困惑 巴特勒 Butler 运输公司的例子 p661 行驶距离 英里 运送货物次数行驶时间 小时 10049 35034 810048 910026 55024 28026 27537 465469037 69026 1 2 做行驶时间 行驶距离的一元回归 CoefficientstStatP valueIntercept1 2739130 9094540 389687行驶距离 英里 0 0678263 9767550 00408回归方程为可以看出方程整体检验和自变量检验的P值为0 0041 一元回归能够显著成立 但是判定系数偏小 说明有些因变量的解释因素 例如运货次数 没有引入 4 来自p元回归模型的容量为n的样本 注意 的第1个脚码k表示变量编号 k 1 p 第2个脚码i 1 n表示样本编号 5 多元回归总体模型和古典假定 总体模型表示式为古典假定1 E ei 0 E yi x1i pxpi 2 对于所有的i Var ei 3 ei是服从正态分布N 0 的 4 对于不同的ei ej i j 是相互独立的 6 多元线性回归方程的估计 巴特勒公司二元线性回归模型的估计 自变量 x1 行驶距离 x2 运货次数 回归方程 7 多元回归方程变差分解和判定系数R2 总变差的分解 SST SSR SSE 多元判定系数 R2 SSR SST 多重相关系数r 调整 修正 的判定系数 巴特勒公司二元线性回归模型的判定系数 8 对回归方程的检验 FTestforOverallSignificance 问题 因变量和所有自变量之间是否存在显著的关系 判定系数R2可以做方程的整体检验 但是遇到分布的困难 检验假设拒绝域F和R2的关系 R2 pF n p 1 pF 9 对回归系数的检验 tTestforIndividualSignificance 检验假设检验统计量拒绝域 10 巴特勒公司线性回归模型的Excel输出回归统计R 0 951R2 0 904adjR2 0 876s 0 573n 10 方差分析dfSSMSFSignificanceF回归221 60110 80032 8780 00027624残差72 2990 328总计923 9Here SSR 21 601 SSE 2 299 SST 23 9 系数估计和检验Coefficients标准误差tStatp valueIntercept 0 86870 9515 0 91290 39163行驶距离 英里 0 06110 00996 18240 00045运送货物次数0 92340 22114 17630 00416 11 多重共线性 Multicollinearity 1 巴特勒运输公司例题的修改 行驶距离运送货物次数 修改数 行驶时间1004 4 9 3503 2 4 81004 4 8 91002 4 6 5502 2 4 2802 3 6 2753 3 7 4654 3 6903 4 7 6902 4 6 1 2 巴特勒运输公司例题的回归结果 一元回归方程二元回归方程运输次数修改后的二元回归方程 F检验p值 0 021 括弧内表示系数的p 值 3 多重共线性问题讨论 巴特勒运输回归结果说明 增加解释变量不会降低R2的值 但是adjR2的值却会降低 前两个回归方程的系数p 值都很低 说明甚麽 后一个修改运输次数的二元回归的两个系数p 值都很高 以至通不过检验 但是后一个方程总体检验的F值的p 值却为0 021 0 05水平下方程成立 原因是修改运输次数数据 使得x1 x2的相关系数由0 16升至0 97 发生了共线性 自变量发生多重共线性 会出现一些 甚至全部 变量通不过检验 但是方程总体检验却能通过 此时的解释变量系数估计值很不可靠 经验表明 解释变量数据彼此的相关系数绝对值大于0 7 回归结果就不可信 处理办法就是剔除p 值高的变量 对2个以上解释变量 自变量的相关矩阵和方差膨胀因子 VarianceInflationFactors 简记作VIF 是识别多重共线性的有效方法 有专门软件加以精确检验 12 利用模型进行预测 使用计算机软件产生回归模型 通过检验判断你的模型 直接利用模型可以预测自变量 x01 x02 x0p 对应的因变量期望值E y0 的估计 预测E y0 和y0的置信区域需要某些专门软件 13 多元回归的残差分析 多元回归的残差分析作用方法和一元基本相同 主要的差异在于 多自变量的观测值的杠杆率hi的计算比较复杂 需要使用专门软件 回归分析建模应用中可以看到残差分析的应用 二 定性自变量 QualitativeIndependentVariable 1 虚拟变量 Dummyvariable 方差分析中定性变量的解决方案 引入因子 处理 回归分析的解决方案 引入虚拟变量如何定义虚拟变量 例 x2 0 女性 x2 1 男性 如何解释回归模型 期望值模型为 女性 男性 截距变化 斜率相同 2 Johnson过滤水股份公司例子 Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务 为了估计服务时间和成本 公司希望能够对顾客的每一次维修请求预测必要的维修时间 他们收集的数据中包含就近一次维修至今的时间 月数 故障的类型 电子和机械 以及相应的维修时间 小时 你能够建立起一个预测方程吗 1 Johnson公司数据 维修时间 小时最后维修至本次维修请求时间 月故障类型2 92电子13 06机械04 88电子11 83机械02 92电子14 97电子14 29机械04 88机械04 44电子14 56电子1 散点图 有正相关的关系 可做一元回归 但是似乎可以看出有两条接近平行的直线拟合这些散点 2 建立维修时间 上次维修间隔 故障性质的回归方程 第一个回归方程第二个回归方程解释你得到的回归方程 讨论x2的作用 括弧内表示系数的p 值 二元比一元的判定系数增大许多 3 更复杂的定性变量 如果有3种定性状态 如何设虚拟变量 例 复印机销售地区是A B C三个地区 已知不同地区销售量不但与价格有关而且与地区也有关系 利用回归分析建立销售量模型 设x1是价格 还需要2个虚拟变量 回归方程期望值表示为 地区A方程 地区B方程 地区C方程 注意 k种状态 需要引入k 1个虚拟变量 三 广义线性模型 有些复杂的曲线关系也可以用多元回归方法拟合 1 模拟高阶曲线关系 CurvilinearRelationships 1 Reynolds公司是一家生产工业天平和实验室设备的企业 公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究 他们随机抽取了15名销售人员 得到相应的数据 Reynolds公司天平销售量与人员雇用月数 天平销售人员天平销售人员销售量雇用月数销售量雇用月数2754189402961062355131776839376104112121622267615012325563678518919308111 2 散点图和一元回归结果 R2 0 781174 可以看出销售量和人员雇用月数的回归方程为Sale 111 23 2 38Months 0 00012 方程的显著性也很高 但是从散点图看出似乎有非线性趋势 而且判定系数也不算大 从下页残差表和残差图看出有明显非线性特征 考虑加入二次项x2做为第二个解释变量 做二阶回归 Reynolds公司案例残差表 预测天平销售量残差标准残差208 675692666 324307421 390020675363 166061 67 16606097 1 407662093291 86281425 137185980 526823567358 412511217 587488830 368597488163 5169695 1 516969516 0 031792552139 749220510 250779470 214835193313 253788153 74621191 126409738375 0499355 67 04993546 1 405228342206 2989177 17 29891768 0 362549632232 44344162 5565584350 053580191132 6188958 49 61889584 1 039909707139 7492205 27 74922053 0 581566423125 4885711 58 48857114 1 225799805244 327316180 672683941 69073305156 386644832 613355180 683508652 Reynolds公司案例残差图 3 二阶回归结果 R2 0 90Coefficients标准误差tStatp valueIntercept45 3475822 774651 991140 0697雇用月数6 3448071 0578515 997826 24E 05月数平方 0 034490 008948 3 853880 0023回归方程为Sale 45 35 6 34 Months 0 35 Months 2 0 000 0 002 整个方程F检验的p 值为0 000 无论系数和方程高度显著通过检验 下页给出二阶回归的标准化残差 相当规范 2 因变量对数模型 1 汽车耗油问题2 散点图有负线性相关趋势 3 一元回归判定系数和变量系数都很显著 方程应该可以被接受 4 一元回归残差分析残差呈楔形 有随汽车重量增加而增大的异方差趋势 5 因变量对数一元回归分析E lnY 0 1x系数显著性有提高 6 因变量对数一元回归分析残差分析标准残差分布比较均匀 方程可以更好的被接受 3 其他常用的非线性变换为线性的公式 四 变量选取方法 上面一些例子说明选取合适的解释变量至关重要 对于一组备选的解释变量进行挑选 逐步回归 Stepwise 是十分有效的方法 逐步回归建立在向前选择和向后消元的基础之上 逐步回归的基本思想是 备选的解释变量依照对因变量的相关程度和在回归方程中的地位 按照一定的规则逐步吸纳和剔除 直到不能吸纳和剔除为止 不少统计软件都具有逐步回归功能 例如 SAS SPSS Minitab StaPro等 1 增加或删除变量的F检验 F检验用来检验已含x1 xk的模型再增加自变量xk 1 或者从已含x1 xkxk 1删除xk 1 若F F 1 n k 1 1 则应该增加 或不删除 xk 1 否则不应增加 或删除 xk 1 k 1则有 增加或删除变量的F检验的巴特勒例题 巴特勒例题的一元回归和二元回归方程分别为 0 0041 括号内为变量系数的p 值 0 0004 0 0042 F检验中的分子分母分别为F统计量的p 值 0 0042 x2应该增加 或不应删除 可以看出F统计量的p 值就是二元中x2系数的p 值 2 逐步回归的基本步骤 1 给定显著性水平 2 选择与被解释变量相关系数最高的变量做一元回归 如果该变量p 值不显著 则回归失败结束 否则一元回归方程成立 进入3 3 在一元回归基础上利用F 检验筛选其余变量 选择其中显著性水平 p 值 小于 且F值最大的一个变量做二元回归 如果不存在这种变量 只能得出一元回归方程 回归结束 否则二元回归成立 进入4 4 在二元回归基础上利用F 检验筛选其余变量 选择其中显著性水平小于 且F值最大的一个变量做3元回归 如果不存在这种变量 只能得出二元回归方程 回归结束 否则在引入3元基础上进入第5 步 逐步回归的基本步骤 续 5 已有k个变量被引入基础上利用F 检验对已被引入的变量做检验 删除其中显著性水平 p 值 大于 且F值最小的一个变量 做k 1元回归 然后继续做删除检验 每次删除1个变量 直到没有符合被删除条件的变量为止 进入第6 步 6 在m个变量被引入基础上利用F 检验筛选未被引入的变量 选择其中显著性水平小于 且F值最大的一个变量做m 1元归 然后回到第5 步 否则如果不存在这种变量 只能得出m元回归方程 回归结束 123456结束 3 逐步回归的几个问题 1 对于给定的显著性水平 逐步回归一定会结束 其结果唯一 不同的 回归结果不同 2 前三步只引进变量 不剔除变量 3 可以分别设定不同的 进和 出 但是要求 进 出 否则可能形成死循环不能结束回归 4 大型问题分析 逐步回归的应用 教材740页提供9个变量的Cravens数据 讨论8个自变量对因变量SALES的多元回归问题 相关系数阵为利用StaPro软件做逐步回归 结果在以下各片 逐步回归的应用 第一步 逐步回归的应用 第二步 逐步回归的应用 第三步 逐步回归的应用 第四步 如果设置 进 出 0 01 则第二步就结束 一般设 较大 多得到几步 再根据系数p 值决定到哪步结束 6 最佳子集回归 逐步回归方法是通过每次增加或者删除自变量来选择回归模型 对于一组已知变量 方法并不能保证得到最佳的模型 不少统计软件都具有最佳子集回归过程 例如 SAS SPSS Minitab等 对于一组给定的自变量 这一过程能够得到最佳回归模型 总结 如何建立一个回归模型 1 正确选择自变量和因变量 需要虚拟变量吗 需要引入非线性因素吗 2 正确使用计算机软件建立回归模型 3 查看残差图 线性假设成立吗 存在异方差吗 有异常值或影响点存在吗 是否存在多重共线性问题 总结 如何建立一个回归模型 5 小心地处理系数的p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年鸡西市检察机关聘用制书记员、行政文员公开招聘15人模拟试卷及答案详解(考点梳理)
- 2025天津市安华物业有限公司社会招聘2人笔试题库历年考点版附带答案详解
- 2025年甘肃交通职业技术学院招聘编外聘用工作人员60人模拟试卷完整答案详解
- 2025中核集团所属中核二二社会招聘4人笔试题库历年考点版附带答案详解
- 2025中储粮湖北辖区春季招聘拟录用人选笔试题库历年考点版附带答案详解
- 2025劳动合同终止补偿协议书范本
- 硅铁生产安全教育培训课件
- 就业三方协议书怎么
- 协议书离婚多久能复婚
- 外汇互换协议书
- 专卖店店长工作手册知识点梳理汇总
- 企业车辆管理系统解决方案
- 医院培训课件:《医务人员职业暴露与防护》
- 电梯有限空间作业方案
- J-STD-033D处理包装运输和使用湿度回流和过程敏感设备
- 诚实守信 部编版道德与法治八年级上册
- 新村卫生室人员值班表
- 子宫肌瘤手术治疗单病种质控查检表
- 物业管理项目服务报价表
- 2023年06月贵州黔西南州册亨县公开招聘事业单位工作人员(127人)笔试题库含答案解析
- 检验科生化项目SOP
评论
0/150
提交评论