




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章多元回归分析 推断 4 1OLS估计量的抽样分布4 2检验对单个总体参数的假设 t检验4 3置信区间4 4检验关于参数的一个线性组合的假设4 5对多个线性约束的检验 F检验4 6报告回归结果 回归分析是要通过样本所估计的参数来代替总体的真实参数 或者说是用样本回归线代替总体回归线 尽管从统计性质上已知 如果有足够多的重复抽样 参数的估计值的期望 均值 就等于其总体的参数真值 但在一次抽样中 估计值不一定就等于该真值 那么 在一次抽样中 参数的估计值与真值的差异有多大 是否显著 这就需要进一步进行统计检验 主要包括拟合优度检验 变量的显著性检验及参数的区间估计 4 1OLS估计量的抽样分布 已经了解了OLS估计量的期望值和方差 有助描述OLS估计量的精密度要进行统计推断 还需要知道估计量的抽样分布 4 1 1正态性假定 样本中自变量的值既定 因而OLS估计量的抽样分布取决于误差分布假定MLR 6正态性总体误差u独立于解释变量x1 x2 xk 而且服从均值为零 方差为s2的正态分布 4 1 2经典线性模型假定 高斯 马尔科夫假定与正态分布假定一起被称为经典线性模型假定 对参数而言为线性 随机抽样性 条件均值为0 不存在完全共线性 同方差性 经典线性模型 总结经典线性模型假定的一种简洁方法 在实际应用中 误差不一定具有正态性 例子 考虑劳动力市场上 工资与教育 工作经历 在现任工作的任职年限的关系 工资不可能低于0 何况有最低工资法案 不具有正态分布 对变量做一个变换 比如log 一般来讲 相对于很大的样本容量来讲 误差的非正态性算不上一个严重的问题 目前 我们姑且认可正态性假定 4 1 3定理 定理4 1正态抽样分布在经典线性假定下 给定自变量的样本值 有 其中 SSTj为xj的总样本变异因此 证明 仅证明 1 相互独立的正太随机变量的线性组合依然服从正态分布 注意 的任何线性组合也都是正态分布的 中的任何一个子集也都具有联合正态分布 4 2检验对单个总体参数的假设 t检验 对总体模型中的某个参数的假设进行检验总体模型 研究如何检验那些有关某个特定的bj的假设 是总体未知的特征 而且永远不会确定的知道它们 但可以做出假设 然后通过统计推断来检验假设 假设它满足经典线性模型假定 4 2 1定理及概念 定理4 2标准化估计量的t分布在经典线性模型假定下 有 式中 k 1为总体模型中未知参数的个数 证明 正态分布 Y N 2 标准正态分布 Z Y N 0 1 2分布 X Zi2 n2t分布 tnF分布 Fk1 k2 所谓假设检验 就是事先对总体参数或总体分布形式作出一个假设 然后利用样本信息来判断原假设是否合理 即判断样本信息与原假设是否有显著差异 从而决定是否接受或否定原假设 假设检验采用的逻辑推理方法是反证法 先假定原假设正确 然后根据样本信息 观察由此假设而导致的结果是否合理 从而判断是否接受原假设 判断结果合理与否 是基于 小概率事件不易发生 这一原理的 兴趣所在 又叫原假设 零假设 虚拟假设 意味着控制了其他自变量后 xj对y没有任何局部效应 回顾统计学中给出的正态总体的均值的假设检验t统计量 或t比率 软件会给出 备择假设 并不是不关心bj 0的情形 只是基于经济理论 对于该研究 排除了bj 0的可能 4 2 2对立假设 单侧对立假设 拒绝法则 在时 H0在某一显著性水平上被拒绝并支持H1如果在5 的显著性水平上拒绝H0并支持H1 则称xj是统计显著的 否则称xj是统计上不显著的 临界值 根据显著性水平和自由度决定 查表可得G 2 在虚拟假设正确时 错误拒绝它的概率 例子 5 的显著性水平 df n k 1 28 临界值c 1 701 0 1 701 面积 0 05 随着t分布的自由度逐渐变大 t分布会接近标准的正态分布 df大于120 就可以使用标准正态分布的临界值 拒绝域 标准误 df 522 使用标准正态分布的临界值 1 的显著性水平 c 2 326在1 的显著性水平上是统计显著大于0的 Example 小时工资方程 参数小于0的单侧对立假设 拒绝法则 t分布只报告正值 c一定为正值 故 c一定为负值 5 的显著性水平 df 18 临界值c 1 734 例子 1 734 面积 0 05 0 拒绝域 Example 学生表现与学校规模 一种观点认为 在所有其它条件相同的情况下 小学校的学生比大学校的学生的情况更好些 学生通同过密歇根教学评价委员会标准化十分制数学测验的百分比 用来衡量学生表现 年均教师工资 每千名学生拥有的教职工人数 学生注册人数 用来衡量学生规模 df 404 在5 的显著性水平上 临界值为 1 65 1 65 不能拒绝H0 实际上在15 的显著性水平上 c 1 04 0 91也不能拒绝虚拟假设 变化函数形式 自变量取log 1 65 5 的显著性水平上的临界值 两个模型究竟哪一个个更好呢 注意观察拟合优度 较高的拟合优度能够说明自变量的形式对应变量有更强的解释力度 习题4 1 4 2 3双侧对立假设 当经济理论 或常识 没有很好的说明bj的符号时 这是一个恰当的对立假设 即便知道bj在对立假设中的符号 采取双侧检验也是明智的 避免根据回归方程中参数估计值来提出对立假设 双尾检验的拒绝法则 2 06 面积 0 025 0 2 06 面积 0 025 5 的显著性水平 df 25 c 2 06 拒绝域 拒绝域 Example 大学GPA的决定因素 因变量 大学GPA colGPA 自变量 高中GPA hsGPA 大学能力测验分数 ACT 每周缺课次数 skipped 双尾检验 5 的显著性水平 c 1 96 1 的显著性水平 c 2 58 在显著性水平是1 时统计上显著 在显著性水平是5 时统计上不显著 小结 t统计量检验显著性原理 如果H0成立 P t t 2 t t 2 是小概率事件 如果该事件在一次抽样中就出现 说明假设H0值得怀疑 应当拒绝H0 检验步骤 1 计算 t 2 查表求临界值t 2 n k 1 3 比较 下结论如果 t t 2 则接受H0 认为在显著性水平为 的意义下 j不显著 如果 t t 2 则拒绝H0 认为在显著性水平为 的意义下 j显著 4 2 4检验bj的其它假设 有时 也检验参数是否等于某个给定的常数 最常见的假设 那么相应的t统计量就是 t 估计值 假设值 标准误 Example 住房价格和空气污染 506个社区组成的样本 估计一个联系社区中平均住房价格 price 与各种社区特征的模型 nox表示空气中氧化亚氮的含量 以每区的百万分子数度量 dist表示该社区相距五个商业中心的加权距离 以英里为单位 rooms表示社区平均每套住房的房间数 stratio为该社区学校的平均学生 教师比 总体模型为 c 如此小的t统计量 几乎不需要看t分布中的临界值 即使在很大的显著性水平上 估计的弹性也不会显著的异于 1 4 2 5计算t检验的P值 使用经典方法进行假设检验 需要选择一个显著性水平 给定t统计量的观测值 能拒绝虚拟假设的最小显著性水平是多少 这个水平被称为检验的p值 p值的概念 为了方便 将t统计量的值记为计算p P t t0 称为p值 p value 通常的计量经济学软件都可自动计算出p值 P值检验法原理 如果p 则p 2 2 t0落入接受域 应接受H0如果p 则p 2 2 t0落入拒绝域 应拒绝H0 P值检验法准则 当P值小于显著性水平时 系数在显著性水平下是显著的当P值大于显著性水平时 系数在显著性水平下是不显著的 P值检验法的优点 在使用上更简单 不用查临界值表不将 固定在某个武断的水平上是一个更可取的办法 最好是让使用者自己去决定在给定的p value 到底是否拒绝零假设 例子 t 1 85 df 40 对于双侧对立假设所得到的p值 1 85 面积 0 0359 0 1 85 面积 0 0359 可以在7 18 的显著性水平上拒绝H0 一旦p值计算出来 在任何显著性水平 a 上都能进行检验 p a 拒绝虚拟假设 否则不能拒绝回归软件包都会给出双尾检验的p值 如果求单侧检验的p值 只需将双尾检验的p值除以2 4 2 6对经典假设检验用语的提醒 当H0未被拒绝时 我们说 在x 的显著水平上不能拒绝H0 而不是说 在x 的显著水平上接受了H0 再次考虑住房价格与空气污染的例子 t 0 393 t 0 462 很显然 两个虚拟假设不可能同时接受 5 的显著性水平 c 1 96 4 2 7经济或实际显著性与统计显著性 前面强调的是统计显著性 与t统计量相关经济显著性或实际显著性 系数估计值的大小及符号 过多的强调统计显著性 即使一个变量的估计效应不太大 由于有很小的标准误 也认为它在解释y时很重要 导致错误的结论 要么它很大 要么它很小 Example 401k养老金计划的参与率 企业贡献率 工人年龄 企业规模对养老金计划参与率的影响 其t统计量的绝对值为3 25 双尾检验的P值为0 001 在相当小的显著性水平上都是统计显著的 实际意义呢 在处理大样本时 除了看t统计量 对系数的大小加以解释也特别重要 习题4 3 i 4 2 8小结 检验统计显著性如果该变量是统计显著的 则讨论系数的大小 以对其实际或经济上的重要性有所认识 如果变量在通常的显著性水平上不是统计显著的 那你仍可能要问这个变量对y是否有预期的影响 而这个影响在实践中是否很大 如果影响很大 那你就应该对t统计量计算p值 对于小样本 可以让p值大到0 20 并非一成不变 需要注意的是 t统计量小 而实际上大的估计值可能来自抽样误差太大 因为我们可以断定这些变量在统计上不显著 如果t统计量小的变量具有 错误 的符号 则可以忽略这个变量 一个有出乎意料的符号而在实践中具有很大影响的显著变量 才是问题 这常常是可能由于遗漏了关键变量 4 3置信区间 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围 如是否为零 但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多 近 要判断样本参数的估计值在多大程度上可以 近似 地替代总体参数的真值 往往需要通过构造一个以样本参数的估计值为中心的 区间 来考察它以多大的可能性 概率 包含着真实的参数值 这种方法就是参数检验的置信区间估计 如果存在这样一个区间 称之为置信区间 confidenceinterval 1 称为置信系数 置信度 confidencecoefficient 称为显著性水平 levelofsignificance 置信区间的端点称为置信限 confidencelimit 或临界值 criticalvalues 要判断估计的参数值离真实的参数值 有多 近 可以预先选择一个概率 0 1 并求一个正数 使得随机区间包含参数的真值的概率为1 即 置信区间 CI 为总体参数的可能取值提供了一个范围 故又被称为区间估计 总体参数bj的一个95 的置信区间为 因为 c是一个tn k 1分布的第97 5个百分位 定理4 2 经验法则 自由度大于50的t分布 5 显著性水平下c值与2很接近 因而构造置信水平为95 的置信区间 可以是 bj加减其2倍的标准误 根据置信区间可进行双尾检验 如果虚拟假设是 那么 当且当aj不在置信水平为 例如 95 的置信区间时 相对于的H0才会被拒绝 自由度较小时还应查表 由于置信区间一定程度地给出了样本参数估计值与总体参数真值的 接近 程度 因此置信区间越小越好 要缩小置信区间 需 1 增大样本容量n 因为在同样的置信水平下 n越大 t分布表中的临界值越小 同时 增大样本容量 还可使样本参数估计量的标准差减小 2 提高模型的拟合优度 因为样本参数估计量的标准差与残差平方和呈正比 模型拟合优度越高 残差平方和应越小 Example 住房特征对价格的影响 df 15 c 5 2 131 blog sqrft 的95 的置信区间是 0 634 2 131x0 184 0 242 0 634 2 131x0 184 1 026 则相对于H1 log sqrft 0的H0 log sqrft 0会被拒绝 bbdrms的置信水平为95 的置信区间是 0 192 0 060 bbdrms的置信水平为95 的置信区间是 0 002 0 318 4 4检验关于参数的一个线性组合的假设 对涉及不只一个参数的单个假设进行检验例子 比较两年制大专和四年制本科教育的回报 总体中包括具有高中学历的工人 总体模型为我们关心的假设是 在大专的一年能否比得上在大学的一年 即虚拟假设为对立假设为 参加两年制大学的年数 参加四年制大学的年数 参加工作的月数 大专的一年不如大学的一年带来的工资回报多 虚拟假设和对立假设可以重新表示为 t统计量 难点 有些软件包也许不会直接给出 一个简单计算的办法 定义新参数于是检验t统计量 对 tot jc univ t统计量 0 026 0 018 1 44 P值为0 07595 的CI 至少可以在7 5 的显著性水平上拒绝H0 虽然不算很强 对比变换参数前后的回归模型及结果 习题4 3 II III IV 说明变换没有问题 4 5对多个线性约束的检验 F检验 方差分析 检验对于参数b0 b1 bk的多重假设 多重假设检验 或联合假设检验 解决的问题 Y与X1 X2之间的线性关系是否成立 或者这种线性关系是否存在 如果各个X前的系数都等于0 那么这种线性关系就不存在 或称方程不显著只要一个X前的系数不等于0 那么这种线性关系就存在 或称方程是显著的 4 5 1对排除性约束的检验 例子 棒球运动员的薪水模型 1993年的薪水 加入俱乐部的时间长短 几年 平均每年的比赛次数 平均职业击球次数 平均每年本垒打次数 每年击球跑垒得分 拟检验 一旦控制了加入俱乐部的时间长短和每年的比赛次数 度量球员表现的统计指标 bavghrunsyrrbisyr 对薪水没有影响 因而 虚拟假设为对立假设H1 H0不正确 排除性约束 如果该虚拟假设正确 就应该把这三个变量从模型中排除 b3 b4 或b5中至少有一个异于0 那么该对立假设成立 估计结果 tbavg 0 89 thrunsyr 0 89 trbisyr 1 5bavg hrunsyr rbisyr没有一个在5 的显著性水平是统计显著的 不能拒绝H0 因为当从模型中去掉变量时 SSR总是增加 受约束模型 不受约束模型 包含所有解释变量的模型 受约束模型的估计结果 受约束模型的SSR比不受约束模型的SSR要大些 是否足够的大 以至可以拒绝虚拟假设 要构造一个统计量 从一般情形来推导这个检验统计量 具有k个自变量的不受约束模型 虚拟假设 对立假设 虚拟假设是错误的受约束模型 F统计量 F比率 思考 若H0 1 0 k 0那么F统计量 F统计量度量的是SSR从不受约束模型到受约束模型的相对提高 不受约束模型的SSR 受约束模型的SSR 分子自由度 约束数 去掉的自变量个数 受约束模型与不受约束模型自由度之差 分母自由度 不受约束模型的自由度 SSRr SSRur F统计量总是非负的 SSR服从卡方分布 故F服从F分布 F统计量服从自由度为 q n k 1 的F随机变量的分布拒绝法则 F c 临界值 根据显著性水平和自由度决定 5 的显著性水平 q 3 n k 1 60 临界值为2 76 面积 0 05 2 76 拒绝区域 如果拒绝H0 就说xk q 1 xk在x 的显著性水平上是联合统计显著的 如果虚拟假设未被拒绝 则这些变量是联合不显著的 这为将它们从模型中去掉提供了证据 回顾例子 棒球运动员的薪水模型 自由度 3 347 的1 的临界值 3 78因而 拒绝这三个变量对薪水没有影响的虚拟假设 这三个变量的t统计量都不显著 而F统计量显著 有点令人吃惊因为 hrunsyr 平均每年本垒打次数 和rbisyr 每年击球跑垒得分 高度相关 这种多重共线性让我们难以发现每个变量的偏效应 反映在t统计量上 而这种多重共线性对检验联合假设而言 影响没有那么大 F统计量对于检验一组变量的排除有用处 特别是在其中的变量高度相关的时候 4 5 2F统计量与t统计量之间的关系 如果用F统计量去检验单个自变量的显著性 结果如何了 虚拟假设 H0 bk 0 令q 1可以证明 所得到的F统计量 等于对应t统计量的平方 因为 所以在双侧对立假设下得到完全一样的结果对于单个参数假设的检验 仍然用t统计量 变量各自的t统计量不显著 而F统计量显著 如前例 说明变量之间可能存在多重共线性 但变量组合对被解释变量还是有影响的 某个变量的t统计量显著 而F统计量不显著 可能在一些不显著变量中隐藏了一个统计显著变量 不过通常当一个变量十分显著时 它与其他变量的联合检验也会是显著的 4 5 3F统计量的R2型 因为SSRr SST 1 Rr2 SSRur SST 1 Rur2 则R 平方型的F统计量为 例子 婴儿出生体重方程中的父母受教育水平 bwght 以磅为单位的出生体重 cigs 母亲怀孕期间每天吸烟的数量 parity 这个孩子在子女中的排行 faminc 家庭年收入 mothereduc 母亲受教育年数 fanthereduc 父亲受教育年数 拟检验的虚拟假设是 在控制了cigs parity和faminc以后 父母的受教育水平对孩子出生的体重没有影响 实际观测值是1191个 则不受约束模型的自由度为 则F统计量 1 42分子自由度为2 分母自由度为1185 5 的临界值为3 0 所以不能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第2章构建三维模型2.1三维建模基础-高中教学同步《信息技术人工-三维设计与创意》教学设计(人教-中图版2019)
- 线缆厂成品出库检查记录制度
- 2024-2025学年高中防范电信诈骗主题班会教案
- 第17课 君主立宪制的英国(新说课稿)2023-2024学年九年级上册历史(部编版)
- 2.2 乘法公式说课稿-2025-2026学年初中数学湘教版2012七年级下册-湘教版2012
- 保险业务担保合同集合
- 智能家居设备人工费承包及售后服务合同模板
- 生态旅游区开发合同履行与生态资源保护协议
- 高级法院认证离婚协议及子女抚养安排
- 农田流转与农业科技示范推广租赁合同
- 2025纪念中国人民抗日战争胜利80周年心得体会五
- 山东省建筑工程优质结构标准
- 浙江大学新宇集团部门负责人岗位说明书
- TSCS 000013-2021 碳化硼-碳化硅芯块 无机阴离子(F-、Cl-、Br-、I-)的测定 离子色谱法
- GB/T 14846-2014铝及铝合金挤压型材尺寸偏差
- 广西版建筑装饰装修工程消耗量定额说明及计算规则
- GA/T 594-2006保安服务操作规程与质量控制
- 髋关节解剖资料课件
- 坚持男女平等基本国策(妇联培训)课件
- 颅脑外伤(共61张PPT)
- 人教版《生命.生态.安全》六年级上册全册教案
评论
0/150
提交评论