




免费预览已结束,剩余41页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章模型设定和数据问题的深入探讨 9 1函数形式误设9 2对无法观测解释变量使用代理变量9 3随机斜率模型9 4有测量误差时OLS的性质9 5数据缺失 非随机样本和异常观测 9 1函数形式的误设 回忆经典线性模型中一个隐含的假设 回归模型是正确设定的如果模型未被正确设定 那么我们就遇到 模型设定误差 或 模型设定偏误 1 我们如何发现模型是 正确的 2 我们经常会遇到哪些类型的 模型设定误差 3 设定误差的后果有哪些 4 如何检验设定误差 5 采取那些补救措施 6 如何评价几个表现不相上下的模型的优劣 9 1 1模型选择准则 数据容纳性 从模型所作出的预测符合逻辑与理论一致回归元的弱外生性 解释变量与误差不相关参数不变性 参数值稳定 否则预测会困难表现出数据的协调性 残差必须完全随机模型具有包容性 其他模型都不可能再改进我们的模型 9 1 2模型设定误差的类型及危害 遗漏有关变量 很可能产生偏误包含一个无关变量 估计量方差变大采用了错误的函数形式测量误差对随机误差项不正确的设定随机误差项是以乘积形式进入模型 还是以相加形式进入模型 9 1 3模型设定误差的检验9 1 3 1检验是否含有无关变量 通过t 检验去检验一个变量参数的显著性 通过F 检验去检验一组变量参数的显著性 注意 并不能完全依赖统计检验 还要注意经济或实际上的显著性 9 1 3 2检验遗漏变量和函数形式误设 残差分析 可用于检验遗漏变量和函数形式误设 逐渐趋于真实模型 回归设定误差检验 RESET 思路 如果下面的模型满足MLR 4那么如果在模型中添加自变量的非线性关系应该是不显著的 RESET检验的过程 考虑扩大方程y b0 b1x1 bkxk d1 2 d1 3 u检验H0 d1 0 d2 0注意 F F2 n k 3orLM 22 自由度 n k 1 2 Example 住房价格方程 比较两个模型的RESET统计量 Price b0 b1lotsize b2sqrft b3bdrms uF 4 67 p 0 012lPrice b0 b1llotsize b2lsqrft b3bdrms uF 2 56 p 0 084 被拒绝 不能被拒绝 9 1 小结 RESET检验的优势是不需要设立对立模型RESET检验的重要缺陷是如果方程被拒绝 它不能告诉我们应该如何修正我们的错误模型 9 1 4对非嵌套模型的检验 如果我们要在下列两个非嵌套模型中选择 我们可以使用两类方法判别方法检验方法 判别方法 两个模型优劣判断必须基于相同的因变量然后基于R2或调整的R2来判断还有其他准则可以用以判断 赤池信息准则 AIC 施瓦兹信息准则 SIC 和马娄斯的Cp准则 赤池信息准则 AIC 对模型中增加回归元施加了更严厉的惩罚在比较两个模型时 具有最低AIC的模型优先AIC的优越性在于 不仅适用于样本内预测 还适用于预测样本外模型的表现 嵌套模型 非嵌套模型都适用 施瓦兹信息准则 SIC 对模型中增加回归元施加了比AIC更严厉的惩罚SIC的值越低越好SIC也可以用于比较模型在样本内与样本外的预测表现 马娄斯的Cp准则 软件不能给出 若模型有p个回归元 则若模型是正确设定的 则注 上述几个准则 不存在谁更优于谁 检验方法 方法一 MizonandRichard 1986 分别检验 综合模型 检验 2 检验 1 这种检验程序存在的问题 1 2 两模型中的回归元如果存在高度相关 则综合模型就存在高度多重共线性 这可能使正确模型中的参数检验不显著 2 的拟合值 方法二 戴维森 麦金农J检验思想 如果 1 正确 那么 2 中的拟合值y在 1 中作为解释变量时应该是不显著的 对模型检验 对模型检验 不能拒绝则说明1兼容2 1 的拟合值 不能拒绝则说明2兼容1 评价J检验 可能两个模型都被拒绝 或都没有被拒绝 那么我们就得不到明确的答案 检验中拟合值的t统计量是渐近的服从t分布的 因此 在小样本中 J检验会过多的拒绝真模型 9 2对无法观测的解释变量使用代理变量9 2 1代理变量和植入解 考虑工资模型 如果因为无法观测而放入误差项 则可能会导致严重偏误 这时考虑代理变量IQ 可以测量 与无法观测的变量高度相关 无法观测的变量 遗漏变量问题的植入解 植入解得到无偏估计量的假设 u与x1 x2 x3 以及x3都不相关v3与x1 x2 x3都不相关E x3 x1 x2 x3 E x3 x3 d0 d3x3y b0 b3d0 b1x1 b2x2 b3d3x3 u b3v3 新截距 代理变量的斜率 新误差项 无偏估计量 代理变量只与x3有关 与其他自变量无关 如果代理变量与其他自变量也相关 则会出现偏误 偏误 9 3 9 2 2用滞后因变量作为代理变量 如果无法确定遗漏变量的代理变量究竟应该是什么 那么可以选择较早时期的因变量作为代理变量 例如 某些城市过去有较高的犯罪率 同时导致现在和过去犯罪率很高的无法观测因素中 许多都是相同的 Example 城市犯罪率 Crime表示人均犯罪次数 unem表示城市失业率 expend表示执法的人均支出 crime 1表示以前某个年度的犯罪率 9 3随机斜率模型 如果一个变量的偏效应是随某些无法观测的因素而变化的 这就会产生随机斜率模型 例如 工资方程 对于不同的人 多读一年书的偏效应是不同的 取决于个人能力 对于没有读过书的人 工资水平是不同的 取决于个人能力 对于我们的n个观测者 我们有n个ai E ai 我们有n个bi E bi 对于某个观测者 如果ai ci bi di其随机斜率模型为 y ai bixi ci di xi xi ui其中ui ci dixi 平均边际效应 平均截距 随机斜率模型可以写为常系数模型 但是其误差与x有关 异方差 随机斜率模型是否有偏 E ui x E ci x xiE di x E ai x xi E bi x 如果E ai x E bi x 则E ui x 0 ui ci dixi 注意到 ai ci bi di 注意 E ai E bi 允许斜率因人而异 但只要他们的均值独立于解释变量 则OLS估计量就是无偏的 9 4有测量误差时OLS的性质 测量误差是模型设定偏误的又一种情况测量误差来自于两种情况1 因变量的测量误差2 自变量的测量误差 9 4 1因变量中的测量误差 测量误差的例子 我们想要 家庭年收入 但是被调查者只为我们提供了家庭成员的工资总收入 实际上投资收益被忽略了 此时产生了测量误差 令y 表示因变量的真实值 y表示观测值测量误差e y y 存在测量误差会导致OLS估计量的性质发生什么变化 测量误差的均值为0 且测量误差和解释变量无关 对于真实情况 满足高斯 马尔科夫假定 而我们回归的方程为如果也满足满足高斯 马尔科夫假定 则估计量是有效地 即E e x 0存在测量误差时 误差方差会增大 小结 如果因变量的测量误差与解释变量系统相关 则会导致OLS的偏误 如果测量误差只是一个与解释变量无关的随机误差 则OLS完全适用 但会加大估计量的方差 9 4 2解释变量中的测量误差 令x 表示因变量的真实值 x表示观测值对于解释变量x1的测量误差e1 x1 x1 假设E e1 0 E u 1e1 x 0 0 根据假定 e1 x1 x1 自变量测量误差在两类假定下的影响 保证了估计量的一致性 误差方差加大 假定一 Cov x1 e1 0E u 1e1 x1 0Var u 1e1 Var u 假定二 经典变量误差假定CEV Cov x1 e1 0Cov x1 e1 E x1e1 E x1 e1 E e12 Var e1 Cov x1 u 1e1 1Var e1 在CEV假定下 OLS将给出有偏的不一致的估计量 在CEV假定下的偏误 回忆第5章渐进偏误的定义 在CEV假定下的偏误 衰减偏误 小结 如果自变量存在测量误差 且满足CEV 则估计量会产生衰减偏误 但如果测量误差的方差Var e1 相对于自变量真实值的方差Var x1 很小的话 则测量误差不会导致很大偏差 这时 我们可以忽略自变量测量误差导致的偏误 但困难在于Var e1 和Var x1 不易观测 另一种方法是使用工具变量或代理变量 它们与观测值X高度相关 但与方程误差和测量误差 e 都不相关 那么我们就能得到 的一致估计 因此 自变量的观测值要尽量准确 也比较困难 9 5数据缺失 非随机样本和异常观测9 5 1数据缺失 missingdata 如果一个观测缺失了其因变量或一个自变量 那么这个观测就不能用于多元回归分析 如果数据是随机缺失的 那么除了减少了样本容量而导致估计量没有那么准确以外 不会引起任何偏误 9 5 2非随机样本 如果数据缺失是非随机的 那么将导致样本变为非随机样本 在婴儿出生的数据集中 如果受教育程度低的人缺失数据的概率大 违背MLR 2 外生样本选择不会有偏误 内生样本选择会有偏误 外生样本选择 基于自变量例如内生样本选择 基于因变量例如 假设我们针对35岁以上的人群调查 则得到非随机样本 不会导致偏误 假设我们针对财富不足25万的人群调查 也得到非随机样本 导致偏误 9 5 3异常观测 异常观测值也可以定义为残差很大的观测值 如果将一个观测从数据集中去掉会使得OLS估计量发生很大变化 则这个观测就是异常观测 这个很大的残差会因为它和回归线的垂直距离很大而把回归线向自己拉近 从而改变回归线的斜率 异常数据的性质 对所有数据的OLS线 除去异常观测值的OLS线 不是异常观测值 是异常观测值 由于OLS是对残差平方进行最小化 所以OLS估计量对异常观测值十分敏感 一组观测值中可能不止一个异常观测值 不加思索的将异常观测值从样本中去掉不是明智的选择 除非异常观测是由于记录发生错误而导致 否则异常观测值可能记录了其他观测值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- HCy-Lyso-生命科学试剂-MCE
- 2025年甘肃省大数据中心招聘工作人员考前自测高频考点模拟试题完整参考答案详解
- GSK-J4-Standard-生命科学试剂-MCE
- 2025年橡塑专用仪器项目合作计划书
- 2025安徽合力股份有限公司校园招聘模拟试卷附答案详解(典型题)
- 我的特别礼物写物作文7篇
- 2025年大型并网风力发电机组发电机合作协议书
- 文档管理流程及归档工具模板
- 2025广东省第二中医院招聘内分泌科医师1人考前自测高频考点模拟试题附答案详解(考试直接用)
- 员工培训与评估综合工具
- 2025年医师三基考试试题及答案(上半年)
- 《彩虹》课件 部编版语文二年级上册
- 基孔肯雅热主题班会课件
- 2025年全国企业员工全面质量管理知识竞赛试题及答案
- 锁骨下盗血综合征伴锁骨下动脉闭塞的护理查房
- 磷化铝管理办法
- 水下激光探测-洞察及研究
- 2025年海底捞企业面试题及答案
- 小学体育家长会课件
- 7.2 量身高(课件)-2025-2026学年三年级数学上册北师大版
- 教育的人口功能
评论
0/150
提交评论