




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一部分线性回归模型 Chp3双变量模型 假设检验 主要内容 古典线性回归模型的假定OLS估计量及其性质OLS估计量的方差与标准误OLS估计量的抽样分布 概率分布 假设检验拟合优度正态性检验预测 3 1古典线性回归模型 线性回归模型的基本假设假设1 回归模型是参数线性的 但不一定是变量线性 Yi B1 B2Xi ui假设2 解释变量X与扰动误差项u不相关 Cov X u 0 假设3 给定Xi 扰动项的期望或均值为零 即 E u Xi 0 PRF E Y Xi B1 B2Xi 扰动项ui的条件分布 假设4 ui的方差为常数 即同方差假定 Var ui 2 PRF Yi B1 B2Xi 同方差 PRF Yi B1 B2Xi 异方差 假设5 无自相关假定 即 Cov ui uj 0 i j由该假定可得 Cov Yi Yj 0 i j 即Y也不相关 假设6 回归模型是正确设定的 即模型不存在设定误差 错误 无自相关假定 即 Cov ui uj 0 i j由该假定可得 Cov Yi Yj 0 i j 即Y也不相关 假设7 随机误差项ui具有零均值 同方差 u2 的正态分布 ui N 0 u2 3 2 3 3最小二乘估计量的性质 当模型参数估计出后 需考虑参数估计值的精度 即是否能代表总体参数的真值 或者说需考察参数估计量的统计性质 一个用于考察总体的估计量 可从如下几个方面考察其优劣性 1 线性性 即它是否是另一随机变量的线性函数 1 系数B1 B2的OLS估计 2 无偏性 即它的均值或期望值是否等于总体的真实值 3 有效性 即它是否在所有线性无偏估计量中具有最小方差 这三个准则也称作估计量的小样本性质 拥有这类性质的估计量称为最佳线性无偏估计量 bestlinerunbiasedestimator BLUE 4 渐近无偏性 即样本容量趋于无穷大时 是否它的均值序列趋于总体真值 5 一致性 即样本容量趋于无穷大时 它是否依概率收敛于总体的真值 6 渐近有效性 即样本容量趋于无穷大时 是否它在所有的一致估计量中具有最小的渐近方差 当不满足小样本性质时 需进一步考察估计量的大样本或渐近性质 高斯 马尔可夫定理 Gauss Markovtheorem 在给定经典线性回归的假定下 最小二乘估计量是具有最小方差的线性无偏估计量 证 其中 1 线性性 即估计量b0 b1是关于Yi的线性函数 上式用到 其中 注 故 同样地 容易得出 2 无偏性 即估计是量b0 b1的均值 期望 等于总体回归参数真值B0 B1 3 有效性 最小方差性 即在所有线性无偏估计量中 最小二乘法估计量b0 b1具有最小方差 1 先求b0与b1的方差 注 2 证明最小方差性 普通最小二乘估计量 ordinaryleastSquaresEstimators 称为最佳线性无偏估计量 bestlinearunbiasedestimator BLUE 假设b1 是其他估计方法得到的关于B1的线性无偏估计量 则 b1 ciYi其中 ci ki di di为不全为零的常数 则容易证明 同理可证 B0是的最小二乘估计量b0具有最小的方差 由于最小二乘估计量拥有一个 好 的估计量所应具备的小样本特性 它自然也拥有大样本特性 现考察b1的一致性 3 4OLS估计量的抽样分布 概率分布 及随机干扰项方差的估计 普通最小二乘估计量b0 b1分别是Yi的线性组合 因此 b0和b1的概率分布取决于Y的分布特征 在u是正态分布的假设下 Y是正态分布 则b0 b1也服从正态分布 因此 1 参数估计量b0和b1的概率分布 b0和b1的标准差 B1 b1 2 随机误差项u的方差 2的估计 在估计的参数b0和b1的方差表达式中 都含有随机扰动项u的方差 2 由于 2实际上是未知的 因此 b0和b1的方差实际上无法计算 这就需要对其进行估计 2又称为总体方差 由于随机项ui不可观测 只能从ui的估计 残差ei出发 对总体方差进行估计 可以证明 2的最小二乘估计量为 它是关于 2的无偏估计量 为 的估计量 也称为回归标准误 即Y值偏离估计回归线的标准差 其作用 P126 在随机误差项u的方差 2估计出后 参数b0和b1的方差和标准差的估计量分别是 b1的样本方差 b1的样本标准差 b0的样本方差 b0的样本标准差 3 5假设检验 回归分析是要通过样本所估计的参数来代替总体的真实参数 或者说是用样本回归线代替总体回归线 尽管从统计性质上已知 如果有足够多的重复抽样 参数的估计值的期望 均值 就等于其总体的参数真值 但在一次抽样中 估计值不一定就等于该真值 那么 在一次抽样中 参数的估计值与真值的差异有多大 是否显著 这就需要进一步进行统计检验 主要内容有 参数的区间估计 变量的显著性检验拟合优度检验 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围 如是否为零 但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多 近 一 参数的置信区间 回归分析希望通过样本所估计出的参数b1来代替总体的参数B1 要判断样本参数的估计值在多大程度上可以 近似 地替代总体参数的真值 往往需要通过构造一个以样本参数的估计值为中心的 区间 来考察它以多大的可能性 概率 包含着真实的参数值 这种方法就是参数检验的置信区间估计 如果存在这样一个区间 称之为置信区间 confidenceinterval 1 称为置信系数 置信度 confidencecoefficient 称为显著性水平 levelofsignificance 置信区间的端点称为置信限 confidencelimit 或临界值 criticalvalues 要判断估计的参数值b离真实的参数值B有多 近 可预先选择一个概率 0 1 并求一个正数 使得随机区间 b b 包含参数的直值的概率为1 即 一元线性模型中 Bi i 0 1 的置信区间 在变量的显著性检验中已经知道 意味着 如果给定置信度 1 从分布表中查得自由度为 n 2 的临界值 那么t值处在 t 2 t 2 的概率是 1 表示为 即 于是得到 1 的置信度下 Bi的置信区间是 在上述收入 消费支出例中 如果给定 0 01 查表得 由于 于是 B1 B0的置信区间分别为 0 6345 0 9195 433 32 226 98 由于置信区间一定程度地给出了样本参数估计值与总体参数真值的 接近 程度 因此置信区间越小越好 要缩小置信区间 需要 1 增大样本容量n 因为在同样的置信水平下 n越大 t分布表中的临界值越小 同时 增大样本容量 还可使样本参数估计量的标准差减小 2 提高模型的拟合优度 因为样本参数估计量的标准差与残差平方和呈正比 模型拟合优度越高 残差平方和应越小 二 变量的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素 在一元线性模型中 就是要判断X是否对Y具有显著的线性性影响 这就需要进行变量的显著性检验 变量的显著性检验所应用的方法是数理统计学中的假设检验 计量经济学中 主要是针对变量的参数真值是否为零来进行显著性检验的 1 假设检验 所谓假设检验 就是事先对总体参数或总体分布形式作出一个假设 然后利用样本信息来判断原假设是否合理 即判断样本信息与原假设是否有显著差异 从而决定是否接受或否定原假设 H0 B1 0 假设检验采用的逻辑推理方法是反证法先假定原假设正确 然后根据样本信息 观察由此假设而导致的结果是否合理 从而判断是否接受原假设 判断结果合理与否 是基于 小概率事件不易发生 这一原理的 对于一元线性回归方程中的b1 已经知道它服从分布 从Z统计量到t统计量 假设检验 置信区间法 如果接受区域包括零假设值B1 则不拒绝零假设 否则拒绝 说明 无论做何种决定 都会以一定的概率 如5 犯错误 b2 B2 B2 接受区域 假设检验 显著性检验法 核心思想 构造统计量 及零假设下 检验统计量的抽样分布 根据从样本数据求得的检验统计量的值决定接受或拒绝零假设 已知 在零假设下 计算统计量 经验分析中 根据给定的给定的显著性水平 求得临界值t 2 or t 通过对比来确定接受 tt 2 零假设 为避免任意性 有时也直接根据计算的t值 计算p值 进而根据p值的大小选择接受还是拒绝零假设 检验步骤小结 1 对总体参数提出假设H0 B1 0 H1 B1 0 2 以原假设H0构造t统计量 并由样本计算其值 3 给定显著性水平 查t分布表得临界值t 2 n 2 4 比较 判断若 t t 2 n 2 则拒绝H0 接受H1 若 t t 2 n 2 则拒绝H1 接受H0 对于一元线性回归方程中的B0 可构造如下t统计量进行显著性检验 在上述收入 消费支出例中 首先计算 2的估计值 于是b1和b0的标准差的估计值分别是 t统计量的计算结果分别为 给定显著性水平 0 05 查t分布表得临界值t0 05 2 8 2 306 t1 2 306 说明家庭可支配收入在95 的置信度下显著 即是消费支出的主要解释变量 t2 2 306 表明在95 的置信度下 无法拒绝截距项为零的假设 3 6拟合优度检验 判定系数 拟合优度检验 对样本回归直线与样本观测值之间拟合程度的检验 度量拟合优度的指标 判定系数 可决系数 R2 问题 采用普通最小二乘估计方法 已经保证了模型最好地拟合了样本观测值 为什么还要检验拟合程度 1 总离差平方和的分解 已知由一组样本观测值 Xi Yi i 1 2 n得到如下样本回归直线 而Y的第i个观测值与样本均值的离差可分解为两部分之和 Yt Xt yt 总离差 et 残差 来自回归 X Y SRF 如果Yi i即实际观测值落在样本回归 线 上 则拟合最好 可认为 离差 全部来自回归线 而与 残差 无关 是样本回归拟合值与观测值的平均值之差 可认为是由回归直线解释的部分 是实际观测值与回归拟合值之差 是回归直线不能解释的部分 对于所有样本点 则需考虑这些点与样本均值离差的平方和 可以证明 TSS ESS RSS 记 总体平方和 TotalSumofSquares 回归平方和 ExplainedSumofSquares 残差平方和 ResidualSumofSquares Y的观测值围绕其均值的总离差 totalvariation 可分解为两部分 一部分来自回归线 ESS 另一部分则来自随机因素 RSS 在给定样本中 TSS不变 如果实际观测点离样本回归线越近 则ESS在TSS中占的比重越大 因此拟合优度 回归平方和ESS Y的总离差TSS 2 可决系数R2统计量 称R2为 样本 可决系数或判定系数 coefficientofdetermination 可决系数的取值范围 0 1 R2越接近1 说明实际观测点离样本线越近 拟合优度越高 记 在收入 消费支出一例中 注 可决系数是一个非负的统计量 它也是随着抽样的不同而不同 为此 对可决系数的统计可靠性也应进行检验 这将在后面的章节中进行 在实际计算可决系数时 在b1已经估计出后 如果在给定的显著性水平下 根据上式计算得出的值超过临界的值 则拒绝正态分布的零假设 否则 接受 另法 根据计算得到的 2值的p值 可知获此 2值的精确概率 3 7回归分析结果的报告 1 建立工作文件 第二节回归模型的参数估计 启动EViews 点击 Workfile 弹出工作文件对话框 图2 3 选择数据的时间频率 起始期和终止期 时间频率 年度 半年 季度 月度 周 日 非时序数据 起始期 终止期 命令方式 在EViews命令窗口中键入CREATE时间频率类型起始期终止期例如 CREATEA8598 2 输入统计资料 在命令窗口键入数据输入 编辑命令DATAYX将显示数组窗口 图2 4 此时可以按全屏幕编辑方式输入每个变量的统计资料 第二节回归模型的参数估计 图2 4数组窗口 第二节回归模型的参数估计 3 估计回归模型 数组窗口中点击Procs Makeequation 定义方程 点击OK 则弹出有关估计结果 右图 常数和解释变量 参数标准差 T统计量值 双侧概率 判定系数 调整的判定系数 回归方程的标准差 残差平方和 似然函数的对数 德宾 瓦森统计量 被解释变量均值 被解释变量标准差 赤池信息准则 施瓦兹信息准则 F统计量 F统计量的概率 参数估计值 第二节回归模型的参数估计 命令方式 键入 LS被解释变量C解释变量例如 LSYCX 常数 第二节回归模型的参数估计 回归分析结果的报告 P56 3 11一元线性回归分析的应用 预测问题 一 0是条件均值E Y X X0 或个值Y0的一个无偏估计二 总体条件均值与个值预测值的置信区间 对于一元线性回归模型 给定样本以外的解释变量的观测值X0 可以得到被解释变量的预测值 0 可以此作为其条件均值E Y X X0 或个别值Y0的一个近似估计 严格地说 这只是被解释变量的预测值的估计值 而不是预测值 原因 1 参数估计量不确定 2 随机项的影响 一元线性回归的应用 预测 0是条件均值E Y X X0 或个值Y0的一个无偏估计 对总体回归函数E Y X X0 B0 B1X X X0时E Y X X0 B0 B1X0 故 可见 0是条件均值E Y X X0 的无偏估计 通过样本回归函数 求得的拟合值为 对总体回归模型Y B0 B1X u 当X X0时 于是 而通过样本回归函数 求得拟合值的期望为 总体条件均值与个值预测值的置信区间 总体均值预测值的置信区间 由于 于是 可以证明 证明如下 因此 故 于是 在1 的置信度下 总体均值E Y X0 的置信区间为 其中 总体个值预测值的预测区间 由Y0 B0 B1X0 u知 于是 式中 从而在1 的置信度下 Y0的置信区间为 在上述收入 消费支出例中 得到的样本回归函数为 则在X0 1000处 0 103 172 0 777 1000 673 84 而 因此 总体均值E Y X 1000 的95 的置信区间为 673 84 2 306 61 05 E Y X 1000 673 84 2 306 61 05或 533 05 814 62 同样地 对于Y在X 1000的个体值 其95 的置信区间为 673 84 2 306 131 07 Y x 1000 673 84 2 306 131 07或 372 03 975 65 总体回归函数的置信带 域 confidenceband 个体的置信带 域 X Y Y均值的置信区间 Y个值的置信区间 对于Y的总体均值E Y X 与个体值的预测区间 置信区间 1 样本容量n越大 预测精度越高 反之预测精度越低 2 样本容量一定时 置信带的宽度当在X均值处最小 其附近进行预测 插值预测 精度越大 X越远离其均值 置信带越宽 预测可信度下降 实例 时间序列问题 一 中国居民人均消费模型二 时间序列问题 一 中国居民人均消费模型 例 考察中国居民收入与消费支出的关系 GDPP 人均国内生产总值 1990年不变价 CONSP 人均居民消费 以居民消费价格指数 1990 100 缩减 中国居民人均消费支出与人均GDP 元 人 1 建立模型拟建立如下一元回归模型 采用Eviews软件进行回归分析的结果见下表 该两组数据是1978 2000年的时间序列数据 timeseriesdata 前述收入 消费支出例中的数据是截面数据 cross sectionaldata DependentVariable CONSPMethod LeastSquaresDate 04 12 07Time 21 07Sample 19782000Includedobservations 23VariableCoefficientStd Errort StatisticProb C201 118914 8840213 512410 0000GDPP0 3861800 00722253 474710 0000R squared0 992710Meandependentvar905 3304AdjustedR squared0 992363S D dependentvar380 6334S E ofregression33 26450Akaikeinfocriterion9 929800Sumsquaredresid23237 06Schwarzcriterion10 02854Loglikelihood 112 1927F statistic2859 544Durbin Watsonstat0 550636Prob F statistic 0 000000 中国居民人均消费支出对人均GDP的回归 1978 2000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论