生产管理知识_stata与模型的设定_第1页
生产管理知识_stata与模型的设定_第2页
生产管理知识_stata与模型的设定_第3页
生产管理知识_stata与模型的设定_第4页
生产管理知识_stata与模型的设定_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章Stata与模型的设定 主要内容 1 遗漏变量的检验2 解释变量个数的选择3 多重共线性与逐步回归法4 极端数据的诊断与处理5 虚拟变量的处理6 经济结构变动的Chow检验 实验7 1遗漏变量的检验 一 实验基本原理 二 实验数据和实验内容根据统计资料得到了美国工资的横截面数据 变量主要包括 wage 工资 educ 受教育年限 exper 工作经验年限 tenure 任职年限 lwage 工资的对数值 完整的数据在本书附带光盘的data文件夹的 wage1 dta 工作文件中 利用wage1的数据 分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量 三 实验操作指导1 使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为 linktest if in cmd options 在这个命令语句中 linktest是进行Link检验的基本命令 if是表示条件的命令语句 in是范围语句 cmd options表示Link检验的选项应该与所使用的估计方法的选项一致 例如检验之前使用的回归regress命令 则此处的选项应与regress的选项一致 例如 利用wage1的数据 检验模型是否遗漏了重要的解释变量 应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1 第二个命令语句是对模型进行回归估计 第三个命令就是进行遗漏变量的Link检验 检验结果如图7 1所示 从第二个表格中 可以看到hatsq项的p值为0 018 拒绝了hatsq系数为零的假设 即说明被解释变量lwage的拟合值的平方项具有解释能力 所以可以得出结论原模型可能遗漏了重要的解释变量 为了进一步验证添加重要变量是否会改变Link检验的结果 我们生成受教育年限educ和工作经验年限exper的平方项 重新进行回归并进行检验 这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2 使其值为变量educ的平方 第二个命令语句的作用是生成变量exper2 使其值为变量exper的平方 第三个命令语句的作用是对进行回归估计 第四个命令就是进行遗漏变量的Link检验 检验结果如图7 2所示 2 使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为 estatovtest rhs 在这个命令语句中 estatovtest是进行Ramsey检验的命令语句 如果设定rhs 则在检验过程中使用解释变量 如果不设定rhs 则在检验中使用被解释变量的拟合值 例如 利用wage1的数据 使用Ramsey方法检验模型是否遗漏了重要的解释变量 应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenureestatovtest 在这组命令语句中 第一个命令的功能是打开数据文件 第二个命令是对模型进行回归估计 第三个命令就是进行遗漏变量的Ramsey检验 检验结果如图7 3所示 在图7 3中 第一个图表仍然是回归结果 第二部分则是Ramsey检验的结果 不难发现Ramsey检验的原假设是模型不存在遗漏变量 检验的p值为0 0048 拒绝原假设 即认为原模型存在遗漏变量 为了进一步验证添加重要变量是否会改变Ramsey检验的结果 我们采取Link检验中的方法 生成受教育年限educ和工作经验年限exper的平方项 重新进行回归并进行检验 这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义 调整之后的检验结果如图7 4所示 可以发现此时检验的p值为0 5404 无法拒绝原假设 即认为模型不再存在遗漏变量 实验7 2解释变量个数的选择 一 实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象 但是这两个目标通常是矛盾的 因为通过增加解释变量的个数可以提高模型的精确程度 但是同时也牺牲了模型的简洁性 因此 在现实的经济研究过程中 通常使用信息准则来确定解释变量的个数 较为常用的信息准则有两个 1 赤池信息准则 又称为AIC准则 其基本思想是通过选择解释变量的个数 使得如下目标函数最小 在这个公式中 e代表残差序列 n代表样本数量 K代表解释变量的个数 通过这个目标函数可以看出 第一项是对拟合优度的奖励 即尽可能地使残差平方和变小 第二项是对解释变量个数增多的惩罚 因为目标函数是解释变量个数的增函数 2 贝叶斯信息准则 又称为BIC准则 其基本思想是通过选择解释变量的个数 使得如下目标函数最小 在这个公式中 e代表残差序列 n代表样本数量 K代表解释变量的个数 通过这个目标函数可以看出 BIC准则与AIC准则的唯一区别就是K的权重不同 一般来说ln n 2 所以BIC更加注重模型的简洁性 二 实验数据和实验内容 根据统计资料得到了美国工资的横截面数据 变量主要包括 wage 工资 educ 受教育年限 exper 工作经验年限 tenure 任职年限 lwage 工资的对数值 完整的数据在本书附带光盘的data文件夹的 wage1 dta 工作文件中 利用wage1的数据 来确定以下两个模型 模型和模型哪个更为合理 其中educ2和exper2分别为educ和exper的平方项 三 实验操作指导使用信息准则 对模型进行检验的命令如下 estatic n 在这个命令语句中 estatic是进行检验的命令语句 选项n 的功能是指定BIC准则中的n值 一般使用默认值 例如 利用wage1的数据 获得模型的AIC和BIC值 应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1 第二个命令语句是对模型进行回归估计 第三个命令就是进行信息准则值的计算 计算结果如图7 5所示 AIC值为635 10 BIC值为652 16 为了对比分析 我们仍然采取Link检验中的方法 生成受教育年限educ和工作经验年限exper的平方项 建立新的模型重新对其进行回归并计算 这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义 调整之后的计算结果如图7 6所示 可以发现此时计算的AIC值为583 66 BIC值为609 25 通过这两个模型信息准则值的对比分析 可以得出结论 第二个模型的信息准则值更小 所以此模型优于第一个模型 实验7 3多重共线性与逐步回归法 一 实验基本原理多重共线性问题在多元线性回归分析中是很常见的 其导致的直接后果是方程回归系数估计的标准误差变大 系数估计值的精度降低等 多重共线性的问题对于Stata软件来说并不显著 因为Stata会自动剔除完全的多重共线性 但是出于知识的完整性 这里还是介绍一下Stata对于多重共线性的识别和处理方法 多重共线性的诊断方法主要有 1 直观上说 当模型的拟合优度非常高且通过F检验 但多数解释变量都不显著 甚至解释变量系数符号相反时 可能存在多重共线性 2 对由解释变量所组成的序列组进行相关分析时 如果有些变量之间的相关系数很高 则也反映出可能存在多重共线性 3 使用命令estatvif 对膨胀因子进行计算 经验上当VIF的均值 2且VIF的最大值接近或者超过10时 通常认为有较为严重的多重共线性 当确认模型存在多重共线性时 通常有两种解决方法消除其影响 一种是收集更多的数据 增大样本容量 另一种是通过逐步回归 改进模型的形式 在现实研究过程中 增大样本容量的操作不易执行 所以逐步回归法应用更为广泛 逐步回归法的基本原理是 先分别拟合被解释变量对于每一个解释变量的一元回归 并将各回归方程的拟合优度按照大小顺序排列 然后将拟合优度最大的解释变量作为基础变量 然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化 如果t检验显著则保留该变量 否则去除 不断重复此过程直到加入所有显著的解释变量 二 实验数据和实验内容根据统计资料得到了某市旅游业的相关数据 变量主要包括 Y 旅游收入 单位 万元 X1 某市旅游人数 单位 人 X2 城镇居民人均旅游支出 单位 元 X3 农村居民人均旅游支出 单位 元 X4 公路里程 单位 公里 X5 铁路里程 单位 公里 完整的数据在本书附带光盘的data文件夹的 lvyou dta 工作文件中 利用lvyou数据估计方程 判断是否存在多重共线性 若存在 采用逐步回归法消除多重共线性 三 实验操作指导1 估计方程若要进行多重共线性的检验与修正 首先要建立基本的回归模型 按照第六章所讲述内容 建立回归模型的命令如下 usec data lvyou dta clearregressYX1X2X3X4X5执行建立回归的命令 可以得到如图7 7所示的回归结果 通过判断发现 整个模型的拟合优度较高 但是变量X1和X5未通过t检验 且X5的系数为负 与常理违背 因为在通常情况下 随着铁路里程的增加 交通更加方便 所以旅游收入应该增加 综上所述 可以初步认为该模型存在多重共线性 2 多重共线性检验多重共线性的检验通常采取两种方法 一种是计算膨胀因子 一种是计算变量之间的相关系数 下面将会详细介绍 1 计算膨胀因子的命令为 estatvif uncentered 在这个命令语句中 estatvif是计算膨胀因子的命令语句 uncentered选项通常使用在没有常数项的模型中 在本实验中 在回归之后输入此命令 就可得到如图7 8所示的膨胀因子数值 结果显示该模型的膨胀因子的平均值为14 50 远远大于经验值2 膨胀因子最大值为20 06 远远大于经验值10 所以可以认为该模型存在严重的多重共线性 2 计算相关系数的命令语句为 pwcorr varlist if in weight pwcorr options 在这个命令语句中 pwcorr是计算相关系数的命令 varlist为将要计算相关系数的变量 if为条件语句 in为范围语句 weight为权重语句 options选项如表7 1所示 在本实验中 可以通过计算变量X1 X2 X3 X4和X5之间的相关系数来判断模型是否存在多重共线性 所使用的命令为 pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7 9所示 通过观察可以得到解释变量X1与X2 X4 X5之间 X2与X3 X4 X5之间 以及X4与X5之间的相关系数非常高 因此可以认为解释变量之间存在较为严重的多重共线性 3 逐步回归法 1 手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程 从中选出拟合优度最高的方程作为基础方程 这个操作所使用到的命令为 regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作 可以得到如表7 2所示的回归结果 为了便于观察 表7 2是根据Stata输出结果整理而成的 表7 2内容显示 拟合优度的大小排列顺序为X2 X5 X1 X4 X3 所以这时应将X2作为基础解释变量 然后将X5 X1 X4 X3分别加入回归方程 进行逐步回归 首先 将X5加入方程进行回归 这时输入的命令为 regressYX2X5结果如图7 10所示 通过观察发现 X5的系数的p值为0 658 没有通过检验 所以删除解释变量X5 接下来 将X1加入基本方程进行回归 得到如图7 11所示的回归结果 结果显示X1系数的p值为0 068 没有通过检验 所以删除 下面 将X4加入基本方程进行回归 图7 12显示所有系数都通过了检验 所以基本方程得以扩展为X2和X4两个解释变量 最后 将解释变量X3加入 以X2 X4 X3作为解释变量进行回归 这时得到最终结果如图7 13所示 所有变量都通过了检验 2 自动逐步回归法上述方法对于解释变量较多的计量模型并不适用 所以Stata提供了直接进行分步回归的命令 命令格式为 stepwise options command在这个命令语句中 stepwise是进行逐步回归的命令 command为进行回归分析或建立其他模型的命令 options选项显示在表7 3中 在运用stepwise命令时 需要特别注意的是搜寻的方法和顺序 具体内容如表7 4所示 表7 4较为详细地叙述了每种方法的内在含义和实际操作方法 所以用户使用该命令时应根据研究需要进行选择 或者通过几种方法结果的对比确定最终的模型 例如 利用这种逐步回归的方法重复旅游业分析的建模过程中 如果采用前向搜寻法 需要输入如下命令 stepwise pe 0 05 regressYX1X2X3X4X5在这个命令语句中 stepwise是进行逐步回归的命令语句 pe 0 05 是运用显著性水平为5 的前向搜寻法 regressYX1X2X3X4X5则是指明要建立回归模型 由于前向搜寻法和手动逐步回归的计算方法一致 所以得到如图7 14所示的结果与图7 13所示的结果基本一致 但是如果使用其他方法则会得出不同的结果 所以用户应当根据自身研究的需要进行慎重的选择 实验7 4极端数据的诊断与处理 一 实验基本原理 二 实验数据和实验内容根据统计资料得到了美国汽车产业的横截面数据 1978年 变量主要包括 price 汽车的价格 mpg 每加仑油所行驶的英里数 weight 汽车的重量 foreign表示是否是进口车 如果foreign 0代表是国产车 如果foreign 1代表是进口车 完整的数据在本书附带光盘的data文件夹的 usaauto dta 工作文件中 利用usaauto数据 以price为因变量 mpg weight和foreign为自变量建立回归模型 找出样本数据中存在的极端数据 三 实验操作指导进行极端数据的检验通常用到的是一组命令 这组命令显示如下 regressyx1x2 predictlev leveragegsort levsumlevlistin1 i在这组命令语句中 第一个命令语句的作用是以y为因变量 x1 x2 为自变量建立回归分析 第二个命令语句的作用是计算出所有观测数据的lev值 第三个命令语句的作用是将lev值降序排列 第四个命令语句的作用是计算出lev值的极值与平均值 从而便于比较 第五个命令语句的作用是从大到小列出lev值第1到第i个观测值 以便处理 例如 在美国汽车数据分析中 建立如下回归模型之后 分析一下是否存在极端值所使用到的命令为 regresspricempgweightforeignpredictlev leveragegsort levsumlevlistin1 3这组命令的详细含义已做介绍 这里不再赘述 其功能简言之就是建立回归模型之后 计算lev值 并将由大到小前3位的数据显示出来 执行结果如图7 15所示 在结果中可以看到lev值的均值为0 0541 而最大的lev值为0 3001 所以该观测值有可能为极端数据 可以采取进一步方法进行处理 从而保证模型的精确性 处理的方法一般有两种 一种方法为直接去掉极端值 另一种方法为选择其他更为适合恰当的模型进行回归分析 实验7 5虚拟变量的处理 一 实验基本原理对于定性数据或分类数据而言 通常并不能将其直接纳入模型中进行回归分析 因为这样的分析并不符合经济学理论 所以这时需要引入虚拟变量进行处理 一般情况下 如果分类变量总共有M类 为了避免多重共线性的出现 通常只引入M 1个虚拟变量 下面将会通过一个简单的例子 来介绍一下引入虚拟变量后 模型的实际变化 二 实验数据和实验内容根据统计资料得到了中国1978 2006年的消费数据 变量主要包括 year 年份 c 人均消费 单位 元 y 人均国民收入 单位 元 c ratio 消费收入比 完整的数据在本书附带光盘的data文件夹的 consumption china dta 工作文件中 利用此数据 估计中国的消费函数 并引入虚拟变量 使得在1992年前后的模型截距和斜率都不相同 三 实验操作指导为了便于比较 首先生成整个时期中不含虚拟变量的消费函数方程 所使用到的命令为 regresscy得到如图7 16所示的回归结果 这个回归所形成的模型为c 188 588 0 3977y如果认为在1992年 南巡讲话导致了经济结构的变动 这时需要引入虚拟变量将模型分成两段进行回归 步骤如下 第一步 生成虚拟变量 所使用的命令为 generatedummy 0replacedummy 1ifyear 1992在这组命令中 第一个命令的作用是生成虚拟变量dummy 使其值全部为0 第二个的命令的作用就是将1992年以后的dummy值替换为1 这时就完成了虚拟变量的设置 第二步 生成虚拟变量dummy和解释变量y的互动项 所使用的命令为 generatedummy y dummy y这个命令的作用就是生成互动项dummy y 使其值为变量dummy和变量y的乘积 第三步 将虚拟变量纳入回归方程进行估计 所使用的命令为 regresscydummydummy y执行结果如图7 17所示 这时得到的模型为 这个模型是为了讲解虚拟变量的实际使用方法 暂不考虑某些系数不能通过检验的情况 通过引入虚拟变量发现 模型的截距和斜率都发生了变化 在用户实际研究过程中 可以根据需要引入虚拟变量 进行变斜率 变截距以及二者相结合的模型变化 实验7 6经济结构变动的Chow检验 一 实验基本原理在时间序列模型之中 需要十分注重模型系数的稳定性 如果没有考虑到结构变动 将会造成较为严重的模型设定误差 Chow检验提供了一个较为严谨的检验经济结构变动的方法 例如 在时期t1和t2中 认为存在t3时刻为一个经济结构变动点 这时可以通过三个回归来确定该点是否是结构变动点 二 实验数据和实验内容根据统计资料得到了中国1978 2006年的消费数据 变量主要包括 year 年份 c 人均消费 单位 元 y 人均国民收入 单位 元 c ratio 消费收入比 完整的数据在本书附带光盘的data文件夹的 consumption china dta 工作文件中 利用此数据 估计中国的消费函数 并检验中国的消费函数是否在1992年邓小平 南巡 以后 含1992年 发生了结构变化 三 实验操作指导1 手动法进行Chow检验了解了Chow检验的基本原理之后 就可以进行检验了 检验的方法就是分别进行三次回归 下面将会以中国消费函数为例详细介绍整个操作过程 检验中国的消费函数是否在1992年以后发生了结构变化 1 首先生成整个时期的回归方程 然后计算出这时的残差平方和 这时需要输入的命令为 regresscypredicte residualgena e 2egenb sum a 第一个命令的作用是生成消费函数第二个命令的作用是生成残差序列 第三个命令的作用是生成序列a 使其值为残差平方 第四个命令的作用是生成变量b 使其值为序列a的和 即残差平方和 也就是实验原理中所指的 2 其次生成1992年以前序列的回归方程 然后计算出这前半段时期的残差平方和 这时需要输入的命令为 regresscyifyear 1992predicte1ifyear 1992 residualgena1 e1 2egenb1 sum a1 第一个命令的作用是生成1992年之前的消费函数第二个命令的作用是生成残差序列e1 第三个命令的作用是生成序列a1 使其值为残差平方 第四个命令的作用是生成变量b1 使其值为序列a1的和 即残差平方和 也就是实验原理中所指的 3 生成1992年以后序列的回归方程 然后计算出这后半段时期的残差平方和 这时需要输入的命令为 regresscyifyear 1992predicte2ifyear 1992 residualgena2 e2 2egenb2 sum a2 第一个命令的作用是生成1992年之后的消费函数第二个命令的作用是生成残差序列e2 第三个命令的作用是生成序列a2 使其值为残差平方 第四个命令的作用是生成变量b2 使其值为序列a2的和 即残差平方和 也就是实验原理中所指的 4 最后计算F统计量的值 并与临界值作比较 这时需要输入的命令为 genf b b1 b2 2 b1 b2 29 2 2 sumf第一个命令的作用就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论