第五章虚拟与离散变量回归模型_第1页
第五章虚拟与离散变量回归模型_第2页
第五章虚拟与离散变量回归模型_第3页
第五章虚拟与离散变量回归模型_第4页
第五章虚拟与离散变量回归模型_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章虚拟和离散变量回归模型前面讨论的回归模型中,变量取实际的数值,一般是连续的。 在实际工作中经常遇到变量取离散数值的情况,其回归模型有必要给出特别的考虑。 在经济分析中,经常遇到变量不是数值,比如买和不买,上升和下降,有无等。 这些选择可以给出虚拟变量,用数值表示。 这种回归当然更有特色。 本章对这种回归模型进行了研究。第1节以虚拟变量为自变量的模型在回归模型中,变量不仅受到取实际数值的自变量(价格、工资收入、产量、温度、距离、重量等)的影响,还经常受到不取实际数值的自变量(性别、国籍、人种、颜色、学位、地震、罢工、政治动乱、政府重叠等)的影响。 为了将这种影响反映到模型中,可以引入虚拟变

2、量,人为地给这些要素赋予一定的数值。 如果某个元素只有两个选项,如性别,则可以导入虚拟变量当然也可以将(1,-1)和(1,2 )分配给Di,如何分配,实际的问题表示和计算很方便。 如果有几个因素,例如学位,可以引入虚拟变量等等。 我们首先考虑把虚拟变量加到模型上,然后再考虑相乘。一、加上虚拟变量,工资性别差异如果在某职业者的工资中采集了10个样本,如下表所示,省略了工资单位,性别栏中的1表示男性,0表示女性。表5.1.1序列号。12345678910工资22.019.018.021.718.521.020.517.017.521.2性别1001011001建立了以性别为自变量的回归模型(5.1

3、.1)对表格的资料进行回归女性的平均工资是18,男性的平均工资是18 3.28=21.28。 回归系数1的t统计量为7.44,远远大于阈值0.44,非常显着,因此可以认为这项工作的男女工资存在差异。一般来说,对于模型(5.1.1)。(5.1.2)(5.1.3)如果通过1显着性检查,可以认为Di的属性集合有显着性差异。上述模型没有考虑性别以外的因素。 考虑到其他因素对工资的影响,例如工作年限,可以取实际的数值,用x表示的话,有模型(5.1.4)这个时候(5.1.5)(5.1.6)如果系数1在统计上有意义,表示工资有性别差异。如果某个元素有三个属性,可以用这两个选项的开关变量来表示吗? 可以使用两

4、个开关变量。 例如学位分学士、硕士、博士三个阶段导入建立以下模型:(5.1.7)原则(5.1.8)(5.1.9)(5.1.10 )但是,经常使用以D1区分性别、以D2区分肤色等2个虚拟变量。可以使用更多的虚拟变量。 例如,有研究业馀兼业者的工资状况的人,建立过以下回归方程式(5.1.11 )公式中的X1是第一职业工资,D2D5都是区分肤色(白人、非白人)、居住地(城市、非城市)、地区(西部、非西部)、学历(高等教育、非高等教育)的开关变量。 X6是年龄。本段叙述了影响回归式平均值的虚拟变量。二、乘以虚拟变量,比较储蓄和收入的阶段性拟合在这个段落中,考虑到乘以虚拟变量,会影响回归公式的斜率。 让

5、我们来看看具体的数值例子。 表5.1.2是英国19461963年居民的储蓄和收入资料,单位为百万英镑。表5.1.2年存钱收入年存钱收入19460.368.819550.5915.519470.219.419560.9016.719480.0810.019570.9517.719490.2010.619580.8218.619500.1011.019591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.5013.519621.7523.919540.4314.319631.9925.2表中粗略地表示了资料分为1946195

6、4年是战后恢复期,19551963年是振兴期两个时期。 我们可以分别建立两个回归方程。(5.1.12 )(5.1.13 )关于本例的具体资料,可以进行回归(5.1.14 )(5.1.15 )两个方程式的斜率不同,反映了储蓄的增加速度。为了验证此数据是否真的分为两组,建立两个回归模型,或者验证这两个回归方程是否存在显着差异,使用Chow检验法(具体方法在后面叙述)。 但是,用两个方程式描述一组资料会带来很多不便。 使用虚拟变量,可以用方程式描述回归式的斜率参数(非常数系数)的变化。在本示例的数据中,可以建立以下方程式:(5.1.16 )其中y是储蓄,x是收入,d是二值虚拟变量原则(5.1.17

7、)(5.1.18 )对于本例资料,可以计算回归公式(5.1.19 )假设Di=0(5.1.20 )假设Di=1(5.1.21 )符合两个方程的效果(最后一位包含舍入误差)。效果一致。 为什么采用一个方程式,不采用两个方程式? 除了统一的处理容易之外,方程式的最大优点是自由度增加,参数估计的精度也提高了。 可以看出,虽然样品数几乎增加了两倍,但通过增加变量数只减少了2自由度,自由度=n-m。有人使用虚拟变量确立失业率与工作空缺率的关系,也有参数的变化点(5.1.22 )其中UN是失业率(unemplogment rate ),v是工作空闲率(job-vacancy rate ),d是二值开关变量

8、。确立了服装消费和性别、文化教育的关系,也有使用两个开关变量的人(5.1.23 )其中,y是服装的消耗量,x是收入,D1是性别,D2是教育程度。 由于女性受过高等教育的人的服装消费远远大于其他人,即认为性别因素与受教育程度有相互作用,因此进一步改善回归方程式(5.1.24 )添加了反映交互作用的项目(D1iD2i )。以下以表5.1.2的资料为例,介绍Chow检查。无论n-1组数据是多元的还是n-2组数据(Y2i,X2i ),X2i都必须与X1i是同一维度,并且必须分别建立回归模型(5.1.25 )(5.1.26 )Chow检查的目的是判别这两种模型是否有显着差异。 步骤如下所示。(1)将这两

9、组资料合并,建立统一模式(5.1.27 )计算残差平方和s,其自由度为n1 n2-m。(2)分别计算两个个别模型的残差平方和S1 (自由度n1-m )和S2 (自由度n2-m )。(S3=S1 S2 (自由度为n1 n2-2m ),S4=S-S3 (自由度为m ),建立统计量(5.1.28 )在两个单独回归模型匹配的假设下,统计量f应当遵循自由度的f分布,用有效水平检查阈值,如果f超过阈值,则在信任水平1-处拒绝两个回归模型匹配的假设。Chow检查简便易用,但结果粗糙。 如果拒绝一致性的假设,只知道两个模型有显着差异,但不知道它是不同的还是i不同。在表5.1.2的资料中,进行计算(5.1.29

10、 )所以英国认为战后复苏期和振兴期的居民储蓄和收入关系有显着差异,两种单独模式拒绝了一致的假设。以下,本段资料中给出了计算例子、计算顺序和结果。算例5.1.2阶段回归和Chow检查读者可从包含所打印的虚拟变量的数据具体理解虚拟变量的结构和作用,并且最后的拟合效果图(图5.1.2.1 )清楚地显示该阶段回归并分成两个直线阶段。-虚拟变量段回归和Chow检定,例5.1.2在示例512.D数据文件中,n=18、m=1、N1=9N1 N2=N,段回归第二组的数据数为9显示原来的资料吗? 0=不显示,1=显示(0)回归公式样本总数18Y=-1.0821 .1178 X1总残差平方和Q :5722自由度:

11、 16最初回归式样本的总数9Y=-.2663 .0470 X1第一方程式的残差平方和Q1 : 7 .1397自由度:第二个回归式样本总数9Y=-1.7501 .1504 X1第二方程的残差平方和Q2 : 7 .1931自由度:现在,进行明确了两个回归方程式的差异的Chow检查请输入有效水平a。 通常,a=0.01、0.05、0.10、a=?统计量: 5.0371阈值: 4.6001显然,两个回归方程有显着差异然后导入虚拟变量进行回归打印重建的回归资料吗? 0=不打印,1=打印(1)打印包含重建的虚拟变量的回归数据. 3600 1.0000 8.8000 8.8000. 2100 1.0000

12、9.4000 9.4000. 0800 1.0000 10.0000 10.0000. 2000 1.0000 10.6000 10.6000. 1000 1.0000 11.0000 11.0000. 1200 1.0000 11.9000 11.9000. 4100 1.0000 12.7000 12.7000. 5000 1.0000 13.5000 13.5000. 4300 1.0000 14.3000 14.3000. 5900 .0000 15.5000 .0000. 9000 .0000 16.7000 .0000. 9500 .0000 17.7000 .0000. 8200

13、 .0000 18.6000 .00001.0400 .0000 19.7000 .00001.5300 .0000 21.1000 .00001.9400 .0000 22.8000 .00001.7500 .0000 23.9000 .00001.9900 .0000 25.2000 .0000打印使用虚拟变量的回归公式y=-1.75021.4829 x 1.1505 x2-.1034 x3打印使用虚拟变量的回归分析结果目前进行线性回归显着性检查,计算t、f、r统计量请输入有效水平a。 通常,a=0.01、0.05、0.10、a=?- *线性回归分析的计算结果样本总数18自变量3- *回归式Y=b0 b1*X1 . b3*X3y=-1.75021.4829

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论