第7讲 包含虚拟变量的回归分析_第1页
第7讲 包含虚拟变量的回归分析_第2页
第7讲 包含虚拟变量的回归分析_第3页
第7讲 包含虚拟变量的回归分析_第4页
第7讲 包含虚拟变量的回归分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七讲 包含虚拟变量的回归分析Regression Analysis with Dummy Variables 一、什么是虚拟变量?二、自变量中包含虚拟变量三、因变量为虚拟变量一、什么是虚拟变量?什么是虚拟变量?变量的分类n 定类 /类别变量( nominal/categorical variable)n 定序 /有序变量( ordinal variable)n 定距 /定量变量( interval variable)o 问题:如何在计量分析中使用定类变量和定序变量什么是虚拟变量?o 对于只有两种取值的定类变量,可以用 0和 1表示这两种取值。这样的变量称为 虚拟变量( dummy variable) 或 二分变量( binary variable) 。其中,赋值为 0的一组称为 对照组(reference group) 或 基准组( benchmark group)o 注意:变量名的选择什么是虚拟变量?o 对于有多个取值的定类变量,可构造多个虚拟变量来表示o 用 east、 central、 west三个虚拟变量表示不同地区o 用 sx、 jy、 qt三个虚拟变量表示本科生毕业后的状态什么是虚拟变量?o 对于定序变量和定距变量,也可以用虚拟变量表示o 学习成绩(定序变量)o 年收入(定距变量,但通过划分收入区间将之转换为虚拟变量)1. 自变量中包含一个虚拟变量2. 自变量中包含多个虚拟变量3. 交互项二、自变量中包含虚拟变量自变量中包含一个虚拟变量自变量仅为一个虚拟变量o 如果自变量仅为一个虚拟变量,实际上是以自变量为分类依据,分析因变量的均值差异自变量中包含一个虚拟变量例题 7_1:工资差异自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量o 此时,虚拟变量的回归系数表示在控制其它自变量的情况下,两组之间的差异o 例题 7_2:课本 p217,例 7.2自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量o 虚拟变量可用于政策分析,虚拟变量取值为 0的一组称为 控制组或对照组( control group) ,取值为 1的一组称为 实验组(experimental group) 或 处理组( treatment group)o 例题 7_3:课本 p218,例 7.3自变量中包含多个虚拟变量o 自变量中包含多个虚拟变量可分为三种情况o 每个虚拟变量代表不同的分类o 若干个虚拟变量代表同一种分类,且这种分类是定类的o 若干个虚拟变量代表同一种分类,且这种分类是定序的自变量中包含多个虚拟变量每个虚拟变量代表不同的分类例题 7_4:性别和婚姻状况对工资的影响(课本 p220,例 7.6)o 引入性别和婚姻状况两个虚拟变量o 上述结果表明,性别对工资有显著影响,但婚姻状况没有显著影响。这一模型可能存在问题,即假定婚姻状况的影响对于男性和女性是相同的。进一步的分析应考虑婚姻状况的影响存在性别差异。自变量中包含多个虚拟变量每个虚拟变量代表不同的分类例题 7_4:性别和婚姻状况对工资的影响(课本 p220,例 7.6)o 虚拟变量的定义o 如果有 n种分类,则回归时只能引入 n-1个虚拟变量,否则会造成完全共线性。未引入的即为对照组。下面是以单身男性为对照组的回归结果:lwage Coef. Std. Err. t Pt 95% Conf. Intervalmm 0.2127 0.0554 3.8400 0.0000 0.1039 0.3214 sf -0.1104 0.0557 -1.9800 0.0480 -0.2199 -0.0008 mf -0.1983 0.0578 -3.4300 0.0010 -0.3119 -0.0846 自变量中包含多个虚拟变量每个虚拟变量代表不同的分类例题 7_4:性别和婚姻状况对工资的影响(课本 p220,例 7.6)o 不同性别和婚姻状况个体的样本回归方程自变量中包含多个虚拟变量每个虚拟变量代表不同的分类例题 7_4:性别和婚姻状况对工资的影响(课本 p220,例 7.6)o 根据研究关注问题的不同,可以选择不同的对照组。 下面是以已婚女性为对照组的回归结果:lwage Coef. Std. Err. t Pt 95% Conf. Intervalsm 0.1983 0.0578 3.4300 0.0010 0.0846 0.3119 mm 0.4109 0.0458 8.9800 0.0000 0.3210 0.5009 sf 0.0879 0.0523 1.6800 0.0940 -0.0149 0.1908 自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的例题 7_5:工资的地区差异o northcen=1表示中北部地区o west=1表示西部地区o south=1表示南部地区o other_region=1表示其他地区o 同样地,如果有 n种分类,回归时只能引入 n-1个虚拟变量!自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的例题 7_5:工资的地区差异 以其他地区为对照组lwage Coef. Std. Err. t Ptnorthcen -0.0783 0.0563 -1.39 0.1650 south -0.1048 0.0527 -1.99 0.0470 west 0.0218 0.0624 0.35 0.7270 educ 0.0890 0.0075 11.86 0.0000 exper 0.0418 0.0052 8.00 0.0000 expersq -0.0007 0.0001 -6.25 0.0000 _cons 0.1918 0.1125 1.70 0.0890 自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的例题 7_5:工资的地区差异 以南部为对照组lwage Coef. Std. Err. t Ptnorthcen 0.0265 0.0512 0.52 0.6040 west 0.1266 0.0574 2.21 0.0280 other_region 0.1048 0.0527 1.99 0.0470 educ 0.0890 0.0075 11.86 0.0000 exper 0.0418 0.0052 8.00 0.0000 expersq -0.0007 0.0001 -6.25 0.0000 _cons 0.0870 0.1072 0.81 0.4170 自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的例题 7_6:法学院排名对起薪的影响(课本 p224,例 7.8)o 共引入 6个虚拟变量表示法学院排名排名前 10 top10=1排名 11-25 r11_25=1排名 26-40 r26_40=1排名 41-60 r41_60=1排名 61-100 r61_100=1排名 100以后 bottom=1自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的例题 7_6:如果有 n种排序,回归时引入的虚拟变量数目应少于 n,下面是以排名在 100名以后的为对照组的回归结果lsalary Coef. Std. Err. t Pttop10 0.6996 0.0535 13.08 0.0000 r11_25 0.5935 0.0394 15.05 0.0000 r26_40 0.3751 0.0341 11.01 0.0000 r41_60 0.2628 0.0280 9.40 0.0000 r61_100 0.1316 0.0210 6.25 0.0000 LSAT 0.0057 0.0031 1.86 0.0660 GPA 0.0137 0.0742 0.19 0.8540 llibvol 0.0364 0.0260 1.40 0.1650 lcost 0.0008 0.0251 0.03 0.9730 _cons 9.1653 0.4114 22.28 0.0000 自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的例题 7_6:以排名在 26-60名的为对照组o 另外,参看课本 p223,例 7.7lsalary Coef. Std. Err. t Pttop10 0.3733 0.0437 8.55 0.0000 r11_25 0.2766 0.0323 8.56 0.0000 r61_100 -0.1732 0.0240 -7.22 0.0000 bottom -0.2994 0.0269 -11.14 0.0000 LSAT 0.0049 0.0032 1.53 0.1290 GPA 0.0596 0.0759 0.78 0.4340 llibvol 0.0436 0.0270 1.62 0.1090 lcost 0.0103 0.0260 0.39 0.6940 _cons 9.3214 0.4402 21.18 0.0000 交互项含有虚拟变量之间的交互项( interaction term)例题 7_7:性别和婚姻状况对工资的影响female married female_married单 身男性 0 0 0已婚男性 0 1 0单 身女性 1 0 0已婚女性 1 1 1交互项含有虚拟变量之间的交互项例题 7_7:性别和婚姻状况对工资的影响o 以单身男性为对照组交互项含有虚拟变量之间的交互项例题 7_7:不同性别和婚姻状况个体的回归方程o 另外,参看课本 p226,例 7.9交互项含有虚拟变量与定距变量的交互项o 考虑模型:o 上述模型假定男性和女性工资方程的截距不同,但受教育年限的斜率系数对于男性和女性都是相同的femalelwageeducmale交互项含有虚拟变量与定距变量的交互项o 考虑模型:o 上述模型假定男性和女性工资方程的截距不同,而且受教育年限的斜率系数对于男性和女性也不同。femalelwageeducmale交互项含有虚拟变量与定距变量的交互项例题 7_8:教育收

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论