8第八章虚拟变量回归new_第1页
8第八章虚拟变量回归new_第2页
8第八章虚拟变量回归new_第3页
8第八章虚拟变量回归new_第4页
8第八章虚拟变量回归new_第5页
已阅读5页,还剩37页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章虚拟变量回归计量经济学1在对在校学生的消费行为进行的调查中在对在校学生的消费行为进行的调查中, ,发现在校发现在校生的消费行为呈现多元化的结构。人际交往消费、生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。消费、学习用品类消费不突显。显然显然, ,男女生在消费上存在差异。为了了解男、女男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?生的消费支出结构差异,应当如何建立模型

2、?面临的问题:面临的问题:如何把男女生这样的非数量变量引如何把男女生这样的非数量变量引入方程?入方程? 引子引子: :男女大学生消费真有差异吗男女大学生消费真有差异吗? ? 2 问题的一般性描述问题的一般性描述在实际建模中,一些定性变量具有不可忽视的重要在实际建模中,一些定性变量具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业属性影响。例如,研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者的素质、不同地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,

3、但这些的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。因素共同的特征是定性描述的。如何对非定量因素进行回归分析?如何对非定量因素进行回归分析?采用采用“虚拟变量虚拟变量”对定性变量进行量化一种思路。对定性变量进行量化一种思路。3第八章第八章 虚拟变量回归虚拟变量回归 本章主要讨论本章主要讨论: : 虚拟变量及其作用虚拟变量及其作用 虚拟变量设定虚拟变量设定 虚拟解释变量的回归虚拟解释变量的回归 虚拟被解释变量的回归虚拟被解释变量的回归( (选讲选讲, ,不包括不包括) )4一、定义一、定义 反映品质指标变化、数值只取0和1的人工变量,用符号D来表示。 如:01D城镇居民

4、农村居民01D销售旺季销售淡季01D政策紧缩政策宽松01D本科以上学历本科以下学历变量的划分应遵循穷举与互斥原则。第一节第一节 虚拟变量及其作用虚拟变量及其作用5二、作用二、作用可以描述和测量定性因素的影响。 能够正确反映经济变量之间的相互关系,提高模型的精度。便于处理异常数据。 即将异常数据作为一个特殊的定性因素 01D异常时期正常时期6一、虚拟变量的引入方式一、虚拟变量的引入方式 (1)加法方式 Yi=a+bxi+Di+i 等价为:当Di =0时:Yi=a+bxi+i 当Di =1时:Yi=(a+)+bxi+iD=0D=1aa+a+以加法方式引入,反映定性因素对截距的影响 第二节第二节 虚

5、拟变量的设定虚拟变量的设定(2)乘法方式 Yi=a+bxi+XDi+i其中:XDi=Xi*Di,上式等价于:当Di =0时:Yi=a+bxi+i 当Di =1时:Yi=a+(b+)xi+iD=0D=1a 以乘法方式引入,可反映定性因素对斜率的影响,系数描述了定性因素的影响程度。8(3)一般方式 同时用加法与乘法方式引入虚拟变量,然后再利用t检验判断 、是否显著的不等于零,进而确定虚拟变量的具体引入方式。 【例例】现有现有19981998年我国城镇居民人均收入与彩年我国城镇居民人均收入与彩电每百户拥有量的统计资料。电每百户拥有量的统计资料。 9观察相关图 从相关图可以看出,前3个样本点与后5个样

6、本点存在较大差异,因此,可设置虚拟变量反映“收入层次”:01D中高收入家庭低收入家庭10将我国城镇居民的彩电需求函数设成: Yi=a+bxi+Di+XDi+i DATA D1(由于D是EViews软件的保留字,所以将虚拟变量取名为D1;另外,此时也可以用SMPL和GENR命令直接生成D1变量)GENRXD=X*D1 生成变量XDLS D1 XD 估计需求函数 结果如下图所示:11我国城镇居民彩电需求函数的估计结果为: iiiiXDDxy0088. 08731.310119. 061.57对应的对应的t统统计量值计量值R2的的值值调整的调整的R2值值SE的的值值 结果表明不同收入家庭对彩电的消费

7、需求,在截距和斜率上都存在着明显差异。12低收入家庭: iixy0119. 061.57此例说明了三个问题:如何设置和在模型中引入虚拟变量;如何测量定性因素(即收入层次)的影响;如何区分不同类型的模型(即需求函数)。 中高收入家庭: iixy)0088. 00119. 0()8731.3161.57(ix003. 048.8913二、虚拟变量的设置原则二、虚拟变量的设置原则 一个因素多个类型 对于有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。 例如例如,设公司职员的年薪与工龄和学历有关。学历分成三种:大专以下、本科、研究生。为反映“学历” 的影响,应该设置两个虚拟变量:

8、 011D本科本科其他其他012D研究生研究生其他其他 Yi=a+bxi+i 大专以下(D1=D2=0) Yi=(a+1)+ bxi+i 本科(D1=1,D2=0) Yi=(a+2)+ bxi+i 研究生(D1=0,D2=1)而将年薪模型取成(假设以加法方式引入): Yi=a+bxi+1D1i+2D2i +i 其等价于:三类年薪函数的差异情况如下图所示:大专以下大专以下本科本科研究生研究生工龄工龄年薪年薪2 -1 1 D本科及以下硕士研究生博士研究生 01 2设置虚拟变量D或增设D3行吗?012D研究生其他(2)多个因素各两种类型 如果有m个定性因素,且每个因素各有两个不同的属性类型,则引入

9、m 个虚拟变量。 例如例如,研究居民住房消费函数时,考虑到城乡的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+1D1i+2D2i +i 其中y ,x分别是居民住房消费支出和可支配收入,虚拟变量设为: 这样可以反映各类居民家庭的住房消费情况: 011D农村居民农村居民城镇居民城镇居民012D高收入家庭高收入家庭低收入家庭低收入家庭 城市低收入家庭 (D1=0,D2=0) 城市高收入家庭 (D1=0,D2=1) 农村低收入家庭 (D1=1,D2=0) 农村高收入家庭 (D1=1,D2=1) 思考:若是多因素、多个属性水平的问题,如何设置?一、调整季节波动一、调整季节波动 例如例如

10、,用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型): 利润函数可取为 : Yi=a+bxi+ 1D1i+ 2D2i + 3D3i + i01iD第i+1季度 i=1,2,3其他季度第三节第三节 虚拟变量的特殊应用虚拟变量的特殊应用二、检验模型结构的稳定性二、检验模型结构的稳定性 设根据两个样本估计的回归模型分别为: 样本1: Yi=a1+b1xi +i 样本2: Yi=a2+b2xi +i 估计模型:Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+i其中,XDi=xi*Di。 01D样本样本2 2样本样

11、本1 1 设置虚拟变量: 20 利用利用t检验判断检验判断D、XD系数的显著性,得到四种系数的显著性,得到四种检验结果:检验结果: (1)a2=a1,b2=b1,两个回归模型没有显著差异。(2)a2a1,b2=b1,两个回归模型之间的差异仅仅表现在截距上。(3)a2=a1,b2b1,两个回归模型的截距相同,但斜率存在显著差异。(4)a2a1,b2b1,表明两个回归模型完全不同。第(第(1)种情况下模型结构是稳定的,)种情况下模型结构是稳定的,其余情况都表明模型结构不稳定。其余情况都表明模型结构不稳定。 重合回归重合回归平行回归平行回归汇合回归汇合回归相异回归相异回归21三、分段回归三、分段回归

12、 设虚拟变量为: 分段回归模型设置成: Yi= a+bxi+(xi-x*)Di+i 其中,x*是已知的临界水平(分段点)。 这样各段的函数为: Yi= a +bxi+i xx*01D xx* xx*使用虚拟变量能如实描述不同阶段的经济关系,又未减少估计模型时样本容量,保证了估计精度。 22四、混合回归四、混合回归 【例例】现有我国城镇居民1998年、1999年全年人均消费支出和可支配收入的统计资料。试使用混合样本数据估计我国城镇居民消费函数。 设1998年、1999年我国城镇居民消费函数分别为: 1998年:Yi=a1+b1xi +i 1999年:Yi=a2+b2xi +i 能否将变量的时序数

13、据和横截面数据混合建模为比较两年的消费函数是否有显著差异,设置虚拟变量: 并且合并两年的数据,估计以下模型: Yi= a1 +b1xi+Di+XDi +i其中=a2-a1 ,=b2-b1。01D1999年1998年24使用EViews软件的估计过程如下: CREATE U 16 建立工作文件 DATA Y X(输入1998、1999年消费支出和收入的数据,18期为1998年资料,916期为1999年资料) SMPL 1 8 样本期调为1998年 GENR D10 输入虚拟变量的值SMPL 9 16 样本期调为1999年GENR D11 输入虚拟变量的值25SMPL 1 16 样本期调至1998

14、1999年GENR XDX*D1 生成XD的值LS Y C X D1 XD 利用混合样本估计模型t统计量统计量R2的值的值调整的调整的R2值值估计结果为: 操作演示26第第四四节节 案例分析案例分析为了考察改革开放以来中国居民的储蓄存款与收为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄(蓄存款年底余额代表居民储蓄( ),以国民总),以国民总收入收入GNI代表城乡居民收入,分析居民收入对储代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系,并建立相应的计量经济蓄存款影响的数量关系,并建立

15、相应的计量经济学模型学模型 。 Y27表表8.1 8.1 国民总收入与居民储蓄存款国民总收入与居民储蓄存款 单位:亿元单位:亿元 年年 份份国民总收国民总收入入 (GNI)城乡居民城乡居民人民币储人民币储蓄存款年蓄存款年底余额底余额( )城乡居民城乡居民人民币储人民币储蓄存款增蓄存款增加额(加额( )年年 份份国民总收国民总收入入 (GNI)城乡居民人城乡居民人民币储蓄存民币储蓄存款年底余额款年底余额 ( )城 乡 居 民城 乡 居 民人 民 币 储人 民 币 储蓄 存 款 增蓄 存 款 增额额( )19783624.1210.6NA199121662.5 9241.62121.8197940

16、38.228170.4199226651.911759.42517.819804517.8399.5118.5199334560.515203.53444.119814860.3532.7124.219944667021518.86315.319825301.8675.4151.7199557494.929662.38143.519835957.4892.5217.1199666850.538520.88858.5数据来源:数据来源:中国统计年鉴中国统计年鉴2004,中国统计出版社。表中,中国统计出版社。表中“城乡居民人民币城乡居民人民币储蓄存款年增加额储蓄存款年增加额”为年鉴数值,与用年底余

17、额计算的数值有差异。为年鉴数值,与用年底余额计算的数值有差异。YYYYYY28表表8.1 国民总收入与居民储蓄存款国民总收入与居民储蓄存款 (续)(续) 单位:亿元单位:亿元年年 份份国民总收国民总收入入 (GNI)城乡居城乡居民人民民人民币储蓄币储蓄存款年存款年底余额底余额( )城乡居城乡居民人民民人民币储蓄币储蓄存款增存款增加额加额( )年年 份份国民总收入国民总收入 (GNI)城乡居民人城乡居民人民币储蓄存民币储蓄存款年底余额款年底余额 ( )城乡居民人城乡居民人民币储蓄存民币储蓄存款增加额款增加额( )19847206.71214.7322.2199773142.746279.8775

18、919858989.11622.6407.9199876967.253407.57615.4198610201.42237.6615199980579.459621.86253198711954.53073.3835.720008825464332.44976.7198814922.33801.5728.2200195727.973762.49457.6198916917.85146.91374.22002103935.386910.613233.2199018598.47119.81923.42003116603.2103617.716631.9YYYYYY29 为了研究为了研究197820

19、03年期间城乡居民储蓄存款随收入的年期间城乡居民储蓄存款随收入的变化规律是否有变化变化规律是否有变化, ,考证城乡居民储蓄存款、国民总收考证城乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示:入随时间的变化情况,如下图所示:30 从上图中,尚无法得到居民的储蓄行为发生明显改变从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量(的详尽信息。若取居民储蓄的增量( ),并作时序),并作时序图(见左下图)图(见左下图): : YY31 从居民储蓄增量图从居民储蓄增量图(上页左图上页左图)可以看出,城乡居可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在民的储蓄行为表

20、现出了明显的阶段特征:在1996年和年和2000年有两个明显的转折点。再从城年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散乡居民储蓄存款增量与国民总收入之间关系的散布图看(见上页右图),也呈现出了相同的阶段布图看(见上页右图),也呈现出了相同的阶段性特征。性特征。 32 为了分析居民储蓄行为在为了分析居民储蓄行为在19961996年前后和年前后和20002000年前后三个阶段年前后三个阶段的数量关系,引入虚拟变量的数量关系,引入虚拟变量 和和 。 和和 的选择,是以的选择,是以19961996、20002000年两个转折点作为依据,年两个转折点作为依据,并设定了如下以加

21、法和乘法两种方式同时引入虚拟变量的的并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型:模型: 其中:其中:123142YYGNIGNI66850.50GNI88254.00ttttttt D Du11199601996ttDt年以后 年及以前21200002000ttDt年以后 年及以前D1D2D1D233 对上式进行回归后,有:对上式进行回归后,有:34即有:即有:由于各个系数的由于各个系数的t检验均大于检验均大于2,表明各解释变量的,表明各解释变量的系数显著地不等于系数显著地不等于0,居民人民币储蓄存款年增加,居民人民币储蓄存款年增加额的回归模型分别为:额的回归模型分别为:1YY

22、-830.4045 0.1445GNI - 0.2914 GNI -66850.50 se172.1626 0.0057 0.0272 -4.8234 25.1700 -10.7192 tttt Dt2 0.5602 GNI -88254.00se 0.0401 13.9581ttDt35123YY -830.4045 0.1445GNI1996YYYY 18649.8312- 0.1469GNI19962000YY - 30790.0596 0.4133GNI2000tttttttttt t t t 这表明三个时期居民储蓄增加额的回归方程在统计这表明三个时期居民储蓄增加额的回归方程在统计意义

23、上确实是不相同的。意义上确实是不相同的。1996年以前收入每增加年以前收入每增加1亿元,居民储蓄存款的平均增加亿元,居民储蓄存款的平均增加0.1445亿元;在亿元;在2000年以后,则为年以后,则为0.4133亿元,已发生了很大变化。亿元,已发生了很大变化。36上述模型与城乡居民储蓄存款与国民总收入之间上述模型与城乡居民储蓄存款与国民总收入之间的散布图是吻合的,与当时中国的实际经济运行的散布图是吻合的,与当时中国的实际经济运行状况也是相符的。状况也是相符的。需要指出的是,在上述建模过程中,主要是从教需要指出的是,在上述建模过程中,主要是从教学的目的出发运用虚拟变量法则,没有考虑通货学的目的出发运用虚拟变量法则,没有考虑通货膨胀因素。而在实证分析中,储蓄函数还应当考膨胀因素。而在实证分析中,储蓄函数还应当考虑通货膨胀因素。虑通货膨胀因素。 371.1.虚拟变量是人工构造的取值为虚拟变量是人工构造的取值为0和和1的作为属性的作为属性变量代表的变量。变量代表的变量。2.2.虚拟变量个数的设置有一定规则:在有截距项虚拟变量个数的设置有一定规则:在有截距项的模型中,若定性因素有的模型中,若定性因素有 个相互排斥的类型,个相互排斥的类型,只能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论