虚拟解释变量回归

上传人：追*** IP属地：河北上传时间：2022-01-09 格式：DOCX 页数：31 大小：272.97KB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第八章虚拟变量回归引子男女大学生的消费真的有差异吗？在校大学生的消费行为越来越受到社会的关注，学生家长也很关心自己的子女上大学究竟要准备多少花费。由共青团中央、全国学联共同发布的2004中国大学生消费与生活形态研究报告显示，当代大学生在消费结构方面呈现出多元化趋势。大学生除了日常生活费开支以外，还有人际交往消费、网络通讯消费、书报消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费、食品类消费、学习用品类消费、各种考证类等消费。大学生时尚化、个性化消费增多已成为趋势与潮流。不同性别大学生的消费结构有所不同，专科生、本科生、研究生的消费结构更有差异。有的记者调查发现，不同年级之间，男女同学之间

2、，消费水平、消费结构、消费方式上都存在着差异。年级越高，消费水平也随之增长，随着阅历的增加，对自己形象的重视，精神享受的追求、学习的投入、配备手机电脑的需求也随之增长。同年级的男生的消费高于女生，虽然女生在化妆品、衣服饰品方面的投入明显高于男生。然而时代在变，对美的追求已不再限于女生，男生对于个人形象、装扮也已慢慢重视起来。此外男生在人际交往方面比女生投入了更多的"本钱"。请客吃饭、朋友聚会、节日送礼已不再罕见。所谓的"人情消费”已从社会向校园中扩张蔓延，而在乎"面子”的男同胞已成为追随这一潮流的"先驱"。高年级女生对于吃饭的投入相对

3、较少，而在化妆品、服饰、零食方面的投入却增长不少。（注：来源于Solie教育网、网易教育频道、新华网等）为了研究男女大学生、不同层次大学生、不同年级大学生的消费结构是否有差异，需:将这些定性的因素引入计量模型，怎样才能在模型中有效地表示这些定性因素的作用呢？第一节虚拟变量一、虚拟变量的基本概念在前面的分析中，被解释变量主要受到一些可以直接度量的变量影响，如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中，影响被解释变量变动的因素，除了这些可以直接获得实际观测数据的定量变量外，还包括一些本质上为定性因素（或称属性因素）的影响，例如性别、种族、肤色、职业、季节、文化程度、战争、自

4、然灾害、政府经济政策的变动等因素。在实际经济分析中，这些定性变量有时具有不可忽视的重要影响。例如，研究某个企业的销售水平，产业部门（制造业、零售业）、所有制（私营、非私营）、地理位置（东、中、西部）、管理者素质的高低等是值得经常考虑的影响因素，这些因素有共同的特征，即都是表示某种属性的，不能直接用数据精确描述的因素。因此，被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中，应当同时包含定量和属性两种因素对被解释变量的影响作用。定量因素是指那些可直接测度的数值型因素，如GDP、M2等。定性因素，或称为属性因素，是不能直接测度的、说明某种属性或状态存在与否的非数值型因素，如男

5、性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。为了在模型中反映定性因素，可以将定性因素转化为虚拟变量去表现。虚拟变量（或称为属性变量、双值变量、类型变量、定性变量、二元型变量等），是人工构造的取值为0和1的作为属性变量代表的变量，一般用字母D（或DUM,英文dummy的缩写）表示。属性因素通常具有若干类型或水平，通常虚拟变量的取值为0和1，当虚拟变量取值为0，即D=0时，表示某种属性或状态不出现或不存在，即不是某种类型；当虚拟变量取值为1，即D=1时，表示某种属性或状态出现或存在，即是某种类型。例如，

6、构造政府经济政策人工变量，当经济政策不变时，虚拟变量取值为0，当经济政策改变时，虚拟变量取值为1。这种做法实际上是一种变换或映射，将不能精确计量的定性因素的水平或状态变换为用0和1来定量描述。二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量，可以使我们同时兼顾定量因素和定性因素的影响和作用。但是，在设置虚拟变量时应遵循一定的规则。1、虚拟变量数量的设置规则虚拟变量个数的设置规则是：若定性因素有m个相互排斥的类型（或属性、水平），在有截距项的模型中只能引入m1个虚拟变量，否则会陷入所谓“虚拟变量陷阱”，产生完全的多重共线性。在无截距项的模型中，定性因素有m个相互排斥的类型时，引入m个虚拟变量

7、不会导致完全多重共线性，不过这时虚拟变量参数的估计结果，实际上是D=1时的样本均值。例如，城镇居民和农村居民住房消费支出的模型可设定为：Ci =1 1 Y = 2DiUi(8.1)其中，G为居民的住房消费支出，YiDi =?城镇居民，即当Di =1时为城镇居民；i 0其他镇居民和农村居民的定性变量的类型有m=21=1个虚拟变量。但是，如果引入了 m=2个虚假变量：D2.则有：Ci - ? 1 ' _ Yi2 D2i寸居民的可支配收入，Di为虚拟变量，当Di =0时为其他(农村居民)。这里区分城个，按虚拟变量的设置规则应引入m1=2 1城镇居民1农村居民='o其他，D3i =

8、：0其他，上叩31 +5(8.2)这时，当D2i=1时同时有D3i=0;反之，当D2i=0时有D3i=1。即对于任何被调查的居民家庭都有D2i+D3i=1,D2和D3存在完全的共线性，无法利用OLS估计其参数，从而陷入“虚拟变量陷阱”。由此，所谓的虚拟变量陷阱”的实质是出现完全多重共线性。可见，虚拟变量有其积极作用的一面，也有不良影响的一面，引入的虚拟变量适当，则发挥了积极的作用，引入的虚拟变量过度，则会带来负面的影响。2、虚拟变量的0”和1”的选取原则虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。从理论上讲，虚拟变量取“0”值通常代表为比较的基础类型；而虚拟变量取“1”值

9、通常代表为被比较的类型。例如，引入政府经济政策的变动对被解释变量的影响时，由于此时的比较是在政府经济政策不变的基础上进行的，故虚拟变量确定为：j基础类型：政府经济政策变动Dtt0比较类型：政府经济政策不变三、虚拟变量的作用在计量经济模型中，虚拟变量可以发挥多方面的作用：(1)可以作为属性因素的代表，如性别、所有制等；(2)作为某些非精确计量的数量因素的代表，如受教育程度、管理者素质等；(3)作为某些偶然因素或政策因素的代表，如战争、灾害、改革前后等；(4)还可以作为时间序列分析中季节(月份)的代表；（5）可以实现分段回归，研究斜率、截距的变动，或比较两个回归模型的结构差异。在计量经济学中，把包

10、含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型：（1）解释变量中只包含虚拟变量，作用是在假定其他因素都不变时，只研究定性变量是否使被解释变量表现出显著差异；（2）解释变量中既含定量变量，又含虚拟变量，研究定量变量和虚拟变量同时对被解释变量的影响；（3）被解释变量本身为虚拟变量的模型，是被解释变量本身取值为。或1的模型，适于对某社会经济现象进行是“与否”的判断研究。特别要注意的是，定型或属性变量，通常由1个以上的虚拟变量描述。例如，分析考证区域这样一个定性因素的影响时，若将区域因素划分为东、中、西三种属性时，在有截距项的回归模型中，只能引人2个虚拟变量，而这两个虚拟变量只是描述

11、了1个定性因素（区域因素），而不是2个定性因素。当然，当定性因素为性别因素时，1个虚拟变量就描述了1个定性因素。第二节虚拟解释变量的回归在计量经济模型中，加入虚拟解释变量的途径有两种基本类型：一是加法类型；二是乘法类型。不同的途径引入虚拟变量有不同的作用，加法方式引入虚拟变量改变的是截距；乘法方式引入虚拟变量改变的是斜率。一、用虚拟变量表示不同截矩的回归一一加法类型以加法类型引入虚拟解释变量的模型，如（8.3）式那样，Yt=1：2Xt二3Dut（8.3）在（8.3）所设定的计量经济模型中，虚拟解释变量与其他解释变量是相加关系。以加法形式引入虚拟解释变量，从计量经济模型的意义看，其作用是改变了设

12、定模型的截距水平。以加法方式引入虚拟变量时，分为四种情形：（1）解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量；（2）解释变量包含一个定量变量和一个分为两种类型的定性变量；（3）解释变量包含一个定量变量和一个两种以上类型的定性变量；（4）解释变量包含一个定量变量和两个定性变量。1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归这种情况的模型又被称为方差分析模型，例如（8.4）式丫=0（+PDj+Ui（8.4）其中，Y为居民的年可支配收入，Di为虚拟解释变量，Di=1代表城镇居民；Di=0代表非城镇居民。（8.4）式的意义是，假设其他因素（包括文化程度、职业、性别等

13、）保持不变的条件下，研究城镇居民和非城镇居民的收入是否存在差别。当5满足古典假设时，由式（8.4）有：非城镇居民的年平均收入：E（Y|Dj=0）=:（8.5）城镇居民的年平均收入：E（Yi|Di=1）=a+P（8.6）即在（8.4）式中，截距项a给出了非城镇居民的年平均可支配收入水平，而另一系数P则表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。由式（8.5）和（8.6）可知，虚拟解释变量的作用是改变设定模型的截距水平。为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别，可构造假设H0:0=0,即城镇与非城镇居民年均可支配收入无差别。对式（8.4）回归，依据P估计彳

14、1的t检验是否显著，可作出接受或不能接受Ho假设的判断。2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归例如Y=%+PXj+叶（8.7）其中：Y:消费支出；X :收入;1年居民i 0农村居民模型（8.7）的意义在于描述收入和城乡差别对居民消费支出的影响。（8.7）式由一个定量解释变量X和一个分为两种类型的虚拟解释变量组成。注意这里一个定性变量具有两种类型，只使用了一个虚拟变量。当（8.7）式中的5服从古典假定时，有：基础类型：农村居民消费支出：E（Y|Xi,Di=0）=%+BXj（8.8）比较类型：城镇居民消费支出：E（Y|Xi,Di=1）=（%十口为十0Xi（8.9）其中%为差异

15、截距系数。（8.7）式可图示为8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相同（均为P）,而截距水平不同。这说明，城镇居民和非城镇居民在消费支出水平上，存在着规模为四的差异，而由收入因素而产生的平均消费支出水平变化却是相同的。a2图8.1城镇农村居民消费支出水平的差异在H°：%=0的假设下，对参数叫估计彳t的t检验，可以进行消费支出是否存在城乡差异的检验。3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归考虑以下模型:Y 二二11 2D2i H ；Xi Ui(8.10)其中：Y为年医疗保健费用支出，Xi为居民的年可支配收入,1高中及高中教育以上d220其他1大专

16、及大专以上，d3 =3 Q其他显然，模型（8.9）是描述居民的年医疗保健费用支出与居民可支配收入（定量变量）和受教育程度（定性变量）间的因果关系。这里，定性因素（受教育的程度）划分为三种类型；高中以下、高中、大专及大专以上。注意这里的定性变量有3种类型，依据虚拟变量设置规则引入了m-1=31=2个虚拟变量，而且一个定性变量多种类型时，虚拟变量可同时取值为0,但不能同时取值为1,因为同一定性变量的各种类型间非此即彼”。当式（8.10）服从古典假定时，有：基础类型：高中以下教育：E（Y|Xi,D2=0,D3=0）=o（1+欣1（8.11）比较类型：高中教育：E（Yi|Xi,D2=1,D3=0）=依

17、1+ot2）+PXi（8.12）大专及大专以上：E（Y|Xi,D2=0,D3=1）=（%+u3）+Pxi（8.13）这表明，三种不同教育程度居民的医疗保健费用年均支出的起点水平（截距）不同，差异截距系数为口2和0f3。对式（8.1。）进行回归，检验H0:豆2=0和H0:%=0的t检验可以发现与比较基准组（高中以下教育水平）相比，另两种类型截距的差异在统计上是否存在显著差异。关于=0的联合假设检验，也可由方差分析或F检验完成。4、解释变量包含一个定量变量和两个定性变量的回归以加法形式引入虚拟解释变量的作法，很容易扩展到处理一个以上定性变量的情形。例如依据某地区家庭调查资料所建立的卷烟需求模型：Q

18、i=%+%D2i+%D3i+口丫+Ui（8.14）其中，Qi为卷烟需求量，Y为居民可支配收入，Dz和D3i是虚拟解释变量，门城镇居民1男性D,=,Da-=J2i0其他3i0女性一般认为，城镇居民的卷烟消费量高于非城镇居民，同时男性居民的吸烟量大于女性居民。为了分析城乡差别和性别差别对卷烟需求的影响，模型（8.14）以加法形式引入了两个虚拟解释变量。注意，这里有两个定性变量选用了两个虚拟变量去表示，这并不会出现虚拟变量陷阱”，对比前面一个定性变量有三种类型时也用了两个虚拟变量，二者性质是不同的。而且注意这里的D2i和D3i是代表不同定性变量的虚拟变量，可以同时为0,也可同时2i3i为1,因为不同

19、定性变量间并没有非此即彼”的关系。当式（8.14）满足古典假设时，有:基础类型：农村女性居民：E(Qi|Yi,D2=0,D3=0)=>Yi(8.15)比较类型：农村男性居民：E(Qi|Yi,D2=0,D3=1)=(：i：3)-Yi(8.16)城镇女性居民：E(Qi|Y,D2=1,D3=0)=(二2)Yi(8.17)城镇男性居民：E(Qi|Yi,D2=1,D3=1)=(二2二y).一：丫(8.18)显然，模型(8.14)是以农村女性居民为基础类型，并假设各种类型居民的卷烟需求函数只是有不同的截距，相对于收入的斜率系数P相同。用t检验分另1J检验区和吗的统计显著性，可验证两个定性变量对截距是

20、否有显著影响。上述讨论的结果，可以推广到解释变量有多个定量变量和多个定性变量的情形。在推广过程中需要注意引入虚拟变量的个数应遵从前述的设置规则。例如，在考虑季节因素对冷饮销售量影响时，有春、夏、秋、冬四个类型的季节，依据设置规则，可引入m1=41=3个虚拟解释变量。二、用虚拟变量表示不同斜率的回归一一乘法类型以乘法形式引入虚拟解释变量，是在所设定的计量经济模型中，将虚拟解释变量与其他解释变量相乘作为解释变量，以表示模型中斜率系数的差异。以乘法形式引入虚拟解释变量的主要作用在于：关于两个回归模型的比较；因素间的交互影响分析；提高模型对现实经济现象的描述精度。1、回归模型的比较一一结构变化检验以加

21、法方式引入虚拟解释变量，属性因素仅影响不同类型模型的平均水平，而不会影响不同类型模型的相对变化。但是在现实经济生活中，属性因素也可能影响模型的斜率系数发生变化。例如，随着可支配收入水平的提高，城乡居民的消费结构将出现较大的差异，这种差异会表现在定性因素对斜率的影响上。又如，研究我国改革开放前后储蓄一一收入总量间关系是否发生了变化时，也存在着经济结构变化而导致模型斜率发生变化的问题。这类问题可归结于两个回归模型的比较。例如，在研究改革开放前后储蓄一一收入总量关系时，所设定的模型为：改革开放前：Y=%+%Xt+u1tt=1950,1951,，1977(8.19)改革开放后：Y=%+72Xt+u2t

22、t=1978,1979,2004(8.20)其中：丫为储蓄总额(亿元)，X为收入总额(亿元)，u1t、u2t为随机扰动项。如果我们分别对式(8.19)和式(8.20)在不同的时间区间内回归，则可能得到以下四种结果：(1)%S=%,表明这两个回归模型是相同的，或称为重合回归；(2)兀=71,%=12,表明这两个回归模型仅在位置水平上(即截距水平上)存在差异，或称为平行回归；(3)兀=工，.2丰%,表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等，或称为共点回归；(4)&H-2=七,表明这两个回归模型完全不相同，或称为不同的回归。以上四种情形可用图示法描述(见图8.2):收

23、入收入(a)重合回归(b)平行回归i = 1收入收入(c)共点回归(d)不同的回归图8.2储蓄一收入回归模型现在的问题是，当我们运用样本数据对式(8.14)和式(8.15)进行回归后，如何界定所得结果在统计意义上属于哪一种类型呢？这时可采用以乘法形式引入虚拟变量的方法。例如，对于改革开放前后储蓄一一收入模型，可设定为：Yt=«i十%Dt+PiXt十02(DtXt)+ut(8.21)其中，丫为储蓄；X为收入；D为虚拟变量，D改革开放以前t-1改革开放以后(为什么?)显然在式(8.21)中，以乘法形式引入了虚拟变量所形成的解释变量为DtXt,以加法形式引入虚拟变量所形成的解释变量是Dt。

24、事实上，当式(8.21)满足古典假设时，有改革开放前：EYt|Dt=0,Xt=%+&XI(8.22)改革开放后：EYt|Dt=1,Xt=(%+口2)+(P1+P2)Xt(8.23)(8.22)式和(8.23)式分别是改革开放后和改革开放前的平均储蓄函数。与(8.19)式及(8.20)式相比，有:X,=%、1k2=B1Kl=%+ct2、72=B1+P2。在(8.21)式中，«2称为截距差异系数，P2称为斜率差异系数，分别代表改革开放前后储蓄函数截距与斜率所存在的差异。当我们利用19502000年间的数据估计式(8.21)时，等价于分别对(8.19)式和(8.20)式两个储蓄函数

25、进行估计。假如对(8.21)式用OLS法估计得丫?=-1.75021.4839Dt0.1504Xt-0.1034DtXt(0.3319)(0.4704)(0.0163)(0.0332)t=(-5.2733)(3.1545)(9.2270)(-3.1144)结果表明，截距和斜率差异系数值2、2在统计意义下均为显著的，说明改革开放前后的储蓄一一收入行为确是不相同。即改革开放前Y?=1.75020.1504Xt改革开放后Y?=(-1.75021.483)9(0.15040.103)Xt=-0.26630.0470Xt以乘法形式引入虚拟变量作回归模型的比较和结构变化检验有一些优点：(1)用一个回归替代

26、了多个回归，简化了分析过程；(2)可以方便地对模型结构的差异作各种假设检验；(3)合并了的回归增加了自由度，提高了参数估计的精确性。但是，也应注意合并后模型的Ui应服从基本假定，特别是所比较的方程的方差应相同，否则会出现异方差。2、交互效应分析当分析解释变量对变量的影响时，大多数情形只是分析了解释变量自身变动对被解释变量的影响作用，而没有深入分析解释变量间的相互作用对被解释变量的影响。前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中，暗含着一个假定：两个定性变量是分别独立地影响被解释变量的。但是在实际经济活动中，两个定性变量对被解释变量的影响可能存在一定的交互作用，即一个解释变量的边

27、际效应有时可能要依赖于另一个解释变量。为描述这种交互作用，可以把两个虚拟变量的乘积以加法形式引入模型。考虑下列模型：Y=%+o(2D2i+4D3i+BXi+Ui(8.24)其中：Yi为农副品生产总收益，X为农副产品生产投入，Dz为代表油菜籽生产虚拟变量，D3i为代表养蜂生产虚拟变量：J发展油菜籽生产.发展养蜂生产D2i=|0其他；D3=|p其他显然(8.22)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚解释变量D2i和D3i是以加法形式引入的，那么暗含着假设：油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是，在发展油菜籽生产时，同时也发展养蜂生产，所取

28、得的农副产品生产总收益，可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量D2i和D3i间，很可能存在着一定的交互作用，且这种交互影响对被解释变量农副产品生产收益会有影响。为了描述交互作用对被解释变量的效应，在(8.24)式中以加法形式引入两个虚拟解释变量的乘积，即Yi=3+0（2D2i十网口31+c（4（D2iD3i）十区+口（8.25）（8.25）式中各变量的含义与（8.24）式相同。基础类型：为不发展油菜籽生产，也不发展养蜂生产时农副产品生产总收益的平均支出：E（YR'OR"XJ）：iXi（8.26）对比类型：为同时发展油菜籽生产和养蜂生产时，农

29、副产品生产总收益的平均支出E（Yi|D2=1,D3=1凶）=（%+5+«3+%）+取（8.27）这里的截距水平由四项组成，其中：a2为是否发展油菜籽生产对农副产品生产总收益的截距差异系数；a3为是否发展养蜂生产对农副产品生产总收益的截距差异系数；4同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。关于交互效应是否存在，可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t检验表明交互效应虚拟变量D2iD3i在统计意义上是显著时，说明交互效应对Yi存在显著影响。3、分段线性回归有的社会经济现象的变动，会在解释变量达到某个临界值时发生突变，为了区分不同阶段的截距和

30、斜率可利用虚拟变量进行分段回归。例如，某公司为了激励公司销售人员，按其销售额的一定比例计提奖励，但是销售额在某一目标水平X以下和以上时计提奖励的方法不同。当销售额高于X时，计提奖励额与销售额的比例要图于销售额低于X时的比例，也就是高于X时，奖励额与销售额的线性关系更为陡峭（如图8.3所示）。为了确切地描述奖励额度（Y）与销售额（X）间的关系，需要分两段进行回归。这种分段回归可以用虚拟变量来实现。图8.3奖励额与销售额的关系设虚拟变量D为:*X-X则奖励额度(Yt)和销售额(Xt)间的关系式可以统一地表示为:YtR0+BiXt+Bz(XtX*)Dt+ut(8.28)其中，Yt为奖励额，Xt为销售

31、额，X为已知的销售目标临界水平。利用统计资料估计(8.28)式的参数，就可以得到不同斜率和截距的回归方程：销售额低于X*时：E(Yt|Xt,D=0,X*)=o?0+邑Xt(8.29)销售额不低于X*：E(Y|Xt,D=1,X*)=(叱+附X*)+(邑+因)(XtX*)(8.30)整理得E(Yt|Xt,D=1,X*)=(?0-gX*)(彳？2)Xt(8.31)显然，3是图8.3中第I段回归直线的斜率，而现十盟则是第n段回归直线的斜率。只要检3金用的统计显著性，就可以判断在所设定的临界水平X*处是否存在着“突变”。应当注意，在分段回归中，第一、二段回归不仅截距不同，而且斜率也不同。在分为两段回归时

32、，使用了一个虚拟变量，容易推广，分为K段回归时，可用K-1个虚拟变量。*第三节虚拟被解释变量在计量经济学模型中，虚拟变量除了可以作为解释变量外，还可以作为被解释变量。当虚拟变量作为被解释变量时，其作用是对某一经济现象或活动进行“是”与“否”的判断或决策。例如，研究是否购买商品住房、是否参加人寿或财产保险、是否能按期偿还贷款、新本节内容本科教学中供选择使用。产品在市场上是否畅销、对某一改革措施所持的态度等。这些问题的特征是被研究的对象(即被解释变量)在受到多种因素影响时，其取值只有两种状态：“是”与“否”。这在计量经济学中被称为“二元型响应”现象，这种现象常在市场研究或社会问题研究中遇到。如何处

33、理二元型响应被解释变量模型的估计、推断问题，是本节要解决的问题。一、线性概率模型(LPM)1、什么是线性概率模型假设住户是否购买商品房的决定主要依赖于其收入水平。那么考虑下列模型：丫=&+PzXi+ut(8.32)其中，Xi为住户的收入；Y为一虚拟变量表示的住户购买商品住房的情况：1已购买商品住房Y二.0未购买商品住房现在的问题是：我们前面讨论的回归分析主要是研究E(Y|Xi户P1+P2Xi的问题，即研究条件均值的轨迹的问题，而在上述模型中，被解释变量是某种属性发生与否的状况，怎样把某种属性发生与否的问题同条件均值的轨迹研究联系起来？当然，在计量经济学中，研究被解释变量某种属性发生与否

34、，通常是研究这种属性发生与否的概率。也就是说，上述问题可表述为：怎样把被解释变量某种属性发生与否的概率问题同条件均值的轨迹研究联系起来？另外，若概率问题与条件均值轨迹能够联系起来的话，那么，我们所讨论的线性回归分析会出现什么问题？分析(8.32)式，其中，Ut服从E(Ut)=0,有：E(Y|Xi)=Pi+PzXi(8.33)另一方面，Y是取值为0和1的随机变量，那么Y有下列分布(pi为Y=1的概率)：Yi01概率1-pipi根据数学期望的定义E(Y)=0(1-Pi)1Pi=Pi(8.34)也就是说，E(Yi)等于Yi取值为1时的概率，即：E(Y尸Prob(Y=1|Xi)=Pi(8.35)注意事

35、件Y=1发生是在给定收入X的条件下发生的，因此E(Y)=E(Y|Xi)于是，比较(8.33)式和(8.34)式，则有：E(Y|Xi)=Pi+?2Xi=pi(8.36)表明购买商品用房的概率是收入的线性函数。像(8.32)式那样，以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量Yi取值为1的条件概率。即当住户的收入水平为X时，其购买商品住房的概率可表示成X的线性函数，故(8.32)式也被称为线性概率模型(LPM)。显然，只要得到(8.32)式中A和灯和估计量后，就可以估计出不同收入水平住户购买商品住房的概率。由于购买商品住房的概率Pi必须在0和1之间，故在估计式(8.32)式时必须满足

36、约束条件0<E(Y=1|XJ<1(8.37)2、线性概率模型的估计从形式上看，(8.32)式与普通的线性计量经济模型相似，是否能够运用OLS法直接对其进行估计呢？答案是否定的。因为直接采用OLS法对(8.32)式那样的模型进行估计，将会遇到一些特殊的问题，使得估计结果失去了合理的经济解释，因而需要寻求相应的处理方法。(1)随机扰动项ut的非正态性在线性概率模型中，关于5的正态性假设不再成立，因为(8.30)式的随机误差项为：Ui=Yi01BzXi(8.38)此时，当Yi=1时ui=1-P2Xi当Y=0时ui=-2Xi显然，这里的Ui不遵从正态分布，而是服从二项分布。线性概率模型中白

37、随机扰动项Ui不遵从正态分布，对参数的估计并不产生影响，OLS法本身并不要求随机扰动项Ui具备正态性，此时参数的OLS估计仍是最佳无偏估计量。但对参数的假设检验和区间估计要求随机扰动项Ui遵从正态分布。不过，随着样本容量的无限增大，根据中心极限定理，OLS估计量的概率分布将会趋近于正态分布。因此，大样本条件下线性概率模型的统计推断，也可以按正态性假设条件下OLS的统计推断方式进行。这就是说，直接运用OLS法对线性概率模型进行估计，对参数的估计不会产生太大影响。(2)随机扰动项ui的异方差性根据Y的概率分布有：Y=1时，ui=1(Pi+p2Xi)的概率为pi；Y=0时，Ui=_(月+2Xi)的概

38、率为i-pi,即Ui1-2Xi11-2Xi概率1-pipi根据方差的定义Var(ui)=E(ui-E(ui)2=E(ui2)=(：2Xi)2(1-pi).(-J2Xi)2pi=(1-Xi)2。Xi)(11-Xi)2-Xi)=(-I-2Xi)(1-I-2Xi)=pi(1-pi)(8.39)这里利用了pi=B1+P2Xi0(8.39)式表示，当ui满足E(ui)=0和E(uiUj)=0(iwj)时，ui的方差却是Yi条件期望的函数，即Var(ui)=f(E(Y|Xi),这表明ui是异方差的。这时禾U用OLS法所彳#的LPM的估计量不再具有最小方差的特性，且各参数估计量的标准差也不可信。也就是说，L

39、PM参数的OLS估计量虽仍为线性无偏估计量，但不是最佳估计量。为了消除异方差性的影响，可利用第五章中有关修正异方差的方法，例如可用加权最小二乘法(WLS)修正异方差。根据前面的讨论，已知LPM中ui的方差是Y条件期望的函数，故选择权重的一种方法是：(8.40).W：=.E(Y|Xi)l1(Y|Xi)=.Pi(17Pi)其中，Wi为权重。对(8.32)式两边加权，有:YY _1 . 1-2. WiWiXLUi(8.41)(8.(41) 权重Wi是未知的，随机扰动项Ui/Wi也是未知的，在实践中为了估计Wi进而估计LPM模型，可采取以下步骤:第一步，不考虑异方差，用OLS法估计原模型(8.30),

40、计算Yi=P1+P2Xi作为E(YXi)=P的估计值Pi,取Wi=Y(1Yi)=R(1P)作为Wi的估计第二步，用Wi按照(8.41)式对观察数据Y和Xi进行变换，再用OLS法估计变换后的模型参数，得LPM的参数，从而消除异方差。不满足0ME(Y|Xi)M1的约束在线性概率*II型中，E(Yi|Xi)表示在给定X的条件下，事件Y发生的概率，从理论上，E(Y|Xi)的取值范围必须在0和1之间，然而在实证分析中，E(Y|Xi)的估计量Y?并不一定介于0和1之间，也就是说，Y?的值可能大于1,也可能小于0,这是LPM的OLS法估计存在的实际问题。解决这一问题的方法之一，是当Y?>1时，就认定Y

41、?=1；当Y?<0时,就认定Y?=0O这是人为的把大概率事件当作必然事件，把小概率事件当作不可能事件。另一类方法，是选择Logit模型或Probit模型等能够保证满足0EE(Yi|Xi)<1约束的非线性模型。3、非线性概率模型应当指出的是，虽然我们可以采用WLS解决异方差性问题、增大样本容量减轻非正态性问题，通过约束迫使所估的事件Y发生的概率落入0-1,但是，LPM与经济意义的要求不符：随着X的变化，X对pi的边际效应”保持不变。如在住户是否购买商品房的例子中,A当白=0.1时，表明X每变化一个单位（比如说1000元），拥有商品住房的概率恒等地增加0.1。这就是说，无论住户的收入水

42、平为8000元，还是22000元，拥有商品住房的概率都以相同的增量增加。在线性概率模型中，不论X的变化是在什么水平上发生的，参数都不发生变化，显然这与现实经济所发生的情况是不符的。因此，表现概率平均变化比较理想的模型应当具有这样的特征：（1）概率r=E（Y=1|Xi）随X的变化而变化，但永远不超出01区间。（2）随着XTg,PiT0；随着xT笛，PiT1;即随着X变小，概率Pi趋于零的速度越来越慢；而随着Xi变大，概率Pi趋于1的速度也越来越慢。Pi随Xi变化而变化，且变化速率不是常数，Pi和Xi之间是非线性关系。符合这些特征的函数可用图8.4形象地刻画。图8.4非线性概率函数的图形从图中可知

43、，图8.4所示的模型满足0EE（Y|XJ<1,以及Pi是Xi非线性函数的假设，呈现出S一型的曲线特征。因此可以设法找到符合这种S一型曲线特征的函数形式来作为二元响应计量经济模型的设定形式。原则上，任何适当的、连续的、定义在实轴上的概率分布都将满足上述两个条件。对于连续随机变量来说，密度函数的积分代表概率的大小，也就是说，连续随机变量的（累积）分布函数（CDF）可以满足上述两个要求。通常选择逻辑斯蒂分布函数和正态分布的累积分布函数去设定非线性概率模型。当选用逻辑斯蒂分布时，就生成了Logit模型（对数单位模型），本书只介绍Logit模型。二、对数单位模型（Logit模型）1、Logit模型

44、的基本概念如上所述，当选择用逻辑斯蒂分布函数(logisticdistribution)去设定二元响应计量经济模型时，有r,、，ejXi11,、Prob(Y=1尸Pi=177阿师=17力衍=1+产(&42)eee其中，z=Pi+p2Xio(8.(42) 以下特征：(8.(43) )随着ZiT笛，pit1(1为pi的饱和值)；反之，ZiT3时，pT0；即<zi<«,0MpM1;zi=0时，R=0.5。(2)(8.42)式有一个拐点，在拐点之前，随z或Xi增大，pi的增长速度越来越快;在拐点之后，随乙或Xi增大，pi的增长速度越来越慢，逐渐趋近于1。这些特征正好满足前

45、面讨论的非线性概率模型的要求。考虑在估计中便利，我们采用以下变换:Li-R21)'、Prob(Y =0 "=lnee0#Xi/)=ln一点丁邓”=ln(eB松尸A十久Xi(8.43)JTe(8.43)中，比率一p通常被称为机会比率，即所研究的事件(或属性)“发生”与1-p“没有发生”的概率之比。机会比率在市场调查民意测验等社会学以及流行病学方面有着广泛的应用。机会比率的对数"Li=ln(p)被称为对数单位，这里的对数单位Li不仅是1-piXi的线性函数，而且也是P的线性函数。所以，(8.43)也称为对数单位模型(或logit模型)。2、Logit模型的估计虽然Log

46、it模型(8.42)或(8.43)式满足非线性概率模型的要求，但由于pi不仅对Xi是非线性关系，而且对Pi和久也是非线性关系，不能直接运用OLS法估计参数。必须设法把非线性关系转换为可以运用OLS估计的线性形式。若记Pi为事件发生的概率，那么有:1pi=Z"1e(8.44),111-Pi=1万Z1ei1ei由（8.43）和（8.44）式有:Pi _ 1 e" 1 - pi 1 e”二 ez(8.45)对（8.45）式两边取自然对数:Li=ln(p)=ln(e4)=Zi=P+22X1(8.46)1-Pi模型（8.46）表明，Xi变动一个单位，机会比率的对数（注意不是概率R）平

47、均变化艮个单位。需要注意对数单位模型的以下特点：（1）随着pi从0变化到1,或Z从*变化到空，对数单位Li从变化到00,即概率pi在0与1之间，但对数单位Li并不一定在0与1之间。（2）虽然对数单位Li对Xi是线性的，但概率Pi对Xi并不是线性的，这与线性概率模型不同。（3）注意对数单位模型中参数的意义：P2是Xi每变动一个单位时，对数单位Li（机会比率的对数）的平均变化，然而我们研究的目的并不是对数单位Li,而是概率Pio（4）如果设法估计出参数P/口P2,给定某一水平Xi=X*,若欲估计Pi,当P"dP2估计量已知时，可从（8.46）式中直接得到（乙=禺+用Xi）,就可能计算出要

48、估计的概率Pi。从经济计量的角度引入随机扰动项，将式（8.46）改记为:Liln=Zi=B*口zXi+Ui（8.47）1-Pi现在的问题是如何得到已和P2的估计量？对（8.47）式直接估计会遇到以下困难：（1）当事件发生时Pi=1,Li=ln（1/0）；当事件没有发生时Pi=0,L=ln（01）,机会比率pj(1-p)的对数都无意义，不能直接用OLS法估计模型，而只能采用极大似然法(ML)估计参数。当样本容量N较大，可选用加权最小二乘法进行估计。(2)估计参数需要的机会比率对数Li的数据无法观测。解决办法是对应于每个Xi,样本观测值个数Ni较大时，可利用整理汇总的数据，用相对频率作为对pi的估

49、计，并估计机会比率对数Li。例如购商品房的模型，对于收入水平Xi,家庭总数为Ni,其中购商品房家庭数为ni,可计算相对频率P =ni/Ni。样本容量 Ni足够大时,Pi可视为对pi的较好估计，并可用以估计机会比率对数L： Li =lnP,/(1 P)。(3) (8.47)式模型的随机项U i为异方差，可以证明，N足够大时ui N0,Wii P(1-P)(8.50)(8.(48)为了估计口的方差叼2,可通过用相对频率p代替r去估计:(8.(49)NiPi(1-Pi)Wi为:估计出Ui的方差以后，可用加权最小二乘法去估计参数，权数Eviews进行估计却较拟合优度分析等内容，已超可以看出，对数单位

50、模型参数的估计程序是较为繁琐的，但运用方便，具体的估计步骤在下一节的案例中介绍。另外，关于二元选择模型的模型设定检验、异方差性检验、出本书的讨论范围，在此不作讨论。第四节案例分析改革开放以来，随着经济的发展中国城乡居民的收入快速增长，同时城乡居民的储蓄存款也迅速增长。经济学界的一种观点认为，20世纪90年代以后由于经济体制、住房、医疗、养老等社会保障体制的变化，使居民的储蓄行为发生了明显改变。为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化，以城乡居民人民币储蓄存款年底余额代表居民储蓄（Y）,以国民总收入GNI代表城乡居民收入，分析居民收入对储蓄存款影响的数量关系。表8.1为1

51、978-2003年中国的国民总收入和城乡居民人民币储蓄存款年底余额及增加额的数据。表8.1国民总收入与居民储蓄存款单位：亿元城乡居民人城乡居民人城乡居民人城乡居民人国民总收国民总收年民币储蓄存民币储蓄存年民币储蓄存民币储蓄存入入份款年底余额款增加额份款年底余额款增加额(GNI)(GNI)(Y)(YY)(Y)(YY)19783624.1210.6NA199121662.59241.62121.80019794038.2281.070.4199226651.911759.42517.80019804517.8399.5118.5199334560.515203.53444.10019814860.

52、3532.7124.2199446670.021518.86315.30019825301.8675.4151.7199557494.929662.38143.50019835957.4892.5217.1199666850.538520.88858.50019847206.71214.7322.2199773142.746279.87759.00019858989.11622.6407.9199876967.253407.57615.400198610201.42237.6615.0199980579.459621.86253.000198711954.53073.3835.72000882

53、54.064332.44976.700198814922.33801.5728.2200195727.973762.49457.600198916917.85146.91374.22002103935.386910.613233.20199018598.47119.81923.42003116603.2103617.716631.90数据来源：中国统计年鉴2004，中国统计出版社。表中“城乡居民人民币储蓄存款年增加额”为年鉴数值，与用年底余额计算的数值有差异。为了研究1978-2003年期间城乡居民储蓄存款随收入的变化规律是否有变化，考证城乡居民储蓄存款、国民总收入随时间的变化情况，如下图所示

54、：图8.5从图8.5中，尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量（YY）,并作时序图（见图 8.6）2000015COT1MW5000Q叩匐&496弱I和见以同乳叩保2000015000-»0000-sooa-CLWXMWOOO 100000GM图8.6图8.71996年和从居民储蓄增量图可以看出，城乡居民的储蓄行为表现出了明显的阶段特征：在2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图看（见图8.7）,也呈现出了相同的阶段性特征。为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系，引入虚拟变量D和D2°D和D2的选择，是以1996、2000年两个转折点作为依据，1996年的GNI为66850.50亿元，2000年的GNI为国为民8254.00亿元，并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型:YY = ：1 + /GNIt-1其中：D1t0t =1996年以后t =1996年及以前1 t =2000年以后D2t0 t =2000年及以刖飞GNIt-66850.50D1t+zGNIt-88254.00DUt对上式进行回归后，有:DependentVariable:YYMethod:LeastSquaresDate:06/16/05Time:23:27Sampl

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

虚拟解释变量回归

文档简介

温馨提示

最新文档

评论

虚拟解释变量回归

文档简介

温馨提示

最新文档

评论

相关文档