第8虚拟变模型_第1页
第8虚拟变模型_第2页
第8虚拟变模型_第3页
第8虚拟变模型_第4页
第8虚拟变模型_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第8 8章章 虚拟变量模型虚拟变量模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的设置原则二、虚拟变量的设置原则 三、虚拟变量作用三、虚拟变量作用 四、虚拟变量的引入四、虚拟变量的引入 五、虚拟变量的特殊应用五、虚拟变量的特殊应用 六、虚拟被解释变量模型六、虚拟被解释变量模型一、虚拟变量的基本含义一、虚拟变量的基本含义l 许多经济变量是许多经济变量是可以定量度量可以定量度量的,其取值可用数的,其取值可用数值表示,值表示,如:如:商品需求量、价格、收入、产量等商品需求量、价格、收入、产量等l 但也有一些影响经济变量的因素但也有一些影响经济变量的因素无法定量度量无法定量度量,如

2、:如:职业、性别对收入的影响,战争、自然灾害职业、性别对收入的影响,战争、自然灾害对对gdp的影响,季节对某些产品(如冷饮)销售的影响,季节对某些产品(如冷饮)销售的影响等等,反映这些的影响等等,反映这些定性因素定性因素的变量被称为的变量被称为品品质变量质变量 ,这些变量由于各种原因不能计量,这些变量由于各种原因不能计量 。l 为了在模型中能够反映这些因素的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”. 这种这种“量化量化”通常是通过人为地通常是通过人为地虚构虚构出来一种出来一种特殊的变量来完成的。即根据这些因素的属性类型,特殊

3、的变量来完成的。即根据这些因素的属性类型,构造只取构造只取“0”或或“1”的人工变量,通常称为的人工变量,通常称为虚拟变虚拟变量量(dummy variables),),文献中习惯用文献中习惯用 表示表示。 例如例如,反映性别这个属性的虚拟变量可取为,反映性别这个属性的虚拟变量可取为: 一般地,在虚拟变量的设置中:用一般地,在虚拟变量的设置中:用1表示这种属表示这种属性或特征存在,用性或特征存在,用0表示这种属性或特征不存在。表示这种属性或特征不存在。或者说,设置虚拟变量时或者说,设置虚拟变量时,将将比较类型、肯定类型比较类型、肯定类型取值为取值为1;而将基础类型、否定类型取值为;而将基础类型

4、、否定类型取值为0。id女男01id大学以下学历大学以上学历01id再如:虚拟变量模型概念:虚拟变量模型概念: 把 包 含 虚 拟 变 量 的 模 型 称 为 虚 拟 变 量 模 型把 包 含 虚 拟 变 量 的 模 型 称 为 虚 拟 变 量 模 型(dummy variable model),若仅有解释变量中包若仅有解释变量中包含虚拟变量,称为虚拟解释变量模型;若被解释变量含虚拟变量,称为虚拟解释变量模型;若被解释变量是虚拟变量,称为虚拟是虚拟变量,称为虚拟被被解释变量模型,或称为解释变量模型,或称为离散离散选择模型。选择模型。 一个以性别为虚拟变量考察企业职工薪金的模型:一个以性别为虚拟

5、变量考察企业职工薪金的模型:iiiidxy210其中:其中:yi为企业职工的薪金,为企业职工的薪金,xi为工龄,为工龄, di=1,若是男性,若是男性,di=0,若是女性。,若是女性。l 研究居民住房消费支出研究居民住房消费支出 和居民可支配收入和居民可支配收入 之间的之间的数量关系。回归模型的设定为:数量关系。回归模型的设定为:l 现在要考虑城镇居民和农村居民之间的差异,如何办?现在要考虑城镇居民和农村居民之间的差异,如何办?l 为了对为了对 “ “城镇居民城镇居民”、“农村居民农村居民”进行区分,分析进行区分,分析各自在住房消费支出各自在住房消费支出 上的差异,设上的差异,设 为城镇为城镇

6、; ; 为农村为农村, ,则模型为则模型为l ( (模型有截距,模型有截距,“居民属性居民属性”定性变量只有两个相互排斥定性变量只有两个相互排斥的属性状态(的属性状态( ),故只设定一个虚拟变量。),故只设定一个虚拟变量。) )虚拟变量陷阱虚拟变量陷阱 ( (一个例子一个例子) )ixiy011iiiy =+x +u()01112iiiy =+x+d + u( )1=1idiy1= 0id2ml若对两个相互排斥的属性若对两个相互排斥的属性 “ “居民属性居民属性” ” ,仍然,仍然引入引入 个虚拟变量,则有个虚拟变量,则有则模型(则模型(1 1)为)为l则对任一家庭都有:则对任一家庭都有: ,

7、即产生完全共线,陷入了即产生完全共线,陷入了“虚拟变量陷阱虚拟变量陷阱”。l“虚拟变量陷阱虚拟变量陷阱”的实质是:的实质是:完全多重共线性完全多重共线性。21=0id农村居民城镇居民0111223iiiyxddu( )121d +d =11=0id城镇居民农村居民1210d + d -=2m虚拟变量陷阱虚拟变量陷阱二、虚拟变量的设置原则二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变每一定性变量所需的虚拟变量个数要比该定性变量的类别数少量的类别数少1,即如果定性变量有,即如果定性变量有m个类型,只在个类型,只在

8、模型中引入模型中引入m-1个虚拟变量个虚拟变量。每个虚拟变量定义为:每个虚拟变量定义为: 个属性类型非第类型idi0个属性i第1) 1, 2 , 1(miiiidm当第当第i种属性类型出现时,第种属性类型出现时,第i个虚拟变量取个虚拟变量取1,其它其它都取都取0时,则表示出现第时,则表示出现第种属性类型种属性类型。 虚拟变量皆取虚拟变量皆取0,而当所有,而当所有 例例: :虚拟变量反映季节变动的影响虚拟变量反映季节变动的影响 已知冷饮的销售量已知冷饮的销售量y除受除受k种定量变量种定量变量xk的影响的影响外,还受春、夏、秋、冬四季变化的影响,要考外,还受春、夏、秋、冬四季变化的影响,要考察该四

9、季的影响,只需引入三个虚拟变量即可:察该四季的影响,只需引入三个虚拟变量即可:011td其他春季012td其他夏季013td其他秋季则冷饮销售量的模型为:则冷饮销售量的模型为:ttttktkttdddxxy332211110在上述模型中,若再引入第四个虚拟变量在上述模型中,若再引入第四个虚拟变量014td其他冬季则冷饮销售模型变量为:则冷饮销售模型变量为:tttttktkttddddxxy44332211110其矩阵形式为:其矩阵形式为:d)(x,y 如果只取六个观测值,其中春季与夏季取了如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:两次,秋、冬各取到一次观测值

10、,则式中的: 显然,显然,(x,d)中的第中的第1列可表示成后列可表示成后4列的线性组合,列的线性组合,从而从而(x,d)不满秩,参数无法唯一求出。不满秩,参数无法唯一求出。 这就是所谓的这就是所谓的“虚拟变量陷虚拟变量陷阱阱”,应避免。000110010110001010010010100011)(616515414313212111kkkkkkxxxxxxxxxxxxdx,k1043211.可以检验和度量用文字所表示的定性因可以检验和度量用文字所表示的定性因素的影响素的影响例如,例如,为了反映甲、乙两种不同的工艺过程对产为了反映甲、乙两种不同的工艺过程对产量的影响,可以在生产函数中引入描述

11、甲、乙两量的影响,可以在生产函数中引入描述甲、乙两种不同的工艺过程的虚拟变量:种不同的工艺过程的虚拟变量: 通过对模型中通过对模型中 的显著性检验来确定甲、乙两的显著性检验来确定甲、乙两种不同的工艺过程是否对产量有显著影响。种不同的工艺过程是否对产量有显著影响。 三、虚拟变量的作用三、虚拟变量的作用iiudlnklnllnalnq1 0 id由甲工艺过程生产由乙工艺过程生产2. 2. 可以测量变量在不同时期的影响可以测量变量在不同时期的影响l 例如:例如:研究我国国民生产总值研究我国国民生产总值y随时间随时间x而增而增长的过程,需要考虑反常年份这一特殊因素的长的过程,需要考虑反常年份这一特殊因

12、素的影响。若定义影响。若定义 l 则引入虚拟变量的模型为则引入虚拟变量的模型为l 通过对参数通过对参数 进行进行 检验,可以检验反常年份检验,可以检验反常年份对社会总产值有无显著影响,就把受反常年份对社会总产值有无显著影响,就把受反常年份影响的时期从总过程中区分出来影响的时期从总过程中区分出来 正常年份反常年份01tdttttudxy2102t3. 3. 可以用来处理异常数据的影响。可以用来处理异常数据的影响。l 例如,变量例如,变量y和和x在长期中基本满足线性回归在长期中基本满足线性回归模型的各个假设,但在时刻有一个突发情况,模型的各个假设,但在时刻有一个突发情况,使得使得y出现一个出现一个

13、k单位的暂时性波动。如果用线单位的暂时性波动。如果用线性回归模型性回归模型 分析这两个变量的分析这两个变量的关系,其误差项的均值是关系,其误差项的均值是l 解决的办法是引进一个针对性解决的办法是引进一个针对性 的虚拟变量,其定义为的虚拟变量,其定义为 l 新的回归模型为:新的回归模型为:l 解决了均值非解决了均值非0的问题的问题 iiiuxy10000)(iikiiuei当当0010iiiidi当当iiiivkdxy10iiikduv其中其中0001000)()()(iikkiikdeueveiii 四、虚拟变量的引入方式四、虚拟变量的引入方式 在计量经济模型中引入虚拟解释变量,一般地有在计量

14、经济模型中引入虚拟解释变量,一般地有三种方式:三种方式:加法方式、乘法方式加法方式、乘法方式和和混合方式混合方式。1.1.加法方式:加法方式: 所谓加法方式,即将虚拟变量直接作为一个解释所谓加法方式,即将虚拟变量直接作为一个解释变量引入模型,它同其他解释变量之间是相加的关变量引入模型,它同其他解释变量之间是相加的关系。当不同类型模型的斜率相同,系。当不同类型模型的斜率相同,截距截距不相同时,不相同时,可考虑以加法形式引入虚拟变量。可考虑以加法形式引入虚拟变量。 以加法方式引入虚拟变量时,主要考虑的问题是以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。定性因素的属性

15、和引入虚拟变量的个数。iiiidxy210(1 1)解释变量只有一个定性变量而无定量变量,)解释变量只有一个定性变量而无定量变量,而且定性变量为两种相互排斥的属性;而且定性变量为两种相互排斥的属性;(2 2)解释变量分别为一个定性变量(两种属性)解释变量分别为一个定性变量(两种属性)和一个定量解释变量;和一个定量解释变量; (3 3)解释变量分别为一个定性变量(两种以上属)解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量;性)和一个定量解释变量;(4 4)解释变量分别为两个定性变量(各自分别是)解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量;两种属性)和一个定量

16、解释变量;加法方式分为四种情形讨论:加法方式分为四种情形讨论:(1 1)一个两种属性定性解释变量而无定量)一个两种属性定性解释变量而无定量变量的情形变量的情形010iiiiyy城市()01iiiyd例如:模型形式:y为香烟消费量;010e=1 =+e= 0 =iiiiy |dy |d那么:()1 0id城市其中: (比较的基础:农村)农村农村(2) 2) 一个定性解释变量(两种属性)和一个一个定性解释变量(两种属性)和一个定量解释变量的情形定量解释变量的情形011 0iiiiiy =d +x +yxd例如:城市其中: 支出; 收入;农村010|,1|,0iiiiiiiie yxdxe yxdx

17、()()010iiiiiiy =+x+ y =+x+ ()城市农村0 1 01()iiyx0iiyx几何意义:几何意义:两个函数有相同的斜率,但有不同的截距两个函数有相同的斜率,但有不同的截距yx(3 3)一个定性解释变量(三种属性)和一)一个定性解释变量(三种属性)和一个定量解释变量的情形个定量解释变量的情形 在工资模型中如果我们考虑的是员工的受教在工资模型中如果我们考虑的是员工的受教育程度,比如可以将员工的分为:高中以下,育程度,比如可以将员工的分为:高中以下,高中毕业和大学及其以上三种。如果虚拟变量高中毕业和大学及其以上三种。如果虚拟变量设为设为 高中以下高中以下 其他其他 高中毕业高中

18、毕业 其他其他 大学及其以上大学及其以上 其他其他110d 210d 310d 则则 1231ddd 将会出现将会出现多重共线性多重共线性,因此需要去掉一个虚拟变量。,因此需要去掉一个虚拟变量。 假设模型为:假设模型为: 110d 210d 高中高中其他其他大学及其以上大学及其以上其他其他模型变为:模型变为:估计出的回归方程为:估计出的回归方程为:高中以下:高中以下:高中:高中:大学及其以上:大学及其以上:iiiddxy231210iiiudddxy34231210iiixddxye1021)0, 0,|(iiixddxye12021)()0, 1,|(iiixddxye13021)() 1,

19、 0,|(yx 假定假定 3 3 2 2,其几何意义:其几何意义:iixy130)(iixy120)(iixy10320(3 3)一个定性解释变量(四种属性)和一个)一个定性解释变量(四种属性)和一个定量解释变量的情形定量解释变量的情形01 122331234110010iiiyxdydddxddd例如:季度有 种特性例如:啤酒售量 、人均收入 、季度 ;一季度二季度其中:其它其它三季度其它11230112130213120311230e,1,0e,1,0()e,1,0()e,0iiiiiiiiy |x dddxy |x dddxy |x dddxy |x dddx一季度:二季度:三季度:四季

20、度:基准:四季度()四个季节对某些商品的需求量分别为:四个季节对某些商品的需求量分别为: 模型中系数模型中系数 、 、 、 分别反映了四、一、二、分别反映了四、一、二、三、一季度对该商品的平均影响程度,根据这些系三、一季度对该商品的平均影响程度,根据这些系数的统计检验就可以判断季度因素对该商品的需求数的统计检验就可以判断季度因素对该商品的需求量是否存在着显著影响。量是否存在着显著影响。 1023(4 4)两个定性解释变量(均为两种属性)和一个定)两个定性解释变量(均为两种属性)和一个定量解释变量的情形量解释变量的情形120112212 1100iiiyxdd yddxdd例:分析香烟销售量 受

21、到人均收入 、性别以及居民属性的影响。男性城市 其中:女性农村比较的基础女性、农村 运用运用ols得到回归结果,再用得到回归结果,再用t检验讨论因素检验讨论因素是否对模型有影响。是否对模型有影响。男性、城市居民男性、农村居民1201e=1,= 0 =+iiiy | x ,ddx() +120e|,0,0iiiyxddx12012e|,1,1iiiyxddx()1202e|,0,1()iiiyxddx女性、城市居民女性、农村居民各类型居民香烟消费量分别为:各类型居民香烟消费量分别为: dd121,1dd120,10dd121,00dd12,yx几何意义几何意义 01 122.tttkktttyd

22、ddxu 加法方式引入虚拟变量的一般表达式加法方式引入虚拟变量的一般表达式: : 基本分析方法基本分析方法: : 条件期望。条件期望。1201122e( /,.,).tttktttkktty d dddddx 加法方式引入虚拟变量的主要作用为:加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程在有定量解释变量的情形下,主要改变方程 截距;截距; 2.在没有定量解释变量的情形下,主要用于在没有定量解释变量的情形下,主要用于方方 差分析。差分析。基本思想基本思想: :以乘法方式引入虚拟变量时,是在所设立的模型以乘法方式引入虚拟变量时,是在所设立的模型中,将中,将虚拟解释

23、变量与其它解释变量虚拟解释变量与其它解释变量 的乘积的乘积,作,作为新的解释变量出现在模型中,以达到其调整设模为新的解释变量出现在模型中,以达到其调整设模型型斜率斜率系数的目的。或者将模型斜率系数表示为虚系数的目的。或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的。拟变量的函数,以达到相同的目的。乘法引入方式的特点乘法引入方式的特点: : (1 1)截距不变;)截距不变; (2 2)斜率发生变化;)斜率发生变化;ix2.2.乘法方式乘法方式例:研究文化用品消费支出例:研究文化用品消费支出y y受收入受收入x x、居民身份、居民身份d d的的影响,影响,模型形式:模型形式:截距不变但斜率

24、发生变化的情形:截距不变但斜率发生变化的情形:12121()10e|,1()e|,0ttttttttttttttyxdxyxdy x dxy x dx 城市其中:消费支出;收入;农村城市居民农村居民在农村居民的基础上进行比较,(只有斜率系数发生改变)。图8-5 农村和城市的文化用品消费o3.3.混合方式:截距和斜率均发生变化混合方式:截距和斜率均发生变化011201121()10e|,1()e|,0tttttttttttttttyxdd xyxdyxdxyxdx城市其中:消费支出;收入;农村城市农村在正常年份基础上比较,截距和斜率系数都改变.例例: 同样研究消费支出同样研究消费支出y 、收入、

25、收入x 、居民身份、居民身份d 间的影响关系。模型形式:间的影响关系。模型形式:yx01iiyx几何意义:几何意义:100112()()iiyx在计量经济学中,通常引入虚拟变量的方式分为在计量经济学中,通常引入虚拟变量的方式分为加法方式加法方式和和乘法方式乘法方式以及以及混合方式混合方式三种:即三种:即实质实质: :加法方式引入虚拟变量改变的是截距;加法方式引入虚拟变量改变的是截距; 乘法方式引入虚拟变量改变的是斜率;乘法方式引入虚拟变量改变的是斜率; 混合方式引入虚拟变量既改变截距又改变斜率混合方式引入虚拟变量既改变截距又改变斜率0tttyxu1d1tttyxu2tx d0112iii y

26、=+ x +u=+d=+d原原模模型型加加法法方方式式引引入入乘乘法法方方式式引引入入: 虚拟变量的引入小结:虚拟变量的引入小结:五、虚拟解释变量特殊应用五、虚拟解释变量特殊应用 所谓特殊应用是指将引入虚拟解释变量所谓特殊应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。的加法方式、乘法方式进行综合使用。基本分析方式:仍然是条件期望分析。基本分析方式:仍然是条件期望分析。本课主要讨论本课主要讨论(1 1)分段回归分析;)分段回归分析;(2 2)交互效应分析;)交互效应分析;(3 3)结构变化分析)结构变化分析 在经济发生在经济发生转折时期转折时期,可通过建立临界指标的虚,可通过建立临

27、界指标的虚拟变量模型来反映数量因素的不同阶段。拟变量模型来反映数量因素的不同阶段。 例如,例如,进口消费品数量进口消费品数量y主要取决于国民收入主要取决于国民收入x的多少,中国在改革开放前后,的多少,中国在改革开放前后,y对对x的回归关系明的回归关系明显不同。显不同。 这时,可以这时,可以t*=1979年为转折期,以年为转折期,以1979年的国年的国民收入民收入xt*为临界值,设如下虚拟变量:为临界值,设如下虚拟变量:01td*tttt则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下:ttttttdxxxy)(*2101.1.分段回归分析分段回归分析 用用olsols法得到该

28、模型的回归方程为:法得到该模型的回归方程为:0tttttdxxxy)(*210几何意义:几何意义:1979年之前,回归模型的斜率为年之前,回归模型的斜率为 ;1979年之前,回归模型的斜率为年之前,回归模型的斜率为 ;若统计检验表明,若统计检验表明, 显著不为零,则我国居民的显著不为零,则我国居民的消费行为在消费行为在1979年前后发生了明显改变。年前后发生了明显改变。10图8-7 时间分段前后的进口消费品数量xoytttxxy)()(21*20ttxy10*20tx02例例: : 是否发展油菜籽生产与是否发展养蜂生产的是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。差异

29、对农副产品总收益的影响研究。模型设定为模型设定为: :(1 1)式中)式中, , 以加法形式引入虚拟变量暗含何假设以加法形式引入虚拟变量暗含何假设? ?01 1221211100iiiiiiiyddxuyxdd()其中:(农副产品收益); (农副产品投入)发展养蜂生产发展油菜籽生产;其他其他2.2.交互效应分析交互效应分析上式以加法形式引入,暗含的假设为:菜籽生产和上式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副

30、产品生产总收益,可能会高于不发展所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量生产的虚拟变量 和和 间,很可能存在着一定间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。品生产收益会有影响。 (1) 01122iiiiiyxddu1id2id为了反映为了反映交互效应交互效应,将(,将(1 1)变为:)变为:同时发展油菜籽和同时发展油菜籽和养蜂生产:养蜂生产:发展油菜籽生产:发展油菜籽生产: 发展养蜂生产:发展养蜂生产:

31、基础类型:基础类型:0iiiyxu02iiiyxu()01iiiyxu()0123iiiyxu()01 1223 12iiiiiiiyddd dxu基本思想基本思想: :在模型中引入相关的两个变量的乘积在模型中引入相关的两个变量的乘积如何检验交互效应是否存在?如何检验交互效应是否存在?3.3.结构稳定性分析结构稳定性分析l 模型结构的稳定性是指两个不同时期模型结构的稳定性是指两个不同时期(或不同空间或不同空间)研究同一性质的问题时所建立的同一形式的回归模研究同一性质的问题时所建立的同一形式的回归模型的参数之间有无显著差异,如果存在着差异,则型的参数之间有无显著差异,如果存在着差异,则认为模型结

32、构不稳定。认为模型结构不稳定。l 在现实经济生活中,往往由于某些重要因素的影响,在现实经济生活中,往往由于某些重要因素的影响,解释变量和被解释变量之间关系可能会发生解释变量和被解释变量之间关系可能会发生结构变结构变化;化;l 如我国由于经济体制的变化,改革开放前后国民经如我国由于经济体制的变化,改革开放前后国民经济总量指标之间的关系都会发生变化;或者研究我济总量指标之间的关系都会发生变化;或者研究我国发达地区和不发达地区投资对经济增长的影响,国发达地区和不发达地区投资对经济增长的影响,也会因地区不同而产生结构差异等等。也会因地区不同而产生结构差异等等。l 这一问题可通过引入乘法形式的这一问题可

33、通过引入乘法形式的虚拟变量虚拟变量来解决来解决 例:例:以以y为储蓄,为储蓄,x为收入,为反映为收入,为反映1992年前后年前后储蓄与收入之间的结构关系有无明显变化,可引储蓄与收入之间的结构关系有无明显变化,可引入虚拟变量进行检验。设根据两个样本估计的回入虚拟变量进行检验。设根据两个样本估计的回归模型分别为:归模型分别为:l 1992年前:年前: yi= 1+ 1 xi+ 1i i=1,2,n1 l 1992年后:年后: yi= 2 + 2xi+ 2i i=1,2,n2 l 设置虚拟变量:设置虚拟变量:l 将样本将样本1和样本和样本2的数据合并,估计以下模型:的数据合并,估计以下模型:l 然后

34、利用然后利用t检验判断检验判断 、 的系数的显著性的系数的显著性. l 年以后年以前1992019921idiiiiiiexddxy)()(121211idiixd于是有:于是有:iiiixxdye10), 0|(iiiixxdye)()(), 1|(4130则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种: (1) 1= 2 ,且,且 1 = 2 ,即两个回归相同,说明两个回,即两个回归相同,说明两个回归 模 型 之 间 没 有 显 著 差 异 , 称 为归 模 型 之 间 没 有 显 著 差 异 , 称 为 重 合 回 归重 合 回 归(coincident regres

35、sions);模型结构是稳定的);模型结构是稳定的 .(2) 1 2,但但 1 = 2 ,说明两个回归模型之间的斜率,说明两个回归模型之间的斜率相同,两个回归模型结构的差异仅在其截距,称为相同,两个回归模型结构的差异仅在其截距,称为平行回归平行回归(parallel regressions);(3) 1= 2 ,但,但 1 2 ,说明两个回归模型之间的截,说明两个回归模型之间的截距相同,两个回归模型结构的差异仅在其斜率,称距相同,两个回归模型结构的差异仅在其斜率,称为为汇合回归汇合回归(concurrent regressions);(4) 12 ,且,且 12 ,即两个回归完全不同,存在着,

36、即两个回归完全不同,存在着结构差异称为结构差异称为相异回归相异回归(dissimilar regressions)。)。不同截距、斜率的组合图形不同截距、斜率的组合图形重合回归:截距斜率均相同重合回归:截距斜率均相同平行回归:截距不同斜率相同平行回归:截距不同斜率相同共点回归:截距相同斜率不同共点回归:截距相同斜率不同交叉(不同)回归:截距斜率均不同交叉(不同)回归:截距斜率均不同结构变化小结结构变化小结 结构变化结构变化的实质是检验所设定的模型在样本的实质是检验所设定的模型在样本期内是否为期内是否为同一模型同一模型。显然,平行回归、共点。显然,平行回归、共点回归、不同的回归三个模型均不是同一

37、模型。回归、不同的回归三个模型均不是同一模型。 平行回归模型的平行回归模型的假定假定是斜率保持不变(加法类是斜率保持不变(加法类型,包括型,包括方差分析方差分析);); 共点回归模型的共点回归模型的假定假定是截距保持不变(乘法类是截距保持不变(乘法类型,又被称为协方差分析);型,又被称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。动的(加法、乘法类型的组合)。 邹氏结构变化的检验邹氏结构变化的检验l为了检验两个模型的结构是否相同,可提出原为了检验两个模型的结构是否相同,可提出原假设:两个回归方程的结构相同,然后看

38、看能否假设:两个回归方程的结构相同,然后看看能否拒绝这个假设拒绝这个假设,这个检验称为这个检验称为chow检验检验.l设两个样本待检验回归模型为设两个样本待检验回归模型为:l样本样本1(n1个)个)l样本样本2 (n2个个) l邹检验的基本假定邹检验的基本假定:将将n1与与n2个观察值合并,并用以估计以下回归:个观察值合并,并用以估计以下回归:), 0(), 0(2221ttunu和1221iikkiiyxxu1222jjkkjiyxxu是独立分布的和ttuu211223iikkiiyxxu(1).假设原假设为真假设原假设为真 (2).用用olsols对这两个方程分别进行估计,可得到各自对这两

39、个方程分别进行估计,可得到各自的残差平方和的残差平方和 和和 ,并求和,并求和 计算合并后的模型的残差平方和计算合并后的模型的残差平方和 (3).统计量统计量: (4).查查f分布表,得临界值分布表,得临界值(5).结论结论:f 的值的值,则拒绝回归相同的假设则拒绝回归相同的假设,即拒绝即拒绝结构稳定性假定结构稳定性假定;另外另外,若若f的的p值低值低,则拒绝结构稳则拒绝结构稳定性假定定性假定.)2,()2()(2121knnkknnrsskrssrssfururrf检验步骤检验步骤: :1rss2rss21rssrssrssur11,22, ,kk rrssf1.1.用虚拟变量只需做一个回归

40、。用虚拟变量只需做一个回归。2.2.一个回归可以做各种检验。截距检验和斜率检一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。验都可以一次完成。3.3.邹至庄检验没有明确告诉是哪一个系数发生变邹至庄检验没有明确告诉是哪一个系数发生变化,而虚拟变量模型则可以很清楚看出这一点。化,而虚拟变量模型则可以很清楚看出这一点。4.4.合并后样本容量变大,估计精度也有所提高合并后样本容量变大,估计精度也有所提高虚拟变量法相比邹至庄检验的优越性:虚拟变量法相比邹至庄检验的优越性: 被解释变量也可以是定性变量,因此,可以用虚被解释变量也可以是定性变量,因此,可以用虚拟变量表示。虚拟被解释变量在日常经济活

41、动中常拟变量表示。虚拟被解释变量在日常经济活动中常表现在人们的决策行为上,即对某一问题人们要作表现在人们的决策行为上,即对某一问题人们要作出出“是是”或或“否否”的回答,如是否购买家用汽车,的回答,如是否购买家用汽车,是否购买人寿保险,企业是否在某个地区投资等。是否购买人寿保险,企业是否在某个地区投资等。 当被解释变量只取有限个离散值,特别是只取两当被解释变量只取有限个离散值,特别是只取两个值时,所建立的模型被称为离散选择模型。离散个值时,所建立的模型被称为离散选择模型。离散选择模型的目的是对被解释变量取值的概率建模,选择模型的目的是对被解释变量取值的概率建模,而不是直接预测其取值。常用的模型

42、有线性概率模而不是直接预测其取值。常用的模型有线性概率模型和非线性概率模型(包括型和非线性概率模型(包括logit模型和模型和probit模模型)。型)。六、虚拟被解释变量六、虚拟被解释变量1 1 线性概率模型(线性概率模型(lpm)lpm)|0(1)| 1()|(01一、模型2121iiiiiiiiiiixypxypxxyexyuxylpm是则不拥有住房的概率就概率为记家庭拥有住房的条件条件期望:表示家庭收入,没有住房,如果拥有住房其中,为以下形式:以双变量模型为例,则1)|(010)| 1()| 1(1 (0)| 1(1)|(iiiiiiiiiiixyepxypxypxypxye有约束条件

43、之间与必须落在概率注意:二者相等。率的关系是怎样的?问:条件期望与条件概12(/)iiie yxxp即条件期望事实上可解释为条件期望事实上可解释为y在给定在给定 x下事件下事件(家庭拥有住宅)的条件概率,该线性模型称(家庭拥有住宅)的条件概率,该线性模型称为线性概率模型为线性概率模型 (lpm)1212i12i1(11p01p:iiiiiiiiiiiiiuyuyxuyuxyuxu 、 的非正态性只取两个值,而),因此 也取两个值。当时,概率为当时,概率为显然,我们不能再假定 是正态分布的:实际上它遵循二项分布的估计问题二、 lpm前面假设干扰项服从正态分布。但在前面假设干扰项服从正态分布。但在

44、线性概率模型中干扰的正态性不成立线性概率模型中干扰的正态性不成立iiiiippxxu111010后果后果l 虽然虽然u不服从正态分布,不服从正态分布,l 即对参数的估计不会产生影响,因为即对参数的估计不会产生影响,因为ols估计估计的无偏性、有效性与的无偏性、有效性与u的概率分布无关。的概率分布无关。l 但进行检验但进行检验t、f检验等统计推断时,却要求误检验等统计推断时,却要求误差项服从正态分布。差项服从正态分布。l 根据中心极限定理可知,在大样本情况下二项根据中心极限定理可知,在大样本情况下二项分布趋近于正态分布,所以这时仍然可以在正分布趋近于正态分布,所以这时仍然可以在正态分布假定下进行

45、统计推断。态分布假定下进行统计推断。ols但是点估计仍然是无偏的。是同方差的。但是不能说和即使具有异方差性)(ijiiujiuueueu),(0)(0)(1 概率 总和 1iuix21ix211ip1ip的异方差性:、iu22222121222121212121212var( )( )()( )0)var( )()() (1) (1) ( )() (1) (1) ()()(1)(1)(iiiiiiiiiiiiiiiiiiiiue ue ue ue uue uxpxpxxxxxxppuyx 条件期望条件概率)的方差与 的条件期望有关,而后者当然又依赖与 的取iuols值。不是同方差性的。因此具有

46、异方差性,这时就不能用估计模型中的参数。随机误差项的方差随机误差项的方差 iiiiippxxu11101012(2),(),(1)/iiiiiiiiiiolswlsppwywwxwuwols校正当异方差性出现时,估计虽然无偏,却不是有效的。解决异方差的方法是进行模型变换 用加权最小二乘法给模型两边同除以,得:则新方程得扰动项是同方差的。因此可用估计其中的参数。01(3)(1)310,100112log0,iiiiiiiwolsyxwwyylpmitprobit权数是未知的,如何处理?用方法估计原回归方程得到再由此求 的估计值、条件期望的值域区间问题()在中,条件期望值可能超出区间;可以将小于

47、的值改为 ;大于 的值改为。这是人为的把大概率事件当作必然事件,把小概率事件当作不可能事件。( )在模型和模型中,可以保证条件期望的值域区间在1。线性概率模型:一个数值例子线性概率模型:一个数值例子我们用一个数值例子来说明线性概率模型的一我们用一个数值例子来说明线性概率模型的一些问题。表些问题。表8.18.1给出给出4040各家庭的住宅所有权各家庭的住宅所有权y y(1 1拥有住宅,拥有住宅,0 0不拥有住宅)和家庭收入不拥有住宅)和家庭收入x x(千美元)的虚构数据。根据这些数据,用(千美元)的虚构数据。根据这些数据,用olsols估计的线性概率模型如下:估计的线性概率模型如下: (0.11

48、280.1128)()(0.00820.0082) t t(-7.6984-7.6984)()(12.51512.515) (8.18.1)0.94570.1021iiyx 20.8048r 解释解释l 首先我们来解释这一回归。截距值首先我们来解释这一回归。截距值-0.9457-0.9457给给出零收入的家庭拥有自己的住房的概率。由于出零收入的家庭拥有自己的住房的概率。由于是负值,而概率又不可能是负值,我们就把该是负值,而概率又不可能是负值,我们就把该值当作零看待,这样做在本例中是说得过去的。值当作零看待,这样做在本例中是说得过去的。 斜率值斜率值0.10210.1021意味着收入每增加意味着

49、收入每增加1 1单位,平均单位,平均地说拥有住宅的概率增加地说拥有住宅的概率增加0.10210.1021或约或约1010。l 当然,对某一给定的收入水平,我们可以从当然,对某一给定的收入水平,我们可以从(8.18.1)估计出拥有住宅的实际概率。例如,)估计出拥有住宅的实际概率。例如,对于对于x x1212(1200012000美元),估计拥有住宅美元),估计拥有住宅 的概率是的概率是(/12)0.9457 12(0.1021).iyx 0 2795wlswls估计估计就是说,收入为就是说,收入为12000 12000 美元的家庭拥有住宅的美元的家庭拥有住宅的概率为概率为2828。对于上面的估计

50、受异方差的影响,因此我们可对于上面的估计受异方差的影响,因此我们可以用以用wlswls来获得更有效的估计值。由于某些是来获得更有效的估计值。由于某些是负的,和某些负的,和某些 大于大于1 1,对于这些,对于这些 来说,来说, 将将是负的,因此删去这些值是负的,因此删去这些值 。得到的。得到的wlswls回归为:回归为:11.24560.1196iiiiiyxwww iyiyiyiw (0.1206) (0.0069) t (-10.332) (17.454)20.9214r 4、拟和优度通常情况下,拟和优度不会太高,在0.2至0.6之间,当实际的散点非常密集在点a和b处时, 才会高。1ylpm

51、x0受约束)(b.1ylpmx0无约束)(a.ab2r 非线性概率模型非线性概率模型21230,14iiilpmuuyr问题的提出:的局限:() 非正态( ) 异方差( ) 在之外( )一般比较小应当指出的是,应当指出的是,虽然我们可以采用虽然我们可以采用wls解决异方差解决异方差性问题、增大样本容量减轻非正态性问题,通过约性问题、增大样本容量减轻非正态性问题,通过约束迫使所估的事件束迫使所估的事件y发生的概率落入发生的概率落入0-1,但是,但是,lpm与经济意义的要求不符:随着与经济意义的要求不符:随着x的变化,的变化,x对对的的 “边际效应边际效应”保持不变。即不论保持不变。即不论x的变化

52、是在什的变化是在什么水平上发生的,参数都不发生变化,显然这与现么水平上发生的,参数都不发生变化,显然这与现实经济所发生的情况是不符的。实经济所发生的情况是不符的。 2 2 对数单位模型(对数单位模型(logit model)logit model) 因此,表现概率平均变化比较理想的模型应当具有这样的特因此,表现概率平均变化比较理想的模型应当具有这样的特征:征:(1 1)随着随着 增加,增加, 也增加,但不超出也增加,但不超出0-10-1这个区间。这个区间。 (2)随着)随着x变小变小,概率趋于零的速度越来越慢,而随着概率趋于零的速度越来越慢,而随着 x变变得很大,概率趋于得很大,概率趋于1的速

53、度也越来越慢的速度也越来越慢”。p随随x变化而变化,变化而变化,且变化速率不是常数,且变化速率不是常数,p和和x之间是非线性关系。之间是非线性关系。(1/)iipe yxx1p0ix12()121211(1|)(|)(1)1:(1|)(|)11101iiiiiiixiiiiiiiiziilogitlogitpp yxe yxelpmpp yxe yxxzxpezp 一、模型、模型中条件概率的表达式比较令则( )变为(1)当从变到, 从 变为 。(2)有一个拐点,在拐点之前,随z或x增大,p的增长速度越来越快;在拐点之后,随z或x增大,p的增1长速度越来越慢,逐渐趋近于 。这是一个(累积这是一个

54、(累积)逻辑斯逻辑斯蒂蒂分布函数为名的模型分布函数为名的模型(对数单位模型对数单位模型) 这些特征正好满足前面讨论的非线性概率模型的要求这些特征正好满足前面讨论的非线性概率模型的要求。机会表示有利于拥有住房的则且表示拥有住房的概率,如:”(、线性化与“机会比率1:42 . 0/8 . 0)1/(8 . 0111111) 2212121)()(iiiixiixixippppeppepepratiooddsiii即一个家庭拥有住房的概率对不拥即一个家庭拥有住房的概率对不拥有住房的概率之比。有住房的概率之比。现在现在 就是有利于拥有住房的机会比就是有利于拥有住房的机会比率率一个家庭将拥有住房的概率对

55、不拥有住一个家庭将拥有住房的概率对不拥有住房的概率之比。房的概率之比。对对 取自然对数得:取自然对数得: 即机会比率的对数即机会比率的对数 不仅对不仅对 为线性,而且对为线性,而且对参数也是线性。参数也是线性。 被称为对数单位模型。被称为对数单位模型。1ippln()1iiiplp12ixilixl3.对数单位模型对数单位模型121ixiipep1 1、 从从0 0变到变到1 1,对数单位从,对数单位从 变到变到 2 2、虽然、虽然 对对 为线性,但概率本身却不然。为线性,但概率本身却不然。3 3、斜率系数给出、斜率系数给出 每单位变化的每单位变化的 的变化,它告的变化,它告知人们随着收入变化

56、一单位,有利于拥有住房的知人们随着收入变化一单位,有利于拥有住房的对数对数机会比率是怎样变化的。截距是当收入为机会比率是怎样变化的。截距是当收入为零时的有利于拥有住房的对数零时的有利于拥有住房的对数机会比率的值。机会比率的值。4 4、对给定的某个收入水平,我们其实想估计的并、对给定的某个收入水平,我们其实想估计的并不是有利于拥有住房的机会比,而是拥有住房本不是有利于拥有住房的机会比,而是拥有住房本身的概率。身的概率。5 5、对数单位模型假定机会比率的对数与、对数单位模型假定机会比率的对数与 有线有线性关系。性关系。plxxlx对数模型的特点:对数模型的特点:会出现无穷大量。这些数代入模型的左边

57、。否则有住宅的数据,那么当家庭拥庭困难。如果只有个别家数值。这时会遇到一些,还需要知道对数值除了解释变量的数据外为了估计模型模型的估计二、0, 1)1ln(21iiiiiiiippluxppllogit在这种情形下只有用最大似然估计求解,另外在这种情形下只有用最大似然估计求解,另外的一种估计方法,当我们拥有的数据如下表所的一种估计方法,当我们拥有的数据如下表所示时可以用示时可以用ols求解。求解。用用olsols求解求解1.数据构造 (收入以 的家庭个数) (其中拥有住房的家庭数)640885012106018402520ixinixin注:有异方差估计、频率代替概率iiiiiiixpplol

58、snnp21)1ln(32)1 (1, 04iiiiiippnnuxn分布的二次式变量,则视为同一个独立中的每一次观测都可以定收入组相当大于且如果在一给当、随机扰动项的分布 显然模型中存在异方差,因此我们考虑使用加权显然模型中存在异方差,因此我们考虑使用加权最小二乘法,权重取。用代替则可求出最小二乘法,权重取。用代替则可求出:21iipip2i21(1)iin pip。注:样本应当合理得大设。建立置信区间和检验假用估计用模型的回归步骤、olsstepuxwlolsstepppnwwuwxwwlsteppplstepnnpsteplogitiiiiiiiiiiiiiiiiiiiii:5/:4)1

59、 (1/:3)1ln(:2:15*21*211325. 420)1 (1/20/,20202921. 09627. 04456.1429.140054. 01115. 00787. 0/5932. 1log*22*iiiiiiiippnwxxxrtxwliti概率?单位的家庭拥有住房的问:收入水平为)()()()(子模型估计的一个数值例三、495. 09803. 01)1ln(0199. 009441. 0*iliiiiiiipepppplwllli得得而再求代入回归式得 为了解释二分应变量,有必要使用适为了解释二分应变量,有必要使用适当当cdfcdf。对数单位模型使用的是累积逻辑。对数单位模

60、型使用的是累积逻辑斯蒂函数。在实际应用中发现正态斯蒂函数。在实际应用中发现正态cdfcdf效效果也不错。使用正态果也不错。使用正态cdfcdf的估计模型通常的估计模型通常称为概率单位模型。称为概率单位模型。 引入概率单位模型有两种途径:一是引入概率单位模型有两种途径:一是模仿前面逻辑斯蒂函数的形式,直接用正模仿前面逻辑斯蒂函数的形式,直接用正态分布函数替换;二是依据态分布函数替换;二是依据麦克法登麦克法登的效的效用理论或行为的理性选择引入概率单位模用理论或行为的理性选择引入概率单位模型。型。3 3 概率单位模型概率单位模型(probit model)(probit model)直接用正态分布函

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论