




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
虚拟变量模型,(一)虚拟变量的基本含义,许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。 但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。,例如,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历,一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。,概念:,同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析模型。 一个以性别为虚拟变量考察企业职工薪金的模型:,其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。,(二)虚拟变量的引入,虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。,上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为:,1. 加法方式,企业男职工的平均薪金为:,几何意义:,假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。,0,2,男职工,女职工,工龄X,薪金Y,可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。,例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: 105 + x D = 1 (男) y = - 100 + x - 5D = 100 + x D = 0 (女),又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。,教育水平考虑三个层次:高中以下, 高中, 大学及其以上。,这时需要引入两个虚拟变量:,模型可设定如下:,在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:,高中以下:,高中:,大学及其以上:,假定32,其几何意义:,还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。,如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:,本科及以上学历 本科以下学历,职工薪金的回归模型可设计为:,女职工本科以下学历的平均薪金:,女职工本科以上学历的平均薪金:,于是,不同性别、不同学历职工的平均薪金分别为:,男职工本科以下学历的平均薪金:,男职工本科以上学历的平均薪金:,虚拟变量的建立,对于具有k类的定性变量来说,设哑变量时,我们只设k-1个哑变量。 例 分析某地区妇女的年龄、文化程度、及居住地状况对其曾生子女数的影响。 定量变量: 年龄 定性变量:文化程度、地区 数据:妇女生育子女数,哑变量的建立,原变量编码值 哑变量赋值的操作 文化程度=1(文盲) 所有EDU=0 文化程度=2(小学) EDU2=1,其他EDU=0 文化程度=3(初中) EDU3=1,其他EDU=0 文化程度=4(高中) EDU4=1,其他EDU=0 文化程度=5(大学) EDU5=1,其他EDU=0 地区=1(城市) AREA=1 地区=2(农村) AREA=0,应用软件建立回归方程,回归结果:,回归方程的解释,当案例在两个分类变量都等于0时,即文化程度为文盲,居住地在农村时,此种情况称为参照类(其他情况将于此进行比较),其回归方程为: 表明所有参照类妇女年龄每上升1岁,其曾生子女数的平均变化量为0.068个。,回归方程的解释,当文化程度为小学,居住地为农村时: 表明,对于相同年龄和居住地而言,小学文化程度妇女比文盲妇女曾生子女数多出b2个部分,即少生1.13个子女。,回归方程的解释,当教育程度为文盲、居住地为城市时,,表明,对于相同年龄和文化程度而言,城市妇女比农村妇女曾生子女数多出b6个部分,即少生0.49个子女。,回归方程的解释,总之,该回归方程表示: 参照类妇女曾生子女数对年龄的回归直线的截据为1.41,年龄每上升1岁,参照类妇女的平均曾生子女数上升0.068个。 城市妇女比农村妇女的平均曾生子女数少0.49个。 小学、初中、高中和大学文化程度妇女的平均曾生子女数分别比文盲妇女少1.13、1.31、1.58、1.57个(在年龄和居住地相同时)。,回归方程的解释,文化程度在实际中是一个序次变量。可以用 表示序次变量个相邻分类的实际效应,如初中的边际效应为:,类似,可以计算下面的边际效应: 小学= -1.13 初中= -0.18 高中= -0.27 大学= 0.01,2. 乘法方式,加法方式引入虚拟变量,考察:截距的不同。 许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来测度。,例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。,如,设,消费模型可建立如下:,这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。 假定E(i)= 0,上述模型所表示的函数可化为:,正常年份:,反常年份:,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。,例,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。 下表中给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。,以Y为储蓄,X为收入,可令:,1990年前: Yi=1+2Xi+1i i=1,2,n1 1990年后: Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种: (1) 1=1 ,且2=2 ,即两个回归相同,称为重合回归;,(2) 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归; (3) 1=1 ,但22 ,即两个回归的差异仅在其斜率,称为汇合回归; (4) 11,且22 ,即两个回归完全不同,称为相异回归。,可以运用邹氏结构变化的检验。这一问题也可通过引入乘法形式的虚拟变量来解决。,将n1与n2次观察值合并,并用以估计以下回归:,Di为引入的虚拟变量:,于是有:,可分别表示1990年后期与前期的储蓄函数。,在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。,具体的回归结果为:,(-6.11) (22.89) (4.33) (-2.55),由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为:,1990年前:,1990年后:,=0.9836,3. 临界指标的虚拟变量的引入,在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。 例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。,则进口消费品的回归模型可建立如下:,这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:,OLS法得到该模型的回归方程为:,则两时期进口消费品函数分别为:,当tt*=1979年,,当tt*=1979年,,(三)虚拟变量的设置原则,虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:,则冷饮销售量的模型为:,在上述模型中,若再引入第四个虚拟变量:,则冷饮销售模型变量为:,其矩阵形式为:,如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:,显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的“虚拟变量陷阱”,应避免。,用虚拟变量区别不同历史时期中国进出口贸易总额数据(1950-1984)。 试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下 0 (1950 - 1977) D = 1 (1978 - 1984),以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) 0.37 + 0.066 time (D = 0, 1950 - 1977) = - 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。,19901997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,19982002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下,天津市粮食市场小麦批发价与面粉零售价的关系研究,首先看天津市粮食市场小麦批发价格的变化情况,天津市粮食市场小麦批发价与面粉零售价的关系研究,首先看天津市粮食市场小麦批发价格的变化情况,1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。,天津市粮食市场小麦批发价与面粉零售价的关系研究,首先看天津市粮食市场小麦批发价格的变化情况,其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。,散点图,按时间分析这些观测点的变化情况,直接拟合这些数据效果将很差(R2 = 0.027, r = 0.17),利用虚拟变量技术,在模型中加入虚拟变量。定义 D = 0,(1995: 11996:6,面粉零售价格放开之前), D = 1,(1996:72002:12,面粉零售价格放开之后)。 取对数关系建立模型。 Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale变量,得估计结果,PRICE = 2.140 + 1.1215 LnsaleD 7.7458D (131.5) (23.9) (-23.0) R2 = 0.9054, PRICE = 2.140, D=0 PR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 费用结算面试题及答案
- 校医院药品安全知识培训课件
- 栓绳安全知识培训内容课件总结
- 2025年建店培训合同范文
- 工会知识竞赛题库含参考答案
- 2025年初级育婴师执业资格模拟考试题库及答案
- 2024年设备监理师考试题库附答案【培优b卷】
- 高压电工实操考试题库(附答案)
- 标点符号的用法课件
- 标准作业基础知识培训课件
- 某工业区供水管道工程施工组织设计
- 防山体滑坡应急预案
- 江苏省社会组织网上办事系统-操作手册
- DB37-T 3079-2017特种设备事故隐患排查治理体系细则
- 2023版江西省乡镇卫生院街道社区卫生服务中心地址医疗机构名单(1744家)
- 模具保养记录表
- 皮内针讲课课件
- 各种隔离标识
- 钢质防火门窗项目商业计划书范文参考
- 农村道路畅通工程路面加宽改造施工组织设计
- 德龙自卸车合格证扫描件(原图)
评论
0/150
提交评论