




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 虚拟变量的回归模型第一部分 学习目标和要求 本章主要介绍虚拟变量的基本概念及其应用。需要掌握并理解以下内容:(1) 虚拟变量的基本概念、虚拟变量分别作为解释变量和被解释变量的情形、虚拟变量回归模型的类型和解释变量个数选取规则;(2) 定量变量与不同数量定性变量(一对一、一对多和多对多)虚拟变量模型;(3) 应用虚拟变量改变回归直线的截距或斜率;(4) 分段线性回归;(5) 应用虚拟变量检验回归模型的结构稳定性、传统判别结构稳定性的方法及存在的缺陷、虚拟变量法比较两个回归方程的结构方法。第二部分 练习题一、解释下列概念:1虚拟变量2方差分析模型(ANOVA)3协方差模型(ANOCVA)4
2、基底5级差截距系数6虚拟变量陷阱二、简要回答下列问题:1虚拟变量在线性回归模型中的作用是什么?举例说明。2回归模型中虚拟变量个数的选取原则是什么?为什么?3如果现在有月度数据,在对下面的假设进行检验时,你将引入几个虚拟变量? A) 一年中的每月均呈现季节性波动趋势; B) 只有双数月份呈现季节性波动趋势。4如果现在让你着手检验上海和深圳两个股票市场在过去5年内的收益率是否有显著差异,如何使用虚拟变量进行?三、考虑如下模型: 其中,对前20个观察值取0,对后30个观察值取1。已知。(1) 如何解释和?(2) 这两组的均值分别是多少?(3) 已知。如何计算的方差?四、考虑如下模型: 其中代表一位大
3、学教授的年薪;为从教年限;为性别虚拟变量。 考虑定义虚拟变量的三种方式: (1)对男性取值1,对女性取值0; (2)对女性取值1,对男性取值2; (3)对女性取值1,对男性取值1; 对每种虚拟变量定义解释上述回归模型。是否有某个方法比另外的更好?说明你的理由。五、下表给出了1983年至1986年期间服装季度销售额的原始数据(单位:百万元):年度季度123419834190492768436912198445215522535072041985490259125972798719865458635965018607考虑如下两个模型: (A) (B) 其中,:第一季度:第二季度:第三季度:第四季度
4、 回答以下问题:(1) 估计模型(A);(2) 解释,;(3) 如何消除模型(A)中的季节性?(4) 模型(B)与模型(A)有什么区别?(5) 估计模型(B);(6) 比较两个模型的结果。六、考虑如下关于期望工作时间的对1543对夫妇调查后的回归结果(比率放在括号内): 其中为妻子希望每年花在工作上的小时数,以每年工作的小时数加上花在找工作上的时间之和计算;:妻子税后真实时薪;:丈夫在上一年度税后真实收入;:妻子的年龄;:妻子的受教育年数;:态度变量。若被调查者愿意工作而且其丈夫也同意其工作则取值1,否则为0;:态度变量。若被调查者的丈夫支持其工作则取值1,否则为0;:年龄低于6岁的子女数;:
5、年龄在613岁的子女数;回答以下问题:(1) 各非虚拟回归元系数的符号有经济含义吗?说明你的观点。(2) 如何解释虚拟变量和?这些虚拟变量统计显著吗?(3) 在这项研究中,一位妇女的年龄和受教育程度不是影响其劳动力参与决策的显著因素,你认为这是为什么?七、设有个高中毕业生和个大学毕业生构成总数为的总样本。考虑如下回归模型: 其中,表示以美元度量的小时工资;为虚拟变量,对大学毕业生取值为1,对高中毕业生取值为0。试利用公式,证明和。其中下标具有如下含义:表示高中毕业生,表示大学毕业生。八、在51个学生(其中男生36人,女生15人)的体重(W)对身高(H)的回归分析中,得到下面的结果: 1 2 3
6、其中体重的单位为磅,身高的单位为英寸,为乘积或差别斜率虚拟变量,为性别虚拟变量:参考下面的相关矩阵,回答问题(1)(6)。解释:例如,身高和性别的相关系数是,性别和交互虚拟变量的相关系数是(1) 你将选择哪个回归?1还是2,为什么?在模型2与3中呢?(2) 如果实际较为理想的回归是2,那么选择1说明犯了什么错误?(3) 回归2中的性别虚拟变量说明了什么?(4) 回归模型2中差别截距是统计显著的,但在模型3中差别斜率却是统计不显著的。如何解释这种变化?(5) 在模型2与3中,变量身高的系数几乎相等,但性别虚拟变量的系数相差很大。对此你有什么想法?九、Paul W. Bauer 和Thomas J
7、. Zlatoper在研究决定开往Cleveland的直接机票的因素中得到下面的回归结果(表的形式)用以解释单程头等舱、二等舱和经济舱机票(因变量是单程机票)的价格。解释变量头等舱二等舱经济舱Carriers19.5023.0017.50=(0.878)(1.99)(3.67)Carriers2.794.002.19(0.632)(1.83)(2.42)Miles0.2230.2770.0791(5.13)(12.00)(8.24)Miles0.00000970.0000520.000014(0.495)(4.98)(3.23)POP0.005980.001140.000868(1.67)(4
8、.98)(1.05)INC0.001950.001870.00411(0.686)(1.06)(6.05)Corp3.621.221.06(3.45)(2.51)(5.22)Pass0.0008180.0002750.853(0.771)(0.527)(3.93)Stop12.507.643.58(1.36)(2.13)(2.60)Slot7.130.74617.70(0.299)(0.067)(3.82)Hub11.304.183.500.90(1.81)(1.62)Meal11.200.9451.80(1.07)(0.177)(0.813)EA18.305.8010.60(1.60)(0.
9、775)(3.49)CO66.4056.504.17(5.72)(7.61)(1.35)常数项212.00126.00113.00(5.21)(5.75)(12.40)0.8630.8710.799观察值个数163323323数据来源:Paul W. Bauer 和Thomas J. Zlatoper经济评论(Economic Review), Cleveland联邦储备银行,第25卷,第一期,1989年,表2、3、4,第67页。解释变量定义如下:Carriers 飞机数量 Pass 总乘客人数 Miles 从出发地到Cleveland的距离 Pop 出发地人口INC 出发地人均收入 Corp
10、 潜在商业交通代理 Slot Stop 中转站数 Meal Hub EA CO (1) 在这个模型中,引入变量载客人数和载客人数的平方为解释变量的理论依据是什么?载客人数符号为负和载客人数平方符号为正表明了什么?(2) 引入距离和距离的平方为解释变量的理论依据是什么?观察到的这些变量的符号有经济意义吗?(3) 观察到的人口变量符号为负,这有什么含义?(4) 为什么在所有的回归结果中人均收入变量符号都是负的?(5) 为什么“Stop”变量在“头等舱”和“二等舱”回归方程中的符号为正?而在“经济舱”回归方程中符号为负?(6) 虚拟变量“洲际航线”的符号始终为负。这表明了什么?(7) 估计每个回归系
11、数的显著性,分别用单边和双边检验。(8) 为什么虚拟变量“Slot”仅仅在“经济舱”回归方程中是统计显著的?(9) 由于“头等舱”和“经济舱”的观察值的个数相同,能否将他们加总起来(646个)作一个回归方程?如果可以,如何区别“二等舱”和“经济舱”的观察值?(10) 对上表中的回归结果进行评价。十、1966年的第四季度,当时的英国劳工党政府放松了国民保险法案的原则,以统一收费率和救济金与先前收入相关相结合的混合体系取代原来短期失业救济金的统一收费率体系,从而提高了失业救济金水平。根据以下数据:年份和季度失业率,岗位空缺率,年份和季度失业率,岗位空缺率,19581.1950.5100019651
12、.2010.9970019591.8760.541001.1921.035001.8420.541001.2591.040001.7500.690001.1921.086001.6480.7710019661.0891.1010019601.4500.836001.1011.058001.3930.908001.2430.987001.3220.968001.6230.81900.8191.2600.9980019671.8210.74010.74019611.1710.968001.9900.66110.6611.1820.964002.1140.66010.6601.2210.952002
13、.1150.69810.6981.3400.8490019682.1500.69510.69519621.4110.748002.1410.73210.7321.6000.658002.1670.74910.7491.7800.562002.1070.80010.8001.9410.5100019692.1040.78310.78319632.1780.510002.0560.80010.8002.0670.544002.1700.79410.7941.9420.568002.1610.79010.7901.7640.6770019702.2250.75710.75719641.5320.79
14、4002.2410.74610.7461.4550.838002.3660.73910.7391.4090.885002.3240.70710.7071.2960.9780019712.5160.58310.5832.9090.52410.524说明:上表中1971年数据为初步估计值。资料来源:Damodar Gujarati, “The Behavior of Unemployment and Unfilled Vacancies: Great Britain, 1958-1971,” The Economic Journal, vol. 82, March 1972, p. 202.考虑如
15、下的回归结果: 其中失业率,岗位空缺率,时间,以季度度量(1) 失业率和岗位空缺率的关系有何先验预期?(2) 保持岗位空缺率不变,在从1966年第4季度开始的期间内,平均失业率为多少?它与1966年第4季度之前的期间有显著差异吗?(3) 1966年第4季度之前和之后的斜率在统计上不同吗?(4) 根据这项研究,能断定慷慨的失业救济金导致更高的失业率吗?经济上是否讲得通?(5) 根据表中得数据,检验1958至1966和1966至1971两个子区间误差方差相同的假设。十一、下表是美国1985年第1季度至1991年第4季度给出的税后公司利润和净利润(亿美元)的季度数据。年份和季度红利税后利润年份和季度
16、红利税后利润198587.2125.31988117.5213.4198590.8124.81988121.0226.0198594.1129.81989124.6221.3198597.4134.21989127.1206.21986105.1109.21989129.1195.71986110.7106.01989130.7203.01986112.3110.01990132.3199.11986111.0119.21990132.5193.71987108.0140.21990133.8196.31987105.5157.91990136.2199.01987105.1169.11991
17、137.8189.71987106.3176.01991136.7182.71988109.6195.51991138.1189.61988113.3207.21991138.5190.3资料来源:U.S. Department of Commerce, Bureau of Economic Analysis, Business Statistics, 1963-1991, dividend and after-tax profits are in billions of dollars and are obtained from p.A-110.(1) 做红利对税后利润的回归。二者之间是否相
18、关?(2) 如果红利支付呈现出季节变动的趋势,引入一个适当的虚拟变量并对其进行估计。在建立的模型当中,如何考虑截距和斜率会随季节的不同而变化?(3) 在不考虑季节因素时,何时作对的回归?第三部分 参考答案一、解释概念:1虚拟变量:虚拟变量、定性变量、指标变量、名义变量和二分变量都指的是一种取值为0或1的变量。在现实经济生活中,有一类变量如季节、民族、性别等都可能成为影响某个因变量的重要因素,但这些变量反映的并不是数量,而是某种性质或属性,要纳入定量性质的回归模型,必须先定量化。因此我们可以构造一种特殊变量,只有1和0两种取值,并且规定当变量值取1是,表明具有某种性质或属性,取0时则表明不存在。
19、由于这种变量是人为虚构出来的,所以称为虚拟变量。2方差分析模型(ANOVA):一个只含有虚拟变量或定性解释变量的回归模型称为方差分析模型(Analysis-of-Variance,简记为ANOVA)。例如,在研究性别与收入关系时,可以定义虚拟变量,线性回归模型 ()就是一个方差分析模型。3协方差模型(ANOCVA):同时包含定量和定性解释变量的回归模型叫做协方差分析模型(Analysis-of-co-Variance,简记为ANCOVA)。例如,将上例更改为如下形式:其中表示工龄,其他含义不变。该协方差模型含有一个定量变量和一个定性变量。4基底:虚拟变量被富裕0值的那个类别通常被称为基底,主要
20、是因为它是用以和其他类别做比较的基础。例如,上述模型中,女性就是被用来做基底的,截距项就是基底类的截距。这是因为对进行回归时,截距是。需要注意的是,不管用哪一类作为基底,都不过是一种选择的结果,这种选择有时是根据某种事先考虑而做出的。5级差截距系数:附着于虚拟变量的系数,称为级差截距系数,表示取值为1的类别的截距值和基底类的截距值相比有多少差别。6虚拟变量陷阱:引入的虚拟变量个数应该比研究的类别少一个,否则就会造成完全多重共线,就是通常说的虚拟变量陷阱。二、简答题:1考虑到回归分析中定性变量的作用,引入虚拟变量后可以让线性回归模型成为一种极其灵活的工具。例如,在研究性别与收入关系时,可以定义虚
21、拟变量,对于线性回归模型 ()若假设成立,则说明收入与性别关系不大,否则说明收入与性别相关。虚拟变量不仅可以作为解释变量,也可以作为被解释变量。例如,银行在研究是否给企业贷款时,结果只有贷或者不贷。这种情况就可以用一个虚拟变量作为被解释变量来表示。2虚拟变量个数的选取的一般原则是:如果一个定性变量有个类别,则只需引入个变量。例如:为了区分两个类别(如男和女),我们只需要引入一个虚拟变量。这是由于性别只有两种可能,如果指男性,则我们可以知道指女性。如果不遵从这个原则,就将掉进虚拟变量陷阱,并陷入完全多重共线性的境地。3在一年中每月均呈现季节性波动趋势的情况下,引入11个虚拟变量;在只有双数月份呈
22、现季节性波动趋势的情况下,引入5个虚拟变量。 4分别建立如下回归方程:上海:;深圳:。问题转化为检验是否显著不为0。建立如下含有虚拟变量的回归方程:。其中是一个解释变量,也是虚拟变量。对复合方程进行回归,直接对解释变量实施t检验即可。三、(1)和(2)给出了前20次观测中的期望值,给出了后30次观测中的期望值的变化量,而后30次观测中的实际期望值为。 (3)根据随机变量之和的方差计算公式,我们有 首先计算得,然后利用有关双变量模型的公式,可以得到: 这两个变量之间得协方差为15,综上可得四、(1)男教授: 女教授: 保持不变,男性平均薪水高出(2)男教授: 女教授: 保持不变,男性平均薪水高出
23、(3)男教授: 女教授: 保持不变,男性平均薪水高出由于虚拟变量的度量是任意的,所以没有哪一种方法会比其他方法更好。对于给定的数据,答案不会随着虚拟变量尺度的变化而变化。五、(1) (2):第一季度的平均销售额为4767.8万元;:第二季度比第一季度的销售额平均高出912.25万元;:第三季度比第一季度的销售额平均高出1398.8万元;:第二季度比第一季度的销售额平均高出2909.8万元; (3)为了消除数据的季节性,只需将每季度的原始数据减去相应季度虚拟变量的系数估计值即可。 (4)模型(B)对每一季度都使用了虚拟变量,但为了避免虚拟变量陷阱问题而抑制了常数项。 (5)(6)对各季度的平均销
24、售额的估计值一样。六、(1)根据经济理论,预期和的系数为正;、和的系数为负;的系数可正可负,取决于妻子的年龄和子女数量。可能年龄与6岁以下子女数或613岁子女数之间的交互项更有助于阐明年龄与意愿工作小时数之间的关系。(2)保持所有其他因素不变,预计意愿工作小时数会高于(共同的)截距1286小时。但这个系数的符号为负,不过由于它在统计上不显著,所以我们就对(平均)的影响也无话可说。至于,其符号预期为正,结果也的确如此。不仅如此,它还是统计显著的,因为值相当高。(3)可能是由于年龄和受教育程度之间以及它们与子女数之间的共线性所致。还要注意的是这个模型并不包括丈夫完成的受教育年限。七、根据公式,我们
25、知道: 现在很容易验证;若,则,若,则。方程中的分母可以写成: 方程中的分子可以写成: 所以有,代入截距公式即可得到。八、(1) 在1和2中选择2。因为根据实际经验,不同性别的体重会有较明显的差异,因而需要把性别考虑进来;(2) 在2和3中选择2,因为模型3中、都不是显著的;(3) 模型设定偏差;(4) 说明了性别因素对体重的影响;(5) 说明性别因素会影响体重,但不一定会对斜率产生影响;(6) 模型2认为身高系数不受性别不同的影响,但不同性别的截距是不同的;模型3则认为性别不同不但影响截距,对身高系数也有影响。九、(1) 理论依据:飞机数量的增多,会使总体机票价格下降,但下降的幅度并不是线性
26、的,而是曲线的。飞机数量系数为负表明其与机票价格负相关,平方的系数为负表明其与价格之间的关系不是线性的。(2) 理论依据:机票价格随距离加长而上升,但并不是线性上升,上升趋势是逐渐变缓的。(3) 机票价格随乘客人数增多而下降。(4) 人均收入高,乘坐飞机人数会更多,有助于摊低成本,从而机票价格会下降。(5) 中转站数多表明短途旅客多。由于路程短,经济舱机票就卖的较多,而头等舱和二等舱则相反。(6) 表明洲际航线价格较低。(7) 提示:由于观察值的个数足够大,因此在5的显著水平下,可以用正态分布近似t分布。(8) 说明此项服务只对经济舱有影响。(9) 可以。设即可。(10) 从表中的回归结果可以发现:对于头等舱机票的价格,只有从出发地到Cleveland的距离(Miles)、潜在商业交通代理(Corp)、是否为洲际航线(CO)3个因素对其有明显的影响,而其他因素我们均不能拒绝其偏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论