含定性变量的回归模型.doc_第1页
含定性变量的回归模型.doc_第2页
含定性变量的回归模型.doc_第3页
含定性变量的回归模型.doc_第4页
含定性变量的回归模型.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1 两个值的虚拟自变量。例如,在研究粮食产量问题,需考虑正常年份和干旱年份,对这个问题就可以引入虚拟变量D,令D=1表示正常年份,D=0表示干旱年份。当在某些场合定性自变量可能取多类值时,例如考虑销售量的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反映四个季度,可以引入自变量,如果这样引入会出现一个问题,即自变量之和恒等于1,构成了完全多重共线性。所以,一个定性变量有k类可能的取值时,只需要引入k-1个0-1型自变量。所以在分析季节因素的时候,引入3个0-1自变量即可。例1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。数据如下所示。序号yx1x2序号yx1x212352.301532653.8123463.211632654.6133652.801735674.2144683.511836583.7156582.601945883.5068673.212064364.81710852.6021904751812363.412279854.20912382.202389503.901013452.812498654.801123652.302598664.601223653.7126102354.801332564127101404.201432562.90建立y对x1,x2的线性回归模型,回归方程为:=-7976+3826x1-3700x2这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。如果不引入家庭学历定性变量x2,仅用y对家庭年收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质或属性。二、单因素方差模型推断统计中的单因素方差分析、无交互作用的双因素方差分析和有交互作用的双因素方差分析模型,都可以转化为0-1型自变量的回归分析模型。下面以单因素方差为例。下面给出的先是单因素方差分析的结果。单因素方差分析:行业因素是否影响投诉次数零售业旅游业航空公司家电制造业5768314466394951492921654045347734564058535144方差分析:单因素方差分析SUMMARY组观测数求和平均方差零售业734349116.6667旅游业628848184.8航空公司517535108.5家电制造业529559162.5方差分析差异源SSdfMSFP-valueF crit组间1456.6093485.5362323.4066430.0387653.12735组内270819142.526316总计4164.60922将上面的单因素方差分析转化为0-1型自变量的回归分析模型。设是正态总体的样本,原假设为,记,则有,进而有,记,则有,引入0-1型自变量,将上式表示为,其中,. ,即为多元线性回归模型。但其中存在一个问题,就是c个自变量之和恒等于1,存在完全的多重共线性。为此需要删除建立回归模型即可。这个回归方程的显著性检验的原假设为:,由可知。方差分析的原假设和回归方程的假设是等价的。作回归方程的F检验与单因素方差分析的F检验是等价的。下面将刚才的例子转化为0-1型自变量的回归分析模型。将例子的数据整理如下。投诉次数(y)行业x1x2x357零售业10066零售业10049零售业10040零售业10034零售业10053零售业10044零售业10068旅游业01039旅游业01029旅游业01045旅游业01056旅游业01051旅游业01031航空公司00149航空公司00121航空公司00134航空公司00140航空公司00144家电制造业00051家电制造业00065家电制造业00077家电制造业00058家电制造业000对上面数据进行回归分析,得到结果如下所示。SUMMARY OUTPUT回归统计Multiple R0.591404124R Square0.349758837Adjusted R Square0.24708918标准误差11.93843858观测值23方差分析dfSSMSFSignificance F回归分析31456.609485.53623.4066430.038764525残差192708142.5263总计224164.609Coefficients标准误差t StatP-valueLower 95%Upper 95%C595.33903211.050691.03E-0947.8252775370.17472x1-106.990434-1.430530.168807-24.631146174.631146x2-117.229084-1.521630.144571-26.130645754.130646x3-247.550532-3.178580.004946-39.80344407-8.19656从线性回归的方差分析表可以看出,单因素方差分析表和回归模型的方差分析表是一样的。从回归系数表中还可以看出X3的回归系数与其它系数存在差异,这与方差分析的多重比较分析结果也是一样的。所以,如果所建立的回归模型其中的自变量全是定性变量,称这样的回归模型为方差分析模型,如果模型中既包含数量变量,又包含定性变量,其中以定性自变量为主,称这样的模型为协方差模型。三、自变量中含有定性变量的回归模型的应用1、分段回归在实际问题中,会碰到某些变量在不同的影响因素范围内变化趋势截然不同,例如经济问题涉及经济政策较大调整时,调整前与调整后的变化幅度会有很大不同。对于这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残差不是随机的,而具有一定的系统性。对这类问题可以考虑分段回归的方法来处理。例:下表是某工厂生产批量x与单位成本y的数据,试用分段回归建立回归模型。序号yx1x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800做出y与x1的散点图,可以看出当生产批量大于500时,成本可能服从另一种线性关系,可以考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。假定回归直线的斜率在x=500处改变。则可以建立回归模型:,其中,为了方便起见,引入两个新的自变量x1,x2。这有,其中x1为生产批量,x2数值列在表中,这样回归模型可以转化为,该式子可以分解为两个线性回归方程:当时,当时,则得到,于是和分别是两条回归线的斜率,和是2个y的截距。用普通最小二乘法拟合回归方程得:=5.895-0.00395x1-0.00389x2,利用模型可说明生产批量小于500时,每增加1个单位批量,单位成本降低0.00395;生产批量大于500时,每增加1个单位批量,单位成本降低0.00395+0.00389=0.00784美元;这里只是为了说明分段回归的方法,进一步做统计检验会发现x2的系数并不显著,这里不过多讨论。2、回归系数相等的检验在第一个例子的问题中,引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率与家庭年收入无关,家庭年收入只影响回归常数项,这个假设是否合理,还需要作统计检验,检验方法是引入如下含有交互效应的回归模型,其中y为上一年家庭储蓄增加额,x1为上一年家庭总收入,x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。所以回归模型可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1: 低学历家庭x2=0: 可见,高学历家庭的回归常数为,回归系数为;低学历家庭的回归常数为,回归系数为。要检验这两个回归方程的回归系数相等,等价于检验回归模型参数的假设检验,当拒绝时,认为0,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受时,认为=0,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型。四、因变量是定性变量的回归模型1、定性因变量的回归方程的意义设y是只取0,1的定性变量,考虑简单线性回归模型,在这种y只取0,1的情况下,因变量均值有着特殊的意义。由于是0-1型贝努力随机变量,则得如下概率分布,根据离散型随机变量期望的定义,可得,所以,作为由回归函数给定的因变量均值是由自变量水平为时的概率。对因变量均值的这种解释既适应于这里的简单线性回归函数,也适用于复杂的多元回归函数。当因变量是0,1时,因变量均值总是代表给定自变量时y=1的概率。2、定性因变量回归的特殊问题(1)离散非正态误差项对一个取值为0和1的因变量,误差项只能取两个值:当时, 当时, 显然,误差项是两点型离散分布,当然正态误差回归模型的假定就不适用了。(2)零均值异方差当因变量是定性变量时,误差项仍然保持零均值,这时出现的另一个问题是误差项的方差不相等。0-1型随机变量的方差为: ,可以看到 的方差依赖于,是异方差,不满足线性回归方程的基本假定,最小二乘估计的效果也就不会好。(3)回归方程的限制当因变量为0,1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:,对一般的回归方程本身并不具有这种限制,线性回归方程将会超出这个限制范围。五、logistic回归模型1、分组数据的logistic回归模型针对0-1型因变量产生的问题,应该对回归模型做两个方面的改进。 第一,回归函数应该改用限制在0,1区间内的连续曲线,而不能再沿用直线回归方程。限制在0,1区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,常用的是Logistic函数与正态分布函数。Logistic函数的形式为 :第二,因变量本身只取0,1两个离散值,不适于直接作为回归模型中的因变量。由于回归函数表示在自变量为的条件下的平均值,而是0-1型随机变量,因而就是在自变量为的条件下等于1的比例。这提示我们可以用等于1的比例代替本身作为因变量。分组数据的logistic回归只适用于大样本的分组数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论