




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九讲虚拟变量模型的进一步讨论 含定性变量的回归模型 9 1自变量中含有定性变量的回归模型9 2自变量定性变量回归模型的应用9 3因变量是定性变量的回归模型9 4Logistic 逻辑斯蒂 回归9 5多类别Logistic回归9 6因变量是顺序变量的回归 9 1自变量中含有定性变量的回归模型 一 简单情况 首先讨论定性变量只取两类可能值的情况 例如研究粮食产量问题 y为粮食产量 x为施肥量 另外再考虑气候问题 分为正常年份和干旱年份两种情况 对这个问题的数量化方法是引入一个0 1型变量D 令 Di 1表示正常年份Di 0表示干旱年份 9 1自变量中含有定性变量的回归模型 粮食产量的回归模型为 yi 0 1xi 2Di i 其中干旱年份的粮食平均产量为 E yi Di 0 0 1xi 正常年份的粮食平均产量为 E yi Di 1 0 2 1xi 9 1自变量中含有定性变量的回归模型 例9 1某经济学家想调查文化程度对家庭储蓄的影响 在一个中等收入的样本框中 随机调查了13户高学历家庭与14户中低学历的家庭 因变量y为上一年家庭储蓄增加额 自变量x1为上一年家庭总收入 自变量x2表示家庭学历 高学历家庭x2 1 低学历家庭x2 0 调查数据见表9 1 9 1自变量中含有定性变量的回归模型 表9 1 9 1自变量中含有定性变量的回归模型 在线性回归对话框 建立y对x1 x2的线性回归 输出结果 9 1自变量中含有定性变量的回归模型 两个自变量x1与x2的系数都是显著的 判定系数R2 0 879 回归方程为 7976 3826x1 3700 x2 9 1自变量中含有定性变量的回归模型 这个结果表明 中等收入的家庭每增加1万元收入 平均拿出3826元作为储蓄 高学历家庭每年的平均储蓄额少于低学历的家庭 平均少3700元 如果不引入家庭学历定性变量x2 仅用y对家庭年收入x1做一元线性回归 得判定系数R2 0 618 拟合效果不好 9 1自变量中含有定性变量的回归模型 自变量x1的系数是显著的 回归方程为 7728 3264x1 9 1自变量中含有定性变量的回归模型 家庭年收入x1是连续型变量 它对回归的贡献也是不可缺少的 如果不考虑家庭年收入这个自变量 13户高学历家庭的平均年储蓄增加额为3009 31元 14户低学历家庭的平均年储蓄增加额为5059 36元 这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059 36 3009 31 2050 05元 而用回归法算出的数值是3824元 两者并不相等 回归方程为 9 1自变量中含有定性变量的回归模型 用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3700元 这是在假设两者的家庭年收入相等的基础上的储蓄差值 或者说是消除了家庭年收入的影响后的差值 因而反映了两者储蓄额的真实差异 而直接由样本计算的差值2050 05元是包含有家庭年收入影响在内的差值 是虚假的差值 所调查的13户高学历家庭的平均年收入额为3 8385万元 14户低学历家庭的平均年收入额为3 4071万元 两者并不相等 9 1自变量中含有定性变量的回归模型 二 复杂情况 某些场合定性自变量可能取多类值 例如某商厦策划营销方案 需要考虑销售额的季节性影响 季节因素分为春 夏 秋 冬4种情况 为了用定性自变量反应春 夏 秋 冬四季 我们初步设想引入如下4个0 1自变量 9 1自变量中含有定性变量的回归模型 可是这样做却产生了一个新的问题 即x1 x2 x3 x4 1 构成完全多重共线性 解决这个问题的方法很简单 我们只需去掉一个0 1型变量 只保留3个0 1型自变量即可 例如去掉x4 只保留x1 x2 x3 对一般情况 一个定性变量有k类可能的取值时 需要引入k 1个0 1型自变量 当k 2时 只需要引入一个0 1型自变量即可 9 2自变量定性变量回归模型的应用 一 分段回归 例9 2表9 3给出某工厂生产批量xi与单位成本yi 美元 的数据 试用分段回归建立回归模型 9 2自变量定性变量回归模型的应用 图9 1单位成本对批量散点图 9 2自变量定性变量回归模型的应用 由图9 1可看出数据在生产批量xp 500时发生较大变化 即批量大于500时成本明显下降 我们考虑由两段构成的分段线性回归 这可以通过引入一个0 1型虚拟自变量实现 假定回归直线的斜率在xp 500处改变 建立回归模型 yi 0 1xi 2 xi 500 Di i 来拟合 其中 9 2自变量定性变量回归模型的应用 引入两个新的自变量 xi1 xixi2 xi 500 Di 这样回归模型转化为标准形式的二元线性回归模型 yi 0 1xi1 2xi2 i 9 3 9 3 式可以分解为两个线性回归方程 当x1 500时 E y 0 1x1 当x1 500时 E y 0 500 2 1 2 x1 9 2自变量定性变量回归模型的应用 9 2自变量定性变量回归模型的应用 在线性回归对话框用普通最小二乘法拟合模型 9 3 式得回归方程为 5 895 0 00395x1 0 00389x2 利用此模型可说明生产批量小于500时 每增加1个单位批量 单位成本降低0 00395美元 当生产批量大于500时 每增加1个单位批量 估计单位成本降低0 00395 0 00389 0 00784 美元 9 2自变量定性变量回归模型的应用 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合 这一点还需要做统计的显著性检验 这只需对 9 2 式的回归系数 2做显著性检验 9 2自变量定性变量回归模型的应用 对 2的显著性检验的显著性概率Sig 0 153 2没有通过显著性检验 不能认为 2非零 用y对x做一元线性回归 计算结果为 9 2自变量定性变量回归模型的应用 二 回归系数相等的检验 例9 3回到例9 1的问题 例9 1引入0 1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率 1与家庭年收入无关 家庭年收入只影响回归常数项 0 这个假设是否合理 还需要做统计检验 检验方法是引入如下含有交互效应的回归模型 yi 0 1xi1 2xi2 3xi1xi2 i 9 8 其中y为上一年家庭储蓄增加额 x1为上一年家庭总收入 x2表示家庭学历 高学历家庭x2 1 低学历家庭x2 0 9 2自变量定性变量回归模型的应用 回归模型 9 8 式可以分解为对高学历和对低学历家庭的两个线性回归模型 分别为 高学历家庭x2 1 yi 0 1xi1 2 3xi1 i 0 2 1 3 xi1 i低学历家庭x2 0 yi 0 1xi1 i 9 2自变量定性变量回归模型的应用 要检验两个回归方程的回归系数 斜率 相等 等价于检验H0 3 0 当拒绝H0时 认为 3 0 这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型 当接受H0时 认为 3 0 这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型 yi 0 1xi1 2xi2 i 9 2自变量定性变量回归模型的应用 9 3因变量是定性变量的回归模型 在许多社会经济问题中 所研究的因变量往往只有两个可能结果 这样的因变量也可用虚拟变量来表示 虚拟变量的取值可取0或1 一 定性因变量的回归方程的意义 设因变量y是只取0 1两个值的定性变量 考虑简单线性回归模型 yi 0 1xi i 9 12 在这种y只取0 1两个值的情况下 因变量均值E yi 0 1xi有着特殊的意义 9 3因变量是定性变量的回归模型 由于yi是0 1型贝努利随机变量 则得如下概率分布 P yi 1 iP yi 0 1 i根据离散型随机变量期望值的定义 可得 E yi 1 i 0 1 i i 9 13 得到 E yi i 0 1xi 9 3因变量是定性变量的回归模型 二 定性因变量回归的特殊问题 1 离散非正态误差项 对一个取值为0和1的因变量 误差项 i yi 0 1xi 只能取两个值 当yi 1时 i 1 0 1xi i当yi 0时 i 0 1xi 1 i 显然 误差项 i是两点型离散分布 当然正态误差回归模型的假定就不适用了 9 3因变量是定性变量的回归模型 2 零均值异方差性 当因变量是定性变量时 误差项 i仍然保持零均值 这时出现的另一个问题是误差项 i的方差不相等 0 1型随机变量 i的方差为D i D yi i 1 i 0 1xi 1 0 1xi 9 14 i的方差依赖于xi 是异方差 不满足线性回归方程的基本假定 9 3因变量是定性变量的回归模型 3 回归方程的限制 当因变量为0 1虚拟变量时 回归方程代表概率分布 所以因变量均值受到如下限制 E yi i 1 对一般的回归方程本身并不具有这种限制 线性回归方程yi 0 1xi将会超出这个限制范围 9 4 Logistic 回归模型 一 分组数据的Logistic回归模型 针对0 1型因变量产生的问题 我们对回归模型应该做两个方面的改进 第一 回归函数应该改用限制在 0 1 区间内的连续曲线 而不能再沿用直线回归方程 9 4 Logistic 回归模型 限制在 0 1 区间内的连续曲线有很多 例如所有连续型随机变量的分布函数都符合要求 我们常用的是Logistic函数与正态分布函数 Logistic函数的形式为 Logistic函数的中文名称是逻辑斯谛函数 或简称逻辑函数 9 4 Logistic 回归模型 第二 因变量yi本身只取0 1两个离散值 不适于直接作为回归模型中的因变量 由于回归函数E yi i 0 1xi表示在自变量为xi的条件下yi的平均值 而yi是0 1型随机变量 因而E yi i就是在自变量为xi的条件下yi等于1的比例 这提示我们可以用yi等于1的比例代替yi本身作为因变量 下面通过一个例子来说明Logistic回归模型的应用 9 4 Logistic 回归模型 例9 4在一次住房展销会上 与房地产商签定初步购房意向书的共有n 325名顾客中 在随后的3个月的时间内 只有一部分顾客确实购买了房屋 购买了房屋的顾客记为1 没有购买房屋的顾客记为0 以顾客的年家庭收入 万元 为自变量x 对如下的数据 建立Logistic回归模型 9 4 Logistic 回归模型 9 4 Logistic 回归模型 Logistic回归方程为 其中c为分组数据的组数 本例c 9 做线性化变换 直接在Transform ComputeVariable中进行 令 上式的变换称为逻辑 Logit 变换 得 pi 0 1xi i 9 16 9 18 9 17 9 4 Logistic 回归模型 在线性回归对话框中 注意变量名和意义 计算出经验回归方程为 0 886 0 156x 9 19 判定系数r2 0 9243 显著性检验P值 0 高度显著 还原为 9 16 式的Logistic回归方程为 利用 9 20 式可以对购房比例做预测 例如对x0 8 9 4 Logistic 回归模型 我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型 但是仍然存在一个不足之处 就是异方差性并没有解决 9 18 式的回归模型不是等方差的 应该对 9 18 式用加权最小二乘估计 当ni较大时 pi 的近似方差为 其中 i E yi 因而选取权数为 wi nipi 1 pi 9 4 Logistic 回归模型 用加权最小二乘法 输出结果 9 4 Logistic 回归模型 用加权最小二乘法得到的Logistic回归方程为 对x0 8时的购房比例做预测 9 4 Logistic 回归模型 二 未分组数据的Logistic回归模型 设y是0 1型变量 x1 x2 xp是与y相关的确定性变量 n组观测数据为 xi1 xi2 xip yi i 1 2 n yi与xi1 xi2 xip的关系为 E yi i f 0 1xi1 2xi2 pxip 其中函数f x 是值域在 0 1 区间内的单调增函数 对于Logistic回归 9 4 Logistic 回归模型 于是yi是均值为 i f 0 1xi1 2xi2 pxip 的0 1型分布 概率函数为 P yi 1 iP yi 0 1 i可以把yi的概率函数合写为 i 1 2 n 于是y1 y2 yn的似然函数为 9 4 Logistic 回归模型 代入得 对数似然函数 Logistic回归 极大似然估计就是选取 0 1 2 p的估计值使上式达极大 9 4 Logistic 回归模型 例9 5在一次关于公共交通的社会调查中 一个调查项目是 是乘坐公共汽车上下班 还是骑自行车上下班 因变量y 1表示主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班 自变量x1是年龄 作为连续型变量 x2是月收入 元 x3是性别 x3 1表示男性 x3 0表示女性 调查对象为工薪族群体 数据见表9 9 试建立y与自变量间的Logistic回归 9 4 Logistic 回归模型 9 4 Logistic 回归模型 依次点选SPSS软件的Analyze Regression BinaryLogistic命令 进入Logistic回归对话框 选入变量 点选OK运行 Select 用于限定一个筛选条件 只有满足该条件的记录才会被纳入分析 单击它后对话框会展开让你填入相应的条件 Options 可以对模型作精确定义 选择模型预测情况的描述方式 如StatisticsandPlots中的Classificationplots就是非常重要的模型预测工具 Correlationsofestimates则是重要的模型诊断工具 Iterationhistory可以看到迭代的具体情况 从而得知模型是否在迭代时存在病态 下方则可以确定进入和排除的概率标准 这在逐步回归中是非常有用的 9 4 Logistic 回归模型 以下是SPSS软件部分运行结果 9 4 Logistic 回归模型 X2 月收入 不显著 将其剔除 最终的回归方程为 9 4 Logistic 回归模型 三 Probit回归模型 Probit回归称为单位概率回归 与Logistic回归相似 也是拟合0 1型因变量回归的方法 其回归函数是 例9 6 仍然使用例9 4购房数据 正态分布累积分布函数图 9 5多类别Logistic回归 当定性因变量y取k个类别时 记为1 2 k 因变量y取值于每个类别的概率与一组自变量x1 x2 xp有关 对于样本数据 xi1 xi2 xip yi i 1 2 n 多类别Logistic回归模型第i组样本的因变量yi取第j个类别的概率为 9 34 9 5多类别Logistic回归 上式中各回归系数不是惟一确定的 每个回归系数同时加减一个常数后的数值保持不变 为此 把分母的第一项中的系数都设为0 得到回归函数的表达式 9 35 9 6因变量是顺序变量的回归 当定性因变量y取k个顺序类别时 记为1 2 k 这里的数字1 2 k仅表示顺序的大小 因变量y取值于每个类别的概率仍与一组自变量x1 x2 xp有关 对于样本数据 xi1 xi2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蒸汽杀菌锅知识培训要点
- 2025年社区卫生服务知识考试题库(附答案)
- 2025年普通处方权考试题及答案
- 2025诊所租赁合同范本参考
- 叉车实操考试全套试题及答案
- 2025年高考化学试题分类汇编:有机化学基础(含解析)
- 2025全面授权合同协议书汇编
- 物业安全生产试题及答案
- 2025年4月护理理论知识考试模拟题(含参考答案)
- 2025年北京市旅游合同范本(BF)
- 弱电智能化建设报价清单
- 应急第一响应人线上理论考试
- 北科大工业生态学教学大纲
- 四个坚持两个维护
- OQC岗前培训知识演示文稿
- 口服CCB类药品临床综合评价指标体系专家咨询调查表
- 如何做一名理性爱国者课件
- U8开发之单据控件
- 第四节道亨slw2d架空送电线路评断面处理及定位设计系统部分操作说明
- 初高中衔接数学教学的心得
- 测振仪使用方法
评论
0/150
提交评论