




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第9章含定性变量的回归模型 信计学院统计系沈菊红 2 变量的类型 间隔尺度 数值型变量 有序尺度 有次序关系 名义尺度 定性变量 定量变量 如身高 重量等连续的量 如某产品分上 中 下三等 如医学化验中的阴性 阳性 3 对定性变量数量化 只取0和1两个值的变量称为虚拟变量 4 虚拟变量的回归 9 1含有一个虚拟自变量的回归9 2用虚拟自变量回归解决方差分析问题9 3因变量是定性变量的回归模型9 4Logistic回归模型 5 含有一个虚拟自变量的回归 6 虚拟变量 dummyvariable 用数字代码表示的定性变量虚拟变量可有不同的水平只有两个水平的虚拟变量比如 性别 男 女 有两个以上水平的虚拟变量贷款企业的类型 家电 医药 其他 虚拟变量的取值为0 1 7 虚拟自变量的回归 回归模型中使用虚拟自变量时 称为虚拟自变量的回归当虚拟自变量只有两个水平时 可在回归中引入一个虚拟变量比如 性别 男 女 一般而言 如果定性自变量有k个水平 需要在回归中模型中引进k 1个虚拟变量 8 虚拟自变量的回归 例题分析 例 为研究考试成绩与性别之间的关系 从某大学商学院随机抽取男女学生各8名 得到他们的市场营销学课程的考试成绩如右表 9 虚拟自变量的回归 例题分析 散点图 y与x的回归 10 回归方程为 11 虚拟自变量的回归 例题分析 引进虚拟变量时 回归方程可写为 E y 0 1x男 x 0 E y 0 男学生考试成绩的期望值女 x 1 E y 0 1 女学生考试成绩的期望值注意 当指定虚拟变量0 1时 0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值 1总是代表与虚拟变量值1所对应的那个分类变量水平的平均值与虚拟变量值0所对应的那个分类变量水平的平均值的差值 即平均值的差值 0 1 0 1 12 虚拟自变量的回归 例题分析 例 为研究工资水平与工作年限和性别之间的关系 在某行业中随机抽取10名职工 所得数据如右表 y与x1的回归及分析 y与x1 x2的回归及分析 13 虚拟自变量的回归 例题分析 引进虚拟变量时 回归方程可写为 E y 0 1x1 2x2女 x2 0 E y 女性 0 1x1男 x2 1 E y 男性 0 2 1x1 0的含义表示 女性职工的期望月工资收入 0 2 的含义表示 男性职工的期望月工资收入 1含义表示 工作年限每增加1年 男性或女性工资的平均增加值 2含义表示 男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值 0 2 0 2 14 15 16 例题分析 例9 1 某经济学家想调查文化程度对家庭储蓄的影响 在一个中等收入的样本框中 随机调查了13户高等学历家庭与14户中低学历的家庭 因变量y为上一年家庭储蓄增加额 自变量为上一年家庭总收入 自变量表示家庭学历 高学历家庭 低学历家庭 调查数据见下表 17 18 19 建立对的线性回归 并计算残差 20 两个自变量与的系数都是显著的 复决定系数 回归方程为 该结果表明 中等收入的家庭每增加1万元收入 平均拿出3826元作为储蓄 高学历家庭每年的平均储蓄额少于低学历的家庭 平均少3701元 21 如果不引入学历定性变量 用对家庭年收入作一元线性回归 得说明拟合效果不好 对的一元回归残差见表中 22 如果不考虑家庭年收入 13户高学历家庭的平均年储蓄增加额为3008 62元 14户低学历家庭的平均年储蓄增加额为5059 36元 高学历家庭每年的储蓄额比低学历的家庭平均少5059 36 3008 62 2050 74元 而用前面的回归法算出的值是3701元 两者并不相等 3701元是在假设两者的家庭年收入相等的基础上的储蓄差值 反映了学历高低对储蓄额的真实差异 调整后的 23 说明 虽然虚拟变量取某一数值 但这一数值没有任何数量大小的意义 它仅仅用来说明变量的性质或属性 24 自变量中含有定性变量的回归模型的应用 25 一 回归系数相等的检验 例9 2 在例9 1中引入0 1型虚拟自变量的方法是假定储蓄增加额y对家庭收入的回归斜率与家庭年收入无关 只影响 该假定是否合理 需作统计检验 检验方法是引入含交互效应的回归模型 9 1 回归模型 9 1 可以分解为如下的两个线性回归模型高学历家庭 低学历家庭 9 2 9 3 26 要检验两个回归方程的回归系数相等 就是检验 当拒绝时 认为 这时高学历与低学历家庭的储蓄回归模型被拆分为两个不同的模型 9 2和 9 3 式 当接受时 认为 此时高学历与低学历家庭的储蓄回归模型是 9 4 拟合模型 9 1 回归系数检验如下表 27 从输出结果看到 应该接受 问题 是否首先剔除 否 因为与经济意义不符 对模型 9 2 与 9 3 当时 表明两个回归方程的常数项相等 当时 表明两个回归方程的斜率相等 28 二 用虚拟自变量回归解决方差分析问题 29 设是正态总体的样本 原假设为记则有进而有 记则上式改写为 引入虚拟自变量 将 2 式表示为多元线性回归模型 2 1 30 其中 由于c个自变量之和恒等于1 存在完全共线性 为此 剔除 建立回归模型 3 31 1 式回归方程显著性检验的原假设为 由可知 1 式和 4 式的两个原假设是等价的 作 4 式的显著性F检验 该检验与单因素方差分析的F检验是等价的 称自变量全是定性变量的回归模型为方差分析模型 如果模型中既包含数量变量 又包含定性变量 其中以定性自变量为主 称这样的模型为协方差模型 4 32 方差分析的回归方法 例题分析 引进虚拟变量建立回归方程 E Y 0 1x1 2x2 3x3 用Excel进行回归 0 家电制造业投诉次数的平均值 0 1 零售业投诉次数的平均值 0 2 旅游业投诉次数的平均值 0 3 航空公司投诉次数的平均值 33 使用虚拟变量需注意的问题 虚拟变量陷阱 若定性变量有k个类别 则引入k个虚拟变量将会产生完全多重共线性问题 避免方法 只引入 k 1 个虚拟变量 34 自变量中含有定性变量的回归模型的应用 三 分段回归 例9 2 用分段回归建立某工厂生产批量与单位成本 美元 的回归模型 35 单位成本对批量的散点图 36 假定回归直线的斜率在处改变 建立回归模型 来拟合 其中 9 5 模型 9 5 实际上是一个二元线性回归模型 记 则有 9 6 37 9 6 式可以分解为两个线性回归方程当时 9 6 式的回归方程为 9 7 当时 9 6 式的回归方程为 9 8 用普通最小二乘法拟合模型 9 6 38 39 用普通最小二乘法得回归方程为 对回归系数作显著性检验 不能认为本数据适合于折线回归拟合 此模型说明生产批量小于500时 每增加1个单位批量 单位成本降低0 004美元 当生产批量大于500时 每增加1个单位批量 单位成本降低0 004 0 004 0 008美元 40 作对的一元线性回归 41 一元回归方程为 42 因变量是定性变量的回归模型 因变量只有两个可能结果 可用虚拟变量来表示 定性因变量的回归方程的意义设因变量是只取0 1两个值的定性变量 对于线性回归模型因变量均值的意义由于是0 1型贝努利随机变量 则得概率分布 43 得 即有 由回归函数给定的因变量均值是自变量水平为时的概率 2 定性因变量回归的特殊问题 1 离散非正态误差项误差项只取两个值 44 2 零均值异方差性 回归方程的限制由于回归方程代表概率分布 所以 0 1型随机变量的方差 45 Logistic回归分析 LogisticRegressionAnalysis 46 Logistic回归分析 在医学研究中 经常要分析某种结果的产生与哪些因素有关 例如 生存与死亡 发病与未发病 阴性与阳性等结果的产生可能与病人的年龄 性别 生活习惯 体质 遗传等许多因素有关 如何找出其中哪些因素对结果的产生有显著性影响呢 Logistic回归分析能较好地解决这类问题 47 Logistic回归分析一 Logistic回归模型 48 1 Logistic回归模型的构造 若因变量为连续型正态定量变量时 可采用多元线性回归分析与变量之间的关系 现为发病或未发病 生存与死亡等定性分类变量 不能直接用上述模型进行分析 能否用发病的概率P来直接代替呢 用的比例代替本身作为因变量 回归函数是 0 1 区间的连续曲线 49 等式左边变化范围 P发病概率0 P 1 1 P不发病概率0 P 1 p 1 p比数 ratio 0 p 1 p ln p 1 p 对数比 ratio ln p 1 p 50 2 Logistic回归模型为 定义 为Logistic变换 Logistic回归模型为 51 Logit变换 经数学变换可得 exp表示指数函数 52 Logistic回归模型是一种概率模型 它是以疾病 死亡等结果发生的概率为因变量 影响疾病发生的因素为自变量建立回归模型 它特别适用于因变量为二项 多项分类的资料 在临床医学中多用于鉴别诊断 评价治疗措施的好坏及分析与疾病愈后有关的因素等 53 SPSS软件要求 对分类变量Y数量化 而且赋值为 发病 阳性 死亡 治愈等 未发病 阴性 生存 未治愈等 注意 即发病的概率 软件的要求 54 回归系数的意义 设只有一个自变量 Logistic方程为表示非暴露 1表示暴露 时的发病概率为 时的发病概率为 则优势比 相对危险度 55 56 logistic回归系数的意义 表示自变量每增加一个单位 其优势比的对数值的改变量 亦即自变量每增加一个单位 其相对危险度为 57 例如 吸烟与肺癌的关系的研究令吸烟肺癌不吸烟非肺癌 若求得 意思是 吸烟的人得肺癌的危险性是不吸烟的2 71828倍 58 注意变量X的赋值与OR的关系令0吸烟X 1不吸烟则求得 若求得 意思是 不吸烟的人得肺癌的危险性是吸烟的36 79 59 二 logistic回归的作用 1 建立logistic回归模型 2 预测预报若已知数值大小时 通过模型可以预测发病 死亡等的概率 3 因素分析寻找对发病 死亡等影响有显著性的因素 60 设研究问题中含有p个指标变量及Y 有n个观察对象 其数据结构为 编号12 n Y的值要求数值化 Y 1为发病 三 数据结构 61 四 Logistic分析的具体任务 1 采用极大似然估计或加权最小二乘估计确定方程中系数2 采用 剩余 卡方检验对回归方程进行检验 3 采用Wald检验对方程中的每个系数进行显著性检验 62 五 SPSS的实现 63 例题讲解 例1 为评价某新疗法的疗效 某研究者随机抽查了40名某病患者 治疗后一定时间内观察其康复状况 变量y为康复状况 y 0表示未康复 y 1表示康复 变量为病情严重程度 表示不严重 表示严重 变量为疗法 表示传统疗法 表示新疗法 请作统计分析 64 65 上表为因变量赋值情况 BinaryLogistic过程默认以因变量较大取值的概率P Y 1 而不是以P Y 0 建立模型 AnalyzeRegressionBinaryLogistic 66 首先给出的是模型不含任何自变量 而只有常数项时的输出预测分类结果 此时所观察对象都被预测为未康复 总的预测准确率为57 5 模型拟合 Block0 BeginningBlock 67 模型中只有常数项的检验结果 68 该表反映的是如果将现有模型外的各个变量纳入模型 则整个模型的拟合优度改变是否有统计学意义 若将 疗法 引入 则模型改变有统计意义 而将 病情严重程度 引入 则模型改变无统计意义 69 这是模型总的全局检验 为似然比检验 共给出三个结果 Step统计量为每一步与前一步相比的似然比检验结果 Block统计量是将Block1与Block0相比的似然比检验结果 Model统计量则是上一个模型与现在模型相比的似然比检验结果 结果表明两个变量至少有一个的作用是有统计意义的 Block1 Method Enter 70 该表为引入的模型对因变量的分类预测情况 预测准确率由57 5 上升到67 5 说明新变量的引入对改善模型预测效果的确有意义 71 上表结果表明 排除病情严重程度的混杂作用后 传统疗法促使患者康复的能力为新疗法的0 188倍 排除疗法的混杂作用后 病情严重促使患者康复的能力为病情不严重的0 403倍 对于变量 病情严重程度 的Wald检验结果P 0 209表明 病情严重程度对康复无影响 常数项的OR 2 529 是指病情不严重且接受新疗法者比数的自然对数值 72 剔除 建立与的Logistic回归方程 73 例2 在一次关于公共交通的社会调查中 一个调查项目是 是乘坐公共汽车上下班 还是骑自行车上下班 因变量表示主要乘坐公共汽车上下班 表示主要骑自行车上下班 自变量是年龄 作为连续型变量 是月收入 是性别 表示男性 表示女性 调查对象为工薪族群体 试建立与自变量间的Logistic回归 例题分析 74 75 首先给出的是模型不含任何自变量 而只有常数项时的输出预测分类结果 此时所观察对象都被预测为未康复 总的预测准确率为53 6 76 该表反映的是如果将现有模型外的各个变量纳入模型 则整个模型的拟合优度改变是否有统计学意义 若将 性别 引入 则模型改变有统计意义 将 年龄 引入 则模型改变也有统计意义 将 月收入年龄 引入 则模型改变无统计意义 77 该表为引入的模型对因变量的分类预测情况 预测准确率由53 6 上升到82 1 说明新变量的引入对改善模型预测效果的确有意义 78 根据上表计算结果 变量的Wald检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民爆物品安全培训会课件
- 初二八校联考试卷及答案
- 棒球专业考试题库及答案
- 民族风课件教学课件
- 算力与新质生产力的关联
- 安全生产管理系统讲解
- 新质生产力的发展策略
- 文旅产品融入新质生产力探索
- 民族的课件教学课件
- 陕西新质生产力十大产业榜单
- 2025版全新离婚协议书:财产分割、子女抚养及离婚后财产保全合同范本
- 石油钻井知识课件
- “学回信精神·助改革发展”专题调研报告
- 2025年医学基础知识题库及答案
- (2025秋新版)苏教版三年级数学上册全册教案
- 职业院校实习生考核评价标准
- 水果保鲜的秘密课件
- 无人机公开课课件
- 2025年事业单位招聘考试综合类职业能力倾向测验真题模拟试卷:电子信息工程领域
- 仓库维修协议书
- 城管协管员面试题及答案
评论
0/150
提交评论