版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3 自变量中有定性变量的回归,例1. 考虑学生体重(因变量)与身高(自变量、定量变量)的关系时,一般需要把男女学生分开来考虑,因为这一关系很可能因为性别的不同而不同。 这些数据储存在SPSS数据文件 height.sav 中。,如果分别考虑男、女生的体重与身高的关系,并假设这一关系为线性的,我们得到(拟合)如下两个简单线性回归方程,括号内为相应系数估计的 p-值。 女生:w0 = -12.446 + 0.422 h0, R2 = 0.214, (.547) (.002) F = 11.165(.002) 男生:w1 = -37.400 + 0.645 h1, R2 = 0.434, (.032
2、) (.000) F = 42.128(.000) 拟合结果表明,男、女生的身高和体重的关系是不同的。 问题是:上述身高和体重的关系在不同性别之间的差异显著吗? 在上述结果中似乎没有一个合适的量来回答这一问题。,在回归模型中引进哑变量(dummy variable),我们就可以来回答上述问题。 哑变量的取值为 1 和 0 ,用来区分定性变量取某个特定值还是其它值。例1中的变量 D 就是一个哑变量, 哑变量的应用 例1的带有哑变量的回归模型为如下的多元线性回归模型:(变量 Dh = Dh) w = b 0 + b 1 D + b 2 h + b 3 (Dh) + e (1) 对于女生,D = 0
3、,模型(1)变为 w = b 0+ b 2 h + e; 而男生的模型则为 w = (b 0+ b 1) + (b 2 + b 3) h + e。,拟合得到如下的回归方程: w = -12.446 24.954 D + 0.422 h + 0.223 Dh (.534) (.347) (.001) (.166) 由拟合结果可以看出,变量 D 和 Dh 的系数均不显著。因此可以说,性别对身高和体重关系的影响不显著。 但是,由于 b 0 不显著,因此我们需对模型作修改: w = 37.4 D + 0.346 h + 0.299 Dh (.033) (.000) (.004) 此时,变量 D 和 D
4、h 的系数均为显著的。 因此我们说,性别对身高和体重关系的影响是显著的。,w = 37.4 D + 0.346 h + 0.299 Dh,D=0 w = 0.346 h D=1 w = 37.4 +(0.299+ 0.346) h,男生身高对体重的效应大于女生 身高对体重的效应,4 二项 Logistic回归,例子,在一次住房展销会上,与房地产商签定 购房意向书的顾客中,在随后3个月中, 只有一部分购买了房屋. 购买房屋的顾客记为1,没有购买记为0,一、定性因变量的回归方程的意义 设因变量 y只是取0,1两个值的定性变量,考虑简单线性回归模型: 由于, 是01型贝努利随机变量,则得如下分布 根
5、据随机变量的期望值定义,可得,二、定性因变量回归的特殊问题 1. 离散非正态误差项 2. 零均值异方差性 3. 回归方程的限制,三 Logistic回归模型 针对01型因变量产生的问题,对回归 模型应该作两个方面的改进。 1. 回归函数应该改用限制在 区间内的 连续曲线,而不能再沿用直线回归方程 。 2. 因变量本身只取0,1两个离散值,不适于 直接作为回归模型中的因变量,可以用 等于1的比例代替 本身作为因变量。,Logit变换,发生比,Logistic 回归模型,回归系数的含义,发生比(相对风险),为当x1增加1个单位时,相对风险的比值,基本操作,Analyze=Regression=Bi
6、nary Logistic,Dependent 输入因变量 Covariates 输入自变量 Method:输入自变量筛选策略 Enter:强行进入 Forward:逐步筛选 Backward:向后筛选 Select:选择一个变量作为条件变量,基本操作,Categorical :如果自变量是分类变量 生成虚拟变量. Categorical Covariates:指定分类变量 Change Contrast:选择参照类,最常用为indicator,其他操作,Option:选择 Statistics and plots:输出统计量和图 Classificaton Plots:绘制因变量实际值与预测
7、 分类值的关系图 Hosmerlemeshow goodness-of-fit:输出拟合优度指标 Casewise listing of residuals:输出各样本 数据的非标准化残差,标准化残差 Correlations of estimates:参数估计的相关阵 Iteration history:最大似然估计的迭代过程 CI for exp(B):风险比默认为95%置信区间,其他操作,Display:显示方法 Probability for Stepwise:选择逐步回归中 自变量进入方程或剔除出方程的显著性水平 Classfication cutoff:设置因变量分类分界值 Max
8、imum Iterations:极大似然估计的最大 迭代次数,其他操作,Save:保存 Predicted Values:预测值 Probabilities:因变量取1的预测概率值 Group membership:分类预测值 Residuals:残差 Influence:COOK距离,杠杆值等,实例分析,例1: 消费行为数据,研究是否购买与 性别,年龄,收入水平的关系. 性别以男为参照类,收入以低收入为参照类 变量选择分别采用 (1)强制进入法 (2)逐步回归法 要求写出Logistic回归方程,解释回归系数的意义,逐步回归法主要结果分析,1 model summary表显示了模型拟合优度
9、方面的指标,模型拟合优度不理想 分类表显示了各模型的错判矩阵, 第1个模型的总体正确率为62.4%,但对购买 人群预测的正确率为0,第2个模型的总体正确率为60.6%, 但对购买人群预测的正确率为提高了,第二个模型略好.,3 回归方程 LogitP=-1.11+0.504gender(1)+0.096income(1)+0.761 income(2),LogitP|(gender(1)=1)- LogitP|(gender(0)=0.504,odds (gender(1)=1)/ odds (gender(1)=0)=1.656,主要结果分析,LogitP=-1.11+0.504gender(1)+0.096income(1)+0.761 income(2),LogitP|(income(1)=1, income(1)=0)- LogitP |(income(1)=0, income(1)=0)=0.096,odds (中等收入)/ odds (低收入)=1.101,主要结果分析,说明 女性的购买发生比是男性的1.656倍 中等收入的购买发生比是低等收入的1.101倍, 高等收入的购买发生比 是低等收入的2.139倍,结论:年龄对是否购买该商品无影响,女性及 高收入阶层购买可能性大,实例分析,例2: logist2.sav: 某项病因调查工作中,通
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 液化气采购制度
- 湘雅二院物资采购制度
- 潍坊中小学采购管理制度
- 热力公司设备采购制度
- 煤矿采购供应部制度
- 牧场采购责任制度范本
- 物业采购日用品管理制度
- 物控制定物料采购制度
- 物设部物资采购管理制度
- 物资采购保管登记制度
- GB/T 25085.5-2026道路车辆汽车电缆第5部分:交流600 V或直流900 V和交流1 000 V或直流1 500 V单芯铜导体电缆的尺寸和要求
- 2026年矿山生态修复与矿区治理(新标准陆续实施)
- 2026年安徽工商职业学院单招综合素质考试题库及答案详解(名校卷)
- 2026年山西经贸职业学院单招职业适应性考试题库带答案详解(巩固)
- 2026年安徽城市管理职业学院单招职业适应性测试题库附参考答案详解(突破训练)
- 足疗店内部管理相关规定制度
- 课程与教学论知到智慧树期末考试答案题库2025年浙江师范大学
- 安徽2021-2025真题及答案
- 临床护理实践指南2024版
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
- 材料化学ppt课件(完整版)
评论
0/150
提交评论