版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章
逻辑回归1第11章逻辑回归分析——目录11.1逻辑回归模型11.2估计逻辑回归模型11.3显著性检验11.4回归系数的含义11.5案例分析2许多社会科学问题中的因变量往往是分类变量。比如,政治学中经常研究的是否选举某候选人,候选人的类型等;又如,经济学研究中所涉及的是否销售或购买某种商品、是否签订一份合同,保险是否违约,违约有哪些类型等等。这些分类变量中有一类特殊的变量,遵循二值取值原则,要么“是”或“发生”,要么“否”或“未发生”。统计上我们将这样的变量称作二分类变量(Binaryvariable)。3应用背景多元回归模型分析二分类变量的局限性被解释变量的取值区间受限制自变量的边际分析不符合实际分析二分类变量的方法利用概率转化模型调整二分类变量使其线性化,也即,使其随着自变量的变化,这一概率的值总是在0到1之间变化。11.1逻辑回归模型Logistic函数Logistic回归方程11.1逻辑回归模型——概率转换方法
似然函数其中,11.2估计逻辑回归模型——最大似然估计追求似然函数最大值的过程就是追求对数似然函数值最大值的过程。对数似然函数值越大,意味着模型较好地拟合样本数据的可能性也越大,所得模型的拟合优度越高。整体模型的检验和评价11.3显著性检验
整体模型的检验和评价11.3显著性检验判错矩阵预测值01正确率观测值01总体正确率判错矩阵是一种极为直观的评价模型优劣的方法,它通过矩阵表格的形式展现预测值与实际观测值的吻合程度。整体模型的检验和评价11.3显著性检验Cox&SnellR2统计量Cox&SnellR2统计量与一般线性回归分析中的R2有相似之处,也是方程对被解释变量变差解释程度的反映。缺点是取值范围不易确定,因此使用时不方便。NagelkerkeR2统计量Cox&SnellR2统计量取值在0~1之间,越接近1说明方程的拟合优度越高。回归系数的显著性检验
11.3显著性检验
Wald统计量多重共线性检验
应当注意,如果解释变量存在多重共线性会对Wald检验统计量产生影响。由于用于logistic回归建模的很多软件包,如
Excel,SPSS,和R并不提供共线性的问题检验,所以如果用户想检验共线性问题,可以就给定的自变量做一个线性回归模型,并输出共线性诊断指标,就可以了解自变量的相关情况。11.4逻辑回归系数的意义平均个人偏效应和平均偏效应Logistic回归模型的解释涉及到对建立回归方程所包含的自变量的分析。也即,我们常常想估计xi对响应概率P(y=1|X)的影响。若xi是(大致)连续的,则对xi的较小变化,有:比例因子
11.4逻辑回归系数的意义平均个人偏效应和平均偏效应
平均个人偏效应表示将每个解释变量都代之以样本平均值而得到常数比例因子,利用该常数比例因子乘以对应的xi的系数βi
即得到平均个人偏效应。数学表达式为:平均个人偏效应(PEA)平均偏效应表示将样本中所有个体的偏效应取平均而得到常数比例因子。数学表达式为:平均偏效应(PEA)11.4逻辑回归系数的意义
根据平均个人偏效应的定义,将年龄的样本均值40.00代入公式可计算年龄对购买该产品响应概率影响的平均个人偏效应PEA;将根据个人偏效应的定义,将年龄的样本所有取值代入公式可得年龄对购买该产品响应概率影响的个人偏效应APE。
由于logistic模型中,自变量与响应概率之间的关系是非线性的,因此平均个人偏效应和平均偏效应存在差异。11.4逻辑回归系数的意义发生比Logistic回归模型的解释涉及到对建立回归方程所包含的自变量的分析。利用logistic回归,直接解释自变量和y=1的概率之间的关系非常困难,统计学上,通过定义发生比和比值比对logistic回归方程做出解释。发生比
发生比被定义为事件将要发生的概率与该事件将不会发生的概率之比。11.4逻辑回归系数的意义比值比比值比(Oddsratio)度量了当一组自变量中只有一个自变量增加了一个单位时对事件发生概率(Odds)的影响。比值比是当给定的一组自变量中一个自变量增加了一个单位,y=1发生概率(Odds1)除以该组自变量的值都没有变化时y=1发生概率(Odds0)
比值比(Oddsratio)11.4逻辑回归系数的意义
此时,我们想要知道去年消费支出为2万元,且拥有信用卡的顾客使用优惠券的机会比与去年消费支出为2万元,但没有信用卡额度顾客使用优惠券的机会比精细比较,也即,当解释变量x2增加一个单位时的影响:
因此,去年消费支出为2万元,且拥有信用卡的顾客使用优惠券的机会比是去年消费支出为2万元,但没有信用卡的顾客使用优惠券的机会比的3倍。11.5案例分析一、案例背景
某商品销售人员在长期推销该产品的过程中发现,消费者是否购买该产品受到很强的消费者人口结构特征的影响。比如性别、年龄以及收入水平。为了验证自己的猜想,以及在未来的销售活动中能更好的,有针对性的,对可能购买该产品的顾客提供更好的服务。经与销售主管的商议,该销售团队对到达商铺的顾客进行随机的问卷调查,并对顾客最终是否购买该产品做了详细的记录。对数据进行初步的整理以后,团队成员计划通过运用logistic回归的方法来检验消费者人口特征对其是否购买该产品的影响。11.5案例分析二、数据及其说明剔除无效样本,并对数据进行编码后发现,收集到有效样本431份。数据项包括:是否购买(purchase)、性别(gender)、年龄(age)、收入水平(income)。是否购买作为被解释变量(0/1二分类变量),其余各变量作为解释变量,且其中性别和收入水平为类别变量,年龄为数值型变量。11.5案例分析三、数据分析表11-4分类表a,b
已观测已预测
是否购买百分比校正
不购买购买步骤0是否购买不购买2690100.0购买1620.0总计百分比
62.4a.模型中包括常量。b.切割值为.50011.5案例分析三、数据分析表11-5方程中的变量
BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步骤1aage.025.0181.9741.1601.026.9901.062gender.511.2095.9541.0151.6671.1062.513income
12.3052.002
income(1)-.787.2539.6761.002.455.277.748income(2)-.686.2437.9451.005.503.312.811常量-1.836.7865.4571.019.159
a.在步骤1中输入的变量:age,gender,income.
11.5案例分析三、结论
通过运用logistic
回归分析的方法发现,消费者是否购买该产品显著的受到性别和收入水平的影响。其中女性消费者比男性消费者更青睐于购买该产品。此外,该产品更适合于低收入群体,因为中、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 直播电商生态平台及 MCN 内容生产平台建设项目可行性研究报告
- 包膜工序技改项目可行性研究报告
- 骑乘式割草车建设项目可行性研究报告
- 江苏省兴华市四校2024届中考一模化学试题含解析
- 抢救车管理PDCA案例总结汇报
- 2024年铁精粉项目经营分析报告
- 两位数加减一位数水平自测口算题带答案
- 二年级数学100以内加减法竖式计算题综合练习模拟题带答案
- 江苏省无锡市宜兴市官林区联盟重点中学2024届中考生物对点突破模拟试卷含解析
- 2024-弱电工程维保合同范本
- TSM0501G 丰田试验测试标准
- JGJT350-2015 保温防火复合板应用技术规程
- 国家开放大学-社会调查研究与方法-纸质形成性考核
- 机房配电施工方案
- 胚胎移植术后护理课件
- 二年级上册语文第七单元集体备课
- 肯德基员工行为操作手册
- 个人住房贷款提前还款月供及节省利息EXCEL计算
- 低成本封装技术
- 数控机床故障维修记录表
- 江苏开放大学2023年秋《组织行为学 060044》第一次作业参考答案
评论
0/150
提交评论