版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章第九章 LogisticLogistic回归分析回归分析9.1Logistic回归分析概述n问题1:研究消费者的不同特征如何影响是否购买小轿车时,消费者的年龄、年收入、职业、性别等因素将作为解释变量,是否购买作为被解释变量,此时的被解释变量是一个二分类变量。n问题2:在研究消费者特征对某种商品的品牌选择取向时,品牌作为被解释变量,由于候选品牌多样,因此是一个多分类问题。2n问题3:在流行病学的研究中,有一类常见问题是探索某疾病的危险因素,同时根据危险因素预测某疾病发生的概率。例如,想探讨胃癌发生的危险因素,选择两组人群,一组胃癌患者,另一组非胃癌患者,这形成了因变量。两组人群肯定有不同的
2、体征和生活方式,自变量可以包括很多,例如:年龄、性别、饮食习惯、幽门螺杆菌感染等。n注:以上问题的共同点是因变量不是连续型变量,而是分类变量。3n若因变量是被解释变量,则一般线性模型会出现以下问题:对于任意给定的 值,残差 也变成了离散型变量,不是正态分布,因此导致无法进行相应的统计推断。对于任意给定的 值,残差 也不再满足即当被解释变量出现分类变量时,如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模4ixi ixi 2()0,()iiED方法是Logistic回归分析。5Logistic回归分析二项Logistic回归分析:Y为二分类多项Logistic回归分析:Y为多分类u1
3、967年Truelt J,Connifield J和Kannel W在Journal of Chronic Disease上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。69.2二项Logistic回归分析n二项Logistic回归方程:设 ,称 为发生比(Odds)或相对风险,则定义7(1)P YP1PP 0101ln()111exp ()piiipiiiPxPPx n模型的评价:二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。二项Logistic回归模型本质是一个二分类的线性概率模型。通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两
4、个概率的大小,可以对样本进行类别预测。8n发生比(相对风险,胜算,odds)的意义: Odds: 某事件发生概率与不发生概率之 比。例如:考上大学的概率为0.25,则考上大学的odds为0.25/0.75=0.3333:1=1:3,可以解释为考上与考不上之比为1:3同理,可以计算考不上大学的odds为0.75/0.25=3:1,可以解释为考不上与考上之比为1:391PP n相对风险比(胜算比,odds ratio)的意义0dds ratio:在自变量处于不同的水平时的胜算,加以比较(两个胜算的比值),称为胜算比。例如:大公司成功经营的概率为10/11,小公司成功经营的概率为2/13,则大公司成
5、功经营的胜算为(10/11)/(1/11)=10小公司成功经营的胜算为(2/13)/(11/13)=0.182即Odds ratio=10/0.182=55,即可以解释为大公司的成功胜算为小公司成功胜算的55倍。10n二项Logistic回归方程系数的含义: 因为 , 当自变量 增加一个单位时,则有于是:即表明:当其它解释条件不变时, 增加一个单位时所导致的相对风险是原来相对风险的 倍。即控制其它变量不变时,x增加一个单位的相对风险比即x在不同水平时的,二者的Odds radio是 。1101exp()piiix ix*101exp()piiix *exp()i ixexp()i exp()i
6、 exp()i n二项Logistic回归方程的参数估计:一般的线性回归模型适合于使用最小二乘法进行估计,但是,由于Logistic回归模型中随机扰动项并不满足经典假设,所以需要使用极大似然法估计。 估计就是使Ln(L)达到最大的 。12 二项Logistic回归方程的检验n回归方程的显著性检验目的:检验解释变量全体与LogitP 的线性关系是否显著,是否可以用线性模型拟合。检验思想:设没有引入任何解释变量的回归方程的似然函数为 ,引入解释变量之后回归方程的似然函数值为 ,则似然比为 。显然, ,且 越接近于1,则表明模型中的解释变量对模型总体没有显著贡献;反之,越接近于0,则表明引入变量对模
7、型具有显著贡献。13定义(LogitP=ln) 0L1L01/LL010/1LL010/1LL方法:似然比卡方检验统计量的观测值越大越好,或观测值对应的概率p值,pa,接受原假设,认为回归方程整体不显著。14:0120pHln()ln() ( )2200112LLpLL n回归系数的显著性检验目的:需要对每个回归系数的显著性进行检验。检验思想:通过构造Wald统计量进行检验,Wald统计量和似然比统计量都是极大似然估计方法中常用的检验统计量。方法:150:0jH22() (1)jjiWaldSn模型拟合优度的评价与检验目的:第一,回归方程能够解释被解释变量变差的程度,即线性回归的部分能解释Lo
8、gitP的程度,这一点与一般线性回归分析是相同的;第二,由回归方程得到的概率进行分别判别的准确率。方法:第一目的: 统计量和 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验 162&CoxSnell R2kerNagelke Rn 统计量= ,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定,不利于模型之间的比较。n 统计量=该统计量的取值范围为01,值越大表明模型拟合程度越高,越接近于0说明模型拟合优度越低。172&CoxSnell R2011 ()NLL2kerNagelk
9、e R220&1()NCoxSnell RLn混淆矩阵(错判矩阵)总体正确率 代表了预测正确的样本所占的比例,当然该值越大表明预测能力越强。错判矩阵是一种常用的评价各种分类判别模型优劣的方法。 18112211221221ffffffnHosmerLemeshow检验:通过模型可以计算出给定解释变量取值时被解释变量取1的概率预测。如果模型拟合较好,则应给实际值为1的样本以较高的概率,给实际值为0的样本以低的概率预测值。于是对概率预测值进行分位数分组(通常为10分位数,将样本分为10组),预测概率大小分得的10组和实际观测值0/1类别分组形成了交叉列联表。由观测频数和期望频数计算卡方统计
10、量,即HosmerLemeshow统计量,它服从自由度为n-2的卡方分布,n为组数。1920nHosmerLemeshow检验的原假设:观测频数的分布与期望频数分布无显著差异。 HosmerLemeshow统计量的值越小,pa,拟合效果越好;反之,则拟合效果不好。21设置虚拟变量n通常在线性回归分析中,作为解释变量的自变量是数值型变量,它对被解释变量有线性解释作用。在实际应用中,尤其在二项Logistic回归模型中,自变量也有可能是分类型的变量。n由于分类型的变量各个类别之间是非等距的,通常不能像数值型那样直接作为解释变量进入回归方程,一般需要将其转化为虚拟变量(也称哑变量)后再参与分析。这样
11、可以更好的研究各类别对解释变量影响的差异性。22n虚拟变量:将分类的各个类别分别以0/1二值变量的形式重新编码,用1表示属于该类,1表示不属于该类。例如:(1)“性别”需要一个虚拟变量,值1定义为“男”,则值0定义为“女”。(2)“满意度”需要2个虚拟变量,两个变量值为(1,0)定义为“高”,(0,1)定义为“中”,(0,0)定义为“低”。23n注:对于具有n个类别的分类变量,需要n-1个虚拟变量即可。n参照类别:虚拟变量值全部定义为0的类别是参照类别。例如上一个例子中的“女”,“低”。n在Logistic回归模型中各虚拟自变量回归系数的含义是相对于参照类别,其它各类别对被解释变量平均贡献的差
12、。进而可以研究各类别间对被解释变量的平均贡献差异。24应用举例n例:为研究和预测某商品消费特点和趋势,收集了以往的消费数据,变量有是否购买、年龄、性别和收入水平。除年龄外,其余变量都是分类变量。是否购买是被解释变量,其余都是解释变量。分析目标:建立客户购买的预测模型,分析影响因素。2526被解释变量被解释变量解释变量栏解释变量栏可以产生交互项可以产生交互项筛选变筛选变量策略量策略n注:个人喜欢使用相对简单明了的Indicator方法,至于哪一个类别作为参考类别,会因具体问题而定。27n注:在Logistic回归分析中,如果不关心迭代的历史和筛选变量的过程,可以不做选择。28n注:在保存变量中一
13、般最关心概率的预测值和类别的预测值。一般以0.5为分割点,预测概率大于0.5,预测为Y=1;预测概率小于0.5,预测为Y=0。29n注:因变量和哑变量的编码是非常重要的信息,对于模型参数的解读和模型的分析都非常中重要。30n注:初始模型,一般从全模型开始。Age没有通过检验,income这一类变量通过了,但是其中某一个哑变量没有通过,经验做法是这一类哑变量全部保留。31n注:模型整体的线性没通过检验,但是拟合指标显示,模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得,因此需要迭代收敛32n注:因为pa,所以认为样本实际值得到的分布与预测值得到的分布无显著差异,模型拟合优度较好。33n注:模型整体的准确度不高,对不购买人群的准确率极高,对购买人群的准确率很低。34n注:预测类别图上可以看出,预测概率在0.4附近的样本预测准确率相对最低。事实上,无论用什么分类方法,这类样本身就是最难预测的。35n注:这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。36n注:从拟合效果看,前后两个模型并没有太大差别。37n注:虽然模型整体的准确度略有下降,但是对于购买人群预测的准确率提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (正式版)DB37∕T 2603-2014 《山东省选择性催化还原(SCR)脱硝催化剂技术要求》
- 产后恢复周期
- 湖南省长沙市一中2024届高三月考卷(一)化学试卷
- 上海浦东第四教育署重点达标名校2026届初三数学试题质量检测试题卷含解析
- 合肥市45中2026年内蒙古阿拉善盟初三下学期第一次模拟考试语文试题含解析
- 吉安市重点中学2026届初三年级下学期十月份月考英语试题含解析
- 山西大附中2026届初三英语试题测试含解析
- 福建省宁德市2026年初三下学期摸底统一考试英语试题含解析
- 山东省聊城市东昌府区2026届初三年级质量检查(Ⅲ)语文试题(文史类)试题含解析
- 辽宁省盘锦市重点达标名校2025-2026学年初三毕业班联考英语试题试卷含解析
- DBT29-6-2010 天津市建设项目配建停车场(库)标准
- 2025年贵州省煤炭市场调查报告
- 2025年消防员招录心理测试试题及答案
- 2025年低空经济「电力巡检」无人机应用场景与市场前景报告
- 《反窃电现场证据提取与固定技术规范》
- 《城市原水智能调度系统技术规程》
- 2025年食品安全员考试试题库+答案
- 工程力学期末考试b试题及答案
- 2025年人民银行招聘面试心理测试与应对策略
- 南宁市防洪工程软土地基处理:方法、实践与优化策略
- (2025年)检验检测机构授权签字人考核试题(附答案)
评论
0/150
提交评论