多元统计分析逻辑回归_第1页
多元统计分析逻辑回归_第2页
多元统计分析逻辑回归_第3页
多元统计分析逻辑回归_第4页
多元统计分析逻辑回归_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析逻辑回归第一页,共四十二页,编辑于2023年,星期五概述现实生活中,有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况这时,某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要如果用状态1(购买)和0(不买)的因变量(Y)表示事件,则事件发生的概率P有如下关系:P(y=0)+P(y=1)=1第二页,共四十二页,编辑于2023年,星期五由于这类问题的因变量是类别变量,无法应用回归方程来解决逻辑回归是通过回归方程,确定概率的期望值一种通过分析影响因素,来得到某种结果的概率分为二项逻辑回归和多项逻辑回归第三页,共四十二页,编辑于2023年,星期五问题因变量自变量选择销售方式两组:销售代表、旅行推销员客户数、产品可替代性、拜访次数等19个变量职场新人从事与专业相关的工作两组:毕业半年后从事与专业相关工作、不相关工作性别、学制、住房情况、专业、职业培训等15个变量公民的选举行为三组:联盟党、社民党、民主党政治态度、民主满意度、工会会员、宗教团体等影响婴儿出生体重的因素两组:体重正常的婴儿、体重偏轻的婴儿年龄、种族、孕期检查次数第四页,共四十二页,编辑于2023年,星期五相同点不同点逻辑回归都属于结构检验法。以所观察的影响量作为自变量,通过回归方程计算权重,观察该权重决定个体实际属于某组的概率0/1事件也可看做是两组判别。多元事件同理逻辑回归的前提条件较少,故回归结果更可靠;逻辑回归的目的根据经验观察结果推导事件发生概率;判别分析是为了获得分类结果判别分析第五页,共四十二页,编辑于2023年,星期五建立逻辑回归方程例子:超市的销售主管想知道,顾客收入水平是否对购买新的高级黄油产品有影响。为此,他选择了12位顾客,调查他们的月净收入(x)及是否购买了该类黄油产品购买记为{y=1},未购买记为{y=0}调查结果如下:第六页,共四十二页,编辑于2023年,星期五值表事件收入140001420016000152001550015100148000270001800032000250002600购买黄油=-0.749+0.000336×收入第七页,共四十二页,编辑于2023年,星期五逻辑回归不是要估计二元变量的观察值,而是要明确这些观察值的出现概率通常把状态{y=1}看作“事件y发生”,而状态{y=0}为“事件不发生”假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平第八页,共四十二页,编辑于2023年,星期五y通过隐变量与xj建立联系:逻辑函数:(1)(2)(1)、(2)构成逻辑回归方程。z值称为Logit第九页,共四十二页,编辑于2023年,星期五第十页,共四十二页,编辑于2023年,星期五分析过程逻辑回归分析可分为五个步骤:(1)建模(2)估计逻辑回归函数(3)解释回归系数(4)检验模型整体(5)检验特征变量第十一页,共四十二页,编辑于2023年,星期五(1)建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设自变量和事件{y=1}的出现概率间的连带关系假设第十二页,共四十二页,编辑于2023年,星期五二元逻辑回归:因变量是二元的,即只有0和1两个水平;因变量多于两类的,多元逻辑回归分析自变量也称为共变量,可以是基数测度和非基数测度,也可“混合”xj自变量线性组合z指数连接eZ逻辑连接P(y=1)联合影响量Logit可能性比P(y=1)/P(y=0)出现概率第十三页,共四十二页,编辑于2023年,星期五人造黄油购买者{y=1}人造黄油未购买者{y=0}受访者k可涂抹性X1k保质期X2k受访者k可涂抹性x1k保质期x2k123456789101112236434325334345427546635131415161718192021222324547345456566435342257346数据第十四页,共四十二页,编辑于2023年,星期五(2)估计逻辑回归函数通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj若对每个观察个体k考虑如下关系式:第十五页,共四十二页,编辑于2023年,星期五Newton-Raphson算法合成一个方程:似然函数:求解:判别准则:Pk>0.5,把个体分入{y=1};否则分入{y=0}第十六页,共四十二页,编辑于2023年,星期五确定zk值(Logit)的回归方程:zk=3.528-1.943×可涂抹性k+1.119×保质期k将原始数据代入回归方程Y=1Y=0第十七页,共四十二页,编辑于2023年,星期五(3)解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数第十八页,共四十二页,编辑于2023年,星期五常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘负的回归系数使事件{y=1}的概率随x值增大而减小,而正回归系数则使事件{y=1}的概率随x值增大而增大第十九页,共四十二页,编辑于2023年,星期五逻辑回归的发生比:逻辑回归的Logit:z=Logit=ln(发生比)第二十页,共四十二页,编辑于2023年,星期五“可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响;若自变量增加1单位,则有利于事件{y=1}的可能性比(发生比)扩大ebj倍发生比说明了变量对出现概率的影响程度,发生比也称为效应系数第二十一页,共四十二页,编辑于2023年,星期五正、负回归系数对事件{y=1}的出现概率的影响:b效应系数exp(b)Logit(z)发生比[P(y=1)/P(y=0)]P(y=1)b>0eb>1增加b增大eb倍增加b<0eb<1增加b增大eb倍降低第二十二页,共四十二页,编辑于2023年,星期五(4)检验模型整体需要回答两个问题:参数估计在整体中能多有效地描述定义的回归模型?是否存在极端观察个体,应把它看作离群者剔除掉,还是由于其经常出现而改变模型?回归方程的评价指标:基于对数似然函数的评价;伪R2统计量;分类结果的评价;第二十三页,共四十二页,编辑于2023年,星期五似然比值检验(LikelihoodRatioTest)该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较若两偏差的绝对差较小,则自变量对区分y水平的贡献小;若偏差绝对差较大,则认为自变量的解释能力强;考虑所有解释变量时LL最大值给定数据组的零模型的LL最大值LLvLL0第二十四页,共四十二页,编辑于2023年,星期五似然比值检验(LR检验)的假设:H0:所有回归系数都等于0H1:所有回归系数都不等于0零模型和完整模型的偏差作为检验统计量,它近似服从自由度为J(自变量个数)的卡方分布在本例中,LL0=30.498,LLv=15.818,卡方值为14.68;卡方表中值5.99(自由度2,α=0.05),故模型是显著的第二十五页,共四十二页,编辑于2023年,星期五伪R2统计量伪R2统计量试图量化回归模型中已解释“变化”比例;通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好;LR检验回答了模型显著性以及结果能够运用到总体的问题,McF-R使自变量的判别能力总和可用数值表示,并可在不同模型间相互比较第二十六页,共四十二页,编辑于2023年,星期五Cox&Snell-R2:L0:零模型的似然LV:完整模型的似然K:样本容量第二十七页,共四十二页,编辑于2023年,星期五Nagelkerke-R2:该值大于0.5时认为模型解释能力非常好第二十八页,共四十二页,编辑于2023年,星期五分类结果评价将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较通常使用概率0.5作为分类的判别值把出现概率Pk(y=1)>0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N)第二十九页,共四十二页,编辑于2023年,星期五分类矩阵(Confusion-Matrix)观察值预测值购买与否百分比校正购买不购买购买不购买总百分比10221083.383.383.3判对比例(hitratio)=判对数目/总数=20/24=0.833第三十页,共四十二页,编辑于2023年,星期五如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数,然后根据此函数将检验样本中的元素分类,并计算判对比率;第三十一页,共四十二页,编辑于2023年,星期五PressQ检验该检验统计量服从自由度为1的卡方分布取α=0.05,查得临界值为3.84,故该分类结果与随机分类结果有显著差别第三十二页,共四十二页,编辑于2023年,星期五重要模型拟合度评价指标总结第三十三页,共四十二页,编辑于2023年,星期五离群者诊断除了说明逻辑回归方程的整体拟合度外,单个观察个体对模型整体有效性有何作用也很重要逻辑估计的模型关系与调查数据拟合度不佳的基本原因有两个:模型不合适;存在许多个体(观察值),不具有模型所描述的关系,并由于其特殊的变量水平明显偏离结果;第三十四页,共四十二页,编辑于2023年,星期五对于第二种情况,通过确定每个个体的单独残差可说明在观察中是否存在“离群者”,对个体k残差如下:通常认为残差绝对值大于0.5(两组情况下)为离群者,并导致分类错误为了更好地辨认出此类离群者,采用一种加权方法,标准化残差:第三十五页,共四十二页,编辑于2023年,星期五第三十六页,共四十二页,编辑于2023年,星期五对第三位受访者,他购买了人造黄油{y=1},根据他的评价(可涂抹性=6,保质期=5),用估计出来的逻辑方程计算出购买概率为0.073,其标准化残差值为3.589,明显将该受访者分类错误必须深入分析离群者的情况,以解释极端位置的原因,通常考虑如下原因:(1)受访者回答问题的方式反常,把该观察值去除;(2)大的残差值表明模型的解释能力差,模型中未考虑重要影响量,需扩展或修正模型第三十七页,共四十二页,编辑于2023年,星期五(5)检验特征变量

似然比检验LR检验也可用于与简约模型的比较。分别令一个回归系数为0,构建不同的简约模型,再写出完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差相应的零假设为:H0:回归系数bj的效应为0;H1:回归系数bj的效应不为0第三十八页,共四十二页,编辑于2023年,星期五完整模型(LLV)和一个简约模型(LLR)的-2倍对数似然之差所形成的检验统计量服从卡方分布,自由度为两模型参数个数之差。若仅检验一个变量,则自由度等于1第三十九页,共四十二页,编辑于2023年,星期五Wald统计量分母是bj的标准差W基本服从自由度为1的卡方分布回归系数标准误差Walddf显著水平可涂抹性保质期常数项-1.9431.1193.5280.7980.5862.3385.9243.6452.2761110.015

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论