logistic回归.doc_第1页
logistic回归.doc_第2页
logistic回归.doc_第3页
logistic回归.doc_第4页
logistic回归.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定性资料的回归分析-Logistic回归Logistic模型的主要用途:1. 用作影响因素分析 2.作为判别分析方法 第一节 二分类变量的logistic回归逻辑回归区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。啥是0-1型数据?就是这个数据有且仅有两个可能的取值。数学上为了方便,把其中一个记作0,另外一个记作1.例1:购买决定:我是买呢?还是买呢?还是买呢?如果您的决策永远是:买、买、买,这不是0-1数据。我们说的购买决策是:买还是不买?定义:1=购买,0=不购买。这个关于购买决定的0-1变量老牛了。为啥?因为它支撑了太多的重要应用。例如,我生产了一瓶矿泉水,叫做“农妇山泉有点咸”,到底卖给谁呢?为此,我们需要做市场定位。什么是市场定位?市场定位从回归分析的角度看,就是想知道:谁会买这个产品?谁不会买?或者说:谁购买这个产品的可能性大,谁购买的可能性小。这样我们就可以瞄准可能性最高的一批人,他们就构成了我的目标市场。这就是我们通常所说的市场定位。 令表示购买决定,那么影响它的因素有很多。比如,消费者自己的人口特征、消费者过去的购买记录是、来自社交网络朋友的行为信息、产品自己的特征、产品正在承受的市场手段策略(例如:促销)、竞争对手的市场动作等等。一模型建立理论回归模型:其中。注: 称为优势(odds), 表示某个事件的相对危险度.获得容量为的样本后可得样本回归模型:其中,。补充说明(1) 逻辑回归模型的整个生成过程是以构造性的思想为主,而不是因为:上帝他老人家生成数据的真实机制是这样的,没有那么巧的事。(2) 逻辑回归构造的核心思想是通过逻辑变换把0-1之间的概率变换为正负无穷之间的一个数字。给定一组数据,如果赶巧了,他能够被逻辑回归模型很好的拟合,那么相应的估计精度和预测精度都会很优秀。但是,绝大多数情况下,拟合效果跟上帝比,差得远,跟拍脑袋比,好很多。所以,这就成就了逻辑回归,作为一种最常见的0-1回归分析方法的重要地位。(3) 通过逻辑回归模型,我们可以对一个样本取值为1的概率予以测算,然后根据测算的概率预测它的最终取值应该是0还是1.(4)关于自变量类型自变量的常见类型:连续型变量、二水平的分类变量、多水平的分类变量、等级变量。多水平的分类变量:例如个体的血型、民族、职业、工种等等如何处理?产生哑变量,所谓哑变量就是一组取值1和0的二值分类变量,用来表示一个分类变量。例1 为了了解冠心病与种族的关系,某研究所调查了100个个体,数据如下表。试估计各种族间患冠心病的相对危险度。(logistic3)冠心病黑人白人其他种族1020105202520等级变量:如文化程度如何处理?一般以最小等级或最大等级为参考组,并按等级顺序依次取为0,1,2.例如 对于变量年龄,令 25-34=0; 35-44=1;45-54=2;55-64=3;65-74=4;75+=5(5)关于因变量类型及模型两类结果:二值logistic回归(Binary Logistic Regression)无序多分类:多类结果的logistic回归(Multinomial Logistic Regression)例:毕业去向-工作、读研、出国留学、待业有序多分类:有序结果的累积优势logistic回归、有序结果的相邻优势logistic回归。(Ordinal Logistic Regression)例:疾病严重程度-无、轻、中、重智商-弱智、正常、超常二参数估计1.极大似然估计或者加权最小二乘估计2系数解释从数学上来讲,与多重线形回归模型中系数的解释并无不同,即表示改变一个单位时的改变量。在实际中此改变量表示什么含义?请看例2。例2 本例是探讨妇女使用雌激素与患子宫内膜癌的研究资料。使用 未使用患病未患病55 12819 164资料的计算机输入格式结果变量(因变量) 暴露因素(自变量) 频数 1 1 55 0 1 19 1 0 128 0 0 164模型: 回归常数的意义:当时,表示非暴露下的发病率与未发病率之比.若较小,近似表示非暴露下的发病率。回归系数的意义:由于自变量只取两个值,改变一个单位几位从0变到1.即(优势比)Logistic回归结果变量 估计系数 标准误差SE OR 95%CI 1.3107 0.2911 4.503 0.000 3.7089 2.09646.5615常数项 -0.2478 0.1179 -2.101 0.0363、 模型的检验与修改模型的拟合优度检验:似然比检验、Hosmer-Lemeshow检验对各变量显著性的检验:似然比检验(likelihood ratio test)、Wald检验、比分检验(score test) 四、Spss实现:以例2为例例2 本例是探讨妇女使用雌激素与患子宫内膜癌的研究资料。使用 未使用患病未患病56 12819 164(1)录入数据点击variable view定义变量名;点击data view 输入数据(按行输入 一条数据一行);点击file-save或save as 保存数据(2)分析Analyze-Regression-Binary Logistic主对话框界面说明:Dependent 框 : 用于选入二分类的应变量,只能选入一个。Block按钮组:由previous 和 next两个按钮组成,用于将下面的covariates框中选入的自变量分组。Covariates框:用于选入自变量,左侧的a*b钮用于选入交互作用项。Method框:用于选择变量进入方法,有进入法、逐步法和后退法三大类。 其中Enter:进入法,所有变量一次全部进入方程。 Forward:逐步向前法 Backward:后退法Categorial 子对话框界面说明:如果自变量为多分类变量(血型),那么就需要产生哑变量,如果变量分为k类,则系统自动产生k-1个哑变量,Categorial 子对话框就是用于设置各哑变量的取值方式的。Covariates框:列出所有数值型自变量,他们均可被指定为分类变量。Categorical covariates框:用于选入分类变量Change contrast框组:设置每个变量的哑变量组中的具体取值和对照组。Contrast 下拉列表用于选择哑变量取值情况,默认indicator ,reference category单选框组用于设置第一水平或最后一个水平为对照。若以最后一分类为对照,当分类变量取1(黑人)时,哑变量赋值1 0;当分类变量取2(白人)时,哑变量赋值0 1;当分类变量取3(其他种族)时,哑变量赋值0 0。Save 子对话框界面说明:将中间结果保存下来供分析。共有预测值、影响强度因子和残差三大类。Predicted框:将预测结果作为新变量保存到数据窗口。其中probabilities:预测概率值;Group membership:根据预测概率值判定所属类别。Influnence 复选框组:反映影响强度的变量,共有三个。Residuals复选框组:保存各种残差值。Options 子对话框界面说明:略(3)结果分析数据处理情况汇总,包括多少记录纳入分析,多少例缺失。Case Processing SummaryUnweighted CasesaNPercentSelected CasesIncluded in Analysis366100.0Missing Cases0.0Total366100.0Unselected Cases0.0Total366100.0a. If weight is in effect, see classification table for the total number of cases.应变量赋值情况,默认以建立模型。Dependent Variable EncodingOriginal ValueInternal Value不患病0患病1现在开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项的模型。第一张表(Block 0: Beginning Block)输出预测分类结果,可见当模型中不含任何自变量时,所有观察对象皆被预测为不患病,总的预测准确率为50.3%。Block 0: Beginning BlockClassification Tablea,bObservedPredictedyPercentage Correct不患病患病Step 0y不患病1840100.0患病1820.0Overall Percentage50.3a. Constant is included in the model.b. The cut value is .500第二张表(Variables in the Equation)给出的是模型中各参数的检验结果,此处只有常数项,系数为-0.011,由于是常数项,有无统计学意义关系不大。Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0Constant-.011.105.0111.917.989第三张表(Variables not in the Equation)的输出结果反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。结果显示若将x引入,则模型改变有统计意义(score=21.443, P0.05)。Variables not in the EquationScoredfSig.Step 0Variablesx21.4431.000Overall Statistics21.4431.000Block 1 开始输出模型中引入自变量后的结果。Method=enter 说明在该block中自变量筛选的方法采用默认的enter法,即强迫所有自变量同时进入模型。Ominous指的是模型总的全局检验,为似然比检验,共给出三个结果:step 统计量为每一步与前一步相比的似然比结果;block 统计量是指若将block1 与block 0 相比的似然比结果;model 统计量则是上一个模型与现在方程中变量有变化后模型的似然比检验结果。本例由于选择了默认的enter法,三个统计量及检验结果完全一致。结果表明变量有统计学意义。Block 1: Method = EnterOmnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step22.1651.000Block22.1651.000Model22.1651.000下表为模型汇总情况简报,可用于统计推断及拟合优度检验。Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square1485.208a.059.078a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.下表为现在模型对应变量的分类预测情况,可以看出预测准确率由50.3%上升到59.8%,说明自变量的引入对改善模型预测效果的确有意义但是不能用于对新病例进行结局预测。Classification TableaObservedPredictedyPercentage Correct不患病患病Step 1y不患病1651989.7患病1285429.7Overall Percentage59.8a. The cut value is .500下表最重要,包括最终引入模型的变量及常数项的系数值、标准误差、wald卡方值、自由度、P值,以及,即OR值。由结果看出,变量的系数为1.298,经wald检验有统计学意义。优势比为3.664, 说明使用时的发病率是不使用时的3.664倍。Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1ax1.298.29219.8301.0003.664Constant-.254.1184.6471.031.776a. Variable(s) entered on step 1: x.第2节 多类无序结果变量的logistic回归例3 研究不同学校和不同课程计划对学生学习方式偏好的影响,得到数据如下表.学校 课程计划 学生偏好的学习方式自修 小组 上课123常规附加常规附加常规附加10 17 261 12 5021 17 2616 12 3615 15 1612 12 20本例有两个自变量:学校和课程计划;一个应变量:学习方式。其中学校有3个水平,课程计划有两个水平,常规是指在学校规定的时间内安排的课程计划,附加是指除常规课程外,在放学后增加安排的课程计划。学习方式变量有三个水平。一多分类logistic回归理论回归模型:假设应变量有K个水平,则除一个对照水平外,以每一分类与对照水平作比较,拟合K-1个logit模型。例如结果变量有三个水平:a,b,c.以a为参照水平,就可以得到2个logistic函数,一个是b与a相比,另一个是c与a相比,即:同时应有此模型等价于:二、Spss实现(1)录入数据点击variable view定义变量名;点击data view 输入数据(按行输入,一个数据一行);点击file-save或save as 保存数据。(2) 实现过程Analyze-Regression-Multinomial Logistic Regression界面说明:主对话框Denpendent框:选入无序多分类的应变量Factors框:用于选入分类自变量,可以是有序或多分类,系统会自动为他们生产哑变量。Covariates框:用于选入连续性的自变量。Model子对话框: 用于进行模型的精确设定1.specify model单选框组Main effects:默认,只分析自变量的主效应,不分析它们的交互作用。Full factor:分析全模型,即包括所有自变量的主效应和各阶交互作用。Custom:用户自定义所拟合模型的具体情况。2. Factors and covariates 框:当上面选择custom时可用,列出了所有的自变量,用于让用户做进一步的设置。Statistics子对话框 :用于选择模型的一些统计量Estimates:输出模型中参数的估计值和可信区间Likelihood ratio tests:对模型的各种效应进行似然比检验Criteria子对话框Iterations复选框组:用于设定模型收敛标准Options子Save子对话框Saved variables:选择存储为新变量的分析结果Estimated response probabilities:将模型估计出的各类别的响应概率存为变量,应变量有多少分类就会存储多少个变量,每个变量对应一个分类的响应概率。Predicted category:将模型预测的分类结果存为变量。Predicted category probability:存储模型预测出的该观测相应分类的概率,即各类别的响应概率中最大的一个。Actual category probability:存储该观测实际分类所对应的响应概率。(3)结果解释此表输出数据汇总,包括应变量和自变量的分类情况及每一类的观察例数以及数据缺失情况的汇总。Case Processing SummaryNMarginal Percentagestyle自修7923.4%小组8525.1%上课17451.5%school学校112035.5%学校212837.9%学校39026.6%program常规16348.2%附加17551.8%Valid338100.0%Missing0Total338Subpopulation6下表是模型的似然比检验,最终模型和只含有常数项的模型相比,至少有一个自变量系数不为零,模型有意义。Model Fitting InformationModelModel Fitting CriteriaLikelihood Ratio Tests-2 Log LikelihoodChi-SquaredfSig.Intercept Only78.915Final50.44528.4706.000下表是对每个自变量显著性的似然比检验。Likelihood

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论