logistic回归、probit回归与poission回归.ppt_第1页
logistic回归、probit回归与poission回归.ppt_第2页
logistic回归、probit回归与poission回归.ppt_第3页
logistic回归、probit回归与poission回归.ppt_第4页
logistic回归、probit回归与poission回归.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、逻辑回归(因变量是二元/二项式分布)概率单位回归泊松(因变量是泊松分布),第3章:横断面数据:因变量是分类变量,因变量是频率(计数)变量。逻辑回归(因变量为二元/二项式分布)概率单位回归泊松(因变量为泊松分布),第3章:横断面数据:因变量为分类变量,因变量为频率(计数)变量,概念上,逻辑回归是一种研究观测结果与影响因素(自变量)关系的多元分析方法,属于概率非线性回归。最常用的是二元逻辑,即因变量的值只包含两类,如好和坏;发生与否;常用的Y=1或Y=0。自变量x称为风险因子或暴露因子,可以是连续变量、等级变量和分类变量,可以有m个独立变量X1、X2和Xm。p代表Y=1的概率,是其他变量的函数。p

2、(Y=1|X)表示在X条件下Y=1的概率逻辑回归的数学表达式如下:逻辑回归的分类:(1)两类数据的逻辑回归:具有两类变量因变量的数据可以通过无条件逻辑回归和条件逻辑回归进行分析。无条件逻辑回归主要用于非匹配病例对照研究或队列研究数据,而条件逻辑回归主要用于匹配或匹配数据。(2)多分类数据的logistic回归:因变量是多分类数据,可以用多分类logistic回归模型或有序分类logistic回归模型进行分析。它也可以分为逻辑回归和条件逻辑回归,这样两个水平的因变量对应的值是0和1,概率是1-p和p,那么显然我们也可以用多元回归来分析?为什么使用逻辑回归分析?逻辑回归系数、模型评估、参数估计和假

3、设检验与以前的回归分析有什么不同?当因变量是二分变量时,它可以是逻辑回归或概率单位回归,因此概率单位回归及其与逻辑回归的异同,问题1:p (y=1)表示一个概率(p)模型,其结果y=1处于某一暴露因素状态。或者,该模型描述了因变量p和x之间的关系,p概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图1中逻辑回归函数的几何图形,并且线性回归在处理具有上限和下限的因变量时面临一个问题:x的相同变化对y有影响。虽然有许多非线性函数可以是S形的,但是它更受欢迎,因为罗技变换相对简单。逻辑不同于概率,因为它没有上限和下限。比率去除概率的上限,比率的对数去除概率的下限。并且它是对称的,以0和5为

4、中点,概率大于0.5产生正的logit,并且距离logit,logit距离0反映概率距离0.5的距离;概率的相同变化不同于逻辑的变化。logit变换理顺了x和初始概率之间的非线性关系。回归系数的显著性:逻辑回归中的回归系数表示当某个因素改变一个单位时,影响指标发生和不发生概率之比的对数变化值,即或的对数变化值。逻辑回归中的常数项表示影响指数发生和不发生的概率比的对数值,不涉及任何潜在的风险保护因素。从数学上讲,它与多元线性回归分析中回归系数的解释没有什么不同。(1)osmer-Lemeshowz指数HL统计量的原始假设Ho是预测值和观测值之间没有显著差异,因此HL指数的P值越大,原始假设越不能

5、被拒绝,这意味着模型很好地拟合数据。(2)AIC和供应链指标,即雷驰准则和施瓦茨准则,类似于线性回归。AIC和供应链越小,模型拟合越好。(3)似然比卡方检验表明,解释变量对因变量的解释作用总体上是否等同于多元回归中的f检验。在逻辑回归中,它可以通过似然比检验来检验。(4)RSQUARE(R2)和c统计解释了变量解释在何种程度上解释了因变量类似于线性回归中的R2。在逻辑回归中,它可以用R2和统计学来衡量。统计学趋势拟合效果评述:AIC和SC越小越好。与多元回归相似,回归平方和P值越小,RSQUARE越好。与多元回归相似,统计量越大,观测值和条件预测值之间的相对一致性统计量越小,观测值和预测值之间

6、的总体一致性P值越好。研究表明,在实践中,C统计是上述统计中最受关注的,其次是AIC和SQUARE对其关注较少,这与多元线性回归有很大不同。根本原因是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;Logistic是一个分类模型,目标变量只是一个分类标识符,所以我们更注重预测值和预测值之间的相对一致性,而不是绝对一致性。参数估计,此外,逻辑回归也可以使用优势比估计:例:观察例,逻辑回归模型的假设检验,3。分数测试基于不包含一个或多个变量的模型,保持模型中参数的估计值,并假设新添加的参数为零,计算单叶偏导数(也称为有效分数)和似然函数的信息矩阵,并将它们相乘。当样本量较大时,S近似服从

7、自由度为待测因子数的分布。在上述三种方法中,似然比检验(与前一种相似)是最可靠的,而分数检验(逻辑回归模型所独有的)一般与之一致,但两者都需要大量的计算;然而,沃尔德检验(相当于广义T检验)没有考虑各种因素的综合影响,当因素共线时,其结果不如另外两个因素可靠。拟合模型的假设检验:变量筛选。一名工作人员收集了一组接受根治性肾切除术的患者的肾细胞癌标本数据,以研究与肾细胞癌转移相关的临床病理因素,现从中选出26例病例。逻辑回归分析用于筛选与癌细胞转移相关的危险因素(可变包含和排除水平均为0.10)。模型用逐步回归法拟合,变量选择和剔除水平为0.10。选项“des”被指定为根据y=1的概率(带转移)

8、来拟合模型。如果不添加该选项,软件将根据y=0的概率(无转换)来拟合模型。此时,因变量的排序级别被颠倒,所有参数的符号都是相反的,或者值是原始的倒数。Logistic逐步回归分析筛选出两个具有统计学意义的变量,x2和x4,回归系数分别为2.4134和2.0963,优势比为11.172和8.136。结果中还给出了标准化偏回归系数。肾细胞癌的核组织学分级(x4)比肾细胞癌的血管内皮生长因子(x2)更易引起癌细胞转移。条件逻辑回归,匹配/匹配调查数据应通过条件逻辑回归进行分析。对于匹配数据,ith匹配组可以建立一个逻辑回归:假设自变量对每个匹配组的结果变量有相同的影响,即自变量的回归系数与匹配组无关

9、。匹配设计的逻辑回归模型不包含常项。可以看出,这种回归模型与无条件逻辑回归模型非常相似,只是这里的参数估计是基于条件概率的,所以称为条件逻辑回归模型。条件Logistic回归的回归系数检验与分析适用数据:前瞻性研究设计、病例对照研究设计和横断面研究设计的数据。三类研究计算的逻辑回归模型具有相同的意义。只有常数项不同。(省略证明),逻辑回归的应用,2。校正混杂因素,在临床研究和疗效评价中评价疗效,组间某些因素构成不一致,干扰疗效分析,可以控制不合理因素,正确评价疗效。3.预测和辨别个体在某些因素存在的情况下发生事件(疾病)的概率,为进一步治疗提供依据。问题3,就像逻辑回归一样,概率单位分析依赖于

10、将二元因变量的回归转化为连续因变量的回归。给定经历一个事件或具有某些特征的概率,预测概率单位成为由一个或多个自变量确定的线性方程的因变量:z表示通过使用累积标准正态分布将概率非线性转换为z分数。通过使用线性方程来预测Z分数,概率单位分析暗示了与概率的非线性关系。与曲线的极限相比,因变量在接近曲线中点时对概率的影响更大。在逻辑回归中,我们可以用简单的公式来概括从概率到对数和从对数到概率的转换。对于概率单位分析,标准正态分布曲线的复杂公式使其更加困难(尽管它可以很容易地通过计算机获得)。除了在logit和probit之间的转换中的一些相似之处,这两个系数之间有一个随机常数(大约1.8)的差异。(软

11、件程序中的概率单位分析将误差项的标准偏差设置为1,而逻辑分析将误差项的标准偏差设置为1.814)逻辑系数大约是概率单位系数的1.8倍,将逻辑系数除以该值可以使它们的单位具有可比性。然而,由于逻辑曲线和正态曲线不同,逻辑系数和概率单位系数仍然略有不同。但是基本上,逻辑分析和概率单位分析的结果在本质上是相似的。像逻辑回归一样,概率单位分析也使用最大似然估计来估计参数,并且估计过程与逻辑回归完全相同。然而,与逻辑回归不同,这里使用的是累积标准正态分布,因此因变量的P值不能从自变量和估计参数中获得。为了使计算更简单,程序是最大化似然数的自然对数,而不是最大化似然函数。系数的意义以及整个模型的评价和检验

12、与逻辑回归相似。probit分析和logistic回归只是因变量的不同转换方式以及由此产生的微小差异。逻辑回归(因变量是二元/二项式分布)概率单位回归泊松(因变量是泊松分布),第3章:横截面数据:因变量是分类变量且因变量是频率(计数)变量的情况,概念,泊松回归:用于模拟技术数据和列联表的回归分析。泊松回归假设反应变量Y是泊松分布,其期望值的对数可以通过未知参数的线性组合来建模。泊松回归模型有时被称为对数线性模型(特别是当用作列联表模型时)。分类数据显示离散计数,服从泊松分布。因变量Y服从泊松分布。期望值是(泊松分布变量的方差也是)。如果有一个解释变量X,可以写成下面的回归模型:G是一个连接函数

13、,通常取对数函数,所以对数线性模型可以写成:泊松回归模型是描述目标变量Y服从泊松分布的均值和协变量之间关系的回归模型。对数线性模型的解释变量xi增加了一个单位。单位速率模型可以写成N,称为偏移,对数(N)用作偏移。当所有协变量都没有影响时,它等于模型在泊松分布下的似然函数。对于低发病率(疾病)的开放队列研究数据,概率函数如下:其中di是随机变量,其理想值回归模型的似然函数是泊松分布条件下每个格概率函数的总概率(乘积)。L()=,参数估计,取两边对数,回归模型的对数似然函数为: lnL()=,对数似然函数中的未知参数可用迭代加权最小二乘法(简称IRLS法)估计,这与通常的最大似然估计结果一致。最

14、大似然估计方法也可以用来检验模型拟合度和参数的偏差统计量。泊松回归模型的拟合质量用离差统计量来表示,离差统计量实际上是对数似然比统计量,是饱和模型和拟合模型之差的两倍。它在泊松分布条件下的计算公式是:参数检验,参数检验可以通过偏差统计量G2的差值(G2)和两个不同参数个数模型的自由度的差值(df)来实现。当G2为P0.05时,该参数(因子)具有统计学意义。G2,泊松回归(Genmod过程),Genmod过程:广义线性模型通过参数向量的最大似然估计进行拟合,参数值通过迭代拟合过程进行估计。GENMOD过程用于广义线性模型分析。广义线性模型是传统线性模型的扩展。其总体均值通过非线性连接函数依赖于线性预测值,反应变量(误差项)的概率分布是指数分布族的任意成员。许多广泛使用的统计模型是广义线性模型,包括具有正态误差的经典线性模型、逻辑回归模型、概率单位模型和对数线性模型。例如:英国男医生冠心病死亡与吸烟关系的研究数据,请推断冠心病死亡是否与吸烟和年龄有关,程序示例2:proc genmod;模型死亡=年龄烟雾/距离=泊松链接=对数偏移=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论