Poisson回归-冯国双ppt课件_第1页
Poisson回归-冯国双ppt课件_第2页
Poisson回归-冯国双ppt课件_第3页
Poisson回归-冯国双ppt课件_第4页
Poisson回归-冯国双ppt课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Poisson回归,冯国双,主要内容,一、二项分布与Poisson分布二、广义线性模型三、Poisson回归四、Poisson回归的SAS分析五、Poisson回归需注意的统计问题,二项分布,指在只会产生两种可能结果(如“阳性”或“阴性”)的n次独立试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,n的一种概率分布。n为试验次数,为“阳性”概率。,表示从n个不同元素中每次取出x个不同元素的组合,二项分布,二项分布的条件:每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;每次试验产生某种结果(如“阳性”)的概率固定不变;各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。,二项分布,二项分布举例:假定某疫苗的不良事件发生率是10%,现在有3个人接种了该疫苗,可能会出现的各种结局的概率是多少?,二项分布,3个人中,k个人出现不良事件的概率为:,二项分布,二项分布的概率分布:在n次独立试验中,令x表示事件A发生的次数,则随机变量x所有可能的取值为0、1、2、,其概率函数为:两个参数:n为试验次数,为事件发生率。,二项分布,二项分布的性质:平均数=n标准差,二项分布,Poisson分布,Poisson分布主要用于描述单位时间、面积、体积等单位内稀有事件个数的相对频率。Poisson随机变量x的分布是:一个参数0,是一常数,Poisson分布,Poisson分布的条件:试验是在给定的时间、面积、体积等单位内发生的事件次数;事件发生在给定的时间、面积、体积等单位内的概率对每一单位都是相同的;发生在一个时间、面积、体积等单位的事件与发生在其它单位的事件是互相独立的,Poisson分布,Poisson分布的条件示意图:,Poisson分布,Poisson分布举例:为监测饮用水的污染情况,某疾控中心对一社区的饮用水进行检测,下面是每毫升饮用水的细菌数,试分析该结果是否服从Poisson分布,Poisson分布,dataaa;inputxf;cards;0243112023136;procmeansmeanvar;freqf;varx;run;,Poisson分布,计算,Poisson分布,=1=2=3=4,Poisson分布,=5=6,负二项分布,负二项分布NegativeBinominalDistribution(NB):负二项分布常用于度量某事件发生前所需要的时间长度如顾客一直排队直到得到服务的时间,设备到失效的时间等其结果与二项分布一样,为两类:发生和不发生但描述的不是发生的次数,而是直至发生时实验的次数,负二项分布,负二项分布的性质:均值方差很明显看出,负二项分布的均值小于方差,负二项分布,负二项分布与Poisson分布的关系:Poisson分布中,设定是常数,当不是常数,而是一个随机变量,且服从分布时,此时复合Poisson分布就是负二项分布负二项分布中的是变化的,换句话说,个体事件发生的概率不等,有的出现的概率大,有的出现概率小,从而导致方差变大。实际意义也就是说,不同地区、时间等发生的概率不等,有的发生概率高,有的发生概率低,可能存在一定的聚集性。,负二项分布,负二项分布常用于:描述生物的聚集性,如钉螺在土壤的分布、昆虫的空间分布等;医学上描述传染性疾病的分布和致病生物的分布。需要注意:描述的事件发生率应比较低,其“单位”应足够大,负二项分布,离散参数(dispersionparameter):NB分布的均数与方差:令,则x的均数为:方差为:将k-1称为离散参数,当k-1趋于0时,负二项分布退化为Poisson分布,负二项分布,广义线性模型,广义线性模型“广”在什么地方?主要是“广”在因变量上。广义线性模型是一般线性模型的推广,一般线性模型中的因变量只能是定量变量广义线性模型则拓宽了这一范围,因变量不再仅限于定量变量,还可以是诸如二项分布、Poisson分布、负二项分布等非定量变量。,广义线性模型,广义线性模型(GeneralizedLinearModel)其中,等式右边是自变量x1,x2,xm,可以是一个,也可以是多个,形式可以是分类的,也可以是定量的。等式左边是一个联接函数,通过指定联接函数及数据分布,广义线性模型可转化成相应的具体模型。,广义线性模型,常用的联接函数,广义线性模型,当指定分布为正态(normal)分布,且联接函数直接就是时,广义线性模型就成了多重线性回归模型。当指定分布为二项(binomial)分布,指定联接函数为logit()即时,广义线性模型就是logistic回归模型。当指定分布为Poisson分布,联接函数为log()时,广义线性模型就转化成Poisson回归模型。当指定分布为负二项(negativebinomial)分布,联接函数为log()时,广义线性模型就转化为负二项回归。广义线性模型更进一步地将多重线性回归、logistic回归、Poisson回归、负二项回归等统一起来,Poisson回归模型,Poisson回归常用于单位时间或单位空间内某稀有事件发生数的影响因素分析医学中有不少现象均符合这种条件,尤其在肿瘤队列研究中,如对浅表性胃炎病人长期随访一段时间后的胃癌发生数。这种数据也称之为事件数资料(countdata)。其特征就是发生数能够一个一个地清点(counting),不能有小数点。,Poisson回归模型,Poisson回归模型的表达形式为:系数i表示xi每增加一个单位,log()的变动或者说xi每增加一个单位,对产生ei的效应,Poisson回归模型,Poisson回归的应用条件:线性:因变量的对数与自变量呈线性关系独立性:各观测之间相互独立方差等于均值:各自变量水平上的因变量的方差与均值相等,Poisson回归模型,Poisson回归模型,参数检验:(1)Wald检验:检验回归系数是否为零。其检验假设为:H0:j=0H1:j0,Poisson回归模型,参数检验:(2)似然比检验(likelihoodratiotest)比较两个嵌套模型的对数似然值似然比统计量服从2分布,其自由度为两个模型自变量数的差值,根据2值和相应的自由度可计算出P值,Poisson回归模型,模型评价:Pearson2比较期望值和观测值的差别yi表示不同自变量组合水平下的观测数,i表示期望数,V(i)表示方差,Poisson回归模型,模型评价:Deviance比较饱和模型和现有模型的差别Ls表示现有模型,Lf表示饱和模型饱和模型解释了模型系统部分的所有变动,反映一种理想状态。Deviance值越小,现有模型与饱和模型的偏差越小,拟合效果越好。,Poisson回归模型,Poisson回归模型,模型诊断:多重共线性(multi-collinearity)容忍度(tolerance):小于0.1时,可能存在共线性方差扩大因子(varianceinflationfactor,VIF):大于10时,可能存在共线性分类资料最好不用条件指数,Poisson回归模型,模型诊断:异常点诊断离群点(outliers):因变量预测值与实际值差别较大。诊断指标:Pearson残差、Deviance残差杠杆点(highleveragepoints):自变量远离其它值。诊断指标:杠杆值hi强影响点(influentialpoints):对模型估计影响较大。诊断指标:DFBETA,Cook距离(CooksDistance),Poisson回归模型,Poisson回归模型,广义线性模型在SAS中可通过procgenmod命令实现。其常用语句有:Procgenmod;Class分类变量;Model因变量=自变量;Weight变量:Run;,Poisson回归模型,Model语句常用的选项有:,Poisson回归模型,Model语句常用的选项:,Poisson回归模型,Model语句常用的选项:,Poisson回归模型,Class语句与logistic回归中的class语句相似,也可以通过param=和ref=这两个选项产生虚拟变量,并根据ref=的指定确定参照组。,Poisson回归模型,例1:某肿瘤医院为探索幽门螺杆菌及不同胃黏膜病变对胃癌的影响,在某地随机抽取了3400名居民,检测他们的幽门螺杆菌感染状况以及胃黏膜病变情况,并对他们的胃癌发病情况进行随访。随访7年后,共发现59例胃癌,欲分析幽门螺杆菌、基础胃黏膜病变对胃癌发生的影响。,Poisson回归模型,DATAexample10_2;INPUThppathcn;ln=log(n);/*产生一个新变量ln,其值为例数n的对数,作为后面model语句中的位移变量*/CARDS;01198102523003697116101012206041321287;PROCGENMOD;CLASSpath(param=refref=first);MODELc=hppath/dist=poissonlink=logoffset=lntype1type3;/*dist指定分布为Poisson分布,link指定联接函数为log,type1和type3输出似然比的1型和3型结果。Offset选项非常关键,它起到一个分母的作用,因为因变量只是指定了胃癌发生数c,因此通过offset选项设定一个位移变量。由于指定的联接函数为对数形式,因此位移变量不是直接用总例数,而是总例数的对数*/RUN;,Poisson回归模型,Deviance和Pearson2值分别为1.1535和1.0455,我们可根据相应的自由度DF求得对应的P值分别为0.5617和0.5929,远远大于0.05,提示模型拟合较好。,Poisson回归模型,SAS9.3结果中增加了AIC、AICC、BIC等模型评价指标,Poisson回归模型,Wald检验结果,hp的影响无统计学意义(P=0.1370),path的影响有统计学意义。,Poisson回归模型,似然比检验,分别给出了型和型的结果。型和型的结果不同,说明了什么?,Poisson回归中的过离散问题,例2:某研究观察马蹄蟹壳宽(wcat)与居住周围同伴数(satell)的关系,将壳宽从23-30cm分了8组,每组例数如下:,Poisson回归中的过离散问题,PROCGENMOD;CLASSwcat(param=refref=first);MODELsatell=wcat/dist=poissonlink=log;RUN;该语句没有加offset选项,为什么?,Poisson回归中的过离散问题,偏差和Pearson卡方大于1,提示可能存在过离散,Loglikelihood是校正了scale指定值的结果,fullloglikelihood没有校正scale指定值,Poisson回归中的过离散问题,参数估计结果,Poisson回归中的过离散问题,计算均值和方差:,Poisson回归中的过离散问题,方法一:利用过离散因子进行校正PROCGENMOD;CLASSpath(param=refref=first);MODELc=hppath/dist=poissonlink=logscale=pearson;RUN;,Poisson回归中的过离散问题,参数估计结果,Poisson回归中的过离

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论