




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多因素分析,多元线性回归Logistic回归生存分析,.,1,第一部分多元线性回归,简单线性回归只考虑一个X对Y的影响;多元线性回归(multiplelinearregression)考虑多个自变量X对Y的影响此时要考虑:1.Y是否满足LINE2.所建回归方程是否有意义:AVOVA3.回归方程中的每个自变量是否都有意义:t检验4.如何获得变量最少,解释Y变异又较多的方程?筛选变量方法,.,2,3,30名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析,.,4,根据样本得到的回归方程,偏回归系数partialregressioncoefficient表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响。标准化偏回归系数(standardized),表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数。其大小反映了该自变量的重要性多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素,偏回归系数的计算:最小二乘原理假设检验:偏回归系数检验-t检验模型整体检验-方差分析前提条件:线性、独立性、正态性、方差相等,LINE,5,SPSS操作步骤,分析回归线性因变量:Y;自变量:x1-x4ok,体重指数病程瘦素空腹血糖-1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030(ng/ml)Foragivenx2,x3,x4,each1kg/m2increaseinx1isassociatedwithanaveragedecreaseinYof1.030ng/ml.,.,6,方程的假设检验,整个模型的假设检验:方差分析法(ANOVA),F=17.000,P0.001,拒绝H0,以下模型是有意义的.,.,7,是不是每个自变量的偏回归系数均有统计学意义呢?t检验,N为个体数,k为自变量个数并不是每个自变量都有意义!,在alpha=0.05,x1x2x4三个变量没有统计学意义,.,8,自变量筛选常用方法,Allpossiblesubsetsselection最优子集回归,全局择优法Stepwiseselectioninclude逐步回归法forwardselection前向选择backwardelimination后向选择stepwiseregression逐步选择,9,.,由于变量之间是有关联的,因此并不是简单地将三个变量从方程中去除!,10,一最优子集法最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程。,.,11,评价指标:,1残差平方和与决定系数,残差平方和越小越好,R2越大越好,12,2残差均方与调整确定系数,考虑了引入变量的个数p,13,3Cp统计量(Cpstatistic),由MallowsCL.提出。,当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程。,.,14,SAS运行结果,.,二、逐步回归法,向后法(删),向前法(进),逐步法,方程,方程,方程,规定进入,保留(删)的P值,且要求P进=25)的优势odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的优势Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727,.,27,.,28,若y=1为disease,y=0为non-disease,有,.,29,.,30,回归系数的解释,logistic回归中的系数,与OR的关系:ln(OR),设P1为X=1的得病概率,P0为X=0的得病概率,.,31,模型检验与偏回归系数检验似然比检验(likelihoodtest),似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:GGPGK2ln(LP)+2ln(LK)G服从自由度为K-P的2分布。所以似然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验,.,32,似然比检验,检验变量X1是否有统计学意义:模型1:不考虑,-2lnL1=12827.236模型2:考虑X,-2lnL2=12301.503G=-2lnL1-(-2lnL2)L为对数似然函数值G12301.503-12827.236174.267,=1,P0.001说明回归系数具有统计学意义。,33,.,34,(偏)回归系数wald检验,.,SPSS软件操作,分析回归二元logistic回归因变量:C协变量:r选项确定,35,36,多分类变量:哑变量(dummyvariable)x1时:x10,x20,x30表示A型血x2时:x11,x20,x30表示B型血x3时:x10,x21,x30表示AB型血x4时:x10,x20,x31表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。,例为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(5岁:1;5岁:2;15岁:3;45岁:4;65岁:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(10分钟:1;10分钟:2;30分钟:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。11790名居民中,调查前二周患者1649人,其中未就医者720人。,37,38,P386例20-2,.,39,逐步法,.,40,.,操作步骤,analyzeregressionbinarylogisticdepedent:ycovariates:x1-x7categorical:x7continuemethod:backwardLRoptions:entry0.02,removal0.05continueok,.,41,样本含量估计,在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的1020倍。也可以根据公式估计Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果。,.,42,复习思考1、Logistic回归应变量是什么?2、Logistic回归系数的流行病学解释3、OR值的解释与暴露因素及Y的设置有关吗?4、为什么要进行变量筛选?5、最终进入方程的变量取决于哪些因素?,43,第三部分医学随访资料的统计分析方法-生存分析survivalanalysis,44,.,问题1,如果甲药治愈率为80%,疗程1月乙药治愈率为90%,疗程3月.哪个更好?,158例经手术治疗大肠癌患者临床病理因素及5年生存状态.如果有人没观察满5年,4年时死于其他原因,这个人的信息可否利用?,45,.,问题2如何计算平均数,手术到死亡时间371520252630平均生存时间mean=1839152025+2730+中位生存时间median=20,46,.,完全数据的均数:Mean(A)=12.5Mean(B)=11.0,问题3这个数据如何分析?,A3681022263030B68102030303030,?,47,.,数据特点,结局不仅取决于有效/无效,还与起效时间长短有关时间不仅有完全数据,还有不完全数据(截尾数据,删失数据)生存数据常常是偏态的生存分析,48,.,6例膀胱肿患者术后生存时间记录表,某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=3,2=3),是否复发(1=是,0=否),49,.,生存资料基本概念,起点事件与终点事件(结局)生存时间(过程)截尾值,50,.,基本概念,起点事件与终点事件生存时间暴露因素,疾病确诊死亡治疗开始痊愈手术死亡或痊愈症状缓解疾病恶化接触毒物出现毒性反映临床试验开始不良反应接触危险因素发病小白鼠染毒中毒死亡开始戒烟再次吸烟结婚登记第一次离婚,51,.,生存时间(survivaltime),失效时间(failuretime)广义:从起点事件到终点事件所经历的时间跨度。其包括三个内容:事件的起点、事件的终点及测量单位(小时、日、月、年等),52,起点事件,终点事件,生存时间,.,完全数据与删失数据,完全数据(Completedata)删失数据,截尾数据(Censoreddata)终点数据没有发生失访/脱落(losttofollow-up,drop-out)其他竞争性事件治疗措施改变,53,.,生存资料的统计分析方法,统计描述:生存率及其标准误统计推断:总体生存率的可信区间估计;两样本或多样本生存率比较生存过程的影响因素分析,54,.,生存资料的统计描述,生存概率与死亡概率survivalprobability,deadprobability生存率survivalfunction,cumulativesurvivalprobability半数生存时间mediansurvivaltime,55,.,生存资料的统计推断,生存率的估计小样本的乘积极限法product-limitmethod(Kaplan-Meier法)大样本的寿命表法life-tablemethod生存曲线的比较log-rank检验,56,.,生存曲线,下降速度快表现为坡度大、曲线陡峭,说明其生存率较低或生期较短;若下降速度慢表现为坡度小、曲线平缓,说明其生存率较高或生期较长。,57,.,中位生存期或半数生存期mediansurvivaltime,仍有半数观察个体存活的时间。数值求解图表法-通过生存率为50%从生存曲线粗略估计线性内插法interpolation若中位生存期越长,疾病预后越好;反之,预后越差。,58,.,生存率曲线的比较,log-rank检验(对数秩检验)两时点生存率的比较生存率及标准误均有截尾值,所以不能用普通的二项分布的Z检验或分类资料的卡方检验比较两样本生存率。,59,.,对数秩检验的条件:要求各生存曲线不能交叉;交叉提示可能存在混杂因素,应采用多因素分析方法来校正或采用分层分析方法。,60,.,61,Cox回归,比例风险回归模型(proportionalhazardsregressionmodel)简称COX回归研究协变量与生存函数(风险函数)之间的关系。,.,比例风险回归模型,62,H(t)t时刻的风险函数(hazardfunction);h0(t)为基准风险函数,与时间有关,任意分布;比例风险(proportionalhazard,PH)假设:任一时刻两组风险比是常数,比例系数为exp(.),.,风险比(HazardRatio,HR),风险比(HazardRatio,HR)同一时点两组风险函数之比,63,.,41名某恶性肿瘤病人的生存时间及其影响因素,64,.,41名某恶性肿瘤病人的多变量Cox回归结果,65,.,生存资料的基本要求,随机样本,数量足够死亡例数不能太
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地铁站重点应急演练项目计划
- 原木影视场景搭建材料创新创业项目商业计划书
- 电子商务安全解决方案创新创业项目商业计划书
- 智能客服质检系统创新创业项目商业计划书
- 智能翻译设备创新创业项目商业计划书
- 矿石磁选与电选智能控制系统创新创业项目商业计划书
- 职业暴露(锐器伤)应急预案演练脚本(2篇)
- 专业准入实施管理办法
- 资产管理办法公示结果
- 行政住宿预订管理办法
- 手机短拍摄制作培训
- 《电气安全之接地保护》课件
- 护理交接班缺陷
- 2025年湖南省中考英语试卷真题(含答案解析)
- 赛事承办、体育比赛组织策划投标方案
- 日间化疗相关管理制度
- 骨折的急救处理与操作
- 食源性疾病培训课件完整版
- 2025年智能仓储物流机器人的多机器人协作与任务分配优化策略的实践探索可行性研究报告
- 派驻国外员工管理制度
- 2025-2030中国车身控制器行业市场现状分析及竞争格局与投资发展研究报告
评论
0/150
提交评论