多因素分析课件_第1页
多因素分析课件_第2页
多因素分析课件_第3页
多因素分析课件_第4页
多因素分析课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多因素分析多元线性回归Logistic回归生存分析.多因素分析多元线性回归.第一部分多元线性回归简单线性回归只考虑一个X对Y的影响;多元线性回归(multiplelinearregression)考虑多个自变量X对Y的影响此时要考虑:1.Y是否满足LINE2.所建回归方程是否有意义:AVOVA3.回归方程中的每个自变量是否都有意义:t检验4.如何获得变量最少,解释Y变异又较多的方程?

筛选变量方法第一部分多元线性回归简单线性回归只考虑一个X对Y的影响;330名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析330名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数B4根据样本得到的回归方程偏回归系数

partialregressioncoefficient表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响。标准化偏回归系数(standardized~),表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数。其大小反映了该自变量的重要性多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素4根据样本得到的回归方程偏回归系数partialregr偏回归系数的计算:最小二乘原理假设检验:偏回归系数检验-t检验模型整体检验-方差分析前提条件:线性、独立性、正态性、方

差相等,LINE

偏回归系数的计算:最小二乘原理SPSS操作步骤分析→回归→线性→因变量:Y;自变量:x1-x4→ok体重指数病程瘦素空腹血糖-1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030

(ng/ml)Foragivenx2,x3,x4,each1kg/m2increaseinx1isassociatedwithanaveragedecreaseinYof1.030ng/ml.SPSS操作步骤分析→回归→线性→因变量:Y;自变量:x1-方程的假设检验整个模型的假设检验:方差分析法(ANOVA)F=17.000,P<0.001,拒绝H0,以下模型是有意义的.方程的假设检验整个模型的假设检验:方差分析法(ANOVA是不是每个自变量的偏回归系数均有统计学意义呢?t检验

N为个体数,k为自变量个数并不是每个自变量都有意义!,在alpha=0.05,x1x2x4三个变量没有统计学意义是不是每个自变量的偏回归系数均有统计学意义呢?t检验

N为个自变量筛选常用方法Allpossiblesubsetsselection最优子集回归,全局择优法Stepwiseselectioninclude逐步回归法forwardselection前向选择backwardelimination后向选择stepwiseregression逐步选择9.由于变量之间是有关联的,因此并不是简单地将三个变量从方程中去除!自变量筛选常用方法Allpossiblesubsets10一最优子集法

最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程。10一最优子集法11评价指标:1残差平方和与决定系数残差平方和越小越好,R2越大越好11评价指标:1残差平方和与决定系数残差平方和越小越好,R122残差均方与调整确定系数考虑了引入变量的个数p122残差均方与调整确定系数考虑了引入变量的个数p133Cp统计量(Cpstatistic)

由MallowsCL.提出。当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程。133Cp统计量(Cpstatistic)由Mal14SAS运行结果14SAS运行结果二、逐步回归法向后法(删)向前法(进)逐步法方程方程方程规定进入,保留(删)的P值,且要求P进<P删,P值大小如何选取?自变量框中变量全部进入方程强迫删除二、逐步回归法向后法向前法逐步法方程方程方程规定进入,保留(多因素分析课件多因素分析课件最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准化偏回归系数)生物学意义为BMI、瘦素增加,脂联素含量是下降的,(标准化偏回归系数)瘦素的影响作用大于BMI的影响。最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准化偏思考多元线性回归中应变量Y是什么类型的变量?偏回归系数与标准偏回归系数的意义控制混杂因素有哪些方法?方差分析与t检验在多元线性回归分析中的作用有何不同?变量筛选有哪些方法?在应用逐步法筛选变量时是不是一定取alpha=0.05?如何选取?思考多元线性回归中应变量Y是什么类型的变量?第二部分Logistic回归本方法教学要求适用资料回归方程表达偏回归系数与比数比OR模型检验与偏回归系数检验哑变量设置变量筛选应用第二部分Logistic回归本方法教学要求Logistic回归分析思路同多元线性回归要考虑和解决如下几个问题:1、Y中的1,0的比例,比例接近0或1都不好2、模型的全局检验,似然比检验LR(多元线性回归是ANOVA)3、方程中每个系数的检验:wald或LR,多元线性回归是t-test)4、变量筛选:向前,向后(条件LR,LR,Wald)5、个体概率预测,判断Logistic回归分析思路同多元线性回归适用资料应变量Y为二分类:二元Logistic回归Y为无序多分类:多项Logistic回归Y为有序多分类:有序Logistic回归自变量类型不限,变量个数单个多个均可本次课只讲二分类Logistic回归,且是完全随机设计资料,因此也称非条件Logistic回归适用资料应变量Y为二分类:二元Logistic回归23回归方程表达P为发病的概率,0≤P≤1,广义线性模型。Log,就是自然对数ln;ex,可写成exp(x)

23回归方程表达P为发病的概率,0≤P≤1,广义线性模型。偏回归系数计算基本原理:极大似然法(Maximumlikelihood,ML)要求lnL达到最大。偏回归系数计算基本原理:极大似然法(Maximumlike25复习:优势odds与优势比oddsratio优势(比势)为某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E))的比例。Odds=P(E)/[1-P(E)]25复习:优势odds与优势比oddsratio优势(比势26优势比oddsratio,OR患者与非患者某因素优势的比值被称作优势比(比数比)。OR=odds1/odds0

例病人有超重或肥胖史(BMI>=25)的优势

odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的优势Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727

高血压1非病人0合计超重或肥胖11656a2492b4148正常01331c5461d6792合计298779531094026优势比oddsratio,OR患者与非患者某因素优势的272728若y=1为disease,y=0为non-disease,有28若y=1为disease,y=0为non-disease29高血压1非病人0合计超重或肥胖11656a2492b4148正常01331c5461d6792合计2987795310940

29高血压1非病人0合计超重或肥胖11656a2492b30回归系数的解释logistic回归中的系数,与OR的关系:=ln(OR)设P1为X=1的得病概率,P0为X=0的得病概率30回归系数的解释logistic回归中的系数,与OR的关31模型检验与偏回归系数检验

似然比检验(likelihoodtest)

似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:

G=GP-GK

=-2ln(LP)+2ln(LK)G服从自由度为K-P的2分布。所以似然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验

31模型检验与偏回归系数检验

似然比检验(likelihoo32似然比检验检验变量X1是否有统计学意义:模型1:不考虑,-2lnL1=12827.236模型2:考虑X,-2lnL2=12301.503G=-2lnL1-(-2lnL2)L为对数似然函数值

G=12301.503-12827.236=174.267,

=1,P<0.001说明回归系数β具有统计学意义。32似然比检验检验变量X1是否有统计学意义:333334(偏)回归系数wald检验34(偏)回归系数wald检验SPSS软件操作分析→回归→二元logistic回归→因变量:C协变量:r→选项→确定SPSS软件操作分析→回归→二元logistic回归→因变量36多分类变量:哑变量(dummyvariable)x=1时:x1=0,x2=0,x3=0表示A型血x=2时:x1=1,x2=0,x3=0表示B型血x=3时:x1=0,x2=1,x3=0表示AB型血x=4时:x1=0,x2=0,x3=1表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。36多分类变量:哑变量(dummyvariable)例为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(<5岁:1;5岁~:2;15岁~:3;45岁~:4;65岁~:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(<10分钟:1;10分钟~:2;30分钟~:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。11790名居民中,调查前二周患者1649人,其中未就医者720人。例为研究居民两周患病未治疗的影响因素,采用多阶段分层整群38P386例20-238P386例20-239逐步法39逐步法4040操作步骤analyze→regression→binarylogistic→depedent:ycovariates:x1-x7→categorical:x7→continue→method:backwardLR→options:entry0.02,removal0.05

→continue→ok操作步骤analyze→regression→binary样本含量估计在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的10~20倍。也可以根据公式估计Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果。样本含量估计在多重线性回归分析中,若复相关系数大于0.5时,复习思考1、Logistic回归应变量是什么?2、Logistic回归系数的流行病学解释3、OR值的解释与暴露因素及Y的设置有关吗?4、为什么要进行变量筛选?5、最终进入方程的变量取决于哪些因素?复习思考第三部分医学随访资料的统计分析方法-生存分析

survivalanalysis44.第三部分医学随访资料的统计分析方法-生存分析

surviva问题1如果甲药治愈率为80%,疗程1月乙药治愈率为90%,疗程3月.

哪个更好?158例经手术治疗大肠癌患者临床病理因素及5年生存状态.如果有人没观察满5年,

4年时死于其他原因,这个人的信息可否利用?45问题1如果甲药治愈率为80%,疗程1月158例经手术治疗大问题2如何计算平均数

手术到死亡时间

371520252630

平均生存时间mean=1839152025+2730+

中位生存时间median=2046问题2如何计算平均数

手术到死亡时间46以30天为界的分类结果: 死亡 生存A 6 2 B 4 4

完全数据的均数:Mean(A)=12.5Mean(B)=11.0

问题3这个数据如何分析?A

3 6 8 10 22 26

30+30+

B 6 8 10 20 30+30+30+30+

?

47以30天为界完全数据的均数:问题3这个数据如何分析?A数据特点结局不仅取决于有效/无效,还与起效时间长短有关时间不仅有完全数据,还有不完全数据(截尾数据,删失数据)生存数据常常是偏态的生存分析48数据特点结局不仅取决于有效/无效,还与起效时间长短有关486例膀胱肿患者术后生存时间记录表某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=<3,2=≥3),是否复发(1=是,0=否)496例膀胱肿患者术后生存时间记录表某医师收集了1996-200生存资料基本概念

起点事件与终点事件(结局)生存时间(过程)截尾值50生存资料基本概念

起点事件与终点事件(结局)50基本概念起点事件与终点事件生存时间暴露因素疾病确诊—死亡治疗开始—痊愈手术—死亡或痊愈症状缓解—疾病恶化接触毒物-出现毒性反映临床试验开始—不良反应接触危险因素—发病小白鼠染毒—中毒死亡开始戒烟—再次吸烟结婚登记—第一次离婚51基本概念起点事件与终点事件疾病确诊—死亡51生存时间(survivaltime)失效时间(failuretime)广义:从起点事件到终点事件所经历的时间跨度。其包括三个内容:事件的起点、事件的终点及测量单位(小时、日、月、年等)

52起点事件终点事件生存时间生存时间(survivaltime)失效时间(failur完全数据与删失数据完全数据(Completedata)删失数据,截尾数据(Censoreddata)终点数据没有发生失访/脱落(losttofollow-up,

drop-out)其他竞争性事件治疗措施改变53完全数据与删失数据完全数据(Completedata)53生存资料的统计分析方法

统计描述:生存率及其标准误统计推断:总体生存率的可信区间估计;两样本或多样本生存率比较生存过程的影响因素分析54生存资料的统计分析方法

统计描述:生存率及其标准误54生存资料的统计描述生存概率与死亡概率survivalprobability,deadprobability生存率survivalfunction,cumulativesurvivalprobability半数生存时间mediansurvivaltime55生存资料的统计描述生存概率与死亡概率survivalpr生存资料的统计推断生存率的估计—小样本的乘积极限法product-limitmethod(Kaplan-Meier法)—大样本的寿命表法life-tablemethod

生存曲线的比较—log-rank检验56生存资料的统计推断生存率的估计56生存曲线下降速度快表现为坡度大、曲线陡峭,说明其生存率较低或生期较短;若下降速度慢表现为坡度小、曲线平缓,说明其生存率较高或生期较长。57生存曲线下降速度快表现为坡度大、曲线陡峭,说明其生存率较低或中位生存期或半数生存期

mediansurvivaltime仍有半数观察个体存活的时间。数值求解图表法-通过生存率为50%从生存曲线粗略估计线性内插法interpolation若中位生存期越长,疾病预后越好;反之,预后越差。58中位生存期或半数生存期

mediansurvivalti生存率曲线的比较log-rank检验(对数秩检验)两时点生存率的比较生存率及标准误均有截尾值,所以不能用普通的二项分布的Z检验或分类资料的卡方检验比较两样本生存率。59生存率曲线的比较log-rank检验(对数秩检验)59对数秩检验的条件:

要求各生存曲线不能交叉;交叉提示可能存在混杂因素,应采用多因素分析方法来校正或采用分层分析方法。60对数秩检验的条件:6061Cox回归比例风险回归模型(proportionalhazardsregressionmodel)简称COX回归研究协变量与生存函数(风险函数)之间的关系。

61Cox回归比例风险回归模型(proportionalh比例风险回归模型62H(t)

t时刻的风险函数(hazardfunction);h0(t)为基准风险函数,与时间有关,任意分布;比例风险(proportionalhazard,PH)假设:任一时刻两组风险比是常数,比例系数为exp(.)比例风险回归模型62H(t)t时刻的风险函数(hazar风险比(HazardRatio,

HR)风险比(HazardRatio,

HR)同一时点两组风险函数之比63风险比(HazardRatio,HR)风险比(Hazar41名某恶性肿瘤病人的生存时间及其影响因素

6441名某恶性肿瘤病人的生存时间及其影响因素

6441名某恶性肿瘤病人的多变量Cox回归结果

6541名某恶性肿瘤病人的多变量Cox回归结果

65生存资料的基本要求随机样本,数量足够死亡例数不能太少截尾比例不能太大生存时间尽可能精确,如‘日’66生存资料的基本要求随机样本,数量足够66作业请从应变量类型、模型表达形式、回归系数解释小结多元线性回归、logistic回归与Cox回归三个多因素分析方法为什么要设置哑变量?作业请从应变量类型、模型表达形式、回归系数解释小结多元线性回以下是logistic回归分析结果,试解释结果x2年龄:<5岁=1;5岁~=2;15岁~=3;45岁~=4;65岁~=5);x6自感疾病严重程度:不严重=1;一般=2;严重=3;x7发病时间:急性病两周内发生=1,

急性病两周前发生延续到两周内=2慢性病持续到两周内=3;Y就诊

就诊=0,未就诊=1以下是logistic回归分析结果,试解释结果多因素分析多元线性回归Logistic回归生存分析.多因素分析多元线性回归.第一部分多元线性回归简单线性回归只考虑一个X对Y的影响;多元线性回归(multiplelinearregression)考虑多个自变量X对Y的影响此时要考虑:1.Y是否满足LINE2.所建回归方程是否有意义:AVOVA3.回归方程中的每个自变量是否都有意义:t检验4.如何获得变量最少,解释Y变异又较多的方程?

筛选变量方法第一部分多元线性回归简单线性回归只考虑一个X对Y的影响;7130名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析330名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数B72根据样本得到的回归方程偏回归系数

partialregressioncoefficient表示在其他自变量固定条件下,某自变量每增减一个单位对y的平均效应影响。标准化偏回归系数(standardized~),表示在其他自变量固定条件下,某自变量每增减一个标准单位,y改变的平均标准单位数。其大小反映了该自变量的重要性多因素的分析更加切合实际;提高回归方程的估计精度;从多个可能的因素中选择真正有意义的因素4根据样本得到的回归方程偏回归系数partialregr偏回归系数的计算:最小二乘原理假设检验:偏回归系数检验-t检验模型整体检验-方差分析前提条件:线性、独立性、正态性、方

差相等,LINE

偏回归系数的计算:最小二乘原理SPSS操作步骤分析→回归→线性→因变量:Y;自变量:x1-x4→ok体重指数病程瘦素空腹血糖-1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单位,脂联素平均减少1.030

(ng/ml)Foragivenx2,x3,x4,each1kg/m2increaseinx1isassociatedwithanaveragedecreaseinYof1.030ng/ml.SPSS操作步骤分析→回归→线性→因变量:Y;自变量:x1-方程的假设检验整个模型的假设检验:方差分析法(ANOVA)F=17.000,P<0.001,拒绝H0,以下模型是有意义的.方程的假设检验整个模型的假设检验:方差分析法(ANOVA是不是每个自变量的偏回归系数均有统计学意义呢?t检验

N为个体数,k为自变量个数并不是每个自变量都有意义!,在alpha=0.05,x1x2x4三个变量没有统计学意义是不是每个自变量的偏回归系数均有统计学意义呢?t检验

N为个自变量筛选常用方法Allpossiblesubsetsselection最优子集回归,全局择优法Stepwiseselectioninclude逐步回归法forwardselection前向选择backwardelimination后向选择stepwiseregression逐步选择77.由于变量之间是有关联的,因此并不是简单地将三个变量从方程中去除!自变量筛选常用方法Allpossiblesubsets78一最优子集法

最优子集法是对自变量各种不同的组合所建立的回归方程进行比较,从而选出一个“最优”的回归方程。10一最优子集法79评价指标:1残差平方和与决定系数残差平方和越小越好,R2越大越好11评价指标:1残差平方和与决定系数残差平方和越小越好,R802残差均方与调整确定系数考虑了引入变量的个数p122残差均方与调整确定系数考虑了引入变量的个数p813Cp统计量(Cpstatistic)

由MallowsCL.提出。当p个自变量拟合的方程理论上“最优”时,Cp的期望值为p+1,因此应选择Cp越接近于p+1的回归方程为“最优”方程。133Cp统计量(Cpstatistic)由Mal82SAS运行结果14SAS运行结果二、逐步回归法向后法(删)向前法(进)逐步法方程方程方程规定进入,保留(删)的P值,且要求P进<P删,P值大小如何选取?自变量框中变量全部进入方程强迫删除二、逐步回归法向后法向前法逐步法方程方程方程规定进入,保留(多因素分析课件多因素分析课件最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准化偏回归系数)生物学意义为BMI、瘦素增加,脂联素含量是下降的,(标准化偏回归系数)瘦素的影响作用大于BMI的影响。最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准化偏思考多元线性回归中应变量Y是什么类型的变量?偏回归系数与标准偏回归系数的意义控制混杂因素有哪些方法?方差分析与t检验在多元线性回归分析中的作用有何不同?变量筛选有哪些方法?在应用逐步法筛选变量时是不是一定取alpha=0.05?如何选取?思考多元线性回归中应变量Y是什么类型的变量?第二部分Logistic回归本方法教学要求适用资料回归方程表达偏回归系数与比数比OR模型检验与偏回归系数检验哑变量设置变量筛选应用第二部分Logistic回归本方法教学要求Logistic回归分析思路同多元线性回归要考虑和解决如下几个问题:1、Y中的1,0的比例,比例接近0或1都不好2、模型的全局检验,似然比检验LR(多元线性回归是ANOVA)3、方程中每个系数的检验:wald或LR,多元线性回归是t-test)4、变量筛选:向前,向后(条件LR,LR,Wald)5、个体概率预测,判断Logistic回归分析思路同多元线性回归适用资料应变量Y为二分类:二元Logistic回归Y为无序多分类:多项Logistic回归Y为有序多分类:有序Logistic回归自变量类型不限,变量个数单个多个均可本次课只讲二分类Logistic回归,且是完全随机设计资料,因此也称非条件Logistic回归适用资料应变量Y为二分类:二元Logistic回归91回归方程表达P为发病的概率,0≤P≤1,广义线性模型。Log,就是自然对数ln;ex,可写成exp(x)

23回归方程表达P为发病的概率,0≤P≤1,广义线性模型。偏回归系数计算基本原理:极大似然法(Maximumlikelihood,ML)要求lnL达到最大。偏回归系数计算基本原理:极大似然法(Maximumlike93复习:优势odds与优势比oddsratio优势(比势)为某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E))的比例。Odds=P(E)/[1-P(E)]25复习:优势odds与优势比oddsratio优势(比势94优势比oddsratio,OR患者与非患者某因素优势的比值被称作优势比(比数比)。OR=odds1/odds0

例病人有超重或肥胖史(BMI>=25)的优势

odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的优势Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727

高血压1非病人0合计超重或肥胖11656a2492b4148正常01331c5461d6792合计298779531094026优势比oddsratio,OR患者与非患者某因素优势的952796若y=1为disease,y=0为non-disease,有28若y=1为disease,y=0为non-disease97高血压1非病人0合计超重或肥胖11656a2492b4148正常01331c5461d6792合计2987795310940

29高血压1非病人0合计超重或肥胖11656a2492b98回归系数的解释logistic回归中的系数,与OR的关系:=ln(OR)设P1为X=1的得病概率,P0为X=0的得病概率30回归系数的解释logistic回归中的系数,与OR的关99模型检验与偏回归系数检验

似然比检验(likelihoodtest)

似然比检验是通过比较两个相嵌套模型的对数似然函数统计量G(又称Deviance)来进行的,其统计量为:

G=GP-GK

=-2ln(LP)+2ln(LK)G服从自由度为K-P的2分布。所以似然比检验既可对模型进行整体检验,又可以对每个(引进/剔除)的变量进行检验

31模型检验与偏回归系数检验

似然比检验(likelihoo100似然比检验检验变量X1是否有统计学意义:模型1:不考虑,-2lnL1=12827.236模型2:考虑X,-2lnL2=12301.503G=-2lnL1-(-2lnL2)L为对数似然函数值

G=12301.503-12827.236=174.267,

=1,P<0.001说明回归系数β具有统计学意义。32似然比检验检验变量X1是否有统计学意义:10133102(偏)回归系数wald检验34(偏)回归系数wald检验SPSS软件操作分析→回归→二元logistic回归→因变量:C协变量:r→选项→确定SPSS软件操作分析→回归→二元logistic回归→因变量104多分类变量:哑变量(dummyvariable)x=1时:x1=0,x2=0,x3=0表示A型血x=2时:x1=1,x2=0,x3=0表示B型血x=3时:x1=0,x2=1,x3=0表示AB型血x=4时:x1=0,x2=0,x3=1表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。36多分类变量:哑变量(dummyvariable)例为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查,调查内容包括性别x1(男:0女:1)年龄x2(<5岁:1;5岁~:2;15岁~:3;45岁~:4;65岁~:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)医疗保障x4(有:0无:1)到就近医疗点时间x5(<10分钟:1;10分钟~:2;30分钟~:3)自感疾病严重程度x6(不严重:1;一般:2;严重:3)发病时间x7(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊Y(就诊:0,未就诊:1)。11790名居民中,调查前二周患者1649人,其中未就医者720人。例为研究居民两周患病未治疗的影响因素,采用多阶段分层整群106P386例20-238P386例20-2107逐步法39逐步法10840操作步骤analyze→regression→binarylogistic→depedent:ycovariates:x1-x7→categorical:x7→continue→method:backwardLR→options:entry0.02,removal0.05

→continue→ok操作步骤analyze→regression→binary样本含量估计在多重线性回归分析中,若复相关系数大于0.5时,一般样本量n是研究变量数m的10~20倍。也可以根据公式估计Logistic回归要求样本量是自变量数的20倍;或在阳性率小于50%时每个自变量至少需要10个阳性结果。样本含量估计在多重线性回归分析中,若复相关系数大于0.5时,复习思考1、Logistic回归应变量是什么?2、Logistic回归系数的流行病学解释3、OR值的解释与暴露因素及Y的设置有关吗?4、为什么要进行变量筛选?5、最终进入方程的变量取决于哪些因素?复习思考第三部分医学随访资料的统计分析方法-生存分析

survivalanalysis112.第三部分医学随访资料的统计分析方法-生存分析

surviva问题1如果甲药治愈率为80%,疗程1月乙药治愈率为90%,疗程3月.

哪个更好?158例经手术治疗大肠癌患者临床病理因素及5年生存状态.如果有人没观察满5年,

4年时死于其他原因,这个人的信息可否利用?113问题1如果甲药治愈率为80%,疗程1月158例经手术治疗大问题2如何计算平均数

手术到死亡时间

371520252630

平均生存时间mean=1839152025+2730+

中位生存时间median=20114问题2如何计算平均数

手术到死亡时间46以30天为界的分类结果: 死亡 生存A 6 2 B 4 4

完全数据的均数:Mean(A)=12.5Mean(B)=11.0

问题3这个数据如何分析?A

3 6 8 10 22 26

30+30+

B 6 8 10 20 30+30+30+30+

?

115以30天为界完全数据的均数:问题3这个数据如何分析?A数据特点结局不仅取决于有效/无效,还与起效时间长短有关时间不仅有完全数据,还有不完全数据(截尾数据,删失数据)生存数据常常是偏态的生存分析116数据特点结局不仅取决于有效/无效,还与起效时间长短有关486例膀胱肿患者术后生存时间记录表某医师收集了1996-2000年间经手术治疗的膀胱肿癌患者,其中术后生存时间以月为单位,研究可能影响的3个因素:年龄(岁)、分级(1=I级,2=II级,3=III级),肿癌大小(1=<3,2=≥3),是否复发(1=是,0=否)1176例膀胱肿患者术后生存时间记录表某医师收集了1996-200生存资料基本概念

起点事件与终点事件(结局)生存时间(过程)截尾值118生存资料基本概念

起点事件与终点事件(结局)50基本概念起点事件与终点事件生存时间暴露因素疾病确诊—死亡治疗开始—痊愈手术—死亡或痊愈症状缓解—疾病恶化接触毒物-出现毒性反映临床试验开始—不良反应接触危险因素—发病小白鼠染毒—中毒死亡开始戒烟—再次吸烟结婚登记—第一次离婚119基本概念起点事件与终点事件疾病确诊—死亡51生存时间(survivaltime)失效时间(failuretime)广义:从起点事件到终点事件所经历的时间跨度。其包括三个内容:事件的起点、事件的终点及测量单位(小时、日、月、年等)

120起点事件终点事件生存时间生存时间(survivaltime)失效时间(failur完全数据与删失数据完全数据(Completedata)删失数据,截尾数据(Censoreddata)终点数据没有发生失访/脱落(losttofollow-up,

drop-out)其他竞争性事件治疗措施改变121完全数据与删失数据完全数据(Completedata)53生存资料的统计分析方法

统计描述:生存率及其标准误统计推断:总体生存率的可信区间估计;两样本或多样本生存率比较生存过程的影响因素分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论