如何通过建模控制混杂因素_第1页
如何通过建模控制混杂因素_第2页
如何通过建模控制混杂因素_第3页
如何通过建模控制混杂因素_第4页
如何通过建模控制混杂因素_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1北京地区人群代谢综合征组分及其组合动态北京地区人群代谢综合征组分及其组合动态风险评估与高凝聚类发病机制的糖基组学研究风险评估与高凝聚类发病机制的糖基组学研究如何通过建模控制混杂因素如何通过建模控制混杂因素Adjustment for confounding by modeling主讲人:郭秀花主讲人:郭秀花 教授教授 单单 位:首都医科大学公共卫生学院位:首都医科大学公共卫生学院 北京市临床流行病学重点实验室北京市临床流行病学重点实验室时时 间:间:2015.9.12 1978 1978年年8 8月月9 9号美国一著名报纸刊登了一号美国一著名报纸刊登了一条科技信息:某单位对美国条科技信息:某

2、单位对美国2020个城市做饮水个城市做饮水氟化研究,氟化研究,1010个城市的饮水氟化,而另个城市的饮水氟化,而另1010个个城市未氟化作对照,结论是:城市未氟化作对照,结论是:“饮水氟化有饮水氟化有致癌作用致癌作用”。但过了一个时期,该报纸又刊。但过了一个时期,该报纸又刊登了登了相反的相反的文章。文章。 案例:引水氟化是否有致癌作用? 原来前述论文发表后,受到美国癌肿协会和英国统计协会的怀疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。两个结论差别如此之大,根源在于第一分析法未控制混杂,采用单因素分析法,而后一个结论则把两个城市中的种族、生

3、活环境上的混杂因素进行控制(多元统计分析),再去比较两组城市的癌症患病率。 案例:携带火柴和发生肺癌间有关系? 某研究者进行问卷调查,结果发现:是否携带火柴和肺癌患病率有关,携带火柴的人更有可能发生肺癌。 难道这表明携带火柴可能引起肺癌?! 客观事实:携带火柴不可能引起肺癌!混杂因素的影响混杂因素的影响 携带火柴携带火柴 ? 肺癌肺癌 吸烟吸烟 这中间存在混杂因素-吸烟 6一、混杂因素一、混杂因素 混杂(混杂(confounding):指在流行病学研究中,指在流行病学研究中, 由于一个或多个潜在的由于一个或多个潜在的混杂因素混杂因素的影响,掩盖或夸的影响,掩盖或夸大了大了研究因素与疾病(或事件

4、)研究因素与疾病(或事件)之间的联系,从而之间的联系,从而使两者之间的真正联系被错误地估计,造成使两者之间的真正联系被错误地估计,造成混杂混杂。1. 概念概念 混杂因素(混杂因素(confounding factor):指与研究因素指与研究因素和研究疾病均有关,若在比较的人群中分布不均,和研究疾病均有关,若在比较的人群中分布不均,可以歪曲研究因素与疾病之间真正联系的因素。可以歪曲研究因素与疾病之间真正联系的因素。7 2. 混杂因素的基本特点:混杂因素的基本特点:(1)必须与)必须与所研究疾病所研究疾病有关有关(2)必须与)必须与所研究因素所研究因素有关有关(3)一定)一定不是研究因素与研究疾病

5、因果链上的不是研究因素与研究疾病因果链上的中中间变量间变量 具备基本条件,如果在比较的人群中分布不具备基本条件,如果在比较的人群中分布不均,即可导致偏倚。均,即可导致偏倚。策略策略 设计阶段设计阶段限制进入限制进入 随机化分组随机化分组匹配匹配 8 分析阶段分析阶段分层分析分层分析 标准化标准化多因素分析多因素分析如何控制混杂因素?如何控制混杂因素?二、如何通过建模控制混杂因素二、如何通过建模控制混杂因素 表表1 1 数据形式数据形式(P(P2 2) ) 观察对象观察对象 X X1 1 X X2 2 X Xp p Y Y 1 a11 1 a11 a12 a12 a1p y1 a1p y1 2

6、a21 a22 2 a21 a22 a2p y2 a2p y2 n an1 an2 n an1 an2 anp yn anp yn 分因变量具体情况: y是计量资料,多元线性回归分析 y是定性资料,尤其是二值资料,采用 Logistic回归分析 y=t是生存时间,后面有是否为完全数据标志,采用 COX回归分析 设 在 实 际 研 究 问 题 中 , 含 有 p 个 自 变 量 x 1 , x2,xp;1个因变量,n个观察对象。 在医学实践中,常会遇到一个应变量在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关院人数不

7、仅与门诊人数有关, , 而且可能与而且可能与病床周转次数病床周转次数, , 床位数等有关;儿童的身床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、地区,国别等有关;人的体表面积与体重、身高等有关。身高等有关。多元线性回归模型多元线性回归模型 通过实验测得含有通过实验测得含有p p个自变量个自变量x1,x2,x3,x1,x2,x3,xp,xp及一个因变量及一个因变量y y的的n n个观察对象值个观察对象值, , 利用最小二乘法利用最小二乘法原理原理, , 建立多元线性回归模型建立多元线性回归模型: : 其中其中b

8、 b0 0为截距为截距, b1 ,b2 , b1 ,b2 bpbp称为偏回归系数称为偏回归系数. . bibi表示当将其它表示当将其它p-1p-1个变量的作用加以固定后个变量的作用加以固定后, Xi, Xi改变改变1 1个单位时个单位时Y Y将改变将改变bibi个单位个单位. . ppxbxbxbby 22110 例:例: 27名糖尿病人的性别、年龄、血名糖尿病人的性别、年龄、血清总胆固醇、甘油三脂、空腹胰岛素、清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于糖化血红蛋白、空腹血糖的测量值列于表表3中,试建立血糖与其它几项指标关中,试建立血糖与其它几项指标关系的多元线性回归

9、方程。系的多元线性回归方程。多元线性回归分析13表表3 273 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果 1415 资料的研究目的是建立血糖与其它因素的资料的研究目的是建立血糖与其它因素的线性回归方程线性回归方程 性别和年龄性别和年龄与应变量(血糖)含量有关,与应变量(血糖)含量有关,也可能与自变量(血清总胆固醇、甘油三也可能与自变量(血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白)有关,脂、空腹胰岛素、糖化血红蛋白)有关,因此,怀疑性别、年龄为混杂因素因此,怀疑性别、年龄为混杂因素 将混杂因素(性别和年龄)放到多元线性将混杂因素(性别和年龄)放到多元线性

10、回归模型中进行控制,从而更加准确地考回归模型中进行控制,从而更加准确地考察其它自变量与血糖的关系察其它自变量与血糖的关系SPSS分析结果分析结果变 量 回归 系数 b 标准误 bS 标准回 归系数b t 值 P 值 常数项 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.4133 2.880 0.0084 结果为扣除结果为扣除性别和年龄两个混杂因素的影响性别和年龄两个混杂因素的影响后,各指标与血糖的关

11、系后,各指标与血糖的关系16 在医学上在医学上, ,人们更关心疾病是否发生或发展的影响因人们更关心疾病是否发生或发展的影响因素素, ,既因变量是二值的。既因变量是二值的。 令:令: y=1 y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等) y=0 y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等) Logistic Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。LogisticLogistic回归回归- Logistic- Lo

12、gistic回归种类回归种类成组资料的非条成组资料的非条件件LogisticLogistic回归回归配对资料的条件配对资料的条件LogisticLogistic回归回归两分类反应变量的两分类反应变量的LogisticLogistic回归回归多分类有序反应变量多分类有序反应变量LogisticLogistic回归回归多分类无序反应变量多分类无序反应变量LogisticLogistic回归回归1:11:1配对资料的条件配对资料的条件LogisticLogistic回归回归1:m1:m配对资料的条件配对资料的条件LogisticLogistic回归回归n:mn:m配对资料的条件配对资料的条件Logi

13、sticLogistic回归回归LogisticLogistic回归分析回归分析 表5 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有影响。 所得的回归方程为: Logit(P)=-9.781+2.520X1+3.999X2+0.189X3- 1.3067X4Variables

14、in the Equation2.5201.8211.9161.16612.4313.9991.9754.1011.04354.568.189.0795.7081.0171.208-1.3061.583.6811.409.271-9.7814.0995.6941.017.000X1X2X3X4ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X1, X2, X3, X4.a. 解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自

15、然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。 当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。 弗明汉心血管疾病研究弗明汉心血管疾病研究 742名居住在弗明汉年龄为名居住在弗明汉年龄为40-49岁的男性,岁的男性,在各自暴露不同水平的影响因素(详见下表中在各自暴露不同水平的影响因素(详见下表中的的6种因素),经过种因素),经过12年的追踪观察冠心病年的追踪观察冠心病(CHD)的发病情况。)的发病情况。 根据此

16、根据此742名受试者每人暴露各项因素的名受试者每人暴露各项因素的水平和水平和CHD发病与否的资料,采用多因素发病与否的资料,采用多因素Logistic回归模型进行分析。回归模型进行分析。22多因素Logistic回归分析资料的研究目的是探讨资料的研究目的是探讨CHDCHD发病与否的危险因素发病与否的危险因素 血液中的胆固醇水平、血红蛋白浓度、血压水平、血液中的胆固醇水平、血红蛋白浓度、血压水平、 吸烟量因素可能是吸烟量因素可能是CHDCHD发病的危险因素发病的危险因素年龄年龄既与胆固醇水平、血红蛋白水平、血压水平等既与胆固醇水平、血红蛋白水平、血压水平等因素相关,又与因素相关,又与CHDCHD

17、是否发病相关,怀疑是否发病相关,怀疑年龄是混年龄是混杂因素杂因素使用多因素使用多因素Logistic回归分析,将年龄放到模型中回归分析,将年龄放到模型中进行控制,考察进行控制,考察CHDCHD发病的危险因素发病的危险因素2324SPSS分析结果分析结果变量参数估计值 标准误OROR的95%CILowerUpper截距-13.2573年龄0.12160.04371.13001.03661.2303胆固醇(mg/dl)0.00700.00251.01001.00211.0120BP(mmHg)0.00680.00601.01000.99511.0187血红蛋白(g%)-0.00100.00980.

18、99900.98001.0184吸烟(0,1,2,3)0.42230.10311.53001.24641.8671ECG(0,1)0.72060.40092.06000.93694.5103iii0123456影响影响生存时间的长短不仅与治疗措施有关, 还可能与病人的体质, 年龄, 病情的轻重等多种因素有关。如何找出它们之间的关系呢?对生存资料不能用多元线性回归分析。 1972年英国统计学家Cox DR. 提出了一种能处理多 因 素 生 存 分 析 数 据 的 比 例 危 险 模 型 ( Coxs proportional harzard model)( Coxs proportional h

19、arzard model)。COX回归模型分析2021-12-2326生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。 完全与不完全数据: 一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censor datacensor data)。27例:例:某医师对某医师对1988年收治的年收治的16例鼻腔淋巴例鼻腔淋巴瘤患者

20、随访了瘤患者随访了13年,信息包括:年龄年,信息包括:年龄(X1)、性别()、性别(X2)、疾病分期()、疾病分期(X3)、)、鼻血(鼻血(X4)、放疗()、放疗(X5)、化疗()、化疗(X6),),数据见表数据见表2,试作,试作COX回归分析鼻腔淋巴回归分析鼻腔淋巴瘤的危险因素。瘤的危险因素。28 表表2 2 鼻腔淋巴瘤患者随访资料编 项目登记 观察记录 整理 号 性别 年龄 分期 鼻血 放疗 化疗 开始日 终止日 结局 生存天数 1 1 45 2 2 0 1 88-1-17 89-8-17 1 578 2 0 36 2 2 0 1 88-1-21 92-4-17 1 1549 3 0 45

21、 2 0 1 0 88-2-2 90-12-31 0 4717 0 51 2 2 1 0 88-12-1 95-5-22 1 2363 注:性别1为男性; 放疗1表示采用,0表示未采用; 结局1表示死亡。 该生存资料的研究目的是考察鼻腔淋巴瘤的该生存资料的研究目的是考察鼻腔淋巴瘤的 生存时间的危险因素生存时间的危险因素疾病分期(疾病分期(X3)、鼻血()、鼻血(X4)、放疗()、放疗(X5)、)、化疗(化疗(X6),可能是鼻腔淋巴瘤患者生存时间的),可能是鼻腔淋巴瘤患者生存时间的危险因素或者保护因素危险因素或者保护因素性别和年龄性别和年龄可能是鼻腔淋巴瘤患者生存时间的混可能是鼻腔淋巴瘤患者生存

22、时间的混杂因素杂因素因此使用因此使用COX回归分析控制混杂因素,探讨鼻腔淋回归分析控制混杂因素,探讨鼻腔淋巴瘤患者生存时间的危险因素。巴瘤患者生存时间的危险因素。2930SPSS分析结果分析结果第i个因素的回归系数为bi,对应的风险比(risk ratio,记为RRi): RRi=exp(bi),表示在控制其它因素(包括混杂因素混杂因素)的情况下,该因素每增加一个单位时,风险度改变多少。Variables in the EquationBSEWalddfSig.RRRR的95%CILowerUpperStep 1X41.0840.4216.63010.010 2.9571.2956.747St

23、ep 2X41.3810.5306.79910.009 3.9781.40811.244X5-1.589 0.6955.22110.022 0.2040.0520.79731在本例中放疗在本例中放疗X5,取值,取值0和和1,b=-1.589, RR=0.204,表示控制,表示控制年龄、性别两个混杂因素年龄、性别两个混杂因素,以及疾病分期、是否化疗等因素前提下,化疗(以及疾病分期、是否化疗等因素前提下,化疗(水平水平1)与不化疗(水平)与不化疗(水平0)比较,样本资料前者)比较,样本资料前者的风险度是后者的的风险度是后者的0.204倍(倍(20.4%),提示),提示“放放疗疗”是保护因素。是保护

24、因素。“鼻血鼻血”X4取值是取值是0、1、2, b=1.38, RR=3.979,表示控制其它因素的前提下,样本资料该因素水表示控制其它因素的前提下,样本资料该因素水平每增加平每增加1个等级,风险度增加个等级,风险度增加3.979倍,提示倍,提示“鼻血鼻血”是危险因素。是危险因素。COXCOX比例风比例风险模型险模型生存分析的生存分析的基础模型?基础模型?先进模型 Kaplan-Meier方法方法( (简称简称K-M法法) )估计生存概率;估计生存概率; Log-rank方法比较两条或方法比较两条或多条生存曲线;多条生存曲线; Cox比例风险模型分析多比例风险模型分析多个潜在因素对生存时间的个

25、潜在因素对生存时间的影响。影响。 只考虑一种终点事件,其只考虑一种终点事件,其余事件均作为删失事件处余事件均作为删失事件处理;理; 若存在多个终点及竞争风若存在多个终点及竞争风险事件的情况下仍用单终险事件的情况下仍用单终点分析方法,将会由于竞点分析方法,将会由于竞争风险事件的存在导致对争风险事件的存在导致对这些终点事件概率的估计这些终点事件概率的估计偏差。偏差。32一般的生存时间过程:一般的生存时间过程: T0 事件事件1竞争风险过程:竞争风险过程: T0删失删失可能发生的终点事件可能发生的终点事件(endpoint)只有一个类型)只有一个类型事件事件1事件事件2事件事件m删失删失可能发生的终

26、点事件有多个可能发生的终点事件有多个研究方法33考虑竞争事件:竞争风险模型考虑竞争事件:竞争风险模型34首先需要注意变量的赋值方法首先需要注意变量的赋值方法 对自变量的结果值编码方法(习惯上对自变量的结果值编码方法(习惯上称为赋值)不同,则自变量的对应参数估称为赋值)不同,则自变量的对应参数估计值及符号将有所不同,从而对结果的解计值及符号将有所不同,从而对结果的解释方式亦不同释方式亦不同三、建模控制混杂因素中的注意事项单因素分析的必要性 某研究者探讨成人过敏性鼻炎的环境危险某研究者探讨成人过敏性鼻炎的环境危险因素,采用因素,采用1 1配对的病例配对的病例-对照研究设计,对照研究设计,选择某医院耳鼻喉科确诊的选择某医院耳鼻喉科确诊的100例过敏性鼻炎例过敏性鼻炎患者为病例;同时选择该院耳鼻喉科确诊的非患者为病例;同时选择该院耳鼻喉科确诊的非过敏性鼻炎患者,与病例过敏性鼻炎患者,与病例1 1相匹配为对照。相匹配为对照。通过问卷调查的方法收集两组人群的一般社会通过问卷调查的方法收集两组人群的一般社会人口学特征、疾病健康状况、吸烟史、职业接人口学特征、疾病健康状况、吸烟史、职业接触史、室内环境状况及家族史等信息。问卷的触史、室内环境状况及家族史等信息。问卷的统计分析采用多因素的条件统计分析采用多因素的条件Logsitic回归分析。回归分析。3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论