病例对照研究匹配变量的科学筛选策略_第1页
病例对照研究匹配变量的科学筛选策略_第2页
病例对照研究匹配变量的科学筛选策略_第3页
病例对照研究匹配变量的科学筛选策略_第4页
病例对照研究匹配变量的科学筛选策略_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

病例对照研究匹配变量的科学筛选策略演讲人01病例对照研究匹配变量的科学筛选策略02匹配变量的理论基础:为何匹配是混杂控制的“利器”?03匹配变量筛选的核心原则:从“理论”到“实践”的转化04匹配变量筛选的实践方法:从“理论”到“证据”的落地05匹配变量筛选的常见误区与案例警示:从“教训”中学习06匹配变量筛选的动态调整:从“设计”到“报告”的全流程管理07总结:匹配变量筛选的“科学之道”——平衡、动态与证据目录01病例对照研究匹配变量的科学筛选策略病例对照研究匹配变量的科学筛选策略在流行病学研究中,病例对照研究是探索疾病危险因素的经典设计,其核心优势在于能在相对短时间内、以较低成本检验病因假设。然而,这一研究的有效性高度依赖于对混杂因素的控制——而匹配(matching)正是控制已知混杂的关键技术。作为长期从事临床流行病学实践的研究者,我深刻体会到:匹配变量的选择并非简单的“变量罗列”,而是一门融合统计学原理、临床专业知识与数据思维的“科学艺术”。若匹配变量筛选不当,轻则降低研究效率,重则引致“匹配过头”或“残余混杂”,使结论完全偏离真实。本文将从理论基础、筛选原则、实践方法、常见误区及动态调整五个维度,系统阐述病例对照研究中匹配变量的科学筛选策略,为研究者提供一套可落地、可验证的操作框架。02匹配变量的理论基础:为何匹配是混杂控制的“利器”?匹配变量的理论基础:为何匹配是混杂控制的“利器”?在探讨筛选策略前,必须清晰理解匹配变量的本质与作用机制。匹配的本质是通过限制设计(restriction)或分层(stratification),确保病例组与对照组在特定变量上分布一致,从而消除该变量作为混杂因素的潜在影响。这一逻辑植根于混杂因素的定义——即与暴露相关、与结局相关,且不在因果通路上的变量。例如,在研究“吸烟与肺癌”时,年龄既影响吸烟行为(老年人可能因健康原因戒烟),又直接影响肺癌风险,若不加以控制,年龄便会混杂暴露与结局的关联,导致高估吸烟的效应值。匹配的核心目的:效率与偏倚的平衡匹配变量的选择需同时服务于两大目标:控制混杂偏倚与提高研究效率。从偏倚控制角度看,匹配通过“强制均衡”消除已知混杂因素对暴露-结局关联的干扰,使OR值(或RR值)更接近真实因果效应。例如,在研究“职业苯暴露与白血病”时,若已知性别与苯暴露(男性暴露率更高)及白血病(男性发病率略高)均相关,匹配性别可直接消除性别混杂,使暴露效应的估计更准确。从效率角度看,匹配可减少“需要调整的维度”:若某变量在匹配后均衡分布,则无需在分析阶段通过多因素模型控制,既降低模型复杂度,又避免因样本量不足导致的统计效力损失——尤其当该变量是多分类变量时(如职业分类含20个类别),匹配可比事后调整更高效。匹配的“双刃剑”效应:匹配过头的风险然而,匹配并非“越多越好”。若将非混杂因素或中间变量纳入匹配,便会引发“匹配过头”(overmatching),导致效应值被稀释。例如,在研究“阿司匹林与心肌梗死”时,若匹配“心绞痛病史”(阿司匹林可能通过治疗心绞痛降低心肌梗死风险),则心绞痛成为“中间变量”,匹配后反而掩盖了阿司匹林的直接保护效应,OR值被虚假降低。我曾参与一项“他汀类药物与认知障碍”的研究,初期因匹配了“基线胆固醇水平”(他汀的作用靶点),结果发现他汀与认知障碍的关联从保护效应变为“无关联”,经专家讨论才意识到匹配了“中间变量”,最终调整匹配策略后才得出正确结论。这一教训让我深刻认识到:匹配变量的筛选必须严格区分“混杂因素”“中间变量”“伴随变量”与“效应修饰变量”,避免“一刀切”式的匹配。匹配变量的类型:个体匹配与频数匹配的适用场景匹配操作可分为个体匹配(individualmatching)与频数匹配(frequencymatching),二者对变量筛选的要求略有差异。个体匹配是为每个病例选取1个或多个特征完全相同的对照(如1:1匹配同性别、同年龄±2岁的对照),适用于样本量较小、混杂因素为连续变量或需精确控制的情况(如遗传关联研究);频数匹配则是按比例匹配,确保对照组中某变量的分布与病例组一致(如病例组中60%为男性,对照组也按60%男性匹配),适用于大样本研究或变量为分类变量(如职业、地区)。无论哪种匹配方式,筛选变量的核心逻辑一致:优先选择“强混杂因素”,即与暴露关联强度高、与结局关联强度高、且在病例组与对照组分布差异大的变量。03匹配变量筛选的核心原则:从“理论”到“实践”的转化匹配变量筛选的核心原则:从“理论”到“实践”的转化明确了匹配的理论基础后,筛选变量的关键便在于将抽象原则转化为可操作的标准。基于多年研究经验,我总结出“必要性、关联性、可行性、避免过匹配”四大核心原则,这四者相互制约,需综合权衡。必要性原则:仅针对“已知或强怀疑的混杂因素”筛选匹配变量的首要原则是“必要性”——即该变量必须是已知的混杂因素或基于前期研究/专业知识强烈怀疑的混杂因素。如何判断“必要性”?需同时满足三个条件:①与暴露相关(暴露组与对照组在该变量上的分布差异显著);②与结局相关(该变量独立影响疾病发生风险);③不在暴露与结局的因果通路上(非中间变量)。例如,在研究“肥胖与2型糖尿病”时,“饮食结构”与肥胖相关,也与糖尿病相关,但若肥胖通过“胰岛素抵抗”影响糖尿病,而“饮食结构”可能通过影响肥胖间接影响糖尿病,此时“饮食结构”是否需匹配?需进一步分析:若“饮食结构”独立于肥胖影响糖尿病(如高糖饮食直接损伤胰岛β细胞),则为混杂因素;若仅通过肥胖间接影响,则为中间变量,无需匹配。我曾在一项“空气污染与哮喘”的研究中,初期因“家庭收入”与污染暴露(低收入社区污染浓度高)及哮喘(低收入儿童哮喘发病率高)均相关而将其纳入匹配,必要性原则:仅针对“已知或强怀疑的混杂因素”但多因素分析显示“收入”在调整“居住区域”后不再显著,最终确认“居住区域”是更核心的混杂因素,而“收入”可通过“居住区域”间接影响哮喘,故取消了对“收入”的匹配——这一过程验证了“必要性原则”需通过“路径分析”验证,而非仅凭表面关联。关联性原则:优先选择“强关联”的混杂因素当存在多个潜在混杂因素时,需根据其与暴露、结局的关联强度排序。与暴露关联越强、与结局关联越强的变量,混杂效应越大,越应优先匹配。例如,在研究“饮酒与肝癌”时,年龄、HBV感染、吸烟均可能是混杂因素:若数据显示HBV感染者饮酒率是非感染者的3倍(OR=3.0),而HBV感染者肝癌风险是非感染者的10倍(RR=10.0),而年龄每增加10岁饮酒率增加1.2倍(OR=1.2),肝癌风险增加1.5倍(RR=1.5),则HBV感染是“强混杂因素”,应优先匹配,年龄可次之。判断关联强度的方法包括:①描述性分析:比较病例组与对照组在潜在变量上的分布(如t检验、卡方检验);②文献回顾:系统评价同类研究中该变量的混杂效应大小(如OR值、RR值);③专家咨询:临床医生或流行病学专家对变量“混杂潜力”的定性评估。例如,在“职业噪声与听力损失”的研究中,我们通过文献发现“年龄”与噪声暴露的相关性(OR=1.8)强于“工龄”(OR=1.3),且年龄与听力损失的相关性(RR=2.5)也强于工龄(RR=1.9),因此将“年龄”作为一级匹配变量,“工龄”作为二级匹配变量。可行性原则:兼顾“匹配难度”与“研究资源”匹配变量的筛选必须考虑实际可行性,包括数据可获得性与匹配成功率。例如,若研究“遗传变异与疾病”,需匹配“种族”,但在多民族地区,若病例组为汉族而对照组为少数民族,可能因种族差异过大而无法找到匹配对照,导致样本量大幅下降——此时可改为“频数匹配”或“调整后分析”。又如,若某变量需通过昂贵的检测(如基因测序、血液生化)才能获得,而研究经费有限,则需权衡该变量的混杂效应与检测成本:若该变量为“弱混杂因素”,可放弃匹配,改为事后统计调整;若为“强混杂因素”,则需争取资源或寻找替代指标(如用“家族史”替代“基因检测”)。我曾参与一项“农药暴露与帕金森病”的研究,原计划匹配“肝功能”(因农药代谢依赖肝脏),但肝功能检测成本高,且病例组中30%患者因病情严重无法完成检测,最终改为匹配“肝病史”(可通过病历获取),同时检测“谷丙转氨酶”(ALT)作为协变量调整——这一妥协既控制了主要混杂,又保证了研究可行性。避免过匹配原则:拒绝“非混杂因素”与“中间变量”“避免过匹配”是匹配变量筛选的“红线”,需明确三类不应匹配的变量:①非混杂因素:即与暴露或结局均无关的变量(如“血型”在大多数研究中与暴露无关);②中间变量:即位于暴露与结局因果通路的变量(如“血压”在“高盐饮食与脑卒中”中是中间变量,匹配“血压”会掩盖高盐饮食的效应);③效应修饰变量:即暴露效应在不同亚群中差异显著的变量(如“性别”在“吸烟与肺癌”中可能为效应修饰变量,男性OR=3.0,女性OR=1.5,若匹配性别,则无法分析性别的修饰作用)。如何识别中间变量?需建立“因果通路图”:例如,在“肥胖与糖尿病”中,肥胖→胰岛素抵抗→糖尿病,则“胰岛素抵抗”是中间变量,不应匹配;而“年龄”不位于通路中,为混杂因素,应匹配。我曾见过一项研究因匹配了“BMI”在“饮食与糖尿病”中的关联,而忽略了“BMI”可能是饮食与糖尿病的中间变量,最终错误得出“饮食与糖尿病无关”的结论——这一反面案例警示我们:匹配前必须绘制“因果假设图”,明确变量间的逻辑关系。04匹配变量筛选的实践方法:从“理论”到“证据”的落地匹配变量筛选的实践方法:从“理论”到“证据”的落地掌握了筛选原则后,如何将这些原则转化为具体操作?结合文献方法与自身经验,我总结出“文献回顾→专家咨询→数据探索→敏感性分析”四步筛选流程,这一流程强调“证据支持”与“动态迭代”,确保变量选择的科学性。(一)第一步:系统性文献回顾——站在“前人肩膀”上识别混杂因素文献回顾是筛选匹配变量的“起点”,其目的不是简单复制他人做法,而是通过系统评价明确“哪些变量在同类研究中被证实为混杂因素”。具体步骤包括:①明确研究主题与暴露因素,如“糖尿病与认知障碍”;②检索中英文数据库(PubMed、Embase、CNKI、万方等),使用“病例对照研究”“混杂因素”“匹配”等关键词组合;③纳入标准:同类暴露-结局关系的病例对照研究,报告了混杂因素控制方法;④排除标准:综述、病例报告、样本量<100的研究;⑤数据提取:提取研究中的匹配变量、匹配变量筛选的实践方法:从“理论”到“证据”的落地混杂效应大小(OR值变化)、未匹配导致的偏倚估计。例如,在“糖尿病与认知障碍”的文献回顾中,我们发现20项研究中18项匹配了“年龄”,15项匹配了“性别”,12项匹配了“教育程度”,而“高血压”“吸烟”的匹配率较低(仅40%)。进一步分析发现,未匹配“高血压”的研究中,调整前后OR值变化幅度达15%-20%,提示“高血压”是重要混杂因素;而“吸烟”调整前后OR值变化<5%,提示其混杂效应较弱——这一证据为后续变量排序提供了关键依据。需注意:文献回顾需警惕“发表偏倚”(即阳性结果的研究更易发表),可结合灰色文献(如会议论文、学位论文)或注册研究数据补充。第二步:专家咨询——融合“领域知识”与“临床经验”文献回顾只能提供“已知混杂”,而“潜在混杂”的识别需依赖专家的领域知识。专家咨询的对象应包括:①临床专家(如研究糖尿病时咨询内分泌科医生,了解糖尿病的认知并发症机制);②流行病学方法学家(协助判断变量是否为混杂或中间变量);③相关领域研究者(如研究职业暴露时咨询职业卫生专家,了解暴露特征)。咨询方式可采用“德尔菲法”:通过2-3轮匿名问卷,让专家对潜在混杂因素的重要性进行评分(1-5分,1分=完全不重要,5分=非常重要),计算各变量的“专家共识度”(评分≥4分的专家比例)。例如,在“农药暴露与帕金森病”的研究中,我们列出10个潜在混杂因素(年龄、性别、吸烟、饮茶、家族史、rural/urban居住、肝病史、农药种类、暴露年限、防护措施),邀请5名神经内科专家、3名职业卫生专家、2名流行病学家评分,结果显示“家族史”“农药种类”“暴露年限”的共识度≥80%,第二步:专家咨询——融合“领域知识”与“临床经验”而“饮茶”“防护措施”的共识度<50%,因此将前3者作为核心匹配变量。专家咨询的优势在于能弥补文献的“滞后性”——例如,新型混杂因素(如“肠道菌群”在神经退行性疾病中的作用)可能尚未被广泛研究,但专家可根据最新机制研究提出假设。第三步:数据探索——用“自身数据”验证混杂假设文献与专家咨询提供了“理论假设”,而数据探索则是用“实际数据”验证这些假设是否成立。这一步的核心是分析潜在混杂因素与暴露、结局的双向关联,具体方法包括:①描述病例组与对照组在潜在变量上的分布差异(连续变量用t检验或Wilcoxon秩和检验,分类变量用卡方检验或Fisher精确检验);②计算潜在变量与暴露的关联强度(如OR值、RR值);③计算潜在变量与结局的关联强度(通过多因素模型调整其他变量后,看该变量是否为结局的独立预测因素)。例如,在“他汀类药物与认知障碍”的研究中,我们收集了500例病例(认知障碍患者)与500例对照,数据探索发现:病例组“年龄”(68.2±7.1岁)显著高于对照组(62.5±6.8岁,P<0.001),“高血压”患病率(65%vs45%,P<0.001)显著高于对照组,而“性别”(女性占比55%vs52%,P=0.52)无显著差异;进一步分析显示,第三步:数据探索——用“自身数据”验证混杂假设年龄每增加10岁,认知障碍风险增加1.8倍(OR=1.8,95%CI:1.5-2.2),高血压患者认知障碍风险是非高血压患者的1.5倍(OR=1.5,95%CI:1.1-2.0),而性别与认知障碍无显著关联——因此,我们将“年龄”“高血压”纳入匹配,“性别”排除。数据探索的注意事项:若样本量较小,需谨慎假设检验结果(如P值可能因偶然因素波动),可结合效应量(如OR值)综合判断;若潜在变量为连续变量(如“年龄”),可先分组(如<60岁、60-70岁、>70岁)分析分布差异,再决定是否匹配或按连续变量调整。第四步:敏感性分析——检验“匹配策略”的稳健性完成初步匹配变量筛选后,需通过敏感性分析检验“匹配策略是否稳健”——即不同匹配变量组合对结果的影响程度。敏感性分析的常用方法包括:①改变匹配变量:增加或减少1个匹配变量,看暴露效应值(OR值)是否发生显著变化(如变化>10%,提示该变量为重要混杂因素);②改变匹配比例:将1:1匹配改为1:2匹配,看结果是否一致;③改变匹配容差:如将年龄匹配从“±5岁”改为“±3岁”,看匹配成功率与结果是否变化。例如,在“空气PM2.5与哮喘”的研究中,初步匹配“年龄、性别、地区”,调整后OR=1.15(95%CI:1.05-1.26);增加“家庭收入”作为匹配变量后,OR=1.12(95%CI:1.02-1.21),变化<10%,提示“家庭收入”非必要匹配变量;若改为匹配“被动吸烟”,OR=1.18(95%CI:1.08-1.30),变化>10%,提示“被动吸烟”可能是重要混杂因素,需纳入匹配。第四步:敏感性分析——检验“匹配策略”的稳健性敏感性分析的价值在于“纠偏”——我曾遇到一项研究因未进行敏感性分析,漏掉了“职业体力活动”这一混杂因素,导致OR值从1.3(真实效应)被高估至1.8(混杂后效应),后续通过敏感性分析才发现问题。因此,敏感性分析不是“可有可无”的步骤,而是匹配变量筛选的“最后一道防线”。05匹配变量筛选的常见误区与案例警示:从“教训”中学习匹配变量筛选的常见误区与案例警示:从“教训”中学习尽管有完善的理论与方法,匹配变量的筛选仍易陷入“经验主义”或“教条主义”。结合文献案例与自身经历,我总结出五大常见误区,并分析其后果与规避方法。误区一:“越多越好”——过度匹配导致效应稀释表现:研究者认为“匹配的变量越多,控制越彻底”,将所有可能的变量(包括非混杂因素、中间变量)均纳入匹配。案例:一项“阿司匹林与心肌梗死”的研究,匹配了“年龄、性别、高血压、糖尿病、吸烟、BMI、血脂、心绞痛病史”,结果发现阿司匹林与心肌梗死的OR=0.95(95%CI:0.80-1.13),无显著保护效应;但后续分析显示,若不匹配“心绞痛病史”(阿司匹林治疗适应证),OR=0.82(95%CI:0.70-0.96),保护效应显现。原因:匹配了“心绞痛病史”这一中间变量(阿司匹林通过治疗心绞痛降低心肌梗死风险),导致“匹配过头”,掩盖了真实效应。规避方法:严格遵循“必要性原则”,绘制因果通路图,明确变量是否为中间变量;匹配后进行“敏感性分析”,观察效应值变化。误区二:“照搬文献”——忽略研究人群的特异性表现:直接复制同类研究的匹配变量,未考虑自身研究人群的暴露特征、疾病谱系与混杂因素差异。案例:一项“吸烟与肺癌”的研究,在欧美人群中通常匹配“年龄、性别、吸烟年限”,但在我国人群中,若研究人群包含大量“女性被动吸烟者”,则“烹饪油烟暴露”可能是重要混杂因素,若仅照搬文献匹配“年龄、性别、吸烟年限”,则会忽略“烹饪油烟”的混杂效应,导致高估主动吸烟的OR值。原因:混杂因素具有“人群特异性”,不同种族、地域、生活方式下,混杂因素的种类与强度差异显著。规避方法:在文献回顾基础上,结合自身研究人群的特征(如地域、生活习惯、疾病谱)进行“本地化”调整;通过数据探索识别文献中未提及的潜在混杂。误区三:“重设计轻分析”——匹配后不再统计调整表现:认为“匹配后变量已均衡,无需在分析阶段进一步调整”,直接使用匹配样本进行单因素分析。案例:一项“职业噪声与听力损失”的研究,1:1匹配“年龄、性别、工种”,匹配后两组“噪声暴露强度”分布均衡,但研究者未调整“耳毒性药物使用”(弱混杂因素),结果OR=1.8(95%CI:1.3-2.5);而多因素调整后,OR=1.6(95%CI:1.1-2.3),虽变化不大,但若“耳毒性药物”在人群中暴露率高,偏倚可能更显著。原因:匹配只能控制“已匹配的变量”,无法控制“未匹配的弱混杂因素”;且匹配可能因“容差”导致变量分布不完全均衡(如年龄±5岁匹配,70岁病例与65岁对照仍存在年龄差异)。误区三:“重设计轻分析”——匹配后不再统计调整规避方法:匹配后仍需在分析阶段纳入匹配变量作为协调整,或使用“条件Logistic回归”(针对个体匹配数据)进一步控制;对未匹配的弱混杂因素,通过多因素模型调整。误区四:“忽视匹配效率”——为匹配变量牺牲样本量表现:为匹配某些“罕见变量”(如特定基因型、罕见职业),过度放宽匹配标准或延长匹配时间,导致匹配成功率低、样本量大幅减少。案例:一项“BRCA1基因突变与乳腺癌”的研究,计划1:1匹配“年龄、种族、BRCA1突变状态”,但病例组中BRCA1突变者仅10例,对照组中匹配成功仅5例,样本量从计划的200例降至30例,统计效力从80%降至30%,最终无法得出阳性结论。原因:匹配变量的“稀有度”与“样本量需求”需平衡,若匹配变量过于罕见,应考虑“频数匹配”或“不匹配,事后调整”。规避方法:匹配前计算“匹配成功率”:若某变量在对照组中占比<5%,且需精确匹配,则需评估样本量是否足够;可改为“分类匹配”(如将BRCA1突变分为“突变型”“野生型”,频数匹配)或“倾向性评分匹配”(PSM),而非个体匹配。误区五:“静态思维”——研究过程中不调整匹配策略表现:在研究设计阶段确定匹配变量后,无论数据收集过程中出现何种新情况(如发现新的混杂因素、暴露特征变化),均不调整匹配策略。案例:一项“COVID-19重症危险因素”的研究,设计阶段匹配“年龄、性别、基础疾病”,数据收集中发现“疫苗接种史”与重症风险显著相关(未接种疫苗者重症风险是接种者的3倍),且与暴露(如“是否使用免疫抑制剂”)相关,但因研究已进入数据整理阶段,未将“疫苗接种史”纳入匹配,导致OR值被高估(1.5vs1.1)。原因:研究过程中可能因“新证据出现”(如文献报道、中期分析)或“数据质量提升”(如补充收集某变量信息)导致混杂因素认知变化,静态思维无法适应这种动态性。规避方法:在研究方案中预设“中期分析”节点(如数据收集完成50%时),重新评估匹配变量的必要性;建立“动态调整机制”:若新发现混杂因素的效应量>10%,需修改匹配策略并说明原因。06匹配变量筛选的动态调整:从“设计”到“报告”的全流程管理匹配变量筛选的动态调整:从“设计”到“报告”的全流程管理匹配变量的筛选并非“一锤定音”的设计环节,而是贯穿“研究设计-数据收集-数据分析-结果报告”全流程的动态过程。作为研究者,需建立“全程监控、及时调整”的管理思维,确保匹配策略始终服务于研究目标。研究设计阶段:明确匹配变量清单与容差在设计阶段,需制定详细的“匹配方案”,包括:①匹配变量清单(基于文献、专家咨询、数据预实验确定);②匹配比例(1:1、1:2等,根据对照可得性与样本量需求);③匹配容差(如年龄±5岁、BMI±2kg/m²);④匹配失败的处理(如排除无法匹配的病例或纳入“宽匹配”样本并标记)。例如,在“糖尿病视网膜病变与血糖控制”的研究中,我们设计的匹配方案为:1:2匹配,年龄±3岁,性别相同,糖尿病病程±2年,匹配容差内无法匹配的病例予以排除,最终匹配成功350例病例与700例对照,匹配失败率<5%。设计阶段还需明确“排除标准”:如病例合并其他严重眼病(如青光眼)者,无论是否匹配均予以排除,避免“混杂-效应竞争”。数据收集阶段:监控匹配变量质量与分布数据收集过程中,需实时监控匹配变量的“质量”与“分布”:①数据质量:检查匹配变量的缺失值比例(如>20%,需考虑替代变量或插补方法)、异常值(如年龄=150岁,需核实是否录入错误);②分布均衡:定期比较病例组与对照组在匹配变量上的分布(如每收集100例样本分析一次),若发现偏离(如对照组女性占比显著高于病例组),需检查对照选择是否存在偏倚。例如,在“农药暴露与帕金森病”的研究中,中期分析发现病例组“rural居住者”占比70%,对照组仅50%,虽匹配了“地区”,但“rural/urban”作为地区的子分类未均衡,遂将“rural/urban”纳入匹配变量,调整后分布均衡。数据收集阶段的“实时监控”能避免“事后补救”的被动,确保匹配策略的有效性。数据分析阶段:结合统计模型验证匹配效果数据分析阶段需通过统计模型“验证匹配效果”并“控制残余混杂”:①匹配效果检验:使用标准化差值(standardizeddifference,SD)评估匹配后两组在匹配变量上的均衡性,SD<0.1表示均衡良好(传统P值因样本量影响不推荐);②残余混杂控制:即使匹配后均衡,仍需将匹配变量纳入条件Logistic回归(个体匹配)或普通Logistic回归(频数匹配),控制残余混杂;③敏感性分析:通过改变匹配变量组合、容差等,检验结果的稳健性(详见第三部分)。例如,在“空气污染与哮喘”的研究中,匹配后“年龄”的SD=0.05(<0.1),“性别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论