随访队列样本量计算方法学探讨_第1页
随访队列样本量计算方法学探讨_第2页
随访队列样本量计算方法学探讨_第3页
随访队列样本量计算方法学探讨_第4页
随访队列样本量计算方法学探讨_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随访队列样本量计算方法学探讨演讲人04/关键参数的确定与考量:从理论到实践03/不同设计类型下的样本量计算方法02/随访队列样本量计算的基本原理01/随访队列样本量计算方法学探讨06/前沿发展与挑战:从“静态”到“动态”样本量计算05/软件工具与实操经验:从“公式”到“落地”07/总结与展望目录01随访队列样本量计算方法学探讨随访队列样本量计算方法学探讨引言随访队列研究是观察性研究的重要设计类型,通过长期追踪暴露人群与对照人群的结局差异,探索疾病病因、评价干预措施效果、预测疾病自然史。其研究结果的可靠性不仅依赖于研究设计的严谨性,更与样本量的科学计算密不可分。样本量过小易导致统计功效不足,无法真实反映暴露与结局的关联;样本量过大则造成资源浪费,增加研究实施难度与伦理风险。正如我在参与一项关于“2型糖尿病患者肾功能进展影响因素”的队列研究时深刻体会到的:初期因低估了结局事件的变异性,样本量计算偏保守,中期分析发现主要终点(终末期肾病)累积发生率低于预期,不得不延长随访时间并补充纳入受试者,不仅增加了研究成本,还可能引入随访偏倚。这一经历让我深刻认识到:样本量计算是随访队列研究从“设计蓝图”走向“科学结论”的关键桥梁,其方法学的严谨性直接决定了研究结果的科学价值与临床意义。随访队列样本量计算方法学探讨本文将从随访队列样本量计算的基本原理出发,系统梳理不同设计类型下的计算方法,深入探讨关键参数的确定依据与常见误区,结合实操工具与案例分享经验,并展望方法学的前沿发展,以期为研究者提供一套“理论-方法-实践”一体化的参考框架,助力随访队列研究质量的提升。02随访队列样本量计算的基本原理随访队列样本量计算的基本原理样本量计算的本质是基于统计学原理,在控制错误概率的前提下,确保研究能够检测到预设的效应量。其核心逻辑围绕“假设检验”展开,需明确Ⅰ类错误、Ⅱ类错误、效应量、失访率等关键参数的数学关系。1核心概念与统计学基础1.1Ⅰ类错误与Ⅱ类错误Ⅰ类错误(TypeⅠError,α)指“实际无效假设成立(暴露与结局无关联)时,错误拒绝无效假设(得出‘有关联’的结论)”的概率,即假阳性错误,通常设为0.05(对应95%置信水平)。Ⅱ类错误(TypeⅡError,β)指“实际无效假设不成立(暴露与结局有关联)时,错误接受无效假设(得出‘无关联’的结论)”的概率,即假阴性错误,通常设为0.20(对应统计功效1-β=80%)。临床研究中,若Ⅱ类错误过高,可能遗漏有效的干预措施或重要风险因素,因此需在资源允许范围内尽量控制β水平。1核心概念与统计学基础1.2效应量效应量(EffectSize,ES)是暴露组与对照组结局差异的量化指标,直接影响样本量需求。随访队列研究中,常用的效应量包括:-率差(RiskDifference,RD):暴露组事件率(p₁)与对照组事件率(p₀)之差(RD=p₁-p₀),适用于二分类结局(如发病、死亡)。例如,若对照组5年心血管事件发生率为10%,暴露组为15%,则RD=0.05。-相对危险度(RelativeRisk,RR):暴露组事件率与对照组事件率的比值(RR=p₁/p₀),因具有流行病学解释意义,更常用于队列研究。上述例中RR=1.5。-风险比(HazardRatio,HR):适用于生存分析结局(如时间-to-event事件),反映暴露组相对对照组的风险水平。例如,若暴露组中位生存时间为20个月,对照组为10个月,则HR≈0.5(需通过生存曲线计算)。1核心概念与统计学基础1.2效应量效应量的确定需结合既往研究、临床意义与预实验数据:若效应量过大(如RR>3),样本量需求小,但临床真实性可能不足;若效应量过小(如RR<1.2),虽更具临床价值,但样本量需求将显著增加。1核心概念与统计学基础1.3失访率与随访时间随访队列研究因研究周期长、受试者依从性差异,失访(LosstoFollow-up)不可避免。失访会导致实际分析样本量小于初始样本量,降低统计功效。通常需在初始样本量基础上增加“失访缓冲”,公式为:\[N_{\text{调整}}=\frac{N_{\text{初始}}}{1-f}\]其中,f为预期失访率(一般10%-20%,根据疾病类型、随访难度调整)。例如,若初始计算样本量需200例,预期失访率15%,则实际需纳入200/(1-0.15)=235例。1核心概念与统计学基础1.3失访率与随访时间随访时间(Follow-upTime)需与结局事件的发生率匹配:若结局事件发生率高(如恶性肿瘤复发),随访时间可缩短;若发生率低(如罕见病发病),需延长随访时间以确保足够事件数。生存分析中,随访时间直接影响事件数(Events),而事件数是样本量计算的核心参数之一。2样本量计算的通用公式与逻辑框架随访队列样本量计算的核心逻辑是:在预设α、β、效应量、事件数等参数下,确保研究能够检测到暴露与结局的统计学关联。其通用框架可概括为“三步法”:2样本量计算的通用公式与逻辑框架2.1第一步:明确研究设计与结局类型根据结局变量类型(二分类、生存、连续性)选择对应的样本量计算公式。例如:01-连续性结局(如血压变化):采用t检验或线性回归的样本量公式。04-二分类结局(如是否发病):采用χ²检验或Logistic回归关联性检验的样本量公式;02-生存结局(如复发时间):采用Log-rank检验的样本量公式;032样本量计算的通用公式与逻辑框架2.2第二步:确定核心参数需明确:①对照组事件率(p₀);②暴露组事件率(p₁)或RR/HR;③α与β水平;④暴露组与对照组的样本量分配比例(通常1:1,若暴露因素罕见可调整);⑤失访率(f)。2样本量计算的通用公式与逻辑框架2.3第三步:代入公式计算与调整1根据结局类型选择对应公式计算初始样本量(N初始),再通过失访率调整得到最终样本量(N调整)。例如,二分类结局(1:1分配)的样本量公式为:2\[N_{\text{初始}}=\frac{(Z_{\alpha/2}+Z_{\beta})^2\times[p_1(1-p_1)+p_0(1-p_0)]}{(p_1-p_0)^2}\]3其中,Zα/2为α对应的标准正态分布分位数(α=0.05时,Zα/2=1.96),Zβ为β对应的分位数(β=0.20时,Zβ=0.84)。03不同设计类型下的样本量计算方法不同设计类型下的样本量计算方法随访队列研究的设计类型多样,包括前瞻性队列、回顾性队列、多中心队列、匹配设计等,不同设计的样本量计算方法存在差异,需结合设计特点灵活调整。1前瞻性队列研究的样本量计算前瞻性队列研究是随访队列的“经典设计”,研究者主动暴露分组并前瞻性收集结局数据,样本量计算需重点考虑“前瞻性”带来的参数不确定性。1前瞻性队列研究的样本量计算1.1二分类结局的样本量计算以“探讨吸烟与肺癌发生的关系”为例,结局为“5年内是否发生肺癌”(二分类)。假设:-对照组(非吸烟者)肺癌发生率p₀=1%(根据国家癌症中心数据);-暴露组(吸烟者)预期RR=2.0(基于既往Meta分析);-α=0.05(双侧),β=0.20(功效80%);-样本量分配比例1:1。首先计算p₁=p₀×RR=1%×2=2%,代入二分类结局样本量公式:\[N_{\text{初始}}=\frac{(1.96+0.84)^2\times[0.02×(1-0.02)+0.01×(1-0.01)]}{(0.02-0.01)^2}=\frac{7.84\times(0.0196+0.0099)}{0.0001}=\frac{7.84\times0.0295}{0.0001}\approx2313\]1前瞻性队列研究的样本量计算1.1二分类结局的样本量计算即每组需约2313人,合计4626人。若预期失访率15%,则调整后样本量为:\[N_{\text{调整}}=\frac{4626}{1-0.15}\approx5444\]1前瞻性队列研究的样本量计算1.2生存结局的样本量计算生存分析(如Kaplan-Meier法、Cox回归)是随访队列的核心方法,其样本量计算需基于“事件数”而非“受试者人数”。Log-rank检验是最常用的生存分析假设检验方法,其样本量公式为:\[d=\frac{(Z_{\alpha/2}+Z_{\beta})^2\times(p_1+p_0)^2\times(1-p)^2}{p(1-p)\times(\lnHR)^2}\]其中,d为总事件数,p为暴露组样本量占比(通常0.5),HR为风险比,p₁和p₀为暴露组与对照组的生存率(需指定随访时间)。以“评估新型降糖药对2型糖尿病患者心血管事件的影响”为例,结局为“首次主要不良心血管事件(MACE)发生时间”,假设:1前瞻性队列研究的样本量计算1.2生存结局的样本量计算-对照组(常规治疗)5年MACE发生率p₀=20%(基于UKPDS研究);-暴露组(新型降糖药)预期HR=0.7(基于Ⅲ期临床试验数据);-α=0.05(双侧),β=0.20(功效80%);-样本量分配比例1:1(p=0.5);-随访时间5年。计算总事件数d:\[d=\frac{(1.96+0.84)^2\times(0.5+0.5)^2\times(1-0.5)^2}{0.5\times(1-0.5)\times(\ln0.7)^2}=\frac{7.84\times1\times0.25}{0.25\times(-0.3567)^2}=\frac{1.96}{0.1272}\approx15.4\]1前瞻性队列研究的样本量计算1.2生存结局的样本量计算取整后需至少16个事件?——显然与实际不符,此处需修正公式:更准确的Log-rank样本量公式为(Schmoor等,1989):\[d=\frac{(Z_{\alpha/2}+Z_{\beta})^2}{p(1-p)(\lnHR)^2}\]代入数据:\[d=\frac{(1.96+0.84)^2}{0.5\times0.5\times(\ln0.7)^2}=\frac{7.84}{0.25\times0.1272}\approx\frac{7.84}{0.0318}\approx246\]1前瞻性队列研究的样本量计算1.2生存结局的样本量计算即总需246个MACE事件。再根据对照组事件率计算所需样本量:对照组事件率20%,暴露组事件率=1-(1-p₀)^HR=1-(1-0.2)^0.7≈1-0.8^0.7≈1-0.855=0.145(14.5%)。每组平均事件数=总事件数/2=123,因此对照组样本量n₀=123/0.20=615,暴露组样本量n₁=123/0.145≈848,合计n=615+848=1463。考虑15%失访率,调整后样本量为1463/(1-0.15)≈1721。关键提示:生存分析样本量计算的核心是“事件数”,而非直接计算受试者人数。若随访时间不足,事件数将减少,需延长随访或增加样本量;若失访率高,需在事件数基础上增加样本量缓冲。2回顾性队列研究的样本量计算回顾性队列研究利用历史数据(如医疗记录、数据库)进行暴露与结局的关联分析,其样本量计算需考虑“历史数据”的特殊性——暴露与结局信息可能不完整,或基线特征存在偏倚。2回顾性队列研究的样本量计算2.1基于历史数据的参数估计回顾性队列的p₀、p₁或HR通常来源于现有数据库。例如,利用某电子健康档案(EHR)数据库研究“阿托伐他汀与糖尿病风险”,需先从数据库中提取对照组(未使用阿托伐他汀)糖尿病发病率p₀,暴露组(使用阿托伐他汀)糖尿病发病率p₁,并计算RR。若历史数据中暴露组与对照组基线特征不均衡(如暴露组年龄更大、肥胖比例更高),需通过倾向性评分(PS)匹配或调整,此时样本量计算需考虑匹配后的“信息损失”——匹配后有效样本量通常为匹配前的70%-90%。2回顾性队列研究的样本量计算2.2考虑数据质量的样本量调整回顾性数据常存在“结局事件漏报”(如部分患者未记录糖尿病诊断)或“暴露信息缺失”(如用药剂量不明确)。若结局事件漏报率为10%,则实际事件数=记录事件数/(1-漏报率),需在初始样本量基础上增加相应比例。例如,若需记录200个事件,漏报率10%,则实际需纳入200/(1-0.1)≈222个事件对应的样本量。3多中心队列研究的样本量计算多中心研究通过多中心协作增加样本量代表性,但需考虑“中心效应”(不同中心间结局率、暴露率差异)。若中心间异质性大(如三级医院与社区医院患者基线特征差异显著),需采用分层样本量计算或随机效应模型调整。3多中心队列研究的样本量计算3.1分层样本量计算假设研究涉及K个中心,每个中心内暴露组与对照组样本量分配比例为1:1,第k中心的对照组事件率为p₀k,暴露组事件率为p₁k,则第k中心的样本量n_k为:\[n_k=\frac{(Z_{\alpha/2}+Z_{\beta})^2\times[p_{1k}(1-p_{1k})+p_{0k}(1-p_{0k})]}{(p_{1k}-p_{0k})^2}\]总样本量N=Σn_k。若中心间p₀k或p₁k未知,可取平均值或基于既往研究估计。3多中心队列研究的样本量计算3.2设计效应(DesignEffect,DE)调整多中心研究因中心间异质性,方差可能大于单中心研究,需通过设计效应调整:\[DE=1+(m-1)\rho\]其中,m为每个中心的平均样本量,ρ为组内相关系数(ICC,反映中心内结局相似性)。调整后样本量N调整=N初始×DE。例如,若初始样本量2000,m=50,ρ=0.1,则DE=1+(50-1)×0.1=5.9,N调整=2000×5.9=11800。4匹配设计的样本量计算匹配设计(如1:1匹配、1:2匹配)通过控制混杂因素(如年龄、性别)提高研究效率,但匹配后“暴露组与对照组独立”的假设不成立,需调整样本量计算公式。4匹配设计的样本量计算4.11:1匹配设计的样本量计算McNemar检验是匹配设计二分类结局的常用方法,其样本量公式为:\[N=\frac{(Z_{\alpha/2}+Z_{\beta})^2\times(p_b+p_c)}{(p_b-p_c)^2}\]其中,p_b为暴露组+而对照组-的对子数比例,p_c为暴露组-而对照组+的对子数比例。关联强度可通过OR=p_b/p_c描述。例如,若预期OR=2.0,p_c=0.1,则p_b=0.2,代入公式:\[N=\frac{(1.96+0.84)^2\times(0.2+0.1)}{(0.2-0.1)^2}=\frac{7.84\times0.3}{0.01}=235.2\]即需236对(472人)受试者。4匹配设计的样本量计算4.2匹配效率与样本量调整匹配设计通过控制混杂因素提高“效率”,通常样本量低于非匹配设计(非匹配样本量/N匹配样本量≈1-ρ,ρ为匹配因素与结局的相关性)。但若匹配因素过多(如匹配年龄、性别、BMI、吸烟状态),可能导致“过度匹配”(匹配因素与暴露相关,引入新偏倚),此时需增加样本量以抵消信息损失。04关键参数的确定与考量:从理论到实践关键参数的确定与考量:从理论到实践样本量计算的准确性取决于参数估计的合理性,而参数估计常面临“数据不足”或“信息不确定”的挑战。本节结合案例,探讨关键参数的确定依据与常见误区。1效应量的确定:基于临床意义与既往证据在右侧编辑区输入内容效应量是样本量计算中最敏感的参数——效应量降低50%,样本量可能增加3-4倍(如RR从2.0降至1.1,样本量从约5000增至20000+)。因此,效应量的确定需兼顾“临床意义”与“可行性”。01MCID指“具有临床价值的结局差异”,是效应量的“下限”。例如,降压药研究中,收缩压降低5mmHg可能无临床意义,降低10mmHg则有明确获益,因此效应量应基于MCID设定(如RR降低20%)。3.1.1基于最小临床差异值(MinimalClinicallyImportantDifference,MCID)021效应量的确定:基于临床意义与既往证据1.2基于Meta分析或系统评价若缺乏原始研究数据,可通过Meta分析合并效应量估计。例如,在探讨“空气污染与哮喘发作”时,我们检索了10项前瞻性队列研究,合并RR=1.05(95%CI:1.03-1.07),则可取RR=1.05作为效应量。但需注意:Meta分析的异质性(I²>50%)可能提示效应量在不同人群中差异较大,此时需采用“最保守估计”(如取RR的下限)。1效应量的确定:基于临床意义与既往证据1.3预实验(PilotStudy)的应用当既往数据不足时,可通过预实验估计效应量。例如,在“肠道菌群与结直肠腺瘤”的队列研究中,我们纳入50例受试者进行3个月随访,预实验暴露组腺瘤发生率15%,对照组5%,则RR=3.0。但预实验样本量小,结果可能不稳定,需结合“效应量置信区间”调整——若预实验RR的95%CI较宽(如1.2-7.5),可取区间下限(RR=1.2)作为效应量,避免样本量低估。2失访率的处理:从“预估”到“动态调整”失访是随访队列的“固有挑战”,尤其在慢性病研究中(如糖尿病随访10年,失访率可达30%-50%)。失访率预估过高,会导致样本量浪费;预估过低,则可能因实际样本量不足而无法得出结论。2失访率的处理:从“预估”到“动态调整”2.1失访率预估的依据失访率需根据疾病类型、随访方式、受试者特征综合判断:-疾病类型:恶性肿瘤患者因死亡或病情恶化失访率高(可达40%);慢性病(如高血压)失访率较低(10%-20%);-随访方式:电话随访失访率高于门诊随访(20%vs.10%);移动医疗(APP提醒)可降低失访率至5%-10%;-受试者特征:老年、低教育水平、流动人口失访率更高。例如,在“社区老年痴呆队列”中,我们基于预实验发现,65-75岁失访率15%,>75岁失访率25%,因此按年龄分层设定失访率(<70岁:15%,≥70岁:25%)。2失访率的处理:从“预估”到“动态调整”2.2动态失访率调整策略研究过程中需定期监测失访率,若实际失访率超过预期,可采取“补充受试者”或“延长随访”策略。例如,某研究预期失访率15%,6个月后发现失访率达20%,则需按N调整=N初始/(1-0.20)补充样本量。若补充受试者困难,可考虑“统计补救”(如采用多重插补法处理失访数据,但需假设“失访完全随机”)。3基线特征与混杂因素的调整随访队列研究常存在混杂因素(如年龄、性别、生活方式),若不控制,可能高估或低估暴露效应。样本量计算时需考虑“混杂因素调整”带来的样本量需求增加。3基线特征与混杂因素的调整3.1分层分析与样本量分配若采用分层分析控制混杂因素(如按年龄分层:<50岁、50-65岁、>65岁),需确保每层有足够样本量。例如,总样本量3000例,按年龄分层后,每层样本量需≥500(否则层内功效不足)。3基线特征与混杂因素的调整3.2多变量模型与自由度调整若采用Cox回归或Logistic回归调整多个混杂因素,模型自由度增加,需通过“自由度调整系数”(k=1+numberofcovariates)调整样本量:\[N_{\text{调整}}=N_{\text{初始}}\timesk\]例如,若初始样本量2000,调整5个混杂因素,则k=6,N调整=2000×6=12000。但需注意:自由度调整可能导致样本量需求激增,需结合变量筛选(如仅纳入clinicallysignificantcovariates)平衡。05软件工具与实操经验:从“公式”到“落地”软件工具与实操经验:从“公式”到“落地”样本量计算虽基于统计学公式,但实操中需借助软件工具实现参数输入与结果输出,同时需结合研究实际灵活调整。本节介绍常用软件工具与案例经验。1常用样本量计算软件比较1.1专业统计软件-PASS(PowerAnalysisandSampleSize):界面友好,支持队列研究常用的二分类、生存、连续性结局样本量计算,内置多种预设模板(如Log-rank检验、Cox回归),可输出功效曲线、样本量-失访率敏感性分析,适合非统计专业研究者。-R语言(pwr、survival、epiR包):免费开源,灵活性高,可自定义复杂模型(如时间依赖性Cox模型、竞争风险模型),但需编程基础。例如,使用`survival包`的`powerCT.default()`函数计算Log-rank检验样本量:1常用样本量计算软件比较```rlibrary(survival)powerCT.hr(p1=0.2,p2=0.14,hr=0.7,alpha=0.05,power=0.8,ratio=1,follow.time=5)```-SAS(PROCPOWER、PROCPHREG):适合多中心、复杂设计样本量计算,可通过宏程序实现批量计算,但操作较复杂。1常用样本量计算软件比较1.2在线工具-SampleSize.io:免费在线工具,支持队列研究样本量计算,可实时调整参数并查看结果变化,适合快速预实验。-WHOSampleSizeCalculator:适用于公共卫生研究,预设发展中国家常见疾病参数(如感染性疾病发病率),操作简便。2实操案例与常见误区2.1案例:某前瞻性队列研究的样本量计算全过程研究目的:探讨“久坐行为与代谢综合征发病的关联”,结局为“5年内新发代谢综合征”(NCEP-ATPⅢ标准),暴露因素为“每日久坐时间”(≥8小时为暴露组,<8小时为对照组)。2实操案例与常见误区:确定参数-对照组代谢综合征发病率p₀:基于“中国慢性病前瞻性研究”,45-59岁人群p₀=15%;-样本量分配比例1:1;-暴露组预期RR:基于Meta分析(RR=1.3,95%CI:1.1-1.5);-α=0.05(双侧),β=0.20(功效80%);-失访率:预实验显示,5年失访率18%。01020304052实操案例与常见误区:确定参数第二步:计算初始样本量采用二分类结局样本量公式:\[p_1=p_0\timesRR=15\%\times1.3=19.5\%\]\[N_{\text{初始}}=\frac{(1.96+0.84)^2\times[0.195×(1-0.195)+0.15×(1-0.15)]}{(0.195-0.15)^2}\]\[=\frac{7.84\times(0.157+0.1275)}{0.002025}=\frac{7.84\times0.2845}{0.002025}\approx1102\]2实操案例与常见误区:确定参数第三步:失访率调整\[N_{\text{调整}}=\frac{1102}{1-0.18}\approx1344\]第四步:考虑混杂因素调整计划调整3个混杂因素(年龄、BMI、吸烟),自由度调整系数k=1+3=4,但实际研究中,通过倾向性评分匹配已控制混杂因素,故无需额外调整。最终确定样本量为1350例(675例/组)。2实操案例与常见误区2.2常见误区与规避方法-误区1:效应量“取高不取低”:为降低样本量,刻意选择高效应量(如RR=2.0而非1.3),导致研究无法检测到真实关联。规避:基于MCID或Meta分析下限设定效应量,同时进行“敏感性分析”(如RR=1.2、1.3、1.4时样本量变化)。-误区2:忽略失访率的“时间依赖性”:失访率随随访时间增加而升高,但计算时采用单一失访率(如全程15%)。规避:按随访阶段设定失访率(如1-2年:5%,3-4年:10%,5年:15%),采用“生存分析”方法计算累积失访率。-误区3:多中心研究的“中心同质性”假设:假设所有中心事件率相同,但实际中心间差异大(如三级医院p₀=20%,社区医院p₀=10%)。2实操案例与常见误区2.2常见误区与规避方法规避:进行“中心分层样本量计算”或“交互作用检验”,若中心间异质性显著(P<0.1),采用随机效应模型调整。06前沿发展与挑战:从“静态”到“动态”样本量计算前沿发展与挑战:从“静态”到“动态”样本量计算随着真实世界研究(RWS)、大数据与机器学习的发展,随访队列样本量计算方法正从“静态预设”向“动态优化”演进,面临新的机遇与挑战。1真实世界研究中的样本量计算真实世界研究基于真实医疗数据,存在数据异质性强、结局定义不统一、混杂因素复杂等特点,传统样本量计算方法需优化。1真实世界研究中的样本量计算1.1基于真实世界数据的参数校准利用EHR、医保数据库等真实世界数据,可更精准估计p₀、p₁或HR。例如,在“真实世界GLP-1受体激动剂与心血管获益”研究中,我们通过Medicare数据库提取10万例2型糖尿病患者数据,校正混杂因素(如基线心血管病史、合并用药)后,暴露组HR=0.85(95%CI:0.78-0.93),以此为效应量计算样本量,显著提高了参数准确性。1真实世界研究中的样本量计算1.2考虑数据质量的样本量“冗余”真实世界数据常存在“结局事件漏报”“暴露信息缺失”,需在样本量计算中增加“数据质量缓冲系数”(QF),QF=1/(1-缺失率)。例如,若结局数据缺失率20%,则QF=1.25,样本量需增加25%。2机器学习辅助的样本量优化机器学习可识别“高风险失访人群”“高效应量亚组”,实现样本量的精准分配。2机器学习辅助的样本量优化2.1失访预测与动态样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论