预试验样本量计算的指南总结2026

上传人：医*** IP属地：江苏上传时间：2026-04-14 格式：DOCX 页数：19 大小：33.60KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

预试验样本量计算的实用指南总结2026在准备做确证性随机试验（definitiverandomizedtrials）时，预试验（Pilottrials）起着关键作用。但如何确定预试验的样本量仍是一个挑战。2025年8月，BMJ发表了一篇方法学文章，为预试验样本量计算提供了实用的指导建议和工具，包括分步示例、样本量表格以及统计代码。与确证性试验不同，预试验和可行性研究不估计或检验疗效，因此"初步疗效（preliminaryefficacy）"等表述具有误导性。预试验旨在确定"是否可以做，是否应该继续进行，如果继续、该如何做"等问题。研究者通常不确定在预试验中应纳入多少参与者。由于预试验的目标不是估计或检验干预疗效或效果，确证性试验的传统样本量计算方法无法直接适用预试验。在实践中，研究者经常依赖经验，这些经验可能适用于某些预试验，但并非所有预试验。预试验报告中也经常缺少样本量说明。预试验可分为内部预试验（嵌到确证性试验中，数据纳入最终分析）或外部预试验（独立研究，数据不进入确证性试验的分析）。BMJ本次发布的文章，重点关注外部预试验，因此以下方法可能不直接适用于内部预试验。本文主要关注两组随机化试验设计，不涉及更复杂的设计，如整群随机试验或适应性试验。以下是基于不同目的开展预试验时，计算样本量的步骤和注意事项。确定确证性试验的可行性许多预试验旨在通过模拟未来试验的方法，评估试验方案的可行性，可能旨在回答以下问题：研究能否达到所需的招募率？随机化对参与者来说是否可接受？研究团队能否保留参与者在研究中？研究者使用预试验中收集的信息，做出是否开展以及如何开展确证性试验的决策。估计可行性参数关于可行性的判断，通常取决于一个或多个特定参数（如招募率、脱落率、参与者随机化意愿）。由于这些参数通常未知，研究者可通过预试验来进行估计。要确定精确估计时所需要的样本量，必须明确三个方面：参数的预期值（例如，10%的参与者会退出试验）期望的精确度水平，或置信区间（CI）半宽（例如，±10%）置信水平（通常为95%，单侧或双侧）估算可行性参数（实操示例）示例1：脱落概率（Dropoutprobability）为了解参与者在确证性试验中可能的脱落程度，研究者设计了一项预试验来估算脱落概率。根据经验推测，脱落率约为10%。研究者的目标是以10个百分点的精度来估算该参数（即置信区间的宽度为20个百分点）。他们计划使用95%单侧置信区间，因为他们主要关注置信区间的上限（即是否超过20%）。研究人员需要在预试验中招募26名参与者（每组13名），这样才能获得最大宽度为20%（0%到20%）的95%置信区间。预试验结束后，研究者会计算脱落比例及其95%单侧置信区间的点估计值。考虑到研究设计、方法、环境及其他因素，该置信区间可被解释为真实脱落概率的可能取值范围。示例2：招募率（Recruitmentrate）研究人员对确证性试验进行了传统的样本量计算，发现他们需要在18个月内招募180名参与者（即每月招募10人）。由于受试者招募对试验成功至关重要，他们计划开展一项预试验来估算招募率。确证性试验成功入组所需的招募率为每月10名参与者。他们的目标是以3的精度来估算该参数（即置信区间的宽度为每月6名参与者）。计划使用95%双侧置信区间。为了以所需的精度估算该招募率，研究人员计算出在预试验期间，需要在4.4个月内招募44名参与者（每组22名）。此计算假设招募率是恒定的，如果研究人员认为这段时间不足以启动并稳定招募工作，他们可能会选择延长预试验的持续时间。当达到目标人数或达到计划的招募期限时，预试验即可停止。或者，预试验也可以持续到两个标准都满足为止，以收集更多数据。预试验结束后，研究人员将计算招募率的点估计值及其95%双侧置信区间。预期值（即上述步骤

1）通常需要有根据的推测；所需的精度水平（即步骤

2）可能取决于参数的重要性。例如，一个场景中的研究者，可能基于过去的经验对招募有信心，但他们希望精确估计脱落率，因为其可能对确证性试验的样本量产生很大影响。在另一个场景中，研究者可能更关注招募而不是退出。检验试验是否应继续推进CONSORT指南建议研究者预先确定标准，以判断从预试验进入未来确证性试验是否值得。Mellor等提出了一组建议[1]，研究者可以使用交通灯式的推进标准，遵循以下三个步骤：1.

识别一个或多个可行性参数，这些参数是确证性试验能否成功回答主要研究问题的核心标志。2.

为每个参数设置“最低阈值”和“目标阈值”。3.

结果解读：通过（绿色）：如果所有参数的结果都超过了目标阈值（将点估计值与阈值比较，不需要P值），按原始设计方案进入确证性试验。修改（黄色）：如果一个或多个参数的结果在最低阈值和目标阈值之间（但没有任何参数低于最低阈值），则修改方法或设计的某些方面以提高可行性，更具体地说：小修正：如果P值<α（通常为

0.05）大修正：如果P值≥α（通常为

0.05）停止（红色）：如果有一个或多个参数低于最低阈值（将点估计与阈值比较，不需要P值），不继续推进试验。检验试验是否继续推进（实操示例）示例

1：招募接受度研究者不确定符合条件的受试者是否愿意签署知情同意书。他们计划开展一项预试验，并设定了以下目标阈值和最低阈值：目标阈值：如果50%的参与者同意参加，确证性试验极有可能成功招募到所需人员。最低阈值：如果同意率低于20%，确证性试验不太可能成功。研究人员决定使用四级推进标准来进行细致的决策。使用单样本比例检验，设定单侧

类错误为0.05，功效为0.95，研究者计算出预试验所需的样本量为28名参与者（每组14名）。预试验完成后，他们将按以下方式决定是否以及如何推进至确证性试验：通过：如果点估计值超过50%，相关的P值将低于0.05，将进行确证性试验。小修正：如果点估计值落在20%到50%之间，且单侧P值低于0.05，研究人员将对招募策略进行微小调整。大修正：如果点估计值落在20%到50%之间，且单侧P值高于0.05，研究人员将对招募策略进行重大调整。停止：如果点估计值低于20%，相关的P值将超过0.05，研究人员将不进行确证性试验。示例2：招募率研究者预计确证性试验需要240名参与者，有24个月的招募时间。为了评估招募可行性，他们计划进行预试验。他们的目标阈值是每月招募10人，最低阈值是每月6人。如果招募人数在6到10之间，他们预计能够调整策略以达到每月10人，和/或延长试验持续时间以达到所需的样本量。然而，如果低于6人，他们预计难以在可用时间内招募到240名参与者。研究人员决定使用三级推进标准进行快速决策。由于观察单位是“月”而不是“个人”，他们计算出预试验需要5个月的招募期。该计算基于Poisson率的单样本精确检验，单侧I类错误为0.05，功效0.9。它假设招募率是恒定的，因此研究者可能选择延长预试验的持续时间，以使招募趋于稳定。完成预试验后，研究者将观察到的招募与每月6名参与者的零假设进行比较，并决定下一步：通过：如果招募率的点估计值大于每月10名参与者，P值将低于0.05，他们将继续进行确证性试验。修改：如果点估计在每月6到10名参与者之间，无论P值如何，他们将修改招募策略。停止：如果点估计低于每月6名参与者，P值将超过0.05，他们将停止确证性试验的计划。如果对多个参数进行样本量计算，应调整功效以考虑II类错误膨胀，并采用计算出的最大样本量。例如，同时满足两个80%功效标准的概率仅为64%（即0.8的平方），因此合适的策略是将每个标准的功效设为90%，以达到80%的集体功效。发现影响可行性的问题一些预试验旨在检测可能会损害试验质量或流程的事件，例如，扰乱试验流程的物流问题，数据收集过程中的技术故障。Viechtbauer等提出确定预试验所需的参与者数量，以达到能观察到一个或多个问题事件的所需置信水平[2]。该计算基于假设的此类事件的最小概率，这些事件可能危及确证性试验的成功，因此需要检测。这种方法也适用于旨在识别罕见不良事件的2期试验。研究者必须明确：在单个参与者身上发生该问题事件的最小概率；以及检测出至少一个事件的所需置信水平或确定性。通常使用较高的置信水平（如95%）。发现影响可行性的问题（实操示例）研究者计划开展一项确证性试验，主要结局指标是基于某种疾病“有”或“无”。疾病诊断将由两名临床医生独立进行。如果他们意见不一致，就需要进行额外评估，这既耗时又昂贵。研究者担心出现不一致，并旨在研究这一概率：研究者假设，如果临床医生在≥10%的诊断上意见不一致，确证性试验的预期成本和持续时间将大幅超出预算。计划使用95%的置信水平。为了确保以95%的置信度观察到至少一次不一致，研究人员计算出预试验的样本量为30名参与者（对于有两组的研究，每组15名）。预试验的结果将按以下方式解读：无不一致：如果预试验期间没有发生不一致，那么实际的不一致概率可能低于10%，这意味着预计成本和研究持续时间不太可能大幅超标。出现一次或多次不一致：如果观察到一次或多次不一致，那么实际的不一致概率可能为≥10%，这将给确证性试验带来挑战。这种方法适合那些发生概率很低（如1%-10%）但可能危及确证性试验的问题。罕见事件（如<1/1000）可能需要不切实际的庞大预试验样本量才能有合理的几率检测出来。值得注意的是，该目的不是估计事件概率。如果预试验中没有发生事件，研究者只能得出结论：真实概率可能低于预期，但确切数值仍然不确定。为确证性试验的样本量提供依据在规划确证性试验时，研究者通常需要确定合适的样本量，以确保研究具有足够的统计学功效。这个过程称为功效分析，需要信息包括效应量、变异性、显著性水平、期望功效和可行性（如招募率、退出比例）。预试验可以为某些参数（如变异性、可行性）提供有用的数据，但预试验不适合用于确定效应量。根据定义，预试验的样本量小，会导致效应估计不精确，仅依赖预试验的效应点估计值可能导致确证性试验的样本量不佳。研究者应使用组间临床重要差异（

clinicallyimportantdifferences，常来源于既往研究和专家意见）来确定用于计算所需样本量的效应量。估算变异性：变异性描述的是，组内个体数值与平均值的差异程度（即标准差或方差）。变异性通常被视为干扰参数，虽然不是直接关注的重点，但在分析中必须予以考虑。低估主要结局指标的变异性，可能导致确证性试验的功效不足，规模太小而无法识别具有临床意义的真实效应。高估变异性可能导致不必要的大规模试验，浪费资源。一般来说，方差估计值可能来自与计划试验具有相似设计、人群和分析的研究。如果可能，研究者可合并多项研究的数据（如使用Meta分析）来估计方差。预试验可以估计变异性，但因为样本量小，估计值往往不精确。依赖此类估计可能导致确证性试验功效不足或过高。研究者通常更担心确证性试验功效不足而不是过高。为了估算正态分布结局指标的变异性，研究人员可以进行一项每组有12名或35名参与者的预试验，以获得合理的精度和功效。保守起见，确证性试验的样本量应该增加，以降低因变异性估计来自小型试验而导致功效不足的概率。当方差估计不确定时，可在确证性试验开始后，进行盲态样本量重估计，这种方法使用试验期间收集的方差数据，根据需要调整样本量。确证性试验样本量的膨胀，可以通过以下两种方法之一进行：在确证性试验的样本量计算中使用90%功效，以便在大多数时间达到80%功效，每组35人时超过90%，每组12人时约80%（资源有限时可接受）。使用预试验方差估计的80%或95%置信上限，向上调整确证性试验的样本量，以考虑不确定性，或在计算中承认方差估计基于样本（即不是总体）得出的。最小化预试验和确证性试验的总样本量：由于预试验是大型研究项目的一部分，研究者可能希望预试验和后续确证性试验的合并样本量最小。这种方法可以通过以下方式实现：基于预试验观察到的变异性来计算确证性试验的样本量，并使用上述膨胀方法进行调整。预试验信息与确证性试验之间的权衡会产生一条关于总体样本量需求的U形曲线。具体而言，随着预试验规模的增加，调整后的确证性试验规模会减小，这在一定程度上减少了总样本量。超过该点后，预试验规模的进一步增加，将超过调整后的确证性试验规模的减少量。因此，存在一个预试验规模，可以使得两个试验所需的参与者总数最小。推导最小化总样本量的预试验样本量需要一个迭代过程：1.

从较小的预试验样本量开始（例如，每组8人）。2.

使用标准方法计算确证性试验的样本量，并使用两种膨胀方法中的一种进行膨胀。3.

计算预试验和确证性试验的总样本量。4.

增加预试验规模并重复步骤2-3。5.

确定使总体总样本量最小的预试验规模。要使用这种方法，研究者必须首先定义具有临床意义的效应，通常通过文献综述和专家知识来确定。研究者还需要指定方差估计值，这可能来自先前类似设计的试验。如果无法获得此类估计值，可在步骤2中使用标准化均数差。如果无法确定特定的标准化差异，可应用阶梯规则：标准化均数差非常小（≤0.1）、小（0.2）、中等（0.5）或大（0.8）时，每组分别对应75、25、15和10名参与者；或者对于小到中等效应量，预试验总样本量为55。最小化预试验和确证性试验的总样本量（实操示例）研究者计划在确证性试验中测试一种干预措施，其主要结局指标是连续变量，设定的标准化均数差为0.4，这是具有临床意义的最小效应值。为了计算能使总样本量最小化的预试验样本量：研究人员从一个每组10人的小型预试验开始。他们计算出确证性试验每组需要100名参与者，假设标准化均数差为0.4，双侧I类错误率为0.05，II类错误率为0.2。然后，他们使用80%置信限方法将样本量膨胀至每组139人。预试验和确证性试验的合并样本量为每组149名参与者。他们将预试验规模每组增加一名参与者，并重复上述三个步骤。研究者发现，为了使合并样本量最小化，预试验应招募36名参与者（每组18名）。排除那些不太可能产生临床重要效应的干预措施研究者在启动确证性试验之前，希望排除掉那些不太可能具有临床重要效应的干预措施。这种方法有助于避免浪费，并尽量减少参与者暴露于可能无效或有害的干预措施。对于那些如果不治疗就不太可能好转的疾病，可使用单组概念验证研究（singlegroupproof-of-conceptstudies）来评估干预是否能实现临床显著结果，从而值得进一步研究。在这些研究中，研究者会设定有意义的改善目标，并计算达到这些目标的参与者比例。在某些情况下，研究者可能进行适当规模的预试验，以做出是否开展后续研究的决策。这种方法依赖于Cocks和Torgerson提出的样本量计算方法[3]，该方法考虑了效应量估计中的额外不确定性。它不提供精确估计，也不允许进行严格的假设检验，因此研究者不能仅根据预试验确定干预是否有效。当研究者旨在精确估计效应或进行假设检验，但随机化大样本不可行时，研究者应考虑其他研究设计，例如使用替代结局的具有充分功效的2期疗效试验，结合先验数据或知识的贝叶斯设计，或严格的非随机研究。对于连续型结局指标的预试验，研究者可以：1.

假设治疗组和对照组之间的均数差为零。2.

确定组间最小临床重要标准化差异（例如，标准化均数差0.3）。3.

将最小临床重要差异设定为围绕“零效应”的80%或90%单侧置信区间的最大半宽度（由于只关注一个方向，因此单侧置信区间就足够了）。对于二分类结局指标，研究者可以：1.

假设两组中出现该结局的参与者比例相等（如30%）。如果可能的比例未知，可使用50%的比例以最大化样本量。2.

确定组间最小临床重要差异（如10个百分点）。3.

使用最小临床重要差异作为80%或90%单侧置信区间的最大半宽。然后，计算预试验的样本量，使其足够大，以便在干预无效或有害效应的情况下，自信地排除临床重要效应的可能性。预试验结束后，不进行假设检验。研究者只需将组间差异的点估计与零比较。如果观察到的差异大于零，且预试验结果表明试验方案可行，研究者将得出结论：他们不能自信排除干预相对于对照具有临床显著获益的可能性，之后可能推进到确证性试验。如果点估计为零或以下，研究者可能不进行确证性试验。排除那些不太可能产生临床重要效应的干预措施（实操示例）连续型结局指标研究者计划在确证性试验中评估一项减肥措施。他们首先进行一项预试验，以评估试验方案的可行性。研究者根据文献和专家意见确定了一个具有临床意义的最小效应。由于该干预措施是新的，且确证性试验成本高昂，他们也希望评估该干预措施是否不太可能产生具有临床意义的最小效应。为了计算样本量，他们遵循以下步骤：他们假设干预无效，设定减肥组和对照组之间的均数差为零。他们确定主要结局指标的标准化效应量为0.3。根据既往研究和专家意见，这是他们认为确证性试验中有意义的最小效应量。他们选择使用80%单侧置信区间进行计算。研究者计算出，预试验需要32名参与者（每组16名），这样，当效应估计值以零为中心时，所产生的单侧80%置信区间的上限将低于0.3。如果预试验中的效应估计值大于零，且试验方案根据其他标准是可行的，他们可能会继续进行后续试验。二分类结局指标研究者旨在评估一项提高疫苗接种率的干预措施，并希望在干预措施不太可能产生最小临床重要效果时，将其从后续测试中剔除：他们假设两组的疫苗接种比例相等，基线比例为50%。他们预期干预措施会将疫苗接种率从50%提高到60%（或更高）。将这10%的差异作为单侧80%置信区间的最大半宽。基于这些参数，研究者计算出预试验需要纳入70名参与者。该样本量确保单侧80%置信区间的半宽小于10%。如果预试验中的效应估计值大于零，且试验方案可行（等等），研究者可能会继续进行后续试验。样本量计算方法与工具对照表目的计算样本量所需信息/经验法则软件实现样本量表格（原文附录1）估计可行性参数参数的预期值；所需精度水平（置信区间半宽）；置信水平（通常为95%，单侧或双侧）精度分析

(单样本置信区间)：R语言包，如"presize"；GitHub上的Stata和SAS代码附录

表

1(proportion)

附录

表

人人文库> 全部分类> 行业资料 > 医学制药

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

预试验样本量计算的指南总结2026

文档简介

温馨提示

最新文档

评论

预试验样本量计算的指南总结2026

文档简介

温馨提示

最新文档

评论

相关文档