时差成像深度学习评分模型在胚胎评估中的研究进展总结2026_第1页
时差成像深度学习评分模型在胚胎评估中的研究进展总结2026_第2页
时差成像深度学习评分模型在胚胎评估中的研究进展总结2026_第3页
时差成像深度学习评分模型在胚胎评估中的研究进展总结2026_第4页
时差成像深度学习评分模型在胚胎评估中的研究进展总结2026_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时差成像深度学习评分模型在胚胎评估中的研究进展总结20261978年,全球首例试管婴儿路易斯·布朗的诞生,成为辅助生殖技术(assistedreproductivetechnology,ART)发展的里程碑,开启了生殖医学的新时代[1]。尽管体外受精(invitrofertilization,IVF)技术不断革新,胚胎质量仍是影响妊娠成功率的关键限制因素。因此,准确筛选高质量胚胎对提升IVF结局具有重要意义。在实践中,Gardner囊胚分级系统作为全球主流的形态学评估方法,其可靠性正面临挑战[2]。该方法高度依赖操作者的主观判断与专业经验,且作为一种静态评估,无法反映囊胚的动态发育过程,难以捕捉关键的发育事件,从而制约了其可重复性与预测的准确性[3-5]。时差成像系统(time-lapsesystem,TLS)为胚胎培养实验室提供了连续、无扰动的胚胎影像,被视为正在引发胚胎评估领域的一次范式转变:评估标准从依赖单一时点的静态形态观察,发展为对连续动态发育事件的全面分析。形态学评分结合胚胎动力学参数可以挑选发育最优的胚胎进行移植,但这仍需要胚胎学家的主观解读[6]。所以,随着图像数据的积累和人工智能(artificialintelligence,AI)尤其是深度学习技术的发展,许多基于动态图像的胚胎深度评分系统逐渐被开发并嵌入TLS平台中,显著提升了评估的客观性、可重复性与预测价值[7]。本文旨在系统梳理结合时差成像技术与深度学习模型的胚胎评估新方法,客观评估其应用成效与局限,并展望未来的研究方向。一.时差成像技术的优势与争议性1.时差成像技术的优势:TLS是以预设时间间隔(如每5~15min)自动拍摄胚胎数字图像的设备。这些连续获取的图像通过专业软件进行编译,合成为记录胚胎整个发育过程的延时视频序列。该序列可在外部监视器上以数字化形式动态显示,使胚胎学家能够评估胚胎的动态形态。(1)动态发育监测能力:TLS可避免胚胎受到气体、温度变化及搬运过程的扰动,胚胎学家无需取出胚胎,即可在配套软件辅助下完成质量评估,为胚胎发育提供更加稳定的培养环境[8-9]。TLS连续监测所提供的动态信息有助于优化ART中的胚胎选择策略。这项技术通过不间断地成像,精准记录胚胎发育过程中的关键时间节点(如t2、t3、tSB等)及细胞周期长度(如cc2、s2),从而将传统的静态形态学评分转化为连续的动态发育轨迹。基于全程监测所获得的数据,研究发现异常卵裂模式(如直接分裂、逆向分裂)与囊胚形成率、着床率及染色体异常之间存在显著关联[10-11]。并由此构建了胚胎选择算法,以非侵入方式预测胚胎潜能[4]。通过TLS观察不同胚胎发育阶段(原核期、卵裂期、桑椹胚期、囊胚期)的主要发育扰动现象,及其临床意义(与胚胎发育潜能、囊胚形成率、妊娠结局的关联)以及部分潜在的生物学机制[12],详见表1。在原核(pronucleus,PN)阶段(约0~20h),雌雄PN面积差异小(<40μm2)且雌性不大于雄性,这些特征与胚胎质量和活产率呈正相关。PN崩解延迟(>25h)或存在时间过长(>20h),都预示着更差的囊胚发育和活产结局。将授精检查时间点精确到受精后(16.5±0.5)h,能显著减少传统静态观察对0PN的误判。在出现胞质颗粒/线粒体向心重分布的胞质晕中,若晕缺失或持续时间超过16h,则与直接/逆向卵裂、囊胚形成受损及妊娠结局恶化相关。此外,该特征与男方年龄和精子质量相关,提示父源因素可通过卵母细胞重构而影响胚胎潜能。在卵裂胚阶段(第1~2天),各种异常分裂现象中,若直接卵裂(2-细胞不经历典型的细胞周期直接变为3-细胞)的胚胎能发育至可移植囊胚,活产率与正常胚胎无异;而逆向融合(2-细胞融合为1-细胞,发生率5%~8%)的胚胎,发育潜能显著降低,应优先淘汰。此外,卵裂后膜—质运动(摇摆、扭曲与碎裂)中扭曲与碎裂型及持续时间超过3h的胚胎囊胚形成率显著下降。在桑椹胚阶段(第3~4天),过早启动压缩(在8-细胞前)或压缩过程太快(从8-细胞到压缩开始<11.5h)均预示囊胚质量下降;若在压缩过程中有卵裂球被排除或挤出,且数量越多,活产率越低,表明胚胎的自我修正能力有限。在囊胚阶段(第5~6天),自发塌陷是评估囊胚质量的关键动态指标。频繁塌陷意味着细胞连接差、非整倍体风险高[13]。这些动态参数从时空维度重塑了胚胎评估体系,为个体化培养、非侵入性染色体筛查和AI算法训练提供了关键参数。(2)TLS对比传统胚胎培养(conventionalembryoculture,CEC)下的胚胎发育与临床结局:《人类卵裂期胚胎及囊胚形态学评价中国专家共识》明确指出,TLS可用于筛选发育潜能更高的第4天胚胎[14]。在胚胎代谢方面,TLS培养第3~5天胚胎的总氨基酸摄取量高于CEC,且氨基酸释放量更低,反映其消耗-合成平衡更优。与标准培养箱相比,TLS培养的胚胎在第5天的囊胚形成率显著提高,适合冷冻保存的胚胎比例亦显著增加,IVF来源亚组的差异更为突出。在支持囊胚形成和胚胎代谢方面,TLS可能为胚胎发育提供了更有利的环境,但作用机制仍需进一步研究[15]。在胚胎着床率和临床妊娠率方面,TLS组显著高于CEC组[7]。而两组的流产率、异位妊娠率和活产率相似[16]。在早产、低出生体质量、妊娠期高血压疾病(先兆子痫和妊娠期高血压)方面,两组没有显著差异。与自然受孕相比,TLS培养的胚胎出生的单胎婴儿有更高的早产和低出生体质量风险,但妊娠期高血压的风险较低。两组在主要围产期和母婴结果上没有显著差异,表明TLS是一种可接受的胚胎培养替代方案[17]。2.时差成像的争议性:当前,时差培养箱和标准培养箱的比较争议较大,没有足够的证据表明,在活产、流产或临床妊娠率方面,TLS培养与CEC之间存在显著差异[8,18]。2025年《伊斯坦布尔共识》更新指出,借助TLS形态动力学评估可让胚胎的淘汰与排序更为可靠,进而优化移植胚胎的选择;然其能否转化为临床结局的改善,仍待进一步验证[19]。有研究结果显示TLS培养在活产率和临床妊娠率方面未优于CEC,反而显示CEC组的结果更佳[20]。另一项多中心、三平行组、双盲、随机对照试验显示TLS组与对照组活产率分别为33.7%和33.0%,首次高质量地否定了“无扰培养或动力学参数选胚可单独或协同改善结局”的假设,因此不建议在IVF和卵胞质内单精子注射治疗中常规使用TLS[21]。然而,有学者质疑该试验的方法学,认为其结论的可靠性因潜在的设计偏倚和数据不透明而受损,并呼吁公开原始数据以进行验证[22]。固然后续有学者对其研究方法质疑,但该试验仍提示我们需审慎看待TLS的独立临床价值。此外,现有研究在时差参数定义、样本量及研究设计方面存在较大异质性,导致TLS在整倍体囊胚着床预测中的附加价值尚未达成共识[23]。部分研究还提示TLS可能对胚胎性别比产生潜在影响,但其机制及临床意义仍需大样本、标准化、前瞻性的研究加以明确[24]。总之,时差成像高昂的成本和尚未完全统一的临床获益证据,是目前制约其普及的主要因素。二.与TLS结合的AI模型AI在囊胚期胚胎移植后的妊娠预测已引起广泛关注[25-26]。且已被证明在预测胚胎细胞阶段、囊胚形成和活产方面有潜在价值,为临床选择最优囊胚提供了客观的决策支持[27-28]。在数据规范层面,《人工智能囊胚形态评估数据集构建与质控专家共识》为AI囊胚评估确立了从采集、标注到质控的全流程要求[29]。而TLS作为共识中明确的数据来源核心设备,其输出的数据正是这一规范框架下的主要处理对象。TLS与AI科学地结合,可以提取形态动力学参数并建立预测模型,从而提高胚胎评估的准确性和可靠性[7]。AI涵盖机器学习,而深度学习作为其分支,以神经网络如卷积神经网络(convolutionalneuralnetwork,CNN)、长短期记忆网络(longshort-termmemory,LSTM)等为核心工具,且神经网络技术正驱动着研究重心从静态形态学分析向动态时序模式转向[30]。1.TLS相关的神经网络:神经网络是一种模仿生物大脑神经元连接方式而设计的数学模型与计算框架,能从数据中自动学习规律,在没有人工干预的情况下自主做出决策[31]。(1)CNN:CNN是一种专门处理图像等网格结构数据的深度学习模型,由卷积层、池化层和全连接层构成。标准的、最基本的CNN架构被设计用来处理单帧图像(固定时间点采集)。在胚胎评估领域中,CNN有助于客观地了解胚胎发育情况,但它无法感知胚胎时间动态变化,如囊胚扩张和细胞运动[25,32]。以往研究采用ImageNet预训练经典的CNN架构(如ResNet、DenseNets或Xception)对单帧静态图像进行分级或整倍体预测[33-36]。模型从受精后90h至囊胚最大扩张时刻的时间范围内,以每小时1帧的频率进行采样,并从每帧的多个焦点平面中选取中心(0µm)及两个外围(±45µm)共3个平面进行组合;随后,图像被以胚胎为中心裁剪原图的64%,并统一缩放至224×224像素作为标准输入;将焦点平面随机偏移±1个焦点(±15µm)以增强对焦距变化的鲁棒性,以及将图像帧时间点随机偏移±30min以模拟发育速度的差异,但模型跨中心泛化能力不足,受试者工作特征曲线下面积(areaunderthecurve,AUC)0.76到0.90波动是该类模型临床落地的主要瓶颈,这一局限性促使研究焦点从静态图像分析转向能够捕捉发育动态的时序建模[37-38]。(2)LSTM:LSTM是一种常用于处理时间序列数据的特殊循环神经网络(recurrentneuralnetwork,RNN),能够捕捉数据中的时间依赖关系和长期依赖关系[39-40]。它通过独特的门控机制:遗忘门、输入门和输出门,解决了传统RNN在处理长序列时的梯度消失或梯度爆炸问题,能够有效记忆和利用过去的信息来影响当前的输出。它从原始视频出发,通过统一时间起点和截取标准长度实现对齐,利用CNN模型将视觉信息解码为包含帧号及其对应细胞阶段的结构化数据点序列,再转换为最终的数值向量序列,送入LSTM进行时间动态建模,已被证明在捕捉胚胎发育时间动态方面具有良好效果[28]。2.TLS相关的时序建模方法(1)CNN+LSTM模型:为克服静态CNN无法捕捉胚胎时间动态的局限,早期与TLS结合的AI模型研究转向混合架构,如CNN+LSTM模型[41]。该模型利用预训练的CNN提取静态形态特征,预测内细胞团与滋养层等级;随后将帧级特征序列输入LSTM,以捕捉胚胎发育的动态过程,从而规避传统方法中复杂的像素级分割需求,并在囊胚质量评估中达到与胚胎学家相当的性能水平[38]。Rajendran等[42]提出的囊胚评估学习算法模型在CNN+LSTM这一混合架构的基础上增加了与临床数据的整合:以预训练VGG16加上BiLSTM对时序图像进行建模,实现了囊胚多参数评分与无创整倍体预测的联合输出,该模型基于三中心数据进行训练与验证,其跨中心AUC达0.76,预测性能优于传统静态形态学评分,具备良好的临床适用性。Boucret等[43]的自监督对比+LSTM模型先以自监督对比学习预训练CNN,仅利用图像时序关系而无需任何植入标签;随后用少量已知植入数据通过Siamese-LSTM微调,最终输出胚胎间相似度或植入概率,而非传统形态学评分。其完全基于非侵入性图像,但AUC仅为0.64,尚不能替代人工评分,仅作辅助排序工具。但这种新方法以少量已知植入数据通过Siamese-LSTM微调,即可在仅209个已知植入数据胚胎的小样本上实现AUC=0.64的植入预测性能,提示其可能更适用于胚胎图像数据不足的场景。(2)基于三维(three-dimensional,3D)卷积的端到端模型:CNN+LSTM模型遵循分阶段的、间接的架构。为克服分阶段模型可能带来的问题,有学者探索出一种端到端的3D-CNN模型。该模型内部以神经网络为核心组件,旨在直接从完整的时差视频中预测胚胎的倍性状态,模型以0.5h间隔提取帧序列,并构建双流输入:RGB流将灰度图像复制为三通道;光流流采用TV-L1算法计算帧间运动。数据增强包括:以0.5概率随机水平与垂直翻转、在0.5~1.5范围内均匀采样伽马值调整对比度,以及随机旋转(≤30°)与平移(≤20%图像尺寸)。最后将RGB图像像素值重新缩放至[-1,1];光流值先裁剪至[-20,20],再线性映射至[-1,1],完成像素标准化,已展现出初步潜力(AUC=0.74)[44],但仍依赖大量经过胚胎植入前非整倍体遗传学检测(preimplantationgenetictestingforaneuploidies,PGT-A)验证的样本。表2系统梳理了不同模型类型、核心架构、预测性能等。三.TLS结合的AI评分系统的临床效能验证与争议性ART以实现健康的活产为最终目标。研究人员基于TLS相关的AI模型开发出了AI评分系统,如KIDScore、iDAScore等[45-50]。这些胚胎评分系统在非PGT-A周期胚胎筛选、PGT-A后整倍体胚胎优选,以及单囊胚冷冻复苏移植等不同临床情境中,均展现出重要的辅助决策价值。1.TLS结合的AI评分系统的临床效能验证(1)非PGT-A周期中的胚胎筛选价值:早期胚胎活力评估系统(earlyembryoviabilityassessment,EEVA)是较早应用于临床的、基于时差成像的自动化胚胎评分系统,在非PGT-A周期可辅助第3天胚胎筛选,提高预测囊胚形成的准确性,但未显著提高持续妊娠率[51]。这可能与EEVA仅基于形态动力学参数,未能评估胚胎染色体倍性有关。除形态学评分外,胚胎染色体状态是决定移植结局的独立关键因素。有证据表明,移植非整倍体胚胎可显著降低临床妊娠率,并增加早期流产及产科并发症的风险[52-53]。目前,PGT-A仍是评估染色体整倍性的“金标准”。然而,该技术的滋养层活检操作具有侵入性,可能造成胚胎机械-化学损伤、发育潜能下降,且存在嵌合体干扰,导致假阳性/假阴性及可移植胚胎的过度废弃。时差成像结合形态动力学分析虽可部分区分整倍体与非整倍体胚胎,但其预测效能有限,尚不足以替代PGT-A[54-58]。因此,临床亟需一种无创、安全且准确性更高的染色体整倍性评估策略。在未行PGT-A的周期中,KIDScore™D5v3与iDAScore等评分系统被证实与胚胎整倍性和活产结局呈正相关[46,59]。KIDScore™D5v3评分每增加1分,活产的比值比在卵母细胞受赠组和自体卵非PGT-A组分别提升26%(OR=1.260,95%CI:1.166~1.362)与46.5%(OR=1.465,95%CI:1.298~1.653);按评分四分位分层时,活产率从27%梯度递增至60%。该评分与胚胎倍性状态密切相关,整倍体胚胎平均得分(5.4分)显著高于非整倍体(4.7分),且在多变量模型中其预测能力独立于传统形态学指标[60]。类似地,iDAScorev1.0能够区分胚胎倍性,整倍体囊胚的中位得分显著较高,联合培养天数与形态学等参数后对整倍性的预测AUC从0.612提升至0.688[61]。然而,在同一算法的外部验证队列中,iDAScorev1.0对整倍性的预测AUC仅0.60(95%CI:0.59~0.62),对活产的预测AUC为0.66(95%CI:0.62~0.69),与胚胎学家评分持平[62]。Barnes等[63]开发的STORK-A模型显示,其在预测非整倍体与整倍体胚胎时的准确率为69.3%(95%CI:66.9%~71.5%;AUC=0.761;阳性预测值76.1%;阴性预测值62.1%)。上述研究提示,评分模型可作为非侵入性的胚胎排序工具,为临床决策提供辅助依据。然而,其预测性能尚不足以替代PGT-A,且多数结论源于回顾性研究,仍需前瞻性试验进一步验证。PGT-A后的潜能再评估:尽管PGT-A筛选出了整倍体胚胎,但其内部的发育潜能仍存在差异,导致并非所有整倍体胚胎都能植入成功。评分模型有望在PGT-A的基础上,对整倍体胚胎进行二次无创筛选,进一步优化移植选择。研究结果显示,评分模型可在遗传学检测基础上提供附加的预后信息。在整倍体胚胎中,KIDScore™D5对于临床妊娠具有可接受的预测效能(AUC=0.704,95%CI:0.594~0.813),分级较高的胚胎(A级)的临床妊娠率、着床率和持续妊娠率均高于低分级胚胎(C级),且后者流产率较高[64]。Listorti等[65]研究进一步显示,KIDScore™D5v3.2评分能够以梯度形式区分整倍体、低比例嵌合体、高比例嵌合体及非整倍体胚胎,并且在相同的PGT-A类别内,不同评分档位的移植结局也存在梯度差异。iDAScorev2.0在PGT-A周期中虽未显著提升着床预测力,但与活产结局呈微弱但显著的正相关(OR=1.05,95%CI:1.00~1.10),反映其可能更倾向于捕捉反映胚胎“发育活力”的特征。当胚胎学家的选择与AI系统的推荐一致时,胚胎植入率显著提高(RR=1.14,P<0.001)。与传统形态学评估相比,AI评分在预测准确性上表现相当,但在形态相近的胚胎中能提供更具区分力的信息[59]。同一团队在同一队列的二次模拟显示,当面对≥2枚整倍体囊胚时,iDAScorev1.0与胚胎学家“等效选择”占52%,可提前带来活产的比例为15%,而延迟活产仅占3%,但29%的周期因最高分胚胎尚未移植无法评估,故作者再次呼吁用随机对照试验确认其真实临床价值[62]。(3)单囊胚冷冻复苏移植后的妊娠预测能力:在冻融单囊胚解冻移植中,KIDScore™D5评分与植入率及活产率呈正相关,其AUC高于传统形态学评估方法。对316个周期的分析发现,46.2%的周期中存在KIDScore™D5评分更高的未移植胚胎,提示该算法有优化移植顺序的可能[66]。iDAScorev1.0预测临床妊娠的AUC值高于Gardner标准,在<35岁组中差异更明显(0.716比0.640,P<0.05),且其预测性能不受囊胚冷冻日期及扩张程度的显著影响[67]。通过将训练集扩大15%并采用知识蒸馏与校准,iDAScorev2.0的预测效能即高于v1.0及Gardner分级,在<35岁(AUC=0.733,95%CI:0.695~0.771)与41~42岁组(AUC=0.745,95%CI:0.705~0.786)中持续妊娠率较高;且评分与临床结局的相关性更强,早期流产率随评分降低而上升。这些结果表明数据增强可能提升模型性能[68],尤其对非优质囊胚及高龄人群增益最为显著。表3总结了AI评分系统在不同胚胎选择临床场景中的效用分析。AI评分系统争议性:这些研究在年龄和病因方面(包括女性因素、男性因素、混合因素、社会因素等)具有一定多样性,但在种族多样性方面明显不足,绝大多数研究集中在欧洲和东亚人群,非洲人群、南亚人群、混合人种数据严重缺乏。尽管AI评分系统能够提升胚胎评估的效率,但其临床转化面临四大瓶颈:第一,可靠性不足,这些评分系统多为闭源的商业软件,其算法的具体细节和训练数据构成未完全公开,这为独立验证和理解其决策逻辑带来了挑战,且基于单中心数据训练的模型泛化能力差,仅有极少数为多中心研究[48-50];第二,临床证据不严谨,现有研究可能受选择偏倚影响,尚未证实其能显著改善妊娠结局[69];第三,成本效益不明,高昂的软硬件成本能否被临床收益抵消,尚缺乏正式的成本-效益分析;第四,系统整合困难,新设备的引入会干扰实验室现有工作流程。这些因素共同限制了AI评分系统的广泛部署[70]。对于类别不平衡,可以采用逆类别频率加权的方法[37]。或放弃简单过采样或欠采样,采用集成学习,让评分系统更关注稀缺的优质胚胎样本,并以更稳健的指标替代准确率进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论