26年AI疗效判读结果审核要点_第1页
26年AI疗效判读结果审核要点_第2页
26年AI疗效判读结果审核要点_第3页
26年AI疗效判读结果审核要点_第4页
26年AI疗效判读结果审核要点_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

26年AI疗效判读结果审核要点演讲人2026-04-29审核开展前的前置准备要点01AI疗效判读结果的过程审核核心要点02审核完成后的流程管理与溯源留痕要点03目录我作为国内较早开展AI临床应用质控的三级医院临床医学工程科主管技师,从事AI医学产品院内质控已经整整5年,亲眼看着AI疗效判读从科研阶段的小范围试用,到2025年第三批三类证获批后,2026年已经全面普及到肿瘤、影像、血液等多个临床科室,成为实体瘤、血液肿瘤等疾病疗效评价的常规辅助工具。但在这两年多的现场审核和质控调研中,我发现很多医疗机构对AI结果的审核还停留在“随便看看”的阶段:要么过度信任AI直接采信结果,要么完全排斥AI全部人工重判,要么审核抓不住核心风险,漏过了很多关键问题。去年我们省临床工程质控中心通报的3起和AI疗效判读相关的医疗不良事件,有2起都是因为审核环节缺失、要点把控不到位导致的。所以今天我结合我们院两年多的日常审核实践,以及走访11家不同级别医疗机构整理的质控经验,把当前AI疗效判读结果的审核要点系统梳理出来,供同行参考。接下来我会按照审核工作开展的时间逻辑,从准备阶段、实施阶段到收尾管理阶段,逐步拆解每个环节的核心审核要点。审核开展前的前置准备要点01审核开展前的前置准备要点很多一线医生觉得审核就是看完AI出的报告签字就行,不需要专门做准备,但我实际工作中发现,超过三成的AI结果错误,根源其实是审核前的基础工作没做到位,前置条件不满足的情况下开展审核,本质上就是无效审核。1对应AI模型的资质与适配性核验审核前第一步,必须先确认本次用来做疗效判读的AI模型本身是合规、适配的,这是所有审核工作的前提。1对应AI模型的资质与适配性核验1.1合规资质核验临床用于指导患者治疗决策的AI疗效判读产品,必须取得国家药品监督管理局对应的医疗器械注册证,且获批的产品分类和用途和实际使用场景一致。这里要特别提醒,部分厂商会以“临床科研合作”的名义推广未获批的模型,不少医疗机构为了赶新技术的热度,直接用这类未合规模型产出的结果指导临床,一旦出现医疗纠纷,整个医疗机构都要承担主要责任,这个风险绝对不能碰。我去年在一家地市级肿瘤医院调研时,就遇到他们用某高校实验室开发的未获批模型做常规免疫治疗疗效评价,结果错判了3例假性进展为进展,差点导致错误更换治疗方案,这个教训我印象非常深。1对应AI模型的资质与适配性核验1.2适应症适配性核验不同AI模型获批的适应症差异很大,哪怕都是实体瘤疗效判读,多数模型只获批了非小细胞肺癌、乳腺癌等几个常见癌种的靶病灶评价,不能跨适应症使用。比如只获批非小细胞肺癌肺部靶病灶判读的AI,不能直接用来做肝癌、淋巴瘤或者骨转移的疗效评价,AI训练数据集覆盖不到的癌种和病灶类型,准确率会下降30%以上,绝对不能图省事通用。1对应AI模型的资质与适配性核验1.3版本迭代验证核验AI模型会持续更新版本,每次大版本更新后,必须完成院内的一致性验证,通过院内临床新技术准入审批后才能放开使用,审核前必须确认当前使用的版本是已经完成验证的合规版本。我们院今年初更新某主流AI产品的v2.0版本时,就率先做了300例回顾性验证,发现其对直径小于1cm的小结节分割准确率比旧版本提升了12%,但对靠近胸膜的病灶分割错误率反而上升了4%,我们专门把这个问题反馈给厂商,同时在审核规则里新增了靠近胸膜病灶的强制复核要求,才放开临床使用。2原始输入数据的完整性与合规性校验AI疗效判读的准确性完全依赖输入数据的质量,数据不合格,AI输出的结果一定不合格,审核前必须先把好数据关。2原始输入数据的完整性与合规性校验2.1影像学数据质量校验目前九成以上的AI疗效判读基于影像学数据,首先要核对基线期和随访期的扫描参数一致性:包括扫描层厚、对比剂用量、扫描时相、扫描范围,只有参数一致才能保证测量结果可比。我遇到过不少病例,基线是胸部增强CT动脉期,随访做成了平扫,AI强行分割测量,结果病灶大小误差超过30%,完全失去了判读意义。此外还要核对影像质量,有没有严重的呼吸运动伪影、金属伪影、截断伪影,伪影严重覆盖病灶的,不能直接用AI判读结果。2原始输入数据的完整性与合规性校验2.2临床信息完整性校验完整的临床信息是审核的基础,必须提前确认患者的基线诊断、治疗方案、既往病史、肿瘤病史、近期的辅助检查结果都已经同步到阅片系统,缺关键信息的不能开展审核。比如免疫治疗的疗效判读,如果不知道患者有没有免疫相关不良反应史,根本没法区分真进展和假性进展,AI只看病灶大小,一定会错判。2原始输入数据的完整性与合规性校验2.3评价时间窗合规性校验临床疗效评价都有规范的时间窗要求,比如实体瘤系统治疗一般每2-3个周期评价一次,间隔时间通常在6-8周,超出时间窗范围的随访影像,哪怕AI判读结果准确,也不能反映方案的真实疗效,审核时要标记为不规范数据,提醒临床调整评价周期后重新判读。3审核人员与工具的前置准备3.1审核人员资质确认AI疗效判读结果的审核人员,必须具备对应专业的执业医师资质,且完成了对应AI产品的操作培训和考核,考核合格后方能上岗。我们院现在要求所有审核人员每年参加一次复训考核,不合格的暂停审核权限,避免因为不熟悉AI的特性漏过错误。3审核人员与工具的前置准备3.2审核工具校准用来复核AI测量结果的阅片系统,必须提前完成标尺校准、显示参数校准,我们要求阅片系统每季度校准一次,审核前如果发现标尺误差超过0.1mm,必须先校准再开展审核,保证人工复核的测量结果准确。做好所有前置准备工作后,我们才能进入正式的AI结果审核环节,这是整个审核流程的核心,直接决定了最终结果的准确性,我将从四个核心维度拆解过程审核的要点。AI疗效判读结果的过程审核核心要点021基础一致性审核基础一致性审核是指先核对AI处理的对象和匹配关系是否正确,这是很多人容易跳过的第一步,但也是最容易出低级错误的环节。1基础一致性审核1.1患者身份一致性核验首先要确认AI匹配的基线影像和随访影像属于同一个患者,我工作五年遇到过至少7例串病例的情况:两个同名的患者,系统排序的时候把A患者的随访影像匹配到B患者的基线下面,AI直接给出了疗效判读结果,如果审核不核对身份,直接签字,就会出大问题。所以第一步必须核对患者ID、住院号、姓名,确认基线和随访属于同一患者。1基础一致性审核1.2靶病灶匹配一致性核验AI会自动匹配基线标记的靶病灶,但如果患者随访体位变化、病灶形态变化,AI很容易匹配错病灶,比如基线靶病灶在右肺上叶,AI错匹配成右肺中叶的良性结节,最终判读结果完全错误。所以审核时必须逐个核对每个靶病灶的位置、形态,确认AI匹配的就是基线标记的靶病灶。1基础一致性审核1.3非靶病灶与新病灶识别确认AI模型大多以靶病灶评价为训练目标,对非靶病灶的变化、新病灶的识别敏感度普遍偏低,我统计过我们院的数据,AI对新病灶的漏报率大概在12%左右,所以审核时必须专门核对:非靶病灶有没有出现明显的进展,有没有AI漏报的新病灶,所有可疑的新病灶都要人工确认,不能只看AI的报结果。2AI输出结果的技术性审核技术性审核是指核对AI的分割、测量、分级过程是否符合技术规范,这是AI结果准确性的基础。2AI输出结果的技术性审核2.1靶病灶分割准确性审核分割是AI测量的基础,90%以上的AI结果错误都来自分割错误。我平均每个星期审100多例AI结果,大概有20%左右的病例存在不同程度的分割错误:最常见的是病灶和邻近肺不张、血管、炎性组织粘连时,AI把正常组织也纳入分割范围,导致病灶测大;或者病灶形态不规则,AI只分割了部分病灶,导致病灶测小。尤其是靠近纵隔、肺门、胸膜的病灶,分割错误率更高,所以审核时必须逐个病灶查看分割轮廓,有偏差的必须手动修正。2AI输出结果的技术性审核2.2测量结果准确性复核分割准确后还要核对测量结果,首先确认AI的测量方式符合所用评价标准的要求,比如RECIST1.1要求测量靶病灶的最长径,部分AI会误测短径,导致病灶缩小或增大的比例计算错误;其次要核对多个靶病灶的长径总和计算是否正确,有没有漏加靶病灶或者重复计算的情况。2AI输出结果的技术性审核2.3疗效分级规则符合性审核不同治疗方案、不同癌种对应的疗效评价标准不一样,比如免疫治疗通常用irRECIST,肝癌常用mRECIST,普通实体瘤用RECIST1.1,AI有没有选用正确的评价标准直接决定了分级结果是否正确。比如免疫治疗用普通RECIST1.1,一定会把假性进展错判为疾病进展,这个错误我遇到过不止一次,所以审核时必须先确认AI用的评价标准符合临床要求,再核对分级是否正确。3临床逻辑匹配性审核AI只会基于影像数据计算病灶变化,不会结合临床信息判断,所以临床逻辑匹配性审核是人工审核的核心价值所在,也是避免AI错判的关键环节。3临床逻辑匹配性审核3.1疗效变化与治疗方案的匹配性审核要判断AI给出的疗效变化是否符合治疗方案的规律,比如患者刚用1个周期靶向药,AI就判病灶缩小超过30%达到部分缓解,这种情况就要警惕是不是测量错误,因为多数靶向药不会这么快出现明显的病灶缩小;反过来,免疫治疗两个周期后病灶轻度增大,AI直接判进展,就要考虑是不是假性进展,结合患者的症状、肿瘤标志物变化综合判断,我上个月就遇到一例,患者用PD-1两个周期后原发病灶增大18%,周围出现磨玻璃影,AI判进展,但是患者没有症状,肿瘤标志物下降了40%,最终我们修正为疾病稳定,三个月后复查病灶确实缩小了,避免了错误换药。3临床逻辑匹配性审核3.2疗效变化与既往病史的匹配性审核要结合患者的既往病史判断AI结果是否合理,比如患者既往有陈旧性肺结核,随访时肺内出现新的结节影,AI直接报新病灶判进展,就要先区分是结核病灶还是转移灶,不能直接采信AI的结果。3临床逻辑匹配性审核3.3疗效变化与辅助检查结果的匹配性审核不能只看影像AI结果,还要结合肿瘤标志物、PET-CT、病理等其他辅助检查结果,比如AI判病灶缩小达到部分缓解,但是肿瘤标志物持续升高,就要警惕是不是存在AI没发现的远处转移,或者测量错误,需要进一步排查,不能直接采信结果。4特殊场景的专项复核要点有一些特殊场景,AI本身的准确率普遍偏低,必须作为重点专项复核,这是我们总结出来的红线要求。4特殊场景的专项复核要点4.1免疫治疗特殊反应复核所有免疫治疗的疗效判读结果都要加倍审核,重点排查AI有没有错判假性进展、分离应答、超进展这些特殊反应,这些情况AI只看病灶大小,错判率超过40%,必须人工结合临床信息综合判断。4特殊场景的专项复核要点4.2特殊部位与特殊类型病灶复核脑膜转移、骨转移、腹膜后转移、弥漫性浸润病灶这些特殊病灶,AI训练的样本量少,影像显示不清晰,分割准确率低,必须全部人工复核,不能直接采信AI结果。4特殊场景的专项复核要点4.3AI低置信度结果复核目前所有合规AI都会输出结果的置信度,置信度低于90%或者AI标记为“不确定”的结果,必须100%人工复核,这个是硬性要求,不能省略。完成过程审核后,不代表整个审核工作就结束了,审核后的分级管理、反馈闭环和溯源留痕,是管控风险、持续优化AI性能的关键,接下来我们梳理这部分的要点。审核完成后的流程管理与溯源留痕要点031审核结果的分级标记管理我们目前推行分级标记制度,不同级别的结果对应不同的处理方式,清晰明确,避免混乱。1审核结果的分级标记管理1.1直接采信级AI结果所有环节审核都符合要求,没有错误,标记为“审核通过,直接采信”,可以直接发送给临床医师用于临床决策。1审核结果的分级标记管理1.2修正采信级AI结果存在局部小错误,人工修正分割、测量或者分级后结果正确,标记为“人工修正后采信”,必须明确注明修正的位置和内容,方便后续溯源。1审核结果的分级标记管理1.3不采信重判级AI结果错误严重,或者原始数据不符合要求,标记为“不采信,需重新判读”,注明不采信的原因,退回判读流程重新处理。2错误结果的反馈闭环管理审核出来的AI错误不能改完就完了,要形成闭环,持续优化AI性能和审核规则。2错误结果的反馈闭环管理2.1错误的定期汇总分类我们要求每个月把所有审核出来的AI错误按类型汇总分类,统计不同错误类型的发生率,找出高频错误点,这个工作我们已经做了两年,对我们优化审核重点帮助非常大。2错误结果的反馈闭环管理2.2错误信息同步迭代把汇总的高频错误反馈给AI厂商,推动厂商在模型迭代时针对性优化,我们今年初反馈了17例靠近胸膜病灶的分割错误,厂商半年后更新版本,这类错误的发生率从17%降到了3%,效果非常明显。2错误结果的反馈闭环管理2.3不良事件按规定上报如果因为AI错误导致临床决策偏差,出现不良事件,要按规定上报院内质控和管理部门,及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论