2025年医疗人工智能年度报告

上传人：策*** IP属地：陕西上传时间：2026-03-02 格式：PPTX 页数：61 大小：15.79MB 积分：12 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

主编Editor

inChief陈

旭执行主编

ExecutiveEditor刘鸣谦

陈

瑶策划团队

PlanningTeam卫宁健康人工智能实验室卫宁健康市场部责任编辑AssignmentEditors洞察：刘鸣谦技术：许祥军研究：刘鸣谦案例：宋晓霞校对与传播

Proofreader&Communication朱雅文

刁

茁

陈

瑶设计

Designer唐雯婷智行有度DelegatingCurating2025医疗人工智能年度报告012025医疗人工智能年度报告2025年1月20

日，农历春节前九天，杭州的一家AI

创业公司发布了

DeepSeek-R1模型。训练成本不到600万

美元，

性能却逼近OpenAI

的o1。七天后，

DeepSeek

超

越ChatGPT登顶美国苹果应用商店免费榜首，下载量暴涨2000%。这个消息让英伟达单日蒸发

6000亿美元市值，美

国媒体称之为

AI领域的“斯普特尼克时刻”。DeepSeek时

刻证明了一件事：效率和算法创新可以打破算力军备竞赛。这样的中国式突破在2025年已经不再罕见。中国医疗

AI市场规模突破1,157亿元，全球范围内，AI辅助影像诊断

将诊断时间缩短了30%，脑卒中扫描分析准确率比专业人

员高出一倍。但更重要的转折不在这些数字，而在质变：AIAgent技术的逐步成熟，让医疗AI从工具变成了同事。AI系统开始主动分析、推理、决策，

甚至在某些场景下独立行

动。这是

AI从L2（平台化）走向L3（闭环管理）的重要一步。技术突破的同时，政策的土壤也在松动。2025年8月，国务院印发《深入实施“AI+”行动的意见》，明确要求在

辅助诊疗、健康管理等场景推进AI应用。11月，国家卫健委等五部门联合发布《关于促进和规范“人工智能+医疗卫

生”应用发展的实施意见》，提出到

2030年，二级以上医院普遍开展医学影像智能辅助诊断、临床决策智能辅助等应用，基层诊疗智能辅助实现全覆盖。截至2025年底，已有超过四百个医疗

模型完成备案，这个数字还在快速增长。监管框架从“如何限制”转向“如何赋能”，从“观望等待”转向“分类管理”。行业共识正在形成：AI不是要不要用

的问题，而是如何用好、如何用对的问题。卫宁健康作为这场变革的参与者，我们在过去一年中反复思考一个问题：技术突破与临床价值之间，究竟差着什么？我们的答案是实践。我们在病历内涵质控、智能临床决策、智能问答等方面都取得了突破，但更重要的是在约

200家医疗机构、超过300万例真实病例中验证了这些技术。当基层医生告诉我们，这个系统让我有了专科医生的底气时，我们知道AI技术找到了它真正的价值。数据很漂亮，准确率提升

20%，不良事件减少

20%。但真正让我们坚定的，是那些因为更早确诊、更精准治疗而改变命运的患者。这份报告是我们对2025年的系统性复盘，涵盖行业洞察、技术突破、产品迭代和临床实践。我们希望这份报告能帮大家看清2025年发生了什么，以及接下来会发生什么。决策者能看到AI技术的成熟度和应用价值，技术团队能了解实现路径和挑战，行业研究者能把握从技术可行到临床可信的演进逻辑。医疗AI的故事，2025年只是开了个头。技术会继续演进，从L3走向L4，从多模态走向全模态;应用会继续下沉，从三甲医院走向基层诊所，从辅助诊断走向全流程管理；监管会继续完善，从碎片化探索走向体系化治理。但不变的是初心，让技术服务于生命，让AI成就医者仁心。我们期待与行业同仁一起，把这个至关重要的判断，变成每一个患者都能感知到的现实。这是我们的使命，

也是这个时代赋予我们的责任。陈旭引言2025医疗人工智能年度报告02速读032025医疗人工智能年度报告从“模型能力”到“系统能力”：医院落地的评估视角当讨论从参数与榜单转向真实业务，决定可用性的往往是算力、数据、流程与质控的整体协同。报告提供一套分层视角，帮助判断项目处于探索期还是已具备可复制的运行能力。选型关注点：从“回答质量”转向“闭环与可追溯”医疗场景的风险不止于答错，更在于责任边界、推理可追溯性与系统融合能力不足导致的“难以闭环”。此处将选型时最应追问的问题整理为一组可执行的检查项。临床高频任务的约束：性能、延迟与可回滚性在一线工作流中，响应时延、交互成本与可回滚性经常比“更深的推理过程”更先决定能否落地。文中澄清了一个常见误区：能力更强的路线，未必适合作为高频默认配置。从对话系统到任务编排：智能体化的落地路径关键不在“能否对话”，而在于能否进行任务拆解、工具调用与跨系统协作，完成端到端的业务链条。文中厘清了概念性展示与工程化升级的边界，帮助判断智能体何时具备现实价值。可靠性来自工程化组件：解析、计算、证据链与权限文档解析、可验证计算、循证检索与引用、院内知识挂载与权限约束等工程环节，决定了输出能否被信任、复核与审计。这里把这些关键能力组织为一条可落地的实现路径。提示词优化的工程化方法：以“可执行流程”为目标当目标是行为一致性与结果可复核，提示词需要像流程一样被设计、评估与迭代。报告提出一种更稳健的改进框架：以反馈闭环驱动优化，而非依赖零散的经验试错。典型场景复盘：从“能用”到“被采纳”的关键差异从循证检索与可追溯结论生成，到护理评估的“预填—复核”，再到病程信息的时间轴化重组，这里用三个案例展示能力如何嵌入工作流并被一线采纳。重点不在宣传效果，而在具体环节减少了哪些不可避免的重复劳动。2025医疗人工智能年度报告04速读目录

Contents洞察08AI原生应用正在重构2025医疗秩序从工具拼接走向深度融合，AI原生应用正重塑医疗核心流程，开启

智能医疗新秩序。11数据中心、边端设备的全面建设浪潮算力基础是大语言模型建设的基础，“云边端”协同看模型建设变化。13人工智能正式迈入“智能体”时代技术和经济条件成熟，智能体进入大众视野。15行业动向：技术、场景与策略的三重演进从技术落到实际，从对于性能的执着转变为如何更好地应用。17WiNGPTin2025融合临床思维与

MoE架构，打造专业医疗AI工具链。19WiNGPT-3.5-turbo更懂医疗业务流程的高效AI助手。21演化式提示词优化一种低成本改进大语言模型应用的方法。25医疗知识工程实践-双渠道检索一种融合内外部医疗知识的检索技术实践27从工具到协作者WiNGPT

医疗智能体的技术实践。052025医疗人工智能年度报告技术31医院AI建设成熟度研究提出医院

AI建设成熟度模型，指引医疗智能从算法引进向系统工程进阶。34超越基准：大语言模型推理的经济学分析框架用经济学的思维分析人工智能应用的推理成本。37基于视觉-语言模型的全身肌肉骨骼病变辅助诊断研究突破单模态诊断局限，为肌肉骨骼疾病智能辅助诊断提供新方案。39内镜AI应用的新演化看AI新技术如何改善工作流程，提高医生工作效率。42MedEvidence，循证医疗智能体系统以循证为核心，实现院内临床任务全链条的智能规划与执行。46智能化护理评估用AI语义推理重塑护理评估流程，将护士的时间还给患者。51AI

驱动的患者病程速览WiNGPT驱动的AI速览自动整合重组多源临床数据，生成标准化全景画像，解决信息割裂难题，辅助高效决策。56参考文献2025医疗人工智能年度报告0654展望研究案例展望2025年，人工智能从大模型迈向智能体，技术迭代的浪潮，已不再局限于效率提升，而是尝试参与进工作场景的全流程之中。在这个背景下，尤其是医疗行业，在构建语言模型时不仅需要在考虑性能以及效率方面的需求，更重要的是不断更新提升模型的安全性、可解释性等能力。同时，从数据中心，到医院边端，算力作为基础设施正在提供更完善、更完整的算力支撑，成为医疗行业的技术底座。洞察072025医疗人工智能年度报告但对一线医务人员的即时价值有限，甚至被视为“监管工具”—指出错误，却未减轻负担。进入2025年，供需关系正逐步优化。《实施意见》明确提出“以场景为驱动，解决真实需求”，并将“人工智能+基层应用”置于首位。这与市场自发的转向高度契合，行业关注点从“模型懂多少医学知识”转向“模型能省多少时间”。医生不需要在事后处理质控报警，

而是在书写病历时即可获得实时辅助；护士不必频繁翻阅病史、医嘱、报告，而是由模型自动完成表单录入。《实施意见》强调的“推广医学影像智能诊断服务”和“基层医生智能辅助诊疗”，正是这一趋势的印证。唯有大语言模型成为“业务助手”，实现临床工作流的无感嵌入，才能真正消解技术抵触。从用户实践看，这一趋势也已显现。我们遴选了

11家WiNGPT

核心用户，整理其2025年应用数据（见图

1、图2）。结果显示：医疗场景应用数量持续增长，尤其是与临床效率直接相关的环节呈现爆发式增长。例如，

报告质控（包括报告一致性检查、内容纠错）

和病历生成（涵盖医生电子病历撰写、护理评估表单生成）

使用量显著攀升。这不仅反映出行业对“即时辅助”的强烈需求，也验证了场景驱动策略的有效性—医疗大语言模型的定位正从“监管工具”向“效率引擎”转变。过去两年，医疗AI赛道在产品迭代中不断叠加各类算法模型，试图用更多功能应对复杂临床场景。然而，

在实际应用中，但这种“功能堆砌”的方式效果有限。去年

10月发布的《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》（下称《实施意见》）

，行业开始从功能堆砌转向实际应用。这份文件不仅明确了合规底线，

更将竞争焦点从单一技术性能，转向与核心医疗业务的结合。这种转变，迫使底层技术架构完成范式升级。当通用问答无法满足临床要求时，

行业开始追求系统级效率：

AgenticAI（代理式AI）的自主协作能力与RAG（检索增强生成）

的精准知识定位，已从附加功能变成支撑复杂业务流程的核心组件。当AI

能够同时做到快速响应和专业准确，它将从诊疗边缘的辅助工具，变成嵌入分诊、决策和科研核心环节的智能系统。AI原生应用正在改变2025年的医疗格局。焦点转移：从“锦上添花”到“雪中送炭”2024年是医疗大语言模型场景化落地的“元年”，应用多集中在智能导诊、报告解读、病历质控等事后辅助环节，本质上是对既有结果的再加工。这类场景易落地、风险可控，AI原生应用正在重构医疗秩序宋晓霞2025医疗人工智能年度报告0810000000100000010000010000100010010Report

Medical

Record

Generation

Medical

Record

QC图2.效率类场景用户使用情况冷思考：DeepSeek现象与临床“慢思考”的悖论DeepSeek在2025年的亮相，

既彰显技术突破，

也引发深刻反思。深度推理模型的崛起曾令行业沸腾：凭借更强的推理能力和更优的算力成本，它被寄望于攻克复杂长链路问题。然而，

在真实临床场景中，这些理论优势并未转化为生产力。最大掣肘在于“耗时”。无论是高通量的门诊，还是住院管理、医技检查等场景，

临床流程都要求高效协同。深度推理模型动辄数十秒甚至更久的“思维链”延迟，不仅难以融入问诊节奏，也在表单录入、影像质控、病历书写等环节0图1.应用场景发展趋势本报告来源于三个皮匠报告站（）,由用户Id:87791下载,文档Id:1123892,下载日期:2026-02-1270605040302010092025医疗人工智能年度报告AI原生应用正在重构医疗秩序场景数量造成阻滞，直接影响整体诊疗效率。参数与成本的双重博弈亦难破解。小参数模型在复杂逻辑面前力有不逮，常出现推理断层；大参数模型虽能力达标，却因高昂的算力与推理成本，难以实现规模化部署。这一现象意味着：深度推理模型短期内难成高频临床场景的标配。它更适用于科研探索、疑难病例会诊（MDT）

或教学，而在高频、通用的临床业务中，

响应更快、针对性更强的轻量化模型将成为主流。技术基建化：RAG与Agentic

AI的身份蜕变如果说2024年，RAG（检索增强生成）和

AgenticAI（代理式AI）还是发布会上的创新焦点，那么到了

2025年，它们已逐步成为医疗AI产品的核心基础设施。RAG，从“加分项”变成“入场券”《实施意见》特别提出的“人工智能

+中医药”这一场景，正是RAG的价值凸显：通过挂载权威中医古籍与诊疗指南，大语言模型不仅能提供有据可依的辨证施治建议，还能有效规避“幻觉”，满足政策对“安全、可靠、可控”的要求。Agentic

AI，从“概念”到“实战”过去的大语言模型停留在“问答式”交互，而如今，它已逐渐具备复杂的任务规划能力，实现从“被动响应”到“主动执行”的转变，并向着政策规划中的“全链条集成服务”迈进。在科研场景，它能自动规划文献检索路径、提取数据并生成综述；在临床场景，它能打通系统孤岛，综合分析病历，主动抓取异常指标并生成趋势研判。这意味着医疗大语言模型开始具备"

数字助手"的能力，而不再只是“智能问答”。生态重塑：寻找全流程智能的“真实逻辑”技术和政策都在推进，但2025年的医疗AI仍面临几个主要挑战。首先是“赋能不替代”的责任边界。《实施意见》明确提出“人工智能赋能而不替代”，但在实践中仍需法律细化。当

AI介入临床决策甚至处方审核时，一旦发生纠纷，技术提供方与使用方的责任划分仍模糊，亟待司法解释跟进。其次是数据孤岛与全流程智能的博弈。多数医疗机构虽已建设临床数据中心（CDR）

，实现院内多源数据集中，但这并不意味着孤岛消除。CDR更多解决的是“汇聚”而非“实时互通”，异构系统接口壁垒和语义差异依然存在，院外健康监测数据也难以纳入。要让AgenticAI真正实现全流程智能，必须突破数据标准、接口开放和业务协同的多重障碍，这比单纯技术迭代更考验利益格局的重塑。再者，模板化病历背后的“真实性危机”。诚然，

电子病历和报告的模板化趋势在提高书写效率、保障合规性方面发挥了积极作用，帮助医生节省时间、减少遗漏，并确保病历符合监管要求。然而，

过度模板化正在形成一种“数字滤镜”，过滤掉患者最真实的临床特征，带来一系列隐患：·克隆问题：医生频繁复制前次记录或套用模板，导致不同患者、不同时间的病历高度同质化，

掩盖病情动态变化。·信息颗粒度缺失：模板预设的有限选项难以描述非典型症状，患者的主观感受和社会心理因素被忽略，甚至可能导致临床决策误导。·算法训练风险：同质化、偏差严重的数据进入AI模型后，产生“垃圾进，垃圾出”效应，干扰特征提取，甚至让模型最终学习到的是模板逻辑而非真实临床逻辑，导致预测和推荐出现系统性偏差。可以预见，医疗AI的竞争焦点将从“模型参数的军备竞赛”转向“场景颗粒度的深耕”。真正的胜负手，

不在于谁拥有更大的模型，而在于谁能以更低成本、更高效率，

率先打通政策所强调的“基层医疗”和“临床应用”场景，解决那些看似琐碎却决定落地成败的细节。在2026年的市场格局中，能够兼顾技术创新与业务协同、实现全流程智能的参与者，才可能占据核心生态位。2025医疗人工智能年度报告10AI原生应用正在重构医疗秩序硬件基础是大语言模型训练和部署的重要基础设施，

2025年我们看到了相关硬件设施建设的浪潮。医疗大语言模型基建2024-2025年，全球AI算力需求暴涨，背后全是大规模投资建设的数据中心。中国则在全国铺开“智算中心”。东数西算八大枢纽持续推进，“东数西算”工程：中国算力布局的核心战略。旨在将东部密集的算力需求，

有序引导到可再生能源更丰富的西部枢纽节点进行处理。虽然单个枢纽内的数据中心项目规模可能不如美国巨头那般庞大，但八大国家枢纽节点共同构成了一个巨大的算力网络。截至2025年8月，这些枢纽节点集聚了全国

60%

以上的新增算力，智能算力规模约占全国的80%。总体规模与单体项目：中国的智算总规模已达788EFLOPS（截至2025年6月底），位居全球第二。在建设上，

强调的是“万卡集群”的加速推进，即通过高速网络将成千上万的加速计算卡互联形成强大算力。数据中心、边端设备的全面建设浪潮刘鸣谦11

2025医疗人工智能年度报告国产化的浪潮和发展华为昇腾正加快迭代并以“超节点+集群”突破算力瓶颈；海光信息的深算三号已量产并全面适配主流大语言模型，新一代深算四号研发顺利；天数智芯则在通用

GPU领域实现量产并即将港股上市，研发投入持续加大。

华为在2025年全联接大会上公布了昇腾芯片未来三年的演进路线图，计划推出950、960和970三个系列，

分别在2026至2028年陆续上市。由于受限于先进制程，

华为选择通过“超节点+集群”的技术路径来满足快速增长的算力需求，打造万卡级超节点，力图在整体算力上超越国际竞争对手。昇腾芯片已成为华为AI战略的核心，支撑数据中心、服务器和AI训练平台的高性能计算。小型推训一体设备正在逐步进入医院场景，它们体积紧凑、部署灵活，

既能满足日常临床的推理需求，又能在院内完成一定规模的模型训练。相比传统依赖大型数据中心的方式，这类设备更贴近临床一线，确保数据的安全，有利于提升垂类模型的训练速度，降低训练成本。算力正在从“集中式”走向“普惠式”大语言模型的训练阶段高度依赖集中式算力，而在落地和使用阶段，真正的瓶颈来自算力能否被广泛获取。算力结构正在发生转移：集中资源仍然负责高强度训练，但应用侧开始转向更分散、更低门槛的供给方式，

由此形成云、边缘和终端协同运行的整体形态。随着桌面级AI计算设备的出现，以及国产

GPU服务器价格下降、软件生态逐步稳定，

本地推理和小规模参数调整已经不再遥不可及。相关能力正在从少数大型机构扩散到更广泛的开发者和企业群体。与此同时，AI正加速进入工业化阶段。模型训练流程被标准化并持续优化，算力资源实现统一调度，数据管理逐步资产化应用则以产品化方式持续迭代。行业重心正在从单点技术突破转向规模化、可复制的生产体系，AI开始以工业系统的方式运转。院内有限资源的利用、微调在医疗大语言模型临床落地过程中，医院常面临算力有限、数据隐私敏感等约束。依托国产化硬件适配与轻量化微调方案，高效利用现有资源完成模型本地化优化，推动普惠式算力落地。为此我们专门研发了WiNGPT

Factory训练平台，深度适配华为昇腾910B、英伟达A800等国产化及主流算力设备，可充分利用院内有限算力与小样本数据开展模型本地化微调。平台支持全流程可视化操作，

涵盖JSON格式标注数据上传、模型与训练参数（如

LoRA算法、学习率等）可视化配置、训练过程中损失曲线与算力使用率实时监控，

以及训练完成后模型合并导出与院内系统直接部署等核心功能，无需复杂代码开发，即可让模型快速适配本院诊疗规范与质控需求，在保障数据隐私安全的同时，实现医疗大语言模型的个性化优化与临床落地。随着“云—边—端”协同体系的成熟、国产算力体系的加速完善，

以及小型推训一体设备在医院的快速落地，医疗大语言模型的基础设施正在从“能不能用”走向“用得好、用得广”。算力不再是少数机构的稀缺资源，

而正逐步成为医疗行业的公共底座。未来，

随着算力普惠化、数据资产化和模型工业化的持续推进，医疗AI将真正融入临床工作流程，推动从辅助决策到智能诊疗的变革，进入医疗智能化的新阶段。数据中心、边端设备的全面建设浪潮2025医疗人工智能年度报告12人工智能正式迈入“智能体”时代张隽诚2025年，智能体（agent）不再只是实验室里的概念验证，已经进入企业的实际业务流程。AI正从"被动响应工具"转向"可执行、可调度的系统组件

"，智能体是这一转变的主要载体。为什么智能体在2025年成为主流话题截至2025

年5月，国内累计发布医疗大语言模型

288个，而其中光

2025年新增的就多达

133个，占据接近一半的数量；截至

2025

年

11月，国家互联网信息办公室共通过了2261个深度合成服务算法的备案。同时推理成本在过去一年暴跌。

H100GPU

云租赁价格从2024

年底的约8

美元/小时降到2025年底的2.85-3.50美元/小时，降幅超过60%。DeepSeek

的稀疏注意力架构让长上下文推理成本降低6-7倍，32Ktoken

的输入成本从0.60

美元/百万

token降到0.10美元。学术研究显示，

算法效率每年提升约3倍，加上硬件降价，综合推理成本正以每年5-10倍的速度下降。高能力模型现在可以持续、低成本地运行了。应用层面，

企业对AI

的使用已从试水转向常态化。根据

McKinsey2025年全球AI调研报告，78-88%的组织已在至少一个业务领域使用AI，38%

已将AI从试点扩展到生产环境。企业内部已有基础的数据、流程和工程经验，可以支撑更复杂的agent系统部署。这些都表明技术和经济条件同时成熟了。132025

医疗人工智能年度报告编程领域的爆发：智能体最先跑通的通用场景如果要找一个“2025年度AI智能体规模化落地”的标杆案例，答案是编程。GitHubCopilot在2025年7月突破2000万用户，90%的财富

100强企业在使用，活跃用户平均

46%

的代码由AI生成。

Claude

Code

更夸张—2025

年5

月正式发布，6个月后年化收入达到10亿美元，创下AI产品收入增长的历史纪录。Cursor也有100万日活用户，ARR超过5亿美元。2025年2月，AndrejKarpathy提出了“VibeCoding”这个概念：开发者不再逐行写代码，而是用自然语言描述需求，让AI生成代码，自己只做指导、测试和迭代。他的原话是：

“我只是看东西、说东西、跑东西、复制粘贴，

然后它基本就能工作。”为什么编程最先跑通？因为它完美符合“可回滚错误”的条件：代码错了可以改，改了可以测，测了不对可以回滚。整个反馈周期以秒计算。开发者能立刻验证AI

的输出是否正确，不需要等待外部审批或长期观察。这种风险结构让企业愿意快速采用。任务规则清晰、错误成本可控、结果可人工复核—编程把这三个条件都满足了。医疗领域的反差：讨论很热，落地很慢医疗也有智能体应用，试点数量正在上升。但数据显示出明显的限制。采用率差距明显：企业AI采用率已达78-88%，而医疗领域特定AI工具的部署率仅22%。虽然比2024年增长了7倍，但绝对值仍然很低。医院用户、管理人员的态度特别值得注意。多项系统综述指出，阻碍规模化应用的关键不是模型准确率，而是可解释性、责任归属、长期临床证据和合规路径。美国医学委员会联合会（FSMB）2024年明确表态：AI辅助医疗决策出错时，

临床医生仍需承担法律责任。这让医生在使用AI

时格外谨慎。2025

年的这种反差反映了一个更深层的规律：AI智能体的落地速度，取决于错误的可逆性，而不是技术的先进性。编程领域率先兑现效率红利，是因为它天然具备"快速试错、快速修正"的条件。医疗领域的谨慎不是落后，而是对“不可逆错误”的合理敬畏。短期内，医疗智能体的突破不在于模型更大、准确率更高，而在于解决三个问题：

出错了谁负责？决策过程能否解释？长期效果有没有证据？把合规、验证和责任机制设计进系统里，才是医疗

AI真正的护城河。2025医疗人工智能年度报告14人工智能正式迈入“智能体”时代行业动向：技术、场景与策略的三重演进张隽诚应用场景从“单点临床辅助”向“全链条产业赋能”系统扩张企业的价值定位正经历系统性的拓展，不再局限于提升诊断环节的效率，而是让产品融入医生的日常工作中去。发展路径呈现双向延伸：纵向覆盖预防、诊断、治疗、康复及

慢病管理的全生命周期健康管理；横向则融入医保、保险、

医药研发等更广阔的产业生态，从“更快，更强”转变为“更

好用”。这一变化意味着医疗AI正从提升单一场景效率的工具，演变为重构医疗健康服务价值链的重要推动力。技术底座从“专用工具”向“多模态领域大模型”

全面跃迁行业技术发展的主线已从开发解决特定任务的孤立模型，转变为构建能够深度理解与融合文本、影像、检验报告

等多维信息的自主领域大模型。这一根本性转变，旨在让

AI能应对使用时的不同场景，使其从特定任务的工具变为工作流程中的能力。通过采用

MoE、思维链、RAG等先进架构与训练方法，行业正着力提升模型的效率、精准度与可

解释性。落地策略从“中心化标杆”向“可信普惠化落地”深度演进实现规模化应用的关键，已转变为同时攻克“建立信任”与“实现普惠”两大瓶颈。在可信层面，

通过技术创新确保诊断过程可追溯、可解释，

并积极获取权威医疗器械认证，构建临床与监管信任的基础。在普惠层面，

借助模型轻量化、边缘计算等技术降低部署门槛，推动AI能力下沉至资源稀缺场景，成为行业的共同路径。蚂蚁阿福的实践体现了这一平衡：其通过“AI+专业医疗资源”的协同架构，连接超30万名医生以构建“AI辅助、人工保障”的安全机制；同时，其服务覆盖全国超1500万月活用户，其中

55%来自三线及以下城市，这正是技术普惠价值的生动写照。信任仍旧是现阶段医疗

AI落地最大的挑战之一尽管AI的发展有目共睹，在医疗方面的普及率也快速提升，但无论是医生还是患者，都对

存在不同程度的担忧，这些担忧主要集中在结论错误与数据安全两大问题上。在结论错误方面，风险主要源于数据的质量和

AI的“黑箱”特性。如果训练数据存在偏见或不足，AI就可能产生不准确甚至误导性的诊断。同时，

其复杂的决策过程往往无法解释，这使得医生难以复核和信任。在数据安全方面，医疗AI系统处理着大量敏感健康信息，极易成为网络攻击和数据泄露的目标。一旦安全失守，不仅会造成严重的患者隐私侵害，被污染的数据还可能进一步导致AI模型产生更多错误结论。因此，这一问题已成为全球各国政策中亟待解决的重点。结论可靠性和数据安全仍是主要挑战。行业正在尝试通过多方协同治理、技术改进和人机协同模式来解决这些问题，但效果还需要时间验证。152025

医疗人工智能年度报告2025年，医疗大语言模型开始从聊天机器人走向临床。面对通用大模型在医疗场景中幻觉率高、推理不可靠、部署成本高等痛点，

卫宁健康以临床思维注入、高效推理架构适配和垂直工具链建设为核心策略，

系统性推进WiNGPT系列模型的持续演进。年初受

DeepSeek-R1等模型验证的“思维链”技术启发，WiNGPT-3.0率先融合循证医学路径与强化学习，构建具备医生式推理能力的医疗大语言模型；随后，为满足医院对低延迟、高精度、可私有化部署的需求，WiNGPT-3.5采用

MoE（Mixture

Experts）

架构，实现性能与效率的双重优化；同时，我们开发了

DocLoom、医学计算器等工具，让WiNGPT能在临床真正用起来。这一章按"遇到什么问题—怎么解决—效果如何"的顺序，讲WiNGPT这一年的技术演进。技术2025医疗人工智能年度报告16WiNGPTin2025为何需要“临床思维”2025年初，

DeepSeek-R1等模型在数学与代码任务中展现出思维链（CoT）对复杂推理的显著提升作用，医疗AI圈很快注意到了这个方向。然而，

医疗推理不同于通用逻辑：它不仅要求步骤清晰，更需基于循证医学证据、遵循临床指南路径，并在不确定性中做出权衡。通用大语言模型即使能生成看似合理的回答，其“黑箱”推理常导致高幻觉率，难以被医生信任。为此，

我们将“临床思维”确立为核心设计原则，并于

2025年

月发布了

WiNGPT-3.0，其核心是将“临床思维链”结构化、可训练化。具体来说，我们构建了一个“诊断工作流模拟”环境，并结合强化学习进行训练，使模型能172025

医疗人工智能年度报告够在模拟的临床路径中逐步推理、鉴别诊断并权衡决策—如同医生在实际诊疗中的思考过程。这种设计不仅显著提升了模型在

MedQA-USMLE等权威基准上的表现，更使其生成出的推理路径具备临床逻辑与可解释性。为何选择MoE架构尽管WiNGPT-3.0在推理质量上取得突破，但医院场景对响应速度、算力成本与数据安全提出了更高要求。传统稠密大语言模型（如

32B参数）在本地部署时需多张高端GPU，难以在基层医院普及。与此同时，

MoE架构因其“按需激活专家子网络”的特性，可在保持高性能的同时大幅降低推理计算量，已成为行业发展新方向。所以我们推出了WiNGPT-3.5，用

MoE架构。医疗知识容量和复杂任务处理能力没降，但推理更快、部署门槛更低。配合“自进化数据合成框架”，该模型能持续优化在复杂问答、报告审查等场景下的表现，为医院提供了一套既专业高效，又可落地部署的AI解决方案。为何打造专业工具链医疗AI从模型能力转化为临床价值，不仅需要强大的核心引擎，更离不开与专业场景深度匹配的工具链。我们开发了多项工具，解决从数据到决策的落地问题。首先，

针对海量非结构化医疗文档的解析难题，我们开源了

WiNGPT-DocLoom，它专为医疗

PDF的复杂版式（如多栏、嵌套表格、化学式）优化，显著提升了病历、文献等资料的结构化提取准确率，为上层应用奠定了可靠的数据基础。其次，为弥补大语言模型在精确计算上的固有局限，我们基于MCP协议开源了医学计算器工具集，覆盖

11个临床领域的56个权威计算公式（如

MELD-Na评分），使模型能通过标准化接口调用确保计算结果的准确性与可验证性。再者是MedEvidence循证医疗智能体。它不只是问答，而是一个能整合院内私有知识、历史病例和临床指南的框架。在诊断支持、治疗推荐等场景，

它给出的建议可溯源、可操作。这些工具共同构成了从数据解析、精确计算到智能决策的工具链，帮助了WiNGPT在落地过程中平衡精准与效率。总之，围绕大语言模型在垂直领域应用面临的知识深度、执行可靠性与任务精准度等核心挑战，

我们构建了一套涵盖能力构建、应用优化与自主执行的多层次技术体系。该体系通过融合领域模型训练、知识增强、智能体协同等关键技术，形成了从专业基础夯实到复杂任务自主完成的完整技术栈。最终，系统化地提升了

AI在专业场景中的准确性、可靠性及实用性，为深度的行业智能化应用提供了坚实支撑。MedEvidence+知识库Agent语料库（医疗书籍、指南、医疗+通用指令集数据）WiNGPT-3.0WiNGPT-3.5多角色协作（指令合成、升级）数据清洗（文字解析、清洗）DocLoom（PDF

解析工具）医疗计算器Agent2025医疗人工智能年度报告18指令筛选训练数据医疗产品WiNGPT

in2025后训练基于这些关键信息，我们进一步对素材进行时间筛选、去重处理，并剔除解析质量较低的文档，从而精准遴选出最新版本、识别准确度高的医学教科书、临床诊疗指南及权威期刊文献，形成核心学习材料。在此基础上，

我们通过细致的数据清洗与标准化处理，纠正文本错误、统一格式规范、清除无关冗余内容，确保AI所学均为洁净的准确医学知识。这套经过去芜存菁、严选优编的学习资料，

为模型奠定了坚实而系统的专业基础，显著降低了因知识缺失或噪声干扰导致的错误回答与“幻觉”生成，为后续开展高质量、可信赖的专业化训练提供了有力支撑。自适应指令数据合成为解决传统医疗指令数据人工构建方法存在的效率低、覆盖窄等瓶颈，我们设计了一种基于多角色协同与迭代进化的自适应指令数据合成框架。该框架通过系统化的角色分工与闭环优化机制，实现对目标模型能力边界的主动探测与针对性增强，其核心包含四个关键智能角色：难题生成器负责构造高难度任务以挑战模型现有能力；能力评估器（由目标模型WiNGPT担任）尝试解答并暴露其薄弱环节；参考答案求解器则为这些难题生成高质量解答；最后由质量验证器对输出进行严格评估与筛选。整个系统遵循“生成-评估-WiNGPT-3.0

的突破在临床思维，WiNGPT-3.5-turbo则更理解业务流程。这不是功能叠加，

而是底层架构、训练数据、训练策略都改了。结果是它从一个问答引擎，变成了能主动规划、协同、执行复杂任务的流程引擎。技术上有几个变化：领域知识增强与自适应数据合成通用模型在医疗专业领域常面临知识深度有限、时效滞后，

以及高质量指令数据覆盖不足、构建效率低等挑战。为此，我们提出一套系统化解决方案，通过构建权威医疗知识库与自适应指令数据合成框架双轮驱动，夯实模型专业知识基础，并实现对其能力短板的精准强化。领域知识的更新为克服通用模型医学知识深度与时效性的不足，我们系统构建了专项医疗知识库。面对来源多样、格式不一的大量图片与PDF素材，我们首先借助DocLoom进行高效解析，提取文本内容；随后结合规则与

WiNGPT模型，对文本进行多层次关键信息抽取，包括文档名称、发布时间、内容摘要、核心关键词，

并自动标识格式错误、乱码等质量问题。WiNGPT-3.5-turbo许祥军192025

医疗人工智能年度报告筛选-增强”的闭环工作流，自动识别模型短板并产出一系列高质量的指令-答案对。基于这一框架，我们部署了多条并行的数据合成管线以全方位强化模型能力：对开源指令进行复杂度升级，训练模型澄清与边界判断能力；深度利用医疗教科书、文献等结构化文本，自动合成知识问答、阅读理解等任务；模拟真实场景构建多轮医患对话、报告一致性分析与文本纠错任务，

以提升专业逻辑与细节处理能力；同时从真实用户交互的错误案例中挖掘学习样本，将失败转化为高质量训练数据。这套自我迭代的机制不仅大幅提升了优质训练数据的生产效率，更实现了对模型短板的精准强化，使其在指令遵循与复杂推理上的专业能力全面超越了依赖人工构建数据的传统版本。后训练优化策略混合训练范式为解决传统两阶段训练方案存在的不足，我们采用了将领域继续预训练与通用指令微调融合在单一阶段的混合训练范式。传统的“先领域预训练、后指令微调”流程存在两大痛点：其一，纯粹的领域预训练极易导致模型遗忘原有的通用知识与能力；其二，为缓解这种遗忘而专门构建大规模的通用预训练语料，在实践中成本高昂且素材有限。我们的方法直接在一个训练过程中，将领域纯文本数据集（如医疗论文、临床指南）

与多样化的通用指令数据集，按预设比例在批次层面进行动态混合。这一策略不仅有效缓解了灾难性遗忘，使模型在深度吸收专业知识的同时，依然能保持作为通用助手的流畅对话与响应能力，还简化了整体训练流程。它避免了多阶段训练带来的复杂切换、中间检查点管理与额外的调度开销，从而显著提升了训练效率与资源利用率。两阶段对齐机制在模型训练的关键对齐阶段，提供有效反馈至关重要。我们设计了一套两阶段评价优化体系，兼顾了训练效率与最终效果的稳定性：第一阶段：连续评分引导。此阶段使用可输出

0-100连续分数的奖励模型，从回答准确性、信息真实度、语言通顺度、逻辑一致性等多个维度对模型输出进行细致评价。这种精细的分数反馈能帮助模型快速理解优化方向，实现基础表现的有效提升。第二阶段：严格二元评判。在模型具备一定基础后，我们切换至仅输出“通过/不通过”的严格奖励模型。这模拟了实际医疗等高要求场景中对回答合规性与安全性的绝对性判断，对模型进行更苛刻的校准。同时，

在此阶段我们引入长度惩罚机制，

以防止模型通过无意义地延长回复来“投机取巧”；并大幅增加

Rollout（探索）数量，通过更多次的采样-评估循环，提升策略优化的样本利用率和稳定性，确保模型行为可靠收敛。该机制遵循“先快速改进，后精细对齐”的训练路径，在保持训练稳定的同时，显著提升了模型在专业场景中的可靠性与合规性。总结WiNGPT训练体系是一套针对医疗场景深度优化的系统化方案：通过构建高质量专业知识库夯实模型基础，利用多角色自进化框架高效生成训练数据，并借助混合训练与两阶段奖励机制实现稳定、精准的模型对齐。整个流程层层递进、闭环优化，不仅能构建出专业知识扎实、回答可靠且符合医疗规范的AI助手，也为其他垂直领域大语言模型的训练与迭代提供了完整、可复用的方法论，

在显著降低对人工标注依赖的同时，持续推动模型性能向更高标准迈进。2025医疗人工智能年度报告20WiNGPT-3.5-turbo在大语言模型实际应用中，尽管大语言模型具备通用能力，但要在特定场景将模型的能力发挥到最高，一个普遍且高效的方法是提示词工程。我们在过去一年WiNGPT的实践中，摸索出一套"演化式提示词优化"方法—不靠提示工程师的直觉反复试错，而是引入类似遗传进化的迭代机制，让提示词自己"长"出来。在医学影像报告质控任务中，这套方法把准确率从75%提升到80%

以上。核心思想在临床质控业务中，行为的精确性远重于语言的流畅性。传统的提示词工程往往过度追求自然语言的通顺，

却忽略了严格的逻辑约束。例如，通用模型可能会生成“肺纹理走向自然”这类表达通顺但信息密度低的描述；而我们的系统则会强制检查“左肺上叶尖段”等解剖学定位是否准确，即首先确保逻辑严谨与信息完备。为此我们将提示词定义为一套可执行的“数字SOP（标准作业程序）”。系统引导AI严格遵循以下结构化流程：全景扫描：识别文本中所有潜在的异常描述。规则过滤：依据预设的医学豁免条款（如“术后改变”）排除假阳性。事实核查：优先校验左右方位、数值单位等核心事实的准确性。标准输出：严格按照

HIS系统要求，输出无歧义的结构化结果。演化式提示词优化：

一种低成本改进大语言模型应用表现的方法WiNGPTTeam212025医疗人工智能年度报告一个工程化的演化流程为实现上述标准，我们设计了一个基于遗传算法的工程化迭代流程来优化提示词。每一轮迭代均包含以下步骤：·选择:保留上一代中表现最优的一组提示词（Top-K），将其作为新一代的“父本”。·交叉:

组合“行为库”（可复用的规则集）

、高分父本和真实样例中的元素，生成新的候选提示词。·变异:在生成新候选时引入规则组合或表达方式的随机变体，以增加种群多样性，从而探索更优的解空间。·适应度评估:在标准化的测试集上，使用明确的评分函数（如分类准确率、结构遵循度）

来评估每个候选提示词的表现。·精英保留:将每一轮排名前

的最优提示词直接保留到下一代，以确保算法的整体性能不退化。此流程并非严格意义上的遗传算法，而是演化思想在工程化上的应用。它通过持续迭代逼近最优解，

而非依赖单次调优成功，其核心优势在于更强的稳健性。演化式提示词优化：一种低成本改进大语言模型应用表现的方法2025医疗人工智能年度报告22相关工作现有的SOTA（State-of-the-Art）

方案虽然能提升模型性能，但通常伴随高昂成本。一类方案增加了推理开销。例如，测试时增强（Test-

TimeAugmentation,TTA）

和自洽性（Self-Consistency）方法通过对单一输入进行多次提问并汇总结果来提升鲁棒性。类似地，分步推理或层次化推理框架（Hierarchical

Reasoning）通过动态增加计算步骤来解决复杂问题。这些方法将一次请求变为多次模型调用，显著增加了单次推理的计算成本与延迟。另一类方案则引入了训练成本。例如，以软提示调优（Soft

PromptTuning）

为代表的参数高效微调技术，通过训练一个小型模块来适配大语言模型行为。这类技术虽避免了对整个模型微调，但仍需独立的训练阶段，包括准备高质量标注数据、投入计算资源以及具备相应的模型训练专业知识。相比之下，本文提出的演化式优化方法提供了一条低成本的折中路径。该方法将优化的焦点完全置于提示文本本身，避免了推理时的高昂开销与独立的训练过程。因此，

该方法能在“零训练成本”和“单次推理成本”的前提下，系统性地提升模型表现。利用错误分析建立反馈循环：我们将模型的错误输出视为结构化反馈，而非随机噪音，并通过两个关键步骤将失败经验转化为系统知识：将错误模式抽象为规则：将典型错误（如前后矛盾、信息遗漏）归纳为可复用的“行为条目”，并沉淀到“行为库”中。对非标准输出进行容错解析：在评估阶段首先解析模型的非标准格式输出，

以还原其真实意图。此举将模型的逻辑错误与格式错误分离，使评分和反馈更为精确。当一个失败案例被转化为可明确定义的“行为”后，下一代提示词就能系统性地“规避”同类错误。这种对模型“能力层”的修正，比单纯堆叠样本的“记忆层”修正更为高效。关键工程原则为确保该方法的有效实施，我们遵循以下工程原则：优先定义行为，再优化语言：首先以清单形式明确“做什么”（行为），而后优化“怎么说”（语言表达）。坚持轻量化评分：评分标准应简单、可复核、可追溯，优先确保能准确判断“对”与“错”。保证数据覆盖度：评估样本必须能代表主流场景和高风险边界场景，以避免评估结果产生偏差。维护Top-K候选池：

不依赖单一的“最优”提示词，而是维护一个“冠军池”，

以确保在不同数据分布下都能提供更稳健的性能。演化式提示词优化：一种低成本改进大语言模型应用表现的方法232025医疗人工智能年度报告案例我们在医学影像报告的质控任务中验证了这套方法。质控过程包含一些可泛化的行为，比如

"在一项医学影像报告的质控任务中，我们验证了该方法。该领域的质控过程包含可泛化的行为，如“事实与结论对齐”和“两阶段审查”（先识别问题，再应用豁免规则）。这些行为规则具备很强的迁移性：将其应用于其他文本审查任务（如法务合规、内容审核）

时，通常只需替换具体样例和风险点清单，核心逻辑几乎无需调整。通过演化式优化，

最终的提示词相比初始版本，在质控任务上的准确率提高了超过5%

。总结我们认为提示词工程应被视为一个系统性的演进过程，而非一次性的灵感创作。通过为模型设定明确目标（评分函数）、提供清晰的指令（行为库）、设立持续的考核机制（迭代评估），并将失败经验转化为可复用的知识（错误反馈），我们可以系统性地提升大语言模型的稳定性和可解释性。当一个组织建立起自己的“行为库”、“最佳提示词池”和“失败样例墙”时，模型的可靠性便能在这些高度结构化、以人为本的工程流程中得到实质性的提升。演化式提示词优化：一种低成本改进大语言模型应用表现的方法2025医疗人工智能年度报告24医疗知识工程实践-双渠道检索虞明星系统核心架构分为内部知识检索和外部联网检索两大模块，其中内部知识检索包含构建和检索两阶段：·构建阶段有四个环节：文档筛选采集、文本解析预处理、文本结构化处理、数据入库。结构化处理要做三件事：生成摘要、切片加工、构建医疗知识图谱；·检索阶段用多级混合召回策略，融合三种召回方式：摘要文档级、向量切片级、知识图谱多跳关联切片。经过重排序和上下文扩展后处理，实现精准检索。外

部

联

网检

索

主

要借

助

百

度、Bing、Google

及PubMed

等搜索引擎的

API

接口，或通过定向爬取网页信息，精确捕获医疗相关的实时知识。并且使用docker发布服务，接口支持

HTTP和

MCP双服务协议供WiNGPT调用。医疗知识本身具有极强的专业壁垒与高度敏感的隐私属性，且外部医学证据处于快速迭代更新之中，

由此导致医疗领域大语言模型在医疗场景中普遍存在知识深度不足、事实准确性欠缺、更新严重滞后等问题。这些缺陷已成为阻碍大语言模型在真实临床场景下实现可信赖落地的核心瓶颈之一，为此我们采用以内部医疗知识库为核心、外部联网检索为辅助的双渠道知识获取架构，通过自建高质量、可控的内部医疗知识库作为主要信息来源，同时辅以外部实时检索机制，有效平衡了获取知识的私密性、准确性与时效性三大核心需求。双渠道检索机制252025医疗人工智能年度报告内部知识检索外部联网检索知识检索层docker-compose部署多级混合召回预处理

实验评测为评估内部知识检索的准确率，我们从已采集文档中随机抽取600篇（约占总样本的20%）作为评估样本。对评估样本进行切块、生成候选问题及对候选问题进行筛选得到最终测试集。基于上述测试集，我们针对切片相似度召回

+重排序+上下文扩展（策略

1）与多级混合召回

+重排序+上下文扩展（策略2）两种检索策略，完成了

Top-10文本块召回性能的量化评估，评估指标为召回率

@K（recall@K），该指标表示在前K个召回结果中至少包含正确答案的比例。实验结果显示在各召回率下，我们的策略2的召回率均显著优于传统策略1，在Top-3召回场景中，策略2与策略1的切片召回率分别达到90.67%与78.31%，凸显出策略2更优的召回性能。随着候选样本数量的增加，

两种策略的召回率均呈现小幅上升趋势，但增长幅度逐步趋缓；

当候选数量提升至Top-10

时，策略2与策略1

的召回率最终分别达到94.79%与86.12%。总结和展望我们以内外部知识双渠道获取为核心，构建了“静态深度+动态广度”的知识支撑体系，实现了医疗大语言模型从“通用化”到“专业化、定制化、时效化”的跨越。保障医疗知识获取的质量与效率，助力

WiNGPT在医疗行业的深层次的应用，最终助力医疗行业高质量发展。目前我们把该应用已作为智能体项目

Med-evidence

的核心组件，深度内嵌于公司最新发布的WiNBOT医生专属AI工作站并已在多家合作医院试点。实施服务层知识层图2.召回率(recall@k)折线图调用方式

HTTP&

MCP图1.双渠道检索架构示意图交互模式

SSE&JSON2025医疗人工智能年度报告26搜索引擎API医疗知识工程实践-双渠道检索上下文扩张重排序

文档采集网页爬虫结构化互联网入库2025年，人工智能正从“单体智能”迈向“智能体（Agent）协同生态”的新阶段。全球科技界已形成共识：真正可用的行业智能，不在于模型“知道多少”，而在于能否自主规划、调用工具、协同执行。以多智能体协作(A2A)、标准化交互协议（

MCP）和模块化技能体系（Skills）为代表的

Agent2025技术范式，正在重塑AI

的落地方式

—将通用能力转化为可组合、可审计、可嵌入业务流程的“行动力”。作为医疗大语言模型，WiNGPT已在医疗知识问答、专业文本生成、临床指南解读等场景形成核心优势，其核心价值在于精准沉淀医疗领域知识、高效衔接人机信息交互。但医疗科研与临床实践的核心诉求，是“主动解决复杂实操任务”

—如跨库循证检索与证据整合、多学科会诊协同、科研方案全流程推进等，单纯的WiNGPT因缺乏自主任务规划、工具调用及动态协作能力，只能作为“被动响应工具”提供文本建议，无法形成从需求到落地的完整闭环。基于此，我们以

WiNGPT为核心认知引擎，深度融合Agent架构理念构建专属医疗智能体系统，将大语言模型的“知识能力”与智能体的“自主执行能力”深度融合，WiNGPT不再仅是“能说会答”的知识工具，而是成长为深度嵌入临床与科研工作流的“可信协作者”，真正实现从

“工具”到“协作者”的范式升级。从工具到协作者：WiNGPT医疗智能体的技术实践洪平272025医疗人工智能年度报告我们并未单纯复用ReAct、MCP、A2A等通用技术框架，而是以WiNGPT的医疗能力为核心，对这些框架做医

疗场景化改造，形成专属技术实践方案，核心聚焦“精准性、安全性、协同性”三大医疗核心诉求，以下为关键实

践与决策逻辑：医疗推理闭环通用ReAct

框架侧重“思考

行动

观察”循环，我们针对医疗场景的严谨性需求，加入

WiNGPT

主导的“证据校验”环节，形成“思考-行动-观察-校验-再思考”的专属闭环，核心决策是让每一步行动都有医疗知识支撑，避免错误传导。此改造的核心决策的是：依托WiNGPT的医疗知识，将“证据等级判断、时效性筛选”嵌入循环，解决通用ReAct在医疗场景“易获取低质量证据”的问题，确保每一步行动都符合循证医学规范。工具协同协议我们基于通用MCP框架核心突破“医疗工具分散、数据敏感、权限复杂”三大痛点，决策逻辑是“标准化调用

+安全化传输+WiNGPT知识联动校验”，让智能体既能对接多类医疗工具，又符合数据合规要求。WiNGPT医疗智能体核心架构WiNGPT医疗智能体的核心定位，是“以

WiNGPT

知识底座为核心，具备医疗场景专属自主能力的协同实体”—并非替代WiNGPT，而是通过架构升级，让WiNGPT的知识价值充分落地。系统包含四大定制模块：医疗专属记忆模块融合短期任务上下文与长期临床知识，支持与

WiNGPT双向更新；医疗任务规划模块基于诊疗与科研规范拆解任务，并能反思优化决策路径；医疗工具适配模块深度对接本地知识库、PubMed及专业分析工具；医疗行动输出模块则生成结构化诊疗建议、科研报告、MDT纪要等符合临床习惯的内容。四大模块以WiNGPT为中枢紧密协同，将知识优势转化为可执行、可落地、可进化的医疗行动力，真正实现从“能答”到“能做”的跨越。图1.ICD11编码知识图谱示意图体的场景化定制决策知识库Pubmed搜索其他

…长期记忆

短期记忆WiNGPT医疗智能体从工具到协作者：WiNGPT医疗智能体的技术实践2025医疗人工智能年度报告28行动规划记忆工具多智能体协作协议针对医疗多学科协作（MDT）需求，我们基于A2A框架，构建以WiNGPT为统筹核心的多智能体协作体系，核心决策是“按医疗专科分工、以WiNGPT统一知识标准”，避免多智能体协作时出现知识冲突、分工混乱。迭代方向WiNGPT医疗智能体的核心价值是让WiNGPT从“知识载体“升级为“协同伙伴”。技术实践的核心逻辑不是追求框架创新，而是围绕医疗场景痛点，让WiNGPT的知识能力和智能体的执行能力融合—解决WiNGPT“只能说不能做”的局限。未来，我们将围绕WiNGPT持续迭代医疗智能体，聚焦两大方向：WiNGPT知识与场景深度绑定：进一步强化智能体对疑难病例、罕见病的处理能力，让WiNGPT的知识能精准支撑智能体的任务规划，实现“专科化更精准”。跨系统深度融合：推动智能体与医院HIS、LIS、PACS系统的无缝对接，由

WiNGPT主导数据联动，生成“数据整合+诊疗建议”一体化报告，减少医护人员手动操作。未来，WiNGPT医疗智能体不会替代医护与科研人员，而是成为其能力延伸—让WiNGPT的知识与智能体的执行，帮用户从文献检索、数据整理、多系统协作等重复劳动中解放，聚焦诊疗决策、科研创新等核心工作，最终推动医疗行业效率升级与质量提升。总结回看2025年，WiNGPT的演进说明一件事：医疗AI的突破不是比参数、比跑分，而是比谁更懂临床。我们从思维模式（WiNGPT-3.0）

、工程架构（WiNGPT-3.5-turbo）到落地工具链以及医疗智能体进行了垂直的深耕。只有AI跨越技术与信任的鸿沟，才能从“实验室里的黑箱”转变为“诊疗台边的可信伙伴”。未来，

WiNGPT将继续以“安全、可解释、可部署”为准则，持续深化这一专业化的应用能力，推动医疗AI从单点能力的“展示”，走向与临床工作流无缝融合的“协同”，最终成为医疗质量与效率不可或缺的支撑力量。从工具到协作者：WiNGPT医疗智能体的技术实践292025医疗人工智能年度报告大语言模型除了纯语言模型以外，我们在多模态领域也有一些探索。同时，

针对医院的应用，我们开展了大语言模型在医院应用的成熟度研究。除了成熟度评价，

我们还通过经济学模型寻找医疗场景中最适合的模型。在具体的应用场景中，我们也看到了语音模块如何在现有场景中提升医生的工作效率。研究2025医疗人工智能年度报告30医院AI成熟度模型李锐级思想。以

EMRAM为代表的

HIMSS

认证体系，

长期用于刻画医院信息化建设从基础能力到高级应用的演进路径，其核心并非针对具体技术本身，而在于通过分级方式系统描述关键能力的逐步完善与协同成熟。这一“以能力演进为主线的成熟度评估方法论”具有较强的领域通用性。基于该思想，我们将评估对象从传统信息化建设拓展至医院AI建设场景，对医院在数据基础、模型应用、流程融合与治理机制等方面的关键能力进行重新抽象与结构化梳理，进而构建了一套面向医院AI建设的成熟度模型，用以刻画其从探索应用到体系化落地的整体发展水平。如下图所示，

我们将医疗机构引入生成式AI

的进程划分为七个层级。该模型不再局限于单一的算法指标，而是强调算力基础设施、数据治理、业务流程与智能系统的深度融合。在过去的

一

年中，我们看到了大语言模型在各类Benchmark中的得分屡创新高。然而，当我们将视角从实验室转向真实的医疗环境时，发现模型的

Benchmark高分并不完全等同于真实的‘业务可用性’。医院管理者关心的不是模型考试能得多少分，而是能不能在真实业务里稳定跑起来。基于此，

我们将研究重点从单一的模型性能评测，转向了医疗场景下的系统工程能力构建。我们认为，

模型仅仅是驱动系统的“引擎”，而医院真正需要的是一辆具备完整底盘、传动与制动系统的“整车”成熟度模型：医院AI建设层级演进路线我们参考了

HIMSS在医院信息化领域提出的成熟度分L4

高级决策支持核心：专家思维。深度推理，综合研判，临床决策辅助。L6

全场景泛在智能核心：无感融入。边缘计算，渗透物理空间，像水电一样无处不在。L0

基础设施就绪核心：本地化。私有化部署，数据不出院，安全底座。L2

平台化与中台化统一调度。全院

AI中台，算力池化，标准

API。医院AI建设演进路线L5

自进化学习核心：数据飞轮。人类反馈，持续微调，能力随业务沉淀攀升。L3

闭环管理与质控核心：质控闭环。规则引擎，安全护栏，拦截幻觉规范运行。L1

单点工具试点核心：场景化。独立工具，特定科室，解决局部痛点。医院

建设成熟度模型312025医疗人工智能年度报告ModelL0L1L2L3L4CNMLECTCCFFRRGTLVUDCRBQDECTNMMDTgemma-3-4b-it44.7919.3665.7162.99545164.882.314.1349.74Qwen3-4B-Instruct-250784.2847.9784.6265.05733964.0043.5220.6680.61medgemma-4b-it55.2124.5567.9559.07365464.138.181.6545.32gpt-oss-20b78.5935.8692.9565.34676370.6326.3924.7965.05gemma-3-27b-it74.0734.9391.3571.08365158.389.724.1369.81medgemma-27b-text-it79.7635.7790.7167.2164660.7512.043.3174.42Qwen3-30B-A3B-Instruct-250789.9858.0292.3172.13604065.8829.6323.1478.02Baichuan-M2-32B90.3748.0990.7175.55515071.5052.9323.1478.60GLM-4-32B-041483.6948.4491.0376.87464763.2547.2216.5371.87Seed-OSS-36B-Instruct92.9367.3279.8178.86705464.3860.0325.6282.96Llama-3.3-70B-Instruct84.4833.9991.3568.43654666.0048.1514.8865.41gpt-oss-120b85.2749.9091.9964.88795669.6326.2325.6279.12Qwen3-235B-A22B-Thinking-250792.9367.1194.8775.47606760.0038.5827.2784.581.

参数效率的非线性回报：中等模型的“越级挑战”数据表明，参数规模并非决定医疗任务表现的唯一指标。虽然在CFF（表单填写）

等任务上，235B

的大语言模型依然具有统治力，但在CNMLE（执业医考）与CTC（术语补全）实验评测：主流私有化模型在成熟度模型下的表现我们借鉴了HIMSS的评分体系并进行可行性验证，选关键发现：从模型性能到系统能力基于实测数据，我们总结出三条对医院选型具有指导意义的关键结论：取了目前市场主流的支持私有化部署模型，将其映射到当前医院最急需验证的L0至L4级业务场景中，进行了实效性测试。2025医疗人工智能年度报告32医院AI成熟度模型等纯医学知识任务中，中等规模模型（如

Seed-OSS-36B）展现出极高的参数效率，在得分上与

235B级别的超大模型

持平。这意味着在受限于算力成本的私有化部署场景下，

精

选架构的中型模型完全可以胜任高频知识类服务。2.逻辑能力的隐性断层：记忆不等于推理

我们发现，

部分模型存在严重的“偏科”现象。对比

gpt-oss-20b

与gemma-3-27b-it，尽管两者在常规任务得分接近，但在TLV

（时间逻辑校验）

与

RBQ（规则质控）

等强逻辑任务中，前者得分远超后者（67vs36）。这一发现警示我们：模型的知识储备不代表其逻辑智商。在涉及医疗质控与流程核查

的关键环节，必须优先考量模型的逻辑稳健性。3.垂直微调的双刃剑效应：警惕“灾难性遗忘”，我们测试发现，过度医疗微调会让模型的通用能力变差。对比

通用基座

gemma-3-27b-it及其微调版本

medgemma-27b-text-it，后者虽然在知识问答上略有提升，但在

CFF（表单

填写）和RRG（报告生成）等需要严格遵循格式的任务中，分数显著下降。这提示未来的模型训练策略需在“专业深度”与“

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年医疗人工智能年度报告

文档简介

温馨提示

最新文档

评论

2025年医疗人工智能年度报告

文档简介

温馨提示

最新文档

评论

相关文档