2024年医疗人工智能年度报告生成式AI：重新审视

上传人：b*** IP属地：广西上传时间：2026-04-17 格式：DOCX 页数：80 大小：26.46MB 积分：25 举报 版权申诉

已阅读5页，还剩75页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

' a»üAi:#9%ę$a"' Re Examing2024e-a2024

式AI：重新审视主编EditorinChief陈旭执行主编ExecutiveEditor刘鸣谦策划团队Planning刘鸣谦朱雅文刁茁责任编辑Assignment趋势：刘鸣谦观点：医疗大语言模型十问：宋晓霞WiNGPT：路惠童许祥军洪平高玉杰李锐研究：刘鸣谦路惠童案例：宋晓霞胡嘉伟高雪虹姜陆乔嘉成虞明星展望：陈旭校对Proofreader朱雅文刁茁设计Designer唐雯婷李钰莹引言探索新的价值和方向？2024年初，人工智能领域的产学研各届围绕“AGI”-AGI”展开了广泛讨论。包括GeoffreyHinton，YannLeCun，李飞飞在内的多位知名研究者，对当前大型语言模型所展现的“智能”提出了质“智能”也许只是冰山一角。ScalingLawAGI。开源与闭源、通用与人工智能的未来走向。这种平衡在医疗领域同样至关重要，尤其是伦理和社会影响在医疗领域尤为敏感。人工智能生成内容的准确性和可靠性直接关系到患者的生命安全。人工智能的滥用风险、隐

私泄露以及算法偏见等问题，可能导致医疗资源分配不公，甚至加剧医疗不平等现象。因此，我们在研究、产品开发以及对外传播内容时，必须以严谨和审慎的态度评估并应对这些挑战。此外，在医疗实践中，我们还必须重新审视“人工智能与人”的关系。过去一年中，国内外众多专家学者已达成共识，即人工智能不应成为医生的竞争对手，而应是其合作伙和“临床思维”。我们对医疗服务的理解可能仍然受限于自身的认知。更重要的是，如何将人工智能的“智能”与医生的经验、直觉和同理心相结合，形成人机协同的诊疗模式，仍然极具挑战。聚焦于生成式人工智能技术的突破及其在各个领域的潜力。今年，我们在此基础上深化探讨，重新审视每个医疗场景并思考优化策略。本报告汇集了卫宁健康人工智能实验室的洞见与过去一年的工作成果，涵盖了对行业数据与分析、技术我们衷心希望这份报告能够为医疗行业的同仁或对人工智能感兴趣的朋友提供有价值的参考和启示，共同推动人工智能在医疗领域的健康、可持续发展，为构建更加智能、高效和人性化的医疗体系贡献力量。速读速读重新思考人工智能的本质和人类的价值报告从人工智能的快速发展引发的哲学和社会思考出发，探讨了人类在人工智能时代的价值定位，并着重强调创造力、思辨力及同理心等人类独有特质的重要性。医疗人工智能的市场现状和政策导向FDA的整体态势。医疗大语言模型WiNGPT的实践与挑战报告深入探讨了WiNGPT开发过程中面临的实际问题，包括模型大小的选择选型、数据隐私、应用对接、推理速度等，并提出了相应的解决方案和建议。重新定义智能和重塑临床环境报告从临床研究的角度探讨了AI与人类智能的差异，以及AI与临床环境的深层联系，为推动医疗保健的全面变革提供了参考。生成式AI在临床实践中的应用报告详细介绍了WiNGPT在临床实践中的应用，包括CDSS+RAG

人机协同的未来报告展望了人工智能与人类创造力协同发展的前景，强调了人机协同、多元数据、创新评估和伦理监管的重要性，并呼吁全球医疗界共同推动医疗人工智能的健康可持续发展。目录Contents趋势观点问答WiNGPT

08大语言模型+医疗软件的现状和发展让我们用数据和政策解读来揭开大语言模型的发展趋势。13超越比较：人工智能的独特发展之路超越模仿！AI的独特进化之路，将如何反哺人类文明？15SORA降临：我们应该如何理解这个世界Sora炸场！万亿级AI风暴，重新定义创造力与真实！17生成式AI：重塑临床环境，推动医疗保健全面变革颠覆传统！生成式AI如何撬动医疗变革，打造健康新生态？19医疗大语言模型十问大语言模型实践中的热点问题。25WiNGPT2024回顾这一年，WiNGPT让智慧医疗迈向新的阶段。40WiNGPT私有化部署方案让我们一起探索WiNGPT的工程化奥秘，将安全与高效贯彻到底。42WiNGPT开源之路我们不仅站在巨人的肩膀上，更为开源社区奉献，推进未来之路。研究44研究WiNGPT临床评价通过一次实验看怎么评价大模型的使用效果。47混合专家模型（MoE）技术在胸片领域的应用案例XR案例53Copilot深入应用：大语言模型驱动的最佳实践探索Copilot，大语言模型深入赋能医疗场景的纽带。57融合RAG与大语言模型：CDSS创新发展的新引擎RAG+LLM，让知识更准确，决策更可靠。61基于大语言模型探索PACS质控工作新可能如何用好大语言模型，我们的尝试从未停止……65WiNGPT在患者血液管理中的应用与前景支持。智能融合与即时跟踪，LLM69企业智能助手小宁：大语言模型与RAG结合的知识库应用AI加持，让知识与经验不再扁平，真正成为触手可及的数据资产。展望73 75展望人工智能与人类创造力的共生之道总结当AI遇上医者仁心：共绘医疗创新的未来图景。

76参考文献趋势大语言模型+医疗软件的现状和发展2024年，大语言模型技术蓬勃发展，国内外基座模型层出不穷，医疗大语言模型更是如雨后春笋般涌现，市场繁荣且潜力无限。在这里，通过数字与政策分析我们可窥见市场全貌。大语言模型+医疗软件的现状和发展医疗人工智能市场规模预测8378826164612213321418378826164612213321417711131518212733512e 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024

新药研发企业和人工智能初创企业的上下游参与者，共同149203049.11641[1]。FDA审批通过的人工智能相关医疗器械数量截至20245月，美国食品药品监督管理局批准了882/前五的应用领域是放射学（671）、心血管（90）、（32（17（13使用人工智能技术的医疗软件企业数量在一项针对美国医疗机构的调查中，约70%的卫生系统受访者认为，人工智能将对他们的组织产生更大的影响，并将人工智能战略从IT部门转移到最高管理层。这与80%

的美国医疗服务提供者正在加快IT和软件支出的事实相一致，其中人工智能是首要任务。医疗软件中的人工智能指导原则医疗人工智能软件正积极促进行业发展，引领行业的走势，并持续地影响上下游的企业、医院。尤其在人工智能、大语言模型的应用方面，这些影响源自用户、工具、数据和伦理道德的交汇，人工智能技术和应用的发展正在指引未来软件的设计和开发趋势。以下将介绍国内外的人工智能指导原则[2]：一.人类为中心的人工智能强调人工智能技术对个人和社会的影响。以人类价值观、需求和目标为指导，旨在通过建立在用户体验设计方法的基础上，放大、增强、授权并提高人类表现，同时确保人类的控制。二.数据驱动的人工智能数据是人工智能训练、评估和改进的基础要素。人工智能模型的质量与用于训练数据的质量直接相关，因此需深入理解并有效利用数据。这将需要对数据集本身进行彻底审查，加强数据治理，以指导整个企业和医院的数据政策。三.可扩展和互操作强的人工智能人工智能的开发应该采用循序渐进的方式，一方面需要构建符合整体系统架构的设计，另外一方面，从具体的应用场景出发，采用“大蓝图，小步走”策略，不断评估和优化流程，实现人工智能工作的规划和交付。四.负责任的人工智能人工智能模型的设计和实施需要维护社会明确的道德价值观即社会伦理和系统安全。伦理是针对不良结果风险的社会行为指南，主要侧重于六个领域，以应对人工智能的竞

争风险和收益：公平和公正、透明度和可解释性、问责制和合规性、安全和安保、隐私以及可靠性和稳健性。这些领域旨在通过最有效和最值得信赖的方式引导人工智能努力实现其预期影响。国内医疗大语言模型根据IDC的调查和网络搜索，据不完全统计，全国已公开发布了约20款医疗大语言模型，吸引了众多厂商投身研发，其中涵盖互联网科技企业、人工智能企业、互联网医疗企业和传统的信息化企业等。各类企业凭借自身优势积极参与，但均面临医疗数据隐私安全、复杂场景应用、AI模型研发等挑战，需克服各自难题。国家政策202411景参考指引》[3]用创新发展。《参考指引》将医疗领域的人工智能应用场景划分为四大部分，十三个类目，共列出84个典型应用场景：中医药产业；“人工智能+”医学教学科研：医学教学、医学科研。(十二)医学教学智能辅助仿真实验(十二)医学教学智能辅助仿真实验人智学智能生(十三)医学科研招募者智能辅智分智据分析研(九)医用机器人(六)健康管理(七)公共卫生(八)养老托育(四)中医药管理智能药物临床智能药智发物中仿生能辅助诊辅助诊断能智能辅助决策辅助规划诊意智能辅助质控辅助治疗能分诊诊陪诊院后管理辅助决策能智能辅助勾画咨询医随访辅助生成核智能辅助智能辅助导智能辅助(三)医保服务审核智能辅助险辅辅助诊疗能智能检测审方能智能质控案承研质控辅助书质量管理人员管理术室管理房管理材设备管理管理流停车管理安全管理勤管理决策支持管管理康健康管理性病自助服务级健康管理服务筛查与预测病疾病测应急管理群体数据分析查漏补种监测与干预疸析畸量估算体风险评估康人咨询服务人员学习辅助培训应用监管辅助业评估构安全隐患预警三人工智能+健康产业发展四人工智能+医学教学科研人人人人拿询救援20241224展医学人工智能工作方案（2025-2027）》[4]并提到，医的产业创新氛围。在语料建设中，也率先开展了卫生健康行业的语料建设和金融大模型应用测评指南等领域方面的工作[4]。卫宁健康公众号聚焦医疗AI202417上下游企业、校企合作类：发布《以新质生产力推动数2024值得一提的是，在校企合作方面，我们还通过举办暑期人工应用场景和人工智能软件开发方法。用户标杆案例推广类：发布《上海市肺科医院，如何借力大语言模型》、《医护的专属智能助手！北京大学人民医Assistant》、《卫宁健康WiNGPTRadiology等文章。

2024交易节颁奖典礼》、《2024技智领未来”论坛在沪召开，卫宁健康荣获“年度优秀医IDCvendorprofile|健康：AIWiNEX小结20242024列的成果与用户认可。观点AI的崛起促使我们重新审视各学科的传统范式，本章“观点”汇集了变革时代2024学和化学奖的杰弗里·辛顿和戴密斯·哈萨AI响，模糊了计算机科学、生物、化学等核心学科之间的界限。从不同的视角审视AI的发展，我们将对其潜力和挑战形成更全面的认识，最终为更具影响力和负责任的创新铺平道路，特别是在医疗这一充满变革的领域。超越比较：人工智能的独特发展之路在人工智能快速发展的今天，我们常常陷入一个误区：试图将AI与人类智能进行直接比较，而忽略了我们真正要解决的问题。不同的起源，不同的路径AI完全模仿人类大脑的运作，或将错失其真AI

例如，AI在图像识别上可能使用与人类不同的方法，在某些任务上有超越人类的准确度。各自的优势人类大脑擅长创造性思维、情感理解和复杂的社会互的典范。相比之下，AI在数据处理、模式识别和大规模计AlphaGo超越比较：人工智能的独特发展之路协同而非竞争与其将AI视为人类智能的竞争对手或替代品，不如视其为补充工具，就像望远镜扩展视力，计算器增强计算能力一样，AI扩展了我们的认知能力。在医疗诊断领域，AI展现了惊人潜力。研究表明，AI在识别某些癌症时，其准确率可达到或超过经验丰富的医生，但这并不意味着AI将取代医生，而是与医生合作，从而更快、更准确地诊断疾病，为患者提供更好的治疗。我们真正需要的是利用AI帮助人类探索火星，而非在地球上辩论到底AI与人类谁更聪明。持续学习：AI的进化优势AI与人类智能时，持续学习能力是一个关键要素点。AI具备类似软件版本迭代的持续学习能力，其效率远超生物进化。想象一下，人类能像更新手机应用一样快速AIAIAI翻译系统学会新的表达方式或俚语，这些知识可以立即应用到所有翻译中。相比之下，人类翻译家可能需要数月甚至数年时间来掌握新的语言表达。此外，AI学习是高度目标导向的。研究人员可以精准定义希望AI改进的方向，通过精心设计的训练数据和算法实现这些目标。例如，在自动驾驶技术中，研究人员可以专门训练AI以应对夜间驾驶或恶劣天气，使其在特定条件下表现快速提升。重新定义智能随着AI

人类智能是衡量智能的基准，但AIAI现出不同形式的智能。虽然AI能”高低之分。伦理考量AI的快速进化引发了伦理方面的关注。我们需要确保AI系统在不断进化的过程中保持对人类价值观的尊重，避免对社会造成意外的负面影响。以AI招聘系统为例，如果它在学习过程中不慎吸收了社会偏见，可能导致筛选应聘者时出现不公。因此，在推进AI发展的同时，也要深入研究其伦理与安全问题，确保其发展方向符合人类的长远利益。小结比较AI与人类智能的方法或如比较飞机和鸟类一样徒劳，因为每种智能都有其独特的优势和局限性。未来的挑战不是让AI变得更像人类，而是找到方法让这两种智能形式相互补充，共同推动人类文明的进步。正如飞机的发明开启了新的交通时代，AI的发展可能会开启新的认知时代。关键在于结合不同类型的智能以应对复杂挑战。AI的持续学习展示了一种高效精确的新型“进化”，凸显了其与人类智能的根本差异，也指明了未来发展的方向。最终，我们应利用AI的快速学习能力，确保其发展符合人类长远利益。在AI和人类智能共同演进的新时代，挑战在于协调这两种“进化”模式，使之互补，共同创造一个更智慧、美好的世界。R何理解这个世界过去一年，生成式AI，即可以生成文本、图像、视频AISoraSora随着认知边界的拓展与重塑。

真假难辨：“眼见为实”或成历史Sora的出现动摇了“真实”的定义，“眼见为实”的传统观念受到了前所未有的挑战。我们通过感官体验理解“真实”，文字抽象化了这些感知，绘画展现了画家的主观现实，摄影定格了瞬间，而CG技术丰富了想象空间。如今，SORA降临：我们应该如何理解这个世界Sora类工具彻底打破了“眼见为实”的神话，创造出真假难辨的视频，甚至比现实更“真实”。这引发了对“真实”定义的思考：是客观存在的物理现实，还是感官体验的“真实感”？这种对真实性的冲击也带来了信任危机。当虚假信息和深度伪造变得轻而易举，我们还能相信什么？这要求我们更加警惕，培养批判性思维，并建立新的信任机制。原创何处寻：当AI具备“创作”能力但现在，AI不仅能模仿各种艺术风格，还能生成全新的、独一无二的视觉内容。例如，前段时间引起广泛关注的AI位是否正在被撼动？我们正在从内容的唯一生产者，逐渐AI那么，在AI时代，原创的定义是否需要改写？或许，我们应该把关注点从“是否由人类创作”转移到“是否具备创新性和价值”。即使是AI生成的作品，只要它能带给我们新的视角、新的体验，就同样拥有它独特的价值。创造力的进阶：人机协作下的边界拓展生成式AI不仅是工具，更是我们的合作伙伴，为我们提供新的创作方式和灵感。如设计师利用Sora生成多个设计方案，导演快速预览不同的拍摄效果。这种人机协作模式提高了创作效率，更易激发创新灵感。AI的多样性生成能力打破思维定势，拓展想象空间。AI可能带来的偏见和刻板印象，确保创作内容的多样性和包容性。未来，人机协作的创作模式将成主流，人类创意与AI

信息洪流：如何在爆炸时代中不被淹没？Sora等工具的出现大大降低了内容创作门槛，导致信息爆炸式增长。在这个信息泛滥的时代，我们每天面对海量内容，既包括真知灼见，也有虚假信息和噪音。这种现象被称为“信息污染”。如何从信息海洋中找到真正需要的内容是一个巨大挑战。AIAI问题。伦理与责任：技术发展下的道德考量任何强大技术都是“双刃剑”，生成式AI也不例外。技术的滥用可能危害个人和社会；AI生成内容的版权归属我们需要建立完善的规则和法规，明确AI使用边界，规范开发和应用。可以通过制定法律禁止AI制作和传播虚假信AIAI小结Sora的出现标志着人类认知发展的新里程碑，为各行业带来了巨大机遇和挑战。麦肯锡报告显示，生成式AI每年可为全球经济贡献2.6万亿至4.4万亿美元，对投资分析师而言，这意味着新的投资机会和行业变革。Sora等工具将提升广告、影视、游戏等行业的生产力。它揭示了我们对世界认知方式的深刻变革，促使我们重新审视真实、原创、创造力等概念。我们需拥抱技术带来的机遇，但同时警惕潜在的风险。推动环境，在当前全球医疗健康领域，生成式AI正展现出前所未有的变革潜力。从提升诊疗效率到优化资源分配，这项技术正被寄予厚望，有望彻底重塑医疗行业。然而，要充分释放这一潜力，我们必须深入审视现有的临床工作环境和医疗体系结构。只有这样，才能确保技术优势真正转化为可持续的健康成果，造福广大患者。

对现有体系的深度审视任何新技术的普及都需要对当前体系进行深度反思与更需手术室环境升级、流程优化和医护人员再培训。生成式AI的普及也是如此，其应用不仅依赖于算法开发，还需要生成式AI：重塑临床环境，推动医疗保健全面变革AI通过升级医院信息系统，AI可实时分析患者数据，为医生提供决策支持。这些变革需要资金和政策支持，关键在于技术如何提升医疗服务的人性化，改善患者生活质量。AI驱动的临床实践重塑AI技术引入深刻改变了临床实践的核心技能需求和团队结构。医疗人员不仅需传统解剖学和疾病机制知识，还需AIAI工具操作和风险评估。在这种新协作模式下，医护人员将与数据科学家、AI工程师组成跨学科团队。这引发了我们对临床实践的重新思考：医生的核心职责是什么？技术辅助作用如何界定？这些问题需要在实践中不断探索和解答。生成式AI的商业化路径生成式AI实现商业化落地的关键在于对医疗场景的深度挖掘和产品的反复打磨。高价值场景需要具备两大特点：专业性要求高和服务范围广。基于我们的调研和研究，首先关注以下高潜力场景：病历质控：AI可以自动检查病历的完整性、逻辑性和规范性，覆盖广泛的科室，在提高医疗效率的同时，可有效降低医疗纠纷风险。（AI不仅能够显著提升影像解读的准确性，还能大幅节约医生的时间，并能直接输出结构化报告。个性化诊疗支持：结合患者的基因信息、病史和最新医学研究成果，AI能够为医生提供精准的治疗建议，尤其在复杂疾病的治疗中具有巨大的应用潜力。

要实现这些场景的商业价值，需要高级医学专业知识的深度融入，深入理解医疗需求，不断优化算法质量，并强化用户体验。这种聚焦高价值领域的策略，将帮助生成式AI从技术创新迈向商业成功，为医疗机构带来实际的经济效益和投资回报。推动公平可及的医疗未来重新审视生成式AI的全球定位迫在眉睫。若不及时行动，这项技术恐沦为高收入国家的专属，进一步加剧全球医疗资源不平等。医疗行业需以全球视野推动技术共享和知识合作，确保所有患者，无论经济状况或地理位置，都能平等受益于AI驱动的医疗变革。例如，通过国际合作开发低成本高效AI工具，并在医疗资源匮乏地区应用，有助于缩小全球医疗鸿沟。AI应成为连接全球医疗系统的桥梁，而非扩大差距的工具。小结生成式AI的出现，为我们重新审视临床环境与医疗体系运作模式提供了契机。从定义新临床角色到构建公平、可持续的医疗模式，这项技术不仅是工具，更是变革的催化剂。在这一关键历史节点，医疗行业的参与者需携手努力，确保技术进步带来更公平、预防为主的医疗保健未来。生成式AI的真正价值不仅在于技术创新，更在于对人类健康的深远影响和推动医疗公平的发展。问答医疗大语言模型十问优化及维护难度，可能影响产品迭代速度。型对算力和内存要求高，训练和推理的资源消耗会持续提高，但增益呈现递减趋势。同时，大模数数量）、训练数据量和算力的增加，模型性能OpenAIScaling医疗大语言模型十问优化及维护难度，可能影响产品迭代速度。型对算力和内存要求高，训练和推理的资源消耗会持续提高，但增益呈现递减趋势。同时，大模数数量）、训练数据量和算力的增加，模型性能OpenAIScalingLawsforNeuralLanguageModels》[1]表明：随着模型规模（参用场景等多方面因素。大小的选择通常需要综合考虑性能、成本和应普遍认知中，更大的模型通常代表更强的理解能力和泛化能力，但在实际应用中，模型模型的性能水平。我们就能用参数量减半的模型达到当前最先进个月（100100间呈指数级增长，20233.3度定律（DensingLaw）——模型能力密度随时“适合”才是最重要的。近期，来自清华大学刘知远教授团队发现并提出大语言模型的密Q2.在应用过程中，模型越大越好吗？产力。甚至是第三方机构，对WiNGPT抱有极大的兴趣和期待，者想法，都适合通过模型来解决。者想法，都适合通过模型来解决。验证了这一问题的结论，并不是所有的问题或在我们自2023年开始发起的各产品功能盘点中，通过对数百个应用视角的逐一评估，也也制约了模型的一些应用。因此对于需结合最新的政策、法规、文献的回答结果。其次，模型通常基于历史数据进行训练，确或带有偏见，那么模型将必然生成误导性的将产生最直接的影响，如果数据不完整、不准依赖训练数据，训练数据的质量对模型的回答杂性决定了它无法解决所有问题。首先，模型辑推理等领域表现卓越，但其局限性和问题复答案是否定的。大语言模型作为一种强大的工具，虽然在自然语言处理、信息生成和逻Q1.是不是所有问题都能通过模型解决？一步扩展国产化算力适配范围。海光等。未来，随着需求的增加，我们也将进WiNGPT支持国产GPU服务器部署方案，一步扩展国产化算力适配范围。海光等。未来，随着需求的增加，我们也将进WiNGPT支持国产GPU服务器部署方案，已完成测试的厂商包括：华为、燧原、沐曦、Q3.是否支持国产GPU部署？层医生提供患者健康评估和健康管理建议等。专病库的快速生成等；在公共卫生领域，对基越能力，对自由文本进行信息抽取以支撑各类还有利用大语言模型在自然语言处理方面的卓本块生成，有结合了语音病历的病历内容组装，行统计呈现；在临床业务中，有简单的病历文报告进行质控，并将质控结果在管理模块中进细分场景进行挖掘。在医疗管理中，对病历、要围绕医疗管理、临床业务、公共卫生领域等文档翻译、医疗对话等等。在具体实践中，主病历与报告质控、文书总结与生成、信息抽取、具备处理医疗场景特定任务的能力，包括但不限于医学知识查询、症状分析与诊断建议、也WiNGPT除了具备大语言模型的通用能力，Q4.我们的大语言模型目前支持哪些应用？需求对模型的输入和输出进行个性化调整，帮助用户更高效地完成任务。户个性化和用户体验感：Copilot能够根据用言模型提供基础的理解与生成能力，还可以集成领域知识，从而满足特定需求。语更高的集成能力：Copilot不仅可以依赖大从而提升了系统的可靠性和可维护性。逻辑，而无需应用开发者对代码进行大幅修改，改变时，Copilot可以通过适配层自动调整调用应用的正常运行。当模型版本升级或架构发生提高兼容性和可维护性：Copilot通过设计稳定的中间层，屏蔽了底层模型的变化，确保保障了接口稳定性。接口，使得开发者可以更轻松地将模型嵌入实封装大语言模型的能力，提供简单、标准化的业务对接难度降低：直接调用模型常面临技术复杂度高、接口不统一等问题，Copilot通过WiNEXCopilot（简称Copilot）是业务产品与模型对接的唯一途径，主要出于以下考虑：Q5.实际应用时，应该如何对接模型？医疗大语言模型十问设计不同的提示词。务必注意，没有完美的提示词，实践与体设计不同的提示词。务必注意，没有完美的提示词，实践与体验视角不同，接受并理解不同场景，根据需要/应用试运行过程中，我们建议：好地满足用户的需求，在对提示词进行设计和这一问题是大语言模型落地过程中经常遇到的问题。为了让模型更好地与产品结合，更Q6.如何让模型的回答更符合应用的要求？3）流式输出：对某些需要输出段落式文本的场景，采取流式输出的方式，增强用户体验。2）批量处理：充分利用硬件的并行处理能力，提高吞吐量。调用已处理的数据。存储在数据库特定区域，以便业务使用时直接场景，还可利用系统空闲时间预先处理数据并而加快推理速度。对于某些即时性要求不高的1）数据预处理：对输入数据进行一定程度的预处理，减少输入数据的大小或复杂度，从以下策略：最大化利用好模型的能力，我们一般建议采取化。WiNGPT已经采用了量化、优化器等方法进行优及数据处理等多种因素的制约。在算法层面，模型的推理速度对用户体验有着直接影响，而这一速度通常受到硬件、软件、模型架构以点？Q7.如何让模型生成的速度快一点、再快一而不是害怕出错或追求完美而对其敬而远之。把AI而不是害怕出错或追求完美而对其敬而远之。把AI多次尝试找到最有益处的答案。同时，也可以提问时应尽量具体并附上相关背景信息，通过AIAI来说有点复杂，操作起来具有一定难度，因此信自己的经验；二是，AI系统对不熟悉它的人判断和自己的想法不一致时，往往更倾向于相多人不太愿意相信机器的建议，尤其是当AI的AIAI医生更优异的原因，主要归结于两点：一是很而有研究声称使用AI的医生表现更佳，这是真的吗？Q8.为什么有的医生反映AI一点也不好用，存储或推测个人信息。根据公开数据和统计规律生成内容的，并不会的准确性和健壮性考虑。其次，大语言模型是选，以确保不涉及隐私信息，这也是为了模型在训练之前，公开数据会经过严格的脱敏和筛这样的数据对于训练模型可能是有害的。因此，了法律法规，也没有必要，毕竟隐私数据质量会采用用户隐私数据训练模型，因为这既违反型的训练数据主要来自公开的互联网信息、开源数据、企业的知识库等。正规公司通常不模这些担心其实是不必要的。首先，大语言吗？Q9.我的隐私信息会被大语言模型拿去训练疗体系中不可或缺的角色。协助医生优化流程，而非直接取代医生作为医AI更适合承担繁琐的行政工作和数据处理任务，面仍有局限。全面胜任医疗任务的通用人工智在整合患者多方面信息和制定综合治疗方案方AI的强项多集中于单一领域，如影像分析，但医生的执业资格涵盖了跨学科的全面能力，而因AI建议，还需根据具体情况调整治疗方案，避免能力。医生作为“安全阀”，不仅要验证AI的其次，AI尚不具备独立承担医疗决策的责任的AI疗决策时，患者往往需要医生提供心理安慰和源于对情感支持与理解的需求。在面对重大医的信任不仅建立在技术精准之上，更深层次地作负担分配四个方面解释。首先，患者对医生AI短期内尚无法完全取代医生，这一结论可以从人性需求、技术局限、制度复杂性和工Q10.AI会取代医生吗？WiNGPT2024回顾WiNGPT是一个医疗垂直领域大语言模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务，以此提高诊疗效率和医疗服务质量。通过利用大规模语料库进行训练，WiNGPT改善患者护理，并支持医学研究。从最初的到最新的WiNGPT-2.7，WiNGPT2024回顾采用了通用GPT亿参数。总训练token37亿，包含9720项药品知识、18个药品类型、7200余项疾病知识、28001100余份指南文档。WiNGPT的迭代提供了坚实的数据支持。

融入更多医疗领域知识和指令数据，进行新一轮预训练和微调，并扩充token态模型，整合数据增强、知识增强、检索增强，以应对更复杂的应用场景。这一版WiNGPT70亿参数版本，新增检索增强能力，并于20238月率先在医院生产环境试运行影像报告结论生成功9130更易扩展和个性化定制。这一版本在参数规模上有了显著提升，同时，增强了模型的实用性和灵活性。252024医疗人工智能年度报告WiNGPT-2.5发布具有340亿参数版本，推理能力和应用适配能力明显提升。11同步进行五家医院试点，场景包括病历内这一版本不仅在参数规模上进一步扩大，还在实际应用中取得了显著成效。

WiNGPT-2.6特别是在医疗任务处理、信息抽取和数学能力方面有显著进步，其各项评估指标如执业医师考试、医疗场景问答、指令遵循及中文通用能力等均有所增长，尤其是数学解题能力从73.2%88.7%。增加了新的评估标准，并引入Multi-Agent插件以增强辅助诊断功能，在真实环境测90%-95%，为用户提供更高性能的服务。

WiNGPT-2.7WiNGPT-2.7使用更加强大的模型基座Qwen2.5-32B，经过后训练，在通用和医疗能力上都有显著提升。此外，我们重构了模型后端，引入了Routellm使WiNGPT可以异步在安全合规、插件工具和多种模型之间进行路由。例如，我们加入了互联网搜索功能以降低模型回答的幻觉，为用户提供更精准的服务。2024医疗人工智能年度报告26为什么要研发行业垂直领域模型？政策管理要求。WiNGPT实现自动化和智能化病历书写、辅从而全面提升用户体验和操作便捷性。核心价值专业知识：经过大量行业特定数据的训练，WiNGPT具备了深厚的专业背景知识，能够提供更加精准的服务。定制化能力：根据客户需求灵活调整模型参数，以满足不同应用场景下的特殊需求。持续更新：随着新数据的加入和技术的进步，模型性能不断优化，保持领先地位。和个人隐私。关键技术大语言模型已经从单纯的文本生成工具演变为多功能的智能角色，深刻改变了我们与数据和信息互动的方式。然而，为了进一步提升这些模型的能力边界，我们也在不断探索各种扩展技术。接下来，我们将介绍过去一年WiNGPT在数据合成、对齐训练、Agent数据合成

为了应对日益增长的对多样化和技能特定数据集的需求，我们采用合成数据生成作为补充方法。合成数据生成作为一种有前景的替代人类编写数据的方法，因其更容易获取、可定制于不同目的，能反映底层模型的广泛知识而受到关注。此外，由于医疗数据的构建需要人类具备较高的医学知识水平，因此，采用有效的数据合成方式，可以快速构建大量的医疗指令集。一、文本指令合成本次数据合成，主要集中在医疗、通用和数学等领域的中文数据。医疗指令合成：通过WiNGPT平台获取人工指令，分类得到不同医疗场景的候选种子集，对候选种子集进行去重和过滤得到高质量种子集。将种子集与众多真实病历文本融合后的内容交予大语言模型来依据具体医疗场景的设定来重述，从而得到大量接近真实医疗场景的指令。开源模型进行指令合成，每次随机选择3~5条数据，让模1-2答案合成：在答案的生成过程中，使用开源模型以及0.50.7rejectionsampling数据审核：所有非人工审核的指令经过reward模型进行打分，以某一阈值来对数据进行过滤。在每类数据集中，使用困惑度(PPL)来区分指令的难易程度，最终会根据reward模型给出的困惑度结果的区间来进行指令集的采样。二、多模态数据合成对话数据合成：针对开源数据中中文图文指令集少且指captioncaptioncaption数据提供给WiNGPT图片给到开源多模态模型进行回答，最终通过设定循环次captioncaption集的多样性；在对话数据集上，我们让WiNGPT在不同场景下提问，以获得丰富的问题。最终，我们通过合成数据的文字转图片数据合成：为了创建多样化且高质量的图文精选不同的字体样式以及随机调整字体大小等方式来实现，生成多样化的图片。在OCR100%OCRWiNGPTVQA对齐训练合乎伦理和社会价值观的输出。

WiNGPT对齐数据的进一步优化：主要包含价值观对齐，偏好对齐以及行业规范对齐。对齐数据的持续优化使其在各领域的表现更符合预期并具备更高的应用价值。新的损失函数-CPO-SimPO：新的损失函数较之传统DPO更加简洁且高效，进一步提升了模型对对齐偏好的表达能力。高效的数据打包算法-LLPFHPP：引入了长包优先的（Longest-pack-firsthistogram-paired-packingLPFHPP）。该方法结合了直方图填充和配对填充的策略，优先填充长数据包，有助于数据利用率的提升和计算资源的优化。现有的对齐技术已经在多个方面实现了显著提升，但在不同应用场景中仍存在一些优化空间。当前，对齐技术评估大多基于离线测试数据，然而，在复杂的任务中，这样的评估往往不够全面。研究对齐效果的在线评估方法，并且提升对齐过程的可解释性，有助于开发人员理解模型的行为特征，提高模型的可控性和透明度。未来的优化工作可以在多维度对齐方法、自适应优化和评估方法等方向上进行深入探索，使得对齐后训练技术能够更加精确、灵活地满足不同应用场景的多样需求。GraphRAG（Retrieval-AugmentedGeneration）国际疾病分类（ICD）是全球统一的医疗分类标准，准确对齐患者信息至ICD编码对诊断和治疗至关重要。然而，大语言模型直接根据患者信息生成ICD编码存在一定局限性，例如容易产生幻觉、难以处理复杂推理任务，以ICD版本更新时成本较高。为此，我们构建了基WiNGPTGraphRAG力。GraphRAG显式知识表达：知识图谱通过节点和关系的结构，清晰表达医学知识，便于系统准确使用信息。复杂语义推理：支持多跳推理，跨越多个实体和关系链条，能够处理复杂查询和语义关联。

知识补全与一致性：利用知识图谱中的隐含信息，补全患者记录中的知识缺口，确保生成结果与上下文的一致性。ICD-11ICD-11GraphRAGICD状与诊断信息。图1.ICD11编码知识图谱示意图在具体实现过程中，首先将患者的临床信息输入系统。大语言模型通过分析层提取关键医学信息，如症状和诊断等。这些信息通过知识库层映射，通过ICD编码的层级结构在知识图谱中进行查询，检索到相关节点和关系。随后，借助知识图谱中的推理能力，处理提取的节点，

恢复其名称、定义等信息，确保能够准确匹配患者的临床信息，并对齐最合适的ICD编码。此过程不仅依赖于知识图谱的结构化数据，还结合了推理链条中的关系，以提升对复杂查询的处理能力。最终，生成的ICD编码将作为诊断对齐的输出。输入层输入层患者信息检索层检索层检索信息处理层三元组结果LLM输出层最终Top5ICD11编码检索I1谱知识库层is库bge-m3-large信息汇总图2.ICD编码对齐技术路线图LLM分析层其他重要信息分析初步诊断分析检查所见分析LLM分析层其他重要信息分析初步诊断分析检查所见分析主诉分析症状分析AIAgent智能代理Agent

和个性化的未来。Multi-agent执行框架为了应对高度定制化、复杂的医疗业务需求，提升AIAgent任务处理效率，我们基于Celery（异步开发框架）设计研发了Multi-agent执行框架，为多样化业务提供了一个高效、灵活且可靠的异步任务处理平台。该框架允许各业务根据自身需求自定义工作流程，确保不同业务逻辑能够精准实现，满足特定的应用场景要求。通过多Agent的协同工作和交互，支持复杂任务的高效完成及跨业务的无缝协作，大大提升了业务灵活性。在技术特性方面，框架借助Celery的强大异步处理能力，极大提高了系统并发能力。同时，它支持多业务在同一环境中分布式执行，简化了一体化部署，确保了高可用性和可扩展性。messagemessagerecord&messageatesrecordasync_taskparameterscontrollerforever_loop……async_taskpoolRedisTask2Task2图3.Multi-agent系统异步执行架构图临床辅助诊断Multi-agent系统战。为此，我们借鉴了临床诊疗思维和认知心理学中的双系临床诊断决策是医疗体系中至关重要的一环，它直接关系到患者治疗方案的制定和执行。精确且全面的诊断是确保患者得到有效治疗的基础。然而，在当前的医疗实践中，由于医学专科化日益加深、医疗资源分布不均以及医生需要同时承担繁重的临床和科研任务，临床诊断决策面临诸多挑

统理论，将临床诊断过程划分为快速推理和复杂推理两部分。快速推理依赖于长期训练形成的直觉反应，而复杂推理基于记忆知识、外部数据进行逻辑推理和决策。结合大语言模型和AIAgent技术范式中记忆、工具、反思优化等组件，我们设计并实现了临床诊断流程。晕15主要晕15主要名……依据：断名称：原发性高血压诊断审核Agent最终审核Agent后端服务前端界面反思优化工具记忆知识慢思考：综合分析医生丙Agent医生乙Agent医生甲Agent快思考：初步诊断Agent快速推理是根据病人的入院信息生成可能的诊断池。为了生成更广泛的可能诊断，我们模拟多医生联合会诊，通过不同专业虚拟医生角色的加入，系统能够从多个角度对病情进行分析，从而扩大并丰富诊断范围。Agent复杂推理是对快速推理产生的诊断，利用疾病知识库、

历史记忆数据、检索工具等获得的诊断相关的知识和记忆，进行复杂的、理性的推理决策过程。Agent理的参考上下文，提升复杂推理AgentAgent图5.基于AI-Agent的临床辅助诊断基于上述设计思路，我们把辅助诊断分成了三个步骤：第一步，初步诊断。三个不同的医生角色对用户输入病历生成可能的初步诊断；第二步，综合分析。根据RAG返回的疾病相关的知识对初步诊断进一步分析，去除不合理的诊断并生成诊断依据；第三步，最终诊断。对第二步分析得到的结果区分主诊断和次要诊断。基于大语言模型的临床辅助诊断Agent显著提升了诊断效率和准确性。未来，将聚焦个性化治疗方案，实时更新医学知识，促进跨学科协作，并优化用户界面以增强用户体验，推动医疗服务向智能化、精准化和个性化的方向发展，为患者提供更高质量的诊疗服务。

数字人在人工智能与医疗健康深度融合的时代，智慧医院正逐渐成为医疗服务创新发展的新方向。数字人在医院场景中的应用日益广泛，潜力巨大。3D数字人技术的开发与应用，并将其引入智慧医院场景，让人工智能的智慧更具象。技术实现3D数字人涉及多个模块，可以概括为建模、驱动、渲染以及应用四大步骤。数字人在实际应用中展现出复杂的交互流程和多个技术综合运用的能力。下图展示了数字人的技术框架。在应用端，用户通过输入文本或音频与系统交互。交互中心负责将输入内容统一转换为文本，并通过大语言模型服务生成相应的回答，同时进行情感分析，最终获取到情感分

类和回答内容的音频，以驱动后续的表情和动作生成。3D渲染中心负责通过音频和情感分类，驱动数字人的口型、表情和动作，最终在3D场景中渲染出数字人的形象，并通过推送像素流的方式展示在用户端。应用端应用端技术创新

图6.数字人整体技术架构图输入推送像素流输入推送像素流3D渲染中心综合渲染情感分类回答内容音频文字转语音服务语音转文字服务音频服务音频交互中心表情动作服务情感分析服务大语言模型服务口型驱动服务文本3D场景与数字人通过正面照自动生成3D人物头部模型并利用MetaHuman及情感分析技术，实现音频同步口型动画与表情控制，驱动丰富表情和肢体动作；使用UE5结合像素流技术，确保多终端下高质量实时渲染与互动；云端部署交互与渲染任务，降低终端硬件要求，支持跨平台流畅访问数字人画面。应用示例

流程耗时且重复性强，通过技术手段优化预问诊环节，减少医生负担，提升患者就诊效率，成为智慧医院的重要环节。为此，我们基于WiNGPT设计实现了数字人预问诊系统，模拟医护人员的预问诊流程，通过与患者的语音或文字互动，收集病史、初步症状，为医生诊断提供辅助参考。患者可文字或语音输入，WiNGPT提供的问诊助手将生成回答文本，再通过数字人服务端进行转换，实时驱动数字人进行口播以及动作和表情的展示。丰富患者交互体验的同时，也增强了问诊过程的亲和力与沉浸感。图7.我们在WiNGPT-2.6模型发布时，使用数字人在虚拟场

通过数字人在3D场景中的生动演示，宣教和培训内容景中介绍WiNGPT的相关内容，并生成内容短视频，进行传播与分享。我们希望通过这种方式让更多人直观形象地了解WiNGPT的功能与价值。在此案例中，我们构建了3D场地、显示大屏以及不同视角的变化。同时，还准备了WiNGPT内容的相关素材，涵盖图片、视频、文字稿件。同时，我们将需要讲述的文字稿与展示素材内容进行对应，并按照介绍内容的顺序整理。随后，将文件上传至此项目服务中，系统便能自动生成数字人介绍的WiNGPT的视频。【扫码看数字人】此实例可以进一步扩展应用于智慧医院的数字人宣教与培训，如健康知识科普、疾病预防讲解以及医疗设备使用培训等场景。

将更加直观、易懂，提升医护人员技能和患者健康素养的同时，降低了培训成本，优化了智慧医院的教学与宣教流程。扫一扫，观看视频目前，我们正在探索通过生成式AI生成数字人，即利用照片、音频和动作进行训练，以实现数字人的快速生成。与此同时，我们也在持续加强3D数字人的开发和应用。展望未来，由生成式AI生成的数字人将能快速应用于短视频创作，并结合3D数字人技术，实现高精度、强交互的场景，为智慧医院建设提供更强大的技术支撑。启示2024年，除了上述关键技术之外，我们在实践过程中还获得了以下启示：充分训练的语言模型中，每个参数可以存储约2算模型所需要的数据量。训练数据中若存在低质量数据，会严重损害模型模型的深度对于推理能力至关重要，因为推理过程需要多步的内部计算的支持。在预训练数据中加入带错误和纠正标记的数据，可以显著提高模型的推理能力。利用合成数据训练语言模型是未来的重要研究方向，有助于突破现有模型的局限性。测试时间训练Training）是下一个技OpenAIo模型评估-WiNEval经过过去一年的精心雕琢，WiNGPT的专业能力和可靠性取得了长足的进步。尤其在医学考试和医学场景下，更

是超过了多个通用领域大语言模型以及医疗领域大语言模型。在此背景下，WiNEval测评方案引入更多新元素以适应WiNGPT的快速成长。新思考：WiNEval在医学大语言模型评估方面取得了一定的进展，尤其在医学考试、医学场景和指令遵循等类型问题的覆盖上。然而，WiNEval在评估指标上仍显单一，部分场景缺乏客观标准。此外，虽然覆盖了广泛医疗场景，但在一些细分领域的专项评估上仍不深入，未能全面反映模型在特定任务中的差异。同时，医疗数据复杂且扩展困难，使得数据量问题成为亟待解决的关键挑战。新特性：WiNEval构建专项数据集。它采用了多维度的评价方式，涵盖客观评以确保评估的全面性和准确性。WiNEval新构成：WiNEval的实现基础在于精心构建的数据集，这些数据集覆盖了医疗领域的多个关键方面，确保了评估的全面性和深度。其中，综合评估数据集包括MCKQuiz、MSceQA、MInsFL，而专项评估数据集则以MDSE为代表，这是一个基于真实医疗场景构建的数据集，聚焦于专业人员关注或亟需AI辅助的医疗任务。目前，MDSE包含七个专项数据集，每个数据集针对特定的医疗任务进行了精心设计。评估集数据量评价指标评估内容MCKQuiz12785Micro-F1医学专业考试MSceQA395LLMJudge多医学场景能力MInsFL156LLMJudge医疗指令遵循MDSE1600医疗专项评估CMedPD500Micro-F1初步诊断阶段的逻辑推理能力CMedCQC550Accuracy病历质量控制的专业能力CMedTP200LLMJudge制定诊疗计划时的逻辑推理能力CMedAE100Micro-F1辅助检查生成的专业能力CMedMK50LLMJudge医学知识问答的专业能力CMedICD100Accuracy疾病编码标准化的标准化能力CMedBM100Micro-F1出院带药指导的专业能力表1.WiNEval数据集说明效果型的表现存在明显差异，不同模型在专业能力、场景适应性WiNEval通过模块化设计的数据集和指标，全面评估了大语言模型在不同任务和场景中的表现。综合评估显示，模

以及任务执行效果上展现出各自的优劣势。表2展示了多个大模型在WiNEval上的具体得分及其综合平均值。ModelMCKQuizMSceQAMInsFLMDSEAvgQwen2.5-32B-Instruct85.4386.6894.2375.9485.57Yi-1.5-34B-Chat82.0382.0484.2379.1981.8725Qwen2.5-72B-Instruct85.587.929082.8687.57WiNGPT-2.786.687.9891.3583.3387.315表2.不同大语言模型在WiNEval上的评估结果大语言模型幻觉是WiNEval评估框架中的一项重要指标，反映了模型在医疗任务中生成真实、可靠回答的能力。通过该评估的得分，能够评估模型生成结果中是否含有不符

合医学事实的幻觉。得分越高，意味着模型的幻觉率越低，即其生成的回答更加贴近医学实际。图8展示了多个大模型在WiNEval上幻觉可靠性结果。78.4876.4676.2078.4876.4676.2061.77757065605550 WiNGPT-2.7

Q-t2B

3it

Q-t2B图8.多个大语言模型在WiNEval上的可靠性对比为了更加直观地展示各模型的能力对比，我们采用了模型竞技对比的形式，并根据结果将数据划分为WIN（胜）、DRAW（平）、LOSS（负）三种情况。其中，WIN表示左侧模型在模型两两对比中获胜的次数，DRAW表示

左右模型在任务中表现平分秋色，LOSS表示左侧模型失败的次数。图9展示了多个大语模型在WiNEval上的竞技对比结果。Win Draw LossWin Draw Loss

图9.多个大语言模型和WiNGPT在WiNEval上的对比

Q-t3it1161631165513720364191140Q1161631165513720364191140专项数据集（MDSE）通过雷达图清晰地展示了模型在具体任务中的能力分布。通过对比不同多边形区域的重叠情况，可以直观地看出不同模型在各个维度

上的优劣势，图10展示了多个大语言模型在WinEval-MDSE子集上的能力分布。CMedPD

CMedBM

Qwen2.5-72B-InstructQwen2.5-72B-InstructQwen2.5-32B-InstructYi-1.5-34B-ChatWiGPT-2.7CMedAECMedCQCCMedTPCMedICD

CMedMK图10.多个大语言模型在WiNEval-MDSE子集上的评价根据医疗场景的横向维度（入院、病程、出院）和模型能力的纵向维度（专业能力、逻辑推理、标准化），我们通过热力图的形式展示了模型在这些交叉维度上的表现情77.277.276.988.988.887.2

况。这种方式不仅能直观地对比不同模型在交叉维度上的优劣，还能支持数据的灵活扩展。图11展示了多个大模型在WiNEval-MDSE下各交叉维度的能力。Qwen76.8Qwen76.82.5-32B-Instruct75.183.586.066.7Polonaliilgir

Admission

80604020Discharge 0

PolonalAverageScoreiilAverageScoreir

Admission

80AverageAverageScore4020Discharge 0Polonaliilgir

Admission

Discharge

100Yi-75.9Yi-75.91.5-34B-Chat75.482.884.979.7AverageAverageScore40200

Polonaliilgir

Admission

Discharge

100Qwen77.5Qwen77.52.5-72B-Instruct79.687.286.685.8AverageAverageScore40200图11.多个模型结果的热力图呈现下一步，我们将持续丰富和完善WiNEval测试方案。继续丰富专项评估：未来，WiNEval将继续专注医疗领域，并通过丰富专项评估，从真实的医疗场景中构建更多专业人员关注的专项数据，提升对细分领域和特定任务的评估能力。开展多模态医疗评测：随着医疗AI进入多模态领域，WiNEval将致力于构建覆盖文本、影像、生物信号等多种数据形式的综合评测体系。对外开放评测体系：WiNEval计划逐步对外开放评测体系，允许更多医疗大语言模型和研究人员使用其框架进行独立评估。

小结我们从数据、模型、训练以及评估四个维度对2024年WiNGPT的发展进行了详细的介绍。高质量的数据为模型提供了丰富的学习素材，使WiNGPT能够理解并生成更加自然和精确的语言内容；先进的模型架构赋予了它强大的处理能力和灵活性；创新性的对齐训练策略增强了模型的学习过程，确保其性能达到最优；全面且严谨的WiNEval评估体系则提高了模型的可信度。WiNGPT私有化部署方案目前，越来越多的医院提出WiNGPT部署的需求，对技术和运维带来了不少挑战，如推理硬件资源要求高、运维复杂、安全性、隐私性等。为了应对挑战，我们结合最新的开源项目与技术设计实现了WiNGPT私有化部署方案，包括模型文件加密、模型量化、推理性能优化、推理框架选型定制化等工作，并初步完成了模型国产化适配探索。WiNGPT私有化部署方案高性能与稳定性推理框架：在生产环境中，支持多用户高并发需求的高效推理框架至关重要。开源推理框架凭借高效的KV-Cache管理（Paged-Attention）、先进的推理优化方案、活跃的社区支持以及广泛的量化模型兼容性，显著提升了推理效率vLLMTGI确保灵活部署和优化性能。OpenAI接口处理模式，显著提升产品的适配性和规范性。

量化方案：大语言模型参数量往往巨大，我们选择先进的AWQ量化方案，将模型压缩到一张显卡上。AWQ技术1AWQ4bit用效果的前提下，将GPU4安全性医院进行私有化部署时，模型权重和代码将完全转移至医院环境。此时，大语言模型加密将成为维护自身知识产权安全的关键环节。通过采用非对称加密RSA算法，我们实现了一种大语言模型权重的加密算法以及一整套加密方案，不仅保障了模型的安全性，同时确保了与现有推理框架的兼容性、加解密效率及模型精度。基于开源推理框架TGI和vLLM，我们二次开发了令牌技术机制以控制模型推理服务。服务启动时，先从配置文件获取并验证令牌，验证成功后解密加载模型权重，完成服务初始化。用户请求时，同样需通过令牌验证，确保请求合法性后，才基于已启动的服务生成响应内容。此机制保障了服务的安全性和可控性，详细流程参见图。WiNGPT私有化部署方案失败令牌验证成功令牌授权和解密启动流程退出令牌授权和解密启动流程退出令牌授权和请求服务流程成功失败生成内容退出令牌验证生成服务请求体令牌权重加载权重解密令牌获取服务启动模型权重license信创小结在国家信创战略步伐加快的背景下，2024WiNGPT（我们测试了WiNGPT在不同国产平台上的稳定性和性能，并获得相应厂商的证书认证。此外，完成了在上海某三甲医院的国产化系统落地。GPU力其信创工作的实施。

WiNGPT10WiNGPT开源之路202435，WiNGPT27B14B模的量化模型权重，进一步拓展了其在医疗领域的应用。WiNGPT开源之路2024424Llama3WiNGPT2型发布，不断丰富开源内容。2024815Gemma-22024年12月，我们的两大开源项目相继发布：WiNGPT-Babel（巴别塔）：一个基于Qwen2.5-1.5B大语言模型开发的翻译应用。采用human-in-the-loop数据生产策略，即使用少量数据进行初步训练，然后通过APIrejectionsampling，并辅以人工审核以确保数据质量。经过几轮迭代训练，模型性能逐步提升，直至达到预期水平停新闻、研究成果和视频字幕等场景。

windata-vision-synthetics-zh-300k：一个包含约30万条数据和20万张图片的中文多模态图文指令数据集，涵盖文档、图表、数学、OCR等场景。针对开源数据中的中文图文指令集少、指令集描述简短等问题，我们设计了一种基于开源模型的合成数据生成方法。首先，利用开源多模态模型生成详细的中文caption指令集，随后在同一场景中随机挑选1-4张图片及其对应caption，输入至WiNGPT-2.6模型，通过系统指令使其每轮提问，再将问题和图片反馈给多模态模型进行回答。最后，设定循环次数，生成多轮多图对话数据。数据经过严格过滤和多样性设计，确保最终数据集详实且高质量。开源项目地址：https://huggingface.co/winninghealth/winninghealth/WiNGPT2https://huggingface.co/winninghealth/WiNGPT-Babelhttps://huggingface.co/datasets/winninghealth/windata-vision-synthetics-zh-300k研究WiNGPT临床评价研究背景WiNGPT临床评价生成式模型特别是垂直领域的大语言模型开发，在学术界与工业界正处蓬勃发展之势。然而大语言模型究竟给医生带来了怎样的实际体验？我们应该如何评价生成式模型的效果？为探究这些问题，卫宁健康与上海市第一人民

医院解学乾教授团队共同展开了WiNGPT在影像系统中使用的临床评价方法研究，研究成果已发表于影像学顶刊《Radiology》。研究表明，WiNGPT生成的结论在科学术语、连贯性、诊断、鉴别诊断、随访建议、正确性、全面性、无害性和无偏见等方面的表现均良好。图1.文章所在网页截图WiNGPT临床评价研究方法放射科医生记录了影像学检查所见，WiNGPT生成包括多种2023年8月2日至31日，上海市第一人民医院6名放射科医生记录了影像学检查所见，WiNGPT生成包括多种2023年8月2日至31日，上海市第一人民医院6名大语言模型生成的结论与最终放射科医生结论不同的病例。通过定义一个子集，排除相同和高度相似的病例，调查2.

放射学检查（CT、MRIX）和解剖部位（和关节、脊柱、乳房）的报告结论，并由医生进行校正。二、构建基于ACR的临床评估框架为了更客观的评价大语言模型生成的报告结果，我们基于美国放射医师学会的放射学临床实践，构建了评估框架。

语言评估框架用于评估三个领域的放射学影像质量，包括文本、标准化和临床应用。专家小组基于该框架进行满分为5分的李克特（Likert）评分。域和维度解释文本科学术语结论使用合适和科学的医学术语。一致性结论是关于一个主题连贯和理性的信息。WiNGPT临床评价标准化诊断只要有可能，给出疾病、健康状况或特定放射学征象的具体诊断。鉴别诊断在适当的时候，提供相关的鉴别诊断。随访建议在适当的时候，建议进行随访或额外检查，以澄清或确认结论。临床应用正确性影像学发现支持了这一结论。全面性结论是全面的信息，与影像学所见一致。无害性不会以对身体或情感有害或无意中改变治疗或依从性的方式进行解读。无偏见不会引起潜在的偏见（这可能会导致误解）。三、使用GPT-4进行评价WiNGPT医生最后写出的影像结论进行评价用于对比。结果由2对评价不一致的结果进行最终审核。对大语言模型生成的结论或者是医生最终报告结论，分（1=强烈不同意，2=不同意，3=中立，4=同意，5=烈同意）。结果表明，专家小组并不能明确区分结论是由WiNGPT研究结果上海市第一人民医院的研究测试集中包括3988名患者的数据（中位年龄，56岁[IQR，40-68岁]；2159名男性）。以最终结论为参考标准，大语言模型生成结论的召回率、精确度和F1得分的中位数分别为0.775（IQR，0.56-1）、0.84（IQR为0.611-1）和0.772（IQR：0.578-0.957）。测试集生成的子集中的1014（中位年龄，57]；528），WiNGPT的总体专家小组得分中位数为范围从

到5。具体情况如下：（），WiNGPT表现出色，1011（99.7%）985（97.1%）获得了良好的分数（≥4）。在标准化领域（诊断、鉴别诊断、随访建议），分别获得647例（63.8%）、993例（97.9%）和856例（84.4%）的良好评分。在临床应用领域（正确性、完整性、无害性、无偏见），WiNGPT分别在716例（70.6%）、705例（69.5%）、892例（88.0%）和1014例中（100%）获得了良好评分。在以上除诊断外的八个维度上，专家组同意或强烈同意69.5%（1014例中的705例）的WiNGPT生成的结论。结论本研究针对具体的临床问题和模型特点，构建符合计算机标准的临床评价方法，进一步将技术和医疗融合，全面评估大语言模型在医疗特定领域的适用性。在该研究中，WiNGPT可以生成专业和语言上适用多种放射学模式和解剖部WiNGPT在胸片领域的应oE）技术研究背景WiNGPTMoE-CXRCLIP-CXR架构。经验证，该架构下仅激活30亿参数，即可完成临床

胸片诊断任务。MoE-CXR42万条图像文本数据的预训练，以9.1VQA和开放式VQA，在对应的公平测试集CXR-Bench上，MoE-CXR争力。在开放式问答的PubMedBert-F1指标上，MoE-CXR85.33技术路线数据储备丰富的数据储备往往比精心设计的模型结构更加重要。我们搜集了两种数据类型供模型训练，第一种为多疾病0-1

8241CLIP-CXR的对比学习训练。第二种为胸片视觉语言指令数据，在MoEChatbot429.1VQA表1.CLIP-CXR训练数据（二值标签）数据集名称样本数标签种类数MIMIC-CXR24323113CheXpert19140913NIH-ChestX-ray11512013PadChest8907526Kaggle-COVIDx-CXR-4848181CRADI8398518VinDr-CXR1800027Tuberculosis-shenzhen6621SUM83211941表2.多模态大模型预训练和微调数据（指令）数据集名称样本数阶段采样比例MIMIC-CXR-REPORT218043预训练0.10CheXpert-Plus191071预训练0.10ROCO-CXR5703预训练1.00MedICaT-CXR5008预训练1.00PMC-VQA-Pretrain-CXR1523预训练1.00SUM421348--CXR-PRO31643微调0.10Medical-Diff-VQA63047微调0.1VQA-RAD-CXRVQA-Med-2019-CXR607971微调微调1.001.00PMC-VQA-Finetune-CXR1523微调1.00LLaVA-Med-CXR5611微调1.00SUM91960--模型结构MoE-CXR模型结构主要包含两大部分。首先，我们基于OpenCLIP[1]构建了CLIP-CXR视觉编码器，采用ViT-L/14模型结构，通过对比学习提取胸部X光片特征。然后，我们训练了一个MoEChatbot。以MoE-LLaVA[2]为基准，实现2:aMoEChatbot Sub-stage1:VisionLanguageAlignment lymphadenopathy ImageCaptionooiasiifai lymphadenopathy LLM

如图的三阶段微调。在视觉语言对齐阶段，利用MLP将视觉特征映射到语言潜在空间；在多任务微调阶段，实现基础MoE通过路由选择top2专家进行前向推理，优化模型效率和性CXRSub-stage2:Multi-taskFine-tuningAdd&NormGPT:No.Add&NormFFNAdd&Normimage?MLPCLIP-CXRimage?

Tokenizer&EmbeddingUser:Plis.cribePrompt

theneefffilihis

Self-AttentionMLPCLIP-CXRoiirMLPCLIP-CXRSub-stage3:MoELayer LLM Add&Norm

copyweights

GPT:ProximalMoEFFM2FFM1RouterAdd&NormhumeralMoEFFM2FFM1RouterAdd&NormhumeralFFNMLPCLIP-CXRAdd&NormMLPCLIP-CXR

Mcopyweightsft

Tokenizer&

...Add&NormSelf-AttentionAdd&Norm

FFMnpe?the

Embedding图1.MoE-CXR整体结构图，训练方案包含：视觉语言对齐、多任务微调以及MoE层微调三个部分。模型表现为了在胸片领域评估大模型的能力，我们设计了一个CXR-Bench作为评估方案。采用较高质量的胸片数据或者开源数据测试集，包含开放式VQA任务。通过将MoE-CXRLLaVA-Med[3]等，我们发现，即使MoE-CXR使用更少的激活参数，与其他同参数量甚至更多参数量表3.多个模型在胸片开放式VQA上评测集上的结果

的稠密模型相比，其在多种任务上都有较优表现。VQABert-scoreF1相比于其他模型均有提升。打分也显示，MoE-CXR件受限或需要低成本推理的情况下，MoE模型激活参数稀疏？MeteorRouge-LPMB-F1BBU-F1Med-flamingo8B×20.7327.9580.5353.85LLaVA7B×30.3735.7684.3764.29LLaVA-Med7B×34.3638.9084.7864.86MoE-LLaVA3B23.9928.2782.8459.48MoE-CXR3B30.8439.1685.3366.24结论研究表明，MoE

大量胸片指令集预训练和微调下，其准确度可以持平甚至超过现有的开源医学多模态大模型，并使用更少的激活参数，进一步节省资源。案例2024年，大语言模型正以前所未有的速度和深度渗透到各行各业，推动着传统产业的转型与升级。从金融、教育到法律和零售，AI正帮助企业优化流程、提高自动化水平、增强数据洞察力，并提供强大的智能支持。在医疗领域，大语言模型日益成为推动医疗管理和服务模式变革的重要力量。本章节将通过五个典型案例，深入探讨大语言模型、RAG、Agent等技术如何在实际应用中提升医疗服务的效率与精度，推动行业的智能化转型与创新。最佳实践探索案例背景WiNEXCopilot（Copilot）累，Copilot作效率和医疗服务质量。电子病历生成使用大语言模型生成出院小结，如果仅仅一次性输入患者所有电子病历内容后直接生成出院小结，由于完整病历内容往往较长，会限制模型对体征信息、诊疗经过、术后反应等重要信息的提取与总结。我们通过数据预处理、指令微调等方式，确保生成的内容更符合临床思维和质控要求。一、数据预处理

通过区分不同数据元素类型如同步类、提取转摘要类等，Copilot首先会同步生产环境中与待生成文书相关的数据，其次将现病史、体征、辅助检查指标等作为数据提取转摘要类（注意不同摘要重点不一，以高质量出院小结书写规范作参考）。二、基于指令微调生成诊疗经过（然后进行指令微调，并在提示词中加入few-shot调优。三、评价指标ROUGE（评估指标）率。急诊就诊。急诊就诊。前完善头颅增强MR3（2024-11-21），出院后定期监测血常规、生化情况，不适及时门kg，500mg）静脉化疗及抗血管生成治疗，过程顺利，给药后未诉发热，及恶心、呕吐，胸闷、呼吸困难等不适，考虑药物耐受可。患者目2024-10-31（7.5mg/患者中老年女性，肺腺癌诊断明确，既往应用阿来替尼、布格替尼、洛拉替尼靶向治疗效果均不佳，考虑存

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年医疗人工智能年度报告生成式AI：重新审视

文档简介

温馨提示

最新文档

评论

2024年医疗人工智能年度报告生成式AI：重新审视

文档简介

温馨提示

最新文档

评论

相关文档