CN119397283A 医学语言模型构建方法、设备、存储介质及产品 (北京智源人工智能研究院)_第1页
CN119397283A 医学语言模型构建方法、设备、存储介质及产品 (北京智源人工智能研究院)_第2页
CN119397283A 医学语言模型构建方法、设备、存储介质及产品 (北京智源人工智能研究院)_第3页
CN119397283A 医学语言模型构建方法、设备、存储介质及产品 (北京智源人工智能研究院)_第4页
CN119397283A 医学语言模型构建方法、设备、存储介质及产品 (北京智源人工智能研究院)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本申请公开了医学语言模型构建方法、设所述方法包括获取对通用预训练数据集中的数型;根据高质量医疗数据集和开源医学SFT数据解决了传统方法忽略在CPT阶段数据构建的重要2对所述通用预训练数据集中的数据进行领域分类和质量过滤,得到高质量医疗数据将所述高质量医疗数据集与所述通用预训练数据集中的部分数根据所述开源医学SFT数据集构建第三样本数据集;利用所述第三样本数据集对所述根据所述开源医学SFT数据集构建偏好样本数据集,利用所述偏好样本数据集对第三采用第二语言模型对所述第四样本进行质量评分,并根据质量评分6.根据权利要求1所述的医学语言模型构建方法,其特对所述开源医学SFT数据集中的每个对话进行多维3;其中,Lg(t]H)表示开源医学SFT数据集中每个对话在第i个轮次的条件信息分数,表示开源医学SFT数据集中每个对话在第个轮次的内容信息,表示开源医学SFT数据集示第i个轮次的第j个token,表示给定历史内容信息H和第i个轮次的前j-1个token时生成第j个token的概率,表示参数;;;其中,CF(H,ta)表示开源医学SFT数据集中每个对话在第个轮次的影响因子;根据所述第一有效对话和所述第二有效对话构建第三样本7.根据权利要求1所述的医学语言模型构建方法利用第二语言模型对所述开源医学SFT数据集中不具有正确回复的查询进行回复,得利用所述第三训练模型对所述开源医学SFT数据集中不具有正确回复的查询进行回利用所述第二语言模型对每个不具有正确回复的查询的第一回复和第二回复分别进根据每个不具有正确回复的查询的第一回复的第一评分和第二回复的第二评分确定对所述开源医学SFT数据集中具有正确回复的查询,选定正确回复作为具有正确回复序/指令被处理器执行时实现如权利要求1_7中任一项所述医学语言模型构建方法中的步4处理器执行时实现如权利要求1_7中任一项所述医学语言模型构建方法5法学硕士开源模型)。然而,这些模型中的大多数仅依赖于监督微调(SupervisedFine_6根据所述开源医学SFT数据集构建第三样本数据集;利用所述第三样本数据集对根据所述开源医学SFT数据集构建偏好样本数据集,利用所述偏好样本数据集对利用领域分类器对所述通用预训练数据集中的数据进行领域分类,得到医疗数对所述开源医学SFT数据集中的每个对话进行多维;其中,Lg(t]H)表示开源医学SFT数据集中每个对话在第个轮次的条件信息分7表示第i个轮次的第j个token,表示给定历史内容信息H和第i个轮次的前j-1个token时生成第j个token的概率,表示参数;;;根据所述第一有效对话和所述第二有效对话构建第三样本利用第二语言模型对所述开源医学SFT数据集中不具有正确回复的查询进行回利用所述第三训练模型对所述开源医学SFT数据集中不具有正确回复的查询进行利用所述第二语言模型对每个不具有正确回复的查询的第一回复和第二回复分根据每个不具有正确回复的查询的第一回复的第一评分和第二回复的第二评分对所述开源医学SFT数据集中具有正确回复的查询,选定正确回复作为具有正确回复的查询的选定答案,从具有正确回复的查询的剩余回复中随机选择一个作为拒绝答[0013]第三方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面所述医学语言模型构建方法中的程序/指令被处理器执行时实现本申请如第一方面所述医学语言模型构建方本申请利用第一样本数据集对第一语言模型进行稳定CPT,解决了通用数据与特8图3为本申请实施例中第三训练模型CareBot_Chat与各种基线在单轮对话基准图4为本申请实施例中医学语言模型CareBot_Chat(RL)与各种基线在单轮对话的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施9本删除,保留的36k数据及其标签用于对通用向量模型BGE_M3进行训练,以得到领域分类过滤方法和基于LLM的数据质量过滤方法对医疗数据进行质量过滤。基于规则的数据质量[0027]为了解决这些问题,本申请采用基于LLM的数据质量过滤方法一次质量过滤后的通用向量模型BGE_M3进行训练,得到质量评估模型DataRater;利用质量评估模型定属性等方面。质量评估模型DataRater有效地减轻了数据偏差,确保了第二训练模型模型在专注于医学知识的同时保持并增强其一般语言理解能力。本实施例中,第一语言模型选用LLaMA3_8B模型。从复杂性和响应质量两个维度对开源医学SFT数据集中的每个对话进行评分;根的情况下连续预测当前轮次中的下一个标记来计算医学SFT数据集中每个对话的历史内容信息N表示第i个轮次的表示第i个轮次的第j个token,表示给定历史内容信息H和第i个轮次的前j-1个token时生成第j个token的概率,表示参数。本申请将LO(t:IH)定义为条件信息分数,用来衡量在相应历史信息的指导下生成当前轮次的(2其中,Lg(t)表示开源医学SFT数据集中每个对话在第个轮次的直接信息分数。本申请认为更高的直接信息分数可能表明转弯更具挑战性或更复杂。最后,通过计算Lg(t)与LO(t:IH)之间的比率来估计影响因子CF:其中,CF(H,ta)表示开源医学SFT数据集中每个对话在第个轮次的影响因子。[0045]本申请提出的ConFilter方法旨在衡量多轮之间相关性的指标,有助于过滤多轮[0046]将单轮医学对话选出的第一有效对话和多轮医学对话选得的基础能力,本申请使用与开源医学SFT数据集具有相同分布的样本构建主观偏好数据不具有正确回复的查询,利用第二语言模型以专业且乐于助人的医生身份对其进行回复,询的第一回复的第一评分和第二回复的第二评分确定每个不具有正确回复的查询的偏好机选择一个来作为拒绝答案。个常见的医学基准上评估第二训练模型CareBot。考虑到本申请是训练一个在中文和英文上都表现良好的医学语言模型,在努力提高中文医学能力的同时,确保模型的英文医学能有下降。这是意料之中的,因为本申请的基础模型LLaMA_8B已经具备很强的英文能力。然二训练模型获得了显著的收益。这证实了本发明的稳定CPT和增强CPT有效地将医学领域知MedAlpaca高出8.81分。对于中文基准CMB和CMM先天优势。因此,它在中文方面的表现符合预期。但从平均成绩来看,第三训练模型[0058]图3展示了本申请的第三训练模型CareBot_Chat与各种基线在单轮对话基准于它们有限的中文能力和不足的医学SFT数据。值得注意的是,Zhongjing结合了预训练、更大的模型表现更差。然而,观察到本申请的模型仅在Huatuo_Eval框架中与HuatuoGPTll_7B竞争。在图4中,将本申请的医学语言模型Car较,并且基本实现了与CareBot_Chat相同的性能。图4中的数字是本申请的医学语言模型本申请高质量的SFT数据集和多轮医学对话选择方法的有效性,显著增强了模型的上下文4.944.213.984.044.294.943.283.224.192.262.632.054.352.183.292.954.482.452.173.553.164.964.274.034.994.674.204.264.534.964.704.314.344.584.783.75.4.014.084.693.253.084.003.763.142.142.572.582.273.792.103.092.704.753.433.434.223.964.824.203.684.164.224.744.284.014.214.31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论