CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）

上传人：1*** IP属地：山西上传时间：2026-06-30 格式：DOCX 页数：70 大小：1.12MB 积分：9.6 举报 版权申诉

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）_第2页

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）_第3页

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）_第4页

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）_第5页

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了一种语义标签确定模型的构标签确定模型能够针对一个病历文本数据进行够比较准确地描述出该病历文本数据中至少一标签信息确定的该病历文本数据的语义解析结携带的语义信息，如此有利于提高语义解析效2根据所述样本病历文本和待训练模型，确定所述样本病历文本的预测语义标签信息；根据所述预测语义标签信息和所述实际语义标签信息，更新所述述语义标签确定模型中不同专家编码网络在进行专家编码处理时所擅长处理的语义解析所述根据所述预测语义标签信息和所述实际根据所述预测语义标签信息、所述实际语义标签信息、所述多难度表征数据低于难度阈值，所述第三候选类型信息中标签频次表征数据高于频次阈值，将所述待使用文本编码结果输入第m个专家编码网络，得到所述第m将所述待使用文本编码结果输入所述专家权重确定层，得到所述将所述M个专家编码结果和所述M个专家编码网络对应的预测专家权重值输入决策层，得到所述决策层输出的所述样本病历文本的预对所述样本病历文本进行预设划分处理，得到至少一个样本片段；将3依据至少一个参考病历文本的实际语义标签信息，对所述实际根据所述预测语义标签信息和所述实际语义标签信息，确定所述根据所述多个专家编码网络对应的先验专家权重值和所述多个专家编码网络对应的根据所述样本病历文本的语义预测损失值和所述将所述第m个专家编码结果输入所述专家决策网络，得到所述专将M个专家决策结果和所述M个专家编码网络对应的预测专家权重值输入决策融合网根据所述M个专家决策结果、所述M个专家编码网络对应的预测专根据所述第m个专家决策结果和所述实际语义标签信息，确定第m个专家决策损失值；根据M个专家决策损失值和所述M个专家编码网络对应的预测专家根据所述第m个专家决策结果、所述实际语义标签信息、以及的网络损失函数中惩罚因子不同于所述M个专家编码网络中除了所述第m个专家编码网络4将所述第m个专家编码结果与第k个候选语义标签的字符特征向量进行向量点积处理，对所述第m个专家编码结果的第1个标签归属概率信息至所述第m个专家编码结果的第将所述样本病历文本输入所述文本切分层，得到所述文本切分将所述至少一个文本片段输入所述文本编码层，得到所述文本将各个所述文本片段输入所述第一编码网络，得到所述第一编将所述至少一个文本片段的初步编码结果输入所述第二编码网络，将所述至少一个样本片段输入所述待训练模型，得到所述待训根据所述待处理病历文本和语义标签确定模型，确定所述待处理根据所述待处理病历文本的预测语义标签信息，确定所述待处理病息包括所述待处理病历文本中至少一个待处所述根据所述待处理病历文本的预测语义标签信息，确定所述待处5按照预设整合规则，对所述至少一个待处理片段的片段语义标签信息进行整合处理，根据所述至少一个待使用片段的片段语义标签信息，确定所述待根据所述待处理病历文本的语义解析结果和预设病历字段齐全条件第一确定单元，用于根据所述样本病历文本和待训练模模型更新单元，用于根据所述预测语义标签信息和所述实际语义待训练模型，并返回所述第一确定单元继续执行所述根据所述样本病历文本和待训练模进行专家编码处理时所擅长处理的语义解析方重集合之间的对应关系，所述第一候选类型信息中标签确定难度表征数据达到难度阈值，第二确定单元，用于根据所述待处理病历文本和语义标签确第三确定单元，用于根据所述待处理病历文本的预测语义标6所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令所述处理器执行时使所述处理器执行权利要求1至12任一项所述的语义标签确定模型的构当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至12任一项所述的语得所述终端设备执行权利要求1至12任一项所述的语义标签确定模型的构建方法，或者执7[0014]第一获取单元，用于获取样本病历文本和所述样本病历文本的实际语义标签信8供的语义标签确定模型的构建方法任一实施方式当被所述处理器执行时使所述处理器执行本申请实施例提供的语义标签确定模型的构建签信息，构建语义标签确定模型，以使构建好的语义标签确定模型具有较好的语义标签确定性能，从而使得该语义标签确定模型能够针对一个病历文本数据(例如，待处理病历文本)进行比较准确地语义标签确定处理，进而使得利用该语义标签确定模型确定的预测语有利于提高针对病历数据的语义解析效果。9义标签确定模型的构建方法以及一种病历解析方法，其具体包括：先利用样本病历文本和该样本病历文本的实际语义标签信息，构建语义标签确定模型，以使构建好的语义标签确定模型具有较好的语义标签确定性能，从而使得该语义标签确定模型能够针对一个病历文本数据(例如，待处理病历文本)进行比较准确地语义标签确定处理，进而使得利用该语义标签确定模型确定的预测语义标签信息，能够比较准确地描述出该病历文本数据中至少一请实施例提供的语义标签确定模型的构建方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(PersonalDigital[0044]参见图2，该图为本申请实施例提供的一种语义标签确定模型的构建方法的流程的对应关系”是指病历文本数据中一个字符串与该字符串的病历内涵信息之间的对应关规范地表示该样本病历文本中各个字符串的采用下文方法实施例二所示的待训练模型的任一种实施方[0065]另外，为了提高文本划分效果，可以借助机器学习模型[0070]基于上述S2022的相关内容可知，在获取到至少一个样本片段(例如，图4所示的采用现有的或者未来出现的任一种模型损失值计算方法(例如，基于交叉熵的损失值计算型的构建方法来说，在获取到样本病历文本和该样本病历文本的实际语义标签信息之后，得该待训练模型能够从该样本病历文本及其实际语义标签信息中学习到语义标签确定规输出的待使用文本编码结果，以使该待使用文本编码结果包括F个样本片段的文本编码结片段的初步编码结果中除了第f个样本片段的初步编码结果以外的其他至少一个样本片段片段的文本编码结果能够表示出该样本病历文本[0104]在第二种可能的实施方式中，如图5所示，当待训练模型300还包括文本切分层再利用文本编码层301针对这些文本片段进行编码处理，得到这些文本片段的文本编码结编码网络的输入数据进行专家编码处理；而且本申请实施例不限定“第m个专家编码网络”性能不同，以使不同专家编码网络在进行专家编码处理时所擅长处理的语义解析方向不确定难度比较小)且所涉及的字段名比较少见(也就是，字段名出现频率比较低)的病历文[0117]第m个专家编码网络对应的预测专家权重值用于表示上述“第m个专家编码结果”络预测的该样本病历文本中至少一个字符串的字段信息包括第k个候选语义标签的可能“文本片段”)的字段信息包括第k个候选语义标签的可能性；表示第m个专家编码结[0134]步骤62：对第m个专家编码结果的第1个标签归属概率信息至该第m个专家编码结m个专家编码结果的第K个标签归属概率信息之后，可以将这K个标签归属概率信息进行集[0136]基于上述步骤51的相关内容可知，对于待训练模型300来说，在由该待训练模型300中第m个专家编码网络针对样本病历文本确定出第m个专家编码结果之后，可以由该待训练模型300中专家决策网络针对该第m个专家编码结果进行解码处理，得到第m个专家决[0143]基于上述步骤21至步骤24的相关内容可知，对于图3所示的该待训练模型300可以先借助各个专家编码网络分别进行各个专家方面的单独决策；再参考所有单独决策结果进行综合决策，以使综合决策结果能够更好的表示出该待训练模型300的输入数据中各个字符串(例如，各个样本片段或者各个文本片段)的字段信息包括各任一种能够确定出两个信息之间的距离的方法(例如，基于相似度的计算方法等)进行实于M个专家编码网络中除了该第m个专家编码网络以外的其他任意一个专家编码网络对应gggggg得越小，如此使得在中所占比例越小，从而导致g2ggggggggggg[0189]步骤103：根据各个样本片段的语义标签解析信息和样本病历文本的实际语义标包括：先根据第f个样本片段的语义标签解析信息和该第f个样本片段的实际语义标签信的具有语义标签确定功能的语义解析模型预判一个样本病历文本的标签确定难度表征数字符串的实际语义标签的常见程度(也就是，该样本病历文本中至少一个字符串的实际语义标签在至少一个参考病历文本的实际语义标签信息中的出现频次，得到该第q个语义标[0211]基于上述步骤92的相关内容可知，在获取到样本病历文可以从预先构建的预设映射关系中查找该样本类型信息对应的先验权重集合，得到M个专现的任一种能够参考预测信息和实际信息确定预测损失的应的先验专家权重值和该M个专家编码网络对应的预测专家权重值之间的差距，确定为该本病历文本的权重预测损失值之间的和值，确定为该第g个样本病历文本的样本预测损失[0226]步骤114：根据M个专家编码网络对应的先验专家权重值和该M个专家编码网络对[0227]步骤115：根据样本病历文本的语义预测损失值和该样本病历文本的权重预测损使该模型预测损失值能够较好地表示出该待训练模型的语义[0253]第r个待处理片段的片段语义标签信息用于表示针对该第r个待处理片段预测的定的待处理病历文本的语义解析结果能够以更精简的方式表示出该待处理病历文本所携在这些字符串中除了位置最靠前的字符串以及位置最靠后的字符串以外的其他任意一个的另一种可能的实施方式，在该实施方式中，该病历解析方法除了包括上述S601-S603以[0273]基于上述S604的相关内容可知，在获取到待处理病历文[0277]参见图7，该图为本申请实施例提供的一种语义标签确定模型的构建装置的结构[0279]第一获取单元701，用于获取样本病历文本和所述样本病历文本的实际语义标签新所述待训练模型，并返回所述第一确定单元702继续执行所述根据所述样本病历文本和测专家权重值输入决策层，得到所述决策层输出的所述样本病历文本的预测语义标签信M个专家编码网络对应的先验专家权重值、和所述M个专家编码网络对应的预测专家权重个专家编码网络对应的先验专家权重值之间的对应专家编码网络对应的先验专家权重值和所述M个专家编码网络对应的预测专家权重值，确罚因子不同于所述M个专家编码网络中除了所述第m个专家编码网络以外的其他任意一个[0313]在一种可能的实施方式中，所述样本病历文本的实际语义标签信息是从K个候选第m个专家编码结果的第K个标签归属概率信息进行集合处理，得到所述第m个专家决策结[0319]在一种可能的实施方式中，所述文本编码层包括第一编码网语义标签信息包括所述至少一个样本片段的片段

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）

文档简介

温馨提示

最新文档

评论

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法 （清华大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN113903420B 一种语义标签确定模型的构建方法、病历解析方法（清华大学）