CN116912847B 一种医学文本识别方法、装置、计算机设备及存储介质 (平安科技(深圳)有限公司)_第1页
CN116912847B 一种医学文本识别方法、装置、计算机设备及存储介质 (平安科技(深圳)有限公司)_第2页
CN116912847B 一种医学文本识别方法、装置、计算机设备及存储介质 (平安科技(深圳)有限公司)_第3页
CN116912847B 一种医学文本识别方法、装置、计算机设备及存储介质 (平安科技(深圳)有限公司)_第4页
CN116912847B 一种医学文本识别方法、装置、计算机设备及存储介质 (平安科技(深圳)有限公司)_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

道福安社区益田路5033号平安金融中待识别文件的文件头确定文件类型;将PDF格式2获取待识别文件,解析所述待识别文件的文件头,根据所述文对所述图片文件进行旋转和放缩,得到预处理图片文件,对所述预将所述图片文件输入训练好的分类模型中进行分类,得到预分将所述文本识别结果和所述图片文件输入训练好的多模态实体抽识别所述文本实体中的模板标识,根据所述文本类型和所述根据所述标准模板中的模板字段进行文本实体匹配,将匹配到的所通过文本检测算法对所述缩放特征图进行文本定位,得到包含文本位所述基于所述文本识别结果对所述预分类结果进行校验,确定所根据所述预分类结果调用对应的期望词典,将所述文本识别结若所述文本识别结果存在与所述期望关键词匹配的文本,则根据所述若所述文本识别结果不存在与所述除外关键词匹配的文本,若所述文本识别结果不存在与所述期望关键词匹配的文本,或所述文通过所述图像特征提取层对所述图片文件进行特征提取,得到将所述图片文件对应的图像特征信息输入所述图像嵌入层进行嵌入3获取所述图片文件中文本位置信息对应的位置向量,将所述文根据预设的正则表达式对所述文本实体的文本字段进行提取,将提取到的所述文本字段与所述文本实体进行匹配,将匹配到按照预设医学规则对所述修正模板字段对应的文本内容进行若所述目标文本符合预设医学规则,则将所述目标文本录入5.根据权利要求1至4中任一项所述的医实体抽取模块,用于将所述文本识别结果和所述图片文件4模板匹配模块,用于识别所述文本实体中的模板标识,根据所述文录入模块,用于根据所述标准模板中的模板字段特征提取子模块用于通过残差网络对所述图片文件进矫正子模块用于将所述特征图通过预先训练完成的方向分类器中进行文本检测子模块用于通过文本检测算法对所述缩放特征图期望匹配子模块用于根据所述预分类结果调用对应的除外匹配子模块用于若所述文本识别结果存在与所述期望关键词调整子模块用于若所述文本识别结果不存在与所述确认子模块用于若所述文本识别结果不存在与所述期望关键处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的医学文本识别方8.一种计算机可读存储介质,其特征在于,所5密的PDF也有不同。中国专利申请CN202110986680.9采用了CTPN(ConnectionistText新字段可扩展性不高,规则需要严格的医学定义,需要经常维护。中国专利申请CN202111187198.5使用CRNN识别模型,对于实体抽取则采用基于transformer的序列标注中国专利申请CN202110216933.4用改进的FASTSCNN模型,检测不同方向的文本,使用6[0015]将所述特征图通过预先训练完成的方向分类器中进行方向矫正,输出矫正特征7所述文本实体录入所述模板字段对应的位置[0033]抽取所述模板字段,按照预设通用规则对抽取到的所述模板字段进行合法性校[0047]转化模块,用于当所述文件类型为PDF格式时,将所述待识别文件转换为图片文8处理器执行所述计算机可读指令时实现如上所述的医学文本识别方9括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPicture[0073]需要说明的是,本申请实施例所提供的医学文本识别方法一般由服务器/终端设[0103]psenet算法采用psenet网络实现,psenet网络的架构为resnet+FPN(FeatureFN模块则是通过计算预测的注意力中心和注意力区域可能的分布来调整注意力到目标区的易分错类型为病理检查报告,先检查该材料是否包部分文本信息,但保留其2D位置信息和图像信息,来获取token在文本中的位置信息和方[0130]本申请通过文件头确定待识别文件的文件类型,可以排除后层以及图像对齐层。LayoutLM模型用于捕捉图片文件的视觉特征与文本相对位置等信息,文本位置信息的位置向量以及体现图像特征信息的图像嵌入向量作为图像对齐层的输入,[0152]在一些实施例中,模板中的某个模板字段没有从文本实体中提取到相应文本内[0158]当抽取内容不为空时,执行将图片文件输入训练好的分类模型中进行分类的步步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或[0170]分类模块504用于将所述图片文件输入训练好的分类模型中进行分类,得到预分[0171]实体抽取模块505用于将所述文本识别结果和所述图片文件输入训练好的多模态[0172]模板匹配模块506用于识别所述文本实体中的模板标识,根据所述文本类型和所[0173]录入模块507用于根据所述标准模板中的模板字段进行文本实体匹配,将匹配到[0178]矫正子模块用于将所述特征图通过预先训练完成的方向[0192]图像嵌入子模块用于将所述图片文件对应的图像特征信息输入所述图像嵌入层[0199]抽取所述模板字段,按照预设通用规则对抽取到的所述模板字段进行合法性校和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、可编程门阵列(Field-ProgrammableGate[0211]所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,[0212]所述处理器62在一些实施例中可以是中央处理器(CentralProcessingUnit,所述计算机设备6与其他电子设备之间建立[0214]本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例多模态实体抽取模型对材料的识别能力;通过标准模板将得到的文本实体进行标准化处出贡献的部分可以以软件产品的形式体现出来,该计算机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论