CN114120345B 信息提取方法、装置、设备及存储介质 (中国移动通信有限公司研究院)_第1页
CN114120345B 信息提取方法、装置、设备及存储介质 (中国移动通信有限公司研究院)_第2页
CN114120345B 信息提取方法、装置、设备及存储介质 (中国移动通信有限公司研究院)_第3页
CN114120345B 信息提取方法、装置、设备及存储介质 (中国移动通信有限公司研究院)_第4页
CN114120345B 信息提取方法、装置、设备及存储介质 (中国移动通信有限公司研究院)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2017351913A1,2017US2019294641A1,2019.表格区域进行分割和定位,得到至少两个单元用所述表格结构和所述识别文本,形成表格信2针对所述至少两个单元格中每个单元格,结合预设第二网络模型利用预设第三网络模型,对所述至少两个单元格确定所述至少两个单元格对应的表格结构,并利用针对所述至少两个单元格中每个单元格,结合预设第二网络从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文其中,所述从所述至少两个第一文本框中选取满足第二对相应单元格内的至少两个第一文本框中进行水平排序,得到排序后第j个文本框的重合高度满足第二预设条件确定第一i个文本框到第j个文本框之间的第一水平距离;并确搜索与第i个文本框的水平距离大于或等于距离阈值的至少一个将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设条件将所述表格图像作为预设第一网络模型的输入,对所述表格图像进3从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格针对所述至少两个单元格中每个单元格,判断相应单元格的高度当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于长度将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少两个从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列的至确定与所述至少两个第一单元格具有从属关系的多个单元格将所述树结构作为所述至少两个单元格的表第一处理单元,用于利用预设第一网络模型,对所述表格图第三处理单元,用于利用预设第三网络模型,对所述至少两个单元第四处理单元,用于确定所述至少两个单元格对应的表格结构,针对所述至少两个单元格中每个单元格,结合预设第二网络从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文4对相应单元格内的至少两个第一文本框中进行水平排序,得到排序后第j个文本框的重合高度满足第二预设条件确定第一i个文本框到第j个文本框之间的第一水平距离;并确所述搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框,第i个文本框的水平距离大于或等于距离阈值的至少一个第二文本框;计算所述至少一个中最大重合高度对应的第二文本框作为满足第二预设条件针对所述至少两个单元格中每个单元格,结合预设第二网络从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文对相应单元格内的至少两个第一文本框中进行水平排序,得到排序后第j个文本框的重合高度满足第二预设条件确定第一i个文本框到第j个文本框之间的第一水平距离;并确所述搜索与第i个文本框的重合高度满足第二预设条件的第j个文本框,第i个文本框的水平距离大于或等于距离阈值的至少一个第二文本框;计算所述至少一个57.一种电子设备,其特征在于,包括处理其中,所述处理器用于运行所述计算机程序时,执行权利要6[0010]确定所述至少两个单元格对应的表格结构,并利用所述表格结构和所述识别文[0017]当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于7[0018]将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少索与第j个文本框的重合高度满足第二预设条件的第[0026]确定第一i个文本框到第j个文本框之间的第一水平距离;并确定第j个文本框与[0027]当所述第一水平距离大于或等于所述第二水平距离时,对所述第i个文本框和所[0030]计算所述至少一个第二文本框与第i个文本框的重合高度,得到至少一个重合高[0031]将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设[0033]从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列8[0053]当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于[0054]将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少索与第j个文本框的重合高度满足第二预设条件的第[0062]确定第一i个文本框到第j个文本框之间的第一水平距离;并确定第j个文本框与9[0063]当所述第一水平距离大于或等于所述第二水平距离时,对所述第i个文本框和所[0066]计算所述至少一个第二文本框与第i个文本框的重合高度,得到至少一个重合高[0067]将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设[0069]从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列[0089]图6是本发明实施例对表格图像中单元格中的文本进行拼接得到文本行的实现流[0092]图9是本发明实施例确定表格图像中至少两个单元格对应的表格结构的实现流程[0096]相关技术中,可以使用语义分割网络UNet和生成对抗网络GAN的判别器网络D-据等不够适用,这是因为表格中文本的结构信息不仅存在在整体版面相邻位置的段落中,单的采用距离关系来分析版面。相关技术中,可以采用FasterRCNN模型、CTPN模型、过对包含表格的文档进行拍摄得到所述表格图像。具体可以是各类票据对应的表格图像,表格区域进行分割和定位可以是指确定所述表格图像中表格区域中属于至少两种类型线[0107]这里,在步骤103中,所述第二网络模型具体可以是连接文本提议网络(CTPN,的距离较近而导致被误认为不在一个文本行进[0108]这里,在步骤104中,所述第三网络模型具体可以为卷积循环神经网络(CRNN,[0117]这里,采用训练好的U-Net对输入的表格图像进行表格各区域的分割和定位,例基准是指所述表格图像中文字的排列顺序为自左向右横向排[0128]当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于[0129]将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少格的高度和宽度小于文本检测识别时使用的最小文本框anchok-means算法,统计每个表格图像中所有文本的大小,并根据文本的大小确定文本框的大跨单元格的判断以检测出的文本行的矩形框的中心点坐标是否超出单元格边界坐标作为[0155]第四个约束条件,即对于文本行高度覆盖了整个单元格的高度的单元格进行删除。即文本行的最低y坐标小于单元格的最低y坐标且文本行的最高y坐标大于单元格的最索与第j个文本框的重合高度满足第二预设条件的第[0161]确定第一i个文本框到第j个文本框之间的第一水平距离;并确定第j个文本框与[0162]当所述第一水平距离大于或等于所述第二水平距离时,对所述第i个文本框和所[0167]计算所述至少一个第二文本框与第i个文本框的重合高度,得到至少一个重合高[0168]将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设i在同一个单元格内水平距离尽可能大的一系列候选anchor;从候选Anchor中,挑出与示文本框anchor_j到文本框anchor_k的距离;比较score_ij和score_jk,如果score_ij>[0181](1)对单元格内的文本进行文本行拼接时,以水平正方向和水平反方向进行搜索[0184]实际应用时,考虑到可以按照属性名称和属性值的方式方一行作为基准列与基准行,并按照从左到右和从上到下建立具有从属关系的多叉树结[0200]步骤901:从至少两个单元格中确定位于基准行的至少两个第一单元格和位于基的文本行进行识别得到识别文本不在字典内,则在表格结构中不存储该识别文本;当单元格包含多个文本行时,若对单元格的多个文本行进行识别得到识别文本不在字典内,则在表格结构中不存储该识别文本,即,同一单元格内分布的一个或多个文本行属于字典中的词组短语时才进行存储。[0208](1)以第一方向和第二方向构建的两棵树的结构,可以将整张表格的文本信息保[0209](2)利用表格结构存储单元格对应的文本信息时,若单元格对应的文本行信息在[0211]为实现本发明实施例的信息提取方法,本发明实施例还[0223]当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于[0224]将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少索与第j个文本框的重合高度满足第二预设条件的第[0232]确定第一i个文本框到第j个文本框之间的第一水平距离;并确定第j个文本框与[0233]当所述第一水平距离大于或等于所述第二水平距离时,对所述第i个文本框和所[0236]计算所述至少一个第二文本框与第i个文本框的重合高度,得到至少一个重合高[0237]将所述至少一个重合高度中最大重合高度对应的第二文本框作为满足第二预设[0239]从所述至少两个单元格中确定位于基准行的至少两个第一单元格和位于基准列[0252]需要说明的是:所述处理器112和通信接口111的具体处[0255]上述本申请实施例揭示的方法可以应用于所述处理器112中,或者由所述处理器上述方法的各步骤可以通过所述处理器112中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器112可以是通用处理器、数字数据处理器(DSP,DigitalSignal理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,[0256]在示例性实施例中,电子设备110可以被一个或多个应用专用集成电路(ASIC,[0257]可以理解,本申请实施例的存储器(存储器103)可以是易失性存储器或者非易失器(ROM,ReadOnlyMemory)、可编程只读存储器(PROM,ProgrammableRead-Only电可擦除可编程只读存储器(EEPROM,ElectricallyErasableProgrammableRead-Only存取存储器(DRAM,DynamicRandomAccessMemory)、同步动态随机存取存储器(SDRAM,SynchronousDynamicRandomAccessMemory)、双倍数据速率同步动态随机存取存储器步动态随机存取存储器(ESDRAM,EnhancedSynchronousDynamicRandomAccessMemory)、同步连接动态随机存取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论