CN114332893B 表格结构识别方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司)_第1页
CN114332893B 表格结构识别方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司)_第2页
CN114332893B 表格结构识别方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司)_第3页
CN114332893B 表格结构识别方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司)_第4页
CN114332893B 表格结构识别方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利地址518000广东省深圳市南山区高新区(72)发明人李鑫刘皓刘银松姜德强公司44224GO6V30/413(2022.01)GO6V3GO6N3/0499(审查员杨霜雪储介质本申请涉及一种表格结构识别方法、装置、本区域,确定各文本区域的图像特征和坐标特确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构2获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;获取各所述文本区域元素融合特征对应的结点,确定各所述结点的预设个数的邻近结点,并将各所述结点与该结点对应的各所述邻近结点的文本区域元素融合特征进行融合,得到各所述结点对应的邻近融合特征;整合各所述结点的邻近融合特征,得到聚合特征,并对各所述结点的聚合特征进行降维处理,得到降维后的多头图特征;所述降维后的多头图特征为与所述文本区域元素融合特征对应的结点的局部特征;获取各所述文本区域元素融合特征对应的结点的全局特征,并基于所述局部特征和所述全局特征进行特征聚合,得到所述目标表格图像区域中各结点的邻接特征;将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果;基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格2.根据权利要求1所述的方法,其特征在于,所述确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区获取从所述目标表格图像区域内确定出各所述文本区域的位置坐标,并对所述文本区域的位置坐标进行升维,得到升维后的坐标特征;根据各所述文本区域的位置坐标,获取对应的文本区域的图像内容;基于所述文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的所述图像特征的维度与所述升维后的所述坐标特征的维度相同;对升维后的所述坐标特征、对齐后的所述图像特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征。3.根据权利要求2所述的方法,其特征在于,在所述获取从所述目标表格图像区域内确定出各所述文本区域的位置坐标,并对所述文本区域的位置坐标进行升维,得到升维后的计算所述目标表格图像区域内的各所述文本区域与预设标注文本区域的交并比;筛选出交并比大于预设交并比阈值的文本区域。4.根据权利要求1所述的方法,其特征在于,获取与所述文本区域元素融合特征对应的根据多头注意力机制,对与各所述结点对应的所述文本区域元素融合特征进行上下文特征聚合,得到与所述文本区域元素融合特征对应的所述结点的全局特征。5.根据权利要求1所述的方法,其特征在于,所述将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列将任意两个结点的邻接特征进行特征拼接,得到拼接后的邻接矩阵;3根据全连接神经网络对所述拼接后的邻接矩阵,进行二分类预测,得到相应的文本区域的行列关系预测结果;其中,所述二分类预测包括行关系预测和列关系预测。文本区域识别模块,用于获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;文本区域元素融合特征生成模块,用于确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;邻接特征生成模块,用于获取各所述文本区域元素融合特征对应的结点,确定各所述结点的预设个数的邻近结点,并将各所述结点与该结点对应的各所述邻近结点的文本区域元素融合特征进行融合,得到各所述结点对应的邻近融合特征;整合各所述结点的邻近融合特征,得到聚合特征,并对各所述结点的聚合特征进行降维处理,得到降维后的多头图特征;所述降维后的多头图特征为与所述文本区域元素融合特征对应的结点的局部特征;获取各所述文本区域元素融合特征对应的结点的全局特征,并基于所述局部特征和所述全局特征进行特征聚合,得到所述目标表格图像区域中各结点的邻接特征;行列关系预测结果生成模块,用于将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结表格结构确定模块,用于基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格结构。7.根据权利要求6所述的装置,其特征在于,所述文本区域元素融合特征生成模块还用获取从所述目标表格图像区域内确定出各所述文本区域的位置坐标,并对所述文本区域的位置坐标进行升维,得到升维后的坐标特征;根据各所述文本区域的位置坐标,获取对应的文本区域的图像内容;基于所述文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的所述图像特征的维度与所述升维后的所述坐标特征的维度相同;对升维后的所述坐标特征、对齐后的所述图像特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征。8.根据权利要求7所述的装置,其特征在于,所述文本区域元素融合特征生成模块还包交并比计算单元,用于计算所述目标表格图像区域内的各所述文本区域与预设标注文本区域的交并比;文本区域筛选模块,用于筛选出交并比大于预设交并比阈值的文本区域。9.根据权利要求6所述的装置,其特征在于,所述邻接特征生成模块还包括全局特征生根据多头注意力机制,对与各所述结点对应的所述文本区域元素融合特征进行上下文特征聚合,得到与所述文本区域元素融合特征对应的所述结点的全局特征。10.根据权利要求6所述的装置,其特征在于,所述行列关系预测结果生成模块还用于:将任意两个结点的邻接特征进行特征拼接,得到拼接后的邻接矩阵;根据全连接神经4网络对所述拼接后的邻接矩阵,进行二分类预测,得到相应的文本区域的行列关系预测结果;其中,所述二分类预测包括行关系预测和11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。12.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。5表格结构识别方法、装置、计算机设备和存储介质技术领域[0001]本申请涉及人工智能技术领域,特别是涉及一种表格结构识别方法、装置、计算机设备和存储介质。背景技术[0002]随着人工智能技术的发展,以及对于数据信息的提取、整理以及更新的效率和准确度要求日益提升,表格作为结构化数据的存储形式,具有规范性的特点,更便于用户对于表格内存储的数据进行查询、提取或更新录入。但目前通常采用将表格转换成PDF的格式后再进行发表,导致无法直接对表格内的数据进行提取或对表格进行更新,因此出现了针对[0003]传统上的表格识别方法,多采用先针对PDF文件进行文本检测,得到图像中的文本区域,可包括图像中涉及的不同文本区域,然后利用图神经网络预测出每两个文本区域之间的关系,根据每两个文本区域间的关系确定相应文本区域是需要合并还是不需要合并,最后对预测出的邻接矩阵做后处理,重现图像中的表格结构,进而识别表格中的内容的方[0004]但传统的表格识别方法,无法直接解决表格中存在空白字段的场景,并且预测的邻接矩阵仅能代表文本区域是否合并,仅考虑了领域结点的特征,无法覆盖整体的待识别表格,还需要额外的文本检测网络去定位图像中的文本位置,再进一步组织成行列信息。因此传统的表格识别方法无法对待识别表格进行整体、全局的识别,还需额外设置相应的文本检测网络,容易出现识别内容失误的问题,导致表格识别效率仍然较为低下。发明内容[0005]基于此,有必要针对上述技术问题,提供一种能够对PDF表格进行整体、全面的识别,以提高表格识别准确度和识别效率的表格结构识别方法、装置、计算机设备和存储介[0007]获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;[0008]确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;[0009]根据所述文本区域元素融合特征,确定所述目标表格图像区域中各结点的邻接特[0010]将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果;[0011]基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格结构。[0012]在一个实施例中,所述基于所述局部特征和所述全局特征进行特征聚合,生成所6述目标表格图像区域中各结点的邻接特征,包括:[0013]获取与门机制对应的各个门参数;[0014]基于预设激活函数、各所述门参数,对所述局部特征和所述全局特征进行特征聚合,得到与所述目标表格图像区域中各结点的邻接特征。[0016]文本区域识别模块,用于获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;[0017]文本区域元素融合特征生成模块,用于确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;[0018]邻接特征生成模块,用于根据所述文本区域元素融合特征,确定所述目标表格图像区域中各结点的邻接特征;[0019]行列关系预测结果生成模块,用于将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测[0020]表格结构确定模块,用于基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格结构。[0021]一种计算机设备,包括存储器和处理器,所述存储器存储有计器执行所述计算机程序时实现以下步骤:[0022]获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;[0023]确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;[0024]根据所述文本区域元素融合特征,确定所述目标表格图像区域中各结点的邻接特[0025]将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果;[0026]基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格结构。[0027]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:[0028]获取目标表格图像区域,识别所述目标表格图像区域中的文本区域;[0029]确定各所述文本区域的图像特征和坐标特征,并分别将所述图像特征、坐标特征进行融合,得到与各所述文本区域对应的文本区域元素融合特征;[0030]根据所述文本区域元素融合特征,确定所述目标表格图像区域中各结点的邻接特[0031]将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果;[0032]基于各所述文本区域的行列关系预测结果,确定与所述目标表格图像区域对应的表格结构。7[0033]上述表格结构识别方法、装置、计算机设备和存储介质中,通过获取目标表格图像区域,识别目标表格图像区域中的文本区,并确定各文本区域的图像特征和坐标特征,分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征,可通过对目标表格图像区域内的不同文本区域进行图像特征、坐标特征的融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别。进而根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征,并将任意两个结点的邻接特征进行特征拼接,通过对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果,进而基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。实现了根据对各文本区域的行列关系的预测结果,即可确定得到相应的表格结构,而无需利用额外的文本检测网络进一步进行识别,可减少不必要繁琐操作,进而提高了表格识别准确度和识别效率。附图说明[0034]图1为一个实施例中表格结构识别方法的应用环境图;[0035]图2为一个实施例中表格结构识别方法的流程示意图;[0036]图3为一个实施例中表格结构识别方法的目标表格图像区域示意图;[0037]图4为一个实施例中表格结构识别方法的文本区域检测结果示意图;[0038]图5为一个实施例表格结构识别方法的行关系预测结果示意图;[0039]图6为一个实施例中表格结构识别方法的列关系预测结果示意图;[0040]图7为一个实施例中得到与各文本区域对应的文本区域元素融合特征的流程示意[0041]图8为一个实施例获取各文本区域元素融合特征对应的结点的局部特征的流程示意图;[0042]图9为一个实施例中表格结构识别方法的整体流程示意图;[0043]图10为一个实施例中用于生成邻接特征的FLAG网络结构示意图;[0044]图11为一个实施例中表格结构识别装置的结构框图;[0045]图12为一个实施例中计算机设备的内部结构图。具体实施方式[0046]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。其中,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技8术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。[0048]其中,人工智能软件技术中的机器学习(MachineLearning,ML)是一门多领域交机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强[0049]而随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例在更多的领域得到应用,并发挥越来越重要的价值。[0050]本申请实施例提供的表格结构识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,服务器104通过获取目标表格图像区域,识别目标表格图像区域中的文本区域,并确定各文本区域的图像特征和坐标特征,分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征。进而服务器104根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征,通过将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果。进而基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构,将相应的表格端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。[0051]在一个实施例中,如图2所示,提供了一种表格结构识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:[0052]步骤S202,获取目标表格图像区域,识别目标表格图像区域中的文本区域。[0053]具体地,通过对待识别图像进行目标检测,获取与待识别图像对应的目标表格图像区域,进而对目标表格图像区域进行进一步识别,识别得出目标表格图像区域中的文本[0054]在一个实施例中,如图3所示,提供了一种表格结构识别方法的目标表格图像区域,通过对待识别图像进行目标检测,得到如图3所示的目标表格图像区域,并进一步对目标表格图像区域进行识别,可识别得到如图4所示的表格结构识别方法的文本区域检测结[0055]具体地,通过采用Mask-RCNN网络对目标表格区域进行目标检测,确定目标表格区域内的文本区域。其中,文本区域可由如图4所示的文本区域检测结果表示,即在目标表格区域内,具有如图4所示的和各文本框对应的文本区域,进而通过Mask-RCNN网络对目标表格区域进行目标检测,可确定不同文本框的位置。[0056]进一步地,Mask-RCNN网络表示兼容通用目标检测以及分割任务的网络,包含检测分支和分割分支。在本实施例中,由于仅需要对文本区域进行识别,则仅采用Mask-RCNN网9络的检测分支对目标表格区域进行检测。塔网络(FeaturePyramidNetwork),可利用多尺度的方式提升目标检测效果的神经网络,Res50网络表示层数为50的深度残差网络(DeepResidualNetwork),属于卷积神经网络的基础网络类型。其中,可通过Res50网络得到图片不同阶段的特征图,进而根据不同阶段的特征图建立特征金字塔,即得到具有FPN的Res50[0058]在一个实施例中,由于通过FPN(特征金字塔网络)的Res50网络(深度残差网络)进行目标检测后得到的RPN(区域生成网络)预测结果中,仍存在较多冗余的文本区域,进而采用NMS算法对所有的文本区域进行过滤,以滤除多余的文本区域,进而降低计算复杂度。其中对局部极大值的搜索,可对不满足极大值要求的数据取值起到过滤作用。[0059]步骤S204,确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0060]具体地,通过获取从目标表格图像区域内确定出的各文本区域的位置坐标,并对各文本区域的位置坐标进行升维,可得到升维后的坐标特征。进一步可根据各文本区域的位置坐标获取对应的文本区域的图像内容,进而基于文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征。其中,对齐后的图像特征的维度与升维后的坐标特征的维度相[0061]进一步地,通过对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0062]步骤S206,根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接[0063]具体地,通过获取与各文本区域元素融合特征对应的结点的局部特征和全局特征,进而基于局部特征和全局特征进行特征聚合,得到目标表格图像区域中各结点的邻接[0064]其中,通过采用K-邻近算法(k-NearestNeighboralgorithm),分别确定出各文本区域元素融合特征对应的结点的K个邻近结点,并将K个邻近结点和该结点的文本区域元素融合特征进行融合,以得到各结点的邻近融合特征,通过将各结点的邻近融合特征进行经网络)对各结点的聚合特征进行降维处理,得到降维后的多头图特征。其中,降维后的多头图特征即为与文本区域元素融合特征对应的结点的局部特征。[0065]同样地,根据多头注意力机制,对与各结点对应的文本区域元素融合特征进行上下文特征聚合,得到与文本区域元素融合特征对应的结点的全局特征。[0066]进一步地,通过获取预设激活函数以及与门机制对应的各个门参数,进而基于预设激活函数、各门参数,对局部特征和全局特征进行特征聚合,得到与目标表格图像区域中各结点的邻接特征。[0067]在一个实施例中,采用以下公式(1)对局部特征以及全局特征进行聚合,得到与目标表格图像区域中各结点的邻接特征:[0069]其中,Fag表示聚合后的邻接特征、Fg₁oba表示全局特征、F₁ca表示局部特征,Sigmoid为预设激活函数,gate表示第i个head上的门参数,head表示多头注意力机制[0070]步骤S208,将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵行列关系预测结果。结果可确定出表格中每一行对应的文本区域,在图5中采用不同深浅程度的灰度对不同行二行包括的文本区域为“NT”、“adj”、“verb”、“idiom”、“noun”、“other”,第三行包括的文本“785”、“904”、“746”、“165”、“797”,第五行包括的文本区域为“neu”、“918”、“7569”、“2016”、“12668”、“10214”,第六行包括的文本区域为“sum”、“2933”、“9207”、“3788”、“13099”、“11653”。"1230”、“785”、“918”、“2933”,第三列包括的文本区域为“tagg"、“verb”、“734”、“904”、“7569”、“9207”,第四列包括的文本区域为“ingin”、“idiom”、“1026”、“746”、“2016”、“3788”,第五列包括的文本区域为“form”、“noun”、“266”、“165”、“12668”、“13099”,第六列[0075]步骤S210,基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。邻接关系所占的比例。召回率准确率11表格结构识别[0080]上述表格结构识别方法中,通过获取目标表格图像区域,识别目标表格图像区域中的文本区,并确定各文本区域的图像特征和坐标特征,分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征,可通过对目标表格图像区域内的不同文本区域进行图像特征、坐标特征的融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别。进而根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征,并将任意两个结点的邻接特征进行特征拼接,通过对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果,进而基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。实现了根据对各文本区域的行列关系的预测结果,即可确定得到相应的表格结构,而无需利用额外的文本检测网络进一步进行识别,可减少不必要繁琐操作,进而提高了表格识别准确度和识别效率。[0081]在一个实施例中,如图7所示,得到与各文本区域对应的文本区域元素融合特征的步骤,即确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征的步骤,具体包括:[0082]步骤S702,获取从目标表格图像区域内确定出各文本区域的位置坐标,并对文本区域的位置坐标进行升维,得到升维后的坐标特征。[0083]具体地,通过从目标表格图像区域确定出各文本区域,并获取各文本区域的位置坐标,进而采用FCN网络(全连接网络)分别对各文本区域的位置坐标进行升维,得到升维后的坐标特征。[0084]其中,各文本区域的位置坐标为4维,可以是(x,y,w,h)的四维坐标,为用于后续和图像特征进行融合,进而采用FCN网络将四维的坐标特征升维至和图像特征的维度一致。[0085]在一个实施例中,在获取从目标表格图像区域内确定出各文本区域的位置坐标,并对文本区域的位置坐标进行升维,得到升维后的坐标特征之前,还包括:[0086]计算目标表格图像区域内的各文本区域与预设标注文本区域的交并比;筛选出交并比大于预设交并比阈值的文本区域。[0087]具体地,通过获取预设标注文本区域,并计算目标表格图像区域内各文本区域和预设标注文本区域的交并比,并获取预设交并比阈值,筛选出交并比大于预设交并比阈值的文本区域。[0088]其中,预设标注文本区域为预先已进行标注的文本区域,还携带有相应已标注文本区域的行列关系,即已经标注的文本区域具体和哪些文本区域属于同一行,或者属于同一列。在本实施例中,预设交并比阈值可以为0.7至0.9中的不同取值,优选地,预设交并比阈值可以取0.8。[0089]步骤S704,根据各文本区域的位置坐标,获取对应的文本区域的图像内容。[0090]具体地,根据文本区域的位置坐标,确定文本区域在目标表格图像区域内的具体位置,进而获取对应具体位置上的图像内容,确定为与该文本区域对应的图像内容。[0091]步骤S706,基于文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的图像特征的维度与升维后的坐标特征的维度相同。[0092]具体地,采用RoiAlign算法(即使用双线性插值固定不同大小感兴趣区域特征输出的算法),对文本区域的图像内容进行图像特征对齐。其中,文本区域的图像特征,可在采用Mask-RCNN网络对目标表格区域进行目标检测,确定目标表格区域内的文本区域时,进一步根据FPN网络(FeaturePyramidNetwork,即特征金字塔网络)对文本区域内的图像内容进行识别得到。[0093]其中,采用RoiAlign算法对文本区域的图像内容进行图像特征对齐时,得到的对齐后的图像特征为128维。而由于各文本区域的位置坐标为4维,可以是(x,y,w,h)的四维坐标,为用于后续和图像特征进行融合,进而采用FCN网络(全连接网络)将四维的坐标特征升维至和图像特征的维度一致,即通过FCN网络(全连接网络)将四维的坐标特征升维至128维,以和对齐后的图像特征的维度一致。[0094]步骤S708,对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0095]具体地,通过采用按点诸位相加的方式,将每个文本区域对应的升维后的坐标特征、对齐后的图像特征进行融合,以得到与各文本区域对应的文本区域元素融合特征。[0096]本实施例中,通过获取从目标表格图像区域内确定出各文本区域的位置坐标,并对文本区域的位置坐标进行升维,得到升维后的坐标特征。而根据各文本区域的位置坐标,获取对应的文本区域的图像内容,并基于文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的图像特征的维度与升维后的坐标特征的维度相同。通过对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征,能够达到对目标表格图像区域内的所有文本区域的整体识别,而不是针对单个文本区域的局部识别,进而提高对目标表格图像区域的表格识别准确度。[0097]在一个实施例中,如图8所示,获取各文本区域元素融合特征对应的结点的局部特[0098]步骤S802,获取各文本区域元素融合特征对应的结点,并确定各结点的预设个数的邻近结点。[0099]具体地,通过获取各文本区域元素融合特征对应的结点,并采用K-邻近算法(k-NearestNeighboralgorithm),分别确定出各文本区域元素融合特征对应的结点的K个邻近结点。其中,K-邻近算法用于确定出与当前结点最邻近的K个邻近结点。[0100]步骤S804,将各结点与该结点对应的各邻近结点的文本区域元素融合特征进行融合,得到各结点对应的邻近融合特征。[0101]具体地,通过将K个邻近结点的文本区域元素特征,和该结点的文本区域元素融合特征进行特征融合,以得到各结点的邻近融合特征。[0102]其中,由于每个结点的文本区域元素特征为128维,通过将K个邻近结点的文本区域元素特征,和该结点的文本区域元素融合特征进行特征融合后,得到的结点的邻近融合特征则提升至128K维。[0103]步骤S806,整合各结点的邻近融合特征,得到聚合特征。[0104]具体地,通过采用FCN网络(全连接网络)整合结点的邻近融合特征,得到相应的聚的邻近融合特征聚合至128维的聚合特征。[0105]步骤S808,对各结点的聚合特征进行降维处理,得到降维后的多头图特征,降维后的多头图特征为与文本区域元素融合特征对应的结点的局部特征。[0106]具体地,通过采用预设个平行的FCN网络,对结点的聚合特征进行降维处理,得到降维后的多头图特征。其中,降维后的多头图特征即为与文本区域元素融合特征对应的结点的局部特征。[0107]进一步地,在本实施例中,可以是采用8个平行的FCN网络,对结点的聚合特降维处理,将128维的聚合特征转换成8个16维的多头图特征。其中,采用平行的FCN网络进[0108]本实施例中,通过获取各文本区域元素融合特征对应的结点,并确定各结点的预设个数的邻近结点,进而将各结点与该结点对应的各邻近结点的文本区域元素融合特征进行融合,得到各结点对应的邻近融合特征。通过整合各结点的邻近融合特征,得到聚合特征,并对各结点的聚合特征进行降维处理,得到降维后的多头图特征,得到的降维后的多头图特征即为与文本区域元素融合特征对应的结点的局部特征。实现了对文本区域元素融合特征的进一步整合以及降维处理,得到降维后的多头图特征,便于和后续通过多头注意力机制对文本区域元素融合特征进行上下文特征聚合得到的全局特征,进行进一步融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别,提升表格识别准确度。[0109]在一个实施例中,如图9所示,提供了一种表格结构识别方法的整体流程,具体包括P1文本检测部分、P2特征聚合部分以及P3邻接关系预测部分,其中:[0111]1)采用Mask-RCNN网络对目标表格区域进行目标检测,得到相应的RPN网络(区域生成网络)识别结果,并根据RPN网络识别结果确定目标表格区域内的文本区域。其中,[0112]2)利用NMS算法(非极大值抑制算法)对识别得到的文本区域进行过滤,得到过滤后的文本区域。其中,文本区域的检测结果如图4所示,在目标表格区域内,具有如图4所示的和各文本框对应的文本区域。[0114]1)确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0115]在一个实施例中,确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征,包括:[0116]获取从目标表格图像区域内确定出各文本区域的位置坐标,并对文本区域的位置坐标进行升维,得到升维后的坐标特征;根据各文本区域的位置坐标,获取对应的文本区域的图像内容;基于文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的图像特征的维度与升维后的坐标特征的维度相同;对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0117]具体地,通过从目标表格图像区域确定出各文本区域,并获取各文本区域的位置坐标,进而采用FCN网络(全连接网络)分别对各文本区域的位置坐标进行升维,得到升维后的坐标特征。根据文本区域的位置坐标,确定文本区域在目标表格图像区域内的具体位置,进而获取对应具体位置上的图像内容,确定为与该文本区域对应的图像内容,并采用RoiAlign算法(即使用双线性插值固定不同大小感兴趣区域特征输出的算法),对文本区域的图像内容进行图像特征对齐。通过采用按点诸位相加的方式,将每个文本区域对应的升维后的坐标特征、对齐后的图像特征进行融合,以得到与各文本区域对应的文本区域元素融合特征。[0118]2)根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征。[0119]具体地,根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特[0120]获取各文本区域元素融合特征对应的结点的局部特征和全局特征;基于局部特征和全局特征进行特征聚合,得到目标表格图像区域中各结点的邻接特征。[0121]在一个实施例中,获取各文本区域元素融合特征对应的结点的局部特征,包括:[0122]获取各文本区域元素融合特征对应的结点,并确定各结点的预设个数的邻近结点;将各结点与该结点对应的各邻近结点的文本区域元素融合特征进行融合,得到各结点对应的邻近融合特征;整合各结点的邻近融合特征,得到聚合特征;对各结点的聚合特征进行降维处理,得到降维后的多头图特征,降维后的多头图特征为与文本区域元素融合特征对应的结点的局部特征。[0123]具体地,采用K-邻近算法(k-NearestNeighboralgorithm),分别确定出各文本区域元素融合特征对应的结点的K个邻近结点,将K个邻近结点的文本区域元素特征,和该结点的文本区域元素融合特征进行特征融合,以得到各结点的邻近融合特征,采用FCN网络(全连接网络)整合结点的邻近融合特征,得到相应的聚合特征。进一步采用预设个平行的[0124]在一个实施例中,获取各文本区域元素融合特征对[0125]根据多头注意力机制,对与各结点对应的文本区域元素融合特征进行上下文特征聚合,得到与文本区域元素融合特征对应的结点的全局特征。[0126]其中,通过采用transformer模型(基于自注意力机制的语言模型)的编码器对文本区域元素融合特征进行表征,其中transformer模型的隐层大小为128,文本区域元素融合特征的维度为128维。其中,设置的多头注意力机制(Multi-headattention)对应的head数可以为8,根据多头注意力机制,对与各结点对应的文本区域元素融合特征进行上下文特征聚合时,得到的与文本区域元素融合特征对应的结点的全局特征的维度为16维,而采用8个平行的FCN网络,对结点的128维聚合特征进行降维处理,得到降维后的多头图特征的维度同样为16维。[0127]在一个实施例中,基于局部特征和全局特征进行特征聚合,得到目标表格图像区[0128]获取与门机制对应的各个门参数;基于预设激活函数、各门参数,对局部特征和全局特征进行特征聚合,得到与目标表格图像区域中各结点的邻接特征。[0129]在一个实施例中,如图10所示,提供了一种用于生成邻接特征的FLAG网络结构示结构设置有用于确定出局部特征的GNN分支(GraphNeuralNetworks,即图神经网络),包括GNN₁……、GNN,用于确定出全局特征的self-attention(自注意力机制)分支,包括self-attentionhead₁、……、self-attentionhead,用于控制不同类型的特征融合的gate机制(门机制),gate机制对应的门参数包括gate1、……gate,以及用于提升模型的表征能力的FFN(Feed-ForwardNetwork,前馈神经网络)。其中,GNN分支数量、self-attention分支数量以及gate机制数量一致。[0130]具体地,self-attention(自注意力机制)分支中是采用transformer模型(基于自注意力机制的语言模型)的编码器对文本区域元素融合特征进行表征,参照图10可知,transformer模型使用的注意力函数包括:Q(请求(query))、K(主键(key))、V(数值[0131]进一步地,由于self-attention(自注意力机制)分支是多头注意力机制,则相应设置有多个head,包括head₁、head₂、……、head,transformer模型使用的注意力函数针对[0132]具体来说,通过获取预设激活函数,以及gate机制对应的门参数,包括,gate₁……、gate,并基于预设激活函数、各门参数,对各结点的局部特征和全局特征进行特征聚合,得到与目标表格图像区域中各结点的邻接特征。其中,采用FFN(Feed-ForwardNetwork,前馈神经网络)对进行特征聚合得到的邻接特征进一步识别和分析,提升模型的表征能力。[0133]在本实施例中,设置有四层FLAG网络结构,将每层FLAG网络结构输出的邻接特征进一步进行特征融合,最终确定得到标表格图像区域中各结点的邻接特征。[0135](1)将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果。[0136]在一个实施例中,将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果,包括:[0137]将任意两个结点的邻接特征进行特征拼接,得到拼接后的邻接矩阵;根据全连接神经网络对拼接后的邻接矩阵,进行二分类预测,得到相应的文本区域的行列关系预测结[0138]具体地,根据全连接网络对拼接后的邻接矩阵进行二分类预测,确定拼接的邻接矩阵对应的两个文本区域是否属于表格中的同一行,或者判断拼接的邻接矩阵对应的两个文本区域是否属于表格中的同一列,进而得到相应的文本区域的行列关系预测结果。[0139]进一步的,得到的各文本区域的行列关系预测结果,可参照图5所示的表格结构识别方法的行关系预测结果,以及图6所示的表格结构识别方法的列关系预测结果。[0140](2)基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格[0141]具体地,根据对每两个文本区域的行列关系的预测结果,可进一步确定出具体哪些文本区域属于同一行,哪些文本区域属于同一列,对不同文本区域的行列关系以及位置坐标进行进一步分析和排列,可确定与目标表格图像区域对应的表格结构。[0142]上述表格结构识别方法中,通过获取目标表格图像区域,识别目标表格图像区域中的文本区,并确定各文本区域的图像特征和坐标特征,分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征,可通过对目标表格图像区域内的不同文本区域进行图像特征、坐标特征的融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别。进而根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征,并将任意两个结点的邻接特征进行特征拼接,通过对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果,进而基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。实现了根据对各文本区域的行列关系的预测结果,即可确定得到相应的表格结构,而无需利用额外的文本检测网络进一步进行识别,可减少不必要繁琐操作,进而提高了表格识别准确度和识别效率。[0143]应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。[0144]在一个实施例中,如图11所示,提供了一种表格结构识别装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:文本区域识别模块1102、文本区域元素融合特征生成模块1104、邻接特征生成模块1106、行列关系预测结果生成模块1108以及表格结构确定模块1110,其中:[0145]文本区域识别模块1102,用于获取目标表格图像区域,识别目标表格图像区域中的文本区域。[0146]文本区域元素融合特征生成模块1104,用于确定各文本区域的图像特征和坐标特征,并分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特[0147]邻接特征生成模块1106,用于根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征。[0148]行列关系预测结果生成模块1108,用于将任意两个结点的邻接特征进行特征拼接,并对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果。[0149]表格结构确定模块1110,用于基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。[0150]上述表格结构识别装置中,通过获取目标表格图像区域,识别目标表格图像区域中的文本区,并确定各文本区域的图像特征和坐标特征,分别将图像特征、坐标特征进行融合,得到与各文本区域对应的文本区域元素融合特征,可通过对目标表格图像区域内的不同文本区域进行图像特征、坐标特征的融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别。进而根据文本区域元素融合特征,确定目标表格图像区域中各结点的邻接特征,并将任意两个结点的邻接特征进行特征拼接,通过对拼接得到的邻接矩阵进行分类预测,生成与该两个结点对应的文本区域的行列关系预测结果,进而基于各文本区域的行列关系预测结果,确定与目标表格图像区域对应的表格结构。实现了根据对各文本区域的行列关系的预测结果,即可确定得到相应的表格结构,而无需利用额外的文本检测网络进一步进行识别,可减少不必要繁琐操作,进而提高了表格识别准确度和识别效率。[0151]在一个实施例中,文本区域元素融合特征生成模块还用于:[0152]获取从目标表格图像区域内确定出各文本区域的位置坐标,并对文本区域的位置坐标进行升维,得到升维后的坐标特征;根据各文本区域的位置坐标,获取对应的文本区域的图像内容;基于文本区域的图像内容进行图像特征对齐,得到对齐后的图像特征,对齐后的图像特征的维度与升维后的坐标特征的维度相同;对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征。[0153]上述文本区域元素融合特征生成模块,实现了对升维后的坐标特征、对齐后的图像特征进行融合,得到与各文本区域对应的文本区域元素融合特征,能够达到对目标表格图像区域内的所有文本区域的整体识别,而不是针对单个文本区域的局部识别,进而提高对目标表格图像区域的表格识别准确度。[0154]在一个实施例中,文本区域元素融合特征生成模块还包括:[0155]交并比计算单元,用于计算目标表格图像区域内的各文本区域与预设标注文本区域的交并比;[0156]文本区域筛选模块,用于筛选出交并比大于预设交并比阈值的文本区域。[0158]获取各文本区域元素融合特征对应的结点的局部特征和全局特征;基于局部特征和全局特征进行特征聚合,得到目标表格图像区域中各结点的邻接特征。[0160]邻近结点获取模块,用于获取各文本区域元素融合特征对应的结点,并确定各结点的预设个数的邻近结点;[0161]邻近融合特征生成模块,用于将各结点与该结点对应的各邻近结点的文本区域元素融合特征进行融合,得到各结点对应的邻近融合特征;[0162]聚合特征生成模块,用于整合各结点的邻近融合特征,得到聚合特征;[0163]局部特征生成模块,用于对各结点的聚合特征进行降维处理,得到降维后的多头图特征,降维后的多头图特征为与文本区域元素融合特征对应的结点的局部特征。[0164]上述邻接特征生成模块,实现了对文本区域元素融合特征的进一步整合以及降维处理,得到降维后的多头图特征,便于和后续通过多头注意力机制对文本区域元素融合特征进行上下文特征聚合得到的全局特征,进行进一步融合,以达到对目标表格图像区域的整体识别,而不是针对单个文本区域的局部识别,提升表格识别准确度。[0165]在一个实施例中,邻接特征生成模块还包括全局特征生成模块,用于:[0166]根据多头注意力机制,对与各结点对应的文本区域元素融合特征进行上下文特征聚合,得到与文本区域元素融合特征对应的结点的全局特征。[0167]在一个实施例中,行列关系预测结果生成模块还用于:[0168]将任意两个结点的邻接特征进行特征拼接,得到拼接后的邻接矩阵;根据全连接神经网络对拼接后的邻接矩阵,进行二分类预测,得到相应的文本区域的行列关系预测结[0169]关于表格结构识别装置的具体限定可以参见上文中对于表格结构识别方法的限定,在此不再赘述。上述表格结构识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。[0170]在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论