CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-23 格式：DOCX 页数：54 大小：1.19MB 积分：10.8 举报 版权申诉

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）_第2页

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）_第3页

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）_第4页

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请实施例提供了一种文本图像的处理区域中各个文本区域的文本内容特征和空间位文本区域的排序结果获取各文本区域的文本识2根据所述初始特征图，确定所述待处理文本图像所包含的至少一对于每个所述文本区域，将所述文本区域的文本内容特征和空间位置特征拼基于包含各所述文本区域的区域特征的特征序列，预测所述结果表征了各所述文本区域的文本识别结果的输获取各所述文本区域的文本识别结果，基于所述排序结果将各理文本图像所包含的至少一个文本区域中各个文本区域的文本内容特征和空间位置特征，基于所述初始特征图中各特征点的位置，确定所述初始特征图基于所述初始特征图中各特征点的特征值、以及所述初始特征根据所述目标特征图，确定所述目标特征图中各特征点对果表征了所述目标特征图中各特征点属于文本根据所述目标特征图中各特征点对应的分类结果，确定所述目标对于每个所述文本区域，根据所述文本区域在所述目标特征图中基于所述初始特征图中各特征点的位置，确定所述初始特征图中各特征点之间的距所述基于所述初始特征图中各特征点的特征值、以及所述初始特征基于所述初始特征图中各特征点的特征值、以及所述初始特征图中3将所述文本区域在所述目标特征图中所对应的各特征点中同一通道的特征值进行融对所述特征序列中各所述文本区域的区域特征进行编码处理，得到所述对于每个时间步，基于所述编码结果和该时间步所对应的历史输其中，第一个时间步所对应的历史输出结果为预设特征，述预测结果是基于所述上一时间步所对应的各概率中最大概率对应的文本区域的区域特对所述特征序列中各所述文本区域的区域特征进行编码处理，得所述对于每个时间步，基于所述编码结果和该时间步所对应的历史对于每个时间步，基于所述编码结果和该时间步对应的历史输出结果7.根据权利要求1所述的方法，其特征在于，所述获取各所述文本区域的文本识别结对于每个所述文本区域，基于所述文本区域的文本内容特征，得到理文本图像所包含的至少一个文本区域中各个文本区域的文本内容特征和空间位置特征、以及所述对于每个所述文本区域，将所述文本区域的文本内容特征和空间位置特征拼接，得到所述文本区域的区域特征是通过图处理模获取训练样本集，所述训练样本集包括至少一个样本文本图对于每一所述样本文本图像，将所述样本文本图像的样本初始特征输入4分类结果表征了所述样本目标特征图中各特征点属于文本区域或背基于各所述样本文本图像的第一样本标签，确定各所述样本文基于所述真实结果和所述预测结果确定第一训练损失值，并基于其中，所述样本文本图像的各文本区域标注有第二样本标基于所述图处理模型确定各样本特征序列，每一所述样本特征对于每个所述样本文本图像，将所述样本文本图像对应的样本特基于所述真实排序结果和所述预测排序结果确定第二训练损失值初始特征图处理模块，用于根据所述初始特征图，确至少一个文本区域中各个文本区域的文本内容排序结果确定模块，用于基于包含各所述文本区域的区文本排序模块，用于获取各所述文本区域的文本识别结果，基于所述初始特征图中各特征点的位置，确定所述初始特征图基于所述初始特征图中各特征点的特征值、以及所述初始特征5根据所述目标特征图，确定所述目标特征图中各特征点对果表征了所述目标特征图中各特征点属于文本根据所述目标特征图中各特征点对应的分类结果，确定所述目标对于每个所述文本区域，根据所述文本区域在所述目标特征图中基于所述初始特征图中各特征点的位置，确定所述初始特征图中各特征点之间的距所述基于所述初始特征图中各特征点的特征值、以及所述初始特征基于所述初始特征图中各特征点的特征值、以及所述初始特征图中13.根据权利要求11所述的装置，其特征在于，所述目标特征图包括多个通道的特征将所述文本区域在所述目标特征图中所对应的各特征点中同一通道的特征值进行融对所述特征序列中各所述文本区域的区域特征进行编码处理，得到所述对于每个时间步，基于所述编码结果和该时间步所对应的历史输其中，第一个时间步所对应的历史输出结果为预设特征，述预测结果是基于所述上一时间步所对应的各概率中最大概率对应的文本区域的区域特对所述特征序列中各所述文本区域的区域特征进行编码处理，得6所述对于每个时间步，基于所述编码结果和该时间步所对应的历史对于每个时间步，基于所述编码结果和该时间步对应的历史输出结果对于每个所述文本区域，基于所述文本区域的文本内容特征，得到处理文本图像所包含的至少一个文本区域中各个文本区域的文本内容特征和空间位置特获取训练样本集，所述训练样本集包括至少一个样本文本图对于每一所述样本文本图像，将所述样本文本图像的样本初始特征输入分类结果表征了所述样本目标特征图中各特征点属于文本区域或背景区域的基于各所述样本文本图像的第一样本标签，确定各所述样本文基于所述真实结果和所述预测结果确定第一训练损失值，并基于其中，所述样本文本图像的各文本区域标注有第二样本标基于所述图处理模型确定各样本特征序列，每一所述样本特征对于每个所述样本文本图像，将所述样本文本图像对应的样本特基于所述真实排序结果和所述预测排序结果确定第二训练损失值7所述处理器被配置用于在调用所述计算机程序时，执行如权利要求18方法应运而生。现有的OCR版面分析方案包括基于CNN(或GCN(GraphConvolutional[0008]对于每个上述文本区域，将上述文本区域的文本内容特含的至少一个文本区域中各个文本区域的文本内容特征和9果将各上述文本区域的文本识别结果进行排序，得到上述待处理文本图像的文本识别结类结果表征了上述目标特征图中各特征点属于文本区域[0027]将上述文本区域在上述目标特征图中所对应的各特征点中同一通道的特征值进每个时间步，该时间步对应的历史输出结果包括该时间步的上一时间步所对应的预测结预测分类结果表征了上述样本目标特征图中各特征点属于文本区域或背景区域的预测结该计算机设备执行本申请实施例提供的文本图像[0069]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控排序时，具体涉及到了人工智能技术中的自然语言处理(NatureLanguageprocessing,[0072]下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述[0077]其中，基于神经网络构建的特征提取结构可以包括基于卷积神经网络CNN(ConvolutionalNeuralNetworks，CNN)、循环神经网络(RecurrentNeuralNetworks，RNN)以及长短期记忆神经网络(Longshort-termmemory，LSTM)等构建的特征提取结构，×1024，则将3通道的待处理文本图像输入基于卷积神经网络的特征提取模型的数据大小理文本图像的初始特征图之后，可基于初始特征图确定待处理文本图像中文本段落1和文离小于或者等于设定值的特征点所对应的节点之其他特征点之间的距离，并在距离小于或者等于设定值的特征点与该特征点之间建立连定该两个特征点对应于图结构中的两个节点之间问题，基于图4所示的网络结构可在包括图处理模型的层与层之间最大程度的信息传输的[0097]需要特别说明的是，图4所示的网络结构仅为本申请实施例中图处理模型的一示确定该特征点表征其属于文本区域。若目标特征图中的每一特征点的分类结果为第二值[0103]如通过图处理模型最终可将数据大小为(h,w,c)_(h＝32,w＝32,c＝8)的初始特域i的文本内容特征si和空间位置特征(x,y,w,h)进行拼接，n表示目标特征图文本图像中各文本区域的排序结果。其中，上述文本排序模型可以为基于指针网络(PointerNetwork，PN)构建的文本排序模型，也可以为基于其他神经网络架构，如区域特征对应的文本区域在各文本区域中的排序对应于特征(除区域特征2)对应的文本区域的排序确定为第二排序，将剩余的区域特征对应的文[0124]在本申请实施例中，在确定特征序列中各区域特征在每每个时间步，该时间步对应的历史输出结果包括该时间步的上一时间步对应的预测结果，且该预测结果是基于上一个时间步对应的各概率中最大概率对应的文本区域的区域特征在编码过程中得到各区域特征对应的隐状态特征和特征序G为对特征序列中各区域特征所对应的编码[0133]具体对于每个时间步，可基于各区域特征对应于该时间步的第一特征和第二特之间的任一时间步对应的历史输出结果的最大概率包括区域特征i对应的概率，则区域特[0136]进一步地，对于每一时间步，在确定各区域特征i对应于该时间步的相关系数之所包含的至少一个文本区域中各个文本区域的文本内容特征和空间位置特征、以及步骤[0144]对于每一样本文本图像，将样本文本图像的样本初始特了样本目标特征图中各特征点属于文本区域或背景区域的[0148]其中，上述第一训练损失值具体可基于交叉熵损失函数(1-ygr)ln(1-ypa)l[0157]其中，上述第二训练损失值具体可基于交叉熵损失函数排序模型和初始图处理模型的相关参数进行调整。当总训练损失值符合训练结束条件时，[0161]基于上述实现方式可确定出图处理模型和文本排序模型，进而基于特征提取模定各文本区域的排序结果从而确定待处理文本图像中各文本区域的文本识别结果的输出储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同存储大量的包含的至少一个文本区域中各个文本区域的文类结果表征了上述目标特征图中各特征点属于文本区域[0183]将上述文本区域在上述目标特征图中所对应的各特征点中同一通道的特征值进每个时间步，该时间步对应的历史输出结果包括该时间步的上一时间步所对应的预测结理文本图像所包含的至少一个文本区域中各个文本区域的文本内容特征和空间位置特征、以及上述对于每个上述文本区域，将上述文本区域的文本内容特征和空间位置特征拼接，预测分类结果表征了上述样本目标特征图中各特征点属于文本区域或背景区域的预测结[0208]本申请实施例提供的文本图像的处理装置可以是运行于计算机设备中的一个计译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecificIntegratedCircuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器[0211]在图8所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口[0212]应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(digitalsignalprocessor，DSP)、专用集成电路(applicationspecificintegrated[0215]上述计算机可读存储介质可以是前述任一实施例提供的装置和/或电子设备的内外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmediac

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113822143B 文本图像的处理方法、装置、设备以及存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113822143B 文本图像的处理方法、装置、设备以及存储介质（腾讯科技（深圳）有限公司）