CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-18 格式：DOCX 页数：58 大小：1.70MB 积分：9.6 举报 版权申诉

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第2页

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第3页

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第4页

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

识别模型提取待识别图像中待识别文本区域中文本识别模型是借助注意力编解码模型进行训2采用已训练的目标文本识别模型，获得所述待识别其中，所述已训练的目标文本识别模型，是对待训练的文本分别从样本图像集中各个样本图像中，提取出相应的样基于所述样本文本区域集合，对所述待训练的文本识别模型进行多轮迭将从所述样本文本区域集合中选取的各个样本文本区域输入所述卷将获得的各个样本视觉特征分别输入所述解码网络和所述注意力编解得所述各个样本文本区域各自对应的第一预测文本标签分布和第二预测文本基于获得的各个第一预测文本标签分布，确定所述待训基于所述第一训练损失和所述第二训练损失，确定联合训练损失基于所述解码网络，分别对所述各个样本视觉特征各自包含的各列对所述各列元素中的一列元素进行线性操作，获得所述一列元素基于所述各个样本视觉特征各自包含的各列元素对应的预测标对所述各个样本视觉特征中一个样本视觉特征进行双向编码，获得一运用注意力机制，对所述样本文本语义特征进行解码操作，获得所3从所述样本文本区域集合中选取的各个样本文本对所述各个样本文本区域中一个样本文本区域进行等比例缩放，获沿第二方向对所述缩放后的一个样本文本区域进行填充，直5.如权利要求1所述的方法，其特征在于，所述基于获得的各个第一预测文本标签分基于所述各个预测文本标签各自对应的前向概率和后向概率，获确定在各个候选路径中，预设时刻经过所述第一预测文本确定在所述各个候选路径中，所述预设时刻经过所述一个预测7.如权利要求1～6任一项所述的方法，其特8.如权利要求1～5任一项所述的方法，其特征在于对预训练的语言模型的权重，以及所述目标文本标签分布进行融合4基于有限加权状态转换机，对预训练的语言模型的权重，以及所述文本识别模块，用于采用已训练的目标文本识别模型，获模型训练模块，其中，所述模型训练模块用于采用以下方式训练获得目分别从样本图像集中各个样本图像中，提取出相应的样基于所述样本文本区域集合，对所述待训练的文本识别模型进行多轮迭将从所述样本文本区域集合中选取的各个样本文本区域输入所述卷将获得的各个样本视觉特征分别输入所述解码网络和所述注意力编解得所述各个样本文本区域各自对应的第一预测文本标签分布和第二预测文本基于获得的各个第一预测文本标签分布，确定所述待训基于所述第一训练损失和所述第二训练损失，确定联合训练损失基于所述解码网络，分别对所述各个样本视觉特征各自包含的各列对所述各列元素中的一列元素进行线性操作，获得所述一列元素基于所述各个样本视觉特征各自包含的各列元素对应的预测标其中，所述存储器存储有可被所述至少一个处理器执行的5通过执行所述存储器存储的指令实现如权利要求1～9任一6[0008]采用已训练的目标文本识别模型，获得所述待识别文本区域对应的目标视觉特[0017]基于所述样本文本区域集合，对所述待训练的文本识别7别获得所述各个样本文本区域各自对应的第一预测文本标签分布和第二预测文本标签分[0032]所述将从所述样本文本区域集合中选取的各个样本文本8[0040]基于获得的各个初始训练损失，确定所述待训练的文本识别模型的第一训练损理器通过执行所述存储器存储的指令实现如前文论述的任一的文本[0058]本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指9[0070]图8B为本申请实施例提供的生成一个第一预测文本标签分布可能的多个路径的中各个位置对应的预测字符，真实文本标签分布是指文本区域中各个位置对应的真实字等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的[0095]该小工具111例如，设置在终端110中的代码片段，小工具111可以直接依赖终端[0099]需要说明的是，本申请实施例中的文本识别方法可以应[0100]上述中的终端110为用户使用的电子设备，该电子设备可以是智能手机、平板电具有一定计算能力并且运行有软件及网站的计算机设备。服务器120可以是独立的物理服分别在各个地区部署服务器。或为了负载均衡服务器120均可以分别由不同的服务器分别……[0113]S23，采用已训练的目标文本识别模型，获得待识别文本区域对应的目标视觉特[0114]终端可以将待识别文本区域输入至已训练的目标文本识别模型中的卷积网络该目标文本识别模型是对待训练的文本识别模型和注意力编解码模型进行联合训练获得卷积网络410可以采用ResNet-34网络，ResNet-34网络结构中的残差结构可以提取到更深一卷积池化层Conv2_x、第二卷积池化层Conv3_x、第三卷积池化层Conv4_x、第二卷积层[0128]由于ResNet-34网络对输入图像存在尺寸要求，因此在将待识别文本区域输入该身具有两个相邻的重复字符时，直接删除目标文本标签分布中相邻两个重复字符中的一[0147]词典包含多个词的拼写。将预训练的语言模型转换为WFST表示的方式例如，将[0150]本申请实施例中的目标文本识别模型是经过提前训练得到的，下面结合图7所示获得各个样本文本区域各自对应的第一预测文本标签分布和第二预测各个样本文本区域各自对应的样本视觉特征；通过待训练的文本识别模型中的解码网络，[0161]终端根据各个第一预测文本标签分布，确定文本识别模[0167]作为一种实施例，上述S722中获得第一预测文本标签分布的具体实现方式示例卷积网络包括如图8A中C1-C5所示的各个单元，待识别文本区域中的各个子区域通过卷积入特定的映射规则，对一个第一预测文本标签分布中各个预测文本标签进行反映射计算，本标签之间的位置对应关系，因此在计算该第一预测文本标签分布对应的初始训练损失[0184]通过文本识别模型中的解码网络对样本视觉特征由f＝f1,f2…fT中各列分别进＝应预测标签τt的概率，τ表示是指所有经过序列映射函数B变成第一预测文本标签分布w的[0191]在计算一个预测文本标签对应的前向概率时，可以计算第一预测文本标签对应的初始训练损失进行加权，从而获得文本识别模型的第一训练损[0203]其中，loss表示联合训练损失，α表示第一权重，lossctc表示第一训练损失，例如，联合训练损失达到预设值，或训练次数达到预设次数等。例如，终端可以使用[0210]下面结合图9所示的一种训练文本识别模型的方法流程图，对本申请实施例中的个样本文本区域各自对应的第一预测文本标签分布和第二预测文本样本文本区域各自的样本视觉特征之前，从样本文本区域集合中选取的各个样本文本区介质。本申请实施例在图13中以存储器1302和处理器1301之间通过总线1303连接，总线[0282]存储器1302可以是易失性存储器(volatilememory)，例如随机存取存储器(random-accessmemory，RAM)；存储器1302也可以是非易失性存储器(non-volatile例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113705313B 文本识别方法、装置、设备及介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113705313B 文本识别方法、装置、设备及介质（腾讯科技（深圳）有限公司）